分享好友 最新动态首页 最新动态分类 切换频道
橙皮书|座舱交互:ChatGPT 改变不了的智能座舱,多模可以
2024-12-26 08:36

人与车的关系,离不开「交互」两个字。无论是传统汽车时代的机械按键,还是智能汽车时代的触控屏幕、语音交互,寻找到更安全、高效、舒适的交互方式,一直是行业的共同追求;什么样的交互方式是更合适的,也是行业永恒探讨的命题。

橙皮书|座舱交互:ChatGPT 改变不了的智能座舱,多模可以

在之前的橙皮书中,我们探讨了语音交互在过去一年里的成长和未来的趋势。语音交互趋于务实的背后,是座舱系统逐渐去适应人、迎合人自然交互习惯的过程。不只是语音交互,以语音交互为基础的多模态交互能力,监测座舱内实时信息并给出应对的 DMS/OMS 功能,未来座舱与驾驶之间的融合联动,以及它们背后赋能的 AI 技术等等,这些能力各自提升的同时,也共同构成了座舱系统整体从被动交互向主动交互的转型。

在转向主动交互过程中,用户可以以更自然的方式与系统沟通,甚至更模糊的指令和意图能够被系统理解,系统也尝试根据用户和座舱内的状态提供更细致化的服务。

为了更好地印证我们的观察,这次我们与地平线智能交互团队聊了聊,来共同探讨一下座舱交互如何提供更细颗粒度的主动服务?

DMS/OMS:

「麻烦制造机」的进化之路

如果说座舱内总有一些智能化配置被视作「炫技」的话,那 DMS/OMS 功能绝对是实用性功能的代表。

利用座舱内的摄像头,通过利用座舱内的摄像头追踪驾驶员瞥向指定屏幕的视线,随即自动亮屏或唤醒车载助手;通过 Face ID 实现账号登陆,驾驶员进入座舱后自动调节座椅位置角度;通过对驾驶员面部微表情和眼动的监测,在驾驶员分心或出现疲劳时,适时发出预警与提醒;利用摄像头识别抽烟、睡觉等情况,实现智能调解车窗状态,空气内外循环、降低音量等场景化服务。

高效、安全、舒适,人们对于座舱内的三大基本需求,DMS/OMS 功能可以说都涵盖了。

前不久,高工智能汽车监测数据显示,2022 年前 11 个月乘用车 DMS 标配搭载 99.95 万辆,同比增长 111.8%;在 DMS 感知方案供应商方面,地平线(芯片+感知)、商汤、虹软排名市场份额前三位。有机构预测,到 2026 年 DMS 的渗透率将达到 35%,DMS/OMS 上车的趋势不可挡。

(图片来源:高工智能汽车)

尽管如此,在一年前的《2021 年智能座舱橙皮书》中,我们对于当时的 DMS/OMS 功能给出了一个并不算积极的评价:「麻烦制造机」

这是因为在此前的座舱评测中,由于 DMS/OMS 在疲劳监测、分心预警、烟雾预警等场景下的误触发、误提醒,的确带来麻烦,让彼时的我们实在无法给出更高的评价。去年年中,小眼睛被系统判定为「开车睡觉」的乌龙事件,也让更多人意识到 DMS/OMS 功能面临的问题:人物生理特征的差异、动作习惯的差异,甚至需求的差异,决定了 DMS/OMS 在实际应用层面需要解决的问题很多。

如何提供更精准、恰当的服务,避免误触发、误提醒造成困扰,是 DMS/OMS 这个「麻烦制造机」在自我救赎的道路上提升的关键。

一方面,需要梳理出常见功能场景,通过对场景的判断来过滤可能出现的误报。

另一方面,需要对技术标准设置合理、科学的指标。一个人是否处于疲劳状态?处于怎样的疲劳状态?这并不是简单的「Yes or No」的问题,因此,单一、机械化地设定触发阈值,难免出现误触发、误提醒的情况。如何将触发精细化、精准化,是提升 DMS/OMS 性能的关键。

过去一年里,不少新车型搭载了 DMS/OMS 功能。以奇瑞瑞虎 8 PRO 为例,搭载了 AI 情感超级交互系统,根据人脸识别、视线追踪第一时间察觉驾驶员的肢体语言,判断疲劳等级和分神状态,并

智能推送聊天、音乐音量、空调温度等场景模式,帮助驾驶员缓解疲劳。

为了探究如何精准把控触发阈值,我们专门采访到了为奇瑞瑞虎 8 PRO 相关产品和研发人员,以及这套 DMS 系统供应商地平线的研发人员,为了让触发标准更精确、更合理,避免误触发,奇瑞瑞虎 8 PRO 以及地平线的 DMS 团队将驾驶员的状态监测进行了精细的划分:

以分心场景为例,为了将触发阈值更精确,分心提醒的视线落点被细化成了十四个区域;这十四个区域又根据对驾驶行为的影响被划分成了危险区、警告区等不同等级;视线停留在不同等级的区域内不同的时间,驾驶分心带来的危险性自然不同。

同时,驾驶人的分心、疲劳情况又进一步被划分为轻度、中度、重度……

不同等级下生理对于外界刺激的反应、不同时间间隔预警的效果等等,这些差异都能让 DMS/OMS 提供更精准、细致化的服务。

未来,随着座舱内传感器数量和性能的提升,以及座舱集成度的提升,座舱 DMS/OMS 功能需要的不止是摄像头、毫米波雷达等单一传感器提供的指标,更是多维度的感知信息,通过多维度信息融合来提供更可靠的决策输入;而 DMS/OMS 本身也成为座舱内多模态交互的一部分。

对于下一阶段的 DMS/OMS 供应商来说,需要提供的也不止是单一的软件算法能力,更是软硬件整合能力,以及背后芯片、AI 感知能力。

当然,DMS/OMS 本身存在的意义,是为用户带来安全、高效、便捷的服务,在能力提升的同时,区分出哪些是用户真正需要的服务,哪些是不必要的打扰;以及避免座舱内摄像头给用户造成的隐私恐惧,依然是这项功能进化之路上需要解决的问题。

多模态交互:

多维度信息的融合,让交互更类人

看着窗户时说「大一点」,车窗能自动打开;眼睛盯着空调时说同样的话,指令就变成了空调开大一点;视线锁定窗外环境,然后说「我想知道这栋楼的用途」,智能助手会自动帮你查询并告知你结果…..

这是以往我们在概念车中看到的场景,利用座舱内语音、视觉、手势识别等多种交互方式融合而成的多模态交互技术,满足了大家对于未来科技感的想象。

在过去几年的智能座舱中,我们已经能看到除了物理按键、旋钮、触控等传统交互形式外,语音交互、手势交互、面部识别等多种交互方式并存的情况,并且已经成为行业主流。

不过相比于以往多种交互方式「单打独斗」、各自为战的情况,多模态交互的本质,在于将不同交互形式间联动起来,通过不同交互形式下多维度信息对于感知能力的互补,让系统能够以更接近自然人的状态去理解、执行人的意图,甚至能够猜测出人未说出口的意图。

在过去一年中,我们已经能看到这种多模态交互尝试的初级形态。

比如在理想 L9 中,采用了 3D Tof + 语音交互融合的方式,手指向遮阳帘,同时说「打开这个」,遮阳帘可以自动打开。对于一个按键就能打开遮阳帘的操作,这种场景似乎并没有太多的吸引力,但这背后是语音与手势交互融合的能力,这种能力为座舱交互创造了更多的可能性,比如在提升交互准确率方面。

在极狐阿尔法 S HI 版的座舱内,语音识别与唇动识别结合到一起,通过视觉+语音的多模态融合,能够在嘈杂、密集的座舱环境下提升语音识别的准确率;采用类似的视觉+语音融合方案来提升识别准确率的,还有基于地平线征程 2、征程 3 打造的座舱方案 Horizon Halo,通过视觉、语音等多种传感器数据融合,来实现主动交互。

以 2022 年在座舱中出现的全时免唤醒功能为例,这个功能下语音助手会持续收音,任何时候都不需要通过唤醒词作为对话的起点,让语音交互更接近人与人之间的自然对话。

为了达到这个效果,对于语音交互技术架构和语音基础能力的优化是必不可少的;而为了进一步降低误唤醒率,提高识别率,引入视觉感知,将语音与视觉感知、手势识别融合,能为系统提供更多的信息冗余。

采用了 Halo 3.0 方案的奇瑞瑞虎 8 PRO 作为首款全场景多模交互方案的车型,在全时免唤醒功能上就采用了多模态交互技术。

根据这套方案的供应商地平线智能交互研发人员向 GeekCar 透露,为了实现多模态语音交互的全时免唤醒能力,采用了传统语音识别链路优化+视觉处理技术前融合的方式,将座舱内视频数据和语音数据进行前融合,以视觉作为重要的依赖项来重构语音技术。要实现这个效果,需要将语音数据与视觉数据在时间序列同步,处理 10 亿级别的图片数量,这个数据量是面部识别的 100 倍。

要处理如此海量的数据,需要提供足够的算力、

尽可能降低延时的边缘计算能力、对模型不断优化的AI技术。这就需要,类似地平线这样的供应商,提供由芯片+算法+工具链构成的一整套解决方案,以及对软硬件联合调优的能力。

相应地,融合后得到的效果更加精准,在高噪声场景下,多模态语音交互的错误率相对降低了 50%,来保证在极限工况下从不可用到可用的提升;特别是针对意图模糊的指令时,给出的反馈更接近自然人的反应。

当然,与 DMS/OMS 类似,多模态交互存在对意义并不是为了营造科幻感。我们常常在一些智能座舱中看到「为了设计」而出现的设计,在多模态交互的尝试中也不例外。把一键操作、一句话操作拆分成需要调动了用户的语音+手势+肢体动作+表情的多模态交互,并没有为用户的任务量做减法,反而做了加法,最终只能沦为好奇心驱使下的昙花一现,甚至为多模态交互这项技术本身在用户群体带来负面影响。

相应地,只有能够被用户真正需要、能够满足刚需的多模态交互,才会被用户尝试、接受、信任,最终融入智能座舱整体。

总结:座舱交互的未来

未来座舱内的交互会是什么样子?一千人心中可能有一千个答案。不过人与车、环境的关系不变,座舱交互系统减轻人类在驾驶时的信息处理量、逐渐适应人的趋势不变。毕竟「懒」是推动科技进步的第一原动力。

如今我们已经能看到座舱交互能更好地理解用户发出的指令,借助多维感知系统感知到的座舱内环境、状态,综合给出判断;未来,在此基础上,还会加上座舱外的环境,整车行驶状态,甚至系统对于过往用户状态和所发生行为的「记忆」,根据更多维度信息的融合,对用户的意图做出判断,甚至给出主动无感的服务。

当然这背后需要一系列技能来支撑:更强大的 AI 算力、更高性能的感知硬件、深度神经网络对于算法的优化、模型的迭代优化来处理边界问题,硬件规格的提升,甚至车内车外信息的联动,能够让多模态交互融合更多维度的感知信息……

它们共同让座舱交互逐渐走向真实的类人智能。

本文作者:米其林

最新文章
8岁孩子也能编程!4名MIT本科生打造AI“神器”
每经记者 蔡鼎 每经编辑 兰素英特斯拉前AI和自动驾驶视觉总监、OpenAI创始成员Andrej Karpathy于2023年年初在X上发帖预言称,最热门的新编程语言是英语。现在,这几乎已经成为现实。就在上周,知名AI编程工具Cursor发布了一项更新,最新版
IDC实测认证!深信服安全GPT运营能力多维度第一
目前,深信服安全GPT已在超400家用户真实环境实践,已在超30家行业头部用户国家级攻防演练实战部署,某部委单位安全运营负责人反馈“安全GPT真正达到3-5年安全专家的水平”。同时,国际权威机构IDC发布最新报告,再次印证深信服安全GPT领先落地
Linux 服务器上部署web程序
文章目录 1. 搭建 Java 部署环境 1.1 yum 认识 yum查看软件包列表安装软件包卸载软件包 1.2 配置JDK ① 首先先查看 jdk 安装包② 下载 jdk 安装包③ 验证是否安装好了 1.3 安装 tomcat ① 首先在浏览器上搜索 Tomcat 复制下载地址② 下载 T
GM版本引入AI助手提升游戏策略与实时反馈
引言数码暴龙激战GM版的推出,不仅为玩家带来了更高难度的挑战,也为游戏体验注入了新的活力。其中,AI助手的引入是GM版最亮眼的一大特性,它不仅可以帮助玩家快速提高战斗技巧,还能提供实时的反馈和建议,让游戏变得更加精彩。AI助手概述
islide官网,AI一键生成PPT,办公设计效率“神器,海量正版高清资源下载
islide官网,AI一键生成PPT,办公设计效率“神器,海量正版高清资源下载islide是个AI一键生成PPT网站,新人免费限时体验! 享誉7年的PPT效率“神器”:islide是业内知名的Al驱动PPT效率工具,7年口碑,海内外累积 3000W用户。上手简单,只需输
com42923.com的Whois信息
clientLock ······································注册商锁定serverLock ·······························注册局锁定renewPeriod ············注册商
AIDesign:腾讯智能 AI 在线 Logo 生成器
今天零点君给大家推荐的工具是 AIDesign,一款腾讯推出的智能 AI 在线 Logo 生成器,快来一起看看吧。AIDesign 是一个利用人工智能技术生成 Logo 的智能设计平台,致力于帮助个人用户(目前支持 QQ 及微信用户)高效率、低成本地激发品牌灵
Micro-XRF分析仪
带有XTrace微点X射线源的Micro-XRF将完整的micro-XRF光谱仪的功能添加到扫描电子显微镜中。 XTrace适用于几乎任何SEM的自由倾斜腔室端口。用户可以从微量元素灵敏度和XRF分析的更高信息深度中受益。  用户友好的用于SEM的Micro-XRF系统
14 到 17 轩逸的大屏导航面框是一样的吗
看液晶显示屏上的电量,就是电池的符号。1、雅迪电动车是扇形电量显示盘指针式的,右边的就是低,左边是高,灯亮一般就是快没电了。指针如果快到红格就是没电了,少电量那边是红色,快到红色的时候就要充电了。2、如果是指示灯式的,一般有
2023上半年全球手机销量前10排名:iPhone 14遥遥领先 一个国产都没有
快科技8月28日消息,专业机构Omdia汇总市场数据,公布出了2023上半年(1-6月)全球销量最高的10款智能手机。分别是:iPhone14 Pro Max、iPhone14 Pro、iPhone14、iPhone13、三星Galaxy A14、三星Galaxy S23 Ultra、三星Galaxy A14 5G、三星
相关文章
推荐文章
发表评论
0评