橙皮书｜座舱交互：ChatGPT 改变不了的智能座舱，多模可以

橙皮书｜座舱交互：ChatGPT 改变不了的智能座舱，多模可以

2024-12-26 08:36

人与车的关系，离不开「交互」两个字。无论是传统汽车时代的机械按键，还是智能汽车时代的触控屏幕、语音交互，寻找到更安全、高效、舒适的交互方式，一直是行业的共同追求；什么样的交互方式是更合适的，也是行业永恒探讨的命题。

在之前的橙皮书中，我们探讨了语音交互在过去一年里的成长和未来的趋势。语音交互趋于务实的背后，是座舱系统逐渐去适应人、迎合人自然交互习惯的过程。不只是语音交互，以语音交互为基础的多模态交互能力，监测座舱内实时信息并给出应对的 DMS/OMS 功能，未来座舱与驾驶之间的融合联动，以及它们背后赋能的 AI 技术等等，这些能力各自提升的同时，也共同构成了座舱系统整体从被动交互向主动交互的转型。

在转向主动交互过程中，用户可以以更自然的方式与系统沟通，甚至更模糊的指令和意图能够被系统理解，系统也尝试根据用户和座舱内的状态提供更细致化的服务。

为了更好地印证我们的观察，这次我们与地平线智能交互团队聊了聊，来共同探讨一下座舱交互如何提供更细颗粒度的主动服务？

DMS/OMS：

「麻烦制造机」的进化之路

如果说座舱内总有一些智能化配置被视作「炫技」的话，那 DMS/OMS 功能绝对是实用性功能的代表。

利用座舱内的摄像头，通过利用座舱内的摄像头追踪驾驶员瞥向指定屏幕的视线，随即自动亮屏或唤醒车载助手；通过 Face ID 实现账号登陆，驾驶员进入座舱后自动调节座椅位置角度；通过对驾驶员面部微表情和眼动的监测，在驾驶员分心或出现疲劳时，适时发出预警与提醒；利用摄像头识别抽烟、睡觉等情况，实现智能调解车窗状态，空气内外循环、降低音量等场景化服务。

高效、安全、舒适，人们对于座舱内的三大基本需求，DMS/OMS 功能可以说都涵盖了。

前不久，高工智能汽车监测数据显示，2022 年前 11 个月乘用车 DMS 标配搭载 99.95 万辆，同比增长 111.8%；在 DMS 感知方案供应商方面，地平线（芯片+感知）、商汤、虹软排名市场份额前三位。有机构预测，到 2026 年 DMS 的渗透率将达到 35%，DMS/OMS 上车的趋势不可挡。

（图片来源：高工智能汽车）

尽管如此，在一年前的《2021 年智能座舱橙皮书》中，我们对于当时的 DMS/OMS 功能给出了一个并不算积极的评价：「麻烦制造机」。

这是因为在此前的座舱评测中，由于 DMS/OMS 在疲劳监测、分心预警、烟雾预警等场景下的误触发、误提醒，的确带来麻烦，让彼时的我们实在无法给出更高的评价。去年年中，小眼睛被系统判定为「开车睡觉」的乌龙事件，也让更多人意识到 DMS/OMS 功能面临的问题：人物生理特征的差异、动作习惯的差异，甚至需求的差异，决定了 DMS/OMS 在实际应用层面需要解决的问题很多。

如何提供更精准、恰当的服务，避免误触发、误提醒造成困扰，是 DMS/OMS 这个「麻烦制造机」在自我救赎的道路上提升的关键。

一方面，需要梳理出常见功能场景，通过对场景的判断来过滤可能出现的误报。

另一方面，需要对技术标准设置合理、科学的指标。一个人是否处于疲劳状态？处于怎样的疲劳状态？这并不是简单的「Yes or No」的问题，因此，单一、机械化地设定触发阈值，难免出现误触发、误提醒的情况。如何将触发精细化、精准化，是提升 DMS/OMS 性能的关键。

过去一年里，不少新车型搭载了 DMS/OMS 功能。以奇瑞瑞虎 8 PRO 为例，搭载了 AI 情感超级交互系统，根据人脸识别、视线追踪第一时间察觉驾驶员的肢体语言，判断疲劳等级和分神状态，并

智能推送聊天、音乐音量、空调温度等场景模式，帮助驾驶员缓解疲劳。

为了探究如何精准把控触发阈值，我们专门采访到了为奇瑞瑞虎 8 PRO 相关产品和研发人员，以及这套 DMS 系统供应商地平线的研发人员，为了让触发标准更精确、更合理，避免误触发，奇瑞瑞虎 8 PRO 以及地平线的 DMS 团队将驾驶员的状态监测进行了精细的划分：

以分心场景为例，为了将触发阈值更精确，分心提醒的视线落点被细化成了十四个区域；这十四个区域又根据对驾驶行为的影响被划分成了危险区、警告区等不同等级；视线停留在不同等级的区域内不同的时间，驾驶分心带来的危险性自然不同。

同时，驾驶人的分心、疲劳情况又进一步被划分为轻度、中度、重度……

不同等级下生理对于外界刺激的反应、不同时间间隔预警的效果等等，这些差异都能让 DMS/OMS 提供更精准、细致化的服务。

未来，随着座舱内传感器数量和性能的提升，以及座舱集成度的提升，座舱 DMS/OMS 功能需要的不止是摄像头、毫米波雷达等单一传感器提供的指标，更是多维度的感知信息，通过多维度信息融合来提供更可靠的决策输入；而 DMS/OMS 本身也成为座舱内多模态交互的一部分。

对于下一阶段的 DMS/OMS 供应商来说，需要提供的也不止是单一的软件算法能力，更是软硬件整合能力，以及背后芯片、AI 感知能力。

当然，DMS/OMS 本身存在的意义，是为用户带来安全、高效、便捷的服务，在能力提升的同时，区分出哪些是用户真正需要的服务，哪些是不必要的打扰；以及避免座舱内摄像头给用户造成的隐私恐惧，依然是这项功能进化之路上需要解决的问题。

多模态交互：

多维度信息的融合，让交互更类人

看着窗户时说「大一点」，车窗能自动打开；眼睛盯着空调时说同样的话，指令就变成了空调开大一点；视线锁定窗外环境，然后说「我想知道这栋楼的用途」，智能助手会自动帮你查询并告知你结果…..

这是以往我们在概念车中看到的场景，利用座舱内语音、视觉、手势识别等多种交互方式融合而成的多模态交互技术，满足了大家对于未来科技感的想象。

在过去几年的智能座舱中，我们已经能看到除了物理按键、旋钮、触控等传统交互形式外，语音交互、手势交互、面部识别等多种交互方式并存的情况，并且已经成为行业主流。

不过相比于以往多种交互方式「单打独斗」、各自为战的情况，多模态交互的本质，在于将不同交互形式间联动起来，通过不同交互形式下多维度信息对于感知能力的互补，让系统能够以更接近自然人的状态去理解、执行人的意图，甚至能够猜测出人未说出口的意图。

在过去一年中，我们已经能看到这种多模态交互尝试的初级形态。

比如在理想 L9 中，采用了 3D Tof + 语音交互融合的方式，手指向遮阳帘，同时说「打开这个」，遮阳帘可以自动打开。对于一个按键就能打开遮阳帘的操作，这种场景似乎并没有太多的吸引力，但这背后是语音与手势交互融合的能力，这种能力为座舱交互创造了更多的可能性，比如在提升交互准确率方面。

在极狐阿尔法 S HI 版的座舱内，语音识别与唇动识别结合到一起，通过视觉+语音的多模态融合，能够在嘈杂、密集的座舱环境下提升语音识别的准确率；采用类似的视觉+语音融合方案来提升识别准确率的，还有基于地平线征程 2、征程 3 打造的座舱方案 Horizon Halo，通过视觉、语音等多种传感器数据融合，来实现主动交互。

以 2022 年在座舱中出现的全时免唤醒功能为例，这个功能下语音助手会持续收音，任何时候都不需要通过唤醒词作为对话的起点，让语音交互更接近人与人之间的自然对话。

为了达到这个效果，对于语音交互技术架构和语音基础能力的优化是必不可少的；而为了进一步降低误唤醒率，提高识别率，引入视觉感知，将语音与视觉感知、手势识别融合，能为系统提供更多的信息冗余。

采用了 Halo 3.0 方案的奇瑞瑞虎 8 PRO 作为首款全场景多模交互方案的车型，在全时免唤醒功能上就采用了多模态交互技术。

根据这套方案的供应商地平线智能交互研发人员向 GeekCar 透露，为了实现多模态语音交互的全时免唤醒能力，采用了传统语音识别链路优化+视觉处理技术前融合的方式，将座舱内视频数据和语音数据进行前融合，以视觉作为重要的依赖项来重构语音技术。要实现这个效果，需要将语音数据与视觉数据在时间序列同步，处理 10 亿级别的图片数量，这个数据量是面部识别的 100 倍。

要处理如此海量的数据，需要提供足够的算力、

尽可能降低延时的边缘计算能力、对模型不断优化的AI技术。这就需要，类似地平线这样的供应商，提供由芯片+算法+工具链构成的一整套解决方案，以及对软硬件联合调优的能力。

相应地，融合后得到的效果更加精准，在高噪声场景下，多模态语音交互的错误率相对降低了 50%，来保证在极限工况下从不可用到可用的提升；特别是针对意图模糊的指令时，给出的反馈更接近自然人的反应。

当然，与 DMS/OMS 类似，多模态交互存在对意义并不是为了营造科幻感。我们常常在一些智能座舱中看到「为了设计」而出现的设计，在多模态交互的尝试中也不例外。把一键操作、一句话操作拆分成需要调动了用户的语音+手势+肢体动作+表情的多模态交互，并没有为用户的任务量做减法，反而做了加法，最终只能沦为好奇心驱使下的昙花一现，甚至为多模态交互这项技术本身在用户群体带来负面影响。

相应地，只有能够被用户真正需要、能够满足刚需的多模态交互，才会被用户尝试、接受、信任，最终融入智能座舱整体。

总结：座舱交互的未来

未来座舱内的交互会是什么样子？一千人心中可能有一千个答案。不过人与车、环境的关系不变，座舱交互系统减轻人类在驾驶时的信息处理量、逐渐适应人的趋势不变。毕竟「懒」是推动科技进步的第一原动力。

如今我们已经能看到座舱交互能更好地理解用户发出的指令，借助多维感知系统感知到的座舱内环境、状态，综合给出判断；未来，在此基础上，还会加上座舱外的环境，整车行驶状态，甚至系统对于过往用户状态和所发生行为的「记忆」，根据更多维度信息的融合，对用户的意图做出判断，甚至给出主动无感的服务。

当然这背后需要一系列技能来支撑：更强大的 AI 算力、更高性能的感知硬件、深度神经网络对于算法的优化、模型的迭代优化来处理边界问题，硬件规格的提升，甚至车内车外信息的联动，能够让多模态交互融合更多维度的感知信息……

它们共同让座舱交互逐渐走向真实的类人智能。

本文作者：米其林