Select Language

AI社区

数据要素产业

微软收购Nuance背后:车载语音交互的纷争来了?

文|智能相对论

作者|leo陈

前几日,微软官宣了一项重量级收购,花费160亿美元收购Nuance,这也是微软继260亿收购linkedin之后的第二大收购。Nuance是美国最大语音识别公司,被称为美国版“科大讯飞”。

除了Nuance本身在医疗领域的能力,其分拆出去并独立上市后的车载语音部门Cerence也是本次收购的动力之一。这不禁让人联想,未来微软会在车载语音上有所动作。或许,这是微软在汽车行业的一次隐秘“落子”。

目前,全球科技巨头纷纷布局智能汽车行业,车载语音交互赛道也随之产生剧烈变化。

从触碰到语音,掀起一场供应商交互纷争

随着智能电动车崛起,座舱更加智能,更多车辆搭载拥有大量功能的车机系统和不同级别的驾驶辅助,造成座舱内信息大爆炸。面对海量的信息,智能汽车的中控大屏越来越大。

但细想,这些屏幕的内容集中高且有多个层级,输出信息是高效的,可做信息输入显然是低效的。而语音交互,理论上指令可以有无数条,可以实现一步直达任何功能。正因如此,语音交互的价值再次浮现。

高工智能汽车研究院监测数据显示,2020年国内新车(合资+自主品牌)前装搭载语音识别及交互功能上险量为1206.4万辆,同比增长17.88%。在搭载率方面,则从2019年的49.82%提升至63.25%,车载语音已成为汽车继中控屏外的第二交互手段。

实际上,近两年语音交互迎来新一轮发展,不仅因为其较屏幕交互有着独特优势,更是由于可以和“智能”做到深度融合,升级为“语音助手”。

智能汽车接入的生态服务资源广泛,司机和乘客使用服务会变得高频,语音交互系统可以从中获取海量的数据。而数据来源于司乘日常的对话,相对丰富详细,系统通过深度学习培养后也就越“智能”。

这与屏幕交互很大的不同在于,数据必然会加速汽车交互系统的更新迭代。而交互系统使用体验的提升,会使得司乘进一步提高使用频率,产生新的数据。两者之间相辅相成,互相促进。

另一个不同在于,语音助手可以更好地同内容生态连接,把移动互联网的产品和服务搬到汽车上,让自身商业体系的优势得以凸显。这也是除了体验外,汽车厂商着眼语音交互的关键动力。

但随着产品不断推进,车载语音供应商之间的竞争愈发白热化。在技术链路上,语音交互大致包括声学前端,语音识别(ASR)、自然语言处理(NLP)等。当下竞争不仅集中在自然语言处理,而且衍生到背后数据和计算能力的比拼。

2020年数据显示,排名前八的供应商市场份额超过99%。Cerence和科大讯飞继续占据市场份额的前两位,合计份额超过70%,不过数字已经开始出现下滑迹象;百度排名第三,份额为7.24%。

这一块目前的问题是,在一些高频对话的定义上,整体效果较好,但在一些低频的对话上,受限于语料、数据量不足,体验上不尽人意。如何利用AI更好地推进自然语言处理,对公司的技术研发实力和积累提出高要求。

也因如此,该领域具备天然的竞争壁垒,先发优势和规模效应尤为明显。这是BAT等科技巨头难以实现快速渗透,市占率无法提升的主要原因。

而Cerence目前是全球唯一专注这个方向的企业,有着超过20年技术积累,兼顾科技巨头以及细分领域玩家两方的优势。一方面,早有着科技巨头从生态上集成第三方应用协作的能力,利用认知仲裁技术实现了第三方内容在系统上共存,简化了助手执行任务的流程。

另一方面,具备科大讯飞等传统玩家丰富的集成经验和规模优势,合作全球主流OEMs和Tier1供应商。这不仅有助于加强成本优势,同时帮助自身积累丰富的语言数据,目前Cerence和科大讯飞已建立数十种语言的语音数据库。

汽车厂商不同的实现路径,带来不同的想象空间

汽车进入数字化和自动驾驶新时代,电子架构从分布式架构到域集中架构,再到跨域融合,汽车厂商开始掌握更多的主导权。随之,作为需求侧的厂商同语音供应商合作时,不再单一地走通用方案,而转向深入理解应用场景、联合深度定制。

在“智能相对论”看来,未来汽车厂商的语音助手前装方案将主要呈现两种实现路径:

一方面,一部分将倾向于打造自研的交互平台,并融合多家供应商如科大讯飞和思必驰的优势技术支持。

自研这种做法劣势在于成本问题,改变核心领域的交互逻辑并将语义处理能力建立起来,需要不断地研发投入。为了打造强大的智能AI服务于系统,大量的数据沉淀也会拉长系统的更新周期。

而部分厂商选择“偏向虎山行”,原因简单概括就是“闭环”二字。

相比向供应商采购,自研平台进一步符合车辆的特性,有着相对自由的权限以及更好的适配。同时,其迭代升级会更为迅速,响应速度也更快。若要“全双工”、“连续对话”、“免唤醒”、“全场景”等技术能力更好地实现,自研就显得尤为重要。

部分厂商会选择这条实现路径,也是为了更好抓住行业中长期的趋势。因为车的量产周期很长,如果厂商不能“独具慧眼”,未来车上搭载的语音方案就是落后的,和同时期的产品比就丢失了部分竞争力。

以蔚来、理想、小鹏为代表的造车新势力是最典型的例子,它们仍需借助语音供应商,但自研比例在逐渐提高。

蔚来有着NOMI Mate小机器人的车载AI系统,如今其已升级至2.0版本,解锁了更多的功能和表情显示。蔚来较早选择车载语音“拟人化”这个思路独树一帜,但的确走出了预想的效果,引发了后续多家效仿。通过“拟人化”,语音被抽象为人物形象的情感表达,反过来加深用户对品牌的印象。

小鹏的“玩法”似乎“直接且硬核”。去年10月,其发布了自己的全场景语音,包括多轮对话、语义打断、双音区锁定和可见即可说4个功能。在技术层面,小鹏自主搭建了一套语音框架,以便自主定义语音的全流程体验,不受限于供应商的开放能力范围限制。但必须承认,这需要长期投入人力物力财力。

另一方面,其他品牌则更多倾向于直接或间接选择提供整体解决方案的供应商,比如Cerence、科大讯飞、BAT等供应商。

一般来说,整体解决方案仅小量自定义即可交付,特别适合车型品类和数量都非常丰富的汽车品牌,性价比相对更高。

当下,吉利汽车和长城汽车等我国自主品牌主要是走这条实现路径。以长城汽车为例,去年4月,其战略合作伙伴仙豆智能选定Cerence ARK来提供数字助理方案。与全球领先的供应商建立合作后,自主品牌的语音交互并不逊色于造车新势力。

在这场语音交互“智能化”趋势下,传统豪华品牌如奔驰、奥迪、宝马反而不是话语权的掌管者,和国内消费者对它们根深蒂固的认同感形成强烈反差。

传统豪华品牌在汽车数字化上相对保守,往往选择某一个车系的一款车型尝试升级。不选择自研能够将开发周期大幅缩短,加上自身的汽车量产能力,可以快速将产品向市场铺开。

2020款奥迪A4L语音系统由出门问问提供,同时搭载了Cerence和天猫精灵的相关能力。整体体验比其他豪华品牌要好,但远算不上第一梯队。

Cerence和出门问问分别为这款车提供了一套ASR和NLU能力,两者算是并行关系。所以用户输入任何一个指令,两个通道都要跑一遍,最后统一口径实行指令,流畅度不佳。

当下,传统豪华品牌的智能化升级迫在眉睫,车内人机交互的体验,已然成为各大厂商竞争的焦点。新势力搅动市场,自主品牌纷纷发力,智能汽车市场的竞争如火如荼。

下一代交互盯住“主动多模态”,仍需迈过“鸡肋”这道坎

激烈的竞争一定程度上推动着语音交互产品提高用户体验,也使得愈多用户长期接受这种交互方式。智能电动汽车时代,“软件定义汽车”这句话深入人心,但“语音”远远不能定义交互。

在整车底盘之上,还有摄像头、HUD、玻璃、车灯(氛围灯、外饰灯)等有望成为未来座舱端的交互产品。而语音交互能够承载海量数据、带来驾驶更高安全性等等,更会是交互产品生态的中心。

所以“智能相对论”认为,以语音交互为中心的“主动多模态交互”会是未来的方向。

不同功能的摄像头好比多双“眼睛”,能够进行手势识别、情绪识别,发现你的需求。这种情况下,摄像头带来的是交互系统“主动”提供服务,与其他地交互方式截然相反。当语音这种“被动式”和视觉的“主动式”融合,整个交互产品生态会为用户提供更丰富的服务和信息。

例如,将车辆、行人、车道、标志识别融合导航信息进行实时渲染,提供行车预警及导航指引等系列功能,并通过HUD投影至挡风玻璃上,带来更直观的导航驾驶体验。

与此同时,通过视线追踪、手势交互等操作对舱内座椅、灯光、空调、音乐等所有功能进行控制,从而在保障安全驾驶的情况下让人机交互更易用,并配合人脸识别身份认证技术,提供驾驶员身份检测以支持个性化功能实现。

愿景是美好的,但现实是,当下视觉交互落地的案例屈指可数。宝马的手势识别在2015年率先登陆宝马7系,2019年下放到3系,通过摄像头主要识别确认、调节音量大小、接听和挂断电话。识别率很高,但屏幕系统流畅程度和反应非常流畅,手势识别反而显得鸡肋。

如何平衡好语音、视觉等多模态之间的交互逻辑,是现阶段各家一直在探索的问题。

体验参差不急,导致整个产品生态的价值没有真正凸显。最重要的是语音和视觉没有从根本上融合,仍然是单打独斗的状态。

实现功能的整合并非易事,尤其是从被动指令到主动提供服务,需要成熟的AI技术的支撑。如果这种细微的服务能做好,体验会有大幅提升,用户粘性会随之提高。

若抛开技术先看交互的目的,是为了提供更多的服务。而服务背后,则是广泛的内容生态,社交、地图、音乐等等。因此,如果能够为用户提供更多的生态内容服务,交互产品生态的数据逐渐积累,人机交互也将更加智能。而这,必然需要多方的共同努力。