数据要素产业
语言技术:AI皇冠上的明珠
语言环境是如此的复杂,而对于那些因受伤或生病而无法说话的人,我们怎样才能更好的理解他们的想法?他们又如何能更快更有效的表达自己的意图?
语音和语言是真正镶在AI皇冠上的明珠,AI领域再没有比语音和语言研究更具挑战性的任务。让机器获得推理、理解能力,并通过阅读、交流获得知识,便是改善人类生活、提高人类生产效率,让这个世界不再有语言、沟通和理解障碍的最基本的研究领域。对人工智能来说,语音语言技术能够驱动人工智能进化。
智能语音技术的前提条件
语言是我们日常交流的主要方式,可以让我们快速了解对方的意图,并做出适当的反应。但对很多语言障碍者而言,说话这一看似简单的行为依旧是难以想象的困难。语言是件极其复杂的事情,不仅仅是文字表面上的发音,还与音量、音调、速度、说话环境等众多因素密切相关。
由于深度学习、大数据和云计算三者的相互促进,才成就了语音技术的进步,成就了人工智能的浪潮。
除了硬件,语音服务平台也迅速被建立,键盘作为输入系统即将被停留在上个时代,人类将直接用自然语言和机器进行交互,智能家居和车载用品将成为智能语音应用最集中的领域,也即将是人工智能率先爆发的市场。
目前,人工智能目前已经可以提供语音识别、语言响应、智能推荐等功能。而基于用户的问题数据库和处理方式的数据库,未来很多公司的客服完全可以用人工智能来解决。
应理解语音语音技术中的智能化
在未来的某些时候,计算机能够理解三百种语言,还能够流利地交流和对话。而且,机器不仅能够流利地交流和对话,还能够领会、理解、学习、推论以及能够在所有科目上都能拿到博士学位。这种知识的获取、推论超过了任何人的个人能力。当这一刻到来的时候,可以想象人工智能将会有多聪明。
这里的智能有两个层次。第一个层次是感知智能,它能看,能听,能闻。紧接着高层次的是认知智能。我们今天所取得的人工智能的突破,大多是在感知层面,例如语音识别、语音合成、计算机视觉。但是在高级推理和知识获取这些认知能力上,人工智能距离人类的水平还很远。
从更长远看,语音、人脸等技术的长期空间,都是将原来只能通过设备传递、而不能被设备理解的语音、图片等信息,逐渐变成可以被机器理解分析的结构化数据,从而大大提高机器对人的了解,给人以更准确的推荐、提高各种信息服务的有效性此处最有想象空间。
新技术正快速推动语音生成设备
随着语音合成算法的进步及微处理器技术的发展,电子辅助和替代通信系统(AAC)得以快速普及。通信辅助设备也变得越来越小巧,功能也越来越强大。著名物理学家史蒂芬·霍金就使用语音生成装置与他人进行交流。
在过去几年中,随着人工智能技术与语音技术的突破,以及数字设备功能的指数级增长,数字化语音正在改变人们的交流方式,特别是翻译和医疗等领域。
据相关数据显示,2017年,语音生成设备市场规模为1.9亿美元,预计到2025年将达到3.3亿美元。
①智能手机、平板电脑和数字触摸屏为患者提供更加直接的交流方式。如自闭症患者可以通过触摸屏上的物品图像、活动图片或符号来表达他们的需求。
②机器学习、自然语言处理和文本预测技术极大地推动辅助通信技术的发展,语音合成应用可以为用户提供定制化、个性化的服务。
③现在科研人员正在通过脑机接口技术将之变成现实。目前脑控科技已经成为各国科研人员竞相研究的前沿课题。尽管大多数研究目前还停留在实验室阶段,一旦该技术成功商业化,瘫痪者、语言障碍者、盲人等群体将迎来生命中的第二个春天。
新技术未来的发展轨迹
在语音识别、语义理解和语音合成领域,它们取得进步的主要原因是引入深度学习,更加依赖机器学习可能对语音领域的研究有更大的帮助。
处理多语言支持伴随着不同的语法规则,这也是目前主要的挑战之一,语音处理模型必须考虑并适应这些语法规则,大多数自然语言处理模型采集句子,进行词性标注在某种意义上识别语法,并创建规则来确定如何解释该语法。
机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落地的第一代产品。
AI对话所需要的技术模块有4个部分,分别为:
自动语音识别(ASR)自然语言理解(NLU)自然语言生成(NLG)文字转语音(TTS)。
一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。
意图:交互流程的核心
所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。
如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。
如何识别意图语:解析
对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。
云端交互:如何处理意图
调用意图的结构化请求,向服务器请求处理后做出反馈响应。通俗来讲该流程主要处理用户的请求,解决用户问题的答案。
对话管理:上下文意图的处理
在用户进行自然对话时,可能会因为表达事情的复杂度、时间、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。
组织语言:语言合成模块
根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。同时将生成模块生成的句子转换成语音输出。
语音技术在未来将大展宏图
未来,科技创新将使人类的交流与沟通提升到另外一个层次,它不仅仅是帮助语言障碍患者进行无障碍交流;还会在人与人或人与机器之间进行信息交换。
由于人类语言的多样化,限制了人与人之间的沟通,特别是跨国别和跨语种的交流。近几年,随着实时翻译技术的成熟,语言鸿沟正被慢慢地消除。
各种便携式翻译设备可以帮助游客在几秒钟内进行语言翻译。未来,小小的耳机设备将打破出行的语言限制,而传统的翻译这一职业也将被新技术所替代。
利益于人工智能技术的飞速发展,机器不仅仅是充当翻译人员,还可以成为沟通伙伴。据Gartner预测,到今年年底,我们与新技术的互动中有30%将通过与智能机器完成。
无论是在医疗、旅游、还是商业活动,以人工智能为代表的新技术正在彻底改变人与人之间的交流方式,并将打破身体、地域、国别、语种的各种限制。未来,我们的交流对象也将不再局限在人类,可以是机器、可以是动物。
不过目前的语音识别仍处于起步阶段。与期望相比,语音技术的应用还处在满足基本需求的阶段,并且有很大的上升空间。
结尾
当我们在语音技术的推动下向前迈进时,世界应该拥抱它所创造的充满希望的人文精神。即使是类人机器人,它们能做的也只是笨拙地移动,使用语言是人类这个物种真正与众不同的地方。
语音技术为世界带来了新的力量和便利性,如果应对得当,语音技术有可能成为最有感情的技术。认为人工智能只能是冷冰冰的算法的观点是错误的,人类可以将最好的价值观和同理心注入其中。