数据要素产业

语言技术：AI皇冠上的明珠

12-08 00:42

语言环境是如此的复杂，而对于那些因受伤或生病而无法说话的人，我们怎样才能更好的理解他们的想法？他们又如何能更快更有效的表达自己的意图？

语音和语言是真正镶在AI皇冠上的明珠，AI领域再没有比语音和语言研究更具挑战性的任务。让机器获得推理、理解能力，并通过阅读、交流获得知识，便是改善人类生活、提高人类生产效率，让这个世界不再有语言、沟通和理解障碍的最基本的研究领域。对人工智能来说，语音语言技术能够驱动人工智能进化。

AI芯天下丨语音语言技术-AI皇冠上的明珠

智能语音技术的前提条件

语言是我们日常交流的主要方式，可以让我们快速了解对方的意图，并做出适当的反应。但对很多语言障碍者而言，说话这一看似简单的行为依旧是难以想象的困难。语言是件极其复杂的事情，不仅仅是文字表面上的发音，还与音量、音调、速度、说话环境等众多因素密切相关。

由于深度学习、大数据和云计算三者的相互促进，才成就了语音技术的进步，成就了人工智能的浪潮。

除了硬件，语音服务平台也迅速被建立，键盘作为输入系统即将被停留在上个时代，人类将直接用自然语言和机器进行交互，智能家居和车载用品将成为智能语音应用最集中的领域，也即将是人工智能率先爆发的市场。

目前，人工智能目前已经可以提供语音识别、语言响应、智能推荐等功能。而基于用户的问题数据库和处理方式的数据库，未来很多公司的客服完全可以用人工智能来解决。

AI芯天下丨语音语言技术-AI皇冠上的明珠

应理解语音语音技术中的智能化

在未来的某些时候，计算机能够理解三百种语言，还能够流利地交流和对话。而且，机器不仅能够流利地交流和对话，还能够领会、理解、学习、推论以及能够在所有科目上都能拿到博士学位。这种知识的获取、推论超过了任何人的个人能力。当这一刻到来的时候，可以想象人工智能将会有多聪明。

这里的智能有两个层次。第一个层次是感知智能，它能看，能听，能闻。紧接着高层次的是认知智能。我们今天所取得的人工智能的突破，大多是在感知层面，例如语音识别、语音合成、计算机视觉。但是在高级推理和知识获取这些认知能力上，人工智能距离人类的水平还很远。

从更长远看，语音、人脸等技术的长期空间，都是将原来只能通过设备传递、而不能被设备理解的语音、图片等信息，逐渐变成可以被机器理解分析的结构化数据，从而大大提高机器对人的了解，给人以更准确的推荐、提高各种信息服务的有效性此处最有想象空间。

新技术正快速推动语音生成设备

随着语音合成算法的进步及微处理器技术的发展，电子辅助和替代通信系统（AAC）得以快速普及。通信辅助设备也变得越来越小巧，功能也越来越强大。著名物理学家史蒂芬·霍金就使用语音生成装置与他人进行交流。

在过去几年中，随着人工智能技术与语音技术的突破，以及数字设备功能的指数级增长，数字化语音正在改变人们的交流方式，特别是翻译和医疗等领域。

据相关数据显示，2017年，语音生成设备市场规模为1．9亿美元，预计到2025年将达到3．3亿美元。

①智能手机、平板电脑和数字触摸屏为患者提供更加直接的交流方式。如自闭症患者可以通过触摸屏上的物品图像、活动图片或符号来表达他们的需求。

②机器学习、自然语言处理和文本预测技术极大地推动辅助通信技术的发展，语音合成应用可以为用户提供定制化、个性化的服务。

③现在科研人员正在通过脑机接口技术将之变成现实。目前脑控科技已经成为各国科研人员竞相研究的前沿课题。尽管大多数研究目前还停留在实验室阶段，一旦该技术成功商业化，瘫痪者、语言障碍者、盲人等群体将迎来生命中的第二个春天。

AI芯天下丨语音语言技术-AI皇冠上的明珠

新技术未来的发展轨迹

在语音识别、语义理解和语音合成领域，它们取得进步的主要原因是引入深度学习，更加依赖机器学习可能对语音领域的研究有更大的帮助。

处理多语言支持伴随着不同的语法规则，这也是目前主要的挑战之一，语音处理模型必须考虑并适应这些语法规则，大多数自然语言处理模型采集句子，进行词性标注在某种意义上识别语法，并创建规则来确定如何解释该语法。

机器学习以及自然语言处理技术的进步，开启了人与人工智能进行语音交互的可能，人们透过对话的方式获取信息、与机器进行交互，将不再只是存在科幻情结当中。语音交互是未来的方向，而智能音箱则是语音交互落地的第一代产品。

AI对话所需要的技术模块有4个部分，分别为：

自动语音识别（ASR）自然语言理解（NLU）自然语言生成（NLG）文字转语音（TTS）。

AI芯天下丨语音语言技术-AI皇冠上的明珠

一次完整的语音交互流程，成功的语音对话，通常是有以下几个阶段。

意图：交互流程的核心

所谓意图，表示用户在使用应用时所做的动作（譬如：问一个问题或发送一条指令），这些意图代表了应用的核心功能。

如果应用成功地识别了用户意图，则需要在完成业务动作后，将结果反馈给用户；如果应用无法识别用户意图，则需要给用户友好的提示，指导用户使用。

如何识别意图语：解析

对语音识别结果进行分析理解，简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构，用户通过说出满足这种结构的语句，来调用意图。

云端交互：如何处理意图

调用意图的结构化请求，向服务器请求处理后做出反馈响应。通俗来讲该流程主要处理用户的请求，解决用户问题的答案。

对话管理：上下文意图的处理

在用户进行自然对话时，可能会因为表达事情的复杂度、时间、地点、效率等，产生具有脉络的对话过程，所有的对话元素会编织在一个连贯的线性对话中。

组织语言：语言合成模块

根据解析模块得到的内部表示，在对话管理机制的作用下生成自然语言句子。同时将生成模块生成的句子转换成语音输出。

AI芯天下丨语音语言技术-AI皇冠上的明珠

语音技术在未来将大展宏图

未来，科技创新将使人类的交流与沟通提升到另外一个层次，它不仅仅是帮助语言障碍患者进行无障碍交流；还会在人与人或人与机器之间进行信息交换。

由于人类语言的多样化，限制了人与人之间的沟通，特别是跨国别和跨语种的交流。近几年，随着实时翻译技术的成熟，语言鸿沟正被慢慢地消除。

各种便携式翻译设备可以帮助游客在几秒钟内进行语言翻译。未来，小小的耳机设备将打破出行的语言限制，而传统的翻译这一职业也将被新技术所替代。

利益于人工智能技术的飞速发展，机器不仅仅是充当翻译人员，还可以成为沟通伙伴。据Gartner预测，到今年年底，我们与新技术的互动中有30％将通过与智能机器完成。

无论是在医疗、旅游、还是商业活动，以人工智能为代表的新技术正在彻底改变人与人之间的交流方式，并将打破身体、地域、国别、语种的各种限制。未来，我们的交流对象也将不再局限在人类，可以是机器、可以是动物。

不过目前的语音识别仍处于起步阶段。与期望相比，语音技术的应用还处在满足基本需求的阶段，并且有很大的上升空间。

AI芯天下丨语音语言技术-AI皇冠上的明珠

结尾

当我们在语音技术的推动下向前迈进时，世界应该拥抱它所创造的充满希望的人文精神。即使是类人机器人，它们能做的也只是笨拙地移动，使用语言是人类这个物种真正与众不同的地方。

语音技术为世界带来了新的力量和便利性，如果应对得当，语音技术有可能成为最有感情的技术。认为人工智能只能是冷冰冰的算法的观点是错误的，人类可以将最好的价值观和同理心注入其中。

更多>数据要素产业相关信息

最新发布

点击排行

Select Language

AI社区

今日排行

本月搜索

Dataset Category

数据要素产业

语言技术：AI皇冠上的明珠