AI技术百科
AI应用领域
AI目前主要的应用领域有3个方向,包括:计算机视觉、语音交互、自然语言处理。
1.1 计算机视觉(CV)
计算机视觉是一门研究如何使机器“看”的科学,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉的应用,是使用计算机及相关设备对生物视觉的一种模拟,对采集的图片或视频进行处理从而获得相应场景的三维信息,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力。
计算机视觉在现实场景中应用价值主要体现在可以利用计算机对图像和视频的识别能力,替代部分人力工作,节省人力成本并提升工作效率。传统的计算机视觉基本遵循图像预处理、提取特征、建模、输出的流程,不过利用深度学习,很多问题可以直接采用端到端,从输入到输出一气呵成。
(1)研究内容
实际应用中采集到的图像的质量通常都没有实验室数据那么理想,光照条件不理想,采集图像模糊等都是实际应用中常见的问题。所以首先需要校正成像过程中,系统引进的光度学和几何学的畸变,抑制和去除成像过程中引进的噪声,这些统称为图像的恢复。
对输入的原始图像进行预处理,这一过程利用了大量的图像处理技术和算法,如:图像滤波、图像增强、边缘检测等,以便从图像中抽取诸如角点、边缘、线条、边界以及色彩等关于场景的基本特征;这一过程还包含了各种图像变换(如:校正)、图像纹理检测、图像运动检测等。
根据抽取的特征信息把反映三维客体的各个图象基元,如:轮廓、线条、纹理、边缘、边界、物体的各个面等从图象中分离出来,并且建立起各个基元之间的拓朴学上的和几何学上的关系——称之基元的分割和关系的确定。
计算机根据事先存贮在数据库中的预知识模型,识别出各个基元或某些基元组合所代表的客观世界中的某些实体——称之为模型匹配,以及根据图象中各基元之间的关系,在预知识的指导下得出图象所代表的实际景物的含义,得出图象的解释或描述。
(2)应用场景
计算机视觉的应用场景非常广,例如:无人驾驶、无人安防、人脸识别、光学字符识别、物体追踪、车辆车牌识别、以图搜图、医学图像分析等。最近B站新上线的弹幕防挡脸功能,即在播放视频时弹幕经过人脸则自动隐藏,也是应用了CV,这个小功能对B站核心价值之一的弹幕进行了进一步优化,大大提升了用户体验。
(3)瓶颈
目前在实际应用中采集到的数据还是不够理想,光照条件、物体表面光泽、摄像机和空间位置变化都会影响数据质量,虽然可以利用算法弥补,但是很多情况下信息缺失无法利用算法来解决。
在一幅或多幅平面图像中提取深度信息或表面倾斜信息并不是件容易的事,尤其是在灰度失真、几何失真还有干扰的情况下求取多幅图像之间的对应特征更是一个难点。除了得到物体的三维信息外,在现实世界里,物体间相互遮挡,自身各部位间的遮挡使得图像分拆更加复杂。
预知识设置的不同也使得同样的图像也会产生不同的识别结果,预知识在视觉系统中起着相当重要的作用。在预知识库中存放着各种实际可能遇到的物体的知识模型,和实际景物中各种物体之间的约束关系。计算机的作用是根据被分析的图象中的各基元及其关系,利用预知识作为指导,通过匹配、搜索和推理等手段,最终得到对图象的描述。在整个过程中预知识时刻提供处理的样板和证据,每一步的处理结果随时同预知识进行对比,所以预知识设置会对图像识别结果产生极大影响。
(4)提供相关方案的企业
旷视face++人工智能开放平台(提供人脸识别、人体识别、文字识别等技术方案) :https://www.faceplusplus.com.cn/
商汤科技(提供人脸和人体分析、通用与专业图像分析、视频处理等技术以及提供智慧安防、智能终端、智能金融等解决方案):https://www.sensetime.com/core
腾讯优图AI开放平台(提供人脸及人体识别、图像识别、文字识别等技术及天眼安防、天眼交通等解决方案):https://open.youtu.qq.com/#/open
百度AI开放平台(提供人脸及人体识别、图像识别、文字识别、图像审核等):http://ai.baidu.com/tech/imagerecognition
阿里云(提供人脸识别、图像识别、图像搜索、视频识别等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
图普科技(提供图像内容审核、人脸和人体识别、文字识别、图像场景识别等技术方案):https://www.tuputech.com/
格灵深瞳(人眼摄像机、视图大数据分析平台、人脸识别系统等):http://www.deepglint.com/
2.2 语音交互
语音交互也是非常热门的方向之一,其实语音交互整个流程里包含语音识别、自然语言处理和语音合成。自然语言处理很多时候是作为单独的一个领域来研究的,本文也将单独介绍自然语言处理,所以此处只介绍语音识别和语音合成。
语音交互的最佳应用场景便是眼睛不方便看,或者手不方便操作的时候。“不方便看”比较典型的场景便是智能车载,“不方便操作”比较典型的场景便是智能音箱,这也是目前比较火的两个细分方向。
一个完整的语音交互基本遵循下图的流程:
(1)语音识别(ASR)
1)研究内容
语音识别的输入是声音,属于计算机无法直接处理的模拟信号,所以需要将声音转化成计算机能处理的文字信息。传统的识别方式需要通过编码将其转变为数字信号,并提取其中的特征进行处理。
传统方式的声学模型一般采用隐马尔可夫模型(HMM),处理流程是语音输入——编码(特征提取)——解码——输出。
还有一种“端到端”的识别方式,一般采用深度神经网络(DNN),这种方式的声学模型的输入通常可以使用更原始的信号特征(减少了编码阶段的工作),输出也不再必须经过音素等底层元素,可以直接是字母或者汉字。
在计算资源与模型的训练数据充足的情况下,“端到端”方式往往能达到更好的效果。目前的语音识别技术主要是通过DNN实现的。语音识别的效果一般用“识别率”,即识别文字与标准文字相匹配的字数与标准文字总字数的比例来衡量。目前中文通用语音连续识别的识别率最高可以达到97%。
2)衍生研究内容
麦克风阵列:在家庭、会议室、户外、商场等各种环境下,语音识别会有噪音、混响、人声干扰、回声等各种问题。在这种需求背景下可以采用麦克风阵列来解决。麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统,可以实现语音增强、声源定位、去混响、声源信号提取/分离。麦克风阵列又分为:2麦克风阵列、4麦克风阵列、6麦克风阵列、6+1麦克风阵列。随着麦克风数量的增多,拾音的距离,噪声抑制,声源定位的角度,以及价格都会不同,所以要贴合实际应用场景来找到最佳方案。
远场语音识别:解决远场语音识别需要结合前后端共同完成。前端使用麦克风阵列硬件,解决噪声、混响、回声等带来的问题,后端则利用近场远场的声学规律不同构建适合远场环境的声学模型,前后端共同解决远场识别的问题。
语音唤醒:通过关键词唤醒语音设备,通常都是3个音节以上的关键词。例如:嘿Siri、和亚马逊echo的Alexa。语音唤醒基本是在本地进行的,必须在设备终端运行,不能切入云平台。因为一个7×24小时监听的设备要保护用户隐私,只能做本地处理,而不能将音频流联网进行云端处理。 语音唤醒对唤醒响应时间、功耗、唤醒效果都有要求。
语音激活检测:判断外界是否有有效语音,在低信噪比的远场尤为重要。
(2)语音合成(TTS)
1)研究内容
是将文字转化为语音(朗读出来)的过程,目前有两种实现方法,分别是:拼接法和参数法。
拼接法是把事先录制的大量语音切碎成基本单元存储起来,再根据需要选取拼接而成。这种方法输出语音质量较高,但是数据库要求过大。
参数法是通过语音提取参数再转化为波形,从而输出语音。这种方法的数据库要求小,但是声音不可避免会有机械感。
DeepMind早前发布了一个机器学习语音生成模型WaveNet,直接生成原始音频波形,可以对任意声音建模,不依赖任何发音理论模型,能够在文本转语音和常规的音频生成上得到出色的结果。
2)瓶颈
个性化TTS数据需求量大,在用户预期比较高的时候难满足。需要AI产品经理选择用户预期不苛刻的场景,或者在设计时管理好用户预期。
(3)提供相关方案的企业
讯飞开放平台(提供语音识别、语音合成、语音扩展等技术方案及智能硬件以及多种行业解决方案):https://www.xfyun.cn/
图灵机器人(提供多场景的聊天机器人解决方案):http://www.tuling123.com/
腾讯AI开放平台(提供语音识别、语音合成等技术):https://ai.qq.com/
百度AI开放平台(提供语音识别、语音合成等技术):http://ai.baidu.com/tech/speech
阿里云(提供语音识别、语音合成、录音文件识别等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
追一科技(提供智能外呼、及智能机器人在多行业的解决方案):https://zhuiyi.ai/
2.3 自然语言理解(NLP)
(1)研究内容
自然语言处理是一门让计算机理解、分析以及生成自然语言的学科,是理解和处理文字的过程,相当于人类的大脑。NLP是目前AI发展的核心瓶颈。
NLP大概的研究过程是:研制出可以表示语言能力的模型——提出各种方法来不断提高语言模型的能力——根据语言模型来设计各种应用系统——不断地完善语言模型。自然语言理解和自然语言生成都属于自然语言理解的概念范畴。
自然语言理解(NLU)模块,着重解决的问题是单句的语义理解,对用户的问题在句子级别进行分类,明确意图识别(Intent Classification);同时在词级别找出用户问题中的关键实体,进行实体槽填充(Slot Filling)。
一个简单的例子,用户问“我想吃冰激凌”,NLU模块就可以识别出用户的意图是“寻找甜品店或超市”,而关键实体是“冰激淋”。有了意图和关键实体,就方便了后面对话管理模块进行后端数据库的查询或是有缺失信息而来继续多轮对话补全其它缺失的实体槽。
自然语言生成(NLG)模块是机器与用户交互的最后一公里路,目前自然语言生成大部分使用的方法仍然是基于规则的模板填充,有点像实体槽提取的反向操作,将最终查询的结果嵌入到模板中生成回复。手动生成模板之余,也有用深度学习的生成模型通过数据自主学习生成带有实体槽的模板。
(2)应用场景
自然语言处理作为CUI(Conversational User Interface,对话式交互)中非常重要的一部分,只要是CUI的应用场景都需要自然语言处理发挥作用。除此之外,机器翻译、文本分类也都是自然语言处理的重要应用领域。
(3)瓶颈
1)词语实体边界界定
自然语言是多轮的,一个句子不能孤立的看,要么有上下文,要么有前后轮对话,而正确划分、界定不同词语实体是正确理解语言的基础。目前的深度学习技术,在建模多轮和上下文的时候,难度远远超过了如语音识别、图像识别的一输入一输出的问题。所以语音识别或图像识别做的好的企业,不一定能做好自然语言处理。
2)词义消歧
词义消歧包括多义词消歧和指代消歧。多义词是自然语言中非常普遍的现象,指代消歧是指正确理解代词所代表的⼈或事物。例如:在复杂交谈环境中,“他”到底指代谁。词义消歧还需要对文本上下文、交谈环境和背景信息等有正确的理解,目前还无法对此进行清晰的建模。
3)个性化识别
自然语言处理要面对个性化问题,自然语言常常会出现模凌两可的句子,而且同样一句话,不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决。
(4)提供相关方案的企业
讯飞开放平台(提供自然语言处理):https://www.xfyun.cn/
图灵机器人(提供多场景的聊天机器人解决方案):http://www.tuling123.com/
腾讯AI开放平台(提供基础文本解析、语义分析等技术):https://open.youtu.qq.com/#/open
百度AI开放平台(提供语言处理基础技术、文本审核、机器翻译等):http://ai.baidu.com/tech/nlp
阿里云(提供情感分析、实体识别、机器翻译等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
追一科技(提供智能外呼、及智能机器人在多行业的解决方案):https://zhuiyi.ai/