数据要素产业
唇语识别!AI 领域的下一个万亿市场?
英国查尔斯王子迎娶卡米拉时,读唇者成功破解了伊丽莎白二世与儿子的低语,让女王糟糕的婆媳关系浮现在大众眼前 —— 这可能是“唇语识别”第一次大面积走进大众的视野。
什么是唇语识别
所谓的“唇语识别”,其实并不神秘。
早在古代,就有专门的唇语师存在。通过长期的训练,他们具备了“观察别人的嘴型,解读其表达语句”的能力。在现代社会里,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。
但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做的比人类好了。
从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。
要理解这个“唇语识别”,需要注意这几个关键词:
运用机器视觉技术从图像中识别出说话人的人脸,提取此人连续说话时口型变化的特征。
将连续变化的特征输入到唇语识别模型中,识别说话人口型对应的发音,运用大数据计算出可能性最大的自然语言语句。
图中字幕是由谷歌AI通过唇读实时同步输出,语速之快,难度之大。
在唇语识别过程中,口型与发音,发音与文字之间,并不是唯一对应的关系,常常有多个可能的备选结果,需要实时计算出可能性最大的结果。
唇语识别的研究现状
早在 2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机。
2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。
海云数据,截至2018年他们训练新闻类节目时长是1万小时。为什么是新闻类节目?当然是因为播音员的唇语最标准。目前,海云数据在英文方面可以达到80%的准确度,中文方面是71%
海云数据的AI唇语识别测试
搜狗的通用识别准确率在60%以上,而在车载、智慧家居等垂直场景下,准确率高达90%。
搜狗的AI唇语识别测试
从视频中可以看出将面部放入椭圆形区域内,不发声的说出一段话,几乎说完的瞬间,识别的文字就出现在屏幕上,无论是口语、诗词、歌词还是绕口令,都能很好的识别。
唇语识别的技术原理
AI唇语识别技术原理:
唇语识别技术从镜头输入到理解输出,中间最重要的关键是:视觉前段、视觉特征提取、唇动识别。
视觉前段——包括人脸检测与唇的检测和定位,先用人脸检测演算法得到人脸然后有针对性的定位唇动;
或者利用最佳闽值二值化演算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。
视觉特征提取——是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为基于图元的方法和基于模型的方法两大类;
搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征资讯包含在这个模型之中,并对模型中特征资讯的变化用一个小的参数来描述。
这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维资讯,可能会对后面的识别过程造成影响。
唇动识别——目前采用的技术大多是隐玛尔可夫模型( Hidden Markov Model,简称 HMM ),该模型认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条玛尔可夫链。
玛尔可夫链可以用来描述统计特征资讯的变化,并且这种变化过程与人的唇动过程是相吻合的,所以 HMM 能够识别唇动并与相应语句匹配转化成文字。
随着机器学习方法在语音识别领域里取得的巨大成功,尤其是 HMM 的应用,根据唇语识别研究和语音识别的相似性,出现了大量的 HMM 应用在唇语识别领域的研究成果。
在非特定开放口语测试中,目前的通用识别准确率已经在 70% 以上,而在金融风控、车载、智能家居等垂直场景下,已达到超过 90% 的准确率。
唇语识别的研究意义
人类费尽心力开发研究人工智能、提高唇语识别的准确率,除了偷窥伊丽莎白二世和儿子的秘密外,还有很多更为广泛的用途:
比如应用于金融在线业务的生物识别、噪声环境下辅助语音识别、辅助听障人士交流、体育赛事暴力语言识别等多个领域,这些都是有着实际意义且颇为重要的应用场景。
自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。
但在人工智能大范围落地的今天,国内从业者扎堆涌入的,大多为语音识别,图像识别,人脸识别,机器翻译,无人驾驶,虚拟助手和个性化内容推荐等领域,相较这些聚光灯之下的落地场景,唇语识别相对冷僻。
但业界的常识是:人工智能未来将会出现一个数万亿美元的巨大市场,在面对具体乃至细碎的应用场景时,人工智能的细分程度,势必如百年前的电力那般触角庞杂。
而广袤的嫁接空间也意味着,从真实应用场景出发,人工智能领域会出现不少蓝海市场,被国内巨头忽视的唇语识别就是其中之一。