AI技术百科
声学模型 acoustic mode
在这个模块,我们会讨论语音识别引擎里的声学(acoustic)模型。在今天的主流语音识别系统中,声学模型是一个混合(hybrid)模型,它包括用于序列跳转的隐马尔可夫模型(HMM)和根据当前帧来预测状态的深度神经网络。HMM是用于建模离散时间序列的常见模型,它在语音识别中已经使用了几十年了。
在研究HMM之前,我们先简单的回顾一下马尔科夫链。马尔科夫链是建模随机过程的一种方法。在马尔科夫链里,离散的事件通过一些状态来建模。状态之间的跳转是通过一个随机过程来控制。
让我们来看一个例子。对于一个预测天气的应用,状态可能是”Sunny(s)”, “Partly Cloud(p)”, “Cloudy(c)”, 和”Raining(r)”。如果我们像计算一个5天的天气预报,比如P(p,p,c,r,s),我们可以使用贝叶斯公式来把联合概率分解成一系列条件概率:
p(X1,X2,X3,X4,X5)=p(X5|X4,X3,X2,X1)p(X4|X3,X2,X1)p(X3|X2,X1)p(X2|X1)p(X1)
我们假设这是一阶马尔科夫模型,也就是某一天的天气只依赖于前一天的天气,也就是:
p(Xi|X1,…,Xi−1)=p(Xi|Xi−1)
使用上面的一阶假设,上面的概率可以简化为:
p(X1,X2,X3,X4,X5)=p(X5|X4)p(X4|X3)p(X3|X2)p(X2|X1)p(X1)=p(X1)∏i=25p(Xi|Xi−1)
因此,马尔科夫链的关键元素是状态的定义以及它们之间的跳转概率p(Xi|Xi−1)
——它表示的从一个状态跳转到另外一个状态(包括自己)的概率。
比如,天气预报的马尔科夫链可能如下图所示:
图:马尔科夫链
注意:除了跳转概率p(Xi|Xi−1)
,我们还需要知道初始状态的概率分布p(X1)
。我们假设初始状态的分布为:
p(p)=πp,p(c)=πc,p(r)=πr,p(s)=πs
有了状态的跳转概率和初始状态的概率,我们就可以计算P(p,p,c,r,s):
p(p,p,c,r,s)=p(s|r,c,p,p)p(r|c,p,p)p(c|p,p)p(p|p)p(p)=p(s|r)p(r|c)p(c|p)p(p|p)p(p)