为了表述方便,很多文献也常常把普通话的声韵母归为音素级别。 音素的上下文会对当前中心音素的发音产生影响,使当前音素的声学信号发生协同变化,这与该音素的单独发音有所不同。单音素建模没有考虑这种协同发音效应,为了考虑该影响,实际操作中需要使用上下文相关的音素(也被称为三音子作为基本单元进行声学建模,即考虑当前音素的前个音素和后个音素,使得模型描述更加精准。 对三音子进行精细建模 黎巴嫩电报数据库 需要大量的训练数据,而实际上对于某些三音子而言数据很难获得,同时精细建模导致模型建模单元数量巨大,例如,音素表有个音素,则需要的三音子总数为:=,模型参数显然急剧增加。
因此,严格意义上的三音子
精细建模不太现实,往往通过状态绑定策略来减小建模单元数目,典型的绑定方法有模型绑定、决策树聚下面将着重介绍三类声学模型,包括基于-的声学模型、基于-的声学模型以及端到端模型。 基于-的声学模型是种统计分析模型,它是在马尔可夫链 它能让你专注于更重要的事情 的基础上发展起来的,用来描述双重随机过程。的理论基础在年前后由等人建立,随后由的和的等人应用到语音识别中,..和.等人进步推动了的应用和发展。有算法成熟、效率高、易于训练等优点,自世纪年代开始,被广泛应用于语音识别、手写字识别和天气预报等多个领域,目前仍然是语音识别中的主流技术。
基于-的声学模型尽管具
有拟合任意复杂分布的能力,但它也有个严重的缺陷,即对非线性数据建模效率低下。因此,很表提 选择加入列表 炼久以前相关研究人员提出采用人工神经网络代替,建模状态后验概率。但是由于当时计算能力有限,很难训练两层以上的神经网络模型,所以其带来的性能改善非常微弱。世纪以来,机器学习算法和计算机硬件的发展使得训练多 隐层的神经网络成为可能。实践表明,在各种大型数据集上都取得了远超过的识别性能。因此,-替代-成为目前主流的声学建模框架。