1 简介
本文根据《Investigation of Modeling Units for Mandarin Speech Recognition Using Dfsmn-ctc-smbr》翻译总结。采用DFSMN-CTC-SMBR进行普通话语音识别。
一般一个声学模型包括3个关键部分,分别是:神经网络、声学模型单元、优化目标函数。
本文采用DFSMN-CTC-SMBR,即神经网络是DFSMN,目标函数是CTC与SMBR。声学模型采用的是hybrid Character-Syllable,包括常见的中文字符和音节。
DFSMN之前,经常用的神经网络是LSTM-RNN。
2 DFSMN-CTC-SMBR
2.1 DFSMN
DFSMN是FSMN的改进,引入的skip连接和记忆跨越。如下图红色虚线部分。
2.2 CTC
Connectionist temporal classification (CTC)
可参考我以前的博客CTC
2.3 SMBR
CTC是帧级别的识别训练标准,它对于单词级别错误率(WER,word error rate)最小化是次优的。
在CTC训练的模型基础上,可以用序列级别(sequence-level discriminative)的识别训练进一步优化,比如sMBR(state-level minimum Bayes risk)。
帧级别:cross-entropy (CE) 。
序列级别:maximum mutual information (MMI)
3 普通话的声学模型单元
声学模型单元的选择对于普通话的识别是重要的。普通话也是音节语言,每一个中文字符都可以用一个音节(syllable)表示。而且,每个中文音节也有Initial/Final (IF)结构。我们实验用了1319个音调音节(tonal syllable)。我们实验用的一些声学模型如下:
4 实验结果
如下表,可以看到DFSMN-CTC-SMBR模型效果很好。
latency-controlled BLSTM (LCBLSTM)。
character error rate (CER in %):字符错误率。
采用更长时间的帧的结果如下,虽然CER有所上升,但RTF变小了。
实时率(RTF,real time factor)是一个常用于度量自动语音识别系统解码速度的值。如果处理一段长度为a的音频信号需要花费时间b,则实时率为b/a。比方说如果处理一段长度为2小时的音频花了8个小时,则实时率为8/2=4。当实时率等于或小于1时我们说该处理是实时的。