智能家居作为物联网最重要的应用场景之一被越来越多的用户所认可。特别是语音识别等人工智能技术的融入将智能家居带入A-IoT时代。但在一些应用场景下,智能家居的简单操控并不需要联网控制,为了能够实现更好的人机交互,由用户本地操控将更加方便,因此离线语音技术也为用户体验增色不少。同时针对实现离线语音识别的IC而言,面对如今复杂的使用场景也提出了更高的要求,这也对厂商提出了新的挑战。
针对性方案解决离线语音识别口音及环境噪声问题
在语音识别领域中,有许多情况下用户会发现语音识别的准确率并不高,即使在如今的在线语音识别中,需要进行实时转写也没有到令人满意的层度,这还是在基于云端强大运算的基础上。
对于离线语音而言,由于其指令相对固定,因此只需对相应语音指令集进行处理,这对于离线语音识别IC的处理能力要求并不高,但这并不意味着离线语音识别是一件非常容易的技术。在实际使用过程中,还可能遇到用户口音及环境噪音等问题,如何将离线语音识别做好还需要厂家进行针对性的调试。

对此,《华强电子》记者采访到深圳唯创知音电子有限公司研发总工程师张兴琪,他表示:“对于用户口音的问题,可以选择不同的语音模型来处理,如果产品需要销往全国各地,那么可以使用音素模型,音素模型已经采集过较多的录音样本,对各地口音的处理相对比较平均;如果产品只需要销往某个地区(例如湖南、贵州),可以使用整词模型,整词模型只采集该地区的录音样本进行训练,那么对于该地区,语音识别IC的辨识率将会达到一个很好的效果。”
随后,张兴琪表示:“一般我们推荐用户使用音素模型的方式,像我们的WTK6900B、WTK6900C系列的IC,在3米左右的距离都能达到一个很好的效果,当然如果需要更远距离的一个辨识方案,就需要使用支持神经网络架构的IC,采集足够的语音库,像我们的WTK6900F芯片,支持远场拾音,10米距离能够达到90%以上的辨识率。”

上海华镇电子科技有限公司总经理朱建强则从系统性出发,阐述了离线语音识别如何有效的进行工作:“目前的离线语音识别是一套完整的系统,包括了声学前端处理算法(远场拾音、麦阵、语音增强、波束成型、降噪、回声抑制等)和语音识别算法,环境中的噪音,通过声学前端处理,处理后干净的声音再送到语音识别引擎里处理,确保唤醒识别的准确性。误唤醒这一块,目前华镇的语音唤醒引擎通过了百度测试规范严苛的测试,误唤醒可以做到<4次/24小时。”
可以看到,目前厂商对于离线语音识别已经有了非常成熟的解决方案。针对口音问题可以采用不同的语音模型来解决,如果在全国发行,可以采用音素模型,而只针对某地发售,则可以采用整词模型。至于噪音干扰,可以先经过声学前端,在送入语音识别引擎进行处理,能够有效降低噪音干扰,提升识别准确率。
深度神经网络语音识别技术 帮助厂商快速完成指令词调试
虽然针对语音唤醒指令做了针对性的调试,但离线语音模块中还拥有数量众多的操作性指令,如果与唤醒词一样做特别训练将极大地增加厂商的工作量,同时在成本上也并不划算。
张兴琪对此表示:“对于语音命令词较多的用户,我们推荐使用目前最先进的深度神经网络语音识别技术,从语音输入开始,语音检测,语音特征提取及DNN运算完全采用硬件架构设计,软件主要进行语音解码,实现了高识别率、高实时性,在一般情况下,效果可达直接商用的程度。”

华镇方面也给出了类似的解决方案,朱建强认为:“华镇的语音识别引擎采用了TDNN的语法识别算法,后台有完整的声学模型(训练了各种口音、各个年龄层的普通话的远近场录音),大词汇量的识别指令,文字编辑后和声学模型生成语法文件,语音识别时,到语法文件中去做搜索,所以修改指令会非常方便。华镇的语音大脑6291模组,支持用户动态更新识别指令集。”
在面对大量指令词时,采用TDNN、DNN等语音识别算法,与完备的语法文件相结合,将能快速的让众多指令词达到可商用程度,后续也能通过一些语音大脑模组,进行动态更新识别指令集,保证离线识别的准确率。
算法迭代与集成化将有效降低离线识别IC成本
由于离线语音IC中通常集成了自身的语音库,虽然可以更为方便的使用户通过语音控制设备,但同时也增加了硬件成本。但通常在很多时候,性价比往往成为厂商在采购离线语音IC的首选条件,如果能够在不降低语音识别IC性能的前提上再降低成本,那么将更加受到厂商的青睐。
朱建强认为目前可以从几个方面入手降低离线语音IC的成本,成本的下降有很多关键因素,主要是芯片,外围的电路也很重要,还有就是算法的演进,占用的算力会越来越少。如今芯片集成度越来越高,集成了ADC/DAC/RAM/ROM,外围电路会比较简单,整体BOM成本也会很低。算法的迭代和成熟,许多需要消耗大量算力的计算,可以通过语音识别专用芯片里的硬件加速来完成(比如DSP、NPU),这些配合算法的专用语音识别芯片的出现,也会进一步降低成本。

唯创知音方面也提出了类似的解决方案,张兴琪认为:“在不影响语音识别IC性能的情况下,用户可将MCU功能集成到语音识别IC上,不需要解码语音播放的,可以去掉外部存储器,我们会根据客户的需求推荐最合适的方案,比如眼部按摩器、颈部按摩器等产品,不同词条数、不同应用场景。我们有完整的一套解决方案,能够有效降低客户成本。”
由于离线语音指令相对较短,因此在ROM上也可以进行更具成本性的选择,张兴琪表示:“智能家居使用场景中对成本要求比较低,词条命令少的可以选择OTP ROM,在词条与播放内容都较多,且需要更换词条的可以选择FLASH ROM。”
在智能家居语音提示时间长度上,朱建强认为:“目前语音控制智能家居场景里,提示音部分都是存储在Flash里,每句提示音都相对较短,通常在5秒以内。”
当前集成化成为离线语音识别IC降低成本的首要选择,比如将MCU功能集成在语音识别IC上,可以极大地精简整体BOM成本,而在ROM的选择上,词条命令较少的可以选择OTP ROM,词条相对较多的可以选择Flash。同时算法的迭代优化,将有效的减少算力需求,从侧面降低离线语音识别IC的成本。
5G技术对智能家居市场影响深刻 离线与在线融合成必然趋势
目前可以看到,在智能家居使用场景中,用户不仅希望能够通过语音对智能产品进行控制,同时还希望能够有联动效应,即通过对某个智能产品下达语音指令后,达到控制另一个智能家居的效果。而在未来,离线语音识别又将向何发展?
针对通过离线语音来控制其他设备的设想,朱建强表示可以采用这些方案来实现,“集成有离线语音识别芯片的设备控制其他设备时,目前主要是通过外置IoT模组来实现,比如Wi-Fi、BLE、RF433、Zigbee、红外、2.4G等,以后的发展趋势,离线语音识别+IoT会逐步融合,硬件上集成在一起,也就是最近大家热炒的AIoT方案。”

面对未来离线语音的发展时,尤其在5G时代离线语音又将如何跟进,张兴琪认为:“人工智能以及5G已经形成了一个趋势,但从目前来看,支持在线的设备以及5G资费都比较昂贵,未来几年虽然会有一定的冲击,但问题不会太大,5G主要还是在智能家居以及汽车电子行业影响比较大。当然,随着人工智能以及5G技术的发展,我们也会跟紧脚步,像我们正在研发的手机识别技术,它将打破对于传统手机识别的理解,相信在未来也会占据一席之地。”
朱建强表示认同:“随着5G的到来,网络端处理速度会越来越快,芯片端的处理是否还需要,以华镇的观察,不管是离线识别还是云端在线识别,都需要前端声学处理,随着离线识别芯片处理能力越来越强,边缘计算的普及,会进一步加快离线在线的融合,常用的语音指令控制(离线识别)+复杂语音交互(云端识别),实现离在线识别是最优的方案。”
5G的普及已近在咫尺,这显然会对智能家居市场造成较大影响,但由于5G资费相对昂贵,一直保持在线语音将造成较高的功耗,使用离线语音唤醒,再用在线语音解析已成为当前的趋势。同时,随着离线识别IC处理能力的加强及边缘计算的普及,都将进一步促使离线与在线的融合。