来源:so.csdn.net
发布时间:Nov 25, 2020, 7:17:16 AM
原地址:https://blog.csdn.net/bibo1984/article/details/110108886
1 分类
从线上线下角度划分,也就是是否需要互联网,分为线上识别和离线识别;从软件实现和硬件实现角度划分的话,有现成的产品(网上一搜一大堆),有现成的模组(同样一搜一大堆),还有各大厂、各团队发布的 SDK 或相关的语音项目(仍然一搜一大堆)。
2 离线开源语音项目的选择
本人搞了一个 dragoncar (就是一个wifi 控制的小车),想添加语音控制的功能,为什么要添加这个功能呢,就是“玩呗”。
为什么采用离线语音控制呢?个人感觉自己的数据能放在自己家尽量放在自己家。
为什么采用开源语音项目进行语音控制呢?一是成本,二是可扩展性。
那么,众多的离线开源语音项目选哪个好呢?几个维度,需要有大厂维护或推荐的,项目文档不能写得太差的,网上有群众基础的,安装使用方便的,系统消耗小的,准确度高的,延迟低的… 说了一大堆,到底怎么选呢?一个办法,那么多的项目,一个一个试吧,感觉哪个好就用哪个了。说了一大堆,这不是废话嘛,没办法,因为没有十全十美的东西,并且每个人的倾向性也不一样,所以只能凭自己的感觉了。
本人选择的项目是 vosk-api ,优点是支持中文,准确率高;缺点就是 pi 4 上面使用有差不多 3s 的延迟。
项目名称:vosk-api
vosk 项目链接:https://github.com/alphacep/vosk-api
vosk 项目文档:https://alphacephei.com/vosk/
预训练模型:https://alphacephei.com/vosk/models
3 vosk 的安装使用
安装使用方面,项目文档写的很详细,在此简单介绍一下 python3 下的安装使用。
安装:
pip3 install vosk
使用:
git clone https://github.com/alphacep/vosk-api.git
cd vosk-api/python/example
wget -c https://alphacephei.com/vosk/models/vosk-model-small-cn-0.3.zip
unzip vosk-model-small-cn-0.3.zip
mv vosk-model-small-cn-0.3 model
python3 ./test_simple.py test.wav
注意:测试的音频文件要使用 16khz 的文件;根据不同的语言选择不同的语言模型