离线语音控制 | CSDN语音

1 分类

从线上线下角度划分，也就是是否需要互联网，分为线上识别和离线识别；从软件实现和硬件实现角度划分的话，有现成的产品（网上一搜一大堆），有现成的模组（同样一搜一大堆），还有各大厂、各团队发布的 SDK 或相关的语音项目（仍然一搜一大堆）。

2 离线开源语音项目的选择

本人搞了一个 dragoncar （就是一个wifi 控制的小车），想添加语音控制的功能，为什么要添加这个功能呢，就是“玩呗”。

为什么采用离线语音控制呢？个人感觉自己的数据能放在自己家尽量放在自己家。

为什么采用开源语音项目进行语音控制呢？一是成本，二是可扩展性。

那么，众多的离线开源语音项目选哪个好呢？几个维度，需要有大厂维护或推荐的，项目文档不能写得太差的，网上有群众基础的，安装使用方便的，系统消耗小的，准确度高的，延迟低的… 说了一大堆，到底怎么选呢？一个办法，那么多的项目，一个一个试吧，感觉哪个好就用哪个了。说了一大堆，这不是废话嘛，没办法，因为没有十全十美的东西，并且每个人的倾向性也不一样，所以只能凭自己的感觉了。

本人选择的项目是 vosk-api ，优点是支持中文，准确率高；缺点就是 pi 4 上面使用有差不多 3s 的延迟。

项目名称：vosk-api
vosk 项目链接：https://github.com/alphacep/vosk-api
vosk 项目文档：https://alphacephei.com/vosk/
预训练模型：https://alphacephei.com/vosk/models

3 vosk 的安装使用

安装使用方面，项目文档写的很详细，在此简单介绍一下 python3 下的安装使用。

安装：

pip3 install vosk

使用：

git clone https://github.com/alphacep/vosk-api.git
cd vosk-api/python/example
wget -c https://alphacephei.com/vosk/models/vosk-model-small-cn-0.3.zip
unzip vosk-model-small-cn-0.3.zip
mv vosk-model-small-cn-0.3 model
python3 ./test_simple.py test.wav

注意：测试的音频文件要使用 16khz 的文件；根据不同的语言选择不同的语言模型