【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】

环境：Win11x64+Vscode+Python3.7.2x64+Pytorch1.9(CPU or GPU)
本文默认Win11，Win10 100%素可以得，默认向下兼容！

首先，你得把Vscode弄好(python 插件安装)，py环境搭好，我们用默认得base py环境即可，当然，你也可以在conda创建py环境

然后在https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main，下载

下载完自己改文件名以及后缀，改得和这个框内一模一样的（必须）！
然后vscode创建py工程文件夹，在里面新建pretrained_models/asr-transformer-aishell文件夹，把下载的全部丢进去：

pip安装环境：
pip install speechbrain
PS：这个命令会安装90%的环境(默认安装 cup版 Pytorch)，但是还有一个没得装，就是torchaudio后端，因为这个torchaudio就是一个套壳api，所以手动安装SoundFile或SoX后端，如果已安装可以跳过
pip install SoundFile
or
pip install sox

然后。。。

参考谷歌在线代码编辑器
https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=OKI0SovKtbZm

我们创建py脚本：

from speechbrain.pretrained import EncoderDecoderASR
import torch
import torchaudio# https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main
# https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=PPB0K9z3B43c
//PS：CPU版本和GPU版本Pytorch加载参数不同，具体参考下面谷歌在线代码
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-aishell", savedir="pretrained_models/asr-transformer-aishell")
# asr_model.transcribe_file("speechbrain/asr-transformer-aishell/example_mandarin.wav")audio_1 = "F:/CSharpProject/KaldiDemo/KaldiDemo/bin/x64/Release/妹妹就是爱.flac"
#error:No audio IO backend is available
#安装SoundFile : 运行指令 pip install SoundFile
#or者安装SoX ： 运行指令： pip install sox
ddd=torchaudio.list_audio_backends()
print(ddd)
snt_1, fs = torchaudio.load(audio_1)
wav_lens=torch.tensor([1.0])
print('snt_1:',snt_1," wav_lens:",wav_lens)
res=asr_model.transcribe_batch(snt_1, wav_lens)print('res:',res)

#对于用GPU版pytorch的小伙伴，加载模型可以参考以下代码
# Uncomment for using another pre-trained model
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-rnnlm-librispeech", savedir="pretrained_models/asr-crdnn-rnnlm-librispeech",  run_opts={"device":"cuda"})
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-transformerlm-librispeech", savedir="pretrained_models/asr-crdnn-transformerlm-librispeech",  run_opts={"device":"cuda"})
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-transformerlm-librispeech", savedir="pretrained_models/asr-transformer-transformerlm-librispeech",  run_opts={"device":"cuda"})

PS：这个识别效率还是灰常高的，在cpu下都很快，gpu应该会更快！
如果你素这样类似得输出，那么恭喜你，你の手中已经抓住了未来

完整代码和模型文件我已经上传群共享和CSDN，想学习的进群，不想的自己TB几毛钱买个代下即可
https://download.csdn.net/download/weixin_44029053/32726942
安装好pytorch和Python环境，vscode设置Python程序根目录直接运行，不需要改任何代码

下一步，我们要用这个来训练我们的唤醒词，进行语音唤醒实战，敬请期待我的博客，记得三连（没有）！

PS：本人并非语音方面专业人士，不过也在学习，大家可以加群一起探讨一下，集思广益，群号：558174476（游戏与人工智能生命体）

【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】相关推荐

Win10 IIS本地部署网站运行时图片和样式不正常？
后期会在博客首发更新:http://dnt.dkill.net 异常处理汇总-服务器 http://www.cnblogs.com/dunitian/p/4522983.html 启用关闭win功 ...
Win10 IIS本地部署MVC网站时不能运行？
异常处理汇总-服务器 http://www.cnblogs.com/dunitian/p/4522983.html 部署后出现这个错误: 打开文件目录后发现是可以看见目录的,静态页面也是可以打开的 ...
Windows 11 上从零开始基于 wsl-ubuntu 搭建 AI 学习环境及部署多种私有 ChatGPT
Windows 11 上从零开始基于 wsl-ubuntu 搭建 AI 学习环境及部署多种私有 ChatGPT 0. 背景和简介 1. 安装 wsl-ubuntu 2. (可选)配置清华大学软件源 3 ...
中文语音识别引擎，盘点中国语音识别技术公司排名
计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤.云从.依图.旷视这样的"图像四小龙".而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业. ...
PPASR中文语音识别（入门级）
PPASR语音识别(入门级) 本项目将分三个阶段分支,分别是入门级.进阶级和应用级分支,当前为入门级,随着级别的提升,识别准确率也随之提升,也更适合实际项目使用,敬请关注! PPASR基于Paddle ...
实战：基于tensorflow 的中文语音识别模型 | CSDN博文精选
作者 | Pelhans 来源 | CSDN博客目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单.而百度在PaddlePaddle上的 Deepspeech2 实现功能 ...
基于深度学习的中文语音识别系统框架（pluse）
目录声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...
依图做语音了！识别精度创中文语音识别新高点
新智元报道编辑:闻菲 [新智元导读]依图强势进军智能语音,联合微软发布语音开放云平台,携手华为发布软硬件一体化的智能语音联合解决方案.依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错 ...
基于深度学习的中文语音识别系统框架搭建
基于深度学习的中文语音识别系统框架转自@https://blog.csdn.net/chinatelecom08/article/details/82557715 本文搭建一个完整的中文语音识别系统 ...

【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】

【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】相关推荐

最新文章

热门文章