环境:Win11x64+Vscode+Python3.7.2x64+Pytorch1.9(CPU or GPU)
本文默认Win11,Win10 100%素可以得,默认向下兼容!

首先,你得把Vscode弄好(python 插件安装),py环境搭好,我们用默认得base py环境即可,当然,你也可以在conda创建py环境

然后在https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main,下载

下载完自己改文件名以及后缀,改得和这个框内一模一样的(必须)!
然后vscode创建py工程文件夹,在里面新建pretrained_models/asr-transformer-aishell文件夹,把下载的全部丢进去:

pip安装环境:
pip install speechbrain
PS:这个命令会安装90%的环境(默认安装 cup版 Pytorch),但是还有一个没得装,就是torchaudio后端,因为这个torchaudio就是一个套壳api,所以手动安装SoundFile或SoX后端,如果已安装可以跳过
pip install SoundFile
or
pip install sox

然后。。。

参考谷歌在线代码编辑器
https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=OKI0SovKtbZm

我们创建py脚本:

from speechbrain.pretrained import EncoderDecoderASR
import torch
import torchaudio# https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main
# https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=PPB0K9z3B43c
//PS:CPU版本和GPU版本Pytorch加载参数不同,具体参考下面谷歌在线代码
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-aishell", savedir="pretrained_models/asr-transformer-aishell")
# asr_model.transcribe_file("speechbrain/asr-transformer-aishell/example_mandarin.wav")audio_1 = "F:/CSharpProject/KaldiDemo/KaldiDemo/bin/x64/Release/妹妹就是爱.flac"
#error:No audio IO backend is available
#安装SoundFile : 运行指令 pip install SoundFile
#or者安装SoX : 运行指令: pip install sox
ddd=torchaudio.list_audio_backends()
print(ddd)
snt_1, fs = torchaudio.load(audio_1)
wav_lens=torch.tensor([1.0])
print('snt_1:',snt_1," wav_lens:",wav_lens)
res=asr_model.transcribe_batch(snt_1, wav_lens)print('res:',res)
#对于用GPU版pytorch的小伙伴,加载模型可以参考以下代码
# Uncomment for using another pre-trained model
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-rnnlm-librispeech", savedir="pretrained_models/asr-crdnn-rnnlm-librispeech",  run_opts={"device":"cuda"})
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-transformerlm-librispeech", savedir="pretrained_models/asr-crdnn-transformerlm-librispeech",  run_opts={"device":"cuda"})
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-transformerlm-librispeech", savedir="pretrained_models/asr-transformer-transformerlm-librispeech",  run_opts={"device":"cuda"})


PS:这个识别效率还是灰常高的,在cpu下都很快,gpu应该会更快!
如果你素这样类似得输出,那么恭喜你,你の手中已经抓住了未来

完整代码和模型文件我已经上传群共享和CSDN,想学习的进群,不想的自己TB几毛钱买个代下即可
https://download.csdn.net/download/weixin_44029053/32726942
安装好pytorch和Python环境,vscode设置Python程序根目录直接运行,不需要改任何代码

下一步,我们要用这个来训练我们的唤醒词,进行语音唤醒实战,敬请期待我的博客,记得三连(没有)!

PS:本人并非语音方面专业人士,不过也在学习,大家可以加群一起探讨一下,集思广益,群号:558174476(游戏与人工智能生命体)

【更好的中文语音识别SpeechBrain Win10/11本地部署,基于Aishell】相关推荐

  1. Win10 IIS本地部署网站运行时图片和样式不正常?

    后期会在博客首发更新:http://dnt.dkill.net 异常处理汇总-服 务 器 http://www.cnblogs.com/dunitian/p/4522983.html 启用关闭win功 ...

  2. Win10 IIS本地部署MVC网站时不能运行?

    异常处理汇总-服 务 器 http://www.cnblogs.com/dunitian/p/4522983.html 部署后出现这个错误: 打开文件目录后发现是可以看见目录的,静态页面也是可以打开的 ...

  3. Windows 11 上从零开始基于 wsl-ubuntu 搭建 AI 学习环境及部署多种私有 ChatGPT

    Windows 11 上从零开始基于 wsl-ubuntu 搭建 AI 学习环境及部署多种私有 ChatGPT 0. 背景和简介 1. 安装 wsl-ubuntu 2. (可选)配置清华大学软件源 3 ...

  4. 中文语音识别引擎,盘点中国语音识别技术公司排名

    计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤.云从.依图.旷视这样的"图像四小龙".而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业. ...

  5. PPASR中文语音识别(入门级)

    PPASR语音识别(入门级) 本项目将分三个阶段分支,分别是入门级.进阶级和应用级分支,当前为入门级,随着级别的提升,识别准确率也随之提升,也更适合实际项目使用,敬请关注! PPASR基于Paddle ...

  6. 实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选

    作者 | Pelhans 来源 | CSDN博客 目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单.而百度在PaddlePaddle上的 Deepspeech2 实现功能 ...

  7. 基于深度学习的中文语音识别系统框架(pluse)

    目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...

  8. 依图做语音了!识别精度创中文语音识别新高点

    新智元报道 编辑:闻菲 [新智元导读]依图强势进军智能语音,联合微软发布语音开放云平台,携手华为发布软硬件一体化的智能语音联合解决方案.依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错 ...

  9. 基于深度学习的中文语音识别系统框架搭建

    基于深度学习的中文语音识别系统框架 转自@https://blog.csdn.net/chinatelecom08/article/details/82557715 本文搭建一个完整的中文语音识别系统 ...

最新文章

  1. from torch._C import * ImportError: DLL load failed: 找不到指定的模块。
  2. 多线程:interrupted、isinterrupted区别
  3. Hadoop新手篇:hadoop入门基础教程
  4. 开源好用的思维导图软件XMind
  5. 4/2上海DevDays2004
  6. nyoj 600——花儿朵朵——【离散化、线段树插线问点】
  7. 集合的洗牌,排序,拆分以及常用遍历方法
  8. Java集合源码解读(一):集合总体框架
  9. 交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结
  10. 机器人领域 期刊与会议
  11. ABAP如何获取当前月的第一天和最后一天
  12. 熔断漏洞和幽灵漏洞_崩溃和幽灵:发现新的英特尔CPU漏洞
  13. 2022跨年烟花代码(三)HTML5点击页面烟花绽放特效
  14. Tushare如何获取股票历史交易数据
  15. CISSP第二章 信息安全治理与风险管理
  16. JAVA处理Excel的三种实现方式(二)
  17. html 晃动图标动画,SVG+CSS3 摇晃的铃铛动画图标
  18. python txt文件读写 pandas_Python数据分析之Pandas读写外部数据文件!
  19. github问题记录:Failed to connect to github.com port 443: Timed out
  20. 什么是用户体验地图?该如何绘制?

热门文章

  1. YOLOv5改进、YOLOv7改进IoU损失函数:YOLOv7涨点Trick,改进添加SIoU损失函数、EIoU损失函数、GIoU损失函数、α-IoU损失函数
  2. 教育心理学期末备考【更新】
  3. 4款免费邮件服务器软件
  4. 基于matlab的频率特性测试仪,基于MATLAB的频率特性测试仪_终稿
  5. 桌面图标上有个白框解决方案
  6. sci-hub常用地址
  7. 遥感影像计算机解译各种方法,遥感信息提取方法分类 - 高分一号、高分二号卫星查询遥感数据购买 - 新闻资讯 - 遥感卫星影像数据查询中心-北京揽宇方圆-购买高分卫星影像...
  8. 【正则表达式】解析numeral的千位分隔符
  9. 阿里云直播在实际使用中的一些坑(持续更新中...)
  10. 关于辛普森积分法的研究