【更好的中文语音识别SpeechBrain Win10/11本地部署,基于Aishell】
环境:Win11x64+Vscode+Python3.7.2x64+Pytorch1.9(CPU or GPU)
本文默认Win11,Win10 100%素可以得,默认向下兼容!
首先,你得把Vscode弄好(python 插件安装),py环境搭好,我们用默认得base py环境即可,当然,你也可以在conda创建py环境
然后在https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main,下载
下载完自己改文件名以及后缀,改得和这个框内一模一样的(必须)!
然后vscode创建py工程文件夹,在里面新建pretrained_models/asr-transformer-aishell文件夹,把下载的全部丢进去:
pip安装环境:
pip install speechbrain
PS:这个命令会安装90%的环境(默认安装 cup版 Pytorch),但是还有一个没得装,就是torchaudio后端,因为这个torchaudio就是一个套壳api,所以手动安装SoundFile或SoX后端,如果已安装可以跳过
pip install SoundFile
or
pip install sox
然后。。。
参考谷歌在线代码编辑器
https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=OKI0SovKtbZm
我们创建py脚本:
from speechbrain.pretrained import EncoderDecoderASR
import torch
import torchaudio# https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main
# https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=PPB0K9z3B43c
//PS:CPU版本和GPU版本Pytorch加载参数不同,具体参考下面谷歌在线代码
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-aishell", savedir="pretrained_models/asr-transformer-aishell")
# asr_model.transcribe_file("speechbrain/asr-transformer-aishell/example_mandarin.wav")audio_1 = "F:/CSharpProject/KaldiDemo/KaldiDemo/bin/x64/Release/妹妹就是爱.flac"
#error:No audio IO backend is available
#安装SoundFile : 运行指令 pip install SoundFile
#or者安装SoX : 运行指令: pip install sox
ddd=torchaudio.list_audio_backends()
print(ddd)
snt_1, fs = torchaudio.load(audio_1)
wav_lens=torch.tensor([1.0])
print('snt_1:',snt_1," wav_lens:",wav_lens)
res=asr_model.transcribe_batch(snt_1, wav_lens)print('res:',res)
#对于用GPU版pytorch的小伙伴,加载模型可以参考以下代码
# Uncomment for using another pre-trained model
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-rnnlm-librispeech", savedir="pretrained_models/asr-crdnn-rnnlm-librispeech", run_opts={"device":"cuda"})
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-transformerlm-librispeech", savedir="pretrained_models/asr-crdnn-transformerlm-librispeech", run_opts={"device":"cuda"})
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-transformerlm-librispeech", savedir="pretrained_models/asr-transformer-transformerlm-librispeech", run_opts={"device":"cuda"})
PS:这个识别效率还是灰常高的,在cpu下都很快,gpu应该会更快!
如果你素这样类似得输出,那么恭喜你,你の手中已经抓住了未来
完整代码和模型文件我已经上传群共享和CSDN,想学习的进群,不想的自己TB几毛钱买个代下即可
https://download.csdn.net/download/weixin_44029053/32726942
安装好pytorch和Python环境,vscode设置Python程序根目录直接运行,不需要改任何代码
下一步,我们要用这个来训练我们的唤醒词,进行语音唤醒实战,敬请期待我的博客,记得三连(没有)!
PS:本人并非语音方面专业人士,不过也在学习,大家可以加群一起探讨一下,集思广益,群号:558174476(游戏与人工智能生命体)
【更好的中文语音识别SpeechBrain Win10/11本地部署,基于Aishell】相关推荐
- Win10 IIS本地部署网站运行时图片和样式不正常?
后期会在博客首发更新:http://dnt.dkill.net 异常处理汇总-服 务 器 http://www.cnblogs.com/dunitian/p/4522983.html 启用关闭win功 ...
- Win10 IIS本地部署MVC网站时不能运行?
异常处理汇总-服 务 器 http://www.cnblogs.com/dunitian/p/4522983.html 部署后出现这个错误: 打开文件目录后发现是可以看见目录的,静态页面也是可以打开的 ...
- Windows 11 上从零开始基于 wsl-ubuntu 搭建 AI 学习环境及部署多种私有 ChatGPT
Windows 11 上从零开始基于 wsl-ubuntu 搭建 AI 学习环境及部署多种私有 ChatGPT 0. 背景和简介 1. 安装 wsl-ubuntu 2. (可选)配置清华大学软件源 3 ...
- 中文语音识别引擎,盘点中国语音识别技术公司排名
计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤.云从.依图.旷视这样的"图像四小龙".而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业. ...
- PPASR中文语音识别(入门级)
PPASR语音识别(入门级) 本项目将分三个阶段分支,分别是入门级.进阶级和应用级分支,当前为入门级,随着级别的提升,识别准确率也随之提升,也更适合实际项目使用,敬请关注! PPASR基于Paddle ...
- 实战:基于tensorflow 的中文语音识别模型 | CSDN博文精选
作者 | Pelhans 来源 | CSDN博客 目前网上关于tensorflow 的中文语音识别实现较少,而且结构功能较为简单.而百度在PaddlePaddle上的 Deepspeech2 实现功能 ...
- 基于深度学习的中文语音识别系统框架(pluse)
目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...
- 依图做语音了!识别精度创中文语音识别新高点
新智元报道 编辑:闻菲 [新智元导读]依图强势进军智能语音,联合微软发布语音开放云平台,携手华为发布软硬件一体化的智能语音联合解决方案.依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错 ...
- 基于深度学习的中文语音识别系统框架搭建
基于深度学习的中文语音识别系统框架 转自@https://blog.csdn.net/chinatelecom08/article/details/82557715 本文搭建一个完整的中文语音识别系统 ...
最新文章
- from torch._C import * ImportError: DLL load failed: 找不到指定的模块。
- 多线程:interrupted、isinterrupted区别
- Hadoop新手篇:hadoop入门基础教程
- 开源好用的思维导图软件XMind
- 4/2上海DevDays2004
- nyoj 600——花儿朵朵——【离散化、线段树插线问点】
- 集合的洗牌,排序,拆分以及常用遍历方法
- Java集合源码解读(一):集合总体框架
- 交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结
- 机器人领域 期刊与会议
- ABAP如何获取当前月的第一天和最后一天
- 熔断漏洞和幽灵漏洞_崩溃和幽灵:发现新的英特尔CPU漏洞
- 2022跨年烟花代码(三)HTML5点击页面烟花绽放特效
- Tushare如何获取股票历史交易数据
- CISSP第二章 信息安全治理与风险管理
- JAVA处理Excel的三种实现方式(二)
- html 晃动图标动画,SVG+CSS3 摇晃的铃铛动画图标
- python txt文件读写 pandas_Python数据分析之Pandas读写外部数据文件!
- github问题记录:Failed to connect to github.com port 443: Timed out
- 什么是用户体验地图?该如何绘制?
热门文章
- YOLOv5改进、YOLOv7改进IoU损失函数:YOLOv7涨点Trick,改进添加SIoU损失函数、EIoU损失函数、GIoU损失函数、α-IoU损失函数
- 教育心理学期末备考【更新】
- 4款免费邮件服务器软件
- 基于matlab的频率特性测试仪,基于MATLAB的频率特性测试仪_终稿
- 桌面图标上有个白框解决方案
- sci-hub常用地址
- 遥感影像计算机解译各种方法,遥感信息提取方法分类 - 高分一号、高分二号卫星查询遥感数据购买 - 新闻资讯 - 遥感卫星影像数据查询中心-北京揽宇方圆-购买高分卫星影像...
- 【正则表达式】解析numeral的千位分隔符
- 阿里云直播在实际使用中的一些坑(持续更新中...)
- 关于辛普森积分法的研究