(以下内容搬运自 PaddleSpeech)

PP-ASR

目录

  • 1. 简介
  • 2. 特点
  • 3. 使用教程
    • 3.1 预训练模型
    • 3.2 模型训练
    • 3.3 模型推理
    • 3.4 服务部署
    • 3.5 支持个性化场景部署
  • 4. 快速开始

1. 简介

PP-ASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练,并且支持使用命令行的方式进行模型的推理。 PP-ASR 也支持流式模型的部署,以及个性化场景的部署。

2. 特点

语音识别的基本流程如下图所示:

PP-ASR 的主要特点如下:

  • 提供在中/英文开源数据集 aishell (中文),wenetspeech(中文),librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。
  • 支持中/英文的模型训练功能。
  • 支持命令行方式的模型推理,可使用 paddlespeech asr --model xxx --input xxx.wav 方式调用各个预训练模型进行推理。
  • 支持流式 ASR 的服务部署,也支持输出时间戳。
  • 支持个性化场景的部署。

3. 使用教程

3.1 预训练模型

支持的预训练模型列表:released_model。
其中效果较好的模型为 Ds2 Online Wenetspeech ASR0 Model 以及 Conformer Online Wenetspeech ASR1 Model。 两个模型都支持流式 ASR。
更多关于模型设计的部分,可以参考 AIStudio 教程:

  • Deepspeech2
  • Transformer

3.2 模型训练

模型的训练的参考脚本存放在 examples 中,并按照 examples/数据集/模型 存放,数据集主要支持 aishell 和 librispeech,模型支持 deepspeech2 模型和 u2 (conformer/transformer) 模型。
具体的执行脚本的步骤记录在 run.sh 当中。具体可参考: asr1

3.3 模型推理

PP-ASR 支持在使用pip install paddlespeech后 使用命令行的方式来使用预训练模型进行推理。

具体支持的功能包括:

  • 对单条音频进行预测
  • 使用管道的方式对多条音频进行预测
  • 支持 RTF 的计算

具体的使用方式可以参考: speech_recognition

3.4 服务部署

PP-ASR 支持流式ASR的服务部署。支持 语音识别 + 标点处理两个功能同时使用。

server 的 demo: streaming_asr_server

网页上使用 asr server 的效果展示:streaming_asr_demo_video

关于服务部署方面的更多资料,可以参考 AIStudio 教程:

  • 流式服务-模型部分
  • 流式服务

3.5 支持个性化场景部署

针对个性化场景部署,提供了特征提取(fbank) => 推理模型(打分库)=> TLG(WFST, token, lexion, grammer)的 C++ 程序。具体参考 speechx。
如果想快速了解和使用,可以参考: custom_streaming_asr

关于支持个性化场景部署的更多资料,可以参考 AIStudio 教程:

  • 定制化识别

4. 快速开始

关于如果使用 PP-ASR,可以看这里的 install,其中提供了 简单中等困难 三种安装方式。如果想体验 paddlespeech 的推理功能,可以用 简单 安装方式。

P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

PaddleSpeech 流式语音识别系统 PP-ASR相关推荐

  1. PaddleSpeech 流式语音合成系统 PP-TTS

    (以下内容搬运自 PaddleSpeech) PP-TTS 1. 简介 2. 特性 3. Benchmark 4. 效果展示 5. 使用教程 5.1 模型训练与推理优化 5.2 语音合成特色应用 5. ...

  2. 低延迟流式语音识别技术在人机语音交互场景中的实践

    美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案.本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型 ...

  3. GitHub 3.1K,业界首个流式语音合成系统开源!

    智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音技术的身影.智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要 ...

  4. GitHub 3.1K,业界首个流式语音合成系统开源

    本文已在飞桨公众号发布,查看链接戳: GitHub 3.1K,业界首个流式语音合成系统开源! 智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音 ...

  5. 端到端流式语音识别研究综述——语音识别(论文研读)

    端到端流式语音识别研究综述(2022.09) 摘要: 引言: 1 端到端流式语音识别模型 1.1 可直接实现流式识别的端到端模型 1.2 改进后可实现流式识别的端到端模型 1.2.1 基于单调注意力机 ...

  6. 完美解释:wenet-流式与非流式语音识别统一模型

    Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition[1] ,本文以该篇论文为主线, ...

  7. 基于Transformer的高效、低延时、流式语音识别模型

    从场景上,语音识别可以分为流式语音识别和非流式语音识别.非流式语音识别(离线识别)是指模型在用户说完一句话或一段话之后再进行识别,而流式语音识别则是指模型在用户还在说话的时候便同步进行语音识别.流式语 ...

  8. Bootstrap 流式栅格系统

    Bootstrap的默认栅格系统没有启用响应式布局,如果加入响应式布局的CSS文件bootstrap-responsive.css,栅格系统会自动根据视口(viewport)宽度,在 724px 到 ...

  9. PPASR流式与非流式语音识别

    前言 本项目将分三个阶段分支,分别是入门级 .进阶级 和最终级 分支,当前为最终级的V2版本,如果想使用最终级的V1版本,请在这个分支r1.x.PPASR中文名称PaddlePaddle中文语音识别( ...

最新文章

  1. c语言程序设计上机考试占多少分,C语言程序设计上机考试题目汇编.doc
  2. Swing组件集合的事件处理(四)
  3. c语言如何如何入门,程序员C语言新手如何入门?
  4. Web.sitemap网站导航
  5. Android开发之在任意Activity在广点通页面添加自定义布局在穿山甲页面添加任意布局
  6. JAVA泛型--待续
  7. R语言列表(list)与向量(numeric)的转换
  8. Android OpenGL ES 应用(二) 纹理
  9. 用GridView实现SPListItemCollection翻页
  10. EOS开发dApp前需要了解的五件事
  11. 正弦余弦算法的樽海鞘群算法
  12. 实际开发中implement与extend区别
  13. 黑科技VNET——最好用的Android抓包神器
  14. java界面加入图片_JAVA界面设计怎么插入背景图片。
  15. 思维导图超级学习力提升宝典
  16. 获得好资料都的渠道,老铁告别坑人的百度吧
  17. Shichikuji and Power Grid,CF597D,巧妙的模型
  18. Cris 的 Scala 笔记整理(九):面向对象高级
  19. MT6752/32平台 Android L版本驱动移植
  20. 服务器设置桌面快捷方式,Win7系统将IIS服务器发送到桌面快捷方式的方法

热门文章

  1. Windows XP超强50招
  2. html编辑器自定义脚本,我的自定义MAX脚本编辑器,代码高亮功能
  3. PostgreSQL下载安装教程细心版
  4. 雨润oa系统服务器 e-mobile,泛微OA系统e-mobile让办公更安全
  5. 影牛社区短视频APP源码/最火短视频类APP源码下载
  6. 电子产品历史价格怎么查?
  7. WAMP and WordPress Install on AWS Free Tier Windows 2012 R2
  8. php 控制304,php静态文件返回304技巧分享,_PHP教程
  9. WrapPanel在不同页面渲染使用
  10. 初中生学编程杂谈(1)