语音识别系统是深度学习生态中发展最成熟的领域之一。当前这一代的语音识别模型基本都是基于递归神经网络(Recurrent Neural Network)对声学和语言模型进行建模,以及用于知识构建的计算密集的特征提取流水线。虽然基于RNN的技术已经在语音识别任务中得到验证,但训练RNN网络所需要的大量数据和计算能力已经超出了大多数机构的能力范围。最近,Facebook的AI研究中心(FAIR)发表的一个研究论文,提出了一种新的单纯基于卷积神经网络(Convolutional Neural Network)的语音识别技术,而且提供了开源的实现wav2letter++,一个完全基于卷积模型的高性能的语音识别工具箱。

在深度学习领域,在语音识别系统中使用CNN并不新鲜,但是大部分应用都局限于特定的任务,而且通常与RNN结合起来构成完整的系统。但是当前CNN领域的研究表明只使用卷积神经网络也有潜力在语音识别的所有领域达到最高水平,例如机器翻译、存在长程依赖的语言模型的语音合成等。CNN模型与其他技术的最大优势在于它不需要额外而且昂贵的特征提取计算就可以天然地对诸如MFCC之类的标准特征计算进行建模。因此长久以来,深度学习社区一直都期待着在语音识别工作流中完全使用CNN,因为这要比目前的基于RNN的模型更高效也更富有竞争力。

全卷积语音识别架构

经过很多次实验,FAIR团队决定依赖于一个整合多个不同CNN层的架构来实现端对端的语音识别流水线,从音频波形处理到语言转录。该架构基于下图所示的散射模型:

模型的第一层CNN用来处理原始音频并提取一些关键特征;接下来的卷积声学模型是一个具有门限单元的CNN,可通过训练从音频流中预测字母;卷积语言模型层则根据来自声学模型的输入生成候选转录文本;最后环节的集束搜索(Beam-Search)编码器则完成最终的转录单词序列。

FAIR团队将其全卷积语音识别模型与最先进的模型进行了对比,它可以用少的多的训练数据达到基本一致的性能,测试结果令人满意因此FAIR团队决定开源该算法的初始实现。

Wav2letter++

虽然深度学习技术近期的进步促进了自动语音识别(Automatic Speech Recognition)框架和工具箱的增加。然而,全卷机语音识别模型的进步,激励了FAIR团队创建wav2letter++,一个完全使用C++实现的深度语音识别工具箱。wav2letter++的核心设计基于以下三个关键原则:

  1. 实现在包含成千上万小时语音数据集上的高效模型训练
  2. 简单可扩展模型,可以接入新的网络架构、损失函数以及其他语音识别系统中的核心操作
  3. 平滑语音识别模型从研究到生产部署的过渡

基于以上原则,wav2letter++实现了如下图所示的非常直白的架构:

为了更好地理解wav2letter++的架构,有以下几点值得着重指出:

  • ArrayFire张量库:wav2letter++使用ArrayFire作为张量操作的基础库。ArrayFire支持硬件无关的高性能并行建模,可以运行在多种后端上,例如CUDA GPU后端或CPU后端
  • 数据预备和特征提取:wav2letter++支持多种音频格式的特征提取。框架可以在每次网络评估之前即时计算特征,并且通过异步并行计算来实现模型训练的效率最大化
  • 模型:wav2letter++包含一组丰富的端对端序列模型,也包含众多网络架构以及激活函数。
  • 可扩展的训练:wav2letter++支持三种主要的训练模式:
    • train :从零开始训练
    • continue :从检查点状态继续训练(continuing with a checkpoint state),
    • fork :可用于迁移学习。训练流水线使用并行数据、同步随机梯度下降以及基于NVIDIA的集群通信库,可以无缝伸缩。
  • 解码:wav2letter++解码器是基于前面提到的全卷积架构中的集束搜索解码器,它负责输出最终的音频转录文本

Wav2letter++实战

FAIR团队将wav2letter++与其他语音识别进行了对比测试,例如ESPNet、Kaldi和OpenSeq2Seq。实验基于著名的华尔街日报CSR数据集。初始结果表明wav2letter++在训练周期中的任一方面都完胜其他方案。

完全基于CNN的语音识别系统当然是一个有意思的实现途径,它可以优化对计算能力和训练数据的需求。Facebook的wav2letter++实现已经被视为当前最快的语音识别框架之一。我们将在不久的未来看到该领域越来越多的进步。

汇智网翻译整理,转载请标明出处:Introducing Wav2letter++

语音识别系统wav2letter++简介相关推荐

  1. 脸书开源第一个使用卷积神经网络技术的端到端语音识别系统

    https://www.toutiao.com/a6639449370913669635/ 2018-12-27 07:34:30 脸书发布全新自动语音识别的卷积方法 ,以及开源目前最先进的端到端语音 ...

  2. 语音识别wav2letter++简介

    语音识别系统是深度学习生态中发展最成熟的领域之一.当前这一代的语音识别模型基本都是基于递归神经网络(Recurrent Neural Network)对声学和语言模型进行建模,以及用于知识构建的计算密 ...

  3. WAV2LETTER ++:最快的开源语音识别系统

                                                                           WAV2LETTER ++:最快的开源语音识别系统 Vin ...

  4. 语音识别系统及科大讯飞最新实践

    http://geek.csdn.net/news/detail/96948 语音作为最自然便捷的交流方式,一直是人机通信和交互最重要的研究领域之一.自动语音识别(Automatic Speech R ...

  5. Facebook 开源首个全卷积语音识别工具包 wav2letter++

    近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++.系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 ...

  6. 用 Python 训练自己的语音识别系统,这波操作稳了

    作者 | 李秋键 责编 | Carol 封图 | CSDN 付费下载自视觉中国 近几年来语音识别技术得到了迅速发展,从手机中的Siri语音智能助手.微软的小娜以及各种平台的智能音箱等等,各种语音识别的 ...

  7. 语音识别系统_智能语音识别系统_第三方语音识别系统 - 云+社区 - 腾讯云

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 腾讯云语音识别服务开放实时语音识别.一句话识别和录音文件识别三种服务形式,满足不同 ...

  8. QYResearch回顾:2017年中国汽车语音识别系统产量为1413万

    本文为QYResearch分析师整理首发,若转载请写明来源 发布者:QYR 发布日期:2018年9月26日 汽车语音识别系统是安装在汽车上以满足现代车辆消费者在车内工作.休息.娱乐以及行车安全等方面的 ...

  9. 语音识别工具kaldi简介

    1.简介 Kaldi 是一个语音识别工具.使用 C++ 开发,基于 Apache 许可证.目的是为语音识别研究者提供. Kaldi集成了多种语音识别模型,包括隐马尔可夫和最新的深度学习神经网络,自 2 ...

最新文章

  1. 遭遇错误:ORA-01031
  2. matlab中imfilter是什么意思,matlab中imfilter的用法
  3. C语言程序设计基础及应用实例---第一节 printf函数的使用
  4. 电网操作:线路、主变、母线操作讲解
  5. python3 安装模块_python3 Crypto模块的安装与使用
  6. Bootstrap(一)——简介、布局容器和工具类使用(flex布局)
  7. WEB OS + WEB IM(续)
  8. Linux下企业级分区方案
  9. mongodb修改最大连接数
  10. .net知识和学习方法系列(十七)CLR-CLR中的值类型和引用类型
  11. 她经济正在替代男性,成为体育产业的新支柱?
  12. python安装pandas太慢_pytorch 安装缓慢 或者报错问题 pandas 安装
  13. GitHub部署静态网页
  14. EarthSDK 项目开发使用说明
  15. 小米手机MIUI13系统最全的关闭广告教程
  16. 计算机应用与需求相结合,计算机应用人才培养与企业需求的有效对接
  17. java 锁旗标_Java基础知识点整理(一)
  18. java小作业:for循环输出带“ * ”的直角三角形,等腰三角形,镂空等腰三角形,平行四边形
  19. 嘉立创免费下单操作流程PCB[2023最新]
  20. linux 2 、Xshell连接Ubuntu

热门文章

  1. linux输入ls命令报错,Linux命令基础2-ls命令
  2. STM32使用GPIO_WriteBit()函数使LED灯闪烁
  3. ffmpeg 压缩视频
  4. 四十六、文件系统的层次结构
  5. oracle 加号和on,Oracle中连接与加号(+)的使用
  6. mybatis mysql方言_MyBatis 方言支持 - Mysql to 华为高斯数据库(gaussdb)
  7. Tomcat(五):Tomcat 参数调优教程
  8. Jvm 系列(十):Java 即时编译器JIT机制以及编译优化
  9. CATransition
  10. 驱动华为_再补齐一个短板,华为正式宣布进军屏幕驱动行业