语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在 AI 时代的人机交互中扮演至关重要的角色。百度硅谷人工智能实验室最近提出了一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型ClariNet,合成速度提升了数千倍,可以达到实时的十倍以上。此外,这也是语音合成领域第一个真正的端到端模型:单个神经网络,直接从文本到原始音频波形。

最近,百度硅谷人工智能实验室的研究员提出了 ClariNet,一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型。WaveNet 是能够完美模仿人类声音的最前沿语音合成技术(Google I/O 大会所展示的超逼真合成语音的背后技术)。自从其被提出,就得到了广泛的离线应用。但由于其自回归(autoregressive)的特点,只能按时间顺序逐个生成波形采样点,导致合成速度极慢,无法在 online 应用场合使用。ClariNet 中所提出的并行波形生成模型基于高斯逆自回归流(Gaussian inverse autoregressive flow),可以完全并行地生成一段语音所对应的原始音频波形。比起自回归的 WaveNet 模型,其合成速度提升了数千倍,可以达到实时的十倍以上。

对比 DeepMind 稍早提出的 Parallel WaveNet,ClariNet 中的概率分布蒸馏(probability density distillation)过程更加简单优美,直接闭式地(closed-form)来计算训练目标函数 KL 散度(KL divergence),大大简化了训练算法,并且使得蒸馏过程效率极高——通常 5 万次迭代后,就可以得到很好的结果。同时作者还提出了正则化 KL 散度的办法,大大提高了训练过程的数值稳定性,使得结果简单易训练(注:Clari 在拉丁语中是 clear, bright 的意思)。而 Parallel WaveNet 由于需要蒙特卡洛采样来近似 KL 散度,使得梯度估计的噪音很大,训练过程很不稳定,外界极难重现 DeepMind 的实验结果。

更值得注意的是,ClariNet 还是语音合成领域第一个完全端到端的系统,可以通过单个神经网络,直接将文本转换为原始的音频波形。先前为业界所熟知的「端到端」语音合成系统(比如 Google 提出的 Tacotron,百度之前提出的 Deep Voice 3),实际是先将文本转换为频谱(spectrogram),然后通过波形生成模型 WaveNet 或者 Griffin-Lim 算法,将频谱转换成原始波形输出。这种方法由于文本到频谱的模型和 WaveNet 是分别训练优化的,往往导致次优的结果。而百度研究员提出的 ClariNet,则是完全打通了从文本到原始音频波形的端到端训练,实现了对整个 TTS 系统的联合优化,比起分别训练的模型,在语音合成的自然度上有大幅提升(参见 合成语音示例)。另外,ClariNet 是全卷积模型,训练速度比起基于循环神经网络(RNN)的模型要快 10 倍以上。

ClariNet 的网络结构如下图所示。它使用基于注意力机制(Attention)的编码器-解码器(Encoder-Decoder)模块来学习文本字符与频谱帧之间的对齐关系。解码器的隐状态(hidden states)被送给 Bridge-net 来进行时序信息处理和升采样(upsample)。最终 Bridge-net 的隐状态被送给音频波形生成模块(Vocoder),用来最终合成原始音频波形。

论文:ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

  • 论文地址:https://arxiv.org/pdf/1807.07281.pdf

  • 合成语音示例:https://clarinet-demo.github.io/

入门 语音合成 百度 生成模型

语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet...相关推荐

  1. 百度推出完全端到端的并行音频波形生成模型,比WaveNet快千倍 | 论文

    稿件来源:百度硅谷研究院 量子位授权转载 | 公众号 QbitAI 语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在AI时代的人机交互中扮演至关重要的角色. ...

  2. NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer,完全端到端学习,超强可扩展性...

    关注公众号,发现CV技术之美 ✎ 编 者 言  从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂.最近NUS联合Sea AI Lab ...

  3. 近6年语音合成领域都有哪些论文?

    声明:转发本文请联系博主,并标明出处 语音合成技术近几年都有哪些论文呢? 我们整理了近6年的语音合成论文集分享给大家,希望可以为大家在深耕语音合成领域的过程中,提供绵薄助力.论文集按照年份和引用量列出 ...

  4. 业内首个!基于移动端增强视频通话画质的超分辨率算法

    在实时互动场景中,视频画质是影响用户互动体验的关键因素,从流畅.标清到高清.超高清等,分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,给用户的视频互动带来更好的体验,这也促进了用户在实时互动 ...

  5. 超越Facebook、谷歌、微软,百度发布全球首个百亿参数对话预训练生成模型PLATO-XL...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 和 AI 进行无障碍的对话,是什么样的体验?你或许能够在这篇文章里找到 ...

  6. 广和通携手中国联通研究院、中科创达现网验证全球首例5G模组端到端多切片方案

    当前5G处于规模发展的关键时期,5G行业模组成熟发展是推进5G规模应用的关键环节.目前5G模组价格仍然较高,行业需求较为碎片化,且5G最具特色的功能5G网络切片尚未在行业模组上探索出成熟端到端解决方案 ...

  7. 业界首家720p/1080p移动端实时超分,打造抖音极致画质体验

    前言 2021年5月,字节跳动智能创作团队精心打磨的移动端实时视频超分技术上线,并在抖音.头条.西瓜等多个业务场景大规模落地.该超分技术在性能和功耗维度取得了巨大突破,通过极致的高性能优化和算法改良设 ...

  8. 巨头都在争抢无人驾驶 这家智慧停车公司却先上了路 科技事务 百家号 08-14 15:55 今年来,互联网巨头在智慧交通领域动作频频,4月初,百度提出雄心勃勃的“阿波罗计划”,宣布开放自动驾驶平台以

    巨头都在争抢无人驾驶 这家智慧停车公司却先上了路 科技事务 百家号 08-14 15:55 今年来,互联网巨头在智慧交通领域动作频频,4月初,百度提出雄心勃勃的"阿波罗计划",宣布 ...

  9. NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略

    NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...

  10. Article:AI领域2021年度总结与2022年度展望:多模态人工智能起飞、万亿参数模型的爆发、生成模型在音乐电影制作上的进展、Transformer架构正在以一己之力统一AI江湖、AI法律监管

    Article:AI领域2021年度总结与2022年度展望:多模态人工智能起飞.万亿参数模型的爆发.生成模型在音乐电影制作上的进展.Transformer架构正在以一己之力统一AI江湖.AI法律监管 ...

最新文章

  1. 动网论坛数据库字段表说明
  2. MySQL下的NoSQL解决方案HandlerSocket
  3. android将发送短信写入发件箱
  4. 4 Redis的发布订阅
  5. 京信通信:数据智能为生产调试“增效瘦身”
  6. 吴裕雄 15-MySQL LIKE 子句
  7. php如何在sql语句中使用,php – 如何在SQL查询中使用数组
  8. 发布最新通用挤房器:全能挤房器1.0
  9. android webview浏览pdf,android webview pdf查看
  10. Java中sqrt的抬头,Java Math.sqrt()方法
  11. 虚拟内存设置在其他盘引发的问题(待解决)
  12. 自定义滚动条(css)
  13. 笛卡尔积实现-JavaScript版
  14. 张朝阳开课手推E=mc²,李永乐现场狂做笔记!CEO当太久都忘了他是MIT物理博士
  15. Vue项目中用百度地图实现城市定位
  16. cad用键盘放大缩小_cad放大的命令多少(CAD的放大缩小快捷键是什么?)
  17. 建建自学VoIP之VAD(Voice Activity Detector)和CNG(Comfort Noice Generator)
  18. 空气压缩机自动控制Multisim仿真
  19. 毕业设计 stm32单片机的目标检测与跟踪系统 -物联网 openmv 嵌入式
  20. 斯坦福发布CheXNet:比放射科医生更好诊断胸部肺炎X光片

热门文章

  1. 【前端】跨域问题:“ It does not have HTTP ok status.”
  2. 黑马程序员前端 Vue3 小兔鲜电商项目——(一)初始化项目
  3. 第七届中国全渠道零售决策者峰会2019(上海)
  4. Double H3.0
  5. 食品添加剂健康小助手系统的设计与实现 tp+mysql后台
  6. zzulioj:1007: 鸡兔同笼
  7. 基于JAVA俄语等级考试管理系统.计算机毕业设计源码+系统+lw文档+部署
  8. 【Django】如何将ORM查询转为Json
  9. 总有你要的编程书单(GitHub )
  10. sonos 服务器_如何使用Apple Watch控制Sonos