语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet...

语音合成（Text-to-Speech，TTS）是将自然语言文本转换成语音音频输出的技术，在 AI 时代的人机交互中扮演至关重要的角色。百度硅谷人工智能实验室最近提出了一种全新的基于 WaveNet 的并行音频波形（raw audio waveform）生成模型ClariNet，合成速度提升了数千倍，可以达到实时的十倍以上。此外，这也是语音合成领域第一个真正的端到端模型：单个神经网络，直接从文本到原始音频波形。

最近，百度硅谷人工智能实验室的研究员提出了 ClariNet，一种全新的基于 WaveNet 的并行音频波形（raw audio waveform）生成模型。WaveNet 是能够完美模仿人类声音的最前沿语音合成技术（Google I/O 大会所展示的超逼真合成语音的背后技术）。自从其被提出，就得到了广泛的离线应用。但由于其自回归（autoregressive）的特点，只能按时间顺序逐个生成波形采样点，导致合成速度极慢，无法在 online 应用场合使用。ClariNet 中所提出的并行波形生成模型基于高斯逆自回归流（Gaussian inverse autoregressive flow），可以完全并行地生成一段语音所对应的原始音频波形。比起自回归的 WaveNet 模型，其合成速度提升了数千倍，可以达到实时的十倍以上。

对比 DeepMind 稍早提出的 Parallel WaveNet，ClariNet 中的概率分布蒸馏（probability density distillation）过程更加简单优美，直接闭式地（closed-form）来计算训练目标函数 KL 散度（KL divergence），大大简化了训练算法，并且使得蒸馏过程效率极高——通常 5 万次迭代后，就可以得到很好的结果。同时作者还提出了正则化 KL 散度的办法，大大提高了训练过程的数值稳定性，使得结果简单易训练（注：Clari 在拉丁语中是 clear, bright 的意思）。而 Parallel WaveNet 由于需要蒙特卡洛采样来近似 KL 散度，使得梯度估计的噪音很大，训练过程很不稳定，外界极难重现 DeepMind 的实验结果。

更值得注意的是，ClariNet 还是语音合成领域第一个完全端到端的系统，可以通过单个神经网络，直接将文本转换为原始的音频波形。先前为业界所熟知的「端到端」语音合成系统（比如 Google 提出的 Tacotron，百度之前提出的 Deep Voice 3），实际是先将文本转换为频谱（spectrogram），然后通过波形生成模型 WaveNet 或者 Griffin-Lim 算法，将频谱转换成原始波形输出。这种方法由于文本到频谱的模型和 WaveNet 是分别训练优化的，往往导致次优的结果。而百度研究员提出的 ClariNet，则是完全打通了从文本到原始音频波形的端到端训练，实现了对整个 TTS 系统的联合优化，比起分别训练的模型，在语音合成的自然度上有大幅提升（参见合成语音示例）。另外，ClariNet 是全卷积模型，训练速度比起基于循环神经网络（RNN）的模型要快 10 倍以上。

ClariNet 的网络结构如下图所示。它使用基于注意力机制（Attention）的编码器-解码器（Encoder-Decoder）模块来学习文本字符与频谱帧之间的对齐关系。解码器的隐状态（hidden states）被送给 Bridge-net 来进行时序信息处理和升采样（upsample）。最终 Bridge-net 的隐状态被送给音频波形生成模块（Vocoder），用来最终合成原始音频波形。

论文：ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

论文地址：https://arxiv.org/pdf/1807.07281.pdf
合成语音示例：https://clarinet-demo.github.io/

入门语音合成百度生成模型

语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet...相关推荐

百度推出完全端到端的并行音频波形生成模型，比WaveNet快千倍 | 论文
稿件来源:百度硅谷研究院量子位授权转载 | 公众号 QbitAI 语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在AI时代的人机交互中扮演至关重要的角色. ...
NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer，完全端到端学习，超强可扩展性...
关注公众号,发现CV技术之美 ✎ 编者言从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂.最近NUS联合Sea AI Lab ...
近6年语音合成领域都有哪些论文？
声明:转发本文请联系博主,并标明出处语音合成技术近几年都有哪些论文呢? 我们整理了近6年的语音合成论文集分享给大家,希望可以为大家在深耕语音合成领域的过程中,提供绵薄助力.论文集按照年份和引用量列出 ...
业内首个！基于移动端增强视频通话画质的超分辨率算法
在实时互动场景中,视频画质是影响用户互动体验的关键因素,从流畅.标清到高清.超高清等,分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,给用户的视频互动带来更好的体验,这也促进了用户在实时互动 ...
超越Facebook、谷歌、微软，百度发布全球首个百亿参数对话预训练生成模型PLATO-XL...
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自:机器之心和 AI 进行无障碍的对话,是什么样的体验?你或许能够在这篇文章里找到 ...
广和通携手中国联通研究院、中科创达现网验证全球首例5G模组端到端多切片方案
当前5G处于规模发展的关键时期,5G行业模组成熟发展是推进5G规模应用的关键环节.目前5G模组价格仍然较高,行业需求较为碎片化,且5G最具特色的功能5G网络切片尚未在行业模组上探索出成熟端到端解决方案 ...
业界首家720p/1080p移动端实时超分，打造抖音极致画质体验
前言 2021年5月,字节跳动智能创作团队精心打磨的移动端实时视频超分技术上线,并在抖音.头条.西瓜等多个业务场景大规模落地.该超分技术在性能和功耗维度取得了巨大突破,通过极致的高性能优化和算法改良设 ...
巨头都在争抢无人驾驶这家智慧停车公司却先上了路科技事务百家号 08-14 15:55 今年来，互联网巨头在智慧交通领域动作频频，4月初，百度提出雄心勃勃的“阿波罗计划”，宣布开放自动驾驶平台以
巨头都在争抢无人驾驶这家智慧停车公司却先上了路科技事务百家号 08-14 15:55 今年来,互联网巨头在智慧交通领域动作频频,4月初,百度提出雄心勃勃的"阿波罗计划",宣布 ...
NLP之PTM：自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略
NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...
Article：AI领域2021年度总结与2022年度展望：多模态人工智能起飞、万亿参数模型的爆发、生成模型在音乐电影制作上的进展、Transformer架构正在以一己之力统一AI江湖、AI法律监管
Article:AI领域2021年度总结与2022年度展望:多模态人工智能起飞.万亿参数模型的爆发.生成模型在音乐电影制作上的进展.Transformer架构正在以一己之力统一AI江湖.AI法律监管 ...

语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet...

语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet...相关推荐

最新文章

热门文章