1 简介

本文根据2018年《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS》翻译总结的。通过标题可以看出来Tacotron 2包括Tacotron 和WAVENET。

Tacotron 2是一个可以直接从文本合成语音的神经网络模型。有两部分构成,第一部分是循环序列到序列的特征预测网络,其将字符embedding转换为mel-scale 频谱(SPECTROGRAM);第二部分是修改的WaveNet模型,其作为语音合成器,将mel-scale 频谱合成为时域的波形(waveform)。这两部分别进行训练。

2 模型结构

下图蓝色部分encoder加橙色部分decoder是第一部分,即循环序列到序列的特征预测网络,mel-scale 频谱(SPECTROGRAM)预测网络;绿色部分是第二部分,修改的WaveNet模型。我们使用mel- frequency spectrograms 连接两部分模型。

2.1 中间特征-- mel-scale 频谱(SPECTROGRAM)

我们使用mel- frequency spectrograms 连接两部分模型。
mel- frequency spectrograms和linear- frequency spectrograms相关的,即 short-time Fourier transform (STFT)。灵感来自于人类听觉系统,用较少的维度去总结frequency,强度低frequency,不强调高frequency。

2.2 mel-scale 频谱(SPECTROGRAM)预测网络

包括encoder和带注意力的decoder。
Decoder是一个自回归循环神经网络。
使用的 location-sensitive attention,其扩展了相加attention机制,使用来自前一个decoder time steps的累计attention权重。
在pre-net之前和之后,最小化summed mean squared error (MSE),帮助收敛。
增加了“stop token”预测。
相比原来的tacotron,我们在encoder和decoder中使用 vanilla LSTM and convolutional layers,而不是“CBHG” stacks and GRU recurrent layers。

2.3 WaveNet Vocoder

将mel-scale 频谱合成为时域的波形(waveform)。
WaveNet比Griffin-Lim生成更高质量的声音。

3 实验结果

可以看到tacotron2效果比tacotron、WaveNet、参数化模型、连接模型等效果好。

tacotron2生成的声音也和原音大部分感觉一样。

Tacotron2--语音合成相关推荐

  1. 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

    作者 | 谭旭 转载自微软研究院AI头条(ID: MSRAsia) [编者按]目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成速度慢.稳定性差.可控性缺乏等.为此,微软亚 ...

  2. 新网杯top1方案:手把手构建中文语音合成模型!

    基于Parakeet的中文语音合成方案 方案地址: https://aistudio.baidu.com/aistudio/projectdetail/2792887 1 第一步 安装Parakeet ...

  3. 入门NLP、实现语音识别和语音合成,用这个开源工具SoEasy | 英伟达NLP公开课

    对话式AI正在改变人机交互方式,在生活和工作中给我们带来很大便利. 然而,对话式AI包含自动语音识别.自然语言处理.语音合成等技术领域,从0开发一个对话式AI需要投入的成本和流程非常之多. 那么,有什 ...

  4. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  5. tacotron2 注意力机制 self-attention学习

    我们在机器翻译.语音识别.语音合成.语音转换等任务中,常常需要对序列数据进行处理,传统的方法不但繁琐且效果有限,目前常见的端到端seq2seq方法很值得学习. 1. 序列到序列 序列到序列最早应用于机 ...

  6. 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践

    (以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) 一句话语音合成全流程实践 点击播放视频 1 声音克隆介绍 & 语音合成基本概念回顾 语音合成(Speech ...

  7. 语音合成第一篇-入门

    定义 文本转语音,又称语音合成(Speech Sysnthesis),指的是将一段文本按照一定需求转化成对应的音频,这种特性决定了的输出数据比输入长得多.文本转语音是一项包含了语义学.声学.数字信号处 ...

  8. 开课通知 | 《AISHELL-3语音合成实战》课程

    语音合成技术 在多个智能语音技术的学习方向中,语音合成又称文本转换(Text To Speech, 简称TTS)即将文字信息转换成为人类可以听得懂.流利的语音技术.在人机语音交互系统中,语音合成作为最 ...

  9. 【语音合成】TensorFlowTTS 中文文本转语音

    [语音合成]TensorFlowTTS 中文文本转语音 文章目录 [语音合成]TensorFlowTTS 中文文本转语音 简介 环境配置 1.windows端 2.ubuntu端(可行) 程序运行 1 ...

  10. 语音合成学习(一)综述

    一.资料推荐 爱丁堡大学课程(全英文,有能力的推荐学习一遍):https://speech.zone/courses/speech-synthesis/ TensorflowTTS(比较系统的开源项目 ...

最新文章

  1. Linux驱动修炼之道-SPI驱动框架源码分析(上)
  2. android studio创建文件,如何在Android Studio中创建File Templates
  3. 如何在 Intellij IDEA 更高效地将应用部署到容器服务 Kubernetes
  4. SAP License:PR05差旅报销权限设置
  5. Eclipse启动Web项目 Tomcat中webapps中没有项目文件夹
  6. Vue、J2ee - 001 : Vue项目的创建过程
  7. android 转场动画 共享元素,Android-Animation-Set
  8. 界面的创建(高仿QQ登入界面)
  9. QT设置背景图片的3种方式 区别——设置样式表styleSheet
  10. AVC、HEVC、VVC帧间预测技术
  11. android LBS模式,android: 如何开启webview的LBS功能
  12. win10蓝屏修复之死路一条
  13. PTrade和QMT对比那个更好用?
  14. R语言 类别数据可视化(1)
  15. 摩拜CEO胡炜炜 一席 演讲中的 点亮北京,深圳骑行动态,地图技术实现
  16. [jzoj 4745] 看电影 {期望}
  17. JVM-浅堆和深堆的区别?
  18. 奋斗不止 自强不息:职场话题之跳槽(四)—离职
  19. 李宏毅DLHLP.09.Voice Conversion.1/2. Feature Disentangle
  20. mysql 中文拼音排序

热门文章

  1. CentOS7安装bin程序
  2. 2023年建议自考还是成考 两者哪个含金量高
  3. 【ubuntu】U盘权限不足,只读文件系统
  4. C语言——二进制转十六进制
  5. 苹果3G iPhone将于第二季度亮相
  6. 更改 Windows XP 的产品注册码
  7. 详解型号/版本号/序列号/注册码
  8. 什么是“网络空间安全”?
  9. VB.NET使文本框只能输入数字
  10. 在docxtemplater 和 open-docxtemplater-image-module按word模板导出图片 遇到个坑记录下