声明:工作以来主要从事TTS工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进

(本来想写完整后再发出,大家可以根据选取的文章先看个大概,等闲下来后再详细写。我接下来一个月可能碰到一些事情,更新也将会断断续续,望谅解)

此处的韵律跟前端韵律不同,前端的韵律是从语言学的角度来定义停顿时长,是表现目标,对于所有说话人都是一样。本文所讲的韵律是从声学特征学习的具体表现形式,其内容可包含情感,语速,语音质量等级等等信息,主要使合成的语音更加自然,富有情感,对于每位说话人都是不同。文章按照韵律调整的粒度分为两类:粗粒度和细粒度。粗粒度为句子级别的迁移调控,细粒度为phrase,word,phone的调控。接下来将讲解如下几篇文章:

粗粒度:

1)Towards end-to-end prosody transfer for expressive speech synthesis with tacotron (2018)

https://arxiv.org/pdf/1803.09047.pdf

2)Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis (2018)

https://arxiv.org/pdf/1803.09017.pdf

细粒度:

3)ROBUST AND FINE-GRAINED PROSODY CONTROL OF END-TO-END SPEECH SYNTHESIS (2019)

https://arxiv.org/pdf/1811.02122.pdf

4)FINE-GRAINED ROBUST PROSODY TRANSFER FOR SINGLE-SPEAKER NEURAL TEXT-TO-SPEECH (2019)

https://arxiv.org/pdf/1907.02479.pdf

5)FULLY-HIERARCHICAL FINE-GRAINED PROSODY MODELING FOR INTERPRETABLE SPEECH SYNTHESIS (2020)

https://arxiv.org/pdf/2002.03785.pdf

6)Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis (2020)

https://arxiv.org/pdf/2009.08474.pdf

7)MIXTURE DENSITY NETWORK FOR PHONE-LEVEL PROSODY MODELLING IN SPEECH SYNTHESIS (2021)

https://arxiv.org/pdf/2102.00851.pdf

8)AdaSpeech: Adaptive Text to Speech for Custom Voice (2021)

https://arxiv.org/pdf/2103.00993.pdf

第一篇 Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

本文章是首次提出无监督学习来进行韵律的迁移,本文章的做法是使用reference encoder把参考的语音编码成一个vector,该vector就是句子级别的prosody embedding,其包含参考语音的韵律,语速,情感等等信息。

第二篇 Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis

上一篇文章的prosody embedding包含了情感,语速等复杂信息,本文的style tokens可以对上边的prosody embedding进行解耦,使其每个token控制一种style(其实无法完全解耦,每个token还是存在多种信息)。

第三篇 ROBUST AND FINE-GRAINED PROSODY CONTROL OF END-TO-END SPEECH SYNTHESIS

以上两篇都是粗粒度的韵律迁移调控,本文是细粒度的韵律调控:帧级别和音素级别。本文使用的reference encoder是第一篇文章的结构,其韵律信息使用的可变长的韵律信息。

第四篇 FINE-GRAINED ROBUST PROSODY TRANSFER FOR SINGLE-SPEAKER NEURAL TEXT-TO-SPEECH

上篇文章缺点是对unseen speaker和单说话人的韵律进行迁移效果很差,因此本文提出了对参考音频进行单独的信息抽取,其中aggregation phase即信息的抽取。另外本文使用vae对韵律信息预测。

第五篇 FULLY-HIERARCHICAL FINE-GRAINED PROSODY MODELING FOR INTERPRETABLE SPEECH SYNTHESIS

提出了多级韵律架构,而且提出了condition VAE架构。

第六篇 Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis

本文提出不需要参考样音的多粒度韵律模型。

第七篇 MIXTURE DENSITY NETWORK FOR PHONE-LEVEL PROSODY MODELLING IN SPEECH SYNTHESIS

本文使用GMM对音素级的韵律进行建模

第八篇 AdaSpeech: Adaptive Text to Speech for Custom Voice

语音合成(speech synthesis)方向八:韵律迁移和建模相关推荐

  1. 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  3. 使用Speech Synthesis API 做语音播放

    前提:富文本去除标签,只留下纯文本  == >>  str.replace(/<[^>]+>/g, "") 这是在vue中使用,以下是项目实际代码: ...

  4. 语音合成(speech synthesis)方向五:多语言模型multi-lingual and code switch speech synthesis

    本文稍长,希望能耐住性子看下去 声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 ht ...

  5. 语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史

    声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tec ...

  6. 语音合成(speech synthesis)方向七:脑机接口之基于脑电图语音合成

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  7. 语音合成(speech synthesis)方向一:双重学习Dual Learning

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  8. 语音合成(speech synthesis)方向二:鲁棒TTS(Robust TTS)

    声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/p ...

  9. 语音合成(speech synthesis)两种方法-拼接合成和参数合成

    TTS(Text To Speech)是一个序列到序列的匹配问题.处理TTS的方法一般分为两部分:文本分析和语音合成(speech synthesis).文本分析可能采用NLP方法. 而在语音合成(s ...

最新文章

  1. 遂宁专业计算机学校,遂宁计算机专业中职学校哪家强
  2. 华为P30Pro国外采用4根天线设计,为何国内却只有2根?
  3. XII Open Cup named after E.V. Pankratiev. GP of Eastern Europe (AMPPZ-2012)
  4. NET问答: 到底是返回 null 好,还是 空集合 好?
  5. 构建地理上分散的网络之4点论证
  6. API的非向后兼容性无论如何通常代表着一种比较差的设计
  7. c/c++,字符,字符串,各种方式读入与对空格,回车的处理
  8. 5句话搞定ES5作用域
  9. TCP的流量控制和阻塞控制
  10. VS2019 MFC在静态库运行时出现的LNK2005和LNK1169问题
  11. ASTC图片纹理压缩探讨
  12. 职场职位缩写 PM,TM,PL,TL,SE,PG,CEO,CFO
  13. php确保多进程同时写入一个文件,php多进程读写同一个文件锁的问题及flock详解...
  14. 如何添加计算机硬盘分区,怎么给电脑硬盘增加设置分区
  15. 【Unity3D】游戏研发团队及岗位职责
  16. OLTP OLAP
  17. 基于深度学习的高精地图的自动生成与标注
  18. 第28届计算机命题搜索赛试题,第28届计算机表演赛命题搜索赛.docx
  19. No.72-HackTheBox-windows-Fighter-Walkthrough渗透学习
  20. nvm use 报错 exit status 1: ��û���㹻��Ȩ��ִ�д˲����� 解决

热门文章

  1. wincc服务器需要显示器吗,如何配置WINCC作为OPC服务器?
  2. LeetCode:Longest Common Prefix
  3. spark-信用卡欺诈识别
  4. 施密特触发电路详细原理介绍
  5. QML绘制圆角多边形(Canvas)
  6. linux查看samba目录的配额,linux quota和samba结合的使用
  7. python自动化干什么-自动化专业学习python需要到什么程度?
  8. TFT-LCD显示直线、矩形、圆形
  9. COleVariant在多字节字符集下的坑
  10. 注册成为Windows Phone开发者并且解锁Windows Phone 8.1手机