语音合成概述

文章概述:本篇文章主要介绍了语音合成的基础概念、主流声学模型的优缺点,以及语音合成前沿技术的科普;通过本篇文章的学习,可以对语音合成技术的概念以及模型的选型有一定了解;

语音合成流程

音素:最小的语音单位,如’普通话’这三个字是由3个音节,8个音素组成的;

主要有三个阶段:前端处理——声学模型——声码器

前端处理与声码器都有通用的一些方案,针对不同任务的改进点主要在声学模型部分;

自回归语音合成模型

主要包括:Tactotron2、Transformer TTS、Deep Voice 3

如上图所示,输入为文本,输出为频谱,无需繁琐的人工特区特征过程,实现端到端的语音合成;

传统自回归语音合成的一些缺陷:

  • 合成速度非常慢,在实时性要求高的场景无法适用;
  • 会出现重复吐字或者漏词的现象,对于商用语音合成看说无法接受;
  • 无法细粒度控制语速、韵律和停顿;

非自回归语音合成模型

主要包括:FastSpeech、FastSpeech2

  • FastSpeech

简介:

1、使用全并行的非自回归架构,解决生成速度慢的问题,同时引入知识蒸馏使得生成音频的性能接近自回归模型;

2、引入duration predictor来预测文本和频谱之间的强对齐,消除生成语音的跳词和漏词现象;

3、引入length regulator来解决自回归模型的可控性问题(长度和韵律);

数据流说明:

声音变化的因素:

音高、音量、时间、音色,最终导致在相同文本的情况下生成的频谱图不同;

一对多映射问题(One-to-Many Mapping)

说明:多个语音变体对应同一文本的情况;

产生原因:

训练依赖于自回归教师模型及进行时长预测(提供更多信息作为输入)和知识蒸馏(简化输出中的数据分布),可以缓解一对多映射问题,但不能很好解决;

1、教师-学生蒸馏管道复杂并且训练耗时较大;

2、从教师模型attention中提取的时长预测不够准确;

2、用教师模型预测的Mel谱作为target,相比GT有信息损失导致音质受损;

  • FastSpeech2

FastSpeech2中使用以下方法解决一对多映射问题:

1、直接用GT的Mel谱进行训练,去除知识蒸馏结构;

2、引入更多变化信息(pitch、energy、duration等)作为输入参数,参与到模型训练中;

结构图:

1、Variance adaptor

主要提取三种信息作为输出:

phoneme duration:音素的时长;

Pitch:音高(一个重要特征来表达情感和韵律);

Engry:表达音量的信息;

2、CWT Pitch Predictor

原理:将音高从时域的一维曲线转换为平面的二维频谱;

因为音频变换很大,不好预测,作者使用了pitch spectrogram(音高声谱图)作为训练目标,先用CWT(连续小波变换)获得音高声谱图,然后训练predictor去预测它;合成语音时再用iCWT即CWT逆运算将音高声谱图转换为音高曲线;

3、FastSpeech2s

说明:作者希望实现text-to-waveform而不是text-to-mel-to-waveform的合成方式,从而拓展提出的;

主要思想:加入Waveform decoder的架构,使用WaveGAN中的对抗训练方法让模型隐式的学习恢复相位信息的方法;

4、Data Process

训练数据处理:将文本转成音素,将波形转成频谱;

最新模型

下面简单对最新的模型做简单介绍,详情介绍可参考论文

  • Glow-TTS

论文地址:https://arxiv.org/pdf/2005.11129.pdf

简介:Glow-TTS是一个基于标准化流的并行化语音生成模型,不需要像FastSpeech一样学习对齐信息,而是通过单调对齐搜索算法MAS,搜索最优文本特征与语音特征的对齐信息,并行生成最终的语音特征;

实现效果:能够生成与Tacotron2音质相当的语音,而且实时率达到0.025,并通过实验证明该模型在多人语音合成上同样适用;

主要结构:

像BVAE-TTS、EATS都是自动对齐的模型,也是最新的一些模型;

  • 未来研究方向

    1、文本-音频端到端自动对齐:精度更高、速度更快、训练更简便、更稳定;

    2、使用更好的生成模型提高频谱质量:Flow、VAE、GAN等;

    3、韵律模块(包括时长、音高和能量)的精度优化;

    4、文本到波形的端到端非自回归生成;

总结

1、声学模型的整体趋势是往非自回归形式发展,原因是非自回归的模型可以学习音高、能量、时长等特征信息,增加语音的丰富度和饱和度,赋予情感。而自回归模型则很难学习音高等特征;

2、随着语音技术的发展,对于语音合成的实时性要求也不断提高,语音技术可以很好的参与到各种领域中,包括人机交互、智能客服等,而自回归模型推理速度相对非自回归模型较慢;

3、目前较为成熟的非自回归模型(如FastSpeech2)也无法做到完全端到端实现,中间需要一步梅尔频谱的转换,最新的研究方向是完全的端到端实现,从输入文本到输出波形;

语音合成——声学模型概述相关推荐

  1. 基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?

    研究背景 语音合成系统主要分为两类,拼接合成系统和参数合成系统.其中参数合成系统在引入了神经网络作为模型之后,合成质量和自然度都获得了长足的进步.另一方面,物联网设备(例如智能音箱和智能电视)的大量普 ...

  2. 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践

    (以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) 一句话语音合成全流程实践 点击播放视频 1 声音克隆介绍 & 语音合成基本概念回顾 语音合成(Speech ...

  3. 《飞桨PaddleSpeech语音技术课程》一句话语音合成全流程实践

    一句话语音合成全流程实践 PaddleSpeech r1.2.0 发新内容 1 声音克隆介绍 & 语音合成基本概念回顾 语音合成(Speech Sysnthesis),又称文本转语音(Text ...

  4. 美团语音交互部招聘NLP/知识图谱/语音识别等算法职位(可实习)

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙 ...

  5. 岗位内推 | 美团语音交互部招聘NLP/知识图谱/语音识别等算法职位(可实习)...

    PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「pwbot02」. 语音交互部负责美团 ...

  6. 【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘!

    致力于连接最靠谱的算法岗与最强的求职者 招聘贴投放请联系微信xixiaoyao-1 部门介绍: 语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理 ...

  7. docker可以把应用及其相关的_声学中的相干性及其相关应用!

    来源:CAE之家微信公众号(ID:iCAE-ccs),作者:陈晓君. 今天我们讨论的一个概念叫做"相干性",这是在相关性的基础上,更加深入的表述两个信号之间的因果关系(在信号处理领 ...

  8. 科研快讯 | 14篇论文被信号处理领域顶级国际会议ICASSP录用

    ICASSP 2023 近日,2023年IEEE声学.语音与信号处理国际会议(2023 IEEE International Conference on Acoustics, Speech, and ...

  9. 统计参数语音合成中的声学模型建模方法研究

    阅读中科大雷鸣2012年博士毕业论文后整理个人读书笔记 1. 绪论 传统语音合成的方法 基于HMM的统计参数语音合成(也是本文要讲的重点,参数统计的办法) 基于大量语料的单元挑选与波形拼接 一般的语音 ...

最新文章

  1. 从0 开始 DIY你的Arduino UNO
  2. 博弈论题表(好少~~~)
  3. BZOJ 3211: 花神游历各国
  4. 半监督学习之数据加载
  5. 自然语言处理在开放搜索中的应用
  6. 计算机专业单元测试卷答案,银保监会考试题库:计算机类模拟试题练习(六)答案...
  7. MapReduce之collect过程分析
  8. org.springframework.boot:type=Admin,name=SpringApplication异常
  9. TCP的可靠传输机制
  10. 疫苗接种率低?不用怕,互联网公司给出解决之道
  11. 对于文章的字母、单词、短语,(无用词表)的检索Java代码实现
  12. 认识常见的显卡外接口
  13. feedsky绑定二级域名不能更新解决方法
  14. python代码,用于获取mp3部分信息并存入MySQL中
  15. python词云生成与设计实现_python简单词云生成
  16. go mysql报错Error 1406: Data truncation: Data too long for column ‘content‘ at row 1
  17. linux查找文件中的字符串
  18. android仿网易云音乐引导页、仿书旗小说Flutter版、ViewPager切换、风扇叶片效果等源码...
  19. python 循环赋值_计算机二级Python语言程序设计 第2章Python语言基本语法元素
  20. 爆款短视频自媒体的8大黄金法则,学会了,就离爆款不远了

热门文章

  1. 副业是刚需?分享几个程序员接外包私活的网站
  2. 厦大C语言上机 1361 分数约简
  3. java web 用户管理_Java Web(九) 用户管理系统
  4. 【小程序】一步一步申请【微信支付】及获取微信开发ID等(图文示例)
  5. Laravel 清空 Redis 队列
  6. 改写句子的软件有哪些-免费改写文章的软件
  7. 盘点2019年售价万元以上的5款手机,苹果第五,第一你猜到了吗
  8. Java位运算符和移位运算符详解
  9. 阿里云国际站免实名免备案不限内容是不是骗人的?如何注册?怎么充值?
  10. 国产化之银河麒麟安装达梦数据库DM8