语音合成——声学模型概述
语音合成概述
文章概述:本篇文章主要介绍了语音合成的基础概念、主流声学模型的优缺点,以及语音合成前沿技术的科普;通过本篇文章的学习,可以对语音合成技术的概念以及模型的选型有一定了解;
语音合成流程
音素:最小的语音单位,如’普通话’这三个字是由3个音节,8个音素组成的;
主要有三个阶段:前端处理——声学模型——声码器
前端处理与声码器都有通用的一些方案,针对不同任务的改进点主要在声学模型部分;
自回归语音合成模型
主要包括:Tactotron2、Transformer TTS、Deep Voice 3
如上图所示,输入为文本,输出为频谱,无需繁琐的人工特区特征过程,实现端到端的语音合成;
传统自回归语音合成的一些缺陷:
- 合成速度非常慢,在实时性要求高的场景无法适用;
- 会出现重复吐字或者漏词的现象,对于商用语音合成看说无法接受;
- 无法细粒度控制语速、韵律和停顿;
非自回归语音合成模型
主要包括:FastSpeech、FastSpeech2
- FastSpeech
简介:
1、使用全并行的非自回归架构,解决生成速度慢的问题,同时引入知识蒸馏使得生成音频的性能接近自回归模型;
2、引入duration predictor来预测文本和频谱之间的强对齐,消除生成语音的跳词和漏词现象;
3、引入length regulator来解决自回归模型的可控性问题(长度和韵律);
数据流说明:
声音变化的因素:
音高、音量、时间、音色,最终导致在相同文本的情况下生成的频谱图不同;
一对多映射问题(One-to-Many Mapping)
说明:多个语音变体对应同一文本的情况;
产生原因:
训练依赖于自回归教师模型及进行时长预测(提供更多信息作为输入)和知识蒸馏(简化输出中的数据分布),可以缓解一对多映射问题,但不能很好解决;
1、教师-学生蒸馏管道复杂并且训练耗时较大;
2、从教师模型attention中提取的时长预测不够准确;
2、用教师模型预测的Mel谱作为target,相比GT有信息损失导致音质受损;
- FastSpeech2
FastSpeech2中使用以下方法解决一对多映射问题:
1、直接用GT的Mel谱进行训练,去除知识蒸馏结构;
2、引入更多变化信息(pitch、energy、duration等)作为输入参数,参与到模型训练中;
结构图:
1、Variance adaptor
主要提取三种信息作为输出:
phoneme duration:音素的时长;
Pitch:音高(一个重要特征来表达情感和韵律);
Engry:表达音量的信息;
2、CWT Pitch Predictor
原理:将音高从时域的一维曲线转换为平面的二维频谱;
因为音频变换很大,不好预测,作者使用了pitch spectrogram(音高声谱图)作为训练目标,先用CWT(连续小波变换)获得音高声谱图,然后训练predictor去预测它;合成语音时再用iCWT即CWT逆运算将音高声谱图转换为音高曲线;
3、FastSpeech2s
说明:作者希望实现text-to-waveform而不是text-to-mel-to-waveform的合成方式,从而拓展提出的;
主要思想:加入Waveform decoder的架构,使用WaveGAN中的对抗训练方法让模型隐式的学习恢复相位信息的方法;
4、Data Process
训练数据处理:将文本转成音素,将波形转成频谱;
最新模型
下面简单对最新的模型做简单介绍,详情介绍可参考论文
- Glow-TTS
论文地址:https://arxiv.org/pdf/2005.11129.pdf
简介:Glow-TTS是一个基于标准化流的并行化语音生成模型,不需要像FastSpeech一样学习对齐信息,而是通过单调对齐搜索算法MAS,搜索最优文本特征与语音特征的对齐信息,并行生成最终的语音特征;
实现效果:能够生成与Tacotron2音质相当的语音,而且实时率达到0.025,并通过实验证明该模型在多人语音合成上同样适用;
主要结构:
像BVAE-TTS、EATS都是自动对齐的模型,也是最新的一些模型;
未来研究方向
1、文本-音频端到端自动对齐:精度更高、速度更快、训练更简便、更稳定;
2、使用更好的生成模型提高频谱质量:Flow、VAE、GAN等;
3、韵律模块(包括时长、音高和能量)的精度优化;
4、文本到波形的端到端非自回归生成;
总结
1、声学模型的整体趋势是往非自回归形式发展,原因是非自回归的模型可以学习音高、能量、时长等特征信息,增加语音的丰富度和饱和度,赋予情感。而自回归模型则很难学习音高等特征;
2、随着语音技术的发展,对于语音合成的实时性要求也不断提高,语音技术可以很好的参与到各种领域中,包括人机交互、智能客服等,而自回归模型推理速度相对非自回归模型较慢;
3、目前较为成熟的非自回归模型(如FastSpeech2)也无法做到完全端到端实现,中间需要一步梅尔频谱的转换,最新的研究方向是完全的端到端实现,从输入文本到输出波形;
语音合成——声学模型概述相关推荐
- 基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?
研究背景 语音合成系统主要分为两类,拼接合成系统和参数合成系统.其中参数合成系统在引入了神经网络作为模型之后,合成质量和自然度都获得了长足的进步.另一方面,物联网设备(例如智能音箱和智能电视)的大量普 ...
- 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践
(以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) 一句话语音合成全流程实践 点击播放视频 1 声音克隆介绍 & 语音合成基本概念回顾 语音合成(Speech ...
- 《飞桨PaddleSpeech语音技术课程》一句话语音合成全流程实践
一句话语音合成全流程实践 PaddleSpeech r1.2.0 发新内容 1 声音克隆介绍 & 语音合成基本概念回顾 语音合成(Speech Sysnthesis),又称文本转语音(Text ...
- 美团语音交互部招聘NLP/知识图谱/语音识别等算法职位(可实习)
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙 ...
- 岗位内推 | 美团语音交互部招聘NLP/知识图谱/语音识别等算法职位(可实习)...
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「pwbot02」. 语音交互部负责美团 ...
- 【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘!
致力于连接最靠谱的算法岗与最强的求职者 招聘贴投放请联系微信xixiaoyao-1 部门介绍: 语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理 ...
- docker可以把应用及其相关的_声学中的相干性及其相关应用!
来源:CAE之家微信公众号(ID:iCAE-ccs),作者:陈晓君. 今天我们讨论的一个概念叫做"相干性",这是在相关性的基础上,更加深入的表述两个信号之间的因果关系(在信号处理领 ...
- 科研快讯 | 14篇论文被信号处理领域顶级国际会议ICASSP录用
ICASSP 2023 近日,2023年IEEE声学.语音与信号处理国际会议(2023 IEEE International Conference on Acoustics, Speech, and ...
- 统计参数语音合成中的声学模型建模方法研究
阅读中科大雷鸣2012年博士毕业论文后整理个人读书笔记 1. 绪论 传统语音合成的方法 基于HMM的统计参数语音合成(也是本文要讲的重点,参数统计的办法) 基于大量语料的单元挑选与波形拼接 一般的语音 ...
最新文章
- 从0 开始 DIY你的Arduino UNO
- 博弈论题表(好少~~~)
- BZOJ 3211: 花神游历各国
- 半监督学习之数据加载
- 自然语言处理在开放搜索中的应用
- 计算机专业单元测试卷答案,银保监会考试题库:计算机类模拟试题练习(六)答案...
- MapReduce之collect过程分析
- org.springframework.boot:type=Admin,name=SpringApplication异常
- TCP的可靠传输机制
- 疫苗接种率低?不用怕,互联网公司给出解决之道
- 对于文章的字母、单词、短语,(无用词表)的检索Java代码实现
- 认识常见的显卡外接口
- feedsky绑定二级域名不能更新解决方法
- python代码,用于获取mp3部分信息并存入MySQL中
- python词云生成与设计实现_python简单词云生成
- go mysql报错Error 1406: Data truncation: Data too long for column ‘content‘ at row 1
- linux查找文件中的字符串
- android仿网易云音乐引导页、仿书旗小说Flutter版、ViewPager切换、风扇叶片效果等源码...
- python 循环赋值_计算机二级Python语言程序设计 第2章Python语言基本语法元素
- 爆款短视频自媒体的8大黄金法则,学会了,就离爆款不远了