语音合成概述

文章概述：本篇文章主要介绍了语音合成的基础概念、主流声学模型的优缺点，以及语音合成前沿技术的科普；通过本篇文章的学习，可以对语音合成技术的概念以及模型的选型有一定了解；

语音合成流程

音素：最小的语音单位，如’普通话’这三个字是由3个音节，8个音素组成的；

主要有三个阶段：前端处理——声学模型——声码器

前端处理与声码器都有通用的一些方案，针对不同任务的改进点主要在声学模型部分；

自回归语音合成模型

主要包括：Tactotron2、Transformer TTS、Deep Voice 3

如上图所示，输入为文本，输出为频谱，无需繁琐的人工特区特征过程，实现端到端的语音合成；

传统自回归语音合成的一些缺陷：

合成速度非常慢，在实时性要求高的场景无法适用；
会出现重复吐字或者漏词的现象，对于商用语音合成看说无法接受；
无法细粒度控制语速、韵律和停顿；

非自回归语音合成模型

主要包括：FastSpeech、FastSpeech2

FastSpeech

简介：

1、使用全并行的非自回归架构，解决生成速度慢的问题，同时引入知识蒸馏使得生成音频的性能接近自回归模型；

2、引入duration predictor来预测文本和频谱之间的强对齐，消除生成语音的跳词和漏词现象；

3、引入length regulator来解决自回归模型的可控性问题（长度和韵律）；

数据流说明：

声音变化的因素：

音高、音量、时间、音色，最终导致在相同文本的情况下生成的频谱图不同；

一对多映射问题（One-to-Many Mapping）

说明：多个语音变体对应同一文本的情况；

产生原因：

训练依赖于自回归教师模型及进行时长预测（提供更多信息作为输入）和知识蒸馏（简化输出中的数据分布），可以缓解一对多映射问题，但不能很好解决；

1、教师-学生蒸馏管道复杂并且训练耗时较大；

2、从教师模型attention中提取的时长预测不够准确；

2、用教师模型预测的Mel谱作为target，相比GT有信息损失导致音质受损；

FastSpeech2

FastSpeech2中使用以下方法解决一对多映射问题：

1、直接用GT的Mel谱进行训练，去除知识蒸馏结构；

2、引入更多变化信息（pitch、energy、duration等）作为输入参数，参与到模型训练中；

结构图：

1、Variance adaptor

主要提取三种信息作为输出：

phoneme duration：音素的时长；

Pitch：音高（一个重要特征来表达情感和韵律）；

Engry：表达音量的信息；

2、CWT Pitch Predictor

原理：将音高从时域的一维曲线转换为平面的二维频谱；

因为音频变换很大，不好预测，作者使用了pitch spectrogram（音高声谱图）作为训练目标，先用CWT（连续小波变换）获得音高声谱图，然后训练predictor去预测它；合成语音时再用iCWT即CWT逆运算将音高声谱图转换为音高曲线；

3、FastSpeech2s

说明：作者希望实现text-to-waveform而不是text-to-mel-to-waveform的合成方式，从而拓展提出的；

主要思想：加入Waveform decoder的架构，使用WaveGAN中的对抗训练方法让模型隐式的学习恢复相位信息的方法；

4、Data Process

训练数据处理：将文本转成音素，将波形转成频谱；

总结

1、声学模型的整体趋势是往非自回归形式发展，原因是非自回归的模型可以学习音高、能量、时长等特征信息，增加语音的丰富度和饱和度，赋予情感。而自回归模型则很难学习音高等特征；

2、随着语音技术的发展，对于语音合成的实时性要求也不断提高，语音技术可以很好的参与到各种领域中，包括人机交互、智能客服等，而自回归模型推理速度相对非自回归模型较慢；

3、目前较为成熟的非自回归模型（如FastSpeech2）也无法做到完全端到端实现，中间需要一步梅尔频谱的转换，最新的研究方向是完全的端到端实现，从输入文本到输出波形；

语音合成——声学模型概述相关推荐

基于深度前馈序列记忆网络，如何将语音合成速度提升四倍？
研究背景语音合成系统主要分为两类,拼接合成系统和参数合成系统.其中参数合成系统在引入了神经网络作为模型之后,合成质量和自然度都获得了长足的进步.另一方面,物联网设备(例如智能音箱和智能电视)的大量普 ...
【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践
(以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) 一句话语音合成全流程实践点击播放视频 1 声音克隆介绍 & 语音合成基本概念回顾语音合成(Speech ...
《飞桨PaddleSpeech语音技术课程》一句话语音合成全流程实践
一句话语音合成全流程实践 PaddleSpeech r1.2.0 发新内容 1 声音克隆介绍 & 语音合成基本概念回顾语音合成(Speech Sysnthesis),又称文本转语音(Text ...
美团语音交互部招聘NLP/知识图谱/语音识别等算法职位（可实习）
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙 ...
岗位内推 | 美团语音交互部招聘NLP/知识图谱/语音识别等算法职位（可实习）...
PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「pwbot02」. 语音交互部负责美团 ...
【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘！
致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1 部门介绍: 语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理 ...
docker可以把应用及其相关的_声学中的相干性及其相关应用！
来源:CAE之家微信公众号(ID:iCAE-ccs),作者:陈晓君. 今天我们讨论的一个概念叫做"相干性",这是在相关性的基础上,更加深入的表述两个信号之间的因果关系(在信号处理领 ...
科研快讯 | 14篇论文被信号处理领域顶级国际会议ICASSP录用
ICASSP 2023 近日,2023年IEEE声学.语音与信号处理国际会议(2023 IEEE International Conference on Acoustics, Speech, and ...
统计参数语音合成中的声学模型建模方法研究
阅读中科大雷鸣2012年博士毕业论文后整理个人读书笔记 1. 绪论传统语音合成的方法基于HMM的统计参数语音合成(也是本文要讲的重点,参数统计的办法) 基于大量语料的单元挑选与波形拼接一般的语音 ...

语音合成——声学模型概述

语音合成概述

语音合成流程

自回归语音合成模型

非自回归语音合成模型

最新模型

总结

语音合成——声学模型概述相关推荐

最新文章

热门文章