【语音处理】声音的产生机制和数学模型

上一节介绍了一些基本的概念和应用，从本节开始我们将对语音信号处理的各个方面进行系统性介绍。

本节主要介绍语音产生的过程，包括具体的生理机制，以及由此抽象出的数学模型，包括语音线性产生模型和非线性产生模型。

作者&编辑 | 小米粥

编辑 | 言有三

1. 语音发音系统

人的发音器官主要由四个部分组成：①肺部和气管，产生语音信号的能量源；②咽喉，包括声带和声门，是语音的振动源；③咽腔、口腔和鼻腔等，这些由声门到嘴唇的呼吸通道构成声道，是语音的谐振腔；④唇、齿、舌、面颊等其他发音器官，主要用于改变谐振腔形状。

第一部分中，肺通过肌肉收缩将肺部储存的空气挤出，形成气流，并通过气管将气流送至咽喉，这是语音产生的原动力。

第二部分中，喉部由左右两个肌肉组成，称为声带，而声带之间的空隙称为声门。正常呼吸时，声门张开，气流自由呼出；当讲话时，声带闭合，声门形成窄缝。讲话时，气管传过的气流冲击声带使声带张开，而声带由于其韧性又将快速自动闭合。声带不断快速的张开闭合，即导致了声带的振动，形成了周期性的脉冲气流。

基音频率为声带振动的频率，其数值由声带的物理特性决定，例如声带的大小、厚薄、松紧程度等。基音频率也决定了人的音高，频率快则音调高，频率慢则音调低。一般，男性的基音频率为60-200Hz，而女性和小孩的基因频率为200-450Hz。

第三部分中，声道是声门声带之后发音的最重要因素。人们在发出不同音的时候，声道具有非常复杂多变的形状，因而声带振动产生的脉冲气流通过声道响应可以变为不同的语音。

气流通过声道时被视为通过谐振腔，而谐振腔的作用是筛选、放大输入信号的某些频率（谐振频率）。对于某个特定的谐振腔，其拥有多个谐振频率（共振频率），即存在多个共振峰。此外，共振峰也与谐振腔的形状有关。因此，当一个人发不同的音时，即使基音频率是固定的，但是由于声道形状的不同，从而导致谐振腔的共振峰也不同，最终产生不同的语音信号。

由于不同人的声道差异较大，因而不同人的共振峰也有较大的差异。以下为声道共振峰的范围区间（单位:Hz）

气流首先经过咽腔，咽腔具有多变的形状。经过咽腔之后，若软腭下垂，则气流主要经过鼻腔发音，即为鼻音，此外鼻腔的形状是固定的，因而共振峰频率固定；若软腭上抬，则完全由口腔发音，即为口音，但是口腔形状不固定，因而共振峰频率不确定。

第四部分中，为了发出各种声音，需要调音改变声道的形状。声道中可自由活动的器官称为调音器官，唇、齿、舌、面颊等调音器官同样改变声道的形状，使声道具有不同的传递特性。

在不同的发音过程中，根据声带是否振动将分为清音和浊音。当肺部而来的气流使声带振动时（更严格说法为，产生明显振动），此机制产生的为清音；若声门张开，声带不振动，气流在声道高速通过，则形成清音。另外，若声道关闭之后再突然打开，将产生爆破音。

2. 语音线性产生模型

由于语音信号在较短的时间内，其特性不随时间变化，因而认为语音信号为短时平稳信号，可采用线性时不变模型进行描述。

语音信号线性产生模型由激励模型、声道模型和辐射模型三部分组成，如下图所示。其中激励模型描述清音或浊音的产生过程，即肺部气流和声带的作用；声道模型主要描述声道的调音运动；辐射模型描述气流在嘴唇、鼻孔的幅射效应。

2.1 激励模型

激励模型一般将发音粗略分为清音激励和浊音激励。发浊音时，肺部气流对绷紧的声带持续冲击，形成声带准周期的振动，从而产生准周期的脉冲。脉冲周期，即基音频率，取决于个人声带物理情况。因此，浊音的激励源是一个以基音周期为周期的斜三角脉冲串，其中单个斜三角脉冲的表达式为：

其中，N1为上升时间，N2为下降时间，其波形如下图所示。此外，将其转换至频域可知其为低通滤波器。

单个斜三角波的z变换全极模型为：

斜三角波形串可视为加权的单位脉冲串激励上述单个斜三角波模型的结果，即经过该低通滤波器的输出，因而浊音的激励模型可写为：

其中，E(z)为单位脉冲的z变换，而Av为幅度因子。

当发出清音时，声带不发生明显振动，气流通过声门直接进入声道，声道形成湍流，此时的激励模型为随机白噪声，可使用均值为0，方差为1的噪声来表示。

2.2 声道模型

对于声道，常见的数学模型有：声管模型和共振峰模型。声管模型将声道视为多个不同截面的声管串联；而对于常用的共振峰模型，其将声道视为一个谐振腔。在发某个音时，声道具有各种不同的形状变化，从而使声道具有不同的谐振频率（共振频率）。

实践中，前三个共振峰即可表示元音的特征，复杂的辅音或鼻音需要使用5个共振频率。一般成人声道约为17cm长，将其视为均匀断面，则可计算出前三个共振频率为500Hz，1500Hz和2500Hz。发元音e时，声道最接近均匀断面，因而该音的前三个共振峰也近似为500Hz，1500Hz和2500Hz。

常见的共振峰模型有：级联、并联以及混合型三种，它们具有不同的适用描述对象。我们首先说明元音、辅音的区别，元音是指发音时从肺部呼出的气流通过起共鸣器作用的口腔、阻力极小并无摩擦声音的语音，而在辅音中，无论声带振动与否，发声时呼出的气流通过口腔或鼻腔时受到一定阻碍。另外，辅音包括清辅音和浊辅音两大类。发音时声带不震动、送气的叫清辅音；发音时声带震动、不送气的叫浊辅音。级联模型适用于描述大部分元音，其将声道视为一组串联的二阶谐振器，每个谐振器对应1个共振峰频率，即依次放大信号中谐振频率的成分；对于并联模型，其结构相对复杂，适用于描述非一般的元音和大部分辅音。混合模型将串联模型和并联模型结合起来，可根据所要描述的语音，自动进行切换。这三种模型的结构如下图所示。

2.3 辐射模型

声道的终端是口和唇，口唇端的辐射效应在高频段较为明显，而在低频段影响较小，因而可用高通滤波器来表示辐射模型：

其中，对于浊音，r接近1，而对于清音，取值很小。

语音线性产生模型使用激励模型、声道模型和辐射模型构成，需要说明的是，模型将语音进行简单的清音、浊音的划分是存在不足的，例如浊音中的摩擦音需要清音、浊音两种激励，并非将其直接叠加。

总之，模型的结构虽然与真实的物理过程不完全一致，但在输出处是等效的，为语音信号产生提供了基本的、简洁的分析框架。

3.语音非线性产生模型

线性语音产生模型的基本假设是：肺部气流在声道中以平面波的形式传递。但是，研究表明，声道中的语音信号并不总是以平面波的形式传播，气流在通过声道腔体的某些部分时存在湍流，因此在声道模型中，语音信号应该由平面波部分的线性部分和湍流区域部分的非线性部分共同组成。

调频-调幅模型是成功的非线性语音产生模型。在模型中，语音中的单个共振峰的输出，相当于以该共振峰为载波频率进行频率调制和幅值调制的结果，并且语音信号是由多个这样的共振峰调制叠加而成的。对于一个频率为f共振峰，对应的载波频率也为f，设频率调制信号为q(t)，幅值调制信号为a(t)，则语音信号中的单个共振峰输出r(t)为：

将语音信号视为多个共振峰调制信号叠加，则语音信号s(t)为：

其中，K为共振峰的数目。

对于上述模型构建的语音信号，我们可使用基于Teaager能量算子的能量分离算法（ESA）将信号中的幅值调制部分与频率调制部分有效地分离开。

[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.

[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.

总结

这一节讲解了基本的语音产生方式，包括清音、浊音产生的具体生理机制。接着对语音线性产生模型进行了详细的讲解，包括其中的激励模型、声道模型和辐射模型等内容。

下一节，我们将介绍语音信号的听觉生理机制和相关的数学模型。

有三AI-语音群

有三AI建立了一个语音群，便于有志者相互交流。感兴趣的同学也可以微信搜索xiaozhouguo94，备注"加入有三-语音群"。

小米粥知乎

本专栏作者——小米粥也在知乎进行同步更新，欢迎相关同学共同讨论学习。

有三AI计算机视觉学习季划

有三AI-CV季划是我们推出的终身计算机视觉培养计划，有三作为导师直接带领，囊括答疑，微信群交流，线下活动，多本自写的书籍，图文课件与代码，视频与直播，知识星球社区，内容组与研发组权限，了解详细请阅读以下文章：

【总结】2022年有三AI-CV夏季划出炉，超200个课时+10个方向+30个项目，从理论到实践全部系统掌握

【CV秋季划】模型算法与落地很重要，如何循序渐进地学习好（2022年言有三一对一辅导）？

【CV秋季划】人脸算法那么多，如何循序渐进地学习好？

【CV秋季划】图像质量提升与编辑有哪些研究和应用，如何循序渐进地学习好？

【CV秋季划】生成对抗网络GAN有哪些研究和应用，如何循序渐进地学习好？

【CV冬季划】终极进阶，超30个项目实战+3本书+3年知识星球

转载文章请后台联系

侵权必究

往期精选

【杂谈】有三AI的一对一永久技术答疑服务，我们至少不会跑路
【语音处理】开始学习语音，从基本概念和应用讲起

【语音处理】声音的产生机制和数学模型相关推荐

【语音处理】硬核介绍人体的感知和听觉特性
上一节主要介绍了关于语音信号产生的相关内容,本节将介绍和语音听觉相关的内容. 本节主要介绍语音感知和听觉特性,包括人体的语音听觉系统,客观度量和主观听觉感受以及听觉特性三方面内容. 作者&编辑 ...
【重要】有三AI技术专栏作者邀请，5大权益助力共同成长
知识分享平台众多,我们有三AI公众号是其中一个,在过去的3年里,我们已经写了700多篇,超过200万字的技术文,其中一些专栏作者的贡献功不可没.我们公众号只做原创内容,因为我并不希望平台成为一个靠复制 ...
DirectSound入门指南（1）录制声音
在上一篇文章<DirectSound播放声音入门指南(0)>基础上对声音的录制进行研究,形成了本文.同时,本文也主要参考了Doubango开源项目(该项目现在已经难以维护了,因为其功能太强 ...
深度学习在机器视觉应用领域的最新研究综述（物联网技术应用大作业）
摘要:机器视觉是人工智能正在快速发展的一个分支.简单说来,机器视觉就是用机器代替人眼来做测量和判断.机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号, ...
一种实现人工智能程序自进化的概念原理
本文主要论述六点: 1.能自我学习.自我控制.自我进化(此进化内涵更接近拉马克式自体进化,而非达尔文式代际进化)的信息处理控制能力就叫智能:(从动态式模式的角度定义智能内涵,而非从静态式功能的角度定义 ...
PaddlePaddle深度学习实战——英法文翻译机
51CTO技术栈 " 自然语言处理[1]是计算机科学领域与人工智能领域中的另一个重要方向,其中很重要的一点就是语音识别(speech recognition).机器翻译.智能机器人. 与语言 ...
突破压缩极限的AI语音编解码器
I. Speech Codecs 语音编码的目的是在保持语音质量的前提下尽可能地减少传输所用的带宽,主要是利用人的发声过程中存在的冗余度和人的听觉特性达到压缩的目的.经过了多年的发展,目前语音编解码器 ...
Nature综述：Rob Knight带你分析微生物组数据(2020版)
文章目录微生物组分析最佳实践导读摘要Abstract 背景介绍Introduction 实验设计Experimental design 图1. 微生物组实验设计中的注意事项知识点1. 优秀工作 ...
人工蜂群算法_如果你的团队能够像人工蜂群一样战斗
无人机航迹规划那些事儿-人工蜂群算法无人机航迹规划问题有机器人路径规划问题延伸而来.三维环境下无人机航迹规划问题相较于二维环境规划较为复杂.航迹规划通常按一下流程:先对航迹规划空间进行数学建模,预先 ...

【语音处理】声音的产生机制和数学模型

【语音处理】声音的产生机制和数学模型相关推荐

最新文章

热门文章