基频抖动(Jitter)

之前只是听过这个词,但是什么是基频抖动,为什么要基频抖动,怎么抖动都还不是很了解,今天总结一下。

概念

声源类型(Voice Quality)

声源类型是人们言语交流传输信息的一个重要手段,表现在:
1)在某些语言内有区分音节意义的作用(不同振动方式/频率);
2)包含了丰富的副语言层的信息,被认为和情感的变化密切相关;
3)声源类型是超语言层信息的载体。
对其的分析可以找出和情感之间的关系,区分各情感中的声源分布模式,并应用在实际的情感语音合成中,从而可以提升合成语音的表现力;并能作为情感通过大脑控制生理器官运动的参数,对情感的生理研究起到辅助作用。

声源类型指的是人说话时声带振动的不同方式
常见的声源类型有:正常嗓音(Modal voice)、吱嘎音(Creaky voice)、假声(Falsetto)、耳语(Whisper voice)、气嗓音(Breathy voice)等。
例如:在墨西哥的马萨特克人(Mazatec)的语言里,(modal voice)的意思是“大树”, (breathy voice)的意思是“他穿”, (creaky voice)的意思则是“他携带”。由此可见,即使声音相同,只是声源不同,在这种语言里是代表不同的意思的。

声带振动频率的不同,发出的声音高低也不一样。汉语中声调的高低升降变化,就是通过控制声带松紧来实现的。
例如:汉语普通话中,妈麻马骂,拼音都是/ma/,但声调不同意义不同。

基频抖动(Jitter)

什么是基频抖动?
在很多领域都用到了jitter这个概念,比如在网络通信领域,delay jitter就是由网络拥塞,定时漂移,或路由改变所引起的数据包到达时间的变化;在数字信号处理领域,抖动是高频数字信号中脉冲某处的偏离或位移,也可以理解成不稳定的脉冲。
在语音学领域,jitter则是描述测量到的基频值的变化程度,是由相邻一段时间内的基频值来推测出当前的基频值这个预测出来的结果和实际基频之间的差。

产生基频抖动的原因?
物理上原因主要有:人的声带肌肉上粘液分布的改变、声带肌肉紧张度,通过声门气流的体积速度等等。
生理上的原因(带有个人信息的,也是在某人说话中不会发生变化的部分),情感的突变(基频的变化,声源的变化),声调的变化,音强的变化等等。

基频抖动有什么用?
基频抖动语音合成上的作用很重要,如果在合成出来的语句中没有抖动,听上去有很大的机器味。

基频抖动如何建模?
Jitter的分类:自然界的规律都可分解为两个分量,一个是完全随机的平稳的分量,另一部分是确定性的,非平稳的,和某些事件相关联的,人们受到的是两者都作用的结果。
总Jitter(TJ)也能按照这个原则分为两类:Random Jitter(RJ)和Deterministic Jitter(DJ)。DJ的产生必然有一个理由,在这里我们主要关注的是情感变化。 RJ是许多小随机事件的累加,比如说左右声带的不对称,声带上粘液的影响,气流造成的湍流噪音,等等。由大数定理,总的RJ是高斯分布。

语音中的情感信息

一般来说,语音中的情感特征往往通过语音韵律的变化表现出来。例如,当一个人发怒的时候,讲话的速率会变快,音量会变大,音调会变高等,同时一些音素特征(共振峰、声道截面函数等)也能反映情感的变化。为了便于处理,通常将情感语音的声学特征直接分为三类:韵律类、音质类和清晰度类。

韵律类:
包括平均基频,基频范围,重音的突变特性,停顿的连贯性,语速,重音频度,音强,音节基频高线倾斜程度,音节基频低线倾斜程度,基频抖动等。

  • 平均基频:整个语句的基频(F0)平均值,根据语音信号分析声带的共振频率。
  • 基频范围:整个语句的基频范围,基频范围在很大程度上能够反映人的情绪状态。
  • 重音的突变特性:在情感语句中,重音多体现情感焦点特性,经常由情感关键词承载。
  • 重音频度:重音的频度在一定程度上能够体现情感状态的持续性。
  • 停顿的连贯性:用以表示语句的停顿是否连贯。人在情绪受到压抑或快速膨胀时,有时会出现由于概念表述不清而导致的语气断续特征。
  • 语速:用以表征语气的缓急程度,人在焦急、恐惧时多出现语速加快的现象,有时欢快的语气也能带来类似效果。
  • 音强:实验证明在情感语音中,音强的变化往往表现出与基频范围变化的一致性。但是相对基频变化来说,大部分音强变化并不明显。
  • 音节基频高线倾斜程度:语句中音节基频高点连线的变化情况(上升、水平和下降)。
    -音节基频低线倾斜程度:语句中音节基频低点连线的变化情况(上升、水平和下降)。
  • 基频抖动:焦虑语音会出现“F0抖动”现象,这一现象描述了基频从一个区域到另一个区域之间快速和反复的变化。在此情况下,有时音节会失去其固有调型。

音质类:
来表征不同情感状态下语音音质发生的变化。

  • 呼吸声:在语音流中,出现呼吸气等声音。当一个人处于紧张或欢快状态时会出现的快速呼吸停顿,或一个人由于恐惧而牙齿紧压会产生的回旋气流噪声。
  • 明亮度:低频能量和高频能量的比值,用以反映语音的清亮特性。
  • 喉化度:发音时声门出现不连续的脉冲震动特性,经常出现在极度恐惧的情感状态中。

清晰度类:
可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。
情感信息与人的声道同样具有一定的关联。清晰度可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。比如:人在厌恶时,有时说话“嘟嘟囔囔”,表达不清。

以上这些声学上的参数都是从一个侧面反映了语音的情感特性,在实际应用中(情感语音合成,语音的情感识别等)需要将这些参数统一整合起来才能正确的反映情感的整体性质。

基频抖动在情感语音合成中的作用

从情感的角度来说,影响jitter分布的因素有基频值的强烈变化,声源类型的不同,重音模式的变化等等。这些因素的实现是靠着生理器官的作用才得以完成,比如情感的变化通常会使大脑产生导致声带肌肉紧张度,气流的体积速度,声道表面的坚硬或柔软的变化的命令。

本文认为,在不同的说话模式下(情感、声源类型乃至汉语中的声调),都有其特有的基频抖动分布模式。统计本文所用到的语料库中的语料,得出如下的结果:

  • 在不同的情感中,基频抖动大小的方差按从大到小的顺序排序为:
    难过〉害怕〉生气 〉愉快 〉中性

  • 在不同的声源类型中,基频抖动大小的方差按从大到小的顺序排序为:
    Breathy> Whisper> Creaky> Lax Creaky> Tense> Bright> Modal

  • 在汉语不同的声调中,基频抖动大小的方差按从大到小的顺序排序为:
    上声 〉去声 〉阳平 〉阴平

由此可见,在不同的讲话模式中,基频抖动的分布类型也是不同的,在语音合成中,如果没有基频抖动的作用,听上去会有很大的机器味。为了增加合成出的语音的表现力和自然度,基频抖动是必不可少的参数之一。

基频抖动建模方法

从 jitter 的定义:“jitter 是实际值偏离理想值的大小”,我们采用了如下的 jitter计算方法:

  • a, 将原基频曲线平滑,作为目标曲线。
  • b, 为了避免量化误差,平滑后的曲线进行插值操作。
  • c, 从原始数据中提取未经平滑的基频曲线(由于用机器提取到的基频值并不十分准确,需要手动修改机器提出的原基频曲线,使之尽可能的描述真实声门的即时基频)
  • d, 将第三步的结果减去第二步的结果,所得到的残差可以近似的认为是即时频率偏 离理想基频走势的值,也就是我们这里所讲的 Jitter。
  • e, 由于 jitter 的绝对偏差值和声调的高低也有关系,在同样前提下,jitter 的偏差值和 F0 的高低成正比。为了减少 F0 高低的影响,我们采用了相对 jitter 的办法,也就是将减得的结果除以预计值然后乘以 100%。

该方法对害怕、悲伤、生气、高兴等的基频抖动建模。

各种情感的 jitter 的方差从大到小排序为:
难过,害怕,生气,高兴,中性

对普通话四个声调的jitter分析

各声调的基频抖动分布图:

各种声调的 jitter 的方差从大到小排序为:
上声,去声,阳平,阴平

基频抖动Jitter相关推荐

  1. 数字电路中时钟抖动 Jitter 和 偏移 Skew

    系统时序设计中对时钟信号的要求是非常严格的,因为我们所有的时序计算都是以恒定的时钟信号为基准.但实际中时钟信号往往不可能总是那么完美,会出现抖动(Jitter)和偏移(Skew)问题. 所谓抖动(ji ...

  2. 什么叫时钟漂移(Wander)?时钟漂移与时钟抖动(jitter)的区别

    什么叫时钟漂移(Wander)?时钟漂移与时钟抖动(jitter)的区别 什么叫时钟漂移(Wander)?时钟漂移与时钟抖动(jitter)的区别 所谓时钟漂移:抖动的另一种形式,工程上给出这样的解释 ...

  3. 关于 时钟抖动 Jitter 和 偏移 Skew

    系统时序设计中对时钟信号的要求是非常严格的,因为我们所有的时序计算都是以恒定的时钟信号为基准.但实际中时钟信号往往不可能总是那么完美,会出现抖动(Jitter)和偏移(Skew)问题. 所谓抖动(ji ...

  4. 时钟抖动(Jitter)和时钟偏斜(Skew)

    在进行时序分析时,经常会遇到两个比较容易混淆的概念,那就是时钟抖动(Clock Jitter)和时钟偏斜(Clock Skew).下面就解释下两者的区别: 一.Jitter 由于晶振本身稳定性,电源以 ...

  5. 时钟抖动(jitter)和时钟偏移(skew)

    jitter:由于晶振本身稳定性,电源以及温度变化等原因造成了时钟频率的变化,就是jitter,指的是时钟周期的变化.指两个时钟周期之间存在的差值,这个误差是在时钟发生器内部产生的,和晶振或者PLL内 ...

  6. 20.时钟抖动(jitter)和时钟偏移(skew)的概念?

    jitter:由于晶振本身稳定性,电源以及温度变化等原因造成了时钟频率的变化,就是jitter,指的是时钟周期的变化.指两个时钟周期之间存在的差值,这个误差是在时钟发生器内部产生的,和晶振或者PLL内 ...

  7. jitter单位_抖动(jitter)测量

    近年来,抖动(Jitter)已经成为通信工程师非常重视的信号特征.在数字系统中,时钟频率正在变得越来越高.随着速率的升组,在上升沿或是下降沿哪性是微小的变化也变得越来越重要.因为时钟或数据的抖动会影响 ...

  8. 时序基本介绍——Jitter与Skew区别

    在时序分析当中,有些基础概念还是要认真了解的,时钟抖动(Clock Jitter)和时钟偏移(Clock Skew)经常容易混淆. 时序设计中,对于时钟的要求是非常严格的,因此FPGA中也有专用的时钟 ...

  9. 数字时序:时钟信号、抖动、迟滞和眼图

    转载地址:https://www.mr-wu.cn/digital-timing-clock-signals-jitter-hystereisis-and-eye-diagrams/ 时钟信号 Clo ...

最新文章

  1. 越南一难倒博士的趣味数学题
  2. 【随笔】工程师都是性情中人
  3. FusionCharts参数的详细说明和功能特性
  4. 07.德国博士练习_09_agg_query
  5. 免安装Mysql在Mac中的神坑之Access denied for user 'root'@'localhost' (using password: YES)
  6. jboss url路径_在JBoss的服务器端正确解码URL参数
  7. int main(int argc,char* argv[])讲解
  8. mysql视图执行原理_MySql中的视图 触发器 存储过程,以及事物
  9. 好用计算机怎么打,电脑输入法有哪些_电脑上最好用的输入法排行 - 系统家园...
  10. 常见视频输出接口类型
  11. 我的世界服务器物品上锁指令,如何用命令给“箱子”上锁?我的世界:这不是愚人节玩笑!...
  12. HTML表格的单元格合并
  13. C++11线程中的几种锁
  14. ADO.NET如何读取Excel(转自晓风残月)
  15. 微信公众号文章采集工具,可采集文章文字内容信息及图片
  16. java高校心理测评管理系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
  17. 利用Maven的War Overlays实现War包资源共享
  18. 墨水染色之广度优先搜索(C语言实现)
  19. HashMap底层源码解析
  20. 微信小程序性能优化方案

热门文章

  1. 计算机二级vf笔试题库,计算机二级VF笔试题库..doc
  2. 目前最好的家用投影仪,如何挑选家用投影仪?
  3. 在戴尔服务器上安装centos7网卡问题
  4. 关于linux系统的衍生系统Centos7共享服务samba设置
  5. 人物结局 归德侯府_《归德侯府》
  6. transactionscope mysql_TransactionScope 的基本原理简介
  7. PHP 的 curl 功能扩展基本用法
  8. 讨论异类ANR解决之道?????
  9. 订单超时未支付自动关闭的几种实现方案
  10. 怎么让宽带和iptv同时走一根网线而且还不影响宽带网速?