上一节主要介绍了关于语音信号产生的相关内容,本节将介绍和语音听觉相关的内容。

本节主要介绍语音感知和听觉特性,包括人体的语音听觉系统,客观度量和主观听觉感受以及听觉特性三方面内容。

作者&编辑 | 小米粥

编辑 | 言有三

1. 语音听觉系统

人耳主要分为外耳、中耳和内耳三部分。外耳的主要作用:生源源定位和声音放大(通过外耳道的共振效应实现)。中耳的主要作用:通过声阻抗变换实现声压放大和保护内耳。内耳的主要作用:将机械振动转换为神经信号。

内耳耳蜗中的基底膜具有频率选择特性。声波作为一种行波沿基底膜传播,而不同频率的声音将产生不同频率的谐波,其峰值将出现基底膜的不同位置上,如下图所示。对于多频率信号,行波将沿着基底膜在不同的位置产生最大振幅,其功能类似于频率分析。

2. 客观度量和主观听觉感受

2.1 声压

当空气中没有声波时,空气处于平衡态,此时的静压强等于大气压。声音是由振动产生的,当声波在空气介质中传播时,空气将产生膨胀和压缩的周期性变化,相应的,空气压强也将不断变化。声压是指声波传播时介质中心的压强与无声音传播时的静压强的差值。声压的大小反应了声音振动的强弱和声波的振幅。声压P 是重要的声学基本量,其单位为帕(Pa),常用的计量方式包括:瞬时声压、峰值声压和有效声压等。

2.2 声压级

人耳能感受到的声压范围为0.00002Pa到20Pa,动态范围非常广。另外,人们对声音强弱的主观感受并不与声压的绝对值成正比,而是近似正比于声压的对数值。声压级是另一种用于表示声音强弱的客观度量方法,其基本单位为分贝(dB),即

其中,P为有效声压值,而Pref为基准声压,取值为0.00002Pa。基准声压是对于1kHz的声音,人耳所能感受到的最低声压。常见的声压级如下图所示。

声压和声压级是对声音的客观度量参数,而人耳对声音主要有响度、音调和音色三个主观听感要素。

2.3 响度

响度是人耳对声音强弱的主观感受程度。对于同一强度的声波,不同人听到的效果并不一样,其响度感受具有非常强的主观性,该感受与声压强度和声波频率均有直接关系。通常而言,在人类听觉范围内,对于同一频率的声音,响度与声压级近似是正比例关系。对于频率因素而言,当声音强度一定的情况下,人耳对于3-4kHz频率之间的声音具有最大的响度感受,这是因为人的外耳道与该频率的声波发生共振;当频率极低或极高时,无论声音强度多大,人耳也无法感受响度。

在计量响度时,定义频率为1kHz的纯音在声压级为40dB时,其响度为1宋(sone)。统计结果表明,当声压级每增加10dB时,响度N增加1倍,即

此外,人耳对声音强弱的主观感受还可以用响度级LN来表示。以1kHz的纯音为基准声音,将其他频率的纯音和1kHz的纯音相比较,调整前者的声压级,使得听者认为两个纯音一样响,则称该纯音的响度级在数值上和 等响的1kHz纯音的声压级(dB)相等。响度级和响度的换算关系为

2.4 音调

音调是人耳对声音高低的主观感受。音调主要与频率相关,其与频率具有正相关关系,但是并没有严格的比例关系,并且因人而异。一般而言,频率低的声音给人低沉粗犷的感觉,而频率高的声音给人明快的感觉。另外,人耳在感受音调时需要一定的时间,至少要1.4个周期的声波才能感受到音调;对于纯音,其时值至少要达到3ms。

音调T的单位为美(Mel),定义声压为40dB,1kHz的纯音所产生的音调为1000Mel。若纯音听起来比1000Mel的音调高一倍,则为2000Mel。音调和频率的近似关系为

2.5 音色

音色是人耳对各种频率、各种强度的声波的综合反应,主要由频谱决定。声音与光类似,是由多种不同频率的成分组成的,可理解为由基波和高次谐波组成,谐波的多少和强弱构成不同的音色。例如,对于不同的乐器,当它们发出同一个声调时,虽然基本频率(基波)相同,但是由于材料结构等方面的不同,其谐波具有差异,因而我们可以区分不同的音色。通常而言,声音谐波数目越多,则听感更加丰富宽广;若频率成分较少,则音色单调乏味。

3.人耳听觉特性

3.1 听阈与痛阈

人耳只有在响度适中时才具有灵敏的辨音能力。在人耳的可听频率范围,声音强或弱到一定程度,人耳同样是听不见的,正常人听觉的声压级范围是0-140dB。一般以1kHz的纯音为测量标准,人耳刚能听到的声压级为0dB,此时强度称为最小可听阈值,简称为听阈;当声音增大140dB时,人耳感到疼痛,此时称为痛阈。

此外,人耳对不同频率声音的听阈和痛阈不一样,对声音的灵敏度也不一样。人耳痛阈受频率影响相对较小,而听阈受频率影响相对较大。

3.2 掩蔽效应

对于完美的频率分析系统,不同频率的成分将不会互相干扰、作用,但是人耳并不是高保真系统,有一定的局限性,并且人耳听觉系统中的机械传导系统是非线性系统,因而两个不同频率的声音同时进入人耳将产生掩蔽或者失真。例如,当人耳在听一个较弱的音时,若出现一个较强的音(掩蔽音),则人耳对较弱音(被掩蔽音)的灵敏度会降低,我们将这种现象称为掩蔽效应。

掩蔽效应是生理学和心理学的综合现象,主要分为同时掩蔽(频率域掩蔽)和异时掩蔽(时域掩蔽)。对于被掩蔽音,存在一个在安静环境下能被人听到的绝对听阈;当有掩蔽音出现的时候,提高被掩蔽音的强度,使人耳能够听见时听阈称为掩蔽听阈;而提高的强度分贝数被称为掩蔽量。可以看出,掩蔽听阈与掩蔽音是相关的。

在同时掩蔽中,频率域中强音会掩蔽同时与之发音的、频率相近的弱音,并且弱音离强音越近,越容易被屏蔽。如下图所示,橙色和绿色的弱音是被掩蔽音,它们将被频率相近的黄色的掩蔽音而掩蔽。实际中,一个1000Hz,60dB的纯音和1100Hz,42dB的纯音同时发出,人耳只能听到前者的强纯音。一般而言,低频的音更容易掩蔽高频的音。

在异时掩蔽中,相邻时间的强音会掩蔽弱音。若掩蔽效应出现在掩蔽音之前,则称为前掩蔽,反之,称之为后掩蔽。相比异时掩蔽,同时掩蔽是一种较强的掩蔽效应,其出现时间较长,而前掩蔽一般仅持续5-20ms,后掩蔽持续50-200ms。

掩蔽音主要分为纯音、宽带噪声和窄带噪声三种,而不同的掩蔽音和被掩蔽音组合将有不同的效果发,主要包括纯音对纯音的掩蔽,宽带噪声对纯音的掩蔽以及窄带噪声对纯音的掩蔽三种。

3.3 听觉延时效应

当两个强度相同的声音在时间先后到达人耳时,听觉对先后到达的声音的延时做出分辨的特性称为听觉延时效应(哈斯效应)。

实验表明,①如果前者和后者达到人耳的时间延迟在5-30ms以内,则无法听出是两个音,听觉上表现为前导音和延长音;②时间延迟在30-50ms之间,则能感受到两个音存在,但是方位由前导音决定;③当时间延迟超过50ms时,则能分别感受到两个音的存在和各自的方位。

视觉延时效应是立体声系统定向的重要基础之一,经常用于会场、厅堂的扬声器布置。例如,剧场中除了布置在舞台两侧的主扬声器外,还将在观众席的顶部和侧面布置扬声器。由于不同的扬声器和观众距离不同(顶部和侧面的扬声器距离观众较近),根据第二条哈斯效应,可能使观众产生声音并非来源于舞台,而是来源于顶部或者侧面的不真实感。此时,需要对顶部和侧面扬声器设置相关延时,并将延时控制在30ms以内。这样根据第一条哈斯效应,可实现视听一致的效果。

3.4 双耳效应

人耳听到声音可以大致分辨声音的来源方向,大致确定声源位置,我们将其称为双耳效应。当生源偏向左耳或者右耳时,声波到达左耳、右耳的时间、相位、声压、音色等均不同,因而双耳可根据这些信息差进行分辨。①对于时间差,在左右两耳连线上的音源到达两耳的时间差为0.62ms;②头颅对声音的阻隔作用使得声音达到两耳的声压级不同,在左右两耳连线上的音源到达两耳的声压级差25dB;③两耳在空间上的距离也将使声波传到两耳的相位产生差别;④对于右侧声源,其需要绕过头部才能到达左耳,而波的绕射能力与其障碍物尺度之间的比例相关。对于频率较高的声波分量,其绕过头颅的能力较差,衰减较大,因而双耳接受到的音色有差异。

利用双耳效应,我们可以在记录和重放时能把不同声源的空间位置反映出来,则在听录音时就彷佛听到各个方向的音源,这种体现空间分布特性的重放音即为立体声技术。

3.5 德波埃效应

对于听者正前方两只同样的扬声器,若功率、信号、相位都相同,则人耳无法区分这两个音源。若声压差大于15dB,则听者感觉声音来源于强度更大的扬声器;若时间差大于3ms,则听者感觉声音来自于声波先到达的扬声器。声强级差和时间差具有补偿效应,当声强差小于15dB,时间差小于3ms,则每5dB的声强差所引起的偏移效果相当于1ms的时间差。

[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.

[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.

[3] 卢官明, 宗昉. 数字音频原理及应用[M]. 机械工业出版社, 2012.

总结

本节的主要介绍语音感知和听觉特性,包括声压、声压强、响度、音调以及音色等声学感受,还包括双耳效应、掩蔽效应、延时效应等常见声学效应

下一节,我们将介绍语音信号的时域信号分析相关内容。

有三AI-语音群

有三AI建立了一个语音群,便于有志者相互交流。感兴趣的同学也可以微信搜索xiaozhouguo94,备注"加入有三AI-语音群"。

小米粥知乎

本专栏作者——小米粥 也在知乎进行同步更新,欢迎相关同学共同讨论学习。

有三AI计算机视觉学习季划

有三AI-CV季划是我们推出的终身计算机视觉培养计划,有三作为导师直接带领,囊括答疑,微信群交流,线下活动,多本自写的书籍,图文课件与代码,视频与直播,知识星球社区,内容组与研发组权限,了解详细请阅读以下文章:

【总结】2022年有三AI-CV夏季划出炉,超200个课时+10个方向+30个项目,从理论到实践全部系统掌握

【CV秋季划】模型算法与落地很重要,如何循序渐进地学习好(2022年言有三一对一辅导)?

【CV秋季划】人脸算法那么多,如何循序渐进地学习好?

【CV秋季划】图像质量提升与编辑有哪些研究和应用,如何循序渐进地学习好?

【CV秋季划】生成对抗网络GAN有哪些研究和应用,如何循序渐进地学习好?

【CV冬季划】终极进阶,超30个项目实战+3本书+3年知识星球

转载文章请后台联系

侵权必究

往期精选

  • 【杂谈】有三AI的一对一永久技术答疑服务,我们至少不会跑路

  • 【语音处理】开始学习语音,从基本概念和应用讲起

  • 【语音处理】声音的产生机制和数学模型

【语音处理】硬核介绍人体的感知和听觉特性相关推荐

  1. (22)FPGA软核、固核、硬核介绍

    (22)FPGA软核.固核.硬核介绍 1.1 目录 1)目录 2)FPGA简介 3)Verilog HDL简介 4)FPGA软核.固核.硬核介绍 5)结语 1.2 FPGA简介 FPGA(Field ...

  2. 华为重磅发布芯片,领衔开启2019 CES,一文看尽五大硬核亮点...

    华为重磅发布了"鲲鹏920"芯片,将会在本届CES上展出. 18万参观者.11个场馆.24个产品类别.全球155个国家和地区超过4500家公司参展.参与报道媒体达6500家--20 ...

  3. 华为重磅发布芯片,领衔开启2019 CES,一文看尽五大硬核亮点

    华为重磅发布了"鲲鹏920"芯片,将会在本届CES上展出. 18万参观者.11个场馆.24个产品类别.全球155个国家和地区超过4500家公司参展.参与报道媒体达6500家--20 ...

  4. 最硬核交通信号灯上线:专治老司机们的这个“臭毛病”!

    鸣笛催促是一种常见的现象,在一定程度上能起到提示作用,就是为了在行驶过程中提醒旁边的行人或车辆.但在当今社会汽车已经相当普及,人们对于它存在的感知也比较灵敏,但这不代表可以在交通拥堵时发泄你的不满,这 ...

  5. 3 万字 51 张图教你 CPU、内存、操作系统硬核知识!

    作者|cxuan 来源 |Java建设者(ID:javajianshe) 我们每个程序员或许都有一个梦,那就是成为大牛,我们或许都沉浸在各种框架中,以为框架就是一切,以为应用层才是最重要的,你错了.在 ...

  6. 硬核科普!携号转网的技术原理分析!

    11月11日,工信部发布<携号转网服务管理规定>,标志着国内三大运营商的"携号转网"业务正式进入试运行阶段. 根据规划,从12月1日开始,"携号转网" ...

  7. 揭秘支撑双 11 买买买背后的硬核黑科技!

    作者 | 伍杏玲 出品 | CSDN(ID:CSDNnews) 自2009年第一次"双11"起,如今过去11年,"双11"也从原来孤单的"光棍节&qu ...

  8. 全员全域安全守护,蔚来ET7获Euro NCAP五星安全评级背后的硬核实力

    2022年11月16日,蔚来智能电动旗舰轿车ET7 获得Euro NCAP(欧盟新车安全评鉴协会)五星安全评级,成为继ES8之后蔚来又一款获得欧洲五星安全评级的车型.ET7分别在乘客安全.儿童安全.弱 ...

  9. 硬核讲解 Jetpack 之 LifeCycle 使用篇

    大家好,我是 LifeCycle ,来自 Jetpack 生态链的最底端 . 我的作用是感知组件 (Activity/Fragment) 生命周期 ,并在合适的生命周期执行你分配给我的任务.我坚持贯彻 ...

最新文章

  1. ASP.NET分页存储过程自定义用户控件
  2. python概念(一)python基本数据类型
  3. 机器学习实战-逻辑回归-19
  4. 数据库范式(1NF 2NF 3NF BCNF)详解
  5. linux下各权限的细分
  6. Arcgis for javascript不同的状态下自定义鼠标样式
  7. 完全跨域的单点登录(SSO)解决方案源码解析
  8. C++之move提升copy性能
  9. [jzoj 4528] [GDOI2019模拟2019.3.26] 要换换名字 (最大权闭合子图)
  10. 拓端tecdat|R语言用线性回归模型预测空气质量臭氧数据
  11. maven只是经手,不是触发:org.apache.maven.lifecycle.LifecycleExecutionException
  12. Kubernetes pull requests
  13. /proc/sys/vm/drop_caches
  14. 阿里云ECS主机绑定域名
  15. 需求预测——Gallat: A Spatiotemporal Graph Attention Network for Passenger Demand Prediction
  16. mac mini 用法
  17. 「AppleScript」循环遍历
  18. Python适合0基础菜鸟学吗
  19. Akita与脉冲云的关系
  20. Field tagService in xxx.service.impl.ArticleServiceImpl required a bean of type ‘xxserviceTagService

热门文章

  1. 在数据库中根据经纬度查找数据中所有附近的经纬度点
  2. 数据库建模——powerdesiger常见问题总结
  3. 没有注册类别的一种解决方法
  4. Cesium三维抗锯齿
  5. 如何防范p2p终结者的限速
  6. 7-5 jmu-ds-简单密码 (22分) ---答应我只用if(x),千万别用if(x==true)
  7. HTML5冷思考:如何保证游戏能在3秒钟打开
  8. OpenWrt获取网关IP
  9. 简述 URL 并分别说明各部分的含义
  10. 阿里云李钟:弹性计算控制系统团队提效之路