前言:这两年随着VR、IR概念的火爆,三维声场重建也成了向用户提供高逼真度浸入式体验的关键技术点之一。前两年研究过一段时间三维声场重建,大部分看过的paper的总结都陆陆续续遗失了,所以趁手边还剩一点、脑子里还剩一点,赶紧写下来吧,以免完全遗失了。这部分基于对一篇博士论文的学习,链接在此:http://xueshu.baidu.com/s?wd=paperuri%3A%281bad598554fcbd1b4c2a2c3465d6fef8%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fcdmd.cnki.com.cn%2FArticle%2FCDMD-10141-2010111292.htm&ie=utf-8&sc_us=10462086524468679680

三维声场重建,也称为三维音频、虚拟3D音频、双耳音频等,主要是根据人耳对声音信号的感知特性,使用信号处理的方法对到达两耳的声音信号进行模拟,以重建复杂的空间声场。说的通俗点,把耳朵以外的世界看作一个系统(系统冲击响应为h(n)),那么任意一个声音源x(n),在耳膜处接收到的信号为x(n)和h(n)的卷积,也即声音源经过耳朵外系统的滤波输出,三维声场重建就是把两个耳朵接收到的声音尽可能准确地模拟出来,就能让人耳有听到三维音频的感觉了。

人耳对立体声的感知也可以看作是对声源的定位,目前的理论大多基于该模型:声源传入左右两耳,会形成时间差(ITD)和强度差(ILD),另外,声音信号在耳外系统中传播时会形成音质的衰落(注:这个衰落不评价音质的优劣,仅指差异),人耳就是根据这些特征形成了定位能力。所以说,按照这个模型,如果人耳只有一个在工作的华,理论上就丧失了声音定位能力(类似于人眼的定位能力)。基于这一模型,人们用一个传递函数来描述耳外系统的特征,即头像关传递函数(HRTF),如下:

从这个公式能看出点什么吗?(1)两个耳朵各自对应一个HRTF;(2)两个耳朵的HRTF看起来不一定相关。另外,HRTF还有一个特点,没法从这组公式直观地看出,那就是每个人的HRTF都不尽相同。这就引出了三维声场重建领域的两大研究方向,一大方向是通过事先测量,测出空间有限个点的HRTF数据库,然后拼命地用这个库尽可能地推算出整个空间的HRTF,另一大方向则是利用场的理论拼命地算出整个空间的HRTF。前者理论和实现都相对容易,但是无法保证对每个人都有效,会出现甲听着挺逼真、乙则觉得完全不着道;后者虽然理论上能保证对任意听者的有效性,但是理论复杂、计算代价高、准确度也有待提升。而工业界怎么做呢,工业界大多采用人工头(或双耳麦克风),直接录出两个声道(当然了,不一定必需传输两个声道的数据),性价比当然能高一些,这个方向也已经有些公司做出了效果不错的产品,不过不幸的是,山寨打法的苗头已现,就看谁先占住市场了。

这一部分的务虚结束,下面来点实的,附上一张HRTF的测量方法示意图:

附上3个学术界研究时常用的三个数据库:

第一部分先到这里吧,改天再继续。



三维声场(虚拟3D音频)学习总结(1):基本概念相关推荐

  1. 3D Vision公开课精华 | 深度三维感知:数据、学习架构与应用

    文稿整理者 | 何常鑫 审稿&修改 |  弋力博士 本文总结于弋力博士2021年5月19日在深蓝学院关于深度三维感知的公开课--<深度三维感知:数据.学习架构与应用>. 本次公开课 ...

  2. HMS Core音频编辑服务音源分离与空间音频渲染,助力快速进入3D音频的世界

    从单声道.立体声.环绕声发展到三维声,音频回放技术的迭代演进是为了还原真实世界的声音.其中,三维声技术使用信号处理的方法对到达两耳的声音信号进行模拟,将声场还原为三维空间,更接近真实世界.凭借这个技术 ...

  3. Blender全流程制作真实感3D产品学习教程

    MP4 |视频:h264,1280×720 |音频:AAC,44.1 KHz,2 Ch 语言:英语+中英文字幕(根据原英文字幕机译更准确) |时长:41节课(4h 29m) |大小解压后:4.53 G ...

  4. 三维点云的深度学习研究综述

    作者丨aaa 来源丨https://zhuanlan.zhihu.com/p/455210291 编辑丨3D视觉工坊 摘要 点云学习由于在计算机视觉.自动驾驶.机器人等领域的广泛应用,近年来受到越来越 ...

  5. 3D深度学习总结(聚焦3D深度学习的现在于未来)

    3D深度学习总结(聚焦3D深度学习的现在于未来) 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 选自The gradient[点击此处],作者:Mihir Gar ...

  6. 3D音频再现理论研究(一)---3D音频技术历史介绍(转)

    1992年,创新推出第一款双声道音效卡--Sound Blaster 16,这是一款拥有16bit采样和44.1kHz的采样速率的声卡.该款产品号称拥有CD一样的高质回放表现,声卡的音质从此获得了从量 ...

  7. 3D音频理论研究(二)---3D全介绍(转)

    作者:it168.com Reny 一.3D音效 随着软.硬件的不断发展,传统的双声道单层面立体声音场,已经不能满足人们的需要.为了得到更好的立体感受和空间感受,科学家借助数字化音频生成了一种全新的声 ...

  8. CVPR2020论文解读:三维语义分割3D Semantic Segmentation

    CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D ...

  9. Autocad 3D 完全学习教程

    Autocad 3D 完全学习教程 你会学到什么 如何使用AutoCAD三维基本特征 了解如何在AutoCAD中创建和开发三维模型 准备实体.网格和曲面几何图形 不同的命令2d和3D 要求 不需要事先 ...

最新文章

  1. linux 程序包 permission denied,Linux 执行程序 报错误:Permission denied.
  2. Matlab数据的可视化 -- 平面多边形的着色
  3. 硬件开源需求迫切?开源笔电 Nevona 筹款金额达预设目标3倍
  4. 如何看待消息中间件的选型
  5. 基于小波变换的图像压缩解压缩仿真
  6. linux中挂载系统光盘,linux下挂载光盘
  7. 征战蓝桥 —— 2015年第六届 —— C/C++A组第5题——九数组分数
  8. promo和promotion
  9. Spring系列(二):Bean注解用法介绍
  10. 13 个应该记住的最不寻常的搜索引擎
  11. 东南大学计算机学院张敏灵,东南大学张敏灵教授来我校作学术报告
  12. 使用 Nginx 编译 Sass 和 Scss
  13. 环保线绕电阻器的主要特性和应用分析
  14. springboot中ehcache的使用
  15. 调出win10的关机的休眠(hibernate)选项
  16. MLX90614各类型芯片总结
  17. 2月19日CTF记录
  18. 7-16 新浪微博热门话题 (30分)
  19. 初步使用计算机教学设计,【教资笔试——科目三】信息技术教学设计范例
  20. 文盲+wordpress搭建个人博客类网站

热门文章

  1. JavaScript - jQuery(二)
  2. 转:2013年各大小IT公司待遇,绝对真实,一线数据!
  3. 项目管理之人力资源管理
  4. 【Halcon视觉】图像亚像素边缘提取
  5. 关于弹性布局flex
  6. sqli-labs--Less7
  7. Numpy中reshape函数、reshape(1,-1)的含义(浅显易懂,源码实例)
  8. 智能制造系统解决方案和智能工厂发展趋势
  9. makefile文件的创建
  10. epoch, batch, iteration