声音空间:三维环境中的视听导航(2020)

摘要

在世界上四处走动自然是一种多感官体验,但今天的实体代理都是聋子,仅限于它们对环境的视觉感知。我们为复杂、听觉和视觉逼真的3D环境引入视听导航。

通过视觉和听觉,代理必须学会导航到发声目的地(对象)。我们提出了一种多模态深度强化学习方法,从以自我为中心的视听观察(observation)中端到端训练导航策略,允许代理(1)发现混响音频所指示的物理空间几何元素,以及(2)检测和跟踪发声目标。

我们还引入了声音空间:这是第一个基于两组公开的3D环境(Matter port3D和Replica)的几何听觉模拟的音频渲染数据集,我们为Habitat配备了仪器,以支持新传感器,使其能够在一系列真实扫描环境中插入任意声源。

我们的研究结果表明,音频对三维空间中的嵌入式视觉导航非常有益,我们的工作为基于视听感知的嵌入式人工智能的新研究奠定了基础。

研究内容

实体代理感知并行走在他们周围的世界中,在他们感知的环境和他们选择的动作(action)之间有一个持续的循环。

视觉和声音都在不断地驱动着我们的活动:洗衣机发出嗡嗡声,指示洗衣机已经完成,一个哭闹的孩子引起了我们的注意,打碎玻璃的声音可能需要紧急帮助。在嵌入式人工智能中,导航任务特别重要,应用于搜索救援或服务机器人等领域。导航在机器人技术中有着悠久的历史,严格的几何地图[87,43]是导航的重点。

最近,计算机视觉研究人员正在探索一种松弛地图度量(指标)的模型,以支持端到端策略学习和学习空间记忆,这些记忆可以概括为新环境中的视觉线索[111,41,40,79,4,64,59]。

然而,尽管当前的导航模型将视觉和运动紧密结合在一起,但它们对周围的世界充耳不闻。这给感官带来了很大的困难:声音是(1)理解物理空间和(2)定位发声目标的关键。正如盲人和进行声波导航的动物所利用的那样,声音反馈部分揭示了空间的几何结构、遮挡物体的存在以及主要表面的材料[73,27]——所有这些都可以补充视觉流。

同时,当前超出可视范围的目标可能只能通过其声音(例如,从楼上呼叫的人、被沙发挡住的铃声、从后面接近的脚步声)来检测。最后,当视觉线索不可靠(例如,灯光闪烁)或与代理任务正交(例如,有碎石的救援现场打破了先前的视觉环境)时,听觉线索变得至关重要。

基于这些因素,我们为复杂、视觉逼真的3D环境引入了视听导航。自主代理在试图到达其目标时可以看到和听到。我们考虑导航任务的两种变体:

  1. 音频目标(Audio Goal),其中目标由其发出的声音表示,(2)音频点目标(Audio Point Goal),其中,代理在开始时被额外指向目标位置。

前者捕捉到目标最初不在视线范围内但能通过听觉听到的场景(例如,电话铃声)。后者增强了流行的点目标导航任务[4],并捕获了代理具有指向目标的GPS指向的场景,但应利用视听提示来导航不熟悉的环境并更快地到达。

我们提出了一种多模态深度强化学习(RL)方法,从视听观测流中端到端地训练导航策略。重要的是,必须根据代理的当前位置和方向以及3D环境的物理属性生成音频观察(observation)。

为此,我们为Matter port3D[13]和Replica[83]这两个扫描现实世界3D环境的公共数据集引入了预先计算的音频渲染声音空间,并将它们与开源Habitat平台[59]集成,以实现快速3D模拟(对可伸缩RL至关重要)。

所提出的实体AI代理学习在新颖的未映射环境中选择运动的策略,该策略将使其有效地到达目标,同时发现潜在环境图的相关方面。请参见图1。

我们的结果显示了导航的音频和视觉之间的强大协同作用。代理学习混合这两种模式来映射新的环境,这样可以在训练时更快地学习,在推理时更快、更准确地导航。

此外,在我们最激动人心的结果之一中,我们证明了对于音频目标,音频流与当前导航方法通常依赖的目标位移向量竞争良好[4,59,37,52,14],同时具有不假设完美GPS里程测量的优势。最后,我们探讨了代理不仅可以推广到看不见的环境,还可以推广到听不见的声音。

图1:在一个未映射3D环境中的音频源,其中自主代理必须导航到目标。自顶向下映射与声压场热映射(acoustic pressure field heat map)相重叠。由于音频强度变化与最短路径距离相关,我们的音频启用代理可以获得关于目标的丰富方向信息。听觉还揭示了房间的几何结构、主要结构和材料。请注意,场沿代理必须用于达到目标的测地线路径的梯度(不同于穿过内壁的最短欧几里德路径)。因此,提议的代理享受两种模式的协同作用:音频显示门是一个良好的中间目标,而视觉显示沿途的物理障碍,如左手房的家具。

提出的方法&模型架构

声音空间:在Habitat中启用音频 (Sound Spaces: Enabling Audio in Habitat)

我们的音频平台增强了Habitat模拟器[59],特别是其中托管的Matter port3D[13]和Replica[83]数据集。Habitat是一个开源3D模拟器,具有支持RGB、深度和语义渲染的用户友好API。该API提供了对多个数据集的快速(超过10K fps)渲染和支持[83104,12,66,21]。这激励了许多具体的人工智能工程将其作为训练导航和问答代理的3D模拟器[59,14,52,37,95]。

我们使用85 Matter port3D[13]环境,这是具有3D网格和图像扫描的真实家庭和其他室内环境。环境很大,平均占地517平方米。Replica[83]是一个包含18个带有3D网格的公寓、酒店、办公室和房间场景的数据集。通过使用我们的音频模拟器扩展这些与栖息地兼容的3D资产,我们使用户能够利用高效的栖息地API,并轻松采用音频模式进行AI代理训练。我们的音频平台和数据是公开共享的。

我们的高保真音频模拟器声音空间考虑了3D环境中真实声音渲染的重要因素。我们使用最先进的算法对房间听觉进行建模[11],并使用双向路径跟踪算法对房间几何结构中的声音反射进行建模[91]。由于材料也会影响环境中接收到的声音(例如,穿过大理石地板与毛茸茸的地毯),我们通过将网格的语义标签映射到现有数据库中的材料来设置主要表面的听觉材料属性[24]。每种材料都有不同的吸收、散射和透射系数,这些系数会影响我们的声音传播(见补充)。这使我们的模拟器能够模拟细粒度的听觉特性,如通过墙壁的声音传播。

对于每个场景,我们通过预先计算房间脉冲响应(RIR)来模拟环境的听觉。RIR是声源和麦克风之间的传递函数,它随房间几何结构、材料和声源位置而变化[54]。

图2:听觉模拟。我们捕获了图示网格中每个位置对之间的房间脉冲响应(此处为Replica中的“frl apartment 0”场景)。在我们的平台中,代理可以在密集采样的位置L(标有黑点)体验双耳音频,聆听声音的强度、方向和频率纹理。热图显示音频压力场,从红色变为蓝色。左:当S中的声源位于中心时。右:当源放置在楼梯上时。请注意,当声源移动时,代理在不同位置接收的声音如何变化,以及3D结构如何影响声音传播。

任务定义:视听导航

我们提出了两种新的导航任务:音频目标导航和音频点目标导航。

在音频目标中,代理听到位于目标的音频源,如电话铃声,但没有收到关于目标的直接位置信息。

音频点目标是文献[4,59,37103,52,14]中经常研究的点目标任务的音频扩展,其中代理听到源并被告知其从起始位置的位移。

在所有三项任务中,为了导航和避开障碍物,代理需要仅使用感官输入到达目标。即,不向代理提供场景的地图。

Task definitions.任务定义。

对于点目标[4,59,96],一个随机初始化的代理的任务是导航到一个由相对于代理的起始位置的位移向量(∆0x,∆0y)定义的点目标。

对于音频目标,代理从发声目标接收音频;音频目标代理不接收指向目标的位移向量。观察(observation)到的音频根据代理的位置、目标的位置以及房间的结构和材料进行更新。

在音频点目标中,代理接收在点目标和音频目标任务中接收的信息的联合,即音频和点向量。请注意,物理障碍物(墙壁、家具)通常沿着位移向量存在,代理在导航时必须感知它们。

Agent and goal embodiment. 代理和目标实体

我们采用了Habitat中使用的标准圆柱体实体。目标直径为0.2m,高度为1.5m,与之前的点目标工作一致,没有视觉存在。虽然目标本身没有可见的体现(目前在Habitat中不受支持),但视觉——尤其是深度的抽象方面——对于检测和避免向目标移动的障碍至关重要。因此,所有任务都有一个关键的视觉组件。

Action space. 行动空间。

动作(action)空间是:前进、左转、右转和停止。最后三个动作(action)始终有效。当代理试图从一个节点遍历到另一个节点而没有连接它们的边时(根据第2节中定义的图),向前移动动作(action)无效。如果有效,向前移动将代理向前移动0.5m(副本)或1m(物质端口)。对于所有模型,都不存在驱动噪声,即一个步骤执行完美或根本不执行。

 Sensors. 传感器。

感官输入包含双耳声音(无点目标)、GPS(无音频目标)、RGB和深度。为了捕捉双耳空间声音,该代理模拟放置在人体高度的两个麦克风。根据先前的工作[59,14,37,52],我们假设一个理想化的GPS传感器。然而,正如我们将在结果中展示的那样,我们基于音频的学习提供了稳定的导航信号,使禁用GPS传感器以执行拟议的音频目标任务成为可能。

 Episode specification. 集规范。

点目标的情节由任意(1)场景、(2)代理开始位置、(3)代理开始旋转和(4)目标位置定义。

在每一个episode 中,如果代理成功导航,它都可以到达目标。音频目标和音频点目标的episode还包括一个源音频波形。波形与特定场景、目标、代理位置和方向对应于的RIR进行卷积,以生成代理的动态音频。

我们考虑代理熟悉和不熟悉的各种音频源(详见下文)。如果代理恰好在目标位置执行停止动作(action),则一个episode成功。对于所有任务,代理的时间范围为500个动作(action),类似于[59,47,14,37,52]。

导航网络和训练

为了自主导航,代理必须能够进入一个新的但未映射的空间,随着时间积累对环境的部分观察(observation),并有效地将自身传输到目标位置。基于最近的具体视觉导航工作[111,41,40,4,64,59],我们采用深度强化学习方法,并将音频引入观察(observation)。

在训练期间,代理因正确有效地导航到目标而获得奖励。这产生了一种策略,将新的多传感器自我中心观察(observation)映射到代理的动作(action)。

感官输入。

音频输入是频谱图,遵循音频学习文献[72109,32]。具体而言,为了表示代理的双耳音频输入(对应于左耳和右耳),我们首先计算短时傅立叶变换(STFT),其跳跃长度为160个样本,加窗信号长度为512个样本,对应于采样率为44100Hz(Replica)和16000Hz(Matter port)的12毫秒和32毫秒的物理持续时间。通过使用音频的前1000毫秒作为输入,STFT分别给出257×257和257×101复数矩阵;我们取其大小,并将两个轴向下采样4倍。为了更好地对比,我们取其对数。最后,我们叠加左声道矩阵和右声道矩阵,以获得65×65×2和65×26×2张量,表示为a。

视觉输入V是RGB和/或深度图像,分别为128×128×3和128×128×1张量,其中128是代理90°视野范围的图像分辨率。在场景的2D地平面中,相对位移向量∆ = (∆x,∆y) 指向从代理到目标的点。代理接收这三个输入(音频、视频、向量)中的哪一个特定子集取决于代理的传感器和目标的特征(参见第4节)。感知输入通过策略网络转换为行动(action)空间上的概率分布,如我们接下来描述的。

网络架构。

图3:视听导航网络。我们的模型使用来自3D环境的听觉和视觉线索,以有效导航复杂的场景。

训练。

我们使用近端策略优化(Proximal Policy Optimization:PPO)来训练网络[81]。代理因快速达到目标而获得奖励。具体而言,它在目标位置执行停止动作(action)时获得+10的奖励,-0.01的负奖励在每个时间步长,+1表示减少到目标的测地距离,以及增加该距离的等效惩罚。为了更好地探索行动(action)空间,我们在累积奖励优化中添加了熵最大化项[42,81]。

音频协同导航。

实现细节。

文章贡献

我们的主要贡献是:

1.我们介绍了在复杂、视觉和听觉逼真的3D环境中自主代理的视听导航任务。

2.我们推广了最先进的深度RL视觉导航框架,以适应音频观察(observation)并演示其对导航的影响。

3.我们介绍了Sound Space,这是第一个用于嵌入式人工智能的视听平台。我们在Habitat平台[59]上对Matter port3D[13]和Replica[83]中的103个环境进行了听觉逼真的声音渲染。这允许插入任意声源并从任意代理接收器位置对其进行适当感测。通过公开共享这一新资源,我们的工作可以在这一领域实现其他新想法。

4.我们为视听导航创建了一套基准任务,以促进这方面的未来工作。

补充内容

视听学习。最近,视听(AV)学习研究的热潮集中在视频上,而不是体现感知。这包括视频合成声音[71,16110]、空间化声音[65,32]、声源分离[109,31,70,26,33]、跨模态特征学习[106107,72,30]、AV跟踪[34,8,9,2]和学习材料属性[71]的有趣方向。与之前定位与声音相关的视频帧中像素的工作不同[88,82,6,45],我们的目标是学习代理在3D环境中主动定位音频目标的导航策略。与上述任何一项不同,我们的工作涉及具体的导航,而不是从人类捕获的视频中学习。

基于视觉的导航。神经科学对视觉在人类导航中的认知映射作用进行了深入研究[25,89]。最近的人工智能代理还聚集了以自我为中心的视觉输入[112111,63,86,46],通常具有时空记忆[40,79,44101]。视觉导航可以与其他任务相结合,以实现智能行为,如问答[36,22,23]、主动视觉识别[48]和指令跟踪[5,15]。我们的工作超越了视觉感知,融入了听觉,为导航提供了一个全新的视角。

基于音频的导航。认知科学还证实,音频是一种强大的导航信号[85,62]。盲人和有视力的人在空间导航[28]和声音定位[38,57,77,93]任务方面表现出相当的技能。因此,基于音频的AR/VR设备被设计用于人类用户的听觉感官替代,用于避障和导航[60,39]。此外,类似卡通的虚拟2D和3D AV环境可以帮助评估人类对音频线索的学习[19,97,61]。与我们提出的平台不同,这些环境是非照片真实的,是供人类导航者使用的;他们不支持人工智能代理或训练。先前在模拟环境中对自主代理的研究仅限于人类构建的游戏板,不使用听觉正确的声音模型,并在同一环境中进行训练和测试[94,99]。

机器人中的声音定位。在机器人技术中,麦克风阵列通常用于声源定位[68,76,67,69]。过去的研究将AV线索融合到监视[100,74]、语音识别[105]、人机交互[1,92]和机器人动作(action)任务[78]中。没有人尝试在未映射的环境中进行视听导航。并行工作探索了计算机图形环境中的AV导航[29]。与我们的端到端RL代理不同,他们的模型将任务分解为从音频预测目标位置,然后规划到达目标的路径。我们的模拟平台在视觉(我们的真实世界图像与[29]中的计算机图形)和听觉(我们的光线跟踪/声音穿透/全遮挡模型与[29]中的低成本游戏音频)方面都更加逼真,它提供了5000×更多的音频数据和15×更多的环境。据我们所知,我们是第一个在视觉和听觉逼真的3D环境中演示AV代理改进导航的工作,也是第一个引入端到端方法解决该问题的工作。

3D环境。新的3D环境和仿真平台极大地促进了体现感知的最新研究。与视频游戏等人工环境[50,56,49102,84]相比,照片逼真的环境描绘了真实人物和移动机器人互动的3D场景。可以从代理选择的视点渲染其真实网格,以可Replica的方式训练和测试RL导航策略[3,13104,53,7,83,10103,59]。许多是用3D扫描仪和真实的360张照片拍摄的,这意味着这些视图确实是机器人在现实世界中接收到的感知输入[13,83,3]。没有一个常用的环境和模拟器提供音频渲染。我们提出了第一个用于人工智能代理训练的视听模拟器,并首次研究了真实3D环境中的视听体现代理。

数据准备

数据集 dataset.

表1总结了声音空间,包括Replica和Matter port3D数据集的音频渲染。

每个episode由一个元组组成:h场景、代理开始位置、代理开始旋转、目标位置、音频波形。我们通过选择场景和随机开始和目标位置来生成集。为了消除更容易发生的事件,我们修剪了那些要么太短(测地距离小于4)要么可以通过主要沿直线移动(测地与欧几里得距离之比小于1.1)来完成的事件。我们确保在每集开始时,代理可以听到声音,因为在一些大型环境中,当代理远离声源时,音频可能听不到。

声源。Sound sources.

回想一下,RIR可以与任意输入波形进行卷积,这允许我们在不同的情节中改变声音。我们使用102种无版权的电话、音乐、风扇等自然声音(http://www.freesound.org)。有关示例,请参见Supp视频。除非另有规定,否则声源为电话铃声。我们强调,在所有实验中,测试时的环境(场景)都是未映射的,以前在训练中从未见过。训练中听到的声音在测试时也能听到是有效的,例如,多个环境中的电话铃声会根据3D空间以及目标和代理位置的不同而不同。O.3的实验检查了各种列车/测试声音的影响。

韵律学。Metrics.

我们使用由反向路径长度(SPL)归一化的成功率,这是导航的标准度量[4]。我们认为只有当代理达到目标并执行停止动作(action)时,插曲才会成功。

基线。Baseline.

我们考虑了三个非学习基线,它们改编自先前的工作[59,17]:随机选择{向前移动,向左拐,向右拐}中的一个动作(action)。前进总是要求前进,如果遇到障碍,则要求右转,然后继续前进并重复。目标跟随者总是先将自己定向到目标,然后再调用“向前移动”。这三种方法都会在达到目标时发出停止动作(action)。

实验

我们的主要目标是展示:

1、利用视觉和声音进行导航(即,建议的音频点目标)可以实现更好的导航和更快的学习。这表明,音频不仅具有便于导航的目标坐标,还具有补充信息。

2、在3D环境中收听音频目标是基于GPS的提示的可行替代方案。所提出的音频目标代理不仅比点目标代理导航更好,而且在没有点目标完美里程计假设的情况下,甚至在有噪声的音频传感器的情况下也能更好地导航。音频目标任务具有真实感的重要优势:代理自主地感知音频目标中的目标,而目标则通过∆ 在实际应用中,这是一个罕见的场景。

3、视听导航可以推广到新环境和新声源。特别是,视听代理可以更好地利用音频导航,即使声源不熟悉。

O1:音频有助于导航吗?

首先,我们通过比较点目标和音频点目标代理,评估将音频感知添加到视觉导航中的影响。表2比较了测试环境中代理和基线的导航性能(SPL)。我们考虑三种视觉感知能力:无视觉输入(盲)、原始RGB图像或深度图像。(我们发现RGB+D并不比单独的深度好。)音频显著提高了准确性,显示了多模态导航感知的清晰价值。这两种学习型代理在更强的视觉输入(深度最强)下表现更好,尽管对于音频点目标来说,RGB和深度之间的差距较小。这很有趣,因为它表明视听学习比单独配备视觉的模型更容易从原始RGB图像中捕获几何结构(如深度)。正如预期的那样,简单基线表现不佳,因为它们没有利用任何感官输入(因此在两项任务中表现相同)。为了了解音频如何影响导航行为,图4显示了示例轨迹。有关更多信息,请参阅Supp视频。

Table 2: Adding sound to sight and GPS sensing improves navigation performance significantly. Values are success rate normalized by path length (SPL); higher is better.

表2:在视觉上添加声音和GPS传感,显著提高了导航性能。值是按路径长度(SPL)归一化的成功率;越高越好。

图4:自顶向下地图上的导航轨迹。随着时间的推移,代理路径颜色从深蓝色逐渐变为浅蓝色。绿色路径表示最短的测地线路径。

上图:Replica-PointGoal代理在试图向目标移动时多次撞到墙上,无法确定目标是否位于另一个房间。相比之下,AudioGoal和AudioPointGoal代理可以更好地感知目标:声音通过门传播,代理立即离开出发室。

底部:Matterport-AudioGoal代理可以在大型多房间住宅中有效避免回溯以达到目标。

O2:音频能否取代GPS作为音频目标?

接下来,我们探讨了在(音频)视觉导航期间,音频在多大程度上提供了GPS感知可用的空间线索。此测试需要比较点目标和音频目标。回想一下,与(音频)点目标不同,音频目标不接收指向目标的位移向量;它只能听和看。

图5(a)报告了作为GPS质量函数的导航精度。最左边的点使用完美的GPS,告诉点目标代理(但不是音频目标代理)目标的确切方向;对于后续点,加上方差增加的高斯噪声,直到σ=1.5m。所有代理都使用深度。虽然根据定义,音频目标的精度与GPS故障无关,但其他目标的精度受到明显影响。†此外,面对GPS噪声,音频点目标(APG)比点目标(PG)退化得更优雅。这表明,音频信号提供的空间线索与点目标位移类似,甚至更好,考虑到GPS在实践中的不可靠性,尤其是在室内,点目标位移可能过于乐观。T-SNE[90]可视化(图5(b))强化了这一发现:我们学习的音频目标的音频特征自然编码了到目标的距离和角度。

请注意,这些发现与麦克风噪声持平:在40dB SNR(坏麦克风)的情况下,Replica端口和物质端口上的SPL仅从0.756略微下降到0.753,从0.552略微下降到了0.550。接下来,我们探索我们的音频目标代理是否根据声音强度学习到了更多指向目标的指针。我们运行了我们模型的一个变体,其中音频输入仅由左右波形的强度组成;音频CNN被移除,并且图3中的网络的其余部分保持不变。

这种简化的音频输入允许代理容易地学习跟随强度梯度。音频目标深度代理的性能下降到SPL 0.291和0.014,这表明我们的模型(图5(a)中的SPL为0.756和0.552)确实从完整的频谱图中学习了额外的环境信息,以更准确地导航。请参见补充。我们预计,基于环境背景和目标位置,音频和视频输入在任何给定时间点对代理决策的相对影响都会有所不同。

为了计算它们的影响,我们通过用其平均训练样本值替换,依次消除每个模式,并将我们模型下的结果动作概率与两种模式下选择的动作概率进行比较。我们使用对数动作概率的绝对差计算每个输入模态的重要性,通过两次烧蚀的总和进行归一化。所选动作的变化越大,模态对学习者实际选择的影响就越大。图6和Supp视频显示了AV影响分数的示例,以及轨迹中不同阶段的代理的自我中心视图。我们看到代理动态地利用其中一种或两种模式来通知其在环境中的运动。

Fig. 5: Audio as a learned spatial sensor. (a) Navigation accuracy with increasing GPS noise. Unlike existing PointGoal agents, our AudioGoal agent does not rely on GPS, and hence is immune to GPS noise. (b) t-SNE projection of audio features, color coded to reveal their correlation with the goal location (left) and direction (right), i.e., source is far (red) or near (violet), and to the left (blue) or right (red) of the agent.

图5:作为学习空间传感器的音频。(a) GPS噪声增加时的导航精度。与现有的PointGoal代理不同,我们的AudioGoal代理不依赖GPS,因此不受GPS噪声的影响。(b) 音频特征的t-SNE投影,颜色编码以显示其与目标位置(左)和方向(右)的相关性,即,源是远(红)或近(紫),以及代理的左(蓝)或右(红)。

Fig. 6: Impact of each modality on action selection for two AudioGoal episodes. We show one episode per row, and three sampled timesteps each. See Fig. 4 for legend. Blue and green bars display the importance of vision and audio, respectively.

Top: Initially, the agent relies on audio to tell that the goal is on its left and decides to turn left. Later, it uses vision to recognize obstacles in front of it and decides to turn right. Finally, the agent decides to stop because the sound intensity has peaked.

Bottom: Initially, the agent decides to turn left, following the audio source. Then the agent uses vision to identify the free space and decides to move forward. Later, the agent relies more on audio to decide to turn right as it hears the target from the right.

图6:两集AudioGoal的每种模式对动作选择的影响。我们每行显示一集,每行显示三个采样时间步。图例见图4。蓝色和绿色条分别显示视觉和音频的重要性。

上图:最初,代理依靠音频来判断目标在其左侧,并决定左转。后来,它用视觉识别前方的障碍物,并决定右转。最后,代理决定停止,因为声音强度已达到峰值。

底部:最初,代理决定跟随音频源向左拐。然后,代理使用视觉识别自由空间并决定向前移动。后来,当代理听到右侧的目标时,它更多地依靠音频来决定右转。

O3:不同声源的效果如何?

接下来,我们分析声源的影响。首先,我们探索对新奇声音的概括。我们将102个声音片段分成73/11/18个片段,分别用于train/val/test。我们训练音频目标(AG)和音频点目标(APG),然后验证和测试不相交val和测试声音。在所有情况下,测试环境都是不可见的。表3显示了结果。随着我们在表格中从左向右移动,声音泛化任务变得越来越困难:从单个听到的声音到可变听到的声音,再到可变未听到的声音(有关这三种测试设置的详细信息,请参阅Supp)。注意,非学习基线不受音频变化的影响,因此在此省略。我们的APG代理几乎总是优于点目标代理,即使对于听不到的测试声音,这强化了表2中的结论。APG在听不到和听不到声音上的表现相当相似,表明它已经学会平衡所有三种模式。另一方面,AG的准确度随着听到的声音和未听到的声音的变化而下降。虽然跟踪不熟悉声音的任务更难是有道理的,但我们也期望更多声音的更大训练库将在很大程度上解决这种下降。

Table 3: Navigation performance (SPL) when generalizing to unheard sounds. Higher is better. Results are averaged over 7 test runs; all standard deviations are 0.01.

表3:概括为未知声音时的导航性能(SPL)。越高越好。取超过7次试验运行的平均结果;所有标准差均为≤0.01。

结论

我们介绍了复杂3D环境中的视听导航任务。通过为这项任务推广最先进的深度RL导航引擎,我们为音频在视觉导航任务中的作用提供了令人鼓舞的结果。

结果表明,当与以自我为中心的视觉观察(observation)紧密联系时,音频不仅丰富了声源的方向线索,还丰富了环境的空间信息,我们的模型成功地利用了这两种信息实现了更好的导航。

我们工作的另一个重要贡献是使用公开可用的Replica和Matter port3D环境为Habitat实现音频渲染,这可以促进该领域的未来工作。

接下来,我们感兴趣的是考虑多代理场景、sim2real传输、移动声音发射目标以及在动态音频事件的上下文中导航。

Sound Spaces: Audio-Visual Navigation in 3D Environments(2020)相关推荐

  1. Learning Affordance Landscapes for Interaction Exploration in 3D Environments翻译

    Abstract   在人类空间中运作的具身智能体(embodied agents)必须能够了解其身处的环境是如何工作的:该智能体可以使用哪些对象,以及如何使用它们?FAIR(Facebook AI ...

  2. 《《《翻译》》》Navigation Through Cluttered Environments

    原文地址:https://www.hrl.uni-bonn.de/papers/regier16iros.pdf https://www.hrl.uni-bonn.de/HRL/publication ...

  3. 论文阅读:SoundSpaces: Audio-Visual Navigationin 3D Environments

    ECCV 2020 引言 视听导航任务:通过视觉和听觉,智能体必须学会导航到一个发生的物体. 应用场景:洗衣机发出响声可能表示洗衣完毕,哭闹的孩子需要引起我们的注意,打碎玻璃的声音可能需要紧急帮助. ...

  4. 论文阅读:(三)DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments

    之前看了有关语义分割的SLAM,最近调研下动态场景下基于动态实例剔除的论文. DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments- ...

  5. 《Cognitive Mapping and Planning for Visual Navigation》读书笔记

    原文链接:Cognitive Mapping and Planning for Visual Navigation 他山之石:学界 | 谷歌提交新论文提出认知型地图构建器和规划器:同时应对视觉导航的几 ...

  6. 论文【Learning to Localize Sound Source in Visual Scenes】soundnet的复现

    题目:Learning to Localize Sound Source in Visual Scenes 作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming ...

  7. 【论文导读】Learning to Localize Sound Source in Visual Scenes

    论文题目:Learning to Localize Sound Source in Visual Scenes 作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Mi ...

  8. 视觉导航(一)Learning Object Relation Graph and Tentative Policy for Visual Navigation

    Learning Object Relation Graph and Tentative Policy for Visual Navigation Abstract 视觉导航中最重要的是学习有用的视觉 ...

  9. Sound Spaces 2.0: A Simulation Platform for Visual-Acoustic Learning(2022)

    SoundSpaces2.0:一个用于视觉-声学学习的模拟平台(2022) 摘要 我们将介绍SoundSpaces 2.0,这是一个用于三维环境中基于几何体的动态音频渲染平台. 给定真实世界环境的3D ...

最新文章

  1. 【Android FFMPEG 开发】Android Studio 中 配置 FFMPEG 库最小兼容版本 ( undefined reference to 'atof' )
  2. 文件服务器的迁移(包括权限)
  3. 计算机组成原理实验load,计算机组成原理实验报告五
  4. 数字电路数据选择器及其应用实验报告_科普|说说大数据是什么,及其特点与应用...
  5. 大牛逝世 = 新人上位 = 科学进步?新研究表明确实如此
  6. des算法密码多长_密码学中的多个DES
  7. 25 PP模块-创建工厂日历报错-请输入年度xxxx和xxxx之间的有效区域
  8. WebView的使用之Android与JS通过WebView互调方法
  9. 【Java】为什么 StringBuilder 不是线程安全的
  10. 图像分类模型的学习笔记
  11. PyCharm 默认运行 unittest
  12. Java的%=是什么意思?%=运算的正确使用
  13. Redis Cluster集群实验
  14. 书单 电影单 电视剧单
  15. How to install VIB on VMware ESXi
  16. Cloud一分钟 |互联网之冬;华为停招,BAT裁员;苹果下线拼多多应用;意媒谈DG风波:中国人记性差...
  17. phpstorm官方下载地址
  18. scrum立会报告+燃尽图(第三周第四次)
  19. redis设置密码并修改查看的几种方式
  20. 【广告联盟电商SEO】广告联盟网站收集

热门文章

  1. linux运行驱动的命令,「驭龙」Linux执行命令监控驱动实现解析
  2. 龚凯:基于弱边异质分布的传播核心节点挖掘
  3. select()函数经典错误
  4. git登录之三--SSH登录
  5. 【云AI】利用百度智能云,实现人像动漫化
  6. mysql怎么看历史最高连接数_查看及修改MYSQL最大连接数
  7. 如何将 ARF 转换为 MP4
  8. 该主机cpu类型不支持虚拟化性能计数器,开启模块VPMC的操作失败,未能启动虚拟机。VM12版本的
  9. 八年老Android开发谈:垃圾中的战斗机,offer都发了,最后把我拒了
  10. ReLU,Sigmoid,Tanh,softmax,pipeline【基础知识总结】