Learning Affordance Landscapes for Interaction Exploration in 3D Environments翻译

Abstract

在人类空间中运作的具身智能体（embodied agents）必须能够了解其身处的环境是如何工作的：该智能体可以使用哪些对象，以及如何使用它们？FAIR(Facebook AI Research)引入了一种增强学习方法来进行交互探索，从而使一个具身智能体可以自动发现可供性（affordance）状况下新的未映射的3D环境（例如陌生的厨房）。给定以自我为中心的RGB-D摄像头和高级操作空间，同时通过基于图像的可供性分割模型训练，该智能体将获得成功的互动。前者产生了在新环境中有效行动以准备下游交互任务的策略，而后者产生了卷积神经网络，该神经网络将图像区域映射到智能体，为它们的每个动作提供可能性，从而增强了探索的回报。FAIR通过AI2-iTHOR（一个为可视化AI提供的交互式3D环境）展示了他们的想法。结果表明，智能体可以学习如何智能地适应新的居家环境，并做好准备，以迅速解决各种下游任务，例如“寻找一把刀并将其放在抽屉里”。

1 Introduce

与环境交互的能力是在人类空间中工作的具身智能体的一项基本技能。交互使智能体能够修改其环境，从而使它们从语义导航任务（例如“去厨房；找到咖啡杯”）转移到涉及与周围环境交互的复杂任务（例如“加热咖啡并带来给我”）。

如今，典型的智能体通常都经过训练，可以在监督的方式下执行特定的互动。例如，智能体学会导航到指定的对象、灵巧的机器手学会解开魔方、机器人学会操纵绳索等等。在这些情况下以及其他许多情况下，无论是通过专家演示来表达，还是通过旨在激发期望行为来表达，需要先知道哪些对象与交互有关，以及交互的目的是什么。尽管取得了令人兴奋的结果，但得到的agent仍然专门针对它们被教授的目标交互和对象。
相反，我们设想的具体化agent可以进入一个新颖的3D环境，四处移动以遇到新的对象，并自主地识别可供性场景-什么是可交互的对象，哪些操作与使用它们相关，以及在什么条件下这些交互将成功？这样的agent然后可以进入一个新的厨房(比方说)，并准备好处理像“在水槽里洗我的咖啡杯”这样的任务。这些能力将模仿人类的能力，通过学习的视觉先验和探索性操作的混合，有效地发现即使是陌生物体的功能。
为此，我们引入了对交互问题的探索：3D环境中的移动agent必须自主地发现它可以与之进行物理交互的对象，以及与这些对象交互时哪些动作是有效的。

图1：主要思想。我们训练交互探索agents，以快速发现哪些对象可以使用，以及如何使用它们。给出一个新的、没见过的环境，我们的agent可以推断出它的视觉可供性场景，并有效地与所有存在的对象进行交互。由此产生的探索策略和可供性模型使agent为涉及多个对象交互的下游任务做好准备。

对交互的探索提出了一个关于所有对象、动作、代理位置和动作历史的乘积的具有挑战性的搜索问题。此外，许多物体是隐藏的(例如，在抽屉里)，需要被发现，它们的交互动态并不直接(例如，无法打开已经打开的门，如果拿起一把刀，只能切开苹果)。相比之下，在静态环境中航行的探索涉及相对较小的行动空间和动态，仅受存在/不存在障碍物的支配[12，50，51，18，11，47]。
为了解决这些挑战，我们提出了一种深度强化学习(RL)方法，在该方法中，代理发现一个新的、未映射的3D环境的可供性场景。结果是在哪里探索和尝试什么交互有了很强的先见之明。具体地说，我们考虑一个agent配备了一个以自我为中心的RGB-D摄像头和一个由导航和操作动作(左转、打开、切换等)组成的动作空间，其效果最初对agent来说是未知的。我们赋予agent与环境中的所有对象快速交互。同时，我们在线训练一个可供性模型，使用探索策略生成的部分观察到的交互数据，根据agent在那里成功的每个动作的可能性分割图像。这两个模型协同工作，从功能上探索环境。参见图1。
我们用AI2-iTHOR[29]进行的实验证明了相互作用探索的优势。我们的agent可以在新环境中快速找到要交互的新对象，以42%的时间步数赶上最佳探索方法的性能，并在经过全面训练后超越它们，较之前增加了1.33倍的互动。此外，我们还展示了我们的agent和可供性模型有助于训练多步骤交互策略(例如，在水槽中清洗对象)，在不同任务上将成功率提高高达16%，使用更少的训练样本，尽管赋予很少，也没有人为示范。

2 Related work

Visual affordances可供性是行动的潜力[22]。在计算机视觉中，视觉可供性以各种形式被探索：预测从图像和视频中抓住物体的位置[31，32，64，38，19，62，15，5]，推断人们可能如何使用空间[48，39]或工具[65]，以及人体姿势的先验[26，52，58，17]。我们的工作为学习视觉可供性提供了一个新的视角。所提出的agent不是被动地从静态数据集中学习它们，而是通过与动态环境的探索性交互来主动寻求新的可供性。此外，与以往的工作不同的是，我们的方法不仅产生了一个图像模型，而且还产生了一个用于探索交互作用的策略，我们表明这加速了对具体化代理的新下游任务的学习。
Exploration for navigation in 3D environments最近在3D模拟器中体现的人工智能工作[36，56，60，10]解决了导航问题：agent在未映射的静态环境中智能移动，以达成目标(例如，[12，11，36，6])。视觉导航的探索策略在无监督的“预览”阶段有效地绘制了环境地图[12，50，18，11，47，46]。agent因最大化其推断的入住率地图[12，11，18]所覆盖的面积[12，11，18]、访问状态的新颖性[51]、推动探索区域的边界[46]以及相关指标[47]而获得奖励。对于Vizdoom中的游戏设置，通过学习危险区域(如敌人、熔岩)的视觉外观(例如，敌人、熔岩)，可以改进经典的基于边界的探索，在这些区域中，agent的健康得分以前已经下降[46]。
与以上相比，我们研究了在动态环境中的交互探索问题，在动态环境中，agent可以修改环境状态(打开/关闭门，拾取对象等)。我们的最终目标不是构建一个自上而下的占用地图，而是在一个新的环境中快速与尽可能多的对象交互。换句话说，导航探索促进快速完成静态环境地图，而交互探索促进快速完成agent对其在动态环境中的交互的理解。
Interaction in 3D environments除了导航，最近的工作利用模拟的基于交互的环境[21，29，55，45]来开发也可以执行动作(例如，移动对象，打开门)的agent，目标是最终将策略转换到真实的机器人[2，1]。这些任务包括回答问题(“冰箱里有多少苹果？”)。这可能需要导航[16]以及交互[25]。对于服务机器人、目标驱动规划[63]、遵循指令[55]和烹饪[21]agent，使用专家轨迹上的模仿学习进行训练。
我们有效利用互动的想法是相辅相成的。我们的方法不是从演示中学习特定于任务的策略，而是从经验中学习与任务无关的探索行为，以快速发现可供性场景。正如我们在实验中所展示的那样，我们的模型可以与上面处理的下游任务相结合，以加快他们的训练。
Self-supervised interaction learning先前的工作研究通过自我监督的抓握[44，42，33，35，61]、推/戳[3，41]和无人机控制[20]来积极学习操纵策略。非结构化的游戏数据也被用来学习子目标策略[34]，然后对子目标策略进行采样以解决复杂的任务。对于桌面环境中的简单对象[23，24]和网格世界中的块推送任务[28]，学习对象可供性模型。我们都认同在互动中学习的一般理念；然而，我们关注的是同时需要导航和操作的高级交互策略(例如，移动到柜台和拿起刀子)，而不是细粒度的操作策略(例如，改变关节角度)。
Intrinsic motivation在没有来自环境的外部奖励的情况下，强化学习主体仍然可以将他们的行为集中在满足内在驱动力上[53]。最近的研究基于好奇心[43，9，27]、新颖性[51，7]和赋权[37]制定了内在动机，以改善电子游戏agent(例如Vizdoom、Super Mario)或提高对象注意力[27]。我们的想法可以被视为一种独特的内在动机，在这种动机下，agent被驱使在环境中体验更多的互动。此外，我们关注的是真实的以人类为中心的3D环境，而不是电子游戏，以及可以改变对象状态的高级交互，而不是低级别的物理操作。

3 Approach

我们的目标是训练交互探索agent进入一个新的、看不见的环境，并成功地与存在的所有对象进行交互。这包括识别可交互的对象，学习导航到它们，并发现与它们的所有有效交互(例如，发现agent可以拨动电灯开关，而不是刀子)。
为了解决大搜索空间和复杂交互动态的挑战，我们的agent学习视觉可供性，以帮助它智能地选择环境中要探索的区域和要尝试的交互。重要的是，我们的agent通过自己在探索过程中与环境交互的经验建立了这个可供性模型。例如，通过成功打开橱柜，agent了解到有手柄的对象可能是“可打开的”。我们的方法产生了一个交互探索策略，可以在新的环境中快速执行对象交互，以及一个视觉可供性模型，它捕捉到在以自我为中心的视图中，每个操作可能在哪里成功。
在下面，我们首先定义交互探索任务(3.1节)。然后，我们展示了agent如何通过交互体验来训练可供性模型(第3.2节)。最后，我们提出了我们的策略学习架构，该架构整合了互动探索和可供性学习，并允许转移到目标驱动的策略学习(第3.3节)。

3.1 Learning exploration policies for interaction

我们希望训练agent在新环境中与尽可能多的对象交互。agent可以执行来自集合A=AN∪AI的动作，该集合包括导航动作AN(例如，向前移动、左转/右转)和对象交互AI(例如，取/放、打开/关闭)。
将交互探索任务建立为部分可观测的马尔可夫决策过程(Markov decision process)。agent在初始状态S0产生。在每个时间步骤t，处于状态st的agent接收由RGB图像xt和agent的里程计θt组成的观测(xt，θt)，在at∼A执行动作，并接收奖励RT∼R(st，at，st+1)。递归网络对agent随时间的观察历史进行编码，以得出状态表示。对于与新对象的每一次成功交互，agent都会得到奖励：

其中c(a，o)计算过去成功发生的交互(a，o)次数。我们的目标是学习一种探索策略πE，该策略在长度为T的一集中最大化这一回报。有关策略结构，请参阅第3.3节。硬性的、基于计数的奖励公式在每次交互时只奖励agent一次，从而激励了广泛的交互覆盖，而不是掌握少数交互，这对涉及任意交互的下游任务很有用。

3.2 Affordance learning via interaction exploration

随着agent的探索，它尝试在不同的位置进行交互，但只有一些成功。这些尝试在一定程度上揭示了物体的可供性–与它们可能发生的互动–我们在视觉可供性模型中捕捉到了这一点。可供性的显式模型帮助agent决定要访问哪些区域(例如，大多数交互在墙壁上失败，因此避免它们)，并帮助推断与未访问对象的可能交互(例如，打开一个橱柜表明其他手柄是“可打开的”)，从而导致更有效的探索策略。
在较高级别上，我们训练可供性分割模型FA以将输入的RGB-D图像转换成|AI|-通道分割图，其中每个通道是图像上的H×W图，该图像指示特定交互可能成功的区域。该模型的训练样本来自agent与环境的交互。例如，如果它成功地拿起了一个水壶，那么水壶周围的像素就会被标记为“可拾取的”，并且这些标签会传播到水壶可见的所有帧(在交互发生之前和之后)，这样即使在很远的地方也可以识别出可供性的东西。参见图2(右侧面板)。
具体地说，对于从我们的探索策略中采样的轨迹τ={(st，at)}t=1.T∼πE，我们确定发生交互的时间步长st1…tn(在∈AI处)。对于每个交互，通过逆透视投影计算位于agent视野中心的世界位置pt，并将其与交互类型at和交互zt的成功一起存储在存储器中，作为M={(pt，at，zt)}t=t1…Tn。这对应于“标记”交互的目标。
在场景结束时，对于轨迹中的每个帧x，我们生成相应的分割掩码y，该分割掩码y突出显示来自x中可见的任何动作的所有标记的位置。对于每个交互ak，第k个分割掩码切片yk中的每个像素的标签计算如下：

其中，Mk⊆M是对应于交互ak的标记子集，Pij是该像素处的世界位置，d是欧几里得距离，δ是固定距离阈值(20cm)。换言之，每个像素都被标记为0或1，表示可供性k，具体取决于是否在沿轨迹的任何时间将任何标记放置在附近(在δ距离范围内)，并且每个像素在当前帧中可见。如果未放置任何标记，则像素的标签为−1，表示未知。参见图2(右侧面板)。这导致每帧产生|AI|×H×W维度分割标签掩码，我们使用该掩码来训练FA。
这些标签是稀疏且有噪声的，因为与对象的交互可能失败，尽管在其他条件下(例如，打开已经打开的橱柜)是有效的。为了说明这一点，我们使用这些标签训练两个不同的分割头，以最大限度地减少交叉熵损失的组合：

其中1[.]是标签上的指示器功能。Lce是标准交叉熵损失，但在第三个参数指定的像素子集上计算。分类器输出yA对某个位置的每个交互是否成功进行评分，而yI对一般交互性进行评分(y=−1对6≠−1)。后者充当不确定性的度量，忽略很少放置标记的区域，而不管成功与否(例如，天花板、窗户)。FA输出的最终分数是乘积ˆy=ˆyA×(1−ˆyI)。

图2：交互探索框架。左面板：我们的策略网络将当前帧和预测的可供性图FA(xt)作为输入，以训练策略πE，以最大化等式1中的交互探索回报(第3.1节)。右侧面板：作为策略网络训练，从πE采样的轨迹被用于创建可供性训练样本，以通过“标记”交互的目标位置并将这些区域传播到目标可见的轨迹上的其他帧(绿色区域)来改善FA(第3.2节)。

在我们的实验中，我们考虑了两种变体：一种是用单个点标记交互，另一种是标记交互的目标对象上的所有点。前者在假设没有关于对象分割的先验知识的情况下，在精确交互位置处转换为固定比例标签。后者更一般，认为整个对象是“可交互的”，从而导致标签更密集。在这两种情况下，代理都不知道对象类和有效交互。

3.3 Policy learning architecture and transfer

接下来，我们在我们的政策学习框架中将两部分-互动探索目标和可供性分割-放在一起。我们采用行动者-批评者政策模型和U-Net[49]架构来提供可供性。在每个时间步，我们接收当前以自我为中心的帧x，并生成其可供性图ˆy=FA(X)。视觉观测和可供性图分别使用3层卷积神经网络(CNN)进行编码，然后使用完全连接的层进行连接和合并。然后，这被馈送到门控递归单元(GRU)递归神经网络，以聚合随时间的观察，最后被馈送到参与者-批评者网络(完全连接层)，以生成下一个动作分布和值。我们使用PPO[54]训练该网络1M帧，时间步长为T=256。有关体系结构的详细信息，请参见图2(左)和Supp。
我们迭代地训练策略网络和分割模型。随着agent的探索，我们存储从探索策略中提取的场景，并根据3.2节创建一个可供性分段数据集。我们使用该数据集训练可供性模型，并使用更新后的模型生成ˆy以进一步训练上述策略网络。有关培训时间表，请参阅《补充》。
该过程的结果是可以快速掌握新环境中的对象交互的交互探索策略πE，以及捕捉交互在当前视图中可能成功的位置的视觉可供性模型FA。此外，我们还展示了策略转移，以更好地学习下游任务。具体地说，我们冻结了策略网络和FA的权重，并且仅使用下游任务的奖励来微调参与者-批评者线性层(参见。第4.2节)。

4 Experiments

我们评估agent与尽可能多的对象交互的能力(4.1节)，并加强下游任务的策略学习(4.2节)。
Simulation environment我们使用AI2-iTHOR30进行实验，因为它支持可以改变对象状态的特定于上下文的交互，而不是其他3D室内环境中基于物理的简单交互[59，8]。我们使用所有厨房场景；厨房是一个有价值的领域，因为许多与对象的不同交互都是可能的，正如之前的工作[14，38，21]所强调的那样。场景包含来自69个类的对象，每个类支持1-5个交互。我们将30个场景分为训练(20)、验证(5)和测试(5)集。在采集场景时，我们将对象的位置和状态(isOpen、isToggled等)、agent开始位置和摄像机视点随机化。

表1：每次交互的探测性能。我们的策略比所有其他方法都更精确(PREC)，并且发现更多的交互(COV)。在操作之间循环的方法最终会成功，但代价是在此过程中交互失败。

代理既可以导航：AN={前进，左转/右转30◦，向上看/向下看15◦}，也可以与代理视图中心的对象进行交互：AI={拿，放，打开，关闭，TOGTOG-ON，TOGTOGO-OFF，切}。虽然模拟器知道在给定代理在哪里、它持有什么以及附近有什么对象的情况下哪些操作是有效的，但是所有这些知识对代理都是隐藏的，代理只知道操作是成功还是失败。

Baselines 我们比较几种方法：

DANDOM 随机统一选择动作。RANDOM+ 从中选择随机导航动作以到达未访问的位置，然后在AI中循环所有可能的对象交互。
Curiosity 奖励导致agent无法很好预测的状态的操作。
Novelty 奖励访问新的、未开发的物理位置。我们增加了这个基线，以便在到达新位置时循环通过所有交互。
ObjCoverage 奖励访问新对象的agent(靠近它，并使其在视图中居中)，但不奖励与它们交互的agent。类似地，我们将其扩展为遍历所有交互。

以上三个是探索的标准范例。请参见提供的详细信息。

Ablations 我们检查了所建议的交互探索代理的几个变体。所有变体都会因与新对象的交互而获得奖励(公式1)，并使用相同的架构(第3.3节)。

Intexp(RGB) 只使用以自我为中心的RGB帧来学习策略，而不使用可供性图。
Intexp(SAL) 使用来自预训练的显著性模型[13]的RGB加热图作为输入，这些热图突出显著的对象，但缺乏可供性线索。
Intexp(GT) 从模拟器使用ground truth可供性。
Intexp(PT) and Intexp(OBJ) 通过分别标记固定大小的点或整个物体，使用从与环境的交互中动态学习到的可供性(见第3.2节)。除非特别说明，否则INTEXP(PT)是我们默认的实验模型。

简而言之，在给定小型且易于导航的环境的情况下，RANDOM和RANDOM+测试是否需要学习策略。NOVELTY、CURIOSITY和OBJCOVERAGE测试智能交互策略是否自然而然地脱离了传统的探索方法。最后，互动探索消融测试了学到的视觉可供性在驾驶互动发现中的影响程度。

4.1 Affordance driven interaction exploration

首先，我们评估agent在新环境中定位和与所有对象交互的能力。
Metrics.对于每个测试环境，我们生成80个随机事件，每个事件有1024个时间步长。我们创建一个“oracle”代理，它以最短的路径到达下一个最近的对象，并与其执行所有有效的交互，以测量可能交互的最大数量。我们报告(1)覆盖率：代理成功执行的最大交互次数的比例，以及(2)精度：代理尝试成功的交互的比例。
Interaction exploration.图3(左)显示了随着时间的推移，新的、不可见的环境中的交互覆盖率，平均覆盖了所有场景和环境。有关特定于环境的结果，请参见Supp。即使好奇心被训练成寻找难以预测的状态，就像未经训练的基线一样，它也有可能执行阻碍进一步互动的动作(例如，打开橱柜阻碍路径)。RANDOM+、NEVITY和OBJCOVERAGE寻找新的位置/对象，但只能在所有交互中循环，导致发现新交互的速度很慢。

图3：在看不见的环境中发现的交互与时间的关系。左：我们的agent发现最多的对象相互作用，并且比所有其他方法都要快，特别是在早期(T<256)。右：在消融过程中，学习可供性模型来指导探索的模型比那些先验较弱(如显著性)的模型表现更好，并且最接近获得ground truth(GT)可供性的模型。结果来自三次训练。

图4：测试环境中的交互策略示例。绿色圆点表示成功发现的交互，黄色圆点表示所有交互尝试。NOVELTY访问空间的许多部分，但无法智能地选择要尝试的操作。我们的策略是学习只访问相关位置来与对象交互。

我们的完整模型和学习的可供性图导致了最佳的交互探索策略，并且发现了比最强基线多1.33倍的独特对象交互。此外，它执行这些交互的速度很快-它发现与RANDOM+相同数量的交互所需的时间步数减少了63%。当T=256时，我们的方法发现的交互比NOVELTY多2.5倍。
图3(右)显示了我们的方法的变体，它们使用不同的视觉先验。Int-exp(RGB)没有显式的ROI模型，性能最差。在int-exp(SAL)中，显著性有助于区分对象和墙壁/天花板，但不能像我们的可供性模型那样揭示与显著对象之间可能进行的交互。Int-XP(OBJ)在训练过程中表现良好–与Int-XP(PT)相比，其覆盖率为0.236比0.252–但在使用整个对象掩码进行训练时，它更容易受到标记标签噪音的影响。INTEXP(PT)标记准确的目标位置，更好地概括到看不见的环境，但产生更保守的可供性预测(参见图5)。
表1显示了按行动细分的覆盖率和精确度。一般来说，许多物品都可以打开/关闭(抽屉、冰箱、水壶等)。从而导致这些操作覆盖更多的实例。所有的方法很少能成功地对对象进行切片，因为它需要首先定位并拿起一把刀(所有方法的覆盖率都小于1%)。这需要多个步骤，这些步骤不太可能随机发生，因此被训练有素的agent忽略，转而支持更多可访问的对象/交互。重要的是，通过动作循环的方法最终会与对象交互，这会导致适度覆盖，但精度非常低，因为它们不知道如何确定交互的优先级。图4进一步说明了这一点。新奇倾向于寻找新的地点，而不考虑它们的互动潜力，导致很少成功(绿点)和几次失败的尝试(黄点)。我们的agent有选择地导航到具有可能交互的对象的区域。有关更多示例，请参见Supp。
Affordance prediction.除了勘探政策，我们的方法还学习可供性模型。图5评估了INTEXP agent，用于从不可见的测试环境中重建23,637个均匀采样视图的ground truth可供性场景。我们报告了所有交互类的平均精度。全一基线为所有像素分配相同的分数。INTEXP(SAL)只是简单地重复其显著图|AI|次作为可供性图。图3中的其他agent不训练可供性模型，因此不能进行比较。我们的可供性模型学习与探索agent的个人行动相关的地图，并产生最佳性能。

图5：可供性预测结果(拿放打开切换)。我们的模型接受了通过探索自动推断出的标记的训练-它无法获得ground truth的可供性。最后一栏显示了由于干扰/交互数据不完整而导致的失败案例(窗帘、云台)。

图6：下游任务的成功率(%)和奖励。知道如何移动(NOVELTY)或偏爱对象(OBJCOVERAGE)不足以克服多步骤交互任务中奖励稀少的问题。我们的INTEXP agent积极寻求互动，以便在更少的训练中学习更好的策略。

4.2 Interaction exploration for downstream tasks

接下来，我们针对几个下游任务对交互探索agent进行微调。任务是(1)取回：agent必须将任何物品从抽屉/橱柜中取出，并将其放在外面可见的位置；(2)储存：agent必须从外面取出任何物品，将其放入抽屉/橱柜并关上门；(3)清洗：agent必须将任何物品放入水槽内，并打开水龙头。(4)加热：加热剂必须将平底锅/器皿放在炉顶上，并打开燃烧器。
这些任务的回报非常少，需要agent成功地按顺序执行涉及不同对象的多个交互。最近的工作[63，55]中也研究了类似的任务，这些工作在专家演示的基础上训练基于模仿学习的agent，并报告在纯基于RL的训练中表现不佳[63]。我们的想法是利用agent的智能探索策略，在没有人工演示的情况下启动新任务的策略学习。
我们奖励agent(+10)实现最终任务的每一个子目标(例如，对于热量，这些子目标是“将物体放在炉子上”和“打开燃烧器”)。我们使用PPO对500k帧进行了微调，并测量了来自相同环境的400多个随机场景的成功率。图6(左)中的结果显示了所提议的预训练的好处。被训练成好奇或覆盖更多领域(CURIOSITY和NOVELTY)的agent没有能力寻找有用的环境互动，并因报酬稀少而蒙受损失。OBJCOVERAGE受益于接受访问对象的训练，但没有达到我们的方法，即努力实现新的交互。我们的方法在所有任务中都比其他方法有更大的优势，而且它的学习速度比最佳基线快得多(图6，右)。

5 Conclusion

我们提出了“交互探索”的任务，并开发了能够在新环境中学习有效行动的agent，为下游的交互任务做准备，同时建立对象可供性的内部模型。未来的工作可能会在可供性预测中对更多的环境状态进行建模(例如，agent持有什么，或者过去的相互作用)，并将更复杂的策略体系结构与空间记忆结合起来。这项工作对于能够掌握新的以人类为中心的环境并提供帮助的自主程度越来越高的机器人来说是很有价值的。