Car Net全文翻译

CAR-NET：透视性注意力递归网络

抽象的。我们提出了一个可解释的路径预测框架，该框架利用了代理行为与其空间导航环境之间的依赖关系。我们利用两个信息源：感兴趣的代理过去的运动轨迹和导航场景的宽顶视图图像。我们提出了一种Clairvoyant注意递归网络(CAR-Net)，它在解决路径预测任务时学习在场景的大图像中查看哪里。当预测代理的轨迹时，我们的方法可以关注原始图像(例如道路交叉口)内的任何区域或区域组合。这允许我们可视化影响轨迹预测的导航场景的细粒度语义元素。为了研究空间对代理轨迹的影响，我们建立了一个新的数据集，由数百个场景(一级方程式赛道)的俯视图图像组成，在这些场景中，代理的行为受到图像中的已知区域(例如，即将到来的转弯)的严重影响。CAR-NET成功地关注了这些显著的区域。此外，CAR-NET在标准轨迹预测基准斯坦福无人机数据集(SDD)上达到了最先进的准确性。最后，我们展示了Car-Net对不可见场景的泛化能力。

Introduction

路径预测包括预测代理(例如，人类或车辆)在环境中的未来位置。它适用于广泛的领域，从自动驾驶车辆[1]和社交机器人导航[2-4]，到监控中的异常行为检测[5-10]。与路径预测相关的可观察线索可以分组为动态和静态信息。前者捕获场景中所有代理的先前运动(过去的轨迹)。后者由代理周围的静态场景组成[11-13]。在这项工作中，我们希望利用静态场景上下文来执行路径预测。该任务的制定如下：给定代理的过去轨迹(过去几秒的x-y坐标)和环境的大视觉图像(场景的俯视图)，我们希望预测代理在接下来的几秒钟内的轨迹。我们的模型应该学习在一个大的视觉输入中的哪里去看，以增强它的预测性能(见图1)。

在考虑静态场景上下文的同时预测代理的轨迹是一个具有挑战性的问题。它需要了解代理与空间之间的复杂交互，并将这些交互编码到路径预测模型中。此外，场景特定的提示在视觉输入内通常是稀疏和小的，例如场景内的交通标志。最后，这些提示可能与感兴趣的代理相去甚远。

最近在计算机视觉方面的研究已经成功地解决了路径预测中的一些挑战。Kitani等人。[14]已经证明了环境的语义分割(例如，人行道和草地区域的位置)有助于预测行人轨迹。Ballan等人。[15]使用对先前观察到的场景特定运动模式进行编码的导航地图对人-空间交互进行建模。这些方法依赖于预先收集的场景语义信息。相反，我们的方法依赖于更容易获得的原始图像，并且我们的方法有可能推断出环境的细粒度场景语义和功能属性。为此，Lee等人。[16]已经使用原始图像来预测代理的轨迹。然而，他们的方法没有提供一种方法来理解场景中的哪些视觉信息被模型“使用”来预测未来的轨迹。

我们通过提出一种利用代理空间交互并提高预测精度的视觉注意模型，解决了以前路径预测方法的局限性。受最近在图像字幕[17]、机器翻译[18]、知识库[19，20]和对象识别[21，22]中使用注意模型和神经网络的启发，我们引入了第一个视觉注意模型，它可以预测代理的未来轨迹，同时注意场景的显著区域。我们的方法能够关注图像中的任何区域或区域集合。基于注意力的模型可以大致分为单源和多源注意模型。单源注意模型(例如，Draw[23，21])关注从图像的单个区域提取的特征，而多源注意模型(例如，来自[17]的软注意)使用来自图像的所有区域的特征的组合。在本文中，我们提出了CAR-NET，一种深度神经网络架构，它通过处理带有视觉注意递归分量的原始顶视图像来预测未来的轨迹-因此是Clairvoyant。我们的注意模型结合了单源和多源注意机制。通过利用这两种注意机制，我们的预测框架利用了更广泛的代理空间依赖关系。此外，车网的实现和训练都比较简单。因此，它有助于在广泛的其他视觉任务中使用轨迹预测，例如对象跟踪[5]，活动预测[24]和动作定位[25]。

为了研究我们提出的体系结构是否能够学习可观察到的代理空间相关性，我们构建了一个新的数据集，其中代理的行为在很大程度上受场景中的已知区域(例如，道路上的曲线)的影响。与其他用于轨迹预测的流行数据集相反，所提出的数据集允许了解环境对代理未来轨迹的影响。因为数据集是由静态场景组成的，所以未来的轨迹不会受到混杂因素(如其他代理的行为)的影响。这分离了场景语义信息和其他代理交互在路径预测任务中的贡献。为了建立这个新的数据集，我们收集了200多条现实世界一级方程式一级方程式赛道，并使用[26]中的等式计算了给定赛道曲率的车辆的最佳路径。在这种情况下，道路的几何形状会导致车辆加速或减速，以及转向。我们的注意力机制成功地利用了轨道的元素，并有效地预测了车辆在这些轨道上的最佳路径。作为我们的贡献的一部分，这个用于路径预测和学习代理空间相关性的新数据集将公开发布。我们进一步表明，我们的方法的准确性优于以前在斯坦福无人机数据集(SDD)上的方法，SDD是一个公共可用的轨迹预测基准，多类代理(例如，人类、骑自行车的人或公交车)在室外场景中导航。CAR-Net是一个直观而简单的模型，它实现了路径预测的最新结果，同时通过注意力机制实现了影响预测的语义元素的可视化。

2 Related Work

轨迹预测。给定场景动态内容的路径预测已经用卡尔曼滤波器[27]、线性回归[28]或非线性高斯过程[29-31，2]等方法进行了广泛的研究。Helbing和Molnar[32-34]的开创性工作提出了一个具有吸引力和排斥力的行人运动模型，称为社会力模型。所有这些先前的工作都难以对复杂的相互作用进行建模。继最近递归神经网络(RNN)用于序列预测任务的成功之后，Alahi等人。[35，36]提出了一种从数据中学习人体运动以预测未来轨迹的模型。最近，Robicquet et al.。[37，38]提出了社会敏感度的概念，并提出了一种基于社会力量的模型来改进路径预测。这样的模型足以满足很少有代理-代理交互的场景，但它们没有考虑代理-空间交互。相比之下，我们的方法可以处理更复杂的环境，在这些环境中，代理的行为受到场景上下文的严重影响(例如，可驾驶道路对树木和草地)。

最近的工作已经研究了如何在路径预测任务中有效地利用静态场景。Kitani等人。[14]使用场景的语义知识使用逆最优控制(IoC)预测行人的合理路径。Walker等人。[1]预测了在给定大量视频集合的场景中通用代理(例如车辆)的行为，但在有限数量的场景中。Ballan等人。[15]学习特定于场景的运动模式，并将其应用于具有基于图像的相似性函数的新颖场景。不幸的是，这些方法都不能使用场景的原始图像提供预测。最近，Lee等人。[16]提出了一种利用原始图像在给定场景上下文的情况下进行路径预测的方法。然而，所有这些方法都具有有限的可解释性。相反，我们的方法是为这个特定的目的而设计的：提供关于为什么在给定场景的上下文下预测某些路径的直觉。

视觉注意。Xu和Gregor[17，23]的相关工作介绍了基于注意的模型，这些模型学习注意与感兴趣的任务相关的显著对象。许等人。[17]，呈现关注整个图像的软和硬注意机制。软注意将权重蒙版应用于图像的特征映射。由于相关的训练操作是可区分的，因此它已被应用于广泛的任务。硬注意机制是不可区分的，必须通过强化学习来训练。这种方法的不可微性导致了稀缺的应用。

其他注意力模型将降维应用于图像。他们的目标是在图像的一系列局部一瞥中积累信息。文献[21]中介绍的周期性注意模型关注图像中的一系列作物。它已被用于许多任务，如数字分类和个人识别[39，23，40]。视觉注意模型也被广泛应用于许多其他应用，例如图像分类[41]，图像字幕[17，42]和视频分类[43]。受这些工作的启发，我们特此在我们的模型中使用视觉注意机制来执行轨迹预测。

3 CAR-Net

场景上下文对于预测代理的未来行为是必要的。例如，一个接近环形交叉口的骑车人改变了他的路线以避免碰撞。仅通过观察代理人过去的位置不能预测轨迹中的这种偏差。这促使我们构建一个模型，该模型可以利用可观察到的场景上下文，同时预测代理的未来路径。我们介绍了CAR-Net，一种基于深度注意力的路径预测模型。它使用场景的原始俯视图像和代理的过去轨迹来执行轨迹预测。Car-Net能够关注输入图像中最相关的部分。在本节中，我们首先描述我们模型的总体架构。然后，我们解释我们的视觉注意模块。

3.1 Overall Architecture

我们模型的目标是预测给定过去轨迹和场景顶视图图像的代理的未来路径。我们的模型使用特征提取器从原始图像导出特征向量(图2)。然后，视觉注意模块计算表示要在时间t参加的图像的显著区域的上下文向量ct。最后，在递归模块中，长短期记忆(LSTM)网络[44]在每个时间步长生成代理(xt+1，yt+1)的未来位置，条件是上下文向量ct，先前隐藏状态ht和之前生成的代理位置(xt，yt)。我们的模型能够通过结合场景上下文向量和代理的过去轨迹来捕获代理与空间的交互

图2.车网架构概述。请注意，“//”块是串联操作

3.2 Feature extractor module

3.2特征提取模块

我们使用卷积神经网络(CNN)从静态俯视图像中提取特征映射。我们使用VGGnet-19[45]对ImageNet[46]进行预训练，并对场景分割任务进行微调，如[47]所述。对场景分割进行微调的VGG使CNN能够提取图像特征，这些特征可以识别障碍物、道路、人行道和其他对轨迹预测至关重要的场景语义。

我们使用第五卷积层的输出作为图像特征。CNN输出L=N×N个特征向量，A={a1，…，al}，维度D，其中N和D分别是由第五卷积层输出的特征映射的大小和数量。每个特征向量对应于图像的某个区域。图2描述了特征提取器模块。

3.3视觉注意模块

给定场景的高维输入图像，我们希望我们的模型聚焦于该输入图像的较小的区分区域。使用视觉注意方法，提取图像中最相关的区域，而忽略不相关的部分。一般注意过程的工作方式如下。注意机制内的层将LSTM的先前隐藏状态作为输入，并输出由注意机制使用的向量以预测图像的重要区域。然后将向量应用于特征向量A(通过函数)，产生包含时间步t+1处的显著图像特征的上下文向量：

我们的视觉注意模块可以用任何可区分的注意机制来替代。此外，它可以使用几种注意方法的组合。假设FATT和φ是可区分的，则整个体系结构可以通过标准反向传播进行训练。我们提出了三种可区分注意模块的变体，这三种变体很容易训练。第一种方法利用软注意机制从图像的多个区域提取视觉信息。第二种方法利用受[23]启发的注意机制从图像的单个裁剪区域提取局部视觉信息。我们将第一种和第二种方法分别称为多源注意机制和单源注意机制。最后，CAR-Net的注意模块结合了这两种注意机制，允许我们的预测框架学习更广泛的场景依赖关系。

图3.我们的多源和单源注意机制

Car Net attention。学习Agent-space交互，并将其编码到路径预测模型中是一项具有挑战性的任务。场景特定的线索有时是稀疏的，并且散布在远离代理的整个图像中，或者在图像的特定区域内很小。单源和多源注意机制分别关注场景中局部和分散的视觉线索。当相关的视觉线索散布在输入图像上时，多源注意方法可以成功地从图像的多个关键区域中提取特征的组合。相反，当相关的视觉信息被定位在图像的一个特定区域时，单源注意方法很适合关注该特定区域。请注意，多来源的注意不一定减少为单一来源的注意，它们是相辅相成的

为了在路径预测中同时利用局部和分散的视觉线索，CAR-Net中的核心注意模块将从单源和多源注意机制获得的两个上下文向量组合在一起。通过将来自单源和多源注意机制的上下文向量连接，来完成组合。图2中的注意模块描述了这个过程。关于多源和单源注意机制的更多技术细节可以在第三章中找到。CAR-NET的性能优于单源和多源注意机制，证明了它能够利用这两种注意机制的优势。

多渠道关注。多源注意机制基于其重要性将权重应用于场景的所有空间区域，并输出包含来自图像的多个区域的相关场景上下文的上下文向量。首先，通过将隐藏状态ht传递通过具有权重和偏的全连接层来计算权重矩阵。随后，通过权重矩阵αt+1和特征映射A的元素方式乘积来计算上下文向量。图3(A)和Eq。2显示整个过程：

在[17]中描述的软(多源)注意机制计算权重矩阵αt+1，条件是先前的隐藏向量和图像的特征。然而，我们的αt+1仅依赖于先前的隐藏向量。这种区别很重要，因为对于路径预测任务，我们没有场景的未来图像。此外，在不影响模型性能的情况下，降低了计算成本。

单一来源的注意。图3(B)所示的单源注意机制关注图像中的单个局部区域。为此，我们将吸引注意机制(最初设计用于数字生成的非监督设置[23])调整为路径预测的监督学习设置。单源注意机制关注由N个高斯的局部网格定义的图像区域。通过将隐藏状态ht线性映射到注意参数，模型在每个时间步t+1预测网格的中心、网格的步幅δ和所有N个高斯的方差的σ。栅格的步幅控制模型所关注的局部区域的“缩放”。当步幅变大时，高斯网格覆盖了原始图像的更大区域。网格上每个高斯i的确切位置是使用网格的中心和步幅找到的，如在Eq中。3

高斯的结果网格使用公式定义了两个滤波器组矩阵FX和FY。4.使用这些滤波器组矩阵，单源注意机制能够关注由高斯的局部网格定义的图像区域：Fx和Fy与图像的特征映射A卷积，如在Eq中。5.所得到的上下文向量CSSt+1包含从对应于高斯网格的图像的单个局部区域到图像的单个局部区域的场景上下文。

注意，索引(i，j)指的是网格中的高斯，索引(a，b)指的是特征地图中的位置。归一化常数Zx，Zy确保Pa Fx[i，a]=1和Pb Fy[j，b]=1。

3.4实施详情

我们用ADAM优化器从头开始训练LSTM和注意模块[48]，小批量大小为128时，学习率为0.001，每10个历元依次减少10倍。所有模型都训练了100个历元，关于地面真实和预测轨迹之间的L2距离。与许多序列预测任务一样，训练和测试过程略有不同。在训练时，地面真实位置被馈送作为LSTM的输入。相反，在测试时间，位置预测(xt，yt)被重新注入作为下一个时间步长的LSTM的输入。

4 Experiments

我们提出了CAR-Net，一个通过利用空间场景上下文提供精确路径预测的框架。我们对我们的方法与最先进的技术进行了彻底的比较，并进行了全面的消融实验。然后，我们提出对我们方法的可解释性的见解。最后，通过对不同数据集的实验，展示了CAR网的通用性和健壮性

4.1 Data

我们在以下三个数据上测试了我们的模型，这些数据都包括轨迹数据和。导航场景的俯视图图像。

斯坦福无人机数据集(SDD)[37]。为了表明CAR-Net在路径预测上实现了最先进的性能，我们在SDD上测试了该模型，SDD是路径预测的标准基准[16，35，37]。这个大规模的数据集由各种目标(例如，行人、骑自行车者、汽车)在大学校园中的许多真实室外环境(20个不同场景)中导航的顶视图视频组成。轨迹被分成20个时间步长的片段(总共8秒)，产生大约230K的轨迹片段。每个段由8个过去位置(3.2s)和12个未来位置(4.8s)组成，其中8个过去位置(3.2s)作为顺序输入馈入网络，12个未来位置(4.8s)用于评估预测。这是SDD上路径预测的标准时间设置。我们使用原始图像来提取视觉特征，而不需要事先进行任何语义标注。对于SDD，我们采用标准基准数据集Split。

一级方程式数据集。研究空间对Agent轨迹的影响是复杂的，因为Agent的行为不仅受导航场景的语义影响，还受其他因素(如与其他Agent的交互)的影响。例如，行人可以在遇到熟人时停下来。我们发布了一级方程式(F1)数据集，由真实世界的赛车赛道及其相关轨迹组成。该数据集提供了一个受控环境，用于评估模型提取用于轨迹预测的有用空间信息的能力。在F1数据集中，代理的行为可以在很大程度上通过轨迹的几何形状(例如，即将到来的转弯的曲线)来解释。与其他流行的轨迹预测数据集(例如SDD)不同，F1数据集允许在静态设置中进行评估，在静态设置中，未来的轨迹不受混杂因素(如其他代理的行为)的影响。这就理清了空间信息和其他Agent交互作用对轨迹预测任务的贡献。

顶视图赛道图片是从谷歌地图获得的。在此基础上，我们模拟了与最佳驾驶模式相对应的轨迹，称为“最佳轨迹”，并用[26]中提出的方程进行计算。我们使用手工分割的道路作为最优轨迹计算的输入。请注意，这些最佳轨迹说明了依赖于远距离场景依赖性的复杂导航模式。F1数据集包括来自巴西、加拿大、哥伦比亚、墨西哥、法国、美国和其他国家不同城市的250条赛道和超过10万条赛道，并将向公众开放用于研究目的。样本轨迹如图4所示。汽车轨迹被分成24个时间步长段：8个输入过去位置和16个未来位置用于评估。我们选择了16个未来的职位进行评估，而不是像SDD中的12个，因为预测任务更简单，因为更强的代理空间依赖性。我们将F1数据集中的赛道分为80%的训练集、10%的验证集和10%的测试集。测试赛道是完全看不见的位置，它们既不与培训重叠，也不与验证设置的赛道重叠。

赛车数据集[49]。为了进一步深入了解代理空间依赖性如何影响我们的模型的预测，我们用Car-Racing数据集进行了实验，这是我们合成的一个更简单的赛道数据集。Car-Racing数据集由我们使用来自OpenAI健身房的Car-Racing-V0模拟器生成的不同曲率和道路宽度的3000条轨迹组成。我们模拟了(1)每个赛道的最优轨迹，以及(2)以恒定速度沿着道路中间的轨迹。赛车轨迹被分成24个时间步长段，8个输入过去位置和16个未来位置用于评估，产生大约500K段。我们将此数据集中的赛道分为80%的训练集、10%的验证集和10%的测试集，它们不会重叠。

最佳赛车轨迹。赛车和F1数据集中使用的理想赛车轨迹被定义为允许给定车辆在最短时间内穿过赛道的赛道周围的轨迹。为了计算这些最优的比赛轨迹，我们手工分割道路，并使用物理模拟计算相关的最优赛道。这些模拟基于[26，50]中的2D物理模型

4.2 Evaluation Metrics and Baselines

我们使用以下指标衡量我们的模型在路径预测任务上的性能：(I)平均位移误差-预测轨迹和地面真实点的所有预测点上的平均L2距离(ML2)，(Ii)最终L2距离误差(FL2)-最终预测位置和最终地面真实位置之间的L2距离。

为了执行第4.3节中的烧蚀研究，并表明我们的模型在第4.4节中实现了最先进的性能，我们将CAR-NET与以下基线和以前的文献方法进行了比较：

表1：我们的方法在具有中等和最佳轨迹的赛车数据集和F1数据集上的定量结果。我们报告平均L2误差(ML2)和最终L2误差(FL2)。Car-Net通过结合单源和多源注意力输出，优于所有模型。

-线性模型(Lin.)。我们使用现成的线性预测器在线速度假设下外推轨迹

-社会力量(SF)和社会-LSTM(S-LSTM)。我们使用来自[51]的社会力量模型的实现，其中已经对几个因素(如群体亲和力)进行了建模。由于Social-LSTM的代码不可用，我们将我们的模型与来自[35]的Social-LSTM的自我实现版本进行比较。

-仅轨迹LSTM(T-LSTM)和整个图像LSTM(I-LSTM)。这些模型是我们的模型的简化版本，其中我们分别删除了图像信息和注意模块。

-仅多源LSTM(MS-LSTM)和仅单源LSTM(SS-LSTM)。我们的模型分别使用了多源注意和单源注意机制。

-DESIRE。来自[16]的深度IOC框架模型。我们用TOP1样本报告了模型Desire-SI-IT0 Best的性能。

4.3消融研究

我们进行了消融研究，以表明当结合单源和多源注意机制时，预测准确率提高，这表明它们从原始图像中提取互补的语义线索。我们在赛道数据集(赛车数据集和一级方程式数据集)上分析了基线模型和车网的性能。我们在表1中介绍了我们的结果。

我们在两个赛道数据集上观察到类似的结果。首先，I-LSTM仅略优于T-LSTM。这似乎是因为从每条赛道提取的大型特征图太复杂，无法显着补充从代理人过去的轨迹中提取的动态线索。第二，注意模型(MS-LSTM，SS-LSTM，CAR-NET)的性能大大优于I-LSTM。这表明视觉注意机制通过关注导航场景的特定区域来提高性能。我们在第4.5节中表明，这些被关注的区域是导航场景的相关语义元素-例如即将到来的转弯。请注意，SS-LSTM实现的误差比MSLSTM低。这是由于赛道图像较大，并且相关语义线索大多位于汽车附近。最后，CAR-NET在所有数据集上都优于MS-LSTM和SSLSTM。我们认为这是由于稳健地结合了单源和多源注意机制的输出。

表2：不同基线对SDD过去的8个位置预测未来12个位置的性能。我们在原始图像的像素空间中报告平均L2误差(ML2)和最终L2误差(FL2)。我们的方法，CAR-NET，达到了目前为止最低的误差。

一般备注。对于赛车数据集，模型对最优轨迹的预测比中间轨迹的预测性能更好。这是由于中间轨迹的连续位置之间的平均像素距离大于最佳轨迹的平均像素距离。此外，我们在1K轨道上对模型进行了中间轨道训练，而不是3K轨道上的最优轨道。

4.4轨迹预测基准

CAR-NET在从SDD基准上的8个过去位置(3.2s)预测12个未来位置(4.8s运动)的任务上优于最先进的方法，如表2所述(较低的ML2和FL2误差)。请注意，Desire-SI-IT0 Best in[16]的性能是为预测4s运动的任务提供的。我们对此性能进行线性内插，以获得其预测4.8s运动的性能，并在表2中报告了内插次数

T-LSTM基线实现了比线性、SF和S-LSTM模型更低的ML2误差。然而，T-LSTM和SF或S-LSTM模型的FL2误差之间的差距很小，这表明T-LSTM模型在预测最后的未来时间步长时往往相对不准确。我们观察到，与MS-LSTM相比，S-LSTM的性能较差-尤其是在FL2误差方面。我们认为，由于SDD场景中分散的关键语义，多源注意力表现得更好。在所有的实验中，CAR-NET在所有指标上都优于基线方法。此外，我们的模型在前1个样本(Desire Best)中表现优于Desire。这与[16]建议的基于回归的模型(如CAR-NET)更适合于回归精度比生成概率输出更重要的用例是一致的。

概括到看不见的位置。CAR-NET泛化到所有数据集中看不见的位置。这表明我们的模型利用了可观察到的场景特征，而不是特定于位置的信息。首先，车网在F1测试集上达到了比其他基线方法更高的准确度，该测试集完全由看不见的F1赛道组成。其次，SDD测试集中的9/17(53%)位置不可见。SDD测试集中其余的8/17(47%)位置在视觉上类似于培训位置(见位置)。我们分别评估我们训练的模型在已见和未见SDD测试位置上的性能。Car-Net在可见和不可见测试SDD位置上实现了类似的性能-在可见和不可见位置上的平均L2距离分别为23.87和26.93像素-证明了其推广到不可见SDD位置的能力。

图5.MS-LSTM、SS-LSTM和CAR-Net(ROWS)预测赛车、F1和SDD数据集的轨迹的定性结果(列)。CAR-Net成功地利用单源和多源注意机制来预测未来的路径。

定量分析主体-空间相互作用的影响。为了分析CARNET利用代理空间交互的能力，我们将SDD的测试集分为几个场景，这些场景的几何形状很复杂，可能会影响代理的轨迹(例如，具有草坪、人行道、建筑物的场景)，以及其可观察到的上下文在顶视图图像上变化很小的场景(例如，没有道路、草地等的开阔场地)。我们将这些场景分别称为语义复杂和简单。关于分割过程和复杂和简单场景的样本图像的详细信息可以在补充材料中找到。我们在SDD的语义复杂和简单的测试场景上测试了CAR-NET(使用场景上下文)和T-LSTM(不使用任何场景上下文)。我们的结果如表3所示。CAR-NET和T-LSTM在简单的场景中实现了相似的性能，其中场景语义通常不应该影响代理的轨迹。相比之下，CAR-Net在复杂场景下的性能要比T-LSTM好得多，场景语义很可能会对Agent的轨迹产生很大影响。这个实验展示了CAR-NET在T-LSTM上成功利用场景上下文的能力。

表3：T-LSTM和CAR-NET在SDD语义复杂和简单场景上的性能。我们报告了在原始图像的像素空间中的平均L2误差(ML2)。我们的方法，CAR-NET，能够有效地使用场景上下文来预测未来的轨迹。

图6.定性分析：(A)赛车数据集上非常长期的路径预测。预测保持在正轨上，表明我们的模型成功地使用场景上下文进行路径预测。(B)通过手动将注意力移动到图像的其他部分，我们表明预测在很大程度上依赖于场景几何形状。(C)当手动将初始轿厢位置强制为越野时，使用视觉提示将预测的轨迹返回到道路上。

4.5 Qualitative analysis

可视化细节。在所有的图中，地面真实和预测的轨迹分别用红色和蓝色标示。过去的位置用黑色圈起来。我们通过白色高亮显示随时间变化的多源注意机制的权重图。随着时间的推移，也会显示单源注意网格：黄点表示网格的中心，矩形表示注意网格的边界框。

短期预测。图5显示了我们的模型在实验中使用的数据集上预测的样本轨迹。在赛道数据集(Car-Racing和F1)上，我们期望汽车附近的道路区域包含显著的语义元素。我们观察到MS-LSTM成功地注意到汽车周围的区域。在中左图和中图中，我们观察到SS-LSTM的注意网格最初是关闭的(白色矩形)，然后跳到汽车附近的一个小区域，从而识别相关的视觉信息。如底行所示，Car-Net聚焦于靠近汽车的图像的一个狭窄区域，使用单一来源的注意力。它还能够关注更多的领域，如下一条曲线，使用多源注意力，证明其在赛道数据集上利用两种注意力机制的能力。

在关键语义元素分散的SDD上，多源注意机制成功地注意到多个相关的视觉区域(右上和右下图像)。我们观察到，在SDD上，多源注意力关注随着时间的推移而变得更大的区域。这可能反映了日益增长的预测不确定性。与赛道数据集(例如，右中图)相比，单源注意网格关注SDD上更领先于代理的区域。它表明，仅在代理附近出席并不能捕获所有显著语义，因此注意力网格可以提前到达。

赛车数据集的超长期轨迹预测。在本节中，我们提供关于预测赛车数据集上超过4.8s的未来位置的任务的定性结果，作为补充结果。我们并不声称我们的模型在真实数据集上达到了超过4.8s的类似路径预测性能。图形。6(A)显示了CAR-Net在赛车数据集上对中间轨迹的100个连续时间步长的预测。我们观察到，随着时间的推移，预测仍在路上。请注意，代理的最初几个位置无助于预测很长时间间隔上的未来轨迹(例如，从初始位置转了几圈后)。预测停留在道路上的事实证明，在这种情况下，CAR-Net成功地从场景上下文中提取了语义理解。我们观察到，随着时间的推移，单来源和多来源注意机制都与预测的位置一致，因为它们关注场景的显著部分-例如，汽车前面的曲线。

代理空间相互作用的定性分析。我们进一步研究了我们的模型在赛道数据集上利用代理空间依赖性的能力。首先，我们表明道路几何形状对未来位置的预测有很大的影响。如图6(B)左侧所示，在赛车数据集上，我们手动将视觉注意力放在道路的不相关部分上，该部分沿右上方向定向。我们观察到，模型预测的位置遵循类似的右上轴，而没有任何场景信息的预期轨迹将遵循左上方向。我们在图6(B)的左下角图像中观察到类似的行为。在现实世界的F1数据集上进行的相同实验产生了类似的行为，如图6(B)所示。其次，我们研究车网是否足够健壮，可以通过手动设置代理在道路外的过去位置来从错误或扰动中恢复。图6(C)中的左侧图像显示了在赛车数据集上使用在中间轨迹上训练的模型进行实验的结果。预测的未来轨迹成功地回到了路上，并在之后保持稳定，表明我们的模型能够从赛车数据集上的强大预测错误中恢复过来。图中右边的图像。6(C)显示了在现实世界F1数据集上的类似实验。由于此数据集比赛车数据集更具挑战性，因此我们对代理的过去轨迹应用较小的扰动，将其稍微移离道路。我们观察到，这种扰动不会影响跟随道路的预测轨迹。

5结论

在本文中，我们使用CAR-Net来处理轨迹预测任务，CAR-Net是一种基于深度注意的模型，它处理过去的轨迹位置和导航场景的俯视图像。我们提出了一种注意机制，它成功地利用了多种类型的视觉注意。为了研究我们的模型利用代理行为与其环境之间的依赖性的能力，我们引入了一个新的数据集，由数百个F1赛道的俯视图图像组成，其中车辆的动力学主要由图像中的特定区域(例如，即将到来的曲线)控制。CARNET在SDD轨迹预测基准上比以前最先进的方法有很大的优势。通过可视化注意机制的输出，我们表明我们的模型在预测任务中利用了相关的场景语义特征

Car Net全文翻译相关推荐

全文翻译（全文合集）：TVM: An Automated End-to-End Optimizing Compiler for Deep Learning
全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要人们越来越需要将机器学习应用到各种各样 ...
全文翻译（四） TVM An Automated End-to-End Optimizing Compiler
全文翻译(四) TVM An Automated End-to-End Optimizing Compiler 6.3 嵌入式GPU评估对于移动GPU实验,在配备ARM Mali-T860MP4 G ...
全文翻译（三） TVM An Automated End-to-End Optimizing Compiler
全文翻译(三) TVM An Automated End-to-End Optimizing Compiler 5. 自动化优化考虑到一组丰富的调度原语,剩下的问题是为DL模型的每一层,找到最佳的算 ...
全文翻译（二）: TVM: An Automated End-to-End Optimizing Compiler for Deep Learning
全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 3．优化计算图计算图是在DL框架中表示程序的常 ...
全文翻译（一）：TVM: An Automated End-to-End Optimizing Compiler for Deep Learning
全文翻译(一):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要人们越来越需要将机器学习应用到各种各样的硬件 ...
iMeta：德布鲁因图在微生物组研究中的应用(全文翻译,PPT,视频)
德布鲁因图在微生物组研究中的应用 Applications of de Bruijn graphs in microbiome research DOI: https://doi.org/10.100 ...
“利他主义者”乔治·普莱斯的一生（全文翻译自Independent）
本文转载自"生态学文献分享",已获授权图1. 乔治·普莱斯漫画(插图) 原文: George Price: the altruistic man who died trying ...
高山仰止 | “利他主义者”乔治·普莱斯的一生（全文翻译自Independent）
本文转载自"生态学文献分享",已获授权图1. 乔治·普莱斯漫画(插图) 原文: George Price: the altruistic man who died trying ...
什么是Web 2.0——下一代软件的设计模式和商业模式（全文翻译—1 博客版序）
这篇文章,是经O'Reilly公司的Tim O'Reilly先生授权后,进行全文翻译.出版的.包括:杂志节选版和网络全文版.转载:请遵循CC版权,保留原文作者和翻译作者信息,以及文章链接. 感谢:互联 ...
《易经》全文翻译（值得收藏）
1.<易经>中隐含的28条天规,大智慧! 一:以自我为中心的人,将困于人生最大的陷阱人人都有"自我"--身体.思想.财产.名誉.地位等等.如果你是一个聪明人,不仅要为 ...

Car Net全文翻译

Car Net全文翻译相关推荐

最新文章

热门文章