EvolveGraph翻译

摘要

从纯粹的物理系统到复杂的社会动态系统，多主体交互系统在世界上非常普遍。在许多应用程序中，对环境的有效理解和交互式代理的准确轨迹预测在下游任务（例如决策和计划）中起着重要作用。在本文中，我们提出了一个通用的轨迹预测框架（名为EvolveGraph），该框架具有通过多个异构交互代理之间的潜在交互图进行显式交互建模的功能。考虑到不确定性和未来行为的可能性，该模型旨在提供多模式预测假设。由于即使发生突然的变化，交互也可能随时间变化，并且不同的代理状态演化方式可能导致不同的交互，因此，我们解决了自适应演化交互图的必要性和有效性，并提供了有效的解决方案。我们还引入了双阶段训练流水线，它不仅提高了训练效率，加快了收敛速度，而且还提高了预测误差方面的模型性能。在各个领域的多个公共基准数据集上评估了拟议的框架，以进行轨迹预测，其中代理商涵盖了公路车辆，行人，骑自行车的人和体育运动员。实验结果表明，我们的方法在预测精度方面达到了最先进的性能。

引言

多主体轨迹预测在许多现实应用中至关重要，例如自动驾驶，移动机器人导航和一组实体彼此交互的其他区域，从而导致了复杂的行为模式。
个人和多代理系统的整体水平。由于通常只有单个实体的轨迹可用而对底层交互模式一无所知，并且每个代理通常有多种可能的方式，因此对此类动力学进行建模并预测其未来行为颇具挑战性。
有许多现有工作试图为多主体交互建模提供系统的解决方案。一些相关技术包括但不限于社交池层[1]，关注机制[10、13、31、32]，通过完全连接的图传递的消息[6、28]。这些技术可以概括为通过信息聚合进行的隐式交互建模。另一研究领域是显式地对潜在交互图的结构进行推断，从而得出具有多种交互类型的静态离散结构[12]。我们提出的方法属于此类，但与现有方法相比具有显着的扩展和性能增强。
最相关的工作是NRI [12]，其中交互图在同构节点训练期间是静态的。这对于具有固定交互模式的系统就足够了，其中涉及均匀类型的代理。但是，在许多实际应用中，即使是突然变化（例如篮球运动员），互动也会随时间变化。系统中可能包含不同类型的代理（例如汽车，行人，骑自行车的人等），而NRI并未明确区分它们。而且，NRI仅输出单一的高斯分布，将来无法捕获多模态。因此，在这项工作中，我们解决了以下问题：1）使用图结构提取基本的交互模式，该图结构能够以统一的方式处理不同类型的代理并随时间演化； 2）捕获交互图演化的动态， 3）基于历史信息和提取的交互图预测未来轨迹，以及4）捕获未来轨迹的多模态。
本文的主要贡献概括如下：•我们提出了一个通用轨迹预测框架，该框架具有通过多个异构交互主体之间的潜图进行显式交互建模的功能。该框架可以结合轨迹信息和上下文信息（例如，场景图像，语义图，点云密度图）。
•我们提出了一种动态机制来随着时间适应性地发展基础交互图，该机制捕获了多个代理之间交互模式的动态。我们还引入了双阶段训练流水线，它不仅提高了训练效率，加快了收敛速度，而且还提高了预测误差方面的模型性能。
•拟议的框架旨在捕获自然界未来轨迹的不确定性和多模态性，比单模态预测提供更多信息，因此对潜在的下游任务（如决策和计划）更有利。提出的图进化机制可以增强多模态。
•我们在不同区域的多个轨迹预测基准上验证了所提出的框架，并且该方法达到了最先进的性能。提供了详细的实验结果和分析。

2相关的工作

2.1轨迹和行为预测
轨迹预测问题已被视为在一组交互代理之间进行建模的行为。文献[8]中的早期工作引入了社会力量来模拟人类对邻里的吸引力和排斥力。提出了其他一些基于学习的方法，例如隐马尔可夫模型[18，33]，动态贝叶斯网络[11]，逆强化学习[30，37]。近年来，已经进行了概念上的扩展，以更好地建模具有补充提示的社会行为模型，例如运动模式[36,39]和群体属性[21,35]。这种社会模型激发了[1,2,4,5,7,9,14–16,19,23,25,26,29,34,38,40]中最近的数据驱动方法。他们使用神经网络的递归操作对单个实体的运动历史进行编码。但是，这些方法很容易在异构环境中找到可接受的未来运动，部分原因是由于它们具有用于交互建模的启发式特征池。
2.2交互建模和图网络
交互建模和关系推理已在各个领域得到了广泛的研究。近来，已将应用于图结构的深层神经网络用于制定交互代理之间的连接[13、17、19、32]。
这些方法引入了表示交互代理的节点和表示彼此交互的边。他们通过构造时空图直接了解节点属性（代理状态）和/或边缘属性（代理之间的关系）的动态变化。但是，他们的模型对底层交互模式没有明确的了解。一些现有的工作（例如NRI [12]）已经通过推断潜在的交互图朝着显式关系推理迈出了一步。但是，对于NRI来说，处理异构代理，上下文信息以及具有时变交互作用的系统并非易事。在这项工作中，我们提出了解决上述问题的有效解决方案。

3问题表述

这项工作的目的是基于历史状态信息和/或上下文信息来预测多个异构交互主体的未来轨迹。在不失一般性的前提下，我们假设场景中存在N个异构主体，它们属于M类（例如汽车，骑自行车的人，行人）。代理的数量在不同情况下可能会有所不同。我们表示一套X 1 T = {x 1 T xt =（xtyt）T = T h + T fi = 1 N}的轨迹覆盖了Hstor ca和预测的ng zon（T h和T f），其中（xy）在本文的范围内，二维空间或图像空间中的二维坐标我们用a表示在（图像或张量）上的背景信息序列为C 1 T h = {c 1 T h}用于动态场景，或者用于C场景的固定上下文信息，对于静态场景，我们在引用阶段中的上下文信息时使用C将来在访问阶段使用nformat 对于动态场景，我们要估计条件，但在p（XT h +1 T h + T f X 1 T h C 1 T h）上或p（XT h +1 T h + T f X 1 T h C）for stat c场景预测的d str但在红色上表示为mut -moda表示不确定

4方法

4.1框架概述
在F g 1上显示的是用于说明框架框架的基本过程的实用图形模式，而不是端到端的处理过程在两个连续的阶段中
•静态交互图的获取进行一系列编码功能，以从观察到的轨迹中提取模式的交互，并生成上下文信息，并生成图表上的状态交互。解码功能的转换可反复生成多模态但未来状态
•动态交互图学习：在第一阶段使用预先训练的编码和解码功能作为初始化，将其与循环网络的训练一起进行微调，以捕获交互图演化的动态。循环单元可以视为高度灵活的集成，其中考虑了过去的图形。
由于功能共享和图形表示的排列不变性，在不同情况下，代理的数量可以在不同情况下保持灵活，而无需更改模型的复杂性。
4.2静态交互图
在此阶段，目标是同时学习从历史信息中提取潜在交互图作为潜图分布的编码函数，以及输出一系列未来状态的多峰分布的解码函数。基于编码的交互图和历史信息。我们在下面介绍编码/解码过程的细节。
观察图构造没有自环的全连接图来表示具有节点/边缘属性的观察信息，称为观察图。假设场景中有N个异构代理，属于M类。然后，观察图由N个代理节点和一个上下文节点组成。代理节点彼此双向连接，并且上下文节点仅具有每个代理节点的传出边缘。我们将观测图表示为G obs = {V obs，E obs}，其中V obs = {{vi，vc}，i∈{1，…，N}}，E obs = {{e ij，e ic}，i，j∈{1，…，N}}。 v i，v c和e ij，e ic分别表示代理节点属性，上下文节点属性和代理-代理，上下文-代理边缘属性。更具体地说，e ij表示从节点j到节点i的边的属性。每个代理节点具有两种类型的属性：自我属性和社交属性。前者仅包含节点自己的状态信息，而后者仅包含其他节点的状态信息。节点/边缘属性的计算公式为
公式（1）
交互图交互图没有节点/边缘属性，它表示具有每个边缘的边缘类型分布的交互模式。
我们设置超参数L来表示成对的Agent节点之间可能的边缘类型（交互类型）的数量，以对agent-agent交互进行建模。
同样，上下文节点和所有代理节点之间共享另一种边缘类型，以对代理-上下文交互进行建模。请注意，“无边缘”也可以被视为特殊的边缘类型，这意味着没有消息沿这些边缘传递。更正式地讲，交互图是离散概率分布q（G | X 1：T h，C 1：T h）或q（G | X 1：T h，C），其中G = {{{z ij，z ic}，i，j∈{1，…，N}}是所有边缘的一组交互类型，而z ij和z ic是随机变量，用于指示特定边缘的成对交互类型。
编码编码过程的目标是从观察图推断出潜在的交互图，这实际上是多类边缘分类任务。我们使用softmax函数，对最近更新的边缘属性进行离散分布[20]的连续近似，以获得每种边缘类型的概率，由下式给出：
公式（6）
解码由于在许多实际应用中，代理的状态具有长期依赖性，因此对交互图和观察图应用循环解码过程，以近似估计未来轨迹的分布p（XT h +1：T h + T f | G ，X 1：T h，C）。每个时间步长的输出是具有K个分量的高斯混合分布，其中每个高斯分量的协方差均手动设置为相等。解码过程中的详细操作包括两个阶段：老化阶段（1≤t≤T h）和预测阶段（T h +1≤t≤T≤T h + T f），它们由下式给出：
公式（7）
4.3动态交互图
在许多应用程序中，根据过去的时间步长计算出的交互模式将来可能不是静态的。取而代之的是，它们在未来的时间步长中动态变化。单个静态交互图不足以对此类情况进行建模，尤其是那些突然变化的情况。
而且，许多交互系统本质上具有多模式特性。
之后，不同的方式可能表示不同的交互方式。仅使用单个交互模式并不适合预测所有模式。因此，我们引入了一种有效的动力学机制来演化交互图。
每τ（重新编码间隔）时间步长重复编码过程，以基于最新的观察图获得潜在的交互作用图。由于新的交互图也依赖于先前的交互图，因此我们还需要考虑它们的影响。因此，循环单元（GRU）用于维护和传播历史信息，以及调整先前的交互图。更正式地说，计算公式为
4.4多样化的轨迹生成
由于人类意图和交互结果的不确定性，因此需要一种预测模型来捕获人类行为的多种形式并生成代表各种可能行为模式的各种预测假设。因此，在我们的解码过程中，我们没有输出每一步的确定性轨迹，而是输出其i，k 2个高斯分量为N（μi，k t + 1，σ）和它们相应的权重w t +的高斯混合分布。 1，表示下一步有几种可能的方式。我们仅基于分量权重w t + 1来选择单个高斯分量，该权重表示每种模态的概率。这与传统的混合密度网络略有不同，因为我们在训练过程中设置了固定的协方差并使用略微修改的损失函数代替了传统的负对数似然，如4.5节所示。
但是，直接训练这样的模型往往会崩溃为单一模式。
因此，我们引入了一种有效的机制来减轻模式崩溃问题并鼓励多样化的轨迹生成。我们从K个高斯分量中采样一个高斯分布，并在当前解码步骤中将其用于迭代解码。使用不同的高斯分布和位置会导致不同的轨迹，这使我们的模型能够生成多个不同的轨迹。在训练过程中，我们将解码过程运行d次，然后在特定场景下为每个特工生成d条可能的轨迹。我们只选择对反向传播损失最小的预测假设。由于损失最小的人最有可能处于与事实真相相同的模式。其他预测的轨迹可能会有更高的损耗，但这并不一定意味着它们是不可行的。
它们仍然有可能代表某些潜在的形式。
4.5 9损失函数和训练
训练在我们的实验中，我们首先使用静态交互图训练编码/解码功能。然后，在训练动态交互图的过程中，我们在第一阶段使用预训练的编码/解码功能来初始化动态训练中使用的模块的参数。
这一步是合理的，因为在这两个训练过程中使用的编码/解码功能起着相似的作用，并且它们的最佳状态应该接近。
而且，如果我们直接训练动态图，它将导致更长的收敛时间，并且由于大量可学习的参数而可能陷入一些不良的局部最优中。这种方法可能会加速整个训练过程，并避免一些不良的局部最优。
损失函数在我们的训练过程中，我们试图使条件后验可能性最大化。我们的损失函数定义如下：
5.1数据集
在本文中，我们使用了三个基准数据集：Honda 3D数据集（H3D）[22]，NBA SportVU数据集（NBA）和Stanford Drone数据集（SDD）[24]。 H3D是大规模的全包围3D多对象检测和跟踪数据集，可为异构交通参与者（例如汽车，卡车，骑自行车的人和行人）提供点云信息和轨迹注释。 NBA的数据集是由NBA使用SportVU跟踪系统收集的，该系统包含所有十个球员的轨迹信息以及真实游戏中的球。 SDD包含一组自上而下的图像以及所涉及实体的相应轨迹，这些图像是在大学校园中由多种场景收集的，这些校园中充满了行人，骑自行车的人和车辆之间的互动。
5.2评估指标和基线
我们根据平均位移误差（ADE）评估模型性能，平均位移误差定义为预测轨迹与轨迹之间的平均距离预测范围内所有涉及实体的地面真相，以及最终位移误差（FDE），它被定义为最后一个预测时间步长上的偏离距离。对于H3D和NBA数据集，我们根据历史5个时间步长（2.0s）预测了未来10个时间步长（4.0s）。对于SDD数据集，我们基于历史的8个时间步长（3.2s）预测了未来的12个时间步长（4.8s）。我们将提议的方法与以下基准方法的性能进行了比较：恒定速度模型（CVM），概率LSTM（P-LSTM）[15]，社交LSTM（S-LSTM）[1]，社交GAN（S-GAN） [5]，社会注意力（S-ATT）[32]，DESIRE [14]，门控RN [3]，Trajectron ++ [27]和NRI [12]。有关更多详细信息，请参考参考文件。
5.3实现细节
使用的批处理大小为32，并且在静态图学习阶段对模型进行了多达10个时期的训练，在动态图学习阶段对模型进行了早期停止的多达50个时期的训练。我们使用Adam优化器，其初始学习率为0.001。这些模型是在单个TITAN X GPU上训练的。我们使用了65％，10％，25％的比例作为训练，验证和测试数据。
5.4定量分析
下面我们为每个数据集提供定量分析。
•H3D数据集：结果的比较如表1所示，其中报告的ADE和FDE的单位为世界坐标中的米。请注意，实验中包括汽车，卡车，自行车和行人。结果表明，CVM在短期预测（1.0s）中表现最佳，这是合理的，因为在很短的时间间隔内可以忽略速度的变化。但是基于学习的模型可能会牺牲短期性能，以更好地进行长期预测。另一个潜在的原因是，基于学习的模型可能会从数据中捕获一些微妙的模式，这会使短期行为复杂化。所有其他基准方法都考虑了代理之间的关系和交互。 S-LSTM使用社交池层来融合不同主体的信息.S-ATT使用空间注意力机制，而S-GAN展示了一个生成模型，用于学习数据分布。门控RN和Trajectron ++都利用时空信息来涉及关系推理，从而导致较小的预测误差。 NRI推断出一个潜在的交互图并学习代理的动力学，从而获得与Trajectron ++类似的性能。我们提出的方法实现了最佳性能，这暗示了通过不断发展的交互图进行显式交互建模的优势。与最佳基准方法（门控RN）相比，4.0s ADE / FDE显着降低了30.4％/ 44.9％。
•NBA数据集：结果比较如表2所示，其中报告的ADE和FDE的单位为世界坐标中的米。请注意，我们在实验中同时包括了球员和篮球。由于篮球运动员是高度互动的，并且行为经常由于对其他运动员的反应而突然改变，因此CVM的性能要比基于学习的基准差得多。 P-LSTM具有比CVM更好的性能，因为它可以从数据中学习以独立地基于每个代理的历史信息来预测未来的轨迹。其他基准均考虑具有不同策略（例如软注意力机制，社交池层和基于图的表示）的特工之间的关系和交互。由于通过不断发展的交互图进行动态交互建模，我们的方法比最先进的方法具有明显更好的性能，相对于最佳方法，它使4.0s ADE / FDE降低了40.5％/ 42.2％（4.0s FDE）。基线（NRI）。
•SDD数据集：结果比较如表3所示，其中报告的ADE和FDE的单位是图像坐标中的像素。请注意，尽管其中大多数是行人，但我们在实验中包括了所有类型的代理。我们提出的方法可以达到最佳性能。与最佳基准方法（Trajectron ++）相比，4.8s ADE / FDE降低了37.0％/ 30.4％。
•边缘类型和重新编码间隙的分析：我们还提供了ADE / FDE（以米为单位）的比较，并在NBA数据集上测试了运行时间，以演示不同数量的边缘类型和重新编码间隙的影响。在图3（a）中显示，随着边缘类型数量的增加，预测误差首先减小到最小然后增加，这意味着太多的边缘类型可能导致过度拟合问题，因为某些边缘类型可能会从数据中捕获微妙的模式，从而降低了泛化能力。需要交叉验证来确定边缘类型的数量。在图3（b）中，说明了随着重新编码间隙的增大，预测误差将持续增加，这意味着对基础交互模式进行更频繁的重新标识确实有助于其随着时间的发展。但是，如果需要在线预测，则需要在预测误差和测试运行时间之间进行权衡。两个图中ADE / FDE的方差均很小，这表明在随机初始化和多次实验中进行各种设置的情况下，模型性能稳定。
5.5定性分析
我们对图3中H3D和NBA数据集上典型测试案例的预测假设进行定性评估。
•H3D数据集：图2（a）和图2（b）显示了来自H3D结果的两个随机样本。从中可以看出，我们的框架可以生成准确的轨迹。更具体地说，在图2（a）中，对于右下角的蓝色预测假设，我们可以知道在第五步有一个突然的变化。这是因为交互图在这一步发展了（在这种情况下，我们的重新编码间隔τ被设置为5）。此外，在热图中，我们可以看到从这一点开始有多种可能的轨迹，这意味着多种可能的形式。这些结果表明，不断发展的交互作用图可以增强我们模型的多模态性质，因为先前步骤中的轨迹样本不同会导致图演化的方向不同，从而极大地影响了以后的预测。在图2（b）中，这是一个回旋处。凭直觉，每辆车很可能在任何可能的出口处退出回旋处。我们的模型可以成功显示退出回旋处并停留在其中的方式。此外，如果退出环形交叉路口，则大多数情况下预计汽车将在其右侧驶出，这表明我们的模型所预测的方式并不是任意的，而是合理且合理的。
•NBA数据集：图2（c），图2（d）显示了来自我们结果的两个随机样本。首先，我们告诉我们，在这种情况下，球大多数时候都会跟随一名球员，这意味着预测的结果代表了合理的情况。其次，大多数预测假设都非常接近于基本事实，即使某些预测与基本事实并不相似，它们也代表了合理的行为。
第三，热图表明我们的模型可以成功预测最合理的未来轨迹及其多峰分布。更具体地说，在图2（c）中，对于处于中间位置的绿色球队的球员，历史步伐迅速向前发展，而我们的模型可以成功地预测该球员会突然停止，因为他被许多对手包围并且他没有接球。在图2（d）中，我们的模型显示来自不同团队的三对球员彼此竞争以争取机会。防守队伍更接近篮筐。运球的球员迅速向篮筐奔跑。两个对手试图捍卫他。这种情况很常见篮球比赛中的情况。总的来说，我们的模型不仅可以达到很高的准确性，还可以理解和预测篮球比赛中大多数移动，停止，进攻和防守的行为。
5.6烧蚀分析
我们对H3D和NBA数据集进行了烧蚀分析，以证明异构节点类型，动态交互图和两阶段图学习的有效性。表1和表2的下部显示了每种模型设置的最佳ADE / FDE。我们首先介绍五个烧蚀模型设置，然后提供详细的分析。
–静态图（相同的代理节点类型）：这是最简单的模型设置，其中仅基于历史信息提取单个交互图。在所有节点之间共享相同的节点嵌入功能。
–静态图：此设置与最后一个相似，不同的是，将不同的节点嵌入功能应用于不同类型的代理节点。
–不带GRU的重新编码：仅在使用静态编码过程而没有循环单位的情况下，每τ个时间步长对交互图进行重新编码。
–动态图（单阶段）：这是我们的整个模型，其中的编码，解码功能和图形GRU都是从头开始进行训练的。
–动态图（双阶段）：这是我们具有双阶段交互图学习的整个模型，其中从第一阶段获得的编码，解码功能在第二阶段用作初始化。
•静态图（相同代理节点类型）v.s。静态图：我们展示了区分代理节点类型的有效性。根据表1和表2中的预测结果，对于不同的代理类型，使用不同的代理节点嵌入功能会比通用嵌入功能始终实现较小的ADE / FDE。原因是不同类型的代理具有不同的行为模式或可行性约束。例如，公路车辆的轨迹受到道路，交通规则和物理约束的限制，而对行人行为的约束则少得多。此外，由于车辆通常必须在交叉路口让行人，因此在模型中明确指出代理商类型会有所帮助。 H3D数据集的4.0s ADE / FDE降低了4.7％/ 5.8％，而NBA数据集则降低了8.6％/ 6.6％。
•静态图与没有GRU的重新编码：这表明这两个设置实现了非常相似的性能，这是合理的，因为它们共享相同的数据信息和具有相同数量参数的模型体系结构。尽管在预测过程中应用了重新编码过程，但它无法捕获图演化的动态，因此模型性能的提高非常有限。
•动态图（单阶段）对比动态图（双阶段）：我们展示了双阶段动态图学习的有效性和必要性。
结果表明，在两个数据集上，双阶段训练方案均导致ADE / FDE的显着改善。在第一个训练阶段，对编码/解码功能进行了很好的训练，使其达到局部最优，从而能够提取适当的静态交互图。根据经验发现，经过几个时期的训练之后，第二阶段训练的编码/解码功能就足够好了。在第二训练阶段，编码/解码功能从第一阶段开始初始化并进行微调，同时训练图进化GRU。这将导致更快的收敛速度和更好的性能，因为这可以帮助避免某些不良的局部最优，如果随机初始化所有组件，损失函数可能会卡在该局部最优上。在具有相同的超参数的情况下，单阶段/双阶段训练大约需要25/14个时期，以在NBA数据集上达到最小的验证损失，而在H3D数据集上则达到41/26个时期。与单阶段训练相比，双阶段训练的4.0s ADE / FDE在NBA数据集上降低了18.5％/ 19.2％，在H3D数据集上降低了9.4％/ 12.2％。

6结论

在本文中，我们提出了一个通用的轨迹预测框架，该框架在具有图形表示的多个异构交互主体之间进行显式交互建模。可以将多种类型的上下文信息（例如静态/动态，场景图像/点云密度图）与轨迹信息一起合并到框架中。为了捕获交互模式演化的基本动态，我们提出了一种动态机制来演化交互图，该机制在两个连续的阶段中进行了训练。双阶段训练机制可以加快收敛速度，并提高预测性能。该方法能够捕获未来行为的多种形式。所提出的框架已通过针对不同应用的多种轨迹预测基准进行了验证，从而在预测准确性方面实现了最先进的性能。对于将来的工作，我们将处理预测任务，该任务涉及具有扩展的自适应框架的时变数量的代理。