摘要

在过去的几十年里,人类轨迹预测因其众多的实际应用而成为一个活跃的研究领域:疏散情况分析、智能交通系统的部署、交通运营等等。 早期的作品基于领域知识手工制作了这种表示。 然而,拥挤环境中的社交互动不仅多种多样,而且往往很微妙。 最近,深度学习方法的表现优于手工制作的方法,因为它们以更通用的数据驱动方式了解人与人之间的交互。 在这项工作中,我们对现有的基于深度学习的社交互动建模方法进行了深入分析。 我们提出了两种基于知识的数据驱动方法来有效地捕捉这些社交互动。 为了客观地比较这些基于交互的预测模型的性能,我们开发了一个大规模的以交互为中心的基准 TrajNet++,这是人类轨迹预测领域的一个重要但缺失的组件。 我们提出了新的性能指标,用于评估模型输出社会可接受轨迹的能力。 TrajNet++ 上的实验验证了对我们提出的指标的需求,我们的方法在现实世界和合成数据集上都优于竞争基准。

引言

人类拥有在社会环境中导航的自然能力。 换句话说,我们已经了解了人类运动的社交礼仪,例如尊重个人空间、让路、避免穿过属于同一群体的人。 我们的社交互动会导致人群中出现各种复杂的模式形成现象,例如,出现具有统一步行方向的行人车道,瓶颈处的行人流振荡。
对社交互动进行建模从而预测现实世界环境中人群动态的能力对于广泛的应用非常有价值:基础设施设计 [1]、[2]、[3]、交通运营 [4]、人群异常检测系统 [5],疏散情况分析 [6], [7], [8], [9], [10], 智能交通系统的部署 [11], [12], [13], [14] 和最近帮助 在构建我们建筑环境的数字孪生的广泛追求中。 然而,社交互动建模是一项极具挑战性的任务,因为没有一套固定的规则来控制人体运动。 与学习人类社会互动密切相关的一项任务是预测周围人的运动,这符合共同的社会规范。 我们将这种预测人体运动的任务称为人体轨迹预测。
在正式定义人类轨迹预测之前,我们引入了轨迹和场景的概念。 我们定义一个轨迹作为行人运动状态的时间曲线。 通常,这些状态是人的位置和速度。
但是,我们可以考虑更复杂的状态,例如身体姿势,以收集有关人的运动的更多信息。
我们将场景定义为多个人在社交环境中交互的轨迹的集合。 场景还可以包括影响人类轨迹的物理对象和不可导航区域,例如墙壁、门和电梯。 此外,在需要时,我们将场景中感兴趣的特定行人称为主要行人。 我们将人类轨迹预测定义如下:
给定场景中所有人的过去轨迹,预测符合社会规范的未来轨迹。
人体轨迹预测主要是一项序列建模任务。 序列建模任务的典型挑战是(1)编码观察序列:我们需要学习有效地对过去轨迹中的长期依赖性进行建模,(2)多模态:给定场景的历史,多个未来(预测) 是合理的。 除此之外,对于人类轨迹预测,还有两个关键挑战使其区别于其他序列预测任务,例如语言建模、天气预报和股市预测(见图 1):
• 社交互动的存在: 一个人的轨迹受到他/她周围其他人的运动的影响。 建模如何观察一个序列影响另一个序列的预测是一个良好的人类轨迹预测模型的基本要求。
• 物理上可接受的输出: 一个好的人类轨迹预测模型应该提供物理上可接受的输出,例如,模型预测不应发生碰撞。 量化模型预测的物理可行性对于安全关键应用至关重要。
我们的目标是将观察到的场景编码为一个表示,该表示捕获预测人体运动所需的所有信息。 为了专注于学习影响社会运动的社会互动,我们假设我们的场景中不存在任何物理约束。 未来的轨迹也可能受到人类长期目标的影响,这些目标不能总是被观察或推断出来。 因此,我们专注于短期人类轨迹预测(接下来的 5 秒)。
随着 Social LSTM [15] 的成功,文献中提出了多种基于神经网络 (NN) 的模块来模拟社交互动。 在这项工作中,我们明确关注这些交互模块的设计,而不是整个预测模型。 设计这些交互模块的挑战在于处理可变数量的邻居,并对它们如何共同影响一个人的未来轨迹进行建模。 我们提出了一个包含大多数现有交互模块设计的高级管道。 基于我们的分类法,我们提出了两个新的模块,将领域知识整合到基于 NN 的管道中。 因此,这些模块可以更好地学习社交礼仪,例如避免碰撞和领导跟随者。 基于神经网络的轨迹预测模型中一个长期存在的问题是探索有助于解释模型决策的技术。 在这项工作中,我们建议利用逐层相关性传播 (LRP) [16] 来解释我们的轨迹预测模型的决策。
据我们所知,这是在回归设置中应用 LRP 以推断序列间(邻居)对模型输出的影响的第一项工作。
为了证明轨迹预测模型的有效性,需要有方法在高质量数据集上与其他预测基线进行客观比较。
然而,目前的方法已经在可用数据的不同子集上进行了评估,而没有对发生社交互动的场景进行适当的采样。 作为我们的最后贡献,我们介绍了 TrajNet++,这是一个大规模的以交互为中心的轨迹预测基准,包括显式代理场景。 我们的基准通过定义轨迹分类的层次结构来提供正确的轨迹索引。
此外,我们提供了一个广泛的评估系统来测试收集的方法以进行公平比较。 在我们的评估中,我们超越了基于距离的标准指标,并引入了新的指标来衡量模型在人群中模拟行人行为的能力。 与各种交互编码器设计相比,我们证明了我们提出的基于领域知识的基线在 TrajNet++ 上的有效性。 此外,我们还说明了如何在实际场景中使用 LRP 来解释我们提出的模型架构的决策。
总而言之,我们的主要贡献如下:
1)我们对基于 NN 的交互编码器的现有设计及其源代码进行了深入分析。 我们通过将逐层相关性传播扩展到轨迹预测的回归设置来解释轨迹预测模型的决策。
2)我们提出了两种由领域知识驱动的简单而新颖的方法来捕捉社交互动。
3) 我们提出了 TrajNet++,这是一个大规模的以交互为中心的轨迹预测基准,具有量化模型物理可行性的新颖评估指标。

相关工作

在拥挤的环境中找到编码人类社交互动的理想表示是一项极具挑战性的任务。 社交互动不仅多种多样,而且往往很微妙。 在这项工作中,我们考虑了行人人群的微观模型,其中集体现象从许多人之间的复杂相互作用中出现(自组织效应)。 当前的人类轨迹预测工作可以分为学习人与人(社会)交互或人与空间(物理)交互或两者。
我们的工作专注于捕捉社交互动的基于深度学习的模型。 在本节中,我们回顾了为模拟人与人的交互以获得社会表征所做的工作。
特别关注行人路径预测问题,Helbing 和 Molnar [17] 提出了一种基于力的运动模型,具有吸引力(朝向一个人的目标和他/她的群体)和排斥力(远离不属于该群体的人) 一个人的群体和物理障碍),称为社会力模型,它捕捉社会和物理相互作用。 他们的开创性工作即使在现代行人数据集上也显示出有竞争力的结果,并且已经扩展到改进的轨迹预测 [18]、[19]、[20]、[21]、跟踪 [22]、[23]、[24] 和活动预测 [25]、[26]。 Burstedde 等人。 [27]利用细胞自动机模型,另一种微观模型,预测行人运动。 在他们的模型中,环境被划分为均匀分布的网格,每个行人都有一个偏好矩阵来确定向相邻单元格的过渡。
偏好矩阵由行人自己的意图以及周围代理的位置决定。
与社会力量类似,元胞自动机模型多年来一直在扩展以改进轨迹预测 [28]。 模拟人体运动的另一个突出模型是互易速度障碍(RVO)[29],它保证安全和无振荡的运动,假设每个代理遵循相同的防撞推理。 社会互动建模已经从不同的角度进行了处理,例如离散选择框架 [30]、连续体动力学 [31] 和高斯过程 [32]、[33]、[34]。 罗比凯等人。
[35] 定义了社会敏感性,以将人类运动表征为不同的导航风格。 阿拉希等人。 [36] 定义了 Social Affinity Maps,以将破碎或未观察到的轨迹与预测行人目的地联系起来。 易等人。 [37]利用人群分组作为更好预测轨迹的线索。 然而,所有这些方法都使用基于相对距离和特定规则的手工函数来模拟交互。 这些功能在对复杂的交互进行建模时,不仅强加了先验,而且还具有有限的能力。 最近,基于神经网络 (NN) 的方法以数据驱动的方式推断交互已被证明优于上述工作。
受到循环神经网络 (RNN) 在不同序列预测任务中的应用的启发 [38]、[39]、[40]、[41],Alahi 等人。 [15] 提出了 Social LSTM,这是第一个基于 NN 的人类轨迹预测模型。 Social LSTM 是一个 LSTM [42] 网络,具有新颖的社交池化层,用于捕捉附近行人的社交互动。 包含社交互动的 RNN 允许预测在更遥远的未来可能发生的互动。 社交池模块已扩展为包含物理空间上下文 [43]、[44]、[45]、[46]、[47]、[48] 并且已经提出了基于 NN 的交互模块的各种其他设计 [49 ], [50], [51], [52], [53], [54], [55], [56], [57], [58], [59], [60], [61]。 菲佛等人。 [49] 提出了一种用于高效计算的角度池化网格。 石等人。 [50] 提出了一个椭圆池网格,沿着行人的运动方向放置,更多地关注前面的行人。
比萨尼奥等人。 [51] 建议在社会汇集期间只考虑不属于同一群体的行人。在模拟社交互动时,Hasan 等人。 [59], [60] 基于领域知识,仅考虑注意力的视觉截锥体中的行人 [62]。 古普塔等人。 [52] 建议通过使用置换不变(对称)最大池化函数来编码邻域信息。 张等人。 [53] 建议使用消息传递算法来改进 LSTM 单元的状态。 朱等人。 [54] 提出了一种新的星形拓扑来模拟相互作用。 中心枢纽维护每个行人可以查询的整个场景的信息。 伊万诺维奇等人。 [55] 和 Salzmann 等人。 [61] 提出对相邻状态进行求和池化,并将其传递给基于 LSTM 的编码器以获得交互向量。 梁等人。
[56] 提出利用从行人之间的空间距离获得的几何关系来推导交互表示。 [57], [58] 建议将

Trajnet++翻译相关推荐

  1. Edge 无法翻译此页面

    之前用edge还不错,尤其是翻译功能,还有pdf,甚至朗读功能,都非常强.插件商店也好用.最近突然翻译不能用了,一直都是无法翻译此页面,那么自己手动选个单词去翻译,也是一样翻译失败,请重试. 终于在某 ...

  2. Mysql函数group_concat、find_in_set 多值分隔字符字段进行数据库字段值翻译

    Mysql函数group_concat.find_in_set进行数据库字段值翻译 场景 配方表:记录包含的原料 sources表示原料,字段值之间用逗号分隔 原料表:对应原料id和原料名称 现需要查 ...

  3. “Attention is All You Need 翻译

    <p><img src="output_0_0.png" alt="png"></p> "Attention is ...

  4. 基于PyTorch的Seq2Seq翻译模型详细注释介绍(一)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qysh123/article/deta ...

  5. 全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(全文合集):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要 人们越来越需要将机器学习应用到各种各样 ...

  6. 全文翻译(四) TVM An Automated End-to-End Optimizing Compiler

    全文翻译(四) TVM An Automated End-to-End Optimizing Compiler 6.3 嵌入式GPU评估 对于移动GPU实验,在配备ARM Mali-T860MP4 G ...

  7. 全文翻译(三) TVM An Automated End-to-End Optimizing Compiler

    全文翻译(三) TVM An Automated End-to-End Optimizing Compiler 5. 自动化优化 考虑到一组丰富的调度原语,剩下的问题是为DL模型的每一层,找到最佳的算 ...

  8. 全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(二): TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 3.优化计算图 计算图是在DL框架中表示程序的常 ...

  9. 全文翻译(一):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

    全文翻译(一):TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 摘要 人们越来越需要将机器学习应用到各种各样的硬件 ...

最新文章

  1. TensorFlow基础笔记(7) 图像风格化效果与性能优化进展
  2. TA 们放肆摇晃的青春尾巴
  3. [置顶] Application,Session,Cookie之Application对象
  4. 选择 Reac​​tJS 的五大理由
  5. nginx+tomcat+php(tomcat的session共享设置)
  6. 谈谈这些年前端的变化
  7. 大数据建设意义_大数据一体化平台打造政府智能数据库,助力智慧政务建设
  8. 腾讯开源开年红!TencentOS 内核正式开源
  9. map mybatis 的字段返回0_mybatis返回map类型数据空值字段不显示(三种解决方法)
  10. 模拟集成电路设计(拉扎维)第四章学习笔记
  11. 《赛灵思中国通讯》学习记录第1期:为何使用Zynq SoC可以让企业产品利润激增
  12. ABAQUS仿真——子弹冲击、热传导
  13. 三阶魔方大中小魔公式_三阶魔方花样玩法 公式汇总大全
  14. Android Q 获取设备唯一ID(UDID\GUID\UUID\SSAID\GAID)
  15. 一些学习网络安全的平台介绍
  16. 使用ESP8266数据上onenet云平台
  17. 【Python】求笛卡尔乘积
  18. 从多个数中取出之和等于定值的组合
  19. #双11故事联播#守护篇| 支付王牌军-我们如何从容应对双11?
  20. 腾讯企业邮箱收费标准多少钱一年 腾讯企业邮箱价格表

热门文章

  1. 如何破解修改Linux操作系统用户密码
  2. 2019年大概率成为新零售的“前置仓”年
  3. 《uniapp基础知识》学习笔记Day38-(Period2)全局文件一些常用的配置
  4. learnopencv 之 Delaunay 显示动态绘制obama脸型特征 @ Jupyter
  5. 使用可视化库matplotlib绘图时,plt.show()过后只出现Figure size 640x480 with 1 Axes而没有生成图片
  6. 3D陶瓷模型如何从创建到精准贴图,完整教程来了!
  7. Java之sleep和wait
  8. jQuery中attr方法和removeAttr方法使用
  9. 平面设计中的字体设计风格原则有哪些
  10. 深入浅出 Fast DDS网络协议(入门篇)