Author: Chen Gao     Yuliang Zou         Jia-Bin Huang

摘要

我们的核心观点是,在图像的相关部分中一个人或一个物体实例的外观包含有用的线索,这可以促进交互的预测。为了利用这些线索,我们提出了一个以实例为中心的注意力模块,该模块可以根据每个实例的外观动态显现图像中的区域。这种基于注意力的网络允许我们有选择地聚集与识别HOIs相关的特征。

1.介绍

大多数现有的方法通过人和物体的外观特征以及它们的空间关系来推断交互。虽然整合情境通常有助于提高表现,但这些手工设计的注意力区域可能并不总是与识别动作/互动相关。
在本文中,我们提出了一个端到端可训练的以实例为中心的注意力模块,该模块学习使用人或对象实例的外观来突出信息区域。我们的想法是,一个实例(人类或物体)的外观提供了我们应该注意的图像位置的线索。例如,为了更好地确定一个人是否携带了一个物体,我们应该把注意力放在这个人的手周围的区域。所提出的以实例为中心的注意网络(iCAN)动态地为每个被检测到的人或对象实例生成一个注意力图,突出与任务相关的区域。在V-COCO和HICO-DET上达到了SOTA。

2.相关工作

目标检测:我们的工作使用现成的Faster R-CNN来定位人和物体实例。所以我们的方法主要集中于识别每一对人和物体实例之间的交互(如果存在交互的话)。
注意力机制:在动作识别和HOI任务中引入注意力机制已经做了大量的努力。这些方法通常使用手工设计的注意力区域来提取上下文特征。我们的工作建立在基于注意力机制的最新进展上,并将其扩展到处理实例级HOI识别任务。
人物交互:现有的工作基于单个线索(人类外观、物体外观或人-物对之间的空间关系)来识别交互。我们认为类似的预测不可避免的会缺乏上下文信息。我们提出的以实例为中心的注意力模块提取与局部区域外观特征相补充的上下文特征(例如人类/物体box)来辅助HOI检测。

3.以实例为中心的注意力网络

3.1算法总览

我们对HOI的检测主要包含两步:1)目标检测;2)HOI检测。首先,给定一个输入图像,我们使用Faster R-CNN来检测所有的人/对象实例。我们用bh表示为一个人的检测边界框,将bo表示为一个对象实例。使用sh和so分别表示被检测的人和被检测对象的置信分数。其次,我们通过提出的以实例为中心的注意网络评估所有人-物bbox对,以预测交互得分。
推理:对于每个人-物体bbox对(bh, bo),我们预测每个动作的得分Sah,o,对每个动作a∈{1,…,A},其中A表示动作的总数。分数Sah,o取决于(1)对单个物体检测的置信度(sh,so等)(2)基于人sah和物体sao的外观交互预测,(3)基于人和物体之间空间关系的得分预测sasp。其计算公式为:

对于没有目标物体的交互(如smile,run等)则只针对于human方面的动作分数sh,即其得分为sh*sah
训练:由于一个人可以做多个动作,所以HOI检测是个多标签分类问题,其中每个交互分类是独立而非相互竞争的。我们对每个动作类别使用一个二进制sigmoid分类器,然后让动作得分sah,sao,或者sasp和每个动作类别的ground truth动作标签之间的交叉熵损失最小。

3.2以实例为中心的注意力模块


我们首先使用标准流程提取实例级别的外观特征xhinst,比如应用ROIpooling,通过残差块res,然后全局平均池化(GAP)。然后我们将实例级外观特征xhinst和卷积特征映射都嵌入到512维的空间中,并使用向量点积来度量该嵌入空间中的相似性。然后我们便可以使用softmax来获得以实例为中心的注意力图。利用注意力图,我们可以通过计算卷积特征的加权平均值来提取上下文特征xhcontext。我们iCAN模块的最终输出是一个以实例级别的外观特征xhinst和基于注意力的上下文特征xhcontext的拼接。
我们的iCAN模块与以往方法相比有以下几个优点:首先,我们的注意力图是自动学习的,并与网络的其他部分共同训练以提高表现。其次,与为图像级别分类而设计的注意力模块相比,我们的以实例为中心的注意力图提供了更大的灵活性,因为它允许根据不同的对象实例来关注图像中的不同区域。

3.3多分支网络

如模型总览图所示,我们的网络使用3个分支来计算基于human外观的动作得分sah,基于物体外观的动作得分sao和他们的空间关系sasp
人/物分支:对于人和物的分支我们提取实例级别的外观特征xhinst,xoinst,和根据3.2中基于注意力图的上下文特征xhcontext(或xocontext)。然后把这两个特征向量拼接并送入两层FC层中得到动作得分sah和sao
交互分支:为了编码人和物体之间的空间关系,我们采用双通道二值图像表示来表征交互模式。具体来说,我们将这两个box的并集作为参考box,构造一个包含两个通道的二值图像。第一个通道在人的边界框内的值为1,在其他地方值为0;第二个通道在对象边界框内的值为1,在其他地方的值为0。然后使用CNN从这个双通道二值图像中提取空间特征。但是我们发现,由于空间信息粗糙(只有两个边界框),该特征本身不能产生准确的动作预测。为了解决这个问题,我们把空间特征和human外观特征xhinst进行了拼接。因为人的外观特征在相似空间布局上可以帮助区分不同的动作。

3.4推理过程

我们使用一个级联方式来计算三元组的得分,我们首先计算来自人和对象分支的动作分类头的得分,分别对应于每个盒子bh和bo。这第一步对于n个human/object实例来说有 O(n) 的复杂度。第二步涉及计算所有可能的人-物对的分数。虽然第二步的复杂度是O(n2),但是计算分数Sah,o是非常高效的,因为它只涉及到对人分支sah和对象流sao中的一对分数求和(在第一步中已经计算和存储了)。
后期融合vs早期融合:我们将使用对匹配相加分数方法的方法称为后期融合(因为动作分数首先从人/物分支中独立预测,然后再相加)。我们还实施了一种早期融合的iCAN变体。具体地说,我们首先将human iCAN,object iCAN和交互分支中得到的所有特征进行拼接,并使用两层FC层来估计所有的human-object对中得到的分数。因此它的推理速度较慢,无法很好地适应有很多对象的场景。

4.实验结果

数据集:V-COCO,HICO-DET。
评价标准:role mAP。
实验细节:我们使用Detectron中的特征骨干网络ResNet-50-FPN来生成人和对象的bbox。使人box的分数sh高于0.8,物体box的分数so高于0.4。我们在Faster R-CNN的基础上实现了一个ResNet-50的backbone。在V-COCO训练集上训练我们的网络进行300K次迭代,学习速率为0.001,权重衰减为0.0001,动量为0.9。



总结

提出了一个以实例为中心的注意力模块iCAN,以往的方法大多都只针对于human和动作,这里将human和动作,object和动作都考虑,得到sah和sao。对于交互分支使用包含2个通道的二值图,同时将空间特征与human外观特征进行拼接解决信息缺乏的问题。

iCAN: 面向HOI检测的以实例为中心的注意力网络相关推荐

  1. Pairwise Body-Part Attention for Recognizing HOI(面向HOI识别的成对身体部位注意力机制)

    ECCV2018 Author:Hao-Shu Fang,Cewu Lu 摘要 在HOI识别中,卷积方法把人的身体看作是一个整体并对整个身体区域给一个统一的注意力机制.他们忽略了人和物体交互时其实是用 ...

  2. 计算机学报在线阅读,面向目标检测与姿态估计的联合文法模型计算机学报.pdf...

    第卷第期 计 算 机 学 报 37 10 Vol.37No.10 年月 201410 CHINESEJOURNALOFCOMPUTERS Oct.2014 面向目标检测与姿态估计的联合文法模型 陈耀东 ...

  3. OpenCV使用Laplace运算符检测边缘的实例(附完整代码)

    OpenCV使用Laplace运算符检测边缘的实例 OpenCV使用Laplace运算符检测边缘的实例 OpenCV使用Laplace运算符检测边缘的实例 #include "opencv2 ...

  4. OpenCV使用Shi-Tomasi方法检测拐角的实例(附完整代码)

    OpenCV使用Shi-Tomasi方法检测拐角的实例 OpenCV使用Shi-Tomasi方法检测拐角的实例 OpenCV使用Shi-Tomasi方法检测拐角的实例 #include "o ...

  5. YOLOV3目标检测模型训练实例

    YOLOV3目标检测 从零开始学习使用keras-yolov3进行图片的目标检测,比较详细地记录了准备以及训练过程,提供一个信号灯的目标检测模型训练实例,并提供相关代码与训练集. DEMO测试 YOL ...

  6. ip登陆异常 php,PHP实例:PHP制作登录异常ip检测功能的实例代码

    <PHP实例:PHP制作登录异常ip检测功能的实例代码>要点: 本文介绍了PHP实例:PHP制作登录异常ip检测功能的实例代码,希望对您有用.如果有疑问,可以联系我们. 使用函数查询数据库 ...

  7. 【有问不答】非白色光斑的检测(单个实例)

    [有问不答]非白色光斑的检测(单个实例) 分析图像 开整 其他 by 今天不飞了 课代表已经成功掌握了光斑中心定位方法,但是新的麻烦来了,目标光斑检测不出来--我当然也不会,只能一起看看怎么解决 分析 ...

  8. CVPR 2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法

    近日,阿里巴巴大淘宝技术多媒体算法团队与计算机视觉青年学者刘偲教授团队合作论文:<GEN-VLKT: Simplify Association and Enhance Interaction U ...

  9. DID-M3D | 用于单目3D目标检测的解耦实例深度(ECCV2022)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 后台回复[多模态综述]获取论文! 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 后台 ...

最新文章

  1. Error: “incorrect inclusion of a cudart header file”
  2. mysql alter engine_MySQL_mysql下修改engine引擎的方法,修改my.ini,在[mysqld]下加上 - phpStudy...
  3. Open*** 配置参数详解
  4. python数据分析实况_机器学习竞赛分享:通用的团队竞技类的数据分析挖掘方法...
  5. 如何规划 ElasticSearch 集群规模和容量?
  6. JavaWeb黑马旅游网-学习笔记04【BaseServlet抽取】
  7. Java Platform Module系统中的可选依赖项
  8. Libusb开发教程三 USB设备程序开发
  9. 清空运行中的jar 日志_Java日志体系权威总结
  10. Spring MVC验证器:Validator接口和ValidationUtils类
  11. Extjs中设置只读的样式问题
  12. 继承与data member之多重继承
  13. 今日头条阅读量怎么刷_自动刷今日头条阅读量 头条号自己刷阅读量
  14. Visual Studio C# Winform应用程序图标修改不了 更改图标不生效,发送桌面快捷方式与图标不一致解决办法
  15. 服务器的型号规格,云服务器规格型号
  16. win10系统编辑服务器在哪个文件夹,文件夹选项在哪里,小编教你Win10文件夹选项在哪...
  17. 制作Centos7模板机
  18. e1000网络驱动分析
  19. 多机Nomad+Consul+consul-template+Nginx反向代理
  20. 自动驾驶平台Apollo 2.5环境搭建

热门文章

  1. 018 Boxers (CF1203E)
  2. 企业搭建考试培训系统有哪些优势?
  3. Java实现Zip文件的解压和压缩_ZipUtil
  4. 最适合物联网应用的开源数据库
  5. 基于php动漫周边商城管理系统(php毕业设计)
  6. ONNX 模型的静态量化和动态量化
  7. 电脑能登QQ,但是上不了浏览器
  8. qq 邮箱不能上传超大附件
  9. 夏洛特烦恼 有个爱你的人不容易
  10. uipath出现idx属性操作 快速生成锚点(以浏览器截图为例)