这篇文章的重点有三个,都在框架里有体现:HET、Hybrid-LSTM和Relation Ranking Module

1.HET(Hierarchical Entity Tree)
论文作者认为人在进行场景分析的时候是层级性的,因此提出了HET的概念,具体实现如下:
①按从大到小的顺序对检测到的实体排序1,2,…m,…n…
②对于n来说,首先判断它是否可能为父节点,即求m和n的交并比,如果大于阈值T,则m为n的备选父节点。如果n没有备选父节点,则n的父节点为整幅图像;如果n有多个备选父节点,那么可以遵循以下规则选出唯一的父节点:
i)Area First Strategy(AFS):面积优先
ii)Intersection First Strategy(IFS):交并比优先

2.Hybrid-LSTM
有两个,一个用于编码实体上下文,一个用于编码关系上下文
先编码实体上下文:
Hybrid-LSTM由BiTreeLSTM和BiLSTM构成,TreeLSTM编码层级间信息(蓝箭头),LSTM编码层级内信息(红箭头)

输入为物体的视觉特征和语义特征

再编码关系上下文:
关系上下文也是使用了Hybrid-LSTM,只是输入换成了实体上下文

编码之后再对上下文进行解码:
实体上下文:

使用了TreeLSTM,只有从上到下的方向。输入特征是实体上下文和父节点的物体类别,由hidden state计算实体的类别和位置回归参数

关系上下文:

两个物体的关系上下文cat在一起,再经过两层fc得到关谓语分数

3.Relation Ranking Module(RRM)
对三元组进行重排序

首先由原始的feature map,F,得到Fs

AAP:Adaptive Average Pooling
S:逐像素显著性图,参考论文Deeply supervised salient
object detection with short connections
A:逐像素面积图

图片里的v是视觉特征,g是位置特征

视觉特征和位置特征组成关系特征r,进入BiLSTM计算全局三元组上下文,再经过两层fc得到排序分数
最终三元组的分数:

----------------------------一些碎碎念-------------------------
最近懒得不行。
啥啥都不想干 小说都找不到特别合心意的了。
冬奥会也结束了。
爷的快乐没有了。

论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)相关推荐

  1. 论文阅读笔记-场景图谱-图谱生成:Scene Graph Generation from Objects, Phrases and Region Captions

    文章目录 摘要 引言 正文部分 Conclusionn Li Y, Ouyang W, Zhou B等. Scene Graph Generation from Objects, Phrases an ...

  2. Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读

    摘要 场景图反应了人对图像内容的感知,"当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构.它把场景定义成 一系列图像区域组成的仿人层次示意图(Hierarchica ...

  3. 论文阅读06——《CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering》

    欢迎到我的个人博客看原文 论文阅读06--<CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network f ...

  4. 论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》

    是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...

  5. 论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation

    HMER论文系列 1.论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2.论文 ...

  6. 论文阅读:Target Adaptive Context Aggregation for Video Scene Graph Generation

    Target Adaptive Context Aggregation for Video Scene Graph Generation 视频场景图中的目标自适应上下文聚合 论文地址:https:// ...

  7. 场景图生成论文阅读笔记 之 Graph R-CNN for Scene Graph Generation

    2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录 文章目 ...

  8. Learning Visual Commonsense for Robust Scene Graph Generation论文笔记

    原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录 总体结构: 感知模型GLAT: 融合感知 ...

  9. 论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation

    最近由于要做SGG方向,恰巧之前保存过这篇论文 2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf 代码地址: GitHub ...

最新文章

  1. Android开发_如何调用系统默认浏览器访问
  2. 7、MySQL设置日志输出方式
  3. lnmp mysql 路径_LNMP笔记:更改网站文件和MySQL数据库的存放目录
  4. 红帽启动apache服务器_redhat 启动ssh服务器
  5. oracle查询哪个sql占用资源,查询oracle最耗资源的sql语句
  6. mysql数据没有同步更新_解决MySQL的主从数据库没有同步的两种方法
  7. FreeRTOS中断配置与临界段
  8. macos 判断走无线网还是有线网_“第一次约会,就想发生关系”:怎样判断男人对你走心还是走肾?...
  9. TI CC3200 launchpad 使用 CCS 下载
  10. 使用JMeter进行压力测试
  11. python numpy 矩阵运算_NumPy向量和矩阵的运算
  12. C# MES系统结构梳理
  13. 出生在商丘农村的80后的幸福童年
  14. iview中Cascader组件的坑
  15. 程序员面试金典--疯狂刷
  16. 每日10行代码34:wordcloud生成词云时过滤掉某些词
  17. 有两个瓶子,一个瓶子是5升_隐藏的功能,装在瓶子中的消息和痴呆的面包师。...
  18. 2020.11.9--AE--文字的文本属性、文字动画效果、内置动画预设
  19. Python_爬虫_中文乱码
  20. python大牛_成为Python大牛必须要掌握的高端语法——yield

热门文章

  1. 4Gu盘格式化之后124M
  2. python和ansible自动化网络安全工作流程
  3. np.multiply()、np.dot()和(*)简要介绍
  4. 移动直播选择 RTMP 还是RTC协议
  5. linux正则匹配8位数字日期,正则表达式之匹配数字范围,正则表达式匹配数字
  6. VR全景拍摄技巧有哪些?VR全景怎么拍摄?
  7. 基于AlexNet卷积神经网络的手写体数字识别系统研究-附Matlab代码
  8. Swift截取字符串
  9. 写给谷歌的纪念-一个终于放弃坚守谷歌的中国用户的心声
  10. adobe所有Android软件,Adobe Scan安卓app