论文阅读：Sketching Image Gist：Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)

这篇文章的重点有三个，都在框架里有体现：HET、Hybrid-LSTM和Relation Ranking Module

1.HET(Hierarchical Entity Tree)
论文作者认为人在进行场景分析的时候是层级性的，因此提出了HET的概念，具体实现如下：
①按从大到小的顺序对检测到的实体排序1,2,…m,…n…
②对于n来说，首先判断它是否可能为父节点，即求m和n的交并比，如果大于阈值T，则m为n的备选父节点。如果n没有备选父节点，则n的父节点为整幅图像；如果n有多个备选父节点，那么可以遵循以下规则选出唯一的父节点：
i)Area First Strategy(AFS)：面积优先
ii)Intersection First Strategy(IFS)：交并比优先

2.Hybrid-LSTM
有两个，一个用于编码实体上下文，一个用于编码关系上下文
先编码实体上下文：
Hybrid-LSTM由BiTreeLSTM和BiLSTM构成，TreeLSTM编码层级间信息(蓝箭头)，LSTM编码层级内信息(红箭头)

输入为物体的视觉特征和语义特征

再编码关系上下文：
关系上下文也是使用了Hybrid-LSTM，只是输入换成了实体上下文

编码之后再对上下文进行解码：
实体上下文：

使用了TreeLSTM，只有从上到下的方向。输入特征是实体上下文和父节点的物体类别，由hidden state计算实体的类别和位置回归参数

关系上下文：

两个物体的关系上下文cat在一起，再经过两层fc得到关谓语分数

3.Relation Ranking Module(RRM)
对三元组进行重排序

首先由原始的feature map，F，得到Fs

AAP：Adaptive Average Pooling
S：逐像素显著性图，参考论文Deeply supervised salient
object detection with short connections
A：逐像素面积图

图片里的v是视觉特征，g是位置特征

视觉特征和位置特征组成关系特征r，进入BiLSTM计算全局三元组上下文，再经过两层fc得到排序分数
最终三元组的分数：

----------------------------一些碎碎念-------------------------
最近懒得不行。
啥啥都不想干小说都找不到特别合心意的了。
冬奥会也结束了。
爷的快乐没有了。

论文阅读：Sketching Image Gist：Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)相关推荐

论文阅读笔记-场景图谱-图谱生成：Scene Graph Generation from Objects, Phrases and Region Captions
文章目录摘要引言正文部分 Conclusionn Li Y, Ouyang W, Zhou B等. Scene Graph Generation from Objects, Phrases an ...
Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读
摘要场景图反应了人对图像内容的感知,"当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构.它把场景定义成一系列图像区域组成的仿人层次示意图(Hierarchica ...
论文阅读06——《CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering》
欢迎到我的个人博客看原文论文阅读06--<CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network f ...
论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》
是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...
论文阅读和分析：A Tree-Structured Decoder for Image-to-Markup Generation
HMER论文系列 1.论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2.论文 ...
论文阅读：Target Adaptive Context Aggregation for Video Scene Graph Generation
Target Adaptive Context Aggregation for Video Scene Graph Generation 视频场景图中的目标自适应上下文聚合论文地址:https:// ...
场景图生成论文阅读笔记之 Graph R-CNN for Scene Graph Generation
2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录文章目 ...
Learning Visual Commonsense for Robust Scene Graph Generation论文笔记
原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录总体结构: 感知模型GLAT: 融合感知 ...
论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation
最近由于要做SGG方向,恰巧之前保存过这篇论文 2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf 代码地址: GitHub ...

论文阅读：Sketching Image Gist：Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)

论文阅读：Sketching Image Gist：Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)相关推荐

最新文章

热门文章