Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读
摘要
场景图反应了人对图像内容的感知,“当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构。它把场景定义成
一系列图像区域组成的仿人层次示意图(Hierarchical Entity Tree),具体流程就是用混合LSTM(Hybrid
LSTM),并且为了确定场景图中关键关系的优先级,设计了一个关系排序模块( relation ranking module
RRM),通过铉锡从客观实体的显著性和大小中获取人类的主观感知习惯、
介绍
因为场景图在图像描述中的巨大作用,所以他很需要有的一个特征就是评估关系在一张图中的 重要性,并且有限考虑人类想要传达的事件关系。
现在存在的问题就是:
1.在主流数据集中 三重关系分布不均衡的现象
2.就如a b这两个图像为例,明明主要事件很不同,但是场景图基本相同,所以现在的方法在挖掘图像上的特定关系方面不够,而偏重琐碎和不言而喻的关系,这些不能传达图像的要点(为什么呢)
所以为此他们提出了一个 以人为主的分层结构模型
具体思路就是:把层次结构的思想引入到SGG任务中,并尝试优先检测关键关系,再检测琐碎关系以获得完整性
相关工作
研究了凝视数据“gaze data",表明人类能凝视到图像中的95%的物体,但是在人对图像的描述中,只有48%的物体被提及。
这里有两种描述 应该一种是 这个图里有什么的描述和 这个图在讲什么的描述
并且表明,描述中提到的对象(人类认为重要并且应构成重大事件/图像要点的对象)几乎在视觉上是显著的,并揭示了人注视的位置,但人所看到的(视觉上显著的对象)不总是他们想要传达的东西
方式
HET构建
目的就是构建一个层次结构。自上而下的层次与人类固定的感知层次相一致。他们的方法是讲较大的实体尽可能的靠近HET的根部。根部是0o,其他实体都是按照大小降序。
结构化上下文编码和场景图生成
全是公式。。。
关系排序模块
现在是已经得到一个 基于HET的层次化场景图。为此设计了一个RRM来对关键关系进行排序。这个模型是基于 视觉显著性和实体大小
DSS模型预测图像的像素显著性
训练和评估
有一个VG-KR的数据集
其中有个结论就是: 显著性和大小信息都有助于发现关键关系,并且显著性的效果要略好于大小信息。
结论:
提出了一种新的场景图建模方法,生成了一个仿人层次场景图,并对关键关系进行排序,提出了一个RRM模型用来判断哪些是关键关系
动机详解
描述中提到的对象(也就是人认为重要并应构成重大事件的对象)在视觉上几乎显著的,并揭示了人注视的地方。但人所看到的(视觉上显著的对象)并不一定是他们一开始想要传达的东西
视觉上突出的物体并总是构成图像中的主要事件,也不总是人类最初想要从图像中传达的东西
例子:
还有个创新点是 构造了一个新的数据集 VG-KR
VG数据集是稠密标注,而COCO描述图片的主要内容,并且两个数据集的图片存在较大的交集。所有他们把那些被COCO提及的视觉关系作为 key
relationship,从而构建一个新的数据集用于场景图生成
构建过程:
RRM模型:
关于筛选关键关系信息:
首先要知道
关键关系是从标题中提取出来的关系,而标题中的三元组关系一般都不多,毕竟标题只需要描述主要内容,不注重细节。而判断谓词是否属于关键关系,也是选那些语义丰富的动词。比如
抛出,剪,刷这种属于特定图像的。 像 in of这种携带的信息很少,就不太构成信息了
定义认知显著性:
得出的结论就是
一个包含视觉显著性和物体大小的指标可能有主语确定关键关系(为什么呢,是因为这个指标是属于 视觉显著性加物体大小的
他越大,对应的认知显著性就越大,那么和他的关系就更可能是关键关系
更多的图片例子
RRM可以做到描述接近HET根源的实体之间的关系,这些也是人最关注的,所有从顶部关系生成的标题能更好的覆盖基本内容。
Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读相关推荐
- 论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)
这篇文章的重点有三个,都在框架里有体现:HET.Hybrid-LSTM和Relation Ranking Module 1.HET(Hierarchical Entity Tree) 论文作者认为人在 ...
- Learning Visual Commonsense for Robust Scene Graph Generation论文笔记
原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录 总体结构: 感知模型GLAT: 融合感知 ...
- 论文阅读:Target Adaptive Context Aggregation for Video Scene Graph Generation
Target Adaptive Context Aggregation for Video Scene Graph Generation 视频场景图中的目标自适应上下文聚合 论文地址:https:// ...
- 论文阅读笔记-场景图谱-图谱生成:Scene Graph Generation from Objects, Phrases and Region Captions
文章目录 摘要 引言 正文部分 Conclusionn Li Y, Ouyang W, Zhou B等. Scene Graph Generation from Objects, Phrases an ...
- [Scene Graph] Neural Motifs: Scene Graph Parsing with Global Context 论文解读
[Scene Graph] Neural Motifs: Scene Graph Parsing with Global Context (CVPR 2018) 论文解读 简介 这篇文章工作的创新之处 ...
- 论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation
最近由于要做SGG方向,恰巧之前保存过这篇论文 2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf 代码地址: GitHub ...
- 场景图生成论文阅读笔记 之 Graph R-CNN for Scene Graph Generation
2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录 文章目 ...
- 【场景图生成】Unbiased Scene Graph Generation from Biased Training
文章下载地址:https://arxiv.org/pdf/2002.11949.pdf 代码地址:GitHub - KaihuaTang/Scene-Graph-Benchmark.pytorch 发 ...
- Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation
现有的SGG方法面临的另一个突出问题是由于长尾数据分布导致的关系预测有偏差.由于只有少数头部谓词(如on,has)拥有大量的.多种多样的实例,它们在训练过程中占据主导地位,输出的场景图中含有少量信息量 ...
最新文章
- codevs1258 关路灯(☆区间dp)
- java多线程系列_Java多线程实战系列
- Java(CS)请求分流
- python requests java_java实现类似python requests的session功能
- Java如何实现跨平台?原理是怎样的?
- SQLServer2008快速清理日志文件
- 【明人不说暗话】我就只讲进程与线程
- linux7.0安装过程详解,图解红旗Linux7.0安装过程.doc
- 对等通信_新的通信技术如何影响对等参与
- perl中的文件句柄
- VXLAN配置实例(三)——VXLAN集中式双活网关
- linux环境下cmake安装及使用
- 知乎python小项目_python进阶知乎
- 高精度室内外融合定位服务平台-“羲和”系统
- TCP的AIMD(加性增窗、乘性减窗)策略
- canvas小虫子(利用canvas形成多个形状类似虫子的线条)
- 为什么老程序员的效率如此高?编程速度快,Bug数量又少
- python 画出决策边界_python 画出使用分类器得到的决策边界
- GB28181平台对接接口详解
- 粽子大战 —— 猜猜谁能赢