论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)
这篇文章的重点有三个,都在框架里有体现:HET、Hybrid-LSTM和Relation Ranking Module
1.HET(Hierarchical Entity Tree)
论文作者认为人在进行场景分析的时候是层级性的,因此提出了HET的概念,具体实现如下:
①按从大到小的顺序对检测到的实体排序1,2,…m,…n…
②对于n来说,首先判断它是否可能为父节点,即求m和n的交并比,如果大于阈值T,则m为n的备选父节点。如果n没有备选父节点,则n的父节点为整幅图像;如果n有多个备选父节点,那么可以遵循以下规则选出唯一的父节点:
i)Area First Strategy(AFS):面积优先
ii)Intersection First Strategy(IFS):交并比优先
2.Hybrid-LSTM
有两个,一个用于编码实体上下文,一个用于编码关系上下文
先编码实体上下文:
Hybrid-LSTM由BiTreeLSTM和BiLSTM构成,TreeLSTM编码层级间信息(蓝箭头),LSTM编码层级内信息(红箭头)
输入为物体的视觉特征和语义特征
再编码关系上下文:
关系上下文也是使用了Hybrid-LSTM,只是输入换成了实体上下文
编码之后再对上下文进行解码:
实体上下文:
使用了TreeLSTM,只有从上到下的方向。输入特征是实体上下文和父节点的物体类别,由hidden state计算实体的类别和位置回归参数
关系上下文:
两个物体的关系上下文cat在一起,再经过两层fc得到关谓语分数
3.Relation Ranking Module(RRM)
对三元组进行重排序
首先由原始的feature map,F,得到Fs
AAP:Adaptive Average Pooling
S:逐像素显著性图,参考论文Deeply supervised salient
object detection with short connections
A:逐像素面积图
图片里的v是视觉特征,g是位置特征
视觉特征和位置特征组成关系特征r,进入BiLSTM计算全局三元组上下文,再经过两层fc得到排序分数
最终三元组的分数:
----------------------------一些碎碎念-------------------------
最近懒得不行。
啥啥都不想干 小说都找不到特别合心意的了。
冬奥会也结束了。
爷的快乐没有了。
论文阅读:Sketching Image Gist:Human-Mimetic Hierarchical Scene Graph Generation(ECCV20)相关推荐
- 论文阅读笔记-场景图谱-图谱生成:Scene Graph Generation from Objects, Phrases and Region Captions
文章目录 摘要 引言 正文部分 Conclusionn Li Y, Ouyang W, Zhou B等. Scene Graph Generation from Objects, Phrases an ...
- Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读
摘要 场景图反应了人对图像内容的感知,"当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构.它把场景定义成 一系列图像区域组成的仿人层次示意图(Hierarchica ...
- 论文阅读06——《CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering》
欢迎到我的个人博客看原文 论文阅读06--<CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network f ...
- 论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》
是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...
- 论文阅读和分析:A Tree-Structured Decoder for Image-to-Markup Generation
HMER论文系列 1.论文阅读和分析:When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2.论文 ...
- 论文阅读:Target Adaptive Context Aggregation for Video Scene Graph Generation
Target Adaptive Context Aggregation for Video Scene Graph Generation 视频场景图中的目标自适应上下文聚合 论文地址:https:// ...
- 场景图生成论文阅读笔记 之 Graph R-CNN for Scene Graph Generation
2018 ECCV <Graph R-CNN for Scene Graph Generation> 比较早使用图网络进行场景图生成的论文,对后续工作具有一定的启发性,在这做一记录 文章目 ...
- Learning Visual Commonsense for Robust Scene Graph Generation论文笔记
原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf 目录 总体结构: 感知模型GLAT: 融合感知 ...
- 论文Spatial-Temporal Transformer for Dynamic Scene Graph Generation
最近由于要做SGG方向,恰巧之前保存过这篇论文 2107.12309.pdf (arxiv.org)https://arxiv.org/pdf/2107.12309.pdf 代码地址: GitHub ...
最新文章
- Android开发_如何调用系统默认浏览器访问
- 7、MySQL设置日志输出方式
- lnmp mysql 路径_LNMP笔记:更改网站文件和MySQL数据库的存放目录
- 红帽启动apache服务器_redhat 启动ssh服务器
- oracle查询哪个sql占用资源,查询oracle最耗资源的sql语句
- mysql数据没有同步更新_解决MySQL的主从数据库没有同步的两种方法
- FreeRTOS中断配置与临界段
- macos 判断走无线网还是有线网_“第一次约会,就想发生关系”:怎样判断男人对你走心还是走肾?...
- TI CC3200 launchpad 使用 CCS 下载
- 使用JMeter进行压力测试
- python numpy 矩阵运算_NumPy向量和矩阵的运算
- C# MES系统结构梳理
- 出生在商丘农村的80后的幸福童年
- iview中Cascader组件的坑
- 程序员面试金典--疯狂刷
- 每日10行代码34:wordcloud生成词云时过滤掉某些词
- 有两个瓶子,一个瓶子是5升_隐藏的功能,装在瓶子中的消息和痴呆的面包师。...
- 2020.11.9--AE--文字的文本属性、文字动画效果、内置动画预设
- Python_爬虫_中文乱码
- python大牛_成为Python大牛必须要掌握的高端语法——yield
热门文章
- 4Gu盘格式化之后124M
- python和ansible自动化网络安全工作流程
- np.multiply()、np.dot()和(*)简要介绍
- 移动直播选择 RTMP 还是RTC协议
- linux正则匹配8位数字日期,正则表达式之匹配数字范围,正则表达式匹配数字
- VR全景拍摄技巧有哪些?VR全景怎么拍摄?
- 基于AlexNet卷积神经网络的手写体数字识别系统研究-附Matlab代码
- Swift截取字符串
- 写给谷歌的纪念-一个终于放弃坚守谷歌的中国用户的心声
- adobe所有Android软件,Adobe Scan安卓app