1. 摘要

理解图像中丰富的语义并按语言顺序排序，对于为图像标题编写一个有视觉基础的、语言上连贯的描述至关重要。现代技术通常利用预先训练好的物体检测器/分类器来挖掘图像中的语义，而对语义的内在语言排序却没有充分开发。在本文中，作者基于Transformer提出了一种新方法COS-Net，将语义理解和排序过程统一到新的框架内。首先利用一个跨模态的检索模型搜索每个图像相关的句子，并将搜索到的句子中的所用单词作为主要语义线索。接下来，我们设计了一个新的语义编译器来过滤掉主要语义线索中的不相关的语义词，同时推断出图像中缺少的相关语义词的视觉基础。然后，我们将所有筛选和丰富的语义词输入到一个语义排名器中，该排名器学习像人类一样按照语言顺序分配所有语义词。这种有序的语义词序列与图像的视觉标记进一步整合，从而触发句子生成。这种有序的语义词序列与图像的视觉标记进一步整合，从而触发句子生成。

2. 概述

文章主要出发点是将语义理解和词汇排列统一到一个框架内，使其能够被共同优化，以更好地对句子进行解码，其主要过程如下：

首先将现成的CLIP作为跨模式检索模型，为输入图像检索语义相似的句子，如上图b的情况所示。
其次，基于CLIP中图像编码器输出网格特征，利用视觉编码器通过自注意机制将每个网格特征上下文编码为视觉标记。

论文精读2：（COS-Net）Comprehending and Ordering Semantics for Image Captioning相关推荐

【推荐系统论文精读系列】(一)--Amazon.com Recommendations
文章目录一.摘要二.推荐算法三.传统协同过滤四.聚类模型五.基于搜索方式六.基于物品的协同过滤七.怎样工作? 八.可扩展性九.总结 References 论文名称:Amazon.com ...
【论文精读】Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
[论文精读]Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting 针对未来的一个多步 ...
【论文精读CVPR_2022】High-resolution Face Swapping via Latent Semantics Disentanglement
[论文精读CVPR_2022]High-resolution Face Swapping via Latent Semantics Disentanglement 0.前言 Abstract 1. I ...
跟李沐学AI-AlexNet论文逐段精读【论文精读】
视频链接:AlexNet论文逐段精读[论文精读]_哔哩哔哩_bilibili AlexNet 1.introduction 第一段一篇论文的第一段通常是讲个故事做什么研究哪个方向这个方向有什么 ...
李沐论文精读系列一： ResNet、Transformer、GAN、BERT
文章目录一. ResNet 1.0 摘要,论文导读 1.1 导论 1.1.1 为什么提出残差结构? 1.1.2 实验验证 1.2 相关工作 1.3 实验部分 1.3.1 不同配置的ResNet结构 ...
论文精读《OFT: Orthographic Feature Transform for Monocular 3D Object Detection》
OFT: Orthographic Feature Transform for Monocular 3D Object Detection 文章目录 OFT: Orthographic Feature ...
论文精读——CenterNet :Objects as Points
论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...
论文精读 | slam中姿态估计的图优化方法比较
一. 摘要对于位置环境中的自主导航问题,同步定位与建图(Simultaneous localization and mapping, SLAM)是一个非常重要的工具框架.根据SLAM字面含义可以得知 ...
李沐论文精读系列四：CLIP和改进工作串讲（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）
文章目录一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...

论文精读2：（COS-Net）Comprehending and Ordering Semantics for Image Captioning

1. 摘要

2. 概述

论文精读2：（COS-Net）Comprehending and Ordering Semantics for Image Captioning相关推荐

最新文章

热门文章