1. 摘要

理解图像中丰富的语义并按语言顺序排序,对于为图像标题编写一个有视觉基础的、语言上连贯的描述至关重要。现代技术通常利用预先训练好的物体检测器/分类器来挖掘图像中的语义,而对语义的内在语言排序却没有充分开发。在本文中,作者基于Transformer提出了一种新方法COS-Net,将语义理解和排序过程统一到新的框架内。首先利用一个跨模态的检索模型搜索每个图像相关的句子,并将搜索到的句子中的所用单词作为主要语义线索。接下来,我们设计了一个新的语义编译器来过滤掉主要语义线索中的不相关的语义词,同时推断出图像中缺少的相关语义词的视觉基础。然后,我们将所有筛选和丰富的语义词输入到一个语义排名器中,该排名器学习像人类一样按照语言顺序分配所有语义词。这种有序的语义词序列与图像的视觉标记进一步整合,从而触发句子生成。这种有序的语义词序列与图像的视觉标记进一步整合,从而触发句子生成。

2. 概述


文章主要出发点是将语义理解和词汇排列统一到一个框架内,使其能够被共同优化,以更好地对句子进行解码,其主要过程如下:

  1. 首先将现成的CLIP作为跨模式检索模型,为输入图像检索语义相似的句子,如上图b的情况所示。
  2. 其次,基于CLIP中图像编码器输出网格特征,利用视觉编码器通过自注意机制将每个网格特征上下文编码为视觉标记。

论文精读2:(COS-Net)Comprehending and Ordering Semantics for Image Captioning相关推荐

  1. 【推荐系统论文精读系列】(一)--Amazon.com Recommendations

    文章目录 一.摘要 二.推荐算法 三.传统协同过滤 四.聚类模型 五.基于搜索方式 六.基于物品的协同过滤 七.怎样工作? 八.可扩展性 九.总结 References 论文名称:Amazon.com ...

  2. 【论文精读】Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

    [论文精读]Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting 针对未来的一个多步 ...

  3. 【论文精读CVPR_2022】High-resolution Face Swapping via Latent Semantics Disentanglement

    [论文精读CVPR_2022]High-resolution Face Swapping via Latent Semantics Disentanglement 0.前言 Abstract 1. I ...

  4. 跟李沐学AI-AlexNet论文逐段精读【论文精读】

    视频链接:AlexNet论文逐段精读[论文精读]_哔哩哔哩_bilibili AlexNet 1.introduction 第一段 一篇论文的第一段通常是讲个故事 做什么研究 哪个方向 这个方向有什么 ...

  5. 李沐论文精读系列一: ResNet、Transformer、GAN、BERT

    文章目录 一. ResNet 1.0 摘要,论文导读 1.1 导论 1.1.1 为什么提出残差结构? 1.1.2 实验验证 1.2 相关工作 1.3 实验部分 1.3.1 不同配置的ResNet结构 ...

  6. 论文精读《OFT: Orthographic Feature Transform for Monocular 3D Object Detection》

    OFT: Orthographic Feature Transform for Monocular 3D Object Detection 文章目录 OFT: Orthographic Feature ...

  7. 论文精读——CenterNet :Objects as Points

    论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...

  8. 论文精读 | slam中姿态估计的图优化方法比较

    一. 摘要 对于位置环境中的自主导航问题,同步定位与建图(Simultaneous localization and mapping, SLAM)是一个非常重要的工具框架.根据SLAM字面含义可以得知 ...

  9. 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    文章目录 一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...

最新文章

  1. android 事件冒泡,Android事件分发
  2. MySQL Sending data导致查询很慢的问题详细分析
  3. 19日零时起降低成品油价格 燃油税元旦起开征
  4. pip升级之后出现:/usr/bin/pip: No such file or directory
  5. 如何修改浏览器服务器时间格式,浏览器模式怎么改模式
  6. linux离线安装redmine_Linux 下一款非常好用的翻译软件
  7. java取网页源码_Java获取任意http网页源代码的方法
  8. 使用root安装nginx后使用非root运行方法
  9. HTTPS客户端的java实现
  10. Win 2003安装过后的一些配置技巧
  11. 【Python3之模块及包的导入】
  12. cad如何生成kml文件_如何制作KML文件?
  13. 轴系ansys命令流建模
  14. 笔记:常见的约束问题求解算法——乘子法和Frank-Wolfe算法
  15. 图片热区——map的用法
  16. 为什么没有工作经验的程序员很难找工作?
  17. Win11图标变暗怎么办?Win11图标变暗的解决方法
  18. 怎么安装aptdaemon模块_dlt-daemon安装教程
  19. JIL和移动Widget
  20. ENVI扩展工具:航拍影像坏点修复专用补丁

热门文章

  1. 店铺如何定位?网店真要代运营才行吗?
  2. javaXML方式传输图片
  3. 嵌入式底层开发的软件框架简述
  4. Objective-C学习笔记-之方括号[]
  5. 【编程马拉松】【025-数字三角形 】
  6. OpenCV输出图像到文件:imwrite()函数。在OpenCV中生成一幅png图片,并写入当前工程目录
  7. win10添加应用程序到开机启动项
  8. 计算机二级——基础知识解释(一)
  9. 51单片机(普中 清翔)-----显示数码管部分
  10. 阿里云线上部署自己的写的小项目