Image Caption 2021最新整理:数据集 / 文献 / 代码
文章目录
- 引言
- 数据集概览
- 标注方式
- Microsoft COCO Captions
- SBU Captions
- Conceptual Captions (CC) dataset
- TextCaps
- VizWiz-Captions
- Localized Narratives
- Nocaps
- 小结
引言
最近在调研image caption相关文献,这里主要整理下当前主要的数据集,借此了解下这个任务的技术现状。
image caption是指用自然语言描述图像中的视觉内容的任务,通常采用一个视觉理解系统和一个能够生成有意义的、语法正确的句子的语言模型(describing images with syntactically and semantically meaningful sentences.)。常被称为看图说话、图像描述、图像字幕等。
Image caption任务的目标是找到最有效的pipeline来处理输入图像,表示其内容,并通过在保持语言流畅性的同时生成视觉和文本元素之间的连接,将其转换为一组单词序列1。
数据集概览
早期的image caption主要采用Flickr30K和Flickr8K数据集,这个数据集图片来源于Flickr网站。
目前比较常用的数据集是COCO Captions、Conceptual Captions (CC),包含人、动物和普通日常物品之间的复杂场景的图像。
COCO Captions、Conceptual Captions (CC)、VizWiz、TextCaps、Fashion Captioning、CUB-200等数据集的标注样例如下图(a)所示,数据集中语料库的高频词云如下图(b)所示1,可以反映数据集中主要目标类别的分布。
标注方式
COCO Captions、Conceptual Captions (CC)数据集中对图像描述的标注,是基于整幅图像的。Flickr30K Entities标注了Flickr30K中caption里提到的名词,并标注了对应的bbox。Visual Genome数据集提供了描述图像中区域的短语,并使用这些区域来生成一个场景图(scene graph)。Localized Narratives为每个单词都提供了基于其跟踪片段所表示的图像中的一个特定区域,包括名词、动词、形容词、介词等。2
Microsoft COCO Captions
Microsoft COCO Captions: Data Collection and Evaluation Server
[website]
[paper]
[github] 提供评估方法
COCO Captions更关注“描述场景的所有重要部分”,而不描述不重要的细节,这使得COCO Captions对于关注的对象更突出。
- 164,062张图像,包括:
- 82,783个训练图像
- 40,504个验证图像
- 40,775个测试图像
- 995,684个captions,平均每张图片6个captions
- 标注内容:
- 描述这个场景的所有重要部分;
- 不描述不重要的细节。
- 不要描述在未来或过去可能发生的事情。
- 不描述一个人可能会说什么。
- 不提供专有的人名。
- 这些句子应该至少包含8个单词。
SBU Captions
NIPS 2011 | Im2Text: Describing Images Using 1 Million Captioned Photographs
[website]
[paper]
SBU Captions数据集最初将图像字幕作为一个检索任务,包含 100 万个图片网址 + 标题对。
Conceptual Captions (CC) dataset
ACL 2018 | Google Research
[website]
[paper]
[github]
Conceptual Captions (CC) dataset是一个包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M
)和1200万张图像(CC12M
)两个版本,并通过一个简单的过滤程序从网络自动收集弱相关描述。
与 MS-COCO 图像相比,Conceptual Captions数据集的图像及其原始描述来自网络,因此代表了更广泛的风格。
但是Conceptual Captions 的图像并不总是可用的,因为数据集提供的是图片URL。
Split | Examples | Uniqe Tokens |
---|---|---|
Train | 3,318,333 | 51,201 |
Valid | 15,840 | 10,900 |
Test (Hidden) | 12,559 | 9,645 |
TextCaps
ECCV 2020 | Facebook AI Research
[website]
[paper]
这个数据集的特点在于使用包含文字内容的图片。
TextCaps 要求模型阅读和推理图像中的文本以生成有关它们的说明。具体来说,模型需要根据图像中存在的文本形式对其进行推理,并结合图像中的视觉内容以生成图像描述。
- 28,408 张图片,来自 Open Images 数据集
- 142,040 条captions
- 平均每张图片 5 个captions
VizWiz-Captions
ECCV 2020 | Captioning Images Taken by People Who Are Blind.
[paper]
[website]
这个数据集中的图像是由视力受损的人使用手机拍摄的,图像质量不高,涉及各种各样的日常活动,其中大多数需要阅读一些文本。数据集旨在让更多人了解盲人的需求,并开发辅助技术,解决盲人日常生活中的视觉挑战,回答盲人的视觉问题。
数据集引入了视力受损的人采集的39,181张真实图像用例,每张图像都配有5个captions。
VizWiz-Captions 数据集包括:
- 训练集:23,431 张图像,117,155 个captions
- 验证集:7,750 张图像,38,750 个captions
- 测试集:8,000 张图像,40,000 个captions
Localized Narratives
ECCV 2020 | Connecting Vision and Language with Localized Narratives
[website]
[paper]
[code]
Localized Narratives提供了一种连接视觉和语言的多模态图像注释的新形式。这个数据集是通过记录人们自由地叙述他们在图片中看到的内容而收集起来的。
注释者被要求用他们的声音描述图像,同时将鼠标悬停在他们描述的区域上。由于语音和鼠标指针是同步的,我们可以定位描述中的每个单词。这种密集的视觉基础采用每个单词的鼠标轨迹段的形式。
Localized Narratives为每个单词都提供了基于其跟踪片段所表示的图像中的一个特定区域,包括名词、动词、形容词、介词等。
Localized Narratives 注释了 849,000张图像:包括整个 COCO、Flickr30k 和 ADE20K 数据集,以及 671,000 的Open Images图像。
Localized Narratives支持的任务不局限于image caption,还可以支撑其他多模态任务:
Nocaps
ICCV 2019 | nocaps: novel object captioning at scale
[website]
[paper]
[github]
nocaps旨在评估在没有对应的训练数据的情况下,模型能否准确描述测试图像中新出现类别的物体。
为了让模型能够学习更多种类的视觉概念,最好是从较少的监督中学习。所以,nocaps利用一些替代数据源(如目标检测),使模型能够描述在训练集的标题语料中不存在的对象。这些具有目标检测标注、但没有标题语料的对象,就被称为新对象(novel object
),描述那些包含新对象的图像就被称为novel object captioning
。
对于人类来说,在学习了一个新物体的类别后,我们可以立即描述它的属性和关系,但是当前的算法模型无法描述未在语料库中出现过的目标。nocaps的主要目标是将“如何识别物体”与“如何谈论物体”分离出来。利用COCO的图像标题数据来学习生成语法上正确的标题,同时利用大量的开放图像检测数据集来学习更多的视觉概念。
- 训练集由 COCO 图像-标题对(118,000张图像,80个目标类别)、Open Images V4 目标检测训练集(1,700,000张带有bbox的图像,600个目标类别)组成。
- 验证集包含4,500张图像,平均每张图片10个captions,源自 Open Images V4验证集
- 测试集包含10,600张图像,平均每张图片10个captions ,源自 Open Images V4测试集
- 由于 Open Images 包含的类比 COCO 多得多,因此在测试图像中看到的近 400 个目标类没有对应的训练caption(所以这个数据集取名为nocaps)。
- 为了提供更细粒度的分析,nocaps的评估分为域内、近域和域外三个子集,域描述了对象与COCO中类别的相似性。
小结
当前caption任务的数据集正在向多种领域进行扩展,更多的开放式图像、目标类别,较少的监督信息,对image caption任务提出了更高要求。
在具体实际应用中,既需要特定领域的语料库,也需要模型具备更好的可解释性。
From Show to Tell: A Survey on Image Captioning ↩︎ ↩︎
https://arxiv.org/abs/1912.03098v2 ↩︎
Image Caption 2021最新整理:数据集 / 文献 / 代码相关推荐
- 样本不均衡、长尾分布问题的方法整理(文献+代码)
文章目录 分类任务中的不平衡问题 解决思路 1.重采样类 2.平衡损失类 3.集成方法类 4.异常检测.One-class分类等 长尾分布问题的其他视角 小结 分类任务中的不平衡问题 分类任务中的样本 ...
- 2021最新整理JAVA常见面试题附答案
包含的模块: 本文分为十九个模块,分别是:Java 基础.容器.多线程.反射.对象拷贝.Java Web .异常.网络.设计模式.Spring/Spring MVC.Spring Boot/Sprin ...
- 2021最新整理Java多种实战书籍,微服务+分布式+高并发
"2020"鼠"实不易,2021"牛"转乾坤" 小编为大家准备了福利,这一次,让礼物来得更猛烈一些~ MySQL+spring全家桶+Roc ...
- 2011最新整理分享平台代码参考
平台 代码 URL 115收藏夹 115 http://fav.115.com 139社区 139 http://www.139.com 139邮箱 139mail http://mail.10086 ...
- JAVA面试题2021最新整理——JAVA基础篇
点赞.收藏不迷路,转载请注明出处,感谢各位! 目录 8种基本数据类型 自动拆装箱 String static关键字 final关键字 continue.break.return区别 面向对象的三大特征 ...
- 【2021最新】大佬花了半个月整理出来的Java后端学习路线,果断收藏了!
要成为一个符合 BAT.TMD 大厂要求的后端技术工程师,到底需要学哪些技术?后端技术学习路线是怎样的? 学习路线 话不多说,直接上刚画完的后端技术学习路线思维导图框架: 图中的每一个节点都可以点 ...
- 2021最新Android开发者学习路线,已整理成文档
前情 首先介绍一下自己的情况吧,由于当年高中年少轻狂,不努力,差二本线16分.我自己也没有意识到学历的区别,最终听了家里的安排上了一个专科,电气专业. 现在想想都很后悔,当年为什么没有自己的主见,如果 ...
- 输出教师信息c语言作业,C语言教师管理系统代码(最新整理)
<C语言教师管理系统代码(最新整理)>由会员分享,可在线阅读,更多相关<C语言教师管理系统代码(最新整理)(7页珍藏版)>请在人人文库网上搜索. 1.include #incl ...
- 2021最新Java面经系列整理,持续更新
2021最新Java面经系列整理,持续更新... 欢迎大家关注收藏,一起加油O(∩_∩)O哈~ 2021最新Java面经系列 系列 内容 地址 框架篇 2021最新Java面经整理 | 框架篇(一)S ...
最新文章
- selection does not contain a main type错误
- XenStore: 使用,结构和原理
- java用途与python_python与java用途区别有哪些
- 刷题笔记(2) 将数组中的数字组合成一个最小的数
- 轻松四步配置Oracle数据库监听
- PaaS安全:降低企业风险的四条规则
- java 包含字符串 个数_java查找字符串中的包含子字符串的个数实现代码
- adlink.php id=,利用BIOS-ID获得主板的信息
- UG NX 12 基准轴
- CAD怎么导出为图片?一分钟解决
- setoolkit进行钓鱼攻击
- 合服 两个服务器都有什么作用,阴阳师合服是什么意思?合服合区问题汇总详解[多图]...
- 考研线性代数手写笔记2 矩阵
- python体验课是上纯代码_大陈教初中生学Python,入门体验第二课教学设计,溯本追源...
- WIN10鼠标指针在等待状态下出现重影、假影、虚影,、显示错误的问题。
- 计算机屏幕ps4,ps4自带显示器吗
- 计算机语言,C语言!
- WARNING: The scripts f2py, f2py3 and f2py3.9 are installed in ‘/home/ubuntu/.local/bin‘ which is no
- 循环单链表解决约瑟夫问题
- 谈谈Processing 3D世界 五