VQA数据集调研报告

VQA数据集调研报告

2018年3月16日

14:22

一、VQA数据集

1.与问题相关的数据集（related to questions）

1.1.训练集（training set）

（1）基本情况介绍：

name：v2_OpenEnded_mscoco_train2014_questions.json

size：40M

version: 2.0

year: 2017

contributor: VQA Team

date by created: 2017-04-26 17:07:13

task type: Open-Ended

data type: mscoco

url: http://visualqa.org

（2）形式（eg）：

Name	Type 类型	Description 描述
image_id	int	图片ID
question_id		问题的ID
question	str	图片对应的问题

{"image_id": 458752,"question": "What is this photo taken looking through?","question_id": 458752000},{"image_id": 458752, "question": "What position isthis man playing?", "question_id": 458752001},{"image_id": 458752, "question": "What color is theplayers shirt?", "question_id": 458752002},{"image_id": 458752, "question": "Is this man aprofessional baseball player?", "question_id": 458752003}

（3）每张图片有一个编号，每张图片对应有若干个不同的问题，每个问题有一个编号，问题编号在图片编号的基础上增加三位，依次编为xxxxxx000,xxxxxx001 ...等等。

1.2.验证集（val）

（1）基本情况：除size为19.3M外其他情况同上

（2）形式：同上

1.3.测试集（test）

（1）开发测试集：除size为9.57M外其他同上

（2）测试集:除size为39.8M外其他同上

eg：{"image_id": 1, "question":"What is the fence made of?", "question_id": 1000},{"image_id": 1, "question": "What color is thetruck?", "question_id": 1001}, {"image_id": 1,"question": "What service does the car parked at the curbprovide?", "question_id": 1002}

1.4.总结：

（1）数量关系：（train：val：test-dev：test=4：2：1：4）

（2）作用：

train_set:作用是用来拟合模型

val_set:作用是当通过训练集训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率。选出效果最佳的模型所对应的参数，即用来调整模型参数。

test_set:通过训练集和验证集得出最优模型后，使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集，当已经确定模型参数后，使用测试集进行模型性能评价。对原始数据进行三个数据集的划分，也是为了防止模型过拟合。

test_dev:这部分数据用来调参，选择特征，以及对学习算法做出其他决定。有时也被称为留出交叉验证（hold-outcross validation set）

2.与注释相关的数据集（Annotations）

2.1.训练集（v2_mscoco_train2014_annotations）

（1）基本情况介绍：除size为339M外其他同1.1（1）

（2）形式（eg）：

{"question_type":"what color is the", "multiple_choice_answer": "red","answers": [{"answer": "red","answer_confidence": "yes", "answer_id": 1},{"answer": "red", "answer_confidence":"yes", "answer_id": 2}, {"answer":"red & white", "answer_confidence": "yes", "answer_id":3}, {"answer": "black", "answer_confidence":"no", "answer_id": 4}, {"answer":"red", "answer_confidence": "yes","answer_id": 5}, {"answer": "red","answer_confidence": "yes", "answer_id": 6},{"answer": "red", "answer_confidence":"yes", "answer_id": 7}, {"answer":"red", "answer_confidence": "maybe", "answer_id":8}, {"answer": "red", "answer_confidence":"yes", "answer_id": 9}, {"answer":"red and white", "answer_confidence": "yes", "answer_id":10}], "image_id": 262146, "answer_type":"other", "question_id": 262146002}

2.2.验证集（v2_mscoco_val2014_annotations）

（1）基本情况介绍：除size为163M外同1.1（1）

（2）形式（eg）：同上，每张图片对应一个问题，每个问题对应十个答案，每张图片对应的每个问题及答案用"{ }"括起来，每个问题对应的十个答案用"[]"括起来

3.与图片特征相关的数据集（image feature）

（1）MS-COCO：2014年发布，包含来自Flickr的300K张真实世界的照片，每张照片有五个独立的句子描述照片的场景

（2）VQA：VQA数据集是在MS-COCO数据集的基础上添加了614K问题答案对，VQA1.0发布于2015年，由于这个数据集很新，所以还存在一些问题：你可以用简单的通过死记硬背来回答对很多问题，获得 ok 的效果。比如说 yes/no 问题，如果永远回答 yes，你就能答对大部分。所以这个数据集的答案有一定先验，不是很平衡。

（3）在VQA1.0的基础上，采集了新的数据，发布了 VQA-2.0 的版本，这个版本比之前的版本又大了一倍。一共有 650000 的问题答案对，涉及 120000 幅不同的图片。这个新的数据库主要解决了答案不平衡的问题。对于同一个问题，他们保证，有两张不同的图片，使得他们对这个问题的答案是不同的。这使得VQA系统为了生成正确的答案不得不更多的利用图片特征，从而使视觉特征在VQA中扮演了更重要的角色。

在新的 VQA-2.0 中，对于 yes/no 问题，yes 和 no 的回答是各一半。

关于VQA-2.0数据集的视频介绍：VQA-2.0

二、Visual genome数据集

Visual genome 第一个版本的数据集发布于2015年12月10日最初发布的数据集有七个子文件构成，分别是存储图片的images（分两部分存储part1 9.2G、part2 5.47G），存储图片元数据的image meta data（16.92M）详情如下（VQA任务中只利用了objects 和attributes）：

· imagespart 1 (9.2 GB), part 2 (5.47 GB)（全部以JPG格式的图片存储，存储形式：IMAGE_ID.jpg）

· image meta data (16.92 MB)

· region descriptions (988.18 MB)

· question answers (201.09 MB)

· objects (99.14 MB)

· attributes (174.97 MB)

· relationships (406.70 MB)

1.图片元数据

Name	Type 类型	Description 描述
image_id	int	图片ID
url		图片URL
width	int	图片宽 pixels
height	int	图片高
coco_id	int	在 COCO 数据集中的图片ID
flickr_id	int	在 flickr 数据集中的图片ID

如：

[...

{

"image_id": 2412112,

"url": "https://cs.stanford.edu/people/rak248/VG_100K/2370463.jpg",

"width": 500,

"height": 281,

"coco_id": 547168,

"flickr_id":8505158818

}

...]

2.Objects

Name	Type 类型	Description 描述
image_id	int	图片ID
objects		该图片的 object 实例
—-.object_id	int	object ID
—-.x	int	object bounding box 的 x 坐标值
—-.y	int	object bounding box 的 y 坐标值
—-.w	int	object bounding box 的宽
—-.h	int	object bounding box 的高
—-.name	str	object 名字
—-.synsets		该 object 相关的同义词名字

[...

{

"image_id": 2,

"objects": [...

{

"object_id": 1023847,

"x": 405,

"y": 34,

"w": 78,

"h": 438,

"name":"pole",

"synsets":["pole.n.01"]

{

"object_id": 1023836,

"x": 239,

"y": 347,

"w": 136,

"h": 126,

"name":"car",

"synsets":["car.n.01"]

...]

3.Attributes

Name	Type 类型	Description 描述
image_id	int	图片ID
attributes		该图片的 object 实例的 attributes 数组
—-.object_id	int	object ID
—-.x	int	object bounding box 的 x 坐标值
—-.y	int	object bounding box 的 y 坐标值
—-.w	int	object bounding box 的宽
—-.h	int	object bounding box 的高
—-.name	str	object 名字
—-.synsets		该 object 相关的同义词名字

如：

[...

{

"image_id": 2,

"attributes": [...

{

"object_id": 1023847,

"x": 405,

"y": 34,

"w": 78,

"h": 438,

"name":"pole",

"synsets":["pole.n.01"],

"attributes":["brown"]

{

"object_id": 1023836,

"x": 239,

"y": 347,

"w": 136,

"h": 126,

"name":"car",

"synsets":["car.n.01"],

"attributes":["red", "broken"]

...]

三、数据集构建过程（大约33,000位不同的workers参与到了数据集的标注中。这个数据集经过6个月的收集，和长达15个月的迭代测试。）： 找来亚马逊的众包标注服务，构建了一整套流水线。标注过程分为多个阶段，每一个阶段都是又众包worker完成的。首先，给定一张图片，worker需要手工撰写“region description”，并且用bounding box框出这个region。得到region description之后，worker开始从这些文本中抽object（通常是名词），同时再用bounding box严格地框住这些object。有了object之后，再根据region description、图片本身等数据，人工抽取这些object的attribute和region内部多个object之间的relationship。将这些东西combine在一起就得到了一个region graph，有了region graph和其他各种数据之后，找到各个region graph中公共的object（可以通过包围框的overlap来判断该标注的object是否对应了同一个object）。用这些公共的object作为纽带，将这些region graph连接在一起，就形成了scene graph。给图片标QA pairs。QA Pairs 有两种。第一种是freeform QA pairs。把图片给worker，让worker针对这个图片提出至少8个问题（必须是以who, what, where, when, why and how开头的问题）。同时这个8个问题中必须包含这六类中的三类。第二种是region-based QA pairs。把region给worker，让worker针对这个region提出一个问题。然后将以上整理校验就得到了Visual Genome

四、备注：Wordnet

Wordnet本身除了是一个词典外，它包含了每个词的语义信息，它会将相同词义的词语分为一个组称为Synset（同义词集合）Wordnet提供了每个词条的语义信息并记录了他们的之间的语义关系。这个词典的每个词组不是独立的是相互有关系的。

数据集中的每张图片平均包括了35个objects，并且都用一个紧密的box指出其位置。除此之外，每一个object都被映射到了WordNet中的synset ID。比如说， man 被映射到了 man.n.03 (the generic use of the word to refer to any human being) 。而 person 被映射到了 person.n.01 (a humanbeing) 。而这两个概念虽然都可以映射到 person.n.01 上（因为它是 man.n.03 的上位词包含的概念更广），也就是说，图片中对object的标注可能出现“一物多名”的情况（例如 man, person, human等）。

VQA数据集调研报告相关推荐

大数据使用及现状调研报告
大数据使用及现状调研报告大数据,指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. ...
边缘AI研发落地生态挑战调研报告发布
摘要:随着边缘设备的广泛使用和性能提升,将机器学习相关的部分任务迁移到边缘,也即边缘AI技术,已成为必然趋势.但仅凭技术是不足够完成落地和产业转化的.近日我们启动了边缘AI研发落地生态挑战调研.我们发 ...
深度网络学习调研报告
深度网络学习调研报告目录 1.前言...............................................3 1.1课题研究的背景及意义................. ...
[万字长文]　人脸识别初步调研报告
人脸识别初步调研报告 Contents 背景应用背景硬件背景技术背景相关公司及 app 著名公司非著名公司相关app 人脸识别业务总结人脸识别攻防产品使用对比应用及开源实现公开数据 ...
2019年人工智能产业发展调研报告
2019年人工智能产业发展调研报告人工智能(AI)起源于上世纪50年代,在此后的半个多世纪中,历经了"逻辑推理"."知识工程"的两起两落.目前,随着智能算力与 ...
CVer最想知道的，简单分析下《2020年度中国计算机视觉人才调研报告》
文章首发于CVer最想知道的,简单分析下<2020年度中国计算机视觉人才调研报告> 最近闲来无事,老潘以一名普通算法工程师的角度,结合自身以及周围人的情况,理性也感性地分析一下极市平台前些 ...
关于学术文献推荐系统的调研报告
关于学术文献推荐系统的调研报告 1 引言 1.1 研究背景随着大数据时代的到来,互联网在给人们的生活带来丰富多彩的同时,海量信息也导致了"信息过载"问题.对于信息使用者来说,如何 ...
视频理解领域小样本学习调研报告
视频理解领域小样本学习调研报告文章目录视频理解领域小样本学习调研报告 0 前言 1. 分类 Action Genome(li Feifei2019)提出的分类: ProtoGAN提出的分类 2. ...
多领域多轮问答调研报告3
多领域多轮问答调研报告3 目录多领域多轮问答调研报告3 一.相关背景 1.1. 单领域 1.2. 多领域 1.2.1 综述 1.2.2 多领域DST方法与挑战 1.3. 数据集 1.3.1. 技术综 ...

VQA数据集调研报告

VQA数据集调研报告相关推荐

最新文章

热门文章