Image Retrieval（图像检索）

基本模型结构：

数据集：Flickr, COCO

Grounding Referring Expression（在图像中找到自然语言对应描述的物体）

基本模型结构：

数据集: RefCOCO, Visual7W

Image Captioning（图像描述）

基本模型结构：

数据集: COCO

Visual Question Answering（VQA，视觉问答）

基本模型结构：

两通道 VQA 模型：

数据集: VQA v1, VQA v2, Visual Genome, GQA

Visual Dialog（VD，视觉对话）

基本模型结构：

数据集: Visual Dialog, GuessWhat?!

demo

ViLBERT: https://vilbert.cloudcv.org/

本文参考于 ACL 2022 tutorial：Vision-Language Pretraining: Current Trends and the Future

VL (Vision and Language) 任务简介及数据集相关推荐

读论文：Fine-grained Image Classification via Combining Vision and Language
读论文:Fine-grained Image Classification via Combining Vision and Language 文章目录一.概述二.本文贡献三.网络结构 1.目标 ...
笔记：文澜：桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training
笔记:WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training 笔记:文澜:桥接视觉和语言的大规模的多模 ...
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
ALBEF:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 论文链接 ...
CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记
目录简介动机贡献方法实验简介本文是在NIPS 2019 ViLBERT上的拓展. 论文链接动机本文修改了ViLBERT的预训练过程,有两个小修改:1. 对regions进行mask时 ...
土地覆盖/土地利用简介及数据集
1 简介土地覆盖:地球表面当前所具有的自然和人为影响所形成的覆盖物,是地球表面的自然状态,如森林.草场.农田.土壤.冰川.湖泊.沼泽湿地及道路等. 土地利用:是人类在生产活动中为达到一定的经济效益. ...
【知识星球】颜值，自拍，美学三大任务简介和数据集下载
欢迎大家来到<知识星球>专栏,今天给大家介绍三个任务,提供三个美学相关的数据集的下载,其中两个和人像有关,一个和通用的美学任务有关,下载可以进入知识星球自取,相关的项目,我们以后会在知识星 ...
机器学习实战10-Artificial Neural Networks人工神经网络简介(mnist数据集)
目录一.感知器 1.1.单层感知器 1.2.多层感知器MLP与反向传播二.用 TensorFlow 高级 API 训练 MLP DNNClassifier(深度神经网络分类器) 2.1.初始化: ...
颜值，自拍，美学三大任务简介和数据集下载
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 作者&编辑 | 言有三 01 美学评分美学质量的评估是 AI 与摄影学交叉的学科,也是目前比 ...
ViLD（Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation）
基于视觉语言(图像文本)知识蒸馏的目标检测 CLIP模型当成teacher模型,去蒸馏自己的模型,从而达到zero-shot. 模型具有检测新类别的能力. baseline方法是一个Mask R-CN ...

VL (Vision and Language) 任务简介及数据集

VL任务及数据集

Image Retrieval（图像检索）

Grounding Referring Expression（在图像中找到自然语言对应描述的物体）

Image Captioning（图像描述）

Visual Question Answering（VQA，视觉问答）

Visual Dialog（VD，视觉对话）

demo

VL (Vision and Language) 任务简介及数据集相关推荐

最新文章

热门文章