VL任务及数据集

  • Image Retrieval(图像检索)
  • Grounding Referring Expression(在图像中找到自然语言对应描述的物体)
  • Image Captioning(图像描述)
  • Visual Question Answering(VQA,视觉问答)
  • Visual Dialog(VD,视觉对话)
  • demo

Image Retrieval(图像检索)

基本模型结构:

数据集:Flickr, COCO

Grounding Referring Expression(在图像中找到自然语言对应描述的物体)

基本模型结构:

数据集: RefCOCO, Visual7W

Image Captioning(图像描述)

基本模型结构:

数据集: COCO


Visual Question Answering(VQA,视觉问答)

基本模型结构:

两通道 VQA 模型:

数据集: VQA v1, VQA v2, Visual Genome, GQA


Visual Dialog(VD,视觉对话)

基本模型结构:

数据集: Visual Dialog, GuessWhat?!


demo

ViLBERT: https://vilbert.cloudcv.org/


本文参考于 ACL 2022 tutorial:Vision-Language Pretraining: Current Trends and the Future

VL (Vision and Language) 任务简介及数据集相关推荐

  1. 读论文:Fine-grained Image Classification via Combining Vision and Language

    读论文:Fine-grained Image Classification via Combining Vision and Language 文章目录 一.概述 二.本文贡献 三.网络结构 1.目标 ...

  2. 笔记:文澜:桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

    笔记:WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training 笔记:文澜:桥接视觉和语言的大规模的多模 ...

  3. Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

    ALBEF:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 论文链接 ...

  4. CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文是在NIPS 2019 ViLBERT上的拓展. 论文链接 动机 本文修改了ViLBERT的预训练过程,有两个小修改:1. 对regions进行mask时 ...

  5. 土地覆盖/土地利用简介及数据集

    1 简介 土地覆盖:地球表面当前所具有的自然和人为影响所形成的覆盖物,是地球表面的自然状态,如森林.草场.农田.土壤.冰川.湖泊.沼泽湿地及道路等. 土地利用:是人类在生产活动中为达到一定的经济效益. ...

  6. 【知识星球】颜值,自拍,美学三大任务简介和数据集下载

    欢迎大家来到<知识星球>专栏,今天给大家介绍三个任务,提供三个美学相关的数据集的下载,其中两个和人像有关,一个和通用的美学任务有关,下载可以进入知识星球自取,相关的项目,我们以后会在知识星 ...

  7. 机器学习实战10-Artificial Neural Networks人工神经网络简介(mnist数据集)

    目录 一.感知器 1.1.单层感知器 1.2.多层感知器MLP与反向传播 二.用 TensorFlow 高级 API 训练 MLP DNNClassifier(深度神经网络分类器) 2.1.初始化: ...

  8. 颜值,自拍,美学三大任务简介和数据集下载

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 作者&编辑 | 言有三 01 美学评分 美学质量的评估是 AI 与摄影学交叉的学科,也是目前比 ...

  9. ViLD(Open-Vocabulary Object Detection via Vision and Language Konwledge Distillation)

    基于视觉语言(图像文本)知识蒸馏的目标检测 CLIP模型当成teacher模型,去蒸馏自己的模型,从而达到zero-shot. 模型具有检测新类别的能力. baseline方法是一个Mask R-CN ...

最新文章

  1. POJ 2778 DNA Sequence [AC自动机 + 矩阵快速幂]
  2. ReadTimeoutError: HTTPSConnectionPool(host='pypi.python.org', port=443): Read timed out.
  3. HelloFresh迁移至新的API网关,实现微服务架构
  4. SpringCloud(1) 架构演进和基础知识简介
  5. 发送请求_发送soap请求调用WSDL
  6. Android中使用官方提供好的功能使用说明(比如系统图库获取),也作为延生学习的学习文档
  7. .NET Remoting Security使用小结 – TcpChannel
  8. linux环境编程做的是什么,Linux环境
  9. 【BZOJ2429】聪明的猴子
  10. VM安装windows10操作系统
  11. VS2010中常用的快捷键
  12. 简述神经元网络控制的作用和特点
  13. APP 基本框架设计
  14. markdown pad2注册码(2017年9月27日)
  15. Python 根据excel内容批量生成二维码
  16. 计算机计算涨跌的公式,计算股票涨跌的神器—四段五点模型计算器
  17. 云笔记+心情日记类APP推荐
  18. ES性能优化原理揭秘!初看一脸懵逼,看懂直接跪下。。。
  19. 计算机网络实验 ppt,计算机网络实验实验四跨交换机实现vlan.ppt
  20. 淘宝直通车提取数据“_h”值 最新生成方案(2020.11.27)

热门文章

  1. unity 使用paint in 3d实现画板效果
  2. Java、JSP汽车销售售后服务系统
  3. Windows XP原英文版系统下载及安装
  4. Django实战(9)——为人脸识别系统添加随机抽签功能
  5. 【mac】QQ截图不能用解决方法
  6. Stateflow使用笔记
  7. 海思嵌入式开发-003-Hi3861烧录报错,找不到Hi3861_wifiiot_app_allinone.bin文件
  8. 图像处理与识别学习小结
  9. Sql 语法练习
  10. 外汇短线交易操作方法简介