文章目录

  • 一、背景
  • 二、方法
    • 2.1 特征抽取和加强
    • 2.2 Language-Guided Query Selection
    • 2.3 Cross-Modality Decoder
    • 2.4 Sub-sentence level text feature
    • 2.5 Loss Function
  • 三、效果
    • 3.1 zero-shot transfer of grounding DINO
    • 3.2 Referring Object detection
    • 3.3 Ablations
    • 3.4 从 DINO 到 Grounding DINO
  • 四、代码
    • 4.1 环境安装
    • 4.2 权重下载
    • 4.3 单张图 demo
    • 4.4 COCO zero-shot 测评

论文:Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

代码:https://github.com/IDEA-Research/GroundingDINO

出处:清华、IDEA

时间:2023.03.20

贡献:

  • 本文提出了一种 open-set 的目标检测器,Grounding DINO,将 Transformer based 检测器 DINO 和 grounded pre-training 结合起来,能够输出 prompt 中提到的目标框,或者输出 prompt 的 referring expressions 的目标框
  • 实现的方法:将 language 引入闭集目标检测中,来对开集的概念进行扩展
  • 如何引入:将闭集目标检测分为三个阶段:
    • feature enhancer
    • language-guided query selection
    • cross-modality decoder for cross-modality fusion
  • 之前的工作都是在 novel categories 上测评开集目标检测,本文提出在文本 reffering 的目标上也进行测试
  • 之前的工作对语言特征和图像特征的融合不够完全,GLIP 就只在特征层面进行了融合
  • 在 COCO 上 zero-shot 达到了 52.5 AP,fine-tuning 之后达到了 63.0 AP

一、背景

理解视觉新概念是视觉模型应该具有的基本能力,基于此,作者提测了一个强大的检测器 open-set object detection,能够检测任意的能用人类语言描述的目标

而且该任务也能和其他模型结合使用,有很大的潜力,如图 1b 所示,和生成模型结合起来就能进行图像编辑

开集目标检测的关键在哪里!!!

  • 引入自然语言处理对语言的理解能力,来扩展模型对没见过的目标的理解
  • 举一个不太严谨的例子:如输入了一个 prompt=哈士奇,但视觉模型不知道什么是哈士奇,那么语言模型会先分析哈士奇和 dog 关联很近,那么就会输出检测为 dog 的框为哈士奇

GLIP 方法将目标检测构建为了 phrase grounding 任务,并且引入 object region 和 language phrase 之间的对比学习来进行关联。展现出了很强的灵活性,可以同时适用于开集和闭集目标检测。

但 GLIP 的效果会被 Dynamic Head 检测器的效果限制,因为开集目标检测和闭集目标检测是强联系的,所以,本文作者认为一个在闭集目标检测上表现好的模型一定能在开集目标检测上表现好。

所以,本文作者基于 DINO 构建了一个开集目标检测器,且在目标检测上获得了很好的效果

Grounding DINO 相比 GLIP 的优势:

  • 基于 Transformer 结构,能同时适用于图像和语言数据
  • Transformer 结构能从大型数据集上获得更多的信息
  • DINO 可以端到端的优化模型,不需要使用后处理等(如 NMS),能够简化这个 grounding model 的设计

closed-set 检测器的三个重要模块:

  • backbone:抽取图像特征
  • neck:特征增强
  • head:回归和分类等

如何使用语言模型将 closed-set 检测器扩展到 open-set 检测器:

  • 学习 language-aware regiong embedding
  • 这样就可以将每个目标区域划分到语言语义信息对应的空间去
  • 其关键在于 neck 或 head 输出的地方,在 region output 和 language features 之间使用对比学习,来帮助模型学习如何对齐这两种多模态信息
  • 如图 2 展示了三个不同的阶段进行特征融合的示例,neck(A)、query initialization(B)、head(C)

到底什么时候来进行特征融合比较好呢:

  • 一般认为,在整个 pipeline 中进行特征的融合的效果会更好
  • 类似于 CLIP 形式的检索结构为了高效,只需要对最后的特征来进行对比即可
  • 但是对于 open-set detection,模型的输入是 image 和 text,所以 tight(and early)fusion 的效果更好,也就是更多的融合效果更好
  • 但是以前的检测器(如 Faster RCNN)很难在这三个阶段都将语言特征引入来进行融合,但 图像 Transformer 结构和 language 的结构很类似,所以本文作者设计了三个特征融合器,分别在 neck、query initialization、head 阶段进行融合

Neck 结构:

  • stacking self-attention
  • text-to-image cross-attention
  • image-to-text cross attention

Head:

  • query 的初始化:使用 language-guided query 选择方式来初始化
  • 如何提高 query 特征表达:对 image 和 text 进行 cross-attention ,来作为 cross-modality decoder

很多现有的 open-set 目标检测器都会在新类别上来测试其效果,如图 1b 所示

但作者认为,只要是能描述的对象,都应该被考虑其中

本文将这个任务命名为 Referring Expression Comprehension(REC),即参照表示理解

作者在图 1b 的右侧展示了一些 REC 的例子

作者在下面三种数据集上进行了实验:

  • closed-set
  • open-set
  • referring

二、方法

Grounding DINO 会在给定一个输入 (image, text) 的基础上输出多个 [object boxes, noun phrases] pairs

如图 3 所示,模型会根据输入的图像和文字描述 ‘cat’ 和 ’table’ 来框出输入图像中的 cat 和 table

目标检测和 REC 任务都可以使用这个 pipeline 来对齐,类似于 GLIP:

  • 如何实现目标检测:将所有类别的名字作为输入 text 来
  • 如何实现 REC:对每个输入 text,REC 只需要返回一个 bbox 即可, 所以作者使用输出目标的最大得分作为 REC 的输出

Grounding DINO 的结构:dual-encoder-single-decoder 的结构,整体结构如图 3 所示

  • 一个 image backbone 来抽取图像信息
  • 一个 text backbone 来抽取文本信息
  • 一个 feature enhancer 来对图像和文本信息进行融合
  • 一个 language-guided query 选择模块来进行 query 初始化
  • 一个 cross-modality decoder 来进行 box 的修正

对每个(image, text)pair 的操作过程如下:

  • 首先,使用 image backbone 和 text backbone 来抽取原始的图像特征和文本特征
  • 然后,将这两组特征输入 feature enhancer 模块来进行跨模态特征融合,得到跨模态融合特征
  • 接着,使用 language-guided query selection 模型来从 image feature 中选择跨模态特征的 query,并输入跨模态 decoder 来从这两个模态的特征中提前需要的特征并且更新 query
  • 最后,最后一层 decoder 的输出 query 被用于预测 object box 并且提取对应的 phrases

2.1 特征抽取和加强

给定(Image,Text)pair,从 Swin Transformer 的结构中抽取多级图像特征,从 BERT 的结构中抽取文本特征

抽取特征之后,将两组特征输入 enhancer 中来进行跨模态的特征融合,enhancer 结构包括多个 enhancer layers,其中一个如图 3 block2 所示。

如上图所示:

  • Text features:使用 self-attention 先进行自注意力特征提取
  • Image features:使用 Deformable self-attention 来增强图像特征
  • 然后再顺序的进行 image-to-text 和 text-to-image 的 cross-attention
  • 最后经过 FFN 来分别得到增强后的两种特征

2.2 Language-Guided Query Selection

GLIP 在进行了特征融合后,就分别使用融合后的特征去进行特征预测了

但 Grounding DINO 在这里设计了 language-guided query selection 再次进行融合,为了更好的利用 input text 来指导目标检测,来选择和 input text 相关性更大的 features 来作为 decoder queries

pytorch 伪代码如 Algorithm 1 所示:

  • num_query:decoder 中的 queries 数量,实际使用时和 DINO 一样设定为 900
  • bs:batch size
  • ndim:feature dimension
  • num_img_tokens:image token 的数量
  • num_text_tokens:text token 的数量

language-guided query selection module 的输出:

  • num_query 索引,可以根据这个输出的索引来初始化 queries
  • 每个 decoder query 包含两部分:content(是参与训练的)、positional(动态 anchor box,使用 encoder 的输出来初始化)

2.3 Cross-Modality Decoder

在 Language-Guided Query Selection 之后,还接了一个 cross-modality decoder,如图 3 block3 所示,进一步将 image 和 text 的特征进行结合

2.4 Sub-sentence level text feature

前面的 work 可以获得两种 text prompt,如图 4 所示

  • sentence level representation:如图 4a,将整个句子的特征编码为一个特征,如果一个句子有多个短语,则会抽取这些短语,忽略其他 word
  • word level representation:如图 4b,会对一个句子中的所有 word 进行关联性编码,会引入不必要的依赖关系,一些并不相关的单词也会被关联起来

基于上面两种编码方式的问题,作者提出了 sub-sentence level 表达的方式,就是只对 sub-sentence 内的 word 进行关联学习,不会引入不必要的联系

2.5 Loss Function

  • 回归 loss:L1 loss 和 GIoU loss
  • 分类 loss:对比学习 loss(预测的和 language token 之间的对比)

三、效果

作者在三种不同设置上进行了实验:

  • 闭集: COCO 检测数据集
  • 开集:zero-shot COCO、LVIS、ODinW
  • Referring detection:RefCOCO/+/g

设置细节:

  • 作者训练了两个模型变体:

    • Grounding-DINO-T(swin-T)
    • Grounding-DINO-L(swin-L)
  • text backbone 为 BERT-base(from Hugging Face)

3.1 zero-shot transfer of grounding DINO

1、COCO Benchmark:

2、LVIS Benchmark

3、ODinW Benchmark

3.2 Referring Object detection

3.3 Ablations

因为作者提出了 tight fusion 模式,为了验证该方式是否有用,作者移除了一些 fusion block,结果见图 6

所有模型都是使用 Swin-L 基于 O365 训练的,结果证明更紧密的 fusion 能够提升最终的效果

3.4 从 DINO 到 Grounding DINO

如果直接从头开始训练 Grounding DINO 的话,费时费力,所有作者尝试使用了训练好的 DINO 权重,冻结了两个模型共用的部分权重,微调其他部分的参数,结果见表 7。

结果表明,使用 DINO 预训练好的权重,只训练 text 和 fusion block, 就可以达到和重新训练一样的效果

四、代码

4.1 环境安装

git clone https://github.com/IDEA-Research/GroundingDINO.git
cd GroundingDINO/
pip install -e .

4.2 权重下载

# 浏览器输入下面路径即可下载
https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
# wget 下载
mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

4.3 单张图 demo

# 输出需要检测的类别:
CUDA_VISIBLE_DEVICES=7 python demo/inference_on_a_image.py \
-c groundingdino/config/GroundingDINO_SwinT_OGC.py \
-p weights/groundingdino_swint_ogc.pth \
-i images/1.jpg \
-t cat \ # 如果要检测多个类别的目标,使用.分开,如 -t cat.dog.bird
-o output
  • text_threshold=0.25
  • box_threshold=0.3

过程如下:

  • 输入:图像、text_prompt ('cat. dog')
  • 文本处理:变成小写字母、去除空格,如果最后没有 . 的话,给文本最后加上 . ,变成 'cat. dog.',然后对输入文本进行分词,变成 {'input_ids': tensor([[ 101, 4937, 1012, 3899, 1012, 102]], device='cuda:0'), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0]], device='cuda:0'), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1]], device='cuda:0')},输入的 special_token 为 [101, 102, 1012, 1029],可以过滤不需要的 token,包括开始 101 和结束标记 102 和句号 1012 等。输入 bert 进行特征提取,这里的 mask 和 gilp 有一些区别,具体还没细看
  • 图像处理:提取 swin 特征,输出 3 层多尺度特征和加了位置信息的3层多尺度特征,然后在进行一次卷积,共得到 4 层输出特征
  • 得到类别特征 [2,256],回归特征 [2,4]

4.4 COCO zero-shot 测评

首先下载 coco 数据集,将数据集放到 dataset 路径下,然后执行如下命令,得到 mAP0.50:0.95 = 48.5

CUDA_VISIBLE_DEVICES=7 python demo/test_ap_on_coco.py \
-c groundingdino/config/GroundingDINO_SwinT_OGC.py \
-p weights/groundingdino_swint_ogc.pth \
--anno_path dataset/coco/annotations/instances_val2017.json \
--image_dir dataset/coco/val2017
IoU metric: bboxAverage Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.48503Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.64419Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.52925Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.33947Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.51771Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.63410Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.38590Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.66831Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.73744Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.59104Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.77465Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.88776
Final results: [0.48502937223654774, 0.6441887991833478, 0.5292488429259078, 0.3394684576029584, 0.5177052819196549, 0.634102477342082, 0.38590050340039866, 0.668313126216868, 0.7374381132430312, 0.5910350651020582, 0.7746541080843435, 0.8877636350581676]

【多模态】11、Grounding DINO | 将 DINO 扩展到开集目标检测相关推荐

  1. 【计算机视觉 | 目标检测】Grounding DINO:开集目标检测论文解读

    介绍一篇较新的目标检测工作: Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detectio ...

  2. EfficientDet:可扩展的高效目标检测

    文章目录 摘要 1.介绍 2.相关工作 3.BiFPN 3.1.提出问题 3.2.多尺度连接 3.3.加权特征融合 4.EfficientDet 4.1.EfficientDet架构 4.2.复合缩放 ...

  3. Grounding DINO-开集目标检测论文解读

    文章目录 摘要 背景 算法 3.1Feature Extraction and Enhancer 3.2. Language-Guided Query Selection 3.3. Cross-Mod ...

  4. 小目标检测中的数据扩展

    参考:https://blog.csdn.net/abrams90/article/details/89371797 论文:Augmentation for small object detectio ...

  5. DINO:目标检测benchmark COCO屠榜的正确姿势

    作者丨陈泰红(已授权) 来源丨https://zhuanlan.zhihu.com/p/478461226 编辑丨极市平台 不小心在paperwithcode看到,DETR系列的论文又屠榜了,在COC ...

  6. 自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战

    自动驾驶深度多模态目标检测和语义分割:数据集.方法和挑战 原文地址:https://arxiv.org/pdf/1902.07830.pdf Deep Multi-Modal Object Detec ...

  7. 一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 目前 ...

  8. DeepFusion:基于激光雷达和相机深度融合的多模态3D目标检测

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨安全与性能研究室 来源丨 同济智能汽车研究所 点击进入->3D视觉工坊学习交流群 编者按: ...

  9. 迈向多模态AGI之开放世界目标检测 | 人工智能

    作者:王斌 谢春宇 冷大炜 引言 目标检测是计算机视觉中的一个非常重要的基础任务,与常见的的图像分类/识别任务不同,目标检测需要模型在给出目标的类别之上,进一步给出目标的位置和大小信息,在CV三大任务 ...

最新文章

  1. QQ远程协助没动静?QQ版本有讲究
  2. 市电、三相交流电知识
  3. Linux——POSIX有名信号量
  4. 有多少用户痛点,你是听回来的,而不是经过深思过后找出来的
  5. Jquery创建JSON对象
  6. 基于Enterprise Library的Winform开发框架实现支持国产达梦数据库的扩展操作
  7. Java笔记-jdbc传输clob到Oracle数据库
  8. python构建字典查大写英文字母ascii编码_python – 字典中ISO短代码的国家名称,如何处理非ascii字符...
  9. 计算机学office有必要吗,计算机二级office要学多久
  10. 11. Window open() 方法
  11. 2018年的人工智能将如何发展?看看专家怎么说
  12. 拉里·佩奇 密歇根大学演讲
  13. 【数学建模】7 线性规划及例题详解
  14. 16年,平凡而又收获的一年,为什么说Flutter让移动开发变得更好
  15. ISE UCF 写法:(转载)
  16. 2021数学建模国赛B题复盘详细解析
  17. 重庆思庄-[Oracle] SYSAUX表空间WRH$表的清理
  18. matlab报错slcc_interface_z6c0T9v%^%$
  19. 新赛季更新完服务器要维护到什么时候,王者荣耀新赛季刚更新就出乱子,维护到九点才开服,普攻都消失了...
  20. 隐私集合求交(PSI)协议研究综述

热门文章

  1. dell服务器各类raid 和磁盘在阵列卡上的实验
  2. 三类IP地址的私有地址
  3. PHP支付宝免签约即时到账接口扫码支付实例
  4. 【计算机问题】:火狐浏览器不能下载东西
  5. 华为ws851虚拟服务器,华为WS851路由器怎么配置上网
  6. 写一个爬取东方财富网股票融资融券的pthon代码
  7. html文档基本格式主要包括哪些标记,html文档结构基础学习
  8. 《深海探测装备》学习笔记2(深海海底固定观测技术)
  9. linux安装ebs系统,深入浅出Oracle之EBS系统安装与维护(Linux).doc
  10. 使用PS将图片的白色背景去掉