摘要

主流人群计数方法通常利用卷积神经网络(CNN)回归密度图,需要点级标注。然而,为每个人标注一个点是一个昂贵而费力的过程。并且我们在测试阶段不考虑点级标注来评估计数精度,这意味着点级标注是冗余的。因此,开发只依赖计数级注释的弱监督计数方法是可取的,这是一种更经济的标记方式。目前的弱监督计数方法采用CNN通过图像到计数的范式回归人群的总数。然而,这些基于弱监督的cnn方法的内在局限性是上下文建模的接受域有限。transformer是自然语言处理(NLP)中常用的序列到序列预测模型,它包含一个全局接受域。在本文中,我们提出了TransCrowd,它从基于transformer的序列到计数的角度重新阐述了弱监督人群计数问题。我们观察到,所提出的transcrowd利用transformer的自注意机制,可以有效地提取语义人群信息。据我们所知,这是第一个采用纯转换器进行人群计数研究的工作。在五个基准数据集上的实验证明了所提出的方法与所有基于弱监督cnn的计数方法相比,TransCrowd获得了优越的性能,与一些流行的全监督计数方法相比,transrowd获得了极具竞争力的计数性能。

1.introduction

密度图回归计数的缺点:①点标注昂贵。②我们在测试阶段不考虑点标注来评估计数精度或者性能,这意味着点级标注是冗余的。
根据前人的研究[6,9],我们将依赖于点级注释的方法称为全监督范式,而仅依赖于计数级的方法称为弱监督范式。全监督方法首先利用点注释生成ground-truth密度图,然后精心设计回归函数生成预测密度图,最后利用L2损失测量预测与ground-truth之间的差异,如图1(a)所示。
现有的弱监督方法通常直接回归人群图像的总计数,从图像到计数的角度,如图1(b)所示。
与利用有限接受域的CNN不同,谷歌提出的transformer提供全局接受域,与纯CNN体系结构相比显示出出色的优势。在本文中,我们提出了TransCrowd,这是第一个将transformer探索到弱监督人群计数任务中,建立了序列到计数预测的视角,如图1©所示。

在本文中,我们介绍了两种类型的TransCrowd,分别称为TransCrowd- token和TransCrowd-GAP。TransCrowd-Token利用一个额外的可学习令牌来表示计数。transcrowd -GAP对transformer-encoder输出序列中的所有项进行全局平均池化(GAP),以获得池化的可视令牌。然后将回归令牌或合并的可视令牌输入回归头以生成预测计数。我们根据经验发现与transcrow - token相比,transcrow - gap可以获得更合理的关注权重,获得更高的计数精度,并且呈现出更快的收敛速度。本文贡献如下:
①TransCrowd是第一个纯基于变压器的人群计数框架。我们从序列到计数的角度重新表述了计数问题,并提出了一种弱监督计数方法,该方法在训练阶段只使用计数级注释而不使用点级信息。
②我们提供了两种不同类型的TransCrowd,分别称为TransCrowd- token和TransCrowd- gap。我们观察到,与transcrow - token相比,transcrow - gap可以产生更合理的注意力权重,表现出了更快的收敛和更高的计数性能。
③大量的实验表明,与弱监督方法相比,该方法达到了最先进的计数性能。此外,与全监督计数方法相比,我们的方法具有高度竞争性的计数性能。

3.我们的方法

我们的方法的概述包括图像的序列(令牌)、一个transformer-encoder和一个朴素回归头,如图2(a)所示。具体地说,首先将输入图像转换为固定大小的图像块,然后将其压平为一个向量序列,序列被输入到transformer-encoder,然后是一个朴素回归头来生成预测计数。

3.1从图片到序列

transformer一般采用特征嵌入的1D序列Z∈R(N×D)次方作为输入,其中N为序列长度,D为输入通道大小。因此,TransCrowd的第一步是将输入图像I转换为2D扁平的补丁序列,具体来说,给定一个RGB image I)I∈R(H×W×3),我们将I重塑为N个补丁的网格,得到{Xi∈RK×K×3| I = 1…,N},其中N =(H*W)/K2, K为预定义的patch大小。

什么是1D cnn卷积:内核沿1个方向移动。1D CNN的输入和输出数据是2维的。主要用于时间序列数据。但是我觉得这里的1D应该是指一维。
flattened(扁平的相关意思):在VGG中,Flatten层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到全连接层的过渡,Flatten不影响batch的大小。

3.2 补丁嵌入(就是一种小图片块特征的向量表示)

https://zhuanlan.zhihu.com/p/338817680这里面有讲transformer的基本流程

接下来,我们需要通过一个可学习的投影将x映射到一个潜在的D维嵌入特征,因为transformer在所有层中使用固定的潜在向量大小D,定义为:
其中E为可学习矩阵,e∈RN×D为映射的特征。因此,我们添加一个特定的位置将{Pi∈RD|i = 1,…, N}嵌入到e中,保持位置信息,定义为:
其中Z0为transformer第一层的输入。

3.3 Transformer-encoder

我们只采用了encoder[10],没有解码器,类似于ViT[11]。具体来说,encoder包含L层多头自注意(MSA)块和多层感知器(MLP)块。对于每一层l,采用层归一化(LN)和残差连接。一个transformer层如图3所示,输出如下:

其中Zl是层l的输出。在这里,MLP包含两个具有GELU[46]激活函数的线性层。特别地,MLP的第一线性层将特征嵌入的维数从D扩展到4D,而第二层将维数从4D缩小到D。
MSA是具有m个独立自注意模块的扩展,MSA(Zl−1) = [SA1(Zl−1);SA2(Zl−1); · · · ; SAm(Zl−1)]WO,其中WO∈RD×D是一个重投影矩阵。在每个独立的SA上,输入由查询(Q)、键(K)和值(V)组成,从Zl−1开始计算:其中WQ/WK/WV∈RD×D/m为三个可学习矩阵。softmax函数应用于输入矩阵的每一行,√D提供适当的归一化。

3.4 回归头的输入

我们为回归头引入了两种不同的输入来评估TransCrowd的有效性。回归头的目标是生成预测计数,而不是密度图。我们简要描述这两种类型的输入。
(1)回归token(回归令牌)。与Bert[42]和ViT[11]中的类令牌类似,我们将一个名为回归令牌的可学习嵌入输入到序列Z0中,如图2(b)[42]所示。这种体系结构使的自注意信息在补丁令牌和回归令牌之间,使回归令牌包含整体语义人群信息。回归头由包含两个线性层的MLP实现。我们将带有额外回归令牌的TransCrowd称为TransCrowd- token。

(2)全局平均池。我们应用全局平均池(GAP)来缩小序列长度,如图2©所示。与transcrow - token类似,回归头使用两个线性层。我们将具有全球平均池的transcrowd称为transcrowd-gap。全局平均池可以有效地维护补丁令牌中有用的语义人群信息。我们发现,与使用额外的回归令牌相比,使用池化的视觉令牌将生成更丰富的鉴别语义人群模式,并获得更好的计数性能,详细讨论将在第6节中列出。

我们利用L1loss来衡量预测与ground truth之间的差异:

4.实验

4.1 实现细节

transformer-encoder类似于ViT[11],包含12个transformer层,每个MSA由12个SA组成。我们使用固定的H和W,它们都被设置为384,设K为16,也就是说N等于576。我们使用Adam[47]来优化我们的模型,其中学习率和权重衰减分别设置为1E−5和1E−4。在ImageNet上预训练的权重用于初始化transformer-encoder。在训练过程中,采用了广泛采用的数据增强策略,包括随机水平翻转和灰度变换。由于一些数据集有不同分辨率的图像,我们将所有图像的大小调整为1152 × 768。每个调整大小的图像可视为6个独立的子图像,每个子图像的分辨率为384 × 384。我们将批处理大小设置为24,并使用V100 GPU进行实验。

4.2 数据集

NWPU-Crowd、JHU-CROWD、UCF-QNRF、ShanghaiTech、UCF CC 50、WorldExpo’10

5 结果

我们进行了大量的实验,以证明所提出的弱监督人群计数方法在五个流行基准上的有效性。对于每个数据集,我们将现有的方法分为完全监督方法(基于点级注释)和弱监督方法(基于计数级注释)。


(PS:提出的transrowd可以有效地学习全局人群语义特征表示。然而,一些最先进的方法(如BL[26])对这些数据集使用了固定的高斯核,而固定的高斯核不能有效地覆盖大尺度的变化。)其次,Dosovitskiy等人[11]证明了cnn在小数据集上优于transformer(尽管正则化优化),但在大数据集上,transformer超过。

6.分析

6.1 回归头的影响(此处应该是指回归头部分的输入)

我们为回归头引入两个不同的输入。具体来说,①transcrow - token利用一个额外的可学习回归令牌来执行计数,类似于Bert[42]和ViT[11]中的类令牌。②transcrow - gap使用全局平均池来获得用于计数预测的池化可视标记。
transrow - token和transcrow - gap的测试结果如表1-7所示。我们发现,在所有数据集中,transcrow - gap的结果都优于transcrow - token。基于优异的性能,我们希望研究人员能够在未来设计出更合理的基于transformer-encoder的回归头。

6.2 可视化

具体的收敛曲线如图5所示。根据收敛曲线,我们可以观察到以下现象:(1)与CSRNet相比,TransCrowd-GAP以1.9倍的训练周期获得更好的性能。(2)与使用额外的回归令牌相比,使用全局平均合并的视觉令牌可以更快地收敛并获得更好的计数精度。
(3) transcrow - token和transcrow - gap均表现出平滑且快速收敛的曲线,而CSRNet的曲线则呈现震荡。这些观察显示了transformer在计数任务中的潜在价值。
三种方法的收敛速度:
PS:transrow - token可能会更关注背景

6.3 运行时间比较

特征解析对运行时间影响较大,transformer参数较多但是运行时间表现良好。部分全监督的模型虽然参数较少但是需要生成高质量高分辨率的密度图需要花费很多时间

6.4 不同预训练策略的比较

在本小节中,我们将研究预训练模型在TransCrowd中的影响。我们选择流行的
基于cnn的CSRNet[2]方法作为比较,结果如表9所示。具体来说,有三种策略。(1)无:模型直接在ShanghaiTech Part a上训练。(2)Pre-ImgNet:模型在ImageNet上进行预训练,并在ShanghaiTech Part A上进行微调。(3) Pre-GCC:模型在合成数据集GCC[16]上进行预训练,并在ShangahiTech Part a数据集上进行微调。结果如下:
(1)在没有任何预训练数据集的情况下,基于cnn的方法优于基于transformer的方法。
(2)利用额外的预训练数据可以有效地提示性能,本文提出的transcrow - gap算法获得了比CSRNet,更好的结果
(3)此外,当模型在GCC数据集上进行预训练时,所提出的方法甚至可以优于最近的几种全监督方法(如CFF [53], TEDNet[30])。

7 总结

就没必要翻译了,自己看原文

(Science China Information Sciences)梁大佬-TransCrowd:用transformer进行弱监督的人群计数相关推荐

  1. 西北大学计算机科学排名,西北大学计算机科学与信息系统Computer Science and Information Systems世界排名2020年最新排名第151-200位(QS世界排名)...

    2020年QS计算机科学与信息系统Computer Science and Information Systems专业世界排名公布,西北大学计算机科学与信息系统世界排名第151-200位,西北大学计算 ...

  2. SCIENCE CHINA LATEX模板缺少的一个重要文件psfig.sty,File `picins.sty’ not found.

    SCIENCE CHINA LATEX模板缺少的一个重要文件psfig.sty 中科院<中国科学>LATEX模板缺少的一个重要文件psfig.sty 问题: LaTeX Error: Fi ...

  3. 华盛顿大学计算机科学,华盛顿大学计算机科学与信息系统Computer Science and Information Systems世界排名2020年最新排名第18位(QS世界排名)...

    2020年QS计算机科学与信息系统Computer Science and Information Systems专业世界排名公布,华盛顿大学计算机科学与信息系统世界排名第18位,华盛顿大学计算机科学 ...

  4. 杜克大学计算机数据科学,杜克大学计算机科学与信息系统Computer Science and Information Systems世界排名2020年最新排名第51-100位(QS世界排名)...

    2020年QS计算机科学与信息系统Computer Science and Information Systems专业世界排名公布,杜克大学计算机科学与信息系统世界排名第51-100位,杜克大学计算机 ...

  5. 兰卡斯特大学 计算机,兰卡斯特大学计算机科学与信息系统Computer Science and Information Systems世界排名2020年最新排名第151-200位(QS世界排名)...

    2020年QS计算机科学与信息系统Computer Science and Information Systems专业世界排名公布,兰卡斯特大学计算机科学与信息系统世界排名第151-200位,兰卡斯特 ...

  6. Information Sciences (Elsevier) 投稿记录

    有一些小坑 编译不出pdf报错 关于expl3.sty 可能是因为在线编译系统的版本问题 解决方案是,在.cls文件中注释掉expl3.sty -\IfFileExists{expl3.sty}{% ...

  7. Elsevier(爱思维尔)下的information sciences 期刊投稿历程——使用在线的overleaf进行编辑

    指南:Guide for authors - Information Sciences - ISSN 0020-0255 (elsevier.com) 1.在Elsevier官网下载模板 CTAN: ...

  8. Information Sciences 2022 | 利用图嵌入和图神经网络实现社交网络中的影响力最大化

    目录 前言 1. 影响力最大化 2. SGNN 2.1 标签生成 2.2 struc2vec 2.3 GNN特征处理 2.4 回归预测 2.5 整体框架 3. 实验 3.1 数据集 3.2 评价指标 ...

  9. China Science投稿模板

    China Science介绍: http://scis.scichina.com/ 投稿中国科学期刊(英文版),下载模板文件.编译文件时,遇到一些问题: Error 1: LaTeX Error: ...

最新文章

  1. 10个让你获得最新设计理念的网站
  2. 2021年度中国计算机大会的技术论坛,值得一谈
  3. MySQL5.6transportable tablespace
  4. vue项目运行启动方法(从github上下载了一个前端项目进行运行)
  5. maven(三)最详细的profile的使用
  6. Spring系列之bean的使用
  7. java strcpy,详解C语言中strcpy()函数与strncpy()函数的使用
  8. iPhone 15 Pro有望实现屏下面容识别 三星已在研发相关技术
  9. django前端引用数据_Django 前后台的数据传递
  10. 麦考林周三股价下跌7.39%报收于6.1美元
  11. 如何在Javascript中创建范围
  12. rails3高端observer模式
  13. EChart:基础学习
  14. 黑马程序员-说说自己
  15. 软件测试中单元测试的内容有哪些?-alltesting云测试
  16. 虚拟机的服务器管理器怎么打开,虚拟机启动任务管理器
  17. 网易或入股MSN中国 门户再现竞争新局
  18. 即使有一天没有属于我的天,我也要一步一步往上爬
  19. Unity API通读 CustomEditor
  20. 如何在WORD中插入可播放的视频

热门文章

  1. 解决 IDEA 2021.2.1 plugins插件加载速度与下载速度慢
  2. Halcon入门(一)shape-based matching
  3. 第二篇,仿微信的语音电话,视频聊天IM聊天APP开发源码
  4. 58同城和赶集网欢迎页发微-借势营销
  5. 如何在手机上登陆学校邮箱
  6. 刷脸支付安全隐患引人深思,声纹识别“动态”优势凸显
  7. 什么是高并发 ,详细讲解
  8. 从工作10年中理解什么是高并发?
  9. DMHS(DM8-DM8)搭建
  10. matlab图像剖线,一种在等值线图上任意截取剖面的Matlab语言算法