论文:https://arxiv.org/abs/2104.09116

代码:GitHub - dk-liang/TransCrowd: TransCrowd: Weakly-Supervised Crowd Counting with Transformer

本文主要是搞弱监督的人群计数+Transformer。

首先全监督的人群计数就是通过点级标注生成ground truth(GT),然后再放入CNN中回归生成预测密度图。但是全监督的问题是点级标注耗时耗力,并且在测试时并不使用带注释的点标签。如图(a)所示。

目前的弱监督就是直接回归图像的总计数,直接从图像到计数。如图(b)所示。

本文提出的TransCrowd就是在弱监督上加上一个transformer。

整个模型看下来并没有什么大的创新点,图片处理是按照VIT把图片切成一个个patch,线性映射后变为一个个token。token的处理有两种,一种是仿照一般模型加class token的做法加了一个regression token。另外一种是不加额外的token而是采用全局平局池化操作来降低序列长度。

最终实验结果如图:

代码的话还在看,里面timm库是有问题的。他的要求里的timm=0.1.30会报错,改成 pip install timm==0.3.2

TransCrowd: Weakly-Supervised Crowd Counting with Transformer解读相关推荐

  1. [CAN] [CVPR2019]:Context-Aware Crowd Counting论文+代码解读

    1.论文 论文链接:https://arxiv.org/pdf/1811.10452.pdf 代码链接:GitHub - weizheliu/Context-Aware-Crowd-Counting: ...

  2. TransCrowd: Weakly-Supervised Crowd Counting with Transformer

    提出问题: 当前弱监督计数方法采用CNN,而CNN感受野有限. 解决方法: 1)第一个纯基于Transformer的人群计数框架.从序列到计数的角度重新表述了计数问题,并提出了一种弱监督计数方法,该方 ...

  3. CCTrans: Simplifying and Improving Crowd Counting with Transformer

    提出问题: CNN感受野有限无法对全局上下文进行建模,而Transformer可以. 解决方法: 1)基于 Vision Transformer 构建结构简单且高性能的人群计数网络. 2)针对性地设计 ...

  4. 论文介绍《CrowdFormer: An Overlap Patching Vision Transformer for Top-Down Crowd Counting 》

    paper [ijcai2022] CrowdFormer: An Overlap Patching Vision Transformer for Top-Down Crowd Counting co ...

  5. Crowd Counting论文小结(持续更新)

    Crowd Counting论文小结(持续更新) CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly ...

  6. 《Learning from Synthetic Data for Crowd Counting in the Wild》论文笔记

    Learning from Synthetic Data for Crowd Counting in the Wild 论文翻译 Abstract 1. Introduction 2.Related ...

  7. 【cvpr2022-论文笔记】《Multi-class Token Transformer for Weakly Supervised Semantic Segmentation》

    目录 MCTformer-V1 Class-specific multi-class token attention Class-specific attention refinement Class ...

  8. TAPAS: Weakly Supervised Table Parsing via Pre-training 原论文解读

    TAPAS: Weakly Supervised Table Parsing via Pre-training 原论文理解解读 这里只进行原论文解读,若有不正确的地方希望指正,不明白的地方我也会写上, ...

  9. 【MAFNet】 A Multi-Attention Fusion Networkfor RGB-T Crowd Counting解读

    论文:https://arxiv.org/abs/2208.06761 二作是Junyu Gao,github上awesome-crowd-counting千星的作者.推荐一下他的github:Git ...

最新文章

  1. Pycharm debug出现Qt 错误 Process finished with exit code -1073741819 (0xC0000005)
  2. 温州大学计算机与人工智能学院2022年硕士研究生招生复试咨询开始啦!
  3. 宝塔部署node项目_SFF一站式node服务管理平台实践
  4. No package ‘dconf‘ found
  5. 深度学习面试题:计算机视觉训练技巧
  6. springcloud记录篇10-thymeleaf模板引擎
  7. JUnit with Ant
  8. CityEngine引用别人做好的规则文件
  9. 电脑如何共享无线网络wifi给手机、其他电脑
  10. 关于华硕电脑进入bios
  11. 【深度学习】图像分割概述
  12. 利用飞信接口免费发短信
  13. STM:一种新的肺癌标志物
  14. 如何用企业微信做私域流量客户运营,社群运营?企业微信入门篇(完整版)
  15. 《黑客与画家》-读书笔记
  16. 如何成为优秀开发人员 系列文章 - by 编程随想
  17. 简约精致壁纸网站合集~持续更新
  18. TFN DP16A 对数周期天线 100MHz~6GHz
  19. 淘宝虚拟产品自动发货软件
  20. 西门子PLC配KUKA机器人程序

热门文章

  1. 96道前端面试题,总结到位
  2. 新嘉联中签号,新嘉联中签率,002188中签号,002188中签率
  3. arcgis二次开发arcpy视频教程(持续更新中......)
  4. oracle表空间限额不足问题解决
  5. 从商家和顾客的角度分析透客户分级管理系统
  6. Kaldi thchs30手札(六)说话人自适应训练(SAT)、FMLLR以及quick训练(line 87-104)
  7. cassandra 数据导出导入_cassandra数据备份与迁移
  8. 在上网时出现Javascript:void(0)网页没有反应
  9. img 转化成iso镜像的办法
  10. Linux or QNX ?