TransCrowd: Weakly-Supervised Crowd Counting with Transformer解读
论文:https://arxiv.org/abs/2104.09116
代码:GitHub - dk-liang/TransCrowd: TransCrowd: Weakly-Supervised Crowd Counting with Transformer
本文主要是搞弱监督的人群计数+Transformer。
首先全监督的人群计数就是通过点级标注生成ground truth(GT),然后再放入CNN中回归生成预测密度图。但是全监督的问题是点级标注耗时耗力,并且在测试时并不使用带注释的点标签。如图(a)所示。
目前的弱监督就是直接回归图像的总计数,直接从图像到计数。如图(b)所示。
本文提出的TransCrowd就是在弱监督上加上一个transformer。
整个模型看下来并没有什么大的创新点,图片处理是按照VIT把图片切成一个个patch,线性映射后变为一个个token。token的处理有两种,一种是仿照一般模型加class token的做法加了一个regression token。另外一种是不加额外的token而是采用全局平局池化操作来降低序列长度。
最终实验结果如图:
代码的话还在看,里面timm库是有问题的。他的要求里的timm=0.1.30会报错,改成 pip install timm==0.3.2
TransCrowd: Weakly-Supervised Crowd Counting with Transformer解读相关推荐
- [CAN] [CVPR2019]:Context-Aware Crowd Counting论文+代码解读
1.论文 论文链接:https://arxiv.org/pdf/1811.10452.pdf 代码链接:GitHub - weizheliu/Context-Aware-Crowd-Counting: ...
- TransCrowd: Weakly-Supervised Crowd Counting with Transformer
提出问题: 当前弱监督计数方法采用CNN,而CNN感受野有限. 解决方法: 1)第一个纯基于Transformer的人群计数框架.从序列到计数的角度重新表述了计数问题,并提出了一种弱监督计数方法,该方 ...
- CCTrans: Simplifying and Improving Crowd Counting with Transformer
提出问题: CNN感受野有限无法对全局上下文进行建模,而Transformer可以. 解决方法: 1)基于 Vision Transformer 构建结构简单且高性能的人群计数网络. 2)针对性地设计 ...
- 论文介绍《CrowdFormer: An Overlap Patching Vision Transformer for Top-Down Crowd Counting 》
paper [ijcai2022] CrowdFormer: An Overlap Patching Vision Transformer for Top-Down Crowd Counting co ...
- Crowd Counting论文小结(持续更新)
Crowd Counting论文小结(持续更新) CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly ...
- 《Learning from Synthetic Data for Crowd Counting in the Wild》论文笔记
Learning from Synthetic Data for Crowd Counting in the Wild 论文翻译 Abstract 1. Introduction 2.Related ...
- 【cvpr2022-论文笔记】《Multi-class Token Transformer for Weakly Supervised Semantic Segmentation》
目录 MCTformer-V1 Class-specific multi-class token attention Class-specific attention refinement Class ...
- TAPAS: Weakly Supervised Table Parsing via Pre-training 原论文解读
TAPAS: Weakly Supervised Table Parsing via Pre-training 原论文理解解读 这里只进行原论文解读,若有不正确的地方希望指正,不明白的地方我也会写上, ...
- 【MAFNet】 A Multi-Attention Fusion Networkfor RGB-T Crowd Counting解读
论文:https://arxiv.org/abs/2208.06761 二作是Junyu Gao,github上awesome-crowd-counting千星的作者.推荐一下他的github:Git ...
最新文章
- Pycharm debug出现Qt 错误 Process finished with exit code -1073741819 (0xC0000005)
- 温州大学计算机与人工智能学院2022年硕士研究生招生复试咨询开始啦!
- 宝塔部署node项目_SFF一站式node服务管理平台实践
- No package ‘dconf‘ found
- 深度学习面试题:计算机视觉训练技巧
- springcloud记录篇10-thymeleaf模板引擎
- JUnit with Ant
- CityEngine引用别人做好的规则文件
- 电脑如何共享无线网络wifi给手机、其他电脑
- 关于华硕电脑进入bios
- 【深度学习】图像分割概述
- 利用飞信接口免费发短信
- STM:一种新的肺癌标志物
- 如何用企业微信做私域流量客户运营,社群运营?企业微信入门篇(完整版)
- 《黑客与画家》-读书笔记
- 如何成为优秀开发人员 系列文章 - by 编程随想
- 简约精致壁纸网站合集~持续更新
- TFN DP16A 对数周期天线 100MHz~6GHz
- 淘宝虚拟产品自动发货软件
- 西门子PLC配KUKA机器人程序
热门文章
- 96道前端面试题,总结到位
- 新嘉联中签号,新嘉联中签率,002188中签号,002188中签率
- arcgis二次开发arcpy视频教程(持续更新中......)
- oracle表空间限额不足问题解决
- 从商家和顾客的角度分析透客户分级管理系统
- Kaldi thchs30手札(六)说话人自适应训练(SAT)、FMLLR以及quick训练(line 87-104)
- cassandra 数据导出导入_cassandra数据备份与迁移
- 在上网时出现Javascript:void(0)网页没有反应
- img 转化成iso镜像的办法
- Linux or QNX ?