文章目录

  • 摘要
  • 主要贡献
  • 主要内容
  • 一、FIDT
  • 二、LMDS
  • 三。I-SSIM loss

摘要

在本文中,我们关注人群定位任务,这是人群分析的一个重要课题。基于回归的方法大多使用卷积神经网络( CNN )对密度图进行回归,在极度稠密的场景中无法准确定位实例,主要原因有两个:

1 ) 密度图由一系列模糊的高斯斑点组成;
2 ) 密度图的稠密区域存在严重的重叠。

为了解决这个问题,我们提出了一种新的用于人群定位任务的聚焦反距离变换( FIDT )地图(Focal Inverse Distance Transform)。与密度图相比,FIDT图准确地描述了人员在密集区域的位置,没有重叠。
基于FIDT映射,提出了一种局部最大检测策略( LMDS )来有效地提取每个个体的中心点。
此外,我们引入Independent SSIM ( Independent SSIM,I-SSIM )损失使模型倾向于学习局部结构信息,更好地识别局部极大值。大量实验表明,所提出的方法在6个人群数据集和1个车辆数据集上具有先进的定位性能。此外,我们发现所提出的方法在消极和极稠密场景上表现出优越的鲁棒性,进一步验证了FIDT映射的有效性。

github链接:FIDTM

主要贡献

其实主要贡献在摘要里面基本都提到了,再细化一下:

  1. 为了有效应对密集场景下的人群定位任务,我们提出了FIDT。FIDT地图的局部极大值表示精确的人员位置
  2. 引入I - SSIM损失,使模型关注独立区域,增强模型处理局部极大值和背景区域的能力。
  3. 基于FIDT地图,设计了一种局部最大值检测策略LMDS,可以有效地定位预测的局部最大值(头部中心)。
  4. 大量的实验表明,所提出的方法达到了先进的定位性能。此外,我们的方法对消极和极度密集的场景具有鲁棒性。

主要内容

下图是这篇论文总的pipeline

在训练阶段,采用MSE损失和提出的I - SSIM损失。在测试阶段,通过LMDS可以得到每个人的位置,最终计数等于局部极大值的个数。此外,边界框可以通过尺寸估计步骤获得。

一、FIDT

一般来说,基于CNN的人群密度估计的方法有三种:基于检测的,基于回归的,Density map(密度图)的。Density map预测每个像素存在人头点的概率分布,他的标注一般是在人头除点一个点,这种方法计数精度高,位置精度中等,缺点是低密度场景计数精度差(相对另外两类方法而言)。基于归回的方法是直接预测人数,计数精度中等,标记简单,缺点是缺少位置信息,缺乏可解释性。
后来Inverse Distance Transform(反距离变换)被用在人群计数领域,相当于把回归和density map的的方法结合了。先看Distance Transform(距离变换),它是把map上每个像素用到最近标记点的距离来表示


P(x,y)表示map上任意一点(x,y)上的值,B是标记点的集合。
Inverse Distance Transform (IDT) 就是取倒数, C是常量1,避免除0,也保证值域为[0,1](P(x,y)取0时I’=1,P(x,y)取+∞时I’趋向于0 )

这种方法是预测每个像素的IDT,而IDT值高的点(P(x,y)接近0)就是人头所在位置, 这种点称作local maxima(局部极大值), 相当于候选人头中心点,再通过一些过滤策略后得到接近真实的人头中心点,再数这些点的数量获得人数。
这篇文章认为IDT在前景(人头区域内)下降太快,在背景处下降太慢,这使得背景不容易和前景区分。提出了FIDT, 相当于加了调节器,通过α和β来控制表达式随P(x,y)增大的下降趋势。文中有消融实验说明α=0.02, β=0.75是比较好的选择。

比如下图FIDT map的背景部分颜色更深,能更清楚地看到前景区域(亮点外一圈浅蓝色区域)和背景区域的区别。

二、LMDS

该文以HRNET为主干网络,加一个卷积和两个反卷积作为head, 回归head上每个点的FIDT值。怎么得到人数?该文提出了Local Maxima Detection Strategy(LMDS) , 人头点检测策略。

1.用maxpool抑制3x3邻域内非最大值的点,非最大值都置0
2.若全局最大值<0.1,认为没人
3.取全局最大值的100/255为阀值,大于这个阈值的是头中心,小于阈值的是背景
这样就得到人数和人头中心坐标了。

三。I-SSIM loss

他们的另一项重要工作是I-SSIM loss。仅用预测的特征图和FIDT map的MSE损失,他们觉得不足以约束人头区域的学习。前人已经用了SSIM loss

E表示estimated map(估计图), G表示groundtruth map, μ和σ2 分别表示map的均值和方差,σEG表示E和G的协方差,λ1=0.0001, λ2=0.0009,避免除0 。SSIM范围是[-1,1], 这个值越大代表两个图越像,这在评价图像质量里常用。那么损失就是加个1减。一般用时会用一个滑动窗口去扫描全图,不区分前景背景。他们认为对于定位任务,损失应该关注前景区域,关注local maxima区域。之后就是文章提出了I-SSIM loss,实验效果还不错。

这里的I是independent的意思,对每个indenpendent instance region(独立实例区域)计算SSIM loss再求和。region的大小被设置为30x30. 前面说了关注local maxima,instance可能指的就是local maxima, 即候选头中心点。下图是这两个loss的对比实验结果。

最终的训练目标损失函数定义如下:

其中LMSE和LI-S分别表示MSE损失和提出的I - SSIM损失。
人群密度估计任务中在做定位的评价时,是需要将预测点和标记点做匹配的,匹配上了才算位置对了,匹配需要距离阈值σ,小于阈值说明预测点和标记点匹配上了。上边的实验就取的σ=8。下表是和其他网络的评价对比:

【论文精读】Focal Inverse Distance Transform Maps for Crowd Localization相关推荐

  1. How Distance Transform Maps Boost Segmentation CNNs: An Empirical Study

    20220523 JMLR2020 主要讲了下distance transform在医学图像分割的应用 方法 模型预测 distance map 的方法:使用轻量级的 head 或者单独的 decod ...

  2. 图像处理:距离变换distance transform

    引言 在阅读Focal Inverse Distance Transform Maps for Crowd Localization这篇论文时看到了distance transform这个方法.以前没 ...

  3. 【论文阅读】ICRA2021: VDB-EDT An Efficient Euclidean Distance Transform Algorithm Based on VDB Data Struct

    参考与前言 Summary: 浩哥推荐的一篇 无人机下的建图 and planning实验 Type: ICRA Year: 2021 论文链接:https://arxiv.org/abs/2105. ...

  4. 论文精读《OFT: Orthographic Feature Transform for Monocular 3D Object Detection》

    OFT: Orthographic Feature Transform for Monocular 3D Object Detection 文章目录 OFT: Orthographic Feature ...

  5. 论文分享 Deep Distance Transform for Tubular Structure Segmentation in CT Scans

    Deep Distance Transform for Tubular Structure Segmentation in CT Scans 一,摘要 医学图像中的管状结构分割,如CT扫描中的血管分割 ...

  6. 【论文精读】Natural Image Stitching Using Depth Maps

    图像拼接系列相关论文精读 Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation A ...

  7. 论文精读——CenterNet :Objects as Points

    论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...

  8. 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    文章目录 一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...

  9. 李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)

    文章目录 一. 前言 1.1 DALL·E简介 1.2 DALL·E2简介 1.3 文生图模型进展 二. 引言 2.1 摘要 2.2 引言&模型结构 三. 算法铺垫 3.1 GANs 3.2 ...

最新文章

  1. Nature:如何做一篇肠道菌群免疫的顶级文章
  2. Special Numbers 进制(1100)
  3. boost::dynamic_bitset模块实现ambiguous set的测试程序
  4. 重庆邮电大学计算机科学与技术培养方案,重庆邮电大学计算机科学与技术学院.doc...
  5. 完成一个YUV文件播放器
  6. 教你使用 IDEA 配置和运行vue项目
  7. 14章类型信息之使用类字面常量
  8. Java毕业设计:校园二手闲置物品交易网站(java+springboot+vue+mysql)
  9. python调用百度识图识取本地图片
  10. 家用台式计算机硬件配置清单,家用台式电脑配置清单
  11. Timed out waiting for /dev/.coldboot_done
  12. 智能手环core日志获取-兔盯云
  13. 手写文字怎么识别,手写文字识别的方法
  14. 2021-06-07 QQ注册
  15. golang GC垃圾回收机制
  16. html css 布局_创建有吸引力HTML CSS动漫主题网站布局
  17. Vue中使用Tinymce-edtio
  18. P014魔改8G显存
  19. STC15系列单片机与 OV7670 SCCB通讯
  20. vs运行网站设置起始页,取消起始页的方法

热门文章

  1. arcgis空间分析-矢量批量投影
  2. Windows server 2008 优化配置
  3. 复盘:图像有哪些基本属性?关于图像的知识你知道哪些?图像的参数有哪些
  4. FZU 2167 大王叫我来巡山呐
  5. 毕业论文如何做到查重率为6%以下?
  6. Lustre安装-Lustre2.10.0 Client安装-CentOS/RHEL(原创)
  7. css自定义虚线(可设置虚线间隔)模拟虚线
  8. Java工程师 中间件 分布式(一) 面试题(Day26)
  9. 操作系统大作业 基于Linux的模拟进程调度算法 运用c++语言编程 在VMware虚拟机里 centos 亲自写亲自测试 代码 说明书
  10. 2021年度训练联盟热身训练赛第三场