Balanced MSE for Imbalanced Visual Regression

  • 文章信息
  • 背景
  • 动机
  • 方法
    • 回顾MSE
    • Balanced MSE
      • p b a l ( y ∣ x ) p_{bal}(y|x) pbal​(y∣x)到 p t r a i n ( y ∣ x ) p_{train}(y|x) ptrain​(y∣x)的转化
      • Balanced MSE的一般形式
      • 解析解
      • 数值解1:BMC
      • 数值解2:BNI
  • 思考
  • References

文章信息

题目:Balanced MSE for Imbalanced Visual Regression
发表:CVPR2022
作者:Jiawei Ren 1 , Mingyuan Zhang 1 , Cunjun Yu 2 , Ziwei Liu 1

值得一提的是该文章的初稿曾被ICLR2022拒掉。

背景

当前的不平衡研究主要都是集中在分类场景下,很少有人关注回归场景下的不平衡问题。然而,回归场景下的不平衡也是一个极其重要的研究话题。现实生活中有很多不平衡回归的应用场景,比如年龄估计, 生理健康检测方面比如血压预测等等。
相比于分类,回归场景下的不平衡研究更具挑战性
(1)首先,分类场景下的标签往往是离散并且有限的。相反,回归场景下的标签是连续的,并且可以时无限的,也可以是有限的。
(2)其次,分类场景下的标签本身只是符号,不可比较。相反,回归场景下的标签时可以比较的。

动机

回归场景下常用的Loss有Mean squared loss (MSE), Mean absolute loss (MAE)等。作者从统计视角重新审视了MSE,确认MSE在不平衡场景下存在问题(导致模型有bias),从而提出了一种新的损失函数Balanced MSE来解决不平衡回归问题。

方法

与不平衡分类的目标类似,不平衡回归也是希望从imbalanced 的数据集中学习一个balanced 的model,使其在目标y范围内的各个区间上效果都要好,而不仅仅只是在样本分布密集的少部分区间内。

回顾MSE

MSE实际上就是预测值与真实值差的二范数,定义如下:

从统计视角来看,MSE实际上相当于假设预测误差分布服从均值为零的正态/高斯先验。假设方差为各向同性高斯噪声, ϵ = y − y p r e d ∼ N ( 0 , σ 2 I ) \epsilon=y-y_{pred} \sim N(0, \sigma^{2}I) ϵ=y−ypred​∼N(0,σ2I)。这样一来,预测值可以看作是噪声预测分布的均值,如下:
众所周知,最小化损失函数实际上就是在最大化对应的似然函数。具体到这里, MSE完全等价于 − L o g p ( y ∣ x ; θ ) -Logp(y|x;\theta) −Logp(y∣x;θ)。因此,基于MSE来训练模型实际上就是在建模 p ( y ∣ x ; θ ) p(y|x;\theta) p(y∣x;θ)

Balanced MSE

Balanced MSE的思路:直接从imbalanced 数据集中训练一个balanced model,然后直接用于预测。怎么做到的呢?看下图。
由于模型直接输出的是 p b a l ( y ∣ x ) p_{bal}(y|x) pbal​(y∣x),最关键的是在训练阶段如何实现其到 p t r a i n ( y ∣ x ) p_{train}(y|x) ptrain​(y∣x)的转化

p b a l ( y ∣ x ) p_{bal}(y|x) pbal​(y∣x)到 p t r a i n ( y ∣ x ) p_{train}(y|x) ptrain​(y∣x)的转化

定理的证明如下,实际上只用到了Bayes公式和全概率公式,

Balanced MSE的一般形式

有了上述转换公式,Balanced MSE可以定义为:
由于Balanced MSE中涉及积分,那么如何实现呢?文中提供了解析解和两种数值解,下面分别介绍。

解析解

对于解析解,关键在于如何对第二项中的 p t r a i n ( y ′ ) p_{train}(y') ptrain​(y′)进行建模以使得积分可积
将 p t r a i n ( y ′ ) p_{train}(y') ptrain​(y′)建模为高斯混合分布,如下
这样一来,第二项变形为
将其带入到Balanced MSE的定义中可得

数值解1:BMC

在Batch-based Monte-Carlo (BMC)中,不需要建模 p t r a i n ( y ′ ) p_{train}(y') ptrain​(y′),将所有的样本标签看成是 p t r a i n ( y ′ ) p_{train}(y') ptrain​(y′)的随机样本。这样一来,
还可以将其进一步改写成类似对比学习损失的函数形式,如下

数值解2:BNI

所谓Bin-based Numerical Integration (BNI),实际就是将连续的目标离散化为等长的、不相交的区间。这里将目标y的范围划分为N个区间,记区间的中心为:然后基于核密度估计技术,利用训练集中的目标值来估计这N个区间中心的密度。最后将其带入,可得,

思考

1.文章从统计视角出发,给出了Balanced MSE loss的一般形式,该Loss的表达式与imbalanced classification和constrastive learning的loss有强的关联。并且给出了几种可行的实现版本。

2.目标分布的不平衡仅仅只是不平衡回归中的一个可能带来bias的因素,实际上,除此以外,可能还有其他类型的不平衡或者mismatch, 如何保证模型真正学到了目标范围各个区间的unbiased知识?

References

  1. Ren J, Zhang M, Yu C, et al. Balanced MSE for Imbalanced Visual Regression[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 7926-7935.
  2. 官方代码:http://github.com/jiawei-ren/BalancedMSE;

[论文评析]Balanced MSE for Imbalanced Visual Regression,CVPR,2022相关推荐

  1. 论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022

    论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022 论文介绍 论文地址以及参考资料 Transformer 回顾 Self- ...

  2. 何恺明时隔2年再发一作论文:为视觉大模型开路,“CVPR 2022最佳论文候选预定”...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 杨净 明敏 雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitA ...

  3. 【论文笔记】EPro-PnP == Tongji U Alibaba DAMO ==CVPR‘2022 Best Student Paper

    EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estima ...

  4. CVPR 2022 结果出炉,最全论文下载及分类汇总(更新中)

    CVPR 2022 已经放榜啦,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%. 由于每年的 CVPR 全部论文以及相关细节公布都需要等到六月会议正式召开,因此,在这之前,为了让大家 ...

  5. Balanced MSE 使用指南

    Balanced MSE 使用指南 前言 论文地址:https://arxiv.org/abs/2203.16427 代码地址:https://github.com/jiawei-ren/Balanc ...

  6. 论文阅读Check it again:Progressive Visual Question Answering via Visual Entailment

    论文:Check it again:Progressive Visual Question Answering via Visual Entailment 代码:https://github.com/ ...

  7. 【读论文】Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network

    [读论文]Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network 发表于2017年,作者是南 ...

  8. 【论文笔记】A Survey of Visual Transformers(完结)

    声明: 本人是来自 γ 星球的外星人 为了学习地球的深度学习知识的,好回去建设自己的家乡 每周不定期更新自己的论文精读笔记,中心思想是两个字 --- 易懂 没啥事的兄弟姐妹们,可以和我探讨外星知识哦~ ...

  9. 京东探索研究院 34 篇论文入选 CVPR 2022

    关注公众号,发现CV技术之美 国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,是计算机视觉和模式识别领域的顶级会议.根据最新2021谷歌学术指标,CVPR在所有学术期刊和会议影 ...

最新文章

  1. R语言KMeans聚类分析确定最优聚类簇数实战:间隙统计Gap Statistic(确定最优聚类簇数)
  2. OSNIT信息收集分析框架OSRFramework
  3. 十招技巧将网络管理变成自动化
  4. 版本控制系统优缺点比较
  5. 【Java】JShell工具上手即用
  6. 什么样的人才容易被骗?
  7. js能判断当前字符串是一个完整单词吗_LeetCode30串联所有单词的子串31下一个排列...
  8. ehcache缓存共享(rmi方法)
  9. ASM 转自三思笔记
  10. DSP CCS软件仿真
  11. 正则表达式的语法汇总
  12. gyp node.lib下载失败_洛雪音乐助手下载-洛雪音乐助手手机官方版下载
  13. C++ 167. 两数之和 II 633. 平方数之和
  14. val什么意思vb中的属性值_VB语言中的val()函数是什么意思?如何使用?
  15. 分享个PS快速替换背景颜色的方法
  16. ios 查看crash日志
  17. 工程伦理第四章习题答案
  18. 手绘风格的白板Excalidraw
  19. C语言-初识C语言(4)
  20. 基于STM32的有限词条语音识别与对话模块

热门文章

  1. 全球裁员潮来势汹汹,谁能幸免于难?
  2. matlab点云三维重构,无序点云三维重建方法技术
  3. mysql之数据库设计规范_MySql与数据库设计规范
  4. js监听页面最大化,最小化事件
  5. JVM宕机问题排查,产生hs_err_pidpid.log与replay_pidpid.log日志
  6. LFM雷达实现及USRP验证【章节1:LFM基本原理】
  7. QT5.14.2自带Examples:Bars
  8. 发现一只野生无知的小宾
  9. 深入了解C read/write函数和cat命令实现
  10. Swin Transformer 论文精读,并解析其模型结构