Cross-Domain Empirical Risk Minimization for Unbiased Long-Tailed Classification

  • 文章信息
  • 背景
  • 动机
  • 方法
    • 因果分析
    • xERM
  • 总结
  • References

文章信息

题目:Cross-Domain Empirical Risk Minimization for Unbiased Long-Tailed Classification
发表: AAAI,2022
作者: Beier Zhu 1 , Yulei Niu 1 * , Xian-Sheng Hua 2 , Hanwang Zhang 1

背景

不平衡分类的研究是一个经久不衰的话题, 从最早的采样方法, 代价敏感学习Cost-sensitive learning, Focal loss, 到最近新提出来的Logit adjustment, LAbel distribution DisEntangling (LADE), PolyLoss, 等等,层出不穷. 虽然研究的思路/出发点不尽相同,但是本质上大都是强调对Minority class的关注.

与上述文章不同,这篇文章揭示了不平衡学习中的本质问题,从跨域的经验误差分析出发提出了一种范化性更强的方法,

动机

作者首先揭示了不平衡分类研究中的一个有意思的现象: 相关研究似乎陷入了head vs. tail game. 具体来说: (1) 对于Naive methods (即没有考虑不平衡的分类方法), long-tailed dataset使得模型biased towards head class, 从而对于少数类效果差; (2) 常见的不平衡方法本质上是通过更加关注tail class, 这意味着head class一定程度上被忽视, 从而模型对于测试集和训练集有同样bias的情形时效果很差.

那么, 如何构建真正unbiased的模型呢? 作者从跨域的经验误差最小化分析的角度出发,提出了一个更加general, 更加简洁的Loss, 实验证明: 该方法通过学习更好的feature representation来训练一个unbiased model, 从而使其在balanced & imbalanced test set上效果都很好

方法

因果分析

作者首先从因果图分析,
X: 输入图像,
Y: 预测值/label
S: 选择变量
对于左边的图, X ← S → Y X\leftarrow S\rightarrow Y X←S→Y, 选择变量S实际上引入了X与Y之间虚假的相关性, 因此直接学习 P ( Y ∣ X ) P(Y|X) P(Y∣X)不可避免的会引入这种虚假的相关性. 作者删掉了指向X的箭头, 并引入了后干预操作 d o ( X ) do(X) do(X), 这样一来学习的目标变成了 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Y∣do(X)).

xERM

基于上述的因果分析, 要学习的估计器 f f f在干预分布(即引入了 d o ( X ) do(X) do(X)操作之后的)上的经验风险可以定义为:

如何来计算 P ( y ∣ d o ( x ) ) P(y|do(x)) P(y∣do(x))? 基于全概率公式,作如下展开:
其中:
s=0: 平衡域
s=1:不平衡域

将公式7带入6:
(假设共有N个samples, 且独立同分布)
这里有两个问题需要考虑:
(1) 如何获得 y s = 0 y_{s=0} ys=0​
由于训练集本身是biased, balanced domain实际上是不可见的.
y s = 0 y_{s=0} ys=0​实际上是通过训练的balanced model---- p b a l ( y ∣ x ) p^{bal}(y|x) pbal(y∣x)来估计的.
(2) 如何估计样本权重 P ( x P ( x ∣ S ) \frac{P(x}{P(x|S)} P(x∣S)P(x​,
由于 p ( x ) p ( x ∣ s ) = s s ∣ x \frac{p(x)}{p(x|s)}=\frac{s}{s|x} p(x∣s)p(x)​=s∣xs​,进一步假设 P ( S = 1 ) = P ( S = 0 ) P(S=1)=P(S=0) P(S=1)=P(S=0), 可得:
p ( x ) p ( x ∣ S ) ∝ 1 p ( s ∣ x ) \frac{p(x)}{p(x|S)}\propto\frac{1}{p(s|x)} p(x∣S)p(x)​∝p(s∣x)1​. 因此作者提出采用模型的交叉熵损失来衡量两个域各自的weights:

最终,XERM完整的流程如下:

总结

1.感觉这篇文章最重要的是指出了不平衡分类中存在的head vs. tail game问题,
2. 以往的文章主要都是关于误差分布与标记分布之间的关系, 这篇文章在理论分析并结合实验发现, xERM通过学习更好的特征表示来提升性能. 最终证实xERM实现无偏的原因: 通过调整不平衡域和平衡但不可见域上的经验风险来消除由域选择引起的偏差.

References

  1. Zhu, Beier, et al. “Cross-domain empirical risk minimization for unbiased long-tailed classification.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 36. No. 3. 2022.

[论文评析]Cross-Domain Empirical Risk Minimization for Unbiased Long-Tailed Classification,AAAI,2022相关推荐

  1. mixup:beyond empirical risk minimization

    全网最全:盘点那些图像数据增广方式Mosiac,MixUp,CutMix等. - 知乎全网最全:盘点那些图像数据增广方式Mosiac,MixUp,CutMix等. 本文由林大佬原创,转载请注明出处,来 ...

  2. mixup: BEYOND EMPIRICAL RISK MINIMIZATION

    原文:https://arxiv.org/pdf/1710.09412.pdf 代码:https://github.com/hongyi-zhang/mixup 摘要:深度神经网络非常强大,但也有一些 ...

  3. 【深度学习】Mixup: Beyond Empirical Risk Minimization

    博主整理了近几年混合样本数据增强(Mixed Sample Data Augmentation)相关论文和代码,并分享在github上,地址如下, https://github.com/JasonZh ...

  4. ICLR2018_mixup: Beyond Empirical Risk Minimization

    作者 Hongyi Zhang 张宏毅 @ 张宏毅知乎      北大->MIT    论文所属FAIR Abstract 深度神经网络有些不好的行为:强记忆和对对抗样本敏感 Christian ...

  5. 【Mixup】《Mixup:Beyond Empirical Risk Minimization》

    ICLR-2018 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Method 5 Ex ...

  6. [ICLR 2018] mixup: Beyond Empirical Risk Minimization

    Contents Mixup Experiments Image Classification Task Speech data Memorization of Corrupted Labels Ro ...

  7. 机器学习理论 之 经验风险最小化(Empirical Risk Minimization)

    该理论探讨的是模型在training set上的error 与 generation error的关系. 训练模型时,需要多少个样本,达到什么精度,都是由理论依据的. 理论点: 偏差方差权衡(Bias ...

  8. mixup: BEYOND EMPIRICAL RISK MINIMIZATION 小笔记

    概述 文章指出一些成功的神经网络所有的两个共同点:首先是会拟合一个训练集,其次是模型规模随着数据集样本增多而增大.同时也指出一些问题:一是尽管在很强的正则化下,模型也可以记住训练数据,而不是根据泛化得 ...

  9. 经验风险最小化(ERM, Empirical risk minimization)

    转自:http://sophic.blog.163.com/blog/static/35997947201362975230995/

最新文章

  1. Ubuntu 14.04 64bit上安装Intel官方集显更新驱动程序
  2. struts.properties配置详解
  3. 笨办法学R编程(2)
  4. 3梅林刷官改变砖_陶瓷透水砖的四大明显优势
  5. STM32用keil5调试程序出现 Error:Flash Download Failed-Cortex-M3解决方案
  6. [Java in NetBeans] Lesson 06. Custom classes
  7. Java自动化获取页面主题_基于Selenium2+Java的UI自动化(4) - WebDriver API简单介绍
  8. Codeforces Codeforces Round #383 (Div. 2) E (DFS染色)
  9. 前端jquery学习
  10. NGUI中的UIGrid
  11. DirectX9常用软件运行库
  12. 网页唤起QQ临时会话
  13. Ubuntu操作系统的学习,新手上路
  14. Chrome 小恐龙
  15. SAP公有云和私有云解决方案概述
  16. B站动态自检方法1 bilibili应用自检
  17. oracle rfs进程过多,Oracle物理备库RFS进程消失,不能启动--解决
  18. MIS软件工程师的面试问题与方法
  19. 【小知识】linux下ls与ll的区别
  20. Map.entry到底是什么鬼?--------(不理解的就进来看看呀呀)

热门文章

  1. xml 转 java_XML转换为JAVA
  2. NIO Reactor模型
  3. Spring Boot——分布式
  4. python的类作用_python中类的作用是什么
  5. linux 安装rpm qt can't creat,centos 下 Qt Creator 的安装使用
  6. 【学习总结】思想提升
  7. java内存泄露和内存溢出
  8. Linux下安装DM数据库及SrpingBoot+druid连接DM数据库
  9. SELinux的三种工作模式详解
  10. linux在文件开头和结尾添加内容