代码:https://github.com/shiranzada/pure-noise

ICML2022 | 纯噪声解决数据不足问题

摘要

本文针对训练数据稀缺或高度不平衡问题,提出了一种简单且高效的方法来减轻这一限制:使用纯噪声图像作为额外的训练数据。同时,提出了一种新的分布感知路由批处理归一化层(DAR-BN),它可以在同一网络内同时训练自然图像和纯噪声图像。

长尾分布

在实际的视觉应用中,数据集大多服从长尾分布,即少数类别占据绝大多数样本,多数类别仅有少量样本。训练数据稀缺或高度不平衡时,会导致模型偏向于大多数类,对少数类的泛化性较差。
有两种常见的方法来弥补训练过程中的类不平衡:重新加权损失项,以便对少数样本的预测误差惩罚更高;重采样数据集以重新平衡训练期间的类分布,但会导致对少数样本的过度拟合。

Architecture


左边为OPeN,重新平衡了一个不平衡的数据集与纯噪声图像,以及过采样的自然图像。在OPeN中,用DAR-BN替换了标准的批处理归一化层。右边为“分布感知路由BN”(DAR-BN),通过处理自然图像和纯噪声图像之间的分布差距,分别对它们进行归一化。仅在自然输入上学习仿射参数,并用于正确地缩放和移动噪声输入。

方法

平衡数据集

对原始图像(蓝色部分)进行过采样(绿色部分),同时添加纯随机噪声图像(橙色部分),由于标准的过采样会导致少数类的过拟合问题,所以文章用纯随机噪声图像替换部分过采样图像。


替换成纯随机噪声图像的概率如下,其中ρ表示i类别在总样本中的占比:

随机生成的噪声图像服从正态分布,按照正态分布从噪声图像中采样,并裁剪到可行域[0,1];在每一个epoch,随机采样新的噪声图像,因为这有助于网络避免对特定噪声图像的过拟合。

Batch Normalization

先回顾一下BN的公式,因为本文的DAR-BN是在BN基础上改进得到的。

DAR-BN


DAR-BN将噪声激活图和自然激活图分别归一化, 利用自然激活映射学习到的仿射参数来缩放和移动噪声激活映射。

实验


AA代表在CIFAR-10上优化的AutoAugment。

消融实验

总结

本文提出了一种新的不平衡图像分类框架(OPeN):通过使用纯噪声图像作为额外的训练样本,以及特殊的分布感知归一化层(DAR-BN)来重新平衡训练集。方法在各种不平衡的分类benchmark上实现了SOTA结果。

ICML 2022|Pure Noise to the Rescue of Insufficient Data:Improving Imbalanced Classification by Train相关推荐

  1. ICML 2022 第一届关于新冠病毒的智慧医疗研讨会

    关注公众号,发现CV技术之美 ICML 2022, The 1st Workshop on Healthcare AI and COVID-19 征稿 ICML 2022 第一届关于新冠病毒的智慧医疗 ...

  2. #今日论文推荐# 阿里达摩院最新FEDformer,长程时序预测全面超越SOTA | ICML 2022

    #今日论文推荐# 阿里达摩院最新FEDformer,长程时序预测全面超越SOTA | ICML 2022 时间序列预测在众多领域中(例如电力.能源.天气.交通等)都有广泛的应用.时间序列预测问题极具挑 ...

  3. ICML 2022|达摩院多模态模型OFA,实现模态、任务和架构三个统一

    作者:霜清.钟煌.鸿侠 通用统一的预训练大模型逐渐成为AI研究的一大趋势,本文将介绍达摩院提出的多模态模型OFA,是如何实现架构.模态.任务的三个统一. 近年来,基于大规模无监督数据的预训练逐渐成为深 ...

  4. 从ICML 2022看域泛化(Domain Generalization)最新进展

    ©PaperWeekly 原创 · 作者 | 张一帆 单位 | 中科院自动化所博士生 研究方向 | 计算机视觉 Domain Generalization(DG:域泛化)一直以来都是各大顶会的热门研究 ...

  5. ICML 2022审稿结果惹争议!LeCun:我3篇全拒了!马毅:我再也不投了...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心  |  编辑:蛋酱 审稿这件事,总会有人是不满意的. 刚刚,图灵奖得主Yann LeCun ...

  6. 今天9:30 | ICML 2022 11位论文一作带你走进机器学习领域顶级会议

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 8月24日9:30,本期我们邀请到ICML 2022的十一位讲者给大家带来精彩的分享! 哔哩哔哩直播通道 扫码关注AI TIME哔哩哔哩 ...

  7. ​一文梳理ICML 2022中图机器学习热点和趋势

    ©作者 | Mikhail Galkin,Zhaocheng Zhu 译者 | Zhaocheng Zhu 单位 | Mila研究所/麦吉尔大学/蒙特利尔大学 研究方向 | 图机器学习,知识图谱 每年 ...

  8. ICML 2022 | 腾讯AI Lab入选论文解读

    感谢阅读腾讯 AI Lab 微信号第 150 篇文章.本文为腾讯 AI Lab 入选 ICML 2022 的 7 篇论文解读. ICML(International Conference on Mac ...

  9. ICML 2022 | 清华提出FGST:首个视频去模糊的Transformer

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:披星戴月的奔波  |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...

最新文章

  1. 如何使PING命令带上日期,做长久的跟踪
  2. 【收藏】windows下 Mysql 错误 Can‘t open and lock privilege tables: Table ‘mysql.user‘ doesn‘t exist
  3. Diversity HDU - 6725
  4. 出现Press ENTER or type command to continue的原因
  5. Java LinkedHashMap clear()方法与示例
  6. Python练习:百分制到五级制的转换
  7. html语言class,HTML DOM
  8. FPGA智能传感系统(二)基于FPGA的交通灯设计
  9. UBUNTU18.04系统安装打印机
  10. Mstar的Monitor方案OSD 菜单制作(五)——icon绘制
  11. 《服务外包概论》知识点梳理
  12. 神奇的二进制转换和运算
  13. ARM:嵌入式系统之ARM指令
  14. SQL --理解SQL SERVER中的逻辑读,预读和物理读
  15. # 7-3 二分法求多项式单根
  16. android AMS学习(一)
  17. Redis key键命令
  18. 深信服2020校招前端一面面经
  19. 中文路由Traceroute介绍
  20. Perf的安装与简单使用

热门文章

  1. 如何用ChatGPT协助搭建品牌视觉体系(VI)?
  2. 空压机设备远程监控解决方案
  3. 简单对比创建对象的三种方式
  4. 张驰课堂:六西格玛培训工具——箱线图
  5. 牛叔说电影-励志四部曲之死亡诗社
  6. 科技爱好者周刊:第 92 期
  7. Java别在使用普通的照片上传了,你可以使用开源的minio实现图片的上传,方便又简单
  8. Fitts’ Law / 菲茨定律(费茨法则)
  9. 多版本OpenCV+OpenCV_contrib安装及使用
  10. 大数据平台的服务内容以及猛犸大数据平台近期的思考【摘录】