ICML 2022|Pure Noise to the Rescue of Insufficient Data:Improving Imbalanced Classification by Train
代码:https://github.com/shiranzada/pure-noise
ICML2022 | 纯噪声解决数据不足问题
摘要
本文针对训练数据稀缺或高度不平衡问题,提出了一种简单且高效的方法来减轻这一限制:使用纯噪声图像作为额外的训练数据。同时,提出了一种新的分布感知路由批处理归一化层(DAR-BN),它可以在同一网络内同时训练自然图像和纯噪声图像。
长尾分布
在实际的视觉应用中,数据集大多服从长尾分布,即少数类别占据绝大多数样本,多数类别仅有少量样本。训练数据稀缺或高度不平衡时,会导致模型偏向于大多数类,对少数类的泛化性较差。
有两种常见的方法来弥补训练过程中的类不平衡:重新加权损失项,以便对少数样本的预测误差惩罚更高;重采样数据集以重新平衡训练期间的类分布,但会导致对少数样本的过度拟合。
Architecture
左边为OPeN,重新平衡了一个不平衡的数据集与纯噪声图像,以及过采样的自然图像。在OPeN中,用DAR-BN替换了标准的批处理归一化层。右边为“分布感知路由BN”(DAR-BN),通过处理自然图像和纯噪声图像之间的分布差距,分别对它们进行归一化。仅在自然输入上学习仿射参数,并用于正确地缩放和移动噪声输入。
方法
平衡数据集
对原始图像(蓝色部分)进行过采样(绿色部分),同时添加纯随机噪声图像(橙色部分),由于标准的过采样会导致少数类的过拟合问题,所以文章用纯随机噪声图像替换部分过采样图像。
替换成纯随机噪声图像的概率如下,其中ρ表示i类别在总样本中的占比:
随机生成的噪声图像服从正态分布,按照正态分布从噪声图像中采样,并裁剪到可行域[0,1];在每一个epoch,随机采样新的噪声图像,因为这有助于网络避免对特定噪声图像的过拟合。
Batch Normalization
先回顾一下BN的公式,因为本文的DAR-BN是在BN基础上改进得到的。
DAR-BN
DAR-BN将噪声激活图和自然激活图分别归一化, 利用自然激活映射学习到的仿射参数来缩放和移动噪声激活映射。
实验
AA代表在CIFAR-10上优化的AutoAugment。
消融实验
总结
本文提出了一种新的不平衡图像分类框架(OPeN):通过使用纯噪声图像作为额外的训练样本,以及特殊的分布感知归一化层(DAR-BN)来重新平衡训练集。方法在各种不平衡的分类benchmark上实现了SOTA结果。
ICML 2022|Pure Noise to the Rescue of Insufficient Data:Improving Imbalanced Classification by Train相关推荐
- ICML 2022 第一届关于新冠病毒的智慧医疗研讨会
关注公众号,发现CV技术之美 ICML 2022, The 1st Workshop on Healthcare AI and COVID-19 征稿 ICML 2022 第一届关于新冠病毒的智慧医疗 ...
- #今日论文推荐# 阿里达摩院最新FEDformer,长程时序预测全面超越SOTA | ICML 2022
#今日论文推荐# 阿里达摩院最新FEDformer,长程时序预测全面超越SOTA | ICML 2022 时间序列预测在众多领域中(例如电力.能源.天气.交通等)都有广泛的应用.时间序列预测问题极具挑 ...
- ICML 2022|达摩院多模态模型OFA,实现模态、任务和架构三个统一
作者:霜清.钟煌.鸿侠 通用统一的预训练大模型逐渐成为AI研究的一大趋势,本文将介绍达摩院提出的多模态模型OFA,是如何实现架构.模态.任务的三个统一. 近年来,基于大规模无监督数据的预训练逐渐成为深 ...
- 从ICML 2022看域泛化(Domain Generalization)最新进展
©PaperWeekly 原创 · 作者 | 张一帆 单位 | 中科院自动化所博士生 研究方向 | 计算机视觉 Domain Generalization(DG:域泛化)一直以来都是各大顶会的热门研究 ...
- ICML 2022审稿结果惹争议!LeCun:我3篇全拒了!马毅:我再也不投了...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心 | 编辑:蛋酱 审稿这件事,总会有人是不满意的. 刚刚,图灵奖得主Yann LeCun ...
- 今天9:30 | ICML 2022 11位论文一作带你走进机器学习领域顶级会议
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 8月24日9:30,本期我们邀请到ICML 2022的十一位讲者给大家带来精彩的分享! 哔哩哔哩直播通道 扫码关注AI TIME哔哩哔哩 ...
- 一文梳理ICML 2022中图机器学习热点和趋势
©作者 | Mikhail Galkin,Zhaocheng Zhu 译者 | Zhaocheng Zhu 单位 | Mila研究所/麦吉尔大学/蒙特利尔大学 研究方向 | 图机器学习,知识图谱 每年 ...
- ICML 2022 | 腾讯AI Lab入选论文解读
感谢阅读腾讯 AI Lab 微信号第 150 篇文章.本文为腾讯 AI Lab 入选 ICML 2022 的 7 篇论文解读. ICML(International Conference on Mac ...
- ICML 2022 | 清华提出FGST:首个视频去模糊的Transformer
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:披星戴月的奔波 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...
最新文章
- 如何使PING命令带上日期,做长久的跟踪
- 【收藏】windows下 Mysql 错误 Can‘t open and lock privilege tables: Table ‘mysql.user‘ doesn‘t exist
- Diversity HDU - 6725
- 出现Press ENTER or type command to continue的原因
- Java LinkedHashMap clear()方法与示例
- Python练习:百分制到五级制的转换
- html语言class,HTML DOM
- FPGA智能传感系统(二)基于FPGA的交通灯设计
- UBUNTU18.04系统安装打印机
- Mstar的Monitor方案OSD 菜单制作(五)——icon绘制
- 《服务外包概论》知识点梳理
- 神奇的二进制转换和运算
- ARM:嵌入式系统之ARM指令
- SQL --理解SQL SERVER中的逻辑读,预读和物理读
- # 7-3 二分法求多项式单根
- android AMS学习(一)
- Redis key键命令
- 深信服2020校招前端一面面经
- 中文路由Traceroute介绍
- Perf的安装与简单使用