EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)
目前存在的问题:现实生活中的数据集的不平衡问题导致模型学出来的特征不平衡,多数类会主导特征空间。
动机:
提出一种新型的训练模式k-positive contrastive learning. 结合了监督方法和对比学习方法的优点,学习具有区别性和均衡性的特征。
之前的做法:
交叉熵损失:
CE损失训练的表示模型具有较强的语义识别能力,但其生成的特征空间容易因训练实例分布的不平衡而产生偏差,如果某些类的训练实例明显多于其他类,它们的数据表示将占据特征空间的主导部分
解释:
τ是温度超参数
vi+是i的正样本,通常是数据增强,
vi-是i的负样本,从训练样本中随机抽取。
具体步骤:
对于每一个batch中的每一个输入xi,都选取中选取和xi属于同一个类的k个正样本,在去拉近彼此之间的特征距离。
KCL损失函数:
解释:
从同一个类中提取k个实例组成正样本集V+i,
Vik+是同一个类的k个vi的集合
~vi是vi数据增强后的特征向量
不只使用数据增强的正样本
监督对比学习利用来自同一类的所有实例来构建正样本对,这无法避免在表示学习中多数的类的主导地位,而KCL损失有意识地保持正样本的数量相等,这对于平衡学习到的特征空间至关重要。它带来了两个好处。首先,它利用标签信息作为监督学习,有助于学习具有更强辨别能力的表示。其次,在正样本结构中对所有类使用相同数量的实例(即k),进一步平衡了学习到的特征空间
指标:
Balancedness of feature spaces
解释:
ai是指模型对class i检测的准确度。
σ是一个固定的缩放参数
当所有类的准确度都相等时,即学习到的表示对任何类没有可分性偏差时,该指标达到最大值,这个指标是为了提供特征空间的平衡性的定量度量,但它有一定的局限性
与FCL对比
FCL是对一个batch中xi与它的所有数据增强的正样本进行对比,这样虽然有时取的样本数比KCL多,但是因为采样的问题,多数类的样本数往往比少数类的样本数要多得多,因此,多数类训练的次数就比少数类的次数多很多,这样会导致训练出来的模型对各个类所产生的特征空间就很不平衡,而KCL避免这一点,无论样本数目多少,都和固定的正样本数进行对比学习,这样的话,可以避免长尾分布造成 的特征空间分布不均的问题。
EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)相关推荐
- Learning Deep Learning(学习深度学习)
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:https://www.jianshu.com/p/e98c5f61a6f2 Learning ...
- 【转载】Few-shot learning(少样本学习)和 Meta-learning(元学习)概述
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_37589575/arti ...
- 速看!deep learning(rnn、cnn)调参的经验
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|视觉算法 话说三人行,必有我师焉.有哪些deep lea ...
- Few-shot learning(少样本学习)和 Meta-learning(元学习)概述
目录 (一)Few-shot learning(少样本学习) 1. 问题定义 2. 解决方法 2.1 数据增强和正则化 2.2 Meta-learning(元学习) (二)Meta-learning( ...
- 你有哪些 Deep learning(RNN、CNN)调参的经验?
来自 | 知乎-hzwer,北京大学 https://www.zhihu.com/question/41631631/answer/859040970 编辑 | 机器学习算法与自然语言处理,Dataw ...
- 【Kaggle】Intermediate Machine Learning(XGBoost + Data Leakage)
文章目录 6. XGBoost 7. Data Leakage 数据泄露 上一篇:[Kaggle]Intermediate Machine Learning(管道+交叉验证) 6. XGBoost 参 ...
- 【Kaggle】Intermediate Machine Learning(管道+交叉验证)
文章目录 4. Pipelines 管道 5. Cross-Validation 交叉验证 上一篇:[Kaggle]Intermediate Machine Learning(缺失值+文字特征处理) ...
- Machine Learning(吴恩达) 学习笔记(一)
Machine Learning(吴恩达) 学习笔记(一) 1.什么是机器学习? 2.监督学习 3.无监督学习 4.单变量线性回归 4.1代价函数 4.2 梯度下降 5.代码回顾 最近在听吴恩达老师的 ...
- 【机器学习】Few-shot learning(少样本学习)
文章目录 少样本学习的诞生 元学习 少样本学习 少样本学习中的相关概念 概念1:Support set VS training set 概念2:Supervised learning VS few-s ...
- 【论文研读】Self-supervised、unsupervised learning (2020最新论文)
目录 Are Labels Necessary for Neural Architecture Search Self-supervised Learning: Generative or Contr ...
最新文章
- javascript中对象在OOP方面的一些知识(主要是prototype和__proto__相关)
- ADB命令行控制界面开关
- 最深刻最通俗的HTTPS 原理详解,图文并茂
- [译]解密 Uber 数据科学团队路径选择算法的优化之路
- 计算机英语 动态,计算机英语高级词汇精选
- 今晚被两个bug 困扰---第一个,小程序数组传递到PHP后台变成了字符串,导致解析失败
- ArcGIS for window mobile 数据打开
- javascript --- 变量污染全局作用域问题解决方案
- 课程设计-毕业设计-JAVA画板课程设计---总之岁月漫长,然而值得等待。
- Equals和==的差别
- Revit二次开发示例:APIAppStartup
- Upload LABS Pass-8
- netsh命令恢复网络_Linux TC模拟网络延迟、丢包、乱序
- 云栖大会「云计算产业升级峰会」免费抢票啦!
- idea 2018 3.3版本破解
- 队列DID:以知识青年“上山下乡”为例
- C++继承详解(三):抽象类和纯虚函数、多重继承与虚基类的底层实现原理详解
- 估计很多人不知道:在PowerPoint中插入图片的三种方式用法和解析
- 小程序用哪个服务器好,小程序用什么服务器好
- 工程伦理和学术道德(2021秋)