目前存在的问题:现实生活中的数据集的不平衡问题导致模型学出来的特征不平衡,多数类会主导特征空间。

动机:

提出一种新型的训练模式k-positive contrastive learning. 结合了监督方法和对比学习方法的优点,学习具有区别性和均衡性的特征。

之前的做法:

交叉熵损失:

CE损失训练的表示模型具有较强的语义识别能力,但其生成的特征空间容易因训练实例分布的不平衡而产生偏差,如果某些类的训练实例明显多于其他类,它们的数据表示将占据特征空间的主导部分

解释:

τ是温度超参数

vi+是i的正样本,通常是数据增强,

vi-是i的负样本,从训练样本中随机抽取。

具体步骤:

对于每一个batch中的每一个输入xi,都选取中选取和xi属于同一个类的k个正样本,在去拉近彼此之间的特征距离。

KCL损失函数:

解释:

从同一个类中提取k个实例组成正样本集V+i,

Vik+是同一个类的k个vi的集合

~vi是vi数据增强后的特征向量

不只使用数据增强的正样本

监督对比学习利用来自同一类的所有实例来构建正样本对,这无法避免在表示学习中多数的类的主导地位,而KCL损失有意识地保持正样本的数量相等,这对于平衡学习到的特征空间至关重要。它带来了两个好处。首先,它利用标签信息作为监督学习,有助于学习具有更强辨别能力的表示。其次,在正样本结构中对所有类使用相同数量的实例(即k),进一步平衡了学习到的特征空间

指标:

Balancedness of feature spaces

解释:

ai是指模型对class i检测的准确度。

σ是一个固定的缩放参数

当所有类的准确度都相等时,即学习到的表示对任何类没有可分性偏差时,该指标达到最大值,这个指标是为了提供特征空间的平衡性的定量度量,但它有一定的局限性

与FCL对比

FCL是对一个batch中xi与它的所有数据增强的正样本进行对比,这样虽然有时取的样本数比KCL多,但是因为采样的问题,多数类的样本数往往比少数类的样本数要多得多,因此,多数类训练的次数就比少数类的次数多很多,这样会导致训练出来的模型对各个类所产生的特征空间就很不平衡,而KCL避免这一点,无论样本数目多少,都和固定的正样本数进行对比学习,这样的话,可以避免长尾分布造成 的特征空间分布不均的问题。

EXPLORING BALANCED FEATURE SPACES FOR REP-RESENTATION LEARNING(2022.5.18)相关推荐

  1. Learning Deep Learning(学习深度学习)

    作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:https://www.jianshu.com/p/e98c5f61a6f2 Learning ...

  2. 【转载】Few-shot learning(少样本学习)和 Meta-learning(元学习)概述

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/weixin_37589575/arti ...

  3. 速看!deep learning(rnn、cnn)调参的经验

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|视觉算法 话说三人行,必有我师焉.有哪些deep lea ...

  4. Few-shot learning(少样本学习)和 Meta-learning(元学习)概述

    目录 (一)Few-shot learning(少样本学习) 1. 问题定义 2. 解决方法 2.1 数据增强和正则化 2.2 Meta-learning(元学习) (二)Meta-learning( ...

  5. 你有哪些 Deep learning(RNN、CNN)调参的经验?

    来自 | 知乎-hzwer,北京大学 https://www.zhihu.com/question/41631631/answer/859040970 编辑 | 机器学习算法与自然语言处理,Dataw ...

  6. 【Kaggle】Intermediate Machine Learning(XGBoost + Data Leakage)

    文章目录 6. XGBoost 7. Data Leakage 数据泄露 上一篇:[Kaggle]Intermediate Machine Learning(管道+交叉验证) 6. XGBoost 参 ...

  7. 【Kaggle】Intermediate Machine Learning(管道+交叉验证)

    文章目录 4. Pipelines 管道 5. Cross-Validation 交叉验证 上一篇:[Kaggle]Intermediate Machine Learning(缺失值+文字特征处理) ...

  8. Machine Learning(吴恩达) 学习笔记(一)

    Machine Learning(吴恩达) 学习笔记(一) 1.什么是机器学习? 2.监督学习 3.无监督学习 4.单变量线性回归 4.1代价函数 4.2 梯度下降 5.代码回顾 最近在听吴恩达老师的 ...

  9. 【机器学习】Few-shot learning(少样本学习)

    文章目录 少样本学习的诞生 元学习 少样本学习 少样本学习中的相关概念 概念1:Support set VS training set 概念2:Supervised learning VS few-s ...

  10. 【论文研读】Self-supervised、unsupervised learning (2020最新论文)

    目录 Are Labels Necessary for Neural Architecture Search Self-supervised Learning: Generative or Contr ...

最新文章

  1. javascript中对象在OOP方面的一些知识(主要是prototype和__proto__相关)
  2. ADB命令行控制界面开关
  3. 最深刻最通俗的HTTPS 原理详解,图文并茂
  4. [译]解密 Uber 数据科学团队路径选择算法的优化之路
  5. 计算机英语 动态,计算机英语高级词汇精选
  6. 今晚被两个bug 困扰---第一个,小程序数组传递到PHP后台变成了字符串,导致解析失败
  7. ArcGIS for window mobile 数据打开
  8. javascript --- 变量污染全局作用域问题解决方案
  9. 课程设计-毕业设计-JAVA画板课程设计---总之岁月漫长,然而值得等待。
  10. Equals和==的差别
  11. Revit二次开发示例:APIAppStartup
  12. Upload LABS Pass-8
  13. netsh命令恢复网络_Linux TC模拟网络延迟、丢包、乱序
  14. 云栖大会「云计算产业升级峰会」免费抢票啦!
  15. idea 2018 3.3版本破解
  16. 队列DID:以知识青年“上山下乡”为例
  17. C++继承详解(三):抽象类和纯虚函数、多重继承与虚基类的底层实现原理详解
  18. 估计很多人不知道:在PowerPoint中插入图片的三种方式用法和解析
  19. 小程序用哪个服务器好,小程序用什么服务器好
  20. 工程伦理和学术道德(2021秋)

热门文章

  1. 递归算法php,PHP递归算法的详细示例分析
  2. linux xfs文件系统故障修复,xfs文件系统修复方法
  3. Python+vue设计并实现了宾馆酒店客房管理系统django flask
  4. 百度识图API教程一:使用百度api识别物体
  5. 配置WindowsMobile仿真器上网
  6. 如何用photoshop做24色环_【PS教你快速绘制超漂亮的色环】 24色环图绘制
  7. 用python写了个简单的178漫画下载器
  8. FastDFS安装手册
  9. 互联网电商数据分析常用的指标
  10. JAVA学习笔记之J2SDK主要包介绍 (马士兵 教学视频)