1.摘要与简介

现在的有监督学习需要大量的高质量的标签才能进行,而在真实情况下,我们往往不能获得非常多的高质量标签,我们获取到的标签可能是不完全的,同时也可能是不准确的,当然也可能是既不完全、也不准确的。这时传统的有监督学习就面临比较大的挑战,而本文作者正聚焦于此,他提出一种新的方法能够在大量无标签数据的帮助下减少具有噪声的标签带来的负面影响。这种方法也就被称作不完全、不准确监督学习,也可以单纯的理解为弱监督学习。

作者想要解决的问题在现实中很容易找到,比如对于医学图像的标注,因为医生数量有限,我们不可能把天下所有的医学图像数据都打上标签,这就是不完全;同时,由于医生的阅历各不相同,不同的医生对于同一张医学图像的标注可能是不同的,有的比较准,有的则不太准,可以理解为标签中带有一些噪声,这就是不准确。

现有的方法解决不完全,通常被称为Semi-Supervised Learning(SSL)半监督学习,解决不准确通常被称为Noisy Label Learning(NLL)噪声标签学习,他们各自为战,不能解决既不完全也不准确的问题,而本文的方法就是要统一地解决不完全、不准确的标签问题,进行不完全、不准确的弱监督学习。

2.方法

2.1 有监督学习

在了解本文的不完全和不准确监督学习之前,本文首先介绍了有监督学习(也就是完全和准确监督学习)的优化的目标。文中给的数学公式和讲解过于抽象,下面按照我的理解来简单讲解文中的公式。

假如我们现在有一个待分类的二分类数据集 ( x , y ) (x,y) (x,y),其中 x x x就是数据, y y y是对应数据的标签, y y y是+1或者-1。假定我们有 n P n_P nP​个带有标签的正样本, n N n_N nN​个带有标签的负样本。我们需要通过这些正样本和负样本来找到一个函数 g g g,它能够区分正样本和负样本。比如如果数据 x 2 x_2 x2​是一个正样本,那么我们最后需要找到的这个函数 g g g应该满足 g ( x 2 ) = + 1 g(x_2)=+1 g(x2​)=+1.

那么为了能够找到这样的函数 g g g,我们通常需要计算 g ( x ) g(x) g(x)与真实标签之间的误差,然后最小化这个误差就能够找到合适的 g g g。这时我们引入一个损失函数 l l l,不管这个 l l l具体是啥样的函数(文中拿一个Lipschitz-continuous loss为例),反正它达到的效果就是如果 x x x是一个正样本,那么 l ( g ( x ) , + 1 ) l(g(x), +1) l(g(x),+1)应该是比较小的,或者说我们期望它是比较小的,那么如果 x x x是一个负样本的话,那么 l ( g ( x ) , − 1 ) l(g(x), -1) l(g(x),−1)应该是比较小的,或者说我们期望它是比较小的。我们如果想找一个全局的最优解,也就是满足所有的数据 ( x , y ) (x,y) (x,y)的一个 g g g,那我们就应该看这个 g g g的期望风险是怎样的,期望风险越大,也就说明我们这个 g g g找的越不适合这个全局的分类任务,期望风险越小,也就表明这个 g g g越好。
于是乎,文章定义了期望风险,如下:

这个公式,我们直接看最后一行的结果,先不看 θ \theta θ, E P [ l ( g ( x ) , + 1 ) ] \mathbb{E}_P[l(g(x), +1)] EP​[l(g(x),+1)]这个东西就代表所有正样本的损失的期望(就是损失的均值),那么这个东西越大,就代表整体的损失比较大,也就代表这个 g g g对于正样本的判断能力越差,同理, E N [ l ( g ( x ) , − 1 ) ] \mathbb{E}_N[l(g(x), -1)] EN​[l(g(x),−1)]也就比较好理解了。那前面的 θ P \theta_P θP​和 θ N \theta_N θN​是干啥的呢?其实这两个是先验的正负样本的概率,比如如果我们现在知道这个样本总数是10,一共有3个正样本,那么 θ P = 3 / 10 \theta_P=3/10 θP​=3/10,这两个参数就是给正负样本的损失期望乘上了一个权值,如果一个样本集中,正样本的数量比较多些,那么 θ P \theta_P θP​就大一些,对于正样本的损失的期望这一项也就要大一些,也就是要重点监督一下正样本。假设 g g g的函数空间是 G G G,也就是我们可以在 G G G里面找到一个我们想要的 g g g,那么我们只需要优化这个期望风险,让它变得最小,就可以得到我们想要的 g ∗ g^* g∗,也就是如下:

这个式子的意思就是 g ∗ g^* g∗等于令期望风险最小的一个 g g g,并且这个 g g g是在 G G G这个函数空间里的。

利用期望风险,我们似乎就能够找到一个非常理想的 g g g,他对于我们假定的这个样本集中所有的数据都适用。但别忘了,现实很骨感,我们通常没有所有的标签,也就是我们只能利用我们样本集中的一部分有标签的样本来找到一个局部最优的解,找到一个局部理想的 g g g。找这个局部理想,我们需要用到的就不是期望风险了,而是经验风险,定义如下:

这个东西很好理解了,就是没有利用所有的样本去评估风险,只是用有标签的样本来评估,同样的,最小化这个风险,我们就获得了我们想要的 g g g,记作 g ^ \hat{g} g^​:

说白了,我们就是要根据合适的损失函数,然后根据有限带准确标签的样本(训练集)来最小化这个损失,从而找到一个局部最优解,这个就是有监督学习。

2.2 不完全学习(半监督学习)

这节讨论的是有准确的标签,但是标签不完全,只有一些样本有标签的情况。假设要解决一个二分类问题,我们有 n p n_p np​个有标签正样本, n U n_U nU​个无标签样本,那么在这种情况,我们就没办法计算
但是我们可以旁敲侧击的来计算它的经验风险。首先,假定损失函数 l l l满足下面这样一个式子:
接着,我们假定无标签的数据都是负样本,那么就有:

这个式子简单解释下,因为假定无标签数据都是负样本,但是其中可能有正样本,所以 E U [ l ( g ( x ) , − 1 ) ] E_U[l(g(x), -1)] EU​[l(g(x),−1)]这个东西等于l(g(x), -1)的正负样本的期望的和,当然前面也加上之前我们说的权值,再把 l ( g ( x ) , + 1 ) + l ( g ( x ) , − 1 ) = 1 l(g(x), +1) +l(g(x), -1)=1 l(g(x),+1)+l(g(x),−1)=1这个假设带进去,就得到了最后的结果。
这样就能得到可以计算的经验风险了:

这个式子推导如下:

同2.1小节类似,也就能得到:


2.3 本文提出的方法

本文先提出了一种面向不准确监督学习的经验风险,然后提出了用无标签数据来估计不准确监督学习的经验风险中两个主要参数的方法,这些方法结合到一起,就构成了不完全、不准确监督学习方法(LIoIS)。

2.3.1 one-side不准确监督学习(oIS)

首先,本文的方法有一些假设:

  1. 正标签是无噪声的,负标签是有与实例相关的噪声的;(负标签不准)
  2. 分类先验概率是已知的;(真实场景下的分类先验是可以根据正样本和无标签样本估计出来)
  3. 噪声是与实例相关的噪声;

定义1:
oIS的risk被本文定义为:

这里面,P和N上面加波浪线是表示不准确的意思,P不准确是因为有一些不准确的负样本实际上是正样本,N不准确的原因是因为有一部分负样本被标注成了正样本,如果不考虑这些特殊情况,也就是不考虑标签的噪声,直接用之前的risk,就会导致学习的性能大受影响。所以本文引入两个重要的参数, σ − \sigma_- σ−​和 σ + \sigma_+ σ+​,他们的定义如下:

这两个东西实际上是两个先验概率, σ + \sigma_+ σ+​表示真实标签是+1条件下,观测到的标签也是+1的概率的倒数, σ − \sigma_- σ−​表示观测到标签是-1的条件下,真实标签是-1的概率。这两个参数看下来的感觉就是,我们还是要知道真实的标签。

PS:其实看到这里,这里比较疑惑,我们实际拿到数据时,怎么能看出这个标签是否是真实的(无噪声的),是凭借人脸一个一个看吗?如果一个一个检查完,那为啥不直接用有监督学习…看到后面才发现,本文的另一个工作,就是使用不完全的监督来估计这两个值,这个在下一节会进行讨论。

从这两个参数的定义来看,如果负标签的噪声比较大,那么 σ − \sigma_- σ−​应该是比较小的, σ + \sigma_+ σ+​应该是比较大的,也就是负标签噪声越大的时候,给负损失的loss值的权重越小,也就降低噪声的影响。

那么,这种定义下的经验risk如下:
.

从这个式子来看,我们还是需要知道训练集标签是正确的先验概率,但在实际应用时,这个先验概率是无法获得的(如果可以获得这个先验概率,也就说明可以直接用有监督学习),所以本文的另一个工作就是用不完全监督来估计这两个参数。

2.3.2 通过不完全监督来估计 σ + \sigma_+ σ+​和 σ − \sigma_- σ−​

首先让我们我们重新写一下之前写过的 σ \sigma σ的表达式:

最后 σ + \sigma_+ σ+​可以写为:

这个式子用反证法很好证明, σ − \sigma_- σ−​下面的估计方式是类似的,这里就不详细展开了。
这个式子中,只有 θ P \theta_P θP​、 θ P ~ \theta_{\widetilde{P}} θP ​和 σ + r \sigma_{+r} σ+r​是未知的,前两个未知量可以用下面的式子来估计:

其中, n y P U n_{yPU} nyPU​表示通过前面的这个东西:

估计出的正样本的数量,可以理解为伪正标签的数量,而 n y ^ n_{\hat{y}} ny^​​则就是正标签的数量。

那么现在就剩下 σ + r \sigma_{+r} σ+r​这个东西求不出来了,文中利用Bregman散度来估计 σ + r \sigma_{+r} σ+r​,用到下面这个式子:

这个式子咋来的,我没有具体研究过,里面的 f f f表示任意一个凸函数,最小化这个式子,最后的到的 σ + r \sigma_{+r} σ+r​就是我们需要的。

至此,我们就估计出了 σ + \sigma_+ σ+​,同理,也可以估计出 σ − \sigma_- σ−​。

到这里,本文其实实现了一个重要突破,那就是利用无负样本标签的不完全监督学习实现了对不准确监督学习性能的提升。也就是说,这里的不完全监督学习就是为了消除不准确监督中样本噪声带来的负面影响而使用的。

小结
目前,本文一共定义了两个risk,一个是oIS(One-sided Inaccurate Supervision) 的risk,如下:

这个里面关键的就是如何来估计 σ + \sigma_+ σ+​和 σ − \sigma_- σ−​。
另一个risk是PU(Positive and Unlabeld) 的risk, 如下:

这个东西是可以直接来计算的,最小化它得到的函数用来生成伪标签。

2.3.3 不完全和不准确监督学习(LIoIS)

整体的框架,我们把oIS risk和 PU risk,用一定的权值结合起来,就是整体的risk了,如下:

因为这个里面, R P U R_{PU} RPU​是用来提供伪标签的,它需要带标签的正样本,而 R o I S R_{oIS} RoIS​也要用到正样本,所以本文把正样本分为两个部分,把 P ~ \widetilde{P} P 分为 P 1 ~ \widetilde{P_1} P1​ ​和 P 2 ~ \widetilde{P_2} P2​ ​,则risk变为如下:

【弱监督学习】Learning from Incomplete and Inaccurate Supervision相关推荐

  1. 关于弱监督学习的详细介绍——A Brief Introduction to Weakly Supervised Learning

    目录 介绍 主动学习 半监督学习 多实例学习 带噪学习 Snorkel 框架介绍 参考 介绍 在机器学习领域,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习.通常,两者都需要从包含大量训 ...

  2. 弱监督学习 weakly supervised learning 笔记

    周志华 A Brief Introduction to Weakly Supervised Learning 2018 引言 在机器学习领域,学习任务可以划分为监督学习.非监督学习.通常,两者都需要从 ...

  3. A brief introduction to weakly supervised learning(简要介绍弱监督学习)

    文章转载自http://www.cnblogs.com/ariel-dreamland/p/8566348.html A brief introduction to weakly supervised ...

  4. [读论文]弱监督学习的精确 3D 人脸重建:从单个图像到图像集-Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From

    论文地址:Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From Single Image to Image Set ...

  5. 自监督学习、半监督学习、弱监督学习

    一.自监督学习 总结来说:就算利用没有标签的数据,训练模型的提取特征的能力,相当于对模型进行预训练,详细解释可以参考文章:自监督学习 二.弱监督学习 1.三种类别:不完全监督(Incomplete s ...

  6. 南京大学周志华教授综述论文:弱监督学习

    点击上方"磐创AI",选择"置顶公众号" 精品文章,第一时间送达 来源:NSR 转载自:机器之心,未经允许不得二次转载 在<国家科学评论>(Nati ...

  7. 【深度学习】基于弱监督学习处理图像的应用

    文章目录 1 概述 2 常用的弱监督分割算法 2.1 基于image-level tags的分割算法 2.2 弱监督学习医学图像分割 3 实例分割 4 弱监督图像语义分割文献 1 概述 什么是弱监督学 ...

  8. 独家 | 2019 ICCV 收录论文:基于弱监督学习的病理影像分析框架

    论文传送门 ▼ 扫描下方二维码,或点击文末"阅读原文" 基于弱监督学习的病理影像分析框架 一.研究背景 恶性肿瘤是全球第二大死因,每年导致近千万人死亡.病理报告是肿瘤临床诊断和治疗 ...

  9. 【弱监督学习】End-to-end weakly supervised semantic segmentation with reliable region mining

    0.前言 这是一篇2022年发表在Pattern Recognition期刊上的一篇有关弱监督语义分割的文章.由于只使用图像级标签来训练语义分割模型扔充满挑战,并且现有弱监督方法都是两阶段的方法,缺少 ...

最新文章

  1. 2022-2028年中国再生金属行业投资分析及前景预测报告
  2. html5 手机上传图片
  3. android自定义控件绘制位置,Android自定义控件之——文字圆形边框(将文字绘制在圆中间)...
  4. 配合jenkins 启动jar包需要的脚本
  5. linux系统下nginx安装目录和nginx.conf配置文件目录
  6. Heritrix 3.1.0 源码解析(三十四)
  7. windows docker 设置镜像源_Windows10下搭建第一个Docker应用(Demo)
  8. Java中的集合HashSet、LinkedHashSet、TreeSet和EnumSet(二)
  9. 无线安全审计工具FruityWifi初体验
  10. 七张王牌助你做人做事顺遂成功
  11. php 如何拉取百度统计,如何添加百度统计工具?-MetInfo帮助中心
  12. 分布式轻量级任务调度框架-XXL-JOB(最全面,附带本人实战)
  13. 带你深入了解Web3开发者堆栈
  14. 用函数统计各分数段人数c语言,如何使用Excel函数统计各或分数段的人数(五种方法).doc...
  15. 芯片如何储存信息_手机上的你以为信息删了就彻底删除了?事情没那么简单
  16. IOS sqlite3 使用简单介绍 使用简单介绍
  17. UE4+科大讯飞语音听写
  18. 基于椭球 磁补偿 matlab,基于椭球拟合的三轴磁传感器误差补偿方法.pdf
  19. python图像处理(prewitt算子)
  20. python:爬取58同城全部二手商品信息(转转网)

热门文章

  1. Python正则表达式匹配中文
  2. 一些关于对在在线编辑的理解
  3. 一节更比六节强,特斯拉或将推出可续航100万英里的电池
  4. (继承,多态) 银行的客户分为两类,储蓄账户(SavingAccount)和信用账户(CreditAccount),区别在于储蓄账户不允许透支,而信用账户可以透支,并允许用户设置自己的透支额度。
  5. Android简易音乐重构MVVM Java版-新增歌曲播放界面+状态栏黑科技(十七)
  6. 吉日嘎拉的梦想 - 做全国最好的后台权限管理系统,提高我们的软件生产率,成为权限标准组件,为软件系统的集成提供咨询服务
  7. 为什么你靠写作挣的钱比本职工作都高很多,我却不行?
  8. autofs服务之光盘自动挂载
  9. C++ HELLO WORD!
  10. 营口 计算机 职称,营口职称评定流程