论文阅读笔记：A brief introduction to weakly supervised learning

论文：A brief introduction to weakly supervised learning / 对弱监督学习的简要介绍
作者：Zhi-Hua Zhou / 周志华
发表刊物：National Science Review
发表年度：2018
下载地址：https://academic.oup.com/nsr/article/5/1/44/4093912

Abstract / 摘要

监督学习旨在通过从大量训练样本中学习来构建预测模型，其中每个训练样本都有标示其真实输出的标签。虽然如今监督学习技术取得了巨大成功，但值得注意的是，由于数据标注过程成本较高，在许多任务中，我们很难获取到像全部训练数据的真实标签这样的强监督信息。因此我们需要能够在弱监督信息下工作的机器学习模型。本文关注弱监督学习的一些研究进展，主要聚焦在三种弱监督类型：不完全监督——只有一部分训练数据有标签、不确切监督——训练数据只有粗粒度的标签和不准确监督——给定的训练样本标签不一定正确。

Introduction / 引言

机器学习在各种任务中都取得了巨大成功，尤其是像分类和回归这样的监督学习技术。一般地，监督学习从包含大量训练样本的训练集中学习预测模型，训练样本由两部分组成：用于描述对象的特征向量和用于标示输出的标签。在分类中，标签表明样本所属类别；在回归中，标签表明样本对应的实值。许多成功的技术都依赖于大量带有真实标签的训练数据，然而，获取到这些强监督信息的成本是比较高的。因此，需要能够在弱监督信息下工作的机器学习模型。
弱监督学习分为三种类型：一、不完全监督——只有一部分训练数据有标签，比如在执行图片分类任务时，图片的标签往往是由人工标注员标注的，当从网上获得大量图片后，由于成本的关系，我们只能标注其中的一小部分数据；二、不确切监督——训练数据只有粗粒度的标签，比如在进行图片分类任务时，我们希望把图片中的每个对象都标出来，但我们往往只进行图片级的标注而不考虑对象级的标注；三、不准确监督——给定的训练样本标签不一定正确，比如在图像分类任务中，当标注员粗心或疲惫，又或者图像难以识别的时候，标注员可能会出错。
弱监督学习是一个概括性术语，涵盖了各种尝试在弱监督信息下构建预测模型的研究。本文将对以上三种弱监督学习类型进行介绍，但值得一提的是，在真实场景下，这三种类型的弱监督信息往往同时存在。为了简化，本文仅考虑二分类任务。三种类型的弱监督学习示意图如图1所示。

图1 三种类型的弱监督学习示意图

Incomplete Supervision / 不完全监督

不完全监督涉及只有小部分训练数据有标签，其余大部分数据无标签的场景。解决不完全监督学习问题的两种主要技术分别是主动学习和半监督学习。主动学习假设有人类专家，可以咨询专家来获得无标签样本的真实标签。半监督学习尝试在没有人工干预的情况下，自动利用有标记数据和无标记数据来提高学习性能。有一类特殊的半监督学习叫直推式学习，它与纯半监督学习的区别在于它们对测试数据的假设不同，即用训练好的模型预测的数据不同。直推式学习有一个“封闭世界”假设，即预先给定测试数据，目标是优化在测试数据上的性能，换言之，无标签的数据就是测试数据；纯半监督学习持有“开放世界”假设，即测试数据是未知的，且无标签数据不一定是测试数据。图2展示了主动学习、纯半监督学习和直推式学习的概念示意图。

图2 主动学习、纯半监督学习和直推式学习的概念示意图

有人类干预

在主动学习中，为了简化，假设数据标注成本只取决于要标注的样本的数量，因此，主动学习的目标可以定义为最小化需要标注的样本的数量从而使得训练一个好模型的标注成本最小。
给定一小部分有标签的样本和大量无标签的样本，主动学习尝试选择最有价值的无标签样本提交给专家进行标注。一般有类样本选择标准：信息性标准和代表性标准。信息性测度一个无标签样本能够在多大程度上减少统计模型的不确定性；代表性衡量的是一个样本能够在多大程度上代表输入数据的结构。不确定性采样和委员会选择是两种典型的基于信息性标准的样本选择方法，基于代表性标准的样本选择方法一般是使用聚类算法探索无标签样本的类簇结构。基于信息性标准的样本选择方法的主要缺点是它们严重依赖于有标签样本构建初始的无标签样本选择模型，且该方法在只有少量有标签样本可用时性能通常不稳定；基于代表性标准的样本选择方法的主要缺点是其性能严重依赖于以无标签样本为主的数据的聚类结果。因此，最近关于主动学习的研究尝试同时利用样本的信息性和代表性。

无人类干预

尽管无标签样本不携带显式的标签信息，但是它们隐式地传达了一些关于数据分布的信息，这些信息能够有助于构建模型。在半监督学习中有两类基本假设：聚类假设和流形假设，这两个假设都是关于数据分布的，前者假设数据具有固定的集群结构，落入同一集群的样本具有相同的类标签；后者假设数据位于一个流形上，因此临近的样本具有类似的预测结果。这两个假设的立足点在于相似的样本点应当具有相似的输出，无标签样本有助于揭示哪些样本是相似的。当前有四种半监督学习方法：基于生成的方法、基于图的方法、基于低密度隔离的方法和基于不一致性的方法。

基于生成的方法：假设所有的有标签、无标签样本都是从同一个分布生成的，可以认为缺失了部分标签，可以用EM算法估计；
基于图的方法：将样本作为点、样本之间的关系作为边，标签根据某种规则在图上传播；
基于低密度隔离的方法：分类边界位于样本空间中较为稀疏的区域；
基于不一致性的方法：多个学习器合作利用未标注数据。

Inexact Supervision / 不确切监督

不确切监督对应标签粒度较粗且与待解决任务不完全一致的场景，关键在于如何使标签为目标任务提供监督信息。如今，不确切监督一般指多实例学习：训练数据中没有每一个实例的标签，只知道一组样本的标签，认为是预测一组新的实例的标签。多实例学习被成功应用到图片分类/检索/标注、文本分类等多个领域中。

Inaccurate Supervision / 不准确监督

图3为不准确监督的解决思路示意图。

图3 不准确学习的概念示意图

Conclusion / 结论

弱监督学习正变得越来越重要。