半监督学习(Semi-supervised learning)综述

1. 关于半监督学习

半监督学习是机器学习的分支，主要利用有标签样本以及无标签样本用于用于特定学习的任务。如下图，半监督学习有利于获得更准确的分类边界。

1.2 半监督学习的假设

（1）平滑假设

如何输入的两个点在输入空间是接近的，那个它们的标签是一致的。

（2）低密度假设

（3）流型假设

2. 半监督学习的方法概览

半监督学习通常划分为归纳式（Inductive）半监督学习和直推式（Transductive）半监督学习。

2.1 Inductive 方法

Inductive方法构造一个分类器，并用于对每个样本进行预测。无标签样本可以用于训练这个分类器，但是如果训练结束，每个之前未见过的训练样本的预测结果是独立的。

2.1.1 Wrapper方法

Wrapper方法是比较老的半监督学习算法，这类方法主要利用一个或者多个强监督基准学习器，并且迭代地用原来的有标签样本以及使用之前学习器给无标签样本打上伪标签后的样本集（伪标签数据）进行训练。这个过程包含两个步骤，训练以及打伪标签。

3. Wrapper方法

3.1 Self-training

Self-training的方法是基本的伪标签方法。一开始，有标签样本用于训练一个有监督分类器，然后，用于对无标签样本进行预测，置信度比较高的伪标签样本加入到有标签样本集中，分类器重新训练，直到没有新的伪标签样本加入到训练中。

3.2 Co-training

协同训练是Self-training的拓展。协同训练中，两个或者多个有监督分类器用于迭代训练有标签样本，把他们置信度高的伪标签样本加入对其他有监督分类器的有标签样本集中。

对于协同训练，基准分类器之间的相关性尽量弱。

3.3 Boosting

集成学习包含多个基学习器，可以用来合并预测结果。

集成学习的方式有bagging和Boosting两种。对于bagging方法，基学习器独立进行训练，并且通过self-training进行利用无标签样本。

3.3.1 ASSEMBLE

ASSEMBLE算法，指Adaptive supervised Ensemble，每次迭代可以得到无标签样本的伪标签，并且利用伪标签样本点去构建下一个学习器。ASSEMBLE没有对无标签样本进行筛选。

4. 无监督预处理

利用无监督预处理的方法，比如从无标签样本提取游泳的信息，聚类，给有监督训练过程决定初始参数。和Wrapper方法相比，这类方法的有监督分类器只使用有标签样本点进行。

4.1 特征提取

特征提取的方法采用无监督的方式，比如主成分分析，把输入的数据转换到不同的基准，使得他们是线性无关的。特征提取的方法，主要找到输入数据的隐变量表示。比如自编码器。

4.2 聚类然后标注

聚类然后标注的方法，包含聚类和分类的过程，首先通过无监督或者半监督进行聚类，然后队里每个簇用于分类。

4.3 预训练

无标签样本用于预训练，比如深度信念网络，堆叠自编码器。

5. 启发性半监督方法

考虑把无标签样本考虑到损失函数或者优化过程中。许多有监督方法可以扩展到半监督学习中，比如半监督SVM（S3VMs). S3VMs最大化有标签以及无标签的边界来实现利用无标签样本。

5.1 最大边缘方法

这种方法符合半监督的低密度假设。

SVM：

S3VM：

5.2 Perturbation-based 方法

5.2.1 神经网络

5.2.2 半监督神经网络

5.2.3 Ladder网络

5.2.4 伪标签集成

5.2.5 pi-模型

5.2.6 Temporal集成

5.2.7 平均teacher

5.2.8 虚拟对抗学习

5.2.9 半监督Mixup

5.3 流型

5.3.1 流型约束

5.3.2 流型近似

5.4 生成模型

5.4.1 混合模型

5.4.2 生成对抗网络

5.4.3 变分自编码器

6. Transductive 方法

Transductive方法不会为所有空间构建一个分类器，而是通过数据点的联系进行标签传播。比如，基于图的方法，一张图可以定义相似点之间的联系，信息可以从图的边进行传播。Transductive 的基于图的方法主要包含三个步骤：图的构建；图的权重分配，推理。

6.1 基于图的方法

图半监督算法通过样本和样本之间的关系矩阵来将有标记样本上的标记逐渐传播到未标记样本上。

半监督学习python包:semisupervised;

(待完善)半监督学习(Semi-supervised learning)综述相关推荐

弱监督学习 weakly supervised learning 笔记
周志华 A Brief Introduction to Weakly Supervised Learning 2018 引言在机器学习领域,学习任务可以划分为监督学习.非监督学习.通常,两者都需要从 ...
长文总结半监督学习（Semi-Supervised Learning）
©PaperWeekly 原创 · 作者|燕皖单位|渊亭科技研究方向|计算机视觉.CNN 在现实生活中,无标签的数据易于获取,而有标签的数据收集起来通常很困难,标注也耗时和耗力.在这种情况下,半监 ...
机器学习-算法-半监督学习：半监督学习（Semi-supervised Learning）算法
人工智能-机器学习-算法-半监督学习:半监督学习(Semi-supervised Learning)算法一.半监督学习算法提出的背景 1.监督学习算法 2.无监督学习算法 3.监督学习的特征选择方法 ...
半监督学习：semi-supervised learning 直推学习：transductive learning 主动学习：active learning
目前,利用未标记示例的主流学习技术主要有三大类:半监督学习(semi-supervised learning).直推学习(transductive learning)和主动学习(active lear ...
监督学习（supervised learning）与非监督学习（unsupervised learning）
一,监督学习(supervised learning): 监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测. 即:利用 ...
用于三维医学图像检测的半监督学习——FocalMix: Semi-Supervised Learning for 3D Medical Image Detection
本文记录下阅读 CVPR2020论文其中的<FocalMix: Semi-Supervised Learning for 3D Medical Image Detection>,更新于2 ...
图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically
前言本博文主要对论文中提到的图构造方法进行梳理,论文自己提出的模型并未介绍,感兴趣的可以阅读原文摘要基于图的半监督学习GSSL主要包含两个过程:图的构建和标签推测.传统的GSSL中这两个过程是完 ...
开放世界的半监督学习OPEN-WORLD SEMI-SUPERVISED LEARNING
开放世界的半监督学习摘要在现实世界中应用半监督学习的一个基本限制是假设未标记的测试数据只包含以前在标记的训练数据中遇到的类别.然而,这个假设对于野外的数据很少成立,因为在测试时可能会出现属于新类的 ...
机器学习：什么是监督学习（Supervised learning）？
概念 wiki:监督学习是机器学习的一种方法,可以由训练资料中学到或建立一个模式(函数/learning model),并且依次模式推测出新的实例. 训练资料:由输入物件和预期输出组成,函数的输出可以 ...

(待完善)半监督学习(Semi-supervised learning)综述