文章目录

1、有监督学习
2、无监督学习
3. 有监督和无监督的几大区别
- 对比一：有标签 vs 无标签
- 对比二：分类 vs 聚类
- 对比三：同维 vs 降维
- 对比四：分类同时定性 vs 先聚类后定性
- 对比五：独立 vs 非独立
- 对比六：不透明 vs 可解释性
- 对比七：DataVisor无监督独有的拓展性
如何选择有监督和无监督

1、有监督学习

通过已有的训练样本去训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现预测和分类的目的，也就具有了对未知数据进行预测和分类的能力。

就如有标准答案的练习题，然后再去考试，相比没有答案的练习题然后去考试准确率更高。又如我们小的时候不知道牛和鸟是否属于一类，但当我们随着长大各种知识不断输入，我们脑中的模型越来越准确，判断动物也越来越准确。

有监督学习可分为回归和分类。

回归：即给出一堆自变量X和因变量Y，拟合出一个函数，这些自变量X就是特征向量，因变量Y就是标签。而且标签的值是连续的，例LR。

分类：
数据集：特征向量X，标签Y；
训练输入：特征向量X，标签Y；
测试输入：特征向量X；输出：标签Y

其输出结果是离散的。例如logistics、SVM、KNN等。

2、无监督学习

我们事先没有任何训练样本，而需要直接对数据进行建模。

比如我们去参观一个画展，我们完全对艺术一无所知，但是欣赏完多幅作品之后，我们也能把它们分成不同的派别。

无监督学习主要算法是聚类，聚类目的在于把相似的东西聚在一起，主要通过计算样本间和群体间距离得到，主要算法包括Kmeans、层次聚类、EM算法。

3. 有监督和无监督的几大区别

对比一：有标签 vs 无标签

有监督机器学习又被称为**“有老师的学习”**，所谓的老师就是标签。有监督的过程为先通过已知的训练样本（如已知输入和对应的输出）来训练，从而得到一个最优模型，再将这个模型应用在新的数据上，映射为输出结果。再经过这样的过程后，模型就有了预知能力。

而无监督机器学习被称为**“没有老师的学习”**，无监督相比于有监督，没有训练的过程，而是直接拿数据进行建模分析，意味着这些都是要通过机器学习自行学习探索。

对比二：分类 vs 聚类

有监督机器学习的核心是分类。有监督的工作是选择分类器和确定权值。

无监督机器学习的核心是聚类（将数据集合分成由类似的对象组成的多个类）。无监督的工作是密度估计（寻找描述数据统计值），这意味着无监督算法只要知道如何计算相似度（见【相似性度量中用到的一些距离函数】）就可以开始工作。

对比三：同维 vs 降维

有监督的输入如果是n维，特征即被认定为n维，也即 y=f(xi)y=f(x_i)y=f(xi) 或 p(y∣xi),i=np(y|x_i), i =np(y∣xi),i=n ，通常不具有降维的能力。

而无监督经常要参与深度学习，做特征提取，或者干脆采用层聚类或者项聚类，以减少数据特征的维度。

对比四：分类同时定性 vs 先聚类后定性

有监督的输出结果，也就是分好类的结果会被直接贴上标签，是好还是坏。也即分类分好了，标签也同时贴好了。类似于中药铺的药匣，药剂师采购回来一批药材，需要做的只是把对应的每一颗药材放进贴着标签的药匣中。

无监督的结果只是一群一群的聚类，就像被混在一起的多种中药，一个外行要处理这堆药材，能做的只有把看上去一样的药材挑出来聚成很多个小堆。如果要进一步识别这些小堆，就需要一个老中医（类比老师）的指导了。因此，无监督属于先聚类后定性，有点类似于批处理。

对比五：独立 vs 非独立

李航在其著作《统计学习方法》（清华大学出版社）中阐述了一个观点：对于不同的场景，正负样本的分布可能会存在偏移（可能是大的偏移，也可能偏移比较小）。好比我们手动对数据做标注作为训练样本，并把样本画在特征空间中，发现线性非常好，然而在分类面，总有一些混淆的数据样本。对这种现象的一个解释是，不管训练样本（有监督），还是待分类的数据（无监督），并不是所有数据都是相互独立分布的。或者说，数据和数据的分布之间存在联系。作为训练样本，大的偏移很可能会给分类器带来很大的噪声，而对于无监督，情况就会好很多。可见，独立分布数据更适合有监督，非独立数据更适合无监督。

对比六：不透明 vs 可解释性

由于有监督算法最后输出的一个结果，或者说标签。yes or no，一定是会有一个倾向。但是，如果你想探究为什么这样，有监督会告诉你：因为我们给每个字段乘以了一个参数列[w1, w2, w3…wn]。你继续追问：为什么是这个参数列？为什么第一个字段乘以了0.01而不是0.02？有监督会告诉你：这是我自己学习计算的！然后，就拒绝再回答你的任何问题。是的，有监督算法的分类原因是不具有可解释性的，或者说，是不透明的，因为这些规则都是通过人为建模得出，及其并不能自行产生规则。

而无监督的聚类方式通常是有很好的解释性的，你问无监督，为什么把他们分成一类？无监督会告诉你，他们有多少特征有多少的一致性，所以才被聚成一组。你恍然大悟，原来如此！于是，进一步可以讲这个特征组总结成规则。如此这般分析，聚类原因便昭然若揭了。

对比七：DataVisor无监督独有的拓展性

试想这样一个n维模型，产出结果已经非常好，这时又增加了一维数据，变成了n+1维。那么，如果这是一个非常强的特征，足以将原来的分类或者聚类打散，一切可能需要从头再来，尤其是有监督，权重值几乎会全部改变。而DataVisor开发的无监督算法，具有极强的扩展性，无论多加的这一维数据的权重有多高，都不影响原来的结果输出，原来的成果仍然可以保留，只需要对多增加的这一维数据做一次处理即可。

如何选择有监督和无监督

了解以上对比后，我们在做数据分析时，就可以高效地做选择了。

首先，我们查看现有的数据情况。假如在标签和训练数据都没有的情况下，毫无疑问无监督是最佳选项。但其实对数据了解得越充分，模型的建立就会越准确，学习需要的时间就会越短。
我们主要应该了解数据的以下特性:

特征值是离散型变量还是连续型变量；
特征值中是否存在缺失的值；
何种原因造成缺失值；
数据中是否存在异常值；
某个特征发生的频率如何。

其次，数据条件是否可改善？在实际应用中，有些时候即使我们没有现成的训练样本，我们也能够凭借自己的双眼，从待分类的数据中人工标注一些样本，这样就可以把条件改善，从而用于有监督学习。当然不得不说，有些数据的表达会非常隐蔽，也就是我们手头的信息不是抽象的形式，而是具体的一大堆数字，这样我们很难人工对它们进行分类。举个例子，在 bag - of - words 模型中，我们采用 k-means 算法进行聚类，从而对数据投影。在这种情况下，我们之所以采用 k-means，就是因为我们只有一大堆数据，而且是很高维的，若想通过人工把他们分成50类是十分困难的。想象一下，一个熊孩子把50个1000块的拼图混在了一起，你还能够再把这50000个凌乱的小方块区分开吗？所以说遇到这种情况也只能选用无监督学习了。

最后，看样本是否独立分布。对于有训练样本的情况，看起来采用有监督总是比采用无监督好。但有监督学习就像是探索悬崖时的一个安全绳，有着一定的指导作用。就像是即使班级里的第一名，也非常需要标准答案来获得肯定，对吧？做完题对一下答案，总觉得会更安心一点。但对于非独立分布的数据，由于其数据可能存在内在的未知联系，因而存在某些偏移量，这个时候假如追求单一的“标准答案”反而会错失其数据背后隐藏关联。就像是做数学题，往往还有标准答案以外的其他解法。

【无监督学习和有监督学习的区别】相关推荐

无监督和有监督的区别_干货|全面理解无监督学习基础知识
一.无监督学习无监督学习的特点是,模型学习的数据没有标签,因此无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律,其代表就是聚类.与监督学习相比,监督学习是按照给定的标准进行学习 ...
机器学习概念 — 监督学习、无监督学习、半监督学习、强化学习、欠拟合、过拟合、后向传播、损失和优化函数、计算图、正向传播、反向传播
1. 监督学习和无监督学习监督学习 ( Supervised Learning ) 和无监督学习 ( Unsupervised Learning ) 是在机器学习中经常被提及的两个重要的学习方法. ...
理解监督学习、无监督学习、半监督学习、强化学习
目录监督学习回归问题分类问题无监督学习半监督学习强化学习参考链接监督学习监督学习简单来说就是我们给学习算法一个数据集. 这个数据集由"正确答案"组成,然后使用已知 ...
监督学习与非监督学习之间的区别
监督学习与非监督学习之间的区别深度学习中会遇到常见的两个问题,一个是分类,一个是回归. 如果我们想要预测的值是一个离散的值,比如说物体识别,识别一个物体是猫还是狗,预测一张图片是美还是丑,还有手写数 ...
概念：监督学习、无监督学习与半监督学习
(此为机器学习随笔之一) 机器学习中的算法,主要有两种:监督学习:半监督学习. 1 .名词监督学习 : supervised learning 无监督学习 : unsupervised learni ...
监督学习、无监督学习、半监督学习
监督学习.无监督学习.半监督学习监督学习.无监督学习.半监督学习监督学习无监督学习半监督学习监督学习.无监督学习.半监督学习监督学习特点:训练过程中样本都是有标签的. 训练集的每一个数据 ...
监督学习、无监督学习、半监督学习概述
前言机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等. 在这里,主要理解一下监督学习和无监督学习. 监督学习(supervised learning) 从给定的 ...
有监督学习和无监督学习_比监督学习做的更好：半监督学习
近期大热的半监督学习! 本文转载自:AI公园作者:Andre Ye | 编译:ronghuaiyang注:文末附CV学习交流群. 导读为什么半监督学习是机器学习的未来. 监督学习是人工智能领域的第 ...
【机器学习基本概念】监督学习、无监督学习、半监督学习与强化学习
本文转载自:一文读懂监督学习.无监督学习.半监督学习与强化学习这四种深度学习方式一般说来,训练深度学习网络的方式主要有四种:监督.无监督.半监督和强化学习.在接下来的文章中,计算机视觉战队将逐个解释 ...
结构化数据与非结构数据、监督学习与非监督学习、标记与无标记
结构化数据与非结构化数据: 结构化:可以用二维表表示的数据,存储在数据库里面的非结构化数据:包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等办结构化:介于其 ...

【无监督学习和有监督学习的区别】

文章目录

1、有监督学习

2、无监督学习

3. 有监督和无监督的几大区别

对比一：有标签 vs 无标签

对比二：分类 vs 聚类

对比三：同维 vs 降维

对比四：分类同时定性 vs 先聚类后定性

对比五：独立 vs 非独立

对比六：不透明 vs 可解释性

对比七：DataVisor无监督独有的拓展性

如何选择有监督和无监督

【无监督学习和有监督学习的区别】相关推荐

最新文章

热门文章

【无监督学习和有监督学习的区别】

文章目录

1、有监督学习

2、无监督学习

3. 有监督和无监督的几大区别

对比一 ： 有标签 vs 无标签

对比二 ： 分类 vs 聚类

对比三 ： 同维 vs 降维

对比四 ：分类同时定性 vs 先聚类后定性

对比五 ：独立 vs 非独立

对比六 ： 不透明 vs 可解释性

对比七 ：DataVisor无监督独有的拓展性

如何选择有监督和无监督

【无监督学习和有监督学习的区别】相关推荐

最新文章

热门文章

对比一：有标签 vs 无标签

对比二：分类 vs 聚类

对比三：同维 vs 降维

对比四：分类同时定性 vs 先聚类后定性

对比五：独立 vs 非独立

对比六：不透明 vs 可解释性

对比七：DataVisor无监督独有的拓展性