文章目录

  • 1、有监督学习
  • 2、无监督学习
  • 3. 有监督和无监督的几大区别
    • 对比一 : 有标签 vs 无标签
    • 对比二 : 分类 vs 聚类
    • 对比三 : 同维 vs 降维
    • 对比四 :分类同时定性 vs 先聚类后定性
    • 对比五 :独立 vs 非独立
    • 对比六 : 不透明 vs 可解释性
    • 对比七 :DataVisor无监督独有的拓展性
  • 如何选择有监督和无监督

1、有监督学习

通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。

就如有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。又如我们小的时候不知道牛和鸟是否属于一类,但当我们随着长大各种知识不断输入,我们脑中的模型越来越准确,判断动物也越来越准确。

有监督学习可分为回归分类

回归:即给出一堆自变量X和因变量Y,拟合出一个函数,这些自变量X就是特征向量,因变量Y就是标签。 而且标签的值是连续的,例LR

分类
数据集:特征向量X,标签Y;
训练输入:特征向量X,标签Y;
测试 输入:特征向量X; 输出:标签Y

其输出结果是离散的。例如logistics、SVM、KNN等。

2、无监督学习

我们事先没有任何训练样本,而需要直接对数据进行建模。

比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别。

无监督学习主要算法是聚类,聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到,主要算法包括Kmeans、层次聚类、EM算法

3. 有监督和无监督的几大区别

对比一 : 有标签 vs 无标签

有监督机器学习又被称为**“有老师的学习”**,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果。再经过这样的过程后,模型就有了预知能力。

而无监督机器学习被称为**“没有老师的学习”**,无监督相比于有监督,没有训练的过程,而是直接拿数据进行建模分析,意味着这些都是要通过机器学习自行学习探索。

对比二 : 分类 vs 聚类

有监督机器学习的核心是分类。有监督的工作是选择分类器和确定权值。

无监督机器学习的核心是聚类(将数据集合分成由类似的对象组成的多个类)。无监督的工作是密度估计(寻找描述数据统计值),这意味着无监督算法只要知道如何计算相似度(见【相似性度量中用到的一些距离函数】)就可以开始工作。

对比三 : 同维 vs 降维

有监督的输入如果是n维,特征即被认定为n维,也即 y=f(xi)y=f(x_i)y=f(xi​) 或 p(y∣xi),i=np(y|x_i), i =np(y∣xi​),i=n ,通常不具有降维的能力。

而无监督经常要参与深度学习,做特征提取,或者干脆采用层聚类或者项聚类,以减少数据特征的维度。

对比四 :分类同时定性 vs 先聚类后定性

有监督的输出结果,也就是分好类的结果会被直接贴上标签,是好还是坏。也即分类分好了,标签也同时贴好了。类似于中药铺的药匣,药剂师采购回来一批药材,需要做的只是把对应的每一颗药材放进贴着标签的药匣中。

无监督的结果只是一群一群的聚类,就像被混在一起的多种中药,一个外行要处理这堆药材,能做的只有把看上去一样的药材挑出来聚成很多个小堆。如果要进一步识别这些小堆,就需要一个老中医(类比老师)的指导了。因此,无监督属于先聚类后定性,有点类似于批处理。

对比五 :独立 vs 非独立

李航在其著作《统计学习方法》(清华大学出版社)中阐述了一个观点:对于不同的场景,正负样本的分布可能会存在偏移(可能是大的偏移,也可能偏移比较小)。好比我们手动对数据做标注作为训练样本,并把样本画在特征空间中,发现线性非常好,然而在分类面,总有一些混淆的数据样本。对这种现象的一个解释是,不管训练样本(有监督),还是待分类的数据(无监督),并不是所有数据都是相互独立分布的。或者说,数据和数据的分布之间存在联系。作为训练样本,大的偏移很可能会给分类器带来很大的噪声,而对于无监督,情况就会好很多。可见,独立分布数据更适合有监督,非独立数据更适合无监督。

对比六 : 不透明 vs 可解释性

由于有监督算法最后输出的一个结果,或者说标签。yes or no,一定是会有一个倾向。但是,如果你想探究为什么这样,有监督会告诉你:因为我们给每个字段乘以了一个参数列[w1, w2, w3…wn]。你继续追问:为什么是这个参数列?为什么第一个字段乘以了0.01而不是0.02?有监督会告诉你:这是我自己学习计算的!然后,就拒绝再回答你的任何问题。是的,有监督算法的分类原因是不具有可解释性的,或者说,是不透明的,因为这些规则都是通过人为建模得出,及其并不能自行产生规则。

而无监督的聚类方式通常是有很好的解释性的,你问无监督,为什么把他们分成一类?无监督会告诉你,他们有多少特征有多少的一致性,所以才被聚成一组。你恍然大悟,原来如此!于是,进一步可以讲这个特征组总结成规则。如此这般分析,聚类原因便昭然若揭了。

对比七 :DataVisor无监督独有的拓展性

试想这样一个n维模型,产出结果已经非常好,这时又增加了一维数据,变成了n+1维。那么,如果这是一个非常强的特征,足以将原来的分类或者聚类打散,一切可能需要从头再来,尤其是有监督,权重值几乎会全部改变。而DataVisor开发的无监督算法,具有极强的扩展性,无论多加的这一维数据的权重有多高,都不影响原来的结果输出,原来的成果仍然可以保留,只需要对多增加的这一维数据做一次处理即可。

如何选择有监督和无监督

了解以上对比后,我们在做数据分析时,就可以高效地做选择了。

首先,我们查看现有的数据情况。假如在标签和训练数据都没有的情况下,毫无疑问无监督是最佳选项。但其实对数据了解得越充分,模型的建立就会越准确,学习需要的时间就会越短。
我们主要应该了解数据的以下特性:

  • 特征值是离散型变量还是连续型变量;
  • 特征值中是否存在缺失的值;
  • 何种原因造成缺失值;
  • 数据中是否存在异常值;
  • 某个特征发生的频率如何。

其次,数据条件是否可改善?在实际应用中,有些时候即使我们没有现成的训练样本,我们也能够凭借自己的双眼,从待分类的数据中人工标注一些样本,这样就可以把条件改善,从而用于有监督学习。当然不得不说,有些数据的表达会非常隐蔽,也就是我们手头的信息不是抽象的形式,而是具体的一大堆数字,这样我们很难人工对它们进行分类。举个例子,在 bag - of - words 模型中,我们采用 k-means 算法进行聚类,从而对数据投影。在这种情况下,我们之所以采用 k-means,就是因为我们只有一大堆数据,而且是很高维的,若想通过人工把他们分成50类是十分困难的。想象一下,一个熊孩子把50个1000块的拼图混在了一起,你还能够再把这50000个凌乱的小方块区分开吗?所以说遇到这种情况也只能选用无监督学习了。

最后,看样本是否独立分布。对于有训练样本的情况,看起来采用有监督总是比采用无监督好。但有监督学习就像是探索悬崖时的一个安全绳,有着一定的指导作用。就像是即使班级里的第一名,也非常需要标准答案来获得肯定,对吧?做完题对一下答案,总觉得会更安心一点。但对于非独立分布的数据,由于其数据可能存在内在的未知联系,因而存在某些偏移量,这个时候假如追求单一的“标准答案”反而会错失其数据背后隐藏关联。就像是做数学题,往往还有标准答案以外的其他解法。

【无监督学习和有监督学习的区别】相关推荐

  1. 无监督和有监督的区别_干货|全面理解无监督学习基础知识

    一.无监督学习 无监督学习的特点是,模型学习的数据没有标签,因此无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律,其代表就是聚类.与监督学习相比,监督学习是按照给定的标准进行学习 ...

  2. 机器学习概念 — 监督学习、无监督学习、半监督学习、强化学习、欠拟合、过拟合、后向传播、损失和优化函数、计算图、正向传播、反向传播

    1. 监督学习和无监督学习 监督学习 ( Supervised Learning ) 和无监督学习 ( Unsupervised Learning ) 是在机器学习中经常被提及的两个重要的学习方法. ...

  3. 理解监督学习、无监督学习、半监督学习、强化学习

    目录 监督学习 回归问题 分类问题 无监督学习 半监督学习 强化学习 参考链接 监督学习 监督学习简单来说就是我们给学习算法一个数据集. 这个数据集由"正确答案"组成,然后使用已知 ...

  4. 监督学习与非监督学习之间的区别

    监督学习与非监督学习之间的区别 深度学习中会遇到常见的两个问题,一个是分类,一个是回归. 如果我们想要预测的值是一个离散的值,比如说物体识别,识别一个物体是猫还是狗,预测一张图片是美还是丑,还有手写数 ...

  5. 概念:监督学习、无监督学习与半监督学习

    (此为机器学习随笔之一) 机器学习中的算法,主要有两种:监督学习:半监督学习. 1 .名词 监督学习 : supervised learning 无监督学习 : unsupervised learni ...

  6. 监督学习、无监督学习、半监督学习

    监督学习.无监督学习.半监督学习 监督学习.无监督学习.半监督学习 监督学习 无监督学习 半监督学习 监督学习.无监督学习.半监督学习 监督学习 特点:训练过程中样本都是有标签的. 训练集的每一个数据 ...

  7. 监督学习、无监督学习、半监督学习概述

    前言 机器学习分为:监督学习,无监督学习,半监督学习(也可以用hinton所说的强化学习)等. 在这里,主要理解一下监督学习和无监督学习. 监督学习(supervised learning) 从给定的 ...

  8. 有监督学习和无监督学习_比监督学习做的更好:半监督学习

    近期大热的半监督学习! 本文转载自:AI公园 作者:Andre Ye | 编译:ronghuaiyang注:文末附CV学习交流群. 导读 为什么半监督学习是机器学习的未来. 监督学习是人工智能领域的第 ...

  9. 【机器学习 基本概念】监督学习、无监督学习、半监督学习与强化学习

    本文转载自:一文读懂监督学习.无监督学习.半监督学习与强化学习这四种深度学习方式 一般说来,训练深度学习网络的方式主要有四种:监督.无监督.半监督和强化学习.在接下来的文章中,计算机视觉战队将逐个解释 ...

  10. 结构化数据与非结构数据、监督学习与非监督学习、标记与无标记

    结构化数据与非结构化数据: 结构化:可以用二维表表示的数据,存储在数据库里面的 非结构化数据:包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等 办结构化:介于其 ...

最新文章

  1. 因子分解机 Factorization Machine python 源码
  2. 使用fastjson的parseObject方法将json字符串转换成Map 或者List
  3. CF176E Archaeology(set用法提示)
  4. 叶子结点和分支节点_C++笔试题之求完全二叉树叶子节点数
  5. 极客大学架构师训练营 网络通信协议 非阻塞网络I/O NIO 数据库架构原理 第16课 听课总结
  6. 利用STM32和可控硅控制220V加热电路
  7. STM32-端口复用和重映射
  8. UE4:浅谈什么是GamePlay框架
  9. win10下c语言哪个版本号,怎么查看我的电脑用的是win10的哪个版本?win10各版本之间的区别...
  10. 法拉科机器人接头_【发那科】图解FANUC机器人I/O信号板
  11. 带节点的曲线,可以鼠标拖动节点,类似PS
  12. WIN10下配置Yolov3(VS2019,GPU)+opencv训练自己的数据集(绝对详细,小白型记录)
  13. 利用pyecharts绘制新浪微博传播图(文末附完整代码地址)
  14. 【allegro 17.4软件操作保姆级教程三】布局操作基础一
  15. 使用python下载网站视频资源
  16. tokenpocket内网页获取用户钱包信息
  17. 【BLE】CC2541与CC2540的区别
  18. 曾任5家上市企业大学校长李乾老师
  19. 张俊林:由ChatGPT反思大语言模型(LLM)的技术精要
  20. 分析网易云歌曲评论分析加密的JS并且解密,并使用Python抓取歌曲评论

热门文章

  1. 【学习计算机组成原理】非数值数据的表示
  2. Topaz Video Enhance AI Mac版,视频无损放大工具
  3. 【二郎助手】新增自动补全以大写字母开头的变量
  4. 判断字符串中的括号是否匹配-C语言
  5. suse enterprise linux 10 安装及配置svn(使用svnserve)
  6. Linux基础篇① (Linux介绍;VM和CentOS详细安装教程;工具环境搭建,配置;Linux目录结构)
  7. 无人驾驶虚拟仿真(八)--图像处理之车道线识别3
  8. mysql jion on月季_月季花展游人如织
  9. Cling基础教程 - 用户手册(入门)
  10. 线性代数之——克拉默法则、逆矩阵和体积