• 分类(classification):将实例数据划分到合适的类别中。

应用实例:判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)

  • 回归(regression):主要用于预测数值型数据。

应用实例:股票价格波动的预测,房屋价格的预测等。

  • 监督学习

必须确定目标变量的值,以便机器学习算法可以发现特征目标变量之间的关系。
在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入输出之间有着一个特定的关系。 (包括:分类和回归)
样本集:训练数据 + 测试数据
训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
特征通常是训练样本集的列,它们是独立测量得到的。
目标变量: 目标变量是机器学习预测算法的测试结果
在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)
注意:

  • 偏置方差权衡
  • 功能的复杂性和数量的训练数据
  • 输入空间的维数
  • 噪声中的输出值

知识表示:

可以采用规则集的形式【例如:数学成绩大于90分为优秀】
可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】
可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】

  • 非监督学习(unsupervised learing)

未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。
数据没有类别信息,也不会给定目标值
非监督学习包括的类型:

  • 聚类:将数据集分成由类似的对象组成多个类的过程称为聚类。
  • 密度估计:通过样本分布的紧密程度,来估计与分组的相似性。
  • 无监督学习还可以减少数据特征的维度,以便使用二维或三维图形更加直观地展示数据信息。
  • 强化学习

训练程序做出某一决定程序在某一情况下尝试所有的可能行动,记录不同行动的结果并试着找出最好的一次尝试来做决定。 例如,马尔可夫决策过程。

  • 汇总
  • 开发流程

收集数据: 收集样本数据
准备数据: 注意数据的格式
分析数据: 为了确保数据集中没有垃圾数据;
如果是算法可以处理的数据格式或可信任的数据源,则可以跳过该步骤;
另外该步骤需要人工干预,会降低自动化系统的价值。
训练算法: [核心]如果使用无监督学习算法,由于不存在目标变量值,则可以跳过该步骤
测试算法: [机器学习算法核心]评估算法效果
使用算法: 将机器学习算法转为应用程序

  • 数据集划分
    训练集(Training set) ——学习样本数据集,通过匹配一些参数来建立一个模型,主要用来训练模型。类比考研前做的解题大全。
    验证集(validation set) —— 对学习出来的模型,调整模型的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。类比 考研之前做的模拟考试。
    测试集(Test set) —— 测试训练好的模型的分辨能力。类比 考研。这次真的是一考定终身。
  • 模型拟合程度
    欠拟合(Underfitting):模型没有很好地捕捉到数据特征,不能够很好地拟合数据,对训练样本的一般性质尚未学好。类比,光看书不做题觉得自己什么都会了,上了考场才知道自己啥都不会。
    过拟合(Overfitting):模型把训练样本学习“太好了”,可能把一些训练样本自身的特性当做了所有潜在样本都有的一般性质,导致泛化能力下降。类比,做课后题全都做对了,超纲题也都认为是考试必考题目,上了考场还是啥都不会。
  • 常见的模型指标
    正确率 —— 提取出的正确信息条数 / 提取出的信息条数
    召回率 —— 提取出的正确信息条数 / 样本中的信息条数
    F 值 —— 正确率 * 召回率 * 2 / (正确率 + 召回率)(F值即为正确率和召回率的调和平均值)

(速记系列)机器学习相关推荐

  1. Rasa课程、Rasa培训、Rasa面试系列之 Rasa幕后英雄系列-机器学习研究员 Johannes

    Rasa课程.Rasa培训.Rasa面试系列之 Rasa幕后英雄系列-机器学习研究员 Johannes Mosig 博士 Dialogue Transformers第二作者 在 Rasa,我们的团队正 ...

  2. 链接分析算法系列-机器学习排序

    这个系列的文章:原文 一:链接分析算法之:HITS算法: HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell Univer ...

  3. 机器学习知识总结系列-机器学习中的优化算法总结(1-4)

    文章目录 1.梯度下降 1.1批量梯度下降(BGD) 1.2随机梯度下降(SGD) 1.3 小批量随机梯度下降(MSGD) 1.4 比较: 1.5 动量算法(momentum) 1.6 Nestrov ...

  4. 机器学习知识总结系列-机器学习中的数学-概率与数理统计(1-3-1)

    文章目录 目录 1.概率与统计 1.1 机器学习与概率统计之间的关系 1.2 重要的统计量 1.2.1 期望 1.2.2 方差 1.2.3 协方差,相关系数 协方差 相关系数 1.2.4 矩 1.3 ...

  5. 机器学习系列——机器学习三大类

    根据机器学习的应用,一般说来,机器学习有三种算法: 监督式学习(Supervised Learning, SL) 监督学习是指原始数据中既有特征值也有标签值的机器学习.用输入层的数据计算输出层的值,然 ...

  6. 机器学习知识总结系列-机器学习中的数学-矩阵(1-3-2)

    矩阵 SVD 矩阵的乘法 状态转移矩阵 状态转移矩阵 特征值和特征向量 对称阵 正交阵 正定阵 数据白化 矩阵求导 向量对向量求导 标量对向量求导 标量对矩阵求导 一.矩阵 1.1 SVD 奇异值分解 ...

  7. 机器学习系列(4)_机器学习算法一览,应用建议与解决思路

    作者:寒小阳 时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50469334 声明:版权所有,转载请联系作者并注明出 ...

  8. 机器学习算法系列之K近邻算法

    本系列机器学习的文章打算从机器学习算法的一些理论知识.python实现该算法和调一些该算法的相应包来实现. 目录 K近邻算法 一.K近邻算法原理 k近邻算法 通俗解释 近邻距离的度量 k值的选择 KN ...

  9. 机器学习算法一览,应用建议与解决思路

    机器学习算法一览,应用建议与解决思路 作者:寒小阳  时间:2016年1月.  出处:http://blog.csdn.net/han_xiaoyang/article/details/5046933 ...

最新文章

  1. SQL server数据库日志满了怎么处理?
  2. 2014年新鲜出炉的16款免费英文字体
  3. How to reduce Index size on disk?减少ES索引大小的一些小手段
  4. AJPFX关于单例设计模式
  5. python正则表达式模块
  6. 多线程读取矩阵文件+多线程矩阵乘法(C++实现)
  7. Java集合框架之fastutil
  8. 使用 mono 编译 .NET Standard 应用
  9. 在界面中显示文本内容
  10. linux手术后10年,经历正颌手术10年后遗症的我想说40岁做正颌手术我很后悔
  11. Fedora14 root用户登陆
  12. 阿里巴巴中台战略--共享服务体系
  13. Fiddler修改返回数据教程,亲测有效
  14. 港科夜闻|「广州粤港澳大湾区研究院」成立,香港科技大学校长史维教授获聘担任研究院顾问...
  15. Windows IIS SqlServer .Net/Asp.NET
  16. 什么是Google Ads?
  17. 由于应用程序的配置不正确,应用程序未能启动,重新安装应用程序可能会纠正这个问题
  18. 史上最全蓝屏代码!电脑蓝屏了查一下什么原因吧!
  19. 第二章:恶意软件动态分析基础
  20. 2020年物联网发展现状与趋势预测

热门文章

  1. 今年上半年,我国公路建设总体形势持续向好
  2. (探讨)MyBatis中的N+1问题,多表关联查询效率高点还是多次单表查询效率高
  3. 自愿认购效果不佳 绿电消费如何激活?
  4. 在寻求正确的项目管理工具时:Jira,Trello,Asana,Redmine
  5. Jenkins-Test
  6. python 爬虫学习过程剖析
  7. BUU-MISC-[UTCTF2020]basic-forensics
  8. 程序员感慨:拒绝互联网高薪,跑去事业单位修行,我后悔了
  9. 供应链协同系统,助力传统行业协同管理平台更高效运营
  10. onlyoffice docs 社区版部署(windows版)--使用于onlyoffice二次开发