(速记系列)机器学习

分类（classification）：将实例数据划分到合适的类别中。

应用实例：判断网站是否被黑客入侵（二分类），手写数字的自动识别（多分类）

回归（regression）：主要用于预测数值型数据。

应用实例：股票价格波动的预测，房屋价格的预测等。

监督学习

必须确定目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。
在监督学习中，给定一组数据，我们知道正确的输出结果应该是什么样子，并且知道在输入和输出之间有着一个特定的关系。 (包括：分类和回归)
样本集：训练数据 + 测试数据
训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
特征通常是训练样本集的列，它们是独立测量得到的。
目标变量: 目标变量是机器学习预测算法的测试结果。
在分类算法中目标变量的类型通常是标称型(如：真与假)，而在回归算法中通常是连续型(如：1~100)
注意：

偏置方差权衡

功能的复杂性和数量的训练数据

输入空间的维数

噪声中的输出值

知识表示：

可以采用规则集的形式【例如：数学成绩大于90分为优秀】
可以采用概率分布的形式【例如：通过统计分布发现，90%的同学数学成绩，在70分以下，那么大于70分定为优秀】
可以使用训练样本集中的一个实例【例如：通过样本集合，我们训练出一个模型实例，得出年轻，数学成绩中高等，谈吐优雅，我们认为是优秀】

非监督学习（unsupervised learing）

未加标签的数据中，试图找到隐藏的结构。因为提供给学习者的实例是未标记的，因此没有错误或报酬信号来评估潜在的解决方案。
无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求，总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。
数据没有类别信息，也不会给定目标值
非监督学习包括的类型：

聚类：将数据集分成由类似的对象组成多个类的过程称为聚类。

密度估计：通过样本分布的紧密程度，来估计与分组的相似性。

无监督学习还可以减少数据特征的维度，以便使用二维或三维图形更加直观地展示数据信息。

强化学习

训练程序做出某一决定程序在某一情况下尝试所有的可能行动，记录不同行动的结果并试着找出最好的一次尝试来做决定。例如，马尔可夫决策过程。

汇总
开发流程

收集数据: 收集样本数据
准备数据: 注意数据的格式
分析数据: 为了确保数据集中没有垃圾数据；
如果是算法可以处理的数据格式或可信任的数据源，则可以跳过该步骤；
另外该步骤需要人工干预，会降低自动化系统的价值。
训练算法: [核心]如果使用无监督学习算法，由于不存在目标变量值，则可以跳过该步骤
测试算法: [机器学习算法核心]评估算法效果
使用算法: 将机器学习算法转为应用程序

数据集划分
训练集（Training set） ——学习样本数据集，通过匹配一些参数来建立一个模型，主要用来训练模型。类比考研前做的解题大全。
验证集（validation set） —— 对学习出来的模型，调整模型的参数，如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。类比考研之前做的模拟考试。
测试集（Test set） —— 测试训练好的模型的分辨能力。类比考研。这次真的是一考定终身。
模型拟合程度
欠拟合（Underfitting）：模型没有很好地捕捉到数据特征，不能够很好地拟合数据，对训练样本的一般性质尚未学好。类比，光看书不做题觉得自己什么都会了，上了考场才知道自己啥都不会。
过拟合（Overfitting）：模型把训练样本学习“太好了”，可能把一些训练样本自身的特性当做了所有潜在样本都有的一般性质，导致泛化能力下降。类比，做课后题全都做对了，超纲题也都认为是考试必考题目，上了考场还是啥都不会。
常见的模型指标
正确率 —— 提取出的正确信息条数 / 提取出的信息条数
召回率 —— 提取出的正确信息条数 / 样本中的信息条数
F 值 —— 正确率 * 召回率 * 2 / （正确率 + 召回率）（F值即为正确率和召回率的调和平均值）

(速记系列)机器学习相关推荐

Rasa课程、Rasa培训、Rasa面试系列之 Rasa幕后英雄系列-机器学习研究员 Johannes
Rasa课程.Rasa培训.Rasa面试系列之 Rasa幕后英雄系列-机器学习研究员 Johannes Mosig 博士 Dialogue Transformers第二作者在 Rasa,我们的团队正 ...
链接分析算法系列-机器学习排序
这个系列的文章:原文一:链接分析算法之:HITS算法: HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell Univer ...
机器学习知识总结系列-机器学习中的优化算法总结（1-4）
文章目录 1.梯度下降 1.1批量梯度下降(BGD) 1.2随机梯度下降(SGD) 1.3 小批量随机梯度下降(MSGD) 1.4 比较: 1.5 动量算法(momentum) 1.6 Nestrov ...
机器学习知识总结系列-机器学习中的数学-概率与数理统计（1-3-1）
文章目录目录 1.概率与统计 1.1 机器学习与概率统计之间的关系 1.2 重要的统计量 1.2.1 期望 1.2.2 方差 1.2.3 协方差,相关系数协方差相关系数 1.2.4 矩 1.3 ...
机器学习系列——机器学习三大类
根据机器学习的应用,一般说来,机器学习有三种算法: 监督式学习(Supervised Learning, SL) 监督学习是指原始数据中既有特征值也有标签值的机器学习.用输入层的数据计算输出层的值,然 ...
机器学习知识总结系列-机器学习中的数学-矩阵（1-3-2）
矩阵 SVD 矩阵的乘法状态转移矩阵状态转移矩阵特征值和特征向量对称阵正交阵正定阵数据白化矩阵求导向量对向量求导标量对向量求导标量对矩阵求导一.矩阵 1.1 SVD 奇异值分解 ...
机器学习算法系列之K近邻算法
本系列机器学习的文章打算从机器学习算法的一些理论知识.python实现该算法和调一些该算法的相应包来实现. 目录 K近邻算法一.K近邻算法原理 k近邻算法通俗解释近邻距离的度量 k值的选择 KN ...
机器学习算法一览，应用建议与解决思路
机器学习算法一览,应用建议与解决思路作者:寒小阳时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/5046933 ...

(速记系列)机器学习

(速记系列)机器学习相关推荐

最新文章

热门文章