Bagging & Boosting

方差 & 偏差

近似误差 & 估计误差

判别模型 & 生成模型

期望风险 & 经验风险 & 结构风险

上采样 & 下采样

先验概率 & 后验概率

信息增益 & 基尼系数

正确率、精确率、召回率、虚警率和漏检率

机器学习有好多概念需要理解，这里做个总结

Bagging & Boosting

Bagging: Bagging 在每次迭代过程中通过bootstrap(有放回抽样)的方式生成一个训练集，最后将所有子分类器结果的平均值作为最终的结果，代表算法为随机森林

Boosting: Boosting 在每次迭代过程中增加被分错样本的权重，最终将所有子分类器的结果相加得到最终的结果，代表算法为AdaBoost

方差 & 偏差

方差：描述模型对于给定值的输出稳定性，高方差类似与过拟合，降低方差主要通过增加数据量，增大正则化项，降维等方式

偏差：描述模型输出结果的期望与样本真实结果的差距，高偏差类似与欠拟合，通过增加特征数量，减小正则化项实现

近似误差 & 估计误差

近似误差：近似误差是训练集上的训练误差。如果近似误差较小，表示对训练集拟合效果较好，可能发生过拟合

估计误差：估计误差是测试集上的预测误差。如果估计误差较小，那么表示所训练的模型具有很好的泛化能力

判别模型 & 生成模型

判别模型：判别模型直接学习判别函数 $f\left(x\right )$ 或者条件概率分布 $P\left(Y|X \right )$ ,代表算法有K邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法、条件随机场

生成模型：生成模型学习联合概率分布 $P\left(X,Y \right )$ ，然后求出条件概率 $P\left(Y|X\right)$ 作为预测模型，代表的算法有贝叶斯模型和隐马尔科夫模型

期望风险 & 经验风险 & 结构风险

期望风险：对所有样本（包含未知样本和已知的训练样本）的预测能力，是全局概念。（经验风险则是局部概念，仅仅表示决策函数对训练数据集里的样本的预测能力。）

经验风险：对所有训练样本都求一次损失函数，再累加求平均。即，模型f(x)对训练样本中所有样本的预测能力。所谓经验风险最小化即对训练集中的所有样本点损失函数的平均最小化。经验风险越小说明模型f(x)对训练集的拟合程度越好。

结构风险：结构风险是经验风险和期望风险的折中，在经验风险函数后面加一个正则化项（惩罚项），是一个大于0的系数lamada，表示的是模型的复杂度。

上采样 & 下采样

上采样：从少类别中复制样本使得数据达到平衡

下采样：从多数类中随机抽取样本（抽取的样本数量与少数类别样本量一致）从而减少多数类别样本数据，使数据达到平衡

先验概率 & 后验概率

先验概率：是指根据以往经验和分析得到的概率，就是在训练集中得到的概率分布

后验概率：后验概率是指在得到“结果”的信息后重新修正的概率，从训练集的分布中计算样本属于哪种类别的概率

信息增益 & 基尼系数

信息增益：信息增益的定义为集合的经验熵与特征给定条件下的经验条件熵之差，计算公式为

$g\left(D,A \right )=H\left(D\right)-H\left(D|A \right )$

根据特征A将数据集D分成两部分 $D_{1},D_{2}$ 时，有

$g\left(D|A \right )=H\left(D\right)-\alpha H\left(D_{1}\right )-\left(1-\alpha \right )H\left(D_{2} \right )$

其中

$\alpha=\frac{\left|D_{1}\right|}{\left|D\right|}$

基尼系数：基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益是相反的，计算公式为：

$Gini\left(p \right )=\sum_{k=1}^{K}p_{k}\left(1-p_{k} \right )=1-\sum_{k=1}^{K}p_{k}^{2}$

根据特征A将数据集D分成两部分时，有

$Gini\left(D,A \right )=\alpha Gini\left(D_{1} \right )+\left(1-\alpha \right )Gini\left(D_{2} \right )$

正确率、精确率、召回率、虚警率和漏检率

正确率：正确率(Accuracy)表示政府样本被正确分类的比例，计算公式如下：

其中NTP 表示正类样本被正确分类的数目，NTN表示负类样本被正确分类的数目，NFP表示负类样本被分为正类的数目，NFN表示正类样本被分为负类的数目。

精确率：精确率（Precision）表示原本为正类样本在所有被分为正类样本(正的被分为正的+错的被分为正的)的比例

召回率：召回率（Recall）表示原本为正类样本在原本正类样本(正的被分为正的+正的被分为错的)的比例

虚警率：虚警率（False alarm）表示负类样本被分为正类样本在所有负类样本中的比例

漏警率：漏警率表示（Missing alarm）表示正类样本被分为负类样本在所有正类样本中的比例

机器学习常用概念辨析相关推荐

机器学习基本概念,常用经典模型
1. 机器学习明白一些基本概念什么是机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能通俗来讲,让代码学着干活特征:自变量标签:因变量学习的种类有监督学习:提供标签,分类.回 ...
机器学习核心概念、常用术语整理（建议收藏）
[转]机器学习核心概念完全解析(建议收藏) 原文链接:https://mp.weixin.qq.com/s/wEpmF1gdvsIimnvXrxKdRw AI干货知识库刚接触机器学习框架 Tenso ...
快速掌握机器学习（Machine Learning）常用概念术语，常用算法
1.什么是机器学习? 机器学习的概念: 传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去.有因有果,非常明确.这样的方式计算机是无法执行固定流程之外的东西的 . 但是现 ...
数据湖概念辨析以及常见技术通览
这是大数据技术扫盲系列的第二篇[数据湖概念辨析以及常见技术通览] 全文3000字,阅读需要10分钟一.数据湖概念的起源数据湖的概念被首次提出是在2010年的Hadoop World大会上,时任Pe ...
【深度学习】基于Pytorch的线性模型概念辨析和实现(二)
[深度学习]基于Pytorch的线性模型概念辨析和实现(二) 文章目录 [深度学习]基于Pytorch的线性模型概念辨析和实现(二) 1 线性回归的从零开始实现 2 训练 3 关于with 4 关于w ...
【计算机视觉】计算机视觉、模式识别、机器学习常用牛人主页链接
计算机视觉.模式识别.机器学习常用牛人主页链接牛人主页(主页有很多论文代码) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexe ...
《统计学习方法》读书笔记——机器学习常用评价指标
传送门 <统计学习方法>读书笔记--机器学习常用评价指标 <统计学习方法>读书笔记--感知机(原理+代码实现) <统计学习方法>读书笔记--K近邻法(原理+代码实现 ...
机器学习——基础概念
一. 机器学习基础概念总结过层中,我结合了头歌上的相关公开课程:详见 (一).什么是机器学习? 机器学习致力于通过计算的手段,利用经验来改善系统的性能. "经验"-->通常 ...
【学习记录】卷积神经网络常用概念
一.卷积与池化卷积本身来自于信号处理领域,是一项广泛应用于信号处理的技术,在数学上指的是函数经过反转和平移再次求乘积的积分的过程. 在传统的图像处理中,卷积核一般是人为设定,使用不同的卷积核可以提取 ...

机器学习常用概念辨析

Bagging & Boosting

方差 & 偏差

近似误差 & 估计误差

判别模型 & 生成模型

期望风险 & 经验风险 & 结构风险

上采样 & 下采样

先验概率 & 后验概率

信息增益 & 基尼系数

正确率、精确率、召回率、虚警率和漏检率

机器学习常用概念辨析相关推荐

最新文章

热门文章