机器学习常用概念辨析
目录
Bagging & Boosting
方差 & 偏差
近似误差 & 估计误差
判别模型 & 生成模型
期望风险 & 经验风险 & 结构风险
上采样 & 下采样
先验概率 & 后验概率
信息增益 & 基尼系数
正确率、精确率、召回率、虚警率和漏检率
机器学习有好多概念需要理解,这里做个总结
Bagging & Boosting
Bagging: Bagging 在每次迭代过程中通过bootstrap(有放回抽样)的方式生成一个训练集,最后将所有子分类器结果的平均值作为最终的结果,代表算法为随机森林
Boosting: Boosting 在每次迭代过程中增加被分错样本的权重,最终将所有子分类器的结果相加得到最终的结果,代表算法为AdaBoost
方差 & 偏差
方差:描述模型对于给定值的输出稳定性,高方差类似与过拟合,降低方差主要通过增加数据量,增大正则化项,降维等方式
偏差:描述模型输出结果的期望与样本真实结果的差距,高偏差类似与欠拟合,通过增加特征数量,减小正则化项实现
近似误差 & 估计误差
近似误差:近似误差是训练集上的训练误差。如果近似误差较小,表示对训练集拟合效果较好,可能发生过拟合
估计误差:估计误差是测试集上的预测误差。如果估计误差较小,那么表示所训练的模型具有很好的泛化能力
判别模型 & 生成模型
判别模型:判别模型直接学习判别函数或者条件概率分布
,代表算法有K邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法、条件随机场
生成模型:生成模型学习联合概率分布,然后求出条件概率
作为预测模型,代表的算法有贝叶斯模型和隐马尔科夫模型
期望风险 & 经验风险 & 结构风险
期望风险:对所有样本(包含未知样本和已知的训练样本)的预测能力,是全局概念。(经验风险则是局部概念,仅仅表示决策函数对训练数据集里的样本的预测能力。)
经验风险:对所有训练样本都求一次损失函数,再累加求平均。即,模型f(x)对训练样本中所有样本的预测能力。所谓经验风险最小化即对训练集中的所有样本点损失函数的平均最小化。经验风险越小说明模型f(x)对训练集的拟合程度越好。
结构风险:结构风险是经验风险和期望风险的折中,在经验风险函数后面加一个正则化项(惩罚项),是一个大于0的系数lamada,表示的是模型的复杂度。
上采样 & 下采样
上采样:从少类别中复制样本使得数据达到平衡
下采样:从多数类中随机抽取样本(抽取的样本数量与少数类别样本量一致)从而减少多数类别样本数据,使数据达到平衡
先验概率 & 后验概率
先验概率:是指根据以往经验和分析得到的概率,就是在训练集中得到的概率分布
后验概率:后验概率是指在得到“结果”的信息后重新修正的概率,从训练集的分布中计算样本属于哪种类别的概率
信息增益 & 基尼系数
信息增益:信息增益的定义为集合的经验熵与特征给定条件下的经验条件熵之差,计算公式为
根据特征A将数据集D分成两部分时,有
其中
基尼系数:基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益是相反的,计算公式为:
根据特征A将数据集D分成两部分时,有
正确率、精确率、召回率、虚警率和漏检率
正确率:正确率(Accuracy)表示政府样本被正确分类的比例,计算公式如下:
其中NTP 表示正类样本被正确分类的数目,NTN表示负类样本被正确分类的数目,NFP表示负类样本被分为正类的数目,NFN表示正类样本被分为负类的数目。
精确率:精确率(Precision)表示原本为正类样本在所有被分为正类样本(正的被分为正的+错的被分为正的)的比例
召回率:召回率(Recall)表示原本为正类样本在原本正类样本(正的被分为正的+正的被分为错的)的比例
虚警率:虚警率(False alarm)表示负类样本被分为正类样本在所有负类样本中的比例
漏警率:漏警率表示(Missing alarm)表示正类样本被分为负类样本在所有正类样本中的比例
机器学习常用概念辨析相关推荐
- 机器学习 基本概念,常用经典模型
1. 机器学习 明白一些基本概念 什么是机器学习 研究如何通过计算的手段,利用经验来改善系统自身的性能 通俗来讲,让代码学着干活 特征:自变量 标签:因变量 学习的种类 有监督学习:提供标签,分类.回 ...
- 机器学习核心概念、常用术语整理(建议收藏)
[转]机器学习核心概念完全解析(建议收藏) 原文链接:https://mp.weixin.qq.com/s/wEpmF1gdvsIimnvXrxKdRw AI干货知识库 刚接触机器学习框架 Tenso ...
- 快速掌握 机器学习(Machine Learning) 常用概念术语,常用算法
1.什么是机器学习? 机器学习的概念: 传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去.有因有果,非常明确.这样的方式计算机是无法执行固定流程之外的东西的 . 但是现 ...
- 数据湖概念辨析以及常见技术通览
这是大数据技术扫盲系列的第二篇[数据湖概念辨析以及常见技术通览] 全文3000字,阅读需要10分钟 一.数据湖概念的起源 数据湖的概念被首次提出是在2010年的Hadoop World大会上,时任Pe ...
- 【深度学习】基于Pytorch的线性模型概念辨析和实现(二)
[深度学习]基于Pytorch的线性模型概念辨析和实现(二) 文章目录 [深度学习]基于Pytorch的线性模型概念辨析和实现(二) 1 线性回归的从零开始实现 2 训练 3 关于with 4 关于w ...
- 【计算机视觉】计算机视觉、模式识别、机器学习常用牛人主页链接
计算机视觉.模式识别.机器学习常用牛人主页链接 牛人主页(主页有很多论文代码) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexe ...
- 《统计学习方法》读书笔记——机器学习常用评价指标
传送门 <统计学习方法>读书笔记--机器学习常用评价指标 <统计学习方法>读书笔记--感知机(原理+代码实现) <统计学习方法>读书笔记--K近邻法(原理+代码实现 ...
- 机器学习——基础概念
一. 机器学习基础概念 总结过层中,我结合了头歌上的相关公开课程:详见 (一).什么是机器学习? 机器学习致力于通过计算的手段,利用经验来改善系统的性能. "经验"-->通常 ...
- 【学习记录】卷积神经网络常用概念
一.卷积与池化 卷积本身来自于信号处理领域,是一项广泛应用于信号处理的技术,在数学上指的是函数经过反转和平移再次求乘积的积分的过程. 在传统的图像处理中,卷积核一般是人为设定,使用不同的卷积核可以提取 ...
最新文章
- 京东典型广告推广源码示例一
- 基于DDD的.NET开发框架 - ABP领域服务
- Kubernetes Deployment与Replica Set
- HDL输入设计详解攻略
- 手机之家签名工具_这个签名工具可以让任何人“证明自己是中本聪”
- java开发环境搭建 pdf_01搭建java web开发环境.pdf
- UVA 1645 - Count(简单DP)
- 【BZOJ3551】Peaks加强版,主席树+kruskal重构+dfs序+倍增思想
- 原来真的不会用指针[*p++]
- JAVA加载JAR包并调用JAR包中某个类的某个方法
- Django 配置访问静态文件
- 技术员 Ghost Win 7 Sp1(x86/x64)装机版/纯净版 201808
- php二维码与电子名片
- react自定义鼠标右键菜单
- 使用matlab编写协方差矩阵计算矩阵
- (每日一练c++)CC156 确定字符互异
- 35款超赞的设计常用的英文字体
- 基于kettle的可视化数据集成平台
- 苹果13防水吗 苹果13颜色哪个好看
- PLC通讯实现-C#实现西门子PLC MPI通讯W95_S7(五)