机器学习中的统计学基础
一、什么是统计学
- 是一门收集、整理和分析统计数据的方法科学
- 其目的是探索数据内在的数据规律性,以达到对客观事物的科学认识
- 统计学研究随机现象,以推断为特征,“由部分及全体”的思想贯穿于统计学的始终
二、统计学的分类
统计学可分为描述统计学和推断统计学
描述统计学(Descriptive Statistics)
- 研究如何取得反映客观现象的数据
- 并通过图表形式对所收集的数据进行加工处理和显示
- 进而通过综合概括与分析得出反映客观现象的规律性数量特征。
推断统计学(Inferential Statistics)
- 研究如何根据样本数据去推断总体数量特征的方法
- 它是对样本数据进行描述的基础上
- 对统计总体的未知数量特征做出以概率形式表述的推断
三、数据描述的数值方法
在统计学中,数据描述的数值方法,主要从集中趋势、离散程度、分布的形状,三个方面去描述。
1.集中趋势
- 集中趋势:一组数据向其中心值靠拢的倾向和程度
- 集中趋势测度:寻找数据的水平代表值或中心值。
- 常用的集中趋势测度指标:均值、中位数、众数
(1)均值
- 定义:是指在一组数据中所有数据之和再除以数据的个数
- 它是 反映数据集中趋势的一项指标
- 数学表达式:
(2)中位数
- 又称为中值,对于有限的数集,可以通过把所有观察值按高低排序后找出正中间的一个数字作为中位数
- 注:如果观察值有偶数个,通常去最中间的两个数值的平均数作为中位数。
(3)众数(Mode)
- 定义:是一组数据中出现次数最多的数值,叫众数
- 注1:一组数据中,可能会存在多个众数,也可能不存在众数
- 注2:众数不仅适用于数值型数据,对于非数值型数据也同样适用
2.离散程度
比较下面两组数据:A:1 2 5 8 9 B:3 4 5 6 7 两组数的均值都为5。
描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量。
- 离散程度:反映各变量远离其中心值的程度。
- 常用指标:极差 方差
(1)极差
极差:最大值-最小值,简单地描述数据的范围大小。还以上面A、B两组数为例:
A的极差为:9-1=8 ,B的极差为:7-3=4
同样的5个数,A的极差比B的极差要大,所以也比B的分散。
(2)方差
定义:描述一组数据离散程度的度量。用来计算机每个变量与总体均值之间的差异。
表达式:S^2= ∑(X- u) ^2 / (n-1)
注:Xi表示数据集中在第i个数据的观察值,u表示数据集的均值。
3.分布的形状
(1)偏态(skewness)
- 偏态:数据分布的不对称性称作偏态。
- 偏态系数:对数据分布的不对称性(即偏斜程度)的测度。
- 偏态系数有多种计算方法,在统计软件中通常采用以下公式:
偏态主要有下面三种:左偏分布(也称负偏分布)、对称分布、右偏分布(也称正偏分布)
(2)峰度(Kurtosis)
- 峰度:数据分布的扁平或尖峰程度
- 峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。
- 统计软件中常用以下公式计算:
峰度主要有以下两种:扁平分布和尖峰分布
四、机器学习中的方差和偏差
观察下面这组图:
红色的靶心区域:学习算法完美的正确预测值。
蓝色点:每个数据集所训练出的模型对样本的预测值。
观察结果:
离散层度:两幅图中蓝色点比较集中,另外两幅中比较分散,它们描述的是方差情况。比较集中的属于方差小的,比较分散的属于方差大的情况。
蓝色与红色靶心区域的位置关系:靠近红色靶心的属于偏差较小的情况,远离靶心的属于偏差较大的情况。
泛化误差
以回归任务为例,学习算法的平方预测误差期望为:
x:测试样本,f(x,D):由训练集D学得的模型f对x的预测输出
使用样本数相同的不同训练集产生的方差为:
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
偏差:期望预测与真实标记的误差被称为偏差(bias)。为了方便起见,我们直接去偏差的平方:
偏差度量了学习算法的期望预测与真实结果的偏离程序,即刻画了学习算法本身的拟合能力。
噪声:真实标记与数据集中的实际标记间的偏差:
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
(1)欠拟合的情况:偏差大,方差小
给定一个学习任务,在训练初期,
- 由于训练不足,学习器的拟合能力不够强,偏差比较大
- 也是由于拟合能力不强,数据集的扰动也无法使学习器产生显著变化。
(2)过拟合情况:偏差小,方差大
随着训练程度的加深:
- 学习器的拟合能力逐渐增强,训练数据的扰动也能够渐渐被学习器学到
- 充分训练后,学习器的拟合能力非常强
- 训练数据的轻微扰动都会导致学习器发生显著变化
- 当训练数据本身的、非全局的特征被学习器学到了,则将发生
机器学习中的统计学基础相关推荐
- 机器学习中的微积分基础
机器学习中的微积分基础 夹逼定理及重要极限 极限存在定理 导数 方向导数与梯度 凸函数 泰勒公式 机器学习中的微积分基础 夹逼定理及重要极限 当x∈U(x0,r)x\in U(x_{0},r)时,有g ...
- 机器学习中导数最优化方法(基础篇)
1. 前言 熟悉机器学习的童鞋都知道,优化方法是其中一个非常重要的话题,最常见的情形就是利用目标函数的导数通过多次迭代来求解无约束最优化问题.实现简单,coding 方便,是训练模型的必备利器之一.这 ...
- 【机器学习算法专题(蓄力计划)】三、机器学习中的概率论基础精讲
这是统计学的基本概念,随便找本概率论基础都可以找到这些概念,看不懂的就看多几遍,重点在记住和知道应用场合,知识点之间的衔接很重要,理解为王. 文章目录 1. 随机变量分类 2. 常见的离散分布 2.1 ...
- 机器学习中的评价指标(分类指标评Accuracy、Precision、Recall、F1-score、ROC、AUC )(回归指标评价MSE、RMSE、MAE、MAPE、R Squared)
文章目录 1.机器学习中的评价指标 基础 (一)分类指标评价 1.Accuracy 2.Precision.查准率 3.Recall.查全率 4.F1-score 举个例子: 5.ROC 6.AUC ...
- 独家 | 一文读懂机器学习中的贝叶斯统计学
作者:Matthew Stewart, PhD Researcher 翻译:吴金笛 校对:丁楠雅 本文约4300字,建议阅读15分钟. 本文主要是向新手介绍贝叶斯方法并将其与频率方法进行比较. 你有没 ...
- 独家 | 一文解析统计学在机器学习中的重要性(附学习资源)
作者:Jason Brownlee 翻译:陈之炎 校对:万文青 本文共2400字,建议阅读10分钟. 本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法. 统计是一组工具,您可 ...
- 深度学习基础:机器学习中的基函数与函数空间
[机器学习中的数学]基函数与函数空间 引言 在学习线性回归模型的时候就会遇到基函数,可能我们会遇到多项式基函数.高斯基函数.sigmoid基函数,当然在高等数学和信号系统中还经常会碰到傅里叶基.有时候 ...
- 一文读懂机器学习中的贝叶斯统计学
作者:Matthew Stewart, PhD Researcher 翻译:吴金笛 校对:丁楠雅 本文约4300字,建议阅读15分钟. 本文主要是向新手介绍贝叶斯方法并将其与频率方法进行比较. 你 ...
- 【机器学习基础】机器学习中类别变量的编码方法总结
机器学习 Author:louwill Machine Learning Lab 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场 ...
最新文章
- 图片进行base64编解码方法
- python3.6.0安装教程-centos6.9安装python3.6.0和模块
- Mac 下变更pip源
- Javascript乱弹设计模式系列(1) - 观察者模式(Observer)
- 80×60长40米的地笼_石家庄Q345矩形方管 220*80*8方管 华东地区
- 陕西省2021年高考成绩结果查询,陕西招生考试信息网:2021年陕西高考成绩查询入口、查分系统...
- 程序员谈谈我的职场观(一)
- 腾讯大动刀:微信试行松绑外链!用户已可打开淘宝、抖音等链接
- 【Vue】—计算属性
- [转载] 在java中,如何将方法作为参数传递
- 不输入密码执行sudo 命令
- php 模块不存在,模块不存在:index.php?
- cad抛物线曲线lisp_cad画缓和曲线lisp程序(1)
- 程序员高效率办公软件(推荐)。
- python从入门到实践 练习题雨滴下落--我的下落时全都连在一起了---已解决
- Unity接入心知天气,获取当前城市天气状况
- mysql过载保护_腾讯后台开发技术总监浅谈过载保护 小心雪崩效应
- 越狱苹果手机导出网易云音乐歌曲(以及缓存文件转换)
- Gartner:数字化转型的新方向:敏捷,以产品为中心
- Reds 过期策略 内存淘汰策略 持久化策略