【数据挖掘数学基础】02常用分布(下)
目录
四、分布(卡方分布)
五、t分布
六、F分布
七、各分布的总结
四、分布(卡方分布)
1、定义:设随机变量X1,X2,……Xn相互独立,且XI(i=1,2,……,n)服从标准正态分布,则它们的平方和服从自由度为n的X2分布。
2、性质特点:
- 因卡方分布是平方和,所以分布的变量值始终为正;
- 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布(右偏分布),但随着自由度的增大逐渐趋向对称;
- 常用于方差的估计和假设检验,以及列联分析中;
- 期望为:E(x2)=n,方差为:D(x2)=2n(n为自由度);
- 可加性:若U和V为两个独立的x2分布随机变量,U~x2(n1),V~x2(n2),则U+V这一随机变量服从自由度为n1+n2的x2分布;
- 当自由度增加到足够大时,卡方分布的概率密度曲线趋于对称,当n —>+∞时,x2分布的极限分布是正态分布。
理解:卡方分布是相互独立的标准正态分布的平方和。
五、t分布
1、定义:设随机变量X~N(0,1),Y~x2(n),且X与Y独立,则其分布称为t分布,记为t(n),其中n为其自由度。
2、性质和特点:
- 当n≥2时,t分布的数学期望E(t)=0;
- 当n≥3时,t分布的方差D(t)=n/(n-2);
- 自由度为1的t分布称为柯西分布;
- 随着n自由度的增加,t分布的密度函数越来越接近标准正态分布的密度函数。实际中,当n≥30时,t分布与标准正态分布就非常接近;
3、理解:
- 公式理解:X是标准分布,Y是卡方分布,卡方分布是标准分布的平方和,我们可以换算,后面的公式就是k=2时的幂平均公式。因此我们也可以从另个角度解读这个公式:就是拿一个标准分布除以其一堆标准分布的平均值。
- t分布实际是z分布(标准正态分布)小时候的样子(矮一些胖一些),自由度就是它的年龄随着年龄的增大,它逐渐变高变瘦变成了z分布;
- 做小样本的时候要用t分布,只有在样本量足够大的时候才能用z分布。
- 做研究的时候大多数是用小样本实验,所以一般是用t分布,如果结果还要换算称z分布工程会很复杂,因此很多研究和教材都默认是用t分布。
六、F分布
1、由R.A.Fisher(费希尔)提出,定义:设若U服从自由度为m的x2分布,即U~x2(m),V服从自由度为n的x2分布,即V~x2(n),且U和V相互独立。则,称F为服从自由度m和n的F分布。记F~F(m,n)
2、特征:
- F分布的数学期望E(t)=n/(n-2),n>2;方差D(t)=2n2(m+n-2)/(m(n-2)(n-4)),n>4;
- F分布是右偏分布;
- F分布与t分布的关系:如果随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。公式推导:
公式理解:
t分布是标准分布/卡方分布平方根,t2=(标准分布)2/n的卡方分布,而标准分布的平方不就是自由度n为1的卡方分布吗,[N(0,1)]2=x2(1)/1,因此t分布平方是服从m=1和n自由度的F分布。
- F分布在方差分析、回归方程的显著性检验中都有重要地位。
3、理解:
- F~F(m,n)里的m和n自由度是不能随便调换位置,因为m和n调换位置就意味着公式的m和n也要调换位置。F(m,n)是F(n,m)的倒数。
七、各分布的总结
1、各分布之间的关系:
- 标准分布的平方构造出卡方分布;
- 标准分布/卡方分布即是t分布;
- t分布的平方是F(1,n)分布;
- 两个卡方分布构造出F分布;
- 随着自由度增大,卡方、t分布、F分布最终都会趋向正态分布。
- 对称分布:正态分布、标准正态分布、t分布;
- 右偏分布:卡方分布、F分布。
2、用查表方法计算各分布的分布函数和分位点
查表之前,我们需要了解两个指标Zɑ和Ф(x),以标准分布为例:
- 分布函数Ф(x):表示在N(0,1)中,X=x左侧的面积,是用x值查表得到左侧面积。
- 分为点Zɑ:表示在N(0,1)中,右侧的面积为ɑ的点,是用ɑ右侧面积查表得到值。
我们在查表的时候,首先要弄清楚我们拿到的表是分为点表还是分布函数表,以及是什么分布的表。如下图
【例子】设在标准分布下,求Z0.05,Z0.025,Z0.005
【解答】方法一,用分布函数表查:
- 先将右侧面积转成左侧面积,1-ɑ=1-0.05=0.95
- 查表是查中间的值等于0.95,查的是在1.64~1.65之间,取中间1.645,所以Z0.05=1.645
方法二,用分为点表查
- 不用转换,直接查得:Z0.025=1.96,Z0.005=2.576
- t分布、F分布和卡方分布表的查询方法和标准分布是一样的。例子:t分布下,自由度n=10,求t0.025.
- 从t分布-分为点表可以看出,当自由度增大,值就越接近标准分布。也解释了所有分布最终状态是正态分布。(t分布在自由度无限增大时,t0.025≈Z0.025≈1.96
3、分为点Zɑ和分布函数表Ф(x)的关系:
- Ф(x)也可以写成P(x)或P(z),P指的是概率0-1,是图形分布中间的面积,x、z是统计量值,是图形x轴的值,正无穷到负无穷。
- Zɑ中Z指的是z分布的统计量,也可以写x2、t分布,是图形x轴的值,分为点,正无穷到负无穷。ɑ指的是概率0-1。
- Zɑ与Ф(x),z就是x,ɑ就是Ф。
- Zɑ中因为ɑ概率是大于0,所以ɑ概率面积是右侧面积,所以,如果我们刚拿到ɑ值要先弄明白求的是左侧分为点还是右侧分为点。左侧就需要1-ɑ。
- P(x)[或Ф(x)]中,x是可以正负数的,求出的p值是大于0的左侧面积
- Zɑ是用概率密度ɑ(面积)求得分为点;
- P(x)[或Ф(x)]是用分为点x求得概率密度p(面积);
(无力吐槽……CSDN公式编辑真的很不智能,我从word写好的笔记复制过来,公式左下角和右上角的值都跑出来了……)
【数据挖掘数学基础】02常用分布(下)相关推荐
- 一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念
一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念 接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析 ...
- 长尾分布下的分类问题
长尾分布下的分类问题 基于深度学习的分类算法应用于长尾分布数据集时,识别效果不好.对尾部类别的学习效果很差.为解决长尾分类下的识别问题,有多种不同思想的优化方法.最简单的方法是重采样(re-sam ...
- 【FinE】正态分布和t分布下的CVaR
导航 CVaR and VaR Model normal distribution student t distribution Case Study Reference CVaR and VaR C ...
- [python skill]利用python计算T分布下的置信区间
上篇博文中的置信区间计算代码在使用过程中并不准确,本人没并没有搞清楚原因 - - 求大神解答: import numpy as np from scipy import statsX1=np.arra ...
- Linux常用命令下,以及再CentOS7下搭建apache网站服务,以及同一服务器上搭建第二个网站
Linux常用命令下,以及再CentOS7下搭建apache网站服务,以及同一服务器上搭建第二个网站 Linux 常用命令ls -l 以长格式显示-a 显示.. 和 .-A 不显示 . 和 ..-d ...
- 常用的linux远程管理方法,常用windows下远程管理Linux服务器的方法
常用windows下远程管理Linux服务器的方法 来源:互联网 作者:佚名 时间:2013-04-14 12:48 随着互联网的高速发展以及Linux企业应用的成熟,Linux被广泛应用于服务器领域 ...
- 一种崭新的长尾分布下分类问题的通用算法|NeurIPS 2020
↑ 点击蓝字 关注视学算法 作者丨汤凯华@知乎 来源丨https://zhuanlan.zhihu.com/p/259569655 编辑丨极市平台 本文主要介绍我们组今年被NeurIPS 2020接收 ...
- 数据挖掘进行数据分析常用的方法
利用数据挖掘进行数据分析常用的方法主要有分类.回归分析.聚类.关联规则.特征.变化和偏差分析.Web页挖掘等, 它们分别从不同的角度对数据进行挖掘. ① 分类.分类是找出数据库中一组数据对象的共同特点 ...
- matlab如何表示三峰正态分布,正态分布及常用分布的matlab编程实现
<正态分布及常用分布的matlab编程实现>由会员分享,可在线阅读,更多相关<正态分布及常用分布的matlab编程实现(3页珍藏版)>请在人人文库网上搜索. 1.functio ...
最新文章
- 大工18秋《计算机网络技术》在线作业1,大工18秋《专业英语(计算机英语)》在线作业3【标准答案】...
- MyEclipse的Add Libraries对话框
- Java的二十三种设计模式(建造者模式(Builder))
- spring-boot 速成(8) 集成druid+mybatis
- 基于Mint UI和MUI开发VUE项目一之环境搭建和首页的实现
- 2021牛客暑期多校训练营3 I-Kuriyama Mirai and Exclusive Or(异或+差分)
- mysql无法与外部健形成约束_MySQL Rails:错误:150“外键约束不正确”
- Golang——Tag、自定义类型、未命名类型
- python第6天作业
- docker删除私有仓库中的镜像
- 解决chrome崩溃的方法
- 【OpenCV入门指南】第一篇 安装OpenCV
- C++获取Unix时间戳(分别以秒和毫秒为单位)的几种方法
- java table 增加行_使用POI给word中的表格增加行
- 自制建议万用表二极管挡位?蜂鸣器档??
- canvas漫天闪烁的星星
- 如何导出微信公众号文章数据!
- androidstudio 引入百度或者高德地图 鉴权失败
- 毕业设计说明书(论文)结构-系统设计方面
- 使用spire.doc实现word文档合并
热门文章
- 项目将com.thoughtworks.xstream升级到1.4.18遇到的问题:com.thoughtworks.xstream.security.ForbiddenClassException
- k8s流水线发布部署
- ibm x3850装oracle,IBM X3850 Windows Server 2008 X64安装Oracle 10g x64问题锦集
- 搞IT,算法编程不错的学习网址 & 一些专栏博客大神的地址(汇总)
- 黑马MYSQL课程的基础语法笔记
- AD19 AD20 AD21 中undo(撤销)无法使用问题。
- 在面试过程中面试官经常提到的问题
- JS学习笔记day05(完结)!
- C#实现移动零和爬楼梯
- [LeetCode]动态规划解拆分整数I[Silver Fox]