常用的统计量及其对应的抽样分布(python)
1.样本均值
设 x1,x2,⋯,xn为取自某总体的样本, 其算术平均值称为样本均值,一 般用表示,即
如果把样本中的数据与样本均值的差称为偏差, 则样本所有偏差之和为 0, 即
# 从总体/总体的分布中抽取样本并计算样本均值和计算偏差
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean) # 计算偏差和
print("样本均值为:",x_mean)
print("偏差和为:",x_bias)
样本均值为: 12.4
偏差和为: -3.552713678800501e-15
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_mean = np.mean(x_i) # 计算样本均值
x_bias = np.sum(x_i-x_mean) # 计算偏差和
print("样本均值为:",x_mean)
print("偏差和为:",x_bias)
样本均值为: 0.08248736142784831
偏差和为: 1.1102230246251565e-16
统计量——样本均值的分布,即样本均值的抽样分布当n越来越大时近似服从正态分布,具体来说:
设 x1,x2,⋯,xn 是来自某个总体的样本, 为样本均值。
(1)若总体分布为 N(μ,), 则
的精确分布为 N(μ,
);
(2) 若总体分布末知或不是正态分布, E(x)=μ,Var(x)=存在, 则 n 较大时
的渐近分布为 N(μ,
)。 这里渐近分布是指 n 较大时的近似分布。
2.样本方差与样本标准差
设 x1,x2,⋯,xnx1,x2,⋯,xn 为取自某总体的样本,则它关于样本均值 ¯xx¯ 的平均偏差平方和
称为样本方差
样本标准差就是样本方差的算术平方根,即
在实际的应用中,我们往往不会直接使用样本方差,更倾向于使用样本标准差,因为样本方差的量纲(单位)与样本均值不一致,无法与样本均值进行加减运算。
当样本量较大时,与
相差不大,可以随意使用,当样本量较小时,计算样本方差最好使用无偏样本方差
。 (无偏方差:
)
# 从总体/总体的分布中抽取样本并计算样本方差与样本标准差
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)
样本方差sn^2为: 26.639999999999997 样本方差s^2为: 29.599999999999998 样本标准差sn^2为: 5.161395160225576 样本标准差s^2为: 5.440588203494177
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_sn2 = np.var(x_i,ddof=0) #样本方差
x_s2 = np.var(x_i,ddof=1) # 无偏样本方差
x_sn = np.std(x_i,ddof=0) # 样本标准差
x_s = np.std(x_i,ddof=1) # 无偏样本标准差
print("样本方差sn^2为:",x_sn2)
print("样本方差s^2为:",x_s2)
print("样本标准差sn^2为:",x_sn)
print("样本标准差s^2为:",x_s)
样本方差sn^2为: 0.7414712184611654 样本方差s^2为: 0.8238569094012949 样本标准差sn^2为: 0.8610872304599374 样本标准差s^2为: 0.9076656374465736设总体为 XX 方差存在,
设总体为 X 方差存在, 即 E(X)=μ,Var(X)=<∞,x1,x2,⋯,xn 为 从该总体得到的样本,
和
分别是样本均值和样本方差, 则
此定理表明, 样本均值的期望与总体均值相同, 而样本均值的方差是总体方差的 1/n。
3.样本分位数与样本中位数及其抽样分布
样本中位数 :
# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
样本中位数为: 9.5
## (2)从总体分布中抽取样本,假设总体分布为N(0,1)
x_i = np.random.randn(10) # 从总体分布N(0,1)中抽取10个样本
x_mid = np.median(x_i) # 计算样本中位数
print("样本中位数为:",x_mid)
样本中位数为: 0.7193841543276442
样本p分位数
(1)若np不是整数 (2) 若np是整数
先将抽样的n个样本按从小到大排序,样本p分位数就是排在第n×p位的样品值,当然有可能n×p不是整数,按上述公式处理。
# 从总体/总体的分布中抽取样本并计算样本样本中位数
## (1)从总体中抽取样本
X = np.array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]) # 假设总体为X
x_i = np.random.choice(X, 10, replace=False) # 从总体X中抽取10个样本
x_low = np.percentile(x_i,25) # 计算样本下四分位数
x_high = np.percentile(x_i,75) # 计算样本上四分位数
print("样本下四分位数为:",x_low)
print("样本上四分位数为:",x_high)
样本下四分位数为: 7.25 样本上四分位数为: 14.75
设总体密度函数为 p(x),xp 为其 p 分位数, p(x)在 xp 处连续且 p(xp)> 0 , 则当 n→∞ 时样本 p 分位数 mp的渐近分布为
特别地, 对于样本中位数来说, 当 n→∞时有
常用的统计量及其对应的抽样分布(python)相关推荐
- NO6 -- 抽样分布-Python实战
抽样分布-Python实战 数据集下载:https://pan.baidu.com/s/1AKsYpjZgtG8FNhk6Pxs9VA 数据集描述:数据中有四列,ID 年龄 价格 港口 1.按港口分类 ...
- Machine learning(ML)常用的几类学习器及Python实现
Machine learning(ML)常用的几种学习器及Python实现 一.决策树 1.函数的参数主要为: 2. 决策树的保存 二.Boostings 1.Adaboost 1.构建训练函数 2. ...
- 常用正则表达式最强汇总(含 Python 代码举例讲解 + 爬虫实战)
本文带大家学习正则表达式,并通过 python 代码举例讲解常用的正则表达式 最后实战爬取小说网页:重点在于爬取的网页通过正则表达式进行解析. 正则表达式语法 Python 的 re 模块(正则表达式 ...
- 常用的统计量和抽样分布
一.统计量 样本均值:即在总体中的样本数据的均值,反映样本数据的集中趋势. 样本方差:每个样本值与全体样本值平均数之差的平方值的平均数:方差是用来衡量随机变量和其数学期望(均值)之间的偏离程度. 样本 ...
- python第三方库有哪些常用的、请列举15个-python基础面试常见题
Python是目前市面上,我个人认为是最简洁.最优雅.最有前途.最全能的编程语言,没有之一. 2.通过什么途径学习的Python? 通过自学,包括网上查看一些视频,购买一些相关专业的书籍. 3.Pyt ...
- python一般用什么编译器-Python常用的编辑器有哪些?老男孩Python
python是一门解释型语言,代码想要运行,必须通过解释器来执行,当然为了满足不同平台的需求,python解释器也分为不同的种类,接下来老男孩教育为大家介绍五款常用python解释器. 目前常见的Py ...
- python常用库教程_这几个python常用的库你必须知道!
随着人工智能时代的到来,python变得更加流行.受欢迎,功能强大.简单易学.容易入门.应用广泛等,掀起了学习热潮,现在越来越多人转行都会学习python语言.为了让大家快速掌握python,今天为大 ...
- python中常用模块_工作中用过的Python常用模块:(基于3.x)
内置模块: sys 用于提供对解释器相关的访问及维护.例如:sys.argv --传参 sys.platform --返回系统平台名称 sys.version --查看python版本 os 用于提供 ...
- python选择某一行_Python常用语法有哪些 如何快速入门Python开发
Python常用语法有哪些?如何快速入门Python开发?Python编程语言是最容易学习.并且功能强大的语言,吸引了很多人学习入行.很多人想知道如何快速入门Python开发,接下来就给大家分享Pyt ...
最新文章
- 逆变器的技术创新 让光伏电站更具发展前景
- Rabbitmq 消息对列 生产者与消费者的具体实现 springboot
- CountDownLatch——常用并发工具类
- 夺命雷公狗---微信开发57----微网站之jquery_mobile之入门案例
- 利用JS面向对象+模块化封装集AJAX请求、基本数据校验、URL参数截取等功能于一身的通用工具模块
- java nio技术_攻破JAVA NIO技术壁垒
- java dotnet core_在.NET Core 2.0中使用Omron库
- sqlserver 字符串转化数值函数_Excel常见函数用法(TEXT函数)
- ES 集中式日志分析平台 Elastic Stack(介绍)
- SAP 以工序为基准进行发料 机加工行业 Goods Issue to Routing
- 7340怎么更换墨盒_打印显示墨盒托架被卡住怎么办?请按下边步骤正确解决
- TM1640驱动程序
- 赚自己的淘宝佣金,让返利网无路可走
- 4k纸是几厘米乘几厘米_几厘米?4k的纸多大?
- java中级程序员全面学习路线教程
- 【Lintcode】1132. Valid Triangle Number
- eBay自养号测评需要准备哪些资料?
- python求球的表面积_python-Hypar的表面积(双曲线抛物面)
- getline()详解
- npm list 报错 extraneous
热门文章
- C语言如何自定义头文件——一看就废!!!
- 〖Python APP 自动化测试实战篇⑧〗- 实战 - appium 模拟手机滑动操控的操作
- 零零无限跟拍无人机上架苹果商城
- ASO行业公司及现状概述
- DeepLabV3+导出.pb模型并可视化测试
- 【推荐公平性论文阅读笔记】:A unifying and general account of fairness measurement in recommender systems-1区top
- 美国开发打不坏的电池 研究出柔韧的柔性导电薄膜
- css加号图标_DIV,CSS如何实现“加减号”“显示隐藏”效果
- ThinkPHP6.0开启多应用模式
- UG NX二次开发(C#)-外挂 - 配置文件说明(.men文件/.rtb文件/.trb文件)