什么是Bootstrap

抽样分布描述从总体的随机样本中获取统计量的每个可能值的可能性;换句话说,该大小的所有随机样本中有多大比率将得到该值。Bootstrap是一种通过抽取多个样本来估计抽样分布的方法,这些样本中包含单个随机样本的替换内容。这些重复样本称为重新采样的样本。每个重新采样样本的数量与原始样本相同。Bootstrap是非参数统计中一种重要的估计统计量,并可进行统计量区间估计的统计方法,也称为自助法(Minitab中翻译为自举法)。

“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” (源自西方神话故事“TheAdventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)。Bootstrap在英语中作为一个名词的话,其的意思是“拔靴带”,也就是通过自身的力量,自己把自己抬起来。“通过自身的力量”——这是Bootstrap方法的核心所在。

什么情况下使用Bootstrap方法?

1) 可以使用Bootstrap方法计算参数(均值、中位数、和、标准差或方差)的置信区间,或对参数进行假设检验。这种方法不需要假设观测值的分布模型(传统的假设检验要求正态分布不同)。

2) 当观测值分布未知或用户还没有学到观测值分布的概念时,这种方法就会变得很实用(Minitab在19版本中引入此方法,但是在教育版本Minitab Express一直有这个功能)。

Bootstrap方法的基本思想

1)采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样(有放回)。

2)根据抽出的样本计算待估计的统计量T。

3)重复上述N次(一般大于1000),得到N个统计量T。

4)计算上述N个统计量T的指标(均值、中位数、和、标准差或方差),以此估计统计量T的指标。

Minitab中的Bootstrap应用

在2019年6月5日发布的Minitab 19版本中,引入Bootstrao方法。

举个例子:从一学校中随机抽样调查20名学生的身高,打算通过这20个人的身高估计该学校所有学生的身高(对20个人编号,身高数据如下表)。

这20个人的身高数据构成的样本,我们称为观察样本。

根据Bootstrap的基本思想,我们有放回的重复抽取1000次,每次的取样量为20(每个重新采样样本的数量与原始样本相同),得到1000个新的样本。由于是有放回的取样,那么在每次取样中,并不是编号1-20的每个人都可能被取到。如前5次的取样结果如下,在第3次取样中,连续4次取到编号为10的学生。

我们利用Minitab模拟完成此1000次取样,操作如下。

Minitab结果解释

在C2列,我们可以得到1000个均值,这1000个均值就是1000次取样的均值。

在以上输出结果中,我们可以看到1000次取样均值的分布直方图,大致呈正态分布(当然,我们也可以对C2列做正态性检验)。

“观测到的样本”表中反映的是20个学生的身高信息,比如说这20个学生的身高均值为170.10cm。

在这里,我们更加感兴趣的是“均值的Bootstrap样本”表,在这里,我们得到均值的95%置信均值(167.900,172.250)。这是非常有意义的,尤其是当你的数据非正态,甚至是分布未知的时候。当然除了均值的置信区间,我们还可以算得方差、标准差等其他统计量的置信均值。

小结

使用Bootstrap方法除了可以来计算未知分布统计量的置信区间,我们还可以用来进行假设检验(Minitab中称为“随机化检验”)。另外,这种方法对于我们理解“中心极限定理“也非常有用,如果你对此感兴趣,欢迎下载Minitab 19.2免费30天试用。

3不生效 bootstrap_Minitab学习 | 统计学中的Bootstrap方法相关推荐

  1. 统计学中的Bootstrap方法(Bootstrap抽样)用来训练bagging算法,如果随机森林Random Forests

    统计学中的Bootstrap方法(Bootstrap抽样)用来训练bagging算法,如果随机森林Random Forests 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学 ...

  2. 统计学中的Bootstrap方法(Bootstrap抽样)

    Bootstrap又称自展法.自举法.自助法.靴带法 ,  是统计学习中一种重采样(Resampling)技术,用来估计标准误差.置信区间和偏差 Bootstrap是现代统计学较为流行的一种统计方法, ...

  3. 统计学中的Bootstrap方法介绍及其应用

    说明:本来这只是一篇学生时期对研究方向进行总结的文章,没想到能够给其他人带来了一些的帮助.两年多以来,有许多人留言及私信问我相关的问题,我也不止一次地改正文章中的一些纰漏.但限于时间久远以及水平有限, ...

  4. bootstrap方法_中介效应中的bootstrap方法

    当我们有如上图所示的中介模型时,x--m的系数为0.1,m--y的系数也为0.1,这两个系数是显著的.但是0.1*0.1=0.01,此时中介效应还是显著的吗? 为了解决这个问题,有人提出只要两条路径都 ...

  5. 心得复述知识体系:《强化学习》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

    前言: 刚刚读完 Sutton 的<强化学习(第二版)>第5章:蒙特卡洛方法.为了巩固本章收获,笔者将在本文中用尽量简单直白的语言复述本章的思想,各个知识点之间的关系.同时,这方便笔者日后 ...

  6. 带你学习ES5中新增的方法

    文章目录 1. ES5中新增了一些方法,可以很方便的操作数组或者字符串,这些方法主要包括以下几个方面 2. 数组方法 2.1 forEach跟jQuery的each用法类似.语法是: 2.2 map( ...

  7. 统计学中数据分析方法大全!

    来源:数据派THU 我是小z 之前有断断续续讲过统计学中的数据分析方法,今天分享的这篇更加全面.系统,涉及到18个方面,收藏就完事儿了~ Part1描述统计 描述统计是通过图表或数学方法,对数据资料进 ...

  8. 统计计量 | 统计学中常用的数据分析方法汇总

    来源:数据Seminar本文约10500字,建议阅读15+分钟 统计学中常用的数据分析方法汇总. Part1描述统计 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特 ...

  9. 耿直:统计学中的因果推断问题(Causal Inference)

    来源:量化研究方法 本文约3000字,建议阅读5分钟. 数学科学学院耿直老师为你介绍统计学中的因果推断问题. 今天,小编带来了数学科学学院耿直老师关于统计学中因果推断问题的介绍.文中介绍了几种分析因果 ...

最新文章

  1. 监控利器之 Prometheus
  2. Tiling_easy version
  3. 13 MM配置-主数据-定义物料状态
  4. devops失败的原因_如果没有这7个部门的支持,您的DevOps尝试将失败。
  5. 还担心学习AI没有数学基础吗?读完它们,你就有了!!!
  6. HFSS天线设计实例_BLE天线优化分析
  7. 计算机硬件设备论文题目,计算机硬件维护论文题目大全 计算机硬件维护论文题目选什么比较好...
  8. centos freeradius mysql_CentOS 5.7安装FreeRADIUS 1.1.3+MySQL 5.0.77结合RouteOS
  9. 简单迭代法求解非线性方程组
  10. 【车间调度】基于matlab帝国企鹅算法求解柔性车间调度问题【含Matlab源码 1991期】
  11. 手把手教你爬取任意日期全部股票分时数据~
  12. 电脑重启f12怎么处理_联想电脑开机按f12后,怎么设置默认启动项
  13. Halcon学习笔记-工业相机千兆网线和USB优劣对比
  14. CDR X7 限时3折618年中大促,是时候出手了!
  15. 13.第十四章.文档和配置管理
  16. python---之cython的使用
  17. CISSP基本概念与常见名词
  18. Spring Security 配置 Remember Me
  19. back track 5 / BT5 默认用户名密码
  20. “0x????????”指令引用的“0x????????”内存。该内存不能为“read或written解决方法

热门文章

  1. Win10在右键菜单中添加管理员身份运行命令的方法
  2. DSP TMS320C28x CPU 和指令设置参考【CPU】
  3. (附源码)springboot基于SpringBoot的教学管理平台的设计与实现281454
  4. 大学计算机基础第5版赵英良答案,清华大学出版社-图书详情-《C++程序设计实验指导与习题解析》...
  5. 2021年全球路标漆收入大约3022百万美元,预计2028年达到4112百万美元
  6. linuxer,还在纠结用哪个发行版入门?这边的新手看过来
  7. 网上下载的CHM电子书无法阅读解决方法 大小没变,但右边都是空白
  8. netty数据流堆外内存排查
  9. 华为服务器显示U10,什么是华为Hol-U10刷机前的双清
  10. 高通和MTK针对国家wifi channel 客制化修改方法