文章目录

  • 前言:为什么我们需要样本?
  • 一、先导知识
  • 二、抽样方法大全
    • 1.概率抽样(probability sampling): 指每个元素都有已知的被抽取的概率,优点是可通过推断性统计(inferential statistical tests)来估计整体population
      • a.简单随机抽样(simple random sample)
      • b.系统抽样(systematic sampling)
      • c.分层抽样(stratified sampling)
      • d.整群抽样(cluster sampling)
    • 2.非概率抽样(nonprobability sampling)
      • a.convenience
      • b.judgment
  • 三、平均数的抽样分布(the sampling distribution of the mean)

前言:为什么我们需要样本?

  • 统计总体(population)有时过于昂贵/耗时长,样本(sample)提供了一种便捷的估计总体的方式
  • 适当的抽样方法能帮助我们获取更贴合总体特征的样本

一、先导知识

1、 点估计(point estimation)*

我们使用样本的data去计算一些用来估计population parameter的特殊的sample statistic的值。

在本章中我们关注
x ˉ \bar x xˉ : 作为population mean μ \mu μ 的point estimator;
p ˉ \bar p pˉ​ : 作为population proportion : p 的point estimator。

⬇︎

2、取样/非取样误差(sampling and non sampling error)

由于点估计不可避免的误差,我们使用error来估计sample statistic和population parameter间的误差

  • sampling error= x ˉ \bar x xˉ - μ \mu μ或 p ˉ \bar p pˉ​ - p
    sample size越大,sampling error越小
  • nonsampling error
    有倾向性的调查方式,数据采集失误所导致

3、术语大杂烩

  • 抽样元素/抽样单位(element):被分析的个体、单位、组织
  • 抽样总体(population/target population/population of interest):想调查的元素的集合
  • 样本(sample):抽样总体的子集
  • sampled population:我们所能调查到、从中获取sample的population
  • 抽样框(frame):我们将sampled population整理成名单(比如电话本,花名册等,我们给这堆population编号方便后续的sample的抽取)

!注意区分target population和sampled population:
前者是理想化的,我们想要调查的整个群体。但由于现实因素的限制,我们只能找到一个不完美的population(sampled population)进行调查。比如说,我想调查从古至今全人类的寿命,我无法获取古时的population parameters,我只能把现代人寿命数据作为一个sampled population。
同时我们希望sampled population是population的子集,而不要有population之外的元素。

二、抽样方法大全

1.概率抽样(probability sampling): 指每个元素都有已知的被抽取的概率,优点是可通过推断性统计(inferential statistical tests)来估计整体population

a.简单随机抽样(simple random sample)

每个元素有相等的概率被抽取,分为放回(with replacement)和不放回(without replacememt)两种

b.系统抽样(systematic sampling)

依据一定的抽样距离k,从总体中抽取样本
这里的k= N n \frac{N}{n} nN​, 其中N为population,n为sample

优点:更方便收集

c.分层抽样(stratified sampling)

将population中元素分为互斥(mutually exclusive group)的分类特征组(strata),每个组有各自的特征,这种特征与想调查的东西有关。比如说,我要调查“喝奶茶的人数”,那么我把population分为“男生”“女生”两个strata。

分好组后,我按照比例,运用简单随机或系统抽样抽出最后的sample。

d.整群抽样(cluster sampling)

将population中的元素分为互斥的clusters,每个组都是整个population的代表。

分组后,运用geography随机抽取其中的少数clusters组成最后的sample

是一种成本低,精度低的方法。

注意,cd两种方法在抽样前都要经过一定的处理,c分类标准与调查内容有关,d无关(还是奶茶的例子,d会以人的姓的首字母作为分类标准,这和喝不喝奶茶没半毛钱关系);c群内差异小,群间差异大,d反之

2.非概率抽样(nonprobability sampling)

每个样本被抽中的概率未知

a.convenience

教授用自己的学生作为sample➡️不具有代表性

b.judgment

调查者凭借自己的经验选取sample➡️受主观因素影响

另外,我们将population分为finite与infinite两种类型,对他们我们有不同的处理方式。

①finite:使用简单随机抽样

实例如下➤大学收到900份水平相当的申请,要从中随机抽取30份申请。
首先,我们为900份申请编号
其次,在excel中使用RAND(),该函数可以生成大于等于0,小于1的随机数。
【若我们要生成0到5的随机数,=rand()*5】
使用INT(number):将数字向下舍入到最近的整数。
综合运用rand和int我们可以抽样出想要的sample数量,再用vlookup找到对应的样本个体。

具体示例➔link
vlookup教程➔link.

②infinite:这种情况下我们无法获取population中所有的数据。
此时我们从infinite population中随机取样(random sample),我们需要遵从的原则有两个➔

❶所有元素都必须来自同一个population of interest
❷每个元素都是独立(independently)选取的

怎么去理解这两个原则呢?假设我们要调查顾客对一家餐厅的喜爱程度,首先我们关注在餐厅消费的顾客人群而非去使用厕所的人。其次,独立选取意味着排除选择偏见,不选择特定的性别,也不同时调查一群饭友(他们有相同的喜好)

上述所说都是抽取sample的方法,接下来进入用sample估计population的阶段,因此我们挑选一些合适的point estimator。
首先来看看平均数

⬇︎

三、平均数的抽样分布(the sampling distribution of the mean)

过程:抽取有n个元素的random sample
\qquad 这个sample提供mean x ˉ \bar x xˉ
\qquad 用 x ˉ \bar x xˉ去估计总体的 μ \mu μ

1、sample mean x ˉ \bar x xˉ= ∑ x n \frac{\displaystyle\sum x}{n} n∑x​

需要注意:因为sample是随机挑选的,这个 x ˉ \bar x xˉ(这个整体!不是单指x。整体思想,这很重要,这里x的平均数相当于以前的X)是一个R.V.!!!它的值是不确定的,会因为选取的sample变化而变化,因此可以对它做概率分布研究(比如第一组sample是123,第二组是122)

2、 sampling distribution of X ˉ \bar X Xˉ(因为RV,x大写)
这是在对所有可能出现的sample的 x ˉ \bar x xˉ的值进行概率分布(probability distribution)

一些要用到的符号:

μ X ˉ \mu _{\bar X} μXˉ​=the mean of the sampling distribution of X ˉ \bar X Xˉ
σ X ˉ \sigma_{\bar X} σXˉ​=the standard deviation of the sampling distribution of a ˉ X \bar aX aˉX

求RV的概率分布的mean和S.D.前面学过)不要记成the mean of X ˉ \bar X Xˉ,一定是the mean of X ˉ \bar X Xˉ的sampling distribution!)

因为我们知道了 X ˉ \bar X Xˉ可能取的值和取这些值的概率,我们可以用general formula去求得mean和SD:
μ X ˉ = ∑ i = 1 k x ˉ i ⋅ P ( x ˉ i ) \mu _{\bar X}=\sum_{i=1}^k \bar x_i\cdot P(\bar x_i) μXˉ​=i=1∑k​xˉi​⋅P(xˉi​)
σ X ˉ = ∑ i = 1 K ( x ˉ i − μ x ˉ ) 2 P ( x ˉ i ) \sigma_{\bar X}=\sqrt{\sum_{i=1}^K(\bar x_i-\mu_{\bar x})^2 P(\bar x_i)} σXˉ​=i=1∑K​(xˉi​−μxˉ​)2P(xˉi​) ​
这里 x ˉ i \bar x_i xˉi​指当 x ˉ \bar x xˉ取第i个时的值
特别地,对于continuous RV,用f( x ˉ \bar x xˉ)代替P( x ˉ i \bar x_i xˉi​)

既然已经知道怎么去求sampling distribution的平均数和标准差,我们就可以依靠它们来估计population的均值和标准差

3、sample到population
它们的联系如下:
E ( X ˉ ) = μ X ˉ = μ E(\bar X)=\mu_{\bar X}=\mu E(Xˉ)=μXˉ​=μ
这里的 μ \mu μ就是population的均值。该结论是计算数据所得。

SD的联系之后再说。

4、Law of large numbers(LLN) 大数定律与抽样无太大关系;伯努利是大数的一典型例子。

指随着试验次数变多,sample mean越来越贴合population mean

定理:当一个probability distribution能够被pmf或pdf f表示,那么当满足
\quad \quad \quad ①RV各自独立(independent)【基于上面的原则➋】
\quad \quad \quad ②RV各自的the marginal pmf or pdf是f【指每个RV Xi的概率都是一样的,怎么做到呢?当我们sampling with replacement或有很大很大的population时,可以忽略抽出的sample对剩下的整体的影响】
\quad \quad \quad 时,我们说这n个RV(X1,X2,X3…Xn)组成了一个random sample。
\quad \quad \quad 这样的RV们的组合又被称为independent and identically distributed(i.i.d)

这里的RV是指每个element的一个observation由于抽取的sample不同,值在改变。
n则是sample size。

在此基础上,我们提出weak law of large numbers(WLLN):
假设有一个i.i.d,它们都有均值和SD,同时我们定义 X ˉ n = X 1 + X 2 + . . X n n \bar X_n=\frac{X_1+X_2+..X_n}{n} Xˉn​=nX1​+X2​+..Xn​​
那么对于所有大于0的 ϵ \epsilon ϵ有
l i m n → ∞ P ( ∣ X ˉ n − μ ∣ > ϵ ) = 0 \mathop{lim}\limits_{n→\infty}P(\vert\bar X_n -\mu\vert>\epsilon )=0 n→∞lim​P(∣Xˉn​−μ∣>ϵ)=0

理解:当n足够大时,i.i.d的均值无限接近population 的均值。

证明【此处用到切比雪夫】

tbc.

第七章:抽样与抽样分布(Sampling and sampling distribution)相关推荐

  1. Matlab抽样和,《统计学原理》与MATLAB编程-第三章 抽样和抽样分布

    <统计学原理>与MATLAB编程-第三章 抽样和抽样分布 第一节 排列与组合 排列: perms(x) x为向量,求x的全排列.如: a=perms([2 3 7 ]) a= 7 3 2 ...

  2. Excel在统计分析中的应用—第六章—抽样与抽样分布-Part2(等距抽样)

    "先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元,这类抽样方法被称为等距抽样(Systematic Sampling).等 ...

  3. 欧式期权matlab编码蒙特卡罗方法,基于MATLAB的金融工程方法与实践第七章 基于蒙特卡洛方法的期权定价.ppt...

    蒙特卡洛的优缺点 MCMC方法的优点 分布假设更一般,描述市场因素可能变化的统计分布既可以是正态.对数正态的,也可以是带跳的扩散分布.t分布等. 随机生成风险因素的各种各样的未来假想情景,可在模型中融 ...

  4. 概率统计:第七章 参数估计

    第七章  参数估计 内容提要: 一.        点估计 1.设为总体的样本,总体的分布函数形式已知,为待估参数, 为对应的样本观测值.点估计问题就是构造一个适当的统计量,用其观测值来估计待估参数的 ...

  5. [统计学教程] 第六章 抽样推断

    导读: 第六章 抽样推断 一.参数与统计量 参数是指描述总体分布状况的数: 统计量是指由样本构造出来的数. 例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数:在班级中抽出10名学生 ...

  6. 概率论||期末考试复习手写笔记-第五六七章(知识点+例题)第五章 常用统计分布 第六章 参数估计 第七章 假设检验

    第五章  常用统计分布 考点一:常用统计量 考点二:三大统计分布 考点三:抽样分布(单正态总体+双正态总体) 第六章 参数估计 考点一: 估计量的评价标准(无偏性+有效性+相合性) 考点二:点估计的常 ...

  7. matlab使用矩形窗设计一个具有线性相位的低通数字滤波器,第七章习题与答案用矩形窗设计一个fir线性相位低通数字滤波器。已.doc...

    第七章习题与答案用矩形窗设计一个fir线性相位低通数字滤波器.已 第七章习题与答案 用矩形窗设计一个FIR线性相位低通数字滤波器.已知 .求出并画出曲线. 分析:此题给定的是理想线性相位低通滤波器,故 ...

  8. 数字图像处理——第七章 小波和多分辨处理

    数字图像处理--第七章 小波和多分辨率处理 文章目录 数字图像处理--第七章 小波和多分辨率处理 写在前面 1 多分辨率处理 1.1 图像金字塔 1.2 多尺度和多分辨率的区别 2 小波 2.1 连续 ...

  9. 现实迷途 第七章 特殊客户

    第七章 特殊客户 注:原创作品,请尊重原作者,未经同意,请勿转载,否则追究责任. 江北一般都是上午待在办公室里,搜集信息或整理以前做过的系统,下午才出去站街招客. 站街站了一段时间后,江北有点不想去了 ...

最新文章

  1. python 解决最佳方案_python使用列表的最佳方案
  2. 使用python 打造中国的电影光魔
  3. Java设计模式之适配器模式在jdk中的应用
  4. 【学习笔记】 pytorch的使用语法和代码实例
  5. boost::fusion::replace_if用法的测试程序
  6. java 制作 winrar,Java使用winrar解压缩
  7. Oracle顶级认证OCM考试实战总结
  8. 通过Java编写一个服务器理解动态Web,静态Web
  9. 04737 c++ 自学考试2019版 第六章课后练习 程序设计题 1
  10. Docker学习总结(44)——Docker容器时间与主机时间不一致的三种解决方式
  11. 一文弄懂Java中的四种引用类型
  12. Mac上最好用的HTML文本编辑器BBEdit下载安装教程
  13. 如何获取海量长尾关键词流量
  14. 组织行为学笔记(3)——情绪和心情
  15. python数据分析项目之超市零售分析
  16. 免费的21个UI界面设计工具、资源及网站
  17. Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks
  18. 基于springboot的电影院会员管理系统
  19. 请问:怎么实现大文件快速上传?
  20. 场景文本检测论文阅读时间线

热门文章

  1. SpringBoot 场景开发多面手成长手册
  2. 深度篇——目标检测史(八) 细说 CornerNet-Lite 目标检测
  3. 收藏!教育部发布67家出版社中小学春季教材电子版!网址都在这里,一键获取!...
  4. stm32接收OpenMv发送的数据,并用oled屏显示
  5. 最新!2021中国大学排名发布:清/北/浙大/上交/武大居前五
  6. linux vi编辑文件的时候未正常关闭,产生交换文件.swp
  7. zabbix添加邮件报警机制
  8. 教你无脑式安装Xshell、Xftp,快速远程连接使用Linux服务器并且高效传输文件(保姆级教程)
  9. javascript屏幕共享
  10. 局域网有几台电脑频繁断网_用Python将电脑变成服务器,只需要一行命令