文章目录

前言：为什么我们需要样本？
一、先导知识
二、抽样方法大全
- 1.概率抽样（probability sampling）：指每个元素都有已知的被抽取的概率，优点是可通过推断性统计（inferential statistical tests）来估计整体population
- - a.简单随机抽样（simple random sample）
  - b.系统抽样（systematic sampling）
  - c.分层抽样（stratified sampling）
  - d.整群抽样（cluster sampling）
- 2.非概率抽样（nonprobability sampling）
- - a.convenience
  - b.judgment
三、平均数的抽样分布（the sampling distribution of the mean）

前言：为什么我们需要样本？

统计总体（population）有时过于昂贵/耗时长，样本（sample）提供了一种便捷的估计总体的方式
适当的抽样方法能帮助我们获取更贴合总体特征的样本

一、先导知识

1、点估计（point estimation）*

我们使用样本的data去计算一些用来估计population parameter的特殊的sample statistic的值。

在本章中我们关注
x ˉ \bar x xˉ : 作为population mean μ \mu μ 的point estimator;
p ˉ \bar p pˉ : 作为population proportion : p 的point estimator。

⬇︎

2、取样/非取样误差(sampling and non sampling error)

由于点估计不可避免的误差，我们使用error来估计sample statistic和population parameter间的误差

sampling error= x ˉ \bar x xˉ - μ \mu μ或 p ˉ \bar p pˉ - p
sample size越大，sampling error越小
nonsampling error
有倾向性的调查方式，数据采集失误所导致

3、术语大杂烩

抽样元素/抽样单位（element）：被分析的个体、单位、组织
抽样总体（population/target population/population of interest）:想调查的元素的集合
样本（sample）：抽样总体的子集
sampled population：我们所能调查到、从中获取sample的population
抽样框（frame）：我们将sampled population整理成名单（比如电话本，花名册等，我们给这堆population编号方便后续的sample的抽取）

！注意区分target population和sampled population：
前者是理想化的，我们想要调查的整个群体。但由于现实因素的限制，我们只能找到一个不完美的population（sampled population）进行调查。比如说，我想调查从古至今全人类的寿命，我无法获取古时的population parameters，我只能把现代人寿命数据作为一个sampled population。
同时我们希望sampled population是population的子集，而不要有population之外的元素。

二、抽样方法大全

1.概率抽样（probability sampling）：指每个元素都有已知的被抽取的概率，优点是可通过推断性统计（inferential statistical tests）来估计整体population

a.简单随机抽样（simple random sample）

每个元素有相等的概率被抽取，分为放回（with replacement）和不放回（without replacememt）两种

b.系统抽样（systematic sampling）

依据一定的抽样距离k，从总体中抽取样本
这里的k= N n \frac{N}{n} nN, 其中N为population，n为sample

优点：更方便收集

c.分层抽样（stratified sampling）

将population中元素分为互斥（mutually exclusive group）的分类特征组（strata）,每个组有各自的特征，这种特征与想调查的东西有关。比如说，我要调查“喝奶茶的人数”，那么我把population分为“男生”“女生”两个strata。

分好组后，我按照比例，运用简单随机或系统抽样抽出最后的sample。

d.整群抽样（cluster sampling）

将population中的元素分为互斥的clusters，每个组都是整个population的代表。

分组后，运用geography随机抽取其中的少数clusters组成最后的sample

是一种成本低，精度低的方法。

注意，cd两种方法在抽样前都要经过一定的处理，c分类标准与调查内容有关，d无关（还是奶茶的例子，d会以人的姓的首字母作为分类标准，这和喝不喝奶茶没半毛钱关系）；c群内差异小，群间差异大，d反之

2.非概率抽样（nonprobability sampling）

每个样本被抽中的概率未知

a.convenience

教授用自己的学生作为sample➡️不具有代表性

b.judgment

调查者凭借自己的经验选取sample➡️受主观因素影响

另外，我们将population分为finite与infinite两种类型，对他们我们有不同的处理方式。

①finite：使用简单随机抽样

实例如下➤大学收到900份水平相当的申请，要从中随机抽取30份申请。
首先，我们为900份申请编号
其次，在excel中使用RAND()，该函数可以生成大于等于0，小于1的随机数。
【若我们要生成0到5的随机数，=rand（）*5】
使用INT(number)：将数字向下舍入到最近的整数。
综合运用rand和int我们可以抽样出想要的sample数量，再用vlookup找到对应的样本个体。

具体示例➔link
vlookup教程➔link.

②infinite：这种情况下我们无法获取population中所有的数据。
此时我们从infinite population中随机取样（random sample），我们需要遵从的原则有两个➔

❶所有元素都必须来自同一个population of interest
❷每个元素都是独立（independently）选取的

怎么去理解这两个原则呢？假设我们要调查顾客对一家餐厅的喜爱程度，首先我们关注在餐厅消费的顾客人群而非去使用厕所的人。其次，独立选取意味着排除选择偏见，不选择特定的性别，也不同时调查一群饭友（他们有相同的喜好）

上述所说都是抽取sample的方法，接下来进入用sample估计population的阶段，因此我们挑选一些合适的point estimator。
首先来看看平均数

⬇︎

三、平均数的抽样分布（the sampling distribution of the mean）

过程:抽取有n个元素的random sample
\qquad 这个sample提供mean x ˉ \bar x xˉ
\qquad 用 x ˉ \bar x xˉ去估计总体的 μ \mu μ

1、sample mean x ˉ \bar x xˉ= ∑ x n \frac{\displaystyle\sum x}{n} n∑x

需要注意：因为sample是随机挑选的，这个 x ˉ \bar x xˉ（这个整体！不是单指x。整体思想，这很重要，这里x的平均数相当于以前的X）是一个R.V.！！！它的值是不确定的，会因为选取的sample变化而变化，因此可以对它做概率分布研究（比如第一组sample是123，第二组是122）

2、 sampling distribution of X ˉ \bar X Xˉ（因为RV，x大写）
这是在对所有可能出现的sample的 x ˉ \bar x xˉ的值进行概率分布（probability distribution）

一些要用到的符号:

μ X ˉ \mu _{\bar X} μXˉ=the mean of the sampling distribution of X ˉ \bar X Xˉ
σ X ˉ \sigma_{\bar X} σXˉ=the standard deviation of the sampling distribution of a ˉ X \bar aX aˉX

求RV的概率分布的mean和S.D.前面学过）不要记成the mean of X ˉ \bar X Xˉ,一定是the mean of X ˉ \bar X Xˉ的sampling distribution！）

因为我们知道了 X ˉ \bar X Xˉ可能取的值和取这些值的概率，我们可以用general formula去求得mean和SD：
μ X ˉ = ∑ i = 1 k x ˉ i ⋅ P ( x ˉ i ) \mu _{\bar X}=\sum_{i=1}^k \bar x_i\cdot P(\bar x_i) μXˉ=i=1∑kxˉi⋅P(xˉi)
σ X ˉ = ∑ i = 1 K ( x ˉ i − μ x ˉ ) 2 P ( x ˉ i ) \sigma_{\bar X}=\sqrt{\sum_{i=1}^K(\bar x_i-\mu_{\bar x})^2 P(\bar x_i)} σXˉ=i=1∑K(xˉi−μxˉ)2P(xˉi)
这里 x ˉ i \bar x_i xˉi指当 x ˉ \bar x xˉ取第i个时的值
特别地，对于continuous RV，用f( x ˉ \bar x xˉ)代替P( x ˉ i \bar x_i xˉi)

既然已经知道怎么去求sampling distribution的平均数和标准差，我们就可以依靠它们来估计population的均值和标准差

3、sample到population
它们的联系如下：
E ( X ˉ ) = μ X ˉ = μ E(\bar X)=\mu_{\bar X}=\mu E(Xˉ)=μXˉ=μ
这里的 μ \mu μ就是population的均值。该结论是计算数据所得。

SD的联系之后再说。

4、Law of large numbers(LLN) 大数定律与抽样无太大关系；伯努利是大数的一典型例子。

指随着试验次数变多，sample mean越来越贴合population mean

定理：当一个probability distribution能够被pmf或pdf f表示，那么当满足
\quad \quad \quad ①RV各自独立（independent）【基于上面的原则➋】
\quad \quad \quad ②RV各自的the marginal pmf or pdf是f【指每个RV Xi的概率都是一样的，怎么做到呢？当我们sampling with replacement或有很大很大的population时，可以忽略抽出的sample对剩下的整体的影响】
\quad \quad \quad 时，我们说这n个RV(X1,X2,X3…Xn)组成了一个random sample。
\quad \quad \quad 这样的RV们的组合又被称为independent and identically distributed(i.i.d)

这里的RV是指每个element的一个observation由于抽取的sample不同，值在改变。
n则是sample size。

在此基础上，我们提出weak law of large numbers（WLLN）：
假设有一个i.i.d，它们都有均值和SD，同时我们定义 X ˉ n = X 1 + X 2 + . . X n n \bar X_n=\frac{X_1+X_2+..X_n}{n} Xˉn=nX1+X2+..Xn
那么对于所有大于0的 ϵ \epsilon ϵ有
l i m n → ∞ P ( ∣ X ˉ n − μ ∣ > ϵ ) = 0 \mathop{lim}\limits_{n→\infty}P(\vert\bar X_n -\mu\vert>\epsilon )=0 n→∞limP(∣Xˉn−μ∣>ϵ)=0

理解：当n足够大时，i.i.d的均值无限接近population 的均值。

证明【此处用到切比雪夫】

tbc.

第七章：抽样与抽样分布（Sampling and sampling distribution）相关推荐

Matlab抽样和,《统计学原理》与MATLAB编程-第三章抽样和抽样分布
<统计学原理>与MATLAB编程-第三章抽样和抽样分布第一节排列与组合排列: perms(x) x为向量,求x的全排列.如: a=perms([2 3 7 ]) a= 7 3 2 ...
Excel在统计分析中的应用—第六章—抽样与抽样分布-Part2（等距抽样）
"先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元,这类抽样方法被称为等距抽样(Systematic Sampling).等 ...
欧式期权matlab编码蒙特卡罗方法,基于MATLAB的金融工程方法与实践第七章基于蒙特卡洛方法的期权定价.ppt...
蒙特卡洛的优缺点 MCMC方法的优点分布假设更一般,描述市场因素可能变化的统计分布既可以是正态.对数正态的,也可以是带跳的扩散分布.t分布等. 随机生成风险因素的各种各样的未来假想情景,可在模型中融 ...
概率统计：第七章参数估计
第七章参数估计内容提要: 一. 点估计 1.设为总体的样本,总体的分布函数形式已知,为待估参数, 为对应的样本观测值.点估计问题就是构造一个适当的统计量,用其观测值来估计待估参数的 ...
[统计学教程] 第六章抽样推断
导读: 第六章抽样推断一．参数与统计量参数是指描述总体分布状况的数: 统计量是指由样本构造出来的数. 例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数:在班级中抽出10名学生 ...
概率论||期末考试复习手写笔记-第五六七章（知识点+例题）第五章常用统计分布第六章参数估计第七章假设检验
第五章常用统计分布考点一:常用统计量考点二:三大统计分布考点三:抽样分布(单正态总体+双正态总体) 第六章参数估计考点一: 估计量的评价标准(无偏性+有效性+相合性) 考点二:点估计的常 ...
matlab使用矩形窗设计一个具有线性相位的低通数字滤波器,第七章习题与答案用矩形窗设计一个fir线性相位低通数字滤波器。已.doc...
第七章习题与答案用矩形窗设计一个fir线性相位低通数字滤波器.已第七章习题与答案用矩形窗设计一个FIR线性相位低通数字滤波器.已知 .求出并画出曲线. 分析:此题给定的是理想线性相位低通滤波器,故 ...
数字图像处理——第七章小波和多分辨处理
数字图像处理--第七章小波和多分辨率处理文章目录数字图像处理--第七章小波和多分辨率处理写在前面 1 多分辨率处理 1.1 图像金字塔 1.2 多尺度和多分辨率的区别 2 小波 2.1 连续 ...
现实迷途第七章特殊客户
第七章特殊客户注:原创作品,请尊重原作者,未经同意,请勿转载,否则追究责任. 江北一般都是上午待在办公室里,搜集信息或整理以前做过的系统,下午才出去站街招客. 站街站了一段时间后,江北有点不想去了 ...

第七章：抽样与抽样分布（Sampling and sampling distribution）

文章目录

前言：为什么我们需要样本？

一、先导知识

二、抽样方法大全

1.概率抽样（probability sampling）：指每个元素都有已知的被抽取的概率，优点是可通过推断性统计（inferential statistical tests）来估计整体population

a.简单随机抽样（simple random sample）

b.系统抽样（systematic sampling）

c.分层抽样（stratified sampling）

d.整群抽样（cluster sampling）

2.非概率抽样（nonprobability sampling）

a.convenience

b.judgment

三、平均数的抽样分布（the sampling distribution of the mean）

第七章：抽样与抽样分布（Sampling and sampling distribution）相关推荐

最新文章

热门文章

第七章：抽样与抽样分布（Sampling and sampling distribution）

文章目录

前言：为什么我们需要样本？

一、先导知识

二、抽样方法大全

1.概率抽样（probability sampling）： 指每个元素都有已知的被抽取的概率，优点是可通过推断性统计（inferential statistical tests）来估计整体population

a.简单随机抽样（simple random sample）

b.系统抽样（systematic sampling）

c.分层抽样（stratified sampling）

d.整群抽样（cluster sampling）

2.非概率抽样（nonprobability sampling）

a.convenience

b.judgment

三、平均数的抽样分布（the sampling distribution of the mean）

第七章：抽样与抽样分布（Sampling and sampling distribution）相关推荐

最新文章

热门文章

1.概率抽样（probability sampling）：指每个元素都有已知的被抽取的概率，优点是可通过推断性统计（inferential statistical tests）来估计整体population