脚注: 以下内容均为个人总结,便于日后查阅。如有不对地方,还请及时指正。

案例:

  在互联网等行业中,大家会对产品、排序模型、机制策略等模块不断迭代/创新,来提升整个App的用户体验。那么,怎样能够确认这些模块的迭代/创新是有效性的呢?

  常见的就是创建一套AB实验系统,通过预先设立的实验生命周期,以及实验所需达到的最小样本量,结合严谨的去异常逻辑和统计学假设检验方法,最终获得一份实验报表,来衡量本次的迭代/创新是否置信有效。

  通常会考察的效率指标如:用户下单时长是否降低?点击率(CTR)、 用户交易总额(GMV)等是否有提升?下面我们就以一种新产品(E.G. 商品上展示点评分)是否提升点击率(CTR)为例,来复习关于假设检验的相关知识

文章目录

  • 一、如何确定原假设和备择假设?
  • 二、假设检验的两类错误: 拒真错误(α\alphaα) & 纳伪错误(β\betaβ)
    • 2.1 两类错误的定义
    • 2.2 两类错误的几何理解
      • 2.2.1 第二个疑问「公式推导视角」
      • 2.2.2 第一个疑问「公式推导视角」
      • 2.2.3 第二个疑问「几何视角」
      • 2.2.4 两个疑问「逻辑理解视角」
    • 2.3 ppp值是啥?
  • 三、计算实验所需的最小样本量

一、如何确定原假设和备择假设?

  一般把任意一个有关未知分布的假设称为统计假设或简称假设。以是否提升CTR为例,现将实验组CTR真实值(为理论值存在但未知)记作:μ1\mu_1μ1​, 对照组CTR真实值(为理论值存在但未知)记作:μ2\mu_2μ2​。实验组指的是App上展示新产品的组,反之即为对照组。
第一个统计假设: μ1−μ2=0\mu_1 - \mu_2 = 0μ1​−μ2​=0,表示新产品对CTR没有提升,用H0H_0H0​表示;
第二个统计假设: μ1−μ2=δ(>0)\mu_1 - \mu_2 =\delta(> 0)μ1​−μ2​=δ(>0),表示新产品对CTR有提升,用H1H_1H1​表示。

  至于在两个假设中用哪一个作为原假设,哪一个作为备择假设,是根据具体的目的和要求而定。假如我们的目的是希望能够从子样观察值得到对某一个陈述的强有力的支持,那么我们就把这一陈述的否定作为原假设,而把陈述本身作为备择假设。原因是我们用一个子样无法去证实一个陈述,但用一个子样去否定一个陈述的理由就比较充分。上面这个例子,希望通过向访问App的部分用户展示新产品来获得更多的点击数,但新产品效果未知,因此不可能会让较多的用户参与测试,也就是说无法拥有充分多的数据。为此,我们取“新产品对CTR没有提升”作为原假设,并以“新产品对CTR有提升”作为备择假设。

  此外,还有一种说法是“将不想轻易被拒绝的假设”作为原假设,如:此处App之前固有的产品是经历过大数据/长时间考验的产品形态,并不容易轻易被拒绝。所以,我们取“新产品对CTR没有提升”作为原假设。

「Note」在我们这个问题里,母体分布的类型为已知,仅有一个或几个参数为未知,这种仅涉及母体分布的未知参数的统计假设,称为参数假设。而另一种只能对未知分布函数的类型或者他的某些特征提取某种假设,称为非参数假设。

二、假设检验的两类错误: 拒真错误(α\alphaα) & 纳伪错误(β\betaβ)

  一提到假设检验,经常听到就是这两类错误,但它们具体描述的是什么内容?又是怎么计算的呢?在描述这个问题之前,我们先从课本上检索一些标准术语做内容铺垫。

统计假设检验问题的一般提法是:在给定备择假设H1H_1H1​下对原假设H0H_0H0​作出判断,若拒绝原假设H0H_0H0​,那就意味着接受备择假设H1H_1H1​,否则就接受原假设H0H_0H0​。简单地说,假设检验问题就是要在原假设H0H_0H0​和备择假设H1H_1H1​中作出拒绝哪一个、接受哪一个的判断。这类假设检验问题常常简称为H0H_0H0​对H1H_1H1​的检验问题。
  
在H0H_0H0​对H1H_1H1​的检验问题中要作出某种判断,必须要从子样出发,制定一个法则,一旦子样的观察值xxx确定后,利用我们所构造的法则作出判断: 拒绝H0H_0H0​还是拒绝H1H_1H1​。这种法则就称为H0H_0H0​对H1H_1H1​的一个检验法则,简称为一个检验。
  
这里所说的具体检验法则是:将子样空间Φ\PhiΦ划分成两个互不相交的子集CCC和C∗C^*C∗,使得当子样的观察值x∈Cx \in Cx∈C时,我们拒绝原假设H0H_0H0​;若x∈C∗x \in C^*x∈C∗时,我们接受原假设H0H_0H0​。这样的划分构成一个准则,我们称这个子样空间的子集CCC为检验的临界域(或拒绝域).

2.1 两类错误的定义

第一类错误: 当母体H0H_0H0​为真时,而子样的观察值落入CCC,按给定的检验法则,我们应当拒绝H0H_0H0​,这种错误称为第一类错误。其发生的概率称为犯第一类错误的概率或称拒真概率,通常记作α\alphaα.
P(拒绝H0∣H0为真)=αP(拒绝H_0 | H_0为真) = \alphaP(拒绝H0​∣H0​为真)=α

E.G. P(x∈C∣μ1−μ2=0)=αP(x \in C | \mu_1-\mu_2=0) = \alphaP(x∈C∣μ1​−μ2​=0)=α.

第二类错误: 当母体H1H_1H1​为真时,而子样的观察值落入C∗C^*C∗,按给定的检验法则,我们应当接受H0H_0H0​,这种错误称为第二类错误。其发生的概率称为犯第二类错误的概率或称纳伪概率,通常记作β\betaβ.
P(接受H0∣H1为真)=βP(接受H_0 | H_1为真) = \betaP(接受H0​∣H1​为真)=β

E.G. P(x∈C∗∣μ1−μ2=δ>0)=βP(x \in C^* | \mu_1-\mu_2=\delta>0) = \betaP(x∈C∗∣μ1​−μ2​=δ>0)=β.

2.2 两类错误的几何理解

  对于给定的一对H0H_0H0​和H1H_1H1​,总可找出许多临界域。所以总是希望能够找到某种临界域CCC,使得犯两类错误的概率α\alphaα与β\betaβ都很小。这里大家可能经常又听到一个结论:“在子样本容量nnn固定时,要使α\alphaα和β\betaβ都很小是不可能的”。这里埋藏了两个问题:

  • 为什么说“固定子样本容量”情况下?
  • 为什么找不到CCC,使得α\alphaα和β\betaβ都很小?

2.2.1 第二个疑问「公式推导视角」

两组母体CTR均值μ1,μ2\mu_1, \mu_2μ1​,μ2​,方差σ12,σ22\sigma_1^2, \sigma_2^2σ12​,σ22​ 均为理论值(存在但未知),将上述公式表达的具体内容实例化:

通过试验,获得实验组和对照组两组样本的CTR
实验组:{x1,x2,…,xn1}\{x_1,x_2,\dots,x_{n1}\}{x1​,x2​,…,xn1​},共n1n_1n1​个
对照组:{y1,y2,…,yn2}\{y_1,y_2,\dots,y_{n2}\}{y1​,y2​,…,yn2​},共n2n_2n2​个
xˉ\bar{x}xˉ: 表示实验组(μ1\mu_1μ1​)样本均值=Σi=1n1xin1\frac{\Sigma_{i=1}^{n1}x_i}{n1}n1Σi=1n1​xi​​

yˉ\bar{y}yˉ​: 表示对照组(μ2\mu_2μ2​)样本均值=Σi=1n2yin2\frac{\Sigma_{i=1}^{n2}y_i}{n2}n2Σi=1n2​yi​​

此处给出母体未知参数μ≜μ1−μ2\mu \triangleq \mu_1-\mu_2μ≜μ1​−μ2​的估计μ^=xˉ−yˉ\hat\mu = \bar{x}-\bar{y}μ^​=xˉ−yˉ​,其服从正态分布:
μ^=xˉ−yˉ∼N(μ1−μ2,σ12n1+σ22n2)(1)\hat\mu = \bar{x}- \bar{y} \sim N(\mu_1-\mu_2, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{1}μ^​=xˉ−yˉ​∼N(μ1​−μ2​,n1​σ12​​+n2​σ22​​​)(1)

下面先来计算拒绝域CCC 和 接受域C∗C^*C∗:

借助上(1)式,即在H0(μ=0)H_0(\mu=0)H0​(μ=0)的情况下, 估计量xˉ−yˉ\bar{x} - \bar{y}xˉ−yˉ​服从如下分布,
μ^=xˉ−yˉ∼N(0,σ12n1+σ22n2)\hat\mu=\bar{x} - \bar{y} \sim N(0, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} })μ^​=xˉ−yˉ​∼N(0,n1​σ12​​+n2​σ22​​​)
已知上述正态分布,将其转换为标准正态分布(Z统计量):
xˉ−yˉσ12n1+σ22n2∼N(0,1)\frac{\bar{x} - \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)n1​σ12​​+n2​σ22​​​xˉ−yˉ​​∼N(0,1)
求解拒绝域CCC如下:
P(xˉ−yˉσ12n1+σ22n2∈C∣μ1−μ2=0)=αP(\frac{\bar{x}- \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \in C | \mu_1-\mu_2=0) = \alpha P(n1​σ12​​+n2​σ22​​​xˉ−yˉ​​∈C∣μ1​−μ2​=0)=α
⇒\Rightarrow⇒
P(∣(xˉ−yˉ)σ12n1+σ22n2∣>μ1−α/2)=αP(|\frac{(\bar{x}- \bar{y})}{\sqrt{\frac{\sigma_1^2} {n_1}+\frac{\sigma_2^2}{n_2}}}| > \mu_{1-\alpha/2}) = \alpha P(∣n1​σ12​​+n2​σ22​​​(xˉ−yˉ​)​∣>μ1−α/2​)=α
C=(−∞,−μ1−α/2∗σ12n1+σ22n2)∪(μ1−α/2∗σ12n1+σ22n2,+∞)C = (-\infty, -\mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} ) \cup ( \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, +\infty) C=(−∞,−μ1−α/2​∗n1​σ12​​+n2​σ22​​​)∪(μ1−α/2​∗n1​σ12​​+n2​σ22​​​,+∞)
C∗=[−μ1−α/2∗σ12n1+σ22n2,μ1−α/2∗σ12n1+σ22n2]C^* = [-\mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}, \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}]C∗=[−μ1−α/2​∗n1​σ12​​+n2​σ22​​​,μ1−α/2​∗n1​σ12​​+n2​σ22​​​]



根据已设定好显著性水平α\alphaα、及上面求解出接受域C∗C^*C∗, 下面计算犯第二类错误概率β\betaβ:

借助上式(1),即在H1(μ=δ)H_1(\mu=\delta)H1​(μ=δ)的情况下, 估计量xˉ−yˉ\bar{x} - \bar{y}xˉ−yˉ​服从如下分布,
μ^=xˉ−yˉ∼N(δ,σ12n1+σ22n2)(2)\hat\mu=\bar{x} - \bar{y} \sim N(\delta, \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }) \tag{2}μ^​=xˉ−yˉ​∼N(δ,n1​σ12​​+n2​σ22​​​)(2)
已知:
P{μ^∈C∗∣μ1−μ2=δ}=βP\{ \hat\mu \in C^* | \mu_1-\mu_2=\delta \} = \beta P{μ^​∈C∗∣μ1​−μ2​=δ}=β
⇒\Rightarrow⇒
P{∣xˉ−yˉ∣≤μ1−α/2∗σ12n1+σ22n2∣μ1−μ2=δ}=βP\{ |\bar{x}-\bar{y}| \leq \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta \} = \beta P{∣xˉ−yˉ​∣≤μ1−α/2​∗n1​σ12​​+n2​σ22​​​∣μ1​−μ2​=δ}=β
⇒P{−μ1−α/2∗σ12n1+σ22n2≤xˉ−yˉ≤μ1−α/2∗σ12n1+σ22n2∣μ1−μ2=δ}=β\Rightarrow P\{ -\mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } \leq \bar{x}-\bar{y} \leq \mu_{1-\alpha/2}*\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} } | \mu_1-\mu_2=\delta \} = \beta ⇒P{−μ1−α/2​∗n1​σ12​​+n2​σ22​​​≤xˉ−yˉ​≤μ1−α/2​∗n1​σ12​​+n2​σ22​​​∣μ1​−μ2​=δ}=β
⇒P{−μ1−α/2−δσ12n1+σ22n2≤xˉ−yˉ−δσ12n1+σ22n2≤μ1−α/2−δσ12n1+σ22n2}=β\Rightarrow P\{ -\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \leq \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \} = \beta ⇒P{−μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​≤n1​σ12​​+n2​σ22​​​xˉ−yˉ​−δ​≤μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​}=β
结合上式(2),可知:
xˉ−yˉ−δσ12n1+σ22n2∼N(0,1)\frac{\bar{x}-\bar{y}-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0,1)n1​σ12​​+n2​σ22​​​xˉ−yˉ​−δ​∼N(0,1)
⇒\Rightarrow⇒对上式进行等价改写:
Φ(μ1−α/2−δσ12n1+σ22n2)−Φ(−μ1−α/2−δσ12n1+σ22n2)=β(4)\Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) - \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}Φ(μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​)−Φ(−μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​)=β(4)
⇒β\Rightarrow\beta⇒β对应的Z统计量区间为:
Zβ≜[−μ1−α/2−δσ12n1+σ22n2,μ1−α/2−δσ12n1+σ22n2](3)Z_{\beta}\triangleq[-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}, \mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}] \tag{3}Zβ​≜[−μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​,μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​](3)

对式(3)进行分析:
若样本量不变,α↓\alpha\downarrowα↓, μ1−α/2↑\mu_{1-\alpha/2}\uparrowμ1−α/2​↑, 则Zβ↑Z_\beta\uparrowZβ​↑ ⇒\Rightarrow⇒  β↑\beta\uparrowβ↑
若样本量不变,α↑\alpha\uparrowα↑, μ1−α/2↓\mu_{1-\alpha/2}\downarrowμ1−α/2​↓, 则Zβ↓Z_\beta\downarrowZβ​↓ ⇒\Rightarrow⇒ β↓\beta\downarrowβ↓
由此便解释:在控制样本容量的情况下,α,β\alpha, \betaα,β是此消彼长的关系。

2.2.2 第一个疑问「公式推导视角」

  实际上,第一个疑问所延展出来的常听到的结论是:增大样本容量,可使得两类错误同时降低。就在我思考如何从数学公式的角度来解释第一个疑问时,我傻了。原因是犯第一类错误的概率,一般都是在假设检验前就已经给定(如,α=0.05\alpha=0.05α=0.05). 因此,关于如何从公式推导方向来说明这个同时缩小两类错误的结论,还没有想到好的方法,可暂时借用下方(从网上找到别人的)逻辑视角来解释。

2.2.3 第二个疑问「几何视角」

  我们分别以H0H_0H0​,H1H_1H1​为真情况下,分别绘出两个分布曲线,详情如下图(忽略图片美观).

对下图做一些标记的解释:
(1) 图中在LOWER-LINEUPPER-LINE两条线之间,对应的样本统计量取值为接受域CCC
(2) 图中蓝色面积区域,表示:H1H_1H1​为真时,样本落入接受域C∗C^*C∗内,即为犯第二类错误的概率β\betaβ
(3) 图中红色面积区域,表示:H0H_0H0​为真时,样本落入拒绝域CCC内,即为犯第一类错误的概率α\alphaα

集中观察上图中UPPLER_LINE这条直线:
(1)将这条线往右(→\rightarrow→)移动,则α↓\alpha\downarrowα↓ ⇒\Rightarrow⇒ β↑\beta\uparrowβ↑
(2)将这条线往左(←\leftarrow←)移动,则α↑\alpha\uparrowα↑ ⇒\Rightarrow⇒ β↓\beta\downarrowβ↓

2.2.4 两个疑问「逻辑理解视角」

转自链接:https://zhidao.baidu.com/question/1574553796509010100.html
(1)第一个疑问
  由于拒真误差和纳伪误差都属于抽样误差,如果扩大了样本容量,那么抽样得到的值越接近于真实水平。换句话说,如果原假设是成立的,这个抽样算出来的值将非常接近真实的值,很大程度上不会出现在拒绝域,因而减小了弃真误差。取伪误差同理。

「Note」何为抽样误差?即因抽样的不合理导致出现和预期相违背的结论,比如第一类错误(拒真错误),已知原假设是成立的,但是由于抽样的原因,例如抽样比较偏,赶巧抽到了边缘地带,抽样的结果算出来出现在拒绝域,因而拒绝了原假设。

(2)第二个疑问
  从逻辑上理解的话,已知原假设成立,减小拒真错误,我的容错性更强,为了不让可能正确的值脱离接受域,我尽可能的扩大接受域,拒真确实小了。但当我的已知条件是原假设不成立的时候,抽样算出的错误值(纳伪错误)落入盲目扩大的“接受域”的可能性大大增强,即纳伪增大了。

2.3 ppp值是啥?

p值定义:由检验统计量的观察值得出的原假设H0H_0H0​可被拒绝的最小显著性水平。

换句话说,即以当前子样观察值为新拒绝域边界,来计算在当前新拒绝域下发生的概率ppp。如果计算出来p<αp \lt \alphap<α,说明当前子样观察值已经落入到给定拒绝域CCC内(具体见下例).

假设app上开发新产品,上线运行10天AB实验,最终收集到连续10天:实验组日CTR(xtix_{t_i}xti​​) - 对照组日CTR(ytiy_{t_i}yti​​):

H0:μ1−μ2=0H_0: \mu_1 - \mu_2 = 0H0​:μ1​−μ2​=0   VS   H1:μ1−μ2=δ>0H_1: \mu_1 - \mu_2 =\delta > 0H1​:μ1​−μ2​=δ>0
假设已知:σ12=σ22=0.125\sigma_1^2=\sigma_2^2=0.125σ12​=σ22​=0.125,n1=n2=10n_1=n_2=10n1​=n2​=10,α=0.05\alpha=0.05α=0.05

观测值差为:xti−yti={−0.001,0.03,0.01,0.02,0.03,0.04,0.03,0.01,0.02,0.001}x_{t_i}-y_{t_i} = \{-0.001,0.03,0.01,0.02,0.03,0.04,0.03,0.01,0.02,0.001\}xti​​−yti​​={−0.001,0.03,0.01,0.02,0.03,0.04,0.03,0.01,0.02,0.001}

构造检验统计量(H0H_0H0​成立):
z=xˉ−yˉσ12n1+σ22n2∼N(0,1)z=\frac{\bar{x} - \bar{y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} \sim N(0, 1)z=n1​σ12​​+n2​σ22​​​xˉ−yˉ​​∼N(0,1)
带入数据得到z的观察值:
z0=Σxti10−Σyti100.12510+0.12510=2.403z_0=\frac{\frac{\Sigma{x_{t_i}}}{10}- \frac{\Sigma{y_{t_i}}}{10}}{\sqrt{\frac{0.125}{10} + \frac{0.125}{10} }} = 2.403z0​=100.125​+100.125​​10Σxti​​​−10Σyti​​​​=2.403
概率P(z≥z0)=p(z≥2.403)=1−Φ(2.403)=0.022P(z \geq z_0)=p(z \geq 2.403)=1-\Phi(2.403)=0.022P(z≥z0​)=p(z≥2.403)=1−Φ(2.403)=0.022

不难发现:结合当前实验获取的子样本,计算出统计量zzz的观察值z0=2.403>1.96z_0=2.403 > 1.96z0​=2.403>1.96,刚好落在了拒绝域内(如下图)。所以,应拒绝原假设H0H_0H0​.
与此同时,计算出ppp值=0.022<0.05=0.022 < 0.05=0.022<0.05. 这就很快回到我们常见的“听说”:
(1)当p≤α(如:0.05)p \leq \alpha(如:0.05)p≤α(如:0.05)时,则在显著性水平为α\alphaα下,拒绝H0H_0H0​;
(1)当p>α(如:0.05)p > \alpha(如:0.05)p>α(如:0.05)时,则在显著性水平为α\alphaα下,接受H0H_0H0​.

「Note」这里简单提一下假设检验的原理,即为小概率事件不发生。

我们回想一下:在H0H_0H0​成立情况下,通过定义犯第一类错误的概率α(=0.05)\alpha(=0.05)α(=0.05),计算出拒绝域CCC。那为什么可以通过子样观察值xxx是否落入拒绝域CCC就可以判断拒绝 or 接受H0H_0H0​呢?

因为我们认为当H0H_0H0​成立情况下,样本能够落入到拒绝域CCC内的概率仅为0.05,这是一个小概率事件,认为在我们抽样子样时是不可能出现,一旦出现,我们甘愿冒着犯第一类错误的风险也要拒绝H0H_0H0​.

三、计算实验所需的最小样本量

  像比较大的互联网公司,它们的日浏览用户体量都比较大,所以几乎是不太关注实验所需的最小样本量,当然我个人觉得还是需要的,防范于未然嘛。但在很多类似消费频次比较低(如:酒店、旅游、保养车等App,该问题就比较突出,因为日UV体量不是很大,这个时候实验是否置信有效?首先得关注是否达到实验所需的最小样本量。

  针对不同的指标,它所服从的分布也将不同,计算最小样本量的推导也会不同,最终得到的公式也会有所差异。所以,下面会用一个实例来做最小样本量计算过程演示,其它均可类似,方法相同。

以上文中“新产品是否能够提升CTR”为例,建立假设检验如下:

H0:μ1−μ2=0H_0: \mu_1 - \mu_2 = 0H0​:μ1​−μ2​=0   VS   H1:μ1−μ2=δ>0H_1: \mu_1 - \mu_2 =\delta > 0H1​:μ1​−μ2​=δ>0

⇒\Rightarrow⇒(推导过程基本在上方给出)借助上(4)式

Φ(μ1−α/2−δσ12n1+σ22n2)−Φ(−μ1−α/2−δσ12n1+σ22n2)=β(4)\Phi(\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}) - \Phi(-\mu_{1-\alpha/2}-\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} ) = \beta \,\,\,\, \tag{4}Φ(μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​)−Φ(−μ1−α/2​−n1​σ12​​+n2​σ22​​​δ​)=β(4)

其中δ>0\delta>0δ>0, 所以(4)式中第二项接近于0,再利用标准正态分布1−β1-\beta1−β分位数μ1−β\mu_{1-\beta}μ1−β​, 可把上式改写为:

−μ1−α/2+δσ12n1+σ22n2=μ1−β-\mu_{1-\alpha/2}+\frac{\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} = \mu_{1-\beta}−μ1−α/2​+n1​σ12​​+n2​σ22​​​δ​=μ1−β​

⇒\Rightarrow⇒结合实验组&对照组分流比例一致(即n1=n2n_1=n_2n1​=n2​),则可计算出最小样本量为:
n≈(μ1−α2+μ1−β)2∗(σ12+σ22)δ2n \approx \frac{(\mu_{1-\frac{\alpha}{2}}+\mu_{1-\beta})^2*(\sigma_1^2 + \sigma_2^2)}{\delta^2}n≈δ2(μ1−2α​​+μ1−β​)2∗(σ12​+σ22​)​

在实践中,上面公式中的每一项从何而来?

α\alphaα: 一般设置为{0.01,0.05, 0.1}, 设置越大,拒绝域越宽,实验越容易显著。结合具体场景来设定。

β\betaβ: 一般设置为{0.1, 0.2}

σ12,σ22\sigma_1^2,\sigma_2^2σ12​,σ22​: 公式中为母体方差,实践中我们均以过去某段时间样本方差来近似。这里有人会说,对照组方差可以近似,实验组还没有开始实验,我怎么知道它的样本方差呢?其实,因为这里分流比例一致,就会近似认为两组样本方差也相同。

δ\deltaδ: 这里δ\deltaδ,实际上是整个平台的一个预期,即认为较之前版本提升多少才认为达到目标。



其实有关假设检验内容,在学校学习的时候,对于一些结论就很记忆,但究其原因,其实细想的不多。正好一个同学前一段时间来问我相关的内容,我发现自己其实也忘了很多。抽点时间整理一下,以便日后查阅。


参考文献
[1]魏宗舒等.概率论与数理统计教程.高等教育出版社.
[2]茆时松,吕晓玲等.数理统计学.中国人民大学出版社(第2版).

假设检验中两类错误及最小样本量计算相关推荐

  1. R语言效用分析 ( 效能分析、Power analysis)确定样本量、假设检验与两类错误、pwr包进行效用分析 ( 效能分析、Power analysis)的常用函数列表

    R语言效用分析 ( 效能分析.Power analysis)确定样本量.假设检验与两类错误.pwr包进行效用分析 ( 效能分析.Power analysis)的常用函数列表 目录

  2. 【统计类知识】区间估计(置信区间)、假设检验(两类错误、P值)

    统计推断的三大基本形式: 抽样分布 参数估计(点估计.区间估计) 假设检验(参数检验.非参数检验) 一. 置信区间 在实际中,我们通常得不到总体在某方面的真值,比如总体均值.或者说,如果我们现在要估计 ...

  3. 假设检验的两类错误及功效

    一.为什么会有假设检验的两类错误? 由于假设检验是根据有限的样本信息对总体作推断,不论做出哪种推断结论(拒绝原假设H0和不拒绝原假设H0),都由可能因为抽样等原因发生错误. 二.假设检验的两类错误 1 ...

  4. 统计基础:3.2_假设检验的两类错误

    假设检验中的两类错误 1.Ⅰ.Ⅱ类错误及其产生的原因 2.两类错误的关系以及影响因素 3.如何控制两类错误 1.Ⅰ.Ⅱ类错误及其产生的原因   虽然小概率事件发生的概率很小,但依然有可能发生.由于抽样 ...

  5. 统计学假设检验的两类错误

    1.两类错误的解释 我们之前探讨了假设检验的基本思想,现在我们来介绍下两类错误. 假设检验的最终目的是:去伪存真, 那么它对应的两类错误就是弃真存伪. 接受或拒绝H0,都可能犯错误 I类错误--弃真错 ...

  6. 一文详解假设检验、两类错误和p值

    我们在生活中会遇到很多带有不确定性的问题,比如什么样的男孩子更容易找到女朋友,拥有什么样的品质更易成功.科学方法告诉我们,面对这些问题,要"大胆假设,小心求证".而假设检验就是这样 ...

  7. 深入理解假设检验的两类错误和功效

    假设包含原假设Null Hypothesis和备择假设Alternative Hypothesis,原假设也称为零假设,记为 H 0 H_0 H0​,备择假设也称为对立假设,记为 H a H_a Ha ...

  8. 假设检验中的两类错误

    假设检验中的两类错误 假设检验及其两类错误是数理统计学中的名词.在进行假设检验时提出原假设和备择假设,原假设实际上是正确的,但我们做出的决定是拒绝原假设,此类错误称为第一类错误.原假设实际上是不正确的 ...

  9. 在统计学中_我来尝试给你讲清统计学中的假设检验和两类错误

    学习过统计的同学一定对"两类错误"不会陌生,但是否已经完全理清了其中的逻辑,想必要打一个问号了.希望我今天能"不辱使命",用你听得懂的语言给你讲清楚这整套内容. ...

最新文章

  1. 编写linux下跑马灯应用程序,01 arm11 led 跑马灯程序
  2. 使用tortoise git管理gitolite版本库
  3. s时钟画布 android,Android UI编程进阶——使用SurfaceViewt和Canvas实现动态时钟
  4. python no module name_python导包显示No module named XXX问题
  5. websocket与socket.io
  6. usb转rj45_毕亚兹ZH5网卡转接口评测:3HUB接口+1网口,好用还便宜
  7. 165-PHP 文本替换函数str_replace(六)
  8. 嵌套 思维导图_Python 这方面,8张思维导图助你转身变大牛!
  9. C#设置配置文件与读取配置文件
  10. shell,perl,python
  11. C++ Primer 第五版 第6章 6.3——函数返回类型和return语句阅读笔记
  12. Codeforces 776D The Door Problem
  13. 华为怎么删除自带的音乐_华为手机独有的这个模式,让睡觉更舒畅
  14. .NET Framework-多线程网络编程
  15. 谈谈对象和XML文件的转换
  16. Word多级标题测试-去掉标题多级编号
  17. 【总结】1147- 一文吃透 Webpack 核心原理
  18. python: 实现一个简单的日记程序
  19. Android 获取经纬度。2018年写
  20. 手办 android app,hpoi手办维基

热门文章

  1. mysql命令大全(转)
  2. SAP ABAP 销售订单创建BAPI 正常订单/借贷项订单/退货订单
  3. 类的加载过程详解:加载、验证、准备、解析、初始化
  4. 数据可视化--实验4
  5. Zbrush学习笔记
  6. 202104-2 邻域均值
  7. 李博轩担任摄影作品有哪些?
  8. 什么是ISO 21434?给汽车软件开发人员的合规贴士
  9. html css 和js共同实现手风琴
  10. C语言候老师,两本留言册背后的C语言老师