『回归分析』

『线性回归中的平方误差』

如上图,线性回归的平方误差如下:

S E l i n e = ( y 1 − ( m x 1 + b ) ) 2 + ( y 2 − ( m x 2 + b ) ) 2 + . . . + ( y n − ( m x n + b ) ) 2 SE_{line} = (y_1 - (mx_1 + b))^2 + (y_2 - (mx_2 + b))^2 + ... + (y_n - (mx_n + b))^2 SEline​=(y1​−(mx1​+b))2+(y2​−(mx2​+b))2+...+(yn​−(mxn​+b))2

   \;

『线性回归公式的推导』

根据前面得到的线性回归的平方误差,对公式做进一步推导:
S E l i n e = ( y 1 − ( m x 1 + b ) ) 2 + ( y 2 − ( m x 2 + b ) ) 2 + . . . + ( y n − ( m x n + b ) ) 2 = y 1 2 − 2 y 1 ( m x 1 + b ) + ( m x 1 + b ) 2 + y 2 2 − 2 y 2 ( m x 2 + b ) + ( m x 2 + b ) 2 + . . . + y n 2 − 2 y n ( m x n + b ) + ( m x n + b ) 2 = ( y 1 2 + y 2 2 + . . . + y n 2 ) − 2 m b ( x 1 + x 2 + . . . + x n ) − 2 b ( y 1 + y 2 + . . . + y n ) + m 2 ( x 1 2 + x 2 2 + . . . + x n 2 ) + 2 m b ( x 1 + x 2 + . . . + x n ) + n b 2 \begin{aligned} SE_{line} &= (y_1 - (mx_1 + b))^2 + (y_2 - (mx_2 + b))^2 + ... + (y_n - (mx_n + b))^2 \\ &= y_1^2 - 2y_1(mx_1 + b) + (mx_1 + b)^2 \\ &\quad + y_2^2 - 2y_2(mx_2 + b) + (mx_2 + b)^2 \\ &\quad + ... \\ &\quad + y_n^2 - 2y_n(mx_n + b) + (mx_n + b)^2 \\ & = (y_1^2 + y_2^2 + ... + y_n^2) -2mb(x_1 + x_2 + ... + x_n) -2b(y_1 + y_2 + ... + y_n) \\ &\quad + m^2(x_1^2 + x_2^2 + ... + x_n^2) + 2mb(x_1 + x_2 + ... + x_n) + nb^2 \end{aligned} SEline​​=(y1​−(mx1​+b))2+(y2​−(mx2​+b))2+...+(yn​−(mxn​+b))2=y12​−2y1​(mx1​+b)+(mx1​+b)2+y22​−2y2​(mx2​+b)+(mx2​+b)2+...+yn2​−2yn​(mxn​+b)+(mxn​+b)2=(y12​+y22​+...+yn2​)−2mb(x1​+x2​+...+xn​)−2b(y1​+y2​+...+yn​)+m2(x12​+x22​+...+xn2​)+2mb(x1​+x2​+...+xn​)+nb2​

利用均值来做替换,得到:

S E l i n e = n y 2 ‾ − 2 m n x y ‾ − 2 b n y ‾ + m 2 n x 2 ‾ + 2 m b n x ‾ + n b 2 SE_{line} = n\overline {y^2} - 2mn\overline {xy} - 2bn\overline y + m^2n\overline {x^2} + 2mbn\overline x + nb^2 SEline​=ny2​−2mnxy​−2bny​+m2nx2+2mbnx+nb2

下面画出 S E l i n e SE_{line} SEline​对m和b的曲面:

要求使得 S E l i n e SE_{line} SEline​最小的m和b,可以对m和b求偏导,在最低点处导数为零。

− 2 n x y ‾ + 2 m n x 2 ‾ + 2 b n x ‾ = 0 -2n\overline{xy} + 2mn\overline{x^2} + 2bn\overline x = 0 −2nxy​+2mnx2+2bnx=0

− 2 n y ‾ + 2 m n x ‾ + 2 b n = 0 -2n\overline y + 2mn\overline x + 2bn = 0 −2ny​+2mnx+2bn=0

化简可以得到:
m x 2 ‾ + b x ‾ = x y ‾ m\overline {x^2} + b\overline x = \overline{xy} mx2+bx=xy​

m x ‾ + b = y ‾ m\overline {x} + b = \overline{y} mx+b=y​

比较最佳拟合直线的方程: y = m x + b y = mx + b y=mx+b,我们可以发现:

x和y的均值落在最佳拟合直线上,这里确定拟合直线的一个点 ( x ‾ , y ‾ ) (\overline x, \overline y) (x,y​)。

两点确定一条直线,我们还需要确定一个点,将第一个式子化成 m x + b mx + b mx+b的形式,得到:

m x ‾ 2 x ‾ + b = x y ‾ x ‾ m{\overline x^2 \over \overline x} + b = {\overline{xy} \over \overline x} mxx2​+b=xxy​​

这就得到最佳拟合直线上的另外一个点的坐标 ( x ‾ 2 x ‾ , x y ‾ x ‾ ) ({\overline x^2 \over \overline x}, {\overline{xy} \over \overline x}) (xx2​,xxy​​)。

于是我们就确定最佳拟合直线上的两个点: ( x ‾ , y ‾ ) (\overline x, \overline y) (x,y​)和 ( x ‾ 2 x ‾ , x y ‾ x ‾ ) ({\overline x^2 \over \overline x}, {\overline{xy} \over \overline x}) (xx2​,xxy​​)

接下来求出m和b:

m = y ‾ − x y ‾ x ‾ x ‾ − x ‾ 2 x ‾ = x ‾ ⋅ y ‾ − x y ‾ ( x ‾ ) 2 − x 2 ‾ m = {\overline y - {\overline{xy} \over \overline x} \over \overline x - {\overline x^2 \over \overline x}} = {\overline x · \overline y - \overline {xy} \over (\overline x)^2 - \overline {x^2}} m=x−xx2​y​−xxy​​​=(x)2−x2x⋅y​−xy​​

b = y ‾ − m x ‾ b = \overline y - m \overline x b=y​−mx

下面来看个例子,我们去拟合下面三个点:
得到:

m = 3 7 , b = 1 m = {3\over 7},b = 1 m=73​,b=1

所以:

y = 3 7 x + 1 y = {3\over 7}x + 1 y=73​x+1

『决定系数 R 2 R^2 R2』


对于直线的拟合程度,我们当然可以计算出具体有多少误差,但是还有一种对直线拟合程度更有意义的估计:

首先提个问题:y的波动程度有多少百分比能被 x 的波动程度所描述?

这里,我们可以先求出y的总波动:

S E y ‾ = ( y 1 − y ‾ ) 2 + ( y 2 − y ‾ ) 2 + . . . + ( y n − y ‾ ) 2 SE_{\overline y} = (y_1 - \overline y)^2 + (y_2 - \overline y)^2 + ... + (y_n- \overline y)^2 SEy​​=(y1​−y​)2+(y2​−y​)2+...+(yn​−y​)2

我们想求出 x x x波动所描述的百分占比,但是这个百分比不太好衡量,其实可以换个思路,看看y有什么波动没有被x的波动所描述?

于是我们考虑一下,总波动中有多少没有被回归线所描述,对此我们已经有了衡量,就是直线的平方误差,这个误差是没有被回归线描述的。于是我们得到:

S E L i n e S E Y ‾ {SE_{Line} \over SE_{\overline Y}} SEY​SELine​​

表示总波动中有多少百分比没有被x的波动所描述,或者说,没有被回归线所描述。

那么,回到前面的问题,我们想知道“多少百分比由x的波动描述”这一问题,只需要看剩下的就行了。于是得到:

r 2 = 1 − S E L i n e S E Y ‾ r^2 = 1 - {SE_{Line} \over SE_{\overline Y}} r2=1−SEY​SELine​​

这告诉我们总波动有多少百分比被直线所描述,或者说被x的波动描述,这个数字称作决定系数,记做 r 2 r^2 r2。

r 2 r^2 r2越接近于1,则y的波动很多都被x的波动描述,说明直线拟合的好。

『协方差和回归线』

协方差的定义为:两随机变量离各自均值距离之积的期望值。

c o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] cov(X, Y) = E[(X - E[X])(Y - E[Y])] cov(X,Y)=E[(X−E[X])(Y−E[Y])]

其实,协方差就是表示两变量多大程度上一同变化。

如何理解这句话?
假设总体中有一个点(随机变量的一个实例),也就是从总体中抽取的一个样本:X = 1,Y = 3,已知 E [ X ] = 0 E[X] = 0 E[X]=0, E [ Y ] = 4 E[Y] = 4 E[Y]=4, X − E [ X ] = 1 − 0 = 1 , Y − E [ Y ] = 3 − 4 = − 1 X - E[X] = 1 - 0 = 1, Y - E[Y] = 3 - 4 = -1 X−E[X]=1−0=1,Y−E[Y]=3−4=−1,这表示,对于这个样本,从X和Y中抽取一个样本后,X高于期望值,Y低于期望值,如果对于总体,情况都是如此,那么协方差就会得到负数,一个上升另一个就下降,一个下降另一个就上升,如果两者同时上升,同时下降,那么就是正协方差,同步程度确定协方差的大小。

我们来看一下如何将协方差的定义同最小二乘回归联系起来。

下面对协方差的定义做些变化:

C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y − X E [ Y ] − E [ X ] Y + E [ X ] E [ Y ] ] = E [ X Y ] − E [ X E [ Y ] ] − E [ E [ X ] Y ] + E [ E [ X ] E [ Y ] ] = E [ X Y ] − E [ X ] E [ Y ] − E [ X ] E [ Y ] + E [ X ] E [ Y ] = E [ X Y ] − E [ X ] E [ Y ] \begin{aligned} Cov(X, Y) &= E[(X - E[X])(Y - E[Y])] \\ & = E[XY - XE[Y] - E[X]Y + E[X]E[Y]] \\ & = E[XY] - E[XE[Y]] - E[E[X]Y] + E[E[X]E[Y]] \\ & = E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \\ & = E[XY] - E[X]E[Y] \end{aligned} Cov(X,Y)​=E[(X−E[X])(Y−E[Y])]=E[XY−XE[Y]−E[X]Y+E[X]E[Y]]=E[XY]−E[XE[Y]]−E[E[X]Y]+E[E[X]E[Y]]=E[XY]−E[X]E[Y]−E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]​

其中, E [ X Y ] E[XY] E[XY]可以用X、Y积的样本均值 X Y ‾ \overline{XY} XY近似, E [ X ] E[X] E[X]可以用 X ‾ \overline X X近似, E [ Y ] E[Y] E[Y]可以用 Y ‾ \overline Y Y近似,那么两随机变量的协方差可以用 X Y ‾ − X ‾ ⋅ Y ‾ \overline{XY} - {\overline X}· {\overline Y} XY−X⋅Y表示,这就是回归线斜率的分子部分。

回归线的斜率如下:

m ^ = x y ‾ − x ‾ ⋅ y ‾ x 2 ‾ − ( x ‾ ) 2 = C o v ( X , Y ) V a r ( X ) \hat m = {\overline {xy} - \overline x · \overline y \over \overline {x^2} - (\overline x)^2} = {Cov(X, Y) \over Var(X)} m^=x2−(x)2xy​−x⋅y​​=Var(X)Cov(X,Y)​

这样就将协方差的定义同最小二乘回归联系起来。

『 χ 2 \chi^2 χ2分布』

面对一个新的分布,首先,我们提出人生的终极三问:

  • 你是谁?
  • 从哪里来?
  • 到哪里去?

下面我们就从这三个方面来了解一下 χ 2 \chi^2 χ2分布:

  • (1)第一个问题, χ 2 \chi^2 χ2分布是个啥?

若n个相互独立的随机变量 ξ 1 , ξ 2 , . . . , ξ n \xi_1,\xi_2,...,\xi_n ξ1​,ξ2​,...,ξn​均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和

Q = ∑ i = 1 n ξ i 2 Q = ∑_{i=1}^nξ^2_i Q=i=1∑n​ξi2​

构成一个新的随机变量,其卡方分布规律称为 χ 2 \chi^2 χ2分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个正态分布一样,这里卡方分布自由度不同就是另一个分布。记为 Q ∼ χ 2 ( k ) Q \sim \chi^2(k) Q∼χ2(k)。卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时, χ 2 \chi^2 χ2分布近似为正态分布。

如下图,从一个标准正态分布中采样样本,并取平方,得到的是自由度为1的卡方分布: Q 1 = χ 1 2 Q_1 = \chi^2_1 Q1​=χ12​;

从两个独立的标准正态分布中采样样本,并取平方和,得到的是自由度为2的卡方分布: Q 2 = χ 2 2 Q_2 = \chi^2_2 Q2​=χ22​;

下面看一下 χ 2 \chi^2 χ2分布的图像:

随着自由度的增加,卡方分布的曲线逐渐右移,这里可以直观的解释一下:
因为卡方分布是由标准正态分布采样来的,根据正态分布的曲线,采样到0附近的概率最大,所以当自由度很小时,卡方分布在靠近0的地方概率就很大,但是随着自由度的增加,卡方分布的随机变量变成了很多样本点的平方和,当然得到0的概率逐渐减小,均值逐渐增大,所以卡方分布的曲线逐渐右移,当自由度n很大时, χ 2 \chi^2 χ2分布近似为正态分布。

  • (2)第二个问题, χ 2 \chi^2 χ2分布从哪里来?

从前面的介绍就可以知道了, χ 2 \chi^2 χ2分布是从正态分布中采样来的分布,同其他分布一样,肯定是这种分布在自然界中普遍存在,并且可以用来解决一些问题,所以统计学家才会去研究这种分布的性质,构造一些通用的“模板”(统计学的第一部分提到了这个概念),来供我们使用。

这样,自然而然地引入第三个问题,这玩意儿到底可以用来干啥?

  • (3)第三个问题, χ 2 \chi^2 χ2分布有什么用?(到哪里去?)

首先,简短地概括: χ 2 \chi^2 χ2分布用于检验理论分布同观测结果吻合得有多好。

所以,这个分布的用处就是,衡量离期望值的误差有多大。

所以,在下面这种情况下,可以使用 χ 2 \chi^2 χ2分布:

以特定概率分布为某种情况进行建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常小幅度波动引起的或者是建模错误,如何来判别?此时,可以利用卡方分布分析结果,排除可疑结果。【事实与期望不符合的情况下,使用卡方分布进行检验】

通常,对我们我们来说,使用 χ 2 \chi^2 χ2分布时,同正态分布和t分布一样,只要知道如何查 χ 2 \chi^2 χ2分布表就可以了,下面看一下如何使用:

如图,我们想要求 Q 2 > 2.41 Q_2 > 2.41 Q2​>2.41的概率:

从表格中可以查到:自由度为2的 χ 2 \chi^2 χ2分布 Q 2 Q_2 Q2​的值大于2.41的概率为0.3,所以如下图所示:阴影部分的面积就是0.3。

『卡方检验』

卡方检验是一种基于卡方分布的常用的统计(显著性)检验,其统计量在原假设成立时服从卡方分布。

在不明确说明的情况下,卡方检验默认指代皮尔森卡方检验,根据样本数据推断总体分布与期望分布是否有显著差异,或推断分类变量间是否相互关联或彼此独立

皮尔森卡方检验:拟合优度检验
   \;
假设实验中从总体中随机取样得到的 n 个观察值被划分为 k 个互斥的分类,这样每个分类都有一个对应的实际观察次数 x i ( i = 1 , 2 , . . . , k ) x_{i}({\displaystyle i=1,2,...,k}) xi​(i=1,2,...,k)。研究人员会对实验中各个观察值落入第 i 个分类的概率 p i {p_{i}} pi​的分布提出零假设,从而获得了对应所有第 i 分类的理论期望次数 m i = n p i {m_{i}=np_{i}} mi​=npi​以及限制条件:
   \;
∑ i = 1 k p i = 1 {\sum _{i=1}^{k}{p_{i}}=1} ∑i=1k​pi​=1以及 ∑ i = 1 k m i = ∑ i = 1 k x i = n {\sum _{i=1}^{k}{m_{i}}=\sum _{i=1}^{k}{x_{i}}=n} ∑i=1k​mi​=∑i=1k​xi​=n。
   \;
皮尔森提出,在上述零假设成立以及 n 趋向 ∞ \infty ∞的时候,以下统计量的极限分布趋向 χ 2 \chi^{2} χ2分布:
   \;
X 2 = ∑ i = 1 k ( x i − m i ) 2 m i = ∑ i = 1 k x i 2 m i − n {X^{2}=\sum _{i=1}^{k}{\frac {(x_{i}-m_{i})^{2}}{m_{i}}}=\sum _{i=1}^{k}{\frac {x_{i}^{2}}{m_{i}}}-n} X2=∑i=1k​mi​(xi​−mi​)2​=∑i=1k​mi​xi2​​−n
   \;
皮尔森首先讨论零假设中所有分类的理论期望次数 m i m_{i} mi​均为足够大且已知的情况,同时假设各分类的实际观测次数 x i x_{i} xi​均服从正态分布。皮尔森由此得到当样本容量 n 足够大时, X 2 {\displaystyle X^{2}} X2趋近服从自由度为 ( k − 1 ) (k-1) (k−1)的 χ 2 \chi^{2} χ2分布。

不同的卡方检验使用不同的计算公式计算统计量,卡方检验都假设其使用的统计量服从卡方分布。

对分类数据进行分析的统计方法主要是利用卡方分布,也被称作卡方检验。

卡方检验的应用主要表现在两个方面,分别是拟合优度检验独立性检验前者用于单变量,后者用于双变量

1、分类数据与卡方统计量

数据类型一般可分为无序类别数据、有序类别数据和数值型数据,在处理无序类别数据和有序类别数据时需要特别注意,当你用一个数字去代替某一类别时,需时刻记得数字之间的间隔不能反映类别之间的差距,在有序类别中仅可以用来比较大小,在无序类别中仅仅是一个代号而已。

我们常用类别出现的频数对分类数据进行分析,而卡方检验正可以对这类数据进行分析。

卡方检验其实是测定两个分类变量之间的相关程度,它是利用类别变量的观测值频数与期望值频数进行构建的:

χ 2 = ∑ ( f o − f e ) 2 f e \chi^2 = \sum {(f_o - f_e)^2 \over f_e} χ2=∑fe​(fo​−fe​)2​

其中: f o f_o fo​代表观察值频数, f e f_e fe​代表期望值频数;

可以看到,卡方统计量其实反映了观察值频数和期望值频数之间的差距,当差距较小时,统计量的值也会变小。所以卡方检验正是通过计算卡方统计量与临界值进行比较来确定相关的显著性的。

2、拟合优度检验

拟合优度检验很简单,它符合假设检验的的基本理论,所以使用的流程与之前的假设检验是一样,我们来看一个例子,你就知道它在说什么:

  • 例1:

泰坦尼克沉船事件:当时船上2208人,男性1738人,女性470人,海难发生后,幸存者718人,其中男性374人,女性344人,我们想知道幸存状况是否与性别有关。

总结为下表:

- 男性 女性 总数
船上 1738 470 2208
幸存 374 344 718

这个问题在机器学习上会是另外一种问法:性别对预测是否存活的贡献有多大,其实二者想表达的东西是一样的,因为只涉及到一个变量,所以是一个单变量分析的方法:

我们想知道幸存状况是否与性别有关,所以要去做假设检验:

H 0 : H_0: H0​:幸存状况与性别无关;
H 1 : H_1: H1​:幸存状况与性别有关;

这里设定显著性水平是5%。

首先,我们已经知道了观察频数:男性374人,女性470人,那期望频数如何计算呢,这里需要提到我们的假设条件,我们的原假设是:存活与性别无关。这意味着在存活的人中,男女存活的比例应该与总人数中男女比例是一样的。所以,男性期望频数: 718 ∗ 1738 2208 = 565 718*{1738 \over 2208} = 565 718∗22081738​=565。女性的期望频数: 718 ∗ 470 2208 = 153 718*{470 \over 2208} = 153 718∗2208470​=153,如下:

- 男性 女性 总数
船上 1738 470 2208
幸存 374 344 718
Expected 565 153 718

下面构造卡方统计量:

χ 2 = ∑ ( f o − f e ) 2 f e = ( 374 − 565 ) 2 565 + ( 344 − 153 ) 2 153 = 303 + 19.82 = 322.82 \chi^2 = \sum {(f_o - f_e)^2 \over f_e} = {(374 - 565)^2 \over 565} + {(344 - 153)^2 \over 153} = 303 + 19.82 = 322.82 χ2=∑fe​(fo​−fe​)2​=565(374−565)2​+153(344−153)2​=303+19.82=322.82

由于度为分类变量类型个数-1,所以,这里服从自由度为1的卡方分布。

我们查得此状态下的p值远小于0.025,所以存活状况与性别显著性相关。

  • 例2:

我正考虑购入一家餐厅,我询问目前的店主,店内每天顾客数的分布是怎样的?于是他给了我这样一个分布:

Day M T W T F S
店主(%) 10 10 15 20 30 15
观测值 30 14 34 45 57 20

我有些怀疑,想检验他给我的分布和我观测的数据是否吻合,于是我得到一周内的观测值,要看是否吻合,所以,我需要进行假设检验:

H 0 : H_0: H0​:店主的分布是正确的;
H 1 : H_1: H1​:店主的分布是错误的;

显著性水平是5%。

我要根据这些数据计算出一个统计量,且统计量近似服从卡方分布。

思路: 根据特定自由度的卡方分布,计算卡方统计量,我想知道得到这样或更极端结果的概率是否小于5%,如果该概率小于5%,我将拒绝零假设,也就是拒绝店主的分布。如果卡方统计量得到如此极端或更极端的概率大于显著性水平 α \alpha α,我就不能拒绝它,没有理由认为店主在撒谎。

假设店主的分布是正确的,在此前提下,观测值预计会得到多少呢?我们得到下面的期望值:

Day M T W T F S 总计
店主(%) 10 10 15 20 30 15 100
观测值 30 14 34 45 57 20 200
Expected 20 20 30 40 60 30 200

下面计算卡方统计量:

由于这里只是近似卡方分布,所以我们写作 X 2 X^2 X2。

X 2 = ( 30 − 20 ) 2 20 + ( 14 − 20 ) 2 20 + ( 34 − 30 ) 2 30 + ( 45 − 40 ) 2 40 + ( 57 − 60 ) 2 60 + ( 20 − 30 ) 2 30 = 11.44 X^2 = {(30 - 20)^2 \over 20} + {(14 - 20)^2 \over 20} + {(34 - 30)^2 \over 30} + {(45 - 40)^2 \over 40} + {(57 - 60)^2 \over 60} + {(20 - 30)^2 \over 30} = 11.44 X2=20(30−20)2​+20(14−20)2​+30(34−30)2​+40(45−40)2​+60(57−60)2​+30(20−30)2​=11.44

我们先求出5%概率对应的临界 χ 2 \chi^2 χ2值,如果我们这里求出的的结果比该临界值更极端,我们就拒绝零假设。

下面求临界 χ 2 \chi^2 χ2值:

我们要先求出自由度,这里总共求了6次和,也许会误认为这里的自由度是6,其实,通过前5条信息就能求出第6条信息,n个像这样的数据点,对比观测值和预计值,自由度只有 n − 1 n-1 n−1,因为第n个数据点能够通过其它数据求出,因此,这里的自由度是5。

对于显著性水平是5%,自由度是5的卡方分布,查 χ 2 \chi^2 χ2分布表:

查得临界 χ 2 \chi^2 χ2值是11.07,在图中的位置如下:

结果至少达到11.07这么极端的概率是5%。

χ c 2 = 11.07 \chi^2_c = 11.07 χc2​=11.07

而我们得到的结果11.44甚至比这更极端,可能性更小,其概率小于显著性水平,因此我们将拒绝店主给我们的分布。

3、独立性检验

拟合优度检验可以看作是独立性检验的特例,独立性检验通常对两个变量进行检验,查看这两个类别变量之间是否存在某种联系。

  • 例1:

已知原料有不同的等级,而原料又来自不同的地区,我们关心等级与产地是否有关,对这两个变量关系的检验,就可以用到独立性检验,通常利用一种叫做列联表的方式呈现,所以也被称作列联分析,我们来看等级和产地的例子:

以上非合计的单元格就是观察频数,所以我们现在需要计算期望频数,我们以第一单元,即来自甲地区一级原料的期望数量为例:

首先一级原料占比: 162 / 500 162 / 500 162/500,然后计算甲地区原料占比: 140 / 500 140 / 500 140/500,那么原本甲地区一级原料应该是: ( 140 500 ) ( 162 500 ) ∗ 500 = 45.36 ({140 \over 500})({162 \over 500})*500 = 45.36 (500140​)(500162​)∗500=45.36,依次类推得到计算的期望值:

构造统计量 χ 2 = ∑ ( f o − f e ) 2 f e = 19.82 \chi^2 = \sum {(f_o - f_e)^2 \over f_e} = 19.82 χ2=∑fe​(fo​−fe​)2​=19.82,服从自由度 ( 3 − 1 ) ( 3 − 1 ) = 4 (3-1)(3-1) = 4 (3−1)(3−1)=4的卡方分布,由于 χ 2 > χ 0.05 2 ( 4 ) = 9.4877 \chi^2 > \chi^2_{0.05}(4) = 9.4877 χ2>χ0.052​(4)=9.4877,所以可以认为原料登记受地区影响。

基于以上我们可以看到 χ 2 \chi^2 χ2检验其实可以用来做变量初筛,而且它没有皮尔逊相关性的线性假设。

  • 例2:

以最著名的皮尔森卡方检验为例,假设我们认为惯用手与性别无关,即原假设为惯用手与性别相互独立,并且我们得到的数据可以总结在一个列联表中:

- 男(期望) 女(期望) 总计
43(45.24) 44(41.76) 87
6(6.76) 4(6.24) 13
总计 52 48 100

其中的期望为在原假设下每种情况的期望次数,计算公式为:

E i , j = ( ∑ n c = 1 c O i , n c ) ⋅ ( ∑ n r = 1 r O n r , j ) N E_{i,j} = {{(\sum^c_{n_c=1}O_{i, n_c})·(\sum^r_{n_r=1}O_{n_r, j})} \over N} Ei,j​=N(∑nc​=1c​Oi,nc​​)⋅(∑nr​=1r​Onr​,j​)​

其中N为样本大小。

统计值的计算公式为:

χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i , j − E i , j ) 2 E i , j \chi^2 = \sum^r_{i=1}\sum^c_{j=1}{(O_{i,j} - E_{i,j})^2 \over E_{i,j}} χ2=i=1∑r​j=1∑c​Ei,j​(Oi,j​−Ei,j​)2​

根据上式可以计算本例中统计值为:

χ 2 = ( 43 − 45.24 ) 2 45.24 + ( 44 − 41.76 ) 2 41.76 + ( 9 − 6.76 ) 2 6.76 + ( 4 − 6.24 ) 2 6.24 = 1.777 \chi^2 = {(43-45.24)^2 \over 45.24} + {(44-41.76)^2 \over 41.76} + {(9-6.76)^2 \over 6.76} + {(4-6.24)^2 \over 6.24} = 1.777 χ2=45.24(43−45.24)2​+41.76(44−41.76)2​+6.76(9−6.76)2​+6.24(4−6.24)2​=1.777

而自由度为 ( r − 1 ) ( c − 1 ) = ( 2 − 1 ) ( 2 − 1 ) = 1 (r-1)(c-1) = (2-1)(2-1) = 1 (r−1)(c−1)=(2−1)(2−1)=1。

查表可得在统计量为1.777,自由度为1的情况下p-值是0.1825,大于0.05,无法拒绝原假设,即无法拒绝惯用手与性别独立的假设。

另外值得一提的一点是不仅有卡方检验使用卡方分布,许多著名的统计检验也假设其统计量在原假设成立的情况下服从卡方分布。

由此,可以看出:
卡方检验可以研究类别变量之间是否相互关联或彼此独立

参考文献:
[1] 卡方 机器之心
[2] 卡方检验 维基百科
[3] 分类数据与卡方检验 知乎
[4] 统计 可汗学院

『统计学』第四部分:回归分析和卡方检验相关推荐

  1. 『统计学』第一部分:常用概率分布

    本文将对统计学中常见的四种分布进行总结,包括二项分布.几何分布.泊松分布.正态分布. 在此之前,首先来看一下统计学中的一些基本概念: 『概率分布』 首先,什么是概率分布? 要明白概率分布,首先考虑两个 ...

  2. 『统计学』第二部分:中心极限定理及其应用

    『中心极限定理』 首先,我们来探讨下什么是中心极限定理? 有时候统计概率就像魔术一样,能够从少量数据中得出不可思议的强大结论.我们只需要对1000个美国人进行电话调查,就能去预测美国总统大选的得票数. ...

  3. 『统计学』第三部分:假设检验

    『假设检验和p值』 统计学中的假设检验听起来很高端,其实只不过是披了层数学的皮,底层的思想非常简单,就是基本的逻辑推理的套路. 用福尔摩斯的话说,就是:一旦排除所有的不可能,剩下的不管多么难以置信,一 ...

  4. 『统计学』常用的数据分析方法都在这了!Part.2

    阿平 | 作者 知乎 | 来源 1 相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度. 单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因 ...

  5. 『统计学』第五部分:方差分析和F检验

    第四部分的卡方检验是研究类别变量之间的关系,而这一部分的方差分析则是研究类别型自变量与数值型因变量之间的关系,它在形式上是比较多个总体的均值是否相等. 从形式上看,方差分析与之前的t检验或z检验区别不 ...

  6. 【『茴』的四种写法】 C++11 map和unordered_map遍历方法

    map和unordered_map的遍历方法是相同的,不过遍历结果,map是有序的,unoredred_map遍历是无序的. std:map 是个有序的关系容器,其完整原型如下: template&l ...

  7. 人工智能其实就是『八卦』

    1956年,几位计算机科学家在达特茅斯会议(Dartmouth Conferences)上提出了"人工智能"的概念,关于人工智能的研究和应用自此开始慢慢孵化.近几年深度学习的研究和 ...

  8. 『译』计算机体系结构发展史(四)

    系列文章第四篇(对应M.5) 往期文章 『译』计算机体系结构发展史(一) 『译』计算机体系结构发展史(二) 『译』计算机体系结构发展史(三) M.5 The Development of Pipeli ...

  9. 『深度学习项目四』基于ResNet101人脸特征点检测

    相关文章: [深度学习项目一]全连接神经网络实现mnist数字识别 [深度学习项目二]卷积神经网络LeNet实现minst数字识别 [深度学习项目三]ResNet50多分类任务[十二生肖分类] 『深度 ...

最新文章

  1. html5实现获取地理位置信息并定位
  2. 在C#中操作XM II
  3. 手机端 超链接 识别电话号码
  4. python logging模块的作用及应用场景_Python常用模块功能简介(三)logging
  5. 表单reset无法重置hidden的解决方案
  6. windows 读写锁 python_用Python实现读写锁
  7. 计算机视觉(CV)中图像的梯度
  8. Visual Studio Team Architect团队的敏捷开发 (第三部分)
  9. selenium--下拉列表选择
  10. Office 超级录屏如何旋转视频90度之后保存
  11. c语言 学习手册,c语言学习手册
  12. 集合的一些练习题1(Collection+Map)
  13. Debian搭建PPTP
  14. 若依框架不分离版本创建新模块(多模块版)
  15. opcode php 缓存,深入理解PHP Opcode缓存原理
  16. 广告SDK平台中的CPA、CPS、CPM、CPT、CPC 是什么
  17. python matplotlib绘制折线图_Matplotlib实践系列:折线图完全示例
  18. LCD1602和12864简单的介绍
  19. 应用程序错误电脑黑屏_电脑运行程序出现APPCRASH错误的三种解决方法
  20. 屏蔽浏览器 回退按钮的方法

热门文章

  1. SylixOS 绑核操作
  2. thinkphp5.1获取当前域名的方法
  3. 在 Linux 上使用 yuzu 模拟 Nintendo Switch 试玩王国之泪
  4. DHCP 报文抓取观察
  5. Python中秋赏月专用代码【源码好又多】
  6. 基于matlab的脑瘤mr图像处理_BraTS18——多模态MR图像脑肿瘤分割挑战赛
  7. 流媒体音视频参数概念及详解
  8. 牢牢守住自建房安全整治“三条防线”
  9. 记住密码 和 自动登录功能(登录)
  10. 立场检测stance detection