[概统]本科二年级概率论与数理统计第四讲连续型随机变量

连续型随机变量的基本概念
均匀分布
指数分布
正态分布
- 推导正态分布的密度(de Moivre-Laplace定理)
- 标准正态分布
- 一般的正态分布

连续型随机变量的基本概念

定义4.1 在R\mathbb{R}R上定义概率PPP，P:A→[0,1]P:\mathcal{A} \to [0,1]P:A→[0,1]，

P(ϕ)=0P(\phi)=0P(ϕ)=0，即不可能事件概率为0
P(Ω)=1P(\Omega)=1P(Ω)=1，即必然事件概率为1
对一列互斥的事件{An}n≥1⊂P\{A_n\}_{n \ge 1} \subset \mathcal{P}{An}n≥1⊂P, P(⋃n≥1An)=∑n≥1P(An)P(\bigcup_{n \ge 1}A_n) = \sum_{n \ge 1}P(A_n)P(n≥1⋃An)=n≥1∑P(An)即互斥事件和的概率等于互斥事件概率之和

其中A\mathcal{A}A是R\mathbb{R}R的某些子集组成的集合，按几何概型的启发，我们假设A\mathcal{A}A中的元素都可以用某些区间的交或者并表示。这样我们就得到了概率空间(R,A,P)(\mathbb{R},\mathcal{A},P)(R,A,P)，称这样的概率空间为连续型概率空间。定义X:(R,A,P)→RX:(\mathbb{R},\mathcal{A},P) \to \mathbb{R}X:(R,A,P)→R，则XXX为连续型随机变量。

例4.1 我们可以把事件用随机变量表示，考虑事件A∈AA \in \mathcal{A}A∈A，定义
1A(x)={1,x∈A0,x∉A1_A(x) = \begin{cases} 1 , x \in A \\ 0, x \notin A \end{cases}1A(x)={1,x∈A0,x∈/A

显然1A1_A1A是一个连续型随机变量，我们称这样的随机变量为事件的指示变量(indicator function)。

定义4.2 分布、累积分布函数、生存函数
称映射μ:A→[0,1]\mu:\mathcal{A} \to [0,1]μ:A→[0,1]是XXX的分布，如果∀A∈A\forall A \in \mathcal{A}∀A∈A
μ(A)=P({w∈Ω:X(w)∈A})=P(X∈A)\mu(A) = P(\{w \in \Omega:X(w) \in A\})=P(X \in A)μ(A)=P({w∈Ω:X(w)∈A})=P(X∈A)

如果取A=(−∞,x]A = (-\infty,x]A=(−∞,x]，则记
FX(x)=μ((−∞,x])=P(X≤x)F_X(x) = \mu((-\infty,x]) = P(X \le x)FX(x)=μ((−∞,x])=P(X≤x)

称FXF_XFX为XXX的累积分布函数(cumulative distribution function, cdf)；如果取A=(x,∞)A = (x,\infty)A=(x,∞)，则记SX(x)=μ((x,∞))=P(X>x)S_X(x) = \mu((x,\infty))=P(X>x)SX(x)=μ((x,∞))=P(X>x)

称SXS_XSX为XXX的生存函数，显然
FX(x)+SX(x)=1,∀x∈RF_X(x)+S_X(x)=1,\forall x \in \mathbb{R}FX(x)+SX(x)=1,∀x∈R

定理4.1 累积分布函数的性质

右连续
F(−∞)=0,F(+∞)=1F(-\infty)=0,F(+\infty)=1F(−∞)=0,F(+∞)=1
非减

证明
第一条，右连续，即lim⁡x→a+FX(x)=F(a),∀x∈R\lim_{x \to a^+}F_X(x)=F(a),\forall x \in \mathbb{R}limx→a+FX(x)=F(a),∀x∈R，要证明这个结论，我们考虑任意一个单调递增且收敛到aaa的序列{xn}\{x_n\}{xn}，则
{X≤x1}⊃{X≤x2}⋯⊃{X≤xn}⊃⋯\{X \le x_1\} \supset \{X \le x_2\} \cdots \supset \{X \le x_n\} \supset \cdots{X≤x1}⊃{X≤x2}⋯⊃{X≤xn}⊃⋯

所以
⋂n=1∞{X≤xn}={X≤lim⁡n→∞xn}={X≤a}\bigcap_{n=1}^{\infty}\{X \le x_n\} = \{X \le \lim_{n \to \infty}x_n\}=\{X \le a\}n=1⋂∞{X≤xn}={X≤n→∞limxn}={X≤a}

根据概率的下连续性（见下面的评注），
lim⁡n→∞P(Xn≤xn)=P(⋂n=1∞{X≤xn})=P(X≤a)=FX(a)\lim_{n \to \infty}P(X_n \le x_n)=P(\bigcap_{n=1}^{\infty}\{X \le x_n\})=P(X \le a)=F_X(a)n→∞limP(Xn≤xn)=P(n=1⋂∞{X≤xn})=P(X≤a)=FX(a)

这就说明了累积分布函数的右连续性。

第二条，F(−∞)=lim⁡x→−∞F(x)=0F(-\infty)=\lim_{x \to -\infty}F(x)=0F(−∞)=limx→−∞F(x)=0，要证明这个极限，我们选择任意一个递减且发散到−∞-\infty−∞的序列{xn}\{x_n\}{xn}，则
{X≤x1}⊃{X≤x2}⋯⊃{X≤xn}⊃⋯\{X \le x_1\} \supset \{X \le x_2\} \cdots \supset \{X \le x_n\} \supset \cdots{X≤x1}⊃{X≤x2}⋯⊃{X≤xn}⊃⋯

并且
⋂n=1∞{X≤xn}={X≤lim⁡n→∞xn}=ϕ\bigcap_{n=1}^{\infty}\{X \le x_n\} = \{X \le \lim_{n \to \infty}x_n\}=\phin=1⋂∞{X≤xn}={X≤n→∞limxn}=ϕ

根据第一条性质，
F(−∞)=P(⋂n=1∞{X≤xn})=P(ϕ)=0F(-\infty)=P(\bigcap_{n=1}^{\infty}\{X \le x_n\})=P(\phi)=0F(−∞)=P(n=1⋂∞{X≤xn})=P(ϕ)=0

类似地，F(+∞)=lim⁡x→+∞FX(x)=1F(+\infty) = \lim_{x \to + \infty}F_X(x)=1F(+∞)=limx→+∞FX(x)=1，我们选择一个递增且分散到+∞+\infty+∞的序列{xn}\{x_n\}{xn}，则
{X≤x1}⊂{X≤x2}⋯⊂{X≤xn}⊂⋯\{X \le x_1\} \subset \{X \le x_2\} \cdots \subset \{X \le x_n\} \subset \cdots{X≤x1}⊂{X≤x2}⋯⊂{X≤xn}⊂⋯

并且
⋃n=1∞{X≤xn}={X≤lim⁡n→∞xn}=Ω\bigcup_{n=1}^{\infty}\{X \le x_n\} = \{X \le \lim_{n \to \infty}x_n\}=\Omegan=1⋃∞{X≤xn}={X≤n→∞limxn}=Ω

根据概率的上连续性（见下面的评注），
F(+∞)=P(⋃n=1∞{X≤xn})=P(Ω)=1F(+\infty) = P(\bigcup_{n=1}^{\infty}\{X \le x_n\} )=P(\Omega)=1F(+∞)=P(n=1⋃∞{X≤xn})=P(Ω)=1

第三条，考虑x≤yx\le yx≤y，{X≤x}⊂{X≤y}\{X \le x\} \subset \{X \le y\}{X≤x}⊂{X≤y}，所以P(X≤x)≤P(X≤y)P(X \le x) \le P(X \le y)P(X≤x)≤P(X≤y)，于是FX(x)≤FY(y)F_X(x) \le F_Y(y)FX(x)≤FY(y)。

评注
关于概率有两个很重要的性质：
上连续 考虑An∈A,n=1,2,⋯A_n \in \mathcal{A},n=1,2,\cdotsAn∈A,n=1,2,⋯，An⊂An+1A_n \subset A_{n+1}An⊂An+1，如果P(⋃n=1∞An)=lim⁡nP(An)P(\bigcup_{n=1}^{\infty}A_n)=\lim_n P(A_n)P(⋃n=1∞An)=limnP(An)，称PPP是上连续的。这个定义中需要注意的是，因为An⊂An+1A_n \subset A_{n+1}An⊂An+1，所以⋃n=1∞An=lim⁡nAn\bigcup_{n=1}^{\infty}A_n=\lim_n A_n⋃n=1∞An=limnAn。

下连续 ∀An∈A,n=1,2,⋯\forall A_n \in \mathcal{A},n=1,2,\cdots∀An∈A,n=1,2,⋯，An⊃An+1A_n \supset A_{n+1}An⊃An+1，如果P(⋂n=1∞An)=lim⁡nP(An)P(\bigcap_{n=1}^{\infty}A_n)=\lim_n P(A_n)P(⋂n=1∞An)=limnP(An)，称PPP是下连续的。

概率推上连续，记A0=ϕA_0=\phiA0=ϕ，直接计算
P(⋃n=1∞An)=P(⨆n=1∞(An∖An−1))=∑n=1∞P(An∖An−1)=∑n=1∞[P(An)−P(An−1)]=P(A∞)−P(A0)=lim⁡n→∞P(An)P(\bigcup_{n=1}^{\infty}A_n)=P(\bigsqcup_{n=1}^{\infty} (A_n\setminus A_{n-1}) ) = \sum_{n=1}^{\infty} P(A_n\setminus A_{n-1})\\ =\sum_{n=1}^{\infty} [P(A_n)-P(A_{n-1})] =P( A_{\infty})-P(A_0) = \lim_{n\to \infty} P(A_n)P(n=1⋃∞An)=P(n=1⨆∞(An∖An−1))=n=1∑∞P(An∖An−1)=n=1∑∞[P(An)−P(An−1)]=P(A∞)−P(A0)=n→∞limP(An)
概率推下连续，因为An↓A_n \downarrowAn↓，所以A1∖An↑A_1\setminus A_n \uparrowA1∖An↑，同时
⋃n=1∞A1∖An=⋃n=1∞A1∩AnC=A1∩⋃n=1∞AnC=A1∩(⋂n=1∞An)C=A1∖⋂n=1∞An\bigcup_{n=1}^{\infty} A_1\setminus A_n=\bigcup_{n=1}^{\infty} A_1\cap A_n^C = A_1 \cap \bigcup_{n=1}^{\infty} A_n^C = A_1 \cap \left( \bigcap_{n=1}^{\infty} A_n \right)^C = A_1 \setminus \bigcap_{n=1}^{\infty} A_nn=1⋃∞A1∖An=n=1⋃∞A1∩AnC=A1∩n=1⋃∞AnC=A1∩(n=1⋂∞An)C=A1∖n=1⋂∞An

根据2，
lim⁡n→∞P(A1∖An)=P(⋃n=1∞(A1∖An))\lim_{n\to \infty} P(A_1 \setminus A_n) = P(\bigcup_{n=1}^{\infty} (A_1\setminus A_n))n→∞limP(A1∖An)=P(n=1⋃∞(A1∖An))

基于An=A1∖(A1∖An)A_n=A_1 \setminus (A_1\setminus A_n)An=A1∖(A1∖An)，
P(An)=P(A1)−P(A1∖An)lim⁡n→∞P(An)=P(A1)−lim⁡n→∞P(A1∖An)=P(A1)−P(⋃n=1∞(A1∖An))=P(A1)−P(A1∖⋂n=1∞An)=P(⋂n=1∞An)P(A_n)=P(A_1)-P(A_1 \setminus A_n) \\ \lim_{n \to \infty}P(A_n)=P(A_1)-\lim_{n\to \infty} P(A_1 \setminus A_n) = P(A_1) - P(\bigcup_{n=1}^{\infty} (A_1\setminus A_n)) \\ = P(A_1) - P(A_1 \setminus \bigcap_{n=1}^{\infty} A_n ) = P(\bigcap_{n=1}^{\infty} A_n)P(An)=P(A1)−P(A1∖An)n→∞limP(An)=P(A1)−n→∞limP(A1∖An)=P(A1)−P(n=1⋃∞(A1∖An))=P(A1)−P(A1∖n=1⋂∞An)=P(n=1⋂∞An)

例4.2 离散型随机变量的累积分布函数
考虑几何分布，分布列为
P(X=k)=p(1−p)k,k=0,1,⋯P(X=k) = p(1-p)^k, k =0,1,\cdots P(X=k)=p(1−p)k,k=0,1,⋯

我们来按定义推导一下它的累积分布函数，考虑FX(x)=P(X≤x),∀x∈RF_X(x)=P(X \le x),\forall x \in \mathbb{R}FX(x)=P(X≤x),∀x∈R，如果x∈[n,n+1)x \in[n,n+1)x∈[n,n+1)，则
FX(x)=P(X≤x)=∑k=0nP(X=k)=∑k=0np(1−p)k=p[1−(1−p)n]1−(1−p)=1−(1−p)nF_X(x)=P(X \le x) = \sum_{k=0}^n P(X=k) \\ = \sum_{k=0}^n p(1-p)^k=\frac{p[1-(1-p)^n]}{1-(1-p)}=1-(1-p)^nFX(x)=P(X≤x)=k=0∑nP(X=k)=k=0∑np(1−p)k=1−(1−p)p[1−(1−p)n]=1−(1−p)n

定义4.3 概率密度函数
如果FXF_XFX是可微的，即∀x∈R\forall x \in \mathbb{R}∀x∈R，∃h>0,ξ>0\exists h>0,\xi>0∃h>0,ξ>0
FX(x+h)=FX(x)+ξh+o(h)F_X(x+h)=F_X(x)+\xi h +o(h)FX(x+h)=FX(x)+ξh+o(h)

这里的ξ\xiξ是FXF_XFX在xxx处的导数，记为fX(x)f_X(x)fX(x)，
fX(x)=lim⁡h→0FX(x+h)−FX(x)hf_X(x) = \lim_{h \to 0} \frac{F_X(x+h)-F_X(x)}{h}fX(x)=h→0limhFX(x+h)−FX(x)

称fXf_XfX是XXX的概率密度函数(probability density function, pdf)。

定理4.2 概率密度函数的性质

pdf的归一性
概率密度函数的非负性
P(a<X≤b)=∫abfX(x)dxP(a<X \le b)=\int_a^b f_X(x)dxP(a<X≤b)=∫abfX(x)dx

证明
第一条，
∫−∞+∞fX(x)dx=FX(+∞)−FX(−∞)=1\int_{-\infty}^{+\infty}f_X(x)dx=F_X(+\infty)-F_X(-\infty)=1∫−∞+∞fX(x)dx=FX(+∞)−FX(−∞)=1

第二条，因为FXF_XFX非减，FX(x+h)≥FX(x)F_X(x+h) \ge F_X(x)FX(x+h)≥FX(x)，根据极限的保号性
fX(x)=lim⁡h→0FX(x+h)−FX(x)h≥0f_X(x) = \lim_{h \to 0} \frac{F_X(x+h)-F_X(x)}{h} \ge 0fX(x)=h→0limhFX(x+h)−FX(x)≥0

第三条，
P(a<X≤b)=F(b)−F(a)=∫−∞bfX(x)dx−∫−∞afX(x)dx=∫abfX(x)dxP(a<X \le b) = F(b)-F(a) \\ = \int_{-\infty}^bf_X(x)dx- \int_{-\infty}^af_X(x)dx=\int_a^b f_X(x)dxP(a<X≤b)=F(b)−F(a)=∫−∞bfX(x)dx−∫−∞afX(x)dx=∫abfX(x)dx

定义4.4 期望与方差
假设XXX是某个连续型随机变量，FXF_XFX是cdf，fXf_XfX是pdf，定义期望为
EX=∫−∞∞xf(x)dxEX = \int_{-\infty}^{\infty} xf(x)dxEX=∫−∞∞xf(x)dx

定义方差为
Var(X)=∫−∞∞(x−EX)2fX(x)dx=EX2−(EX)2Var(X) = \int_{-\infty}^{\infty}(x-EX)^2f_X(x)dx = EX^2-(EX)^2Var(X)=∫−∞∞(x−EX)2fX(x)dx=EX2−(EX)2

定理4.3 生存函数计算期望
EX=∫−∞∞xfX(x)dx=∫−∞∞SX(x)dxEX = \int_{-\infty}^{\infty} xf_X(x)dx = \int_{-\infty}^{\infty}S_X(x)dxEX=∫−∞∞xfX(x)dx=∫−∞∞SX(x)dx

证明
我们用Fubini来证明这个等式，
∫−∞∞xfX(x)dx=∫−∞∞(∫0xdt)fX(x)dx=∫−∞∞∫0xfX(x)dtdx=∫−∞∞∫t∞fX(x)dxdt\int_{-\infty}^{\infty} xf_X(x)dx=\int_{-\infty}^{\infty} \left( \int _0^x dt \right)f_X(x)dx \\ = \int_{-\infty}^{\infty} \int_0^x f_X(x)dtdx = \int_{-\infty}^{\infty}\int_t^{\infty} f_X(x)dxdt∫−∞∞xfX(x)dx=∫−∞∞(∫0xdt)fX(x)dx=∫−∞∞∫0xfX(x)dtdx=∫−∞∞∫t∞fX(x)dxdt

最后一个等号用的是Fubini定理，因为积分区域是t<xt<xt<x，于是变换积分次序后内层积分区域为x>tx >tx>t，内层积分为
∫t∞fX(x)dx=1−FX(t)=SX(t)\int_t^{\infty} f_X(x)dx=1-F_X(t)=S_X(t)∫t∞fX(x)dx=1−FX(t)=SX(t)

所以
∫−∞∞∫t∞fX(x)dxdt=∫−∞∞SX(t)dt\int_{-\infty}^{\infty}\int_t^{\infty} f_X(x)dxdt=\int_{-\infty}^{\infty}S_X(t)dt∫−∞∞∫t∞fX(x)dxdt=∫−∞∞SX(t)dt

均匀分布

一元连续均匀分布U[a,b]U[a,b]U[a,b]的密度为
fX(x)=1[a,b](x)b−a={1b−a,x∈[a,b]0,otherwisef_X(x) = \frac{1_{[a,b]}(x)}{b-a} = \begin{cases} \frac{1}{b-a},x \in [a,b] \\ 0, otherwise \end{cases} fX(x)=b−a1[a,b](x)={b−a1,x∈[a,b]0,otherwise

它的累积分布函数为
FX(x)={0,x∈(−∞,a]x−ab−a,x∈(a,b]1,x∈(b,∞)F_X(x)=\begin{cases} 0,x \in (-\infty,a] \\ \frac{x-a}{b-a},x \in (a,b] \\ 1, x \in (b,\infty) \end{cases}FX(x)=⎩⎪⎨⎪⎧0,x∈(−∞,a]b−ax−a,x∈(a,b]1,x∈(b,∞)

定理4.4
EX=a+b2,Var(X)=(b−a)212EX=\frac{a+b}{2},Var(X) = \frac{(b-a)^2}{12}EX=2a+b,Var(X)=12(b−a)2

这两个结论留给读者证明。

指数分布

指数分布EXP(λ)EXP(\lambda)EXP(λ)的密度函数为
fX(x)=λ1x≥0(x)e−λx={λe−λx,x≥00,otherwisef_X(x)=\lambda 1_{x \ge 0}(x)e^{-\lambda x}= \begin{cases} \lambda e^{-\lambda x},x \ge 0 \\ 0,otherwise\end{cases}fX(x)=λ1x≥0(x)e−λx={λe−λx,x≥00,otherwise

累积分布函数为
FX(x)={0,x∈(−∞,0]1−e−λx,x∈(0,∞)F_X(x)=\begin{cases} 0, x \in (-\infty,0] \\ 1-e^{-\lambda x},x \in (0,\infty)\end{cases}FX(x)={0,x∈(−∞,0]1−e−λx,x∈(0,∞)

定理4.5
EX=1λ,Var(X)=1λ2EX = \frac{1}{\lambda},Var(X)=\frac{1}{\lambda^2}EX=λ1,Var(X)=λ21

这个定理也留给读者自行证明。

评注关于指数分布有另一种定义，EXP(1/λ)EXP(1/\lambda)EXP(1/λ)，它的密度函数为
fX(x)=1x≥0(x)e−xλλf_X(x)=\frac{1_{x \ge 0}(x)e^{-\frac{x}{\lambda}}}{\lambda}fX(x)=λ1x≥0(x)e−λx

期望与方差分别为λ,λ2\lambda,\lambda^2λ,λ2。

正态分布

正态分布是我们要讨论的重点，它是应用最广泛的一种连续型分布。

推导正态分布的密度(de Moivre-Laplace定理)

考虑二项分布的一些近似计算问题，考虑X∼Binom(n,p)X \sim Binom(n,p)X∼Binom(n,p)，
P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,nP(X = k) = C_n^k p^k(1-p)^{n-k},k=0,1,\cdots,nP(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n最主要的计算问题是在计算组合数的时候Cnk=n!(n−k)!k!C_n^k = \frac{n!}{(n-k)!k!}Cnk=(n−k)!k!n!一般会根据这个公式按阶乘来计算，但阶乘的增长是很快的，数字比较大的时候通过阶乘计算组合数精度不理想。如果n,k,n−kn,k,n-kn,k,n−k都比较大，就可以用Stirling公式（数学分析数列极限部分学过）近似计算阶乘：
n!≈2πnn+1/2e−nCnk≈2πnn+1/2e−n(2π(n−k)n−k+1/2e−n+k)(2πkk+1/2e−k)=12πn(nn−k)n−k+1/2(nk)k+1/2n! \approx \sqrt{2\pi}n^{n+1/2}e^{-n}\\ C_n^k\approx \frac{\sqrt{2\pi}n^{n+1/2}e^{-n}}{(\sqrt{2\pi}(n-k)^{n-k+1/2}e^{-n+k})(\sqrt{2\pi}k^{k+1/2}e^{-k})} \\= \frac{1}{\sqrt{2\pi n}} \left( \frac{n}{n-k} \right)^{n-k+1/2} \left( \frac{n}{k} \right)^{k+1/2}n!≈2πnn+1/2e−nCnk≈(2π(n−k)n−k+1/2e−n+k)(2πkk+1/2e−k)2πnn+1/2e−n=2πn1(n−kn)n−k+1/2(kn)k+1/2将这个组合数的近似公式带入二项分布的概率中P(X=k)=12πnp(1−p)(n(1−p)n−k)n−k+1/2(npk)k+1/2P(X=k) = \frac{1}{\sqrt{2\pi np(1-p)}} \left( \frac{n(1-p)}{n-k} \right)^{n-k+1/2} \left( \frac{np}{k} \right)^{k+1/2}P(X=k)=2πnp(1−p)1(n−kn(1−p))n−k+1/2(knp)k+1/2这个形式的好处是避开了大整数的阶乘运算。接下来我们进一步做点推导，看看有没有更简单的形式。考虑
ln⁡(npk)k+1/2=−(k+1/2)ln⁡knp\ln \left( \frac{np}{k}\right)^{k+1/2} = -(k+1/2)\ln \frac{k}{np}ln(knp)k+1/2=−(k+1/2)lnnpk记xk=k−npnp(1−p),k=np+xknp(1−p)ln⁡(npk)k+1/2=−(np+xknp(1−p)+1/2)ln⁡(1+xk(1−p)np(1−p))x_k = \frac{k-np}{\sqrt{np(1-p)}},\ k=np + x_k\sqrt{np(1-p)} \\ \ln \left( \frac{np}{k}\right)^{k+1/2}=-(np + x_k\sqrt{np(1-p)}+1/2)\ln \left( 1+\frac{x_k(1-p)}{\sqrt{np(1-p)}}\right)xk=np(1−p)k−np, k=np+xknp(1−p)ln(knp)k+1/2=−(np+xknp(1−p)+1/2)ln(1+np(1−p)xk(1−p))取Taylor展开的前两项做近似
ln⁡(1+xk(1−p)np(1−p))≈xk(1−p)np(1−p)−(xk(1−p)np(1−p))2\ln \left( 1+\frac{x_k(1-p)}{\sqrt{np(1-p)}}\right) \approx \frac{x_k(1-p)}{\sqrt{np(1-p)}}-\left( \frac{x_k(1-p)}{\sqrt{np(1-p)}}\right)^2ln(1+np(1−p)xk(1−p))≈np(1−p)xk(1−p)−(np(1−p)xk(1−p))2回带化简得
ln⁡(npk)k+1/2≈−xknp(1−p)−12(1−p)xk2(npk)k+1/2=exp⁡(−xknp(1−p)−1−p2xk2)\ln \left( \frac{np}{k}\right)^{k+1/2} \approx -x_k\sqrt{np(1-p)}-\frac{1}{2}(1-p)x_k^2 \\ \left( \frac{np}{k}\right)^{k+1/2} = \exp \left( -x_k\sqrt{np(1-p)} -\frac{1-p}{2}x_k^2\right)ln(knp)k+1/2≈−xknp(1−p)−21(1−p)xk2(knp)k+1/2=exp(−xknp(1−p)−21−pxk2)类似地(n(1−p)n−k)n−k+1/2=exp⁡(xknp(1−p)−p2xk2)\left( \frac{n(1-p)}{n-k}\right)^{n-k+1/2} = \exp \left( x_k\sqrt{np(1-p)} -\frac{p}{2}x_k^2\right)(n−kn(1−p))n−k+1/2=exp(xknp(1−p)−2pxk2)
因此P(X=k)=12πnp(1−p)exp⁡(−xk22)=ϕ(xk)np(1−p)P(X=k) = \frac{1}{\sqrt{2\pi np(1-p)}} \exp\left( -\frac{x_k^2}{2}\right)=\frac{\phi(x_k)}{\sqrt{np(1-p)}}P(X=k)=2πnp(1−p)1exp(−2xk2)=np(1−p)ϕ(xk)称ϕ(x)\phi(x)ϕ(x)是标准正态分布的密度函数，这个结论叫做de Moivre-Laplace定理。

标准正态分布

现在我们有了标准正态分布的密度函数，
ϕ(x)=12πe−x22\phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}ϕ(x)=2π1e−2x2

现证明一下它满足归一性，计算积分
∫−∞+∞e−x22dx\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx∫−∞+∞e−2x2dx

这种形式的积分有点难积，但技巧非常固定，就是凑重积分再换到极坐标下计算，如果∫−∞+∞e−x22dx<∞\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx<\infty∫−∞+∞e−2x2dx<∞，则这个积分的值与符号没关系，
∫−∞+∞e−x22dx=∫−∞+∞e−y22dy\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx = \int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy∫−∞+∞e−2x2dx=∫−∞+∞e−2y2dy

于是
∫−∞+∞e−x22dx=∫−∞+∞e−x22dx∫−∞+∞e−y22dy\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx = \sqrt{\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy}∫−∞+∞e−2x2dx=∫−∞+∞e−2x2dx∫−∞+∞e−2y2dy

根据Fubini定理，
∫−∞+∞e−x22dx∫−∞+∞e−y22dy=∫−∞+∞∫−∞+∞e−x2+y22dxdy\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}e^{-\frac{x^2+y^2}{2}}dxdy∫−∞+∞e−2x2dx∫−∞+∞e−2y2dy=∫−∞+∞∫−∞+∞e−2x2+y2dxdy

现在我们把这个积分变换到极坐标下，
{x=rcos⁡θy=rsin⁡θ⇔{r=x2+y2θ=arctan⁡yx,θ∈[0,2π],r∈[0,∞)\begin{cases} x = r\cos \theta \\ y = r \sin \theta \end{cases} \Leftrightarrow \begin{cases} r = \sqrt{x^2+y^2} \\ \theta = \arctan \frac{y}{x} \end{cases},\theta \in [0,2\pi],r \in [0,\infty){x=rcosθy=rsinθ⇔{r=x2+y2θ=arctanxy,θ∈[0,2π],r∈[0,∞)

计算Jacobi行列式
∂(x,y)∂(r,θ)=∣cos⁡θ−rsin⁡θsin⁡θrcos⁡θ∣=r\frac{\partial (x,y)}{\partial (r,\theta)} = \left| \begin{matrix} \cos \theta &-r\sin \theta \\ \sin \theta & r\cos \theta \end{matrix} \right|=r∂(r,θ)∂(x,y)=∣∣∣∣cosθsinθ−rsinθrcosθ∣∣∣∣=r

根据积分换元公式，
∫−∞+∞∫−∞+∞e−x2+y22dxdy=∫0∞∫02πre−r22drdθ=2π∫0∞re−r22dr=−2πe−r22∣0∞=2π\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}e^{-\frac{x^2+y^2}{2}}dxdy=\int_{0}^{\infty}\int_0^{2\pi}re^{-\frac{r^2}{2}}drd\theta \\ = 2\pi \int_0^{\infty}re^{-\frac{r^2}{2}}dr=-2\pi e^{-\frac{r^2}{2}}|_0^{\infty}=2\pi∫−∞+∞∫−∞+∞e−2x2+y2dxdy=∫0∞∫02πre−2r2drdθ=2π∫0∞re−2r2dr=−2πe−2r2∣0∞=2π

所以
∫−∞+∞e−x22dx=2π\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx = \sqrt{2\pi}∫−∞+∞e−2x2dx=2π

因此归一性成立。然而遗憾的是，这个技巧仅仅对于积分区域为R2\mathbb{R}^2R2的情况才适用，所以当我们要计算标准正态分布的累积分布函数时，就没有办法用这个技巧了，也就是说我们没有办法写出标准正态分布的不含积分的解析式。定义Φ(x)\Phi(x)Φ(x)为标准正态分布的累积分布函数，则
Φ(x)=∫−∞xϕ(t)dt\Phi(x) = \int_{-\infty}^x \phi(t)dtΦ(x)=∫−∞xϕ(t)dt

定理4.6 记XXX为标准正态变量，EX=0,Var(X)=1EX=0,Var(X)=1EX=0,Var(X)=1
证明
EX=∫−∞∞x2πe−x22dxEX = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dxEX=∫−∞∞2πxe−2x2dx

其中xe−x2/2xe^{-x^2/2}xe−x2/2是奇函数，积分区域关于原点对称，根据积分的性质，∫−∞∞x2πe−x22dx=0\int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx=0∫−∞∞2πxe−2x2dx=0，于是EX=0EX=0EX=0。下面我们计算EX2EX^2EX2，
EX2=∫−∞∞x22πe−x22dx=∫−∞∞x2πe−x22dx22=−∫−∞∞x2πde−x22=−x2πe−x22∣−∞∞+∫−∞∞12πe−x22dx=1EX^2 = \int_{-\infty}^{\infty}\frac{x^2}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \\ = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}d\frac{x^2}{2} = -\int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}de^{-\frac{x^2}{2}} \\ = -\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}|_{-\infty}^{\infty}+\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx = 1EX2=∫−∞∞2πx2e−2x2dx=∫−∞∞2πxe−2x2d2x2=−∫−∞∞2πxde−2x2=−2πxe−2x2∣−∞∞+∫−∞∞2π1e−2x2dx=1

第一项是0，第二项就是归一性。因此
Var(X)=EX2−(EX)2=1Var(X)=EX^2-(EX)^2=1Var(X)=EX2−(EX)2=1

一般的正态分布

定义4.5 一般的正态分布
如果ZZZ服从标准正态分布，记为Z∼N(0,1)Z \sim N(0,1)Z∼N(0,1)，如果μ,σ∈R\mu,\sigma \in \mathbb{R}μ,σ∈R，X=μ+σZX = \mu+\sigma ZX=μ+σZ，则XXX服从一般的正态分布，记为X∼N(μ,σ2)X \sim N(\mu,\sigma^2)X∼N(μ,σ2)，称ZZZ是XXX的z-score。

评注
z-score是非常有用的，比如老师要比较不同两届学生中某两位学生的概率论实力，甲那届平均分是60，标准差是10，甲得分是72；乙那届平均分是58，标准差是11，乙得分是71，则甲的z-score是1.2，乙的z-score是13/11大于1.2，于是乙的实力更强。

定理4.7 一般正态分布的pdf
fX(x)=12πσe−(x−μ)22σ2f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}fX(x)=2πσ1e−2σ2(x−μ)2

证明
因为我们还没有推导能处理随机变量的函数的方法，所以只能根据定义来计算。
FX(x)=P(X≤x)=P(μ+σZ≤x)=P(Z≤x−μσ)=∫∞x−μσ12πe−t22dtF_X(x)=P(X \le x) = P(\mu+\sigma Z\le x) \\ = P(Z \le \frac{x-\mu}{\sigma}) = \int_{\infty}^{\frac{x-\mu}{\sigma}}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dtFX(x)=P(X≤x)=P(μ+σZ≤x)=P(Z≤σx−μ)=∫∞σx−μ2π1e−2t2dt

根据这个结果我们可以推导密度函数，需要的技术是对积分上限求导，
fX(x)=(x−μσ)′12πe−t22∣t=x−μσ=12πσe−(x−μ)22σ2f_X(x)=\left( \frac{x-\mu}{\sigma} \right)'\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}|_{t=\frac{x-\mu}{\sigma}} = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}fX(x)=(σx−μ)′2π1e−2t2∣t=σx−μ=2πσ1e−2σ2(x−μ)2

下下讲我们会推导计算随机变量的函数的分布的方法。

定理4.8 EX=μ,Var(X)=σ2EX=\mu,Var(X)=\sigma^2EX=μ,Var(X)=σ2
证明
也就是直接计算了，先计算期望，
EX=∫−∞∞x2πσe−(x−μ)22σ2dx=∫−∞∞(x−μ)2πσe−(x−μ)22σ2dx+∫−∞∞μ2πσe−(x−μ)22σ2dx=μEX = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \\ = \int_{-\infty}^{\infty}\frac{(x-\mu)}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx+\int_{-\infty}^{\infty}\frac{\mu}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\muEX=∫−∞∞2πσxe−2σ2(x−μ)2dx=∫−∞∞2πσ(x−μ)e−2σ2(x−μ)2dx+∫−∞∞2πσμe−2σ2(x−μ)2dx=μ

第一项就是简单换元，然后就又是奇函数的积分，
∫−∞∞(x−μ)2πσe−(x−μ)22σ2dx=y=x−μ∫−∞∞y2πσe−y22σ2dy=0\int_{-\infty}^{\infty}\frac{(x-\mu)}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx =_{y=x-\mu} \int_{-\infty}^{\infty}\frac{y}{\sqrt{2\pi}\sigma}e^{-\frac{y^2}{2\sigma^2}}dy=0∫−∞∞2πσ(x−μ)e−2σ2(x−μ)2dx=y=x−μ∫−∞∞2πσye−2σ2y2dy=0

第二项根据归一性，
∫−∞∞μ2πσe−(x−μ)22σ2dx=μ∫−∞∞12πσe−(x−μ)22σ2dx=μ\int_{-\infty}^{\infty}\frac{\mu}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx = \mu\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx = \mu∫−∞∞2πσμe−2σ2(x−μ)2dx=μ∫−∞∞2πσ1e−2σ2(x−μ)2dx=μ

接下来计算EX2EX^2EX2，
EX2=∫−∞∞x22πσe−(x−μ)22σ2dx=∫−∞∞[μ+(x−μ)]22πσe−(x−μ)22σ2dx=∫−∞∞μ22πσe−(x−μ)22σ2dx+∫−∞∞(x−μ)22πσe−(x−μ)22σ2dx+∫−∞∞2μ(x−μ)2πσe−(x−μ)22σ2dxEX^2 = \int_{-\infty}^{\infty}\frac{x^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{\infty}\frac{[\mu+(x-\mu)]^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \\ = \int_{-\infty}^{\infty}\frac{\mu^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx+\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \\ + \int_{-\infty}^{\infty}\frac{2\mu(x-\mu)}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dxEX2=∫−∞∞2πσx2e−2σ2(x−μ)2dx=∫−∞∞2πσ[μ+(x−μ)]2e−2σ2(x−μ)2dx=∫−∞∞2πσμ2e−2σ2(x−μ)2dx+∫−∞∞2πσ(x−μ)2e−2σ2(x−μ)2dx+∫−∞∞2πσ2μ(x−μ)e−2σ2(x−μ)2dx

根据归一性，第一项等于μ2\mu^2μ2，根据奇函数的性质，第三项为0，下面计算第二项，
∫−∞∞(x−μ)22πσe−(x−μ)22σ2dx=y=x−μ∫−∞∞y22πσe−y22σ2dy=z=y/σσ2∫−∞∞z22πe−z22dz\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx =_{y=x-\mu} \int_{-\infty}^{\infty}\frac{y^2}{\sqrt{2\pi}\sigma}e^{-\frac{y^2}{2\sigma^2}}dy \\ =_{z=y/\sigma} \sigma^2 \int_{-\infty}^{\infty}\frac{z^2}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz∫−∞∞2πσ(x−μ)2e−2σ2(x−μ)2dx=y=x−μ∫−∞∞2πσy2e−2σ2y2dy=z=y/σσ2∫−∞∞2πz2e−2z2dz

显然∫−∞∞z22πe−z22dz\int_{-\infty}^{\infty}\frac{z^2}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz∫−∞∞2πz2e−2z2dz是标准正态分布的方差，所以第二项等于σ2\sigma^2σ2，于是Var(X)=EX2−(EX)2=σ2+μ2−μ2=σ2Var (X) = EX^2-(EX)^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2Var(X)=EX2−(EX)2=σ2+μ2−μ2=σ2