第2章 统计决策方法

2.1 引言:一个简单的例子

对二类问题,在样本 x x x上错误的概率为:

p ( e ∣ x ) = { P ( w 2 ∣ x ) x ∈ w 1 P ( w 1 ∣ x ) x ∈ w 2 p(e \mid x) = \left\{\begin{aligned}P(w_2 \mid x) \quad x \in w_1 \\P(w_1 \mid x) \quad x \in w_2\end{aligned}\right. p(e∣x)={P(w2​∣x)x∈w1​P(w1​∣x)x∈w2​​

平均错误率:

P ( e ) = ∫ P ( e ∣ x ) p ( x ) d x P(e)= \int P(e \mid x)p(x)dx P(e)=∫P(e∣x)p(x)dx

2.2 最小错误率贝叶斯决策

贝叶斯公式:

P ( w i ∣ x ) = p ( x , w i ) p ( x ) = p ( x ∣ w i ) ⋅ P ( w i ) ∑ j = 1 2 p ( x ∣ w j ) P ( w j ) , i = 1 , 2 P\left(w_{i} \mid x\right)=\frac{p\left(x, w_{i}\right)}{p(x)}=\frac{p\left(x \mid w_{i}\right) \cdot P\left(w_{i}\right)}{\sum\limits_{j=1}^2p(x \mid w_j)P(w_j)}, i=1,2 P(wi​∣x)=p(x)p(x,wi​)​=j=1∑2​p(x∣wj​)P(wj​)p(x∣wi​)⋅P(wi​)​,i=1,2

二类最小错误率贝叶斯决策:

i f P ( w 1 ∣ x ) ≷ P ( w 2 ∣ x ) , t h e n x ∈ { w 1 w 2 if \ P(w_1 \mid x) \gtrless P(w_2 \mid x),\ then \ x \in \left\{\begin{aligned}w_1\\w_2\end{aligned}\right. if P(w1​∣x)≷P(w2​∣x), then x∈{w1​w2​​

i f p ( x ∣ w 1 ) P ( w 1 ) ≷ p ( x ∣ w 2 ) P ( w 2 ) , t h e n x ∈ { w 1 w 2 if \ p(x \mid w_1)P(w_1)\gtrless p(x \mid w_2)P(w_2),\ then \ x \in \left\{\begin{aligned}w_1\\w_2\end{aligned}\right. if p(x∣w1​)P(w1​)≷p(x∣w2​)P(w2​), then x∈{w1​w2​​

i f l ( x ) = p ( x ∣ w 1 ) p ( x ∣ w 2 ) ≷ λ = P ( w 2 ) P ( w 1 ) , t h e n x ∈ { w 1 w 2 if \ l(x)=\frac{p\left(x \mid w_{1}\right)}{p\left(x \mid w_{2}\right)} \gtrless \lambda=\frac{P\left(w_{2}\right)}{P\left(w_{1}\right)}, \ then \ x \in \left\{\begin{aligned}w_1\\w_2\end{aligned}\right. if l(x)=p(x∣w2​)p(x∣w1​)​≷λ=P(w1​)P(w2​)​, then x∈{w1​w2​​

i f h ( x ) = ln ⁡ p ( x ∣ w 2 ) p ( x ∣ w 1 ) ≶ ln ⁡ P ( w 1 ) P ( w 2 ) , t h e n x ∈ { w 1 w 2 if \ h(x)=\ln \frac{p\left(x \mid w_{2}\right)}{p\left(x \mid w_{1}\right)}\lessgtr \ln \frac{P(w_1)}{P(w_2)} , \ then \ x \in \left\{\begin{aligned}w_1\\w_2\end{aligned}\right. if h(x)=lnp(x∣w1​)p(x∣w2​)​≶lnP(w2​)P(w1​)​, then x∈{w1​w2​​

其中 h ( x ) = − ln ⁡ ( l ( x ) ) h(x)=-\ln(l(x)) h(x)=−ln(l(x))

错误率的进一步定义:

P ( e ) = P ( w 2 ) ∫ R 1 p ( x ∣ w 2 ) d x + P ( w 1 ) ∫ R 2 p ( x ∣ w 1 ) d x = P ( w 2 ) P 2 ( e ) + P ( w 2 ) P 1 ( e ) P(e)=P(w_2)\int_{R_1}p(x \mid w_2)dx+P(w_1)\int_{R_2}p(x \mid w_1)dx=P(w_2)P_2(e)+P(w_2)P_1(e) P(e)=P(w2​)∫R1​​p(x∣w2​)dx+P(w1​)∫R2​​p(x∣w1​)dx=P(w2​)P2​(e)+P(w2​)P1​(e)

多类情况下的最小贝叶斯决策规则:

i f p ( x ∣ w i ) ⋅ P ( w i ) = max ⁡ j = 1 , 2 , ⋯ , c p ( x ∣ w j ) ⋅ P ( w j ) , t h e n x ∈ w i if \ p\left(x \mid w_{i}\right) \cdot P\left(w_{i}\right)=\max _{j=1,2, \cdots, c} p\left(x \mid w_{j}\right) \cdot P\left(w_{j}\right), \ then \ x \in w_i if p(x∣wi​)⋅P(wi​)=j=1,2,⋯,cmax​p(x∣wj​)⋅P(wj​), then x∈wi​

多类别决策错误率计算:

KaTeX parse error: Undefined control sequence: \substack at position 28: …i=1}^{c} \sum_{\̲s̲u̲b̲s̲t̲a̲c̲k̲{j=1 \\ j \neq …

P ( e ) = 1 − P ( c ) = 1 − ∑ j = 1 c P ( w j ) ⋅ ∫ R j p ( x ∣ w j ) ⋅ d x P(e)=1-P(c)=1-\sum_{j=1}^{c} P\left(w_{j}\right) \cdot \int_{\mathscr{R_{j}}} p\left(x \mid w_{j}\right) \cdot dx P(e)=1−P(c)=1−j=1∑c​P(wj​)⋅∫Rj​​p(x∣wj​)⋅dx
多类别决策平均错误率推导

2.3 最小风险贝叶斯决策

d维,c类,k种决策

△△△△最小风险贝叶斯决策△△△△

决策规则对特征空间所有可能样本x采取决策所造成的期望损失为:

R ( α ) = ∫ R ( α ∣ x ) p ( x ) d x R(\alpha)=\int R(\alpha\mid x) p(x) d x R(α)=∫R(α∣x)p(x)dx

贝叶斯公式计算后验概率:

P ( w j ∣ x ) = p ( x ∣ w j ) P ( w j ) ∑ i = 1 c p ( x ∣ w i ) P ( w i ) , j = 1 , 2 , ⋯ , c P(w_j\mid x)=\frac{p(x \mid w_j)P(w_j)}{\sum\limits_{i=1}^{c}p(x\mid w_i)P(w_i)}, \ j=1,2,\cdots, c P(wj​∣x)=i=1∑c​p(x∣wi​)P(wi​)p(x∣wj​)P(wj​)​, j=1,2,⋯,c

对于某个样本x,对它采取决策alpha_i,i=1,2,……,k的期望损失(条件风险)为:

R ( α i ∣ x ) = E ( λ ( α i , w j ) ∣ x ) = ∑ j = 1 c λ ( α i , w j ) ⋅ P ( w j ∣ x ) , i = 1 , 2 , ⋯ k R\left(\alpha_{i} \mid x \right)=E\left(\lambda\left(\alpha_{i}, w_{j}\right) \mid x\right)=\sum_{j=1}^{c} \lambda\left(\alpha_{i}, w_{j}\right) \cdot P\left(w_{j} \mid x\right), i=1,2, \cdots k R(αi​∣x)=E(λ(αi​,wj​)∣x)=j=1∑c​λ(αi​,wj​)⋅P(wj​∣x),i=1,2,⋯k

多类的最小风险贝叶斯决策:

i f R ( α i ∣ x ) = min ⁡ j = 1 , 2 , ⋯ k R ( α j ∣ x ) , t h e n α = α i if \ R\left(\alpha_{i} \mid x\right)=\min_{j=1,2, \cdots k} R\left(\alpha_{j} \mid x\right), \ then \ \alpha=\alpha_{i} if R(αi​∣x)=j=1,2,⋯kmin​R(αj​∣x), then α=αi​

二类二决策情况下,最小风险贝叶斯决策:

i f λ 11 P ( ω 1 ∣ x ) + λ 12 P ( ω 2 ∣ x ) ≶ λ 21 P ( ω 1 ∣ x ) + λ 22 P ( ω 2 ∣ x ) , then    x ∈ { ω 1 ω 2 if \ \lambda_{11} P\left(\omega_{1} \mid x\right)+\lambda_{12} P\left(\omega_{2} \mid x\right) \lessgtr \lambda_{21} P\left(\omega_{1} \mid x\right)+\lambda_{22} P\left(\omega_{2} \mid x\right) \text {, then \ } x \in\left\{\begin{array}{l}\omega_{1} \\\omega_{2}\end{array}\right. if λ11​P(ω1​∣x)+λ12​P(ω2​∣x)≶λ21​P(ω1​∣x)+λ22​P(ω2​∣x), then   x∈{ω1​ω2​​

i f ( λ 11 − λ 21 ) P ( ω 1 ∣ x ) ≶ ( λ 22 − λ 12 ) P ( ω 2 ∣ x ) , t h e n x ∈ { ω 1 ω 2 i f P ( ω 1 ∣ x ) P ( ω 2 ∣ x ) = p ( x ∣ ω 1 ) P ( ω 1 ) p ( x ∣ ω 2 ) P ( ω 2 ) ≷ λ 12 − λ 22 λ 21 − λ 11 , t h e n x ∈ { ω 1 ω 2 i f l ( x ) = p ( x ∣ ω 1 ) p ( x ∣ ω 2 ) ≷ P ( ω 2 ) P ( ω 1 ) ⋅ λ 12 − λ 22 λ 21 − λ 11 , t h e n x ∈ { ω 1 ω 2 \begin{aligned}&if \ \left(\lambda_{11}-\lambda_{21}\right) P\left(\omega_{1} \mid x\right) \lessgtr\left(\lambda_{22}-\lambda_{12}\right) P\left(\omega_{2} \mid x\right) ,\ then \ x \in\left\{\begin{array}{l}\omega_{1} \\\omega_{2}\end{array}\right. \\&if \ \frac{P\left(\omega_{1} \mid x\right)}{P\left(\omega_{2} \mid x\right)}=\frac{p\left(x \mid \omega_{1}\right) P\left(\omega_{1}\right)}{p\left(x \mid \omega_{2}\right) P\left(\omega_{2}\right)} \gtrless \frac{\lambda_{12}-\lambda_{22}}{\lambda_{21}-\lambda_{11}} ,\ then \ x \in\left\{\begin{array}{l}\omega_{1} \\\omega_{2}\end{array}\right. \\&if \ l(x)=\frac{p\left(x \mid \omega_{1}\right)}{p\left(x \mid \omega_{2}\right)} \gtrless \frac{P\left(\omega_{2}\right)}{P\left(\omega_{1}\right)} \cdot \frac{\lambda_{12}-\lambda_{22}}{\lambda_{21}-\lambda_{11}}, \ then \ x \in\left\{\begin{array}{l}\omega_{1} \\\omega_{2}\end{array}\right.\end{aligned} ​if (λ11​−λ21​)P(ω1​∣x)≶(λ22​−λ12​)P(ω2​∣x), then x∈{ω1​ω2​​if P(ω2​∣x)P(ω1​∣x)​=p(x∣ω2​)P(ω2​)p(x∣ω1​)P(ω1​)​≷λ21​−λ11​λ12​−λ22​​, then x∈{ω1​ω2​​if l(x)=p(x∣ω2​)p(x∣ω1​)​≷P(ω1​)P(ω2​)​⋅λ21​−λ11​λ12​−λ22​​, then x∈{ω1​ω2​​​

2.4 两类错误率、Neyman-Pearson决策与ROC曲线

状态与决策的可能关系:

状态
决策 阳性 阴性
阳性 真阳性(TP) 假阳性(FP)
阴性 假阴性(FN) 真阴性(TN)

灵敏度(sensitivity): S n = T P T P + F N Sn=\frac{TP}{TP+FN} Sn=TP+FNTP​

特异度(specificity): S p = T N T N + F P Sp=\frac{TN}{TN+FP} Sp=TN+FPTN​

正确率(accuracy): A C C = T P + T N T P + T N + F P + F N ACC=\frac{TP+TN}{TP+TN+FP+FN} ACC=TP+TN+FP+FNTP+TN​

召回率(recall): R e c = T P T P + F N Rec=\frac{TP}{TP+FN} Rec=TP+FNTP​

精确率(precision): P r e = T P T P + F P Pre=\frac{TP}{TP+FP} Pre=TP+FPTP​

F度量(F-measure): F = 2 R e c P r e R e c + P r e F=\frac{2RecPre}{Rec+Pre} F=Rec+Pre2RecPre​

一类错误率(假阳性率): α = 1 − S p = F P T N + F P \alpha=1-Sp=\frac{FP}{TN+FP} α=1−Sp=TN+FPFP​

二类错误率(假阴性率): β = 1 − S n = F N T P + F N \beta=1-Sn=\frac{FN}{TP+FN} β=1−Sn=TP+FNFN​

Neyman-Pearson决策规则:

i f l ( x ) = p ( x ∣ w 1 ) p ( x ∣ w 2 ) ≷ λ , t h e n x ∈ { w 1 w 2 if \ l(x)=\frac{p\left(x \mid w_{1}\right)}{p(x\mid w_2)} \gtrless \lambda, \ then \ x \in \left\{\begin{aligned}w_1\\w_2\end{aligned}\right. if l(x)=p(x∣w2​)p(x∣w1​)​≷λ, then x∈{w1​w2​​

对于高斯分布或者部分简单分布 λ \lambda λ可以采用解析法求解,即 λ \lambda λ是使决策区域满足下式的一个阈值(固定 w 2 w_2 w2​分为 w 1 w_1 w1​的错误率):

∫ R 1 p ( x ∣ w 2 ) d x = ϵ 0 \int_{R_1}p(x \mid w_2)dx=\epsilon_0 ∫R1​​p(x∣w2​)dx=ϵ0​

多数情况下 λ \lambda λ用数值方法求解:

P 2 ( e ) = 1 − ∫ 0 λ P ( l ∣ ω 2 ) d l = ε 0 ,  P_{2}(e)=1-\int_{0}^{\lambda} P\left(l \mid \omega_{2}\right) d l=\varepsilon_{0} \text {, } P2​(e)=1−∫0λ​P(l∣ω2​)dl=ε0​,

其中 ε 0 \varepsilon_{0} ε0​固定,P2(e)单调,试探即可

2.5 正态分布时的统计决策

2.5.1 正态分布及其性质回顾

多元正态分布公式:

p ( x ) = 1 ( 2 π ) d 2 ∣ Σ ∣ 1 2 e x p { − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) } p(x)=\frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^{\frac{1}{2}}} exp\left\{-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right\} p(x)=(2π)2d​∣Σ∣21​1​exp{−21​(x−μ)⊤Σ−1(x−μ)}

对于多元正态概率 p ( x ∣ w i ) ∼ N ( μ i , Σ i ) , i = 1 , 2 , ⋯ , c p(x \mid w_i)\sim N(\mu_i, \Sigma_i), \ i=1,2,\cdots, c p(x∣wi​)∼N(μi​,Σi​), i=1,2,⋯,c,可以得出其条件概率:

p ( x ∣ w i ) = 1 ( 2 π ) d 2 ∣ Σ i ∣ 1 2 e x p { − 1 2 ( x − μ i ) ⊤ Σ i − 1 ( x − μ i ) } p(x \mid w_i)=\frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma_i|^{\frac{1}{2}}} exp\left\{-\frac{1}{2}(x-\mu_i)^{\top} \Sigma^{-1}_i(x-\mu_i)\right\} p(x∣wi​)=(2π)2d​∣Σi​∣21​1​exp{−21​(x−μi​)⊤Σi−1​(x−μi​)}

其中对于离散样本有:

μ i = E ( x ) = 1 N i ∑ x j ∈ H i x j , i = 1 , 2 , ⋯ , c \mu_i = E(x)=\frac{1}{N_i}\sum\limits_{x_j\in H_i}x_j, \quad i=1,2, \cdots, c μi​=E(x)=Ni​1​xj​∈Hi​∑​xj​,i=1,2,⋯,c

Σ i = E [ ( x − μ i ) ( x − μ i ) T ] = 1 N i ∑ x j ∈ H i ( x j − μ i ) ( x j − μ i ) T , i = 1 , 2 , ⋯ , c \Sigma_i = E[(x-\mu_i)(x-\mu_i)^T]=\frac{1}{N_i}\sum\limits_{x_j\in H_i}(x_j-\mu_i)(x_j-\mu_i)^T, \quad i=1,2, \cdots, c Σi​=E[(x−μi​)(x−μi​)T]=Ni​1​xj​∈Hi​∑​(xj​−μi​)(xj​−μi​)T,i=1,2,⋯,c

多维正态分布的等密度点轨迹为一超椭球面,等密度点满足下式:

( x − μ ) T Σ − 1 ( x − μ ) = 常 数 (x-\mu)^T\Sigma^{-1}(x-\mu)=常数 (x−μ)TΣ−1(x−μ)=常数

进一步定义马氏距离的平方:

γ 2 = ( x − μ ) T Σ − 1 ( x − μ ) \gamma^2=(x-\mu)^T\Sigma^{-1}(x-\mu) γ2=(x−μ)TΣ−1(x−μ)

对应马氏距离 γ 2 \gamma^2 γ2的超椭球体积为:

V = V d ∣ Σ ∣ 1 / 2 γ d V=V_d|\Sigma|^{1/2}\gamma^d V=Vd​∣Σ∣1/2γd

其中 V d V_d Vd​为 d d d维超球体体积:

V d = { π d / 2 ( d 2 ) ! , d 为 偶 数 2 d π ( d − 1 ) / 2 ( d − 1 2 ) ! d ! , d 为 奇 数 V_d=\left\{ \begin{aligned} &\frac{\pi^{d/2}}{(\frac{d}{2})!},d为偶数 \\ &\frac{2^d\pi^{(d-1)/2}(\frac{d-1}{2})!}{d!},d为奇数 \end{aligned} \right. Vd​=⎩⎪⎪⎪⎨⎪⎪⎪⎧​​(2d​)!πd/2​,d为偶数d!2dπ(d−1)/2(2d−1​)!​,d为奇数​

多元正态随机向量的线性变换仍为多元正态分布的随机向量:

即若 x ∼ N ( μ , Σ ) x \sim N(\mu,\Sigma) x∼N(μ,Σ), y = A x y=Ax y=Ax,有:

p ( y ) ∼ N ( A μ , A Σ A T ) p(y) \sim N(A\mu,A\Sigma A^T) p(y)∼N(Aμ,AΣAT)

2.5.2 正态分布概率模型下的最小错误率贝叶斯决策

其判别函数为:

g i ( x ) = ln ⁡ p ( x ∣ w i ) P ( w i ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( ω i ) g_{i}(x)=\ln p(x \mid w_i)P(w_i)=-\frac{1}{2}\left(x-\mu_{i}\right)^{\mathrm{T}} \Sigma_{i}^{-1}\left(x-\mu_{i}\right)-\frac{d}{2} \ln 2 \pi-\frac{1}{2} \ln \left|\Sigma_{i}\right|+\ln P\left(\omega_{i}\right) gi​(x)=lnp(x∣wi​)P(wi​)=−21​(x−μi​)TΣi−1​(x−μi​)−2d​ln2π−21​ln∣Σi​∣+lnP(ωi​)

决策规则为:

i f g i ( x ) = max ⁡ i = 1 , 2 , ⋯ , c g i ( x ) , t h e n x ∈ w k if \ g_i(x)=\max_{i=1,2,\cdots, c}g_i(x), \ then \ x \in w_k if gi​(x)=i=1,2,⋯,cmax​gi​(x), then x∈wk​

其决策面为:

g i ( x ) = g j ( x ) g_i(x)=g_j(x) gi​(x)=gj​(x)

3×2种特殊情况下,多元正态分布的判别函数、决策规则(均是哪个类别的判别函数大,就分为哪一类),决策面(均是让两个判别函数相等):

i): Σ i = σ 2 I \Sigma_i=\sigma^2I Σi​=σ2I

a): P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi​)=P(wj​)

判函:

g i ( x ) = − ∥ x − μ i ∥ 2 g_{i}(x)=-\left\|x-\mu_{i}\right\|^{2} gi​(x)=−∥x−μi​∥2

决规:

i f g i ( x ) = max ⁡ i = 1 , 2 , ⋯ , c g i ( x ) , t h e n x ∈ w k if \ g_i(x)=\max_{i=1,2,\cdots, c}g_i(x), \ then \ x \in w_k if gi​(x)=i=1,2,⋯,cmax​gi​(x), then x∈wk​

( i . e . min ⁡ i = 1 , 2 , ⋯ , c ∣ ∣ x − μ i ∣ ∣ 2 , m i n u m d i s t a n c e c l a s s i f e r ) (i.e. \ \min_{i=1,2,\cdots, c}||x-\mu_i||^2, \ minum \ distance \ classifer) (i.e. i=1,2,⋯,cmin​∣∣x−μi​∣∣2, minum distance classifer)

决策面:

( μ i − μ j ) ⊤ ( x − 1 2 ( μ i + μ j ) ) = 0 \left(\mu_{i}-\mu_{j}\right)^{\top}\left(x-\frac{1}{2}\left(\mu_{i}+\mu_{j}\right)\right)=0 (μi​−μj​)⊤(x−21​(μi​+μj​))=0

( i . e . w T ( x − x 0 ) = 0 ) (i.e. \ w^T(x-x_0)=0) (i.e. wT(x−x0​)=0)

b): P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi​)​=P(wj​)

判函:

g i ( x ) = ( μ i σ 2 ) ⊤ x − 1 2 σ 2 μ i ⊤ μ i + ln ⁡ P ( w i ) = w ⊤ x + w i 0 \begin{aligned} g_{i}(x) &=\left(\frac{\mu_{i}}{\sigma^2}\right)^{\top} x-\frac{1}{2 \sigma^2} \mu_{i}^{\top} \mu_{i}+\ln P\left(w_{i}\right) \\ &=w^{\top} x+w_{i0} \end{aligned} gi​(x)​=(σ2μi​​)⊤x−2σ21​μi⊤​μi​+lnP(wi​)=w⊤x+wi0​​

决规:

i f g k ( x ) = max ⁡ i = 1 , 2 , ⋯ , c g i ( x ) , t h e n x ∈ w k if \ g_k(x)=\max_{i=1,2,\cdots, c}g_i(x), \ then \ x \in w_k if gk​(x)=i=1,2,⋯,cmax​gi​(x), then x∈wk​

决面:

( μ i − μ j ) T ( x − ( 1 2 ( μ i + μ j ) − σ 2 ∥ μ i − μ j ∥ ln ⁡ P ( ω i ) P ( w j ) ( μ i − μ j ) ) ) = 0 \left(\mu_{i}-\mu_{j}\right)^{T}\left(x-\left(\frac{1}{2}\left(\mu_{i}+\mu_{j}\right)-\frac{\sigma^{2}}{\left\|\mu_{i}-\mu_{j}\right\|} \ln \frac{P\left(\omega_{i}\right)}{P\left(w_{j}\right)}\left(\mu_{i}-\mu_{j}\right)\right)\right)=0 (μi​−μj​)T(x−(21​(μi​+μj​)−∥μi​−μj​∥σ2​lnP(wj​)P(ωi​)​(μi​−μj​)))=0

( i . e . W T ( x − x 0 ) = 0 ) (i.e. \ W^T(x-x_0)=0) (i.e. WT(x−x0​)=0)

ii): Σ i = Σ \Sigma_i=\Sigma Σi​=Σ

a):P(w_i)=P(w_j)

判函:

g i ( x ) = γ 2 = ( x − μ i ) ⊤ Σ − 1 ( x − μ i ) = ( Σ − 1 μ i ) ⊤ x − 1 2 μ i ⊤ Σ − 1 μ j g_{i}(x)=\gamma^{2}=\left(x-\mu_{i}\right)^{\top} \Sigma^{-1}\left(x-\mu_{i}\right)=\left(\Sigma^{-1} \mu_{i}\right)^{\top} x-\frac{1}{2} \mu_{i}^{\top} \Sigma^{-1} \mu_{j} gi​(x)=γ2=(x−μi​)⊤Σ−1(x−μi​)=(Σ−1μi​)⊤x−21​μi⊤​Σ−1μj​

决规:

i f g k ( x ) = max ⁡ i = 1 , 2 , ⋯ , c g i ( x ) , t h e n x ∈ w k if \ g_{k}(x)=\max _{i=1,2,\cdots,c} g_{i}(x), then \ x \in w_k if gk​(x)=i=1,2,⋯,cmax​gi​(x),then x∈wk​

决面:

( Σ − 1 ( μ i − μ 0 ) ) T ( x − 1 2 ( μ i + μ j ) ) = 0 \left(\Sigma^{-1}\left(\mu_{i}-\mu_{0}\right)\right)^{T}\left(x-\frac{1}{2}\left(\mu_{i}+\mu_{j}\right)\right)=0 (Σ−1(μi​−μ0​))T(x−21​(μi​+μj​))=0

( i . e . w T ( x − x 0 ) = 0 ) (i.e. \ w^T(x-x_0)=0) (i.e. wT(x−x0​)=0)

b):P(w_i)≠P(w_j)

判函:

g i ( x ) = ( Σ − 1 μ i ) ⊤ x − 1 2 μ i ⊤ Σ − 1 μ j + ln ⁡ P ( w i ) = w ⊤ x + w i 0 \begin{aligned}g_{i}(x) &=\left(\Sigma^{-1} \mu_{i}\right)^{\top} x-\frac{1}{2} \mu_{i}^{\top} \Sigma^{-1} \mu_{j}+\ln P\left(w_{i}\right)\\&=w^{\top} x+w_{i 0}\end{aligned} gi​(x)​=(Σ−1μi​)⊤x−21​μi⊤​Σ−1μj​+lnP(wi​)=w⊤x+wi0​​

决规:

i f g k ( x ) = max ⁡ i = 1 , 2 , ⋯ , c g i ( x ) , t h e n x ∈ w k if \ g_{k}(x)=\max _{i=1,2,\cdots,c} g_{i}(x), then \ x \in w_k if gk​(x)=i=1,2,⋯,cmax​gi​(x),then x∈wk​

决面:

[ Σ − 1 ( μ i − μ j ) ] ⊤ ( x − ( 1 2 ( μ i + μ j ) − ln ⁡ P ( w i ) P ( w j ) ( μ i − μ j ) ⊤ Σ − 1 ( μ i − μ j ) ( μ i − μ j ) ) ) = 0 \left[\Sigma^{-1}\left(\mu_{i}-\mu_{j}\right)\right]^{\top}\left(x-\left(\frac{1}{2}\left(\mu_{i}+\mu_{j}\right)-\frac{\ln \frac{P(w_i)}{P(w_j)}}{\left(\mu_{i}-\mu_{j}\right)^{\top} \Sigma^{-1}\left(\mu_{i}-\mu_{j}\right)}\left(\mu_{i}-\mu_{j}\right)\right)\right)\\=0 [Σ−1(μi​−μj​)]⊤⎝⎛​x−⎝⎛​21​(μi​+μj​)−(μi​−μj​)⊤Σ−1(μi​−μj​)lnP(wj​)P(wi​)​​(μi​−μj​)⎠⎞​⎠⎞​=0

( i . e . w T ( x − x 0 ) = 0 ) (i.e. \ w^T(x-x_0)=0) (i.e. wT(x−x0​)=0)

iii)各类的协方差阵不相等

判函:

g i ( x ) = x ⊤ ( − 1 2 Σ i − 1 ) x + ( Σ i − 1 μ i ) ⊤ x − 1 2 μ i ⊤ Σ i − 1 μ i − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( w i ) \begin{aligned}g_{i}(x)=x^{\top}\left(-\frac{1}{2} \Sigma_{i}^{-1}\right) x+\left(\Sigma_{i}^{-1} \mu_{i}\right)^{\top} x &-\frac{1}{2} \mu_{i}^{\top} \Sigma_{i}^{-1} \mu_{i}-\frac{1}{2} \ln \left|\Sigma_{i}\right|+\ln P\left(w_{i}\right)\end{aligned} gi​(x)=x⊤(−21​Σi−1​)x+(Σi−1​μi​)⊤x​−21​μi⊤​Σi−1​μi​−21​ln∣Σi​∣+lnP(wi​)​

( i . e . q i ( x ) = x T W i x + w i i x + w i 0 ) (i.e. \ q_{i}(x)=x^{T} W_{i} x+w_{i}^{i} x+w_{i0}) (i.e. qi​(x)=xTWi​x+wii​x+wi0​)

决规:

i f g k ( x ) = max ⁡ i = 1 , 2 , ⋯ , c g i ( x ) , t h e n x ∈ w k if \ g_{k}(x)=\max _{i=1,2,\cdots,c} g_{i}(x), then \ x \in w_k if gk​(x)=i=1,2,⋯,cmax​gi​(x),then x∈wk​

决规:

x ⊤ ( W i − W j ) x + ( w i − w j ) T x + w i 0 − w j 0 = 0 x^{\top}\left(W_{i}-W_{j}\right) x+\left(w_{i}-w_{j}\right)^{T} x+w_{i 0}-w_{j 0}=0 x⊤(Wi​−Wj​)x+(wi​−wj​)Tx+wi0​−wj0​=0

2.6 错误率的计算

2.6.1 正态分布且各类协方差矩阵相等情况下的错误率计算

正态分布且各类协方差矩阵相等情况下的错误率推导

正态分布且各类协方差矩阵相等情况下的错误率计算:

之前构造过最小错误率贝叶斯决策规则的负对数似然比形式:

h ( x ) = − ln ⁡ l ( x ) = ln ⁡ p ( x ∣ w 2 ) p ( x ∣ w 1 ) h(x)=-\ln l(x)=\ln \frac{p\left(x \mid w_{2}\right)}{ p\left(x \mid w_{1}\right)} h(x)=−lnl(x)=lnp(x∣w1​)p(x∣w2​)​

经推导,h(x)服从一维正态分布,并可求概密 p ( x ∣ w 1 ) p(x|w_1) p(x∣w1​), p ( x ∣ w 2 ) p(x|w_2) p(x∣w2​)

令 η = 1 2 [ ( μ 1 − μ 2 ) ⊤ Σ − 1 ( μ 1 − μ 2 ) ] \eta=\frac{1}{2}\left[\left(\mu_{1}-\mu_{2}\right)^{\top} \Sigma^{-1}\left(\mu_{1}-\mu_{2}\right)\right] η=21​[(μ1​−μ2​)⊤Σ−1(μ1​−μ2​)]

则对于 p ( h ∣ w 1 ) , η 1 = − η , σ 1 2 = 2 η p\left(h \mid w_{1}\right), \quad \eta_{1}=-\eta, \quad \quad \sigma_{1}^{2}=2\eta p(h∣w1​),η1​=−η,σ12​=2η

对于 p ( h ∣ w 2 ) , η 1 = η , σ 1 2 = 2 η p\left(h \mid w_{2}\right), \quad \eta_{1}=\eta, \quad \quad \sigma_{1}^{2}=2\eta p(h∣w2​),η1​=η,σ12​=2η

则:

P 1 ( e ) = ∫ t + ∞ p ( h ∣ w 1 ) d h = ∫ t + η σ + ∞ 1 2 π e − ζ 2 2 d ζ P_{1}(e)=\int_{t}^{+\infty} \quad p\left(h \mid w_{1}\right) d h=\int_{\frac{t+\eta}{\sigma}}^{+\infty} \frac{1}{\sqrt{2 \pi}} e^{-\frac{\zeta^2}{2}} d\zeta P1​(e)=∫t+∞​p(h∣w1​)dh=∫σt+η​+∞​2π ​1​e−2ζ2​dζ

P 2 ( e ) = ∫ − ∞ t p ( h ∣ w 2 ) d h = ∫ − ∞ t − μ σ 1 2 π e − ζ 2 2 d ζ P_{2}(e)=\int_{-\infty}^{t} \quad p\left(h \mid w_{2}\right) d h=\int_{-\infty}^{\frac{t-\mu}{\sigma}} \frac{1}{\sqrt{2 \pi}} e^{-\frac{\zeta^{2}}{2}} d\zeta P2​(e)=∫−∞t​p(h∣w2​)dh=∫−∞σt−μ​​2π ​1​e−2ζ2​dζ

其中, t = ln ⁡ P ( w 1 ) p ( w 2 ) , σ = 2 η t=\ln \frac{P\left(w_{1}\right)}{p\left(w_{2}\right)}, \quad \sigma=\sqrt{2\eta} t=lnp(w2​)P(w1​)​,σ=2η ​

则最终:

P ( e ) = P ( w 1 ) ⋅ P 1 ( e ) + P ( w 2 ) ⋅ P 2 ( e ) P(e)=P\left(w_{1}\right) \cdot P_{1}(e)+P\left(w_{2}\right) \cdot P_{2}(e) P(e)=P(w1​)⋅P1​(e)+P(w2​)⋅P2​(e)

2.6.2 高维独立随机变量时错误率的估计

高维独立随机变量时错误率的推导

高维独立随机变量时的错误率估计:

( h ( x ) ∣ ω i ) ∼ N ( η i , σ i 2 ) (h(x) \mid \omega_{i}) \sim N\left(\eta_{i}, \sigma_{i}^{2}\right) (h(x)∣ωi​)∼N(ηi​,σi2​)

其中:

η i = ∑ i = 1 d η i l \eta_i=\sum_{i=1}^{d}\eta_{il} ηi​=i=1∑d​ηil​

σ i 2 = ∑ i = 1 d σ i l 2 \sigma_{i}^{2}=\sum_{i=1}^{d} \sigma_{i l}^{2} σi2​=i=1∑d​σil2​

2.7 离散时间序列样本的统计决策

2.7.2 马尔科夫模型及在马尔科夫模型下的贝叶斯决策

△△△△△离散变量的概率模型估计问题△△△△

一阶马尔科夫链:

P ( x i ∣ x i − 1 , x i − 2 , ⋯ , x 1 ) = P ( x i ∣ x i − 1 ) P(x_i\mid x_{i-1},x_{i-2},\cdots,x_1)=P(x_i\mid x_{i-1}) P(xi​∣xi−1​,xi−2​,⋯,x1​)=P(xi​∣xi−1​)

转移概率:

a s t = P ( x i = t ∣ x i − 1 = s ) a_{st}=P(x_i=t\mid x_{i-1}=s) ast​=P(xi​=t∣xi−1​=s)

观察到指定序列的概率为:

P ( x ) = P ( x 0 , x 1 , ⋯ , x L ) = ∏ i = 2 L a x i − 1 x i P(x)=P(x_0,x_1,\cdots,x_L)=\prod\limits_{i=2}^La_{x_{i-1}x_i} P(x)=P(x0​,x1​,⋯,xL​)=i=2∏L​axi−1​xi​​

一阶马尔科夫链的对数似然比判别:

S ( x ) = log ⁡ P ( x ∣ + ) P ( x ∣ − ) = ∑ i = 1 L log ⁡ a x i − 1 x i + a x i − 1 − x i = ∑ i = 1 L β x i − 1 x i S(x)=\log\frac{P(x \mid +)}{P(x \mid -)}=\sum_{i=1}^{L} \log \frac{a_{x_{i-1} x_{i}}^{+}}{a_{x_{i-1}}^{-} x_{i}}={\sum_{i=1}^{L}} \beta_{x_{i-1} x_{i}} S(x)=logP(x∣−)P(x∣+)​=i=1∑L​logaxi−1​−​xi​axi−1​xi​+​​=i=1∑L​βxi−1​xi​​

状态转移矩阵的估计:

a s t + = c s t + ∑ t ′ c c s t ′ + a s t − = c s t − ∑ t ′ c c s t ′ − a_{st}^+=\frac{c^+_{st}}{\sum_{t'}c^+_{cst'}}\\a_{st}^-=\frac{c^-_{st}}{\sum_{t'}c^-_{cst'}} ast+​=∑t′​ccst′+​cst+​​ast−​=∑t′​ccst′−​cst−​​

张学工模式识别第四版——02 统计决策方法相关推荐

  1. 学习心得:人工智能学会CAAI常务理事张学工教授《AI技术前沿:从ChatGPU到更多突破》

    将学习人工智能学会CAAI常务理事张学工教授<AI技术前沿:从ChatGPU到更多突破>学习报告的心得,总结如下: 对几个名词的认识 人工智能(AI).机器学习.模式识别.深度学习 在以往 ...

  2. 清华张学工团队入选“人类细胞图谱计划”首批项目

    来源:测序中国 作者:Reggie 本文长度为2600字,建议阅读3分钟 本文为你介绍"人类细胞图谱计划"公布首批38个项目,并分享清华大学张学工教授专访. 美国太平洋时间2017 ...

  3. java《算法》第四版一些API方法笔记

    文章目录 典型静态方法的实现 Math---数学函数 Arrays库节选sort() StdRandom---随机数 StdStats---数据分析 StdIn---标准输入 StdOut---标准输 ...

  4. 学工在线新闻搜索引擎0.1 beta版

    研究搜索引擎已经有一段时间了.经过半个月的努力,学工在线新闻搜索引擎推出了0.1beta版, 虽然有很多问题和不足,但还是实现了基本的搜索功能. 测试地址:http://202.114.20.55:8 ...

  5. 零基础学c语言 第2版,零基础学C语言(第2版)(1张) 康莉 等 机械工业出版社 9787111372929...

    商品描述: 基本信息 书名:零基础学C语言(第2版)(1张) 定价:59.00元 作者:康莉 等 著 出版社:机械工业出版社 出版日期:2012-04-01 ISBN:9787111372929 字数 ...

  6. 随学随考计算机应用基础作业1,【随学随练】统编版四年级下册语文《第一单元》一课一练带答案,快给孩子练习!...

    原标题:[随学随练]统编版四年级下册语文<第一单元>一课一练带答案,快给孩子练习! 下载完整电子版,请拉到最下方 <1.古诗词三首>同步练习题 基础积累大巩固 一.选一选,填一 ...

  7. 通信原理第四版(张辉)复习笔记

    通信原理第四版(张辉)复习笔记 谨为复习笔记,其中有错误的地方欢迎指出,不足的也欢迎补充.

  8. 李沐d2l《动手学深度学习》第二版——风格迁移源码详解

    本文是对李沐Dive to DL<动手学深度学习>第二版13.12节风格迁移的源码详解,整体由Jupyter+VSCode完成,几乎所有重要代码均给出了注释,一看就懂.需要的同学可以在文末 ...

  9. 从《C++ Primer 第四版》入手学习 C++

    从<C++ Primer 第四版>入手学习 C++ 为什么要学习C++? 2009 年本书作者 Stan Lippman 先生来华参加上海祝成科技举办的C++技术大会,他表示人们现在还用C ...

最新文章

  1. VB动态添加WebBrowser控件,并拦截弹出窗口(不用引用任何组件)
  2. Linux下查看在运行进程的命令
  3. Visual Studio 2008 快捷键大全
  4. iOS攻防——(四)class-dump-与-Dumpdecrypted-使用
  5. Django系列目录
  6. 王道计算机网络 传输层整理 超详细版
  7. 遇到:ORA-27121: UNABLE TO DETERMINE SIZE OF SHAR...
  8. 为何谷歌放弃以甜品命名android,甜点不见了 谷歌变更Android命名方式
  9. Log4J基础详解及示例大全
  10. Servlet 3.0对上传的支持
  11. JAVA获取安卓系统下usb_Android 获取 usb 权限的两种方法
  12. vue中html没引入js文件,vue.js如何引入非模块化的js文件并调用里面的方法和类。...
  13. python调用bing翻译和有道翻译
  14. 金属、指纹、全网通该有的都有 中兴小鲜3正式发布
  15. 我的生信自学心得分享
  16. 支付宝公布2019集五福攻略,准备好薅羊毛的正确姿势
  17. 树莓派3通过网线连接电脑
  18. Python算法题笔记
  19. 在Linux系统上运行.jnlp文件
  20. excel技巧——时间复制粘贴后变成数字

热门文章

  1. 如何使用GMAP/GSNAP进行转录组序列比对
  2. vue设置国际化字体
  3. Hybris平台Web架构模式演变:前后端分离
  4. centos7的freeswitch1.10.3自动安装脚本
  5. 为什么 LR 模型要使用 sigmoid 函数,背后的数学原理是什么?
  6. CDialog的使用
  7. 培训机构管理系统的搭建,附源码,适合SSM入门,随便看看,解决数据库驱动,连接url时区等等问题
  8. 基于三维GIS平台的智慧园区建设方案
  9. 基于 Go 语言开发 Serverless 云原生应用
  10. 世界上最高的50大城市