判别分析主要是针对有监督学习的分类问题。

这里回顾一下有监督和无监督学习

有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预测。（ LR,SVM,BP,RF,GBDT）

也就是说：利用一组已知类别的样本，通过训练学习，得出一个分类器（最优的模型），再用这个分类器去判断未知类别样本是属于哪一类。

有监督学习常用于回归分析（连续型）和统计分类（离散型）。最典型的算法是KNN和SVM

无监督学习：对未标记的样本进行训练学习，发现这些样本中的结构知识。 (KMeans,DL)

也就是说：不知道样本数据中数据之间的关系，而是要根据样本间的相似性对样本集进行分类（聚类）或一定的模型得到数据之间的关系。

意义：对数据进行降维处理

特征提取
特征压缩：PCA

不同点：
比起监督学习，无监督学习更像是自学，让机器学会自己做事情，是没有标签（label）的。

有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该组数据集内寻找规律。

当然，这里主要是对判别分析的理论进行整理

一、什么是判别分析

前面说到，判别分析就是一种分类方法，即判别样本所属类别的一种统计方法。

判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型（或组别）并已取得各种类型的一批已知样品的观测数据，在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分类。

而聚类分析是事先并不知道分类标准，属于无监督学习，它是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归为不同类。

举个简单的例子：
下面是随便构造的数据，利用已知类别的样本，为未知样本判类，即根据语文成绩、数学成绩、英语成绩等多种指标来判定最后两个学生所属类型

语文	数学	英语	类别
90	99	95	优秀
80	83	70	良好
89	89	99	优秀
52	44	65	不合格
70	68	82	良好
91	94	82	优秀
54	62	12	不合格
77	72	81	待判
98	60	73	待判

二、判别方法

根据判别方法的不同，主要有以下四种方法：

（1）距离判别法
（2）Fisher判别法
（3）贝叶斯判别法
（4）逐步判别法

2.1 距离判别法

距离判别的基本思想是: 若样本与第 i 类总体的重心距离最近，就认为它来自第 i 类，因此，距离判别也称为直观判别法。

距离判别法，对各类（或总体）的分布，并无特定的要求。

2.1.1 马氏距离

距离判别的最直观的想法是计算样品到第 i 类总体的平均数的距离，哪个距离最小就将它判归哪个总体，所以，考虑构造一个恰当的距离函数，通过样本与某类别之间距离的大小，判别其所属类别。

设从期望 μ = ( μ 1 , μ 2 , ⋯ , μ m ) ′ \mu =\left( \mu _1,\mu _2,\cdots ,\mu _m \right) ' μ=(μ1,μ2,⋯,μm)′和方差阵 Σ = ( σ i j ) m × m > 0 \varSigma =\left( \sigma _{ij} \right) _{m\times m}>0 Σ=(σij)m×m>0的总体G中抽取两组观测值
x = ( x 1 , x 2 , ⋯ , x m ) ′ \mathbf{x}=\left( x_1,x_2,\cdots ,x_m \right) ' x=(x1,x2,⋯,xm)′
y = ( y 1 , y 2 , ⋯ , y m ) ′ \mathbf{y}=\left( y_1,y_2,\cdots ,y_m \right) ' y=(y1,y2,⋯,ym)′

则X与Y之间的马氏距离定义为：
d 2 ( x , y ) = ( x − y ) ′ Σ − 1 ( x − y ) d^2\left( \mathbf{x,y} \right) =\left( \mathbf{x}-\mathbf{y} \right) '\varSigma ^{-1}\left( \mathbf{x}-\mathbf{y} \right) d2(x,y)=(x−y)′Σ−1(x−y)

样本 X 和 G i G_i Gi 类之间的马氏距离定义为 X 与 G i G_i Gi 类重心间的距离：
d 2 ( x , G i ) = ( x − μ i ) ′ Σ − 1 ( x − μ i ) i = 1 , 2 , ⋯ , k d^2\left( \mathbf{x,}G_i \right) =\left( \mathbf{x}-\mu _i \right) '\Sigma ^{-1}\left( \mathbf{x}-\mu _i \right) \begin{matrix} & i=1,2,\cdots ,k\\ \end{matrix} d2(x,Gi)=(x−μi)′Σ−1(x−μi)i=1,2,⋯,k

马氏距离和欧式距离之间的差别:

马氏距离:
d 2 ( x , G ) = ( x − μ ) ′ Σ − 1 ( x − μ ) d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\Sigma ^{-1}\left( x-\mu \right) d2(x,G)=(x−μ)′Σ−1(x−μ)
欧式距离:
d 2 ( x , G ) = ( x − μ ) ′ ( x − μ ) d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\left( x-\mu \right) d2(x,G)=(x−μ)′(x−μ)
因此、马氏距离有如下的特点：

马氏距离不受计量单位的影响
马氏距离是标准化后的变量的欧式距离

2.1.2 两个总体距离判别法

1、协方差相等，即 Σ 1 = Σ 2 = Σ \varSigma _1=\varSigma _2=\varSigma Σ1=Σ2=Σ

先考虑两个总体的情况，设有两个正态总体（或称两类） G 1 G_1 G1、 G 2 G_2 G2 ，对给定的样本Y，判别这个样本 Y 到底是来自哪一个总体，一个最直观的想法是计算Y到两个总体的距离。故用马氏距离来给定判别规则，有：

首先计算 X 到 G 1 G_1 G1、 G 2 G_2 G2总体的距离，按距离最近准则判别归类，则可写成：
{ y ∈ G 1 ，即 d 2 ( y , G 1 ) < d 2 ( y , G 2 ) y ∈ G 2 ，即 d 2 ( y , G 2 ) < d 2 ( y , G 1 ) 待判，即 d 2 ( y , G 1 ) = d 2 ( y , G 2 ) \left\{ \begin{array}{l} \mathbf{y}\in G_1\text{，即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{，即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判，即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1，即d2(y,G1)<d2(y,G2)y∈G2，即d2(y,G2)<d2(y,G1)待判，即d2(y,G1)=d2(y,G2)

这里， μ 1 ， μ 2 ， Σ 1 ， Σ 2 \mu _1\text{，}\mu _2\text{，}\varSigma _1\text{，}\varSigma _2 μ1，μ2，Σ1，Σ2，分别为总体 G 1 G_1 G1和 G 2 G_2 G2的均值和协方差阵：
d 2 ( y , G 2 ) − d 2 ( y , G 1 ) = ( y − μ 2 ) ′ Σ − 1 ( y − μ 2 ) − ( y − μ 1 ) ′ Σ − 1 ( y − μ 1 ) = 2 [ y − ( μ 1 + μ 2 ) 2 ] ′ Σ − 1 ( μ 1 − μ 2 ) \begin{array}{l} d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _1 \right)\\ \end{array}=2\left[ \mathbf{y}-\frac{\left( \mu _1+\mu _2 \right)}{2} \right] '\Sigma ^{-1}\left( \mu _1-\mu _2 \right) d2(y,G2)−d2(y,G1)=(y−μ2)′Σ−1(y−μ2)−(y−μ1)′Σ−1(y−μ1)=2[y−2(μ1+μ2)]′Σ−1(μ1−μ2)

令
μ ˉ = μ 1 + μ 2 2 ， α = Σ − 1 ( μ 1 − μ 2 ) = ( a 1 , a 2 , ⋯ , a p ) ′ \bar{\mu}=\frac{\mu _1+\mu _2}{2}\text{，}\alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) =\left( a_1,a_2,\cdots ,a_p \right) ' μˉ=2μ1+μ2，α=Σ−1(μ1−μ2)=(a1,a2,⋯,ap)′

则可以写成

W ( y ) = ( y − μ ˉ ) ′ α = α ′ ( y − μ ˉ ) = α ′ y − α ′ μ ˉ W\left( \mathbf{y} \right) =\left( \mathbf{y}-\bar{\mu} \right) '\alpha =\alpha '\left( \mathbf{y}-\bar{\mu} \right) =\mathbf{\alpha 'y}-\mathbf{\alpha '\bar{\mu}} W(y)=(y−μˉ)′α=α′(y−μˉ)=α′y−α′μˉ
则前面的判别法则表示为
{ y ∈ G 1 ，即 W ( y ) > 0 y ∈ G 2 ，即 W ( y ) < 0 待判，即 W ( y ) = 0 \left\{ \begin{array}{l} \mathbf{y}\in G_1\begin{matrix} \text{，即}& W\left( \mathbf{y} \right) >0\\ \end{matrix}\\ \\ \mathbf{y}\in G_2\text{，}\begin{matrix} \text{即}& W\left( \mathbf{y} \right) <0\\ \end{matrix}\\ \\ \text{待判，即}W\left( \mathbf{y} \right) =0\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1，即W(y)>0y∈G2，即W(y)<0待判，即W(y)=0

当 μ 1 ， μ 2 ， Σ 1 ， Σ 2 \mu _1\text{，}\mu _2\text{，}\varSigma _1\text{，}\varSigma _2 μ1，μ2，Σ1，Σ2已知时， α = Σ − 1 ( μ 1 − μ 2 ) \alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) α=Σ−1(μ1−μ2) 是一个已知的p维向量，，当它们未知时，可通过样本来估计。

这个规则取决于 W(y) 的值，通常称 W(y) 为判别函数，由于它是的线性函数，又称为线性判别函数， α \alpha α 称为判别系数（类似于回归系数）。线性判别函数使用起来最方便，在实际应用中也最广泛。

2、当总体的协方差已知，且不相等，即 Σ 1 ≠ Σ 2 \varSigma _1\ne \varSigma _2 Σ1=Σ2

{ y ∈ G 1 ，即 d 2 ( y , G 1 ) < d 2 ( y , G 2 ) y ∈ G 2 ，即 d 2 ( y , G 2 ) < d 2 ( y , G 1 ) 待判，即 d 2 ( y , G 1 ) = d 2 ( y , G 2 ) \left\{ \begin{array}{l} \mathbf{y}\in G_1\text{，即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{，即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判，即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1，即d2(y,G1)<d2(y,G2)y∈G2，即d2(y,G2)<d2(y,G1)待判，即d2(y,G1)=d2(y,G2)
这里用
W ( y ) = d 2 ( y , G 2 ) − d 2 ( y , G 1 ) = ( y − μ 2 ) ′ Σ 2 − 1 ( y − μ 2 ) − ( y − μ 1 ) ′ Σ 1 − 1 ( y − μ 1 ) W\left( \mathbf{y} \right) =d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\Sigma _2^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\Sigma _1^{-1}\left( \mathbf{y}-\mu _1 \right) W(y)=d2(y,G2)−d2(y,G1)=(y−μ2)′Σ2−1(y−μ2)−(y−μ1)′Σ1−1(y−μ1)

作为判别函数，这时它是 y 的二次函数

2.1.3 多个总体距离判别法

1、协差阵相等
设有 k 个总体 G 1 , G 2 , ⋯ , G k G_1,G_2,\cdots ,G_k G1,G2,⋯,Gk ，它们的均值分别是 μ 1 , μ 2 , ⋯ , μ k \mu _1,\mu _2,\cdots ,\mu _k μ1,μ2,⋯,μk，协方差阵均为 Σ \varSigma Σ 。类似两个总体的讨论，判别函数为：
W i j = ( y − ( μ i + μ j ) 2 ) ′ Σ − 1 ( μ i − μ j ) ， i , j = 1 , 2 , ⋯ , k W_{ij}=\left( y-\frac{\left( \mu _i+\mu _j \right)}{2} \right) '\varSigma ^{-1}\left( \mu _i-\mu _j \right) \text{，}i,j=1,2,\cdots ,k Wij=(y−2(μi+μj))′Σ−1(μi−μj)，i,j=1,2,⋯,k
相应的判别规则是：
{ y ∈ G i ，即 W i j ( y ) > 0 ， ∀ j ≠ i 待判，即某个 W i j ( y ) = 0 \left\{ \begin{array}{l} y\in G_i\text{，即}W_{ij}\left( y \right) >0\text{，}\forall j\ne i\\ \\ \text{待判，即某个}W_{ij}\left( y \right) =0\\ \end{array} \right. ⎩⎨⎧y∈Gi，即Wij(y)>0，∀j=i待判，即某个Wij(y)=0

当 μ 1 , μ 2 , ⋯ , μ k \mu _1,\mu _2,\cdots ,\mu _k μ1,μ2,⋯,μk， Σ \varSigma Σ 未知时，可通过样本进行估计。

2、协差阵不等
这时判别函数为
W i j ( y ) = ( x − μ i ) ′ Σ i − 1 ( x − μ i ) − ( x − μ j ) ′ Σ j − 1 ( x − μ j ) W_{ij}\left( y \right) =\left( x-\mu _i \right) '\varSigma _i^{-1}\left( x-\mu _i \right) -\left( x-\mu _j \right) '\varSigma _j^{-1}\left( x-\mu _j \right) Wij(y)=(x−μi)′Σi−1(x−μi)−(x−μj)′Σj−1(x−μj)
判别规则为
{ y ∈ G i ，即 W i j ( y ) < 0 ， ∀ j ≠ i 待判，即某个 W i j ( y ) = 0 \left\{ \begin{array}{l} y\in G_i\text{，即}W_{ij}\left( y \right) <0\text{，}\forall j\ne i\\ \\ \text{待判，即某个}W_{ij}\left( y \right) =0\\ \end{array} \right. ⎩⎨⎧y∈Gi，即Wij(y)<0，∀j=i待判，即某个Wij(y)=0

2.2 Bayes判别法

距离判别只要求知道总体的特征量(即参数)—均值和协差阵,不涉及总体的分布类型，当参数未知时,就用样本均值和样本协差阵来估计。因此，距离判别是一种十分简单实用，结论明确的方法，但该方法也有缺点:

该判别法与各总体出现的机会大小(先验概率)完全无关；
判别方法没有考虑错判造成的损失,这是不合理的。

总的来说，就是距离判别的方法把总体等同看待，没有考虑到总体会以不同的概率（先验
概率）出现，也没有考虑误判之后所造成的损失的差异。

因此，使用 Bayes判别法可以很好的解决上述两个问题

2.2.1 Bayes的统计思想

贝叶斯统计学与经典统计学的差别在于，贝叶斯统计在重视使用总体信息、样本信息的同时，还十分重视先验信息的收集、挖掘和加工，使它数量化，形成先验分布，参加到统计推断中来。先验信息就是抽样之前有关统计问题的一些信息，先验信息一般来源于经验和历史资料。

贝叶斯统计的基本思想：任一未知量 θ \theta θ 都可看作随机变量，根据经验或者历史资料，用一个概率分布去描述，这个分布称为先验分布；在获得样本之后，用样本来修正已有的认识(先验概率分布)，得到后验概率分布 π ( θ ∣ x ) \pi \left( \theta |x \right) π(θ∣x)。后面的各种统计推断都基于这个后验概率分布来进行。

后验分布 π ( θ ∣ x ) \pi \left( \theta |x \right) π(θ∣x) 集中了总体、样本和先验中有关 θ \theta θ 的一切信息,而又是排除一切与 θ \theta θ 无关的信息之后得到的结果。
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) Σ P ( A ∣ B i ) P ( B i ) P\left( B_i|A \right) =\frac{P\left( A|B_i \right) P\left( B_i \right)}{\Sigma P\left( A|B_i \right) P\left( B_i \right)} P(Bi∣A)=ΣP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)

π ( θ ∣ x ) = h ( x , θ ) m ( x ) = f ( x ∣ θ ) π ( θ ) ∫ Θ f ( x ∣ θ ) π ( θ ) d θ \pi \left( \theta |x \right) =\frac{h\left( x,\theta \right)}{m\left( x \right)}=\frac{f\left( x|\theta \right) \pi \left( \theta \right)}{\int_{\Theta}{f\left( x|\theta \right) \pi \left( \theta \right) d\theta}} π(θ∣x)=m(x)h(x,θ)=∫Θf(x∣θ)π(θ)dθf(x∣θ)π(θ)

关于贝叶斯统计的知识，后面自己还会总结

设有 k 总体 G 1 , G 2 , ⋯ , G k G_1,G_2,\cdots ,G_k G1,G2,⋯,Gk， G i G_i Gi具有具有概率密度函数 f i ( x ) f_i\left( x \right) fi(x)。并且根据以往的统计分析（经验或历史资料），知道 G i G_i Gi 出现的概率为 q i q_i qi。即当已知样本 x 0 x_0 x0 发生时，求它属于 G i G_i Gi 类的概率。由贝叶斯公式计算后验概率，有：

P ( G i ∣ x 0 ) = q i f i ( x 0 ) Σ q j f j ( x 0 ) P\left( G_i|x_0 \right) =\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)} P(Gi∣x0)=Σqjfj(x0)qifi(x0)

判别规则：
P ( G h ∣ x 0 ) = q h f h ( x 0 ) Σ q j f j ( x 0 ) = max ⁡ 1 ≤ i ≤ k { P ( G i / x ) } = max ⁡ 1 ≤ i ≤ k q i f i ( x 0 ) Σ q j f j ( x 0 ) P\left( G_h|x_0 \right) =\frac{q_hf_h\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}=\underset{1\le i\le k}{\max}\left\{ P\left( G_i/x \right) \right\} =\underset{1\le i\le k}{\max}\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)} P(Gh∣x0)=Σqjfj(x0)qhfh(x0)=1≤i≤kmax{P(Gi/x)}=1≤i≤kmaxΣqjfj(x0)qifi(x0)

则 x 0 x_0 x0 判给 G h G_h Gh 。在正态的假定下， f h ( x ) f_h\left( x \right) fh(x) 为正态分布的密度函数。

特别de ，若总体服从正态分布，则
q h f h ( x 0 ) = max ⁡ q i f i ( x 0 ) 1 ≤ i ≤ k q_{\text{h}}f_h\left( x_0 \right) =\underset{1\le i\le k}{\max q_if_i\text{(}x_0\text{)}} qhfh(x0)=1≤i≤kmaxqifi(x0)

则 x 0 x_0 x0 判给 G h G_h Gh

2.2.2 多元正态总体的Bayes判别法

在实际问题中遇到的许多总体往往服从正态分布，下面给出p元正态总体的Bayes判别法。

（1）判别函数的导出

由前面的叙述可知，使用Bayes判别法作判别分析，首先要知道待判总体的先验概率和密度函数。对于先验概率，一般用样品的频率来代替。或者令先验概率 π ( θ ) = 1 \pi \left( \theta \right) =1 π(θ)=1 或相等，这时可以认为先验概率不起作用。

设正态分布密度函数为：

f i ( x ) = 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 f_i\left( x \right) =\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} fi(x)=(2π∣Σi∣)1/21e−2(x−μ(i))′Σi−1(x−μi)

q i f i ( x ) = q i 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 q_if_i\left( x \right) =q_i\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} qifi(x)=qi(2π∣Σi∣)1/21e−2(x−μ(i))′Σi−1(x−μi)

上式两边取对数并去掉与 i 无关的项，则等价的判别函数为：
z i ( x ) = ln ⁡ ( q i f i ( x ) ) = ln ⁡ q i − 1 2 ln ⁡ | Σ i ∣ − 1 2 ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ ( i ) ) ] z_i\left( x \right) =\ln \left( q_if_i\left( \mathbf{x} \right) \right) =\ln q_i-\frac{1}{2}\ln\text{|}\Sigma _i|-\frac{1}{2}\left( x-\mu ^{\left( i \right)} \right) '\Sigma _{i}^{-1}\left( x-\mu ^{\left( i \right)} \right) \text{]} zi(x)=ln(qifi(x))=lnqi−21ln|Σi∣−21(x−μ(i))′Σi−1(x−μ(i))]

问题转化为：

若 Z h ( x ) = max ⁡ 1 ≤ i ≤ k [ Z i ( x ) ] Z_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ Z_i\left( x \right) \right] Zh(x)=1≤i≤kmax[Zi(x)]
则 x x x 判给 G h G_h Gh 。

1、协方差相等，即 Σ 1 = Σ 2 = ⋯ = Σ k = Σ \varSigma _1=\varSigma _2=\cdots =\varSigma _k=\varSigma Σ1=Σ2=⋯=Σk=Σ

则判别函数退化为

z i ( x ) = ln ⁡ q i − 1 2 ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) ) z_i\left( x \right) =\ln q_i-\frac{1}{2}\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)} zi(x)=lnqi−21(x−μ(i))′Σ−1(x−μ(i))
= − 1 2 [ − 2 ln ⁡ q i + ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) )] =-\frac{1}{2}\text{[}-2\ln q_i+\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)]} =−21[−2lnqi+(x−μ(i))′Σ−1(x−μ(i))]

令

{ F i ( x ) = − 2 ln ⁡ q i + ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) ) P i ( x ) = − 2 ln ⁡ q i − 2 μ ( i ) ′ Σ − 1 x + μ ( i ) ′ Σ − 1 μ ( i ) \left\{ \begin{array}{l} F_i\left( x \right) =-2\ln q_i+\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\mathbf{)'}\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)}\\ \\ P_i\left( x \right) =-2\ln q_i-2\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}\\ \end{array} \right. ⎩⎨⎧Fi(x)=−2lnqi+(x−μ(i))′Σ−1(x−μ(i))Pi(x)=−2lnqi−2μ(i)′Σ−1x+μ(i)′Σ−1μ(i)

问题转化为

若
P h ( x ) = min ⁡ 1 ≤ i ≤ k [ P i ( x ) ] P_h\left( x \right) =\underset{1\le i\le k}{\min}\left[ P_i\left( x \right) \right] Ph(x)=1≤i≤kmin[Pi(x)]
则 x x x 判给 G h G_h Gh

又由
P i ( x ) = − 2 ( ln ⁡ q i − 1 2 μ ( i ) Σ − 1 μ ( i ) + μ ( i ) Σ − 1 x ) P_i\left( x \right) =-2\left( \ln q_i-\frac{1}{2}\mu ^{\left( i \right)}\varSigma ^{-1}\mu ^{\left( i \right)}+\mu ^{\left( i \right)}\varSigma ^{-1}x \right) Pi(x)=−2(lnqi−21μ(i)Σ−1μ(i)+μ(i)Σ−1x)

令
m i ( x ) = ln ⁡ q i − 1 2 μ ( i ) ′ Σ − 1 μ ( i ) + μ ( i ) ′ Σ − 1 x m_i\left( \mathbf{x} \right) =\ln q_i-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x} mi(x)=lnqi−21μ(i)′Σ−1μ(i)+μ(i)′Σ−1x

问题转化为

若

m h ( x ) = max ⁡ 1 ≤ i ≤ k [ m i ( x ) ] m_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ m_i\left( x \right) \right] mh(x)=1≤i≤kmax[mi(x)]
则 x x x 判给 G h G_h Gh

当先验概率相等， q 1 = ⋯ = q k = 1 k q_1=\cdots =q_k=\frac{1}{k} q1=⋯=qk=k1

有

m i ( x ) = − 1 2 μ ( i ) ′ Σ − 1 μ ( i ) + μ ( i ) ′ Σ − 1 x m_i\left( \mathbf{x} \right) =-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x} mi(x)=−21μ(i)′Σ−1μ(i)+μ(i)′Σ−1x
完全成为距离判别法。

2.3 Fisher判别法

2.3.1 Fisher判别的基本思想

Fisher(费歇)判别的基本思想是投影，将k组m维数据投影到某一个方向，使得投影后组与组之间尽可能地分开，而衡量组与组之间是否分开的方法借助于一元方差分析的思想，利用方差分析的思想来导出判别函数，这个函数可以是线性的，也可以是一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出.

该判别方法对总体的分布不做任何要求。

从两个总体中抽取具有P个指标的样品观测数据，借助于方差分析的思想构造一个线性判别函数：
Y = C 1 X 1 + C 2 X 2 + ⋯ + C p X p Y=C_1X_1+C_2X_2+\cdots +C_pX_p Y=C1X1+C2X2+⋯+CpXp
其中系数 C 1 , C 2 , ⋯ , C p C_1,C_2,\cdots ,C_p C1,C2,⋯,Cp 确定的原则是使两组间的组间离差最大，而每个组的组内离差最小。当建立了判别式以后，对一个新的样品值，将他的P个指标值代入判别式中求出Y值，然后与某个临界值比较，就可以将该样品归某类。

假设可以得到一个线性判别函数：
y = c 1 x 1 + c 2 x 2 + ⋯ + c p x p y=c_1x_1+c_2x_2+\cdots +c_px_p y=c1x1+c2x2+⋯+cpxp

可以把两个总体的样品代入上面的判别式
y i ( 1 ) = c 1 x i 1 ( 1 ) + c 2 x i 2 ( 1 ) + ⋯ + c p x i p ( 1 ) y_{i}^{\left( 1 \right)}=c_1x_{i1}^{\left( 1 \right)}+c_2x_{i2}^{\left( 1 \right)}+\cdots +c_px_{ip}^{\left( 1 \right)} yi(1)=c1xi1(1)+c2xi2(1)+⋯+cpxip(1)

y i ( 2 ) = c 1 x i 1 ( 2 ) + c 2 x i 2 ( 2 ) + ⋯ + c p x i p ( 2 ) y_{i}^{\left( 2 \right)}=c_1x_{i1}^{\left( 2 \right)}+c_2x_{i2}^{\left( 2 \right)}+\cdots +c_px_{ip}^{\left( 2 \right)} yi(2)=c1xi1(2)+c2xi2(2)+⋯+cpxip(2)
分别对上面两式左右相加，再除以样品个数，可得两个总体的重心：

{ y ˉ ( 1 ) = ∑ k = 1 p c k x ˉ k ( 1 ) y ˉ ( 2 ) = ∑ k = 1 p c k x ˉ k ( 2 ) \left\{ \begin{array}{l} \bar{y}^{\left( 1 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 1 \right)}}\\ \\ \bar{y}^{\left( 2 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 2 \right)}}\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧yˉ(1)=k=1∑pckxˉk(1)yˉ(2)=k=1∑pckxˉk(2)
最佳的线性判别函数应该是：两个重心的距离越大越好，两个组内的离差平方和越小越好。

组间离差平方和：
( Y ˉ ( 1 ) − Y ˉ ) 2 + ( Y ˉ ( 2 ) − Y ˉ ) 2 = ( Y ˉ ( 1 ) − Y ˉ ( 1 ) + Y ˉ ( 2 ) 2 ) 2 + ( Y ˉ ( 2 ) − Y ˉ ( 1 ) + Y ˉ ( 2 ) 2 ) 2 \left( \bar{Y}^{\left( 1 \right)}-\bar{Y} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\bar{Y} \right) ^2=\left( \bar{Y}^{\left( 1 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2 (Yˉ(1)−Yˉ)2+(Yˉ(2)−Yˉ)2=(Yˉ(1)−2Yˉ(1)+Yˉ(2))2+(Yˉ(2)−2Yˉ(1)+Yˉ(2))2

= 1 4 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 + 1 4 ( Y ˉ ( 2 ) − Y ˉ ( 1 ) ) 2 = 1 2 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 = 1 2 ( c ′ X ˉ ( 1 ) − c ′ X ˉ ( 2 ) ) 2 =\frac{1}{4}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2+\frac{1}{4}\left( \bar{Y}^{\left( 2 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2=\frac{1}{2}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2=\frac{1}{2}\left( \mathbf{c'}\bar{X}^{\left( 1 \right)}-\mathbf{c'}\bar{X}^{\left( 2 \right)} \right) ^2 =41(Yˉ(1)−Yˉ(2))2+41(Yˉ(2)−Yˉ(1))2=21(Yˉ(1)−Yˉ(2))2=21(c′Xˉ(1)−c′Xˉ(2))2

总体内部的方差和：
E ( Y ( 1 ) − Y ˉ ( 1 ) ) 2 + E ( Y ( 2 ) − Y ˉ ( 2 ) ) 2 E\left( Y^{\left( 1 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2+E\left( Y^{\left( 2 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2 E(Y(1)−Yˉ(1))2+E(Y(2)−Yˉ(2))2
I = 组间离差平方和组内方差和 I=\frac{\text{组间离差平方和}}{\text{组内方差和}} I=组内方差和组间离差平方和
I = 1 2 c ′ ( X ˉ ( 1 ) − X ˉ ( 2 ) ) ( X ˉ ( 1 ) − X ˉ ( 2 ) ) ′ c c ′ Σ c I=\frac{\frac{1}{2}\mathbf{c'}\left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) \left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) '\mathbf{c}}{\mathbf{c'}\varSigma \mathbf{c}} I=c′Σc21c′(Xˉ(1)−Xˉ(2))(Xˉ(1)−Xˉ(2))′c
I 最小时判别函数最好

判别准则：

定义临界点为：
y 0 = n 1 y ˉ ( 1 ) + n 2 y ˉ ( 2 ) n 1 + n 2 y_0=\frac{n_1\bar{y}^{\left( 1 \right)}+n_2\bar{y}^{\left( 2 \right)}}{n_1+n_2} y0=n1+n2n1yˉ(1)+n2yˉ(2)
不妨假设：
y ˉ ( 1 ) > y ˉ ( 2 ) \bar{y}^{\left( 1 \right)}>\bar{y}^{\left( 2 \right)} yˉ(1)>yˉ(2)
如果由原始数据 y 求得判别函数得分为 Y*，对与一个样本代入判别函数中，若 Y*> Y 0 Y_0 Y0，则判给G1，否则判给G2。

2.4 逐步判别法

判别分析（Discriminate Analysis）相关推荐

LDA （Linear Discriminate Analysis）Fisher Criteria
之前说到的PCA,它主要的目的是寻找数据variance变化最大的轴.通过删去数据中variance变化不大的轴来压缩数据的维数.PCA没有办法很好的解决数据分类的问题(classification) ...
datagrid出现相同两组数据_数据分析之统计学
统计学知识思维导图第一节统计学基本原理数据分析相关概念一.描述统计测量尺度 1.定类(nominal) 功能:分类的作用,比如性别 2.定序(ordinal) 功能:分类.排序的作用,比如 ...
判别分析分为r型和q型吗_聚类分析与判别分析
一.聚类分析的基本思想 1．什么是聚类分析俗语说,物以类聚.人以群分. 当有一个分类指标时,分类比较容易. 但是当有多个指标,要进行分类就不是很容易了. 比如,要想把中国的县分成若干类,可以按照自然 ...
人工智能之机器学习常见算法
https://blog.csdn.net/BaiHuaXiu123/article/details/51475384 摘要之前一直对机器学习很感兴趣,一直没时间去研究,今天刚好是周末,有时间去各大 ...
离线轻量级大数据平台Spark之MLib机器学习库概念学习
Mlib机器学习库 1.1机器学习概念机器学习有很多定义,倾向于下面这个定义.机器学习是对能通过经验自动改进的计算机算法的研究.机器学习依赖数据经验并评估和优化算法所运行出的模型.机器学习算法尝试根 ...
机器学习常见算法汇总
原文地址:http://www.ctocio.com/hotnews/15919.html 偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文机器学习无疑是当前数据分 ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l&qu ...
机器学习——常用算法的总结
机器学习常用算法总结机器学习--常用算法的总结学习方式一.监督式学习: 1.分类 2.回归补充--线性回归与逻辑回归二.非监督式学习: 三.半监督式学习: 四.强化学习: 算法类似性一.回 ...
机器学习/人工智能知识图谱
可以为自己建立一个机器学习的知识图谱,并争取掌握每一个经典的机器学习理论和算法,简单地总结如下: 1)回归算法: 最小二乘法(OrdinaryLeast Square) 逻辑回归(Logistic R ...

判别分析（Discriminate Analysis）