判别分析(Discriminate Analysis)
判别分析主要是针对有监督学习的分类问题。
这里回顾一下有监督和无监督学习
有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。( LR,SVM,BP,RF,GBDT)
也就是说:利用一组已知类别的样本,通过训练学习,得出一个分类器(最优的模型),再用这个分类器去判断未知类别样本是属于哪一类。
有监督学习常用于回归分析(连续型)和统计分类(离散型)。最典型的算法是KNN和SVM
无监督学习:对未标记的样本进行训练学习,发现这些样本中的结构知识。 (KMeans,DL)
也就是说:不知道样本数据中数据之间的关系,而是要根据样本间的相似性对样本集进行分类(聚类)或一定的模型得到数据之间的关系。
意义:对数据进行降维处理
- 特征提取
- 特征压缩:PCA
不同点:
比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。
有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
当然,这里主要是对判别分析的理论进行整理
一、什么是判别分析
前面说到,判别分析就是一种分类方法,即判别样本所属类别的一种统计方法。
判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
而聚类分析是事先并不知道分类标准,属于无监督学习,它是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归为不同类。
举个简单的例子:
下面是随便构造的数据,利用已知类别的样本,为未知样本判类,即根据语文成绩、数学成绩、英语成绩等多种指标来判定最后两个学生所属类型
语文 | 数学 | 英语 | 类别 |
---|---|---|---|
90 | 99 | 95 | 优秀 |
80 | 83 | 70 | 良好 |
89 | 89 | 99 | 优秀 |
52 | 44 | 65 | 不合格 |
70 | 68 | 82 | 良好 |
91 | 94 | 82 | 优秀 |
54 | 62 | 12 | 不合格 |
77 | 72 | 81 | 待判 |
98 | 60 | 73 | 待判 |
二、判别方法
根据判别方法的不同,主要有以下四种方法:
(1)距离判别法
(2)Fisher判别法
(3)贝叶斯判别法
(4)逐步判别法
2.1 距离判别法
距离判别的基本思想是: 若样本与第 i 类总体的重心距离最近,就认为它来自第 i 类,因此, 距离判别也称为直观判别法。
距离判别法,对各类(或总体)的分布,并无特定的要求。
2.1.1 马氏距离
距离判别的最直观的想法是计算样品到第 i 类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,考虑构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设从期望 μ = ( μ 1 , μ 2 , ⋯ , μ m ) ′ \mu =\left( \mu _1,\mu _2,\cdots ,\mu _m \right) ' μ=(μ1,μ2,⋯,μm)′和方差阵 Σ = ( σ i j ) m × m > 0 \varSigma =\left( \sigma _{ij} \right) _{m\times m}>0 Σ=(σij)m×m>0的总体G中抽取两组观测值
x = ( x 1 , x 2 , ⋯ , x m ) ′ \mathbf{x}=\left( x_1,x_2,\cdots ,x_m \right) ' x=(x1,x2,⋯,xm)′
y = ( y 1 , y 2 , ⋯ , y m ) ′ \mathbf{y}=\left( y_1,y_2,\cdots ,y_m \right) ' y=(y1,y2,⋯,ym)′
则X与Y之间的马氏距离 定义为:
d 2 ( x , y ) = ( x − y ) ′ Σ − 1 ( x − y ) d^2\left( \mathbf{x,y} \right) =\left( \mathbf{x}-\mathbf{y} \right) '\varSigma ^{-1}\left( \mathbf{x}-\mathbf{y} \right) d2(x,y)=(x−y)′Σ−1(x−y)
样本 X 和 G i G_i Gi 类之间的马氏距离定义为 X 与 G i G_i Gi 类重心间的距离:
d 2 ( x , G i ) = ( x − μ i ) ′ Σ − 1 ( x − μ i ) i = 1 , 2 , ⋯ , k d^2\left( \mathbf{x,}G_i \right) =\left( \mathbf{x}-\mu _i \right) '\Sigma ^{-1}\left( \mathbf{x}-\mu _i \right) \begin{matrix} & i=1,2,\cdots ,k\\ \end{matrix} d2(x,Gi)=(x−μi)′Σ−1(x−μi)i=1,2,⋯,k
马氏距离和欧式距离之间的差别:
马氏距离:
d 2 ( x , G ) = ( x − μ ) ′ Σ − 1 ( x − μ ) d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\Sigma ^{-1}\left( x-\mu \right) d2(x,G)=(x−μ)′Σ−1(x−μ)
欧式距离:
d 2 ( x , G ) = ( x − μ ) ′ ( x − μ ) d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\left( x-\mu \right) d2(x,G)=(x−μ)′(x−μ)
因此、马氏距离有如下的特点:
- 马氏距离不受计量单位的影响
- 马氏距离是标准化后的变量的欧式距离
2.1.2 两个总体距离判别法
1、协方差相等,即 Σ 1 = Σ 2 = Σ \varSigma _1=\varSigma _2=\varSigma Σ1=Σ2=Σ
先考虑两个总体的情况,设有两个正态总体(或称两类) G 1 G_1 G1、 G 2 G_2 G2 ,对给定的样本Y,判别这个样本 Y 到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故用马氏距离来给定判别规则,有:
首先计算 X 到 G 1 G_1 G1、 G 2 G_2 G2总体的距离,按距离最近准则判别归类,则可写成:
{ y ∈ G 1 ,即 d 2 ( y , G 1 ) < d 2 ( y , G 2 ) y ∈ G 2 ,即 d 2 ( y , G 2 ) < d 2 ( y , G 1 ) 待判,即 d 2 ( y , G 1 ) = d 2 ( y , G 2 ) \left\{ \begin{array}{l} \mathbf{y}\in G_1\text{,即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{,即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判,即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1,即d2(y,G1)<d2(y,G2)y∈G2,即d2(y,G2)<d2(y,G1)待判,即d2(y,G1)=d2(y,G2)
这里, μ 1 , μ 2 , Σ 1 , Σ 2 \mu _1\text{,}\mu _2\text{,}\varSigma _1\text{,}\varSigma _2 μ1,μ2,Σ1,Σ2,分别为总体 G 1 G_1 G1和 G 2 G_2 G2的均值和协方差阵:
d 2 ( y , G 2 ) − d 2 ( y , G 1 ) = ( y − μ 2 ) ′ Σ − 1 ( y − μ 2 ) − ( y − μ 1 ) ′ Σ − 1 ( y − μ 1 ) = 2 [ y − ( μ 1 + μ 2 ) 2 ] ′ Σ − 1 ( μ 1 − μ 2 ) \begin{array}{l} d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _1 \right)\\ \end{array}=2\left[ \mathbf{y}-\frac{\left( \mu _1+\mu _2 \right)}{2} \right] '\Sigma ^{-1}\left( \mu _1-\mu _2 \right) d2(y,G2)−d2(y,G1)=(y−μ2)′Σ−1(y−μ2)−(y−μ1)′Σ−1(y−μ1)=2[y−2(μ1+μ2)]′Σ−1(μ1−μ2)
令
μ ˉ = μ 1 + μ 2 2 , α = Σ − 1 ( μ 1 − μ 2 ) = ( a 1 , a 2 , ⋯ , a p ) ′ \bar{\mu}=\frac{\mu _1+\mu _2}{2}\text{,}\alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) =\left( a_1,a_2,\cdots ,a_p \right) ' μˉ=2μ1+μ2,α=Σ−1(μ1−μ2)=(a1,a2,⋯,ap)′
则可以写成
W ( y ) = ( y − μ ˉ ) ′ α = α ′ ( y − μ ˉ ) = α ′ y − α ′ μ ˉ W\left( \mathbf{y} \right) =\left( \mathbf{y}-\bar{\mu} \right) '\alpha =\alpha '\left( \mathbf{y}-\bar{\mu} \right) =\mathbf{\alpha 'y}-\mathbf{\alpha '\bar{\mu}} W(y)=(y−μˉ)′α=α′(y−μˉ)=α′y−α′μˉ
则前面的判别法则表示为
{ y ∈ G 1 ,即 W ( y ) > 0 y ∈ G 2 , 即 W ( y ) < 0 待判,即 W ( y ) = 0 \left\{ \begin{array}{l} \mathbf{y}\in G_1\begin{matrix} \text{,即}& W\left( \mathbf{y} \right) >0\\ \end{matrix}\\ \\ \mathbf{y}\in G_2\text{,}\begin{matrix} \text{即}& W\left( \mathbf{y} \right) <0\\ \end{matrix}\\ \\ \text{待判,即}W\left( \mathbf{y} \right) =0\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1,即W(y)>0y∈G2,即W(y)<0待判,即W(y)=0
当 μ 1 , μ 2 , Σ 1 , Σ 2 \mu _1\text{,}\mu _2\text{,}\varSigma _1\text{,}\varSigma _2 μ1,μ2,Σ1,Σ2已知时, α = Σ − 1 ( μ 1 − μ 2 ) \alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) α=Σ−1(μ1−μ2) 是一个已知的p维向量,,当它们未知时,可通过样本来估计。
这个规则取决于 W(y) 的值,通常称 W(y) 为判别函数,由于它是的线性函数,又称为线性判别函数, α \alpha α 称为判别系数(类似于回归系数)。线性判别函数使用起来最方便,在实际应用中也最广泛。
2、当总体的协方差已知,且不相等,即 Σ 1 ≠ Σ 2 \varSigma _1\ne \varSigma _2 Σ1=Σ2
{ y ∈ G 1 ,即 d 2 ( y , G 1 ) < d 2 ( y , G 2 ) y ∈ G 2 ,即 d 2 ( y , G 2 ) < d 2 ( y , G 1 ) 待判,即 d 2 ( y , G 1 ) = d 2 ( y , G 2 ) \left\{ \begin{array}{l} \mathbf{y}\in G_1\text{,即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{,即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判,即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1,即d2(y,G1)<d2(y,G2)y∈G2,即d2(y,G2)<d2(y,G1)待判,即d2(y,G1)=d2(y,G2)
这里用
W ( y ) = d 2 ( y , G 2 ) − d 2 ( y , G 1 ) = ( y − μ 2 ) ′ Σ 2 − 1 ( y − μ 2 ) − ( y − μ 1 ) ′ Σ 1 − 1 ( y − μ 1 ) W\left( \mathbf{y} \right) =d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\Sigma _2^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\Sigma _1^{-1}\left( \mathbf{y}-\mu _1 \right) W(y)=d2(y,G2)−d2(y,G1)=(y−μ2)′Σ2−1(y−μ2)−(y−μ1)′Σ1−1(y−μ1)
作为判别函数,这时它是 y 的二次函数
2.1.3 多个总体距离判别法
1、 协差阵相等
设有 k 个总体 G 1 , G 2 , ⋯ , G k G_1,G_2,\cdots ,G_k G1,G2,⋯,Gk ,它们的均值分别是 μ 1 , μ 2 , ⋯ , μ k \mu _1,\mu _2,\cdots ,\mu _k μ1,μ2,⋯,μk,协方差阵均为 Σ \varSigma Σ 。类似两个总体的讨论,判别函数为:
W i j = ( y − ( μ i + μ j ) 2 ) ′ Σ − 1 ( μ i − μ j ) , i , j = 1 , 2 , ⋯ , k W_{ij}=\left( y-\frac{\left( \mu _i+\mu _j \right)}{2} \right) '\varSigma ^{-1}\left( \mu _i-\mu _j \right) \text{,}i,j=1,2,\cdots ,k Wij=(y−2(μi+μj))′Σ−1(μi−μj),i,j=1,2,⋯,k
相应的判别规则是:
{ y ∈ G i ,即 W i j ( y ) > 0 , ∀ j ≠ i 待判,即某个 W i j ( y ) = 0 \left\{ \begin{array}{l} y\in G_i\text{,即}W_{ij}\left( y \right) >0\text{,}\forall j\ne i\\ \\ \text{待判,即某个}W_{ij}\left( y \right) =0\\ \end{array} \right. ⎩⎨⎧y∈Gi,即Wij(y)>0,∀j=i待判,即某个Wij(y)=0
当 μ 1 , μ 2 , ⋯ , μ k \mu _1,\mu _2,\cdots ,\mu _k μ1,μ2,⋯,μk, Σ \varSigma Σ 未知时,可通过样本进行估计。
2、 协差阵不等
这时判别函数为
W i j ( y ) = ( x − μ i ) ′ Σ i − 1 ( x − μ i ) − ( x − μ j ) ′ Σ j − 1 ( x − μ j ) W_{ij}\left( y \right) =\left( x-\mu _i \right) '\varSigma _i^{-1}\left( x-\mu _i \right) -\left( x-\mu _j \right) '\varSigma _j^{-1}\left( x-\mu _j \right) Wij(y)=(x−μi)′Σi−1(x−μi)−(x−μj)′Σj−1(x−μj)
判别规则为
{ y ∈ G i ,即 W i j ( y ) < 0 , ∀ j ≠ i 待判,即某个 W i j ( y ) = 0 \left\{ \begin{array}{l} y\in G_i\text{,即}W_{ij}\left( y \right) <0\text{,}\forall j\ne i\\ \\ \text{待判,即某个}W_{ij}\left( y \right) =0\\ \end{array} \right. ⎩⎨⎧y∈Gi,即Wij(y)<0,∀j=i待判,即某个Wij(y)=0
2.2 Bayes判别法
距离判别只要求知道总体的特征量(即参数)—均值和协差阵,不涉及总体的分布类型, 当参数未知时,就用样本均值和样本协差阵来估计。因此,距离判别是一种十分简单实用,结论明确的方法,但该方法也有缺点:
- 该判别法与各总体出现的机会大小(先验概率)完全无关;
- 判别方法没有考虑错判造成的损失,这是不合理的。
总的来说,就是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验
概率)出现,也没有考虑误判之后所造成的损失的差异。
因此,使用 Bayes判别法可以很好的解决上述两个问题
2.2.1 Bayes的统计思想
贝叶斯统计学与经典统计学的差别在于,贝叶斯统计在重视使用总体信息、样本信息的同时,还十分重视先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来。先验信息就是抽样之前有关统计问题的一些信息,先验信息一般来源于经验和历史资料。
贝叶斯统计的基本思想:任一未知量 θ \theta θ 都可看作随机变量,根据经验或者历史资料,用一个概率分布去描述,这个分布称为先验分布;在获得样本之后,用样本来修正已有的认识(先验概率分布),得到后验概率分布 π ( θ ∣ x ) \pi \left( \theta |x \right) π(θ∣x)。后面的各种统计推断都基于这个后验概率分布来进行。
后验分布 π ( θ ∣ x ) \pi \left( \theta |x \right) π(θ∣x) 集中了总体、样本和先验中有关 θ \theta θ 的一切信息,而又是排除一切与 θ \theta θ 无关的信息之后得到的结果。
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) Σ P ( A ∣ B i ) P ( B i ) P\left( B_i|A \right) =\frac{P\left( A|B_i \right) P\left( B_i \right)}{\Sigma P\left( A|B_i \right) P\left( B_i \right)} P(Bi∣A)=ΣP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = f ( x ∣ θ ) π ( θ ) ∫ Θ f ( x ∣ θ ) π ( θ ) d θ \pi \left( \theta |x \right) =\frac{h\left( x,\theta \right)}{m\left( x \right)}=\frac{f\left( x|\theta \right) \pi \left( \theta \right)}{\int_{\Theta}{f\left( x|\theta \right) \pi \left( \theta \right) d\theta}} π(θ∣x)=m(x)h(x,θ)=∫Θf(x∣θ)π(θ)dθf(x∣θ)π(θ)
关于贝叶斯统计的知识,后面自己还会总结
设有 k 总体 G 1 , G 2 , ⋯ , G k G_1,G_2,\cdots ,G_k G1,G2,⋯,Gk, G i G_i Gi具有具有概率密度函数 f i ( x ) f_i\left( x \right) fi(x)。并且根据以往的统计分析(经验或历史资料),知道 G i G_i Gi 出现的概率为 q i q_i qi。即当已知样本 x 0 x_0 x0 发生时,求它属于 G i G_i Gi 类的概率。由贝叶斯公式计算后验概率,有:
P ( G i ∣ x 0 ) = q i f i ( x 0 ) Σ q j f j ( x 0 ) P\left( G_i|x_0 \right) =\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)} P(Gi∣x0)=Σqjfj(x0)qifi(x0)
判别规则:
P ( G h ∣ x 0 ) = q h f h ( x 0 ) Σ q j f j ( x 0 ) = max 1 ≤ i ≤ k { P ( G i / x ) } = max 1 ≤ i ≤ k q i f i ( x 0 ) Σ q j f j ( x 0 ) P\left( G_h|x_0 \right) =\frac{q_hf_h\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}=\underset{1\le i\le k}{\max}\left\{ P\left( G_i/x \right) \right\} =\underset{1\le i\le k}{\max}\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)} P(Gh∣x0)=Σqjfj(x0)qhfh(x0)=1≤i≤kmax{P(Gi/x)}=1≤i≤kmaxΣqjfj(x0)qifi(x0)
则 x 0 x_0 x0 判给 G h G_h Gh 。在正态的假定下, f h ( x ) f_h\left( x \right) fh(x) 为正态分布的密度函数。
特别de ,若总体服从正态分布,则
q h f h ( x 0 ) = max q i f i ( x 0 ) 1 ≤ i ≤ k q_{\text{h}}f_h\left( x_0 \right) =\underset{1\le i\le k}{\max q_if_i\text{(}x_0\text{)}} qhfh(x0)=1≤i≤kmaxqifi(x0)
则 x 0 x_0 x0 判给 G h G_h Gh
2.2.2 多元正态总体的Bayes判别法
在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别法。
(1)判别函数的导出
由前面的叙述可知,使用Bayes判别法作判别分析,首先要知道待判总体的先验概率和密度函数。对于先验概率,一般用样品的频率来代替。或者令先验概率 π ( θ ) = 1 \pi \left( \theta \right) =1 π(θ)=1 或相等,这时可以认为先验概率不起作用。
设正态分布密度函数为:
f i ( x ) = 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 f_i\left( x \right) =\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} fi(x)=(2π∣Σi∣)1/21e−2(x−μ(i))′Σi−1(x−μi)
q i f i ( x ) = q i 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 q_if_i\left( x \right) =q_i\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} qifi(x)=qi(2π∣Σi∣)1/21e−2(x−μ(i))′Σi−1(x−μi)
上式两边取对数并去掉与 i 无关的项,则等价的判别函数为:
z i ( x ) = ln ( q i f i ( x ) ) = ln q i − 1 2 ln | Σ i ∣ − 1 2 ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ ( i ) ) ] z_i\left( x \right) =\ln \left( q_if_i\left( \mathbf{x} \right) \right) =\ln q_i-\frac{1}{2}\ln\text{|}\Sigma _i|-\frac{1}{2}\left( x-\mu ^{\left( i \right)} \right) '\Sigma _{i}^{-1}\left( x-\mu ^{\left( i \right)} \right) \text{]} zi(x)=ln(qifi(x))=lnqi−21ln|Σi∣−21(x−μ(i))′Σi−1(x−μ(i))]
问题转化为:
若 Z h ( x ) = max 1 ≤ i ≤ k [ Z i ( x ) ] Z_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ Z_i\left( x \right) \right] Zh(x)=1≤i≤kmax[Zi(x)]
则 x x x 判给 G h G_h Gh 。
1、协方差相等,即 Σ 1 = Σ 2 = ⋯ = Σ k = Σ \varSigma _1=\varSigma _2=\cdots =\varSigma _k=\varSigma Σ1=Σ2=⋯=Σk=Σ
则判别函数退化为
z i ( x ) = ln q i − 1 2 ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) ) z_i\left( x \right) =\ln q_i-\frac{1}{2}\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)} zi(x)=lnqi−21(x−μ(i))′Σ−1(x−μ(i))
= − 1 2 [ − 2 ln q i + ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) )] =-\frac{1}{2}\text{[}-2\ln q_i+\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)]} =−21[−2lnqi+(x−μ(i))′Σ−1(x−μ(i))]
令
{ F i ( x ) = − 2 ln q i + ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) ) P i ( x ) = − 2 ln q i − 2 μ ( i ) ′ Σ − 1 x + μ ( i ) ′ Σ − 1 μ ( i ) \left\{ \begin{array}{l} F_i\left( x \right) =-2\ln q_i+\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\mathbf{)'}\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)}\\ \\ P_i\left( x \right) =-2\ln q_i-2\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}\\ \end{array} \right. ⎩⎨⎧Fi(x)=−2lnqi+(x−μ(i))′Σ−1(x−μ(i))Pi(x)=−2lnqi−2μ(i)′Σ−1x+μ(i)′Σ−1μ(i)
问题转化为
若
P h ( x ) = min 1 ≤ i ≤ k [ P i ( x ) ] P_h\left( x \right) =\underset{1\le i\le k}{\min}\left[ P_i\left( x \right) \right] Ph(x)=1≤i≤kmin[Pi(x)]
则 x x x 判给 G h G_h Gh
又由
P i ( x ) = − 2 ( ln q i − 1 2 μ ( i ) Σ − 1 μ ( i ) + μ ( i ) Σ − 1 x ) P_i\left( x \right) =-2\left( \ln q_i-\frac{1}{2}\mu ^{\left( i \right)}\varSigma ^{-1}\mu ^{\left( i \right)}+\mu ^{\left( i \right)}\varSigma ^{-1}x \right) Pi(x)=−2(lnqi−21μ(i)Σ−1μ(i)+μ(i)Σ−1x)
令
m i ( x ) = ln q i − 1 2 μ ( i ) ′ Σ − 1 μ ( i ) + μ ( i ) ′ Σ − 1 x m_i\left( \mathbf{x} \right) =\ln q_i-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x} mi(x)=lnqi−21μ(i)′Σ−1μ(i)+μ(i)′Σ−1x
问题转化为
若
m h ( x ) = max 1 ≤ i ≤ k [ m i ( x ) ] m_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ m_i\left( x \right) \right] mh(x)=1≤i≤kmax[mi(x)]
则 x x x 判给 G h G_h Gh
当先验概率相等, q 1 = ⋯ = q k = 1 k q_1=\cdots =q_k=\frac{1}{k} q1=⋯=qk=k1
有
m i ( x ) = − 1 2 μ ( i ) ′ Σ − 1 μ ( i ) + μ ( i ) ′ Σ − 1 x m_i\left( \mathbf{x} \right) =-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x} mi(x)=−21μ(i)′Σ−1μ(i)+μ(i)′Σ−1x
完全成为距离判别法 。
2.3 Fisher判别法
2.3.1 Fisher判别的基本思想
Fisher(费歇)判别的基本思想是投影,将k组m维数据投影到某一个方向,使得投影后组与组之间尽可能地分开,而衡量组与组之间是否分开的方法借助于一元方差分析的思想,利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出.
该判别方法对总体的分布不做任何要求。
从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数:
Y = C 1 X 1 + C 2 X 2 + ⋯ + C p X p Y=C_1X_1+C_2X_2+\cdots +C_pX_p Y=C1X1+C2X2+⋯+CpXp
其中系数 C 1 , C 2 , ⋯ , C p C_1,C_2,\cdots ,C_p C1,C2,⋯,Cp 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。
假设可以得到一个线性判别函数:
y = c 1 x 1 + c 2 x 2 + ⋯ + c p x p y=c_1x_1+c_2x_2+\cdots +c_px_p y=c1x1+c2x2+⋯+cpxp
可以把两个总体的样品代入上面的判别式
y i ( 1 ) = c 1 x i 1 ( 1 ) + c 2 x i 2 ( 1 ) + ⋯ + c p x i p ( 1 ) y_{i}^{\left( 1 \right)}=c_1x_{i1}^{\left( 1 \right)}+c_2x_{i2}^{\left( 1 \right)}+\cdots +c_px_{ip}^{\left( 1 \right)} yi(1)=c1xi1(1)+c2xi2(1)+⋯+cpxip(1)
y i ( 2 ) = c 1 x i 1 ( 2 ) + c 2 x i 2 ( 2 ) + ⋯ + c p x i p ( 2 ) y_{i}^{\left( 2 \right)}=c_1x_{i1}^{\left( 2 \right)}+c_2x_{i2}^{\left( 2 \right)}+\cdots +c_px_{ip}^{\left( 2 \right)} yi(2)=c1xi1(2)+c2xi2(2)+⋯+cpxip(2)
分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:
{ y ˉ ( 1 ) = ∑ k = 1 p c k x ˉ k ( 1 ) y ˉ ( 2 ) = ∑ k = 1 p c k x ˉ k ( 2 ) \left\{ \begin{array}{l} \bar{y}^{\left( 1 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 1 \right)}}\\ \\ \bar{y}^{\left( 2 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 2 \right)}}\\ \end{array} \right. ⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧yˉ(1)=k=1∑pckxˉk(1)yˉ(2)=k=1∑pckxˉk(2)
最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。
组间离差平方和:
( Y ˉ ( 1 ) − Y ˉ ) 2 + ( Y ˉ ( 2 ) − Y ˉ ) 2 = ( Y ˉ ( 1 ) − Y ˉ ( 1 ) + Y ˉ ( 2 ) 2 ) 2 + ( Y ˉ ( 2 ) − Y ˉ ( 1 ) + Y ˉ ( 2 ) 2 ) 2 \left( \bar{Y}^{\left( 1 \right)}-\bar{Y} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\bar{Y} \right) ^2=\left( \bar{Y}^{\left( 1 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2 (Yˉ(1)−Yˉ)2+(Yˉ(2)−Yˉ)2=(Yˉ(1)−2Yˉ(1)+Yˉ(2))2+(Yˉ(2)−2Yˉ(1)+Yˉ(2))2
= 1 4 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 + 1 4 ( Y ˉ ( 2 ) − Y ˉ ( 1 ) ) 2 = 1 2 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 = 1 2 ( c ′ X ˉ ( 1 ) − c ′ X ˉ ( 2 ) ) 2 =\frac{1}{4}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2+\frac{1}{4}\left( \bar{Y}^{\left( 2 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2=\frac{1}{2}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2=\frac{1}{2}\left( \mathbf{c'}\bar{X}^{\left( 1 \right)}-\mathbf{c'}\bar{X}^{\left( 2 \right)} \right) ^2 =41(Yˉ(1)−Yˉ(2))2+41(Yˉ(2)−Yˉ(1))2=21(Yˉ(1)−Yˉ(2))2=21(c′Xˉ(1)−c′Xˉ(2))2
总体内部的方差和:
E ( Y ( 1 ) − Y ˉ ( 1 ) ) 2 + E ( Y ( 2 ) − Y ˉ ( 2 ) ) 2 E\left( Y^{\left( 1 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2+E\left( Y^{\left( 2 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2 E(Y(1)−Yˉ(1))2+E(Y(2)−Yˉ(2))2
I = 组间离差平方和 组内方差和 I=\frac{\text{组间离差平方和}}{\text{组内方差和}} I=组内方差和组间离差平方和
I = 1 2 c ′ ( X ˉ ( 1 ) − X ˉ ( 2 ) ) ( X ˉ ( 1 ) − X ˉ ( 2 ) ) ′ c c ′ Σ c I=\frac{\frac{1}{2}\mathbf{c'}\left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) \left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) '\mathbf{c}}{\mathbf{c'}\varSigma \mathbf{c}} I=c′Σc21c′(Xˉ(1)−Xˉ(2))(Xˉ(1)−Xˉ(2))′c
I 最小时判别 函数最好
判别准则 :
定义临界点为:
y 0 = n 1 y ˉ ( 1 ) + n 2 y ˉ ( 2 ) n 1 + n 2 y_0=\frac{n_1\bar{y}^{\left( 1 \right)}+n_2\bar{y}^{\left( 2 \right)}}{n_1+n_2} y0=n1+n2n1yˉ(1)+n2yˉ(2)
不妨假设:
y ˉ ( 1 ) > y ˉ ( 2 ) \bar{y}^{\left( 1 \right)}>\bar{y}^{\left( 2 \right)} yˉ(1)>yˉ(2)
如果由原始数据 y 求得判别函数得分为 Y*,对与一个样本代入判别函数中,若 Y*> Y 0 Y_0 Y0,则判给G1,否则判给G2。
2.4 逐步判别法
判别分析(Discriminate Analysis)相关推荐
- LDA (Linear Discriminate Analysis)Fisher Criteria
之前说到的PCA,它主要的目的是寻找数据variance变化最大的轴.通过删去数据中variance变化不大的轴来压缩数据的维数.PCA没有办法很好的解决数据分类的问题(classification) ...
- datagrid出现相同两组数据_数据分析之统计学
统计学知识 思维导图 第一节 统计学基本原理 数据分析相关概念 一.描述统计 测量尺度 1.定类(nominal) 功能:分类的作用,比如性别 2.定序(ordinal) 功能:分类.排序的作用,比如 ...
- 判别分析分为r型和q型吗_聚类分析与判别分析
一.聚类分析的基本思想 1.什么是聚类分析 俗语说,物以类聚.人以群分. 当有一个分类指标时,分类比较容易. 但是当有多个指标,要进行分类就不是很容易了. 比如,要想把中国的县分成若干类,可以按照自然 ...
- 人工智能之机器学习常见算法
https://blog.csdn.net/BaiHuaXiu123/article/details/51475384 摘要 之前一直对机器学习很感兴趣,一直没时间去研究,今天刚好是周末,有时间去各大 ...
- 离线轻量级大数据平台Spark之MLib机器学习库概念学习
Mlib机器学习库 1.1机器学习概念 机器学习有很多定义,倾向于下面这个定义.机器学习是对能通过经验自动改进的计算机算法的研究.机器学习依赖数据经验并评估和优化算法所运行出的模型.机器学习算法尝试根 ...
- 机器学习常见算法汇总
原文地址:http://www.ctocio.com/hotnews/15919.html 偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文 机器学习无疑是当前数据分 ...
- Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l&qu ...
- 机器学习——常用算法的总结
机器学习常用算法总结 机器学习--常用算法的总结 学习方式 一.监督式学习: 1.分类 2.回归 补充--线性回归与逻辑回归 二.非监督式学习: 三.半监督式学习: 四.强化学习: 算法类似性 一.回 ...
- 机器学习/人工智能 知识图谱
可以为自己建立一个机器学习的知识图谱,并争取掌握每一个经典的机器学习理论和算法,简单地总结如下: 1)回归算法: 最小二乘法(OrdinaryLeast Square) 逻辑回归(Logistic R ...
最新文章
- hub-spock-ospf,nbma
- sql: TRIGGER
- vscode 默认初始化_VSCode设置初始化模板
- json如何把键名作为变量?
- 谈一下对绩效和自身技能发展的理解
- 滚动条造成页面抖动问题
- oracle表单独创建完成之后,在加备注语法
- Termux第一篇之ssh使用
- 一篇博客搞定Django基础
- Ubuntu搭建KMS服务
- lidar_camera_calib代码解读-优化部分
- 【数字钟】数字电路设计 24 小时数字钟(带加速、暂停、滴答声、清零功能)
- idea properties中文乱码uncode转中文
- Postman发送请求失败报错“Error: getaddrinfo ENOTFOUND xxx.xxx.xxx.xxx“
- Fresher练打字
- 苹果电脑构建XLua的arm64-v8a、armeabi-v7a、x86等的so库,
- JSON does not allow non-finite numbers
- eclipse安装与配置maven插件
- python一般用几个空格表示缩进_Python 就是使用缩进来表示代码块,一般使用几个空格来表示一个缩进_女子礼仪答案_学小易找答案...
- 自我鉴定计算机专业大学,计算机专业大学生自我鉴定
热门文章
- 端口被占用,简单快捷的解决方法
- 2020年中国德化陶瓷博览会暨茶具文化节隆重举行—五洲御瓷分会场精品荟萃
- 猿团科技的加入为成都天府软件园注入年轻的活力
- 记frp内网穿透配置
- dha哪里提取的好_孕妇吃什么dha好 藻油提取的DHA最适合
- something just like this
- Revit API 开发 (10): ExtensibleStorage 外部存储
- 【Dungeon Hunter 3】地牢猎手3 v1.0.8 GameLoft最新动作游戏大作 免wifi验证
- 淘宝美工 电商设计PS零基础到实战课程学习目录-来自于三人行慕课
- 北京内推 | 中科院自动化所招聘机器视觉感知与理解算法工程师/实习生