模式识别常见概念解析

模式识别重点基础概念

0前言

本文章是模式识别期末复习总结，仅依据我们老师指出的重点内容进行梳理，着重于对基本概念与重要算法核心思想的理解，无推导过程。观点主要参考张学工《模式识别》（第三版），Google，知乎，以及自己的浅薄理解。

欢迎评论，如果对你有帮助的话给个赞。

1概论

什么是模式识别（pattern recognition）

模式是一种规律，英文pattern有两层意思：一是代表事物（个体或一组事物）的模板或原型；二是表征事物特点的特征或性状组合。模式是指因素间存在确定性或随机性规律的对象、过程或事件的集合。

识别就是把对象分门别类地认出来，英文recognition的意思是对以前见过的对象再认识（re-cognition）。

换而言之，模式识别是指把对象根据其特征归到若干类别中适当的一类。模式识别也称为模式分类。

样本（sample）：所研究对象的一个个体。

样本集（sample set）：若干样本的集合。

类或类别（class）：在所有样本上定义的一个子集，处于同一类的样本具有相同的模式。

特征(feature)：表征样本的特点或性状的量化集合，通常是数值表示（对非数值型要转换为数值型），也被称作属性（attribute）。如果存在多个特征，它们就组成特征向量(feature vector)。样本的特征构成了样本特征空间，空间的维数就是特征维数，每个样本是样本空间的一个点。

P4 模式识别的主要方法

模式识别的方法可以归纳为基于知识的方法和基于数据的方法。

1.基于知识的方法
根据专家系统给出的关于研究对象的知识，整理出研究对象的特征与研究对象所属类别的关系，之后让计算机根据这个推理关系对未知对象进行分类。

2.基于数据的方法

基于数据的方法就是基于统计的方法，即依据统计原理来构造分类器，来对未知样本进行预测。

分类器：是将输入数据映射到特定类别的函数。

P5 有监督和无监督区别

简单来说，类别已定的叫做有监督分类，反之是无监督分类。前者，因为我们有已知类别的样本作为学习过程的“导师”，所以很多时候，有监督学习和无监督学习也称作有导师学习和无导师学习；后者，我们事先并不知道要多少类别，我们要做的是根据样本特征将样本聚类（clustering），使属于同一类的样本一定意义上是相似的，不同类之间的样本则有较大差异。需要注意的是，在很多非监督模式识别中，聚类的结果不是唯一的，因为“相似”是从某个角度看上去的相似，这里的角度就是前面提到的特征。根据样本特征向量中的不同特征去聚类，会得到不同的结果。

P11 模式识别系统典型过程

监督模式识别

非监督模式识别

2统计决策方法

Bayes决策:无特殊说明下的贝叶斯决策通常是指最小错误率贝叶斯决策

贝叶斯公式：

$P (\omega_{i} | x) = \frac{p(x,\omega_{i})}{p(x)} =\frac{ p(x|\omega_{i})p(\omega_{i}) } {p(x)}$

其中， $P(\omega_{i})$ 是先验概率； $p(x,\omega_{i})$ 是 $x$ 与 $\omega_{i}$ 的联合概率密度； $p(x)$ 是概率密度，称作总体密度； $p(x|\omega_{i})$ 是类条件密度。这样后验概率就转换成先验概率与类条件概率的乘积，再用总体密度进行归一化。

贝叶斯决策：在类条件概率密度 $p(x|\omega_{i})$ 和先验概率 $P(\omega_{i})$ 已知的情况下，通过贝叶斯公式比较样本属于类别的后验概率，将类别决策为后验概率最大的一类，这样做的目的是为了使总体错误率最小。

最小错误率贝叶斯决策：在一般的模式识别问题中，我们希望尽量减少分类的错误，即追求最小错误率。从最小错误率这个目标出发，利用概率论中的贝叶斯公式，就能得到使错误率最小的决策，称之为最小错误率贝叶斯决策。

最小风险贝叶斯决策：在某些问题中，我们不但关系所作决策是否错误，更应该关系决策错误带来的损失与风险，毕竟，不同错误带来的损失往往差别很大。所谓最小风险贝叶斯决策，就是考虑各种错误造成损失不同时的一种最优决策。

举例：医生看病，①将病人诊断为健康，实际病人有癌症；②将病人诊断为患了癌症，实际病人没有患病，这两种情况都是决策错误，但是决策错误带来的后果（损失或风险）是不一样的。

所以最小风险的贝叶斯决策本质就是最小错误率贝叶斯决策的加权和。

求解最小错误率Bayes需要知道哪些条件？

类概率条件和先验概率 ->求解后验概率

Neyman-Pearson决策准则（NP决策）

损失函数无法确定；先验概率p(w)未知，是一个确定的值；某一种错误较另一种错误更为重要。
需要用Lagrange乘子法求条件极值。

这种限定一类错误率为常数而使另一类错误率最小的决策规则称为Neyman-Pearson决策准则

对照样本：正样本

病理样本：负样本

假阳性：将阴性决策为阳性

假阴性：将阳性决策为阴性

灵敏度 $S_{n}=\frac{TP}{TP+FN}$ ，表示把真正的阳性样本正确识别出来的能力（ $TP+FN$ 表示实际都是阳性的样本数量）

特异度 $S_{p}=\frac{TN}{TN+FP}$ ，表示把真正的阴性样本正确误判出来的能力（ $TN+FP$ 表示实际都是阴性的样本数量）

其中TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性

降低两类错误率（假阳性、假阴性）的方法：增加样本量，这可以使得抽样样本尽可能接近总体，具有更好的代表性

受试者工作特征曲线（receiver operating characteristic curve，简称ROC曲线），又称为感受性曲线（sensitivity curve）

方法性能比较（A>B>C）

纵坐标：真阳性率（灵敏度），横坐标假阳性率（1-特异度）

ROC曲线的两类应用：阈值选择、评价指标

①求不同阈值情况两类错误率，画出ROC曲线，然后根据对两类错误率或对灵敏度和特异度的要求确定曲线上某一适当的工作点，依次确定阈值。

②用来比较两种分类判别方法的性能和用来作为特征与类型相关性的度量，ROC曲线越靠近左上角，说明方法性能越好

P36 离散概率模型：马尔可夫链（Markov chain）

tips：这里应该值得强调一下链（chain），因为它很形象地描述了马尔可夫链的相邻位置之间的依赖关系的特点，可以在下面的解释中好好体会

先说两个概念：

马尔可夫过程：很多事情的发生，和之前的铺垫或经历没有任何关系。比如投硬币，第一次投硬币，无论是正面还是反面，对于第二次投硬币的结果没有任何影响。但是第一次和第二次投硬币，有个时间顺序；只是这个时间顺序，并没有对这两件事情各自有什么影响。这就是马尔可夫过程——“在已经知道过程‘现在’的条件下，其‘将来’不依赖‘过去’”。

马尔可夫链：时间、状态都是离散的马尔可夫过程称为马尔可夫链。（“离散”就是不连续，是“点”，而不是“线”。比如每一年对应一个值，但不可以把这些值用“线”连接起来）

数学定义：时间和状态都是离散的马尔可夫过程称为马尔可夫链，简称马氏链，记为 $\left \{ {{ X_{n}=X(n),n=0,1,2,... }} \right \}$

它可以看作时间集 $\left \{ T_{1}={0,1,2,...} \right \}$ 上对离散状态的马氏链相继观察的结果。我们约定记链的状态空间为 $I= \left \{ a_{1} ,a_{2},... \right \},a_{i}\epsilon \mathbb{R}$ .在链的情形，马尔可夫性通常用条件分布律来表示，即对任意的正整数 $n,r$ 和 $0\leq t_{1}<t_{2}<...<t_{r}<m;\ \ t_{i},\ m,\ n+m \ \epsilon \ T_{i}$ ,有

$P\left \{ X_{m+n}=a_{j} |X_{t_{1} }=a_{i_1} ,X_{t_{1} }=a_{i_1},...,X_{t_{r} }=a_{i_r} ,X_{m }=a_{i} \right \} = P\left \{ X_{m+n}=a_{j}|X_{m}=a_{i} \right \}$

记住一句有趣的话：马尔科夫——今天的事情只取决于昨天，而明天的事情只取决于今天，与历史毫无关联

P41 统计决策的基本原理

统计决策的基本原理就是根据各类特征的概率模型来估算后验概率，通过比较后验概率进行决策。

3概率密度函数的估计

这里要指出，参数估计中，已知概率密度函数的形式（即我们知道这些样本符合某种分布函数，如：正态分布、均匀分布、 0-1分布等），但其中部分或全部参数未知，概率密度函数的估计问题就是用样本来估计这些参数。

P43-44 参数估计中的基本概念：

统计量。指不含未知参数的样本函数。如样本 $x_{1},x_{2},...,x_{n}$ 的算术平均值 $\frac{1}{n}\sum_{i=1}^{n}x_i$

参数空间。在参数估计中，总是假设总体概率密度函数的形式已知，而未知的仅是分布中的几个参数，将未知参数记为 $\theta$ ，在统计学中，将总体分布未知参数 $\theta$ 的全部可容许值组成的集合称为参数空间，记为 $\Theta$ 。

点估计、估计量和估计值。点估计就是要构造一个统计量 ${\color{Red} d(x_i,..,x_N)}$ 作为参数 $\theta$ 的估计 $\hat{ \theta }$ ,在统计学中称 $\hat{ \theta }$ 为 $\theta$ 的估计量。如果 $x_1 ^ {i},...,x_N^{i}$ 是属于类别的 $\omega _i$ 几个样本估计值，代入统计量 ${\color{Red} d(x_i,..,x_N)}$ 就得到对于第i类的 $\hat{ \theta }$ 具体的数值，这个数值称为 $\theta$ 的估计值。

区间估计。区间估计是除点估计之外的另一类参数估计。相对于点估计只给出一个具体的数值，区间估计能够给出一个估计的范围。区间估计 = 点估计值 ± 边际误差。这个区间称为置信区间。

极大似然估计（maximum likelihood estimate）

知乎：一文搞懂极大似然估计

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值。

换而言之，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

还是比较抽象，我们这样想，一当模型满足某个分布，它的参数值我通过极大似然估计法求出来的话。比如正态分布中公式如下：

如果我通过极大似然估计，得到模型中参数 ${\color{Red} {\color{Red} }\mu}$ 和 ${\color{Red} \sigma }$ 的值，那么这个模型的均值和方差以及其它所有的信息我们是不是就知道了呢。确实是这样的。

值得注意：极大似然估计中采样需满足一个重要的假设，就是所有的采样都是独立同分布的。

非参数估计：Parzen窗法(Parzen Window Method)

在许多真实的复杂情况中，条件概率的形式往往是未知的，它很可能并不服从我们所做的假设,参数估计并不能很好地拟合数据分布，这也就是非参估计的由来。

非参估计的优点十分显著，即它不需要任何对分布形式的假设，能根据数据特性自适应地估计出相应地密度函数。因此它适应于对数据没有任何先验知识的复杂分布情形。

非参数估计的方法主要有：直方图法、核方法。Parzen窗估计属于核方法的一种。

这里我还不太理解Parzen窗法，有需要点击：Parzen窗估计

4线性分类器

引言

实际上，模式识别的目的是在特征空间中设法找到两类（或多类）之间的分界面，估计概率密度函数并不是我们的目的，也就是说，我们既可以通过概率密度函数来帮助我们找出分界面，也可以直接利用样本来设计分类器找分界面。

Finsher线性判别分析(LDA)

Fisher线性判别的思想就是，选择投影方向，使投影后两类相隔尽可能远，而每个一类内部的样本有尽可能聚集。

Fisher判别分析的思想非常朴素：给定训练样本集，设法将样例投影到一条直线上，使得同类样本的投影点尽可能聚集、不同类样本的投影点尽可能远离。在对新样本进行分类时，将其投影到同样的这条直线上，再根据新样本投影点的位置来确定它的类别。如下所示，给出了一个二维示意图。

P71 最优分类超平面

Support Vector Machine — Introduction to Machine Learning Algorithms（此链接需要科学上网）

定义：一个超平面，①如果它能够将训练样本没有错误地分开，②并且两类训练样本中离超平面最近的样本与超平面之间的距离最大，则把这个超平面称作最优分类超平面。两类样本中离分类超平面最近的样本到分类面的距离称作分类间隔，最优分类超平面也称作最大间隔超平面。

我们再看看别人英文博客的定义（很通俗！！）：

Hyperplanes ： Hyperplanes are decision boundaries that help classify the data points. Data points falling on either side of the hyperplane can be attributed to different classes. Also, the dimension of the hyperplane depends upon the number of features. If the number of input features is 2, then the hyperplane is just a line. If the number of input features is 3, then the hyperplane becomes a two-dimensional plane. It becomes difficult to imagine when the number of features exceeds 3.

Hyperplanes in 2D and 3D feature space

P73 支持向量（support vector）是什么

Support Vectors

Support Vectors： Support vectors are data points that are closer to the hyperplane and influence the position and orientation of the hyperplane. Using these support vectors, we maximize the margin of the classifier. Deleting the support vectors will change the position of the hyperplane. These are the points that help us build our SVM.

支持向量的定义：支持向量（Support Vector）是指训练样本集中的某些训练样本，这些样本最靠近分类决策面，它们决定了最终的最优分类超平面的位置。这些样本被称作支持向量。

分类器推广性两个参数：样本量和复杂程度

一般来说，样本量越大，分类器推广性越好；而复杂程度越大，分类器推广性越差。

5多层感知器神经网络

P87 ANN基本思想

基本思想：根据对自然神经系统构造和机理的认识，神经系统系统是由大量神经细胞（神经元）构成的复杂的网络，人们对这一网络建立一定的数学模型和算法，设法使它能够实现基于数据的模式识别、函数映射等带有“智能”的功能，这种网络就是人工神经网络。

P95 BP算法的思想、基本做法

基本思想：BP算法的目标函数是所有训练样本的预测输出与期望输出的均方误差，采用梯度下降法通过调整各层的权值求目标函数最小化。

基本做法：BP算法由信号的正向传播和误差的反向传播两个过程组成。

正向传播时，输入样本从输入层进入网络，经隐层逐层传递至输出层，如果输出层的实际输出与期望输出(导师信号)不同，则转至误差反向传播；如果输出层的实际输出与期望输出(导师信号)相同，结束学习算法。

反向传播时，将输出误差(期望输出与实际输出之差)按原通路反传计算，通过隐层反向，直至输入层，在反传过程中将误差分摊给各层的各个单元，获得各层各单元的误差信号，并将其作为修正各单元权值的根据。这一计算过程使用梯度下降法完成，在不停地调整各层神经元的权值和阈值后，使误差信号减小到最低限度。

权值和阈值不断调整的过程，就是网络的学习与训练过程，经过信号正向传播与误差反向传播，权值和阈值的调整反复进行，一直进行到预先设定的学习训练次数，或输出误差减小到允许的程度。

P99 ANN三要素：神经元的传递函数、网络结构（神经元得数目和相互间的连接形式）和连接权值得学习算法

P100 隐含层节点选择

通常有三种选择多层神经网络隐含层个数和隐含层节点数目的做法：

根据具体问题进行试探选择。虽然神经网络结构选择缺乏理论指导，但对于很多问题来说，只要经过几次试算就可能找到比较恰当的隐含层节点数目，而且这个数目一些不大的变化并不会严重影响网络的性能。

根据对问题的先验经验去精心地设计隐含层节点的层数和节点数目。

用算法来确定隐层节点数目，如裁剪方法：初始化时采用较多隐层节点，在BP算法学习到一定程度时，检查各节点的权值，将权值过小的删除，对剩余的神经网络重新训练，经过多次裁剪可以得到一个比较合理的网络。

传递函数：Sigmoid函数、Relu函数

Sigmoid函数

定义：

Sigmoid函数是一个在生物学中常见的S型的函数，也称为S型生长曲线。Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0,1之间。

${\color{Red} S(x)= \frac{1}{1+e^{-x}} = \frac{e^x}{e^x+1}}$

优点：平滑、易于求导。

缺点：激活函数计算量大，反向传播求误差梯度时，求导涉及除法；反向传播时，很容易就会出现梯度消失的情况，从而无法完成深层网络的训练。

Relu函数

公式： ${\color{Red} f(x)=max(0,x)}$

2001年，神经科学家Dayan、Abott从生物学角度，模拟出了脑神经元接受信号更精确的激活模型，该模型如左图所示：

这个模型对比Sigmoid系主要变化有三点：① 单侧抑制； ② 相对宽阔的兴奋边界；③ 稀疏激活性 （重点，可以看到红框里前端状态完全没有激活）

优点：使用 ReLU得到的SGD的收敛速度会比 sigmoid/tanh 快。这是因为它是linear，而且ReLU只需要一个阈值就可以得到激活值，不用去计算复杂的运算。

缺点：训练过程该函数不适应较大梯度输入，因为在参数更新以后，ReLU的神经元不会再有激活的功能，导致梯度永远都是零。

P103 SVM基本思想

SVM的基本思想可以概括为，首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求最优分类超平面即最大间隔分类平面，而这种非线性变换是可以通过定义适当的内积核函数实现的。

P107 SVM核函数如何选择

常用核函数形式 $k(x_i,x_j)=\phi (x_i)\cdot \phi (x_j)$

线性核函数

$k(x_i,x_j)=x_i\cdot x_j$

多项式核函数

$k(x_i,x_j)=((x\cdot x_i)+1)^d$

高斯（RBF）核函数

$k(x_i,x_j)=exp( -\frac{\left \| x-x_i \right \|^2}{\delta ^2} )$

Sigmoid核函数

$k(x_i,x_j)=tanh(\eta <x,x_i>+\theta )$

在选用核函数的时候，如果我们对我们的数据有一定的先验知识，就利用先验来选择符合数据分布的核函数；如果不知道的话，通常使用交叉验证的方法，来试用不同的核函数，误差最小的即为效果最好的核函数，或者也可以将多个核函数结合起来，形成混合核函数。在吴恩达的课上，也曾经给出过一系列的选择核函数的方法：

如果特征的数量大到和样本数量差不多，则选用LR或者线性核的SVM；

如果特征的数量小，样本的数量正常，则选用SVM+高斯核函数；

如果特征的数量小，而样本的数量很大，则需要手工添加一些特征从而变成第一种情况。

P111 支持向量机的特点

SVM的主要特点是它能够在样本数相对较少、特征维数高的情况下仍能取得较好的推广能力。

P119 ANN、SVM复杂程度取决于什么？

人工神经网络分类面的复杂程度主要取决于网络结构和训练样本的分布；

支持向量机分类面的复杂程度主要取决于核函数的选择和训练样本的分布。

6 其他分类方法

P120 什么是最近邻法（K-最近邻法）

KNN算法算法又称为K最近邻分类算法。所谓的K最近邻，就是指最接近的K个邻居，即每个样本都可以由它的K个邻居来表示。

KNN算法的思想是，在一个含未知样本的空间，可以根据离这个样本最邻近的K个样本的数据类型来确定样本的数据类型。

该算法涉及3个主要因素：分类决策规则、距离与相似的衡量、K的大小。

KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。

对于距离的度量，我们有很多的距离度量方式，但是最常用的是欧式距离。

K值的选择，过小则容易过拟合，过大则容易欠拟合，可以使用交叉验证法选取K值。

什么是决策树

决策树是一种分类和回归的基本模型，可从三个角度来理解它，即：

一棵树

if-then规则的集合，该集合是决策树上的所有从根节点到叶节点的路径的集合

定义在特征空间与类空间上的条件概率分布，决策树实际上是将特征空间划分成了互不相交的单元，每个从根到叶的路径对应着一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。实际中，哪个类别有较高的条件概率，就把该单元中的实例强行划分为该类别。

举例：下面就是一颗决策树，是If-Then规则的集合，绿色的{年收入，有房产}组成特征空间，{可以贷款，不能贷款}构成分类空间。

什么是随即森林

随机森林属于集成学习的 Bagging（Bootstrap AGgregation 的简称）方法。如果用图来表示他们之间的关系如下：

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。当我们进行分类任务时，新的输入样本进入，就让森林中的每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。

什么是罗杰斯特回归

和很多其他机器学习算法一样，逻辑回归也是从统计学中借鉴来的，尽管名字里有回归俩字儿，但它不是一个需要预测连续结果的回归算法。

与之相反，逻辑回归（Logistic Regression）主要解决二分类问题，用来表示某件事情发生的可能性。它输出一个 0 到 1 之间的离散二值结果。简单来说，它的结果不是 1 就是 0。

比如：

一封邮件是垃圾邮件的肯能性（是、不是）

你购买一件商品的可能性（买、不买）

广告被点击的可能性（点、不点）

什么是提升（Boosting）方法

Boosting方法是集成算法中的一类方法。

提升方法的基本思想是：对于一个复杂的学习任务，我们首先构造多个简单的弱学习器，然后再把这些简单的弱学习器组合成一个高效的强学习器。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。

7特征选择

（了解）特征选择要回答两个层面的问题，一是对特征的评价：怎样衡量一组特征对分类的有效性；二是寻优的算法：怎样更快速地找到性能最优或比较好的特征组合。

秩和检验

秩和检验是一类非参数检验方法，它们不对数据分布作特殊假设，因而能适用于更复杂的数据分布情况。

秩和检验的做法是，首先将两类样本混合在一起，对所有样本按照所考察的特征从小到大排序。在两类样本中分别计算所得排序序号之和 $T_1$ 和 $T_2$ ，称作秩和。两类的样本数分别是 $n_1$ 和 $n_2$ 。

秩和检验的基本思想是，如果一类样本的秩和显著地比另一类小（或大），则两类样本在所考察的特征上有显著差异。秩和检验的统计量就是某一类（如第一类，秩和为 $T_1$ ）的秩和。

P156 遗传算法（Genetic Algorithm, GA）：（重点->大题）

遗传算法详解（GA）

是什么？怎么做？原理步骤

遗传算法是一种搜索启发式方法，受达尔文（Charles Darwin）的自然进化论启发，模拟自然选择，物竞天择、适者生存，通过N代的遗传、变异、交叉、复制，进化出问题的最优解。

了解基本概念，以便理解算法过程：

基因型(genotype)：性状染色体的内部表现；

表现型(phenotype)：染色体决定的性状的外部表现，或者说，根据基因型形成的个体的外部表现；

进化(evolution)：种群逐渐适应生存环境，品质不断得到改良。生物的进化是以种群的形式进行的。

适应度(fitness)：度量某个物种对于生存环境的适应程度。

选择(selection)：以一定的概率从种群中选择若干个个体。一般，选择过程是一种基于适应度的优胜劣汰的过程。

复制(reproduction)：细胞分裂时，遗传物质DNA通过复制而转移到新产生的细胞中，新细胞就继承了旧细胞的基因。

交叉(crossover)：两个染色体的某一相同位置处DNA被切断，前后两串分别交叉组合形成两个新的染色体。也称基因重组或杂交；

变异(mutation)：复制时可能（很小的概率）产生某些复制差错，变异产生新的染色体，表现出新的性状。

编码(coding)：DNA中遗传信息在一个长链上按一定的模式排列。遗传编码可看作从表现型到基因型的映射。

解码(decoding)：基因型到表现型的映射。

个体（individual）：指染色体带有特征的实体；

种群（population）：个体的集合，该集合内个体数称为种群的大小。

遗传算法把候选的对象编码为一条染色体，比如在特征选择中，如果目标是从D个特征中选取d个，则把所有特征描述为D个0/1字符组成的字符串，0代表该特征没有被选中，1代表该特征被选中，这个字符串就叫做染色体，记作m。显然，要求的是一条有且仅有d个1的染色体，这样的染色体共有 $C_D^d$ 种。

优化目标被描述为适应度函数，每一条染色体对应一个适应度值 $f(m)$ .可以用前面定义的类别可分性判据作为适应度。针对不同的适应度有不同的选择概率 $p(f(m))$ .

遗传算法的基本步骤：

（1）初始化，t=0，随机地产生一个包含L条不同染色体的种群 $M(0)$ ;

（2）计算当前种群 $M(t)$ 中每条染色体的适应度 $f(m)$ ;

（3）按照选择概率 $p(f(m))$ 对种群中的染色体进行采样，由采样出的染色体经过一定的操作繁殖出下一代，组成下一代的种群 $M(t+1)$ ;

（4）回到 (2) ,直到到达终止条件，输出适应度最大的染色体作为最优解。终止条件通常是某条染色体的适应度到设定的阈值

8特征提取

P161 特征选择、特征提取

特征选择是从D个特征中选出d（d<D）个特征；

特征提取是把特征空间降维的方法，即通过适当的变换(可理解为映射)把D个特征转换成d（d<D）个新特征。

P161 特征提取的好处

一是降低特征空间的维数：

1) 使得数据集更易使用；

2) 降低算法的计算开销；

3) 去除噪声；

4) 使得结果容易理解。

二是为了消除特征之间可能存在的相关性，减少特征中与分类无关的信息，使新的特征更有利于分类，提高分类器的推广能力。

P163 主成分分析法(Principal component analysis，PCA)

主成分分析（Principal Component Analysis）是利用降维的思想，将多个变量转化为少数几个综合变量（即主成分），其中每个主成分都是原始变量的线性组合，各主成分之间互不相关，从而这些主成分能够反映始变量的绝大部分信息，且所含的信息互不重叠。

主成分：是指从一组原来的特征中计算出一组按重要性从大到小排列的新特征，一般选取重要性较大的几个特征作为主成分。

PCA降维算法的流程：

计算投影矩阵的流程：

计算样本集的均值向量。将所有向量减去均值向量，这称为白化。

计算样本集的协方差矩阵。

对方差矩阵进行特征值分解，得到所有特征值和特征向量。

将特征值从小到大排序，保留最大的一部分特征向量，以它们为行，形成投影矩阵

投影算法的流程：

将样本减去均值向量

左乘投影矩阵，得到降维后的向量

P172 高维数据的低维显示

在很多实际问题中，我们希望直接看到样本的分布情况，当样本是高维向量时，无法直接观看到数据。我们只能观察到三维及三维以下的空间，最好把高维空间映射到三维空间或二维平面上显示，且这种映射要尽可能反映原空间中样本的分布，这种的特征变换任务称为数据的低维显示。

P181-P182 解决模式识别问题的五步骤

问题的提出和定义。即把实际具体的问题抽象成一个模式识别问题。

数据获取和预处理。获取数据要研究获取什么样的数据才能有效地实现模式识别任务；预处理使数据的质量更好。

特征提取和选择。对数据进行必要的选择和变换，使所得的特征更易于分类。

分类器设计和性能评估。

分类及结果解释

P184 聚类算法

聚类分析是将个体或对象分类，把相似的研究对象归成类，使类内对象的差异最小和类间对象差异性最大。

基本思想：先将各样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止.

模糊C均值的实现

P215 模式识别系统的评价

对有监督模式识别的评价

对无监督模式识别的评价

考试题目类型：名词解释、问答题、计算题（bayes决策）

还要考察非技术因素

参考文献：

《模式识别》（第三版）张学工

《概率与数理统计》（浙大版）

模式识别常见概念解析相关推荐

QUANT[6] 量化交易常见概念解析
QUANT[1]:从零开始量化交易 - プロノCodeSteel - CSDN博客 QUANT[2]:量化交易策略基本框架搭建 - プロノCodeSteel - CSDN博客 QUANT[3]:量化交 ...
Magento 2中文手册之常见概念解析
indexer 索引机制 magento2自带索引机制,例如catalog是一个EAV结构,所以catalog的数据很分散,查询效率比较低,系统每次reindex都会把catalog数据通过index ...
深度学习常见概念解析
1.损失函数loss 用于定义网络输出结果与正确结果之间的误差的函数,常用损失函数为均方差(MSE)和交叉熵(Cross Entropy).一般均方差用于回归问题,交叉熵用于分类问题. 2.梯度梯度 ...
海思视频开发常见概念解析
1.IVE(Intelligent Video Engine)是海思媒体处理芯片智能分析系统中的硬件加速模块. 用户基于IVE 开发智能分析方案可以加速智能分析,降低CPU 占用.当前IVE 提供的 ...
【Alljoyn】Alljoyn学习笔记五 AllJoyn开源技术基础概念解析
AllJoyn开源技术基础概念解析摘要: 总线(Bus) 实现P2P通信的基础 AllJoyn 的底层协议类似于D-Bus,相当于是跨设备分布式的 D-Bus 总线附件(Bus Attachment ...
Camera i2c、常见概念、系统架构简介
1.Cmera I2C介绍 I2C总线协议 I2C总线在物理连接上比较简单,分别由SDA(串行数据线)和SCL(串行时钟线)及上拉电阻组成.通信原理是通过对SCL和SDA线高低电平时序的控制,来产生I ...
各种台式计算机计量单位相同吗,计算机常见计量单位解析
计算机常见计量单位解析在我们购买和日常使用计算机的过程中,不可避免地会遇到一些硬件计量单位,也许这些单位你都可以朗朗上口,可是,它们究竟有什么含义?相关联的单位之间的换算关系是怎样的?对硬件的性能有 ...
互联网+下的5个医疗安全概念解析
本文讲的是互联网+下的5个医疗安全概念解析,这两周不少人和笔者探讨关于移动医疗过程中的各种安全相关问题.忽然发现,一方面,同样的"安全"二字,在医疗和技术领域,许多人的理解似乎并不 ...
液晶接口系列——MIPI之DSI时钟的计算和常见概念区分
文章目录总述时钟计算液晶基础时钟概念 DSI时钟计算 DSI的"模式"概念区分液晶屏的模式 COMMAND模式和VIDEO模式 VIDEO屏的三种模式数据传输HS MOD ...

模式识别常见概念解析

模式识别重点基础概念

0前言

1概论

2统计决策方法

3概率密度函数的估计

4线性分类器

5多层感知器神经网络

6 其他分类方法

7特征选择

8特征提取

模式识别常见概念解析相关推荐

最新文章

热门文章