数据降维

1、特征变换
- 1.1、特征提取
2、维数缩减
- 2.1、维度灾难
- 2.2、维度缩减
- 2.3、线性降维法
- - 2.3.1、主成分分析(PCA)
  - - 2.3.1.1、数学分析
    - 2.3.1.2、算法步骤
    - 2.3.1.3、可区分性
    - 2.3.1.4、可重构性
    - 2.3.1.5、维数选择
  - 2.3.2、线性判别分析(LDA)
  - - 2.3.2.1、数学推导

1、特征变换

1.1、特征提取

特征提取的形式是用向量来表示数据样本（语音、文本、图片等）

2、维数缩减

2.1、维度灾难

由Richard E. Bellman提出，当维度增加时会遇到如下问题：
1、计算量呈指数增长
2、低维距离相近的相似样本在高维距离会增加
3、数据变得稀疏（数据空间体积急剧增大）

2.2、维度缩减

降维是解决维度灾难的重要手段，在很多情况下，数据样本是高维，但与学习任务相关的特征在低维分布（即高维空间的低维分布embeding）

2.3、线性降维法

$\rm y=W^Tx$
可以将样本x(d维空间)变换为样本y(m维空间)，其中新空间的特征是原空间特征的线性组合，可以通过矩阵乘法看出。

2.3.1、主成分分析(PCA)

主成分分析的主要思想是将原始数据保留在少数方差最大的方向上的投影。主成分指方差较大的方向，如第一主成分、第二主成分等。

2.3.1.1、数学分析

假设 $\rm x_1,x_2,...,x_n$ 是d维空间的n个样本， $\rm w_1,w_2,...,w_m$ 是d维空间的前m个主成分，其中有
$\rm w_i^Tw_j=0,\forall i\ne j;\quad w_i^Tw_i = 1$
即是一组单位正交基，以主成分 $\rm w_1$ 为例， $\rm x_1$ 的投影为 $\rm y_i=w_1^Tx_i$ ；
$\begin{aligned} \rm{\overline{y}=w_1^T\overline{x},\quad}where\;\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i\\ var \rm =\frac{1}{n}\sum_{i=1}^{n}(w_1^Tx_i-w_1^T\overline{x})^2 \end{aligned}$
我们希望 $\rm w_1$ 方向上有最大的方差，即：
$\begin{aligned} & max\rm \quad \frac{1}{n}\sum_{i=1}^{n}(w_1^Tx_i-w_1^T\overline{x})^2\\ &s.t.\qquad \rm w_i^Tw_i = 1 \end{aligned}$
对方差展开推导：
$\begin{aligned} var &= \rm \frac{1}{n}\sum_{i=1}^{n}(w_1^Tx_i-w_1^T\overline{x})^2\\ &= \rm \frac{1}{n}\sum_{i=1}^{n}(w_1^Tx_i-w_1^T\overline{x})(w_1^Tx_i-w_1^T\overline{x})^T\\ &= \rm \frac{1}{n}\sum_{i=1}^{n}w_1^T(x_i-\overline{x})(x_i-\overline{x})^Tw_1\\ &= \rm w_1^T\left (\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(x_i-\overline{x})^T\right )w_1\\ &= \rm w_1^TCw_1 \end{aligned}$
这里的C为协方差矩阵，用拉格朗日乘子法进行优化求最大值：
$\begin{aligned} obj &=\rm w_1^TCw_1+\lambda(1-w_1^Tw_1)\\ \frac{\partial obj}{\partial \rm w_1} &=\rm 2C-2\lambda w_1 \end{aligned}$
令 $\rm Cw_1=\lambda w_1$ ，可以看出， $\rm w_1$ 是协方差矩阵 $C$ 的特征向量(eigenvector)， $\lambda$ 是对应的特征值(eigenvalue)，将其替换得：
$\begin{aligned} \rm w_1^TCw_1=w_1^T\lambda w_1=\lambda w_1^Tw_1=\lambda \end{aligned}$
由此可以看出，使得 $\rm w_1$ 方差最大，需对应协方差矩阵最大的特征值 $\lambda$ ，而 $\lambda$ 对应的特征值即为 $\rm w_1$ ，也就是第一主成分。

2.3.1.2、算法步骤

因此主成分分析的主要步骤可以总结如下：

计算数据均值： $\rm \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i$
计算数据协方差矩阵： $\rm C=\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(x_i-\overline{x})^T$
对协方差矩阵进行特征值分解，并取最大的m个特征值 $(\lambda_1\ge \lambda_2\ge... \ge \lambda_m)$ ，其对应的特征向量 $\rm(w_1, w_2, ..., w_m)$ ，组成投影矩阵 $\rm W=[w_1, w_2,..., w_m]\in \mathbb{R} ^{d\times m}$
将每一个数据样本进行投影： $\rm y_i=w_1^Tx_i$

换一种思考方式：如何仅用一个超平面从整体上对所有样本进行恰当表示？

2.3.1.3、可区分性

满足可去区分性的要求是所有样本点投影到该超平面上时方差应该最大。投影后的样本点为：
$\rm y_i=W^Tx_i$
数据点是零均值化的，即： $\rm \overline{y}=\sum_{i=1}^{n}y_i=W^T\sum_{i=1}^{n}x_i=0$
投影之后的协方差矩阵为：
$\begin{aligned} var&= \rm \frac{1}{n}\sum_{i=1}^{n}(y_i-\overline{y})(y_i-\overline{y})^T\\ &= \rm \frac{1}{n}\sum_{i=1}^{n}(W^Tx_i-0)(W^Tx_i-0)^T\\ &= \rm \frac{1}{n}\sum_{i=1}^{n}W^Tx_ix_iW^T\\ &= \rm \frac{1}{n}W^TXXW^T \end{aligned}$
我们要使得投影样本每一维的方差最大，即相当于最大所有维度方差之和最大（有上面分析可以看出，其等价于所有特征值之和最大），矩阵的迹等于特征值之和，则目标方程与约束方程可以为：
$\begin{aligned} &max\quad tr(\rm \frac{1}{n}W^TXXW^T)\\ & s.t.\quad W^TW=I \end{aligned}$
同样根据拉格朗日乘子法，可以得到：
$XX^TW=\lambda W$
由此，同样可以得出，我们只需要对协方差矩阵 $XX^T$ 进行特征值分解，得到最大的前m个特征值并进行排序使得 $\lambda_1\ge \lambda_2\ge... \ge \lambda_m$ ， $\lambda_1$ 对应的特征向量即为第一主成分，其他依次类推……

2.3.1.4、可重构性

其基本思想是每个样本到超平面的距离都足够近。

假设投影变换都是正交变换，建立新坐标系 $\rm W=[w_1, w_2,..., w_m]\;(m<d)$ ，且有：
$\rm w_i^Tw_j=0,\forall i\ne j;\quad w_i^Tw_i = 1$
样本点投影后在新坐标系下的坐标为 $\rm \mathbf{y}_i=[y_{i1}, y_{i2},..., y_{im}]^T$ ，即正交坐标系下投影的新坐标为
$\rm y_{ij}=\mathbf{w}_j^T\mathbf{x}_i,\qquad \mathbf{w}_j\in \mathbb{R} ^{d},\qquad j=1,2,...,m$
新坐标系下的新表示 $\rm \hat x_i$ 为：
$\rm \mathbf{\hat x}_i = \sum_{j=1}^{m}y_{ij}\mathbf{w}_j$
重构误差：
$\begin{aligned} \rm \sum_{i=1}^{n}\left \| x_i-\hat x_i\right \|_2^2&=\rm \sum_{i=1}^{n}\left \| x_i-\sum_{j=1}^{m}y_{ij}\mathbf{w}_j\right \|_2^2=\rm \sum_{i=1}^{n}\left \| x_i-Wy_i\right \|_2^2\\ &=\rm \sum_{i=1}^{n}\left ((Wy_i)^TWy_i-2x_i^TWy_i+x_i^Tx_i \right )\\ &=\rm \sum_{i=1}^{n}\left (y_i^Ty_i-2y_i^Ty_i+x_i^Tx_i \right )\\ &=\rm -\sum_{i=1}^{n}y_i^Ty_i+\sum_{i=1}^{n}x_i^Tx_i\\ &=\rm -\sum_{i=1}^{n}y_i^Ty_i+const\\ &=\rm -\sum_{i=1}^{n}(W^Tx_i)^T(W^Tx_i)+const\\ &=\rm -W^TXXW^T+const \end{aligned}$

xi−j=1∑myijwj

22=i=1∑n∥xi−Wyi∥22=i=1∑n((Wyi)TWyi−2xiTWyi+xiTxi)=i=1∑n(yiTyi−2yiTyi+xiTxi)=−i=1∑nyiTyi+i=1∑nxiTxi=−i=1∑nyiTyi+const=−i=1∑n(WTxi)T(WTxi)+const=−WTXXWT+const
最小化重构误差，即相当于最大化

W^TXXW^T

，得到的模型与可区分性的模型相同。

2.3.1.5、维数选择

一个降低维度的选择标准：
$\rm \frac{\sum_{i=1}^m\lambda_i}{\sum_{i=1}^d\lambda_i}\ge t$
例如t可以取95%。

需要舍弃的维度为m-d维，舍弃这些维度之后样本的密度将增大，另外最小特征值所对应的特征向量往往与噪声相关，因此PCA一定程度上可以达到降噪的效果。

2.3.2、线性判别分析(LDA)

LAD即线性判别分析(Linear Discriminant Analysis)，其主要思想是寻找一组投影方向，使得样本在投影之后类内样本尽可能靠近，类间样本尽可能远离，从而提升分类能力。投影方向数小于原始数据的维度，故也是一种线性降维的方法。

2.3.2.1、数学推导

设有样本集 $\rm D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\},\quad y_i\in \{0,1\}$ ；记 $\rm \mu_i, \Sigma_i$ 为样本均值和协方差矩阵，其中 $\rm i\in\{0,1\}$ ，投影后两类样本的中心和协方差分别为 $\rm w^T\mu_0、w^T\mu_1、w^T\Sigma_0w、w^T\Sigma_1w$ ，要使得：同类样本协方差最小，即需要最小化：
$\rm w^T\Sigma_0w+w^T\Sigma_1w$
要使得类中心距离最大，即需要最大化：
$\rm \left \| w^T\mu_0-w^T\mu_1 \right \|_2^2$

wTμ0−wTμ1

22
综合二者，可得最大化目标函数为：

\begin{aligned} J &=\rm \frac{\left \| w^T\mu_0-w^T\mu_1 \right \|_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}\\ &=\rm \frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}\\ &=\rm \frac{w^TS_bw}{w^TS_ww} \end{aligned}

即为广义Rayleigh熵，其中类内散度矩阵

S_w

为：

\begin{aligned} \rm S_w=\Sigma_0+\Sigma_1 \end{aligned}

类间散度矩阵

S_b

为：

\begin{aligned} \rm S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T \end{aligned}

约束

\rm w^TS_ww=1

，根据拉格朗日乘子法可以得到：

\rm S_bw=\lambda S_ww\Rightarrow S_w^{-1}S_bw=\lambda w

数据降维方法（主成分分析PCA、线性判别分析LDA）相关推荐

在线作图丨数据降维方法①——主成分分析PCA
PCA是什么? 主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度, ...
pca 累积方差贡献率公式_机器学习数据降维方法：PCA主成分分析
PCA在机器学习中很常用,是一种无参数的数据降维方法.PCA步骤: 将原始数据按列组成n行m列矩阵X 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值求出协方差矩阵求出协方差矩阵的 ...
在线作图丨数据降维方法③——正交偏最小二乘方判别分析（OPLS-DA）
Question1:什么是PLS-DA? 与PCA不同,PLS是"有监督"模式的偏最小二乘法分析,也就是在分析数据时,已知样本的分组关系,这样可以更好的选择区分各组的特征变量,确 ...
07_数据降维，降维算法，主成分分析PCA,NMF，线性判别分析LDA
1.降维介绍保证数据所具有的代表性特性或分布的情况下,将高维数据转化为低维数据. 聚类和分类都是无监督学习的典型任务,任务之间存在关联,比如某些高维数据的分类可以通过降维处理更好的获得. 降维过程可 ...
lda 吗样本中心化需要_机器学习 —— 基础整理（四）：特征提取之线性方法——主成分分析PCA、独立成分分析ICA、线性判别分析LDA...
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
降维方法之PCA,LDA
降维的目的减少冗余信息造成的误差,提高数据信息的精度. PCA 主成分分析 Principal Component Analysis(PCA)主成分分析,是最常用的线性降维方法,无监督的,它通过某种 ...
数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC...
全文链接:http://tecdat.cn/?p=27384 在本文中,数据包含有关葡萄牙"Vinho Verde"葡萄酒的信息(点击文末"阅读原文"获取完整代 ...
主成分分析 PCA 线性判别分类LDA
降维就是一种对高维度特征数据预处理方法.降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的 PCA(Principal Component Analys ...
机器学习-降维之主成分分析PCA算法原理及实战
主成分分析前言近年来,随着互联网和信息行业的发展,数据已经渗透到各行各业,成为重要的生产因素如数据记录和属性规模的急剧增长.社会已经进入大数据时代,数据越多越好似乎已经成为公理.然而,数据量并不是 ...

数据降维方法（主成分分析PCA、线性判别分析LDA）