一、数据降维

对于现在维数比较多的数据，我们首先需要做的就是对其进行降维操作。降维，简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系，例如函数 $z=f\left ( x,y \right )$ ，即由原来的二维转换成了一维。处理降维的技术有很多种，如前面的 SVD奇异值分解，主成分分析(PCA)，因子分析(FA)，独立成分分析(ICA)等等。

二、PCA的概念

PCA是一种较为常用的降维技术，PCA的思想是将 $n$ 维特征映射到 $k$ 维上，这 $k$ 维是全新的正交特征。这 $k$ 维特征称为主元，是重新构造出来的 $k$ 维特征。在PCA中，数据从原来的坐标系转换到新的坐标系下，新的坐标系的选择与数据本身是密切相关的。其中，第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向，依次类推，我们可以取到这样的 $k$ 个坐标轴。

三、PCA的操作过程

1、PCA的操作流程大致如下：

去平均值，即每一位特征减去各自的平均值
计算协方差矩阵
计算协方差矩阵的特征值与特征向量
对特征值从大到小排序
保留最大的 $k$ 个特征向量
将数据转换到 $k$ 个特征向量构建的新空间中

2、具体的例子

假设二维数据为 $oldData$

取平均值

我们计算每一维特征的平均值，并去除平均值，我们计算出均值 $dataMean$ 为

去除均值后的矩阵为 $dataAdjust$

计算 $dataAdjust$ 的协方差矩阵 $dataCov$

计算 $dataCov$ 的特征值与特征向量

其中，特征值为

特征向量为

对特征值进行排序，显然就两个特征值
选择最大的那个特征值对应的特征向量 $eigenVctor$

转换到新的空间

$finalData_{10\times 1}=dataAdjust_{10\times 2}\times eigenVctor_{2\times 1}$

四、实验的仿真

我们队一个数据集进行了测试：

MATLAB实验代码如下：

主程序

[plain] view plain copy

%% pca
dataSet = load('testSet.txt');%导入数据
% pca
[FinalData, reconData] = PCA(dataSet, 1);
%% 作图
hold on
plot(dataSet(:,1), dataSet(:,2), '.');
plot(reconData(:,1), reconData(:,2), '.r');
hold off

PCA函数段

[plain] view plain copy

function [ FinalData,reconData ] = PCA( dataSet, k )
[m,n] = size(dataSet);
%% 去除平均值
%取平均值
dataSetMean = mean(dataSet);
%减去平均值
dataSetAdjust = zeros(m,n);
for i = 1 : m
dataSetAdjust(i , :) = dataSet(i , :) - dataSetMean;
end
%% 计算协方差矩阵
dataCov = cov(dataSetAdjust);
%% 计算协方差矩阵的特征值与特征向量
[V, D] = eig(dataCov);
% 将特征值矩阵转换成向量
d = zeros(1, n);
for i = 1:n
d(1,i) = D(i,i);
end
%% 对特征值排序
[maxD, index] = sort(d);
%% 选取前k个最大的特征值
% maxD_k = maxD(1, (n-k+1):n);
index_k = index(1, (n-k+1):n);
% 对应的特征向量
V_k = zeros(n,k);
for i = 1:k
V_k(:,i) = V(:,index_k(1,i));
end
%% 转换到新的空间
FinalData = dataSetAdjust*V_k;
% 在原图中找到这些点
reconData = FinalData * V_k';
for i = 1 : m
reconData(i , :) = reconData(i , :) + dataSetMean;
end
end

原文链接是：http://blog.csdn.net/google19890102/article/details/27969459

转载于:https://www.cnblogs.com/khunwang/articles/3809689.html

[转载]简单易学的机器学习算法-主成分分析（PCA）相关推荐

简单易学的机器学习算法——梯度提升决策树GBDT
梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是近年来被提及比较多的一个算法,这主要得益于其算法的性能,以及该算法在各类数据挖掘以及机器学习比赛中的卓越 ...
简单易学的机器学习算法——Metropolis-Hastings算法
在简单易学的机器学习算法--马尔可夫链蒙特卡罗方法MCMC中简单介绍了马尔可夫链蒙特卡罗MCMC方法的基本原理,介绍了Metropolis采样算法的基本过程,这一部分,主要介绍Metropolis-H ...
简单易学的机器学习算法——Latent Dirichlet Allocation（理论篇）
引言 LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布,是文本语义分析中比较重要的一个模型,同时,LDA模型中使用到了贝叶斯思维的一些知识,这些知识是统计机器学习的 ...
简单易学的机器学习算法——受限玻尔兹曼机RBM
受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)是一种基于能量模型的神经网络模型,在Hinton提出针对其的训练算法(对比分歧算法)后,RBM得到了更多的关注,利用 ...
简单易学的机器学习算法——非线性支持向量机
一.回顾前面三篇博文主要介绍了支持向量机的基本概念,线性可分支持向量机的原理以及线性支持向量机的原理,线性可分支持向量机是线性支持向量机的基础.对于线性支持向量机,选择一个合适的惩罚参数,并 ...
简单易学的机器学习算法——K-Means++算法
一.K-Means算法存在的问题由于K-Means算法的简单且易于实现,因此K-Means算法得到了很多的应用,但是从K-Means算法的过程中发现,K-Means算法中的聚类中心的个数k需要事先指 ...
简单易学的机器学习算法——Gibbs采样
一.Gibbs采样概述前面介绍的Metropolis-Hastings采样为从指定分布中进行采样提供了一个统一的框架,但是采样的效率依赖于指定的分布的选择,若是选择的不好,会使得接受率比较低,大量的 ...
史上简单易学的机器学习算法——EM算法缘木求鱼
一.机器学习中的参数估计问题二.EM算法简介在上述存在隐变量的问题中,不能直接通过极大似然估计求出模型中的参数,EM算法是一种解决存在隐含变量优化问题的有效方法.EM算法是期望极大(Expecta ...
简单易学的机器学习算法——神经网络之BP神经网络
一.BP神经网络的概念 BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的.具体来说,对于如下的只含一个隐层的神经网络模型: (三层BP神经网络模型) ...

[转载]简单易学的机器学习算法-主成分分析（PCA）