scikit-learn中PCA的使用方法

@author:wepon

@blog:http://blog.csdn.net/u012162613/article/details/42192293

在前一篇文章 主成分分析(PCA) 中,我基于python和numpy实现了PCA算法,主要是为了加深对算法的理解,算法的实现很粗糙,实际应用中我们一般调用成熟的包,本文就结束scikit-learn中PCA使用的方法和需要注意的细节,参考:sklearn.decomposition.PCA

1、函数原型及参数说明

sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)
参数说明:
n_components:  
意义:PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n
类型:int 或者 string,缺省时默认为None,所有成分被保留。
          赋值为int,比如n_components=1,将把原始数据降到一个维度。
          赋值为string,比如n_components='mle',将自动选取特征个数n,使得满足所要求的方差百分比。

copy:

类型:bool,True或者False,缺省时默认为True。

意义:表示是否在运行算法时,将原始训练数据复制一份。若为True,则运行PCA算法后,原始训练数据的值不            会有任何改变,因为是在原始数据的副本上进行运算;若为False,则运行PCA算法后,原始训练数据的              值会改,因为是在原始数据上进行降维计算。

whiten:

类型:bool,缺省时默认为False

意义:白化,使得每个特征具有相同的方差。关于“白化”,可参考:Ufldl教程

2、PCA对象的属性

components_ :返回具有最大方差的成分。
explained_variance_ratio_:返回 所保留的n个成分各自的方差百分比。
n_components_:返回所保留的成分个数n。
mean_:
noise_variance_:

3、PCA对象的方法

  • fit(X,y=None)

fit()可以说是scikit-learn中通用的方法,每个需要训练的算法都会有fit()方法,它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法,此处y自然等于None。

fit(X),表示用数据X来训练PCA模型。
函数返回值:调用fit方法的对象本身。比如pca.fit(X),表示用X对pca这个对象进行训练。
  • fit_transform(X)

用X来训练PCA模型,同时返回降维后的数据。

newX=pca.fit_transform(X),newX就是降维后的数据。
  • inverse_transform()

将降维后的数据转换成原始数据,X=pca.inverse_transform(newX)

  • transform(X)

将数据X转换成降维后的数据。当模型训练好后,对于新输入的数据,都可以用transform方法来降维。

此外,还有get_covariance()、get_precision()、get_params(deep=True)、score(X, y=None)等方法,以后用到再补充吧。

4、example

以一组二维的数据data为例,data如下,一共12个样本(x,y),其实就是分布在直线y=x上的点,并且聚集在x=1、2、3、4上,各3个。
>>> data
array([[ 1.  ,  1.  ],[ 0.9 ,  0.95],[ 1.01,  1.03],[ 2.  ,  2.  ],[ 2.03,  2.06],[ 1.98,  1.89],[ 3.  ,  3.  ],[ 3.03,  3.05],[ 2.89,  3.1 ],[ 4.  ,  4.  ],[ 4.06,  4.02],[ 3.97,  4.01]])

data这组数据,有两个特征,因为两个特征是近似相等的,所以用一个特征就能表示了,即可以降到一维。下面就来看看怎么用sklearn中的PCA算法包。

(1)n_components设置为1,copy默认为True,可以看到原始数据data并未改变,newData是一维的,并且明显地将原始数据分成了四类。
>>> from sklearn.decomposition import PCA
>>> pca=PCA(n_components=1)
>>> newData=pca.fit_transform(data)
>>> newData
array([[-2.12015916],[-2.22617682],[-2.09185561],[-0.70594692],[-0.64227841],[-0.79795758],[ 0.70826533],[ 0.76485312],[ 0.70139695],[ 2.12247757],[ 2.17900746],[ 2.10837406]])
>>> data
array([[ 1.  ,  1.  ],[ 0.9 ,  0.95],[ 1.01,  1.03],[ 2.  ,  2.  ],[ 2.03,  2.06],[ 1.98,  1.89],[ 3.  ,  3.  ],[ 3.03,  3.05],[ 2.89,  3.1 ],[ 4.  ,  4.  ],[ 4.06,  4.02],[ 3.97,  4.01]])

( 2)将copy设置为False,原始数据data将发生改变。

>>> pca=PCA(n_components=1,copy=False)
>>> newData=pca.fit_transform(data)
>>> data
array([[-1.48916667, -1.50916667],[-1.58916667, -1.55916667],[-1.47916667, -1.47916667],[-0.48916667, -0.50916667],[-0.45916667, -0.44916667],[-0.50916667, -0.61916667],[ 0.51083333,  0.49083333],[ 0.54083333,  0.54083333],[ 0.40083333,  0.59083333],[ 1.51083333,  1.49083333],[ 1.57083333,  1.51083333],[ 1.48083333,  1.50083333]])
(3)n_components设置为'mle',看看效果,自动降到了1维。
>>> pca=PCA(n_components='mle')
>>> newData=pca.fit_transform(data)
>>> newData
array([[-2.12015916],[-2.22617682],[-2.09185561],[-0.70594692],[-0.64227841],[-0.79795758],[ 0.70826533],[ 0.76485312],[ 0.70139695],[ 2.12247757],[ 2.17900746],[ 2.10837406]])

(4)对象的属性值

>>> pca.n_components
1
>>> pca.explained_variance_ratio_
array([ 0.99910873])
>>> pca.explained_variance_
array([ 2.55427003])
>>> pca.get_params
<bound method PCA.get_params of PCA(copy=True, n_components=1, whiten=False)>

我们所训练的pca对象的n_components值为1,即保留1个特征,该特征的方差为2.55427003, 占所有特征的方差百分比为0.99910873,意味着几乎保留了所有的信息。get_params返回各个参数的值。

(5)对象的方法
>>> newA=pca.transform(A)

对新的数据A,用已训练好的pca模型进行降维。

>>> pca.set_params(copy=False)
PCA(copy=False, n_components=1, whiten=False)

设置参数。

scikit-learn中PCA的使用方法相关推荐

  1. 【python】sklearn中PCA的使用方法

    from sklearn.decomposition import PCA PCA 主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预 ...

  2. 机器学习与Scikit Learn学习库

    摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...

  3. Scikit Learn: 在python中机器学习

    Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...

  4. [转载]Scikit Learn: 在python中机器学习

    原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...

  5. python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别

    之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...

  6. scikit - learn 做文本分类

    文章来源: https://my.oschina.net/u/175377/blog/84420 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的句子,我以自 ...

  7. 【scikit-learn】如何用Python和SciKit Learn 0.18实现神经网络

    本教程的代码和数据来自于 Springboard 的博客教程.本文的作者为 Jose Portilla,他是网络教育平台 Udemy 一门数据科学类课程的讲师. GitHub 链接:https://g ...

  8. 冯·诺伊曼奖得主Jorge Nocedal:增强学习中零阶优化方法及其应用(附演讲视频和PPT)

    2020 北京智源大会 本文属于2020北京智源大会嘉宾演讲的整理报道系列.北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性.权威性.专业性和前瞻性的" ...

  9. 统计计量 | 统计学中常用的数据分析方法汇总

    来源:数据Seminar本文约10500字,建议阅读15+分钟 统计学中常用的数据分析方法汇总. Part1描述统计 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特 ...

最新文章

  1. html5 div 鼠标跟随,CSS实用:DIV+CSS打造跟随鼠标的层
  2. 农历法定日历_木瓜日历安卓版下载-木瓜日历V1.5下载
  3. 攻防世界-Misc-_Aesop_secret
  4. 征战蓝桥 —— 2014年第五届 —— C/C++A组第3题——神奇算式
  5. 2寸的照片长宽各是多少_贵州公务员考试照片尺寸要求是多少
  6. Python测试开发django4.templates模板配置
  7. CentOS设置永久静态路由
  8. Java实现计算器的基本功能
  9. 最新仿淘宝源码使用原生HTML+CSS描写
  10. Android系列之Navigation的目的地(Destination)
  11. 搜索已配对蓝牙 java,java-查找和配对蓝牙设备
  12. 人工智能建立本体库_领域本体构建方法概述
  13. 可清空所选时间的jquery.datetimepicker时间插件
  14. 智能硬件APP开发之路:基于机智云APP开源框架
  15. Java File删除文件夹及其子文件
  16. C# WinForm系列-创建Windows项目
  17. 【LOJ NOI Round#2 Day1 T1】单枪匹马【矩阵】
  18. HTML5七夕情人节表白网页制作——蓝色梦幻海洋3D相册—— HTML+CSS+JavaScript
  19. 响铃:2018博鳌金融科技亮点 这些关键词你搞懂了几个
  20. 基于GC - MS的代谢组学研究揭示:SD大鼠和Wistar大鼠之间存在系统的代谢差异及乙醇灌胃反应差异

热门文章

  1. OpenCV C++案例实战十六《制作哈哈镜图像》
  2. Zend Framework教程-Zend_Db-数据库概述
  3. 计算机上的查找替换功能快速格式化,Word2013文档中使用查找和替换功能来快速更改文本格式的方法...
  4. hdu1004——Let the Balloon Rise
  5. python能做射击类游戏吗_python能做游戏吗
  6. PC微信3.5.0.46几个函数位置
  7. php会话到期提醒功能,php – 用于通知用户其会话即将过期的可访问方式
  8. 从多个例子来看Ansys多点约束(MPC)的强大
  9. 禁用计算机f1-f12,Win10系统禁用F1到F12热键 将F1到F12多媒体键转变为功能键的方法...
  10. Android安卓如何创建使用英文专用layout界面和values资源?