【机器学习】十大算法之一 “PCA”
作者主页:爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.
https://blog.csdn.net/Code_and516?type=blog个人简介:打工人。
持续分享:机器学习、深度学习、python相关内容、日常BUG解决方法及Windows&Linux实践小技巧。
如发现文章有误,麻烦请指出,我会及时去纠正。有其他需要可以私信我或者发我邮箱:zhilong666@foxmail.com
PCA算法是机器学习中最重要的十大算法之一,它是一种数据维度压缩和特征选择的方法。
本文将详细讲解机器学习十大算法之一“PCA”
目录
一、PCA算法简介
二、PCA的发展历史
三、PCA算法公式与讲解
1. 主成分分析:
(1)归一化数据
(2)计算协方差矩阵
(3)计算特征值和特征向量
(4)计算主成分
2. 数据投影和重建
四、PCA算法原理
五、PCA算法功能
1. 降维
2. 压缩
3. 特征提取
4. 去噪
六、PCA算法示例代码
七、总结
一、PCA算法简介
PCA(Principal Component Analysis,主成分分析)是一种广泛使用的线性降维算法,在机器学习领域被广泛应用。通俗地说,它是一种通过将高维数据映射到低维数据,保留数据主要特征的方法。在PCA中,数据被投影到一个新的低维抽象空间中,使新的特征集能最大化地解释数据集的方差,我们可以选择保留最大方差的前k个特征值。通常,PCA被用于降维,但它也被用作一种特征提取算法。
二、PCA的发展历史
PCA算法最早由卡尔·皮尔逊(Karl Pearson)于1901年提出。他最初将PCA作为一种数据分析工具来解决数据相关性问题,PCA的目标是找到最小维度的线性空间,该空间能够最准确地描述数据集的统计特征。在20世纪50年代,P. C. Mahalanobis提出了第一个数学实现PCA算法的方法。随后,PCA被广泛应用于信号处理、图像处理、语音识别和数据挖掘等领域。在现代机器学习中,PCA通常是第一个选项,用于处理大量高维数据集的降维。
三、PCA算法公式与讲解
PCA算法主要由两部分组成:主成分分析和数据投影。
下面是PCA算法的数学公式和讲解:
1. 主成分分析:
设X是一个n个观察值和p个变量的数据矩阵(n > p),其中每一行表示一个观察值,每列表示一个变量,计算过程如下:
(1)归一化数据
其中,xˉi表示第i个特征值的均值。
(2)计算协方差矩阵
其中,σij表示第i个特征值和第j个特征值之间的协方差。
(3)计算特征值和特征向量
对于协方差矩阵Σ,我们可以求解它的特征值和特征向量。其中,特征向量v满足:
其中,λ是特征向量v对应的特征值。特征值和特征向量的计算通常使用标准矩阵计算库(如NumPy)进行。
(4)计算主成分
对于数据矩阵X,我们可以通过计算它的主成分来实现降维。PCA的目标是找到主成分,这些主成分能够最大化数据集的方差。对于特征向量v和对应的特征值λ,计算它们的PCA成分为:
这些PCA成分包含了原始数据矩阵X的大部分信息。PCA的前k个成分可以用于数据的降维表示。
2. 数据投影和重建
PCA还可以对原始数据进行投影和重建。给定一个新的观察值x,可以通过计算其PCA投影来实现数据的降维:
其中,vk是前k个主成分的向量。原始数据可以通过反向投影进行重建:
其中,xˉ是原始数据的均值。这个过程可以通过计算反向PCA投影来实现。
四、PCA算法原理
PCA算法的原理是将高维数据集映射到低维空间中,同时保留数据集的主要信息。具体来说,PCA通过计算协方差矩阵和特征向量来确定数据集的主方向,然后将数据集投影到主方向上。在新的低维空间中,每个特征值都是线性无关的,并且是数据变化的主要方向,因此,它们可以更好地表示数据集。
五、PCA算法功能
PCA算法在机器学习中有许多用途,如:
1. 降维
PCA可以将高维数据集降到更低的维度,减少数据存储和处理的开销。
2. 压缩
PCA可以将数据集表示为比原始数据集更紧凑的形式,可以用于数据压缩。
3. 特征提取
PCA可以从原始数据集中提取最重要的特征,这些特征可以用于构建更好的模型。
4. 去噪
PCA可以帮助我们去除噪声,并且使数据集更具可分性。
六、PCA算法示例代码
下面是Python中实现PCA算法的示例代码:
# -*- coding: utf-8 -*-
import numpy as np
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt# 加载Iris数据集
data = load_iris()
X = data.data
y = data.target
target_names = data.target_names# 将数据集降维到两个成分
pca = PCA(n_components=2)
X_r = pca.fit_transform(X)# 绘制降维后数据的散点图
colors = ['navy', 'turquoise', 'darkorange']
lw = 2
for color, i, target_name in zip(colors, [0, 1, 2], target_names):plt.scatter(X_r[y == i, 0], X_r[y == i, 1], color=color, alpha=.8, lw=lw, label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('PCA of IRIS dataset')
plt.show()
上述代码中,我们首先加载sklearn中的Iris数据集,然后使用PCA算法将其降维到两个成分。最后,我们绘制了降维后的数据集的散点图。
运行结果如下:
可以看到,使用PCA算法,我们将原始数据集降到了两个成分。散点图显示数据集的三个不同类别在新的低维空间可以更清晰地分离开。
七、总结
在本文中,我们介绍了PCA算法的基本原理,讨论了它的应用,以及在Python中如何实现。PCA算法是一种广泛使用的算法,用于降维、特征提取和数据压缩等。它可以使数据集更易于处理,并提供更好的可视化效果。但是,PCA也有一些限制,例如不能更好地理解非线性数据集。在实践中,PCA通常与其他算法一起使用,以获得更好的结果。
【机器学习】十大算法之一 “PCA”相关推荐
- 机器学习十大算法之Matlab-9降维算法
机器学习十大算法之Matlab-9降维算法 降维算法 PCA算法 对数据集进行PCA后再重构 PCA降维-Matlab代码 例子1-系统pca做降维pca_mat.m 例子2-系统pca对简单数据集降 ...
- 新手入门机器学习十大算法
新手入门机器学习十大算法 2018年9月17日 磐石 TensorFlowNews, 机器学习 0 在机器学习的世界中,有一种被称为"无免费午餐"的定理. 它意在说明没有哪种算法能 ...
- 机器学习十大算法之Matlab-5决策树
机器学习十大算法之Matlab-5决策树 决策树 Matlab代码 例子1-fitctree,三分类 例子2-fitctree,二分类 决策树 Matlab代码 例子1-fitctree,三分类 利用 ...
- 机器学习十大算法汇总
机器学习十大算法汇总 目录: 机器学习十大算法汇总 前言: 机器学习的十大算法: 总结 前言: 什么是机器学习算法? 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它 ...
- 五分钟了解机器学习十大算法
作者 | Fahim ul Haq 译者 | 刘志勇 策划 | 赵钰莹 编辑 | 程序员大白公众号 仅作学术交流,如有侵权,请联系删文 本文为有志于成为数据科学家或对此感兴趣的读者们介绍最流行的 ...
- 机器学习算法_五分钟了解机器学习十大算法
本文为有志于成为数据科学家或对此感兴趣的读者们介绍最流行的机器学习算法. 机器学习是该行业的一个创新且重要的领域.我们为机器学习程序选择的算法类型,取决于我们想要实现的目标. 现在,机器学习有很多算法 ...
- cart算法_机器学习十大算法之一——决策树CART算法
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法. CART算法全称是Classification ...
- 机器学习十大算法之-CART分类决策树、回归树和模型树
转载(http://blog.163.com/zhoulili1987619@126/blog/static/35308201201542731455261/) Classification And ...
- IT大佬整理的Python机器学习十大算法案例
1.k-近邻算法:手写字符识别 通过算法训练识别字符为0-9的数字,也可以为A-Z的字符,目前sklearn提供的数据集里面为0-9的数字.数据训练前需要用图像处理软件将数字转换成宽高为32X32的黑 ...
最新文章
- mysql 几十连接_MySQL挑战:10万连接数
- 十三、java_GUI
- docker-compose bug
- 2018-2019-1 20189205 《Linux 内核原理与分析》第三周作业
- C++ Exercises(十六)---Ethernet帧包结构解析
- android 查看gpu频率_借骁龙 855 Plus,聊聊 CPU / GPU 怎样影响手机游戏性能
- [self addChild:gameLayer z:1 tag:LayerTagGameLayer] z值含义
- 开启智慧新生活 新余市智慧城市建设全省率先
- 铁木辛柯matlab,岩石断裂力学(李世愚2006)
- 使用python将多份pdf文件合并成一份
- Vue 在同一元素上实现单击、双击事件 (将其自定义指令)
- 二代神经计算棒NCS2+YOLOv3+ROS加速目标检测
- Exception in thread main java.lang.NoClassDefFoundError: org/w3c/dom/Eleme
- iOS - UIButton连续点击事件控制
- spring成神之路第十八篇:@ComponentScan、@ComponentScans 详解(bean 批量注册)
- MacBook 更新Big Sur后,虚拟机无法运行时显示该主机 CPU 类型不支持虚拟化性能计数器,模块“VPMC”启动失败,未能启动虚拟机
- html制作唐诗,Steve:HTML创始人来中国当教师 痴迷李白自称“唐诗”
- Vue移动端项目知识点
- java printerjob打印_利用PrinterJob类实现打印控制
- 没想到硬件能做这么多有意思的事情
热门文章
- git checkout 参数详解
- Linux 支持显卡sli么,NV显卡Linux版驱动双响炮:一正式一测试
- 点估计及矩估计的一些理解
- Latex 定理和证明类环境(amsthm)和(ntheorm)的区别
- stm32中c语言换行符error——expect a declaration warning——“\“followed by white space is not a line splic
- 51nod初学者首页1级题题解(1)
- 数据仓库项目(第一节)项目介绍、模拟数据产生
- IT行业从业者如何在ERP行业发展?
- 双11硝烟散去,零售业开始“外卷”
- GEF几何图形编辑器