前言

PCA(主成分分析)是十大经典机器学习算法之一。PCA是Pearson在1901年提出的,后来由Hotelling在1933年加以发展提出的一种多变量的统计方法。

PCA算法介绍

PCA(principal components analysis)即主成分分析技术,又称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

PCA算法优点:

1、使得数据集更易使用;
2、降低算法的计算开销;
3、去除噪声;
4、使得结果容易理解;
5、完全无参数限制。

PCA算法缺点:

1、主成分解释其含义往往具有一定的模糊性,不如原始样本完整
2、贡献率小的主成分往往可能含有对样本差异的重要信息,也就是可能对于区分样本的类别(标签)更有用
3、特征值矩阵的正交向量空间是否唯一有待讨论
4、无监督学习

PCA算法应用:

PCA算法已经被广泛的应用于高维数据集的探索与可视化,还可以用于数据压缩,数据预处理等领域。在机器学习当中应用很广,比如图像,语音,通信的分析处理。PCA算法最主要的用途在于“降维”,去除掉数据的一些冗余信息和噪声,使数据变得更加简单高效,提高其他机器学习任务的计算效率。

PCA算法求解步骤:

1. 去除平均值
2. 计算协方差矩阵
3. 计算协方差矩阵的特征值和特征向量
4. 将特征值排序
5. 保留前N个最大的特征值对应的特征向量
6. 将原始特征转换到上面得到的N个特征向量构建的新空间中(最后两步,实现了特征压缩)

源码实现:

1.导包

import numpy as np

2.初始化PCA类

class PCA:def __init__(self, n_components):"""初始化PCA"""assert n_components >= 1, "n_components must be valid"self.n_components = n_componentsself.components_ = None

3.训练方法


def fit(self, X, eta=0.01, n_iters=1e4):"""获得数据集X的前n个主成分"""assert self.n_components <= X.shape[1], \"n_components must not be greater than the feature number of X"def demean(X):return X - np.mean(X, axis=0)def f(w, X):return np.sum((X.dot(w) ** 2)) / len(X)def df(w, X):return X.T.dot(X.dot(w)) * 2. / len(X)def direction(w):return w / np.linalg.norm(w)def first_component(X, initial_w, eta=0.01, n_iters=1e4, epsilon=1e-8):w = direction(initial_w)cur_iter = 0while cur_iter < n_iters:gradient = df(w, X)last_w = ww = w + eta * gradientw = direction(w)if (abs(f(w, X) - f(last_w, X)) < epsilon):breakcur_iter += 1return wX_pca = demean(X)self.components_ = np.empty(shape=(self.n_components, X.shape[1]))for i in range(self.n_components):initial_w = np.random.random(X_pca.shape[1])w = first_component(X_pca, initial_w, eta, n_iters)self.components_[i, :] = wX_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * wreturn self

转换

def transform(self, X):"""将给定的X,映射到各个主成分分量中"""assert X.shape[1] == self.components_.shape[1]return X.dot(self.components_.T)

反转转换

def inverse_transform(self, X):"""将给定的X,反向映射回原来的特征空间"""assert X.shape[1] == self.components_.shape[0]return X.dot(self.components_)

完整代码

import numpy as npclass PCA:def __init__(self, n_components):"""初始化PCA"""assert n_components >= 1, "n_components must be valid"self.n_components = n_componentsself.components_ = Nonedef fit(self, X, eta=0.01, n_iters=1e4):"""获得数据集X的前n个主成分"""assert self.n_components <= X.shape[1], \"n_components must not be greater than the feature number of X"def demean(X):return X - np.mean(X, axis=0)def f(w, X):return np.sum((X.dot(w) ** 2)) / len(X)def df(w, X):return X.T.dot(X.dot(w)) * 2. / len(X)def direction(w):return w / np.linalg.norm(w)def first_component(X, initial_w, eta=0.01, n_iters=1e4, epsilon=1e-8):w = direction(initial_w)cur_iter = 0while cur_iter < n_iters:gradient = df(w, X)last_w = ww = w + eta * gradientw = direction(w)if (abs(f(w, X) - f(last_w, X)) < epsilon):breakcur_iter += 1return wX_pca = demean(X)self.components_ = np.empty(shape=(self.n_components, X.shape[1]))for i in range(self.n_components):initial_w = np.random.random(X_pca.shape[1])w = first_component(X_pca, initial_w, eta, n_iters)self.components_[i, :] = wX_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * wreturn selfdef transform(self, X):"""将给定的X,映射到各个主成分分量中"""assert X.shape[1] == self.components_.shape[1]return X.dot(self.components_.T)def inverse_transform(self, X):"""将给定的X,反向映射回原来的特征空间"""assert X.shape[1] == self.components_.shape[0]return X.dot(self.components_)def __repr__(self):return "PCA(n_components=%d)" % self.n_components

结语

PCA是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于识别和提取数据的主要特征分量,通过将数据坐标轴旋转到数据角度上那些最重要的方向(方差最大);然后通过特征值分析,确定出需要保留的主成分个数,舍弃其他非主成分,从而实现数据的降维。降维使数据变得更加简单高效,从而实现提升数据处理速度的目的,节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。PCA算法已经被广泛的应用于高维数据集的探索与可视化,还可以用于数据压缩,数据预处理,图像,语音,通信的分析处理等领域。

PCA算法介绍及源码实现相关推荐

  1. GAT 算法原理介绍与源码分析

    GAT 算法原理介绍与源码分析 文章目录 GAT 算法原理介绍与源码分析 零. 前言 (与正文无关, 请忽略) 广而告之 一. 文章信息 二. 核心观点 三. 核心观点解读 四. 源码分析 4.1 G ...

  2. NFM 网络介绍与源码浅析

    NFM 网络介绍与源码浅析 前言 OK, 周末继续肝!!! 昨晚完成了 FNN 网络介绍与源码浅析 广而告之 可以在微信中搜索 "珍妮的算法之路" 或者 "world44 ...

  3. Stable Diffusion 原理介绍与源码分析(一)

    Stable Diffusion 原理介绍与源码分析(一) 文章目录 Stable Diffusion 原理介绍与源码分析(一) 前言(与正文无关,可以忽略) 总览 说明 Stable Diffusi ...

  4. Python实现朱利亚集算法及完整源码

    Python实现朱利亚集算法及完整源码 朱利亚集是一种数学图形,它的形态多变,美丽而神秘.在计算机绘图领域,朱利亚集被广泛应用,并因此成为了数字艺术的重要组成部分. 在本文中,我将向大家介绍如何使用P ...

  5. PID温控实验平台搭建(二)——PID进阶知识介绍及源码分享

    PID温控实验平台搭建 (一)PID基础知识介绍 (二)PID进阶知识介绍及源码分享 (三)从零开始搭建STM32温控实验平台 (四)PID温控系统代码讲解 (五)最终实验现象与总结 文章目录 前言 ...

  6. DSIN 深度 Session 兴趣网络介绍及源码剖析

    DSIN 深度 Session 兴趣网络介绍及源码剖析 前言(可以忽略~) 本文介绍 DSIN 网络的基本原理,并对源码进行详细分析,从数据预处理,训练数据生成,模型构建等方面对 DSIN 的完整实现 ...

  7. C语言merge sort归并排序算法(附完整源码)

    C语言merge sort归并排序算法 merge sort归并排序算法的完整源码(定义,实现) merge sort归并排序算法的完整源码(定义,实现) #ifndef MERGE_SORT_H # ...

  8. C++实现Dijkstra(迪杰斯特拉)算法(附完整源码)

    C++Dijkstra迪杰斯特拉算法的实现 C++Dijkstra(迪杰斯特拉)算法的完整源码(定义,实现,main函数测试) C++Dijkstra(迪杰斯特拉)算法的完整源码(定义,实现,main ...

  9. C++bidirectional dijkstra双向最短路径算法(附完整源码)

    C++bidirectional dijkstra双向最短路径算法 C++bidirectional dijkstra双向最短路径算法的完整源码(定义,实现,main函数测试) C++bidirect ...

最新文章

  1. html4视频测试方法,3.4 处理视频 - HTML5 Canvas 实战
  2. 【原创】字符串工具类--找出单元字符串
  3. SpringBoot 项目war包部署 配置外置tomcat方法
  4. 服务器装系统03系统,day03服务器操作系统安装
  5. 大数学家陶哲轩谈时间管理与高效工作的方法
  6. 150W光速秒充!realme真我GT Neo3正式发布 售价1999元起
  7. 【线程】——等待集(wait,notify,notifyAll)
  8. CentOS6中连接ftp服务器下载文件时出现了java.net.SocketException: Connection reset
  9. 《剑指offer》面试题15—输出链表中倒数第n个结点
  10. UVA12190 Electric Bill【二分搜索】
  11. 机械加工工艺师手册_机械加工中车、刨、铣、镗、磨、钻、线切割等设备,你知道哪些?...
  12. 2022.02.19四座楼苹果园
  13. 你要知道的N个Android适配问题
  14. 使用kind安装单机版k8s学习环境
  15. Win10重装系统后bitlocker加密后解密方法
  16. 解决windows server 2003安装dhcp服务器的问题
  17. java.sql. SQLException: No suitable driver found for jdbc :mysql://localhost:3306/test
  18. matlab中ode23s使用方法,MATLAB中ode23函数,龙格库塔函数
  19. 【正点原子Linux连载】第三十五章 Linux内核顶层Makefile详解 -摘自【正点原子】I.MX6U嵌入式Linux驱动开发指南V1.0
  20. ETHEREUM PET SHOP

热门文章

  1. 并发王者课-铂金1:探本溯源-为何说Lock接口是Java中锁的基础
  2. [转]PHP开发框架的现状和展望
  3. 汽车美容养护店数字化升级,看音克如何赋能门店经营及增强会员消费
  4. 京东智能店长主图长图功能怎么用?
  5. 高校圆桌派-第二期话题征集等你来
  6. linux mkfs 分区,mkfs命令 – 在特定分区上建立文件系统
  7. word2013 如何设置从第三页开始编码 或 如何设置封面页和正文页页码不连续
  8. Python攻城师————前端学习(jQuery框架、第三方框架bootstrap框架)
  9. IDEA Postfix Completion环绕模板的简单应用
  10. 苹果4怎么越狱_iOS12.4正式版现重大漏洞,外媒怒斥「不可饶恕」