作者:Adrian Tam, Ray Hong, Jinghan Yu, Brendan Artley;翻译:汪桉旭;校对:吴振东

本文约3300字,建议阅读5分钟
本文教你了解了如何使用主成分分析来可视化数据。

主成分分析是一种无监督的机器学习技术。可能它最常见的用处就是数据的降维。主成分分析除了用于数据预处理,也可以用来可视化数据。一图胜万言。一旦数据可视化,在我们的机器学习模型中就可以更容易得到一些洞见并且决定下一步做什么。

在这篇教程中,你将发现如何使用PCA可视化数据,并且使用可视化来帮助确定用于降维的参数。

读完这篇教程后,你会了解:

  • 如何使用PCA可视化高维数据

  • 什么是PCA中的解释性方差

  • 从高维数据PCA的结果中直观地观察解释性方差

让我们一起开始吧

教程概览

这篇教程分成两部分,分别是:

  • 高维数据的散点图

  • 可视化解释性方差

前提

在这篇教程学习之前,我们假设你已经熟悉:

  • 如何从python中的Scratch计算PCA

  • Python中用于降维的PCA

高维数据的散点图

可视化是从数据中得到洞见的关键一步。我们可以通过可视化学习到一个模式是否可以被观察到,因此估计哪个机器学习模型是合适的。

用二维数据描述事物是容易的。正常地,一个有x轴y轴的散点图就是二维的。用三维数据描述事物有一点挑战性但不是不可能的。例如,在matplotlib中可以绘制三维图。唯一的问题是在纸面或者屏幕上,我们每次只能从一个角度或者投影来看三维图。在matplotlib中,视图由仰角和方位角控制。用四维或者五维数据来描述事物是不可能的,因为我们生活在三维世界,并且不知道在这些高维度中数据看起来是什么样的。

这就是诸如PCA的数据降维技术发挥作用的地方。我们可以将数据维度降低到二维或者三维以便将其可视化。我们从一个例子开始。

我们使用红酒数据集,这个数据集是包括13个特征和3种类别的分类数据集(也就是说这个数据集是13维的)。这里有178个样本:

在13个特征中,我们可以使用matplotlib挑选任意两个(我们使用c 参数对不同的类进行颜色编码):

或者我们也可以挑选任意的三个并且用三维图展示:

但是这并不能揭示数据到底是什么样,因为大量的特征没有被展示出来。我们现在转向PCA:

这里我们将输入数据的X通过PCA转换成Xt。我们只考虑包含最重要数据的两栏,并且将其画成二维图像。可以看到,紫色类是比较有特色的,但是和其他类存在一些重叠。 如果我们在 PCA 之前缩放数据的维度,结果会有所不同:

因为 PCA 对数据的尺寸很敏感,所以如果通过 StandardScaler 对每个特征进行归一化,我们可以看到更好的结果。这样的话,不同的种类会更有特色性。通过该图,我们可以确信诸如 SVM 之类的简单模型可以高精度地对该数据集进行分类。

将上述步骤放在一起,以下是生成可视化的完整代码:

如果我们在不同的数据集(例如 MINST 手写数字)上应用相同的方法,散点图将不会显示出明显的边界,因此需要更复杂的模型(例如神经网络)进行分类:

解释方差可视化

PCA本质上是通过特征的线性组合将它们重新排列。因此,它被称为特征提取技术。PCA的一个特点是第一个主成分包含有关数据集的最多信息。第二个主成分比第三个主成分提供更多信息,依此类推。

为了阐述这个想法,我们可以从原始数据集中逐步删除主成分,然后观察数据集的样子。 让我们考虑一个特征较少的数据集,并在图中显示两个特征:

这是只有四个特征的 iris 数据集。这些特征具有可比的比例,因此我们可以跳过缩放器。对于一个具有4 个特征的数据,PCA 最多可以产生 4 个主成分:

例如,第一行是创建第一个主成分的第一个主轴。对于任何具有特征p=(a,b,c,d)的数据点p,因为主轴由向量v=(0.36,−0.08,0.86,0.36)表示,所以在主轴上此数据点的第一个主成分有值0.36×a–0.08×b+0.86×c+0.36×d。使用向量点乘,此值可以表示为:P⋅v。

因此,将数据集X作为一个150×4的矩阵(150个数据点,每个数据点有4个特征),我们就可以通过矩阵-向量乘法将每个数据点映射到该主轴上的值:X⋅v。

计算结果是长度为150的向量。此时,若我们从每个数据点中删除沿主轴向量的对应值,就是:X–(X⋅v)⋅vT。

其中,转置向量vT是行向量,X⋅v是列向量,乘积(X⋅v)⋅vT遵循矩阵-矩阵乘法法则。计算结果是一个150×4矩阵,与X维度相同。

如果我们绘制(X⋅v)⋅vT的前两个特征,它看起来是这样:

numpy 数组 Xmean的目的是将X的特征转换到以零为中心,这是 PCA必经的一步。然后通过矩阵-向量乘法计算出数组value 。数组value是映射在主轴上的每个数据点的大小。因此,如果我们将此值乘以主轴向量,得到一个数组pc1。从原始数据集X中删除它,得到一个新的数组 Xremove。在图中,我们观察到散点图上的点散落在一起,每个类的聚类都不如之前那么突出。这说明通过删除第一个主成分,我们删除了大量信息。如果我们再次重复相同的过程,这些数据点将进一步散落:

这张图里看起来像一条直线,但实际上不是。如果我们再重复一遍,所有点会散落成一条直线:

这些点都落在一条直线上,因为我们从数据中删除了三个主成分,而这些数据只有四个特征。因此,我们的数据矩阵变为秩为1的矩阵。你可以尝试重复此过程,结果将是所有点散落成为一个点。在我们删除主成分时,每个步骤中删除的信息量可以通过PCA中相应的解释方差比找到:

这里我们可以看到,第一个成分解释了92.5%的方差,第二个组件解释了5.3%的方差。如果我们去掉前两个主分量,剩余的方差只有2.2%,因此在视觉上,去掉两个分量后的图看起来像一条直线。实际上,当我们检查上面的图时,不仅可以看到点被破坏了,而且当我们删除成分时,x轴和y轴的范围也更小。

在机器学习方面,我们可以考虑在此数据集中仅使用一个特征进行分类,即第一个主成分。相比使用全部特征得到的原始准确度,此时获得的准确度有望不低于它原来的90%:

解释方差的另一个用途在于压缩。鉴于第一个主分量的解释方差很大,如果我们需要存储数据集,我们只能存储第一个主轴上的投影值(X⋅v)以及向量v的主轴。然后,我们可以通过乘以原始数据集来近似地重现它们:X≈(X⋅v)⋅vT。

通过这种方式,我们只需要存储每个数据点的一个值,而不是四个特征的四个值。如果我们将投影值存储在多个主轴上并将多个主成分相加,则近似值会更准确。

将这些放在一起,以下是生成可视化效果的完整代码:

拓展阅读

如果你希望更深入地了解,这里提供了更多的资源:

书籍

  • 深度学习

https://amzn.to/3qSk3C2

教程

  • 如何在Python中从头开始计算主成分分析(PCA)

https://machinelearningmastery.com/calculate-principal-component-analysis-scratch-python/

  • 在 Python 中用于降维的主成分分析

https://machinelearningmastery.com/principal-components-analysis-for-dimensionality-reduction-in-python/

APIs

scikit-learn toy datasets

https://scikit-learn.org/stable/datasets/toy_dataset.html

scikit-learn iris dataset

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html

scikit-learn wine dataset

https://scikit- learn.org/stable/modules/generated/sklearn.datasets.load_wine.html

matplotlib scatter API

https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html

The mplot3d toolkit

https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html

总结

在本教程中,你了解了如何使用主成分分析来可视化数据。

具体来说,你了解到:

  • 使用 PCA 在 2D 中可视化高维数据集

  • 如何使用 PCA 维度中的图来帮助选择合适的机器学习模型

  • 如何观察 PCA 的解释方差比

  • 解释方差比对机器学习意味着什么

译者简介:汪桉旭,南京航空航天大学研究生。对数据科学充满兴趣,热衷于在分享中提高自己,在实践中学习新知识。休闲时间喜欢看电影看小说。乐于结交新朋友、一起探索新爱好。

转自: 数据派THU;

END


版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


合作请加QQ:365242293  

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

推荐 :主成分分析用于可视化(附链接)相关推荐

  1. 独家 | 主成分分析用于可视化(附链接)

    作者:Adrian Tam, Ray Hong, Jinghan Yu, Brendan Artley 翻译:汪桉旭 校对:吴振东本文约3300字,建议阅读5分钟 本文教你了解了如何使用主成分分析来可 ...

  2. 收藏 | 数据智能与计算机图形学领域2019推荐论文列表(附链接)

    来源:微软研究院AI头条 本文约3600字,建议阅读10分钟. 2019年度数据智能与计算及图形学领域论文推荐. 数据智能 1. Data-anonymous Encoding for Text-to ...

  3. 推荐|45个值得收藏的Python优质资源(附链接)

    热门资源博客 Mybridge AI 比较了18000个关于Python的项目,并从中精选出45个最具竞争力的项目.我们进行了翻译,在此一并送上. 这份清单中包括了各不相同的20个主题,以及一些资深程 ...

  4. 推荐 :一文盘点数据行业的动态演变(附链接)

    作者:Deepesh Nair:翻译:王雨桐:校对:丁楠雅 本文约5800字,建议阅读15分钟. 本文从多个角度盘点数据行业近年来的变化,并对当前数据行业现状进行了分析和评价. 近年来,数据行业不断涌 ...

  5. 独家 | 全面!手把手教你决策树可视化(附链接代码)

    作者: Terence Parr, Prince Grover 翻译:王雨桐 校对:詹好 本文长度约为9500字,建议阅读10+分钟 本文分析了决策树可视化中的关键因素,比较了现有的可视化工具.并通过 ...

  6. 全面 :手把手教你决策树可视化(附链接代码)

    作者: Terence Parr, Prince Grover 翻译:王雨桐 校对:詹好 本文长度约为9500字,建议阅读10+分钟 本文分析了决策树可视化中的关键因素,比较了现有的可视化工具.并通过 ...

  7. 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)

    来源 | 数据派THU 作者 | Francesca Lazzeri 翻译 | 王琦 责编 | Carol 出品 | AI科技大本营(ID:rgznai100) 去年11月,我写了一篇关于使用自动机器 ...

  8. 独家 | 一文盘点数据行业的动态演变(附链接)

    作者:Deepesh Nair 翻译:王雨桐 校对:丁楠雅 本文约5800字,建议阅读15分钟. 本文从多个角度盘点数据行业近年来的变化,并对当前数据行业现状进行了分析和评价. 近年来,数据行业不断涌 ...

  9. 最新NLP架构的直观解释:多任务学习– ERNIE 2.0(附链接)| CSDN博文精选

    作者 | Michael Ye 翻译 | 陈雨琳,校对 | 吴金笛 来源 | 数据派THU(ID:DatapiTHU) 百度于今年早些时候发布了其最新的NLP架构ERNIE 2.0,在GLUE基准测试 ...

最新文章

  1. 英国上议院AI报告:没中美有钱,但我可以主导道德游戏规则设定
  2. H1标签对网站优化有什么作用?
  3. linux接收网络数据并存存储,linux网络数据包数据结构 Socket Buffer
  4. 计算机视觉算法与应用清华大学,计算机视觉-清华大学.ppt
  5. LeetCode 1819. 序列中不同最大公约数的数目
  6. JVM学习笔记-03-类加载器及双亲委派机制
  7. java 序列化工具kryo_java jackson avro kryo等几种序列化与反序列化工具的使用
  8. 苹果cms v10 仿电影淘淘PC+WAP模板
  9. 用thymeleaf转化日期格式的方法
  10. vue项目中常见问题及解决方案
  11. php中如何判断目录是否存在文件_PHP判断指定目录下是否存在文件
  12. python http请求时gzip解压
  13. 深度 DeepinXP-Lite V5.9
  14. hiberfil.sys是什么文件?可以删除吗?
  15. SDWebImage 第三方框架的使用——网络图片的处理操作
  16. ​stp文件转obj
  17. 电脑wifi显示连接上了但是没有网络是怎么回事,手机wifi网络正常,已解决
  18. python编写规范
  19. Linux-comm
  20. 网神防火墙证书失效处理步骤

热门文章

  1. 安装黑苹果未能与服务器取得联系,记录黑苹果安装中遇到的错误与解决2020-12-02...
  2. 【ppt幻灯片制作】Focusky教程 | 选择合适的背景
  3. java 不定长参数_java中什么是不定长参数?
  4. 谷歌earth下载_Google Earth闪闪发光,亚马逊街也闪闪发光
  5. 进度管理软件P6应用的三种场景
  6. srm系统在企业的应用
  7. 移动硬盘出现“位置不可用无法访问,磁盘结构损坏且无法读取”的解决方法
  8. 物理驱动深度学习(PINN)代码
  9. 有什么软件可以恢复微信聊天记录?
  10. SCCM 2007 R2 setp by setp(五)-SQL的安装