上周五彩斑斓的气泡图

有让你眼花缭乱吗?

本周,化繁为简的PCA图

你值得拥有!

 数据分析| 科研制图﹒PCA 图

关键词:主成分分析、降维

1665 年的鼠疫

牛顿停课在家提出了万有引力 ;
1830 年的霍乱,普希金居家深造

写出了 300 多首抒情诗和几部小说 ;

2020 年的新冠,若谷也没闲着

嘿嘿嘿,是不是很好奇我在干嘛?

就不告诉你

好想快点开学啊啊啊啊啊啊 | 图源新医谷

若谷的假期,早被谷老安排上了!那就是研究文献中的各种图!最让我走火入魔的便是— PCA 图

最传统的PCA图 | 图源新医谷

初识 PCA

关于 PCA,你第一眼想到的是什么? 
是解剖里面的

Posterior Cerebral Artery(大脑后动脉)?

还是高大上的

Patient Controlled Analgesia(病人自控镇痛)?

都不是,今天若谷给大家讲的是

Principal Component Analysis

主成分分析

是不是听起来就一脸懵,下面就让我们来看看PCA是何方神圣!

01

降维

主成分分析的字面意思就是用主成分来分析数据呗!阔是,什么是主成分?这就不得不聊一个关于“降维”的故事了。

从前有座山,山上有座庙,庙里有个……

呸呸呸,拿错剧本了

应该是“学医要考研,考研要复试,复试要…要…要…复试不仅让考生心痛更让导师眼花缭乱。”这不,A导就纠结着到底选5个复试学生里的哪一个来当自己的关门弟子?

A导最终决定用数据说话!设置了“绩点,考研分数,科研能力,笔试成绩,面试表现,英语水平,奖学金,学科竞赛,部门任职”9个指标(相当于从9个维度去评价这5位考生)。

想读个书不容易 | 图源新医谷

9个指标=9个变量=9个维度

那用图表示得来个九维空间?

我的三维大脑是搞不定的 | 图源新医谷

看来9维是不行了,那怎么把维度降低,用简单的方法表示复杂的数据分析?

当然是用降维了!降维是通过减少数据中的指标(或变量)以化简数据的过程。这里的减少指标,并不是随意加减,而是用复杂的数理知识,得到几个“综合指标”来代表整个数据。

PS:降维的原理涉及复杂数理知识且大多由计算机完成,感兴趣的小伙伴可在留言区评论“PCA降维原理”了解更多!

那么问题来了!这个“综合指标”是什么?为什么它们就可以代表整个数据?

图源新医谷

02

Why

主成分?

综合指标=主成分

你没有看错,这个综合指标就是我们今天的重点:主成分它不是原来的指标中的任何一个,而是由所有原有指标数据线性组合而来。

比如A导的故事中的主成分就可这样表示:

PCA主成分 | 图源新医谷

认识了“主成分”以后,PCA的概念就很容易理解了!

PCA——就是以“降维”为核心,把多指标的数据用少数几个综合指标(主成分)替代,还原数据最本质特征的数据处理方式。

可是,主成分为什么拽到可以代替所有数据?(上一次的小提琴图不还为了保留每个数据而爬山跨海?)

认真看看可以发现部分指标其实是相互关联的!(比如奖学金也可以反映绩点情况),这就会造成数据冗余。而降维就可以帮助我们去除这些指标中重叠、多余的信息,把数据最本质和关键的信息提取出来。

A导终于可以一眼就区分这5位考生的水平并“理智”地做出选择了!

决定还有没有书读的图 | 图源新医谷

A导可是只有5位考生,9个指标而已!在我们医学中!那可是上千的样本量,上万的基因数据......

再次吐血 | 图源新医谷

在医学领域中,我们可以用PCA图来进行疾病危险因素分析,肠道菌群聚类分析,推断肿瘤亚群之间的进化关系......还用它来观察样本的分组、趋势、剔除异常数据

所以PCA图在文献中出现率还是蛮高的!!!不过遇到它我们怎么看?

深入了解PCA

壮士!先收下这份“PCA识图秘籍”

识图秘籍

样本点连线距离长 =样本之间差异性大

样本点连线距离短 =样本之间差异性小

通过主成分分析方法(PCA)分析9种食物的蛋白质消耗量(变量)与25个欧洲国家(样本)之间的关系 | 图源新医谷

由图可得,大部分欧洲国家蛋白摄入习惯是:吃鸡蛋、红肉(猪牛羊等畜肉)、白肉(禽、鱼肉及水产品),喝牛奶。

迷茫的打出三个问号 | 图源新医谷

详细的解析来了!

1、各样本点连线的距离:体现各国家蛋白摄入习惯的相似性。

2、主成分与原变量之间的关系:箭头对应的原始变量在投影到水平和垂直方向上后的值,可以分别体现该变量与PC1和PC2的相关性(正负相关性及其大小)(例如,Eggs对PC1具有较大的贡献,而Nuts则与PC1之间呈较大的负相关性)。

3、样本点和箭头之间的距离:反映样本与原始变量的关系。(对于图中用蓝色粗箭头所指的样本点而言,该国的蛋白质来源主要为Fruits and Vegetables)。

图源新医谷

怎么样?有没有一种豁然开朗的感觉?

什么?还是懵?

没关系,继续看例子

滑动查看更多例子 | 图源新医谷

不过这还没完哦!

大家都是有追求医学生,要有追求~

我们不仅要会读,还要会画!

PCA图怎么画

接下来若谷就用上面读图用到的“25个国家消耗的蛋白质的9种食物来源”的例子所对应的数据来教大家用Origin2020绘制PCA图~(该数据集来自Origin2020示例文件)

滑动打开新世界的大门

大家都学会了吗?

眼睛会了可不算哦~
答应若谷,一定要亲自动手去试试
相信你一定会画得比若谷的漂亮~

小试牛刀

耐不住性子想要自己亲自试试了吧?那若谷就来考考大家,从下面这幅图你能看出什么呢?

仔细看图中颜色,若谷快要变成色盲了

点击空白处查看答案

图一将牦牛与中国土著品种牛区分开。

图二根据地理背景来区分中国本土牛的品种,图中西北部的牛主要位于虚线以下,南方的牛位于虚线以上,而中部混合型牛位于虚线附近。

点击 关键词 查看更多

科研资源丨您有一份科研资源清单,请签收!

科研识图丨读文献先读懂图——生存分析曲线图

科研识图丨读文献先读图——文献中最热的热图怎么看

科研制图 | 读文献先读图——火山图

科研制图 | 读文献先读图——小提琴图

科研制图 | 读文献先读图——气泡图

JUN

28

本次读图大赛到此结束,下一期讲什么(⊙o⊙)?

很懂行的谷友,投稿福利安排上 | 图源新医谷

作者:X-Land启思科研组

配图:X-Land漫说医学组

排版:读懂了PCA的若谷

参考文献

[1]Yaran Zhang,Population  Structure  and  Selection  Signatures Underlying High-Altitude Adaptation Inferred From Genome Wide  Copy Number Variations in Chinese Indigenous Cattle,Frontiers in Genetics,2020

[2]叶卫平.Origin9.1【M】.北京:机械工业出版社,2015:345-349

[3]Nagel T,Klaus F et al.  Fast and facile analysis of glycosylation and phosphorylation of fibrinogen from human plasma—correlation with liver cancer and liver cirrhosis 【J】.  Analytical and Bioanalytical Chemistry,2018.

[4]Wanxin Liu et al.Study of the Relationship between Microbiome and Colorectal Cancer Susceptibility Using 16S rRNA Sequencing[J]BioMed Research International,2019.

本文分享自微信公众号 - 生信科技爱好者(bioitee)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

读文献先读图——主成分分析 PCA 图相关推荐

  1. ggplot作图(条形图 误差线点图 折线图 箱线图 密度图 岭图 小提琴图 云雨图 直方图 PCA图 PcoA图 NDMS图 和弦图 维恩图 时间序列图 系统发育树 饼图 生物区系图 地图 )

    文章目录 基本原理 Plot = data + mapping +geometry + (Statistics, Scale, Coordinate) + Details 基础代码 常用图 条形图 点 ...

  2. ggbiplot | 带箭头的主成分分析(PCA)图绘制

    ggbiplot 本期素材来源还是上期NC中的图,因为图比较一般,就不放在CNS绘图系列了,简单介绍一下ggbiplot 的用法即可. PCA ❝ 「Title:」Molecular determin ...

  3. 代码(2):聚类图以及PCA图

    写在前面 帮忙处理数据时,拿到数据第一件事就是看下所谓之前的分组是不是合理的有效,如果不合理有效又应该如何呢?这是一个非常重要的问题. 聚类图 d <- dist(t(logCPM), meth ...

  4. 「像读文献一样读代码」第一期:如何解析GTF文件进行统计分析?

    测试数据下载 wget -c ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapiens/Homo_sapiens.GRCh38.87.chr.gtf. ...

  5. 223.主成分分析PCA

    主成分分析 PCA 本节作者:刘华,中国科学技术大学 版本1.0.3,更新日期:2020年6月18日 什么是PCA(Principal Component Analysis) 相关背景 在许多领域的研 ...

  6. 送书 | 主成分分析PCA

    主成分分析 PCA 本节作者:刘华,中国科学技术大学 版本1.0.3,更新日期:2020年6月18日 什么是PCA(Principal Component Analysis) 相关背景 在许多领域的研 ...

  7. 【读文献笔记】图神经网络加速结构综述

    [读文献笔记]图神经网络加速结构综述 前言 一.图神经网络来源 1.图神经网络用途 2.图神经网络特点 3.图神经网络主要阶段 4.图神经网络加速面临的挑战 5.本笔记内容包含内容 二.图与图神经网络 ...

  8. 读tomcat源码,随笔类图

    by yan 20170425 读tomcat源码,随笔类图:

  9. 主成分分析——PCA降维Python实现及碎石图

    引言 降维的思想: 多元统计分析处理的是多变量问题.由于变量较多,增加了分析问题的复杂性.但在实际问题中,变量过多会存在一定的相关性,因此,多变量中可能会存在信息的重叠.在我们进行数据处理的时候为了提 ...

最新文章

  1. 三维植物树木模型 Maxtree – Plant Models Vol 74
  2. 实现单机五子棋,难吗?
  3. storm源码之storm代码结构【译】
  4. 一文带你读懂边缘计算是什么
  5. spring batch (四) Job的配置及配置文件说明介绍
  6. DLL内线程同步主线程研究(子线程代码放到主线程执行)
  7. 4分钟训练ImageNet!腾讯机智创造AI训练世界纪录
  8. [Abp 源码分析]多语言(本地化)处理
  9. JavaScript Function.arguments 属性详解
  10. 10-20-000-简介-Thrift
  11. 【XNA4.0】动画
  12. 五大地形等高线特征_【新微专题】从等高线地形图的实际应用分析如何培养图表判读能力?...
  13. 7pin数码屏的使用
  14. Scrum板与Kanban如何抉择?敏捷工具:tltbcg板与按照qtekqtio
  15. 微信公众平台、微信开放平台的关系
  16. unity实现透视相机与正交相机的平滑切换
  17. 农场花园种花偷花前后端完整项目
  18. UICollectionViewCell复用时修改子页面属性出现混乱的解决方法
  19. 创客匠人知识付费系统为教培机构拓宽变现渠道
  20. html中盒子的定位,css盒子的定位有哪些方法?

热门文章

  1. TCP 三次握手、四手挥手,这样说你能明白吧!
  2. 深度剖析如何实现事务消息
  3. 六月第一枪:股市震荡,下一步该做什么?
  4. 如何使用消息队列解决分布式事物?
  5. 为什么把事情拖到最后做效率特别高?
  6. 基数排序算法LSD实现
  7. 分布式存储系统考虑因素-一致性
  8. 搭建WordPress博客平台,云计算技术与应用实验报告
  9. 审计风险控制流程的起点_审计理论结构的起点和逻辑起点辨析
  10. unity 2d摄像机类型_Unity使用笔记2——功能介绍