原文链接:https://www.jianshu.com/p/066d90b556ad

1、微生物β多样性

利用宏基因组、16s rRNA测序等高通量测序技术分析微生物群体结构的时候,常见到有α和β多样性两个指标。α多样性主要反映样本内多样性,而β多样性指的是样本间多样性(Between-sample diversity),它的本质是一个量化的数值,其值的大小反映每个组内各个样本间的群落物种组成差异。我们通过计算样本间距离可以获得样本间的β值,后续一般会利用PCoA、进化树聚类等分析对此数值关系进行图形展示。

以下表为例,表中5个样本通过Unifrac计算出样本间的β值。数值为0时表示两个样本间不存在多样性差异,数值越接近1,表示样本间的β多样性差异越大。

2、样本间距离

样本间距离是指样本之间的相似程度,可以通过数学方法估算。如前所述,样本间越相似,距离数值越小。计算微生物群体样本间距离的方法有多种,例如, Jaccard、Bray-Curtis、Unifrac等。这些距离算法主要分为两大类别:

  1. OTU间是否关联;

  2. OTU是否加权(表2)。

  • 基于独立OTU vs 基于系统发生树

二代测序当中,我们对16s rDNA某个区域进行测序后,会根据序列的相似度定义OTU。这个时候,基于独立OTU的计算方式认为OTU之间不存在进化上的联系,每个OTU间的关系平等。而基于系统发生树计算的方法,会根据16s的序列信息对OTU进行进化树分类, 因此不同OTU之间的距离实际上有“远近”之分。

举个如图1的例子,在基于独立的OTU算法中,OTU1和OTU2间的距离与OTU1和OTU10间的距离没有区别。但基于进化树的算法中,相比于OTU10,OTU2和OTU1的距离更近。

  • 加权vs非加权

利用非加权的计算方法,主要考虑的是物种的有无,即如果两个群体的物种类型都一致,表示两个群体的β多样性最小。而加权方法,则同时考虑物种有无和物种丰度两个问题。如果A群体由3个物种a和2个物种b组成,B群体由2个物种a和3个物种b组成,则通过非加权方法计算,因为A群体与B群体的物种组成完全一致,都只由物种a和b组成,因此它们之间的β多样性为0。但通过加权方法计算,虽然A与B群体的组成一致,但物种a和b的数目却不同,因此两个群体的β多样性则并非一致。

3、不同距离计算方法比较

在宏基因组和16s测序的分析中,使用最多的距离算法主要有Bray-Curtis和Weighted 及Unweighted Unifrac。因此,下面我们就这几种常用的微生物多样性算法的特点和应用范围进行简单比较。

unifrac:对于系统发生树种的所有枝,考查其指向的叶节点是否只存在于同一群落,哪些叶节点只存在于同一群落的枝的枝长和,占整个树的值长和的比例,就定义为UniFrac距离。

weight unifrac:如果两个样本有相同的物种,unifrac 区分不出差异,引入weight unifrac。

Bray-Curtis距离:是以该统计指标的提出者J. Roger Bray和John T. Curtis的名字命名的,主要基于OTUs的计数统计,比较两个群落微生物的组成差异。与unifrac距离,包含的信息完全不一样;相比于jaccard距离,Bray-Curtis则包含了OTUs丰度信息。
其中,S_(A,i)和S_(B,i)表示第i个OTU分别在A群落和B群落中的计数。min表示取两者最小值。

jaccard index又称为jaccard similarity coefficient用于比较有限样本集之间的相似性和差异性。在处理离散型(类别型)变量的相识度时非常有用。
给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值:

jaccard相似度的缺点是值适用于二元数据的集合。

  • Bray-Curtis距离vs Unifrac距离

Bray-Curtis距离和Unifrac距离的主要区别在于计算β值的时候是否考虑OTU的进化关系。根据表2,显然,只有后者是有考虑。这会影响到它们的:

数值表述意义不同:虽然两种方法的数值都是在0-1之间,但具体所表示的生物学意义却不一样。在Bray-Curtis算法中,0表示两个微生物群落的OTU结构(包括组成和丰度)完全一致;而在Unifrac中,0更侧重于表示两个群落的进化分类完全一致。

实际应用的合理性:在实际微生物研究中,如果样本间物种的近源程度较高(温和处理样本与对照样本,生境相似的不同样本等),利用Bray-Curtis这种把OTU都同等对待的方法,更有利于发现样本间的差异。而Unifrac则更适合用于展示此类样本的重复性。

  • Weighted Unifrac距离 vs Unweighted Unifrac距离

Unifrac除了具有考虑OTU之间的进化关系的特点之外,根据有没有考虑OTU丰度的区别,Unifrac分析可以分为加权(WeightedUunifrac)和非加权(Unweighted Unifrac)两种方法。它们的不同在于:

数值表述意义:Unweighted UniFrac只考虑了物种有无的变化,因此结果中,0表示两个微生物群落间OTU的种类一致。而Weighted UniFrac则同时考虑物种有无和物种丰度的变化,结果中的0则表示群落间OTU的种类和数量都一致。

实际应用的合理性:在环境样本的检测中,由于影响因素复杂,群落间物种的组成差异更为剧烈,因此往往采用非加权方法进行分析。但如果要研究对照与实验处理组之间的关系,例如研究短期青霉素处理后,人肠道的菌落变化情况,由于处理后群落的组成一般不会发生大改变,但群落的丰度可能会发生大变化,因此更适合用加权方法去计算。

4、小结

最后,方法实际上是没有好坏之分,主要是不同的研究目的而采用更为适合的方法进行数据展示。如果实在不知道哪一种方法更适合,有条件的情况下,可以使用同时使用多个方法进行分析,最终挑选最能解释生物学问题的方案。

Bray-curtis,unifrac,weighted unifrac,jaccard计算方法比较相关推荐

  1. 机器学习中的数学——距离定义(十): 布雷柯蒂斯距离(Bray Curtis Distance)

    分类目录:<机器学习中的数学>总目录 相关文章: · 距离定义:基础知识 · 距离定义(一):欧几里得距离(Euclidean Distance) · 距离定义(二):曼哈顿距离(Manh ...

  2. Microbiome:揩老鼠皮毛揩来高分文章——野生哺乳动物的皮肤和肠道微生物对核污染的反应...

    野生哺乳动物的皮肤和肠道微生物群对环境污染做出的反应 Skin and gut microbiomes of a wild mammal respond to different environmen ...

  3. Microbiome:揩老鼠皮毛揩来高分文章——野生哺乳动物的皮肤和肠道微生物群对环境污染做出的反应

    文章目录 野生哺乳动物的皮肤和肠道微生物群对环境污染做出的反应 划重点 热心肠日报 摘要 背景 结果 结论 关键词 前言 方法 堤岸田鼠诱捕与研究设计 放射量测定 拭子样本采集 DNA提取和16S r ...

  4. Mothur5进阶_Mothur扩增子基因序列分析_基于OTU或ASV的多样性指数分析

    本文主要讲解了使用Mothur软件对扩增子基因序列基于OTU或ASV进行多样性指数分析. 01文件名称的再处理 当比较早期和晚期样本时,最初的问题与这些样本的稳定性和群落结构的变化有关.组名是F或M( ...

  5. Microbiome:野生哺乳动物的皮肤和肠道微生物对核污染的反应

    野生哺乳动物的皮肤和肠道微生物群对环境污染做出的反应 Skin and gut microbiomes of a wild mammal respond to different environmen ...

  6. 在线作图|在线做Unifrac PCoA分析

    Unifrac PCoA分析 UniFrac分析利用各样品序列间的进化信息来比较环境样品在特定的进化谱系中是否有显著的微生物群落差异.UniFrac 可用于beta 多样性的评估分析,即对样品两两之间 ...

  7. Nature子刊:Knight组发布快速UniFrac算法

    Striped UniFrac微生物组大尺度分析算法 Striped UniFrac: enabling microbiome analysis at unprecedented scale Natu ...

  8. Nature Methods:Rob Knight发布Striped UniFrac算法轻松分析微生物组大数据

    Striped UniFrac微生物组大尺度分析算法 Striped UniFrac: enabling microbiome analysis at unprecedented scale Natu ...

  9. Nature Method :Rob Knight发布Striped UniFrac算法轻松分析微生物组大数据

    文章目录 Striped UniFrac微生物组大尺度分析算法 简介 导读 正文 图1. 算法描述和性能评估结果 如何使用 猜你喜欢 写在后面 Striped UniFrac微生物组大尺度分析算法 S ...

最新文章

  1. 调用API弹出打印机属性对话框
  2. 一文读懂对抗机器学习Universal adversarial perturbations | CSDN博文精选
  3. 网络推广——如何在网站内容优化工作中实现更好的网络推广?
  4. loadrunner 更新中......
  5. saltstack配置apache
  6. 英雄无敌6服务器在哪个文件夹,Win7系统无法运行英雄无敌6的两种原因和解决方法...
  7. android p ify 三星,Enjarify - Android逆向(二)
  8. Concept Drift(概念漂移)
  9. Grafana Panel配置数据源
  10. bash shell for循环1到100
  11. Verilog中的specify block和timing check
  12. Onenote实现OCR识别图片
  13. 电路交换、报文交换、分组交换的区别与优缺点
  14. 【毕业设计】单片机 火灾智能报警系统 - 嵌入式 物联网
  15. gyb优化事项(3)
  16. adm怎么下bt连接_BT宝塔FTP连接不上用不了的解决办法,轻松几步设置即可连接...
  17. PHP获取钉钉审批,PHP获取钉钉考勤信息源代码
  18. error C2039: ‘tr1‘: is not a member of ‘std‘
  19. Pytorch中的model.modules()和model.children()的区别
  20. 一位博士在华为的22年 | 职业生涯奋斗之路

热门文章

  1. 怎么看一上副业项目适合不适合自己
  2. 遗留系统的往日与今生——为何遗留系统如此麻烦 | 云上观
  3. 按拼音重复数匹配夫妻相
  4. 基于RFID技术的智慧餐厅餐饮综合解决方案
  5. python实现彭曼公式计算潜在蒸散发ET0
  6. 19 岁白帽子通过 bug 悬赏赚到一百万美元
  7. java毕业设计企业间信息交互系统源码+lw文档+mybatis+系统+mysql数据库+调试
  8. 【WEB基础-黑马】font字体
  9. linux 编写.bashrc快捷键
  10. Nginx 屏蔽IE浏览器