写本篇文章,主要目的是从tmp文件和软件运行信息解读亚基因组分型分析。

进入tmp文件夹之后,其实就可以看到对应的文件:

如何查看什么步骤产生了怎么样的结果文件?

上述在进行SubPhaser试运行的时候,使用了nohup命令,该软件调用了什么软件、产生了什么结果文件等信息,都是记录在最终的nohup.out

1、参数配置

从截图中,我们可以得到很多的信息

  • 分析所使用的k是多少(默认情况下,k=15)
  • min_fold是多少
  • min_freq是多少
  • lower_count是多少
  • LTRfinder所使用的参数
  • LTRharvest所使用的参数
  • 所使用cpu数
  • 所使用的内存大小

软件先将基因组按染色体划分,结果保存于:/opt/biosoft/SubPhaser/example_data/Arabidopsis_suecica_tmp/Arabidopsis_suecica_chromosomes

2、Kmer计数

在此步骤成功生成.histo之后,会生成一个.ok文件

# e.g.
# 10.fasta                  # 10号染色体序列文件
# 10.fasta_15.fa            # 使用k=15切割,并对15mer进行频数统计的结果
# 10.fasta_15.fa.ok         # ok文件
10.fasta_15.histo           # Jellyfish结果文件
10.fasta_15.jf.ok           # ok文件

根据上述结果,构建了一个以Kmer类型为行,染色体ID为列的矩阵,每一个单元代表该类型的Kmer在该条染色体中的占比:

鉴定亚基因组特异性Kmer的几个重要阈值:

  • 该Kmer在全基因组范围内的频数,需要超过200
  • 该Kmer在A homoeolog中的频数要求至少是B homoeolog中的2倍,即判断为A中的特异性Kmer

3、聚类

作者对于聚类的描述如下,

  • 使用k-means聚类方法,将染色体组聚集到某个类中(bootstrap默认情况下为1000,并且每次bootstrap只抽取原数据的50%进行聚类分析)
  • 使用PCA对phasing结果是否成功进行评价(我没有仔细考究,但是我猜的使用方差来衡量)

the k-Means algorithm is used to cluster chromosomes into N groups (subgenomes) and perform 1,000 bootstrap resampling of 50% of these k-mers to proceed with analyses of the sampling distribution and statistical inference.

过程Output信息如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-brdMc0dh-1652088221884)(https://upload-images.jianshu.io/upload_images/24361169-7f8cfdadf4a40b6f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

Output信息中,还包含了绘制PCA图所使用的脚本:Arabidopsis_suecica_k15_q200_f2.kmer.mat.R

结果文件:Arabidopsis_suecica_k15_q200_f2.kmer_pca.pdf

图示:

最终得到的亚基因组划分结果为:Arabidopsis_suecica_k15_q200_f2.chrom-subgenome.tsv

>#chrom  subgenome  bootstrap
1  SG1  100
2  SG1  100
3  SG1  100
4  SG1  100
5  SG1  100
6  SG2  100
7  SG2  100
9  SG2  100
8  SG2  100
10  SG2  100
13  SG2  100
11  SG2  100
12  SG2  100

4、统计检验

该部分的统计检验有2个目的:

  • 检验该Kmer是否在对应亚基因组中呈现特异性

    使用方法:student’s t-test

  • 检验该Kmer是否在某一区域内呈现富集状态

    使用方法:Fisher’s exact test(原理与GO富集分析相同,给忘记的同学们提个醒)

Output关键信息提取:Consistent with subgenome assignment: 248 (91.85%); potential exchange: 10 (3.70%)

即,经统计检验之后,对应亚基因组某些部分或许与phasing结果不同,可能存在染色体重排等。

5、亚基因组特征分析

Output信息如下:

SubPhaser一些其他功能,即鉴定基因组中的哪些特征是在某一亚基因组中呈富集状态。
e.g. 转座子,gene,内含子,外显子,转录本
同时,SubPhaser还可以使用LTR-RTs(实际上是调包)来估计异源多倍体形成时间。

By default, the software identifies and analyzes subgenome-specific long terminal repeats retrotransposons (LTR-RTs) to calculate their insertion time and hence estimate the time boundaries from ancestor differentiation to allohybridization.

该分析所使用的软件:LTRharvest v1.6.1 & LTRfinder v1.07,同时使用TEsorter v1.3.0降低LTR-RTs检测的假阳性。

这边有一个非常重要的背景知识,即多倍体化之后,会激活LTR-RTs的活动:

Subgenome-specific LTR-RTs are considered to be actively inserted only when diploid progenitors have evolved as independent species (without exchanging LTR-RTs),

最终再将特异性Kmer回帖到鉴定出的LTR-RTs序列,鉴定出特异性的LTR-RTs序列。

关于异源多倍体化时间鉴定

(1)分化时间估计
使用来自不同亚基因组的LTR-RTs序列,使用Jukes-Cantor 69模型,对序列分化时间进行估计。

插入时间计算公式:T=K2rT = \frac{K}{2r}T=2rK​,

  • r=1.3×10−8substitutionsperyearr = 1.3×10^{-8} substitutions per yearr=1.3×10−8substitutionsperyear
  • K,LTR之间的分化时间

(2)构建系统发育树:使用MAFFT进行多序列比对 —— IQ-tree构建系统发育树 —— ggtree可视化

【SubPhaser-多倍体亚基因组分型流程解读】相关推荐

  1. Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读

    文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 分析实战 0.下载肠道宏基因组数据 1. ...

  2. Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置

    文章目录 简介 工作原理 优势 功能模块 软件安装 数据库配置 **CheckM数据库** **KRAKEN数据库** **NCBI_nt** **NCBI物种信息** **人类基因组bmt索引** ...

  3. 转录组分析_肠道菌群:宏转录组测序分析流程解读

    上回给大家讲述了16S测序分析 和 宏基因组测序分析,本期的宏转录组来啦~ 你知道吗?通过16S测序分析 和 宏基因组测序分析,我们只能够知道肠道菌群做好事或坏事的潜力,而并不知道它们此时此刻正在我们 ...

  4. 百度地图安卓版详细接入流程解读(获取密钥详解)

    百度地图安卓版详细接入流程解读 一.接入Android地图SDK 1.1 功能介绍: 1.2 接入百度地图前的准备 1.1.1 访问官网,并下载开发包 1.1.2 获取开发密钥 1.1.3 项目环境搭 ...

  5. 字节程序媛:大厂技术岗求职流程解读经验分享,这是一份保姆级校招攻略

    文章目录 写在前面 流程解读 简历投递 笔试(仅校招) 面试 发Offer 写在最后 写在前面 阳春三月,春暖花开.更重要的是- 一年一度的春招季他来啦!作为校招的两大关键节点之一,春招是应届生去争取 ...

  6. 亚马逊无货源店群,运作流程解读!

    亚马逊无货源店群,运作流程解读! 很多朋友想做亚马逊跨境电商,但是对整体的运作流程还不太清楚,那么我们今天就从前期的准备到后期的发货和收款,做一个全流程解析! 我们先来梳理一下亚马逊无货源模式的运作流 ...

  7. r语言 转录本结构及丰度_肠道菌群:宏转录组测序分析流程解读

    上回给大家讲述了16S测序分析 和 宏基因组测序分析,本期的宏转录组来啦~ 你知道吗?通过16S测序分析 和 宏基因组测序分析,我们只能够知道肠道菌群做好事或坏事的潜力,而并不知道它们此时此刻正在我们 ...

  8. Microbiome:宏基因组分箱流程MetaWRAP简介

    文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 热心肠日报导读 摘要 背景 结果 结论 ...

  9. Openflow协议通信流程解读

    前言 接触了这么久的SDN,Openflow协议前前后后也读过好多遍,但是一直没有时间总结一下自己的一些见解.现在有时间了,就写一写自己对Openflow协议通信流程的一些理解. SDN中Switch ...

最新文章

  1. Java-学习笔记-6-继承
  2. 谷歌x实验室汇聚顶尖人才,研发出了一种超前设备,直接打脸专家
  3. TensorFlow惊现大bug?网友:这是逼着我们用PyTorch啊
  4. 两个listmap合并去重_Excel 二维表,相同行标题的多个值各占一行,如何合并为一行?...
  5. 深藏不露,挖掘4种大脑网络中的管理工具
  6. java ee 7 新_Java EE 7:新功能???
  7. 是圆的问题呢(洛谷P1652题题解,Java语言描述)
  8. 数据介绍 | 长序列归一化植被指数NDVI
  9. 射频(RF)和微波电路发展简史(一)
  10. 人脸检测进阶:使用 dlib、OpenCV 和 Python 检测眼睛、鼻子、嘴唇和下巴等面部五官
  11. 高中数学知识那些和计算机有关系,2016高中数学知识点.doc
  12. linux邻近进化树分析,使用evolview美化进化树
  13. 达人评测 联想小新Pad Pro/Pad Plus怎么样
  14. CAN收发器TJA1040简介
  15. 【软件项目管理 PMP】-- 100+真题考试题
  16. 数据结构与算法(一):什么是数据结构?
  17. 撰写论文时常用的研究方法有哪些?
  18. 申请并下载LIWC字典(英文版)用作科研
  19. Perl模块使用 = 简短例子代码集合(转帖)
  20. iwebShop--基本操作

热门文章

  1. 发邮件礼仪汇总 让优秀成为职场达人习惯
  2. Windows 下串口编程
  3. 计算机金融专业课程方案,美国留学卡内基梅隆大学计算机金融专业简介
  4. docker学习第三节_创建Python、MySQL容器
  5. 百度站长链接实时提交工具V1.0
  6. mysql性能调优之 max_allowed_packet 详解 解决ERROR 2006 (HY000): MySQL server has gone away
  7. 第1周 Python基本语法元素
  8. 阿里云语音合成使用流程完全记录
  9. php5.4漏洞解决,php5.4.3版本 远程代码执行漏洞 | CN-SEC 中文网
  10. 新导智能RFID智能仓储管理系统-