【SubPhaser-多倍体亚基因组分型流程解读】
写本篇文章,主要目的是从tmp文件和软件运行信息解读亚基因组分型分析。
进入tmp文件夹之后,其实就可以看到对应的文件:
如何查看什么步骤产生了怎么样的结果文件?
上述在进行SubPhaser试运行的时候,使用了nohup命令,该软件调用了什么软件、产生了什么结果文件等信息,都是记录在最终的nohup.out
。
1、参数配置
从截图中,我们可以得到很多的信息
- 分析所使用的k是多少(默认情况下,k=15)
- min_fold是多少
- min_freq是多少
- lower_count是多少
- LTRfinder所使用的参数
- LTRharvest所使用的参数
- 所使用cpu数
- 所使用的内存大小
软件先将基因组按染色体划分,结果保存于:/opt/biosoft/SubPhaser/example_data/Arabidopsis_suecica_tmp/Arabidopsis_suecica_chromosomes
2、Kmer计数
在此步骤成功生成.histo
之后,会生成一个.ok
文件
# e.g.
# 10.fasta # 10号染色体序列文件
# 10.fasta_15.fa # 使用k=15切割,并对15mer进行频数统计的结果
# 10.fasta_15.fa.ok # ok文件
10.fasta_15.histo # Jellyfish结果文件
10.fasta_15.jf.ok # ok文件
根据上述结果,构建了一个以Kmer类型为行,染色体ID为列的矩阵,每一个单元代表该类型的Kmer在该条染色体中的占比:
鉴定亚基因组特异性Kmer的几个重要阈值:
- 该Kmer在全基因组范围内的频数,需要超过200
- 该Kmer在A homoeolog中的频数要求至少是B homoeolog中的2倍,即判断为A中的特异性Kmer
3、聚类
作者对于聚类的描述如下,
- 使用k-means聚类方法,将染色体组聚集到某个类中(bootstrap默认情况下为1000,并且每次bootstrap只抽取原数据的50%进行聚类分析)
- 使用PCA对phasing结果是否成功进行评价(我没有仔细考究,但是我猜的使用方差来衡量)
the k-Means algorithm is used to cluster chromosomes into N groups (subgenomes) and perform 1,000 bootstrap resampling of 50% of these k-mers to proceed with analyses of the sampling distribution and statistical inference.
过程Output信息如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-brdMc0dh-1652088221884)(https://upload-images.jianshu.io/upload_images/24361169-7f8cfdadf4a40b6f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]
Output信息中,还包含了绘制PCA图所使用的脚本:
Arabidopsis_suecica_k15_q200_f2.kmer.mat.R
结果文件:
Arabidopsis_suecica_k15_q200_f2.kmer_pca.pdf
图示:
最终得到的亚基因组划分结果为:Arabidopsis_suecica_k15_q200_f2.chrom-subgenome.tsv
>#chrom subgenome bootstrap
1 SG1 100
2 SG1 100
3 SG1 100
4 SG1 100
5 SG1 100
6 SG2 100
7 SG2 100
9 SG2 100
8 SG2 100
10 SG2 100
13 SG2 100
11 SG2 100
12 SG2 100
4、统计检验
该部分的统计检验有2个目的:
检验该Kmer是否在对应亚基因组中呈现特异性
使用方法:student’s t-test
检验该Kmer是否在某一区域内呈现富集状态
使用方法:Fisher’s exact test(原理与GO富集分析相同,给忘记的同学们提个醒)
Output关键信息提取:Consistent with subgenome assignment: 248 (91.85%); potential exchange: 10 (3.70%)
。
即,经统计检验之后,对应亚基因组某些部分或许与phasing结果不同,可能存在染色体重排等。
5、亚基因组特征分析
Output信息如下:
SubPhaser一些其他功能,即鉴定基因组中的哪些特征是在某一亚基因组中呈富集状态。
e.g. 转座子,gene,内含子,外显子,转录本
同时,SubPhaser还可以使用LTR-RTs(实际上是调包)来估计异源多倍体形成时间。
By default, the software identifies and analyzes subgenome-specific long terminal repeats retrotransposons (LTR-RTs) to calculate their insertion time and hence estimate the time boundaries from ancestor differentiation to allohybridization.
该分析所使用的软件:LTRharvest v1.6.1 & LTRfinder v1.07,同时使用TEsorter v1.3.0降低LTR-RTs检测的假阳性。
这边有一个非常重要的背景知识,即多倍体化之后,会激活LTR-RTs的活动:
Subgenome-specific LTR-RTs are considered to be actively inserted only when diploid progenitors have evolved as independent species (without exchanging LTR-RTs),
最终再将特异性Kmer回帖到鉴定出的LTR-RTs序列,鉴定出特异性的LTR-RTs序列。
关于异源多倍体化时间鉴定
(1)分化时间估计
使用来自不同亚基因组的LTR-RTs序列,使用Jukes-Cantor 69模型,对序列分化时间进行估计。
插入时间计算公式:T=K2rT = \frac{K}{2r}T=2rK,
- r=1.3×10−8substitutionsperyearr = 1.3×10^{-8} substitutions per yearr=1.3×10−8substitutionsperyear
- K,LTR之间的分化时间
(2)构建系统发育树:使用MAFFT进行多序列比对 —— IQ-tree构建系统发育树 —— ggtree可视化
【SubPhaser-多倍体亚基因组分型流程解读】相关推荐
- Microbiome:宏基因组分箱流程MetaWRAP分析实战和结果解读
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 分析实战 0.下载肠道宏基因组数据 1. ...
- Microbiome:宏基因组分箱流程MetaWRAP安装和数据库布置
文章目录 简介 工作原理 优势 功能模块 软件安装 数据库配置 **CheckM数据库** **KRAKEN数据库** **NCBI_nt** **NCBI物种信息** **人类基因组bmt索引** ...
- 转录组分析_肠道菌群:宏转录组测序分析流程解读
上回给大家讲述了16S测序分析 和 宏基因组测序分析,本期的宏转录组来啦~ 你知道吗?通过16S测序分析 和 宏基因组测序分析,我们只能够知道肠道菌群做好事或坏事的潜力,而并不知道它们此时此刻正在我们 ...
- 百度地图安卓版详细接入流程解读(获取密钥详解)
百度地图安卓版详细接入流程解读 一.接入Android地图SDK 1.1 功能介绍: 1.2 接入百度地图前的准备 1.1.1 访问官网,并下载开发包 1.1.2 获取开发密钥 1.1.3 项目环境搭 ...
- 字节程序媛:大厂技术岗求职流程解读经验分享,这是一份保姆级校招攻略
文章目录 写在前面 流程解读 简历投递 笔试(仅校招) 面试 发Offer 写在最后 写在前面 阳春三月,春暖花开.更重要的是- 一年一度的春招季他来啦!作为校招的两大关键节点之一,春招是应届生去争取 ...
- 亚马逊无货源店群,运作流程解读!
亚马逊无货源店群,运作流程解读! 很多朋友想做亚马逊跨境电商,但是对整体的运作流程还不太清楚,那么我们今天就从前期的准备到后期的发货和收款,做一个全流程解析! 我们先来梳理一下亚马逊无货源模式的运作流 ...
- r语言 转录本结构及丰度_肠道菌群:宏转录组测序分析流程解读
上回给大家讲述了16S测序分析 和 宏基因组测序分析,本期的宏转录组来啦~ 你知道吗?通过16S测序分析 和 宏基因组测序分析,我们只能够知道肠道菌群做好事或坏事的潜力,而并不知道它们此时此刻正在我们 ...
- Microbiome:宏基因组分箱流程MetaWRAP简介
文章目录 MetaWRAP-a flexible pipeline for genome-resolved metagenomic data analysis 热心肠日报导读 摘要 背景 结果 结论 ...
- Openflow协议通信流程解读
前言 接触了这么久的SDN,Openflow协议前前后后也读过好多遍,但是一直没有时间总结一下自己的一些见解.现在有时间了,就写一写自己对Openflow协议通信流程的一些理解. SDN中Switch ...
最新文章
- Java-学习笔记-6-继承
- 谷歌x实验室汇聚顶尖人才,研发出了一种超前设备,直接打脸专家
- TensorFlow惊现大bug?网友:这是逼着我们用PyTorch啊
- 两个listmap合并去重_Excel 二维表,相同行标题的多个值各占一行,如何合并为一行?...
- 深藏不露,挖掘4种大脑网络中的管理工具
- java ee 7 新_Java EE 7:新功能???
- 是圆的问题呢(洛谷P1652题题解,Java语言描述)
- 数据介绍 | 长序列归一化植被指数NDVI
- 射频(RF)和微波电路发展简史(一)
- 人脸检测进阶:使用 dlib、OpenCV 和 Python 检测眼睛、鼻子、嘴唇和下巴等面部五官
- 高中数学知识那些和计算机有关系,2016高中数学知识点.doc
- linux邻近进化树分析,使用evolview美化进化树
- 达人评测 联想小新Pad Pro/Pad Plus怎么样
- CAN收发器TJA1040简介
- 【软件项目管理 PMP】-- 100+真题考试题
- 数据结构与算法(一):什么是数据结构?
- 撰写论文时常用的研究方法有哪些?
- 申请并下载LIWC字典(英文版)用作科研
- Perl模块使用 = 简短例子代码集合(转帖)
- iwebShop--基本操作
热门文章
- 发邮件礼仪汇总 让优秀成为职场达人习惯
- Windows 下串口编程
- 计算机金融专业课程方案,美国留学卡内基梅隆大学计算机金融专业简介
- docker学习第三节_创建Python、MySQL容器
- 百度站长链接实时提交工具V1.0
- mysql性能调优之 max_allowed_packet 详解 解决ERROR 2006 (HY000): MySQL server has gone away
- 第1周 Python基本语法元素
- 阿里云语音合成使用流程完全记录
- php5.4漏洞解决,php5.4.3版本 远程代码执行漏洞 | CN-SEC 中文网
- 新导智能RFID智能仓储管理系统-