多重比对序列的格式及其应用
这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。
生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。
进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。
下表是目前主流的格式:
名称 | 后缀 | 描述 | Unique file Feature | 详细定义地址 |
FASTA | .fasta, fa | Pearson or FASTA sequence format | >SequenceNameTHISISASEQENCE | FASTA (Pearson) |
GCG/MSF format | .msf, .gcg | GCG Multiple Sequence File (MSF) alignment format | !! AA_MULTIPLE_ALIGNMENT 1.0..// | GCG/MSF |
Aligned FASTA (UCSC a2m) format | .a2m | UCSC | ||
Stockholm format | .txt | used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。 |
# STOCKHOLM 1.0<seqname> <aligned sequence> … // |
链接,wiki链接 |
PHYLIP | .phy, .phylip, .phylip2 | PHYLIP software | 链接 | |
NBR/PIR | .pir | NBRF or PIR sequence format | >P1; | 链接 |
CLUSTAL | .aln, .an, .aln2 | ClustalW alignment format | CLUSTAL | 链接 |
GDE | .gde | GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color. | 链接 | |
NEXUS | .nxs, .nexus | Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format. | 链接 | |
BLC | .blc | >Seq1>Seq2 | ||
PFAM | .pfam | SequenceName THISISASEQENCE | 链接 | |
MEGA | .meg | MEGA software | ||
SELEX | . | |||
IG | .ig | |||
Internet (NCBI) XML format | .xml | |||
NBRF format | .nbrf |
主要软件平台对于格式的要求
- Clustal
输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
- MUSCLE(http://www.drive5.com/muscle/muscle.html)
输入:FASTA, CLUSTAL, MSF
输出:FASTA - hmmbuild
ClustalW, GCG MSF, or SELEX - hmmalign
输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M - Jalview java viewer (http://www.jalview.org/help.html)
输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm - MEGA
输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR, NBRF, MSF, IG, and XML formats.
输出:MEGA, PAUP, FASTA PFAM数据库
Selex, Stockholm, MSF, FASTA
多重比对序列的格式及其应用相关推荐
- 基因组序列genbank格式和fasta格式批量下载
from Bio import Entrez,SeqIO import csv# 参数设置 Entrez.email = "example@163.com" Entrez.tool ...
- bam获取序列_bam格式文件处理大全(四)
sam文件是短序列比对生成的文件,是二代测序中最核心的文件.在RNAseq,变异检测等分析中,都需要首先生成sam文件格式.bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储.掌 ...
- VTK读取序列DCM格式医学图像
通常处理医学图像,使用VTK库,VTK库在官网下载,并经过Cmake,编译并配置好环境变量后使用,下文提供使用VTK读取三维图像并显示的代码,经过调试可运行. // RAWREAD.cpp : 定义控 ...
- bam获取序列_bam格式说明
SAM文件map结果是类似下面的东西: HWI-ST1001:137:C12FPACXX:7:1115:14131:66670 0 chr1 12805 1 42M4I5M * 0 0 TTGGATG ...
- seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能...
写在前面 通过我几天的学习,我发现,seqkit十分好用,将序列的各种操作都囊括进去,加入多线程,我个人认为这将是非常好的胶水,在处理无论是基因组还是其他组学.定是一个必学神器.注意一下教程在0.15 ...
- RNA-seq流程学习笔记(7)-使用Hisat2进行序列比对
参考文章: RNAseq(4)–Hisat2进行序列比对及Samtools格式转化 RNA-seq(5):序列比对:Hisat2 hisat2比对软件将reads比对到参考基因组 hisat2比对 R ...
- 多序列比对算法MAFFT以及HMMER和profile文件的使用
最近需要将蛋白质建模与虚拟筛选结合起来使用,要做的笔记可能会有点杂,有些可以拿来参考的. 一.多序列比对算法MAFFT 最经典和广为熟知的多序列比对软件是 clustalw . 但是现有的多序列比对软 ...
- 生信步骤|MAFFT结合HMMER进行多序列比对和基于隐马模型的基因搜索
蛋白质都是由相似的小型结构域组成的.如果我们有若干个已知的蛋白序列,那我们就可以根据这些蛋白序列比较其含有的保守域,寻找在蛋白数据库中上是否也有一样保守域的蛋白.而后根据统计学模型,将显著性较高的蛋白 ...
- 基于最短路方法的生物序列比对问题研究
概述 作为生物信息学中的基本组成和重要基础,生物序列比对旨在找出两个或多个生物序列之间的相似性,发现生物序列中的功能.结构和进化信息. 生物序列比对在现实生活中有广泛的应用价值.从核酸和蛋白质序列出发 ...
最新文章
- TODO:macOS编译PHP7.1
- OCS Inventory NG使用之在windows 2008 R2平台下安装服务器端(三)
- C# WinForm ProgressBar垂直显示进度和从右向左显示进度
- linux 挂起 移动电脑,linux 系统挂起
- 【机器学习基础】数学推导+纯Python实现机器学习算法24:HMM隐马尔可夫模型
- 【BZOJ3589】动态树
- 在Windows上,迁移VisualSVN server
- [css] 举例说明background-repeat的新属性值:round和space的作用是什么?
- thread.sleep是让哪个线程休眠_Java多线程:多线程基础知识
- GhostCat - AS3工具类库(AS3 library of generic tools)
- 缓存热点问题解决方案
- 20165329 Java实验四 Android程序设计
- atitit.新增编辑功能 跟orm的实现 attilax p31
- Telerik ui kendo for jquery 2022源码版
- 中国综合能源服务市场盈利模式分析与投资战略规划研究报告2022-2028年
- flashpaper实现百度文库、豆丁网文档预览功能 - 坑
- JS实现【队列】插队功能
- 采集利器 - Web Scraper教学及示例
- mac系统升级血泪史之根目录创建文件夹问题
- 注意论文投稿风险,现投期刊会不会成为预警期刊呢?
热门文章
- java matchcollection_Java集合之collection
- 实用目标检测器 | 性能超YoloV5,推理耗时不变(附github源码)
- 蛋白Ramachandran(拉氏图、拉曼图)的绘制和可视化
- RDKit | 基于神经网络的溶解度预测和回归分析
- 第三课.运算符与表达式
- sklearn解决回归问题
- 上海交大c语言第一次作业,上海交大网络学院-计算机第一次作业及答案(含6次机会全部题目)-计算机基础的知识.docx...
- python acm 素数个数_湘潭大学OJ-1098求区间内素数个数问题
- 在线作图丨高级的微生物分析——在线做Variance Partitioning Analysis(VPA分析)
- Nature:植物叶际微生物组稳态维持机制