这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

进行多重比对、多重序列的编辑、多重序列注释、存储与展示、系统演化分析等,不同的软件、不同的系统,除了要兼容现有的格式,还会根据自身的需要,都定义新的格式。所以这些本身可以进行部分的格式转换,同时许多脚本模块比如bioperl等也提供了一些格式之间转换的脚本。这些格式同发布其软件平台有着密切的联系,随着软件的流行而流行。

下表是目前主流的格式:

名称 后缀 描述 Unique file Feature 详细定义地址
FASTA .fasta, fa Pearson or FASTA sequence format >SequenceNameTHISISASEQENCE FASTA (Pearson)
GCG/MSF format .msf, .gcg GCG Multiple Sequence File (MSF) alignment format !! AA_MULTIPLE_ALIGNMENT 1.0..// GCG/MSF
Aligned FASTA (UCSC a2m) format .a2m UCSC
Stockholm format .txt used by Pfam and Rfam to disseminate protein and RNA sequence alignments. 可以添加丰富的注释信息,适合多序列比对结果的注释。 # STOCKHOLM 1.0<seqname> <aligned sequence>

//
链接,wiki链接
PHYLIP .phy, .phylip, .phylip2 PHYLIP software 链接
NBR/PIR .pir NBRF or PIR sequence format >P1; 链接
CLUSTAL .aln, .an, .aln2 ClustalW alignment format CLUSTAL 链接
GDE .gde GDE format is a tagged-field format similar to ASN.l that is used for storing all available information about a sequence, including residue color. 链接
NEXUS .nxs, .nexus Nexus file formatis widely used in Bioinformatics. Several popular phylogenetic programs such as Paup, MrBayes, Mesquite, and MacClade use this format. 链接
BLC .blc >Seq1>Seq2
PFAM .pfam SequenceName THISISASEQENCE 链接
MEGA .meg MEGA software
SELEX .
IG .ig
Internet (NCBI) XML format .xml
NBRF format .nbrf

主要软件平台对于格式的要求

  • Clustal
    输入:NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
    输出:CLUSTAL, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS, FASTA
  • MUSCLE(http://www.drive5.com/muscle/muscle.html)
    输入:FASTA, CLUSTAL, MSF
    输出:FASTA
  • hmmbuild
    ClustalW, GCG MSF, or SELEX
  • hmmalign
    输入:FASTA, GENBANK, EMBL, GCG, PIR, STOCKHOLM, SELEX, MSF, CLUSTAL, and PHYLIP.
    输出:Stockholm, SELEX, MSF, Clustal, Phylip, and A2M
  • Jalview java viewer (http://www.jalview.org/help.html)
    输入:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR (including MODELLER variant), Pfam/Stockholm
    输出:Fasta (Pearson), GCG-MSF, ALN/ClustalW, AMPS Block file, NBRF/PIR, Pfam/Stockholm
  • MEGA
    输入:CLUSTAL, NEXUS (PAUP, MacClade), PHYLIP, GCG, FASTA, PIR,  NBRF, MSF, IG, and XML formats.
    输出:MEGA, PAUP, FASTA
  • PFAM数据库
    Selex, Stockholm, MSF, FASTA

多重比对序列的格式及其应用相关推荐

  1. 基因组序列genbank格式和fasta格式批量下载

    from Bio import Entrez,SeqIO import csv# 参数设置 Entrez.email = "example@163.com" Entrez.tool ...

  2. bam获取序列_bam格式文件处理大全(四)

    sam文件是短序列比对生成的文件,是二代测序中最核心的文件.在RNAseq,变异检测等分析中,都需要首先生成sam文件格式.bam文件是sam格式的二进制格式,转换为二进制之后,可以减小文件的存储.掌 ...

  3. VTK读取序列DCM格式医学图像

    通常处理医学图像,使用VTK库,VTK库在官网下载,并经过Cmake,编译并配置好环境变量后使用,下文提供使用VTK读取三维图像并显示的代码,经过调试可运行. // RAWREAD.cpp : 定义控 ...

  4. bam获取序列_bam格式说明

    SAM文件map结果是类似下面的东西: HWI-ST1001:137:C12FPACXX:7:1115:14131:66670 0 chr1 12805 1 42M4I5M * 0 0 TTGGATG ...

  5. seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能...

    写在前面 通过我几天的学习,我发现,seqkit十分好用,将序列的各种操作都囊括进去,加入多线程,我个人认为这将是非常好的胶水,在处理无论是基因组还是其他组学.定是一个必学神器.注意一下教程在0.15 ...

  6. RNA-seq流程学习笔记(7)-使用Hisat2进行序列比对

    参考文章: RNAseq(4)–Hisat2进行序列比对及Samtools格式转化 RNA-seq(5):序列比对:Hisat2 hisat2比对软件将reads比对到参考基因组 hisat2比对 R ...

  7. 多序列比对算法MAFFT以及HMMER和profile文件的使用

    最近需要将蛋白质建模与虚拟筛选结合起来使用,要做的笔记可能会有点杂,有些可以拿来参考的. 一.多序列比对算法MAFFT 最经典和广为熟知的多序列比对软件是 clustalw . 但是现有的多序列比对软 ...

  8. 生信步骤|MAFFT结合HMMER进行多序列比对和基于隐马模型的基因搜索

    蛋白质都是由相似的小型结构域组成的.如果我们有若干个已知的蛋白序列,那我们就可以根据这些蛋白序列比较其含有的保守域,寻找在蛋白数据库中上是否也有一样保守域的蛋白.而后根据统计学模型,将显著性较高的蛋白 ...

  9. 基于最短路方法的生物序列比对问题研究

    概述 作为生物信息学中的基本组成和重要基础,生物序列比对旨在找出两个或多个生物序列之间的相似性,发现生物序列中的功能.结构和进化信息. 生物序列比对在现实生活中有广泛的应用价值.从核酸和蛋白质序列出发 ...

最新文章

  1. TODO:macOS编译PHP7.1
  2. OCS Inventory NG使用之在windows 2008 R2平台下安装服务器端(三)
  3. C# WinForm ProgressBar垂直显示进度和从右向左显示进度
  4. linux 挂起 移动电脑,linux 系统挂起
  5. 【机器学习基础】数学推导+纯Python实现机器学习算法24:HMM隐马尔可夫模型
  6. 【BZOJ3589】动态树
  7. 在Windows上,迁移VisualSVN server
  8. [css] 举例说明background-repeat的新属性值:round和space的作用是什么?
  9. thread.sleep是让哪个线程休眠_Java多线程:多线程基础知识
  10. GhostCat - AS3工具类库(AS3 library of generic tools)
  11. 缓存热点问题解决方案
  12. 20165329 Java实验四 Android程序设计
  13. atitit.新增编辑功能 跟orm的实现 attilax p31
  14. Telerik ui kendo for jquery 2022源码版
  15. 中国综合能源服务市场盈利模式分析与投资战略规划研究报告2022-2028年
  16. flashpaper实现百度文库、豆丁网文档预览功能 - 坑
  17. JS实现【队列】插队功能
  18. 采集利器 - Web Scraper教学及示例
  19. mac系统升级血泪史之根目录创建文件夹问题
  20. 注意论文投稿风险,现投期刊会不会成为预警期刊呢?

热门文章

  1. java matchcollection_Java集合之collection
  2. 实用目标检测器 | 性能超YoloV5,推理耗时不变(附github源码)
  3. 蛋白Ramachandran(拉氏图、拉曼图)的绘制和可视化
  4. RDKit | 基于神经网络的溶解度预测和回归分析
  5. 第三课.运算符与表达式
  6. sklearn解决回归问题
  7. 上海交大c语言第一次作业,上海交大网络学院-计算机第一次作业及答案(含6次机会全部题目)-计算机基础的知识.docx...
  8. python acm 素数个数_湘潭大学OJ-1098求区间内素数个数问题
  9. 在线作图丨高级的微生物分析——在线做Variance Partitioning Analysis(VPA分析)
  10. Nature:植物叶际微生物组稳态维持机制