多序列比对算法MAFFT以及HMMER和profile文件的使用

最近需要将蛋白质建模与虚拟筛选结合起来使用，要做的笔记可能会有点杂，有些可以拿来参考的。

一、多序列比对算法MAFFT

最经典和广为熟知的多序列比对软件是 clustalw 。但是现有的多序列比对软件较多，有文献报道：比对速度（Muscle>MAFFT>ClustalW>T-Coffee），比对准确性（MAFFT>Muscle>T-Coffee>ClustalW）。这里粗略介绍MAFFT。EMBI-EBI中的MAFFT新版本7有几个特性，包括将未对齐的序列添加到现有的对齐中，调整核苷酸对齐的方向，约束对齐和并行处理，这些都是在之前的主要更新之后实现的。

选择MAFFT多序列比对算法可能原因(优势)：
１.在某些情况下，重要的生物学信息被包含在低质量的序列中。在这种情况下，首先选择高可靠的序列构建一个主干MSA，然后将其他的序列，包括低质量的序列加入到MSA中。因此，低质量序列对最终MSA的质量影响较小。

MAFFT多序列比对算法的问题(劣势) :
其子程序对profile比对时的不恰当应用, 包括两类做法:

1)将一个已有的序列转换为一个轮廓线，2)对齐新的序列并将它们转换为一个轮廓线，3)对齐两个轮廓线。这一步骤不适用于添加新序列，因为它假定了一种系统发育关系.
1)将现有的对齐转换为一个配置文件，2)将每个新序列分别对齐到现有对齐的配置文件，3)根据前一步计算的单个对齐构造一个完整的对齐。这种方法比第一个方法更合理但也有问题, 在加入新序列时, 新序列的系统发育位置假设有误(在发育树的根部).

因为这里没能完整看完文献，还有些信息没能做笔记，需要的伙伴可以下载文献看看：https://doi.org/10.1093/molbev/mst010

二、HMMER生成profile文件:

» 转载文章请注明，转载自：博耘生物 » 《hmmer的安装与使用》
原文链接：http://boyun.sh.cn/bio/?p=1753

从功能基因研究的角度来讲，相关的搜索，比如从序列数据库中，找同源的序列，或者对一个对一个新的基因功能进行鉴定，使用hmmer比使用blast有着更高的灵敏度以及更高的搜索速度，但其应用还远没有blast普及。

HMMER包含的程序:

phmmer：与Blastp类似，使用一个蛋白质序列搜索蛋白质序列库；

phmmer tutorial/HBB HUMAN uniprot sprot.fa

jackhmmer：与psiBlast类似，蛋白质序列迭代搜索蛋白质序列库；

jackhmmer tutorial/HBB HUMAN uniprot sprot.fa

hmmbuild：用多重比对序列构建HMM模型；
hmmsearch：使用HMM模型搜索序列库；
hmmscan：使用序列搜索HMM库；
hmmalign：使用HMM为线索，构建多重比对序列；

hmmalign globins4.hmm tutorial/globins45.fa

hmmconvert：转换HMM格式
hmmemit：从HMM模型中，得到一个模式序列；
hmmfetch：通过名字或者接受号从HMM库中取回一个HMM模型；
hmmpress：格式化HMM数据库，以便于hmmscan搜索使用；
hmmstat：显示HMM数据库的统计信息；

使用HMM模型搜索序列数据库

使用hmmbuild构建HMM模型，输入为Stockholm格式或者FASTA格式的多重比对序列文件（如：tutorial/globins4.sto），命令如下：

hmmbuild globins4.hmm tutorial/globins4.sto

globins4.hmm为输出的HMM模型
使用hmmsearch搜索蛋白质序列数据库，蛋白质序列数据库为FASTA格式，命令如下：

hmmsearch globins4.hmm uniprot sprot.fasta > globins4.out

使用蛋白质序列搜索HMM数据库

构建HMM数据库，HMM数据库是包含多个HMM模型的文件，可以从Pfam、SMART、TIGRFams下载，也可以自己由多重比对序列集中构建，如：

hmmbuild globins4.hmm tutorial/globins4.sto
hmmbuild fn3.hmm tutorial/fn3.sto
hmmbuild Pkinase.hmm tutorial/Pkinase.sto
cat globins4.hmm fn3.hmm Pkinase.hmm > minifam

使用hmmpress格式化数据库，包括压缩以及创建索引，命令如下：

hmmpress minifam

这个步骤可以很快的执行完成，输出的内容如下：

Working… done.
Pressed and indexed 3 HMMs (3 names and 2 accessions).
Models pressed into binary file: minifam.h3m
SSI index for binary model file: minifam.h3i
Profiles (MSV part) pressed into: minifam.h3f
Profiles (remainder) pressed into: minifam.h3p

使用hmmscan搜索HMM数据库，命令如下：

hmmscan minifam tutorial/7LESS_DROME

输出文件如下

官方文档手册（pdf）：ftp://selab.janelia.org/pub/software/hmmer3/3.0/Userguide.pdf

profile HMM文件的主要用法:

因为profile HMM可以作为序列族或序列域的表示，所以最常见的应用是比较profile HMMs和序列。与大多数数据库搜索程序中使用的序列与序列比较相比，这些类型的比较更有可能识别遥远的同源物。例如，可以使用HmmerPfam将序列与表示已知序列族和已知序列域的profile HMMs数据库进行比较。匹配这些profile HMMs可以帮助您识别序列并确定其功能。curated Pfam(“蛋白家族”)数据库包含了大量代表已知蛋白家族的全局profile HMMs，而PfamFrag数据库包含了这些相同家族的局部profile HMMs。
同样, 您可以创建一个表示感兴趣的域或序列族的profile HMM文件，然后使用这个profile HMM文件作为查询来使用HmmerSearch搜索序列数据库，以查看是否有其他序列拥有这个域。
profile HMMs的另一个用途是比使用标准方法更快地创建大量序列的多重对齐。HmmerAlign使用一个代表序列的小种子对齐来创建一个profile HMM，然后将该profile HMM用作对齐整个序列集的模板.

一般来说，在蛋白质建模过程中，profile文件（PSSM或者profile HMMs）只是在寻找模板这一步中发挥作用，那么如果确定了模板，也许不再用到profile文件了。如果您知道有别的用途，可留言评论。
接下来会继续做虚拟筛选相关内容。