最近需要将蛋白质建模与虚拟筛选结合起来使用,要做的笔记可能会有点杂,有些可以拿来参考的。

一、多序列比对算法MAFFT

最经典和广为熟知的多序列比对软件是 clustalw 。 但是现有的多序列比对软件较多,有文献报道:比对速度(Muscle>MAFFT>ClustalW>T-Coffee),比对准确性(MAFFT>Muscle>T-Coffee>ClustalW)。这里粗略介绍MAFFT。EMBI-EBI中的MAFFT新版本7有几个特性,包括将未对齐的序列添加到现有的对齐中,调整核苷酸对齐的方向,约束对齐和并行处理,这些都是在之前的主要更新之后实现的。

选择MAFFT多序列比对算法可能原因(优势):
1.在某些情况下,重要的生物学信息被包含在低质量的序列中。在这种情况下,首先选择高可靠的序列构建一个主干MSA,然后将其他的序列,包括低质量的序列加入到MSA中。因此,低质量序列对最终MSA的质量影响较小。

MAFFT多序列比对算法的问题(劣势) :
其子程序对profile比对时的不恰当应用, 包括两类做法:

  1. 1)将一个已有的序列转换为一个轮廓线,2)对齐新的序列并将它们转换为一个轮廓线,3)对齐两个轮廓线。这一步骤不适用于添加新序列,因为它假定了一种系统发育关系.
  2. 1)将现有的对齐转换为一个配置文件,2)将每个新序列分别对齐到现有对齐的配置文件,3)根据前一步计算的单个对齐构造一个完整的对齐。这种方法比第一个方法更合理但也有问题, 在加入新序列时, 新序列的系统发育位置假设有误(在发育树的根部).

因为这里没能完整看完文献,还有些信息没能做笔记,需要的伙伴可以下载文献看看:https://doi.org/10.1093/molbev/mst010

二、HMMER生成profile文件:

» 转载文章请注明,转载自: 博耘生物 » 《hmmer的安装与使用》
原文链接:http://boyun.sh.cn/bio/?p=1753

从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度以及更高的搜索速度,但其应用还远没有blast普及。

HMMER包含的程序:

phmmer: 与Blastp类似,使用一个蛋白质序列搜索蛋白质序列库;

phmmer tutorial/HBB HUMAN uniprot sprot.fa

jackhmmer: 与psiBlast类似,蛋白质序列迭代搜索蛋白质序列库;

jackhmmer tutorial/HBB HUMAN uniprot sprot.fa

hmmbuild: 用多重比对序列构建HMM模型;
hmmsearch: 使用HMM模型搜索序列库;
hmmscan: 使用序列搜索HMM库;
hmmalign: 使用HMM为线索,构建多重比对序列;

hmmalign globins4.hmm tutorial/globins45.fa

hmmconvert: 转换HMM格式
hmmemit: 从HMM模型中,得到一个模式序列;
hmmfetch: 通过名字或者接受号从HMM库中取回一个HMM模型;
hmmpress:格式化HMM数据库,以便于hmmscan搜索使用;
hmmstat: 显示HMM数据库的统计信息;

使用HMM模型搜索序列数据库

使用hmmbuild构建HMM模型,输入为Stockholm格式或者FASTA格式的多重比对序列文件(如:tutorial/globins4.sto),命令如下:

hmmbuild globins4.hmm tutorial/globins4.sto

globins4.hmm为输出的HMM模型
使用hmmsearch搜索蛋白质序列数据库,蛋白质序列数据库为FASTA格式,命令如下:

hmmsearch globins4.hmm uniprot sprot.fasta > globins4.out

使用蛋白质序列搜索HMM数据库

  1. 构建HMM数据库,HMM数据库是包含多个HMM模型的文件,可以从Pfam、SMART、TIGRFams下载,也可以自己由多重比对序列集中构建,如:

hmmbuild globins4.hmm tutorial/globins4.sto
hmmbuild fn3.hmm tutorial/fn3.sto
hmmbuild Pkinase.hmm tutorial/Pkinase.sto
cat globins4.hmm fn3.hmm Pkinase.hmm > minifam

  1. 使用hmmpress格式化数据库,包括压缩以及创建索引,命令如下:

hmmpress minifam

这个步骤可以很快的执行完成,输出的内容如下:

Working… done.
Pressed and indexed 3 HMMs (3 names and 2 accessions).
Models pressed into binary file: minifam.h3m
SSI index for binary model file: minifam.h3i
Profiles (MSV part) pressed into: minifam.h3f
Profiles (remainder) pressed into: minifam.h3p

  1. 使用hmmscan搜索HMM数据库,命令如下:

hmmscan minifam tutorial/7LESS_DROME

输出文件如下

官方文档手册(pdf):ftp://selab.janelia.org/pub/software/hmmer3/3.0/Userguide.pdf

profile HMM文件的主要用法:

  1. 因为profile HMM可以作为序列族或序列域的表示,所以最常见的应用是比较profile HMMs和序列。与大多数数据库搜索程序中使用的序列与序列比较相比,这些类型的比较更有可能识别遥远的同源物。例如,可以使用HmmerPfam将序列与表示已知序列族和已知序列域的profile HMMs数据库进行比较。匹配这些profile HMMs可以帮助您识别序列并确定其功能。curated Pfam(“蛋白家族”)数据库包含了大量代表已知蛋白家族的全局profile HMMs,而PfamFrag数据库包含了这些相同家族的局部profile HMMs。
  2. 同样, 您可以创建一个表示感兴趣的域或序列族的profile HMM文件,然后使用这个profile HMM文件作为查询来使用HmmerSearch搜索序列数据库,以查看是否有其他序列拥有这个域。
  3. profile HMMs的另一个用途是比使用标准方法更快地创建大量序列的多重对齐。HmmerAlign使用一个代表序列的小种子对齐来创建一个profile HMM,然后将该profile HMM用作对齐整个序列集的模板.

一般来说,在蛋白质建模过程中,profile文件(PSSM或者profile HMMs)只是在寻找模板这一步中发挥作用,那么如果确定了模板,也许不再用到profile文件了。如果您知道有别的用途,可留言评论。
接下来会继续做虚拟筛选相关内容。

多序列比对算法MAFFT以及HMMER和profile文件的使用相关推荐

  1. 生信步骤|MAFFT结合HMMER进行多序列比对和基于隐马模型的基因搜索

    蛋白质都是由相似的小型结构域组成的.如果我们有若干个已知的蛋白序列,那我们就可以根据这些蛋白序列比较其含有的保守域,寻找在蛋白数据库中上是否也有一样保守域的蛋白.而后根据统计学模型,将显著性较高的蛋白 ...

  2. 支持向量机SVM序列最小优化算法SMO

    支持向量机(Support Vector Machine)由V.N. Vapnik,A.Y. Chervonenkis,C. Cortes 等在1964年提出.序列最小优化算法(Sequential ...

  3. Petuum提出序列生成学习算法通用框架

    近日,来自人工智能创业公司 Petuum 的研究人员发表论文,提出序列生成学习算法的通用框架--广义的熵正则化策略优化框架(Generalized Entropy-Regularized Policy ...

  4. 统计学习方法第七章作业:SVM非线性支持向量机之SMO序列最小优化算法代码实现

    SMO序列最小优化算法 import numpy as np import math from sklearn.metrics import accuracy_score from sklearn.m ...

  5. C语言实现最长子序列 longest subsequence 算法(附完整源码)

    最长子序列 longest subsequence 算法 C语言最长子序列 longest subsequence 算法完整源码(定义,实现,main函数测试) C语言最长子序列 longest su ...

  6. em算法 实例 正态分布_Petuum提出序列生成学习算法通用框架

    近日,来自人工智能创业公司 Petuum 的研究人员发表论文,提出序列生成学习算法的通用框架--广义的熵正则化策略优化框架(Generalized Entropy-Regularized Policy ...

  7. 【机器学习】隐马尔可夫模型及其三个基本问题(二)观测序列概率计算算法及python实现

    [机器学习]隐马尔可夫模型及其三个基本问题(二)观测序列概率计算算法及python实现 一.前向算法 二.后向算法 三.前向-后向算法的python实现 参考资料 隐马尔可夫(HMM)模型的第一个基本 ...

  8. GraphMap:快速的三代序列比对算法

    本文来自"生信算法"公众号. 三代测序的简介及意义已经在之前的公众号里面介绍过了,之前本公众号已经介绍了五篇三代序列比对算法,分别为(点击下划线可打开相应的文章): BLASR(三 ...

  9. rHAT,国内首个三代序列比对算法

    本文来自"生信算法"公众号. 对于以Illumina为代表的二代测序技术,研究者们开发出了许多优秀的序列比对算法,如BLAST.Bowtie2 .BLAT等软件.随着测序技术的不断 ...

最新文章

  1. 响应格式html,设置响应格式的HTML邮件
  2. java下载zip_从Servlet Java下载zip
  3. linux汇编中的注释,Linux 汇编器:对照 GAS 和 NASM
  4. ladp3 获取属性_Ldap3库使用方法(四)
  5. 运行报错:java.io.IOException: invalid constant type: 15
  6. c语言文件归并问题_通知:土地有变!土地归并:每亩补9万?明年起:合村并镇!能否启动?1个好消息!...
  7. js进阶 10-4 jquery中基础选择器有哪些
  8. 【分布计算环境学习笔记】2 分布式系统中的面向对象技术
  9. 将矩阵化为上三角矩阵
  10. java生成opml
  11. 计算机主板巨头,主板主要厂商
  12. 详细的Faster R-CNN源码解析之proposal_layer和proposal_target_layer源码解析
  13. 学海无涯!最全Android面试知识点梳理,系列篇
  14. 解决nginx error!The page is temporarily unavailable.
  15. 有哪些便宜好用的虚拟主机推荐?
  16. 干货-Google支付后台验证操作流程【业务后台-GP后台流程】
  17. 为省手续费 上淘宝拍“生活费”
  18. CODESYS领导到访创龙科技,共同助力工业控制软硬件技术发展
  19. 1024@程序员:图灵社区福利来了,请本人签收
  20. 15 个边玩游戏边学编程的网站(包含 Python)

热门文章

  1. atmega32u4 avr-gcc (WinAVR 2010) 编译 启动代码 crtm32u4.o
  2. 使用mysql导入本地文件文件时提示ERROR 1148 (42000): The used command is not allowed with this MySQL version
  3. 时间序列之间的相关性检测
  4. Arm+linux+container,Container Station和网络虚拟交换机——威联通NAS入门指南(篇四)...
  5. c语言long和long long的取值范围,转义字符
  6. python turtle库画图_《体验Python中turtle库画图》教学设计
  7. 死磕算法第二弹——栈、队列、链表(3)
  8. Laravel5使用QQ邮箱发送邮件配置
  9. 2022年博客新星排行榜 日榜 2023-01-01 博客新星榜
  10. 做甘特图的,倒闭了。难道勿谓言之不预?