原标题:蛋白编码能力预测软件pfam流程

一、分析背景

蛋白一般由一个或多个功能域所组成,在不同蛋白质组合中出现的不同结构域导致了自然界中蛋白质复杂的多样性。鉴定一个蛋白中的结构域有助于更深入地理解蛋白功能。Pfam是一个大型蛋白结构域家族的数据库,每个蛋白家族都由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。最新版本为27.0(2013年3月,包含14831个蛋白家族)

Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据建立的,质量较高。Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域是非常有用的。

二、软件安装

1. HMMER3:,使用以下命令安装:

tarzxf hmmer-3.1b1.tar.gz

cdhmmer-3.1b1

./configure

make

makecheck

makeinstall

2. Perl语言的Moose包:使用cpanMoose命令安装,或到CPAN下载安装

3. 分析工具PfamScan,下载:,使用以下命令安装:

tarzxvf PfamScan.tar.gz

exportPATH=/path/to/install/hmmer3/bin:$PATH

exportPERL5LIB=/path/to/pfam_scanDir:$PERL5LIB

4. 对应的数据库下载:

需下载的数据库包括:Pfam-A.hmm, Pfam-A.hmm.dat,Pfam-B.hmm,Pfam-B.hmm.dat,active_site.dat。

通过hmmerspress来把下载的数据建库:

hmmpressPfam-A.hmm

hmmpressPfam-B.hmm

三、使用说明

./pfam_scan.pl -fasta -dir

例如在r910的/home/r910/works/linbo/PfamScan目录中:

./pfam_scan.pl -fasta cpc.fa -dir/home/r910/works/linbo/PfamScan -pfamB -as -outfile result.fa

参数说明:

-dir Pfam_data_file_dir

包含Pfam数据文件的目录[必须]

-fasta fasta_file

包含序列的输入文件名 [必须]

-outfile output_file

输出文件名 [不指定则输出在命令行中]

-e_seq

序列E-value阈值 [不指定则使用默认阈值]

-e_dom

结构域E-value阈值 [不指定则使用默认阈值]

-b_seq

序列bit score阈值 [不指定则使用默认阈值]

-b_dom

结构域bit score阈值[不指定则使用默认阈值]

-pfamB

搜索Pfam-B数据库HMMs [默认关闭]

-only_pfamB

只搜索Pfam-B数据库HMMs [默认关闭]

-clan_overlap

允许不同上级分类的序列重叠 [默认关闭]

-align

在结果中显示比对片段 [默认关闭]

-as

预测Pfam-A数据库匹配的active sites[默认关闭]

-json [pretty]

输出结果使用JSON格式。例如指定值为[pretty],则输出结果会使用"pretty" JSON格式输出 [默认关闭]

-cpu

并行工作的CPU数目 [默认全部]

-translate [mode]

将输入序列视为DNA,并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定,则必须为"all"或者"orf"。"all"表示完整翻译,包括终止子并且不产生单独的ORFs;"orf"表示只翻译和报告长度大于20的ORFs。如果使用了翻译参数而没有指定翻译模式,则默认使用"orf"模式。[默认关闭]

-h

显示帮助信息

四、结果格式

标准的输出格式为:

五、引用文献

R.D. Finn, A. Bateman, J. Clements, P.Coggill, R.Y. Eberhardt, S.R. Eddy, A. Heger, K. Hetherington, L. Holm, J.Mistry, E.L.L. Sonnhammer, J. Tate, M. Punta. The Pfam protein familiesdatabase. Nucleic Acids Research(2014) Database Issue 42:D222-D230返回搜狐,查看更多

责任编辑:

pfamscan 的使用_蛋白编码能力预测软件pfam流程相关推荐

  1. CPAT:转录本蛋白编码能力预测软件

    欢迎关注"生信修炼手册"! 随着高通量测序在lncRNA研究领域的应用, 越来越多的lncRNA被发现.对于转录组测序的数据而言,组装得到转录本之后,首先要做的就是区分蛋白编码和非 ...

  2. 七种常见的核酸序列蛋白编码能力预测工具 | ncRNAs | lncRNA

    注:这些工具的应用都是受限的,有些本来就是只能用于预测动物,在使用之前务必用ground truth数据来测试一些.我想预测某一个植物的转录本,所以可以拿已经注释得比较好的拟南芥来测试一下.(测试的结 ...

  3. pfamscan 的使用_Pfam数据库蛋白编码能力预测说明

    一.分析背景 蛋白一般由一个或多个功能域所组成,在不同蛋白质组合中出现的不同结构域导致了自然界中蛋白质复杂的多样性.鉴定一个蛋白中的结构域有助于更深入地理解蛋白功能.Pfam是一个大型蛋白结构域家族的 ...

  4. GeneMark-ES:真核生物编码基因预测软件

    欢迎关注"生信修炼手册"! GeneMark-ES软件用于预测真核生物中的蛋白编码基因,和其他预测基因结构的软件不同,它采用的是非监督算法,可以不依赖训练集进行预测.官网如下 ht ...

  5. bp神经网络进行交通预测的matlab源代码_神经网络进行股票价格预测软件----MATLAB--毕业设计...

    一.BP神经网络的步骤 (1)根据评价指标集, 确定BP 网络中输入节点的个数, 即为指标个数; (2)确定BP 网络的层数, 一般采用具有一个输入层, 一个隐含层和一个输出层的三层网络模型结构; 明 ...

  6. CNCI的使用--RNA蛋白编码预测软件

    (生信)RNA蛋白编码预测软件-CNCI的使用 CNCI简介: CNCI是由中科院研发的一款基于SVM(支持向量机)的LncRNA预测软件,它可以不依赖于已知的RNA注释信息来进行预测,同时其对不完全 ...

  7. 反向非归零编码_(宏)基因组编码基因预测

    基因预测是指通过对组装的基因组序列进行分析,根据已知生物的基因结构知识或数据库序列来识别其所包含的基因等功能区域.编码基因预测,就是识别基因组序列上所包含的蛋白质编码区域(Coding sequenc ...

  8. 论文解读《DeepCPP:一种基于核苷酸偏差信息和最小分布相似性特征选择的用于RNA编码潜力预测的深度神经网络》

    摘要 深度测序技术的发展导致了新转录本的发现.已经开发了许多计算机方法来评估这些转录本的编码潜力,以进一步研究它们的功能.现有方法在区分大多数长非编码 RNA (lncRNA) 和编码 RNA (mR ...

  9. knn 机器学习_机器学习:通过预测意大利葡萄酒的品种来观察KNN的工作方式

    knn 机器学习 Introduction 介绍 For this article, I'd like to introduce you to KNN with a practical example ...

最新文章

  1. 强烈推荐几个好玩的深度学习github项目分享!
  2. matlab变量区表示函数,MATLAB中的工作区,变量和函数
  3. MVC模型构建管理系统
  4. ADB server didn't ACK * failed to start daemon * 解决方案
  5. Mysql价格降低20%应该怎么写_mysql优化20条原则
  6. JavaScript进阶1-学习笔记
  7. 如何优雅地「蜗居」?
  8. 秀脱linux笔记之PIX501防火墙实战篇
  9. 云计算入门科普系列:文件管理
  10. pycharm 虚拟环境virtualenv迁移到别的机器 无法读取包的问题
  11. postgresql学习笔记(五)备份与恢复
  12. vs2003常见问题
  13. 4款企业常用的工时管理系统盘点
  14. Shell 练习题 21—30,内附答案
  15. 最新北京人才公寓申请流程,技术员的福利~
  16. 微服务守护神-Sentinel-热点-授权-系统规则
  17. 计算机的隐藏功能应用,关于Mac电脑的8个神奇隐藏功能,你知道几个?
  18. PHP 测试页index.php phpinfo 空白问题
  19. ides样式及字体设置
  20. 新媒体运营避开这四个雷区,你也可以策划出10万+创意素材! | 黎想

热门文章

  1. 【活动报名】大数据的流向,究竟去向何处?——深圳站
  2. launcher功能入口(三)
  3. 视觉-语言:推理还是预训练?【VALSE Webinar】Panel实录
  4. java web实现打印功能
  5. ENCODYAv1.1 英科迪亚 免费下载
  6. 使用正则 去除标签, 提取HTML 纯文本
  7. Java学习笔记 | 尚硅谷项目三详解
  8. 与贝加尔湖华创一起,收获满满的期货!
  9. ARP request或reply包丢失导致速率下降优化
  10. DDR4的内存计算方法