InterProScan的三种使用方法

Interproscan,通过蛋白质结构域和功能位点数据库预测蛋白质功能。是EBI开发的一个集成了蛋白质家族、结构域和功能位点的非冗余数据库。Interproscan整合了一些使用最普及的一些数据库,并应用于功能未知的蛋白进行Interpro注释和GO注释。
以下介绍3中interpro注释的方法:

一、网页版的Interpro注释

打开InterProScan的官网地址:http://www.ebi.ac.uk/Tools/pfa/iprscan/。将序列粘贴到输入框中进行Interpro注释。

优点:使用网页版,方便快捷;不消耗本地计算资源。
缺点:输入必须为蛋白质序列;一次只能比对条蛋白质序列。

二、使用EBI提供的perl程序进行远程比对

程序下载网页地址:http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest。
其实,除了perl程序,Python和Ruby也各有一支程序。分别是:
iprscan_lwp.pl ; iprscan_urllib2.py ; iprscan_net_http.rb。

优点:不消耗本地计算资源;可以自己编写脚本来大批量比对本地的protein序列到EBI的
interpro服务器,获得得interpro注释。
缺点:比对结果为xml格式,普通科研人员玩不来。

三、本地化的InterProScan注释

3.1 本地化的InterProScan安装与配置

3.1.1 从ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下载以下5个文件:

RELEASE/latest/iprscan_v4.8.tar.gz
BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz
DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz

3.1.2 将5个文件解压到一个文件夹中,然后运行其中的文件Config.pl,来对InterProScan进行配置。
3.1.3 配置的过程中,若选择进行本地web配置,则修改本地www服务的配置文件,以能进行本地化网页版的运行。

3.2 本地化InterProScan的使用。

3.2.1 命令行运行iprscan的方法:

$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out

3.2.2 iprscan的参数说明:

-cli         设定程序在unix命令下运行,如果不设此参数,程序会被当作CGI程序运行。
-iprlookup   结果里显示相应的interpro注释信息。
-goterms     结果里显示相应的GO注释信息,但前面要加上-iprlookup参数。
-format      输出结果的格式,有raw, xml, txt, html(default), ebixml
(EBI header on top of xml) gff。
-appl  数据库和扫描方法的的选择。无此参数表示默认选择全部数据库(配置Interpro
scan时候设置的数据库)。选择多个数据库则需该参数多次。本地运行Interproscan相
比官网运行,有两个数据库不能选择为:tmhmm 和 signalp。这两个数据库的选择需要
commercial license。
-i           输入文件,InterProScan支持输入蛋白质序列和核酸序列,如果输入核
酸系列,程序会将其翻译成蛋白质序列,你可以指定翻译用到的密码表,用下面的-trtable
参数,序列格式可以是raw,Fasta或者EMBL。
-o           结果输出文件,如果不选择此参数,结果将输出到标准输出,输出格式可以
用下面的-format参数设定。
-trtable   选择核酸翻译蛋白质的密码表,同时可以设定-trlen 参数来控制核酸翻译
的转录子长度。
-nocrc       不对输入蛋白质序列进行crc64匹配。不加此参数,则默认是会对蛋白质
序列开启了crc64匹配。Interpro数据库(memember database)已经包含了大量序列
搜索的结果,就是如果你的蛋白序列已经包含在interpro的数据库里面,iprscan会直接
给出搜索结果,无需进行本地运算。interpro数据库不包括tmhmm, coil和signalp,
所以crc64匹配不到这3个数据库。一般情况下,由于commercial licese而无法使用
tmhmm和signalp数据库,coil数据库也不会使用。故不使用此参数,加快程序运行速度。
-seqtype     输入的序列类型,蛋白质序列(-seqtype p)(defult)或者(-se
qtype n)。
-email       设定一个Email地址,程序运行完毕向信箱发送邮件通知分析完毕。
-verbose     程序运行过程中显示运行的状态。
-help        显示帮助信息。

3.2.3 InterProScan其它附带的重要程序

meter.pl     reports the progress of a job.有百分之几的chunk已经运行完毕。
converter.pl 将raw的格式转换成其它的格式,比如html,xml,txt等格式。
iterator.pl  运用于逐条去注释序列

3.2.4 多线程运行
hmmpfam, hmmscan 和 hmmsearch 能多线程运行。
经过测试 PIR superfamily 和 SUPERFAMILY 这两个数据库的应用比较费时,可以设置conf文件夹中的配置文件hmmpir.conf和superfamily.conf,将其中的cpu_opt的值设置高一些。默认是1。
3.2.5 逐条序列地运行
InterProScan不能立马给出结果文件并相继把结果放入到结果文件中。可以采用逐条比对的方法来得到注释结果。可以采用如下的方法来随时终结掉程序,并拿到部分结果。

$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"

3.2.6 优缺点

优点:使用本地化的数据库,在断网和计算机资源充足的情况下,能加快注释速度;本地化网
页版能同时比对多条序列;本地化能对DNA序列进行interpro注释。
缺点:本地化安装InterProScan比较复杂耗时;需要不时更新本地数据库;本地化运行耗
费计算资源大;

转载于:http://www.chenlianfu.com/?p=650

转载于:https://www.cnblogs.com/ZHshuang463508120/p/3625822.html

基因注释 InterProScan的三种使用方法相关推荐

  1. spss分析qpcr数据_实时荧光定量PCR的三种数据分析方法比较.doc

    窑128窑热带病与寄生虫学 圆园12 年第 10 卷第 3 期 允燥怎则灶葬造 燥枣 栽则燥责蚤糟葬造 阅蚤泽藻葬泽藻泽 葬灶凿 孕葬则葬泽蚤贼燥造燥早赠 圆园12援 V燥l 10. 晕燥 3 doi ...

  2. c语言for循环打印九九乘法口诀的三种简单方法

    c语言for循环打印九九乘法口诀的三种简单方法 由于在学习c语言,今天在复习巩固知识,练习代码的时候,简单的总结了三种for循环打印九九乘法口诀的方法,加深了自己的理解.代码注释和简单的思路已经注释在 ...

  3. PHP开发之递归算法的三种实现方法

    递归算法对于任何一个编程人员来说,应该都不陌生.因为递归这个概念,无论是在PHP语言还是Java等其他编程语言中,都是大多数算法的灵魂.对于PHP新手来说,递归算法的实现原理可能不容易理解.但是只要你 ...

  4. 黑马程序员_Java解析网络数据流的三种特殊方法

    Java解析网络数据流的三种特殊方法 Java作为最开放的语言,已越来越受到网络程序员的青睐.但这一青睐族有着同样的经历--曾经都为网络上通信的Java数据格式而烦恼. 笔者也不例外,曾经为此而查阅了 ...

  5. Oracle的join默认为,Oracle中的三种Join方法详解

    这里将为大家介绍Oracle中的三种Join方法,Nested loop join.Sort merge join和Hash join.整理出来以便帮助大家学习. 基本概念 Nested loop j ...

  6. python中保留小数_python保留小数位的三种实现方法

    前言 保留小数位是我们经常会碰到的问题,尤其是刷题过程中.那么在python中保留小数位的方法也非常多,但是笔者的原则就是什么简单用什么,因此这里介绍几种比较简单实用的保留小数位的方法: 方法一:fo ...

  7. oracle hash join outer,CSS_浅谈Oracle中的三种Join方法,基本概念 Nested loop join: Outer - phpStudy...

    浅谈Oracle中的三种Join方法 基本概念 Nested loop join: Outer table中的每一行与inner table中的相应记录join,类似一个嵌套的循环. Sort mer ...

  8. lopa分析_【风险分析方法】HAZOP、LOPA和FMEA三种分析方法,如何做到信息共享?...

    导 读 信息是人们对事物的了解的不确定性的减少或消除,其功能是表征物质客体成分,结构,状态,特性等属性.信息共享的目的在于减少或消除信息源所需的不确定性.石油化工行业由于设备多,生产过程复杂,危险元素 ...

  9. php怎么四舍五入,php 四舍五入的三种实现方法

    这篇文章主要为大家详细介绍了php 四舍五入的三种实现方法,具有一定的参考价值,可以用来参考一下. 对php 四舍五入的三种方法感兴趣的小伙伴,下面一起跟随512笔记的小编两巴掌来看看吧! php 四 ...

最新文章

  1. python处理excel教程实例-python 读写excel文件操作示例【附源码下载】
  2. 广西中专机器人应用与维护_我校2018级工业机器人应用与维护专业跟岗实习
  3. linux下epoll如何实现高效处理
  4. 全志 添加TP休眠触摸唤醒 Patch
  5. ​GPLinker:基于GlobalPointer的实体关系联合抽取
  6. CentOS环境设置Hbase自启动
  7. C# 类与对象(面向对象的编程)
  8. 小程序和vue语法对比_商城小程序对比传统电商的优势如何?
  9. windows环境下面安装neo4j出错记录
  10. 3D视觉关键技术与核心问题包括哪些?
  11. 区块链3.0时代:你现在所有的认知将会被颠覆
  12. matlab峰度和偏度,峰度和偏度
  13. NXP JN5169滴答定时器中断回调函数
  14. python爬虫--爬取网易云音乐评论
  15. beego框架出现的问题-----panic: ./ippanichandle.exe flag redefined: graceful
  16. 最简单的生成ios证书的方法
  17. python面向对象基础-01
  18. P1598垂直柱状图
  19. IOCP的一些思考(粘包,断包的处理)
  20. 弘辽科技:淘宝平台的推广方法有哪些?六大推广方式介绍

热门文章

  1. Java核心技术卷一 -第五章:装箱和拆箱
  2. nodejs+express搭建小程序后台服务器
  3. PTA Easy chemistry 化学方程式等价判定 string 状态机
  4. 6步安全解决WinRAR弹出广告,新版通用保姆级教程,收藏备忘无忧
  5. 在Ignite中使用线性回归算法
  6. 韩顺平Oracle笔记
  7. 云服务器配置和域名配置
  8. 类ApplicationInfo详解
  9. 同步和异步通信的异同
  10. Python爬取图片并命名