官网地址:

http://www.ebi.ac.uk/interpro/download.html

github使用手册地址:

https://github.com/ebi-pf-team/interproscan/wiki

1.下载、解压、安装

下载链接:

nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.28-67.0/interproscan-5.28-67.0-64-bit.tar.gz &

因为压缩包有11G左右,所以最好还是用nohup后台下载,以防网络因素导致下了一半得重新下的情况。

解压:

tar -pxvzf interproscan-5.28-67.0-*-bit.tar.gz

这里参数p是 :

p = preserve the file permissions #即保存文件权限

安装Panther模块

panter库需要单独安装。

下载&解压

cd [InterProScan5 home]/data/
nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-12.0.tar.gz &
tar -pxvzf panther-data-12.0.tar.gz
  1. The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.

  2. InterProScan 5使用这个服务器能够加速本地服务器的速度。

  3. 这是这个版本的特点,要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk to use it.

  4. 如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)

  5. 或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties

  6. 在前面加一个#注释掉即可

  7. precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

最基本使用模式:

./interproscan.sh -i /path/to/sequences.fasta –o /san/ –goterms –iprlookup –pa -f xml

也可使用示例来测试:

./interproscan.sh -i test_proteins.fasta -f tsv

参数信息:

-appl / --applications application_name (optional)

By default, all available analyses are run.

也可以指定特定的数据库

./interproscan.sh -appl Pfam -i /path/to/sequences.fasta

也可以指定多个数据库,并可选择数据库的版本

./interproscan.sh -appl Pfam-31.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta

也可以只使用一个-appl,后面跟很多的数据库

./interproscan.sh -appl CDD,COILS,Gene3D,HAMAP,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITEPATTERNS,PROSITEPROFILES,SFLD,SMART,SUPERFAMILY,TIGRFAM -i /path/to/sequences.fasta

所有可用的数据库list:

Included Analyses

This distribution of InterProScan includes:

  • CDD
  • COILS
  • Gene3D
  • HAMAP
  • MOBIDB
  • PANTHER
  • Pfam
  • PIRSF
  • PRINTS
  • ProDom
  • PROSITE (Profiles and Patterns)
  • SFLD
  • SMART (unlicensed components only by default - this analysis has simplified post-processing that includes an E-value filter, however you should not expect it to give the same match output as the fully licensed version of SMART)
  • SUPERFAMILY
  • TIGRFAMs

以下的数据库在interproscan 5中可用,但是需要获得许可:

  • Phobius (licensed software)
  • SignalP
  • SMART (licensed components)
  • TMHMM

所以不加比较好,可以最大程度地得到需要的信息,虽然会给后续处理带来压力。


-i / --fasta sequence_file

需要输入fasta格式的文件。核酸和蛋白都可以,但推荐蛋白,毕竟蛋白文件相对小一点。

for protein sequences, returnand files or for nucleotide sequences, return GFF3 and XML files

蛋白质文件的默认输出格式是 TSV, XML 或GFF3,核酸序列默认输出GFF3 或 XML 文件


-iprlookup,--iprlookup (optional)

-goterms,--goterms (optional)

开启GO注释,这两个参数一般一起开,GO的注释依赖于-iprlookup参数


-b / --output-file-base file_name (optional)

Optionally, you can supply a path and base name (excluding a file extension) for the results file as follows:

./interproscan.sh -i /path/to/sequences.fasta -b /path/to/output_file

The appropriate file extension will be added to each output file, depending upon the format(s) requested. (It is therefore recommended that you do not include a file extension yourself.)

Note that using this option will not overwrite existing files. If a file with the required name exists at the path specified, the provided file name will have 'underscore_number' appended in front of the file extension.

没明白,贴原文需要的自己看。感觉上是不需要自己设置输出格式的意思?而且不会重写覆盖掉已存在的文件。


-o 跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f

-f 输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。

 ./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file

集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats


-dp 关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。


-pa / --pathways (optional)
Option that provides mappings from matches to pathway information, which is based on the matched manually curated InterPro entries. (IMPLIES -iprlookup option). The different pathways databases that I5 provides cross links to are:

KEGG
MetaCyc
Reactome

开启可能的注释信息。


-t / --seqtype (optional)
InterProScan 5 supports analysis of both protein and nucleic acid sequences (DNA/RNA). Your input sequences are interpreted as protein sequences by default. If you like to scan nucleotide sequences you must set the -t option:

./interproscan.sh -t n -i /path/to/sequences.fasta

如果输入的是核酸序列(DNA或者RNA都可以)需要设置-t参数,默认是蛋白。


-dra/ --disable-residue-annot (optional)

Optionally, you can prevent InterProScan from calculating the residue level annotations and displaying in the output where available. If you don't require this information then disabling the feature will improve performance and result in smaller output files.

可以将一些计算忽略,得到较小较快的结果


更多的信息请查看下面参考的第一条。

一些注意事项

  1. 跑interproscan的数据可以是核酸也可以是蛋白质,但是命令会有一些区别。
  2. 数据一定要格式化,而且序列中不能出现*号等其他字符。gene的名字不能为空。
  3. tsv格式可以直接用excel打开。

根据以上信息整理后得到:

./interproscan.sh -i /path/to/sequences.pep -iprlookup -goterms -f html -f tsv -dp -pa -dra -b /path/to/output_fileinterproscan.sh -appl PfamA (-appl PRINTS) -appl SMART -appl PANTHER -i Porphyra_umbilicalis_pep.fasta -f tsv -o Porphyra_umbilicalis_pep.fasta.ipr -goterms -T temp -iprlookupnohup ./interproscan.sh -appl PfamA -appl SMART -appl PANTHER -i 160614_klebsormidium_v1.1_AA.fasta.fasta -f tsv -o kfl.tsv -goterms -T temp -iprlookup -dp &

参考

https://github.com/ebi-pf-team/interproscan/wiki/HowToRun

https://github.com/ebi-pf-team/interproscan/wiki/FAQ#3.What_should_I_do_if_one_of_the_binaries_included_with_InterProScan_5_does_not_work_on_my_system?

http://qinqianshan.com/interproscan-installation-and-usage/

https://www.cnblogs.com/xiaojikuaipao/p/7190779.html

基因注释-InterProScan相关推荐

  1. 基因注释 InterProScan的三种使用方法

    InterProScan的三种使用方法 Interproscan,通过蛋白质结构域和功能位点数据库预测蛋白质功能.是EBI开发的一个集成了蛋白质家族.结构域和功能位点的非冗余数据库.Interpros ...

  2. Prokka:快速原核基因组、宏基因组基因注释

    文章目录 Prokka:快速原核基因组注释 热心肠日报 摘要 1 简介 2 描述 2.1 输入 2.2 注释 表1 Prokka使用的功能预测工具 2.3 输出 表2. 输出结果介绍 3 结果 表3. ...

  3. 宏基因组实战4. 基因注释Prokka

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  4. 根据gtf格式的基因注释文件得到人所有基因的染色体坐标

    用bedtools对基因组片段区域进行基因注释 根据gtf格式的基因注释文件得到人所有基因的染色体坐标 选择的genecode内最早的Grch38版本(201408) v20是最早的hg38版本对应的 ...

  5. NGS基础 - 参考基因组和基因注释文件

    参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参考基因组和参考转录组信息. Ensembl(http:/ ...

  6. linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文

    NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...

  7. linux基因组文件,转录组入门(四):了解参考基因组及基因注释

    转录组入门(4):了解参考基因组及基因注释 任务列表 1.在UCSC下载hg19参考基因组: 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS, ...

  8. 第七章 基因注释与功能分类

    文章目录 i. 基因与基因组功能注释 a. 基因功能的定义 i. 分子功能(生化功能/分子活性) ii. 生物学功能(所有的细胞过程都要求蛋白质有条不紊地按一定程序来执行它们的功能) iii. 细胞组 ...

  9. 精选推文 | 基于三代转录组的基因注释踩坑经历以及GSAman使用

    邀请并收到一位「GSAman」用户的稿件,非常详尽且实在.相信这份推文可以为一些做功能基因组方面工作的朋友,提供实用参考. – CJ-陈程杰 前言 随着测序技术的进步和普及,现如今已经步入到" ...

最新文章

  1. var s=+newDate();
  2. python练习---模拟sql
  3. qq android2.0,取代QQ?腾讯TIM安卓2.0发布:10GB云盘免费用
  4. 【Bash百宝箱】shell内建命令之echo、printf
  5. linux系统root默认密码是多少钱,linux root默认密码忘记后的解决方法
  6. linux c 符号表,C中的符号表
  7. AINLP-Archive:AINLP文章存档计划
  8. 在 CSS 中,width 和 height 指的是内容区域的宽度和高度
  9. oracle动态语句打开游标,Oracle动态语句中返回游标
  10. MyBatis 配置sql语句输出
  11. access insert语句怎么写_ySQL中特别实用的几种SQL语句送给大家
  12. Swift:一天学会,三天写项目
  13. 快速导入十亿数据到hugegraph图数据库
  14. w10计算机右键管理,电脑右键新建菜单管理,win10右键新建菜单管理-
  15. w7提示无法关闭计算机,番茄花园windows7关闭电脑关机时提示强制关闭程序怎么办...
  16. 2013年第四届蓝桥杯省赛C/C++ B试题解析
  17. 脚本自动ping检测网络情况
  18. 一个毕业三年的程序猿对于提升自我的一些建议
  19. 无线wifi摄像头怎样可以远程监控
  20. 基础STM32—点亮灯

热门文章

  1. 使用Python二次开发S3D 查询当前选择元素基本信息
  2. 树莓派——摄像头配置与操作
  3. AndroidStudio开发的领养宠物app
  4. 使用NVM安装NodeJS(原创 最全笔记)
  5. [ 数据集 ] COCO 数据集介绍
  6. AE 二次开发。请考虑更改其中一个程序集的“嵌入互操作类型”属性。
  7. 可变步长最小均方 (VSS-LMS) 算法附matlab代码
  8. Java开发实用工具
  9. ddk开发基础 makefile和source文件
  10. 2009高考作文搞笑语录