NR数据库的物种注释

1.创建NR子库

为什么要创建nr或nt数据库的子库,因为这两个库数据量巨大,若只专注某个领域而非全部,则在对自身领域进行注释时就会耗费大量时间,为了节省时间,就需要在原来nr/nt数据库的基础上构建相对的子库。

构建方法如下:

  • 方法一:从NCBI官网下载相应物种的Accession ID

在2017年之后的nr/nt数据库变成不再支持gi号搜索的。所以我们不可以根据gi号来分离并构建对应的子库,那么我们就需要查看新版本的nr/nt库的序列的id特征,发现他们变成了accession id,那么我们就可以采取对应的方式来分离子库了。

  1. Download the prebuilt nr database (在ncbi上下载最新的nr/nt数据库),and use makeblastdb build prot database makeblastdb -in nr -dbtype prot -parse_seqids -hash_index -out nr -logfile log.txt

  2. Search the Entrez Protein database **with query:**query id[ORGN],即你所要建子库相应的txid号。[NCBI][https://www.ncbi.nlm.nih.gov/protein/]

  1. Select “Send to File” and choose format “accession list”然后在send to 位置选择accession list 导出相应的accession list文件“ sequence.seq

  1. Use the list of GIs from the previous step with the blastdb_aliastool to build an aliased blastdb of just your organism (takes several seconds), eg:blastdb_aliastool -seqidlist sequence.seq -db nr -out nr_plant -title nr_plant

  2. Search against your new (aliased) database:blastx -query query.fa -db nr_plant

搜索时的==[ORGN]==是必须加上的,因为其代表整个团体,若不加上只能搜到其txid所代表的那一个物种。

  • 方法二:使用taxonkit工具从taxanomy文件中提取
  1. 首先要下载taxonkit工具,[下载网址][http://bioinf.shenwei.me/taxonkit/download/],linux系统下直接解压使用,再将Taxonkit添加进环境变量sudo cp taxonkit /usr/local/bin/

    ​ 再将从NCBI官网上下载的taxanomy文件中的names.dmpnodes.dmp文件复制到用户目录的隐藏文件夹.taxonkit中,命令如下:

cp names.dmp ~/.taxonkit
cp nodes.dmp ~/.taxonkit

​ 之后便可以正常使用了。此时还需要从NCBI官网上下载NCBI的accession与taxid的对应关系文件[prot.accession2taxid.gz][ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz]。

  1. 使用TaxonKit提取特定taxons下的所有taxid,命令如下:
 taxonkit list --ids 33090 --indent "" > plant.taxid.txtwc -l plant.taxid.txt

​ 此时–ids的参数33090是代表整个植物届的最大的parent id,–indent ""是将所列出的taxid左边的空格去除,,以左对齐排列。

  1. 使用csvtk在prot.accession2taxid.gz文件中提取plant.taxid所有的accession
zcat prot.accession2taxid.gz |csvtk -t grep -f taxid -P plant.taxid.txt |csvtk -t cut -f accession.version >plant.taxid.acc.txt

csvtk参数含义可以到csvtk usage查询,[csvtk功能介绍][http://bioinf.shenwei.me/csvtk/usage/].

  1. 利用获取到的plant.taxid.acc.txt文件创建nr子库
blastdb_aliastool -gilist plant.taxid.acc.txt -db nr -out nr_plant -title nr_plant
  1. 如果是想提取特定物种(比如植物)下的所有NR序列
 blastdbcmd -db nr -entry all -outfmt "%a\t%T" |csvtk -t grep -f 2 -P plant.taxid.acc.txt |csvtk -t cut -f 1 |blastdbcmd -db nr -entry_batch - -out nr.plant.fa

两种方法的比较:
方法一更加适合创建较大物种范围的nr子库,即细菌,真菌,植物届等等,速度较快,且方便。

方法二适用于创建多个较小物种集合的nr子库,不需要到NCBI上反复查询,可以写成脚本的形式。

2.txid的查询

常见txid号

Name txid Search id Scope
Bacteria 2 txid2[ORGN] 细菌
Fungi 4751 txid4751[ORGN] 真菌
Eukaryota 2759 txid2759[ORGN] 真核生物
Vertebrata 7742 txid7742[ORGN] 脊椎动物门
Viridiplantae 33090 txid33090[ORGN] 植物界

若不知我们研究物种分类的txid号,则可以通过以下方法查询:通过物种分类中一个已知物种名,例如研究真菌,知晓酿酒酵母的物种名,saccharomyces cerevisiae,知道酿酒酵母属于真菌。

  1. 选择NCBI数据库的Taxanomy,输入saccharomyces cerevisiae,搜索。

  1. 点击进入后,选择Lineage中的fungi,再点击Fungi。


  1. 从Fungi的界面可以看到其txid号为4751.

资料来源:

NR子库构建:

http://www.biotrainee.com/thread-1818-1-1.html

http://www.bioinfo-scrounger.com/

txid号查询:http://blog.sina.com.cn/s/blog_14ece68cc0102vx90.html

NR数据库的物种注释相关推荐

  1. GTDB:基因组分类数据库,物种注释和进化树构建工具GTDB-tk

    简介 基因组分类数据库:GENOME TAXONOMY DATABASE 网址:https://gtdb.ecogenomic.org/ 该数据库已经于2018/2020连续发表两篇Nature Bi ...

  2. 将NR数据库diamond比对结果做物种注释

    需求:环境菌功能基因扩增子测序的OTU序列已经用diamond进行了NR全库的比对(blastx),还需得知其物种信息. P.S.本人是没接触过扩增子比对相关内容,不保证该过程的合理性. [流程主要参 ...

  3. 不同真菌物种注释数据库对群落组成的影响

    Journal:Biology and Fertility of Soils IF=3.788 Corresponding authors: Qirong Shen &James M. Tie ...

  4. EZBioCloud:16S和原核基因组物种注释和新种鉴定

    简介 https://www.ezbiocloud.net/ 是综合的细菌16S鉴定数据库,所有16S序列经人工校正,几乎全部为完整27F-1492R全长16S序列,而且全面覆盖NCBI.JGI的16 ...

  5. 使用Kaiju无组装计算宏基因组数据物种注释相对丰度

    关于Kaiju Kaiju是一款直接通过宏基因组数据Read获得物种注释信息并计算读数与相对丰度的软件.它的主要方法是将Read核酸序列翻译为蛋白序列然后在相应的数据库中进行精确比对,确认物种分类信息 ...

  6. 使用Diamond将宏基因组测序数据比对到Nr数据库

    Diamond简明安装与使用教程 对全基因组的基因进行Nr注释是必不可少的一步.由于Nr数据库非常大,导致使用BLAST会消耗巨大的计算资源和时间.使用DIAMOND则能快500-20000倍,而获得 ...

  7. Kraken2:宏基因组快速物种注释神器

    简介 kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件. 图. Kraken2分类基本原理 该文章于2014年发表于Genome Biology,目 ...

  8. cath数据库fasta备注_ncbi nr 数据库提取fasta

    在nr库这里挣扎许久了.数据库太大,下载和建库都很困难.下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的 ...

  9. MPB:农科院牧医所赵圣国组-基于GraftM对功能基因进行物种注释

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

最新文章

  1. Arbitrage--POJ 2240
  2. [Js-开发常识]为什么定义实体类属性建议用 Ineger 而不是 int
  3. netty实现客户端服务端心跳重连
  4. 异常:Caused by: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
  5. 服务器测试文件怎么创建,如何创建一个“FTPS”模拟服务器以单元测试Java中的文件传输...
  6. display:inline display:block
  7. 【android高级编程】简答题汇总
  8. allennlp手动安装教程
  9. win10服务器只显示4g内存,要注意了,4G内存在win10系统中根本不够用
  10. 从零开始了解 kubernetes,还有谁不会?
  11. 语音转写和语音听写_如何在Windows 10上使用语音听写
  12. vue vuex 挂载_【HAVENT原创】Vue 中使用 Vuex 的几种写法
  13. 大数据—数据收集系统介绍(Flume,Sqoop)
  14. python多条件求和_python – Numpy:条件求和
  15. 安卓开发代码工程结构(2)
  16. c++栈的学习( 括号匹配问题)
  17. 计算机xp重装无声音怎么办,WinXP电脑声音不正常的处理方法
  18. 富可视m310 android 4.4,富可视 M310 4.2.1 ROM刷机包 版本发布公告
  19. Java密码库Password4j
  20. c语言表达式优先级()

热门文章

  1. 卡通形象“兔公爵”要做内衣时尚新宠儿!
  2. 【灼鼎咨询】中国制造业行业研究报告——我国制造业将不断转型升级,朝着世界制造强国的前列迈进
  3. 实现给软件快捷方式更换图标
  4. java 周几_java根据年月日判断周几
  5. Hive的full join
  6. 移动端网站怎么提升排名?
  7. iOS性能优化06 - 耗电优化
  8. 周记:ajax获取后台数据
  9. ADS2020linux版本安装,Advanced Design System (ADS) 2020安装许可授权详细教程(附下载)
  10. 安利几款简单实用的软件给大家