NR数据库的物种注释
NR数据库的物种注释
1.创建NR子库
为什么要创建nr或nt数据库的子库,因为这两个库数据量巨大,若只专注某个领域而非全部,则在对自身领域进行注释时就会耗费大量时间,为了节省时间,就需要在原来nr/nt数据库的基础上构建相对的子库。
构建方法如下:
- 方法一:从NCBI官网下载相应物种的Accession ID
在2017年之后的nr/nt数据库变成不再支持gi号搜索的。所以我们不可以根据gi号来分离并构建对应的子库,那么我们就需要查看新版本的nr/nt库的序列的id特征,发现他们变成了accession id,那么我们就可以采取对应的方式来分离子库了。
Download the prebuilt nr database (在ncbi上下载最新的nr/nt数据库),and use makeblastdb build prot database
makeblastdb -in nr -dbtype prot -parse_seqids -hash_index -out nr -logfile log.txt
Search the Entrez Protein database **with query:**query id[ORGN],即你所要建子库相应的txid号。[NCBI][https://www.ncbi.nlm.nih.gov/protein/]
- Select “Send to File” and choose format “accession list”,然后在send to 位置选择accession list 导出相应的accession list文件“ sequence.seq ”
Use the list of GIs from the previous step with the blastdb_aliastool to build an aliased blastdb of just your organism (takes several seconds), eg:
blastdb_aliastool -seqidlist sequence.seq -db nr -out nr_plant -title nr_plant
Search against your new (aliased) database:
blastx -query query.fa -db nr_plant
搜索时的==[ORGN]==是必须加上的,因为其代表整个团体,若不加上只能搜到其txid所代表的那一个物种。
- 方法二:使用taxonkit工具从taxanomy文件中提取
首先要下载taxonkit工具,[下载网址][http://bioinf.shenwei.me/taxonkit/download/],linux系统下直接解压使用,再将Taxonkit添加进环境变量
sudo cp taxonkit /usr/local/bin/
。 再将从NCBI官网上下载的taxanomy文件中的
names.dmp
和nodes.dmp
文件复制到用户目录的隐藏文件夹.taxonkit
中,命令如下:
cp names.dmp ~/.taxonkit
cp nodes.dmp ~/.taxonkit
之后便可以正常使用了。此时还需要从NCBI官网上下载NCBI的accession与taxid的对应关系文件[prot.accession2taxid.gz][ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz]。
- 使用TaxonKit提取特定taxons下的所有taxid,命令如下:
taxonkit list --ids 33090 --indent "" > plant.taxid.txtwc -l plant.taxid.txt
此时–ids的参数33090是代表整个植物届的最大的parent id,–indent ""是将所列出的taxid左边的空格去除,,以左对齐排列。
- 使用csvtk在prot.accession2taxid.gz文件中提取plant.taxid所有的accession
zcat prot.accession2taxid.gz |csvtk -t grep -f taxid -P plant.taxid.txt |csvtk -t cut -f accession.version >plant.taxid.acc.txt
csvtk参数含义可以到csvtk usage查询,[csvtk功能介绍][http://bioinf.shenwei.me/csvtk/usage/].
- 利用获取到的plant.taxid.acc.txt文件创建nr子库
blastdb_aliastool -gilist plant.taxid.acc.txt -db nr -out nr_plant -title nr_plant
- 如果是想提取特定物种(比如植物)下的所有NR序列
blastdbcmd -db nr -entry all -outfmt "%a\t%T" |csvtk -t grep -f 2 -P plant.taxid.acc.txt |csvtk -t cut -f 1 |blastdbcmd -db nr -entry_batch - -out nr.plant.fa
两种方法的比较:
方法一更加适合创建较大物种范围的nr子库,即细菌,真菌,植物届等等,速度较快,且方便。方法二适用于创建多个较小物种集合的nr子库,不需要到NCBI上反复查询,可以写成脚本的形式。
2.txid的查询
常见txid号
Name txid Search id Scope Bacteria 2 txid2[ORGN] 细菌 Fungi 4751 txid4751[ORGN] 真菌 Eukaryota 2759 txid2759[ORGN] 真核生物 Vertebrata 7742 txid7742[ORGN] 脊椎动物门 Viridiplantae 33090 txid33090[ORGN] 植物界
若不知我们研究物种分类的txid号,则可以通过以下方法查询:通过物种分类中一个已知物种名,例如研究真菌,知晓酿酒酵母的物种名,saccharomyces cerevisiae,知道酿酒酵母属于真菌。
- 选择NCBI数据库的Taxanomy,输入saccharomyces cerevisiae,搜索。
- 点击进入后,选择Lineage中的fungi,再点击Fungi。
- 从Fungi的界面可以看到其txid号为4751.
资料来源:
NR子库构建:
http://www.biotrainee.com/thread-1818-1-1.html
http://www.bioinfo-scrounger.com/
txid号查询:http://blog.sina.com.cn/s/blog_14ece68cc0102vx90.html
NR数据库的物种注释相关推荐
- GTDB:基因组分类数据库,物种注释和进化树构建工具GTDB-tk
简介 基因组分类数据库:GENOME TAXONOMY DATABASE 网址:https://gtdb.ecogenomic.org/ 该数据库已经于2018/2020连续发表两篇Nature Bi ...
- 将NR数据库diamond比对结果做物种注释
需求:环境菌功能基因扩增子测序的OTU序列已经用diamond进行了NR全库的比对(blastx),还需得知其物种信息. P.S.本人是没接触过扩增子比对相关内容,不保证该过程的合理性. [流程主要参 ...
- 不同真菌物种注释数据库对群落组成的影响
Journal:Biology and Fertility of Soils IF=3.788 Corresponding authors: Qirong Shen &James M. Tie ...
- EZBioCloud:16S和原核基因组物种注释和新种鉴定
简介 https://www.ezbiocloud.net/ 是综合的细菌16S鉴定数据库,所有16S序列经人工校正,几乎全部为完整27F-1492R全长16S序列,而且全面覆盖NCBI.JGI的16 ...
- 使用Kaiju无组装计算宏基因组数据物种注释相对丰度
关于Kaiju Kaiju是一款直接通过宏基因组数据Read获得物种注释信息并计算读数与相对丰度的软件.它的主要方法是将Read核酸序列翻译为蛋白序列然后在相应的数据库中进行精确比对,确认物种分类信息 ...
- 使用Diamond将宏基因组测序数据比对到Nr数据库
Diamond简明安装与使用教程 对全基因组的基因进行Nr注释是必不可少的一步.由于Nr数据库非常大,导致使用BLAST会消耗巨大的计算资源和时间.使用DIAMOND则能快500-20000倍,而获得 ...
- Kraken2:宏基因组快速物种注释神器
简介 kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件. 图. Kraken2分类基本原理 该文章于2014年发表于Genome Biology,目 ...
- cath数据库fasta备注_ncbi nr 数据库提取fasta
在nr库这里挣扎许久了.数据库太大,下载和建库都很困难.下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的 ...
- MPB:农科院牧医所赵圣国组-基于GraftM对功能基因进行物种注释
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
最新文章
- Arbitrage--POJ 2240
- [Js-开发常识]为什么定义实体类属性建议用 Ineger 而不是 int
- netty实现客户端服务端心跳重连
- 异常:Caused by: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
- 服务器测试文件怎么创建,如何创建一个“FTPS”模拟服务器以单元测试Java中的文件传输...
- display:inline display:block
- 【android高级编程】简答题汇总
- allennlp手动安装教程
- win10服务器只显示4g内存,要注意了,4G内存在win10系统中根本不够用
- 从零开始了解 kubernetes,还有谁不会?
- 语音转写和语音听写_如何在Windows 10上使用语音听写
- vue vuex 挂载_【HAVENT原创】Vue 中使用 Vuex 的几种写法
- 大数据—数据收集系统介绍(Flume,Sqoop)
- python多条件求和_python – Numpy:条件求和
- 安卓开发代码工程结构(2)
- c++栈的学习( 括号匹配问题)
- 计算机xp重装无声音怎么办,WinXP电脑声音不正常的处理方法
- 富可视m310 android 4.4,富可视 M310 4.2.1 ROM刷机包 版本发布公告
- Java密码库Password4j
- c语言表达式优先级()
热门文章
- 卡通形象“兔公爵”要做内衣时尚新宠儿!
- 【灼鼎咨询】中国制造业行业研究报告——我国制造业将不断转型升级,朝着世界制造强国的前列迈进
- 实现给软件快捷方式更换图标
- java 周几_java根据年月日判断周几
- Hive的full join
- 移动端网站怎么提升排名?
- iOS性能优化06 - 耗电优化
- 周记:ajax获取后台数据
- ADS2020linux版本安装,Advanced Design System (ADS) 2020安装许可授权详细教程(附下载)
- 安利几款简单实用的软件给大家