一、安装

下载安装包。

wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.3.0.1-centos_linux64.tar.gz

解压:

tar -vxzf sratoolkit.3.0.1-centos_linux64.tar.gz

设置并导出为全局环境变量:

#添加变量
echo "export PATH=$PATH:~/sratoolkit.3.0.1-centos_linux64/bin/">>~/.bashrc
#激活变量
source ~/.bashrc

二、设定相关配置

下载安装SRA Toolkit v.3.0.1后,需要根据自己的需求更改配置。
使用如下命令打开配置窗口。

vdb-config -i


打开配置页面后可看到四个选项(saveexitdiscarddefault)和六个配置页(MAINCACHEAWSGCPNETTOOLS)。使用tab键可在选项之间跳转,使用spaceenter键可进入选项。

1 MAIN

常规配置
[Enable Remote Access]
此选项勾选后,可远程获取(从NCBIAWSGCP的服务器)数据。如果关闭此选项,并且没有可用的本地数据(通过下载),SRA工具包将无法找到任何数据。

[Prefer SRA Lite files with simplified base quality scores]
勾选后可获取sra-Lite版本的数据。

2 CACHE

缓存配置,在启用缓存功能后,如果本地以存在缓存则无需再次远程获取。
[enable local file-caching]
启用缓存功能,一般都需要打开,除非无法配置公共位置。

[public user-repository]
永久缓存的文件会保存在此目录下,除非使用cache-mgr命令删除缓存文件。

[process-local]
会自动删除缓存的目录,当工具完成其任务时,缓存将自动删除。
PS:上述目录选择一个填写即可,两者都有的情况下,程序会优先选择[public user-repository]下的目录。

[RAM]
缓存的内存大小,当为0时使用默认值。

3 AWS

关于从AWS获取数据的配置。
[accept charges for AWS]
勾选后你将能够获取付费资源,但同时你也需要提供相应的证明。通过[choose]选择相应证明文件。

[report cloud instance identity]
获取免费资源,但同时工具也会报告你的所在位置。

4、GCP

关于从GCP获取数据的配置。配置信息类似AWS配置页。

5、NET

网络代理配置。

6、TOOL

此配置页可选择你所下载(prefetch工具)的数据该保存到何处。

[public user-repository]
默认选项,勾选此选项后下载的数据将会自动保存到缓存(CACHE)设置的目录下。

[current directory]
将下载的文件保存到当前工作目录。

当然,也可以在命令后指定文件的保存目录

fastq-dump ~/dir1/dir2/#将文件保存到dir2目录

二、prefetchfasterq-dump工具

prefetchfasterq-dump是此工具包中从各数据库获取数据的主要工具。

1 prefetch

prefetch是极为好用的下载工具,在下载失败时,其会向数据库多次提交申请直到下载成功,同时,它也支持断点继传功能。具体使用格式如下:

prefetch SRR123456#此编号为测序结果集对应的序列号

在下载完成后,可使用vdb-validate工具查看下载是否成功。

vdb-validate SRR123456#查看下载是否成功

prefetch下载目录有三种:

目录 如何定义
当前目录 见前文配置vdb-config -i
用户库user-repository 见前文配置vdb-config -i
自定义下载目录 例如prefetch ~/dir1/dir2/,将文件下载至dir2目录下

但是,prefetch工具存在对下载文件大小的限制(默认情况下为20GB),当请求下载的文件超出此限制后,会导致下载失败。可向形参--max-size提供实参(文件大小之上的限额),以更改限制。
在下载之前,文件大小如何,我们不得而知,这时我们可使用vdb-dump工具提前了解相应文件的大小:

vdb-dump --info SRR16093229#查看数据集SRR16093229的相关信息


在知悉其文件大小后,可根据实际情况设置相应的限额进行下载:

prefetch SRR16093229 --max-size 44022000000#在限额44022000000 kb下下载SRR16093229数据集

当然,也可以设置无上限。(极不推荐

prefetch SRR16093229 --max-size u#在不限额下下载SRR16093229数据集

2 fasterq-dump

通过查看下载下来的文件,可发现文件的格式为.sra,即测序原始数据(Sequence Read Archive),需要通过转换获得对应的.fastq数据(包含测序数据质量值的序列文件),fasterq-dump工具可很好的实现此转换。
但是,在进行转换之前,需要确认自己的内存是否足够fasterq-dump在进行数转换时会占用目标.sra文件17倍大小的临时内存(Scratch Space),最终完成转换会生成约7倍.sra大小的.fastq文件(添加--fasta选项可转换输出为.fasta格式)。可以在转换之前查看当前工作路径的可用内存:

df -h .#查看当前目录的可用内存


查看后发现目前我所在的目录还剩余77 T的可用内存。
数据格式转换

#将数据转换后存入WGS_single目录
fasterq-dump SRR16093229 --outdir WGS_single/

对于不同的测序数据有不同的转换方式,例子中的SRR16093229是包含8,169,115 readsWGS single数据。

转换成功后,确实获得了8,169,115 个reads

另外,如果在进行数据转换之前,系统内存中并没有相应的本地文件SRR16093229,那么fasterq-dump工具会自动从数据库中下载,再进行转换。但是,这样做更容易导致链接超时,且由于缺少对系统可用内存和所需数据大小的预估,可能会损坏服务器!!!

Ending!!!

SRA Toolkit简单使用相关推荐

  1. SRA Toolkit - prefetch

    SRA Toolkit: prefetch SRA Toolkit Documentation Back to List of the Tools Tool: prefetch Usage: pref ...

  2. 生信 使用SRA Toolkit下载SSR数据

    https://trace.ncbi.nlm.nih.gov/Traces/sra software --download 下载了NCBI SRA Toolkit解压后得到2进制的exe工具包 快捷键 ...

  3. 菜鸟自学之——SRA Toolkit 的下载和使用

    sra toolkit是ncbi上将 .sra文件转换为 .fstaq.gz文件的工具. 1.下载/调用 SRA Toolkit 可以直接在linux里在线下载,要根据自己的系统选择合适的安装版本.我 ...

  4. 转录组分析学习笔记(持续补充)

    转录组分析流程(有参和无参de novo) 获得测序数据,Fastq格式,称之为Raw data. 质量检测 比对Mapping Quantification|Quantitation 差异表达分析 ...

  5. NCBI下载SRA数据的4种方法

    作为生命科学的从事者,不论是老师或者学生都应该用过NCBI((National Center for Biotechnology Information Search database,一个综合性的生 ...

  6. NCBI SRA数据库使用详解

    转:https://shengxin.ren/article/16 https://www.cnblogs.com/lmt921108/p/7442699.html 批量下载SRA http://ww ...

  7. 干货分享 | Windows系统下载SRA数据方法——生信小白亲测可行

    在开展二代测序相关课题研究时,经常需要上传或者下载SRA数据库中的数据,对熟悉Linux系统.懂代码的同学们来说是非常容易的事情.但像小编这一类看到代码两眼一抹黑的小白就有点难度了,尤其电脑还是Win ...

  8. NCBI数据下载-sra

    NIBI数据下载-sra NCBI数据下载步骤 进入NCBI 选择需要的数据 选择需要的数据 查看数据相信信息 点击数据连链接,进入下载页面 下载并安装SRA Toolkit NCBI数据下载步骤 N ...

  9. NCBI中SRA数据下载

    NCBI中SRA数据下载 hs6605015 2020-08-02 14:35:34  1170  收藏 8 版权 应用场景: 如果自己没有测序数据,比如Pacbio数据,nanopore数据等,想要 ...

最新文章

  1. 暑期项目经验(十)--struts + poi
  2. python能做游戏吗-没有Python不能做的游戏,这些游戏都可以做
  3. [Python学习] 专题二.条件语句和循环语句的基础知识
  4. C#事件中的两个参数(object sender,EventArgs e)
  5. 马云狂炸近百亿,你的借呗额度涨了吗?
  6. 使用第三方Markdown编辑器编辑为知笔记
  7. vue i18n 国际化 使用方法
  8. 脱离微信,在硬件设备运行小程序?小程序硬件框架大揭秘!
  9. PL/SQL Developer使用笔记
  10. udev介绍及两个小场景应用
  11. 已知三点求圆心 c语言,转 已知两点坐标和半径求圆心坐标程序C++
  12. php ftps,使用PHP Curl的FTPS获得部分下载
  13. “区块链+供应链”的应用案例
  14. 如何免费使用内网穿透
  15. 10. Zigbee应用程序框架开发指南 - 命令处理和生成
  16. 阿里P9纯手打亿级高并发系统设计手册,走进阿里的架构世界
  17. android程序开发笔记
  18. Win10更新后使用相机时,提示找不到相机解决方法(方法之一)
  19. Pytorch:torch.ge()、torch.gt()、torch.le()、torch.lt()
  20. 循环神经网络(RNN)实现股票预测

热门文章

  1. 软件测试周刊(第16期):戴着镣铐起舞
  2. 定位组成,相对定位,绝对定位,固定定位、定位的特殊性,脱标的盒子不会触发外边距塌陷,绝对定位(固定定位)会完全压住盒子,焦点图布局(html+css)
  3. iOS 15 要来了!UI 焕然一新,分屏显示,iPhone 7以下机型不支持
  4. Android基本动画加速器
  5. VTK感兴趣勾画 方式一: vtkImageMask实现
  6. JS 合并数组的三大方式
  7. 计算机系统结构第二章课件,计算机系统结构第二章new解析课件
  8. 《失业的程序员》(四):关于猪刚烈
  9. JavaScript是计算机语言,JavaScript之基本语句
  10. UE4 跑酷游戏-提高速度