aspera

SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。

ENA数据库:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),功能同SRA,并且对数据做了注释,界面更友好,当然对于我们来说,最诱人的当属可直接下载fastq (.gz)文件这一项了。

sra文件下载方式

多数情况下,我们下载sra文件是为了获取相应的fastq或者sam文件,这样可以和自己的pipeline对接上,直接分析,所以

找地方:用手头上的SRR (SRA Run)序列号去ENA搜索,如果有,就在这儿下;如果没有,就去SRA数据库下载

选方法:

其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令。

最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar Handbook中的wonderdump脚本。

注意:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!

Aspera Connect命令行工具ascp的安装

首先,进入Aspera Connect的下载页面,选择linux版本,复制下载地址

wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz

tar zxvf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz

# 安装

bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh

# 查看是否有.aspera文件夹

cd # 去根目录

ls -a # 如果看到.aspera文件夹,代表安装成功

# 永久添加环境变量

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

# 查看帮助文档

ascp --help

至此,安装完成。

下面介绍如何利用ascp在SRA和ENA中下载数据

ascp的用法:ascp [参数] 目标文件 目标地址,在线文档

先了解几个ascp命令的常用参数

-v verbose mode 唠叨模式,能让你实时知道程序在干啥,方便查错。有些作者的程序缺乏人性化,运行之后,只见光标闪,压根不知道运行到哪了

-T 取消加密,否则有时候数据下载不了

-i 提供私钥文件的地址,我也不知道干嘛的,反正不能少,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件

-l 设置最大传输速度,一般200m到500m,如果不设置,反而速度会比较低,可能有个较低的默认值

-k 断点续传,一般设置为值1

-Q 不懂,一般加上它

-P 提供SSH port,一般是33001

ascp使用举例

SRA数据库下载:首先记住,数据的存放地址是ftp.ncbi.nlm.nih.gov,SRA在Aspera的用户名是anonftp,下载举例:

如果我想下载SRR949627.sra文件,首先我需要找到地址,去ncbi faspftp,一层层寻找,直至找到,然后复制链接地址,就可以开始下载了:

ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l 200m anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/data/

注意:anonftp@ftp-private.ncbi.nlm.nih.gov后面是:号,不是路径/!

一般来说,NCBI的sra文件前面的地址都是一样的/sra/sra-instant/reads/ByRun/sra/SRR/...,那么写脚本批量下载也就不难了!

ENA数据库下载:这里和上面有点不同,数据的存放地址是fasp.sra.ebi.ac.uk,ENA在Aspera的用户名是era-fasp,下载举例:

比如,要下载PRJEB21270下的几个数据文件,方便的是ENA中可以直接下载fastq.gz文件,不用再从sra文件转换了,那么地址呢,可以去ENA搜索,再复制下fastq.gz文件的地址,或者可以去ENA的ftp地址ftp.sra.ebi.ac.uk搜索,注意,是ftp,不是fasp!复制链接地址,就可以下载了:

ascp -QT -l 300m -P 33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/run/ERR217/ERR2173371/pb.bam ~/data/

注意:era-fasp@fasp.sra.ebi.ac.uk后面是:号,不是路径/!

一般来说,EBI的sra文件前面的地址也都是一样的vol1/run/...,那么写脚本批量下载也就不难了!

参考

aspera下载sra文件linux,使用aspera下载.fastq.gz和.sra数据相关推荐

  1. AsyncTask下载网络文件,并显示下载进度

    一些说明 ProgressBar.setProgress(): 刷新UI操作必须运行在UI线程中,但是setProgress()方法里面已经做了同步操作,所以可以在非UI线程中调用 webView.l ...

  2. aspera下载sra文件linux,Aspera Connect,高速下载sra数据

    一.下载安装Aspera Connect Linux系统下的Aspera Connect安装(Windows下的Aspera Connect安装参考). 查看最新版本的Aspera - High-sp ...

  3. 批量下载sra文件linux,Linux下从NCBI批量下载SRA数据的sra和aspera方法

    Minus_yao  2018.04.25  yaoguocai_cool@163.com #从NCBI下载SRA数据,最近在疯狂下载宏基因组数据,试着解决一下这个问题~ 方法一: 软件准备: 使用n ...

  4. 批量下载sra文件linux,NCBI下载SRA数据的4种方法

    作为生命科学的从事者,不论是老师或者学生都应该用过NCBI((National Center for Biotechnology Information Search database,一个综合性的生 ...

  5. linux中如何用ftp命令下载文件,linux中ftp下载文件命令的用法

    linxu下的ftp命令是用来下载文件或者上传文件的,下面由学习啦小编为大家整理了linux的ftp下载文件命令的用法的相关知识,希望对大家有帮助! 一.linux中的ftp下载文件命令的用法 从远程 ...

  6. 服务器如何下载百度网盘文件?Linux服务器如何在百度网盘中连接、上传下载;在Linux服务器上下载百度云盘中的资料

    前言 百度云提供Python包bypy进行远程服务器的对接然后下载: https://github.com/houtianze/bypy 可以通过pip直接下载,授权本人的百度云账号后,就可以直接使L ...

  7. a9 linux 程序下载,WPS for Linux A9 发布下载 新增八大功能

    WPS for Linux A9 发布下载 新增八大功能 2013-03-25 09:21:22  来源:官方论坛 扫码可以: 1.在手机上浏览 2.分享给微信好友或朋友圈 摘要: WPS for L ...

  8. springboot文件上传下载实战 ——文件上传、下载、在线打开、删除

    springboot文件上传下载实战 文件上传 文件上传核心 UserFileController 文件上传测试 文件下载与在线打开 文件下载.在线打开核心 UserFileController 文件 ...

  9. android下载文件地址,安卓迅雷下载的文件在哪里迅雷下载文件存放位置-独木成林...

    其实一般播放器都会有显示下载文件的默认路径的.按照路径提供的位置在手机文件管理器就很容易能找到,像手机迅雷的默认保存路径是在手机存储卡的 "ThunderDownload"文件夹下 ...

最新文章

  1. 《LeetCode力扣练习》第96题 不同的二叉搜索树 Java
  2. 机器学习系列之EM算法
  3. 20145324 20145325 《信息安全系统设计基础》实验三
  4. 用vim 配置javascript
  5. Lync Server 2013:边缘服务器 -- Set CA Error
  6. Docker 启动 nacos
  7. hibernate课程 初探单表映射3-1 hibernate单表操作简介
  8. React Native工程中TSLint静态检查工具的探索之路
  9. 协方差矩阵的详细说明
  10. Unity3D基础12:碰撞体
  11. 《Linux命令行与shell脚本编程大全 第3版》
  12. Julia : Set or Array ?
  13. uu云验证码识别平台,验证码,验证码识别,全自动验证码识别技术,优优云全自动打码,代答题系统,优优云远程打码平台,uu云打码...
  14. java处理代码表_Java处理中华人民共和国行政区划代码
  15. 【190112】VC++ 电话簿通讯录程序源代码
  16. 分享一个性价比极高的代理IP
  17. Tilera-Pro64 支持Broadcom HiGig标签
  18. DOTA中所有被动技能
  19. APP推广渠道下载量统计方案
  20. 【线性代数笔记】矩阵的特征值和特征向量在哪些变换过程中变化?

热门文章

  1. [FROM WOJ]#3744 JSOI2012 玄武密码
  2. Vmstat说明及简单使用
  3. CSS垂直居中的8种方法
  4. 黑马头条-day02
  5. 正则表达式中的常用模式字符串及两种匹配模式
  6. 千工宝:灵活用工平台能给企业解决哪些问题
  7. Progressive Tree-Based Compression of Large-Scale Particle Data | 学习笔记
  8. MarkDown简单语法入门
  9. [链接]通俗易懂Word 2003 视频教程(Flash教程)
  10. 共享杯:往年作品灵感集锦