aspera下载sra文件linux,使用aspera下载.fastq.gz和.sra数据
aspera
SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的。
ENA数据库:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),功能同SRA,并且对数据做了注释,界面更友好,当然对于我们来说,最诱人的当属可直接下载fastq (.gz)文件这一项了。
sra文件下载方式
多数情况下,我们下载sra文件是为了获取相应的fastq或者sam文件,这样可以和自己的pipeline对接上,直接分析,所以
找地方:用手头上的SRR (SRA Run)序列号去ENA搜索,如果有,就在这儿下;如果没有,就去SRA数据库下载
选方法:
其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令。
最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar Handbook中的wonderdump脚本。
注意:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!
Aspera Connect命令行工具ascp的安装
首先,进入Aspera Connect的下载页面,选择linux版本,复制下载地址
wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
tar zxvf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
# 安装
bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
# 查看是否有.aspera文件夹
cd # 去根目录
ls -a # 如果看到.aspera文件夹,代表安装成功
# 永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 查看帮助文档
ascp --help
至此,安装完成。
下面介绍如何利用ascp在SRA和ENA中下载数据
ascp的用法:ascp [参数] 目标文件 目标地址,在线文档
先了解几个ascp命令的常用参数
-v verbose mode 唠叨模式,能让你实时知道程序在干啥,方便查错。有些作者的程序缺乏人性化,运行之后,只见光标闪,压根不知道运行到哪了
-T 取消加密,否则有时候数据下载不了
-i 提供私钥文件的地址,我也不知道干嘛的,反正不能少,地址一般是~/.aspera/connect/etc中的asperaweb_id_dsa.openssh文件
-l 设置最大传输速度,一般200m到500m,如果不设置,反而速度会比较低,可能有个较低的默认值
-k 断点续传,一般设置为值1
-Q 不懂,一般加上它
-P 提供SSH port,一般是33001
ascp使用举例
SRA数据库下载:首先记住,数据的存放地址是ftp.ncbi.nlm.nih.gov,SRA在Aspera的用户名是anonftp,下载举例:
如果我想下载SRR949627.sra文件,首先我需要找到地址,去ncbi faspftp,一层层寻找,直至找到,然后复制链接地址,就可以开始下载了:
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l 200m anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra ~/data/
注意:anonftp@ftp-private.ncbi.nlm.nih.gov后面是:号,不是路径/!
一般来说,NCBI的sra文件前面的地址都是一样的/sra/sra-instant/reads/ByRun/sra/SRR/...,那么写脚本批量下载也就不难了!
ENA数据库下载:这里和上面有点不同,数据的存放地址是fasp.sra.ebi.ac.uk,ENA在Aspera的用户名是era-fasp,下载举例:
比如,要下载PRJEB21270下的几个数据文件,方便的是ENA中可以直接下载fastq.gz文件,不用再从sra文件转换了,那么地址呢,可以去ENA搜索,再复制下fastq.gz文件的地址,或者可以去ENA的ftp地址ftp.sra.ebi.ac.uk搜索,注意,是ftp,不是fasp!复制链接地址,就可以下载了:
ascp -QT -l 300m -P 33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/run/ERR217/ERR2173371/pb.bam ~/data/
注意:era-fasp@fasp.sra.ebi.ac.uk后面是:号,不是路径/!
一般来说,EBI的sra文件前面的地址也都是一样的vol1/run/...,那么写脚本批量下载也就不难了!
参考
aspera下载sra文件linux,使用aspera下载.fastq.gz和.sra数据相关推荐
- AsyncTask下载网络文件,并显示下载进度
一些说明 ProgressBar.setProgress(): 刷新UI操作必须运行在UI线程中,但是setProgress()方法里面已经做了同步操作,所以可以在非UI线程中调用 webView.l ...
- aspera下载sra文件linux,Aspera Connect,高速下载sra数据
一.下载安装Aspera Connect Linux系统下的Aspera Connect安装(Windows下的Aspera Connect安装参考). 查看最新版本的Aspera - High-sp ...
- 批量下载sra文件linux,Linux下从NCBI批量下载SRA数据的sra和aspera方法
Minus_yao 2018.04.25 yaoguocai_cool@163.com #从NCBI下载SRA数据,最近在疯狂下载宏基因组数据,试着解决一下这个问题~ 方法一: 软件准备: 使用n ...
- 批量下载sra文件linux,NCBI下载SRA数据的4种方法
作为生命科学的从事者,不论是老师或者学生都应该用过NCBI((National Center for Biotechnology Information Search database,一个综合性的生 ...
- linux中如何用ftp命令下载文件,linux中ftp下载文件命令的用法
linxu下的ftp命令是用来下载文件或者上传文件的,下面由学习啦小编为大家整理了linux的ftp下载文件命令的用法的相关知识,希望对大家有帮助! 一.linux中的ftp下载文件命令的用法 从远程 ...
- 服务器如何下载百度网盘文件?Linux服务器如何在百度网盘中连接、上传下载;在Linux服务器上下载百度云盘中的资料
前言 百度云提供Python包bypy进行远程服务器的对接然后下载: https://github.com/houtianze/bypy 可以通过pip直接下载,授权本人的百度云账号后,就可以直接使L ...
- a9 linux 程序下载,WPS for Linux A9 发布下载 新增八大功能
WPS for Linux A9 发布下载 新增八大功能 2013-03-25 09:21:22 来源:官方论坛 扫码可以: 1.在手机上浏览 2.分享给微信好友或朋友圈 摘要: WPS for L ...
- springboot文件上传下载实战 ——文件上传、下载、在线打开、删除
springboot文件上传下载实战 文件上传 文件上传核心 UserFileController 文件上传测试 文件下载与在线打开 文件下载.在线打开核心 UserFileController 文件 ...
- android下载文件地址,安卓迅雷下载的文件在哪里迅雷下载文件存放位置-独木成林...
其实一般播放器都会有显示下载文件的默认路径的.按照路径提供的位置在手机文件管理器就很容易能找到,像手机迅雷的默认保存路径是在手机存储卡的 "ThunderDownload"文件夹下 ...
最新文章
- 《LeetCode力扣练习》第96题 不同的二叉搜索树 Java
- 机器学习系列之EM算法
- 20145324 20145325 《信息安全系统设计基础》实验三
- 用vim 配置javascript
- Lync Server 2013:边缘服务器 -- Set CA Error
- Docker 启动 nacos
- hibernate课程 初探单表映射3-1 hibernate单表操作简介
- React Native工程中TSLint静态检查工具的探索之路
- 协方差矩阵的详细说明
- Unity3D基础12:碰撞体
- 《Linux命令行与shell脚本编程大全 第3版》
- Julia : Set or Array ?
- uu云验证码识别平台,验证码,验证码识别,全自动验证码识别技术,优优云全自动打码,代答题系统,优优云远程打码平台,uu云打码...
- java处理代码表_Java处理中华人民共和国行政区划代码
- 【190112】VC++ 电话簿通讯录程序源代码
- 分享一个性价比极高的代理IP
- Tilera-Pro64 支持Broadcom HiGig标签
- DOTA中所有被动技能
- APP推广渠道下载量统计方案
- 【线性代数笔记】矩阵的特征值和特征向量在哪些变换过程中变化?