cBioPortal对癌症基因组数据集做了比较好的整合,为了进行数据集的下载、分析和可视化。

可以用网页工具或者它们提供的R包"cgdsr"对几个目标基因进行分析,或者下载他们从Broad Institute Firehose下载整理的数据集。

cBioPortal的数据集下载页面如下,可以直接点击下载按钮下载单个数据集, 如果要批量下载,就需要一点网络爬虫的小知识。

网页内容

使用Chrome浏览器的检查功能,寻找实际的下载地址

image.png

不难发现,下载链接是http://download.cbioportal.org/paac_jhu_2014.tar.gz

下载地址

一开始的想法是,用curl http://www.cbioportal.org/datasets下载网页,然后用grep找到所有的下载链接,但是通过检查原代码,我发现这个页面其实是动态加载,不能通过常规的爬虫手段。

根据我的爬虫经验,下一步就是找JSON包,一般这种延迟加载的网页都会接着向服务器发起申请,获取需要的数据,果不其然,被我找到了json包。

JSON
wget http://www.cbioportal.org/proxy/download.cbioportal.org/study_list.json

检查该文件,推测里面每一行都是之前下载链接中压缩包文件名前缀

json内信息

构建一个下载shell脚本

for study in $(sed  -e 's/"//g'  -e 's/\[//' -e 's/\]//'  -e 's/,//' study_list.json)
dowget "http://download.cbioportal.org/${study}.tar.gz"
done

发现能够顺利下载,证明了猜测,就是下载速度非常的感人。

如何从cBioPortal批量下载TCGA数据相关推荐

  1. linux下载TCGA数据,使用gdc-client批量下载TCGA数据

    欢迎关注"生信修炼手册"! GDC的在线下载功能只适用于下载小的数据集,当需要下载数据量较大的TCGA数据时,必须借助于GDC官方提供的客户端工具gdc-client.网址如下 h ...

  2. 在 RedHat 使用 gdc-client 下载 TCGA 数据

    今天,只聊一下 RedHat/CentOS 下 gdc-client 安装的那些事. gdc-client,官网地址:https://gdc.cancer.gov/access-data/gdc-da ...

  3. linux下TCGA数据下载,TCGA数据下载方式小结

    之前对TCGA做了简单的了解,粗略了解了什么是TCGA,TCGA是做什么的等,接下来肯定是要学会如何下载TCGA数据,毕竟只有下载了数据才能继续学习 官网常规下载 TCGA自2016年改版后,下载方式 ...

  4. R语言---使用cgdsr包下载TCGA数据---笔记整理

    原文链接:https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247486492&idx=1&sn=3a7251244 ...

  5. 关于批量下载MODIS数据的坑

    关于批量下载MODIS数据的坑与正确姿势 1. 第一个坑 1.1 Ladsweb的坑 由于之前做项目的时候去Ladsweb官网下载数据的时候还好好的,于是经过被批评改正之后回来就信心满满地去Ladsw ...

  6. python脚本--批量下载GNSS数据

    文章目录 1. 前言 2. 思路 3. Talk is cheap 4. 总结 1. 前言 应某一瓜皮要求,为其写一个用于批量下载GNSS数据的脚本.恰好前几天研究过如何在教务系统中自动签到,便有了这 ...

  7. python之批量下载网页数据

    python之批量下载网页数据 要下载如下网页所示数据,一个一个点下载繁琐,我们用python代码来批量下载. python代码: import urllib.request # url reques ...

  8. 批量下载ERA5数据(Python+IDM)

    本文介绍了如何通过Python脚本和Internet Download Manager(IDM)软件批量下载ERA5数据. 1. ERA5数据简介 ERA5是第五代ECMWF大气再分析全球气候数据,该 ...

  9. 使用python批量下载天猫数据并进行合并(非爬虫)

    使用python批量下载天猫数据并进行合并(非爬虫) 做电商运营少不了数据分析支持,无论是选品.选关键词.研究竞品还是开直通车.店铺引流都需要有数据支持.不过生意参谋虽然强大,但现在都只能显示&quo ...

最新文章

  1. SAP生产订单预留相关的备忘录
  2. 浅谈数据结构-平衡二叉树
  3. spring cloud各组件详解
  4. 【.NET Core项目实战-统一认证平台】第三章 网关篇-数据库存储配置(1)
  5. vue3.0实现原理
  6. SIGIR2020 | 一种新颖的推荐系统重训练技巧
  7. 简单记录一次ORA-00600 kcratr_nab_less_than_odr
  8. python中布尔值是什么意思_python中的布尔值是什么
  9. 程序员的自我修养—链接、装载与库pdf
  10. 电脑怎么开护眼模式_绿色电脑桌面、手机护眼模式真的可以护眼?
  11. 股票分析软件 php,哪个股票分析软件最好用?
  12. 2019年通信工程考研初试经验帖(366分)
  13. 常识之外:全表扫描为何产生大量 db file sequential read 单块读?
  14. 呼吸灯效果html,css之呼吸灯效果
  15. 测试用例之QA有话说
  16. python学习之类
  17. 使用Python开发一个恐龙跳跳小游戏,玩起来
  18. 最简单的方式实现竖排文字显示
  19. 通达信缠论顶底分型选股公式(一笔优化版)
  20. 音乐推荐与Audioscrobbler数据集

热门文章

  1. C语言函数调用时候内存中栈的动态变化详细分析
  2. fastadmin 关联查询
  3. ffmpeg新旧接口对比--记录
  4. centos下tomcat通过keytool配置ssl服务器端证书及客户端证书
  5. python在线编程平台-少儿编程最实用!国内外可视化在线Python编程平台推荐!
  6. greenplum gp 常用命令
  7. 技术演讲培训干货分享:三大要点,14个tips
  8. Serial Box for Mac(软件序列号查询软件)
  9. flink实战--flinkSQL入门大全
  10. ZZNUOJ_用C语言编写程序实现1169:单数变复数(指针专题)(附完整源码)