1. 打开GDC数据库:

  • 登陆TCGA数据库GDC界面:https://portal.gdc.cancer.gov/

    TCGA GDC界面
  • 首先确保Cart中没有之前的文件记录,如果有其他文件(即文件数不为0),清空Cart。

    核对Cart已清空
  • 如果Cart文件数不为0,则点击进入Cart界面进行清空。

  • 清空Cart

2. 选择样本类型及性质:

  • 点击Repository进入数据仓库,随后点击Cases样本类型及性质的选择:

    点击Cases
  • 首先确定样本部位,以前列腺癌样本举例:

    选择样本部位
  • 选择样本来源项目,如果只分析TCGA的样本,则只选择TCGA:

    选择项目来源
  • 我们之前的一些选择,会不断缩小样本范围,所以我们发现Project选项下只有一个TCGA-PRAD,我们可不用点击,不选择表示该选项下的内容都要。
    Disease Type这里根据分析需要进行选择,这里我为了统一病理类型,进行了选择。
    Gender无特殊需要可不进行选择。
    Vital Status一般我们需要进行生存分析的话,就选择alive和dead的患者,not reported的患者表示生存资料不全,可以进行剔除。
    Age at Diagnosis以及Days to Death根据自己课题需要进行设定,一般情况下默认不设定筛选条件。

  • 更加精细的筛选
  • Race和Ethnicity一般情况下不设定筛选条件,并且这里的nor reported的样本过于多,我们不进行筛选了,以免丢失过多样本数。

  • 人种和族裔选择

3. 选择组学数据类型及格式:

  • 点击Files选择数据类型及格式。
  • Data Category这里用最常见的转录组数据举例,选择transcriptome profiling.
  • Data Type选择Gene Expression Quantification,代表蛋白编码基因和长链非编码基因的测序数据。miRNA基因的测序数据不包含在其中,需要选择miRNA Expression Quantification而不是Gene Expression Quantification。
  • Experimental Strategy只有一个选择,默认不选,Workflow Type根据自己需求,一般常用的是Counts数据或FPKM数据。
    *一般选到这里就不再点击其他筛选条件了,而且一般其他选项也只剩一个选项了。
  • Access表明数据权限,我们普通用户只能使用open的数据,如果出现了非开放的数据,记得这里只点击open。

    选择数据类型及格式

4. 下载选择好的数据:

  • 将选择好的数据加入购物车,随后点击Cart进入购物车界面。

    将选择好的数据加入购物车
  • 在Cart界面分别点击Metadata(下载注释文件)以及Download(下载数据)。Download选项提供两种数据下载途径:Manifest表示下载Manifest文件后使用gdc-client软件下载数据(gdc-client下载数据方法),这种方法适合下载大文件;Cart表示通过浏览器直接下载,该方法更方便,但是不适合下载很大的文件。
  • 数据的两种下载方式
  • 至此TCGA数据下载已完成。

5、TCGA文件的命名规则

TCGA:Project名, 所有TCGA样本名均以这个开头。

02:     issue source site,组织来源编码。更多标注:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

0001: Participant, 参与者编号。一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:TCGA-A6-6650-01A-11R-1774-07,TCGA-A6-6650-01A-11R-A278-07,TCGA-A6-6650-01B-02R-A277-07

01:     Sample,关键数字,其中编号01~09表示肿瘤,10~19表示正常对照

A:       Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B

01:      Portion, 同属于一个患者组织的不同部分的顺序编号

D:         Analyte, 分析的分子类型

0182:   Plate, 在一系列96孔板中的顺序,值大表示制板越晚

07:       Center, 测序或鉴定中心编码

GDC数据库样本的命名规则

6、通过 GDC Data Transfer Tool读取数据

①原始方法:

  • 将下载下来的压缩包进行解压缩,得到gdc-client.exe。将MANIFEST.txt文件和gdc-client.exe放在一个文件夹下。
  • 在该文件目录下打开cmd命令窗口。

  • 输入gdc-client download -m MANIFEST.txt (注:-m 后加的是下载好的manifest文件,需要改成自己的文件名。还可以在后方加--latest,表示最新文件数据,下载临床数据的时候比较方便),按Enter键,开始下载。

  • gdc-client download -m MANIFEST.txt
    #or
    gdc-client download -m MANIFEST.txt --latest

    下载页面

②下载数据+预处理数据:

MarvinLer/tcga_segmentation: Whole Slide Image segmentation with weakly supervised multiple instance learning on TCGA | MICCAI2020 https://arxiv.org/abs/2004.05024 (github.com)给出方法,可以对下载的数据进行预处理。

Downloading TCGA cohorts + WSI pre-processing

  1. Download the GDC Data Transfer Tool executable (not included here for license issues)
  2. Constitute any cohort on the TCGA GDC Data Portal, then download the associated manifest file, and place it in a source_folder
  3. Launch the download and pre-processing pipeline with
python -m code.data_processing.main --gdc gdc_executable_path source_folder

This script first downloads all files in the manifest file, then tiles WSI, extracts tiles of a given magnification, removes background tiles, and finally seeks to extract per-slide binary labels from their name.

医学图像处理之GDC数据库相关推荐

  1. java毕业设计——基于java+图像处理技术的医学图像处理系统设计与实现(毕业论文+程序源码)——医学图像处理系统

    基于java+图像处理技术的医学图像处理系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+图像处理技术的医学图像处理系统设计与实现,文章末尾附有本毕业设计的论文和源码下载地址哦 ...

  2. 基于c语言的图像边缘检测,基于C语言的医学图像处理的设计

    内容介绍 原文档由会员 莎士比亚 发布 资源包括:正文DOC格式共41页 19611字 摘 要:B超图像作为医学图像的一个部分,具有医学数字图像的某些共性.B超图像处理技术作为医学数字图像处理技术的一 ...

  3. 人工智能的十大应用(无人驾驶丨人脸识别丨医学图像处理)

    导读:人工智能已经逐渐走进我们的生活,并应用于各个领域,它不仅给许多行业带来了巨大的经济效益,也为我们的生活带来了许多改变和便利.下面,我们将分别介绍人工智能的一些主要应用场景.这篇文章,希望对你职业 ...

  4. 医学图像处理期末复习

    文章目录 一.填空题 第一章 医学图像处理概论 第二章 医学图像处理基础 第三章 医学图像的运算 第五章 医学图像增强 第六章 医学图像分割 二.计算题 三.简答题 一.填空题 第一章 医学图像处理概 ...

  5. DICOM医学图像处理:Dcmtk与fo-dicom保存文件的不同设计模式之“同步VS异步”+“单线程VS多线程”...

    2019独角兽企业重金招聘Python工程师标准>>> 一.背景: 最近一直在做DCM相关的编程工作,以前项目使用C++居多,所以使用DCMTK开源库,而目前团队使用C#居多,所以需 ...

  6. 【深度学习】医学图像处理之视杯视盘分割调研分析

    [深度学习]医学图像处理之视杯视盘分割数据集和评价指标 文章目录 [深度学习]医学图像处理之视杯视盘分割数据集和评价指标 1 数据集(公开) 2.1 视盘标签 2.2 视杯视盘标签 2 评价指标 2. ...

  7. 基于matlab的脑瘤mr图像处理_基于Matlab GUI的医学图像处理课程虚拟实验平台设计...

    论文写作指导:请加QQ229366758 摘 要:针对医学生工程技术缺乏的状况,分析医学生学习医学图像处理存在的困难,提出利用Matlab图像处理工具和简单的GUI界面,设计和构建包含医学图像处理教学 ...

  8. DICOM医学图像处理:DICOM存储操作之“多幅BMP图像数据存入DCM文件”

    背景: 本专栏"DICOM医学图像处理"受众较窄,起初只想作为自己学习积累和工作经验的简单整理.前几天无聊浏览了一下,发现阅读量两极化严重,主要集中在"关于BMP(JPG ...

  9. 介绍几个医学图像处理会议

    Information Processing in Medical Imaging , IPMI ,医学图像处理最顶级的会议,两年召开一次,全球大概入选 50 篇左右,一个非常小圈子的会,据说通常是关 ...

  10. 【转】DICOM医学图像处理:开源库mDCM与DCMTK的比較分析(一),JPEG无损压缩DCM图像

    转自:https://www.cnblogs.com/mfrbuaa/p/4004114.html 有修订 背景介绍: 近期项目需求,需要使用C#进行最新的UI和相关DICOM3.0医学图像模块的开发 ...

最新文章

  1. 求行指针所指的字符串数组中长度最长的字符串所在的行下标
  2. bigdecimal 小于等于0_图解小于 K 的两数之和
  3. 递归Java_递归的Java实现
  4. 史上最详细JVM笔记
  5. 知海系统开发程序解析
  6. 数据库中单个表数据备份
  7. 电感式传感器的原理大白话
  8. 2020全国工业互联网安全技术技能大赛Web题WP
  9. 计算机教学中扩词扩句的应用,【教学设计】学习扩写 ——部编人教版九下第一单元写作...
  10. JQ实现一个放大镜效果
  11. 关于hive on spark的distribute by和group by使用以及小文件合并问题
  12. (附源码)springboot跨境电商系统 毕业设计 211003
  13. MODBUS RTU 协议读卡器
  14. java执行数据库数据迁移
  15. 一个微信小程序开发示例
  16. 【微信小程序】初识微信小程序组件
  17. Eclipse界面风格调整
  18. 归并算法经典应用——求解逆序数
  19. Redis之Vs Memcached
  20. ubuntu 安装完成后重启电脑报错: BUG soft lockup 的解决办法

热门文章

  1. Android开发者需要了解的芯片知识
  2. 沙箱支付:系统有点儿忙,一会儿再试一试;出错原因分析
  3. 2017下半年掘金日报优质文章合集:Android篇
  4. warning LNK4099: 未找到 PDB
  5. ET钱包12月24日早报 | Bancor将一步实现ETH和EOS代币转换
  6. STM32 驱动SPI接口的W25Qxx系列的串行Flash
  7. OSChina 周三乱弹 —— 夜半回家,推门不动
  8. 在 uni-app 中使用 Cesium.js
  9. c++输出加上前导零的方法
  10. DCIC-早高峰共享单车潮汐点的群智优化(1)