医学图像处理之GDC数据库
1. 打开GDC数据库:
- 登陆TCGA数据库GDC界面:https://portal.gdc.cancer.gov/
TCGA GDC界面
首先确保Cart中没有之前的文件记录,如果有其他文件(即文件数不为0),清空Cart。
核对Cart已清空
如果Cart文件数不为0,则点击进入Cart界面进行清空。
清空Cart
2. 选择样本类型及性质:
- 点击Repository进入数据仓库,随后点击Cases样本类型及性质的选择:
点击Cases
首先确定样本部位,以前列腺癌样本举例:
选择样本部位
选择样本来源项目,如果只分析TCGA的样本,则只选择TCGA:
选择项目来源
我们之前的一些选择,会不断缩小样本范围,所以我们发现Project选项下只有一个TCGA-PRAD,我们可不用点击,不选择表示该选项下的内容都要。
Disease Type这里根据分析需要进行选择,这里我为了统一病理类型,进行了选择。
Gender无特殊需要可不进行选择。
Vital Status一般我们需要进行生存分析的话,就选择alive和dead的患者,not reported的患者表示生存资料不全,可以进行剔除。
Age at Diagnosis以及Days to Death根据自己课题需要进行设定,一般情况下默认不设定筛选条件。更加精细的筛选
Race和Ethnicity一般情况下不设定筛选条件,并且这里的nor reported的样本过于多,我们不进行筛选了,以免丢失过多样本数。
人种和族裔选择
3. 选择组学数据类型及格式:
- 点击Files选择数据类型及格式。
- Data Category这里用最常见的转录组数据举例,选择transcriptome profiling.
- Data Type选择Gene Expression Quantification,代表蛋白编码基因和长链非编码基因的测序数据。miRNA基因的测序数据不包含在其中,需要选择miRNA Expression Quantification而不是Gene Expression Quantification。
- Experimental Strategy只有一个选择,默认不选,Workflow Type根据自己需求,一般常用的是Counts数据或FPKM数据。
*一般选到这里就不再点击其他筛选条件了,而且一般其他选项也只剩一个选项了。 Access表明数据权限,我们普通用户只能使用open的数据,如果出现了非开放的数据,记得这里只点击open。
选择数据类型及格式
4. 下载选择好的数据:
将选择好的数据加入购物车,随后点击Cart进入购物车界面。
将选择好的数据加入购物车
- 在Cart界面分别点击Metadata(下载注释文件)以及Download(下载数据)。Download选项提供两种数据下载途径:Manifest表示下载Manifest文件后使用gdc-client软件下载数据(gdc-client下载数据方法),这种方法适合下载大文件;Cart表示通过浏览器直接下载,该方法更方便,但是不适合下载很大的文件。
数据的两种下载方式
至此TCGA数据下载已完成。
5、TCGA文件的命名规则
TCGA:Project名, 所有TCGA样本名均以这个开头。
02: issue source site,组织来源编码。更多标注:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
0001: Participant, 参与者编号。一个患者可能会对应多个样本,如TCGA-A6-6650可以得到3个样本数据:TCGA-A6-6650-01A-11R-1774-07,TCGA-A6-6650-01A-11R-A278-07,TCGA-A6-6650-01B-02R-A277-07
01: Sample,关键数字,其中编号01~09表示肿瘤,10~19表示正常对照
A: Vial, 在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; 很少数的是B
01: Portion, 同属于一个患者组织的不同部分的顺序编号
D: Analyte, 分析的分子类型
0182: Plate, 在一系列96孔板中的顺序,值大表示制板越晚
07: Center, 测序或鉴定中心编码
![](/assets/blank.gif)
6、通过 GDC Data Transfer Tool读取数据
①原始方法:
- 将下载下来的压缩包进行解压缩,得到gdc-client.exe。将MANIFEST.txt文件和gdc-client.exe放在一个文件夹下。
在该文件目录下打开cmd命令窗口。
输入gdc-client download -m MANIFEST.txt (注:-m 后加的是下载好的manifest文件,需要改成自己的文件名。还可以在后方加--latest,表示最新文件数据,下载临床数据的时候比较方便),按Enter键,开始下载。
gdc-client download -m MANIFEST.txt #or gdc-client download -m MANIFEST.txt --latest
下载页面
②下载数据+预处理数据:
MarvinLer/tcga_segmentation: Whole Slide Image segmentation with weakly supervised multiple instance learning on TCGA | MICCAI2020 https://arxiv.org/abs/2004.05024 (github.com)给出方法,可以对下载的数据进行预处理。
Downloading TCGA cohorts + WSI pre-processing
- Download the GDC Data Transfer Tool executable (not included here for license issues)
- Constitute any cohort on the TCGA GDC Data Portal, then download the associated manifest file, and place it in a
source_folder
- Launch the download and pre-processing pipeline with
python -m code.data_processing.main --gdc gdc_executable_path source_folder
This script first downloads all files in the manifest file, then tiles WSI, extracts tiles of a given magnification, removes background tiles, and finally seeks to extract per-slide binary labels from their name.
医学图像处理之GDC数据库相关推荐
- java毕业设计——基于java+图像处理技术的医学图像处理系统设计与实现(毕业论文+程序源码)——医学图像处理系统
基于java+图像处理技术的医学图像处理系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+图像处理技术的医学图像处理系统设计与实现,文章末尾附有本毕业设计的论文和源码下载地址哦 ...
- 基于c语言的图像边缘检测,基于C语言的医学图像处理的设计
内容介绍 原文档由会员 莎士比亚 发布 资源包括:正文DOC格式共41页 19611字 摘 要:B超图像作为医学图像的一个部分,具有医学数字图像的某些共性.B超图像处理技术作为医学数字图像处理技术的一 ...
- 人工智能的十大应用(无人驾驶丨人脸识别丨医学图像处理)
导读:人工智能已经逐渐走进我们的生活,并应用于各个领域,它不仅给许多行业带来了巨大的经济效益,也为我们的生活带来了许多改变和便利.下面,我们将分别介绍人工智能的一些主要应用场景.这篇文章,希望对你职业 ...
- 医学图像处理期末复习
文章目录 一.填空题 第一章 医学图像处理概论 第二章 医学图像处理基础 第三章 医学图像的运算 第五章 医学图像增强 第六章 医学图像分割 二.计算题 三.简答题 一.填空题 第一章 医学图像处理概 ...
- DICOM医学图像处理:Dcmtk与fo-dicom保存文件的不同设计模式之“同步VS异步”+“单线程VS多线程”...
2019独角兽企业重金招聘Python工程师标准>>> 一.背景: 最近一直在做DCM相关的编程工作,以前项目使用C++居多,所以使用DCMTK开源库,而目前团队使用C#居多,所以需 ...
- 【深度学习】医学图像处理之视杯视盘分割调研分析
[深度学习]医学图像处理之视杯视盘分割数据集和评价指标 文章目录 [深度学习]医学图像处理之视杯视盘分割数据集和评价指标 1 数据集(公开) 2.1 视盘标签 2.2 视杯视盘标签 2 评价指标 2. ...
- 基于matlab的脑瘤mr图像处理_基于Matlab GUI的医学图像处理课程虚拟实验平台设计...
论文写作指导:请加QQ229366758 摘 要:针对医学生工程技术缺乏的状况,分析医学生学习医学图像处理存在的困难,提出利用Matlab图像处理工具和简单的GUI界面,设计和构建包含医学图像处理教学 ...
- DICOM医学图像处理:DICOM存储操作之“多幅BMP图像数据存入DCM文件”
背景: 本专栏"DICOM医学图像处理"受众较窄,起初只想作为自己学习积累和工作经验的简单整理.前几天无聊浏览了一下,发现阅读量两极化严重,主要集中在"关于BMP(JPG ...
- 介绍几个医学图像处理会议
Information Processing in Medical Imaging , IPMI ,医学图像处理最顶级的会议,两年召开一次,全球大概入选 50 篇左右,一个非常小圈子的会,据说通常是关 ...
- 【转】DICOM医学图像处理:开源库mDCM与DCMTK的比較分析(一),JPEG无损压缩DCM图像
转自:https://www.cnblogs.com/mfrbuaa/p/4004114.html 有修订 背景介绍: 近期项目需求,需要使用C#进行最新的UI和相关DICOM3.0医学图像模块的开发 ...
最新文章
- 求行指针所指的字符串数组中长度最长的字符串所在的行下标
- bigdecimal 小于等于0_图解小于 K 的两数之和
- 递归Java_递归的Java实现
- 史上最详细JVM笔记
- 知海系统开发程序解析
- 数据库中单个表数据备份
- 电感式传感器的原理大白话
- 2020全国工业互联网安全技术技能大赛Web题WP
- 计算机教学中扩词扩句的应用,【教学设计】学习扩写 ——部编人教版九下第一单元写作...
- JQ实现一个放大镜效果
- 关于hive on spark的distribute by和group by使用以及小文件合并问题
- (附源码)springboot跨境电商系统 毕业设计 211003
- MODBUS RTU 协议读卡器
- java执行数据库数据迁移
- 一个微信小程序开发示例
- 【微信小程序】初识微信小程序组件
- Eclipse界面风格调整
- 归并算法经典应用——求解逆序数
- Redis之Vs Memcached
- ubuntu 安装完成后重启电脑报错: BUG soft lockup 的解决办法