Annovar软件注释肿瘤基因突变(一):COSMIC数据库最新版下载与使用
COSMIC,即:Catalogue Of Somatic Mutations In Cancer。官网:
https://cancer.sanger.ac.uk/cosmic
注意事项:
Cosmic 数据库从 v71 版本开始,学术研究免费(需要学校或研究机构的邮箱注册),而商业使用需要授权
目前数据库有基于 CRCh37 和 CRCh38 两种版本,根据需要选择合适的,步骤:进入主页 > 找到 Genome Version 菜单,选择:CRCh37 或 CRCh38
在主页的Help栏目下,点击Downloads
进入下载页面,往下拉,找到需要下载的文件。有两种下载方式:一种是浏览器下载,另一种是命令行下载,这里介绍第二种。
生成认证字符串
通过命令行下载之前,需要先生成一个授权码,其实就是将注册邮箱和密码用base64
命令进行编码。命令如下:
echo "email@example.com:mycosmicpassword" | base64
运行该命令后得到这样一个字符串:ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=,就是后续要用到的授权码,该编码与邮箱和密码一一对应,如果邮箱或密码改变了,该编码需要重新生成。
注意:此文中出现的授权码是模拟的,不能直接使用,要到 Cosmic 网站注册账号获得授权。
下载 COSMIC 记录数据库
有了授权码之后,下载文件总是分两步:
获得真实的下载地址
根据真实地址下载文件
运行以下curl
命令,会返回一个json
文件,该文件包含了要下载的文件的真实地址,再通过curl
命令下载,得到的CosmicMutantExport.tsv.gz
即是需要的 Cosmic 记录数据库。
# 获得下载链接
curl -H "Authorization: Basic ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=" https://cancer.sanger.ac.uk/cosmic/file_download/GRCh37/cosmic/v95/CosmicMutantExport.tsv.gz
# {"url":"https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/CosmicMutantExport.tsv.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649402469&Signature=Nc%2FfbbfebR1fxnivfliUzphu%2FKM%3D"}# 下载数据文件
curl "https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/CosmicMutantExport.tsv.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649402469&Signature=Nc%2FfbbfebR1fxnivfliUzphu%2FKM%3D" -o CosmicMutantExport.tsv.gz
下载编码区突变文件
# 获得下载链接
curl -H "Authorization: Basic ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=" https://cancer.sanger.ac.uk/cosmic/file_download/GRCh37/cosmic/v95/VCF/CosmicCodingMuts.normal.vcf.gz
# {"url":"https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicCodingMuts.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649407741&Signature=kxSjw4IXSq%2FpNdvd49wa7FAfVF8%3D"}# 下载数据文件
curl "https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicCodingMuts.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649407741&Signature=kxSjw4IXSq%2FpNdvd49wa7FAfVF8%3D" -o CosmicCodingMuts.normal.vcf.gz
下载非编码区突变文件
# 获得下载链接
curl -H "Authorization: Basic ZW1haWxAZXhhbXBsZS5jb206bXljb3NtaWNwYXNzd29yZAo=" https://cancer.sanger.ac.uk/cosmic/file_download/GRCh37/cosmic/v95/VCF/CosmicNonCodingVariants.normal.vcf.gz
# {"url":"https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicNonCodingVariants.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649409695&Signature=5Sr%2BEfCDmE2771frmvsIdn%2BTBAk%3D"}# 下载数据文件
curl "https://cog.sanger.ac.uk/cosmic/GRCh37/cosmic/v95/VCF/CosmicNonCodingVariants.normal.vcf.gz?AWSAccessKeyId=KRV7P7QR9DL41J9EWGA2&Expires=1649409695&Signature=5Sr%2BEfCDmE2771frmvsIdn%2BTBAk%3D" -o CosmicNonCodingVariants.normal.vcf.gz
制作 Annovar 使用的数据库
以上操作,获得 3 个压缩文件:
CosmicMutantExport.tsv.gz
CosmicCodingMuts.normal.vcf.gz
CosmicNonCodingVariants.normal.vcf.gz
至于为什么要下载这 3 个文件,请看 Annovar 官方网站的介绍:
https://annovar.openbioinformatics.org/en/latest/user-guide/filter/#cosmic-annotations
先解压:
gunzip -c CosmicMutantExport.tsv.gz > CosmicMutantExport.tsv
gunzip -c CosmicCodingMuts.normal.vcf.gz > CosmicCodingMuts.normal.vcf
gunzip -c CosmicNonCodingVariants.normal.vcf.gz > CosmicNonCodingVariants.normal.vcf
下载制作 Annovar 数据库的脚本:
wget http://www.openbioinformatics.org/annovar/download/prepare_annovar_user.pl
制作数据库:
# 制作编码区Cosmic数据库
perl prepare_annovar_user.pl --dbtype cosmic CosmicMutantExport.tsv -vcf CosmicCodingMuts.normal.vcf > hg19_cosmic95_coding.txt# 排序,因为上述命令得到的数据库是无序的,按染色编号进行排序
sort -k1,1V -k2,2n -k3,3n hg19_cosmic95_coding.txt > hg19_cosmic95_coding_sort.txt# 用排序后的数据库替换未排序的,hg19_cosmic95_coding.txt即为最终的编码区的Cosmic数据库,可供Annovar程序使用
mv hg19_cosmic95_coding_sort.txt hg19_cosmic95_coding.txt# 制作非编码区的Cosmic数据库,跟编码区的一样
perl prepare_annovar_user.pl --dbtype cosmic CosmicMutantExport.tsv -vcf CosmicNonCodingVariants.normal.vcf > hg19_cosmic95_noncoding.txt
sort -k1,1V -k2,2n -k3,3n hg19_cosmic95_noncoding.txt > hg19_cosmic95_noncoding_sort.txt
mv hg19_cosmic95_noncoding_sort.txt hg19_cosmic95_noncoding.txt
制作数据库索引
通常,Annovar 的数据库如果比较大,需要先建立索引文件后再使用,但是对于 cosmic 数据库,官网有一句:
Users cannot index the file, but the file size is not too large, and you do not need to use indexing to use ANNOVAR.
就是,库不算大,不建索引也挻快,那就干脆省略这一步。
COSMIC 数据库的使用
运行以下命令测试:
perl $Bin/anno/annovar/table_annovar.pl XXXXXX.somatic.snvindel.pass.vcf $Bin/anno/annovar/humandb -buildver hg19 -outfile XXXXXX.somatic.snvindel.pass.annovar -protocol refGeneWithVer,exac03,clinvar_20220320,cosmic95_coding,dbnsfp42a -operation g,f,f,f,f -argument '--hgvs --exonicsplicing',,,, --gff3dbfile hg19_rmsk.gff -remove -nastring . -vcfinput
至此,即完成了 Cosmic 数据库的注释,可知:某体细胞突变,在此前文献中是否出现过,出现在什么癌种,出现了几次。结果如下:
ID=COSV58736910;OCCURENCE=2(thyroid)
ID=COSV100633201;OCCURENCE=1(skin)
ID=COSV58736947;OCCURENCE=1(large_intestine)
ID=COSV100633198;OCCURENCE=1(stomach)
ID=COSV58736924;OCCURENCE=1(thyroid)
ID=COSV58737059;OCCURENCE=2(skin)
The End。
Annovar软件注释肿瘤基因突变(一):COSMIC数据库最新版下载与使用相关推荐
- Annovar 软件注释流程
第一步:下载Annovar 上Annovar官网下载(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),现在要 ...
- PolyPhen-2软件预测基因突变是否有害
PolyPhen-2(Polymorphism Phenotyping v2)是一款预测基因突变是否有害的软件,其命名也体现了基因多态性对表型的影响. 官方网站: http://genetics.bw ...
- 使用ICGC数据库进行肿瘤组织突变分析,绘制瀑布图等
癌症组织突变分析 文章目录 癌症组织突变分析 ICGC 数据库 下载数据 ICGC下载突变数据 genecode网站下载基因注释文件 数据预处理 读入突变数据 对data文件进行基因注释 瀑布图 R包 ...
- Annovar 信息注释
ANNOVAR 注释软件 ANNOVAR简介 ANNOVAR结构 ANNOVAR下载数据库 ANNOVAR输入格式 ANNOVAR格式转换 ANNOVAR注释功能 用table_annovar.pl进 ...
- R语言生成基因突变图教程
R语言制作基因突变图教程 #软件环境搭建.请参考网址: https://blog.csdn.net/xhmico/article/details/122443660 # 安装依赖 if(!requir ...
- 基因组注释3.基因的功能注释Prokka
基因组注释的前两篇为大家讲解了关于基因组组成成分分析(包括重复序列的识别.非编码基因和编码基因预测等)的内容,今天,将重点介绍如何进行基因的功能注释. 基因的功能注释 获得基因结构信息后,我们希望能够 ...
- 双基因突变患者_双任务干预对携带LRRK2基因突变的帕金森病患者手灵活性的影响...
双任务干预对携带LRRK2基因突变的帕金森病患者手灵活性的影响 目的:观察执行单.双任务时LRRK2(+)帕金森病(PD)患者手灵活性变化及双任务干预情况.方法:受试者总数为122例,PD患者46例纳 ...
- Nature:将基因测序带到前所未有的精度,人类首次具有在任何组织中研究基因突变的能力
撰文 | 王聪 编辑 | nagashi 排版 | 水成文 我们人体内的组织由分裂细胞和非分裂细胞组成.干细胞在我们的一生中都会不停自我更新,并负责提供非分裂细胞以保持正常身体运转.我们体内的绝大多数 ...
- TCGA肿瘤基因数据的访问(二)
TCGA(The Cancer Genome Atlas)项目完成后,最终和其它的一些肿瘤医学项目一起归档在 GDC Portal网站,方便人们访问. 网址是 https://portal.gdc. ...
- 基因突变PHP6,基因突变中那些“披着狼皮的羊” 很多“致命性”基因突变正在被证实无害...
在若干年前,很少有人会提出这样一个问题.不过,近年来,医学遗传学经历了一些"自我反省".自本世纪开始以来,基因组研究的快速发展使相关文献充满了上千个同疾病和残疾相关的基因突变.虽然 ...
最新文章
- 使virtualenv从您的全局站点包继承特定的包
- FUSE——用户空间文件系统
- react的安装使用
- InstallShield9中开始菜单的设置
- 求补码表示为10000000的真值
- 009_Vue循环结构
- Android system server之WindowManagerService按键消息传播流程
- shell练习03 安装mysql
- FFmpeg音视频入门-使用FFmpeg读取多媒体文件的信息C++代码实现+详解
- MapReduce-流量统计求和-Reducer和JobMain代码编写
- 【线上分享】机器视觉编码标准与技术进展
- Excel快速改变行列的次序
- 命令行编译java项目_命令行编译运行java工程(转)
- 请问客户端PC应该如何限制其自动获取IP地址?
- 嵌入不同源的页面_嵌入式技术课程教与学(教学大纲和试卷)
- 《Unix编程艺术》读书笔记(1)
- C++数据库编程简介
- 计算机设置新用户名和密码怎么设置路由器,怎么修改无线路由器密码和用户名【图】...
- 云原生中间件RocketMQ-消费者消费模式之广播模式、偏移量offset解析
- 后退一步 小程序_微信小程序:如何利用navigateBack退出小程序