Ensembl突变数据描述之(一)——突变物种数据库及预测工具
以下是对Ensembl突变数据库中储存的数据的描述,对于Ensembl数据库中不同的物种,我们从各种来源(例如,dbSNP数据库)导入突变数据(SNP、CNV、等位基因频率、基因型等),导入的突变数据和等位基因经过质量控制过程来标记可疑数据。
我们将突变分成几个不同的类,并计算突变的预测结果,并且我们还创建了突变集以帮助人们从特定数据集中检索特定突变体组。
我们计算了人类每个突变在种群中的连锁不平衡。
突变数据类型
Ensembl突变数据库储存了从外部导入的数据以及就算得来的数据。
外部导入的数据(dbSNP、Sanger、DGVa、…):
碱基突变(SNP、插入、缺失、…)
结构突变(拷贝数变异、串联重复、反转、…)
检测拷贝数的变化
碱基突变和结构突变的位置
等位基因
人群
基因型
表型(例如,人类中的青光眼。)
引文(摘自dbSNP数据库提交的信息,由EPMC和UCSC执行的文本挖掘)
计算数据(预测数据页面)
储存突变数据的物种
Ensembl仅储存了以下23个物种的突变数据,但是用户依然可以在没有突变数据库的物种上使用Variant Effect Predictor VEP。
Short variant | Long variant | Genotype | Association | Prediction | ||||||
---|---|---|---|---|---|---|---|---|---|---|
Species | Sequence variant | (e!91 → e!92) | Source(s) | Structural variant | Sample | Population | Phenotype | Citation | SIFT | PolyPhen |
![]()
Cat
Felis catus
|
3.6 million+ | - | 1 source | - | - | - |
![]() |
- | - | - |
![]()
Chicken
Gallus gallus
|
24 million+ | - | 1 source | - |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
Chimpanzee
Pan troglodytes
|
1.6 million+ | - | 1 source | - |
![]() |
![]() |
- | - | - | - |
![]()
Cow
Bos taurus
|
104 million+ | - | 1 source |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
Dog
Canis familiaris
|
5.9 million+ | (+148) | 1 source |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
Fruitfly
Drosophila melanogaster
|
6.7 million+ | - | 1 source | - |
![]() |
![]() |
- | - | - | - |
![]()
Gibbon
Nomascus leucogenys
|
1.1 million+ | - | 1 source | - |
![]() |
- | - | - | - | - |
![]()
Goat
Capra hircus
|
37 million+ | 1 source | - | - | - |
![]() |
![]() |
![]() |
- | |
![]()
Horse
Equus caballus
|
21 million+ | (+16 million) | 1 source |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
Human
Homo sapiens
|
329 million+ | (+350,000) | 6 sources |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]()
Macaque
Macaca mulatta
|
53 million+ | - | 1 source |
![]() |
![]() |
![]() |
![]() |
- | - | - |
![]()
Mouse
Mus musculus
|
84 million+ | - | 1 source |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
Opossum
Monodelphis domestica
|
1.1 million+ | - | 1 source | - | - | - | - | - | - | - |
![]()
Orangutan
Pongo abelii
|
10 million+ | - | 1 source | - |
![]() |
- | - | - | - | - |
![]()
Pig
Sus scrofa
|
67 million+ | - | 3 sources |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
Platypus
Ornithorhynchus anatinus
|
1.3 million+ | - | 1 source | - |
![]() |
![]() |
- | - | - | - |
![]()
Rat
Rattus norvegicus
|
5 million+ | - | 1 source | - |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
S. cerevisiae
Saccharomyces cerevisiae
|
263,000+ | - | 1 source | - |
![]() |
![]() |
- | - | - | - |
![]()
Sheep
Ovis aries
|
61 million+ | - | 1 source |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
![]()
Tetraodon
Tetraodon nigroviridis
|
902,000+ | - | 1 source | - | - | - | - | - | - | - |
![]()
Turkey
Meleagris gallopavo
|
9,000+ | - | 1 source | - | - |
![]() |
![]() |
- | - | - |
![]()
Zebra Finch
Taeniopygia guttata
|
1.7 million+ | - | 1 source | - |
![]() |
![]() |
- | - | - | - |
![]()
Zebrafish
Danio rerio
|
17 million+ | - | 1 source |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
- |
列表中对应的Ensembl版本组装序列可以在这里找到。
大多数的突变信息是从NCBI dbSNP数据库中导入的,来自HapMap Project和1000 Genomes Project等项目的数据是在提交给dbSNP数据库后即被导入。
Ensembl还包含其它来源的数据,可在浏览器配置查看这些来源的数据(例如,人)。
# 突变信息展示
基因:突变表和突变图像。例如,KCNE2基因的所有突变
转录本:群体比较,比较突变图像(用于比较不同个体或菌株序列中转录本的突变)。例如,比较不同小鼠品系中的Tmco4
转录本:序列,蛋白质:蛋白质坐标中编码变体的列表。
物理位置:详细信息区域(可以使用左侧的“配置此页面”来绘制变体)菜单允许在Ensembl数据库中显示信息以及DAS格式的外部源,例如,DGV位点。)
表型:显示与某种表型相关的变体的核型视图,例如,青光眼
# 参考资料
Ensembl
转载于:https://www.cnblogs.com/yahengwang/p/9332595.html
Ensembl突变数据描述之(一)——突变物种数据库及预测工具相关推荐
- maftools|TCGA肿瘤突变数据的汇总,分析和可视化
之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫"瀑布图",以及一些细节的 ...
- 不是maf格式的somatic突变数据就没办法读入到maftools了么
因为使用的是百度李彦宏的文章数据,大家会比较倾向于处理tcga的肿瘤突变数据,虽然仅仅是输入数据的不一样,后续分析都是靠 maftools 这个包,maftools 全能无需我再吹嘘,必须花十几个小时 ...
- 处理tcga突变数据一点思考
TCGA突变数据 写在前面 泛癌mc3作图 学到的额外知识点 使用TCGAbiolinks下载数据 TCGA关于maf的注释 代码文件夹命名最好还是以英文命名,中文命名经常会出现错误 GTF文件有的以 ...
- 多维数组的行优先和列优先, 数据描述语言
多维数组的行优先和列优先 这里以numpy为工具,介绍一下多维数组的行优先和列优先的概念. 首先我们生成一个3x4的数组: arr = np.arange(12).reshape(3,4) 它的形状是 ...
- 云计算论文集, Spark, 数据描述语言, 运维工具集
https://antkillerfarm.github.io/ 云计算论文集 这里列出一些在这个领域产生重大影响的论文.仅作备忘,肯定不全,Google是其中的绝对主力. CAP <Towar ...
- python 新闻标题分类_NLPCC2017(中文)新闻标题分类示例代码以及数据描述
NLPCC 2017 新闻标题分类 代码运行环境 python2.7 (最好用anaconda2) tensorflow1.0.0 gpu版本或者cpu版本 建议操作系统:Linux Linux 上的 ...
- 什么是数据描述统计分析指标?
数据描述统计分析 无序数据 均值 均值(mean)和平均值(average)的区别 中位数(中值) 众数 极差 方差(离均差平方) 标准差(标准偏差.实验标准差.均方差) 协方差 标准分 四分位数 实 ...
- 怎么用linux获得数据的标题,开源|NLPCC2017(中文)新闻标题分类示例代码以及数据描述...
https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow- 1.0.0-cp27-none-linux_x86_64.whlhttp ...
- 数据名称:中国家庭追踪调查(CFPS)数据区县码数据描述:162个区县代码,适用于10-20年份,可匹配约85-90%的样本。可依次匹配coutyid-区县行政码code-地级市行政码city-省份
数据名称:中国家庭追踪调查(CFPS)数据区县码 数据描述:162个区县代码,适用于10-20年份,可匹配约85-90%的样本.可依次匹配coutyid-区县行政码code-地级市行政码city-省份 ...
- Minitab使用图形渲染和数据描述
Minitab使用图形渲染和数据描述 Minitab是最流行的质量.分发和分析程序之一,实际上是OMNITAB软件的一个较小版本.六西格玛的软件是开发组织质量开发和改进的合适工具,具有处理.计算.分析 ...
最新文章
- 大厂员工被裁后的不同反应,也太真实了吧?|漫画
- 考驾照选择 AI 教练,心态稳定不骂人
- perl学习(1) 入门
- 利用snmptools实现cacti自定义监控Windows性能计数器
- 2015前端生态发展回顾(转)
- python变量使用前必须先声明、并且一旦声明_初学者学习Python的30天-第18天-文件处理...
- 基于tensorflow实现图像分类——理解神经网络运作过程、tensorflow入门
- Persistent Data Structures(可持久化的数据结构)
- ES6学习(五)—数组的扩展
- X509证书中RSA公钥的提取与载入
- [转载] python中的numpy模块和pandas模块的区别_numpy 模块和 pandas 模块
- tomcat部署安装
- IT营大地老师2017最新node.js视频教程avi版本(课件+源码+视频)
- DJ-ZBS2漏电继电器
- 如何在ppt中生成柱状图_PPT文件中怎么插入柱形图图表?
- 物联网应用技术竞赛——单片机笔记
- 太阁5 800人物 喜好
- STM32MP157 Linux系统移植开发篇19:Linux内核Wi-Fi驱动移植
- 入职开发很少写代码_如何简化开发人员入职:将开发环境作为代码
- SQL注入漏洞(postgresql注入)