以下是对Ensembl突变数据库中储存的数据的描述，对于Ensembl数据库中不同的物种，我们从各种来源（例如，dbSNP数据库）导入突变数据（SNP、CNV、等位基因频率、基因型等），导入的突变数据和等位基因经过质量控制过程来标记可疑数据。

　　我们将突变分成几个不同的类，并计算突变的预测结果，并且我们还创建了突变集以帮助人们从特定数据集中检索特定突变体组。

　　我们计算了人类每个突变在种群中的连锁不平衡。

突变数据类型

Ensembl突变数据库储存了从外部导入的数据以及就算得来的数据。

外部导入的数据（dbSNP、Sanger、DGVa、…）：

碱基突变（SNP、插入、缺失、…）

结构突变（拷贝数变异、串联重复、反转、…）

检测拷贝数的变化

碱基突变和结构突变的位置

等位基因

人群

基因型

表型（例如，人类中的青光眼。）

引文（摘自dbSNP数据库提交的信息，由EPMC和UCSC执行的文本挖掘）

计算数据（预测数据页面）

储存突变数据的物种

Ensembl仅储存了以下23个物种的突变数据，但是用户依然可以在没有突变数据库的物种上使用Variant Effect Predictor VEP。

	Short variant			Long variant	Genotype		Association		Prediction
Species	Sequence variant	(e!91 → e!92)	Source(s)	Structural variant	Sample	Population	Phenotype	Citation	SIFT	PolyPhen
Cat Felis catus	3.6 million+	-	1 source	-	-	-		-	-	-
Chicken Gallus gallus	24 million+	-	1 source	-						-
Chimpanzee Pan troglodytes	1.6 million+	-	1 source	-			-	-	-	-
Cow Bos taurus	104 million+	-	1 source							-
Dog Canis familiaris	5.9 million+	(+148)	1 source							-
Fruitfly Drosophila melanogaster	6.7 million+	-	1 source	-			-	-	-	-
Gibbon Nomascus leucogenys	1.1 million+	-	1 source	-		-	-	-	-	-
Goat Capra hircus	37 million+		1 source	-	-	-				-
Horse Equus caballus	21 million+	(+16 million)	1 source							-
Human Homo sapiens	329 million+	(+350,000)	6 sources
Macaque Macaca mulatta	53 million+	-	1 source					-	-	-
Mouse Mus musculus	84 million+	-	1 source							-
Opossum Monodelphis domestica	1.1 million+	-	1 source	-	-	-	-	-	-	-
Orangutan Pongo abelii	10 million+	-	1 source	-		-	-	-	-	-
Pig Sus scrofa	67 million+	-	3 sources							-
Platypus Ornithorhynchus anatinus	1.3 million+	-	1 source	-			-	-	-	-
Rat Rattus norvegicus	5 million+	-	1 source	-						-
S. cerevisiae Saccharomyces cerevisiae	263,000+	-	1 source	-			-	-	-	-
Sheep Ovis aries	61 million+	-	1 source							-
Tetraodon Tetraodon nigroviridis	902,000+	-	1 source	-	-	-	-	-	-	-
Turkey Meleagris gallopavo	9,000+	-	1 source	-	-			-	-	-
Zebra Finch Taeniopygia guttata	1.7 million+	-	1 source	-			-	-	-	-
Zebrafish Danio rerio	17 million+	-	1 source							-

列表中对应的Ensembl版本组装序列可以在这里找到。

大多数的突变信息是从NCBI dbSNP数据库中导入的，来自HapMap Project和1000 Genomes Project等项目的数据是在提交给dbSNP数据库后即被导入。

Ensembl还包含其它来源的数据，可在浏览器配置查看这些来源的数据（例如，人）。

# 突变信息展示

基因：突变表和突变图像。例如，KCNE2基因的所有突变

转录本：群体比较，比较突变图像（用于比较不同个体或菌株序列中转录本的突变）。例如，比较不同小鼠品系中的Tmco4

转录本：序列，蛋白质：蛋白质坐标中编码变体的列表。

物理位置：详细信息区域（可以使用左侧的“配置此页面”来绘制变体）菜单允许在Ensembl数据库中显示信息以及DAS格式的外部源，例如，DGV位点。）

表型：显示与某种表型相关的变体的核型视图，例如，青光眼

# 参考资料

Ensembl

转载于:https://www.cnblogs.com/yahengwang/p/9332595.html

Ensembl突变数据描述之（一）——突变物种数据库及预测工具相关推荐

maftools|TCGA肿瘤突变数据的汇总，分析和可视化
之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫"瀑布图",以及一些细节的 ...
不是maf格式的somatic突变数据就没办法读入到maftools了么
因为使用的是百度李彦宏的文章数据,大家会比较倾向于处理tcga的肿瘤突变数据,虽然仅仅是输入数据的不一样,后续分析都是靠 maftools 这个包,maftools 全能无需我再吹嘘,必须花十几个小时 ...
处理tcga突变数据一点思考
TCGA突变数据写在前面泛癌mc3作图学到的额外知识点使用TCGAbiolinks下载数据 TCGA关于maf的注释代码文件夹命名最好还是以英文命名,中文命名经常会出现错误 GTF文件有的以 ...
多维数组的行优先和列优先, 数据描述语言
多维数组的行优先和列优先这里以numpy为工具,介绍一下多维数组的行优先和列优先的概念. 首先我们生成一个3x4的数组: arr = np.arange(12).reshape(3,4) 它的形状是 ...
云计算论文集, Spark, 数据描述语言, 运维工具集
https://antkillerfarm.github.io/ 云计算论文集这里列出一些在这个领域产生重大影响的论文.仅作备忘,肯定不全,Google是其中的绝对主力. CAP <Towar ...
python 新闻标题分类_NLPCC2017(中文)新闻标题分类示例代码以及数据描述
NLPCC 2017 新闻标题分类代码运行环境 python2.7 (最好用anaconda2) tensorflow1.0.0 gpu版本或者cpu版本建议操作系统:Linux Linux 上的 ...
什么是数据描述统计分析指标？
数据描述统计分析无序数据均值均值(mean)和平均值(average)的区别中位数(中值) 众数极差方差(离均差平方) 标准差(标准偏差.实验标准差.均方差) 协方差标准分四分位数实 ...
怎么用linux获得数据的标题,开源｜NLPCC2017(中文)新闻标题分类示例代码以及数据描述...
https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow- 1.0.0-cp27-none-linux_x86_64.whlhttp ...
数据名称：中国家庭追踪调查（CFPS）数据区县码数据描述：162个区县代码，适用于10-20年份，可匹配约85-90%的样本。可依次匹配coutyid-区县行政码code-地级市行政码city-省份
数据名称:中国家庭追踪调查(CFPS)数据区县码数据描述:162个区县代码,适用于10-20年份,可匹配约85-90%的样本.可依次匹配coutyid-区县行政码code-地级市行政码city-省份 ...
Minitab使用图形渲染和数据描述
Minitab使用图形渲染和数据描述 Minitab是最流行的质量.分发和分析程序之一,实际上是OMNITAB软件的一个较小版本.六西格玛的软件是开发组织质量开发和改进的合适工具,具有处理.计算.分析 ...

Ensembl突变数据描述之（一）——突变物种数据库及预测工具

突变数据类型

储存突变数据的物种

Ensembl突变数据描述之（一）——突变物种数据库及预测工具相关推荐

最新文章

热门文章