发表期刊

期刊名:Frontiers in Plant Science
所属分类:SCI期刊,生物类
影响因子和分区:2021年影响因子/JCR分区:5.753/Q1
作者所在机构:郑州大学棉花生物学国家重点实验室郑州研究基地、中国农业科学院棉花研究所、安阳理工学院计算机科学与信息工程学院

文章名

英文:CottonGVD: A Comprehensive Genomic Variation Database for Cultivated
中文:Cottons CottonGVD:栽培棉花基因组变异综合数据库

一、摘要

栽培棉花是最重要的经济作物,为纺织业生产天然纤维。
近年来,通过解码棉花的基因组变异,逐步阐明了栽培棉花几个基本性状的遗传基础。
尽管公众可以获得大量的重新测序数据,但仍然缺乏一个全面的工具来展示基因组变异和全基因组关联研究(GWAS)的结果。
为了帮助棉花研究人员高效、方便地利用这些数据,我们构建了棉花基因组变异数据库CottonGVD。
该数据库包含三个栽培棉花品种的已发表基因组信息、相应的群体变异(SNP和InDel标记)以及主要性状GWAS的可视化结果。
各种内置的基因组工具帮助用户方便地检索、浏览和查询变异。
该数据库还提供交互式地图(如曼哈顿地图、散点图、热图和连锁不平衡块),以展示GWAS和表达GWAS结果。
棉花研究人员可以轻松专注于表型相关基因座的可视化,他们对候选基因感兴趣并进行筛选。
此外,CottonGVD将通过添加更多数据和功能继续更新。
关键字
棉属,基因组学,遗传学,变异,eGWAS,数据库

二、前言

棉花属(棉属)包含四个主要栽培物种:两个二倍体,如草棉(A1)和木棉(A2),以及两个四倍体,如陆地棉(AD)1)和巴巴多斯棉(AD)2)。
棉纤维不仅是最重要的天然纺织材料,也是研究单细胞伸长机理的理想模型,受到棉花育种家和植物生物学家的广泛关注。
了解棉花表型变异的基因组基础对于指导分子育种实践至关重要。
在过去10年中,通过Illumina shortread和PacBio long read测序技术组装了栽培四倍体棉花基因组。

如前所述,大量棉花基因组变异数据集已通过下一代测序(NGS)技术生成并存储在公共数据库中。
随着大数据的可用性,出现了一个主要障碍,即如何与棉花分子育种团队的数据有效集成和共享,以加快棉花育种。
从大规模NGS数据集中识别关键SNP和多态性位点也非常困难,这需要大量的计算资源。因此,当前的SNP和InDel数据集对用户不友好。
在其他物种中,已经开发了一些基因组变异数据库,包括水稻的RiceVatMap(Zhao等人,2015),高粱的SorGSD(Luo等人,2016),桃子的PeachV ar DB(Cirili等人,2018),柑橘的CitGVD(Li等人,2020),玉米的ZEAMAP(Gui等人,2020),以及油菜的BnaGVD(Y-an等人,2021)。
在这里,我们建立了一个全面的棉花基因组变异数据库(CottonGVD)。

对于棉花,此前已发布了多个棉花数据库。
Cottongen1是一个全面的棉花数据库,整合了广泛的数据,包括基因组、遗传图谱、分子标记和表型(Yu等人,2014)。
ccNET2为树木革兰和陆地革兰基因提供了基因组规模的共表达网络和功能模块(You等人,2017年)。
CottonFGD3是一个主要集中于收集基因组信息的数据库(Zhu et al.,2017),COTTONOMICS4是四倍体棉花属的比较基因组学平台和变异数据库。
GRAND5也是棉属植物的比较基因组学平台。
然而,所有这些数据库都缺乏显示全基因组关联研究(GWAS)结果的模块,这些结果可以显示不同棉花品种多个群体的表型特征(各种类型)。
在本研究中,我们构建了CottonGVD(棉花基因组变异数据库6);第一个棉花数据库专门关注性状相关基因座的可视化。
这个界面友好的网站可以帮助研究人员搜索他们感兴趣的棉花基因组变异的详细信息。

三、数据收集和处理

1、种质种群和数据源
2、数据源和处理
3、表型数据收集

四、数据库实现

CottonGVD中的所有数据都在PostgreSQL(12.0版)中存储和管理。
web界面使用HTML5和JavaScript(7.0.12版)实现,JavaScript还用于数据可视化。
CottonGVD的服务部署在运行ubuntu服务器20.04的Apache Web服务器上。
数据分析主要使用Python脚本。

五、数据库内容和功能

1、CottonGVD数据库结构概述

CottonGVD是一个用户友好的棉花变异数据库。
数据库的web界面设计为包括以下七个组件:主页、物种、搜索、工具箱、帮助、登录和注册。
其中,“工具箱”和“帮助”下拉菜单中有许多快捷工具,方便用户的各种需求。
CottongVD中的多组学数据分为四类,涉及基因组、变异、遗传学和种群多样性等主要内容模块。
CottonGVD中的每个功能模块都有自己的页面,功能通过基因ID关系进行链接。

2、数据挖掘和发现

当前的CottonGVD包括四个模块:
(1)基因组学
(2)变异
(3)遗传学
(4)多样性

3、CottonGVD案例研究

介绍数据库的操作
为了帮助研究人员进行棉花分子育种和有效的全基因组选择,我们构建了一个CottonGVD,其中包含三个不同棉花品种的五个自然群体的重新测序数据(SNP和InDel)和大量的环境表型数据,并可视化了其表型的GWAS结果。
这里,我们提供一个示例来演示GWAS可视化工具的使用。通过选择棉花1.1245群体和陆地棉纤维长度性状的多个环境表型数据,可以直接获得GWAS结果(He等人,2021)。
最后,识别并保存了具有显著遗传差异位点的曼哈顿图和散点图。
一方面,可以获得该区间的基因列表以及棉花1.383群体和TM-1的转录组数据。
另一方面,可以选择单个基因获得注释信息,并根据eGWAS结果进一步探索重要的基因表达调控机制。

六、结论和未来研究

通过整合多个棉花品种的重测序数据和五个代表性群体的GWAS数据,CottonGVD显示的高密度变异数据为检验基因组变异、基因注释以及SNP和GWAS结果的可视化提供了丰富的信息。
通过整合转录组和eGWAS结果,用户可以在GWAS信号的基因组区域定位致病基因,这可以进一步指导目标基因的编辑。
这一新数据库将通过在分子标记开发和遗传改良产量和纤维质量选择中整合高密度基因组变异,以及基于新工具模块的新设计分子方法,促进分子育种。
除了不同科学团队之间的合作外,我们还将与国内外实验室合作,在未来的研究中对更多的棉花种质资源和GWA进行重新测序,并将为该数据库提供更多的资源和工具模块。

七、数据可用性声明

八、作者贡献

九、资助

这项工作得到了国家自然科学基金(批准号32122062)、农业部棉花种质资源精确鉴定(批准号19211122)和国家重点技术研发项目(批准号2016YFD010203和2016YFD0100306)的资助。

十、感谢

十一、参考文献

相关单词

Variation:变化;变异,变种
the genetic basis:遗传基础
genomic variations:基因组变异
genome-wide association study:全基因组关联研究
population variations:人口变异
interactive maps:交互式地图
Manhattan map:曼哈顿地图
scatter plot:散点图
heatmap:热图
linkage disequilibrium block:连锁不平衡块
phenotype-associated loci visualization:表型相关位点可视化
candidate genes:候选基因
genomics:基因组学
genetics:遗传学

The cotton genus (Gossypium) :棉花属(棉属)
textile:纺织品,织物
mechanism:机制;原理
phenotypic variations:表型变异
molecular breeding:分子育种
long-read sequencing technology:长读测序技术
reference genomes:参考基因组
the population differentiation:人口分化
upland cotton:陆地棉
the large-scale multienvironmental trait:大规模多环境特征
high-density SNP markers:高密度SNP标记
trait-associated :性状相关
genomic regions:基因组区域
functional gene cloning:功能基因克隆
molecular marker designation:分子标记设计
genome variation data sets:基因组变异数据集
next-generation sequencing (NGS) technology:下一代测序(NGS)技术
polymorphic sites:多态位点
genomic variation databases:基因组变异数据库
genetic maps:遗传图谱
molecular markers, and phenotypes:分子标记和表型
a comparative genomics platform:比较基因组学平台
trait-associated loci visualization:性状相关位点可视化

germplasm populations:种质种群
core collections:核心种质
The raw bioinformatic sources:原始生物信息源
RNASeq data:RNASeq数据
raw data:原始数据
variation calling:变体调用
phenotypic information:表型信息
the gene ID:基因ID
the genomic position:基因组位置
protein sequence: 蛋白质序列
assembled genome:组装基因组
allele frequency:等位基因频率
linkage disequilibrium:连锁不平衡
GWAS signals:GWAS信号
gene annotation:基因注释
eGWAS mapping:eGWAS映射
population transcriptome:群体转录组
Population Gene Expression:群体基因表达
sequence information:序列信息
mRNA information:mRNA信息
mRNA ID:mRNA ID
eGWAS signal:eGWAS信号
highdensity variation data:高密度变化数据
the genomic variation:基因组变异
causal genes:引导基因
targeted gene:靶向基因
genomic variations:基因组变异
allele: 等位基因
gene search:基因搜索
sequence blast:顺序爆破
homologous gene transformation:同源基因转化
variation data browsing:变体数据浏览
primer design:引物设计
genomic and phenotypic data:基因组和表型数据

论文4:CottonGVD:栽培棉花基因组变异综合数据库相关推荐

  1. Cell:基于33个遗传多样性水稻种质泛基因组分析揭示“隐藏”的基因组变异

    结构变异(Structural variation,SVs)和基因拷贝数变异(gene copy number variations,gCNVs)是动植物中主要的遗传变异来源,对于作物进化.驯化和改良 ...

  2. ENCODE30篇论文全摘要 聚焦人基因组功能研究

    转http://yixf.name/2012/12/06/%E8%BD%ACencode30%E7%AF%87%E8%AE%BA%E6%96%87%E5%85%A8%E6%91%98%E8%A6%81 ...

  3. [原]基因组变异检测概述

    考虑到cnblog不适合基因组领域这种类型的文章,进过多番折腾,终于用jekyll+github搭了个独立博客www.huangshujia.me,现在博客已经搬迁! 首先,在开始之前我觉得有必要稍微 ...

  4. 基因组变异检测概述(SNP、InDel、SV)

    首先,在开始之前我觉得有必要稍微科普缓冲一下,以便不使得不熟悉生物信息或基因组的客官们疑惑.O(∩_∩)O! 1.基因组:每个人都有一个基因组,这里的"基因组"并不只是" ...

  5. 文献解读|苍术属植物叶绿体基因组变异及系统发育关系

    TITLE:Chloroplast genome variation and phylogenetic relationships of Atractylodes species 译名:苍术属植物叶绿 ...

  6. 【Bioconductor系列】利用Bioconductor包进行基因组变异位点注释

    基因组变异位点注释 安装工作流程所需的biconductor包 source("http://bioconductor.org/workflows.R") workflowInst ...

  7. 基因组变异检测SNPcalling(GATK)

    基因组变异检测SNPcalling(GATK) 第一步,将数据软连接到自己的工作路径下 第二步,用BWA index功能为ref文件做index,用Samtools软件为ref做index 第三步,用 ...

  8. OncoKB:肿瘤药物靶点相关基因组变异数据库

    欢迎关注"生信修炼手册"! OncoKB收集了肿瘤发生发展相关的,具有临床意义的基因组变异信息,对于每个变异,提供了其对应的生物学效应,药物互作,预后和治疗意义等详细信息,对应的文 ...

  9. dbevar mysql 驱动_LnCeVar:基因组变异对于ceRNA调控影响的数据库

    lncRNA(long non coding RNA)发挥功能的方式,目前研究最多的还是ceRNA 的功能.经典的ceRNA调控网络是通过 lncRNA-miRNA-mRNA 来构建的.这个研究思路, ...

最新文章

  1. python爬图片教程_python爬去妹子网整个图片资源教程(最详细版)
  2. 1.编译cartographer ROS
  3. matlab fprintf_Matlab给Ansys助攻
  4. 【leetcode】1023. Camelcase Matching
  5. oracle数据库的字符集更改
  6. 服务和服务帐户安全规划指南
  7. 素数就是不能再进行等分的数。比如2,3,5,7,11,等 9=3*3说明它可以等分,因而不是素数 我们国家在1949年建国,如果只给你 1 9 4 9 这4个数字卡片, 可以随意摆放他们的先后顺序(但
  8. to teacher eulogy
  9. 射频电路中三种基本接收机结构
  10. STM32----PWM脉宽调制信号的输出
  11. 消防报警图形显示装置linux,消防中控-消防控制室图形显示装置状态识别及操作...
  12. JavaScript数组forEach方法
  13. 工业控制靶场记录以及工业控制协议的简单介绍
  14. 抖音中的视频怎么使用手机录制 安卓手机录屏软件哪个好
  15. 姗姗来迟,智能音箱于华为是鸡肋还是熊掌?
  16. activiti报错:org.activiti.engine.ActivitiTaskAlreadyClaimedException: Task ‘12502‘ is already claimed
  17. 红黑树详解及其模板类实现
  18. Vero praesentium odio suscipit dolor.Eos accusamus rem tempore.
  19. k8s访问外部mysql_Kubernetes连接外部数据源
  20. Mysql 与ES(Elastic Search)对比

热门文章

  1. uniapp实现出生日期/时间选择效果
  2. meizz(梅花雪) 的个性化书签
  3. 树莓派python gpio 模仿iic_GPIO实现I2C协议模拟(1)
  4. Postgres - 数据类型
  5. 数云运维总监陈延宗:基于阿里云计算巢,数云CRM一键云上交付
  6. Tensorflow 代码解析
  7. 怎样更改linux的用户名
  8. Rocket详细教程
  9. netease-cloud-music 网易云音乐在ubuntu中无法打开,闪退,安装正常
  10. HTML的几种定位方式