本文将以此介绍 3 个关联分析资源群体,群体大小分别为 155、368、527。155 和 527 两个群体交集为 141,使用的 SNP 芯片一致,可以认为 527 是 155 群体的拓展。368 和 527 两个群体交集为 282,其中 368 使用 RNA-seq 测序,测定到了大量的 SNP 位点。155 和 527 群体是基因组与表型之间的关联分析,368 是基因组与表达量之间的关联分析。

155 群体文章:Yang, X., Yan, J., Shah, T. et al. Genetic analysis and characterization of a new maize association mapping panel for quantitative trait loci dissection. Theor Appl Genet 121, 417–431 (2010). https://doi.org/10.1007/s00122-010-1320-y

527 群体文章:Yang, X., Gao, S., Xu, S. et al. Characterization of a global germplasm collection and its potential utilization for analysis of complex quantitative traits in maize. Mol Breeding 28, 511–526 (2011). https://doi.org/10.1007/s11032-010-9500-7

368 群体文章:Fu, J., Cheng, Y., Linghu, J. et al. RNA sequencing reveals the complex regulatory network in the maize kernel. Nat Commun 4, 2832 (2013). https://doi.org/10.1038/ncomms3832

背景

前人研究证明,使用关联分析(Association Mapping)可以挖掘到许多有助于玉米改良的基因。但前人的研究主要集中于美国的玉米品系,而中国处在温带地区,已有资源库中除了热带亚热带品种在中国种植难以正常发育外(如植株因基温不足而无法开花,进而无法繁衍,无法利用品系包含的遗传资源),温带品系的表型在中美两国也可能有较大差异。所以,研究人员希望构建一个基于中国环境的玉米关联分析资源群体(Association Mapping Panel)。

155 自交系群体简介

材料

155 个自交系:

  • 91 自交系为 中国 广泛使用的 商业杂交亲本
  • 35 自交系为 高油品种,选自于 世界 范围内
  • 25 自交系为 中国地方品种
  • 4 自交系为 高维生素 A 品种,由美国伊利诺伊大学提供

基因型数据

82 个 SSR 标记

82 个 SSR 在 155 个样本中共检测到 675 个等位型,平均每个 SSR 有 8.23 个等位型。作者使用 STRUCTURE 软件、 82 个 SSR 标记和已知的系谱关系推断群体结构。

首先,作者根据 STRUCTURE 的结果将 155 个自交系分为 3 类:P1(79)、P2(44)、Mixed(32)。然后,作者对 P1、P2 进行了进一步细分,依据已知的系谱关系,分别设置 k = 5、k = 3,结果如下表所示。

Groups Subgroups Number Inbreds
P1 Reid 12 B73, Ye478, Ye488, Ye8001, U8112, Zheng32, Hu803, C8605, Tie7922, 832, 812, Xun971
Lancaster 9 Mo17, Ji842, Ji846, ZaC546, Hai1134, Mo113, 4F1, HTH-17, CY72
Zi330 10 Zi330, HuangC, Zong3, Zong31, Shen5003, Zheng653, LK11, Si446, BEM, A619
ByGy* 12 By804, By807, By809, By813, By815, By843, By855, By4944, By4960, Gy220, Gy386, Gy462
RySy* 19 Gy1032, Ry684, Ry697, Ry713, Ry729, Ry732, Sy998, Sy999, Sy1032, Sy1035, Sy1052, Sy1077, Sy1090, Sy1128, Ye107, 7884-4Ht, K10, Chang3, Nan21-3
P1-mixed 17 By4839, Gy237, Gy246, Gy798, Gy923, Gy1007, Ry737, Sy1039, Zheng58, Dan340, J4112, Yu374, K14, chuan48-2, K22, 8902, Si434
P2 Tang SPT 10 HZS, Si444, HYS, TYS, H21, Xi502, 5237, WH413, Lx9801, BS16
Tem-tropic* 4 Qi319, P178, Shen137, Dan599,
Landrace* 24 Tian77, Hai014, SW1611, 5311, S37, Jiao51, TX5, WMR, MN, BNBG, NMJT, QTHHSBTS, 04K5702, NBG, YSBN, BGY, 04K5672, BXZLN, BR2, DSB, D047, B11, SW92E114-15-1, SC55
P2-mixed 6 Chang7-2, Ji853, 3H-2, 04K5686, HSBN, 303WX
Mixed 32 Sy3073, Ye515, Yan414, Ji53, K12, Dong237, Ji63, Yu87-1, S22, Ye52106, Zheng22, Dong46, BT1, DH02, Dan9046, Hai268, Wu109, Lv28, P138, Qi205, Q1261, 81162, Dan598, Cheng698, E28, H8123, 647, BZN, Hua83-2, HB, CI7, DE3
  • ByGy 来自 BHO(Beijing high-oil population)或 AIHO(IHO C80 × Alexho C23) ;RySy 来自 RYD 或 Syn.D.O;Tem-tropic 来自 American hybrids;Landrace 来自 Chinese landraces 和 1 个高维生素原 A 品系 SC55
  • P1 中 Reid、Lancaster、Zi330 是已知的杂种优势群,ByGy、RySy 都是 高油 品系。
  • P2 中 Tang SPT、Tem-tropic 是已知的杂种优势群。

比较 P1 和 P2,AMOVA 结果表明,总遗传变异中只有 6.1%(P < 0.001)在组间分配,组内为 92.6%,品系内为 1.3% 。亚组分析显示,17.4% 在亚组间分配,亚组内为 76.3% 。AMOVA 结果显示,虽然群体被划分为了多个组分,但组分内成员间仍存在较大差异。

1536 个 SNP 标记

1536 个 SNP 经过缺失率( < 20%)和 MAF( > 20%)筛选后剩余 884 个 SNP,用于计算关联群体的亲缘关系矩阵(K),其中负值被替换为 0。

表型数据

总共测定了 34 个表型(详情见下表格),取自 2 个地点 4 年的测量结果:海南 2007;北京 2005、2006、2007、2008。

开花(flowering)* 结构(architecture) 雌穗(ear) 仔粒(kernel)* 油类(oil-related) 类胡萝卜素类(carotenoid-related) 生育酚类(tocopherol-related)
花粉天数、吐丝天数 雄穗(tassel)分枝数、植株节数、雌穗上叶数、雌穗上节数 穗长、穗径、穗轴直径、每穗行数、穗轴质量 百粒重、籽粒长度、籽粒宽度、籽粒厚度 棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、油含量 叶黄素、玉米黄素、β-隐玉米黄素、α-胡萝卜素、β-胡萝卜素、总类胡萝卜素、维生素原 A δ-生育酚、γ-生育酚、α-生育酚、总生育酚。
  • 开花天数表型取自实验田每行中 50% 以上植株开花的所需天数。其中花粉天数(days to pollen)代表雄花开花的所需天数,吐丝天数(days to silk)代表雌花开花的所需天数。
  • 仔粒表型是从每个收获的穗中取出等量的谷物统计得到。
  • tassel 表示雄穗,ear 表示雌穗。

群体结构对表型的影响

驯化和改良会造成符合人们需求的优良基因型在群体中固定,当 QTL 与群体结构连锁 时,关联分析会产生大量的 假阳性 关联。如与开花所需基温相关的 QTL,其适应温带的基因型,在玉米从热带传入温带的早期就已固定。但这会使温、热亚群中所有分别固定(基因型不同)的 SNP 都与表型显著关联,造成大量假阳性(GWAS 结果的曼哈顿图中杂乱无峰)。

由于驯化和改良都会大幅减少种群的有效群体数量,加速固定,所以不同地域玉米在不同研究团队的培育下,会出现明显的群体结构,如中国和美国的玉米品系间、美国与墨西哥的玉米品系间。为了避免群体结构对关联分析的影响,一般分析前会通过各种方法排除群体结构因素的影响,但这也会造成上面两种与群体结构连锁的 QTL 无法被挖掘。所以,在对某表型进行关联分析时,要先 判断群体结构对表型方差的贡献 ,如果贡献较大,则与群体结构连锁的 QTL 较多,排除群体结构后能挖掘的剩余 QTL 少,此群体可能不适合对该表型进行关联分析。

作者在关联分析前,计算了群体结构对表型方差的贡献(文中 Table 4)。其中穗轴直径(18.9%)、仔粒长度(13.3%)、亚油酸含量(23%)、亚麻酸含量(19.5%)、γ-生育酚含量(14.9%)等表型受群体结构影响大,不适合用此 Panel 进行关联定位。

因为不同关联群体(Association Mapping Panel)的采样不同,所以群体结构存在差异,即 不同 Panel 内表型受群体结构的影响不同。如开花时间表型在美国的 Panels 中受群体结构影响较大( > 32%),但在本研究群体中影响较小(DTP = 1.8%,DTS = 0.6%)。原因是美国的 Panels 中包含温带、热带品系,但本研究 Panel 中仅包含温带品系。温带不同地区环境差异较小,允许以不同的方式组合 多个 小效应 QTL 来适应本地环境,QTL 具有较高的多样性,难以与群体结构连锁。但温带与热带之间环境差异较大,品系改良过程中需要 少量 大效应 QTL 参与,组合方式少,QTL 多样性较低,容易与群体结构连锁。所以,此群体相比美国 Panels 更适合关联定位与开花时间相关的 QTL。

本研究 Panel 中油相关性状受群体结构影响较大的原因,可能是高油品系受到了严格的 人工选择,有效群体数量大幅降低,QTL 中高油基因型在 35 个品系中 固定,而这 35 个高油品系又与低油的中国品系(地方、优良)存在明显的 群体结构(详见文章 Fig 1),使 QTL 与群体结构 连锁,导致油相关性状受群体结构较大的影响。

关联分析

为了检验 Panel 挖掘不同效应 QTL 的能力,作者模拟了不同的群体大小(population size)、基因型效应(genetic effect)和关联模型。

关联分析利用 TASSEL 软件,基础模型为一般线性模型(general linear model,GLM)。因为关联分析在研究与适应相关的表型时,通常会因为群体结构而产生大量的假阳性关联,所以作者测试了不同关联模型:不考虑 Q、K,考虑 Q,考虑 K,考虑 Q、K。其中 Q 是指群体结构矩阵(Q matrix)由 STRUCTURE 计算得到,K 是指亲缘关系矩阵(K matrix)由 SPAGeDi 计算得到。

模拟结果显示,当群体大小为 155 时,可以检测出 88% 效应 > 10%(占表型变异的比例)、59% 效应 > 5%、17% 效应 > 1% 的 QTL。

527 自交系群体简介

材料

527 个自交系:

  • 143 自交系为 中国 广泛使用的 商业杂交亲本
  • 95 自交系为 中国地方品种
  • 54 自交系选自 GEM(Germplasm Enhancement of Maize)项目
  • 235 自交系选自 CIMMYT(International Maize and Wheat Improvement Center) 项目

PS:国际玉米小麦改良中心成立于 1966 年,总部设在墨西哥。因为墨西哥的官方语言为西班牙语,西班牙文全称为 Centro Internacional de Mejoramientode Maizy Trigo,所以简称 CIMMYT。

基因型数据

本文没有测定 SSR,仅测量了 1536 个 SNP 的基因型数据,使用的芯片与 155 群体一致。经过缺失率( < 20%)和 MAF( > 10%)筛选后剩余 926 个 SNP。

群体结构

以 926 个 SNP 作为输入,作者分别使用 STRUCTURE(Fig 1)、INSTRUCT(无展示)、PCA(Fig 2b)、系统发育树(Fig 2a),4 种方法研究 Panel 的群体结构。相比于 155 群体,作者增加了 3 种群体结构推断软件,但本文只进行了较粗的分类,STRUCTURE 将群体分为 SS(33)、NSS(143)、TST(232)、Mixed(119)4 类。随着参数 k 的增大,NSS 亚群可以进一步细分,但 SS 与 TST 则不再细分,原因可能是:

  1. NSS 亚群内个体之间差异较大;
  2. SNP 芯片是基于 B73 和 26 个不同温热代品系开发的,SNP 可能选择偏向于在温带中多样性较为丰富的位点,所以在 TST 中多样性较低,进而无法对 TST 进行进一步分类;
  3. SS 群体数量较少。

虽然各种方法的原理完全不相同,但 结果基本一致

PS:TST 主要由 CIMMYT 项目中样本构成(218);Mixed 群体由在其他 3 个亚群中概率均低于 0.60 的个体构成。


亲缘关系

与 155 群体一致,亲缘关系使用 SPAGeDi 软件包计算,个体之间的负值替换为 0。结果显示(下表),527 Panel 品系之间差异较大,大多数品系间是无相关或弱相关。

亲缘系数 0 0 < k <= 0.1 0.1 < k <= 0.5 0.5 < k
比例(%) 56.1 38.0 5.6 0.3
相关性

表型数据

总共测定了 12 个表型,包括 开花、结构、雌穗表型,不包括 仔粒、油类、类胡萝卜素类、生育酚类表型。

经过分析,相比于 155 Panel,527 Panel 中表型受到群体结构因素的影响大幅提升。这再一次验证了:群体样本的选择,对表型研究至关重要

关联分析

本文相比于 155 群体文章,引入了 PCA 算法来计算群体结构,相比于 STRUCTURE 计算速度更快。同时,作者比较了 PCA 结果(PC1 - PC10)与 STRUCTURE 结果作为群体结构组分对关联分析模型准确率的影响,总共测试了 6 种模型:GLM、GLM+Q、GLM+K、GLM+PCA、GLM+K+Q、GLM+K+PCA 。

模拟结果显示,当样本量为 527 时:1)6 个模型中 亲缘关系矩阵 的引入 大幅 降低了结果中假阳性数量,群体结构 Q 或 PCA 的引入能 少量 降低假阳性数量(下图),结合时间与精确度两方面考虑,作者推荐使用 GLM+K+PCA 模型;2)Panel 可以捕获 81% 效应为 3% 的 QTL,62% 的 2%,35% 的 1%。

368 自交系群体简介

NAM 群体 LD 的衰减(r2<0.1r^2<0.1r2<0.1)发生在 2kb 内,368 群体则发生在 500 bp 以内。根据前人的研究成果推算,若想 SNP 以较高连锁性覆盖全基因组,可能需要 1000w SNP。但玉米基因组中只有不到 10% 的片段编码基因,所以有研究人员建议开发基于基因外显子区的 SNP。随着技术的发展和下一代测序成本的显着降低,RNA-seq 是一种相对低成本的测序方法,可以用于研究表达数量性状位点(eQTL)分析。本文材料取自 368 个自交系授粉后 15 天的未成熟仔粒,探索发育中的玉米籽粒的基因表达图谱并挖掘有意义的基因。

材料

本文没有再对材料的来源与分类进行单独介绍,只展示了 368 样本的 PCA 和 邻近(Neighbor-Joining,NJ)系统发育树。因为 本文不涉及分群研究群体结构GWAS 分析中作为 参数 变量加入 MLM 模型即可,系统发育树和 PCA 等可视化的主要目的是展示材料的多样性,以证明群体内积累了足够多的历史重组与突变,提高关联分析的可信度。所以在有前两篇文章的研究基础后,本文没有再进行重复的分析。

基因型数据

Reads 数据

测序数据中有 71.0% 的 reads 比对到 B73 参考基因组(AGPv2)上,70.3% 的 reads 比对到 B73 参考基因组的基因区间,其中 71.6% 的基因 reads 覆盖长度 > 50% 。29 % 的 reads 比对丢失率说明 368 个体中有大量基因 不存在 于 B73 基因组上,体现了玉米遗传资源的多样与复杂。

SNP 数据

NP data set Number of SNPs Number of SNPs in gene region Number of genes Mean number of SNPs per gene
Total 3620 k 2636 k 32 k 81.7
SNPs with missing rate < 0.6 * 1026 k 931 k 23 k 40.3
SNPs with MAF ≥ 0.05 525 k 478 k 22 k 21.7
  • 作者使用 fastPHASE 估算缺失的基因型。对缺失率在 10% - 90% 的 SNP 随机选择 1 % 已知基因型的序列并掩盖,然后使用 fastPHASE 估算 1% 缺失的基因型并与真实值验证,判断 fastPHASE 的估算精度。作者发现,随着 SNP 缺失率的减少,可参考的单倍型增加,fastPHASE 估算精度不断上升。缺失数据率 < 0.7 时预测精度进入平台期,所以作者选用 < 0.6 作为阈值,此时 imputation 准确率为 99.3%。
  • 个人认为,作者的这种估算方式会 放大 imputation 准确率。SNP 缺失意味着样本不包含 B73 上的基因,所以缺失的往往是许多 SNP 构成的 1 个单倍型。但掩码只掩盖 1 个 SNP 的基因型,相比于真实的缺失,周围 SNP 构成的单倍型是准确的、无需推测的,所以掩码基因型的 imputation 也更为准确。
  • 为了进行 GWAS 分析,过滤掉 MAF < 5% 的 SNP。

上述表格中有 65%(1-931/2636)SNP 的缺失率 > 0.6,说明 B73 基因组大量基因 不存在 于 368 个品系中。

分布差异

作者将 368 的 RNA-seq 与 NAM 群体 SNP 的比较中发现,两个数据集中因测序重点不同而出现较大差异。368 群体因为测定的是 RNA-seq 的序列,所以数据集集中在 基因区,基本不包含基因间隔区,可以作为 NAM 群体 SNP 数据集的 有利补充

通过功能分析,作者预测有 5,146 个 SNP 为大效应变异:2,347 个 SNP 会导致无义突变,112 个 SNP 会导致起始密码子破坏,571 个 SNP 会导致终止密码子破坏,2,116 个 SNP 预测会破坏转录本剪接位点。

表型数据

本研究表型数据为表达量数据,取自湖北荆州 2010 年种植,生长发育阶段为授粉后(days after pollination,DAP) 15 天的未成熟种子。

表达量数据中,有 29k 基因的转录本在超过 50% 的自交系中测得,并作为 GWAS 的表型。另一方面,数据还展示了 相同基因在不同自交系中表达量的巨大差异,有 5.2 k 个基因在不同个体间表达量差异超过四倍。

关联分析

使用 TASSLE 软件的 MLM,以 29k(missing rate <= 50%) 个基因的表达量作为表型,进行 GWAS 分析,挖掘了 591 k 个显着相关的 SNP。通过对间隔小于 5 kb 的 SNP 进行合并,得到 55 k 个候选 eQTL。作者将 eQTL 中最显着相关的 SNP 被定义为 lead SNP。比较两个相邻 eQTL 间 lead SNP 的 LD(r2r^2r2)值,如果 LD > 0.1,则认为两个 eQTL 关联的是相同的致病突变,删除其中 lead SNP p-value 较大的 eQTL。最终,为 14 k 个基因鉴定了 16 k 个 eQTL。其中 11 k(67.7%)的 eQTL 中仅包含单个基因,方便后续研究。作者将 eQTL 的 lead SNP 距离基因 20 kb 内的定义为 local eQTL,否则为 distant eQTL。16 k 个 eQTL 中有 9 k 为 local eQTL,7 k 为 distant eQTL。

玉米关联群体:155、368、527 自交系群体简介(Yan Jianbing,2010、2013)相关推荐

  1. 玉米关联群体:NAM(Nested Association Mapping)群体简介(Edward S. Buckler,2009)

    本文内容主要摘自下面 3 篇文章:第一篇介绍了 NAM 群体的 构建 及玉米基因组的 重组特征:第二篇介绍了 计算机模拟 下 NAM 群体挖掘 QTL 的 效力:第三篇介绍了 NAM 群体的 应用,使 ...

  2. 【群体遗传】Fst(群体间分化指数)

    (1)FSTF_{ST}FST​是什么?含义是什么? FSTF_{ST}FST​,全称为fixation index,是一种用于衡量群体间分化程度的统计检验量(由Wright's F-statisti ...

  3. 教程:群体演化方法分析玉米的驯化与改良

    一般文章在筛选 正选择区间 时,大多 不考虑 群体的 演化历史,即不考虑 群体大小 的变化,只进行亚群之间各种群体遗传参数的对比,这可能会产生大量的假阳性.另一方面,研究一般也 不考虑 遗传信息的 迁 ...

  4. 空中群体机器人研究综述

    文章目录 Abstract I. INTRODUCTION II. MODELS, STABILITY AND CONTROLLABILITY OF SWARMS A. Types of Multia ...

  5. 008产品设计的思考(创造思维+用户体验+用户画像+用户群体)

    文章目录 一.产品优化创造思维如何培养 1.1 产品优化创造思维培养 二.用户体验设计原则 2.1 可见原则 2.2 场景贴切原则 2.3 可控原则 2.4 一致性原则 2.5 防错.防呆原则 2.6 ...

  6. 统计遗传学:第三章,群体遗传

    3. 群体遗传 大家好,我是飞哥. 前几天推荐了这本书,可以领取pdf和配套数据代码.这里,我将各个章节介绍一下,总结也是学习的过程. 引文部分是原书的谷歌翻译,正文部分是我的理解. 第一部分基础,分 ...

  7. 细菌如何交流和占地盘——细菌的群体感应和生物膜

    谷禾健康 有人在的地方就有江湖,这也同样适用于细菌. 单个细菌的行动往往只是徒劳,然而当它们在一起的时候,集体行动的能力令人刮目相看. 细菌使用化学物质作为它们的"语言",使用化学 ...

  8. 群体进化技术原理和研究思路

    学习链接 https://www.bilibili.com/video/BV11X4y1G7ZM/?spm_id_from=333.788.recommend_more_video.10 不同生存条件 ...

  9. 美国科学院学报:如何在竞争激烈的环境下维持稳定的群体

    行为决策演化示意图.最上面一行是混合群体,下面两行是网络群体.相比于混合群体,网络促使合作者聚集成团簇,但是惩罚的加入将破坏合作环境. 来源:中国科学院 西安光机所李学龙研究员同合作者在数据驱动的行为 ...

最新文章

  1. Markdown创建页面和目录?
  2. 获300万美元融资!Dgraph宣布:其图数据库正式发布!
  3. tableau实战系列(四)用条形图或环形图来呈现进度百分比
  4. webpack devserver配置_webpack中webpack-dev-server的contentBase和index属性实测
  5. go基础库之环境变量的获取与设置以及如何使用默认值
  6. SQL注入——基于联合查询的字符型GET注入(三)
  7. c#sql防注入模糊查询_SQL中利用LIKE实现模糊查询的功能
  8. sd卡有多个android文件夹,android - 如何adb拉出SD卡中存在的文件夹的所有文件
  9. Laravel 打造一个完整的项目
  10. if判断用户名 linux,Shell脚本IF条件判断和判断条件总结
  11. CSS3 鲜为人知的属性-webkit-tap-highlight-color的理解
  12. TTU智能配电终端_【TMT投资】智能配电网简析(上)
  13. java html5 cms_18个开源的Java CMS
  14. 【面经】数据开发一面-美团暑期实习
  15. win7系统文件夹共享后有锁图标怎么去掉?
  16. 变焦单目论文阅读笔记
  17. tomcat启动后出现乱码解决
  18. 动态监控zookeeper服务节点变动(附zkUI使用)
  19. NdisFilter驱动数据全部转发到应用层的性能之优化(使用共享环形队列方式)
  20. 自由与规则——《程序员羊皮卷》

热门文章

  1. 中控系统Android源码
  2. 将地图下载器下载到的缓存文件上传到arcgis服务器
  3. MQTT客户端测试工具(模拟器)
  4. php有strock吗,HTML中stroke是什么意思?
  5. 持续集成服务器(CruiseControl)安装和配置
  6. 数据库系统概念第六版 第四章练习题 12 14 18
  7. ECharts实现数据可视化 “ 10分钟入门 “ 教程(超详细)
  8. 销售管理系统c语言实验报告,汽车销售信息管理系统程序设计实验报告.DOC
  9. 怎么使用 javah 工具生成 C 语言头文件
  10. Linux打包解压命令:tar