TASSEL5中利用GLM模型进行GWAS分析
GLM(General Linear Model),指一般线性模型,其直接将基因型X和表型数据Y进行线性拟合,使用计算公式表示为:Y = Xα + Zβ + e。公式各组分含义如下:
y:表型性状;
Xα:群体结构,作为固定效应(Fix Effect);
Zβ:标记效应(Marker Effect);
e:残差。
本文使用TASSEL5软件中GLM模型进行关联分析,使用三个示例文件,基因型文件-mdp_genotype.hmp.txt,群体结构文件-mdp_population_structure.txt和表型文件(mdp_traits.txt)。以开花期为例,使用的GLM统计模型为:
开花期=群体结构+标记效应+残差
使用TASSEL5分析流程如下:
一、基因型文件过滤
主要包括删除单态性位点和低频率的位点。选择基因型文件mdp_genotype,点击Filter-Sites选项;设置Minimum Frequency为0.05,Maximum Frequency为1.0,Minimum Count为150;勾选Removeminor SNP states选项,单击Filter产生过滤后的基因型文件。
![](/assets/blank.gif)
二、选择性状
选择表型文件mdp_traits.txt,点击Filter-Traits选项,只对开花期dpoll进行选择。
![](/assets/blank.gif)
点击OK,产生开花期的表型文件。
![](/assets/blank.gif)
三、协变量的选择
群体结构是每个群体的比例输出,本案例包含Q1+Q2+Q3三个群体,将其全部作为协变量会产生线性相依关系,GLM模型可以正确处理这种相依性,而MLM(混合线性模型)则不适用于这种选择。因此,本文使用三个群体作为协变量进行GLM关联分析。
四、数据的合并
按住Ctrl键,同时选择过滤后的基因型文件、开花期表型文件以及群体结构文件,点击Data-Intersect Join选项,产生合并后的文件。
![](/assets/blank.gif)
五、GLM关联分析
选择合并后的文件,点击Analysis-GLM选项进行关联分析。
![](/assets/blank.gif)
可设置Run Permutations为1000,产生分析后的结果文件。
![](/assets/blank.gif)
六、关联分析结果可视化
1、曼哈顿图可视化
选择关联分析后的结果文件,点击Results-Manhattan Plot选项,即产生曼哈顿图。
![](/assets/blank.gif)
2、QQ图可视化
选择关联分析后的结果文件,点击Results-QQ Plot选项,即产生QQ图。
![](/assets/blank.gif)
也可以输出关联分析结果文件,使用其他软件进行可视化。
TASSEL5中利用GLM模型进行GWAS分析相关推荐
- TASSEL5中利用MLM模型进行GWAS分析
简介 MLM,Mixed Linear Model,混合线性模型,是一种方差分量模型.在方差分量模型中,把既含有固定效应,又含有随机效应的模型,称为混合线性模型(百度百科:MLM模型).用公式表示如下 ...
- 在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
在 Apache Spark 中利用 HyperLogLog 函数实现高级分析 预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到1000万 ...
- Python中利用LSTM模型进行时间序列预测分析
时间序列模型 时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征.这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺 ...
- 如何在ArcGIS中利用谷歌高程进行坡度分析
高程.坡度和坡向是小班中非常重要的因子,坡度对水土保持规划设计具有决定性的作用,是土地利用规划和治理措施配置首先要考虑的因素. 这里将以"小金县"为例,说明如何利用谷歌高程地形数据 ...
- GWAS分析中SNP解释百分比PVE | 第三篇,MLM模型中如何计算PVE?
之前,想研究一下GWAS分析汇中PVE(表型方差解释百分比)的计算方法,写了两篇: GWAS分析中SNP解释百分比PVE | 第一篇,SNP解释百分比之和为何大于1? GWAS分析中SNP解释百分比P ...
- GWAS分析中SNP解释百分比PVE | 第四篇,MLM模型中如何手动计算PVE?
系列部分: GWAS分析中SNP解释百分比PVE | 第一篇,SNP解释百分比之和为何大于1? GWAS分析中SNP解释百分比PVE | 第二篇,GLM模型中如何计算PVE? GWAS分析中SNP解释 ...
- 笔记 GWAS 操作流程6-2:手动计算GWAS分析中的GLM和Logistic模型
1. 名词解释 GWAS 全基因组关联分析 手动计算 使用R语言编程GLM模型和Logistic模型,提取Effect和Pvalue GLM 一般线性模型 Logistic 主要分析广义线性模型,Y变 ...
- GWAS分析中SNP解释百分比PVE | 第二篇,GLM模型中如何计算PVE?
上一篇,介绍了一下显著性的SNP,他们的解释表型变异百分比(PVE)之和,为何可能大于1. https://yijiaobani.blog.csdn.net/article/details/12209 ...
- 使用TASSEL学习GWAS笔记(4/6):一般线性模型进行GWAS分析(GLM模型)
笔记计划分为六篇: 第一篇:读取plink基因型数据和表型数据 第二篇:对基因型数据质控:缺失质控,maf质控,hwe质控,样本质控 第三篇:基因型数据可视化:kingship,LD,MDS,PCA ...
最新文章
- SRV记录用来标识某台服务器使用了某个服务,常见于微软系统的目录管理——深入的话需要去折腾Azure Active Directory...
- 机器学习 Softmax classifier (无隐含层)
- c++入门之 再话类
- 移动端浏览器body的overflow:hidden并没有什么作用
- ES6结构赋值的用途
- 利用lay-ui结合ajax实现分页功能(不借助框架,简单易懂)
- java jdk 序列化_JDK 11:Java序列化的终结开始了吗?
- vi/vim使用进阶: 文件浏览和缓冲区浏览
- 黑客演化史:从20世纪60年代至今
- linux下赛车游戏,SuperTuxKart 1.0 发布,开源Linux赛车游戏
- 【人工智能】利用C语言实现KNN算法进行手写数字识别
- 航季日期的过去+java_Java 将一段时间以周、月、季分割
- svg实现loading效果
- 离线安装Ubuntu16.04 NVIDIA1060显卡驱动 CUDA9.0 CUDNN7.0 anaconda TensorFlow-GPU pycharm opencv-python opencv
- redis中内存碎片处理
- FFMPEG解码H264成YUV
- printf输出格式总结
- __new__方法,单例模式的小应用
- php创蓝253四要素认证_创蓝253配置
- 洛谷P4568 [JLOI2011] 飞行路线 题解