欢迎关注"生信修炼手册"!

蛋白质是生命活动的基本单位,研究位于编码区的基因组变异,最重要的一点就是分析该变异是否会影响蛋白质的结构与功能。之前的文章中介绍了SIFT软件,本篇介绍另外一款软件PolyPhen-2。

PolyPhen-2 是Polymorphism Phenotyping v2 的缩写,从命名也可以看出,研究的是核苷酸多态和表型之间的关系,这里的核苷酸多态性指的就是SNP位点,而且是非同义突变nonsynonymous SNP位点,简称nsSNPs。表型指的就是蛋白质的结构和功能了,需要注意的一点就是,这款软件只针对human,不研究其他的物种。

官网链接如下

http://genetics.bwh.harvard.edu/pph2/

PolyPhen-2在预测氨基酸替换对蛋白质的影响时,会结合多序列比对的结果和蛋白质的三维结构等信息。它基于一个有监督的机器学习模型,计算出氨基酸替换改变蛋白质结构和功能的可能性。提供了两套数据用于建模,分别是HumDivHumVar

HumVar适用于评估孟德尔遗传病相关的突变位点,而HumDiv适用于评估复杂疾病或者表型的突变位点。两种模型最终都会给出三个值,蛋白质结构和功能发生改变的概率值,假阳性率FPR,真阳性率TPR

在对突变位点分类时,除了概率值以外,还需要关注假阳性率FPR。每种模型对于FPR值定义了不同的阈值。HumDiv模型的阈值为5%/10%,HumVar模型的阈值为10%/20%, 每种模型的阈值都是两个。以HumDiv模型进行说明,在概率值符合要求的条件下,FPR低于第一个值,即5%的变异位点,定义为probably damaging;FPR在第一个值和第二个值中间的,即5%到10%,定义为possibly damaging;高于第二个至,即大于10%,定义为benign。假阳性率越低,说明评估的结果越可靠。

在首页提供了一个在线服务,可以输入蛋白质序列,预测某个位点的氨基酸替换对该蛋白质的影响。

如上图所示,在Protein or SNP identifier对应的输入框中输入蛋白质的ID,默认支持的是UniProtKB数据库, 或者直接输入FASTA格式的蛋白质序列。在Position一栏中,填写氨基酸替换的位置,Substitution中分成两部分,AA1指定原始的氨基酸类型,AA2指定替换后的氨基酸类型,最后在Query description中输入查询的描述信息,点击Submit Query按钮提交即可。

查询的结果是一个html页面,分成了3个部分。

1. Query

对输入的蛋白质的基本信息进行描述,包括氨基酸突变的位置,突变前后氨基酸种类,蛋白质的描述信息等

2. Results

提供了基于HumDivHumVar两套训练数据集的结果,在结果中,会给出一个打分,这个score的取值范围为0-1,越接近1,说明氨基酸替换对蛋白质结构和功能造成影响的概率越大,同时还需要结合假阳性率FPR值做出最终的判断。

3. Details

这部分内容提供了多序列比对和蛋白质三维结构两部分结果。

多序列比对结果如下

蛋白质三维结构结果如下

如果有多个位点的数据需要查询,可以使用Batch query服务,链接如下

http://genetics.bwh.harvard.edu/pph2/bgi.shtml

当然也可以直接下载软件,本地运行,下载链接如下

http://genetics.bwh.harvard.edu/pph2/dokuwiki/downloads

这个软件只对大学和科研工作者免费,其他用户是需要收费的。

官方还提供了一个数据库WHESS, 事先计算了外显子区的非同义突变对蛋白质的影响,链接如下

http://genetics.bwh.harvard.edu/pph2/dbsearch.shtml

支持多种检索方式,具体可以参考官方示例,需要注意的是,基因组的位置是基于hg19版本的。在检索结果中,会给出HDivHVar两套结果,示例如下

扫描关注微信号,更多精彩内容等着你!

PolyPhen:分析人类非同义突变对蛋白质的影响相关推荐

  1. 深度学习模型分析人类复杂疾病的准确性

    原创 梅斯医学 MedSci梅斯既往研究显示,通过全基因组关联研究(GWAS)分析鉴定出的疾病风险变异主要位于基因组的非编码区域中.因此,全基因组图谱的深度学习模型在预测DNA序列的调控作用方面存在着 ...

  2. 10 拷贝数变异分析(非GATK)

    12 拷贝数变异分析(非GATK) CNVkit CNVkit 的用法比较简单,可以参考官网的教程:https://cnvkit.readthedocs.io/en/stable/index.html ...

  3. 分析大数据对思维方式有何影响?了解大数据的特点、来源与数据呈现方式

    这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.浏览2019春节各种大数据分析报告,例如: 这世间, ...

  4. 数据分享|多变量多元多项式曲线回归线性模型分析母亲吸烟对新生婴儿体重影响可视化...

    全文链接:http://tecdat.cn/?p=26147 本文使用的数据集记录了 1236 名新生婴儿的体重(查看文末了解数据获取方式),以及他们母亲的其他协变量(点击文末"阅读原文&q ...

  5. bcftools csq分析基因突变对蛋白水平的影响

    欢迎关注"生信修炼手册"! csq命令可以分析SNP位点在基因组上的位置,同时还会预测基因突变对编码蛋白的影响. 和其他预测基因突变对蛋白质影响的软件不同,bcftools 将基因 ...

  6. 矩量法 惠更斯 matlab,矩量法分析振子天线粗细对天线的影响毕业设计(论文).doc...

    毕业设计(论文) 矩量法分析振子天线粗细对天线的影响 摘 要 在现代通讯系统中,天线是其不可或缺的组成部分.随着科学技术的发展,人们对天线的要求也越来越高.天线技术也变的越来越重要.线状天线是现在天线 ...

  7. 巨大冲击!AlphaFold2再登Nature,从业者都懵了:人类98.5%的蛋白质,全都被预测了一遍...

    梦晨 边策 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 98.5%的人类蛋白质结构被AlphaFold2预测出来了! 而且还做成了数据集,全部免费开放! 在开源AlphaFold2仅一 ...

  8. 7分钟分析人类全基因组,他们刷新全球纪录,此前最快也要24小时

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 7分钟,这是来自中国的一支团队"合力出成绩".一举打破的世界纪录: 全球首次将人类全基因组分析,推进分钟级时代. 这支团 ...

  9. Science | 单细胞分析人类胸腺发育的细胞图谱

    关于人类胸腺细胞的发育及T细胞的发育成熟 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程) ...

最新文章

  1. 升级Jekyll 3.0
  2. 170. Leetcode 135. 分发糖果 (贪心算法-两个维度权衡题目)
  3. 【最常用】两种java中的占位符的使用
  4. 是否可以将 json 反序列化为 dynamic 对象?
  5. Rider IDE恢复了对.NET Core调试的支持
  6. ICSharpCode.SharpZipLib 开源压缩库使用示例
  7. el-table表格在表头和数据行添加图标、处理数据
  8. Struts2增删改查 myeclipse开发文档加项目源码及eclipse开发项目源码
  9. 利用PLL IP核产生用户时钟
  10. matlab中memory模块初始值,Matlab的memory模块消除代数环
  11. 微软 SQL Server 2016 SP1 开发者版入驻 Windows 容器
  12. 633. 平方数之和
  13. lisp块改色_关于CAD制图的技巧:篇九,快速修改颜色。
  14. GitHub 近两万 Star,无需编码,可一键生成前后端代码,开源项目
  15. SQL注入实战 绕WTS-WAF
  16. shc/unshc工具用于加/解密shell脚本
  17. 个人常用iOS第三方库以及XCode插件介绍
  18. 红外热成像仪测温模块简要介绍说明
  19. 解决Win10桌面图标/开始菜单磁贴图标变成白色的问题
  20. 2010年搜索引擎的发展状况

热门文章

  1. 美术鉴赏课的体会和深入理解计算机系统,美术鉴赏课的收获和感想
  2. 五.卡尔曼滤波器(EKF)开发实践之五: 编写自己的EKF替换robot_pose_ekf中EKF滤波器
  3. 会声会影VS剪映?免费虽好,但花钱的快乐你想象不到
  4. 现在学C#有前途吗?
  5. 利用python计算学生成绩
  6. w ndows10启动黑屏,windows10开机黑屏问题以及处理方案
  7. 再见,ofo创始人戴威!
  8. 商人过河问题_6人过河问题_3商人3随从过河问题_python求全部解
  9. 算法设计与分析-11076 浮点数的分数表达
  10. 卷积和互相关操作的关系