VAF:Variant Allel Frequency简介
欢迎关注”生信修炼手册”!
VAF是Variant Allel Frequency的缩写,通常称之为变异等位基因频率, 计算公式如下
从公式上看,描述的是突变的allel对应的reads数目占该位点所有read数目的比例,在VCF文件中,通常以AD
这个字段表示allel的测序深度,多个allel的测序深度用逗号连接,DP
表示该位点总的测序深度, 举例如下
AD = 4,8
DP = 12
AD这个字段有4和8两个allel, 在二倍体生物中,第一个数字代表ref allel的测序深度,第二个数字代表alt allel的测序深度,所以该位点在该样本中的VAF=8/12。
对于突变位点而言,还有一个频率,称之为MAF, 全称是Minor Allel Frequency, 描述的是次等位基因在人群中的频率,从这里也可以看出VAF和MAF的不同支持,这两个概念都是针对allel 频率而言的,MAF描述的是allel在人群中的频率,而VAF描述的是allel在某个样本中的频率。
VAF的值的大小有什么含义呢?以二倍体生物为例,假设所有的细胞中该位点都是杂合的,那么50%的染色体上包含了ref allel, 另外50%的染色体上包含了alt allel, 则测序结果中该位点的VAF值应该为0.5。对于germline genotype而言,一个可靠的突变位点其VAF的值应该在0.5附近。
如果VAF偏离0.5很多,说明对应的染色体区域在细胞中不在是两拷贝了,比如VAF的值为0.25, 说明包含alt allel的染色体占1/4, ref allel的染色体占3/4, 按照所有细胞突变情况完全一致的假设,只有当每个细胞中出现了三份拷贝,两份拷贝是ref allel, 一份拷贝是alt allel时,会出现0.25的情况。
对于生殖变异的检测,认为其VAF的偏移来源于拷贝数的变化,对于体细胞检测而言,更多的认为VAF的偏移来源于肿瘤细胞的异质性。在肿瘤组织取样时,不可避免的会混入正常的体细胞,而且考虑到肿瘤微环境本身的复杂性,在肿瘤组织中也会浸润诸如免疫细胞等其他细胞类型,肿瘤细胞本身也可以划分为不同的亚型,考虑到以上种种因素,肿瘤样本是一个多种细胞类型的混合物,更多的认为其VAF的偏移来源于不同细胞类型占比的变化。
在进一步简化这个模型,将肿瘤样本划分为正常体细胞和肿瘤细胞两种,ref allel等于正常细胞x2 + 肿瘤细胞, alt allel 等于肿瘤细胞,VAF的值就可以反映肿瘤细胞和正常细胞的比例,可以用来推测肿瘤纯度。在肿瘤基因组研究中,还会将VAF当做一个marker, 取样本中所有位点VAF的均值当做一个指标,可以比较不同分组,不同肿瘤中VAF分布的差异,也可以根据VAF的高低将样本分组进行生存分析。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!
VAF:Variant Allel Frequency简介相关推荐
- Topic 9. 克隆进化之 TimeScape
我们利用Pyclone和CITUP得到了三个文件即cellfreq.txt和tree.txt 和sample_id,下面我们就利用TimeScape搞一下可视化,在这里不会出现具体的基因或突变位点,但 ...
- VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法 (转载)
VAF的概念和计算方法 VAF的全称是Variant Allele Frequency(变异等位基因频率)或Variant Allele Fraction(变异等位基因分数).简单来说就是在基因组某个 ...
- R包——maftools可视化神器
参考:http://bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.html 目录 介绍 准备 ...
- GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ_plot |...
问题: linkage disequilibrium (LD)和 pairwise correlation的区别?似乎它们都能达到相同的目的. 先从直觉上理解一下GWAS的原理: 核心就是SNP与表型 ...
- ANFD-HLA在不同人群中的频率数据库
欢迎关注"生信修炼手册"! 在研究SNP时,我们有类似1000G,HapMap, Exac 等数据库,提供了不同人群中的频率信息.对于HLA的研究而言,也有存储频率信息的数据库-A ...
- 人群频率 | gnomAD数据库简介 (一)
人群变异频率的重要性 从孟德尔的豌豆到人类的遗传病中提到的,在遗传病患者中,根据人群频率(Frequency in unselected individuals)筛选候选变异是发现致病变异(Causa ...
- 时间序列分类算法_时间序列分类算法简介
时间序列分类算法 A common task for time series machine learning is classification. Given a set of time serie ...
- python中nlp的库_单词袋简介以及如何在Python for NLP中对其进行编码
python中nlp的库 by Praveen Dubey 通过Praveen Dubey 单词词汇入门以及如何在Python中为NLP 编写代码的简介 (An introduction to Bag ...
- QIIME 2用户文档. 1简介和安装(2018.11)
文章目录 写在前面 QIIME 2优势 入门指南 什么是QIIME 2? 核心概念 安装 原生安装QIIME 2 虚拟机安装 使用VirtualBox方式安装 亚马逊云安装 使用Docker方式安装 ...
最新文章
- cordova 安装ssl证书_cordova环境配置(android)
- c++ char4个字节_西门子PLC的TCP通讯(不同项目下)①--TSEND_C指令
- 如何在mapinfo中查看link ID
- 浅谈点击信号对搜索的影响
- oracle删除查询的数据库语句,Oracle简略的语句 查询 删除 修改(1)
- Oracle Database Administrator验证模式
- django admin 定制
- 计算机专业职称入深户,最近深圳很火的职称入户,到底要选什么职称?
- EntityTransaction
- 帆软高级函数应用之文本函数
- jQuery实现tab选项卡
- 如何找到稳定的网站空间
- 王道考研数据结构笔记
- 【数学】扩展欧几里得算法
- win7修复计算机是重装吗,win7系统修复无需重装
- [转载]C++URL编码转换
- 服务器gpu卡型号V100,NVIDIA GPU服务器升级:16块450W Tesla V100
- 计算机模拟地球爆炸,模拟地球爆炸
- 线性插值、抛物插值、Lagrange插值 | Lagrange拉格朗日插值法(一)
- 数据库异常:无效的授权说明 [ 0x80040e4d ]
热门文章
- AD7606 SPI模式 网上问题汇总
- 004.python基础知识之基本数据类型及基本运算符
- python对excel筛选提取文本中数字_详解利用python提取pdf文本数字
- Photoshop菜单_中英文对照
- 了解Java的反射机制
- HDU 6975 Forgiving Matching 快速傅里叶变换处理带通配符字符串匹配
- Lect1_Intro_RL
- 【codevs1422】河城荷取 二分+dinic
- Python爬取De下载站相关代码
- R语言中的函数5:purrr:map()