欢迎关注”生信修炼手册”!

VAF是Variant Allel Frequency的缩写,通常称之为变异等位基因频率, 计算公式如下

从公式上看,描述的是突变的allel对应的reads数目占该位点所有read数目的比例,在VCF文件中,通常以AD这个字段表示allel的测序深度,多个allel的测序深度用逗号连接,DP表示该位点总的测序深度, 举例如下

AD = 4,8
DP = 12

AD这个字段有4和8两个allel, 在二倍体生物中,第一个数字代表ref allel的测序深度,第二个数字代表alt  allel的测序深度,所以该位点在该样本中的VAF=8/12。

对于突变位点而言,还有一个频率,称之为MAF, 全称是Minor Allel Frequency, 描述的是次等位基因在人群中的频率,从这里也可以看出VAF和MAF的不同支持,这两个概念都是针对allel 频率而言的,MAF描述的是allel在人群中的频率,而VAF描述的是allel在某个样本中的频率。

VAF的值的大小有什么含义呢?以二倍体生物为例,假设所有的细胞中该位点都是杂合的,那么50%的染色体上包含了ref allel, 另外50%的染色体上包含了alt allel, 则测序结果中该位点的VAF值应该为0.5。对于germline genotype而言,一个可靠的突变位点其VAF的值应该在0.5附近。

如果VAF偏离0.5很多,说明对应的染色体区域在细胞中不在是两拷贝了,比如VAF的值为0.25, 说明包含alt allel的染色体占1/4, ref allel的染色体占3/4, 按照所有细胞突变情况完全一致的假设,只有当每个细胞中出现了三份拷贝,两份拷贝是ref allel, 一份拷贝是alt allel时,会出现0.25的情况。

对于生殖变异的检测,认为其VAF的偏移来源于拷贝数的变化,对于体细胞检测而言,更多的认为VAF的偏移来源于肿瘤细胞的异质性。在肿瘤组织取样时,不可避免的会混入正常的体细胞,而且考虑到肿瘤微环境本身的复杂性,在肿瘤组织中也会浸润诸如免疫细胞等其他细胞类型,肿瘤细胞本身也可以划分为不同的亚型,考虑到以上种种因素,肿瘤样本是一个多种细胞类型的混合物,更多的认为其VAF的偏移来源于不同细胞类型占比的变化。

在进一步简化这个模型,将肿瘤样本划分为正常体细胞和肿瘤细胞两种,ref allel等于正常细胞x2 + 肿瘤细胞, alt allel 等于肿瘤细胞,VAF的值就可以反映肿瘤细胞和正常细胞的比例,可以用来推测肿瘤纯度。在肿瘤基因组研究中,还会将VAF当做一个marker, 取样本中所有位点VAF的均值当做一个指标,可以比较不同分组,不同肿瘤中VAF分布的差异,也可以根据VAF的高低将样本分组进行生存分析。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

VAF:Variant Allel Frequency简介相关推荐

  1. Topic 9. 克隆进化之 TimeScape

    我们利用Pyclone和CITUP得到了三个文件即cellfreq.txt和tree.txt 和sample_id,下面我们就利用TimeScape搞一下可视化,在这里不会出现具体的基因或突变位点,但 ...

  2. VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法 (转载)

    VAF的概念和计算方法 VAF的全称是Variant Allele Frequency(变异等位基因频率)或Variant Allele Fraction(变异等位基因分数).简单来说就是在基因组某个 ...

  3. R包——maftools可视化神器

    参考:http://bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.html 目录 介绍 准备 ...

  4. GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan_plot | QQ_plot |...

    问题: linkage disequilibrium (LD)和 pairwise correlation的区别?似乎它们都能达到相同的目的. 先从直觉上理解一下GWAS的原理: 核心就是SNP与表型 ...

  5. ANFD-HLA在不同人群中的频率数据库

    欢迎关注"生信修炼手册"! 在研究SNP时,我们有类似1000G,HapMap, Exac 等数据库,提供了不同人群中的频率信息.对于HLA的研究而言,也有存储频率信息的数据库-A ...

  6. 人群频率 | gnomAD数据库简介 (一)

    人群变异频率的重要性 从孟德尔的豌豆到人类的遗传病中提到的,在遗传病患者中,根据人群频率(Frequency in unselected individuals)筛选候选变异是发现致病变异(Causa ...

  7. 时间序列分类算法_时间序列分类算法简介

    时间序列分类算法 A common task for time series machine learning is classification. Given a set of time serie ...

  8. python中nlp的库_单词袋简介以及如何在Python for NLP中对其进行编码

    python中nlp的库 by Praveen Dubey 通过Praveen Dubey 单词词汇入门以及如何在Python中为NLP 编写代码的简介 (An introduction to Bag ...

  9. QIIME 2用户文档. 1简介和安装(2018.11)

    文章目录 写在前面 QIIME 2优势 入门指南 什么是QIIME 2? 核心概念 安装 原生安装QIIME 2 虚拟机安装 使用VirtualBox方式安装 亚马逊云安装 使用Docker方式安装 ...

最新文章

  1. cordova 安装ssl证书_cordova环境配置(android)
  2. c++ char4个字节_西门子PLC的TCP通讯(不同项目下)①--TSEND_C指令
  3. 如何在mapinfo中查看link ID
  4. 浅谈点击信号对搜索的影响
  5. oracle删除查询的数据库语句,Oracle简略的语句 查询 删除 修改(1)
  6. Oracle Database Administrator验证模式
  7. django admin 定制
  8. 计算机专业职称入深户,最近深圳很火的职称入户,到底要选什么职称?
  9. EntityTransaction
  10. 帆软高级函数应用之文本函数
  11. jQuery实现tab选项卡
  12. 如何找到稳定的网站空间
  13. 王道考研数据结构笔记
  14. 【数学】扩展欧几里得算法
  15. win7修复计算机是重装吗,win7系统修复无需重装
  16. [转载]C++URL编码转换
  17. 服务器gpu卡型号V100,NVIDIA GPU服务器升级:16块450W Tesla V100
  18. 计算机模拟地球爆炸,模拟地球爆炸
  19. 线性插值、抛物插值、Lagrange插值 | Lagrange拉格朗日插值法(一)
  20. 数据库异常:无效的授权说明 [ 0x80040e4d ]

热门文章

  1. AD7606 SPI模式 网上问题汇总
  2. 004.python基础知识之基本数据类型及基本运算符
  3. python对excel筛选提取文本中数字_详解利用python提取pdf文本数字
  4. Photoshop菜单_中英文对照
  5. 了解Java的反射机制
  6. HDU 6975 Forgiving Matching 快速傅里叶变换处理带通配符字符串匹配
  7. Lect1_Intro_RL
  8. 【codevs1422】河城荷取 二分+dinic
  9. Python爬取De下载站相关代码
  10. R语言中的函数5:purrr:map()