欢迎关注”生信修炼手册”!

文库复杂度对应的英文如下

Library Complexity

表示的是文库中unique的分子数目,unique分子数目越多,文库复杂度越高。在数据分析中,重复序列会对下游分析造成影响,在snp calling, peak caling等分析前都需要去除文库中的重复序列。

只有一个复杂度高的文库,才能确保挖掘出更多有效的信息,所以在数据分析中,需要对文库的复杂度进行评估。本文主要介绍下通过picard这个工具来评估文库复杂度,用法如下

java -jar picard.jar \
EstimateLibraryComplexity \
I=input.bam \
O=lib_complex_metrics.txt

基本用法非常简单,只需要指定输入输出即可,输入文件为比对产生的bam文件,输出文件记录了文库复杂度信息,其内容如下

为了方便展示,这里我截取了部分重点内容并进行了转置,其中有3个指标识别需要重点关注

  1. READ_PAIRS_EXAMINED, bam文件中包含的序列数,这里以fragment为单位,默认会根据MAPQ值对bam文件中的reads进行过滤,这里统计的是过滤之后的序列数

  2. READ_PAIR_DUPLICATES,bam文件中包含的重复序列数

  3. ESTIMATED_LIBRARY_SIZE, 预测出来的文库中unique分子的数目

通过序列数和重复序列数,有对应的公式来计算unique分子数目,公式如下

其中N表示bam文件中的序列数,C表示bam文件中的unique序列数,用序列数减去重复序列数即可得到,N就是文库中unique分子数目,即library size。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

更多精彩

  • KEGG数据库,除了pathway你还知道哪些

  • 全网最完整的circos中文教程

  • DNA甲基化数据分析专题

  • 突变检测数据分析专题

  • mRNA数据分析专题

  • lncRNA数据分析专题

  • circRNA数据分析专题

  • miRNA数据分析专题

  • 单细胞转录组数据分析专题

  • chip_seq数据分析专题

  • Hi-C数据分析专题

  • HLA数据分析专题

  • TCGA肿瘤数据分析专题

  • 基因组组装数据分析专题

  • CNV数据分析专题

  • GWAS数据分析专题

写在最后

转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。

扫描下方二维码,关注我们,解锁更多精彩内容!

一个只分享干货的

生信公众号

使用picard评估文库复杂度相关推荐

  1. 炎症标记物辅助评估银屑病活动度以及依那西普疗效

    原文 译文 Clin Exp Dermatol. 2011 Jul 25. doi: 10.1111/j.1365-2230.2011.04131.x. [Epub ahead of print] T ...

  2. 《智能数据时代:企业大数据战略与实战》一2.3 自我评估、完善度、信息架构...

    本节书摘来自华章出版社<智能数据时代:企业大数据战略与实战>一书中的第2章,第2.3节,作者 TalkingData ,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  3. 转 影像质量评估之锐利度--MTF(SFR)

    转载 https://blog.csdn.net/qq61394323/article/details/38454969 影像质量评估之锐利度–MTF(SFR) 2014年08月09日 11:23:0 ...

  4. 演进式架构学习笔记(一):架构评估及适应度函数

    适应度函数,本质上就是一组评估函数,用以评估架构在不同维度上的表现,并从全局角度进行平衡,从而实现增量和引导式演进.简言之,其实就是能够构建出一套架构监控机制. 适应度函数,并不一定全部采用自动化手段 ...

  5. 影像质量评估之锐利度--MTF(SFR)

    由于最近需要写一个Camera 自动调焦的程式,需要用到MTF(Modulation Transfer Function),其中MTF有很多实现算法,本人目前使用SFR(spatial frequen ...

  6. 360 度评估的优缺点

    评估是任何有效绩效管理策略的关键部分.虽然传统的绩效评估允许主管向他们的直接下属提供反馈,但从组织不同级别的多个来源收集反馈可能是一种更有效的员工发展方法. 全方位的具体.实时反馈对话,向上.向下和同 ...

  7. 39个工具,120种组合深度评估 (转录组分析工具哪家强)

    前言 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 (重磅综述:三万字 ...

  8. 39个转录组分析工具,120种组合评估

    RNA-seq工具哪家强 RNA-seq分析工具知多少 RNA-seq是研究转录组应用最广泛,也最重要的技术之一.RNAseq其分析内容包括序列比对.转录本拼装.表达定量.差异分析.融合基因检测.可变 ...

  9. 利用lightgbm做learning to rank 排序,解析模型中特征重要度

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很 ...

最新文章

  1. python学习笔记(一)之入门
  2. 关闭计算机后自动开机的解决方法
  3. 阅读A Practical Guide to Support Vector Classification
  4. [YTU]_2442( C++习题 矩阵求和--重载运算符)
  5. Image and video pencil sketch with OpenCV 3.X and CUDA
  6. Ubuntu下MySQL忘记root密码重置
  7. (16)Verilog模块例化-基本语法(四)(第4天)
  8. 在被打击后的心里变化
  9. matlab对excel数据求均值,matlab对excel数据的处理,判断时间是否相同,求均值
  10. 微信点击右上角 在浏览器中打开代码
  11. 随机过程(4)——马尔可夫链
  12. 邱锡鹏神经网络怎么样,邱锡鹏神经网络答案
  13. 知乎凡尔赛沙雕语录,究竟有多沙雕?
  14. 过等保是什么意思?能简单解释下吗?
  15. Spring 概述及优点
  16. 计算机打字教程ppt,计算机打字基础教学.ppt
  17. Qt创建停靠悬浮窗口实例
  18. 如何将MP4视频转换为MP3音频
  19. [4G5G专题-30]:物理层-基带无线资源、物理层帧结构、无线资源调度
  20. 服务器连无线路由器视频教程,远程服务器路由器设置教程视频

热门文章

  1. 行业新宠——虚拟带库
  2. BIOS E820 等相关中断
  3. 双十一购物节,iFunk双子苏宁发售
  4. sql server添加数据库管理员
  5. 《理财有道》读书心得
  6. 同步机无传感滑膜观测器模型加代码
  7. 解决:hadoop2.5.2 HA启动时出现了两个standy的Namenode,没有出现active的Namenode
  8. [NLP]—sparse neural network最新工作简述
  9. 服装行业2023开年现状速递/服装行业的风险及应对方式/有这些特征的服装企业更容易翻身
  10. 三子棋_井字棋(C语言实现)