处理NGS数据的生信人员每天都会接触各种数据格式,什么sam、bam、bed、vcf、gvcf等,大家对sam和bam都听得比较多,可能对cram不熟悉,此篇博文梳理下三个以‘AM’ 结尾的文件,不会具体说明三个文件的具体格式,因为已经有很多博文讲到了,可自行百度、Google。

  • SAM

  • sam(Sequence Alignment Mapping) 序列比对映射,纯文本格式,所以直接用more命令或者其他查看文本的命令可以打开,基本格式就是下图这样
  • BAM

  • BAM文件是SAM文件的二进制格式,由bwa的开发者李恒(lh3)设计开发,采用一种比gz更加高效的压缩算法,对其进行压缩,它的文件大小差不多只有原来的1/6。比如一个平均100X的WES样本,sam文件差不多30G,而bam文件5G不到。
  • CRAM

  • 有人习惯将其称为BAM的高压缩格式,因为它和BAM/SAM的格式基本相同。
  • 可以通过samtools view -C -T hg19.fa N190446.sort.bam > N190446.sort.cram 命令进行bam和cram的转换,但是速度很慢,压缩后的文件更小了,还是上面的例子,压缩后只有1G左右。
  • 关于sam、bam、cram之间的相互转换,有很多其他文章可参考,在这里不再赘述。
  • 李恒(lh3)说CRAM一定会取代BAM。我想这必将很大程度上解决NGS数据存储的问题,尤其是WGS时代的到来,让我们拭目以待。

SAM BAM 和 CRAM相关推荐

  1. pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)--转载...

    pysam 模块介绍!!!! http://pysam.readthedocs.io/en/latest/index.html 在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.b ...

  2. 使用samtools来对sam/bam/cram相互转换

    使用samtools来对sam/bam/cram相互转换 1.sam <=>bam samtools view -h NA12878.bam >NA12878_2.sam samto ...

  3. linux bam文件格式,pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)...

    在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.bcf文件.目前已经有一些主流的处理此类格式文件的工具,如samtools.picard.vcftools.bcftools,但此 ...

  4. 对sam/bam文件进行操作

    对sam/bam文件进行操作 1.view -b:输出bam格式,用于后续分析 -h:默认输出sam文件不带表头,该参数设定后输出带表头信息 sam文件转换为bam文件 samtools view - ...

  5. SAM/BAM相关的进阶知识

    1. samtools和picard的排序问题 samtools和picard都有对SAM/BAM文件进行排序的功能,一般都是基于坐标排序(还提供了-n选项来设定用reads名进行排序),先是对chr ...

  6. NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式

    NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章: 二代测序方法:DNA测序之靶向重测序 NGS数据分析实践:00. 变异识别的基本流程 ...

  7. 使用picard工具去重自己的sam/bam数据

    目录 Building Picard Running Tests 去重自己的sam/bam数据 picard是一组用于操作高通量测序 (HTS) 数据和格式的 Java 命令行工具. Picard 是 ...

  8. sam/bam格式说明

    在生物信息学中尤其是高通量测序数据分析中,大部分的操作都是在实现短片段序列与参考序列的比对(mapping),比如bowtie等,这就涉及到如何使用一个统一的格式来表示这种mapping结果呢,sam ...

  9. Edit Distance编辑距离(NM tag)- sam/bam格式解读进阶

    sam格式很精炼,几乎包含了比对的所有信息,我们平常用到的信息很少,但特殊情况下,我们会用到一些较为生僻的信息,关于这些信息sam官方文档的介绍比较精简,直接看估计很难看懂. 今天要介绍的是如何通过b ...

最新文章

  1. python3读取excel文件(xls/xlsx)
  2. 高并发 python socket send 异步_对于Python中socket.listen()与多线程结合的困惑?
  3. 【GIF动画+完整可运行源代码】C++实现 堆排序——十大经典排序算法之七
  4. 托福试卷真题_托福反复考,反复不过百,你还不知道是谁的问题吗?
  5. xp精简工具_办公人士需要精简Win10吗?
  6. 崇天老师python123测验6_嵩天老师python123测验1: Python基本语法元素 (第1周)
  7. 把表单转成json,并且name为key,value为值
  8. FireFox不支持InnerText的解决方法
  9. 使用jquery 动态操作添加/删除tr td
  10. python爬虫预测_从爬虫到机器学习预测,我是如何一步一步做到的?
  11. GPO组策略 权限处理之原则
  12. idea 设置author 设置黑色主题
  13. Fragstats计算景观格局指数(初学指南)
  14. matlab上位机电机,基于MATLAB的电机综合性能测试系统上位机软件设计
  15. 下载xlsx文件打开一直提示文件已损坏
  16. 基金净值预测 建模方案 | 大数据+深度学习应用
  17. Asset Catalog Compiler Warning Group
  18. 走出计算机安全防范的六个误区
  19. 一个家庭幸不幸福,80%以上取决于女主人。有一种女人嫁给谁都幸福
  20. 【分治思想】12627 Erratic Expansion

热门文章

  1. ubuntu下火狐浏览器无法播放视频解决方案(适用20.04及以上)
  2. moinmoin 1.9.7 成功移机记录
  3. 红黑树RBT的原理分析及实现
  4. 800G以太网强势来袭:你准备好了吗?
  5. 175.纯 CSS 实现视频转场特效
  6. 基于spacedesk的扩展屏的优化
  7. tensorflow镜像版本下载
  8. Sparrow项目疑问解答
  9. 金融风险之欺诈分类以及银行防控体系简述
  10. 刚提测就改需求,我是渣男吗?