SAM BAM 和 CRAM
处理NGS数据的生信人员每天都会接触各种数据格式,什么sam、bam、bed、vcf、gvcf等,大家对sam和bam都听得比较多,可能对cram不熟悉,此篇博文梳理下三个以‘AM’ 结尾的文件,不会具体说明三个文件的具体格式,因为已经有很多博文讲到了,可自行百度、Google。
SAM
- sam(Sequence Alignment Mapping) 序列比对映射,纯文本格式,所以直接用more命令或者其他查看文本的命令可以打开,基本格式就是下图这样
BAM
- BAM文件是SAM文件的二进制格式,由bwa的开发者李恒(lh3)设计开发,采用一种比gz更加高效的压缩算法,对其进行压缩,它的文件大小差不多只有原来的1/6。比如一个平均100X的WES样本,sam文件差不多30G,而bam文件5G不到。
CRAM
- 有人习惯将其称为BAM的高压缩格式,因为它和BAM/SAM的格式基本相同。
- 可以通过samtools view -C -T hg19.fa N190446.sort.bam > N190446.sort.cram 命令进行bam和cram的转换,但是速度很慢,压缩后的文件更小了,还是上面的例子,压缩后只有1G左右。
- 关于sam、bam、cram之间的相互转换,有很多其他文章可参考,在这里不再赘述。
- 李恒(lh3)说CRAM一定会取代BAM。我想这必将很大程度上解决NGS数据存储的问题,尤其是WGS时代的到来,让我们拭目以待。
SAM BAM 和 CRAM相关推荐
- pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)--转载...
pysam 模块介绍!!!! http://pysam.readthedocs.io/en/latest/index.html 在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.b ...
- 使用samtools来对sam/bam/cram相互转换
使用samtools来对sam/bam/cram相互转换 1.sam <=>bam samtools view -h NA12878.bam >NA12878_2.sam samto ...
- linux bam文件格式,pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)...
在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.bcf文件.目前已经有一些主流的处理此类格式文件的工具,如samtools.picard.vcftools.bcftools,但此 ...
- 对sam/bam文件进行操作
对sam/bam文件进行操作 1.view -b:输出bam格式,用于后续分析 -h:默认输出sam文件不带表头,该参数设定后输出带表头信息 sam文件转换为bam文件 samtools view - ...
- SAM/BAM相关的进阶知识
1. samtools和picard的排序问题 samtools和picard都有对SAM/BAM文件进行排序的功能,一般都是基于坐标排序(还提供了-n选项来设定用reads名进行排序),先是对chr ...
- NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式 2. sam和bam格式 系列文章: 二代测序方法:DNA测序之靶向重测序 NGS数据分析实践:00. 变异识别的基本流程 ...
- 使用picard工具去重自己的sam/bam数据
目录 Building Picard Running Tests 去重自己的sam/bam数据 picard是一组用于操作高通量测序 (HTS) 数据和格式的 Java 命令行工具. Picard 是 ...
- sam/bam格式说明
在生物信息学中尤其是高通量测序数据分析中,大部分的操作都是在实现短片段序列与参考序列的比对(mapping),比如bowtie等,这就涉及到如何使用一个统一的格式来表示这种mapping结果呢,sam ...
- Edit Distance编辑距离(NM tag)- sam/bam格式解读进阶
sam格式很精炼,几乎包含了比对的所有信息,我们平常用到的信息很少,但特殊情况下,我们会用到一些较为生僻的信息,关于这些信息sam官方文档的介绍比较精简,直接看估计很难看懂. 今天要介绍的是如何通过b ...
最新文章
- python3读取excel文件(xls/xlsx)
- 高并发 python socket send 异步_对于Python中socket.listen()与多线程结合的困惑?
- 【GIF动画+完整可运行源代码】C++实现 堆排序——十大经典排序算法之七
- 托福试卷真题_托福反复考,反复不过百,你还不知道是谁的问题吗?
- xp精简工具_办公人士需要精简Win10吗?
- 崇天老师python123测验6_嵩天老师python123测验1: Python基本语法元素 (第1周)
- 把表单转成json,并且name为key,value为值
- FireFox不支持InnerText的解决方法
- 使用jquery 动态操作添加/删除tr td
- python爬虫预测_从爬虫到机器学习预测,我是如何一步一步做到的?
- GPO组策略 权限处理之原则
- idea 设置author 设置黑色主题
- Fragstats计算景观格局指数(初学指南)
- matlab上位机电机,基于MATLAB的电机综合性能测试系统上位机软件设计
- 下载xlsx文件打开一直提示文件已损坏
- 基金净值预测 建模方案 | 大数据+深度学习应用
- Asset Catalog Compiler Warning Group
- 走出计算机安全防范的六个误区
- 一个家庭幸不幸福,80%以上取决于女主人。有一种女人嫁给谁都幸福
- 【分治思想】12627	Erratic Expansion