一、bwa使用方法


bwa即Burrows-Wheeler-Alignment tool,是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包。它有三个不同的算法:

  • BWA-MEM:推荐使用的算法,支持较长的read长度,同时支持剪接性对比(split alignments),但是BWA-MEM是更新的算法,也更快,更准确,且BWA-MEM对于70bp-100bp的illumina数据来说,效果也更好些;
  • BWA-backtrack:用来比对illumina序列,reads长度最长能到100bp;
  • BWA-SW:用于比对long-read,支持长度为70bp-1Mbp,同时支持剪接性比对

在BWA命令中可以分别调用这三个算法:

bwa mem #BWA-MEMsuanfa
bwa aln #BWA-backtrack
bwa bwasw #BWA-SW
  • bwa的使用

1、对参考基因组构建索引

bwa index -a bwtsw hg19.fa
#-a参数:is[默认] or bwtsw,即bwa构建索引的两种算法,两种算法都是基于BWT的
#-a bwtsw对于短的参考序列是不工作的,必须要大于等于10Mb
#-a is 不适用于大的参考序列,必须要小于等于2G

2、寻找输入reads文件的SA坐标

pair end:
bwa mem hg19.fa read1.fq.gz -l 30 -k 2 -t 4 -I > read1.fq.gz.sai
bwa mem hg19.fa read2.fq.gz -l 30 -k 2 -t 4 -I > read2.fq.gz.sai
single end:
bwa mem hg19.fa read.fq.gz -l 30 -k 2 -t 4 -I > read.fq.gz.sai

主要参数说明

-o int:允许出现的最大gap数
-e int:每个gap允许的最大长度
-d int:不允许在3'端出现大于多少bp的deletion
-i int:不允许在reads两端出现大于多少bp的indel
-l int:read前多少个碱基作为seed,如果设置的seed大于read长度,将无法继续,最好设置在25-35,与-k 2配合使用
-k int:在seed中的最大编辑距离,使用默认2,与-l配合使用
-t int:要使用的线程数
-R int:此参数只应用于pair end中,当没有出现大于此值的最佳比对结果时,将会降低标准再次进行比对。增加这个值可以提高配对比对的准确率,但是同时会消耗更长的时间,默认是32
-I int:表示输入的文件格式为illumina 1.3+数据格式
-B int:设置标记序列。从5'开始多少个碱基作为标记序列,当-B为正值时,在比对之前会将每个read的标记序列剪切,并将此标记序列表示在BC SAM标签里,对于pair end 数据,两端的标记序列会被连接
-b :指定输入格式为bam格式

3、生成sam格式的比对文件

pair end:
bwa sampe -a 500 read1.fq.gz.sai read2.fq.gz.sai read1.fq.gz.read2.fq.gz > read.sam
#-a int:最大插入片段大小
#-o int:pair end两reads中其中之一所允许配对的最大次数,超过该次数,将被视为single end。降低这个参数,可以加快运算速度,对于少于30bp的read,建议降低-o值
#-r str:定义头文件。"@RG ID:foo SM:bar",如果在此步骤不进行头文件定义,在GATK后续分析中还是需要重新增加头文件
#-n int:每对reads输出到结果中的最多比对数
single end:
bwa samse hg19.fa read.fq.gz.sai read.fq.gz.sam > read.fq.gz.sam
#-n int:如果reads比对次数超过多少次,就不在XA标签显示
#-r str:定义头文件。"@RG ID:foo SM:bar",如果在此步骤不进行头文件定义,在GATK后续分析中还是需要重新增加头文件

二、bowtie2使用方法

bowtie2是将测序reads与长参考序列比对的工具。适用于将长度大约为50到100或1000字符的reads与相对较长的基因组(如哺乳动物)进行比对。bowtie2使用FM索引(基于Burrows-Wheeler Transform 或BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G作用。bowtie2支持间隔,局部和双端对齐模式。可以同时使用多个处理器爱极大的提升比对速度。

  • bowtie2使用方法

    1、参考基因组建立索引
bowtie2-build -f hg19.fa --threads 24 <bt2_base>
#-f:指明index的参考fasta文件
#-c:指明index的参考序列
#<bt2_base>:生成的index文件的前缀

2、序列比对

bowtie2 -x hg19 -1 read1.fq.gz -2 read2.fq.gz -S read_bowtie2_sam
#-x:由bowtie2-build所生成的索引文件的前缀
#-1:双端测序的文件1
#-2:双端测序的文件2
#-U:单端测序的文件,可以为多个文件,用逗号隔开
#-S:所生成的SAM格式的文件前缀
#-p:使用的线程数

bwa和bowtie2使用方法相关推荐

  1. bwa、bowtie2、tophat、hisat2 比对软件学习中的笔记整理

    对常用的比对软件学习进行用法整理记录.记录的内容相对简单,详细说明及用法还得参考软件使用说明书 bwa.bowtie2.tophat.hisatbwabwa(Burrows-Wheeler Align ...

  2. Bowtie2使用方法与参数详细介绍

    bowtie 短序列比对工具详解 常见的短序列比对工具有很多,如fasta.blast.bowtie.shrimp.soap等.每个工具都有其自身的优点,但同时也具备了一些缺点.权衡利弊,我选择bow ...

  3. conda安装bowtie2的报错:undefined symbol

    使用conda安装bowtie2遇到undefined symbol报错 /public/home/xuzhougeng/miniconda3/envs/bsseq/bin/bowtie2-build ...

  4. BWA,Bowtie,Bowtie2的比对算法推导

    踏踏实实做技术:BWA,Bowtie,Bowtie2的比对算法推导 孟浩巍​ 各位老铁,各位朋友大家好! 今天给大家介绍一下BWA,Bowtie,Bowtie2比对算法的原理. 二代测序技术或者说是高 ...

  5. bowtie 加mn标签_Bowtie2使用方法与参数详细介绍 - Public Library of Bioinformatics

    Bowtie2 使用方法与参数详细介绍 - Public Library of Bioinformatics 懒人必看 Bowtie2 -q --phred33 --sensitive --end-t ...

  6. Nature子刊:宏基因组中挖掘原核基因组的分析流程

    宏基因组中挖掘原核基因组的分析流程 从宿主相关的短读长鸟枪宏基因组测序数据中恢复原核基因组 Recovering prokaryotic genomes from host-associated, s ...

  7. 木桶排序算法_【生信常识】二代测序的比对算法浅析

    前言 本来我只打算将孟大哥的视频内容做一个文字版的概述,然后孟大哥说,不如再加一个算法推导吧,然后我就开始看多一些东西,然后就想着把孟大哥视频里面大概提及然后没有仔细讲的部分做一些补充,完善整个体系的 ...

  8. 外显子和基因组基本概念(一)

    聊生信团队近期梳理了一些外显子和基因组相关的基本概念,便于理解后续的相关生信分析. 基因组(Genome):分子生物学和遗传学领域中指生物体所有遗传物质的总和,包括DNA或RNA(病毒).DNA具体包 ...

  9. 生信小白学习日记Day2-2——NGS基础 NGS分析

    2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学 ...

最新文章

  1. 最新!2021 中国内地大学 ESI 排名出炉
  2. linux命令grep如何使用,Linux下如何使用grep搜索文本
  3. 线程通信机制之定时器队列
  4. Grub2中文指南4---开机影像和主题
  5. 对象与控件如何建立关联
  6. bark 自建服务器,开发者的专属推送小工具 - Bark
  7. BAJT 中高级 Java 面试题答案
  8. Java 数据字典的实现
  9. 有道词典的本地/扩展/离线词库
  10. java switch语句的升级
  11. [DA45] 信用卡诈骗分析
  12. [linux虚拟机] 使用yum命令时,解析不了yum源,Cannot find a valid baseurl for repo: base/7/x86_6
  13. 000001历史数据_上证指数(000001) 的历史行情2000
  14. Qt编译zlib完成文件压缩解压(Ubuntu18.04)
  15. 安装gosublime插件出现See the `Quirks` section of USAGE.md for info
  16. 实对称矩阵的特征值求法_机械振动理论(3)-解析实模态分析
  17. 嵌入式软件开发之------浅析linux根文件系统挂载(九)
  18. 2225年,人类可以通过脑机永生?
  19. javascript编写的网页小游戏,很给力
  20. 定义留存收益科目(Retained Earnings Account)

热门文章

  1. Spring加载流程源码解析
  2. 熟悉c语言,熟悉c语言编程环境.ppt
  3. DIV css中cursor属性详解-鼠标移到图片变换鼠标形状 (转)
  4. tfrecord读取过程简介
  5. 微信登录失败,10003
  6. unity 跟随手指摇杆
  7. php数组循环添加键值对
  8. Jdk中没有jre文件夹怎么办?
  9. free命令详解(转载)
  10. Linux shell脚本按住任意键继续操作