测序比对的方法——bowtie
此处仅记录用法,详细步骤查看官方文件:https://github.com/BenLangmead/bowtie/blob/master/MANUAL
bowtie简介
[Bowtie] is an ultrafast, memory-efficient short read aligner geared
toward quickly aligning large sets of short DNA sequences (reads) to
large genomes. It aligns 35-base-pair reads to the human genome at a
rate of 25 million reads per hour on a typical workstation. Bowtie
indexes the genome with a [Burrows-Wheeler] index to keep its memory
footprint small: for the human genome, the index is typically about
2.2 GB (for unpaired alignment) or 2.9 GB (for paired-end alignment).
Multiple processors can be used simultaneously to achieve
greater alignment speed. Bowtie can also output alignments in the
standard [SAM] format, allowing Bowtie to interoperate with other tools
supporting SAM, including the [SAMtools] consensus, SNP, and indel
callers. Bowtie runs on the command line under Windows, Mac OS X,
Linux, and Solaris.
1.建立索引
bowtie-build GRCh38.primary_assembly.genome.fa human1
得到文件如下:
-rw-r--r-- 1 med-zhouh med-chenh 808M Jun 27 16:06 human1.1.ebwt
-rw-r--r-- 1 med-zhouh med-chenh 352M Jun 27 16:06 human1.2.ebwt
-rw-r--r-- 1 med-zhouh med-chenh 12K Jun 27 14:56 human1.3.ebwt
-rw-r--r-- 1 med-zhouh med-chenh 704M Jun 27 14:56 human1.4.ebwt
-rw-r--r-- 1 med-zhouh med-chenh 808M Jun 27 17:15 human1.rev.1.ebwt
-rw-r--r-- 1 med-zhouh med-chenh 352M Jun 27 17:15 human1.rev.2.ebwt
2.进行比对
官网实例
bowtie [options]* -x <ebwt> {-1 <m1> -2 <m2> | --12 <r> | <s>} [<hit>]
单端
for i in {Ribo-KO-21,Ribo-KO-24,Ribo-WT-20,Ribo-WT-23}
do
bowtie /data/med-zhouh/index/bowtie_human_h38_index/human1 -m 1 -v 2 --best --strata -q /scratch/2022-07-27/med-zhouh/ADAR_PARCLIP_RIBOSEQ/Reads/bowtie/rmrRNA/${i}.rmrRNA.fq -S ${i}.sam
done
双端
bowtie /data/med-zhouh/index/bowtie_human_h38_index/human1 -m 1 -v 2 --best --strata -1 /scratch/2022-07-27/med-zhouh/ADAR_PARCLIP_RIBOSEQ/Reads/bowtie/rmrRNA/${i}.rmrRNA.fq -2 /scratch/2022-07-27/med-zhouh/ADAR_PARCLIP_RIBOSEQ/Reads/bowtie/rmrRNA/${i}.rmrRNA.fq -S ${i}.sam
不能是压缩包的形式。
参数
-f 指定query文件为fasta格式
-a 保留所有比对结果
-m 指定最大比对到基因组的次数
-v 允许最大错配数,为[0-2]
--al 能map到GENOME的reads,fasta格式
--un 不能map到GENOME的reads,fasta格式
--norc 不输出匹配到负链的结果;如果不想输出比对到正链的结果,则用"--nofw"。不指定该选项则正负链结果都输出
后面依次写上GENOME索引文件,Reads文件,输出结果文件Reads.bwt,日志文件log。
--best、--strata参考 https://www.plob.org/article/932.html
得到结果如下:
(riboseq) [med-zhouh@login01 bowtie]$ head B12-1_FRAS220043011-1r.sam
@HD VN:1.0 SO:unsorted
@SQ SN:chr1 LN:248956422
@SQ SN:chr2 LN:242193529
@SQ SN:chr3 LN:198295559
@SQ SN:chr4 LN:190214555
@SQ SN:chr5 LN:181538259
@SQ SN:chr6 LN:170805979
@SQ SN:chr7 LN:159345973
@SQ SN:chr8 LN:145138636
@SQ SN:chr9 LN:138394717
HD:VN表示版本,SO表示排序方式。
SQ:SN表示参考序列的名称,LN表示参考序列的长度
PG:比对时使用的工具指令。
3.把sam文件转化成bam
此处使用工具samtool,官网在这里,详细的资料看官网的具体描述,此处仅为脚本实例记录。
https://github.com/samtools/samtools/tree/develop/examples
samtools view -S ${i}.sam -b > ${i}.bam
####bam文件排序成sort.bam##
samtools sort ${i}.bam -n -o ${i}_sorted.bam
###Sort.bam建立index文件##samtools index ${i}_sorted.bam
####sort.bam进行比对得到bai和stat##samtools flagstat ${i}_sorted.bam > ${i}.stat
####去除PCR重复并建立索引##
samtools markdup -r ${i}.bam ${i}.rmdup.bam
###再重复一个index##
samtools index ${i}.rmdup.bam
###继续比对一下##
samtools flagstat ${i}.rmdup.bam > ${i}.rmdup.stat
bam文件结果如下:
(riboseq) [med-zhouh@login01 bowtie]$ samtools view -h B12-1_FRAS220043011-1r_sorted.bam | head
@HD VN:1.0 SO:queryname
@SQ SN:chr1 LN:248956422
@SQ SN:chr2 LN:242193529
@SQ SN:chr3 LN:198295559
@SQ SN:chr4 LN:190214555
@SQ SN:chr5 LN:181538259
@SQ SN:chr6 LN:170805979
@SQ SN:chr7 LN:159345973
@SQ SN:chr8 LN:145138636
@SQ SN:chr9 LN:138394717
3.2查看生成的bam文件的质量
cat *stat | grep %
得到结果如下 :
6027738 + 0 mapped (15.74% : N/A)
6027738 + 0 properly paired (15.74% : N/A)
0 + 0 singletons (0.00% : N/A)
0 + 0 mapped (0.00% : N/A)
0 + 0 properly paired (0.00% : N/A)
0 + 0 singletons (0.00% : N/A)
特别差!!!!所以这个方法不合适,比较好的情况在80-90左右。
4.提取相应的counts
featureCounts -T 20 -p -a /data/med-zhouh/index/bowtie2_human_h38_index/gencode.v40.annotation.gtf -o counts.txt ${i}.rmdup.bam
完成!
测序比对的方法——bowtie相关推荐
- 测序数据的处理方法及装置制造方法及图纸
测序数据的处理方法及装置制造方法及图纸 技术编号:19389025阅读:109留言:0更新日期:2018-11-10 02:04 本发明专利技术公开了一种测序数据的处理方法及装置.其中,该方法包括:拆 ...
- 三代测序数据纠错的方法、装置和计算机可读存储介质与流程
三代测序数据纠错的方法.装置和计算机可读存储介质与流程 文档序号:15616049发布日期:2018-10-09 21:24 导航: X技术> 最新专利>计算;推算;计数设备的制造及其应用 ...
- 单细胞测序数据的降维方法及细胞亚型鉴定聚类方法总结
图1.细胞亚型的鉴定及分析(Stegle et al. NATURE REVIEWS | GENETICS, 2015) 随着单细胞测序技术的发展,每个研究或实验中测定的细胞数量在显著增加.现在很多单 ...
- 单细胞测序数据的降维方法及细胞亚型的鉴定聚类方法总结
图1.细胞亚型的鉴定及分析(Stegle et al. NATURE REVIEWS | GENETICS, 2015) 随着单细胞测序技术的发展,每个研究或实验中测定的细胞数量在显著增加.现在很多单 ...
- Nature综述:宏基因组测序研究耐药基因的方法和资源
本文转自红皇后学术,链接 https://mp.weixin.qq.com/s/2QMrq6hwr4mIPSpe_rfXJg 论文信息 论文题目:Sequencing-based methods an ...
- 文献翻译-北京大学黄岩谊课题组在nature biotechnology的ECC测序方法文章
原文:http://dx.doi.org/10.1038/nbt.3982 Highly accurate fluorogenic DNA sequencing with information th ...
- Nature子刊:三代测序重构菌株水平宏基因组序列的计算框架iGDA
https://doi.org/10.1038/s41467-021-23289-4 2021年5月24日,美国西奈山伊坎医学院冯智星等在Nature Communications发文题为Detect ...
- 天昊生物16S扩增子绝对定量测序项目文章再次登陆《Science of the Total Environment》...
中国科学院南京土壤所王辉研究员课题组与南京农业大学生科院崔中利教授课题组合作的研究成果近期发表在环境科学与生态学TOP期刊<Science of the Total Environment> ...
- 全长转录组测序在植物中的应用研究进展 赵陆滟,曹绍玉,龙云树,张应华,许俊强
基因组和转录组测序是生命科学领域的基础 性工作[1].高通量测序技术正向着高通量.低成本.长读取长度的方向发展.一代[2-3] .二代[4-7]测序技术,加快了高通量测序时代的到来,也从单个基因位点的 ...
最新文章
- Mysql 安全加固
- 【算法】算法测试题4:最长公共连续子串
- Android自定义app图标,自定义app图标(Icon) - Cordova中文网
- 神策数据携手百丽国际,专注品牌零售行业数字化未来
- 白话SpringCloud | 第五章:服务容错保护(Hystrix)
- 织梦 mail.class.php,详解织梦模板DEDECMS核心类TypeLink.class.php功能分析
- tcp连接工具_基于Swoole如何搭建TCP服务,你掌握了吗?
- Flutter RotatedBox 旋转组件
- 【java】 java 反序列化过滤器 ObjectInputFilter
- spring boot logback_logstash配合spring boot-logback项目实时传输日志
- Ie和firefox的Javascript区别
- python网络蜘蛛
- esp8266开发入门教程(基于Arduino)——编程基础介绍
- 分布式数据库核心原理
- 数据分析之方差分析(ANOVA)
- 根据日期参数查询润乾报表
- unity 摄像头跟着鼠标移动_lwj_unity_模拟第一人称摄像机前后左右移动、摄像机随鼠标移动旋转、鼠标点击添加物体...
- 抖音视频选择封面android,抖音视频封面怎么选取?
- ANT下载和配置 IDEA
- 痱子和湿疹的区别在哪里?
热门文章
- pmp访谈法和焦点小组区别_时间,空间和访谈
- 避开假八层的温柔陷阱——浅谈六层板的叠层
- 会c++有必要学python吗_你应该学Python还是C++
- 基于深度模型的Out of Distribution(OOD)检测相关方法介绍
- 宫崎骏:就知道你会回来的
- html正则匹配img src,匹配img标签及img 的src的正则表达式
- 链表的回文结构@Nowcoder—— 单链表
- flink的(Sliding)滑动窗口
- Matlab中randint()、rand()与randi()函数
- testlink的灵活运用