Sentieon软件忠于BWA、GATK、MuTect、MuTect2、STAR、Minimap2金标准的数学模型,在保证结果完全匹配GATK/BWA金标准的前提下,分析效率提升10倍以上。Sentieon为大群组项目提供一站式Joint Calling解决方案,最大可处理10万个WGS样本的Joint Calling,无需中间步骤。为了方便用户自定义BAM流程,Sentieon提供了Python API Engine。提供UMI模块,替代Fgbio/picard,在更高精度的条件下UMI分析速度提升20倍。提供替代STAR的加速模块,为单细胞测序RNA-seq提供加速计算。

@毅硕科技 整理了日常测试-试用Sentieon软件过程中常见问题的解答列表,方便大家更快速的上手Sentieon软件,应用于遗传变异、体细胞变异、肿瘤NGS分析等方向。


Sentieon软件常用的链接

Q: 请问我去哪里下载Sentieon软件和手册?

A: 您可以到以下链接下载最新版的Sentieon软件和使用手册?
https://share.weiyun.com/HzAXQoGH

Q: 请问有中文的软件技术支持吗?

A 您可以登录一下网站了解Sentieon软件的中文支持:
https://www.insvast.com/sentieon

Q: 请问Sentieon的模块和GATK模块有哪些版本对应:

A: 关于这个问题,您可以访问Sentieon的对应GATK的说明:
https://support.sentieon.com/appnotes/arguments

Q: 使用Sentieon软件进行NGS分析时,有推荐的pipeline脚本吗?

A: 您可以访问GitHub上由Sentieon官方维护的示例脚本,在此提示,这些脚本参数仅作为参考,具体样本类型和分析情况要咨询技术支持人员:
https://github.com/Sentieon/sentieon-scripts/tree/master/example_pipelines

Sentieon功能的问题

Q: panel用DNAscope比dnaseq更加准确是吗?

A: DNAscope的训练集中不包括100x以上的高深度区域,在改进DNAscope之前,panel样本还是推荐使用DNAseq。100X以内的人类WGS/WES,推荐使用DNAscope,不但效率更高,在准确率上也有更好的表现。

Q: 想咨询一下,我目前使用201911版本,这个–umi_post_process的参数是在哪个版本加入的?测试时候会报错:sort: unrecognized option ‘–umi_post_process’

A: 您可以转至链接:https://share.weiyun.com/HzAXQoGH,使用新版本,具体-umi_post_process可以参考下图:

Q:以下脚本可以跑 tumor only吗?

sentieon driver -t 40 -r $GENOME \-i ./6.realign/${sample}_realigned.bam -q ./7.BQSR/${sample}.recal.table \--algo TNhaplotyper2 --tumor_sample ${sample} \--germline_vcf $gnomad \./8.PON/${sample}_output-tnhap2-tmp.vcf.gz \

A: 是的,只有tumor样本,所以是tumor-only。如果是WES或是panel的话,还要在driver后,–algo前,加上–interval [interval.BED]参数,只看interval区域。

Q: sentieon的BQSR输出文件会比gatk4更大吗?8个G的bam跑完BQSR输出文件有22G.

A: GATK4的BQSR把对INDEL 校正的步骤给省略了,所以它的BQSR之后的BAM没有BI/BD tag。Sentieon 的BQSR依然会对SNP和INDEL都做校正,所以输出的BQSR会大很多。我们一般建议存储校正前的BAM和BQSR的table,而不是BQSR之后的BAM,这样可以大大节约存储空间,而且Sentieon的callers都可以同时读入校正前BAM和BQSR table,所以不需要生成校正后的BAM.

Q: 就是只生存矫正后的recal.table吗?

A: 嗯,因为这个table会小很多。然后在跑Sentieon的caller时,在-i参数输入校正前BAM的后面,用-q参数把这个table输入进去。最后再提醒一下,如果-i输入的是已经校正之后的BAM,就不要再输入-q了,否则就会做两次校正,结果就错了。

Q: Base quality score recalibration (skip for panels) 请问panel为什么要跳过BQSR呢?

A: BQSR只推荐在WGS上使用,有正面效果。

Q: 请教一个问题,我在用sentieon提供的数据做测试时,运行sentieon_quickstart.sh,有结果产出,但是run.log里面报错
ERROR: ld.so: object ‘/usr/lib64/libjemalloc.so.2’ from LD_PRELOAD cannot be preloaded: ignored.

A: 因为系统没有安装jemalloc包,可以参考: https://support.sentieon.com/appnotes/jemalloc/

Q: 关于Sentieon BWA的内存占用问题,用500多Mb基因组数据测试的结果是开源bwa和sentieon bwa内存消耗差别不大。但是最近跑了一个小麦的基因组,Sentieon BWA比开源BWA内存开销多20G左右。

A: 默认情况下 Sentieon BWA 比开源BWA消耗的内存是要大,但是Sentieon BWA的速度是开源BWA的两倍,并且Sentieon BWA的内存可以通过设置环境变量bwt_max_mem来调节。Linux系统下Sentieon BWA默认会使用24 GB左右的内存。一般系统内存都会比24G大,所以即使消耗更多内存也在系统可以承受的范围内。如果需要减少BWA内存,可以设置bwt_max_mem环境变量,但是速度也会受影响。具体可以参考:
https://support.sentieon.com/manual/usages/general/#controlling-memory-usage-in-bwa

Q: algo Haplotyper中的参数:
–call_conf
–emit_conf
是怎么计算的?用来达到什么目的?

A: 这两个参数对应GATK HaplotypeCaller的-stand_emit_conf 和 -stand_call_conf,其它参数对应关系可以参考https://support.sentieon.com/appnotes/arguments/#haplotypecaller-halotyper ,默认值都是30

Q: 请问,sentieon的Haplotyper-GVCFtyper流程里包含质量过滤吗?我使用sentieon的quncall流程和传统GATK流程分别对同一组数据做群call,sentieon的结果相较于GATK要少一些,不过基本上全部的sentieon结果都包含于GATK结果里?

A: 这个要看GATK的版本和命令行,以及Sentieon的命令行。如果匹配GATK 3.7, 3.8, 4.0 的默认参数,Sentieon GVCFtyper对应加上–emit_conf=10 --call_conf=10这两个参数。如果匹配GATK 4.1,加上–genotype_model multinomial --emit_conf 30 --call_conf 30

Q: 请问50bp的单端测序,推荐那种比对算法?

A: 短reads一般用bwa-backtrack,单端测序的话,就是跑bwa aln + bwa samse,具体请参考bwa的说明:https://bio-bwa.sourceforge.net/bwa.shtml

Q: 请问下,tnscope给出的vcf文件中base_qual_bias这个过滤标签具体标识的什么意思?

A: 它是看BaseQRankSumPS这个数值,Z-score from Wilcoxon rank sum test of Alt vs. Ref base qualities per sample. 比如某个突变,Alt reads的质量值都普遍低于Ref reads,那这个突变可能就是测序错误而不是真实突变。另外这个标签不是TNscope给的,是后面的filter给的。filter的脚本是python写的,是开源的,可以看到它具体是怎么做的。

【NGS分析工具】Sentieon软件常见问题列表(持续更新...)相关推荐

  1. Web安全工具—nc(瑞士军刀)持续更新

    Web安全工具-nc(瑞士军刀)持续更新 提要:本文主要介绍NC工具的常用功能和原理,其他功能后续可在实际使用中进行学习和记录 简介:NC又被称为netcat,安全界成为瑞士军刀,其通常作用于渗透测试 ...

  2. 【帆软报表】使用技巧及常见问题汇总-持续更新

    [帆软报表]使用技巧及常见问题汇总-持续更新 1.重复与冻结设置,做用:冻结区域 模板-重复与冻结设置 2.单元格有效小数设置 选中单元格-格式-数字-#0.00 3.图表中有效小数设置 图表属性表- ...

  3. Java开发常用软件列表——持续更新

    Java开发常用工具列表 Typora 一款支持Markdown语法的本地文本编辑器,比较适合用来写工作日志. Clover 三叶草,可以把Windows文件夹像浏览器一样用标签组织起来,体验确实能够 ...

  4. 新书《活用UML-需求分析高手》详细大纲(持续更新中)

    本书目前正在编写中,大纲可能会随时调整,欢迎各位朋友提出宝贵意见! 欢迎到umlonline网站学习"活用UML-需求分析高手"课程在线版本: http://www.umlonli ...

  5. mac好用软件推荐(持续更新)

    普通用户电脑一般常用的系统基本都是windows和mac,Windows由于适用性以及普及性都远大于mac,所以市面上绝大部分的软件都是优先针对Windows系统开发,相对的,想要在Windows系统 ...

  6. linux生物代谢图软件,生物图像处理软件汇总(持续更新)

    生物图像处理软件汇总(持续更新) 生物图像处理软件汇总(持续更新) 前言 成像(imaging)是生物学研究的常用手段之一.然而,对于生物学研究者,如何分析成像后的图像数据是一个普遍的难题.对此,前人 ...

  7. 渗透测试工具Burpsuite的使用(持续更新)

    写在前面 本篇文章将介绍渗透测试常用工具Burpsuite的功能和使用方法,重点在于使用步骤 抓包+暴力破解猜解账号和密码 首先抓取数据包 第二步,将数据包送入Intruder 由下图可以看出,现在有 ...

  8. Linaro GCC 交叉编译工具链 国内源下载列表 (持续更新)

    gcc-linaro-4.9-2016.02-x86_64_arm-linux-gnueabihf.tar.xz 链接:https://pan.baidu.com/s/1-DCIVVs6QTGv5tY ...

  9. Spring 常见问题( 持续更新... ... )

    Spring 常见问题 1. Spring循环依赖相关问题 spring三层缓存的第二层缓存有什么用?循环依赖为什么要使用三级缓存?二级不能解决么?beanB从三级缓存中获取beanA以后提升到二级缓 ...

最新文章

  1. 在线作图|你不知道的绘制带聚类树的堆叠柱状图的方法
  2. 专属程序员的编程日历,终于来了 | 10月书讯
  3. tf.nn.softmax参数详解以及作用
  4. redis 3.x windows 集群搭建
  5. Java—Remove Deplicates from Sorted Array(顺序数组中去重位置)
  6. JAVA零为扩展_与Java的初遇——数据类型扩展
  7. 瀑布、V、W、快速原型模型、增量、螺旋模型
  8. C语言题目:5-7 购物(二) (25 分)
  9. 公钥,私钥,对称密钥
  10. springboot中整合elasticsearch(基于springboot2.5.4,es版本7.13.2)
  11. 什么是UL2809认证?
  12. 第 11 章 基于小波技术进行图像融合--MATLAB人工智能深度学习模块
  13. 计算机专业选修课怎么选比较好,你知道怎么选AP课程吗?附AP不同专业方向的选课建议...
  14. mac系统如何新建文件
  15. FPGA中inout端口使用方法总结
  16. 阿里云网站备案-备案流程问题解答汇总
  17. idea回退操作reset、revert
  18. 简单的下拉列表的二级联动、省市
  19. 完整数字华容道03:首页创建
  20. 给大家总结一个海淘Thinkpad的流程、注意事项和常见问题

热门文章

  1. 通用流量录制回放工具 jvm-sandbox-repeater 尝鲜 (二)——repeater-console 使用
  2. 说话人识别损失函数的PyTorch实现与代码解读
  3. Python小项目—照片马赛克
  4. CANopen3.0-数据格式
  5. GRE计算机专项考试题(98) (转)
  6. 最新仿猪八戒威客系统源码网整站源码下载
  7. CodeM资格赛B 锦标赛 题解
  8. CodeM2018游记
  9. GSM模块联网 GPRS上传物联网云平台调试笔记
  10. css3实现无限旋转360度