宏基因组实战9. 组装assembly和分箱bin结果可视化—Anvi'o
前情提要
如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章
- 宏基因组分析理论教程
- 微生物组入门圣经+宏基因组分析实操课程
- 1背景知识-Shell入门与本地blast实战
- 2数据质控fastqc, Trimmomatic, MultiQC, khmer
- 3组装拼接MEGAHIT和评估quast
- 4基因注释Prokka
- 5基于Kmer比较数据集sourmash
- 5基于Kmer比较数据集sourmash
- 6不比对快速估计基因丰度Salmon
- 7bwa序列比对, samtools查看, bedtools丰度统计
- 8. 分箱宏基因组binning, MaxBin, MetaBin, VizBin
注:之前分享百度云链接已经失效,大家所需的文件可以从原文链接或尝试翻墙下载。
使用Anvi’o工具箱分析宏基因组
https://2017-cicese-metagenomics.readthedocs.io/en/latest/anvio.html
我们将使用Anvi’o可视化组装结果。Anvi’o是一款非常强大,且可扩展的工具箱,主要用于泛基因组分析,也同样适用于宏基因组分析。这个课题组同时每年还会开办一系列精彩的在线教程,就包括宏基因组分析。同时他们还定期举办线下培训班介绍此软件的使用。
今天我们将此软件应用于本教程的宏基因组数据上。
本教程的主要目标:
* 安装anvi’o
* 熟悉anvi’o的工作流程
* 使用anvi’o可视化组装结果
* 熟悉anvi’o工作界面
* 使用anvi’o对分箱结果进行精选和可视化
安装anvi’o及相关程序
使用 Anaconda安装相关程序。如果你安装过conda请跳过。
wd=~/test/metagenome17/
cd $wd
wget https://repo.continuum.io/archive/Anaconda3-4.4.0-Linux-x86_64.sh
bash Anaconda3-4.4.0-Linux-x86_64.sh
# 当访问是否添加环境变量 `$PATH` 至 `.bashrc`,你需要同意输入 yes
source ~/.bashrc
以后可以使用conda安装相关程序,这可以提高安装成功的概率,并解决大部分版本依赖关系,并创建虚拟环境不影响系统的其它软件版本正常使用。
接下来创建anvio工作虚拟环境
conda create -n anvio232 -c bioconda -c conda-forge gsl anvio=2.3.2
source activate anvio232# 想要退出工作环境可执行,目前不要执行
source deactivate anvio232
Anvi’o安装成功后,需要再次检查是否正常工作。运行程序自带测试数据
anvi-self-test --suite mini
此程序运行会产生图形界面环境,使用浏览器访问电脑IP:8080 即可
安装其它使用到的软件
wget https://downloads.sourceforge.net/project/bowtie-bio/bowtie2/2.3.2/bowtie2-2.3.2-linux-x86_64.zip
unzip bowtie2-2.3.2-linux-x86_64.zipecho 'export PATH=~/test/metagenome17/bowtie2-2.3.2:$PATH' >> ~/.bashrc
source ~/.bashrc
sudo apt-get -y install samtools
软件全部完成,开始工作。
生成Anvi’o格式
Anvi’o输入文件需要原始数据和拼接结果
mkdir $wd/anvio-work
cd $wd/anvio-work# 下载,无法连接请翻墙
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948.abundtrim.subset.pe.fq.gz
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1977249.abundtrim.subset.pe.fq.gz
curl -O https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/subset_assembly.fa.gz# 解压
for file in *gzdogunzip $file
done
转换格式
anvi-script-reformat-fasta subset_assembly.fa -o anvio-contigs.fa --min-len 2000 --simplify-names --report name_conversions.txt
结果报告显示如下:
Input ...............: subset_assembly.fa
Output ..............: anvio-contigs.fa
Minimum length ......: 2,000
Total num contigs ...: 9,276
Total num nucleotides: 12,786,925
Contigs removed .....: 7481 (80.65% of all)
Nucleotides removed .: 4054479 (31.71% of all)
Deflines simplified .: True
看一下文件,与之前发生了什么变化吗?主要是短contig被移除,为了便于展示。
bowtie2序列比对
bowtie2比对序列至拼接结果
source deactivate anvio232
# 建索引
bowtie2-build anvio-contigs.fa anvio-contigs# 循环比对每个文件
for file in *fq
do
~/test/metagenome17/bowtie2-2.3.2/bowtie2 --threads 8 -x anvio-contigs --interleaved $file -S ${file/.fq/}.sam
samtools view -U 4 -bS ${file/.fq/}.sam > ${file/.fq/}.bam
donesource activate anvio232
# 转换bam为anvi格式
for file in *.bam
doanvi-init-bam ${file} -o ${file/.bam/}.anvio.bam
done
产生叠连群contig数据库
产生带有注释信息的contig数据库,可以包括物种、功能等。需要做以下三件事:
1) 将大于20kb的contig分割统计
2) 使用Prodigal鉴定ORF,并估计单拷贝基因含量 (使用hmmer比对指定数据库 bacteria和archaea)
3) 计算kmer频率
产生数据库,预测ORF
anvi-gen-contigs-database -f anvio-contigs.fa -o anvio-contigs.db
hmm搜索和鉴定单拷贝基因
anvi-run-hmms -c anvio-contigs.db --num-threads 28
添加reads覆盖度信息,多线程
for file in *.anvio.bam
doanvi-profile -i $file -c anvio-contigs.db -T 28done
CONCOCT分箱并生成anvi可视化文件
anvi-merge *ANVIO_PROFILE/PROFILE.db -o MERGED-SAMPLES -c anvio-contigs.db --enforce-hierarchical-clustering
展示可视化结果
anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db
筛选和筛选bins
统计bin结果
anvi-summarize -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -o SAMPLES-SUMMARY -C CONCOCT
查看统计结果,在SAMPLES-SUMMARY
目录中有网页报告
网页展示结果
anvi-interactive -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -C CONCOCT
# Config Error: HMM's were not run for this contigs database :/
人为挑选bins前,需要备份结果
cp -avr SAMPLES-SUMMARY/ SAMPLES-SUMMARY-ORIGININAL/
人为挑选bin,从bin4开始
anvi-refine -p MERGED-SAMPLES/PROFILE.db -c anvio-contigs.db -b Bin_4 -C CONCOCT
在网页中与结果互动吧!
致谢 Meren 为本教程提供材料!
猜你喜欢
- 一文读懂:1微生物组 2进化树 3预测群落功能
- 热文:1图表规范 2DNA提取 3 实验vs分析
- 必备技能:1提问 2搜索 3Endnote
- 文献阅读 1热心肠 2SemanticScholar 3geenmedical
- 扩增子分析:1图表解读 2分析流程 3统计绘图 4群落功能 5进化树
- 科研团队经验:1云笔记 2云协作 3公众号
- 系列教程:1Biostar 2微生物组 3宏基因组
- 生物科普 1肠道细菌 2生命大跃进 3细胞的暗战 4人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
宏基因组实战9. 组装assembly和分箱bin结果可视化—Anvi'o相关推荐
- 宏基因组实战10. 绘制圈图-Circos安装与使用
前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系列前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...
- 宏基因组实战8. 分箱宏基因组binning, MqaxBin, MetaBin, VizBin
前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...
- 宏基因组实战3. MEGAHIT组装拼接及quast评估
前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...
- 宏基因组实战4. 基因注释Prokka
前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...
- 宏基因组实战7. bwa序列比对, samtools查看, bedtools丰度统计
前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...
- 宏基因组实战6. 不比对快速估计基因丰度Salmon
前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...
- 你想要的宏基因组-微生物组知识全在这(190101)
文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 培训.会议.招聘 科研经验 软件和数据库 扩增子分析 宏基因组分析 Linux与Shell R统计绘图 实验设计与技术 基础知识 一作解读 ...
- 你想要的宏基因组-微生物组知识全在这(181101)
文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 培训.会议.招聘广告 科研经验 软件和数据库 扩增子分析 宏基因组分析 R统计绘图 实验设计与技术 基础知识 必读综述 高分文章套路解读 科 ...
- 你想要的宏基因组-微生物组知识全在这(181001)
文章目录 征稿.转载.合作 文章分类导航目录 精选文章推荐 培训.会议.招聘广告 科研经验 软件和数据库 扩增子分析 宏基因组分析 R统计绘图 实验设计与技术 基础知识 必读综述 高分文章套路解读 科 ...
最新文章
- HDU 6114 Chess 【组合数】(2017百度之星程序设计大赛 - 初赛(B))
- 基于 SpringBoot2 + MybatisPlus 的商城管理系统(附源码)
- 08 ORA系列:ORA-01861 文字与格式字符串不匹配
- python识别图片坐标查看器_Opencv/python图像处理后如何获取检测区域的坐标
- H5添加禁止缩放功能
- 为什么NTFS删除超过4G大文件或数据库文件后FILE RECORD大小表现为0
- ApacheCN 交流社区热点汇总 2019.3
- 那些年我踩过的关于layui表格的坑
- Codeforces Round #375 (Div. 2) D. Lakes in Berland 贪心
- 【关于我】一个专注于嵌入式物联网架构设计的攻城狮
- SAP 会计凭证带税码过账
- 性能测试中的服务器数据监控
- 什么是法?什么是僧?
- 饿了么红包、美团优惠券开发
- onkeypress 、onkeyup 与onkeydown三者之间的区别
- 搜狐html5,手机搜狐率先发力Html5技术
- 系列文章|闲鱼商品理解之精品库建设
- Google Code Jam 2017 资格赛
- ORBSLAM知识整理
- 52 jQuery-使用slideToggle()方法的动画效果自动切换图片的高度
热门文章
- 马云成功靠的是机遇还是努力?网友戏谑:是那张其貌不扬的脸
- 程序员哀叹:专科都是ji's万的年薪,互联网的泡沫要破了
- 目标感太弱怎么办?如何做目标管理?
- 和晋叔吹B讨论业务驱动与架构演进
- 使用知乎「好物推荐」功能要注意什么?怎么使用? 关注问题 知乎指南 使用知乎「好物推荐」功能要注意什么?怎么使用?
- 补充知识--三相电机
- oracle调整字段精度的四种方法
- 0字符串 if mapper test_mybatis的if判断条件将字符串解析成了数字
- 乐观准则和最小后悔值怎么算_婚姻危机:结婚后想离婚,你该怎么办?
- python排名上升_Python在TIOBE Index排名或將取代Java成為第2名