cap3拼接sanger序列:在线+本地分析方法实战
文章目录
- 简介
- 在线版使用
- 本地版使用
- 安装
- 程序运行命令行
- 准备输入文件
- 运行拼接
- Reference
简介
Cap3是一款历史悠久的序列拼接软件,非常适合Sanger序列拼接。此软件于1999年发表于Genome Rsearch杂志,目前Google统计引用4885次(截止2019年1月30号)。
Huang, X. and Madan, A. (1999) CAP3: A DNA sequence assembly program. Genome Res., 9, 868-877.
优秀的软件都会有在线版和本地版两个版本。在线版方便小数据量的用户、或无法拥有服务器和缺少Linux系统软件安装经验的用户,轻松点击鼠标完成拼接。本地版,配合强大的命令行,可以批量完成大数据量的拼接。
在线版使用
http://doua.prabi.fr/software/cap3
最后更新时间为2014年1月。
可以在对话框中提交如2条及以上要拼接,且存在overlap的fasta格式序列(方向无所谓,软件会自己调整),点击提交(SUBMIT)即可。
结果如下:
- Contigs:拼接的结果,一般就是你想要的结果;
- Single sequences:末拼接的序列,如果都拼接成果,此链为空;
- Assembly details:拼接详细,可以看到序列拼接多序列的方向,比对详细和一致序列,详见下面。
- Your sequence file:你刚才提交的序列,可以复制内容保存
查看拼接的细节文件,有助于了解序列方向,拼接结构,碱基一致性等信息。
Number of segment pairs = 6; number of pairwise comparisons = 3
'+' means given segment; '-' means reverse complementOverlaps Containments No. of Constraints Supporting Overlap******************* Contig 1 ********************
27F+
515+
1492-DETAILED DISPLAY OF CONTIGS
******************* Contig 1 ********************. : . : . : . : . : . :
27F+ TGCAAGTCGAACGGCAGCACGGGAGCAATCCTGGTGGCGAGTGGCGAACGGGTGAGTAAT____________________________________________________________
consensus TGCAAGTCGAACGGCAGCACGGGAGCAATCCTGGTGGCGAGTGGCGAACGGGTGAGTAAT. : . : . : . : . : . :
27F+ ACATCGGAACGTGCCCAGTAGTGGGGGATAGCTCGGCGAAAGCCGGATTAATACCGCATA____________________________________________________________
consensus ACATCGGAACGTGCCCAGTAGTGGGGGATAGCTCGGCGAAAGCCGGATTAATACCGCATA. : . : . : . : . : . :
27F+ CGACCTACGGGTGAAAGCGGGGGACCGCAAGGCCTCGCGCTATTGGAGCGGCCGATGTCA____________________________________________________________
consensus CGACCTACGGGTGAAAGCGGGGGACCGCAAGGCCTCGCGCTATTGGAGCGGCCGATGTCA. : . : . : . : . : . :
27F+ GATTAGCTAGTTGGTGGGGTAAAGGCCTACCAAGGCGACGATCTGTAGCTGGTCTGAGAG____________________________________________________________
consensus GATTAGCTAGTTGGTGGGGTAAAGGCCTACCAAGGCGACGATCTGTAGCTGGTCTGAGAG. : . : . : . : . : . :
27F+ GACGACCAGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGG____________________________________________________________
consensus GACGACCAGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGG. : . : . : . : . : . :
27F+ GAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGCGGGAAGAAGGCCTT____________________________________________________________
consensus GAATTTTGGACAATGGGGGCAACCCTGATCCAGCCATGCCGCGTGCGGGAAGAAGGCCTT. : . : . : . : . : . :
27F+ CGGGTTGTAAACCGCTTTTGTCAGGGAAGAAACGCGCCGAGCTAATACCTCGGTGTAATG____________________________________________________________
consensus CGGGTTGTAAACCGCTTTTGTCAGGGAAGAAACGCGCCGAGCTAATACCTCGGTGTAATG. : . : . : . : . : . :
27F+ ACGGTACCTGAAGAATAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGG____________________________________________________________
consensus ACGGTACCTGAAGAATAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGG. : . : . : . : . : . :
27F+ GTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGCTTTGCAAGACAG
515+ AAGCGTGCGCAGGCGGCTTTGCAAGACAG____________________________________________________________
consensus GTGCAAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGCTTTGCAAGACAG. : . : . : . : . : . :
27F+ ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG
515+ ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG____________________________________________________________
consensus ATGTGAAATCCCCGGGCTTAACCTGGGAACTGCATTTGTGACTGCATGGCTGGAGTGCGG. : . : . : . : . : . :
27F+ CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG
515+ CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG
1492- GGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG____________________________________________________________
consensus CAGAGGGGGATGGAATTCCGCGTGTAGCAGTGAAATGCGTAGATATGCGGAGGAACACCG
本地版使用
安装
软件安装,可以通过官网下载源代码 http://seq.cs.iastate.edu/cap3.html。在Linux, Mac, Windows, Solaris各主流系统版本。
但推荐使用conda安装,会自动安装它及相关的40余个依赖关系
conda install cap3
程序运行命令行
cap3 File_of_reads [options]
如: cap3 seq.fa
seq.fa中包括要拼接的序列,可以手动制作。也可以使用脚本。
准备输入文件
通常测序的结果为.seq文件。我们要将序列合并有一个共同的前缀,如RiceP14C02,使用我写的脚本format_seq2fasta.pl将其合并为fasta格式,脚本在我的 https://github.com/YongxinLiu/Note 中 Perl 文件夹中
如:输入文件保存于seq目录中名字如下:
seq/RiceP14C02_1492R.seq
seq/RiceP14C02_27F.seq
seq/RiceP14C02_515F.seq
合并一条序列的多个文件
file=RiceP14C02
format_seq2fasta.pl -i "seq/${file}_*.seq" -o ${file}.fa
对于另一个拼接的任务,你可以修改file等号后面的即可。想要批量调用,直接使用for循环即可
运行拼接
运行cap3,只需提供输入fa文件
cap3 ${file}.fa
结果有如下5个文件
- RiceP14C02.fa.cap.ace:原始序列使用信息
- RiceP14C02.fa.cap.contigs:拼接序列结果
- RiceP14C02.fa.cap.contigs.links:空
- RiceP14C02.fa.cap.contigs.qual:质量
- RiceP14C02.fa.cap.info:信息
- RiceP14C02.fa.cap.singlets:空
由于每个序列名称都叫Contig1,需要改名为序列名
sed -i "1 s/Contig1/${file}/" ${file}.fa
Reference
- Huang, X. and Madan, A. (1999) CAP3: A DNA sequence assembly program. Genome Res., 9, 868-877.
- 在线版 http://doua.prabi.fr/software/cap3
- 本地版 http://seq.cs.iastate.edu/cap3.html
cap3拼接sanger序列:在线+本地分析方法实战相关推荐
- 词向量与词向量拼接_中文字词向量和方面词向量联合嵌入情感分析方法与流程...
本发明涉及一种中文字词向量和方面词向量联合嵌入CNN-LSTM情感分析方法. 背景技术: 近年来,越来越多的用户习惯在网络上发自己对某一事物的看法与评论.如何快速,准确地从互联网海量评论信息中分析所包 ...
- tensorflow 语音识别_调研报告|在线语音识别改进方法之序列区分性训练
这篇文章主要调研的是一种常见的改进在线语音识别的方法:序列区分性训练(Sequence Discriminative Training).相信有很多人已经在 CTC/CE 的训练上遇到了瓶颈,而一些新 ...
- 【在线SPSS】数据分析思维培养系列2:分析方法
目录 第1点,数据类型 第2点,基础描述 第3点,数据质量 第4点,差异关系 第5点,影响关系 第6点,深入影响关系 总结 在上篇文章中,我们一起学习了如何掌握正确的数据处理思维(文章链接:https ...
- 结合语言知识和深度学习的中文文本情感分析方法
结合语言知识和深度学习的中文文本情感分析方法 徐康庭, 宋威 北方工业大学信息学院 摘要:在目前的中文文本情感分析研究中,基于语义规则和情感词典的方法通常需要人工设置情感阈值:而基于深度学习的方法由于 ...
- 分析方法升级三代测序辅助,优化无参转录组测序策略
分析方法升级&三代测序辅助,优化无参转录组测序策略 无参转录组拼接升级 Corset 让"基因"概念更准确 在无参转录组项目中,利用主流软件 Trinity 进行 De n ...
- 结合案件要素序列的罪名预测方法
点击上方蓝字关注我们 结合案件要素序列的罪名预测方法 孙倩1, 秦永彬1,2, 黄瑞章1,2, 刘丽娟3, 陈艳平1,2 1 贵州大学计算机科学与技术学院,贵州 贵阳 550025 2 公共大数据国家 ...
- 【实用算法教学】——Apriori算法,教你使用亲和性分析方法推荐电影
本文学习如何用亲和性分析方法找出在什么情况下两个对象经常一起出现.通俗来讲,这也 叫"购物篮分析",因为曾有人用它找出哪些商品经常一起出售. 前一篇文章关注的对象为球队,并用特征描 ...
- Android 10 11 删除本地照片方法
Android 10 11 删除本地照片方法 关于分区存储 1. 启用分区存储的情况 2. 未启用分区存储的情况 情景1:启用分区存储 权限申请 修改媒体文件 1. 获取图片Uri 2. 执行删除操作 ...
- ncbi blast MATLAB,NCBI在线BLAST使用方法与结果详解
<NCBI在线BLAST使用方法与结果详解>由会员分享,可在线阅读,更多相关<NCBI在线BLAST使用方法与结果详解(5页珍藏版)>请在人人文库网上搜索. 1.NCBI在线B ...
最新文章
- java returnaddress_Java虚拟机规范】Java SE 7虚拟机结构
- python数据包分析_packet_analysis: 数据包分析工具
- 一、Java入门和环境安装
- 副本的leader选举
- CSS语法和CSS优先级
- java ios 字符串_Java 与 iOS使用RSA 加密签名
- vscode取消底部横滚动条(自动换行)
- 星环Transwarp Data Hub大数据安装学习
- ftl模板导出excel_ftl方式导出excel
- Spring Cloud技术栈简述
- Delft3d GRD及ENC问题
- Python——全国二级等级考试
- Android BLE蓝牙踩坑总结
- springboot集成flowable创建请假流程实例
- 如何批量给文件重命名?
- ai字体行间距怎么调整_ai怎么调整文字间距- ai调整行间距的详细教程
- HDUOJ 6575 Budget
- 正大国际期货:智星在线交易平台是什么?提供哪些交易执行模式和订单类型?
- 《皮肤的秘密》 读书笔记
- “无人驾驶汽车系统入门”博客专栏
热门文章
- 高并发BUG排查,警惕高权限又不受监管的运维行为
- 使用 Angular 打造微前端架构的 ToB 企业级应用
- 微服务拆的太细了会有什么问题
- 最佳适应算法的计算方法
- 4、题目要求:读入N名学生的成绩,将获得某一给定分数的学生人数输出。 * * 	输入格式:测试输入包含若干测试用例,每个测试用例的格式为 	第1行:N 	第2行:N名学生的成绩,相邻两数字用一个
- html页面校园美景相框,纯CSS+HTML打造图片相框背景
- 乐观准则和最小后悔值怎么算_婚姻危机:结婚后想离婚,你该怎么办?
- opengl版本发展史及各种概念的厘清
- CV进入三维时代!Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?
- ORB-SLAM3中的ORB提取