导读

本文[1]将介绍 SeqKit :用于 FASTA/Q 文件操作的跨平台和超快工具包,后续提供了一些长用的示例。

1. 安装

  • conda 安装
conda install -c bioconda seqkit
  • Mac 安装
brew install seqkit  # 用于苹果电脑

2. 用法

2.1. 序列操作

seqkit seq [flags] file
  • 参数
参数 作用
-p 取互补序列
--dna2rna DNA to RNA
-l 序列以小写字母输出
-g 移除组装序列中的gap
-r 取反向序列
--rna2dna RNA to DNA
-u 序列以大写字母输出
-w 每行指定长度数据序列(default=60)
# 将序列转换为一行输出seqkit seq ex.fasta -w 0 > test.fasta

# 每行输出指定碱基nseqkit seq -w n ex.fasta

# DNA序列转换为RNA序列seqkit seq --dna2rna ex.fasta

# 取反向互补,切每行100碱基seqkit seq -w 100 -p -r ex.fasta > test.fasta

2.2. 格式转换

  • fa2fa
# fastq 转换为 fastaseqkit fq2fa ex1.fq -o ex2.fa

# FASTA/FASTQ 转换成 tab 格式seqkit fx2tab ex.fa > test.fa.tab.faseqkit fx2tab ex.fq > test.fq.tab.fq
# 序列碱基含量及序列长度信息统计seqkit fx2tab [flags]
  • 参数
参数 作用
-B 输出碱基的含量 Ex: -B AT -B N
-g 输出 GC 含量
-l 输出序列长度
-n 仅输出名字
-i 输出ID
-H 输出 header 行
# 输出序列长度,GC含量,名字,IDseqkit fx2tab -l -g -n -i -H ex.fasta

2.3. 序列信息统计

# 序列长度分布统计seqkit stat [flags]
  • 参数
参数 作用
-a 输出所有统计数据,包括 seq 长度的四分位数、sum_gap、N50
# 统计信息seqkit stats *.f{a,q}.gz

# 结果如下图

示例

2.4. 根据ID提取序列

seqkit grep
  • 参数
参数 作用
-n 匹配整个序列的名字
-s 匹配序列
-d pattern/motif 包含简并碱基
-i 忽略大小写
-v 反向匹配
-p 匹配模式,支持连续写多个模式,匹配任一模式即输出
-R 匹配位置选择
-r 使用正则表达式
# 选取有起始密码子的序列seqkit grep -s -r -i -p ^atg ex.fa

# 根据ID提取序列seqkit grep -f list ex.fa > new.fa

# 简并碱基使用。S 代表C or G.seqkit grep -s -d -i -p TTSAA

# 匹配限定到某区域seqkit grep -s -R 1:30 -i -r -p GCTGG#

2.5. motif定位

seqkit locate [flags]
  • 参数
参数 作用
-d pattern/motif contains degenerate base
-i ignore case
-P only search at positive strand
-p search pattern/motif
-f pattern/motif file (FASTA format)
seqkit locate -i -d -p AUGGACUN ex.fa

2.6. 多个文件寻找相同的序列

seqkit common [flags]
  • 参数
参数 作用
-n 匹配整个序列的名字,包含description部分,而不是序列id
-s match by sequence
-i 忽略大小写
-m use MD5 reduce memory usage
# By ID (default,>后面,空格之前的名字)输出ID名字相同的。seqkit common test1.fa test2.fa -o common.fasta

# By full name(整个序列的名字,包含description部分)。输出序列名字相同的。seqkit common test1.fa test2.fa  -n -o common.fasta

# 输出要比较的文件中序列相同的序列seqkit common test1.fa test2.fa -s -i -o common.fasta

# 输出要比较的文件中序列相同的序列 (for large sequences)seqkit common test1.fa test2.fa -s -i -o common.fasta --md5

2.7. 文件切割

seqkit split [flags]
  • 参数
参数 作用
-i split squences according to sequence ID
-p 将一个文件分割成N 份
-s 将一个文件按照N 条序列一个文件进行分割
-O 输出目录
-2 two-pass mode to lower memory usage(only FAST)
# 将一个文件切割为 4 份seqkit split ex.fa -p 4

参考资料

[1]

Ref: https://bioinf.shenwei.me/seqkit/

本文由 mdnice 多平台发布

序列操作神器:Seqkit相关推荐

  1. seqkit根据基因id_fasta序列操作神器——seqkit

    一.序列操作: 1.取反向序列 seqkit seq test.fa -r > test_re.fa 2.取互补序列 seq test.fa -p > test_com.fa 3.取反向互 ...

  2. seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能...

    写在前面 通过我几天的学习,我发现,seqkit十分好用,将序列的各种操作都囊括进去,加入多线程,我个人认为这将是非常好的胶水,在处理无论是基因组还是其他组学.定是一个必学神器.注意一下教程在0.15 ...

  3. 【论文解读】AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    炼丹笔记干货 作者:一元,四品炼丹师 Informer:最强最快的序列预测神器 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划.长序列时间序列预测(LSTF)要求 ...

  4. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器???

    Informer:最强最快的序列预测神器??? AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预 ...

  5. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    Informer:最强最快的序列预测神器 AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 作者:一元,公众号:炼丹笔记 01 简介 在很多实际应用问题中,我们需 ...

  6. 序列处理工具|Seqkit

    大家是否还在为查看连接多个序列文件而感到烦恼呢?是否还在为查找某一段碱基而感到焦虑呢?别担心,有了这款软件这些问题就会自然而然的解决啦,这款软件是什么呢,请让小编为你一一介绍吧~ 软件介绍 Seqki ...

  7. 【BZOJ-1858】序列操作 线段树

    1858: [Scoi2010]序列操作 Time Limit: 10 Sec  Memory Limit: 64 MB Submit: 1961  Solved: 991 [Submit][Stat ...

  8. bzoj 2962 序列操作

    2962: 序列操作 Time Limit: 50 Sec  Memory Limit: 256 MB [Submit][Status][Discuss] Description 有一个长度为n的序列 ...

  9. 问题 F: 序列操作Ⅱ(前缀最大公约数,后缀最大公约数)

    问题 F: 序列操作Ⅱ 时间限制: 1 Sec 内存限制: 128 MB [提交][状态][讨论版] 题目描述 给定长度为 N 的正整数序列 A_1, A_2, A_3,-, A_N, 从中选择一个数 ...

最新文章

  1. MVC中一个表单实现多个提交按钮(一个action搞定添删改)
  2. 论如何监听一个对象所有属性的变化
  3. Redis数据持久化机制AOF原理分析一---转
  4. android+note2+分辨率,魅蓝Note2的屏幕尺寸是多少?魅蓝Note2的分辨率是多少?
  5. showmodaldialog 为什么不能复制_防复制的门禁读头可以防止UID和FUID读卡器
  6. 【深圳(活动)】70多场干货分享!价值899元的2018中国开源年会门票等你认领
  7. 调用向量的第i维分量| 使用Python的线性代数
  8. 谷歌公开Android GPS程序源代码
  9. 2019 年开源数据库报告发布:MySQL 仍卫冕!
  10. Mac Book Pro Catalina不能打开软件,提示检查为恶意软件
  11. Go 语言网络库 getty 的那些事
  12. 使用opencv人脸识别对比两张人脸图片
  13. 数据告诉你,谁是2019年最硬核公链?
  14. 微星z370安装linux系统,微星Z370-A PRO主板u盘装系统win10教程
  15. 安卓插件化框架Shadow原理分析
  16. 【YOLOX训练部署】YOLOX训练自己的VOC数据集
  17. Open Wifi SSID Broadcast vulnerability
  18. 【转】使用cocosbuilder在cocos2d-…
  19. 最简单的 DRM 应用 drm设备不工作
  20. 如何进入Google工作? Google招聘流程介绍

热门文章

  1. Chrome启动页被360劫持
  2. Java8的一些常用新特性
  3. wps怎么取消自动续费
  4. javassm奥运会志愿者管理系统
  5. Puppeteer爬取网页数据
  6. ios拒审4.3 python自动生成辣鸡代码
  7. Python分析淘宝月饼销售数据,五仁月饼王者地位不可动摇!
  8. 我国现行的铁路旅客票价制度
  9. java中读取excel数据类型_在Java中读取Excel文件的内容
  10. 超详细的Android百度地图开发:在APP上定位并显示出来