一、序列操作:

1.取反向序列

seqkit seq test.fa -r > test_re.fa

2.取互补序列

seq test.fa -p > test_com.fa

3.取反向互补序列

seqkit seq test.fa -r -p > test_re_com.fa

4.DNA序列转换为RNA序列

seqkit seq test.fa --nda2rna > test_rna.fa

5.RNA序列转换为DNA序列

seqkit seq test.fa rna2dna > test_dna.fa

6.将序列以小写字母的形式输出

seqkit seq test.fa -l > test_lower.fa

7.将序列以大写字母的形式输出

seqkit seq test.fa -u > test_upper.fa

8.指定每行序列的输出长度(为0的话,代表为一整行,默认的输出 长度是60个碱基)

seqkit seq test.fa -w 10 > test_10.fa (指定序列的长度为10)

9.将多行序列转换为一行序列

seqkit seq test.fa -w 0 > test_w.fa

10.只输出序列

seqkit seq test.fa -s -w 0 > test_seq.fa

11.将只输出的序列的,指定每行输出的碱基数

seqkit seq test_seq.fa -s -w 40 > test_seq40.fa

注意10,11的微妙之处

11,12也可以一步完成:

seqkit seq test.fa -s -w 20 -o test_20.fa

二、Fasta/q之间以及与tab格式互换

10.将fataq文件转化为fasta格式.

seqkit seq fq2fa test.fq -o test.fa

11.将fasta格式转化为tab格式

seqkit fx2tab test.fa > test_tab.fa (没有seq参数)

三、序列信息统计

1.序列碱基含量

seqkit fx2tab -l -g -n -i -H test..fa (这些参数组合起来比较好看)

2.序列长度的整体分布统计

seqkit stat test.fa

seqkit grep [flags]

参数:

-n, --by-name

匹配整个序列的名字,包含deion部分,而不是序列id。

-s, --by-seq

匹配序列

-d, --degenerate

pattern/motif 包含简并碱基

-i, --ignore-case

忽略大小写

-v, --invert-match

输出不匹配此模式的内容

-p,

匹配模式,支持连续写多个模式,匹配任一模式即输出。如-p ^ATG -p TAA$。注意该功能仅能正向匹配,不能实现对互补链匹配。

-f, --pattern-file string

支持匹配模式写到一个文件中,如要提取的序列ID。

-R, --region string

匹配位置选择。e.g 1:12 for first 12 bases, -12:-1 for last 12 bases

-r, --use-regexp

使用正则表达式,必须加入此参数,如^匹配首端。同-p联合使用。

举例:

seqkit grep -s -r -i -p ^atg cds.fa#选取有起始密码子的序列

seqkit grep -f list test.fa > new.fa#根据ID提取序列

seqkit grep -s -d -i -p TTSAA#简并碱基使用。S 代表C or G.

seqkit grep -s -R 1:30 -i -r -p GCTGG##匹配限定到某区域

五、motif定位

对grep的拓展,可以正反链同时匹配,输出匹配的位置。

seqkit locate [flags]

参数:

-d, --degenerate

pattern/motif contains degenerate base

-i, --ignore-case

ignore case

-P, --only-positive-strand

only search at positive strand

-p, --pattern value

search pattern/motif

-f, --pattern-file string

pattern/motif file (FASTA format)

举例:

seqkit locate -i -d -p AUGGACUN test.fa

输出结果:

seqID

patternName

pattern

strand

start

end

matched

cel-mir-58a

AUGGACUN

AUGGACUN

81

88

AUGGACUG

ath-MIR163

AUGGACUN

AUGGACUN

122

129

AUGGACUC

六、多个序列文件比较寻找相同的序列或者ID相同的序列

seqkit common [flags]

参数:

-n, --by-name

匹配整个序列的名字,包含deion部分,而不是序列id

-s, --by-seq

match by sequence

-i, --ignore-case

ignore case

-m, --md5

use MD5 reduce memory usage

举例:

1、By ID (default,>后面,空格之前的名字)输出ID名字相同的。

seqkit common test1.fa test2.fa -o common.fasta

2、By full name(整个序列的名字,包含deion部分)。输出序列名字相同的。

seqkit common test1.fa test2.fa -n -o common.fasta

3、输出要比较的文件中序列相同的序列

seqkit common test1.fa test2.fa -s -i -o common.fasta

4、输出要比较的文件中序列相同的序列 (for large sequences)

seqkit common test1.fa test2.fa -s -i -o common.fasta --md5

七、提取部分序列

如随机抽取10000条FASTQ序列做NT污染评估。同时他也可以对FASTA序列提取

seqkit sample [flags]

参数:

-n, --number int

sample by number (result may not exactly match)

-p, --proportion float

sample by proportion(按比例提)

-s, --rand-seed int

rand seed for shuffle (default 11)

-2, --two-pass

2-pass modelower memory

举例:随机抽取序列

seqkit sample -n 10000 -s 11 test1_1.fq -o sample.fq

seqkit sample -p 0.1 -s 11 test1_1.fq -o sample.fq

八、排序输出命令

seqkit sort [flags]

参数:

-l, --by-length

按照序列长度排序

-n, --by-name

by full name

-s, --by-seq

按照序列排序

-i, --ignore-case

按序列排序时忽略大小写

-r, --reverse

反向排序

-2, --two-pass

对于FASTA序列排序可以减少内存

举例:

seqkit sort -ltest.fa

九、文件切割

seqkit split [flags]

参数:

-i, --by-id

split squences according to sequence ID

-p, --by-part int

将一个文件分割成N 份

-s, --by-size int

将一个文件按照N 条序列一个文件进行分割

-O, --out-dir string

output directory (default value is infile.split)

-2, --two-pass

two-pass mode to lower memory usage(only FAST)

举例:

seqkit split hairpin.fa.gz -p 4

seqkit根据基因id_fasta序列操作神器——seqkit相关推荐

  1. 序列操作神器:Seqkit

    导读 本文[1]将介绍 SeqKit :用于 FASTA/Q 文件操作的跨平台和超快工具包,后续提供了一些长用的示例. 1. 安装 conda 安装 conda install -c bioconda ...

  2. seqkit根据基因id_fasta/fq文件处理万能工具——Seqkit学习记录

    shenwei爪哥开发的处理Fasta/Fastq文件的万能工具.之前处理fq/fa文件时花时间写的一些脚本发现在seqkit里直接能一行命令就解决.实在是提升效率,整合流程中十分好的工具.本文是对S ...

  3. seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能...

    写在前面 通过我几天的学习,我发现,seqkit十分好用,将序列的各种操作都囊括进去,加入多线程,我个人认为这将是非常好的胶水,在处理无论是基因组还是其他组学.定是一个必学神器.注意一下教程在0.15 ...

  4. seqkit根据基因id_[基因组工具]seqkit的使用

    SeqKit的学习 --20191017 软件的介绍 SeqKit是一种跨平台的.极快的,全面的fasta/q处理工具.SeqKit为所有的主流操作系统提供了一种可执行的双元文件,包括Windows, ...

  5. 序列处理工具|Seqkit

    大家是否还在为查看连接多个序列文件而感到烦恼呢?是否还在为查找某一段碱基而感到焦虑呢?别担心,有了这款软件这些问题就会自然而然的解决啦,这款软件是什么呢,请让小编为你一一介绍吧~ 软件介绍 Seqki ...

  6. 【论文解读】AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    炼丹笔记干货 作者:一元,四品炼丹师 Informer:最强最快的序列预测神器 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划.长序列时间序列预测(LSTF)要求 ...

  7. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器???

    Informer:最强最快的序列预测神器??? AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预 ...

  8. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    Informer:最强最快的序列预测神器 AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 作者:一元,公众号:炼丹笔记 01 简介 在很多实际应用问题中,我们需 ...

  9. 【BZOJ-1858】序列操作 线段树

    1858: [Scoi2010]序列操作 Time Limit: 10 Sec  Memory Limit: 64 MB Submit: 1961  Solved: 991 [Submit][Stat ...

最新文章

  1. (转载)星期几问题——蔡勒公式
  2. hadoop map reduce自定义数据类型时注意顺序,否则报错。
  3. 慢就是快的人生哲理_家里的防臭地漏下水慢怎么办?
  4. TCP/IP详解 笔记八
  5. 李宏毅线性代数笔记8 :坐标系变换8
  6. 【基础】有关T-SQL的10个好习惯
  7. element js 包含字符_携程春招题目字符串截取和数组升维
  8. android之数组排序
  9. 收集了一些容易出错的题,可能大家也不会注意到的基础知识(js)
  10. SQL中SELECT INTO和INSERT INTO SELECT语句介绍
  11. dvhop三边测量法MATLAB,基于非测距的DV-Hop定位算法改进
  12. 如何将多个.TXT文本文件合并到一个excel表中
  13. UCI-HAR数据集的处理
  14. 优盘中发现计算机病毒怎么办,u盘中毒了文件夹被病毒隐藏怎么办?
  15. html支付宝图标,支付宝小程序基础组件 图标·Icon
  16. javascript之键盘事件
  17. Android谷歌地图地理编码,谷歌地图API地理编码多个地点
  18. Linux 防火墙简介
  19. 关于datanode进程无法启动的另一种解决方法 java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.
  20. 自由截图、提取、翻译图中文字——搜狗浏览器之截图扩展

热门文章

  1. 非常方便的Swift公历转为农历
  2. SEO优化之根据网址自动生成sitemap.xml文件
  3. 常用lr_scheduler总结
  4. hihocoder 1441
  5. vscode的安装、切换为中文简体、集成sass
  6. 《审视程序捷径》介绍篇之自述和标题由来
  7. [SPI]SPI接口简介
  8. SPI协议概括、SPI总线工作的四种方式和SPI接口时序
  9. 20 数据存储服务器集群的伸缩性设计
  10. Js加密之sojson.v5加密