seqkit根据基因id_fasta/fq文件处理万能工具——Seqkit学习记录
shenwei爪哥开发的处理Fasta/Fastq文件的万能工具。之前处理fq/fa文件时花时间写的一些脚本发现在seqkit里直接能一行命令就解决。实在是提升效率,整合流程中十分好的工具。本文是对Seqkit官方介绍(https://bioinf.shenwei.me/seqkit/usage/)的学习,参考学习的过程中可以对照着官方文档中的例子进行操作学习。
熟练的运用关键还是需要多练习,搭建分析流程时多多回顾记得使用此工具。
序列和子序列(Sequence and subsequence)
1. seq 序列操作
-p, -r 反向互补序列
-w 指定输出每列的序列长度。例如-w 0即为一行格式序列输出。
-n 输出序列的名字
-m 500 过滤序列长度小于500的序列
-n , -i 输出序列名字id
-i --id-regexp 根据正则匹配对序列名称进行操作(仅匹配正则匹配括号里的)。
>cel-mir-1 MI0000003 Caenorhabditis elegans miR-1 stem-loop
ATAAGCGCGCGCGCG
seqkit seq hairpin.fa.gz -i --id-regexp "^[^\s]+\s([^\s]+)\s"
2. subseq根据区域/gtf/bed文件提取序列,以1为开始。
-r 1:12 取每条序列的前12bp
--gtf a.gtf b.fas 根据gtf文件提取序列
--gtf --feature cds -u 1000提取cds序列以及上游1000bp启动子区序列。
--gtf a.gtf -u 1000 -f根据gtf文件仅选取上游1000bp的启动子序列。
seqkit subseq --gtf t.gtf t.fa -u 3 -f
3. sliding根据滑窗取序列
4. stats对序列fa/fq文件进行基本统计
-a *.fq.gz包括所有的统计信息
-T 输出\t分割的文件,可接下来进行管道操作
##接管道csvtk进行操作
seqkit stats *.f{a,q}.gz -T | csvtk pretty -t
## 转为markdown文件格式
seqkit stats *.f{a,q}.gz -T | csvtk csv2md -t
5. faidx创建类似于samtools faidx的index文件。
可用于提取某一序列的指定区域序列,并且可以根据正则匹配来匹配序列姓名
##提取某一序列20~30bp区域的序列。
seqkit faidx tests/hairpin.fa hsa-let-7a-1:20-30
格式的转换(Format conversion)
1. fq2fa如其名,fastq文件转换为fasta文件
2. fx2tab 将每条序列fa/fq转换为tab分割的一行格式
seqkit根据基因id_fasta/fq文件处理万能工具——Seqkit学习记录相关推荐
- linux中fq格式转fa,fasta/fq文件处理万能工具——Seqkit学习记录
shenwei爪哥开发的处理Fasta/Fastq文件的万能工具.之前处理fq/fa文件时花时间写的一些脚本发现在seqkit里直接能一行命令就解决.实在是提升效率,整合流程中十分好的工具.本文是对S ...
- seqkit根据基因id_fasta序列操作神器——seqkit
一.序列操作: 1.取反向序列 seqkit seq test.fa -r > test_re.fa 2.取互补序列 seq test.fa -p > test_com.fa 3.取反向互 ...
- linux fastQC 操作命令,[Bio-Info]fq文件解析统计工具:FastQC在linux下初应用
FastQC用于解析统计.fastq文件.下面来简述它在linux中如何启动,以及可能碰到的问题. 效果 从官网下载fastqc $ wget https://www.bioinformatics.b ...
- linux下mkdir头文件_Linux部分常用命令学习记录
Linux部分常用命令 ls 显示目标列表 ls -a 显示所有档案及目录(ls内定将档案名或目录名称为"."的视为影藏,不会列出): ls -l 以长格式显示目录下的内容列表.输 ...
- 【嵌入式】关于IAP+Xmodem从外部接收bin文件对芯片进行升级学习记录
本文基于GD32F303CGT6芯片 使用软件: KEIL5 Tera Term 什么是IAP 对于芯片的程序烧录,一共三种方式: ICP ISP IAP ICP(in-circuit-program ...
- hadoop上传和下载文件过程【博学谷学习记录】
1.hadoop上传文件过程 HDFS客户端通过对DistributedFileSystem 对象调用create()请求创建文件. DistributedFileSystem对nam ...
- 序列处理工具|Seqkit
大家是否还在为查看连接多个序列文件而感到烦恼呢?是否还在为查找某一段碱基而感到焦虑呢?别担心,有了这款软件这些问题就会自然而然的解决啦,这款软件是什么呢,请让小编为你一一介绍吧~ 软件介绍 Seqki ...
- Cadence Allegro 17.4学习记录开始34-PCB Editor 17.4软件PCB中Gerber孔符图,钻孔表和钻孔文件
目录 Cadence Allegro 17.4学习记录开始34-PCB Editor 17.4软件PCB中Gerber孔符图,钻孔表和钻孔文件 一.生成孔符图,钻孔表 二.生成钻孔文件 三.生成槽孔文 ...
- seqkit根据基因id_[基因组工具]seqkit的使用
SeqKit的学习 --20191017 软件的介绍 SeqKit是一种跨平台的.极快的,全面的fasta/q处理工具.SeqKit为所有的主流操作系统提供了一种可执行的双元文件,包括Windows, ...
最新文章
- 青岛程序员加班看不上球赛崩溃,外卖小哥伸出援手:我帮你改代码
- python系统-python 系统相关操作
- MIT自然语言处理第四讲:标注
- Micropython 如何用Turnipbit做一个自动浇水装置
- json反射java对象_Jackson通过反射将Json转化为java对象
- 数据结构之判断一棵树是不是完满二叉树
- jquery ready方法实现原理
- 前端学习(1440):实例选项el
- 国家计算机科学进展,计算机科学技术学院部署科研工作推进及国家自然科学基金申报工作...
- 《设计模式之禅》学习笔记(九)
- 如何进行cad地理配准_【教程】自带高度建筑轮廓如何制作分色图
- jq 改数组的k值_在JSON jq中修改键值数组
- 仿微信图片选取、相机拍照—PhotoPicker(已集成GalleryView)
- http://localhost:8080/login的密码和账号的问题
- goldwave简单使用
- java -- Big Endian and Little Endian 大端和小端概念讲解及如何转换
- 未能加载“xxx”程序集
- swagger2使用@ApiParam为参数填充注解时无法传输正确的参数到url
- 我与 SAP 成都研究院吴院长的二三事
- 如何理解金融中的 “头寸”
热门文章
- 合工大合肥工业大学计算机考研
- LOSF(Lots of small files)存储问题
- 无线智能插座Arduino开发工具下载安装教程一
- 2010美国高校计算机系排行榜出炉【转帖】
- 2011奥斯卡最佳纪录片《监守自盗(Inside Job)》小结
- matlab/simulink电力电子仿真三相变压器设置和使用
- matplotlib.pyplot的全函数解释 API
- 虚拟机VMwave使用
- 【2021年最新版】安装虚拟机 VMware Workstation + 安装Linux操作系统 + 输出“Hello World”
- 数据库-超码、候选码、主码