.fasta | .fastq | seq-kit | fastq | fastp | conda
.fasta 格式文件
感谢这篇文章
fasta文件用于储存一个或多个核苷酸序列或氨基酸序列。
每个序列信息由描述行和序列行组成。
描述行:以>开始,跟着此序列的唯一id,后也可以加描述(空格隔开)
序列行:储存序列,可以多行,一般(80个左右为一行)
>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK
注意一些对应关系
A --> adenosine M --> A C (amino)C --> cytidine S --> G C (strong)G --> guanine W --> A T (weak)T --> thymidine B --> G T CU --> uridine D --> G A TR --> G A (purine) H --> A C TY --> T C (pyrimidine) V --> G C AK --> G T (keto) N --> A G C T (any)- gap of indeterminate length
A ALA alanine P PRO prolineB ASX aspartate or asparagine Q GLN glutamineC CYS cystine R ARG arginineD ASP aspartate S SER serineE GLU glutamate T THR threonineF PHE phenylalanine U selenocysteineG GLY glycine V VAL valineH HIS histidine W TRP tryptophanI ILE isoleucine Y TYR tyrosineK LYS lysine Z GLX glutamate or glutamineL LEU leucine X anyM MET methionine * translation stopN ASN asparagine - gap of indeterminate length
.fastq格式文件
fastq格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。
每一个序列有四行组成:
第一行以@开头,表示这个read的ID,不会重复,没有空格。
第二行表示序列,通常以AGCTN(any)表示。
第三行是+,旧版fastq中会直接重复第一行,现在不会,一般没有附加信息。
第四行是质量信息
@FCD056DACXX:3:1101:2163:1959#TCGCCGTG/1
TCCGATAACGCTCAACCAGAGGGCTGCCAGCTCCGATCGGCAGTTGCAACCCATTGGCCGTCTGAGCCAGCAACCCCGGA
+
gggiiiiiiiiiiiiiiiiiiiiiiiiiigggggeeecccccc^bcbcccccccbccccc]aaccbbccc^R^^acccc_
质量信息与序列信息一一对应。
质量信息计算:
在测序仪进行测序的时候,会自动根据荧光信号的强弱给出一个参考的测序错误概率(error probility,P),如果直接储存(0.01)浪费内存,所以就将P取log10后乘以-10,得到Q值,Q值加33(或64)后得到的值去ASCII表中对应值即为质量值*
*不同测序的计算方法不同
seq-kit 好用的序列整理工具
具体看这篇文章
详细看这篇文章
fastq「只找到了fastqc?」
感谢爱码网
测序数据质控工具。
它输出为.html,当有多个文件时,默认将所有输出压缩为一个.zip文件输出。
结果是图表,绿色PASS,黄色WARN,红色FAIL。
纵轴为质量Q值,横轴是read的位置
横轴是质量,纵轴是reads数目,峰小于27(0.2%错误率)报warn,小于20(1%错误率)报fail。
ATCG含量,纵轴位置,横轴百分比,判断是否被污染。
Fastp
新的质控工具,效率高,接受单端/双端测序结果,可以自动处理接头信息,做重复率统计,插入评估。对5mer做出现次数统计。不同碱基的质量值,ATCG含量等
这篇文章写的很详细
conda
- 一个能支持Python、R、Java、JavaScript、C等语言包、依赖和环境管理工具
- 一个能在Windows、MacOS、Linux上运行开源的软件包管理系统和环境管理系统
- 一个能在本地轻松创建、保存、切换环境
保姆文档
.fasta | .fastq | seq-kit | fastq | fastp | conda相关推荐
- linux怎么查看fastq格式文件,fastq格式文件处理大全(一)
从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴.文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为f ...
- python3写txt_科学网—python3 fasta txt seq contig等纯文本文件的读取 写入 - 靳泽星的博文...
#文本文件的读取,同样的如果'序列文件.txt'不在当前工作目录下,需要写出详细的文件路径.与window系统不同,在linux系统中工作路径需要用到'/',而不是'\'.参数'r'意思为以只读方式打 ...
- 纳米孔Nanopore-16S数据分析学习笔记
2020.5找到了开放的protocol:https://www.protocols.io/view/nanoampli-seq-bioinformatics-workflow-u25eyg6 已经转 ...
- fastq与fasta文件格式解析
fastq与fasta文件格式解析 一.fasta格式 二.fastq格式 2.1 格式说明 2.2 碱基质量计算 2.3 Quality Score简化 三.二代测序的fastq文件格式介绍 四.补 ...
- Fastq与Fasta格式
一.关于Fastq FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式.其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与 ...
- fastq质量值_fastq格式文件处理大全(四)
计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴.文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fa ...
- linux怎么查看fastq格式文件,2020-01-11 了解FASTQ格式并处理FASTQ文件
FASTQ文件格式是测序仪展示数据的标准格式,可以看成FASTA文件的变种(FASTA+Q),因为其包含了对序列中每个碱基的Qualify Measurement.(如:碱基A出错的可能性是1/100 ...
- fastq质量值_微生物组16S rRNA数据分析小结:从fastq测序数据到OTU table
推荐阅读 1.ggplot2绘制曼哈顿图示例2.phyloseq | 用 R 分析微生物组数据及可视化3.R语言PCA分析教程 | Principal Component Methods in R4. ...
- bam获取序列_如何从BAM文件中提取fastq
虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq.最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了 ...
最新文章
- 淘宝Tengine服务器开源
- Java 基础 之 三目运算
- 基于Java Socket的文件UpLoad代码(完美版)-用递归解决java的目录树遍历
- 设计模式五:外观模式
- for-each 循环原理
- python课程水平测试成绩查询_学业水平考试成绩查询系统入口
- Monthly Expense( POJ-3273 )
- CentOS5.5下SVN部署文档
- 用PHP制作饼图调查表
- spring事务的传播属性和事务隔离级别及配置事务(注解方式)
- RESTful 使用规范及接口文档模板
- MFC项目使用Win7自带语音库(包含COM函数返回 “没有注册类”解决方式)
- C++ friend和protected
- java compiler类_Java_Java Compiler 应用实例
- Android6.0修改以太网IP
- 计算机组成原理实验一---运算器 预习报告
- python对银行工作有用吗_银行工作真的很可怕吗?
- 小程序之mpvue使用
- crack-jar手游,曾用过的工具
- 低学历高智商,太可怕了!
热门文章
- TP-LINK产品复位大全(路由器初始化恢复出厂默认值)
- 破解navicat试用期功能
- 我的世界服务器怎么修改小标题,我的世界标题指令
- 使用profile的PASSWORD_VERIFY_FUNCTION参数实现自定义的密码验证规则
- 山东理工大学首页html
- 联想小新Air14 锐龙 换屏
- Mixlab 【AI创造营】 百度飞桨创意赛 参赛项目介绍
- 阿里云-数据仓库-数据分析开发神器-ODPS
- html5制作大小写转换,java大小写转换
- 申请微信小游戏流量主提示 “填写的姓名或身份证与公众号主体信息不一致”