.fasta 格式文件

感谢这篇文章

fasta文件用于储存一个或多个核苷酸序列或氨基酸序列。

每个序列信息由描述行和序列行组成。

描述行:以>开始,跟着此序列的唯一id,后也可以加描述(空格隔开)

序列行:储存序列,可以多行,一般(80个左右为一行)

>gi|186681228|ref|YP_001864424.1| phycoerythrobilin:ferredoxin oxidoreductase
MNSERSDVTLYQPFLDYAIAYMRSRLDLEPYPIPTGFESNSAVVGKGKNQEEVVTTSYAFQTAKLRQIRA
AHVQGGNSLQVLNFVIFPHLNYDLPFFGADLVTLPGGHLIALDMQPLFRDDSAYQAKYTEPILPIFHAHQ
QHLSWGGDFPEEAQPFFSPAFLWTRPQETAVVETQVFAAFKDYLKAYLDFVEQAEAVTDSQNLVAIKQAQ
LRYLRYRAEKDPARGMFKRFYGAEWTEEYIHGFLFDLERKLTVVK

注意一些对应关系

        A --> adenosine           M --> A C (amino)C --> cytidine            S --> G C (strong)G --> guanine             W --> A T (weak)T --> thymidine           B --> G T CU --> uridine             D --> G A TR --> G A (purine)        H --> A C TY --> T C (pyrimidine)    V --> G C AK --> G T (keto)          N --> A G C T (any)-     gap of indeterminate length
    A ALA alanine                         P PRO prolineB ASX aspartate or asparagine         Q GLN glutamineC CYS cystine                         R ARG arginineD ASP aspartate                       S SER serineE GLU glutamate                       T THR threonineF PHE phenylalanine                   U     selenocysteineG GLY glycine                         V VAL valineH HIS histidine                       W TRP tryptophanI ILE isoleucine                      Y TYR tyrosineK LYS lysine                          Z GLX glutamate or glutamineL LEU leucine                         X     anyM MET methionine                      *     translation stopN ASN asparagine                      -     gap of indeterminate length

.fastq格式文件

fastq格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。

每一个序列有四行组成:

第一行以@开头,表示这个read的ID,不会重复,没有空格。

第二行表示序列,通常以AGCTN(any)表示。

第三行是+,旧版fastq中会直接重复第一行,现在不会,一般没有附加信息。

第四行是质量信息

@FCD056DACXX:3:1101:2163:1959#TCGCCGTG/1
TCCGATAACGCTCAACCAGAGGGCTGCCAGCTCCGATCGGCAGTTGCAACCCATTGGCCGTCTGAGCCAGCAACCCCGGA
+
gggiiiiiiiiiiiiiiiiiiiiiiiiiigggggeeecccccc^bcbcccccccbccccc]aaccbbccc^R^^acccc_

质量信息与序列信息一一对应。

质量信息计算:

在测序仪进行测序的时候,会自动根据荧光信号的强弱给出一个参考的测序错误概率(error probility,P),如果直接储存(0.01)浪费内存,所以就将P取log10后乘以-10,得到Q值,Q值加33(或64)后得到的值去ASCII表中对应值即为质量值*

*不同测序的计算方法不同

seq-kit 好用的序列整理工具

具体看这篇文章

详细看这篇文章

fastq「只找到了fastqc?」

感谢爱码网

测序数据质控工具。

它输出为.html,当有多个文件时,默认将所有输出压缩为一个.zip文件输出。

结果是图表,绿色PASS,黄色WARN,红色FAIL。

纵轴为质量Q值,横轴是read的位置

​​​​​​​​​​​​​​

横轴是质量,纵轴是reads数目,峰小于27(0.2%错误率)报warn,小于20(1%错误率)报fail。

ATCG含量,纵轴位置,横轴百分比,判断是否被污染。

Fastp

新的质控工具,效率高,接受单端/双端测序结果,可以自动处理接头信息,做重复率统计,插入评估。对5mer做出现次数统计。不同碱基的质量值,ATCG含量等

这篇文章写的很详细​​​​​​​

conda

  • 一个能支持Python、R、Java、JavaScript、C等语言包、依赖和环境管理工具
  • 一个能在Windows、MacOS、Linux上运行开源的软件包管理系统和环境管理系统
  • 一个能在本地轻松创建、保存、切换环境

保姆文档​​​​​​​


.fasta | .fastq | seq-kit | fastq | fastp | conda相关推荐

  1. linux怎么查看fastq格式文件,fastq格式文件处理大全(一)

    从计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴.文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为f ...

  2. python3写txt_科学网—python3 fasta txt seq contig等纯文本文件的读取 写入 - 靳泽星的博文...

    #文本文件的读取,同样的如果'序列文件.txt'不在当前工作目录下,需要写出详细的文件路径.与window系统不同,在linux系统中工作路径需要用到'/',而不是'\'.参数'r'意思为以只读方式打 ...

  3. 纳米孔Nanopore-16S数据分析学习笔记

    2020.5找到了开放的protocol:https://www.protocols.io/view/nanoampli-seq-bioinformatics-workflow-u25eyg6 已经转 ...

  4. fastq与fasta文件格式解析

    fastq与fasta文件格式解析 一.fasta格式 二.fastq格式 2.1 格式说明 2.2 碱基质量计算 2.3 Quality Score简化 三.二代测序的fastq文件格式介绍 四.补 ...

  5. Fastq与Fasta格式

    一.关于Fastq FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式.其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与 ...

  6. fastq质量值_fastq格式文件处理大全(四)

    计算机的角度来说,生物的序列属于一种字符串,也是一种文本,因此生物信息分析属于文本处理范畴.文本存储为固定格式文件,生物信息的工作就是各种文本文件之间格式的转换,例如通过序列拼接将fastq转换为fa ...

  7. linux怎么查看fastq格式文件,2020-01-11 了解FASTQ格式并处理FASTQ文件

    FASTQ文件格式是测序仪展示数据的标准格式,可以看成FASTA文件的变种(FASTA+Q),因为其包含了对序列中每个碱基的Qualify Measurement.(如:碱基A出错的可能性是1/100 ...

  8. fastq质量值_微生物组16S rRNA数据分析小结:从fastq测序数据到OTU table

    推荐阅读 1.ggplot2绘制曼哈顿图示例2.phyloseq | 用 R 分析微生物组数据及可视化3.R语言PCA分析教程 | Principal Component Methods in R4. ...

  9. bam获取序列_如何从BAM文件中提取fastq

    虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq.最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了 ...

最新文章

  1. 淘宝Tengine服务器开源
  2. Java 基础 之 三目运算
  3. 基于Java Socket的文件UpLoad代码(完美版)-用递归解决java的目录树遍历
  4. 设计模式五:外观模式
  5. for-each 循环原理
  6. python课程水平测试成绩查询_学业水平考试成绩查询系统入口
  7. Monthly Expense( POJ-3273 )
  8. CentOS5.5下SVN部署文档
  9. 用PHP制作饼图调查表
  10. spring事务的传播属性和事务隔离级别及配置事务(注解方式)
  11. RESTful 使用规范及接口文档模板
  12. MFC项目使用Win7自带语音库(包含COM函数返回 “没有注册类”解决方式)
  13. C++ friend和protected
  14. java compiler类_Java_Java Compiler 应用实例
  15. Android6.0修改以太网IP
  16. 计算机组成原理实验一---运算器 预习报告
  17. python对银行工作有用吗_银行工作真的很可怕吗?
  18. 小程序之mpvue使用
  19. crack-jar手游,曾用过的工具
  20. 低学历高智商,太可怕了!

热门文章

  1. TP-LINK产品复位大全(路由器初始化恢复出厂默认值)
  2. 破解navicat试用期功能
  3. 我的世界服务器怎么修改小标题,我的世界标题指令
  4. 使用profile的PASSWORD_VERIFY_FUNCTION参数实现自定义的密码验证规则
  5. 山东理工大学首页html
  6. 联想小新Air14 锐龙 换屏
  7. Mixlab 【AI创造营】 百度飞桨创意赛 参赛项目介绍
  8. 阿里云-数据仓库-数据分析开发神器-ODPS
  9. html5制作大小写转换,java大小写转换
  10. 申请微信小游戏流量主提示 “填写的姓名或身份证与公众号主体信息不一致”