FASTA 与 FASTQ格式详解
FASTA
1.FASTA存储什么?
fasta存储核酸序列(DNA/RNA),也存储蛋白质的核苷酸序列(Animo Acid sequence,简称AA序列)
2.FASTA包含什么内容?
第一行:以“>”开头主要存储的是序列的描述信息
第二行:序列
3.例子1: AA序列(核苷酸序列)
UniRef数据库中下载的人类血红蛋白α亚基的序列。
>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR
从第一行看起:
第二行开始:核苷酸序列的信息,我们一般使用下面的对应表。
例子2:For 核酸序列
使用人类血红蛋白a亚基对应的mRNA序列,这个序列是从NCBI RefSeq数据库中下载的。
>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGG
GGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCA
CCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAA
GGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGC
GACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGA
CCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTC
TGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
G
从第一行看起:
gi号具有唯一性。
第二行开始:
发现在mRNA序列还是用T来表示,这是为了保证数据的统一性;U只是在RNA中替换了原来的T。
FASTQ
1.什么是FASTQ?
FASTQ是带有测序质量信息的存储格式。
2.FASTQ包含什么内容?
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
第一行:序列测序的坐标信息等。
第二行:测序得到的碱基序列,一般用ATGCN表示,N表示荧光信号干扰无法判断到底是哪个碱基。
第三行:“+”开头,一般为空(无用)
第四行:测序质量信息,与第二行的碱基序列是一一对应的。其中每一个符号对应的ASCII值成为phred值
phred值可以理解为对应碱基的质量值,越大说明测序质量越好。
3.FASTQ质量值的计算方法
P值:测序错误概率error probility;测序仪根据荧光信号强弱会给出的一个参考值。
Q=-10*log10(P)
Phred=Q+33/64(illumina:+33)
Phred对应的ASCII字符对应到这个碱基。
FASTA 与 FASTQ格式详解相关推荐
- C#,生信软件实践(03)——DNA数据库GenBank格式详解及转为FASTA序列格式的源代码
1 GenBank 1.1 NCBI--美国国家生物技术信息中心(美国国立生物技术信息中心) NCBI(美国国立生物技术信息中心)是在NIH的国立医学图书馆(NLM)的一个分支.它的使命包括四项任务: ...
- fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff),收集这些格式的说明书. fasta和fastq格式文件的shell小练习 http ...
- Java字节码(.class文件)格式详解(一)
原文链接:http://www.blogjava.net/DLevin/archive/2011/09/05/358033.html 小介:去年在读<深入解析JVM>的时候写的,记得当时还 ...
- php serialize取值,PHP 序列化(serialize)格式详解
PHP 序列化(serialize)格式详解(转) 1.前言 PHP (从 PHP 3.05 开始)为保存对象提供了一组序列化和反序列化的函数:serialize.unserialize.不过在 PH ...
- php serialize mysql_php 序列化(serialize)格式详解
1.前言 PHP (从 PHP 3.05 开始)为保存对象提供了一组序列化和反序列化的函数:serialize.unserialize.不过在 PHP 手册中对这两个函数的说明仅限于如何使用,而对序列 ...
- 三维重建:PNG格式详解-与LibPNG使用
PNG图像包含了骨骼信息,左边的图像比右边的大几十K,包含了骨骼信息: PNG格式详解:https://blog.mythsman.com/post/5d2d62b4a2005d7404 ...
- 4-4:TCP协议之TCP头部格式详解
文章目录 一:TCP头部格式详解 (1)4位首部长度 (2)序列号和确认应答号 A:可靠性问题 B:32位序号和确认号 (3)窗口大小 (4)标志位 (5)紧急指针 A:带外数据(out_of _ba ...
- PHP 序列化(serialize)格式详解
1.前言 PHP (从 PHP 3.05 开始)为保存对象提供了一组序列化和反序列化的函数:serialize.unserialize.不过在 PHP 手册中对这两个函数的说明仅限于如何使用,而对 ...
- 安卓camera2 API获取YUV420_888格式详解
安卓音视频开发中的一个环节是摄像头采集数据,Android平台上摄像头采集的API有两套,camera1和camera2.本文主要讲的是camera2这套API采集数据,并指明YUV420_888格式 ...
最新文章
- 再谈移动端Web屏幕适配
- 【Java核心面试宝典(1),程序员Javaweb源码
- jQuery 通用表单方法
- MyBatis二级缓存的配置
- AsyncTask的用法
- P4148 简单题(KDTree)
- python利用特征进行可视化样本显示_利用Python进行机器学习之特征选择
- 知乎究竟走的是什么路线?克隆之路靠谱吗?
- asp.net 数据绑定 使用eval 时候报 “字符文本中的字符太多” 问题解决
- 最新版24H全自动在线要饭系统全开源源码
- 04 | 身份认证:除了账号密码,我们还能怎么做身份认证?
- windows10服务器iis发布网站,win10系统+iis7发布网站或服务的详细办法
- 一文彻底看懂成交量的本质
- 关于深度优先遍历和广度优先遍历的一些深入思考
- python画动画爱心
- linux c字符串用0补位,Linux中10个你不知道的命令补齐技巧
- ROG 冰刃 3 枪神 2 Plus 第二时间上手体验
- Lora无线模块在畜牧业中的应用
- 【进阶篇】全流程学习《20天掌握Pytorch实战》纪实 | Day03 | 文本数据建模流程范例
- Android Architecture Components
热门文章
- Opencv+C++之身份证识别(一)
- 我的世界服务器宝石系统,[编程|娱乐]FarGem —— 全自定义宝石镶嵌框架[1.8-1.16]...
- (8)Total Commander——文件管理工具(更新中)
- Node.js之commander.js学习笔记
- 数据分析系列之数据探索
- 充电器用着用着就松了怎么办_手机充电线老松怎么办,安卓头的
- shiro设置ip白名单_Data Lake Analytics IP白名单设置攻略
- C语言案例-给定三角形的三条边长,计算面积
- Proguard用法
- 回调对象设计callbacks、异步回调解决方法deferred