文件格式——fasta格式
fasta格式
在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
格式
序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号(参见下表)。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。
下面是FASTA格式的氨基酸序列实例:
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*
FASTA格式支持的核苷酸代码如下:
核苷酸代码 |
意义 |
A |
Adenosine |
C |
Cytosine |
G |
Guanine |
T |
Thymidine |
U |
Uracil |
R |
G A (puRine) |
Y |
T C (pYrimidine) |
K |
G T (Ketone) |
M |
A C (aMino group) |
S |
G C (Strong interaction) |
W |
A T (Weak interaction) |
B |
G T C (not A) (B comes after A) |
D |
G A T (not C) (D comes after C) |
H |
A C T (not G) (H comes after G) |
V |
G C A (not T, not U) (V comes after U) |
N |
A G C T (aNy) |
X |
masked |
- |
gap of indeterminate length |
FASTA格式支持的氨基酸代码如下:
氨基酸代码 |
意义 |
A |
Alanine |
B |
Aspartic acid or Asparagine |
C |
Cysteine |
D |
Aspartic acid |
E |
Glutamic acid |
F |
Phenylalanine |
G |
Glycine |
H |
Histidine |
I |
Isoleucine |
K |
Lysine |
L |
Leucine |
M |
Methionine |
N |
Asparagine |
O |
Pyrrolysine |
P |
Proline |
Q |
Glutamine |
R |
Arginine |
S |
Serine |
T |
Threonine |
U |
Selenocysteine |
V |
Valine |
W |
Tryptophan |
Y |
Tyrosine |
Z |
Glutamic acid or Glutamine |
X |
any |
* |
translation stop |
- |
gap of indeterminate length |
最常见的FASTA格式
Fasta格式首先以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束???。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。
gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。
文件中和每一行都不要超过80个字符(通常60个字符)。
对于核酸序列,除了为大家所熟知的A、C、G、T、U外,R代表G或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G 或C(强);W代表A或T(弱);B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。
Database Name数据库名称 |
Identifier Syntax 标识符 |
GenBank |
gb|accession|locus |
EMBL Data Library |
emb|accession|locus |
DDBJ, DNA Database of Japan |
dbj|accession|locus |
NBRF PIR |
pir||entry |
Protein Research Foundation |
prf||name |
SWISS-PROT |
sp|accession|entry name |
Brookhaven Protein Data Bank |
pdb|entry|chain |
Patents |
pat|country|number |
GenInfo Backbone Id |
bbs|number |
General database identifier |
gnl|database|identifier |
NCBI Reference Sequence |
ref|accession|locus |
Local Sequence identifier |
表:序列来源的数据库与对应的标识符
数据库的冗余(redundancy)
DNA和蛋白质数据库中的很多记录是属于同一基因和蛋白质家族,或在不同生物体上发现的同源基因。不同的研究机构可能向数据库发送了相同的序列数据,如果没有被检查出来,则这些记录或多或少地紧密相关。当然,这些记录如果的确非常相近,可以被认定为它们是相同序列,但一些显著的差异可能是由于基因组多样性的结果。
冗余数据至少可能导致以下3个潜在的错误
一是如果一组DNA或氨基酸序列包含了大量非常相关序列族,则相应的统计分析将偏向这些族,在分析结果中,这些族的特性被夸大。
二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的。
三是如果这些数据是被用于预测,则这些序列将使预测方法—如人工智能方法—发生偏离。
非冗余(non-redundant, nr)
生物数据非常复杂,它远非“冗余”二字可以准备描述。例如,同一位点上的2个等位基因是不是冗余的?同一生物体内的2个同功酶是否冗余?因此,过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除,应在数据规模和非冗余之间找到一个合理的平衡点。
序列数据的偏差或人为假象(artifacts) 主要来自实验过程,这与其它科学数据的情况相同。这些人为假象主要来自以下几个方面:
(1) 载体序列污染:在测定序列等实验过程中,载体序列可能造成污染,致使序列记录数据中包含了载体序列。
(2) 异源(heterologous)序列污染:有研究表明一些人类cDNA测序结果在实验过程中被酵母和细菌序列污染。
(3) 序列的重排和缺失。
(4) 重复因子污染:cDNA克隆方法有时会受到逆转录因子(如Alus)的影响 。
(5) 测序误差和自然多态性:测序过程存在一定的误差概率。
转载于:https://www.cnblogs.com/zdwu/p/6801061.html
文件格式——fasta格式相关推荐
- linux系统fasta程序,fasta格式文件处理大全(一)
前面我们介绍了fastq格式文件的处理,大概有20多个案例,掌握了这些案例,后面拿到fastq格式之后就可以根据需求,使用合适的软件工具进行处理了,从这次内容开始,我们将逐渐介绍fasta格式文件的处 ...
- 生物信息数据格式:fasta格式
文章目录 格式说明 查看fasta 实例演练 读取fasta文件,并打印 把每条FASTA序列连成一行然后输出 把每条FASTA序列按一定长度输出 提取fasta.name中名字对应的test2.fa ...
- fastq转化成fasta格式
1.fastq格式 @A00601:606:H3LCWDSX3:3:1101:2428:1000 1:N:0:CGGCTATG+TCAGAGCC NTTGTTGGATTTGGGTCTTGGGTGTTT ...
- 基因组序列genbank格式和fasta格式批量下载
from Bio import Entrez,SeqIO import csv# 参数设置 Entrez.email = "example@163.com" Entrez.tool ...
- Fastq与Fasta格式
一.关于Fastq FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式.其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与 ...
- bam格式转换为Fastq/Fasta格式
bam格式转换为Fastq/Fasta格式 Samtools Fastq GATK SamToFastq Bedtools bamtofastq 举例说明,比如说我们现在有一个转录组比对文件D1_D1 ...
- PacBio hdf5 格式 向 FASTA格式转换
个人比较熟悉FASTA 或者FASTQ文件格式,PacBio 测序得到的数据以hdf5格式存储,在应用过程中如果需要输入相应的fasta 或者fastq格式,需要格式转换. 格式转化工具推荐:Pacb ...
- 利用毒株的accession号,批量下载fasta格式的文件
一.安装好Entrez Driect 见:http://www.cnblogs.com/lmt921108/p/8087474.html 二.在NCBI官网找到需要下载的文件的accession号 二 ...
- linux系统fasta程序,求助:如何用命令对fasta格式的序列按长短排序
wang7131984 于 2009-05-20 15:05:28发表: 提供一种解法吧,就是把文本的格式改改 比如 >xxxx yyyyyyyyyyyy 你就把它变成 char_num#> ...
最新文章
- 根据邻接表求深度优先搜索和广度优先搜索_深度优先搜索/广度优先搜索与java的实现...
- 小菜鸟学 Spring-Dependency injection(二)
- python解析mht文件_php解析mht文件转换成html的方法
- VTK:Utilities之Scalars
- css选择器的优先级
- LeetCode 5381. 查询带键的排列
- debian下erlang新版本安装
- 如何使用BetterZip mac版将大文件分卷压缩
- IBM服务器渠道销售招聘,热招 | IT客户服务渠道销售,我们在IBM等你!
- 雷达篇(十) dB和dBm的意义,功率W和dBm之间的换算
- 海森(hessian)矩阵
- 开源中国正式进军软件开发众包领域
- xp计算机无法关机,xp系统不能关机解决方法【图文教程】
- 腾讯云TRTC —— 实时音视频完整案例 音视频+共享屏幕直播
- 全国计算机专业录取分数线排名,2020中国高校录取分数线排名全国大学录取分数线表...
- python代理ip怎么写_python代理ip怎么写
- 如何在游戏中快速集成聊天功能
- python:实现Triplets with zero sum零和三元组(附完整源码)
- Jmeter察看结果树的响应数据中的中文显示乱码问题处理
- js经验分享 JavaScript反调试技巧
热门文章
- matplotlib保存图片为pdf格式,文字以字体形式保存,可以illustrator编辑,而不是喵点格式。
- 基于 Openlayers 实现的地图常用功能工具集合
- 移动办公日渐风靡,TOM随心邮被推崇
- 【前端技巧】实现点击复制文本内容方法
- 怎么装作自己学过java_【求教】明明只学过java基础,怎么装得像学完javaweb的
- Java中BigInteger与Integer区别
- js数组怎么删除指定元素?
- 案例分享 | 烘焙连锁店小程序开发案例
- 注册公众号该主体注册数量已超过上限,该怎么解决呢?
- PC端品优购网页制作(common.css)