。原始定义见

SONG website

gff

是存文本文件,由

tab

键隔开的

9

列组成,以下是各列的说明:

Column 1: “seqid”

序列的编号,编号的有效字符

[a-zA-Z0-9.:^*$@!+_?-|]

Column 2: “source”

注释信息的来源,比如

”Genescan”

”Genbank”

等,可以为空,为空用

”.”

点号代

Column 3: “type”

注释信息的类型,比如

Gene

cDNA

mRNA

等,或者是

SO

对应的编号

Columns 4 & 5: “start” and “end”

开始与结束的位置,注意计数是从

1

开始的。结束位置不能大于序列的长度

Column 6: “score”

得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的

E-values

值或者基因预测是的

P-values

值。

”.”

表示为空。

Column 7: “strand”

序列的方向,

+

表示正义链

, -

反义链

, ?

表示未知

.

Column 8: “phase”

仅对注释类型为

“CDS”

有效,表示起始编码的位置,有效值为

0

1

2

Column 9: “attributes”

以多个键值对组成的注释信息描述,键与值之间用

”=“

,不同的键值用

”;“

隔开,

一个键可以有多个值,不同值用

”,“

分割。注意如果描述中包括

tab

键以及

”,=;”

要用

URL

转义规则进行转义,如

tab

键用

%09

代替。键是区分大小写的,以大

写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。

预先定义的键包括:

ID

注释信息的编号,在一个

GFF

文件中必须唯一;

Name

注释信息的名称,可以重复;

Alias

别名

gff文件_GFF格式说明相关推荐

  1. gff文件_GFF格式说明 | Public Library of Bioinformatics

    gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多 ...

  2. gff文件_gff/gtf格式

    1)gff3及gtf2简介 一个物种的基因组测序完成后,需要对这些数据进行解读,首先要先找到这些序列中转录起始位点.基因.外显子.内含子等组成元件在染色体中的位置信息(即注释)后才能再进行深入的分析. ...

  3. gff文件_GFF文件格式简介

    鉴于代码的排版问题,建议在电脑上阅读本文. 组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石.在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是 ...

  4. gff文件_GFF文件格式说明

    gff格式是Sanger研究所定义,是一种简单的.方便的对于DNA.RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多 ...

  5. gff文件_GFF3格式介绍 | Public Library of Bioinformatics

    GFF3是GFF注释文件的新标准.文件中每一行为基因组的一个属性,分为9列,以TAB分开. 依次是: 1. reference sequence:参照序列 指出注释的对象.如一个染色体,克隆或片段.可 ...

  6. gffread gffcompare 将gff与gtf格式的注释文件转换与合并

    gffread gffcompare 将gff与gtf格式的注释文件转换与合并 使用: (1)gffread 安装: conda install gffread -y 使用: mkdir gtf# 格 ...

  7. AGAT|GTF/GFF文件处理工具

    AGAT AGAT是Another Gff Analysis Toolkit的缩写, 是一个用于处理GTF/GFF文件的工具.AGAT 有检查.修复.填充任何类型的 GTF 和 GFF 的缺失信息(特 ...

  8. gtf与gff3文件【格式】【转换】

    GFF3 官方 General Feature Format Version 3 存储序列结构信息的一种数据格式.序列结构就是一个scaffold或者染色体上面每个位置都是什么序列元件. GFF每一行 ...

  9. 生信分析过程中这些常见文件的格式以及查看方式你都知道吗?

    生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式.在分析的过程中还会有众多中间文件的生成,如bed.bed12. ...

最新文章

  1. 查看和设置MySQL数据库字符集(转)
  2. Java枚举原来还能这么用
  3. iOS 生日计算星座
  4. HDU Problem - 1455 Sticks
  5. 计算机java考试_2017年计算机java考试试题
  6. 中国第一软件开发_我第一次开发企业软件中学到的知识
  7. More Effective C++精简版(4)
  8. jquery中的live()方法
  9. linux asp.net 性能优化,ASP.NET性能优化之减少请求
  10. 公司财务分析——收益性分析
  11. Python自学篇——快递分拣程序
  12. 在linux上临时挂载NTFS格式的优盘
  13. pyspider 文档介绍
  14. 软件系统的多维性能模型
  15. 开启全面屏体验 | 手势导航 (一)
  16. 深入浅出contenteditable富文本编辑器
  17. 被病毒感染后隐藏文件夹的隐藏属性变灰(不可修改)的解决办法!
  18. 16世纪的旷世奇才:大学弃医丛数,仅用20年就独立发明了温度计、军事罗盘、天文望远镜,后半生双目失明还能写出惊人科学著作
  19. Dell 330显卡驱动在2003server安装问题
  20. 决策树分类算法(if-else原理)

热门文章

  1. 基于自适应逆透视变换的车道线SLAM
  2. 一道题弄明白二维数组的指针
  3. 视频色彩校正简介 Introduction to Video Color Correction
  4. SNMP introduction
  5. C++的多个有序链表合并
  6. Linux下控制环境变量
  7. GoAccess安装及分析nginx实时日志
  8. 快速求斯特林数总结(洛谷模板题解)
  9. C语言------运算符和表达式
  10. 良好的用户体验应该...