MyTear

我们在做生物分析的时候,经常会碰到GFF格式的文件以及GTF格式的注释文件。他们有着相似的名字,甚至连内容都极为相似~那么,他们究竟差在哪里呢?

GFF全称为general feature format,这种格式主要是用来注释基因组。

GTF全称为gene transfer format,主要是用来对基因进行注释。

数据结构

GTF文件以及GFF文件都由9列数据组成,这两种文件的前8列都是相同的(一些小的差别)

1

2

3

4

5

6

7

8

9

reference sequence name

annotation source

feature type

start coordinate

end coordinate

score

strand

frame

attributes

GFF

GFF文件是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版)(GFF3)。GFF允许使用#作为注释符号,例如很多GFF文件都会使用如下的两行来表明其版本其创建日期:

##gff-version 2

##created 11/11/11

GFF文件每一列所代表的含义前面表格中有,但请注意,它的第3列feature type是不受约束的,你可以使用任意的名称,但也不要太淘气~用一些适当的名称对于后面的分析会有很大的帮助。

我们需要注意的是GFF文件的第9列,从第二版开始(GFF2),所有的属性都以标签=值的方式呈现,各个属性之间以;作为分隔符

ID=geneAExon1;Name=geneA;Parent=geneA;Organism=human

在最新版本的GFF文件中(GFF3),有一些是已经预先定义的属性特征,并且这些特征往往还有特殊的含义:ID这个标签实在各行都要有的;另外有一个Parent的属性,它表明了当前的特征是Parent特征的子集。

Contig01 PFAM gene 501 750 . + 0 ID=geneA;Name=geneA

Contig01 PFAM exon 501 650 . + 2 ID=exonA1;Parent=geneA

Contig01 PFAM exon 700 750 . + 2 ID=exonA2;Parent=geneA

GTF

当前所广泛使用的GTF格式为第二版(GTF2),它主要是用来描述基因的注释。GTF格式有两个硬性标准:

根据所使用的软件的不同,feature types是必须注明的。

第9列必须以gene_id以及transcript_id开头

GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征):

gene_id "geneA";transcript_id "geneA.1";database_id "0012";modified_by "Damian";duplicates 0;

两种文件的差异比较

GTF2

GFF3

reference sequence name

same

same

annotation source

same

same

feature type

feature requirements depend on software

can be anything

start coordinate

same

same

5. end coordinate

same

same

score

not used

optional

strand

same

same

frame

same

same

attributes

空格分隔

=分隔

两种文件格式之间的转换

偷个懒,直接使用Cufflinks里面的工具gffread

#gff2gtf

gffread my.gff3 -T -o my.gtf

#gtf2gff

gffread merged.gtf -o- > merged.gff3

gff文件用什么打开_GTF/GFF文件的差异及其相互转换相关推荐

  1. vb获取服务器文件路径,vb打开ftp服务器文件路径

    vb打开ftp服务器文件路径 内容精选 换一换 该任务指导用户使用Loader将数据从HDFS/OBS导出到SFTP服务器.创建或获取该任务中创建Loader作业的业务用户和密码.确保用户已授权访问作 ...

  2. 【Android 逆向】x86 汇编 ( 使用 IDA 解析 x86 架构的动态库文件 | 使用 IDA 打开动态库文件 | IDA 中查找指定的方法 )

    文章目录 一.使用 IDA 打开动态库文件 二.IDA 中查找指定的方法 一.使用 IDA 打开动态库文件 分析 Android SDK 中的 x86 架构的动态库 , 动态库位置 : D:\001_ ...

  3. c++如何打开hdf5文件_如何打开CSV格式文件才能正常使用?

    正文开始前先给大家来一波福利,欢迎大家扫码关注后,手动发送"薪酬"领取<企业薪酬管理必备资料包>! 注意:先扫码关注再回复回复关键词!先扫码关注再回复回复关键词!先扫码 ...

  4. PHP 把ofd格式文件转PDF,打开OFD格式文件及将OFD格式文件转换成PDF文件

    今天收到一张浙江开具的ofd格式发票,便在网上找相关的软件来打开方便打印出来给财务做账,但是找了一大圈没有解决方案,有些收费的解决方法,大部分所谓的OFD软件是骗人的,下载安装后根本打不开OFD格式的 ...

  5. outlook服务器拒绝访问文件夹,无法打开共享日历文件夹 - Outlook | Microsoft Docs

    尝试在 Outlook for Mac 中打开共享日历文件夹时没有权限错误 2021/4/8 适用于: Outlook 2019 for Mac, Outlook 2016 for Mac, Outl ...

  6. C语言文件类型和打开,关闭文件

    文件类型 读取文件需要文件信息(读写位置,内存缓冲地址....),这些信息放在"文件信息区". 由系统定义的FILE结构体类型可对其进行描述,定义在头文件stdio.h中. 可使用 ...

  7. pageoffice打开excel文件变成了打开本地~tempXXXX-Excel文件

    1.问题描述 本地安装了家庭版Office或Office Excel 2019后,用pageoffice打开excel文件,变成了本地打开excel临时文件(~tempXXXX-Excel),导致无法 ...

  8. cdr文件用什么打开?cdr文件打开方式有几种

    大家可能会接触到cdr这种格式的文件,这种文件是平面设计常用软件中CorelDRAW的源文件格式.由于CorelDRAW是矢量图形绘制软件,所以cdr可以记录文件的属性.位置和分页等.但它在兼容度上比 ...

  9. cdr文件用什么打开?(cdr文件打开方式汇总)

    很多人在工作中不会遇到扩展名为cdr的文件,但是偶尔遇到就会让人焦头烂额,一般来说cdr文件设计师接触的会多一点.cdr文件用什么打开?这是很多小白在刚接触cdr文件时遇到的第一个困惑,今天小编就给大 ...

最新文章

  1. 论学好Linux系统的超级重要性
  2. pythonsys模块介绍_sys 模块介绍 - Clarkhedi的个人空间 - OSCHINA - 中文开源技术交流社区...
  3. windows环境下bat和python调用rysnc的方式
  4. jmeter之调度器配置
  5. 网易MCTalk聚焦前沿技术 助力传统企业数字化转型
  6. 聊聊这些天收到的简历
  7. 计算机基础知识教材pdf,计算机基础知识 2教材.pdf
  8. python-打开网页
  9. Python 随笔之Redis
  10. linux 开机logo制作工具,linux开机logo制作
  11. 各自然带代表植被_植被带气候
  12. 采样示波器和实时示波器的原理及优势
  13. twitter关注排行榜
  14. 阿里云服务器续费流程及折扣
  15. 两个水壶相互倒水—水壶问题
  16. 什么是线程安全 什么是线程不安全
  17. 使用PyMOL绘制蛋白与配体分子结合模式图
  18. 影视剪辑,自学剪辑的8大技巧
  19. Evernote和有道云笔记的比较
  20. 看完这篇,请不要再说不懂MOSFET!

热门文章

  1. 信息安全体系建设☞通过防火墙实现内部网络的微隔离
  2. SpringBoot——短信发送、手机验证码登录
  3. 渗透外网测试KALI+隧道+加壳
  4. Wordpress 主题开发教程-页面结构与模板
  5. 二进制枚举爆搜DFS
  6. 学计算机系高中该如何选课,滑铁卢大学各专业对于高中选课的要求
  7. c语言程序里 n什么意思,英语中的n是什么意思
  8. 波动频率:KHz MHz GHz
  9. 何苦做游戏-- 一位网游制作人的成长故事
  10. Linux下VCS与Verdi联合仿真简易教程及例子示范