GTF基因注释文件详解
GFF和GTF是两种最常用的数据库注释格式,在信息分析中建库时除了需要fasta文件一般还会需要这两种文件,提取需要的信息进行注释。
Cufflinks/Tophat 软件需要 GTF文件作为基因注释文件。
GFF全称为general feature format,这种格式主要是用来注释基因组。
GTF全称为gene transfer format,主要是用来对基因进行注释。
目前两种文件可以方便的相互转化,比如:使用Cufflinks软件的 的gffread。
GTF文件由9列数据组成,这两种文件的前8列都是相同的(一些小的差别),
gtf文件是以tab键分割的9列组成,以下为每一列的对应信息:
seq_id | source | type | start | end | score | strand | phase | attributes | |||||
chr12 | danRer10_refGene | exon | 25132483 | 25132543 | 0 | + | . | gene_id "NM_199912"; transcript_id "NM_199912"; | |||||
chr12 | danRer10_refGene | start_codon | 25132758 | 25132760 | 0 | + | . | gene_id "NM_199912"; transcript_id "NM_199913"; | |||||
chr12 | danRer10_refGene | CDS | 25132758 | 25132785 | 0 | + | 0 | gene_id "NM_199912"; transcript_id "NM_199914"; | |||||
chr12 | danRer10_refGene | exon | 25132720 | 25132785 | 0 | + | . | gene_id "NM_199912"; transcript_id "NM_199915"; |
1) seq_id:序列的编号,一般为chr或者scanfold编号;
2) source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替;
3) type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等
4) start:该基因或转录本在参考序列上的起始位置;
5) end: 该基因或转录本在参考序列上的终止位置;
6) score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空;
7) strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
8) phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2(对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5'末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
9) attributes:一个包含众多属性的列表,格式为“标签=值”(tag=value),标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征),其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;
GTF基因注释文件详解相关推荐
- 生信格式 | GAF GO注释文件详解
下载 http://current.geneontology.org/products/pages/downloads.html GOC(Gene Ontology Consortium)提供了41种 ...
- 根据gtf格式的基因注释文件得到人所有基因的染色体坐标
用bedtools对基因组片段区域进行基因注释 根据gtf格式的基因注释文件得到人所有基因的染色体坐标 选择的genecode内最早的Grch38版本(201408) v20是最早的hg38版本对应的 ...
- java 注释 超链接_java_Java代码注释规范详解,代码附有注释对程序开发者来 - phpStudy...
Java代码注释规范详解 代码附有注释对程序开发者来说非常重要,随着技术的发展,在项目开发过程中,必须要求程序员写好代码注释,这样有利于代码后续的编写和使用. 基本的要求: 1.注释形式统一 在整个应 ...
- packageinfo.java_package-info.java文件详解
package-info.java文件详解 一.pacakge-info.java介绍 pacakge-info.java是一个Java文件,可以添加到任何的Java源码包中.pacakge-info ...
- oracle数据库pfile文件,Oracle pfile/spfile参数文件详解
Oracle pfile/spfile参数文件详解 在创建数据库时,SPFile文件中部分必须考虑的参数值: 基本规则 a.在SPFile文件中,所有参数都是可选的,也就是说只需要在初始化参数文件中列 ...
- NGS基础 - 参考基因组和基因注释文件
参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参考基因组和参考转录组信息. Ensembl(http:/ ...
- STM32启动文件详解-比较清晰的一篇
STM32启动文件详解 启动文件使用的 ARM 汇编指令汇总 启动程序源码注释(点此下载) 1. Stack-栈 Stack_Size EQU 0x00000400AREA STACK, NOINIT ...
- linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文
NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...
- Redis配置文件redis.conf文件详解
Redis配置文件redis.conf文件详解 唠嗑 这里面的意思只要看得差不多其实就是已经对redis有熟悉的感觉,就比如 推塔已经推到别人家的大门~~~~~~~~废话不多说直接开始了 知道大家都不 ...
最新文章
- JAVA图片处理--缩放,切割,类型转换
- lotus php,LotusPhp框架目录_PHP教程
- python计算均方根误差_如何在Python中创建线性回归机器学习模型?「入门篇」
- 检测某个IP是否属于某个网段范围
- Python地信专题 | 基于geopandas的空间数据分析—数据结构篇
- 阻止button刷新页面
- jzoj4231-寻找神格【线段树,数学】
- Windows安装Python包下载工具pip遇到的问题
- python如何判断为空_python中怎么判断是否为空
- java写算法之二叉搜索树查找
- 酒店居然用大数据赚你钱?
- MySQL中Checkpoint技术
- JQuery Form AjaxSubmit(options)在Asp.net中的应用注意事项
- OSI参考模型(2)
- 用python建云盘_超简单!基于Python搭建个人“云盘”
- java markdown 转 pdf_markdown转为pdf文件
- java基于springboot+vue的学生宿舍报修管理系统(源码+数据库+Lw文档)
- Google设置应用专用密码
- linux 硬盘合并使用方法,Linux硬盘合并的实现代码
- 【MySQL】34道SQL综合练习详解(员工表、部门表、工资等级表)