写在前面

近日在鼓捣课题的过程中,遇到了一些数据整理需求。需要快速统计物种的序列特征情况,比如基因,转录本,外显子,内含子,CDS,UTR等。但我们其实都清楚,很多物种的基因结构注释信息比较粗糙,所以前面我写了一个功能GXF Fix,详细见《GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3》。说实话,我觉得这个功能还是比较有用的。
既然Fix有了,那么就可以搞“Stat”,于是今天主要介绍GXF Stat

看看结果文件先

Emmm,这个功能说来也简单,就是做一个信息整理,结果文件如下。
看个拟南芥的,我们知道,拟南芥的注释很全面,完全不需要Fix,统计结果如下。

看个香蕉的统计结果,就相对简单,因为不存在 TE 的注释,也没有直接的假基因的特征标识。

整体上,我们可以看到,GXF Stat的统计结果,包括:

  1. 染色体数目
  2. 基因数目
  3. 转录本数目
  4. 基因ID
  5. 染色体ID
  6. 基因在染色体上的坐标跨度
  7. 每个基因的转录本个数
  8. 每个转录本的ID
  9. 每个转录本在染色体上的坐标跨度
  10. 每个转录本的外显子数目
  11. 每个外显子在染色体上的坐标跨度
  12. 每个转录本的内含子个数
  13. 每个内含子在染色体上的坐标跨度
  14. 每个转录本的CDS 特征个数
  15. 每个转录本的CDS 特征在染色体上的坐标跨度
  16. 每个转录本的UTR 特征个数
  17. 每个UTR 特征在染色体上的坐标跨度

写在最后

多少还是有点失落。尽管我知道现在公众号订阅的人数是 3w+。过去几天分别推了一些推文,其中有一些是不少人会点开看的,也有一些阅读量很低。往往,阅读量很低的,反而是我个人更为喜欢的推文。
想来想去,这应该就是推文的局限。
每个人都很忙,要么就是没时间看推文,要么就是只会看标题新奇的推文。或许,这就是不少流量号存在的根本。优质的内容是被需要的,但真正能受到广泛关注的,还是新奇程度。
一个好的推文标题,应该符合推文内容,
而一个获取流量的推文,需要符合大众的猎奇心理。

稀有 | GXF Stat 一次统计物种的Gene/mRNA/Exon/Intron/CDS/UTR...信息相关推荐

  1. oracle 查看 统计更新时间,oracle查看和更新统计表的信息

    在OEM中查看数据库的会话时,发现有一个会话的SQL要10多秒 在PL SQL中执行 SQL按F5查看这个SQL的计划,发现别的地方有 调用索引, oracle统计值查看 select * from ...

  2. Python 处理统计多个 Word docx 表格中的文字信息到Excel xls 文件中

    这里要处理的问题: 收到了好多读书心得的投稿,需要统计其中的学生信息,包括姓名,学号,班级等等 (如果你也有这种工作,建议使用问卷统计信息和问卷附件提交文件的形式来做这个活动,会更加简单省事,我这也是 ...

  3. python统计各省大学数_全国各省大学综合信息数据(教师.人口.本科.GDP.本科占人口比例)统计...

    序号 地区 面积万平 方公里 人口万人 人均DGP 元 教师 博士 硕士 本科 本科占 教师比 本科占 人口比 1 北京市 1.68 2171 106034 56820 55343 169443 44 ...

  4. 如何对基因组序列进行注释

    基因组组装完成后,或者是完成了草图,就不可避免遇到一个问题,需要对基因组序列进行注释.注释之前首先得构建基因模型,有三种策略: 从头注释(de novo prediction):通过已有的概率模型来预 ...

  5. python解析gff文件中的转录本

    1.下载基因组注释文件,选择对应的版本: ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/ 2.GTF 为 ...

  6. ChIPseeker入门到精通

    刘小泽写于2020.5.23-24 Y叔的原文在:https://mp.weixin.qq.com/s/3CMj0xejiV-FSMC-Vxd_-w 0 ChIPseeker的诞生 Y叔一开始使用Ch ...

  7. 基于 gff 文件构建 TxDb 包

    首先,TxDb 包是用 GenomicFeatures 包构建的,用于专门注释基因组中转录本.外显子.内含子等的包. 1. 如果是构建从 Ensembl 下载的参考基因组的 TxDb (transcr ...

  8. Kraken2:宏基因组快速物种注释神器

    简介 kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件. 图. Kraken2分类基本原理 该文章于2014年发表于Genome Biology,目 ...

  9. R统计绘图-rgbif包下载GBIF数据及绘制分布图

    1 基本信息 博士退学前,做完斑马鱼的Phylogenomics分析,系统进化树冲突.基因流.ILS和种群历史动态等分析了之后,需要看一下Danio属物种的地理分布,希望能跟Phylogenomics ...

最新文章

  1. ant design pro (十六)advanced 权限管理
  2. RuntimeError: cudnn64_7.dll not found.
  3. Redhat Enterprise linux 5 的安装
  4. 如何创建一个数据科学项目? 1
  5. 一个SAP加拿大实习生在当地观察到的美景
  6. Entity Framework Core 5中实现批量更新、删除
  7. php开源问答_PHP基础知识能力问答
  8. js List 对象封装【原创】
  9. leetcode 231. 2的幂
  10. Unity(一)Unity脚本程序开发
  11. 能力清单:2020年SAAS的思考框架
  12. 移动应用开发商的生存之道
  13. 蛋糕连锁店网站管理系统v1.5.1-企业建站系统源码
  14. Java解析xml的主要解析器: SAX和DOM的选择(附上新方法--Pull解析)
  15. Kafka——性能逆天的存在
  16. 集大成者 —— 荀子
  17. java与模式观察者模式_谈谈java中的观察者模式
  18. HTML5中 audio标签的样式修改
  19. office转pdf和图片实现在线预览
  20. 20210725:FLAC刻录音乐CD教程03-Flac转wav格式

热门文章

  1. 论文翻译-SAFL A Self-Attention Scene Text Recognizer with Focal Loss
  2. idea springboot 打jar包 --- 小白教程
  3. 精益生产的八大浪费是哪些?一篇教你轻松识别
  4. 数字体验监控:您需要知道的一切
  5. SuperMap iMobile 8C 技术文档 ——加载倾斜摄影模型
  6. matlab如何周期性延拓序列,Matlab 伪随机信号的产生(M序列)
  7. 在线图片改圆角工具 在线图片圆角网站
  8. 8.4V,7.4V转6V转5V转3.3V转3V转2.5V转2.4V降压芯片
  9. Elasticsearch6.1.2源码下载和编译构建
  10. Mac OS X 背后的故事(八)半导体的丰收