这一步是在进行最后的数据汇总工作中用到的,将基因的count与FPKM值和基因注释的结果组合在一起,得到一个完整的数据。方便客户进行后续研究。算法与之前那篇基因ID匹配注释文本一文相似,用了两个for循环嵌套进行比对,O=n²,在此也希望能够抛砖引玉,得到大神指点。

输入文件:

anno.DEG.txt

all.anno.xls #这里用的Editplus打开

本来之前我对all.anno.xls的geneID已经处理过了,但是正好遇到ftp出问题,无法下载最新文件,就将就前两天的结果进行处理

#读取文件列
anno_file = open('C:/Users/bbplayer/Downloads/all.anno.xls','r')
diffgene_file = open('C:/Users/bbplayer/Downloads/anno.DEG.txt','r')
genome_line = anno_file.readlines()
diffgene_list = diffgene_file.readlines()
#保留首行
title = diffgene_list[0]
#设置输出文件名
newfile_name = 'anno.DEG2'
desktop_path = 'C:/Users/bbplayer/Downloads/'
file_path = desktop_path+newfile_name+'.txt'
file = open(file_path,'w') #打开文件名
file.write(title) #输入首行
for count_fpkm in diffgene_list:count_fpkm = count_fpkm.replace("\n","") #替换换行符#print(count_fpkm) gene_ID = count_fpkm.split('\t') #根据分隔符进行分段#print(gene_ID[0])for line in genome_line:str_line = str(line)anno_ID = str_line.split(':')anno_line = str_line.split('\t',1) #根据分隔符进行分成2段#print(anno_line)if  anno_ID[0] == gene_ID[0]:num = len(anno_line) #注释为空时num=1if num !=2:continueelse:#print(num)file.write(count_fpkm + "\t" + anno_line[1])else:continue
#关闭文件
file.close()
diffgene_file.close()
anno_file.close()

tips:里面注释掉的print()用来测试输出文本,最简单直白的测试方式。

结果展示(只截了中间结合起来的部分,即表达下调down和GO注释连接处):

其实还可以这样,如果都用excel打开,然后对geneID统一升序或者降序,是否能直接对应上geneID,直接把注释文件粘贴到FPKM值后面。当然,这种办法一个是手动不方便,另一个是数据量大,中间计算复杂,不一定能保证完全匹配。

最近在看BLAST的算法,觉得人家好厉害,可以想到那么低计算度的方式。之后也要多研究研究算法了。

2021.01.05丨根据基因名称拼接表达量与相关注释相关推荐

  1. 查看感兴趣基因的表达量及其相关关系

    问题来源: 探寻:NCR2 表达对GBM肿瘤芯片数据中cell-cycle 和 cytokines 通路基因的相关关系 通过KEGG.db 来下载KEGG相关通路的基因 if (!requireNam ...

  2. 2021.01.05 ps临摹调色

    欢迎观看阿贝贝啊的今日成果 今天终于来完结梦幻场景这张图了 近期临近期末,不小心鸽了哈哈哈哈 这是临摹站酷一位作者的图,他有出教程,以及资源包 因为个人技术问题,整体调色出来的色彩我并不满意 会努力练 ...

  3. 830. Positions of Large Groups(Leetcode每日一题-2021.01.05)

    Problem In a string s of lowercase letters, these letters form consecutive groups of the same charac ...

  4. 荧光定量PCR:基因相对表达量计算方法

    荧光定量PCR之后计算目的基因的相对表达量一般采用2-△△ct的方法.我们还是假设对照组和处理组各有三个生物学重复(即对照组3个cDNA样品cDNA1, cDNA2, cDNA3,处理组3个cDNA样 ...

  5. 衡量基因相对表达量的RPKM、FPKM、TPM详解

    衡量基因相对表达量的RPKM和FPKM.及TPM 1.RPKM(Reads Per Kilobase per Million)和FPKM(Fragments Per Kilobase per Mill ...

  6. 2020.02.18【数据分析心得】丨如何将基因ID转化为基因名称

    2021.05.05更新:将基因名称转化为基因ID 上一次在这个平台上写文章居然已经是5年前了,毕竟研究生阶段没有主攻数据处理,让自己少了很多IT属性.废话少说,今天记录一下将基因ID转化为基因名称的 ...

  7. R plot图片背景设置为透明_R语言数据可视化基因名称转换及KEGG/GO富集分析

    01 - 简介 BiocManager是生物信息分析必不可少的R包之一,主要用来分析基因相关的各种问题,但是通常再R上安装这个程序包都挺麻烦的,搜索引擎上有非常多的关于如何安装的,因此这里只给个建议, ...

  8. 2021.3.17丨致病菌毒力因子(VFDB)数据库注释

    摘要 接到一个常规细菌的组装注释项目,不过客户提出想要获取关于组装结果与病毒之间的联系/按之前的操作,dfast没有病毒相关的数据库,无法满足客户需求.一番查阅,发现大家用这个VFDB数据库进行常规的 ...

  9. 2021年05月软件设计师真题透析

    2021年05月软件设计师上午真题及答案解析 1. 在 CPU 中,用( )给出将要执行的下一条指令在内存中的地址. A.程序计数器 B.指令寄存器 C.主存地址寄存器 D.状态条件寄存器 答案:A, ...

最新文章

  1. 女生学编程有哪些好处呢?
  2. 08、MySQL—字符串型
  3. C++中构造函数和析构函数的调用顺序
  4. 我的博客园第一个博客.
  5. 2、异步HTTP编程
  6. 新概念英语第二册课文电子版_新概念英语第二册课文学生(Victoria)朗读
  7. pytorch之trainer.zero_grad()
  8. Java日历的getMinimalDaysInFirstWeek()方法和示例
  9. 什么叫python脚本_什么是python的自省
  10. 当我谈缓存的时候,我谈些什么
  11. KEmulator与Eclipse搭建J2me调试平台
  12. android vulkan 游戏,王者荣耀Vulkan版
  13. python-lambda(匿名函数)原理与应用
  14. 分类排序 同辈元素只在数据上的层级关系
  15. ERP软件是什么意思,买菜大妈讲的通俗易懂
  16. 计算时间差 html,计算时间差的公式
  17. 批处理登陆邮箱代码分析
  18. Android面试题集锦
  19. 三重积分为何不能直接带入积分区域?搞懂这些,重积分基本可以了
  20. 江苏移动MGV3000-YS(S)/YS(M)-S905L3卡刷和线刷固件包

热门文章

  1. 开源OA协同办公平台搭建教程:开源O2OA中log4j2使用配置
  2. 2023养老展,中福协养老展,中国国际养老服务业博览会
  3. 驱动文件中只有cat/inf/dll文件,怎么安装
  4. SQL Server 2005的100范例程序及数据库下载
  5. 前向逐步线性回归算法
  6. 北邮考研复试机试准备过程(已上岸)
  7. ububtu安装谷歌浏览器+搜狗输入法+WPS+vscode+vim
  8. 软骨病——成年人的缺钙病
  9. 用计算机程序计算兴利库容,差积
  10. 如何选择MySQL中除一列外的所有列