生物信息学习的正确姿势

NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集)等内容。

撰文 | 伊凯

责编 | 兮

名字里有什么呢?把玫瑰叫成别的名字,它还是一样的芬芳。

——《罗密欧与朱丽叶》

对于生命科学领域的年轻研究者们来说,最习以为常、见怪不怪的一件事,除了隔壁实验室某整天排位上分的博士师弟又发了CNS、某不是自己在谈恋爱就是在看电视里的人谈恋爱的硕士师妹又挂上一篇review成功毕业之外;恐怕就属教科书里、文献纸上处处存在的各种基因的大写、小写、正体、斜体的,或有意义或没意义的的名字了。它们就像你家门口的那块不知从何时起就立着的指示牌,虽然上面标着“济南路”,但你很清楚它的尽头站着的不是大明湖畔的夏雨荷,而是一块钱可以买到四个窝窝头的早餐店。

毕竟,在人类基因组计划完成二十年后、各类物种的功能基因组学图谱日臻完善的今天,想要在基因组中找到一个新的功能元件,并证明它够得上称之为“基因”的格,从而为基因字典加入一个新的标签,简直比登天还难。

不过,还是有一些做起科研来如同坐火箭一般的牛人,凭借高超的太空捕捞技术,能够一飞冲天、直入充满基因暗物质的茫茫宇宙,摘下某颗未曾被人欣赏过的新星。

此时,一个科学家的自我修养要求他们必须把搞清楚这个新基因的功能作为首要任务,但大部分人却往往忍不住先干起了一件特“俗”的事——给基因取名!那种冲动,让人不禁怀疑这些科学家们是否是在弥补给自己孩子取名时没有话语权的遗憾。

然而,令他们没有想到的是,在给基因取名这件事上,因为一个位于英格兰剑桥郡的低调却高贵的委员会的存在,他们实现自己的恶趣味的想法从一开始就注定失败。

这个掌控着生命科学的门面行业——基因命名的委员会,即国际人类基因组组织基因命名委员会(Human Genome Organization Gene Nomenclature Committee, H(UGO)GNC)。2020年8月3日,HGNC再一次现身,用一篇发表在Nature Genetics上的评论文章Guidelines for human gene nomenclature,重申了自己对于基因命名这件事的严肃性的执着,向一切和自己对着干的人和物(包括经常把自己批准的标准基因名无端转变成日期标签的微软Excel软件, Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及)发出了最严正的劝诫(和最无奈的妥协,见后文)。

要理解HGNC存在的意义,就不得不提到,在基因命名史前的漫漫长夜中,有多少无辜的基因婴儿曾经“惨遭毒手”,一出生就被冠上一个注定命运多舛的姓名。

如果说像TP53这样因为认知偏差导致“错误”命名的(对应蛋白名为p53,来源于SDS-PAGE蛋白电泳结果,表观分子量为53 kDa,实际分子量为43.7 kDa)【1】,或者BRCA1这样因为和某种疾病直接挂钩而简单化命名【2】的尚可接受;那么像Sonic hedgehog(正式基因名缩写为SHH)【3】或Pokemon(基因名后确定为ZBTB7A)【4】这样被二次元爱好者强行霸占,或者像Son of sevenless(基因名缩写为SOS1)【5】这样由于处于果蝇基因sevenless调控下游就被安排了一个爸爸,像fruitless(基因名后确定为ZBTB22)【6】这样因为具有改变果蝇性取向能力就自带嘲讽气质的,则无疑是突破了人类和基因和平共存的“底线” (这些基因的名字太有才了,研究一下都可以发10分文章)。

令人安慰的是,上述“令人发指”的花式命名行为中,有的在被科学共同体纠正之前就已经遭受了“出圈”被怼的待遇:跟世嘉公司放过音速索尼克商标被疯狂科学家挪用的结局不同,任天堂在自己名下的精灵宝可梦商标被斯隆·凯特琳癌症中心的科学家使用之后的一年内,即公开威胁要控告对方,理由是“不希望宝可梦的形象因与癌症产生联系而受损【7】

在这种秩序崩坏的情况下,HGNC和它所制定的基因命名准则的出现,无疑让那些出于各种人为因素曾经“误入歧途”的基因名重获了新生。

早在上个世纪六、七十年代,生命科学家们就意识到了给基因规范化命名的重要性。在1979年于苏格兰爱丁堡召开的人类基因组大会上,基因命名委员会首次被正式赋予批准和制定基因名称的权力,同时发布了历史上首个基因命名准则【8】。这一准则在经历了多代更迭后,形成了一个完整、多样化且适应性强的体系,它的主要内容包括:

1. 基因符号必须唯一;

2. 基因符号应是对应基因名称的缩写;

3. 基因符号应只包含拉丁字母和阿拉伯数字;

4. 基因符号不应包含任何标点符号;

5. 基因符号不应以字母G指代“gene”;

6. 基因符号不应包含物种指代,如用“H/h”指代人类。

基于这一严格的标准,HGNC如今已为超过四万个人类基因组位点命名,其中有近一半为非蛋白编码基因,包括RNA基因、lncRNA基因和假基因等。与蛋白编码基因命名过程的直截、清晰相比,非编码基因的命名往往具有不少困难,主要集中在是否具有功能性证据、物种同源程度高低、与已注释区域存在重叠等关键问题上。例如HGNC专门针对近年来受到广泛关注的在生物功能上存有争议的lncRNA的命名流程进行了设计:

HGNC所制定的基因命名规则的生命力不仅来自于其基于的科学原则和共同体共识,也来源于与时俱进的灵活性。例如,基因DROSHA曾经被命名为RNASEN,但由于相应研究领域的强烈呼吁,最终被修改为DROSHA。又如,微软公司开发的便民高科技人工智能表格处理软件Excel一直因其强行转化某些基因名称为日期标签而广受业内诟病(如MARCH1->1-Mar,SEPT1->1-Sep);一篇发表于2016的研究甚至发现有接近五分之一之多的基因组学研究论文存在因为被Excel“误解”而导致的命名错误【9】;作为回应,HGNC将存在这一问题的27个基因的名称全部进行了修改,例如将MARCH1改为MATCHF1,将SEPT1改为SEPTIN1等。Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及

值得一提的是,HGNC并不是一切广义上与人类基因的“名称”相关的事务的最终决定者。例如,HGNC不负责批准和制定基因编码之蛋白的符号与名称、不负责注释启动子、增强子之类的基因调控元件等。当然这并不意味着花式命名狂热者们就可以在这些领域中“胡作非为”了:以增强子为例,包括FANTOM和Ensembl在内的多个国际组织或机构都具有根据各自确定的功能性证据准则进行增强子注释和命名的权力,只不过在一致性和稳定性上略逊于HGNC罢了。

话说回来,HGNC作为一个非营利性、非政府的科学公益组织,对基因命名这项事务的“管理”,很大程度上只是一种基于学术共同体意愿的无偿服务,而并不象征着中心化的统一控制。这就意味着HGNC在批准和制定基因符号与名称时,仍要最大限度地尊重作为基因发现者的科学家们的理念和“创意”。毕竟,不负责任的无厘头式命名只是极少数,绝大部分科学家在给基因命名时还是能够做到既简洁明晰,又富含意义。

在这方面,一个经典的例子是,芝加哥大学分子进化生物学家龙漫远教授在上个世纪九十年代对果蝇嵌合基因“精卫”(Jingwei, jgw)及其祖先基因进行命名时,受到中国古代神话传说《山海经》的启发,将黄帝基因(yellow-emperor, ymp)经复制/倍增(duplication)形成炎帝基因(yande, ynd),随后又经由乙醛脱氢酶基因(Alcohol dehydrogenas, Adh)的反转录转座(retroposition)插入而形成精卫基因的奇妙过程,以神话中的人物关系代称,创造性地刻画了精卫基因的分子起源过程,以及它从一个被认为是无功能的假基因(pseudogene)转变为确证有功能的蛋白编码基因的“死而复生”的跌宕经历【10】

原文链接:

https://www.nature.com/articles/s41588-020-0669-3

制版人:十一

参考文献

1. Levine, Arnold J., and Moshe Oren. "The first 30 years of p53: growing ever more complex." Nature reviews cancer 9.10 (2009): 749-758.

2. Miki, Yoshio, et al. "A strong candidate for the breast and ovarian cancer susceptibility gene BRCA1." Science 266.5182 (1994): 66-71.

3. Roessler, Erich, et al. "Mutations in the human Sonic Hedgehog gene cause holoprosencephaly." Nature genetics 14.3 (1996): 357-360.

4. Maeda, Takahiro, et al. "Role of the proto-oncogene Pokemon in cellular transformation and ARF repression." Nature 433.7023 (2005): 278-285.

5. Rogge, Ronald D., Chris A. Karlovich, and Utpal Banerjee. "Genetic disp of a neurodevelopmental pathway: Son of sevenless functions downstream of the sevenless and EGF receptor tyrosine kinases." Cell 64.1 (1991): 39-48.

6. Demir, Ebru, and Barry J. Dickson. "fruitless splicing specifies male courtship behavior in Drosophila." Cell 121.5 (2005): 785-794.

7. Simonite, Tom. "Pokémon blocks gene name." (2005): 897.

8. Shows, T. B., et al. "International system for human gene nomenclature (1979) ISGN (1979)." Birth defects original article series 15.11 (1980): 96.

9. Ziemann, Mark, Yotam Eren, and Assam El-Osta. "Gene name errors are widespread in the scientific literature." Genome biology 17.1 (2016): 1-3.

10. Long, Manyuan, et al. "The origin of new genes: glimpses from the young and old." Nature Reviews Genetics 4.11 (2003): 865-875.

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

特别关注 | 想给基因取个名儿?也要按照基本法!相关推荐

  1. 我是程序员,想给工作室取名字,来10个给我参考一下

    码笔工作室 码之源 码神工作室 码界工作室 码造工作室 码海工作室 码风工作室 码力工作室 码智工作室 码城工作室

  2. 我是程序员,想给工作室取名字,参照字节跳动风,来20个给我参考

    "飞跃字节" "码力巨擘" "字节之舞" "跳跃开发" "编程高手" "代码之王" ...

  3. 我是程序员,想给工作室取名字,来10个给我参考一下,有趣深刻点

    代码之美 技术魔法 编程领域 程序之源 码农高峰 程序之魂 码力革新 编码天堂 技术至尊 程序帝国

  4. layui 下拉选择框可以选择但不显示数据值_你想做的quot;基因药物疾病quot;网络数据在这里!...

    点击[医学方]  关注我们 最近有师妹苦恼于某药物作用相关科研课题设计,不知道疾病研究方向,不想清楚应该选择哪些基因进行研究.于是我向她推荐了这个数据库,分分钟解决了她的难题. 无论你是想根据基因,想 ...

  5. 使用BeautifulSoup爬取想要的标签(《python网络爬虫权威指南》笔记)

    使用BeautifulSoup爬取想要的标签 精确爬取标签 BeautifulSoup中的find()和find_all()方法 BeautifulSoup中的对象 兄弟.子.父.后代标签的处理 抓取 ...

  6. python爬取酷狗音乐url_python-从酷狗下载爬取自己想要的音乐-可以直接拿来体验哟...

    因为最近发现咪咕音乐版权好多,当时我就在想是不是可以爬取下来,然后花了一些时间,发现有加密,虽然找到了接口,但是只能手动下载VIP歌曲,对于我们学IT的人来说,这是不能忍的,于是就懒得去解密抓取了,但 ...

  7. seqkit根据基因id_ID转换靠的是深厚的背景知识加上一点代码技巧

    有学员提问: 请教老师,在分析一个芯片数据时候,遇到这个GPL16686平台,直接看平台信息里面的表格如图,找不到基因名,所以不知道该怎么办,ID转换就卡死了,后续的差异分析,火山图,热图等等都无从下 ...

  8. 他的爬虫软件助3000企业抓取数据 最高日采8000万条 营收50万元

    ◆ "前嗅"创始人陈玉立 文| 铅笔道 记者 代伟 ►导语 "前嗅"是一个大数据软件提供商,客户根据需求选择不同版本的爬虫软件(ForeSpider前嗅爬虫系统 ...

  9. TCGA里面的任意基因做生存分析 批量生存分析

    欢迎关注 在刚刚进入生信领域的时候,我想做的事情就是三个, 第一,知道任何我想研究的基因在组织中的表达情况, 第二,我选的基因对肿瘤的生存有无影响, 第三,这个基因可能的作用是什么? 这是来自临床医生 ...

最新文章

  1. 函数实现十进制转二进制
  2. php 安装rabbitmq拓展_【RabbitMQ】——centos7安装rabbitmq教程 以及 PHP开启rabbitmq扩展...
  3. MongoDB-集群搭建
  4. c3p0依赖导入失败问题(在使用到c3p0中的ComboPooledDataSource类的时候报错,依赖爆红)
  5. 留学申请中,你们怎么老让我做科研啊?
  6. Linux下Kill函数用法
  7. PHP判断pc和移动端跳转,JS判断是PC还是移动端浏览器,并根据不同的终端跳转到不同的网址...
  8. ZigBee On Windows Mobile-ZigBee模块的设计制作
  9. 基于DotNet构件技术的企业级敏捷软件开发平台 - AgileEAS.NET - 权限管理
  10. 别把SEO当苦力活,做优化要讲究策略
  11. react打包后图片丢失_给 React 组件自动加上 react-hot-loader
  12. 三维激光LiDAR点云数据处理,我帮您!
  13. MySQL联合查询及取别名
  14. Python读写excel练习_去除excel中乱码行,并添加列
  15. 听我给你普及师父、师傅和讲师、教师的区别
  16. Palantir分析:「商业模式画布」、「SWOT」、「垄断特征」、以及「7个商业模式」
  17. 风格迁移 I2I 论文阅读笔记——U-GAT-IT,动漫风格生成
  18. 元气骑士+蒲公英联机平台联机教程
  19. IDEA安装教程及插件推荐
  20. 【FPGA入门教程】(二)FPGA学习路线及开发流程

热门文章

  1. 样本数据去标识化技术
  2. GPS跟踪系统Traccar
  3. 使用 Rails 构建 API 实践
  4. AC米兰 传统豪门的没落
  5. C++ 校园足球联赛 题解
  6. 场景法设计测试用例atm_测试用例设计--场景法
  7. 读书笔记;月亮与六便士
  8. 100种思维模型之人类误判心理思维模型-49
  9. python用禁忌搜索算法实现TSP旅行商问题
  10. 基于Java web的员工工资管理系统(人事管理系统)