gcCov：全球冠状病毒研究知识图谱数据库

中国科学院微生物研究所国家微生物科学数据中心马俊才、吴林寰团队的文章“gcCov: LinkedOpen Data for Global Coronavirus Studies”于近日在mLife正式上线。

导读：

本文提出了一种利用语义网技术构建知识图谱的方法，可冠状病毒相关的毒株、基因组、蛋白序列、蛋白结构、抗体、文献和专利等多源异构数据映射至资源描述框架（RDF），并发布开放关联数据集（Linked Open Data）。gcCov数据库是最大且最全面的冠状病毒语义数据库之一，其结果表明，使用LOD框架中的数据有助于通过多源异构数据的语义整合，探索基因型和表型之间的关联性，对研究病毒基本机制、药物和疫苗设计大有裨益。上述关联数据集与62,168,127个语义三元组，可登录https://nmdc.cn/gccov/访问并免费获取。

背景介绍：

近几十年，一种被称为“冠状病毒”（CoVs）的包膜正链RNA病毒家族引起了严重的感染性疾病，对全球公共卫生构成了持续威胁（1）。因此，人们对新型人类和动物CoVs开展了广泛研究，尤其是疫苗开发和治疗研究领域。仅2020年，关于COVID-19的出版物就超过了10,000篇，且这类出版物的数量仍在快速增长。这一快速增长，无疑使得将不同类型的研究整合到一个可搜索的语义互联的数据集，变成了一个巨大的挑战。语义网的特点是能够将分布式网络资源整合到共享的本体知识库中，然后对数据进行分析，确定各实体之间的潜在关系。以此方法，可以进行基因组学、结构、抗体和出版物数据之间的关联性分析。

在这项研究中，研究人员整合了不同来源的公开资源数据，并映射到语义网框架中，以此构建gcCov数据库。gcCov数据库应用开放互联数据（LOD），提供CoVs的海量信息及其关系。这有助于科学家发现互联数据之间的关系，并挖掘原本隐藏在海量数据中的信息。

LOD的用户和可视化界面

gcCov数据库对核苷酸和蛋白序列、三维（3D）结构、以及从各种数据源和数据格式中整合的文献和专利等最新数据资源进行动态统计。根据多个采集点的数据制成了CoV分布图。该图可用于评估多年来CoV感染在不同国家、和不同宿主的传播情况，已确认近30种CoVs可感染人类、哺乳动物和其他动物。用户使用gcCov中的文本字段搜索选项时，可应用单一或组合的元数据信息挖掘LOD。输入查询，可检索元数据字段中所有包含相应关键词的数据（如病毒类别、分离来源、宿主和提交或收集日期）。从搜索结果列表中选择一条或多条记录，可进一步可视化数据。所有编入目录的实体以及所选记录之间的关系，可通过数据可视化显示于动态图中，有助于根据潜在语义网进一步挖掘信息。目前，gcCov的语义网整合了九类实体，并可在结果页上进行可视化。这九类实体包括病毒类别、分类单元、病毒株、核苷酸序列、蛋白序列、结构、出版物、专利和抗体。整合了上述实体任意两者之间的关系，可在结果页中进行可视化。另外，结果页显示每一实体的统计总结、出版物的关键词计数以及每年的出版物数量。在动态可视化框中，用户可以从动态图中选择任意两点，设置为起点和终点，自动搜索两点之间的关系。

图1：用户界面和搜索功能。（A）动态可视化界面。（B）SPARQL数据查询演示。在互联数据搜索部分，用户可以使用一个或几个元数据值作为筛选，输入查询，然后会显示结果列表。用户可以继续选择感兴趣的结果，并将其添加到可视化界面中。最后，用户得到所有选定序列的动态可视化结果。例如，搜索中国武汉分离出来的所有SARS-CoV-2全基因组序列，然后从中选择显示几个基因组。可视化界面在一个交互页面显示所有选定的基因组及其相关的蛋白序列、蛋白质结构、文献和抗体信息。如果选择任意两个点作为起点和终点，系统会自动查找这两个点之间所有可能存在的链接。SPARQL数据查询页面提供了搜索SPARQL数据库的演示结果（如选择所有核苷酸序列，或具有某些特定特征的文献）。

图2：开放互联数据的可视化。上图是一个交互界面，显示数据库中重要实体之间的关系概况。用户可快速识别最重要的病毒株、出版物、基因组及其与其他研究结果的关系。左侧显示的是所有科学数据、文献类型和专利类型的统计数据。分布区域显示的是已发表的研究和按不同对象组织的不同病毒类别的结果。右侧顶部显示的是所选病毒类别的当前焦点、问题和趋势的关键词计数。右侧中间部分显示的是宿主分布，下面部分显示的是抗体功能分析，同样是基于所选的病毒类别。尽管基因重组的确切机制尚不明确，但在多个宿主物种之间循环的CoVs可能导致重组事件的增加。宿主分布图表明，CoVs的宿主范围非常广泛。部分CoVs宿主相同，这可能表明病毒感染了共同的祖先、或发生了种间传播和重组事件。全球研究结果表明，共有1800多种CoV感染的抗体。抗体功能图展示了抗体对不同CoV感染的应答。此类图有助于确定抗体是否能有效对抗特定CoV毒株。底部显示的是核苷酸序列、出版物、专利和抗体的年度数据。

本体（Ontology）和数据处理

研究人员定义了一套本体，包含11个类，其中有18个对象属性和42个数据属性。为了确保可全面而准确地反映数据和关系，用数据属性描述类别，用对象属性描述类别之间的关系，将所有CoV数据分成八种病毒类别，其中七类（229E、OC43、SARS-CoV、NL63、HKU1、MERS-CoV和SARS-CoV-2）是HCoVs，第八类代表所有其他CoVs。进一步地，将不同来源的数据，依据数据框架(schema)转化为三元组，提供SPARQL查询和开放关联数据下载。

总结展望：

语义网的技术框架自动建立了实体之间的交联，无需人工干预。因此，可显示研究对象之间的潜在关系，是一个非常强大的工具。gcCoV可处理大规模的数据，据此推动挖掘信息，有助于回答类似“SARS-CoV-2、SARS-CoV或MERS-CoV之间是否存在交叉中和抗体”等问题，为识别能够与多种CoV抗原结合的抗体提供线索。由于COVID-19疫情的爆发，关于毒株的组学、结构、疾病的致病性、免疫应答（包括与所谓的“COVID长期症状”有关的应答）、药物发现和疫苗加强剂等各种来源的数据日益丰富，因此，语义网知识图将会是一个重要且极具潜力的数据整合与挖掘工具。

论文链接：

https://onlinelibrary.wiley.com/doi/10.1002/mlf2.12008

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读