中国科学院微生物研究所国家微生物科学数据中心马俊才吴林寰团队的文章“gcCov: LinkedOpen Data for Global Coronavirus Studies”于近日在mLife正式上线。

导读:

本文提出了一种利用语义网技术构建知识图谱的方法,可冠状病毒相关的毒株、基因组、蛋白序列、蛋白结构、抗体、文献和专利等多源异构数据映射至资源描述框架(RDF),并发布开放关联数据集(Linked Open Data)。gcCov数据库是最大且最全面的冠状病毒语义数据库之一,其结果表明,使用LOD框架中的数据有助于通过多源异构数据的语义整合,探索基因型和表型之间的关联性,对研究病毒基本机制、药物和疫苗设计大有裨益。上述关联数据集与62,168,127个语义三元组,可登录https://nmdc.cn/gccov/访问并免费获取。

背景介绍:

近几十年,一种被称为“冠状病毒”(CoVs)的包膜正链RNA病毒家族引起了严重的感染性疾病,对全球公共卫生构成了持续威胁(1)。因此,人们对新型人类和动物CoVs开展了广泛研究,尤其是疫苗开发和治疗研究领域。仅2020年,关于COVID-19的出版物就超过了10,000篇,且这类出版物的数量仍在快速增长。这一快速增长,无疑使得将不同类型的研究整合到一个可搜索的语义互联的数据集,变成了一个巨大的挑战。语义网的特点是能够将分布式网络资源整合到共享的本体知识库中,然后对数据进行分析,确定各实体之间的潜在关系。以此方法,可以进行基因组学、结构、抗体和出版物数据之间的关联性分析。

在这项研究中,研究人员整合了不同来源的公开资源数据,并映射到语义网框架中,以此构建gcCov数据库。gcCov数据库应用开放互联数据(LOD),提供CoVs的海量信息及其关系。这有助于科学家发现互联数据之间的关系,并挖掘原本隐藏在海量数据中的信息。

LOD的用户和可视化界面

gcCov数据库对核苷酸和蛋白序列、三维(3D)结构、以及从各种数据源和数据格式中整合的文献和专利等最新数据资源进行动态统计。根据多个采集点的数据制成了CoV分布图。该图可用于评估多年来CoV感染在不同国家、和不同宿主的传播情况,已确认近30种CoVs可感染人类、哺乳动物和其他动物。用户使用gcCov中的文本字段搜索选项时,可应用单一或组合的元数据信息挖掘LOD。输入查询,可检索元数据字段中所有包含相应关键词的数据(如病毒类别、分离来源、宿主和提交或收集日期)。从搜索结果列表中选择一条或多条记录,可进一步可视化数据。所有编入目录的实体以及所选记录之间的关系,可通过数据可视化显示于动态图中,有助于根据潜在语义网进一步挖掘信息。目前,gcCov的语义网整合了九类实体,并可在结果页上进行可视化。这九类实体包括病毒类别、分类单元、病毒株、核苷酸序列、蛋白序列、结构、出版物、专利和抗体。整合了上述实体任意两者之间的关系,可在结果页中进行可视化。另外,结果页显示每一实体的统计总结、出版物的关键词计数以及每年的出版物数量。在动态可视化框中,用户可以从动态图中选择任意两点,设置为起点和终点,自动搜索两点之间的关系。

图1:用户界面和搜索功能。(A)动态可视化界面。(B)SPARQL数据查询演示。在互联数据搜索部分,用户可以使用一个或几个元数据值作为筛选,输入查询,然后会显示结果列表。用户可以继续选择感兴趣的结果,并将其添加到可视化界面中。最后,用户得到所有选定序列的动态可视化结果。例如,搜索中国武汉分离出来的所有SARS-CoV-2全基因组序列,然后从中选择显示几个基因组。可视化界面在一个交互页面显示所有选定的基因组及其相关的蛋白序列、蛋白质结构、文献和抗体信息。如果选择任意两个点作为起点和终点,系统会自动查找这两个点之间所有可能存在的链接。SPARQL数据查询页面提供了搜索SPARQL数据库的演示结果(如选择所有核苷酸序列,或具有某些特定特征的文献)。

图2:开放互联数据的可视化。上图是一个交互界面,显示数据库中重要实体之间的关系概况。用户可快速识别最重要的病毒株、出版物、基因组及其与其他研究结果的关系。左侧显示的是所有科学数据、文献类型和专利类型的统计数据。分布区域显示的是已发表的研究和按不同对象组织的不同病毒类别的结果。右侧顶部显示的是所选病毒类别的当前焦点、问题和趋势的关键词计数。右侧中间部分显示的是宿主分布,下面部分显示的是抗体功能分析,同样是基于所选的病毒类别。尽管基因重组的确切机制尚不明确,但在多个宿主物种之间循环的CoVs可能导致重组事件的增加。宿主分布图表明,CoVs的宿主范围非常广泛。部分CoVs宿主相同,这可能表明病毒感染了共同的祖先、或发生了种间传播和重组事件。全球研究结果表明,共有1800多种CoV感染的抗体。抗体功能图展示了抗体对不同CoV感染的应答。此类图有助于确定抗体是否能有效对抗特定CoV毒株。底部显示的是核苷酸序列、出版物、专利和抗体的年度数据。

本体(Ontology)和数据处理

研究人员定义了一套本体,包含11个类,其中有18个对象属性和42个数据属性。为了确保可全面而准确地反映数据和关系,用数据属性描述类别,用对象属性描述类别之间的关系,将所有CoV数据分成八种病毒类别,其中七类(229E、OC43、SARS-CoV、NL63、HKU1、MERS-CoV和SARS-CoV-2)是HCoVs,第八类代表所有其他CoVs。进一步地,将不同来源的数据,依据数据框架(schema)转化为三元组,提供SPARQL查询和开放关联数据下载。

总结展望:

语义网的技术框架自动建立了实体之间的交联,无需人工干预。因此,可显示研究对象之间的潜在关系,是一个非常强大的工具。gcCoV可处理大规模的数据,据此推动挖掘信息,有助于回答类似“SARS-CoV-2、SARS-CoV或MERS-CoV之间是否存在交叉中和抗体”等问题,为识别能够与多种CoV抗原结合的抗体提供线索。由于COVID-19疫情的爆发,关于毒株的组学、结构、疾病的致病性、免疫应答(包括与所谓的“COVID长期症状”有关的应答)、药物发现和疫苗加强剂等各种来源的数据日益丰富,因此,语义网知识图将会是一个重要且极具潜力的数据整合与挖掘工具。

论文链接:

https://onlinelibrary.wiley.com/doi/10.1002/mlf2.12008

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

gcCov:全球冠状病毒研究知识图谱数据库相关推荐

  1. 知识图谱数据库将人类的思维路径转化为机器的路径思维

    网络用图,出处不明 前段时间被沙特阿拉伯授予公民身份的人形机器人"索菲亚",再一次颠覆了人们对人工智能技术的认知. "索菲亚"多次与人类交锋并公开发表言论的过程 ...

  2. 【知识图谱】知识图谱数据库提供一站式全域行业数据融合

    知识图谱数据库为金融 AI 革新贡献最前沿的力量,该平台运用大数据.知识图谱数据库.人工智能等技术服务于金 融行业,可提升金融机构合规和风控能力,从而帮助实现行业人工智能.在对公业务中,知识图谱数据库 ...

  3. 知识图谱数据库还有OLTP、OLAP(MOLAP、ROLAP、HOLAP)的区别? 首个实时图数仓架构分析...

    目录导读 数据库与数据仓库与数据湖泊的介绍 图数据库与图数据仓库的区别 图库发展与现状 HOLAP(ROLAP+MOLAP)图数仓的优点 HOLAP数仓数据摄入方式 HOLAP数仓数据存储方式 总结 ...

  4. 【无标题】置信规则库研究现状,研究知识图谱,研究大全一览

    置信规则库相关研究知识图谱 才看了40篇左右英文文献,内容尚不完整,感兴趣的小伙伴可以留言 VISIO原图在本文主页-资源可以找到,想要使用的小伙伴快去下载吧

  5. 明略数据打造“公安大脑”用知识图谱数据库助警察破案事半功倍

    本文讲的是 :   明略数据打造"公安大脑"用知识图谱数据库助警察破案事半功倍 ,   3天到5分钟:明略数据打造"公安大脑"助警察研判效率大幅提升 " ...

  6. python 知识图谱数据库_知识图谱和 Neo4j 浅析-数据库

    编辑推荐: 本文来自于51cto,介绍了什么是知识图谱,知识图谱的应用场景,知识图谱的构建,知识图谱的存储以及 neo4j 的性能测试,neo4j图数据库优化等知识. 在当前大数据行业中, 随着算法的 ...

  7. 全球知识图谱专家分布、研究流派(附学者名单)

    来源: THU数据派 概要:在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库. 什么是知识图谱? 在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识 ...

  8. 【知识图谱】关于知识图谱,我们接下来该研究什么?斯坦福教授们给出了答案...

    文 | 舒意恒(南京大学硕士生,知识图谱方向) 编 |  北大小才女小轶 本文整理了斯坦福大学 CS 520 知识图谱研讨会课程的第 10 集的内容,主要是关于知识图谱未来的研究方向,推荐给研究知识图 ...

  9. 关于知识图谱,我们接下来该研究什么?斯坦福教授们给出了答案

    星标/置顶小屋,带你解锁 最萌最前沿的NLP.搜索与推荐技术 文 | 舒意恒(南京大学硕士生,知识图谱方向) 编 |  北大小才女小轶 本文整理了斯坦福大学 CS 520 知识图谱研讨会课程的第 10 ...

最新文章

  1. KMP-next数组
  2. 重磅!谷歌面试官亲自分享:Google面试技巧
  3. 博为峰Java技术文章 ——JavaSE Swing列表框选取事件的处理
  4. zsh 自动补全导致命令显示重复
  5. 简说创业公司的技术选型,从BearyChat的开发说起
  6. Python中的高级数据结构详解
  7. Centos Another app is currently holding the yum lock
  8. 获取Android版本信息和电话信息
  9. 胶囊网络不同实现代码
  10. JAVA进阶开发之(异常类)
  11. 云原生安全助力在线教育三分钟搞定安全防护
  12. Java虚拟机JVM的内存管理
  13. django2.0media用户上传文件配置及使用方法
  14. TensorFlow之激活函数(8)
  15. 拆分是解决大规模应用问题的本质
  16. apache 网址重定向
  17. Atitit 指令集(IA及指令集架构 1. 指令集(IA:InstructionSet)是指CPU指令系统所能识别(翻译)执行的全部指令的集合。 1 1.1. (1)运算指令 1 1.2. (2)
  18. 《Question Answering on Freebase via Relation Extraction and Textual Evidence》
  19. 计算机excel怎么删除重复项,excel怎么删除重复项
  20. 中国自主研制出的速度最高的巨型计算机是,2018年,中国自主研制出的速度最高的巨型计算机是()?...

热门文章

  1. Windows 10 下 Telnet 安装
  2. Element ui 中 el-cascader 级联动态加载数据方法
  3. 缩放图片工具类,创建缩略图、伸缩图片比例
  4. oracle数据库查询并排序语录句,ORACLE系统查询话语
  5. 运维工程师面试题(2)
  6. CVE-2018-8174 IE浏览器远程代码执行漏洞
  7. 2021PMP纸质版证书如何领取?
  8. MagnaChip将于2018年11月在中国深圳举行铸造技术研讨会
  9. Java学习路线(语法基础+算法与数据结构部分)
  10. VirtualBox下载与安装