OpenKG地址:http://openkg.cn/dataset/ocean

开放许可协议:CC BY-SA 4.0

贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)


1、背景

海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海洋问题一直是国家战略问题。在党的十八大报告中首次提出建设海洋强国的战略目标,并在十九大报告中提出“坚持陆海统筹,加快建设海洋强国”。鱼类作为重要的海洋资源,它含有丰富的活性物质。这些活性物质经加工后可添加到人体食品和药品中。随着海洋鱼类相关物、生物制品和生物材料在国民经济和民生中地位的提高,海洋鱼类的数据在科研、科研以及医疗、渔业等多个领域的科学研究中变得越来越重要。

目前,绝大多数海洋鱼类数据库资源集成度不高,造成数据分散,检索效率低下。各种各样的问题将阻碍海洋鱼类的研究。因此,为了促进鱼类在各个学术领域的研究,迫切需要整合现有的研究资料,保护现有的研究成果。基于此,我们的研究团队收集和建立了海洋鱼类数据集,希望为我国鱼类的科普、教育、商业、生产等领域提供帮助。

2、数据集简介

海洋鱼类百科知识图谱数据包含fish.csv、fishplacerelationship.csv 和 place.csv三个CSV文件。fish.csv 文件中存储的是鱼类基本信息数据集,包含鱼类中英文名称、图片地址、鱼的特性等基本信息,数据量达到 3 万多条,其具体字段信息如表 1 所示。

表 1 鱼类基本信息数据字段解释表

fishplacerelationship.csv 文件存储的是海洋鱼类栖息地数据集,数据量达到 11 万条,其具体字段信息如表 2 所示。

表 2 鱼类栖息地数据字段解释表

place.csv 文件存储的是地理分布数据集,数据量达到 5300 条,其具体字段信息如表 3 所示。

表 3 地理分布数据字段解释表

3、构建过程

3.1 数据来源

数据来自中文海洋鱼类资料库 http://sea.fundiving.com/, 整个网站包括32070 个鱼类物种,每个物种有一个单独的页面介绍,如图 1 所示。

图1.中文海洋鱼类资料库中纺锤骨雀鳝部分数据

介绍页面中包含中英文名字、界门纲目科属种、别名、简介、大小/重量/年龄、生活习性、物种分布、生物学特性等字段。

3.2 数据标准化

每个页面都包含鱼类对应的界门纲目科属种等半结构化数据,利用爬虫技术获取鱼类相关信息,将其保存成Json 格式,如图 2 所示。

图2.鱼类信息Json格式

3.3 关系定义和抽取

知识图谱使用三元组进行表达, 例如:实体-关系-实体, 实体-属性-属性值。鱼类名称、英文名、图片地址、界、门、纲、目、科、属、种,这些属于第二种三元组。使用 Json 格式,即键值对,好处之一就是属性和属性值一一对应。在提取的时候,可以直接进行匹配。

鱼类实体-地理分布-地理实体这是第一种三元组。由于是一段文本,需要从文中提取地理实体,可以使用 NLP 工具进行抽取,比如 Python 第三方开源库NLPIR、PyLTP、DeepKE 等等。

通过传入待处理文本 text,对文本依次进行分词、词性标注、命名实体识别操作。对于有方位的名词,例如西太平洋,需要进行二次处理。抽取效果如图 3所示。

图3.NLP地理实体抽取效果

3.4 知识存储

使用 Neo4J 图数据库进行数据的存储,可以快速获得展示和查询功能。帮助开发人员节省时间在业务思考上。按照 Neo4J 数据库官网所给的格式要求存储CSV 数据。可视化效果如图 4 所示。

图 4.鱼类地理分布情况展示图

4、总结

本文主要是对 OpenKG 上发布的中文海洋鱼类百科数据集的介绍。文中详细介绍了数据集的来源、对数据集进行处理构建知识图谱的过程。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)相关推荐

  1. 技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

    本文转载自公众号:中国人工智能开源软件发展联盟,欢迎大家点击文末二维码关注. 知识图谱 (Knowledge Graph)是一种基于图的数据结构,由节点(Point)和边(Edge)组成.在知识图谱里 ...

  2. 中文通用百科知识图谱(CN-DBpedia)

    http://www.openkg.cn/dataset/cndbpedia 原始数据采用了中文通用百科知识图谱(CN-DBpedia)公开的部分数据, 包含900万+的百科实体以及6600万+的三元 ...

  3. 梁家卿 | 百科知识图谱同步更新

    本文转载自公众号知识工场. 本文整理自复旦大学知识工场梁家卿博士在IJCAI 2017 会议上的论文报告,题目为<How to Keep a Knowledge Base Synchronize ...

  4. 探索“老药新用”最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG

    本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文长度为3200字,建议阅读9分钟 本文带你了解亚马逊AI实验室的开源机器学习工具. [ 摘要 ]最近,来自 ...

  5. dbpedia知识图谱java_中文通用百科知识图谱(CN-DBpedia)

    介绍 CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,其前身是复旦GDM中文知识图谱. CN-DBpedia主要从中文百科类网站(如百度百科.互动百科.中文维基百科 ...

  6. ACL 2019开源论文 | 基于Attention的知识图谱关系预测

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 由于传统方法都将三元组进行独立的处理,忽略了其相邻的三元组之间隐藏的固有信息的缺点,使得无论是转化模型还是较新的基于卷积神 ...

  7. 【浙江大学】一个开源的知识图谱表示学习框架

    一.NeuralKG:一个开源的知识图谱表示学习框架 OpenKG地址:openkg.cn/tool/neuralkg GitHub地址:github.com/zjukg/neuralkg Gitee ...

  8. 大规模1.4亿中文知识图谱数据,我把它开源了

    作者 | Just 出品 | AI科技大本营(ID:rgznai100) 人工智能从感知阶段逐步进入认知智能的过程中,知识图谱技术将为机器提供认知思维能力和关联分析能力,可以应用于机器人问答系统.内容 ...

  9. 史上最大中文知识图谱,规模达1.4亿,现在开源可下载,还有配套聊天机器人API...

    郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,一份规模达1.4亿的知识图谱被开源了,而且还是中文. 开源贡献者是一位个人开发者Yener,这也是目前已开源的最大规模的中文知识图谱 ...

  10. 技术动态 | 北京大学计算机所邹磊教授研究组开源面向 RDF 知识图谱的自然语言问答系统 gAnswer...

    项目网站: http://ganswer.gstore-pku.com/ 代码地址: https://github.com/pkumod/gAnswer OpenKG发布地址: http://open ...

最新文章

  1. 基础知识——变量和简单数据类型(一)
  2. [JSP][JSTL]页面调用函数--它${fn:}内置函数、是推断字符串是空的、更换车厢
  3. 简单,为什么要复杂和妥协?
  4. 全国计算机二级qq闪退,电脑上QQ闪退怎么回事?各个系统版本电脑QQ闪退现象的解决方法介绍...
  5. 1_自然语言处理简介、数据源、应用领域、课程体系
  6. TFLearn MNIST
  7. Spark _10_补充部分算子【三】
  8. servlet容器_Tomcat 容器与servlet的交互原理
  9. C#打印代码运行时间
  10. 负指数分布的性质_负指数分布.ppt
  11. 计算机课件 flash,计算机实用技术教学课件 刘毅 第8章 Flash动画制作.ppt
  12. 提供淘宝进销存管理软件
  13. zotero自定义导出参考文献bib格式
  14. 30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述
  15. 大连理工大学软件学院2022年秋季学期《矩阵与数值分析》上机作业
  16. TCP扫描增强器实现65000端口,10S完成,快准狠(Go语言编程)
  17. 安卓app,iOS二维码下载链接FIR
  18. 论文阅读九:yolov4的各种数据增广技术random erasing、cutout、mixup、cutmix、mosaic等
  19. v-model和v-bind
  20. http client 短链接复用(变为长连接)

热门文章

  1. 手游修改平台服务器代码,怎么把手游代码放在云服务器
  2. 中文查重原理 及算法实例(python)
  3. 糊涂图决定开始写博客了
  4. 美团一站式机器学习平台
  5. 【RFID】RFID的标准体系
  6. S_ALR_87011963 No data selected
  7. Linux服务器被黑用作矿机的排查过程 ld-linux-x86-64 占用CPU过高
  8. Wintel机器代码反反转练习(C/C++逆向)
  9. python excel行列转置_用powershell+excel行列转置三步走
  10. 自动化爬虫selenium之键盘操作