本发明属于人工智能领域的一个重要方向,具体涉及一种基于深度学习的大学计算机基础知识图谱构建方法。

背景技术:

伴随着信息技术发展的突飞猛进,人工智能技术已经延伸到各行各业,并与许多传统行业有效地结合到一起,其中“互联网+教育”的模式应用十分广泛。大学计算机基础对于当代大学生是一门非常重要的基础课,这门课程涵盖了关于计算机的多个方面,包含计算机的起源与发展、硬件组成、操作系统、计算机网络、算法与数据结构、常用的办公软件操作等内容。通过学习大学计算机基础这门课程,学生对计算机的历史,计算机的组成结构、工作方式,计算机网络的工作机制,程序的设计可以有一个科学清楚的认识。

但是由于大学计算机基础知识面覆盖广,知识点较为繁杂,大部分学生难以系统地掌握所学知识点,对知识点的理解是孤立零散的,而效果好的学习应该对知识点的掌握是系统化的,结构清晰的。所以将大学计算机基础的知识点构建成知识图谱,利用知识图谱强大的语义处理能力和开放互联能力解决这个问题是十分有必要的。而人工构建知识图谱的工作量是十分巨大的,需要耗费大量的人力物力。本发明采用基于深度学习的方法训练模型,经过训练的模型可以自动抽取大学计算机基础课本文本内容中的实体以及实体之间的关系,减少了人工构建图谱的工作量。

技术实现要素:

本发明的目的是提供一种基于深度学习方法的大学计算机基础知识图谱构建方法,解决了现有技术中存在的人工构建知识图谱工作量大,费时费力的问题。

本发明一种基于深度学习方法的大学计算机基础知识图谱构建方法,采用bert-idcnn-crf算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用bert-bilstm-cnn算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧。

知识图谱构建方法具体包括以下步骤:

步骤1,对知识点实体识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;

步骤2,使用bert-idcnn-crf算法进行训练生成知识点实体识别模型;

步骤3,对关系识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;

步骤4,使用bert-bilstm-cnn算法进行训练生成关系识别模型;

步骤5,对大学计算机基础课本文本内容进行预处理,分离文本中的标点符号以及将文本以句号划分;

步骤6,将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的知识点实体识别模型中,抽取知识点实体;

步骤7,对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除;

步骤8,对大学计算机基础课本的各级目录通过人工筛选的方式获取知识面实体;

步骤9,将步骤6、步骤7提取的知识点实体、知识面实体储存到实体数据库;

步骤10,将步骤5预处理过的大学计算机基础课本内容输入步骤4生成的关系识别模型中,抽取知识点之间的关系;

步骤11,基于匹配算法提取知识面实体之间,知识面实体与知识点实体之间的关系;

步骤12,对步骤9、步骤10提取的关系信息,存入关系信息数据库;

步骤13,将实体数据库中的实体数据和关系数据库中的关系数据相匹配,构成形如“实体-关系-实体”的rdf三元组形式;

步骤14,将步骤13中得到的rdf三元组存储到neo4j图形数据库中,得到大学计算机基础知识图谱;

步骤2中,使用bert-idcnn-crf算法训练实体识别模型,整个模型分为三层,分别是bert层、idcnn层和crf层;bert预训练模型可以得到上下文相关的字向量表示,idcnn层抽取文本的特征,crf层能通过考虑标签之间的相邻关系得到概率最大的标签序列。

步骤4中,使用bert-bilstm-cnn算法训练关系识别模型,整个模型分为三层,分别是bert层、bilstm层和cnn层;bert层可以得到一个字的上下文相关表示,能够表示句子的句法特征,bilstm层可以从正向和反向充分考虑句子结构表达的信息,提取句子的特征,因为在自然语言处理中,单词在句中的位置和语义有很大关系,cnn能够抽取更为丰富的文本特征信息,并对冗余的信息进行过滤;

步骤8中,实体有两种类型,分别为知识面实体和知识点实体;知识面实体为概括性的知识,知识点实体为知识面实体下更为具体的知识,例如“计算机网络”为一个一个概括性的知识,是一个知识面,“arpanet”则为“计算机网络”下一个具体的知识,是一个知识点。因为大学计算机基础课本中,目录中包含的是所有概括性的知识,所以从目录中抽取知识面实体。

步骤11中,在大学计算机基础知识图谱中,知识面实体之间有前驱关系,前驱关系代表了知识的连续性,只有掌握了前一部分知识,才可以掌握下一部分知识,知识面实体与知识点实体之间有包含关系。

本发明的有益效果是:

本发明针对人工构建大学计算机基础知识图谱的工作量大的问题,提出了一种基于深度学习的大学计算机基础知识图谱构建方法。采用bert-idcnn-crf算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用bert-bilstm-cnn算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧;大大减少了人工构建大学计算机基础知识图谱的工作量。

附图说明

图1为本发明基于深度学习的大学计算机基础知识图谱构建方法总流程图;

图2为本发明基于bert-idcnn-crf算法构建知识点实体识别模型的过程;

图3为本发明基于bert-bilstm-cnn算法构建关系识别模型的过程;

图4为本发明在构建大学计算机基础知识图谱时进行知识点实体消歧的过程。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1,本发明基于深度学习的大学计算机基础知识图谱构建方法,具体包括以下步骤:

步骤1.1,读取实体训练集的语料,对文本进行清洗,分离文本中的标点符号以及将文本以句号划分;

步骤1.2,对步骤1.1中经过清洗的文本进行词性标注,本发明采用bio标注模式;

步骤2,如图2所示,对经过预处理的实体训练集语料使用bert-idcnn-crf算法进行训练并生成实体抽取模型,构建实体识别模型的伪代码如下:

步骤3.1,读取关系训练集的语料,对文本进行清洗,分离文本中的标点符号以及将文本以句号划分;

步骤3.2,对步骤3.1中经过清洗的文本进行词性标注,本发明采用的是ptb项目的标注模式;

步骤4,如图3所示,使用bert-bilstm-cnn算法进行训练并生成关系抽取模型,构建关系识别模型的伪代码如下:

步骤5,对大学计算机基础课本内容进行预处理,分离文本中的标点符号以及将文本以句号划分;

步骤6,将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的实体识别模型中,抽取知识点实体;

步骤7,如图4所示,对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除,实体消歧的伪代码如下:

步骤8,对大学计算机基础课本的各级目录通过人工筛选的方式获取知识面实体;

步骤9,将步骤6、步骤7提取的知识点实体、知识面实体储存到实体数据库;

步骤10,将步骤5预处理过的大学计算机基础课本内容输入步骤4生成的关系识别模型中,抽取知识点之间的关系;

步骤11,基于匹配算法提取知识面实体之间,知识面实体与知识点实体之间的关系。对于知识面之间的关系,按照大学计算机基础课本目录中的知识面实体的先后顺序定义,知识面实体a1出现在知识面实体a2之前,则a1对a2有前驱关系;

步骤12,对步骤9、步骤10提取的关系信息,存入关系信息数据库;

步骤13,将实体数据库中的实体数据和关系数据库中的关系数据相匹配,构成形如“实体-关系-实体”的rdf三元组形式;

步骤14,将步骤13中得到的rdf三元组存储到neo4j图形数据库中,得到大学计算机基础知识图谱。

本发明采用bert-idcnn-crf算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用bert-bilstm-cnn算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧;大大减少了人工构建大学计算机基础知识图谱的工作量。

计算机基础知识图谱,基于深度学习的大学计算机基础知识图谱构建方法与流程...相关推荐

  1. 目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶车辆三维目标检测方法研究与应用

    目录 基于深度学习的车辆目标检测方法研究 基于卷积神经网络的目标检测技术

  2. 双向长短期记忆网络模型_基于深度双向长短期记忆网络的空气质量预测方法与流程...

    [技术领域] 本发明涉及一种基于深度双向长短期记忆网络的空气质量预测方法,属于空气污染预测领域. 背景技术: 空气污染物浓度的预测拥有很强的学科交叉性,一直是环境.气象.数学.地理及计算机科学领域研究 ...

  3. 属性与意图识别_一种基于多任务学习的意图与槽位联合识别方法与流程

    本发明属于人机交互领域,涉及自然语言处理.垂直对话系统等,特别涉及一种基于多任务学习的意图与槽位联合识别方法. 背景技术: 意图识别和槽位识别可以将垂直对话系统中用户输入文本转化为语义表示,为系统采取 ...

  4. 延大计算机文化基础课程作业,基于项目学习的大学《计算机文化基础课》教学设计...

    摘要: 从大学教育看,计算机文化已经愈来愈多地融入了各专业科研和专业课的教学过程之中.计算机教学已成为素质教育的必要组成部分,良好的信息素养是当代大学生可持续发展的重要基础平台.大学计算机文化基础课程 ...

  5. 第二篇:基于深度学习的人脸特征点检测 - 数据与方法(转载)

    https://yinguobing.com/facial-landmark-localization-by-deep-learning-data-and-algorithm/ 在上一篇博文中,我们了 ...

  6. Task04——零基础入门NLP - 基于深度学习的文本分类1

    学习目标 学习fasttext使用和基本原理 学会使用验证集进行调参

  7. RecSys 2019最佳论文:基于深度学习的推荐系统是否真的优于传统经典方法?

    作者丨纪厚业 单位丨北京邮电大学博士生 研究方向丨异质图神经网络,异质图表示学习和推荐系统 本文发表在推荐系统顶会 RecSys 2019 并获得了 Best Paper.作者梳理实现了大量顶会推荐论 ...

  8. 基于深度学习的图像语义分割技术概述之背景与深度网络架构

    本文为论文阅读笔记,不当之处,敬请指正.  A Review on Deep Learning Techniques Applied to Semantic Segmentation: 原文链接 摘要 ...

  9. Data Augmentation for Deep Learning-based Radio ModulationClassification解读(基于深度学习的无线电调制分类数据扩充)

    摘要:深度学习最近被应用于自动分类接收无线电信号的调制类别,而无需人工经验.然而,训练深度学习模型需要大量的数据.训练数据不足会导致严重的过度拟合问题,降低分类精度.为了处理小数据集,数据增强被广泛应 ...

  10. 水位尺读数识别 python_一种基于深度学习的水尺识别方法与流程

    本发明涉及水位监测 技术领域: :,具体地说,涉及一种基于深度学习的水尺识别方法. 背景技术: ::近些年来,随着图像处理技术的发展,通过计算机获得图像里的详细信息成为了一种非常方便且高效的方式.将图 ...

最新文章

  1. RTD 比率式温度测量传感器设计思路
  2. 十年磨一剑,可重构计算架构将引领未来芯片市场
  3. 网站如何做到完全不需要 jQuery ?
  4. U盘制做DOS启动盘
  5. 某互联网公司校园招聘的小组面试题
  6. 第 6 节:前端面试指南 — React 篇(附面试题答案)
  7. js底部广告飘窗代码
  8. c语言一把钥匙只能开一把锁阅读答案,一把钥匙开一把锁阅读附答案
  9. iOS pdf矢量图代替多倍图
  10. 使用W3C标准的DOM处理XML文件[C++和Java版]
  11. 如何在 Mac 上修复丢失的鼠标光标?
  12. mysql锁表查询_如何通过自动增加索引,实现数据库查询耗时降低50%?
  13. Windows 10怎样不利用第三方付费软件实现对C盘的深度清理
  14. 最全办公室租赁技巧,让你找到心仪的办公室
  15. C#操作TMPOS58串口打印机一些心得
  16. html导航页面滚动,可通过导航视图精确滚动页面内容的js插件
  17. json增加反斜杠 php_PHP在引号前面添加反斜杠(PHP去除反斜杠)
  18. jquery-svg-pan-zoom实现svg拖拽放大
  19. 关于小数四舍五入的方式
  20. The computed property “userInfo“ is already defined in data

热门文章

  1. 软媒魔方 v6.2.1.0 绿色纯净版及经典版
  2. 5V升压8.4V,5V升压7.4V电路图的充电芯片
  3. 单点登录原理以及简单实现
  4. 高级JAVA开发 分布式系统部分
  5. 爬取三个acm网站题库(neuqoj pku hdu)
  6. 6步搞定To B产品竞品分析,值得收藏!
  7. apk一键脱壳工具_一键新机!强大的抹机王来了!
  8. 施耐德PLC Unity Pro xl 软件使用一
  9. pandas-综合练习
  10. AE缺失Form Trapcode Form