构建AIDA-CoNLL数据集操作指南
操作指南
- 介绍
- 操作流程
- 下载基础文件
- 构建CoNLL2003
- 构建AIDA-CoNLL
- 参考
介绍
AIDA-CoNLL也称AIDA CoNLL-YAGO,是实体消歧和实体链接常用的公共数据集,它发布于EMNLP2011的论文Robust Disambiguation of Named Entities in Text。AIDA-CoNLL包含了实体分配给为原始的CoNLL 2003实体识别任务注释的命名实体的表述(mention)。实体由YAGO2实体名称、Wikipedia URL或Freebase mid确定。显然,该数据集需要一定的配置。
AIDA-CoNLL官方地址:链接
操作流程
下载基础文件
打开链接地址,只需下载蓝框所示的压缩包。
打开readme,我们发现构建数据集还需要构建CoNLL 2003数据集,尤其需要其中的三个文件:eng.testa, eng.testb, eng.train。
构建CoNLL2003
CoNLL 2003官方地址:链接。我们只需要下载蓝色箭头指向的链接地址。
为了构建出这三个文件,我们还需要the Reuters Corpus RCV1(路透社语料库,python的nltk库涵盖该库,但不确定是否为所需的原始数据),具体操作流程可以阅读文件夹中的readme_CoNLL文件或该链接(推荐该链接,开头有详细的操作流程)。
介绍:路透社语料库,第1卷,英语,1996-08-20至1997-08-19(发布日期2000-11-03,格式版本1,校正级别0)。这是通过网络下载分发的,包含约810,000条路透社的英文新闻报道。它需要约2.5GB的未压缩文件的存储。
关于the Reuters Corpus RCV1,我们需要进入该链接 ,然后向NIST申请下载路透社语料库。如实填写Organizational agreement即可(要求打印出来),官方回复(有时差)比较及时,也很nice。按照Getting the corpus指示发送文件,等待回复即可。
下载完毕后,将rcv1放入ner文件夹中,最后通过终端(MAC或Linux)运行(Windows需要在Git Bash环境下运行,安装指南请自行百度)以下指令:
cd ner
bin/make.eng.2016
生成三个所需文件,这样就完成了CoNLL 2003部分的构建。
之后将三个文件放到一开始下载的压缩包aida-yago2-dataset中。接下来开始构造AIDA-CoNLL数据集。
构建AIDA-CoNLL
接下来需要java环境运行文件夹中的aida-yago2-dataset.jar。MAC可直接进入终端运行如下指令:
cd aida-yago2-dataset
java -jar aida-yago2-dataset.jar
此时,它会弹出确认三个文件位置的提示,我们只需把aida-yago2-dataset文件夹的位置粘贴到终端即可。提示:直接将文件夹拽到浏览器网址处,会显示文件夹在本机中的URL。
完成构建。
参考
- AIDA-CoNLL官网
- CoNLL2003官网
- Reuters Corpora (RCV1, RCV2, TRC2)官网
- 构建CoNLL官网指南
构建AIDA-CoNLL数据集操作指南相关推荐
- Pytorch 怎么构建自己的数据集。怎么重写官方数据集。
小白记录,大神勿扰 小白入门的时候,发现,现有的基本都是直接类似这样的: trainset = datasets.MNIST('../MNIST', download=True,train=True, ...
- sql2018 ssas_如何使用SQL Server Analysis Services(SSAS)从头开始构建多维数据集
sql2018 ssas 介绍 (Introduction) I am a DBA consultant and several times, in the past, I have been ask ...
- VOC格式数据集操作类构建-2.统计数据集各类别标签数目和剪裁图像中标注框并保存图片
总目标:建立VOC格式数据集类以及操作内置函数 github项目地址(附有使用说明书): https://github.com/A-mockingbird/VOCtype-datasetOperati ...
- 使用Excel以及jupyter编程构建身高体重数据集的线性回归方程
目录 用excel中数据分析功能做线性回归练习 用jupyter编程(不借助第三方库),用最小二乘法 用jupyter编程,借助skleran 总结 用excel中数据分析功能做线性回归练习 1.打开 ...
- 快速构建深度学习图像数据集,微软Bing和Google哪个更好用?
译者 | Serene 编辑 | 明明 出品 | AI 科技大本营(公众号ID:rgznai100) [AI 科技大本营导读]在本文中,作者将利用微软的 Bing Image Search API 来 ...
- 清华构建新一代数据集NICO,定义图像分类新标准
2020-08-15 01:59:36 每件事物的出现都有它各自的使命,我们今天提数据集就不得不提到ImageNet,ImageNet数据集及其它推动的大规模视觉比赛对人工智能特别是计算机视觉领域的巨 ...
- ArcGIS网络分析之构建网络分析数据集(一)
说明: 1. 本文主要用于演示网络分析服务的搭建过程.所以在此不会深入讨论网络分析服务的每一个细节,本文的目的就是让初学者学会使用网络分析服务进行基本的分析(主要针对后续的WEB开发):路径分析,最近 ...
- 如何利用永洪自服务数据集,构建强大的数据处理能力?
一.什么是自服务数据集? 自服务数据集可以通过简单的拖拽和可视化的操作,构建复杂的数据集,同时提供各种数据转换功能,轻松实现强大的数据处理. 在自服务数据集中,通过添加不同类型的节点,并且添加连线做数 ...
- 轻松构建复杂数据集,永洪自服务数据查询功能详解
现在的报告样式多种多样,越来越炫酷以至于让人应接不暇.如果想从数据结果上进行溯源,由于数据处理过程盘根错节且技术性过强,让业务人员捉襟见肘.如何让业务人员清晰可视化的看到数据从来源.加工到展示的一步步 ...
最新文章
- IntelliJ IDEA 2021.3.2 发布:告别不断建议安装xx插件的提示!
- Spring Boot + Vue + Shiro 实现前后端分离、权限控制
- 顺序查找的基本原理及实现
- Django中的缓存的配置与使用
- 基础编程题之牛客网星际密码
- 《微服务设计》(一)---- 微服务
- Android HAL
- 梅林系统软件无法安装解决方法
- 联机侠控制台JAVA_联机侠控制台常见问题 | 我的世界 | MC世界侠
- 地产行业主数据建设项目思考
- 微软云+Servlet实现图片上传接口
- WDAGUtilityAccount和defaultaccount
- NVIDIA TK1 学习笔记(1):TK1介绍
- C语言作业-小学生测验
- 老干妈怒了:我才是中国第一!
- Arduino DRV8825驱动两相步进电机
- Windows安装程序遇到错误:0x80240037
- 基于仿360小说网站(校园网)的源码设计实现(升级版)
- MySQLWorkBench怎么设置主键自增长
- 三观不合,永远不会是一路人!
热门文章
- Python 当中的and和or
- 计算机入门模拟券b,计算机入门模拟卷B(有详细答案).doc
- 电商抖音直播公司KPI绩效工作运营计划表
- 用deconstructSigs来做cosmic的mutation signature图
- 弘辽科技:淘宝商品搜不到是不是降权了?有什么降权原因?
- python3网络爬虫:爬取煎蛋网美女照片
- U盘启动BT5(BackTrack5)
- 戴尔服务器型号720xd,戴尔R720xd服务器系统安装
- PHP常量修饰符是什么,php const常量修饰符使用方法
- JBolt 1.5.0新版发布,升级到支持最新版JFinal和Jetty,实现了在线更新插件功能