一.   简介

很多数据集只能在LDC(Linguistic Data Consortium, https://www.ldc.upenn.edu/)获得,LDC语料库包括阿拉伯语、汉语和英语新闻文本、布朗语料库全文、来自交换机与费舍库(Fisher Collection)数以百万计的英语电话语音以及美国英语口语词汇。这里记录一下自己获取LDC的TACRED数据集遇到的一些问题。

二.  注册

1.1 邮箱注册

想要获取LDC下的某些数据集需要先注册账号(我注册使用的是学校统一的邮箱),注意注册过程中的所隶属机构不要选择错误。注册成功后邮箱会收到提示,根据链接激活账号后登录会发现账号显示“Guest”即来宾账户。(此时无法请求或购买数据)

1.2 隶属关系确认

随后邮箱会收到邮件提示:已向你注册时所提供的信息中的组织管理者发送邮件确认你的隶属关系,等待组织管理者确认你的身份后才能向LDC请求数据。

很多学校可能管理并不是很完善,很长时间都收不到身份确认,这时候你可以选择给LDC官方发邮件反应你的情况(我就是过了十多天都没人确认我的隶属身份)。一般LDC很快会回复邮件告知你组织管理者的一些信息,比如相应管理者的邮箱和电话等,接下来你就可以自己去联系组织管理者来确认那你的身份。

当身份被确认后,登录不再是“Guest”而是显示自己和组织机构的一些信息。右侧出现"Account Options"等字样。

三.  获取数据

上述操作全部完成后,即可搜索自己想要的数据集,滑至最下方可见:

点击“Request Data”后续就按提示进行相应操作。

在申请成功后,邮箱会受到提示邮件,并可查到相应发票信息,之后就是等待LDC的审核(可以邮件联系ldc@ldc.upenn.edu咨询进度),所有审核通过之后可以在”my account“界面右侧的”download“链接页面中找到相应的数据链接。

四.提示

获取的数据集不能传送给别人,仅限机构内使用。关于申请的数据集能不能用来发论文,本人还不是很清楚,欢迎大佬补充回答!

如果关于LDC语料还有其他问题,欢迎一起讨论交流!

LDC数据集获取、下载、购买相关推荐

  1. 制作目标检测数据集入门到精通(一)常用数据集(及下载数据网站)汇总

    目录 前言 1.目标识别知名数据集 1.1 PASCAL VOC 1.2 MS COCO 1.3 ImageNet 2 人脸识别相关 2.1 FERET人脸数据库 2.2 CMU Multi-PIE人 ...

  2. 【数据集下载神器】体验1000+优质数据集极速下载

    在一个合格模型的诞生过程中,繁杂的数据收集与处理工作往往给算法工程师带来了低效的工作体验. ▲一个模型的诞...生... 好的数据,对模型训练至关重要.自己做数据,即昂贵又费时费力:但是,使用现成的数 ...

  3. 多比Web 3D展示(3D机房/3D监控)中间件多比Web 3D展示(3D机房/3D监控)中间件免费下载购买地址...

    多比3D是实现3D场景搭建的软件开发包,可以创建广泛的3D应用,适用于高端制造.能源.国防军工.教育科研.城市规划及建筑环艺.生物医学等领域的虚拟仿真,应用于虚拟展示.虚拟设计.方案评审.虚拟装配.虚 ...

  4. 不得不赞!一个国内(可能)最好的海量CV数据集获取网站

    在CV等计算机领域中,好的数据,对模型训练至关重要.自己做数据,即昂贵又费时费力:但是,使用现成的数据集,即不好找又不好下载及使用.直到最近,CV君找到一个数据集获取神器 Graviti Open D ...

  5. 【FPN车辆目标检测】数据集获取以及Windows7+TensorFlow+Faster-RCNN+FPN代码环境配置和运行过程实测

    PS 最近在学目标检测想用最新的FPN网络,刚好看到这篇博客https://blog.csdn.net/Angela_qin/article/details/80944604尝试把它复现,说的小白一点 ...

  6. Scikit-learn学习系列 | 1. sklearn的简要使用介绍与数据集获取

    如有错误,恳请指出. 以下内容整理自专栏:博主"文火冰糖的硅基工坊"的专栏--机器学习与scikit-learn,对部分的文章的简化与整理. 文章目录 1. scikit-lear ...

  7. Nuscenes 完整版数据集批量下载

    Nuscenes 完整版数据集批量下载 需求: 高速下载Nuscenes完整版数据集.之前mini版本尝鲜版,采用google浏览器自带工具下载,速度慢,且容易断. 1. 数据地址 官方地址:http ...

  8. 遥感数据集的下载记录——MODIS产品为主

    遥感数据集的下载记录--MODIS产品为主 Motivation Datasets 1.Socioeconomic Data and Applications Center (sedac) 2.Ear ...

  9. MIMIC-CXR数据集的下载

    MIMIC-CXR数据集的下载 第一步 首先你需要注册一个pyhsionet账号,并且使用这个账号获取到CITI证书,具体步骤见链接1 第二步 申请mimic的访问权限,具体步骤见链接1.发出的申请是 ...

最新文章

  1. java程序设计题目_Java程序设计习题集(含答案).doc
  2. C/C++基础知识10道题,你都会吗?
  3. 想做DBA,多租户管理你一定要知道这些
  4. POJ1321(KB1-A 简单搜索)
  5. 电大计算机dm编写程序,渭南电大计算机应用基础网考答题过程介绍
  6. [软件] 装机员 Ghost Win7 Sp1 32位纯净10月版
  7. 进入32位保护模式之路
  8. Magento 自定义EMS FEDEX DHL UPS扩展 第三章
  9. 查看计算机win多少位的,主编教您怎么看电脑是32位还是64位
  10. .NET 中的 GAC
  11. 硬路由、软路由、主路由、旁路由对比分析
  12. java手机号码格式验证
  13. 内网穿透软件对比——cpolar : 网云穿(下)
  14. mfc checkedit设置字体颜色没有效果_还有这种操作?PPT居然能做出这么骚气的3D质感字体?...
  15. 谈谈SPI (Serial Peripheral Interface,串行外设接口)
  16. 修复mysql表快速解决is marked as crashed and should be repaired故障
  17. 跨境电商七大模式的优势与痛点
  18. 大华服务器维护常使用的命令,大华平台软件简介
  19. linux emf文件,emf文件扩展名,emf文件怎么打开?
  20. Summary for my 4 months

热门文章

  1. AV1硬件采用及未来发展
  2. Django 缓存 Cache
  3. Latex 绘制三线表格
  4. 物联网 实验1 Mind+ 掌控板 智能灯和mqtt实验
  5. 萤石开放平台接入摄像头
  6. 软件测试中一般术语的英文和缩写
  7. 解决MySql数据库远程访问Access denied for user: xxx@%‘ to database ‘datatest’ 问题
  8. 中国科学院数学所二阶椭圆偏微分方程考博试题
  9. gitblit安装和gitblit服务器切换
  10. numpy中的reshape()函数