NLP 常用数据集及语料库
数据集
1. Yelp reviews
yelp 可类比为中国的大众点评. 数据集介绍见参考[4].
figure yelp 网站的点评. 星星个数是评价.
2. Yahoo answers
a topic classification task with 10 classes :
- Society & Culture
- Science & Mathematics,
- Health
- Education & Reference
- Computers & Internet,
- Sports
- Business & Finance,
- Entertainment & Music
- Family & Relationships
- and Politics & Government
The document includes question titles, question contexts and best answers. There are 140,000 training samples and 5000 testing samples.
语料库
1.Sogou News Corpus
搜狗新闻语料库. Containing in total 2,909,551 news articles in various topic channels.
参考文献[1] 中是这么描述与使用的: :
There are a large number categories but most of them contain only few articles. We choose 5 categories – “sports”, “finance”, “entertainment”, “automobile” and “technology”. The number of training samples selected for each class is 90,000 and testing 12,000.
2. YFCC 100M
YaHoo 实验室的多媒体数据集, 用处不局限于NLP. 地址在参考文献[3]中.
内含约 1亿 张图片 与 100 万个视频, 有 标题, 说明 与 标签. 即 title, captions and tags.
它的标注是多元的, 比如一只小狗, 会被标注 动物/小狗/宠物/狮子狗
等.
FastText 论文中, 用到了它作 Tag Prediction.
参考
- Character-level Convolutional Networks for Text Classification
- 搜狗实验室
- YFCC 100M
- yelp dataset challenge 官网: yelp dataset challenge
NLP 常用数据集及语料库相关推荐
- Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载
Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载 Penn Treebank数据集介绍 NLP底层技术之句法分析 NLP常用公开数 ...
- AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI2022年度论文公布。
AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日 极链AI云 官网地址 点击注册 更多AI内 ...
- nlp自己制作一个语料库_第119天的nlp论文总结了一个论点注释的科学出版物的语料库...
nlp自己制作一个语料库 内置AI NLP365(INSIDE AI NLP365) Project #NLP365 (+1) is where I document my NLP learning ...
- 分布式机器学习常用数据集
今天开始跑分布式机器学习论文实验了,这里介绍一下论文的常用数据集(因为我的研究领域是分布式机器学习,所以下面列出的数据集可能偏向这方面,做其他方向的童鞋参考下就好). 1. CV数据集 (1)FEMI ...
- 无人驾驶常用数据集---图像语义分割数据集--Cityscapes数据集的解读(for 小白)
** 无人驾驶常用数据集–图像语义分割数据集–Cityscapes数据集的解读(for 小白) ** 一.什么是Cityscapes数据集? Cityscapes是关于城市街道场景的语义理解图片数据集 ...
- 自然语言处理NLP常用开源/免费工具
NLP常用开源/免费工具 (转载自水木社区NLP版) *Computational Linguistics Toolbox CLT http://complingone.georgetown.ed ...
- Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点 常见的NLP数据集 1.生物数据集以及自然语言处理数据集 常见的使用案例 ...
- Dataset:数据集集合(综合性)——机器学习、深度学习算法中常用数据集大集合(建议收藏,持续更新)
Dataset:数据集集合(综合性)--机器学习.深度学习算法中常用数据集大集合(建议收藏,持续更新) 目录 常规数据集 各大方向分类数据集汇总 具体数据集分类 相关文章 DL:关于深度学习常用数据集 ...
- CV:人工智能之计算机视觉方向的简介(CV发展史+常用数据集+CV职位)、传统方法对比CNN类算法、计算机视觉十大应用(知识导图+经典案例)之详细攻略
CV:人工智能之计算机视觉方向的简介(CV发展史+常用数据集+CV职位).传统方法对比CNN类算法.计算机视觉十大应用(知识导图+经典案例)之详细攻略 目录 计算机视觉的简介 1.计算机视觉的研究方向 ...
最新文章
- POJ 2455 Secret Milking Machine (二分+无向图最大流)
- tailf、tail -f、tail -F 指令
- 限时9.9元 | 快速领取数学建模竞赛备战必备技巧与论文详解!
- JavaWeb项目实战(2)安装JDK和Tomcat以及Eclipse构造开发环境
- 语言 物品竞拍系统_整理家务不用愁!HSR家庭自主整理机器人系统
- python编程案例教程-Python程序设计案例教程——从入门到机器学习(微课版)
- qrc路径_Qt中的qrc文件
- bugku--never_give_up
- 阿里90后运营的工作总结,细致而深刻!
- 如何下载透明底校徽校名、企业logo,无需抠图
- c语言编程交互式计算器,C语言程序设计交互式函数计算器设计报告.docx
- 汽车几种变速器的结构特点
- 白牛:一半是磨练,一半是成长
- 未来50亿年科学预测
- Visio XP与VisualSourceSafe简介
- Windows——TIM/QQ登录超时,请检查您的网络或者本机防火墙设置的一种解决办法
- 公安计算机应用知识,计算机与公安信息化基础知识.pdf
- 无监督学习 | KMeans之Sklearn实现:电影评分聚类
- Gogle输入法相关文章
- python练习题目记录46道