数据集

1. Yelp reviews

yelp 可类比为中国的大众点评. 数据集介绍见参考[4].

figure yelp 网站的点评. 星星个数是评价.

2. Yahoo answers

a topic classification task with 10 classes :

  1. Society & Culture
  2. Science & Mathematics,
  3. Health
  4. Education & Reference
  5. Computers & Internet,
  6. Sports
  7. Business & Finance,
  8. Entertainment & Music
  9. Family & Relationships
  10. and Politics & Government

The document includes question titles, question contexts and best answers. There are 140,000 training samples and 5000 testing samples.

语料库

1.Sogou News Corpus

搜狗新闻语料库. Containing in total 2,909,551 news articles in various topic channels.
参考文献[1] 中是这么描述与使用的: :

There are a large number categories but most of them contain only few articles. We choose 5 categories – “sports”, “finance”, “entertainment”, “automobile” and “technology”. The number of training samples selected for each class is 90,000 and testing 12,000.

2. YFCC 100M

YaHoo 实验室的多媒体数据集, 用处不局限于NLP. 地址在参考文献[3]中.
内含约 1亿 张图片 与 100 万个视频, 有 标题, 说明 与 标签. 即 title, captions and tags.
它的标注是多元的, 比如一只小狗, 会被标注 动物/小狗/宠物/狮子狗 等.
FastText 论文中, 用到了它作 Tag Prediction.

参考

  1. Character-level Convolutional Networks for Text Classification
  2. 搜狗实验室
  3. YFCC 100M
  4. yelp dataset challenge 官网: yelp dataset challenge

NLP 常用数据集及语料库相关推荐

  1. Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载

    Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载 Penn Treebank数据集介绍 NLP底层技术之句法分析 NLP常用公开数 ...

  2. AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI2022年度论文公布。

    AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日 极链AI云 官网地址 点击注册 更多AI内 ...

  3. nlp自己制作一个语料库_第119天的nlp论文总结了一个论点注释的科学出版物的语料库...

    nlp自己制作一个语料库 内置AI NLP365(INSIDE AI NLP365) Project #NLP365 (+1) is where I document my NLP learning ...

  4. 分布式机器学习常用数据集

    今天开始跑分布式机器学习论文实验了,这里介绍一下论文的常用数据集(因为我的研究领域是分布式机器学习,所以下面列出的数据集可能偏向这方面,做其他方向的童鞋参考下就好). 1. CV数据集 (1)FEMI ...

  5. 无人驾驶常用数据集---图像语义分割数据集--Cityscapes数据集的解读(for 小白)

    ** 无人驾驶常用数据集–图像语义分割数据集–Cityscapes数据集的解读(for 小白) ** 一.什么是Cityscapes数据集? Cityscapes是关于城市街道场景的语义理解图片数据集 ...

  6. 自然语言处理NLP常用开源/免费工具

    NLP常用开源/免费工具 (转载自水木社区NLP版) *Computational Linguistics Toolbox   CLT http://complingone.georgetown.ed ...

  7. Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点 常见的NLP数据集 1.生物数据集以及自然语言处理数据集 常见的使用案例 ...

  8. Dataset:数据集集合(综合性)——机器学习、深度学习算法中常用数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(综合性)--机器学习.深度学习算法中常用数据集大集合(建议收藏,持续更新) 目录 常规数据集 各大方向分类数据集汇总 具体数据集分类 相关文章 DL:关于深度学习常用数据集 ...

  9. CV:人工智能之计算机视觉方向的简介(CV发展史+常用数据集+CV职位)、传统方法对比CNN类算法、计算机视觉十大应用(知识导图+经典案例)之详细攻略

    CV:人工智能之计算机视觉方向的简介(CV发展史+常用数据集+CV职位).传统方法对比CNN类算法.计算机视觉十大应用(知识导图+经典案例)之详细攻略 目录 计算机视觉的简介 1.计算机视觉的研究方向 ...

最新文章

  1. POJ 2455 Secret Milking Machine (二分+无向图最大流)
  2. tailf、tail -f、tail -F 指令
  3. 限时9.9元 | 快速领取数学建模竞赛备战必备技巧与论文详解!
  4. JavaWeb项目实战(2)安装JDK和Tomcat以及Eclipse构造开发环境
  5. 语言 物品竞拍系统_整理家务不用愁!HSR家庭自主整理机器人系统
  6. python编程案例教程-Python程序设计案例教程——从入门到机器学习(微课版)
  7. qrc路径_Qt中的qrc文件
  8. bugku--never_give_up
  9. 阿里90后运营的工作总结,细致而深刻!
  10. 如何下载透明底校徽校名、企业logo,无需抠图
  11. c语言编程交互式计算器,C语言程序设计交互式函数计算器设计报告.docx
  12. 汽车几种变速器的结构特点
  13. 白牛:一半是磨练,一半是成长
  14. 未来50亿年科学预测
  15. Visio XP与VisualSourceSafe简介
  16. Windows——TIM/QQ登录超时,请检查您的网络或者本机防火墙设置的一种解决办法
  17. 公安计算机应用知识,计算机与公安信息化基础知识.pdf
  18. 无监督学习 | KMeans之Sklearn实现:电影评分聚类
  19. Gogle输入法相关文章
  20. python练习题目记录46道

热门文章

  1. Python 库大全(下)
  2. revit二次开发 ExportContext
  3. 邓宁-克鲁格效应_什么是邓宁-克鲁格效应?
  4. 二分法求函数的零点c++
  5. coggle11月打卡—pytorch与CV竞赛
  6. 身份证验证接口API(仅需一行代码,公安部实时接口)
  7. 考研复试个人陈述范文(共9篇)
  8. ABAQUS中的应力应变描述
  9. html select 样式t调整_css修改html select下拉框样式(含右边箭头)
  10. html采购页面,采购单.html