一、豆瓣多轮对话数据集

1、简介:

测试数据包含 1000 个对话上下文,对于每个上下文,创建 10 个响应作为候选。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大多数标签被视为最终决定。

2、数据格式:

标签 \t 对话话语(由 \t 分割)\t 响应

3、下载

https://github.com/MarkWuNLP/MultiTurnResponseSelection

二、KdConv

1、清华 ACL 2020 论文:https://arxiv.org/abs/2004.04100

2、简介:KdConv是中文多领域知识驱动对话数据集。KdConv 包含来自三个领域(电影、音乐和旅行)的4.5K对话和86K话语,平均轮数为19.0。这些对话包含对相关主题的深入讨论和多个主题之间的自然过渡,同时语料库还可以用于探索迁移学习和领域适应。

3、下载:

https://github.com/thu-coai/KdConv

三、zhdd

1、简介:

  • zhddline: 中文对话数据集, 从 DailyDialog 数据集翻译而来(基于搜狗翻译API),短文本。

  • zhdd: zhddline的会话版,每一个会话被拼接为一个文档,长文本。共有12336个文档。.

  • 涉及领域:日常生活的各种话题

2、下载链接

https://github.com/zll17/Neural_Topic_Models#datasets

四、2018-2019年京东对话挑战赛数据集

京东对话挑战赛对话数据集主要是客服对话数据

1、2018年

数据集说明:

(1).原训练语料, path:data/chat.txt

(2).数据清洗之后的训练语料:train.enc、train.dec、test.enc、test.dec

(3).测试模型数据,测试问题test.txt和输出结果result.txt,path:data/test/

2、2019年:

数据各字段属性的解释 (1)会话编号:每个会话都会有唯一的编号,可以以此区分会话。 (2)顾客ID:每位顾客都会有唯一的ID,已脱敏。 (3)SKU:商品的编号。每个商品都有唯一的编号。若SKU的值为NULL,则表示该会话不涉及具体商品

数据的规模 开发集和测试集均包含52个会话。

3、下载:

2018年:https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq

2019年:https://github.com/EndlessLethe/jddc2019-3th-retrieve-model

五、淘宝客服对话数据

又名:E-commerical Conversation Corpus

1、简介:

电子商务对话语料库,包括基于检索的聊天机器人的训练数据集、开发集和测试集。电子商务会话语料库统计如下表所示。

2、数据格式:

跟豆瓣多轮对话数据集一样

3、下载:

https://github.com/cooelf/DeepUtteranceAggregation

六、chatterbot-corpus-chinese

1、简介:

ChatterBot Corpus 中包含的数据文件使用YAML语法进行格式化。按类型领域分类,质量较高。

涉及领域:历史、电影、食物等十几种类型,每一类型一个yml文件

缺点:每一类型的对话数量很少

2、下载:

https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese

七、天池中文医疗数据集CMDD

1、简介:

本数据集CMDD由好大夫和圣地亚哥大学提供。可基于数据集进行学习、科学研究

2、下载:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=92110b

八、天池中文医疗数据集Toyhom

1、简介

中文医疗对话数据集由792099个问答对组成。 本数据集共有6个文件,包括男科、内科、妇产科、肿瘤科、儿科和外科。

2、下载:

Chinese Medical Dialogue Dataset 中文医疗对话数据集_数据集-阿里云天池

九、Ubuntu对话语料库

1、简介:

Ubuntu对话语料库包括从Ubuntu聊天记录中提取的近一百万个两人对话,用于获得针对与Ubuntu相关的各种问题的技术支持。每次对话平均8轮,至少3轮。所有对话均以文本形式(而非音频)进行。

完整的数据集包含93万个对话和超过1亿个单词。该数据集包含分布在.csv文件中的该数据集的样本。该数据集包含超过2.69亿个单词的文本,分布超过了2600万圈。

2、下载:

Ubuntu对话语料库 2600万次自然的两人对话_数据集-阿里云天池

十、百度DuConv

1、简介

训练集样例数量 开发集样例数量 测试集样例数量 单/多轮 领域
19858 2000 5000 多轮 电影、明星

2、下载:

https://github.com/Cindy-xdZhang/ACL-duconv

3、论文:

Proactive Human-Machine Conversation with Explicit Conversation Goals

十一、百度DuRecDial

1、简介:

DuRecDial包含多种类型的对话(推荐对话、闲聊、任务导向对话和QA),来自7个领域(电影、明星、音乐、新闻、食物、poi和天气)的10.2k对话,以及156K个utterances。

2、下载:

https://baidu-nlp.bj.bcebos.com/DuRecDial.zip

3、论文:

https://arxiv.org/pdf/2005.03954.pdf

十二、清华LCCC

1、简介:

所提供的数据集LCCC(Large-scale Cleaned Chinese Conversation)主要包含两部分: LCCC-base 和 LCCC-large,属于开放域对话数据集。

2、下载:

https://github.com/thu-coai/CDial-GPT

十三、PTT 中文語料

1、简介:

台湾PTT论坛繁体字八卦版,单轮对话,文本噪声比较大。

有两份数据:Gossiping-QA-Dataset.txt 和 Gossiping-QA-Dataset-2_0.csv

2、下载:

https://github.com/zake7749/Gossiping-Chinese-Corpus

十四、Subtitle Corpus

1、简介:

电视剧对白语料,来自爬取的电影和美剧的字幕。有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)。

2、下载:

https://github.com/aceimnorstuvwxz/dgk_lost_conv

十五、青云语料库

1、简介:

来源于聊天机器人交流群。开放域。12万条对话。

2、下载:

https://drive.google.com/file/d/1So-m83NdUHexfjJ912rQ4GItdLvnmJMD/view?usp=sharing

十六、weibo微博语料

1、简介:

来自华为的paper,443W条对话。

2、下载:

https://drive.google.com/file/d/1So-m83NdUHexfjJ912rQ4GItdLvnmJMD/view?usp=sharing

十七、贴吧论坛回帖语料

1、简介:

来源于贴吧论坛回帖,是多轮对话数据集。存在有噪音。

2、下载:

https://github.com/codemayq/chinese_chatbot_corpus

十八、腾讯NaturalConv

1、简介:

NaturalConv是腾讯2021年发布的中文对话数据集,是基于话题驱动的中文对话生成,它更接近于类人对话,具有自然属性,包括场景假设、自由话题扩展、问候等。它更接近于类人对话,具有自然属性,包括场景假设、自由话题扩展、问候语等完整的自然环境。它包含约400K语句和19.9K对话,涉及多个领域(包括但不限于体育、娱乐、科技)。平均轮数为20,明显长于其他语料库。

2、下载:

Dialogue Research-Tencent AI Lab

3、论文:

https://arxiv.org/pdf/2103.02548.pdf

十九、Crosswoz数据集

1、简介:

2020年由清华大学人工智能研究院发布的CrossWOZ包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁、出租)。平均每个对话涉及 3.2 个领域,远超之前的多领域对话数据集,增添了对话管理的难度。

截至2020年,是第一个大规模中文对话数据集。可以用于研究任务型对话系统中各个方面,比如NLU、DST、对话策略学习、NLG都可以,也可以用于对话上下文补全的研究。

2、论文:知乎 - 安全中心

3、下载:

https://github.com/thu-coai/CrossWOZ

NLP领域中文对话系统数据集总结(有下载地址)相关推荐

  1. 163种中草药(中药材)数据集说明(含下载地址)

    163种中草药(中药材)数据集说明(含下载地址) 目录 163种中草药(中药材)数据集说明(含下载地址) 1. Chinese-Medicine-163数据集说明 2. Chinese-Medicin ...

  2. 干货|NLP领域中文vs英文有什么异同点,中文NLP有什么独特的地方?

    https://www.jianshu.com/p/d89313ac10dc 文章来源:知乎   作者:刘知远.李嫣然 刘知远关于NLP的精彩回答 从实用文本分析技术而言,如果只做主题聚类.文本分类等 ...

  3. 深度学习遥感图像分类常用数据集简介以及下载地址

    1. UC Merced Land-Use Data Set 图像像素大小为256*256,总包含21类场景图像,每一类有100张,共2100张. 下载地址:http://weegee.vision. ...

  4. IRIS鸢尾花数据集(多种格式)-下载地址

    最近看的例子有用到IRIS数据集, 个人找了半天,才找到合适格式的数据集. 因此,将我找到的数据集分享给大家,以免大家像我一样找很久. 我这里有3种格式的数据集,分别是: 1. iris.csv 2. ...

  5. 【GIS风暴】30米分辨率地表覆盖数据GlobeLand30原始数据集简介及下载地址

    数据集预览: GlobeLand30是30米空间分辨率全球地表覆盖数据,目前可供下载使用的有3年的数据:2000-2010-2020,本文主要讲述GlobeLand30的官网下载地址和数据集简介. 数 ...

  6. 人脸数据集简介及下载地址

    1. Olivetti Faces人脸数据集 由40个人组成,共计400张人脸: 每人的人脸图片为10张,包含正脸.侧脸以及不同的表情: 整个数据集就是一张大的人脸组合图片,下载地址:https:// ...

  7. AutoCAD 2024 中文激活版 Win/mac下载地址

    Autodesk欧特克公司发布了几则关于AutoCAD 2024的新消息,首先是更新了适用于苹果macOS系统的AutoCAD 2024和AutoCAD LT 2024软件,进一步添加了对苹果M1/M ...

  8. 腾讯AI Lab开源业内最大规模多标签图像数据集(附下载地址)

    今日(10 月 18 日),腾讯AI Lab宣布正式开源"Tencent ML-Images"项目.该项目由多标签图像数据集 ML-Images,以及业内目前同类深度学习模型中精度 ...

  9. 武汉大学提出全球最大的口罩遮挡人脸数据集(附下载地址):RMFD

    前言 近期受 COVID-19(新型冠状病毒肺炎)疫情影响,学术界.工业界陆续用AI技术帮助人类解决问题,并取得重大突破.其中关于口罩遮挡人脸识别.检测以及CT图像分析更是热门的研究方向. RMFD: ...

最新文章

  1. wxWidgets:wxTextOutputStream类用法
  2. 外贸电商选择美国服务器的优势分析
  3. PHP+MySql+jQuery实现的“顶”和“踩”投票功能
  4. python环境变量添加失败_python环境变量设置失败
  5. 如何用servle和c3p0-DBUtils实现用户登录功能
  6. OpenJDK 14 与 OpenJDK 8 及多个主要版本的性能基准测试对比
  7. intel32指令中文版
  8. 随机抽样方法正太分布 MC, MCMC, Gibbs采样 原理实现(in R)
  9. linux 下tftp服务器搭建,CentOS 6下搭建TFTP服务器
  10. 解决Google Chrome添加快捷方式图标模糊
  11. 防火墙iptables和firewall相关操作
  12. Type mismatch: inferred type is T but ViewModel was expected
  13. 山东大学计算机考研压分,很坑!考研院校:这些骚操作,你不得不防
  14. 使用Python 爬取视频
  15. MyBatis中获取Oracle序列
  16. 你的链上资产存储安全吗?交易自由吗?
  17. python 隐函数绘制_Python隐函数作图
  18. 红帽RHCE认证含金量怎么样?学红帽难吗?
  19. 数学物理方程 第二章 线性偏微分方程的通解
  20. Django 基础(13)-Django drf 序列化器类to_representation和to_internal_value(处理返回的日期格式)、序列化类 ModelSerializer

热门文章

  1. android+信号强度,Android信号强度计算方式
  2. Unity HDRP云渲染锯齿、UI拖影、字体清晰度问题
  3. opencv2.0的移植 OMAP4460 FPU
  4. 心理学计算机学什么,心理学专业学什么 都有哪些课程
  5. OpenWRT添加自定义LUCI页面示例
  6. 港府将发4000港元给部分市民 或惠及280万人
  7. 在Win7上安装AutoCAD2007碰到的问题及其解决办法
  8. java jcom操作wps
  9. 如何下载和配置php,如何下载和配置phpmyadmin
  10. 百度地图的定位与操作 zrj