几个CNN/DM数据集的地址:

  • 【万x之源】最初版本的CNN/DM:DMQA
  • 作者兄弟用来创造非匿名数据集的代码:GitHub - abisee/cnn-dailymail: Code to obtain the CNN / Daily Mail dataset (non-anonymized) for summarization
  • 这位兄弟提供了处理完的数据:GitHub - JafferWilson/Process-Data-of-CNN-DailyMail: This repository holds the output of the repository: https://github.com/abisee/cnn-dailymail

关于CNN/DM数据集的描述:

  • 之前的老哥用的匿名版本(anonymized,把人名地名那些都替换成@entity...)
  • 这位大兄弟开始用非匿名版本(non-anonymized, 扔给模型自己消化吧~)
  • 第一个用非匿名版本的论文在此:Get To The Point: Summarization with Pointer-Generator Networks

看看这些数据长啥样

原始数据(前面是正文,@highlight是标准摘要)

abisee大兄弟的脚本做了什么(下图是初始化的一些变量):

  • 创建了cnn_stories_tokenized和dm_stories_tokenized两个文件夹
  • 把cnn/stories和dailymail/stories的全部文章用stanford-corenlp分词,扔进上面两个文件夹
  • 全部转成小写,然后根据all_train.txt,all_val.txt,all_test.txt(把cnn和dailymail各自的train/val/test合并后得到all_xxx)创建训练集(287226),验证集(13368)和测试集(11490),其中里面的url和文件名是通过SHA1进行比对的。
  • 把以上分别存到train.bin,val.bin,test.bin这三个二进制文件中。这个过程中,文章和摘要分别连成一长串话,摘要每句话前后都有分隔符,形式如:【正文】 first sent . sencond sent .【摘要】<s> first summary </s> <s> second summary </s>
  • 根据训练集形成vocab词汇表,存在finished_files里
  • 上面三个bin太大了,各自分块,1000条数据一个chunk,比如train_000.bin, train_001.bin, ..., train_287.bin
  • 分块之后存到finished_files/chunked里,结束。形成下面部分要说的三个文件。

JafferWilson大哥处理完的数据:

上面同一篇文章,这是分词之后的结果。

为方便国内研究者下载,已将资源上传至csdn,有需求可下载:​​​​​​​​​​​​​​文本摘要CNN/DailyMail原始数据集

入坑Abstractive Summarization:文本摘要CNN/DM数据集相关推荐

  1. 复旦大学陈怡然:文本摘要的跨数据集迁移研究

    ⬆⬆⬆              点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 文本摘要任务是文本生成任务的子类,输入一段源文本,期望输出包含源文本主要内容的精简.流畅.没有语法错误 ...

  2. NLP-文本摘要:数据集介绍及预处理【CNN/DM(偏抽取式)、NYT Annotated Corpus(偏抽取式)、Newsroom(抽取式+生成式)、XSum(抽取式/BBC)、XL-Sum】

    一.CNN/DailyMail数据集 论文<Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond&g ...

  3. Transformers预训练模型使用:文本摘要 Summarization

    文本摘要是一个将一个文档或文章总结成一小段文字的任务. 一个文本摘要任务的数据集叫CNN / Daily Mail dataset,包含长新闻文章和其对应的摘要. 使用pipeline 同样,我们可以 ...

  4. 知识图谱如何助力文本摘要生成

    来源:丁香园大数据 本文约3800字,建议阅读8分钟 本文基于摘要生成,重点考虑如何帮助模型生成特定领域的知识点,并简要介绍一些用于应对无关重复这类退化现象的方案. 引言 文本生成类任务应用场景广泛, ...

  5. 我们在文本摘要方面取得了什么成就?

    论文:<What Have We Achieved on Text Summarization?> Dandan Huang1,2∗, Leyang Cui1,2,3∗, Sen Yang ...

  6. BigPatent文本摘要数据集

    ACL2019 BigPatent数据集 文章目录 ACL2019 BigPatent数据集 1 概述 2 特点 2.1 表述结构 2.2 关键信息分布 2.3 摘要性 3 主流模型在各数据集性能比较 ...

  7. huggingface transformers实战系列-06_文本摘要

    文本摘要简述 随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个"降 维"处理显得非常必要,文本摘要便是其中一个重要的手段.文本摘要旨在将文本或文本集合 ...

  8. 当知识图谱遇上文本摘要:保留抽象式文本摘要的事实性知识

    论文标题: Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph 论文作者: Chenguang ...

  9. NLP-预训练模型-2019-NLU+NLG:T5【Text-to-Text 预训练模型超大规模探索】【 微调T5用于文本摘要】

    <原始论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer> 2019年 ...

最新文章

  1. 【Python基础】Python中必须知道的5对魔术方法
  2. Lambda表达式的基础知识
  3. 创想云教育9月公益直播课资料
  4. c++ 暂停功能_苹果拥抱Rust,正在将C代码移植到Rust
  5. 将Excel列转为字符串存到数据库表中
  6. 微软官网方法制作win10u盘启动
  7. 启发式搜索算法 - 以A*为中心来说明启发式算法本质是要找有效的heuristic需要满足的性质
  8. 什么是网站死链?如何查询网站死链?网站死链怎么解决?
  9. PPT文件没有密码解除限制编辑
  10. 透过爷爷的一生,浅析选择的重要性
  11. JAVA语言编程练习--图形界面--简易登录界面
  12. 一起打造自己的自动驾驶小车mycar - 4.手柄控制小车移动
  13. Redis事务与Pipeline功能
  14. 交换机ARP代理详解
  15. 离谱:火狐浏览器重启后插件,书签,浏览记录全部没了???
  16. Java使用AES/EBC/PKCS5Padding加密,CryptoJS解密错误
  17. ssm文达学院学生社团招募系统的设计与实现毕业设计源码211633
  18. 多面张亚勤:导师、管理者和普通人
  19. 2017年的最后一天
  20. 金融学专业考计算机二级,考计算机二级选哪个科目好 哪个科目简单

热门文章

  1. php mql获取结果集,promql查询表达式
  2. 《Android 第一行代码》十一章 “服务的最佳实践”
  3. 设计艺术签名的软件有哪些?不妨试试这几款应用
  4. 硬件笔记(1)---- 以太网控制器类型
  5. 如何准确找客户?有什么好的办法找客户吗?
  6. 华农靓女聚居地综合调查报告
  7. 一文了解BTS432E2
  8. Tensorflow高阶内容(五)- Deep Learning
  9. 中国摇滚:历史上的今天,中国摇滚十年生死两茫茫
  10. JSNet: Joint Instance and Semantic Segmentation of 3D Point Clouds