入坑Abstractive Summarization:文本摘要CNN/DM数据集
几个CNN/DM数据集的地址:
- 【万x之源】最初版本的CNN/DM:DMQA
- 作者兄弟用来创造非匿名数据集的代码:GitHub - abisee/cnn-dailymail: Code to obtain the CNN / Daily Mail dataset (non-anonymized) for summarization
- 这位兄弟提供了处理完的数据:GitHub - JafferWilson/Process-Data-of-CNN-DailyMail: This repository holds the output of the repository: https://github.com/abisee/cnn-dailymail
关于CNN/DM数据集的描述:
- 之前的老哥用的匿名版本(anonymized,把人名地名那些都替换成@entity...)
- 这位大兄弟开始用非匿名版本(non-anonymized, 扔给模型自己消化吧~)
- 第一个用非匿名版本的论文在此:Get To The Point: Summarization with Pointer-Generator Networks
看看这些数据长啥样
原始数据(前面是正文,@highlight是标准摘要)
abisee大兄弟的脚本做了什么(下图是初始化的一些变量):
- 创建了cnn_stories_tokenized和dm_stories_tokenized两个文件夹
- 把cnn/stories和dailymail/stories的全部文章用stanford-corenlp分词,扔进上面两个文件夹
- 全部转成小写,然后根据all_train.txt,all_val.txt,all_test.txt(把cnn和dailymail各自的train/val/test合并后得到all_xxx)创建训练集(287226),验证集(13368)和测试集(11490),其中里面的url和文件名是通过SHA1进行比对的。
- 把以上分别存到train.bin,val.bin,test.bin这三个二进制文件中。这个过程中,文章和摘要分别连成一长串话,摘要每句话前后都有分隔符,形式如:【正文】 first sent . sencond sent .【摘要】<s> first summary </s> <s> second summary </s>
- 根据训练集形成vocab词汇表,存在finished_files里
- 上面三个bin太大了,各自分块,1000条数据一个chunk,比如train_000.bin, train_001.bin, ..., train_287.bin
- 分块之后存到finished_files/chunked里,结束。形成下面部分要说的三个文件。
JafferWilson大哥处理完的数据:
上面同一篇文章,这是分词之后的结果。
为方便国内研究者下载,已将资源上传至csdn,有需求可下载:文本摘要CNN/DailyMail原始数据集
入坑Abstractive Summarization:文本摘要CNN/DM数据集相关推荐
- 复旦大学陈怡然:文本摘要的跨数据集迁移研究
⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 文本摘要任务是文本生成任务的子类,输入一段源文本,期望输出包含源文本主要内容的精简.流畅.没有语法错误 ...
- NLP-文本摘要:数据集介绍及预处理【CNN/DM(偏抽取式)、NYT Annotated Corpus(偏抽取式)、Newsroom(抽取式+生成式)、XSum(抽取式/BBC)、XL-Sum】
一.CNN/DailyMail数据集 论文<Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond&g ...
- Transformers预训练模型使用:文本摘要 Summarization
文本摘要是一个将一个文档或文章总结成一小段文字的任务. 一个文本摘要任务的数据集叫CNN / Daily Mail dataset,包含长新闻文章和其对应的摘要. 使用pipeline 同样,我们可以 ...
- 知识图谱如何助力文本摘要生成
来源:丁香园大数据 本文约3800字,建议阅读8分钟 本文基于摘要生成,重点考虑如何帮助模型生成特定领域的知识点,并简要介绍一些用于应对无关重复这类退化现象的方案. 引言 文本生成类任务应用场景广泛, ...
- 我们在文本摘要方面取得了什么成就?
论文:<What Have We Achieved on Text Summarization?> Dandan Huang1,2∗, Leyang Cui1,2,3∗, Sen Yang ...
- BigPatent文本摘要数据集
ACL2019 BigPatent数据集 文章目录 ACL2019 BigPatent数据集 1 概述 2 特点 2.1 表述结构 2.2 关键信息分布 2.3 摘要性 3 主流模型在各数据集性能比较 ...
- huggingface transformers实战系列-06_文本摘要
文本摘要简述 随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个"降 维"处理显得非常必要,文本摘要便是其中一个重要的手段.文本摘要旨在将文本或文本集合 ...
- 当知识图谱遇上文本摘要:保留抽象式文本摘要的事实性知识
论文标题: Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph 论文作者: Chenguang ...
- NLP-预训练模型-2019-NLU+NLG:T5【Text-to-Text 预训练模型超大规模探索】【 微调T5用于文本摘要】
<原始论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer> 2019年 ...
最新文章
- 【Python基础】Python中必须知道的5对魔术方法
- Lambda表达式的基础知识
- 创想云教育9月公益直播课资料
- c++ 暂停功能_苹果拥抱Rust,正在将C代码移植到Rust
- 将Excel列转为字符串存到数据库表中
- 微软官网方法制作win10u盘启动
- 启发式搜索算法 - 以A*为中心来说明启发式算法本质是要找有效的heuristic需要满足的性质
- 什么是网站死链?如何查询网站死链?网站死链怎么解决?
- PPT文件没有密码解除限制编辑
- 透过爷爷的一生,浅析选择的重要性
- JAVA语言编程练习--图形界面--简易登录界面
- 一起打造自己的自动驾驶小车mycar - 4.手柄控制小车移动
- Redis事务与Pipeline功能
- 交换机ARP代理详解
- 离谱:火狐浏览器重启后插件,书签,浏览记录全部没了???
- Java使用AES/EBC/PKCS5Padding加密,CryptoJS解密错误
- ssm文达学院学生社团招募系统的设计与实现毕业设计源码211633
- 多面张亚勤:导师、管理者和普通人
- 2017年的最后一天
- 金融学专业考计算机二级,考计算机二级选哪个科目好 哪个科目简单
热门文章
- php mql获取结果集,promql查询表达式
- 《Android 第一行代码》十一章 “服务的最佳实践”
- 设计艺术签名的软件有哪些?不妨试试这几款应用
- 硬件笔记(1)---- 以太网控制器类型
- 如何准确找客户?有什么好的办法找客户吗?
- 华农靓女聚居地综合调查报告
- 一文了解BTS432E2
- Tensorflow高阶内容(五)- Deep Learning
- 中国摇滚:历史上的今天,中国摇滚十年生死两茫茫
- JSNet: Joint Instance and Semantic Segmentation of 3D Point Clouds