Multi-News: a Large-Scale Multi-Document Summarization Dataset 文本摘要笔记
文本摘要笔记
- 1.Multi-News
- 2.Pointer-generator Network
- 3.Transformer
- 4.MMR
- 5.PG-MMR
- 6.Hi-MAP
- 7.First
- 8.LexRank
- 9.TextRank
- 9.1 PageRank
- 9.2 TextRank
- 9.3 TextRank生成摘要
- 10.实验
- 10.1 评价指标
- 10.2 实验结果
1.Multi-News
Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model
作者提出了第一个新闻多文档摘要数据集。它包含来自1500多个不同网站的输入文章以及从网站newser.com获得的56,216篇这些文章的专业摘要。此外,作者提出了一种端到端模型,该模型在各种多文档数据集(包括Multi-News)的自动和人工评估下实现了较好的结果。
文本摘要神经方法的最新进展主要应用于单文档新闻摘要和标题生成。这些利用了大型数据集,如Gigaword语料库、CNN/每日邮报(CNNDM)数据集、纽约时报数据集和编辑室语料库。其中包含的文章摘要对的数量从几十万到几百万不等。然而,多文档摘要旨在从同一主题的文档集群中输出摘要,它主要是在不到100个文档集群的数据集上执行的,如DUC 2004和TAC 2011数据集,而且从深度学习方法的进步中获益较少。
2.Pointer-generator Network
指针生成器网络是具有注意力的常用编码器-解码器摘要模型,其结合了从源文档复制单词和从词汇表输出单词。
step1:
hi:编码器将文档中的每个token转换为隐藏状态hi
dt:在每个解码步骤t,解码器具有隐藏状态dt
at:注意力分布
h∗t:上下文向量,token隐藏状态的加权和
表示t解码时间步骤的相关文档内容的语义意义
hi是编码器的隐状态,dt是解码器的隐状态
通过每个解码步骤解码器的隐藏状态dt、每个token隐藏状态hi计算每个token的注意力分布at;然后用at和hi计算文档表示。
step2:
然后将上下文矢量h∗t和解码器隐藏状态dt传递到两个线性层,以产生词汇分布Pvocab
对于每个单词,还存在复制概率Pcopy,即所有单词注意力权重之和
step3:
Pgen:从Pvocab词汇生成字,还是通过从复制概率Pcopy来从源序列复制字。
最终概率分布是词汇分布和复制概率的加权和:
3.Transformer
The Transformer model replaces recurrent layers with self-attention in an encoder-decoder frame-work
encoder:the multi-head self-attention sub-layer allows the encoder to directly attend to all other words in a sentence in one step.
decoder:contains the typical encoder-decoder attention mechanisms as well as self-attention to all previous generated output.
4.MMR
最大边际关联(MMR)是一种在摘要上下文中将查询相关性与信息新颖性相结合的方法。MMR根据与查询的相关性和冗余度产生候选语句的排序列表,该列表可用于提取句子。分数的计算方法如下:
R是所有候选语义的集合,Q是查询,S是已选择的句子集合,R\S是未选择的句子集合。一般来说,每次我们想要选择一个句子,我们都会对所有考虑相关性和重复性的候选者进行排名
希望Di和Q相似度大的同时,Di和其他句子的最大相似度小
5.PG-MMR
最近的一项工作将MMR应用于多文档摘要,创建了一个外部模块和一个句子重要性的监督回归模型。然而,我们提出的方法将MMR与pointer-generator network以端到端的方式结合在一起,对相似性和冗余性学习参数
1、从多文档拼接而成的大文档中,根据MMR分数,选出K个句子;动态调整K个句子的注意力权重;生成一句摘要。
2、重新挑选最重要的topk句子,来继续生成下一句摘要。但是挑选这些句子的时候,如果某个句子和已经生成的部分摘要比较相似(冗余度高),那么被选择的可能性降低。
MMR:
·前者表示第i句和文档的相似度,作为重要度
·后者表示第i句和已经生成的摘要句的相似度
6.Hi-MAP
我们将已有的指针生成器网络模型扩展为一个层次网络,使我们可以计算出实时级的MMR分数。我们的模型由一个指针生成器网络和一个集成的MMR模块组成。(这部分没细看)
7.First
我们将文档簇中每个主题的第一个句子串联起来作为系统摘要,对于我们的数据集,first-k意味着每个源文章的前k个句子将串联起来作为摘要
8.LexRank
其中LR(u)是句子的LexRank值
N是图中句子的总数,d是经验决定的阻尼系数
adj[u]是在图中与U相邻的句子的集合,w(v,u)是从句子v到句子u的权值
因此,一个句子的LexRank值是一个恒量加上其邻居节点的权值的平均。
9.TextRank
9.1 PageRank
PageRank本来是用来解决网页排名的问题,网页之间的链接关系即为图的边
其中,PR(Vi)表示结点Vi的rank值,In(Vi)表示结点Vi的前驱结点集合,Out(Vj)表示结点Vj的后继结点集合,d为damping factor用于做平滑。
一个点的重要性:所有指向这个点的点的重要性的平均值
9.2 TextRank
比PageRank多了一个权重项Wji,用来表示两个节点之间的边连接有不同的重要程度
9.3 TextRank生成摘要
将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边。考察句子相似度的方法是下面这个公式:
Si,Sj分别表示两个句子词的个数总数,Wk表示句子中的词,那么分子部分的意思是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。
共现词数量占句子长度比重越大,越相似
我们可以根据以上相似度公式循环计算任意两个节点之间的相似度,根据阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后计算TextRank值,最后对所有TextRank值排序,选出TextRank值最高的几个节点对应的句子作为摘要
10.实验
10.1 评价指标
10.2 实验结果
Multi-News: a Large-Scale Multi-Document Summarization Dataset 文本摘要笔记相关推荐
- 入坑Abstractive Summarization:文本摘要CNN/DM数据集
几个CNN/DM数据集的地址: [万x之源]最初版本的CNN/DM:DMQA 作者兄弟用来创造非匿名数据集的代码:GitHub - abisee/cnn-dailymail: Code to obta ...
- Global Encoding for Abstractive Summarization 生成式文本摘要论文解读
论文解读 https://blog.csdn.net/wu13599hao/article/details/87864788?spm=1001.2014.3001.5501#Global_Encodi ...
- 论文笔记(十七):Brax - A Differentiable Physics Engine for Large Scale Rigid Body Simulation
Brax - A Differentiable Physics Engine for Large Scale Rigid Body Simulation 文章概括 摘要 1 捐款摘要 2 动机 3 使 ...
- 论文笔记(十七):Brax — A Differentiable Physics Engine for Large Scale Rigid Body Simulation
Brax - A Differentiable Physics Engine for Large Scale Rigid Body Simulation 文章概括 摘要 1 捐款摘要 2 动机 3 使 ...
- 【读】seq2seq—(4)LCSTS: A Large Scale Chinese Short Text Summarization Dataset
本文转载自: 自动文摘(九) 目录 Abstract Introduction Data Collection Data Properties Experiment Conclusion and Fu ...
- 【多标签文本分类】Large Scale Multi-label Text Classification with Semantic Word Vectors
·阅读摘要: 本文提出了利用词向量+CNN/词向量+GRU来解决大规模数据下的多标签文本分类问题. [1] Large Scale Multi-label Text Classificatio ...
- Machine Learning week 10 quiz: Large Scale Machine Learning
Large Scale Machine Learning 5 试题 1. Suppose you are training a logistic regression classifier using ...
- Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)
Paper之BigGAN:ICLR 2019最新论文<LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS> ...
- 【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 17—Large Scale Machine Learning 大规模机器学习...
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型 ...
最新文章
- iOS开发资源(持续更新)
- Python连接MYSQL,并做查询操作
- hbase数据迁移到hive中
- 可自由扩展的圆角矩形制作方法
- 如何在CDN边缘节点执行你的JavaScript?
- IntelliJ IDEA 如何用 真机 测试安卓(Android)App 实战移动端
- 【原创】FlashFXP_4.0.0.1510 值得研究
- DIRECTORY_SEPARATOR
- Idea创建简单Java Web项目并部署Servlet
- java调用tuxedo中间件,BEA-TUXEDO中间件介绍.ppt
- linux之调试触摸屏驱动
- 计算机竞赛奖学金申请书,最新奖学金申请书(精选6篇)
- 凝胶渗透色谱的基本概念(一)
- 基于标准的多媒体视频对讲系统
- 可扩展机器学习——分类——点击率预测(Click-through Rate Prediction)
- AI病毒来袭,拿什么拯救你我的电脑?
- 什么是SaaS模式 - SaaS模式的视频会议系统
- 华为服务器_RH2288H V3介绍
- 计算机机型分pc机和什么,三种等分的电脑打印纸一般指什么尺寸
- 港科夜闻|2022年香港科大气候适应及复原力大会圆满闭幕,政经领袖研讨香港气候政策与绿色金融发展...
热门文章
- A_Machine_Vision_Apparatus_and_Method_for_Can-End_Inspection-论文阅读笔记
- 肉这么做越吃越瘦!鲜嫩多汁!每次只需 5 分钟,比叫外卖还快!
- Behaviac 和 Behavior Designer两者的区别
- 平方和:在1-40中只要数字中含有2,0,1,9的数字一共有28个,他们的和是574,平方和是14362。请问1-2019中,所有这样的输的平方和是多少?
- mysql截取前几个字符串_MySql中截取字符串中的某几个字符
- excel模板文件下载与导入校验
- ssm+jsp计算机毕业设计基于java的信访管理系统64esx(程序+lw+源码+远程部署).
- excel vba怎么获得当前选中单元格
- java string类型时间比较大小_Java String类型时间比较大小
- jsp中无法识别EL表达式问题