问题1:

从模型的路径上看,encoder到实际输出有一定距离,从此限制了反向传播。

如果encoder decoder的seq2seq链很长,这个模型计算的attention值传到最后会越来越少,导致编码解码效果很差。(encoder信息消失的比较严重)

问题2:

摘要总结的结果有可能因为OOV的问题导致不准去。

(OOV:词表未登录词, 一般我们生成的未登录词会使用UNK表示)

问题3:

摘要结果会出现repeat重复的信息,比如重复出现德国队击败阿根廷队。

PGN指针生成网络

针对OOV问题解决办法就是用PGN指针生成网络。

PGN会生成一个pgen系数,用pgen乘encoder生成的部分和attention的概率分布,再用1-pgen乘encoder生成的部分,最后再加和。

在计算attention destribution时,发现某一个词的attention概率最高,它就会找到这个概率最高的词对应的一开始输入的tokenId,如果这个词在我们词典里,他肯定会有一个自己的ID号,那如果不在的话,他会时UNK对应的ID号。

PGN在每一步计算的时候会加一个OOV字典,如果这个概率最大的词不在我们字典里,我们可以加到OOV字典里编号30001(假设我们字典长度是30000),这样的话这个陌生词就有了TokenID,也就能通过tokenID从OOV字典里查出对应的陌生词。

(每次输入都会遍历这次输入的所有词,如果不在词典中就加入OOV)

这样拿到attention destribution的概率分布后,乘(1-pgen)与decoder输出预测的概率分布乘(pgen)相加就是我们最重要的概率分布结果。

PGN网络会将attention拉长到30001维,也会将decoder输出拉长到30001维后再相加。

以便最后相加

通过PGN我们可以减少词表量,不用担心OOV的问题,我们都可以学到OOV的词是什么

指针生成网络可以从输入的文中复制OOV词汇,这样我们就可以采用更小的字典进行训练。

因为我们原来之所以设置的词典比较大是因为不想让OOV词汇出现。

PGN网络比较适合摘要的任务。

Coverage机制

coverage机制可以很好的解决在词汇生成过程中一些重复的词的问题。

前面的attention weight的和

将c加到attention计算score里面进行学习

coverageLoss的计算
小于等于1

seq2seq结构的问题以及PGN网络模型相关推荐

  1. attention seq2seq transformer bert 学习总结 _20201107

    https://blog.csdn.net/weixin_44388679/article/details/102575223 Seq2Seq原理详解 一文读懂BERT(原理篇) 2018年的10月1 ...

  2. Seq2Seq+Attention生成式文本摘要

    任务描述: 自动摘要是指给出一段文本,我们从中提取出要点,然后再形成一个短的概括性的文本.自动的文本摘要是非常具有挑战性的,因为当我们作为人类总结一篇文章时,我们通常会完整地阅读它以发展我们的理解,然 ...

  3. Seq2Seq详解分析

    Seq2Seq模型简介 Seq2Seq模型是输入输出长度不确定的模型.例如将一句中文翻译成英文,那么这句英文的长度有可能会比中文短,也有可能会比中文长,所以输出的长度就不确定了. 在网络结构中,输入一 ...

  4. seq2seq模型_彻底理解 Seq2Seq 模型

    Seq2Seq 是一种循环神经网络的变种,包括编码器 (Encoder) 和解码器 (Decoder) 两部分.Seq2Seq 是自然语言处理中的一种重要模型,可以用于机器翻译.对话系统.自动文摘. ...

  5. 谷歌Jeff Dean团队发文,探讨「学习模型」如何替代传统索引结构

    原文来源:arxiv-vanity 作者:Tim Kraska.Alex Beutel.Ed H. Chi.Jeffrey Dean.Neoklis Polyzotis 「雷克世界」编译:嗯~阿童木呀 ...

  6. seq2seq模型_Bart: Seq2Seq预训练模型

    文章来源于微信公众号:雨石季 原文链接:请点击 文章仅用于学习交流,如有侵权请联系删除 Overall Transformer最早出来是为了解决机器翻译问题,因而Transformer模型分为两部分, ...

  7. 机器翻译Seq2Seq模型的启发-人工神经网络系统-诞生

    该模型采用了将信息通过某种编码 ,而后通过一个循环神经网络模型解码来实现语言的翻译, 那么我们如果把有的信息都看作是人类的信息,而机器训练需要的数据不是直接的信息,是神经网络的信息,也就是说某个模型的 ...

  8. 深度学习的seq2seq模型——本质是LSTM,训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大...

    from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...

  9. 深度学习核心技术精讲100篇(四十二)-Seq2seq框架下的文本生成

    前言 文本生成,旨在利用NLP技术,根据给定信息产生特定目标的文本序列,应用场景众多,并可以通过调整语料让相似的模型框架适应不同应用场景.本文重点围绕Encoder-Decoder结构,列举一些以文本 ...

最新文章

  1. linux下的lamp环境的搭建!!!
  2. unity3D小小白之雾效
  3. PHP程序员上相亲节目,结果遭女嘉宾瞬间全灭灯
  4. 基于heartbeat v1+ldirectord实现LVS的高可用
  5. STM32之CAN---中断管理浅析
  6. IT人分类,你属于哪个级别?
  7. python加减法计算题 代码_关于《剑指offer》中不用加减乘除做加法的Python代码的问题...
  8. LeetCode 108. Convert Sorted Array to Binary Search Tree
  9. Web前端基础---认识HTML及其组成---标签、框架
  10. spark 尽量避免数据源的数据倾斜
  11. 2022-8-4用GPS模块和Arduino制作一个多功能车辆测速仪
  12. m3u8在线提取工具:M3U8 Downloader 高速专业m3u8下载器下载
  13. win10配置JDK环境变量
  14. python 中的拷贝、浅拷贝与深拷贝
  15. 【模型选择】从0到1的数据价值实现需要数据分析师做些什么?
  16. 利用incapsula缓解ddos攻击
  17. 分布式算法-Paxos
  18. C语言实现来实现字符串反转,只有单词顺序反转,组成单词的字母不反转
  19. 各种中文分词工具的使用方法
  20. java统计一段英文中单词及个数

热门文章

  1. 像素画动画教程:超级马里奥
  2. 人工智能专业研究生或将迎来扩招,读还是不读?
  3. 谈谈数据库MySQL和Oracle
  4. 初级中学计算机教师考核方案,计算机科学学院2019年教师课堂教学质量考核实施方案...
  5. 2013计算机考研真题答案,2013年计算机考研统考真题及答案解析
  6. PHP根据IP判断地区
  7. 招聘兼职招聘类APP开发分享
  8. Vjudge STL题——A+B
  9. 模拟群面——产品设计题
  10. 【金鸡乘梦,新岁扬帆】云和恩墨豪华大礼贺新春