前一篇我们学习了 seq2seq 模型,从它的模型结构中我们可以看到存在两个瓶颈:

例如,当我们用 seq2seq 翻译一句话时,它的 Encoder 需要将原始句子中的主语,谓语,宾语,以及主谓宾之间的关系等信息都压缩到一个固定长度的上下文向量中,这个向量的长度通常只是 128 或者 256,如果输入数据很长时,就会有很多信息无法被压缩进这么短的向量中。

另一个瓶颈是,这个上下文向量在 Decoder 中只是在最开始的时候传递一次,之后都要靠 Decoder 自己的 LSTM 单元的记忆能力去传递信息,这样当遇到长句子时,记忆能力也是有限的。

于是为了改善这两个问题,Bahdanau 在 2015 年首次提出注意力模型。

在这个注意力模型中,Decoder 的每一个时间步都可以访问到 Encoder 的所有状态信息,这样记忆问题得以改善,而且在 Decoder 的不同时间步可以对 Encoder 中不同的时间步予以不同程度的关注,这样重要信息不会被淹没。

我们来更直观地对比看一下有和没有注意力机制的 seq2seq 模型有什么区别:

在没有注意力的 seq2seq 中,上下文向量是 Encoder 最后的隐向量,在 Attention 中,上下文向量是这些隐向量的加权平均。

在没有注意力的 seq2seq 中,上下文向量只是在 Decoder 开始时输入进去,在 Attention 中&#x

动手实现 Bahdanau 注意力模型相关推荐

  1. Bahdanau 注意力

    在预测词元时,如果不是所有输入词元都是相关的,那么具有Bahdanau注意力的循环神经网络编码器-解码器会有选择地统计输入序列的不同部分.这是通过将上下文变量视为加性注意力池化的输出来实现的. 在循环 ...

  2. 注意力机制(三):Bahdanau注意力

    专栏:神经网络复现目录 注意力机制 注意力机制(Attention Mechanism)是一种人工智能技术,它可以让神经网络在处理序列数据时,专注于关键信息的部分,同时忽略不重要的部分.在自然语言处理 ...

  3. 3.7 注意力模型直观理解-深度学习第五课《序列模型》-Stanford吴恩达教授

    注意力模型直观理解 (Attention Model Intuition) 在本周大部分时间中,你都在使用这个编码解码的构架(a Encoder-Decoder architecture)来完成机器翻 ...

  4. 注意力模型直观理解(Attention Model Intuition)

    来源:Coursera吴恩达深度学习课程 本周的课程我们都在使用这个编码解码的构架(a Encoder-Decoder architecture)来完成机器翻译.当你使用RNN读一个句子,于是另一个会 ...

  5. 10.4. Bahdanau 注意力

    文章目录 10.4. Bahdanau 注意力 10.4.1. 模型 10.4.2. 定义注意力解码器 10.4.3. 训练 10.4.4. 小结 10.4. Bahdanau 注意力 Bahdana ...

  6. 注意力机制 - Bahdanau注意力

    文章目录 Bahdanau注意力 1 - 模型 2 - 定义注意力解码器 3 - 训练 4 - 小结 Bahdanau注意力 我们在 9.7节中探讨了机器翻译问题:通过设计⼀个基于两个循环神经⽹络的编 ...

  7. 带你玩转序列模型之Bleu得分注意力模型语音识别

    目录 一.Bleu得分 二.注意力模型直观理解 三.注意力模型 四.语音识别 五.触发字检测 一.Bleu得分 先跳过,等回头用得到了再来补. 二.注意力模型直观理解 在本周大部分时间中,你都在使用这 ...

  8. Attention Model(注意力模型)学习大全

    深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个 ...

  9. 深度学习笔记——Attention Model(注意力模型)学习总结

    深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个 ...

最新文章

  1. c# IO线程 打造 定时打开指定程序
  2. Mac Book 问题汇集
  3. Android Studio使用教程
  4. 百度富文本编辑器UEditor安装配置全过程
  5. 数据库mysql中delimiter的作用和用法
  6. 【版本更新】IM 4.3.0新版本升级上线!
  7. 怎样学c++程序语言,如何学好 C++——学习门槛最高的编程语言
  8. 比特币中的密码学知识汇总
  9. Mobaxterm中使用git log报错/bin/busybox.exe less -R no such file or directory
  10. 【ElasticSearch】Es 源码之 PersistentTasksExecutorRegistry 源码解读
  11. 【重识 HTML + CSS】项目实战
  12. Deep Homography Estimation for Dynamic Scenes 论文笔记
  13. MySQL索引失效、优化的方法
  14. HDU 6319 Ascending Rating(单调队列)
  15. 数据处理 | 一些野路子
  16. 阿里IOT云飞燕平台的使用和感悟。
  17. Unity 之 UGUI Dropdown下拉选单组件详解
  18. win10时间不准_安卓机时间突然变慢10分钟?移动发布回应
  19. word文件不能编辑是什么原因
  20. 2019年985院校计算机专业排名,2019年985大学名单排名,985大学详解(附全榜单)

热门文章

  1. 事务的基本特性是什么
  2. 20210725个人周复盘
  3. the daily 发布了
  4. Linux中select IO复用机制
  5. 物理层技术前沿_西安交通大学:通信网络安全先进技术研讨会:密码安全专场...
  6. java split 双竖线_HIVE 常用函数及实例
  7. Spring RMI反序列化漏洞分析
  8. 查看所连接局域网内所有ip
  9. 数据结构——栈的使用
  10. 6.PCIe协议分析3-PCIe TLP包详解2