本文结构:

  • 什么是 seq2seq?
  • Encoder–Decoder 结构?
  • seq2seq 结构?

什么是 seq2seq?

seq2seq 是一个 Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。

这个结构最重要的地方在于输入序列和输出序列的长度是可变的,可以用于翻译,聊天机器人,句法分析,文本摘要等。

下面是写过的 seq2seq 的应用:

RNN与机器翻译
http://www.jianshu.com/p/23b46605857e
如何自动生成文本摘要
http://www.jianshu.com/p/abc7e13abc21
自己动手写个聊天机器人吧
http://www.jianshu.com/p/d0f4a751012b


Encoder–Decoder 结构?

Cho 在 2014 年提出了 Encoder–Decoder 结构,即由两个 RNN 组成,
https://arxiv.org/pdf/1406.1078.pdf

(其中的 RNNCell 可以用 RNN ,GRU,LSTM 等结构)

在每个时刻, Encoder 中输入一个字/词,隐藏层就会根据这个公式而改变,

到最后一个字/词 XT 时 ,隐藏层输出 c ,因为 RNN 的特点就是把前面每一步的输入信息都考虑进来了,所以 c 相当于把整个句子的信息都包含了,可以看成整个句子的一个语义表示。

Decoder 在 t 时刻的隐藏层状态 ht 由 ht−1,yt−1,c 决定:

yt 是由 ht,yt−1,c 决定:

f 和 g 都是激活函数,其中 g 函数一般是 softmax。

模型最终是要最大化下面这个对数似然条件概率:

其中每个 (xn, yn) 表示一对输入输出的序列, θ 为模型的参数。


seq2seq 结构?

Sutskever 在 2014 年也发表了论文:
https://arxiv.org/pdf/1409.3215.pdf

这个模型结构更简单,

因为 Decoder 在 t 时刻 yt 是由 ht,yt−1 决定,而没有 c:

论文中的 Encoder 和 Decoder 都用的 LSTM 结构,注意每句话的末尾要有 “” 标志。 Encoder 最后一个时刻的状态 [cXT,hXT] 就和第一篇论文中说的中间语义向量 c 一样,它将作为 Decoder 的初始状态,在 Decoder 中,每个时刻的输出会作为下一个时刻的输入,直到 Decoder 在某个时刻预测输出特殊符号 结束。

LSTM 的目的是估计条件概率 p(y1, … , yT′ |x1, … , xT ) ,
它先通过最后一个隐藏层获得输入序列 (x1, … , xT ) 的固定长度的向量表达 v,
然后用 LSTM-LM 公式计算输出序列 y1, … , yT′ 的概率,
在这个公式中,初始状态就是 v,

而且用了 4 层的 LSTM,而不是一层:论文中的实验结果表明深层的要比单层的效果好
下面是个 3 层的例子

计算公式如下:

为了便于理解,单层的表示如下:

并且对输入序列做了一个翻转,即不是把 a, b, c 映射到 α, β, γ, 而是把 c, b, a 映射到 α, β, γ, 这样的结果是相应的 a 会更接近 α,并且更利于 SGD 建立输入输出间的关系。


参考:
Learning Phrase Representations using RNN Encoder–Decoder
for Statistical Machine Translation
https://arxiv.org/pdf/1406.1078.pdf

Sequence to Sequence Learning
with Neural Networks
https://arxiv.org/pdf/1409.3215.pdf

Generating Sequences With
Recurrent Neural Networks
https://arxiv.org/pdf/1308.0850.pdf


推荐阅读
历史技术博文链接汇总
也许可以找到你想要的

seq2seq 入门相关推荐

  1. 深度学习的seq2seq模型——本质是LSTM,训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大...

    from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...

  2. 机器学习、人工智能 博文链接汇总

    [入门问题]  [TensorFlow]  [深度学习]  [好玩儿的算法应用实例]  [聊天机器人]  [神经网络]  [机器学习]  [机器学习算法应用实例]  [自然语言处理]  [数据科学]  ...

  3. 使聊天机器人的对话更有营养

    本文结构: 模型效果 模型 模块细节 今天的论文是 <Topic Aware Neural Response Generation> https://arxiv.org/pdf/1606. ...

  4. 【一起入门NLP】中科院自然语言处理第13课-NLP基础任务④:序列生成问题(Seq2Seq)

    专栏介绍:本栏目为 "2021秋季中国科学院大学胡玥老师的自然语言处理" 课程记录,不仅仅是课程笔记噢- 如果感兴趣的话,就和我一起入门NLP吧

  5. 【一起入门NLP】中科院自然语言处理作业四:RNN+Attention实现Seq2Seq中英文机器翻译(Pytorch)【代码+报告】

    这里是国科大自然语言处理的第四次作业,同样也是从小白的视角解读程序和代码,现在我们开始吧(今天也是花里胡哨的一天呢

  6. NLP入门--Seq2Seq英汉翻译实战

  7. attention seq2seq transformer bert 学习总结 _20201107

    https://blog.csdn.net/weixin_44388679/article/details/102575223 Seq2Seq原理详解 一文读懂BERT(原理篇) 2018年的10月1 ...

  8. 入门指南目录页 -PaddlePaddle 飞桨 入门指南 FAQ合集-深度学习问题

    入门指南目录页 -PaddlePaddle 飞桨 入门指南 FAQ合集 GT_Zhang关注 0.1012019.08.01 18:43:34字数 1,874阅读 795 Hi,欢迎各位来自Paddl ...

  9. 命名实体识别入门教程(必看)

    关于开发自己的命名实体识别先期思路: 虽然网上有很多相关代码,但实际如何入门材料较少,故整理下: CRF:先期可以用人民日报语料库去做,步骤如下: https://blog.csdn.net/hude ...

最新文章

  1. 计算机中的大端模式与小端模式
  2. 「图像分割模型」编解码结构SegNet
  3. 为什么Spring Boot项目引入依赖的时候可以不指定依赖的版本号
  4. viewpager 自定义翻页效果_轻松打造专业的录音棚效果,连网红用了都说好的唱吧声卡K10套装...
  5. 路径总和Python解法
  6. No projects are found to import
  7. 用xmanager登陆Linux图形界面
  8. 车型代号对照表_上海大众车型与VIN代号对照表
  9. selenium+java+chrome环境搭建
  10. java世界杯hashmap,集合框架
  11. android 双击点亮屏幕,手机双击点亮屏幕是怎么实现的
  12. 【ALLEGRO Artwork设置】
  13. OpenCV之图像像素归一化
  14. markdown写出项目目录结构
  15. xcode 如何添加调试设备
  16. 50个BA分析工具第五个-Business Model Cavans
  17. 2008年攻读金庸武侠硕士研究生入学统一考试试题
  18. ArchLinux开发环境第2辑——高效平铺式桌面i3个性化配置与美化
  19. java编程必用软件(有下载路径)
  20. Cookie、Session、本地存储

热门文章

  1. DOCK软件测试大乐,LeDock分子对接与虚拟筛选性能评测
  2. 李白关于鸿蒙的诗,李白最霸气的一首诗,连苏轼都说:这首诗,只有李白能写出来!...
  3. 亲子关系-《非暴力亲子沟通》书中的精髓:父母如何用正确的沟通方法与孩子交流,从而改善亲子关系,促进孩子的健康成长。
  4. Ubuntu 常用空间清理命令
  5. 将PDF和图片文件如何转为Word或Excel分享几种转换器软件方法
  6. 潮平两岸阔,风正一帆悬[转]
  7. 软件工程笔记:敏捷是什么
  8. 塔塔帝国服务器维护一般多久,塔塔帝国玩法攻略 策略性一般不氪金的塔防游戏...
  9. YAMAHA Vocaloid 5 ESV v5.0.3 WiN-MAC 歌声合成器软件
  10. AAAI 2023|CF-ViT:由粗到细的两阶段动态推理架构