encoder-decoder框架,编码和解码是同时训练的,编码的输入和解码的输入,都是统一作为整体的输入数据,解码的输出作为整体的输出

Teacher forcing是什么?

目录
  • Teacher forcing是什么?

    • teacher forcing要解决什么问题?
    • 什么是teacher forcing?
    • teacher-forcing 有什么缺点?
    • teacher-forcing缺点的解决方法
      • beam search
      • curriculum learning
    • Further Reading

RNN 存在两种训练模式(mode):

  1. free-running mode: 上一个state的输出作为下一个state的输入。
  2. teacher-forcing mode: 使用来自先验时间步长的输出作为输入。

teacher forcing要解决什么问题?

常见的训练RNN网络的方式是free-running mode,即将上一个时间步的输出作为下一个时间步的输入。可能导致的问题:

  • Slow convergence.
  • Model instability.
  • Poor skill.

训练迭代过程早期的RNN预测能力非常弱,几乎不能给出好的生成结果。如果某一个unit产生了垃圾结果,必然会影响后面一片unit的学习。错误结果会导致后续的学习都受到不好的影响,导致学习速度变慢,难以收敛。teacher forcing最初的motivation就是解决这个问题的。

使用teacher-forcing,在训练过程中,模型会有较好的效果,但是在测试的时候因为不能得到ground truth的支持,存在训练测试偏差,模型会变得脆弱。

什么是teacher forcing?

teacher-forcing 在训练网络过程中,每次不使用上一个state的输出作为下一个state的输入,而是直接使用训练数据的标准答案(ground truth)的对应上一项作为下一个state的输入。

Teacher Forcing工作原理: 在训练过程的[Math Processing Error]t会随着时间的推移而改变,称为计划抽样(scheduled sampling)

  • 训练过程会从force learning开始,慢慢地降低在训练阶段输入ground truth的频率。
  • Further Reading

    Papers

    • A Learning Algorithm for Continually Running Fully Recurrent Neural Networks, 1989.
    • Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks, 2015.
    • Professor Forcing: A New Algorithm for Training Recurrent Networks, 2016.

    Book

    • Section 10.2.1, Teacher Forcing and Networks with Output Recurrence, Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016.

    问:在训练中,将teacher forcing替换为使用解码器在上一时间步的输出作为解码器在当前时间步的输入,结果有什么变化吗?

分类: 自然语言处理
标签: 文本生成, 自然语言处理, 深度学习
<div id="blog_post_info">
好文要顶 关注我 收藏该文

MissHsu
关注 - 6
粉丝 - 0

+加关注
0
0
<div class="clear"></div>
<div id="post_next_prev"><a href="https://www.cnblogs.com/dangui/p/14675599.html" class="p_n_p_prefix">« </a> 上一篇:    <a href="https://www.cnblogs.com/dangui/p/14675599.html" title="发布于 2021-04-19 09:47">NLP三大特征抽取器(CNN/RNN/TF)比较</a>
<br>
<a href="https://www.cnblogs.com/dangui/p/14690944.html" class="p_n_p_prefix">» </a> 下一篇:    <a href="https://www.cnblogs.com/dangui/p/14690944.html" title="发布于 2021-04-22 18:29">NLP数据增强</a>

Teacher forcing是什么? encoder-decoder框架的理解相关推荐

  1. encoder decoder模型_3分钟|聊一聊 Decoder 模块

    微信公众号:NLP从入门到放弃 本文大概需要阅读 4.1 分钟 聊一下对 Decoder 的个人总结和理解,我保证里面大部分内容你没在别人那看过,绝对原创. 我先说一个很小的细节点,当时花了点时间才琢 ...

  2. Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation翻译

    摘要 虽然teacher forcing已成为神经机翻译的主要训练框架,但它通常只能基于过去的信息上进行预测,因此缺乏对未来信息的全局规划.为了解决这个问题,我们在训练期间将另一个被称为seer的解码 ...

  3. RNN中的Teacher Forcing

    1. 什么是Teacher Forcing ​ Teacher Forcing(下面简称tf)是一种快速有效地训练递归神经网络模型的方法,这个方法名字听着很高端,其实应用非常简单,就是使用上一时间步的 ...

  4. python自然语言处理—Teacher Forcing

    Teacher Forcing RNN 在训练过程中的问题     训练迭代过程早期的 RNN 预测能力非常弱,几乎不能给出好的生成结果.如果某一个 unit 产生了 垃圾结果,必然会影响后面一片 u ...

  5. Hybrid LSTM and Encoder–Decoder Architecture for Detection of Image Forgeries论文阅读

    Hybrid LSTM and Encoder–Decoder Architecture for Detection of Image Forgeries Code link:https://gith ...

  6. encoder decoder 模型理解

    encoder decoder 模型是比较难理解的,理解这个模型需要清楚lstm 的整个源码细节,坦率的说这个模型我看了近十天,不敢说完全明白. 我把细胞的有丝分裂的图片放在开头,我的直觉细胞的有丝分 ...

  7. Teacher Forcing for Recurrent Neural Networks

    Teacher Forcing是一种用来快速而有效地训练循环神经网络模型的方法,这种方法以上一时刻的输出作为下一时刻的输入. 它是一种网络训练方法,对于开发用于机器翻译,文本摘要和图像字幕的深度学习语 ...

  8. 关于Teacher Forcing、自回归和内部协变量偏移等概念梳理

    Teacher Forcing Teacher Forcing是一种训练神经网络生成模型的技术,通常应用于序列到序列(seq2seq)模型,特别是在机器翻译等任务中.它的基本思想是在训练时,将真实的目 ...

  9. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation之每日一篇

    真正提出 Seq2Seq 的文章是<Sequence to Sequence Learning with Neural Networks>,但本篇<Learning Phrase R ...

最新文章

  1. IIS 500错误报service unavailable解决方案之一
  2. android 详解画图,android画图之贝塞尔曲线讲解详解
  3. flink社区提问没有人回答是怎么回事?
  4. Mac安装RocketMQ和可视化控制台教程
  5. B00013 字符串哈希函数
  6. DLog-M有什么用
  7. Bootstarp daterangepicker 日期控件
  8. Mac终端命令失效( command not found)/
  9. kindle使用参考
  10. 表单checkbook获取已选择的值
  11. Elasticsearch:管理悬空(dangling)索引
  12. android 桌面 弹出窗口,android – 弹出窗口在来电屏幕上像truecalle...
  13. waiter.OnGreet(Tom) Delegate event
  14. 百思不得姐php源码,微信小程序实战教程: 仿百思不得姐demo(附源码)
  15. 傅里叶变换音频可视化_音频可视化中的信号处理方案
  16. 织梦DEDE搬家数据还原后 前台错位
  17. java util zip.zipexc,JAVA解压zip压缩文件的实例
  18. H3C HCL MPLS 2层专线实验
  19. 从 http 升级到 https 过程中遇到的一些问题
  20. datepicker日期插件汉化

热门文章

  1. 我的阿里巴巴求职之路
  2. mui开发APP教程之使用选项卡跳转子页面
  3. 小程序自己制作可以吗?要准备些什么?
  4. CMOS与TTL电平标准
  5. ZigBee组网(代码级分析)
  6. 市委组织部项目--word上传,下载,预览,删除
  7. 非机动车无人值守停车场管理收费解决方案
  8. C++ const关键字的总结(全局/局部变量、修饰指针和引用、成员函数和数据成员、修饰类对象、const与宏定义的区别、Static与Const的区别)
  9. Hive的常见函数及出勤人数看板(五)
  10. 当代“程序猿”必备的神器有哪些?看看你用过几个!