深入理解强化学习——强化学习的历史：试错学习

分类目录：《深入理解强化学习》总目录
相关文章：
· 强化学习的历史：最优控制
· 强化学习的历史：试错学习
· 强化学习的历史：试错学习的发展
· 强化学习的历史：K臂赌博机、统计学习理论和自适应系统
· 强化学习的历史：时序差分学习

让我们现在回到另一条通向现代强化学习领域的主线上，它的核心则是试错学习思想。我们在这里只对要点做概述，《深入理解强化学习》系列后面的文章会更详细地讨论这个主题。根据美国心理学家R.S.woodworth的说法，试错学习思想可以追溯到19世纪50年代Alexander Bain对“摸索和实验”学习方法的讨论，可以更具体地追溯到1894年英国动物行为学家和心理学家Conway Lloyd Morgan使用这个术语来描述他对动物行为的观察实验。而也许第一个简洁明确地表达出试错学习的本质是学习原则的则是Edward Thorndike：

面对同样的情境时，动物可能产生不同的反应。在其他条件相同的情况下，如果某些反应伴随着或紧随其后能够引起动物自身的满意感，则这些反应将与情境联系得更加紧密。因此，当这种情境再次发生时，这些反应也更有可能再出现。而在其他条件相同的情况下，如果某些反应给动物带来了不适感，则这些反应与情境的联系将被减弱，所以当这种情境再次发生时，这些反应便越来越不容易再现。更大的满意度或更大的不适感，决定了更强化的或更弱化的联系。

Thorndike称之为“效应定律（Law of Effect）”，因为它描述了强化事件对选择行为倾向性的影响。后来，Thorndike修改了定律，更好地解释了动物学习的数据（比如奖励和惩罚之间的区别），但各种形式的定律在学习理论专家中也产生了大量争议。尽管如此，各种形式的效应定律被普遍认为是许多行为背后的基本原则。这是Clark HuII影响深远的学习理论的基础，也是B.F.Skinner实验方法的基础。

在动物学习领域，“强化”一词从Thorndike提出效应定律之后开始使用，最早出现在巴甫洛夫的条件反射著作的1927年英文译本中。巴甫洛夫认为“强化"就是动物行为模式的增强，它来源于动物受到增强剂的刺激后与另一刺激或反应形成的短暂关系。后来，一些心理学家扩展了“强化"一词的意义，也包括了弱化过程，同时它还适用于对刺激事件的忽略或终止。强化对行为的改变会在增强剂被撤回时仍有所保留，因此只吸引动物注意或激发其行为，而不产生持久变化的刺激物不被认为是一种增强剂。

试错学习思想在计算机中的应用最早出现于关于人工智能可能性的思考中。在1948年的报告中，图灵描述了一种“快乐一痛苦系统"的设计，它是根据效应定律运作的：

当达到没有预设动作的状态时，随机选择一些没有遇到过的数据，记录并试探性地应用这些数据。如果发生了痛苦刺激，停止所有动作试探。如果发生了愉悦刺激，则一直保持动作试探。

许多精巧的电子机械设备被制造出来演示试错学习。最早的应该是1933年由Thomas Ross制造的一台机器，它能够穿越迷宫且通过开关设置记住路线。在1951年，已经因为“机械乌龟"成名的W.Grey Walter又制造了能够简单学习的版本。1952年，Claude Shannon演示了一种名叫Theseus的迷宫老鼠，它利用试错法在迷宫中摸索，迷宫本身通过磁铁和继电器在地板上记录成功的路径。J.A.Deutsch描述了一个以他的类似于基于模型的强化学习的行为理论为基础的解迷宫机器。Marvin Minsky在他的博士论文中讨论了强化学习的计算方法，描述了他组装的一台基于模拟信号的机器，他称其为“随机神经模拟强化计算器"，SNARCs（Stochastic Neural-AnalogReinforcement Calculators）模拟可修改的大脑突触连接。

构建电子机械学习机器的努力逐渐让位于使用数字计算机通过编程来进行各种类型的机器学习，其中一些也实现了试错学习。Farley和Clark描述了一种通过试错学习的神经网络学习机器的数字化仿真程序。但他们的兴趣很快就从试错学习转向推广性和模式识别，即从强化学习转向有监督学习。这时这些学习类型之间的关系开始出现混乱。许多研究人员认为自己在研究强化学习，但其实是在研究有监督学习。例如，像Rosenblatt和Widrow及Hoff这样的神经网络先驱们显然是被强化学习所激励的。虽然他们使用了“收益”和“惩罚"这样的语言，但他们所研究的系统是有监督的学习系统，适用于模式识别和感知学习。即使在今天，一些研究人员和教科书也在最小化或模糊化这些不同类型的学习范式的区别。例如，一些神经网络教科书使用“试错"一词来描述从训练样本中学习的网络。这种混淆可以理解，因为这些网络就是使用误差信息来更新连接的权重的，但是这忽略了在试错学习中的行为选择的基本特征是基于评估性反馈的，而这些反馈不基于正确的行为应该是什么。

这些困惑在一定程度上，使得对真正的试错学习的研究在20世纪60和70年代变得十分罕见，尽管也有一些例外。在20世纪60年代，“强化"和“强化学习"两个术语在工程文献中首次被用于描述试错学习的工程用途。特别有影响力的是Minsky的论文《走向人工智能》，他在论文中讨论了几个关于试错学习的问题，包括预测、期望，以及他所称的“复杂强化学习系统中的基础性的功劳分配问题"：对于一项成功所涉及的许多项决策，你如何为每项决策分配功劳？我们在《深入理解强化学习》系列文章中讨论的所有方法在某种意义上都是为了解决这个问题。NIinsky的论文在今天也是值得一读的。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

深入理解强化学习——强化学习的历史：试错学习相关推荐

深度学习之路---从历史认识深度学习
学习任一门知识都应该先从其历史开始,把握了历史,也就抓住了现在与未来 ---by BryantLJ¶ 学习深度学习也需要了解深度学习的经历过程,能够更好的帮助我们理解深度学习的变更和趋势. 深度学习经 ...
增强学习/强化学习综述
@创建于:20210512 @修改于:20210512 文章目录 1.增强学习概念 2.1 增强学习定义 2.2 两大特点 2.简书:[阿阿阿阿毛](https://www.jianshu.com/u ...
【试错】——人类不断学习、进步的前提
[应试教育的死穴,恰在于堵死了孩子"犯错"的空间] .读完这篇文章,我和文章中提到的观点产生了强烈的共鸣感. 随着年龄的增长,我们的好奇心越来越小,我们的创新意识在不知不觉中已经消 ...
“强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
李杉编译自 KDnuggets 量子位出品 | 公众号 QbitAI 地处加拿大埃德蒙顿的阿尔伯塔大学(UAlberta)可谓是强化学习重镇,这项技术的缔造者之一萨顿(Rich Sutton)在这 ...
强化学习——强化学习概述
文章目录 1. 强化学习 2. 序列决策(Sequential decision making) 3. 动作空间 4. 智能体的组成和类型 4.1 策略问题:比较随机性策略和确定性策略的优缺点 4. ...
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introductio ...
从0开始强化学习——强化学习的简介和分类
目录写在前面一. 强化学习简介二. 强化学习分类写在后面写在前面最近一直在给老板打工,已经很久没有写过博文了,最近打算系统学习一遍强化学习,所以就开个新坑,和大家分享一下在学习过程中的收获 ...
深度学习|迁移学习|强化学习
1. 深度学习: 基于卷积神经网络的深度学习(包括CNN.RNN),主要解决的领域是图像.文本.语音,问题聚焦在分类.回归也就是我们经典的各种神经网络算法. 图1:深度学习适用领域图2:吴恩 ...
从多臂老虎机开始学习强化学习中的探索与利用
从多臂老虎机开始学习强化学习中的探索与利用 \quad 目录从多臂老虎机开始学习强化学习中的探索与利用多臂老虎机问题形式化描述估计期望奖励代码实现策略中的探索与利用 ϵ\epsilonϵ- ...
NIPS大会最精彩一日：AlphaZero遭受质疑；史上第一场正式辩论与LeCun激情抗辩；元学习强化学习亮点复盘...
机器之心原创机器之心海外部参与:Tony Peng.Alex Chen.Qintong Wu.之乎美国时间周四,NIPS 大会走完了日程的一半.工业界的众多公司搬东西撤出了展览会场,受邀演讲也全 ...

深入理解强化学习——强化学习的历史：试错学习

深入理解强化学习——强化学习的历史：试错学习相关推荐

最新文章

热门文章