强化学习概述

机器学习主要分为监督学习、非监督学习、强化学习。强化学习的训练样本没有标记,根据训练样本学习迭代获得最优策略,强化学习需要与环境不断地交互学习。

强化学习的基本原理是智能体从环境中接收一个状态s,通过动作a与环境进行交互,产生下一状态s'并获得一个回报。智能体与环境不断的交互,产生更多的数据(状态和回报),并利用新的数据进一步改善自身的行为。

强化学习以求解每个状态下的最优策略为目标。

智能体的组成

策略

 表示在某状态下,执行某行为的概率。

随机性策略:根据状态输出每个可能动作的概率(分布)。

确定性策略:输出一个动作。

值函数

值函数的估计根据给定策略进行。

回报:从t时刻开始所有衰减的汇报总和。

状态值函数:从状态s开始,遵循策略 所获得的期望回报。

行为值函数:从状态s开始,遵循策略执行动作a 所获得的期望回报。

模型

智能体对环境的一个建模。给定一个状态和行为,能够预测下一个状态和获得的回报。

研究方法

第一步:构建数学模型——马尔科夫决策模型

第二步:求解马尔可夫决策模型的最优解

重要概念

学习与规划

学习:智能体对环境模型未知,通过与环境的交互不断学习,采用试错法逐步改善策略。

规划:智能体对环境已知,根据已知的环境规划策略。

探索与利用

探索:智能体在某个状态下去尝试新的动作,以获得更多的环境信息。

利用:智能体根据已知信息,选取最优行为获得最大回报。

预测与控制

预测:在给定策略下获得状态值函数。

控制:寻找最优策略。

【学习笔记】强化学习1——强化学习概述相关推荐

  1. 基于MVS的三维重建算法学习笔记(一)— MVS三维重建概述与OpenMVS开源框架配置

    基于MVS的三维重建算法学习笔记(一)- MVS三维重建概述与OpenMVS开源框架配置 声明 1. MVS(Multi-view stereo)概述 稀疏重建与稠密重建的区别 稀疏重建--SFM(S ...

  2. 【人工智能学习笔记】人工智能里的数学——概述

    系列文章目录 [人工智能学习笔记]人工智能里的数学--概述 [人工智能里的数学]一元函数微分学 [人工智能里的数学]线性代数基础 [人工智能里的数学]多元函数微分学 前言 与软件开发相比,人工智能领域 ...

  3. Java入门学习笔记——郝斌(一)概述及面向对象

    Java入门学习笔记--郝斌 1.Java概述 java的起源和发展 java的特点 java的应用领域 java学习目标 环境变量的设置 为什么要设置path? path的设置 有关classpat ...

  4. AI Studio 飞桨 零基础入门深度学习笔记4-飞桨开源深度学习平台介绍

    AI Studio 飞桨 零基础入门深度学习笔记4-飞桨开源深度学习平台介绍 深度学习框架 深度学习框架优势 深度学习框架设计思路 飞桨开源深度学习平台 飞桨开源深度学习平台全景 框架和全流程工具 模 ...

  5. 深度学习笔记(18) 迁移学习

    深度学习笔记(18) 迁移学习 1. 迁移学习理念 2. 图像识别的迁移学习 3. 语音识别的迁移学习 4. 使用迁移学习的场合 1. 迁移学习理念 深度学习中最强大的理念之一就是: 神经网络可以从一 ...

  6. 深度学习笔记(1) 深度学习简介

    深度学习笔记(1) 深度学习简介 1. 引言 2. 神经网络 3. 兴起 1. 引言 在机器学习的历史上,一共出现了两种定义: 1956 年,开发了西洋跳棋 AI 程序的 Arthur Samuel ...

  7. 《南溪的目标检测学习笔记》——模型预处理的学习笔记

    1 介绍 在目标检测任务中,模型预处理分为两个步骤: 图像预处理:基于图像处理算法 数值预处理:基于机器学习理论 关于图像预处理,请参考<南溪的目标检测学习笔记>--图像预处理的学习笔记 ...

  8. 深入浅出图神经网络|GNN原理解析☄学习笔记(四)表示学习

    深入浅出图神经网络|GNN原理解析☄学习笔记(四)表示学习 文章目录 深入浅出图神经网络|GNN原理解析☄学习笔记(四)表示学习 表示学习 表示学习的意义 离散表示与分布式表示 端到端学习 基于重构损 ...

  9. homeassistant mysql_学习笔记 篇三:HomeAssistant学习笔记docker安装的ha更换数据库

    学习笔记 篇三:HomeAssistant学习笔记docker安装的ha更换数据库 2018-11-15 12:06:58 4点赞 18收藏 3评论 是返乡过年?还是就地过年?最新一届#双面过节指南# ...

  10. 《Java学习笔记(第8版)》学习指导

    <Java学习笔记(第8版)>学习指导 目录 图书简况 学习指导 第一章 Java平台概论 第二章 从JDK到IDE 第三章 基础语法 第四章 认识对象 第五章 对象封装 第六章 继承与多 ...

最新文章

  1. ios 底部用定位 fixed。在软件盘出来后,页面元素被顶上去一部分,fixed定位的footer也跑到了上面去。解决方法...
  2. 吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习
  3. 你可能不知道的Docker资源限制
  4. android 浏览器 div穿透,解决IE 上重叠div 对 mouseover 事件的穿透方法之一
  5. 在保护继承中基类的共有成员_C#初学者教程系列11:继承
  6. CORS error 状态码451
  7. selenium启动 IE11方法
  8. MySQL(14)--- WHERE 子句
  9. JavaScript-在当前显示区范围内实现点不到的小方块
  10. 允许外部访问Windows本机的指定端口
  11. python爬虫怎么爬同一个网站的多页数据-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...
  12. css preserve-3d 使用
  13. 秒建炫酷的开源项目文档,这款神器用起来够优雅
  14. java实现 蓝桥杯 算法训练 操作格子
  15. 第十二天学习内容 综合应用 推箱子和对战游戏
  16. 疫情最大赢家现身,不是疫苗公司,是集装箱!
  17. http笔记整理:代理服务
  18. C++ 利用 windbg + dump + map + cod 文件分析 crash 原因
  19. js加密大全(防止客户端查看自己的js文件)
  20. 7-14 然后是几点(C语言)

热门文章

  1. 从社恐到社牛,多亏了这款私人学习成长暗器
  2. [SSTF 2022] 三星安全论坛的小比赛错过了
  3. 第四章:Unix时间
  4. Simulink代码生成: 调用Matlab函数
  5. FPGA差分转单端,单端转差分 IBUFDS OBUFDS BUFG
  6. web 开发里 SSR,CSR 和 SSG 的区别
  7. 好中层的八个标准:如何成为一名优秀的管理者
  8. 中通科技代码覆盖率应用实践(一)
  9. 深度学习 手写字体识别
  10. github 如何下载代码