人工智能学习笔记(一)Agent
智能agent
- 开篇前言
- agent的分类
- 1、简单反射agent
- 2、基于状态的反射agent
- 3、基于目标的agent
- 4、基于效用的agent
- 5、学习agent
- Exploration vs Exploitation
开篇前言
这段时间找工作,发现自己太菜了,一直刷题也刷不动,索性总结一下以前学习的课程。在外留学的这两年学了好多东西,无奈总不用都忘记了。所以我决定开始写博客,整理一下以前的学习资料,感觉好多东西不看都忘记了,学费挺贵的,我不能把知识还给老师。本系列博文覆盖内容为search,KRR和planning,教材为人工智能:一种现代的方法(第三版)。笔记中也会记录老师引申出的一些内容,原书中是没有的。作者水平有限,希望大家多多指点。这篇文章的内容在书上第二章。(PS:去年年中出了第四版,不过是英文的,1800一本好贵呀,买不起ค(TㅅT)ค)
agent的分类
1、简单反射agent
简单反射agent是最简单的agent,这类agent仅仅基于当前的感知来做决定。
2、基于状态的反射agent
这种agent的内部状态可以跟踪环境中不可见的相关方面,环境模型描述环境如何工作(环境状态如何受到动作的影响。
3、基于目标的agent
目标用于描述理想的情况。此时,agent结合目标和环境模型来选择行动。planning 和 search是人工智能子领域中致力于建立基于目标的agent。(PS:planning挺难的,当时我就没学会)
4、基于效用的agent
效用函数的出现使得agent将性能度量内部化。在一些不确定的情况下,agent会选择那些能让期望效用最大化的动作。
(PS:最近朋友圈里火了的那个自杀狼就是因为效用问题导致的狼的自杀。狼吃羊加10分,狼撞到障碍物扣1分。为了鼓励狼吃羊,每过1秒减0.1分。这导致了狼抓到羊也可能会是负分,可能不如直接撞死的好。我们可以把羊的分数按照时间递减,这样应该不会出现狼自杀的情况)
5、学习agent
动作选择元件跟上面讲的agent一样,跟前面的agent不一样的是学习agent多了学习元件。学习元件使用评判元件的反馈来修改动作的选择。学习agent中的问题生成器负责得到新的和有信息的经验的行动提议。
Exploration vs Exploitation
为什么我要写这一段东西那?这是因为学习agent其实是有一个基本原则困境的。那就是探索和利用(这个是我自己翻译的,第三版书上还没有这部分)。首先我们来看一下这两个词的定义。
- Exploration: 采取其他(可能是随机的)行动来了解更多内容,希望找到比目前已知的内容更好的内容。
- Exploitation: 为了有最好的结果,agent根据当前的知识,贪婪的使用已经学会的东西去做选择。
这就是学习agent面临的困境。如果我们只为了最好的结果,一味的在每一步追求最优解,最终agent可能会被困在次优解。(比如贪心算法,总是选当前的最优解,可能最终得不到最优解,不过大部分时候贪心算法得到的结果都不错)所以agent必须进行探索以避免卡在次优行为。但是探索是有成本的,如何平衡exploration和exploitation是一个问题。通常情况下,我们建议agent在早期阶段的探索多余后期。(大家可以看看模拟退火算法).。
人工智能学习笔记(一)Agent相关推荐
- 人工智能学习笔记----05
人工智能学习笔记----05 文章目录 人工智能学习笔记----05 数据理解 一.数据导入 csv文件介绍 二.数据的维度 三.数据可视化 四.数据预处理 五.选定数据的特征 数据理解 一.数据导入 ...
- 【人工智能学习笔记】人工智能里的数学——概述
系列文章目录 [人工智能学习笔记]人工智能里的数学--概述 [人工智能里的数学]一元函数微分学 [人工智能里的数学]线性代数基础 [人工智能里的数学]多元函数微分学 前言 与软件开发相比,人工智能领域 ...
- 【人工智能学习笔记】初识人工智能
文章目录 前言 一.人工智能的定义 二.人工智能的应用 1.计算机视觉技术 2.自然语言处理 3.其他具体应用举例 三.AI算法工程师主要工作流程 四.人工智能的基本概念 机器学习 有监督学习 VS ...
- python人工智能学习笔记_[Python] 人工智能与自然语言处理学习笔记(1)
最近我参加了一个人工智能与自然语言处理的课程,这是第一周的学习笔记.这份笔记不涉及一般知识,全部都是与实践(我在这门课上的作业)有关的总结. 文章目录理论学习人工智能的五种模型:作业1. Rule B ...
- agent与搜索(人工智能学习笔记)
版权声明:转载请注明出处 https://blog.csdn.net/qq_37205708/article/details/86556326 </div><link rel=&qu ...
- 人工智能学习笔记:基本遗传算法及其改进算法
文章目录 1 引言 2 基本思想及发展历史 3 基本遗传算法详细步骤 3.1 编码 3.2 初始群体设定 3.3 设计适应度函数 3.4 遗传操作 3.4.1 选择 3.4.2 交叉 3.4.3 变异 ...
- 人工智能学习笔记(三)有信息搜索
问题求解agent 背景介绍 一.问题描述 二.A星算法和启发式函数(heuristic function) 三.可采纳性和一致性 1.可采纳性(admissible) 2.一致性(consisten ...
- 区块链多方计算 人工智能学习笔记
区块链:让数据不被篡改,但需要复制数据给每一块,造成数据泄露 多方计算 : 让数据用途可控.数控可用但不可见. 人工智能:数据更难造假 主讲人简介: 徐葳,宾夕法尼亚大学学士(在清华本科学习两年),美 ...
- 人工智能学习笔记20221008
1. AI:试图理解与创造智能实体 2. 1956年创造了"人工智能"这个名词本身 3.图灵测试(Turing Test, 1950):为智能提出一个令人满意的可操作的定义.如果一 ...
最新文章
- SPOJ AMR10I Dividing Stones --DFS
- AI虚拟偶像:知识图谱赋予AI“生命感”
- libjpeg编译使用详解
- 框架:mybatis的缓存机制
- C实现的一个简单的学生成绩管理系统
- 北理工爬虫课程学习记录
- python中的常见的列表操作及注意事项
- html暂停计时器,JS实现可暂停秒表计时器效果的方法
- 启航篇——四旋翼飞行器之入坑两年心路历程和毕设总结
- 数据结构专题(二):2.3链表插入元素,尾插法
- 随想录(谈谈软件架构)
- socket与http的区别
- 5个最佳网络安全监控工具、 你知道哪些
- 北京亚控笔试题目(2014年10月9日)
- 数据库问题——合并表格
- MATLAB的画家之旅
- 查看检测排名各网站的网站
- 【NETGEAR网件】WNDR3700V4 或 WNDR4300 刷OpenWrt及恢复(刷回)
- 什么是宏任务与微任务?
- 山东科技大学oj 货币转换