《深度强化学习》面试题汇总
原文出处:
[1] 腾讯云.《深度强化学习》面试题汇总
[2] Reinforcement Learning遇到的一些强化学习面试问题
[3] 知乎.再励学习面试真题
深度强化学习报道
来源:Blog(AemaH,苏克)
编辑:DeepRL
不知不觉中求职季已经进行了很长时间,算法岗位的招聘可以说是非常火爆,但目前强化学习的面试题目相对来说比较少,本文整理了大约50多道题目,仅供大家自测,也欢迎总结和贡献答案!
什么是强化学习?
强化学习和监督学习、无监督学习的区别是什么?
强化学习适合解决什么样子的问题?
强化学习的损失函数(loss function)是什么?和深度学习的损失函数有何关系?
POMDP是什么?马尔科夫过程是什么?马尔科夫决策过程是什么?里面的“马尔科夫”体现了什么性质?
贝尔曼方程的具体数学表达式是什么?
最优值函数和最优策略为什么等价?
值迭代和策略迭代的区别?
如果不满足马尔科夫性怎么办?当前时刻的状态和它之前很多很多个状态都有关之间关系?
求解马尔科夫决策过程都有哪些方法?有模型用什么方法?动态规划是怎么回事?
简述动态规划(DP)算法?
简述蒙特卡罗估计值函数(MC)算法。
简述时间差分(TD)算法。
简述动态规划、蒙特卡洛和时间差分的对比(共同点和不同点)
MC和TD分别是无偏估计吗?
MC、TD谁的方差大,为什么?
简述on-policy和off-policy的区别
简述Q-Learning,写出其Q(s,a)更新公式。它是on-policy还是off-policy,为什么?
写出用第n步的值函数更新当前值函数的公式(1-step,2-step,n-step的意思)。当n的取值变大时,期望和方差分别变大、变小?
TD(λ)方法:当λ=0时实际上与哪种方法等价,λ=1呢?
写出蒙特卡洛、TD和TD(λ)这三种方法更新值函数的公式?
value-based和policy-based的区别是什么?
DQN的两个关键trick分别是什么?
阐述目标网络和experience replay的作用?
手工推导策略梯度过程?
描述随机策略和确定性策略的特点?
不打破数据相关性,神经网络的训练效果为什么就不好?
画出DQN玩Flappy Bird的流程图。在这个游戏中,状态是什么,状态是怎么转移的?奖赏函数如何设计,有没有奖赏延迟问题?
DQN都有哪些变种?引入状态奖励的是哪种?
简述double DQN原理?
策略梯度方法中基线baseline如何确定?
什么是DDPG,并画出DDPG框架结构图?
Actor-Critic两者的区别是什么?
actor-critic框架中的critic起了什么作用?
DDPG是on-policy还是off-policy,为什么?
是否了解过D4PG算法?简述其过程
简述A3C算法?A3C是on-policy还是off-policy,为什么?
A3C算法是如何异步更新的?是否能够阐述GA3C和A3C的区别?
简述A3C的优势函数?
什么是重要性采样?
为什么TRPO能保证新策略的回报函数单调不减?
TRPO是如何通过优化方法使每个局部点找到让损失函数非增的最优步长来解决学习率的问题;
如何理解利用平均KL散度代替最大KL散度?
简述PPO算法?与TRPO算法有何关系?
简述DPPO和PPO的关系?
强化学习如何用在推荐系统中?
推荐场景中奖赏函数如何设计?
场景中状态是什么,当前状态怎么转移到下一状态?
自动驾驶和机器人的场景如何建模成强化学习问题?MDP各元素对应真实场景中的哪些变量?
强化学习需要大量数据,如何生成或采集到这些数据?
是否用某种DRL算法玩过Torcs游戏?具体怎么解决?
是否了解过奖励函数的设置(reward shaping)?
本文同时将题目同步在Github,欢迎各位pull request最优秀的答案!文末会一一致谢各位贡献者,也欢迎大家群内讨论!
https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md
致谢:本文(下两链接)参考AemaH和苏克博客整理而来,在此表示感谢!
https://zhuanlan.zhihu.com/p/33133828
https://aemah.github.io/2018/11/07/RL_interview/
深度强化学习实验室
算法、框架、资料、前沿信息等
GitHub仓库
https://github.com/NeuronDance/DeepRL
《深度强化学习》面试题汇总相关推荐
- 必看!52篇深度强化学习收录论文汇总 | AAAI 2020
所有参与投票的 CSDN 用户都参加抽奖活动 群内公布奖项,还有更多福利赠送 来源 | 深度强化学习实验室(ID:Deep-RL) 作者 | DeepRL AAAI 2020 共收到的有效论文投稿超过 ...
- 【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 来源:深度强化学习实验室 作者:王健树 [导读]今天给大家推荐一个超赞的强化学习项目资料,该项目 ...
- AAAI-2020 || 52篇深度强化学习accept论文汇总
深度强化学习实验室报道 来源:AAAI-2020 作者:DeepRL AAAI 2020 共收到的有效论文投稿超过 8800 篇,其中 7737 篇论文进入评审环节,最终收录数量为 1591 篇,收录 ...
- 【重磅整理】提前看287篇ICLR-2021 深度强化学习领域论文得分汇总列表
深度强化学习实验室 来源:ICLR2021 编辑:DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S ...
- 【原创】强化学习精选资料汇总:从入门到精通,看完这些干货就够啦!
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要8分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家整理了公众号之前发过的一系列强化学习资料和学习手册,包括:强化学习视频课程.经 ...
- 【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 一.关于FinRL 目前,深度 ...
- 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论 作者 | 陈彩娴 深度强 ...
- 【喜报】“深度强化学习实验室”战略合作伙伴”南栖仙策“完成Pre-A轮融资,高瓴创投领投
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 3月10日,南栖仙策宣布获总额数千万元的Pre-A ...
- 【招聘推荐】启元世界招聘深度强化学习算法工程师
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑.排版:DeepRL 深度强化学习算法工程师 ...
- 【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)...
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 人们普遍认为,将传统强化学习与深度神经网络相结合的 ...
最新文章
- 目标定位--Deep Self-Taught Learning for Weakly Supervised Object Localization
- linux下安装php的imagick扩展模块(附php升级脚本)
- 【学习】Android开入门教程
- acquisition calculation
- element ui分页怎么做_element ui里面table分页,页数从0开始的怎么做?
- update table with temprary table
- LDAP命令介绍---dstune
- 机器学习基础笔记总结
- 三个具有代表性的STL函数
- 360Stack裸金属服务器部署实践
- SwiftGen管理UIImage等的String-based接口
- 游戏用计算机配置表显卡,5000元电脑配置9代i5配GTX1660TI显卡配置清单(可装Win7)...
- Dynamic Clock in Terminal.
- [Linux学习]更改默认启动图形界面或命令行
- 免费分享全套java学习资料
- STM32嵌入式基础开发07-使用PS2手柄遥控麦克纳姆轮小车(7_PS2_Veh)
- 没经验能做seo专员吗
- shell编程中空格的使用
- Windows无法连接到打印机怎么办?快收藏这些正确做法!
- Git:git-pull 的用法总结
热门文章
- Echarts中treemap实现知识地图的逐层展开
- 交换机笔记3-3.1
- 成套设备企业ERP系统哪个好?好用的成套设备企业ERP推荐
- 大数据基础知识科普(2)
- origin 气泡和颜色映射图
- 排序算法--快速排序(QuickSort)、 3区快速排序(3 Way QuickSort)原理、适用场景及代码示例
- Python那么火,想送些资料给你
- 22 行 JS 黑掉英国航空,38 万乘客受害;公有云被频繁用于 DDoS 攻击
- python安装扩展库常用_树Python安装扩展库常用的是()工具
- JavaScript面试题看这一篇就够了,简单全面一发入魂(持续更新 step2)