2021春实习系列------西山居游戏

2021年3月多投了一些公司的实习，想增加一下自己的能力，下面整理一下当时的面试，希望给后面的人一些帮助。

本人本科学的控制，研究所主要方向是强化学习，所以主要是投递强化学习方向的岗位。

强化学习中主要在工业界的应用就说游戏，游戏AI的训练就投递了

西山居游戏「【校招】强化学习算法工程师」

下面是面试当时的问题不完全整理：

自我介绍
介绍AC算法
A2C, A3C做了哪些升级

A2C全称为优势动作评论算法(Advantage Actor Critic)；

A2C使用优势函数代替Critic网络中的原始回报，可以作为衡量选取动作值和所有动作平均值好坏的指标。

A3C全称为异步优势动作评价算法（Asynchronous advantage actor-critic

这里有个连接，写的很好，重要的博客关于AC算法的
A3C是on-policy还是off-policy算法的？二者有什么区别吗？
经验回访是怎么回事？为啥需要经验回访？
AC的优点在哪？缺点是？直接Actor的输出作为策略输出，有什么问题吗？

网上百度的：

缺点：（1）Actor的行为取决于 Critic 的Value，但是因为 Critic本身就很难收敛，和actor一起更新的话就更难收敛了。

（2）Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西
RL和DL的目标函数有什么区别吗？

个人见解：首先，RL的目标函数和DL的差距不是很大，因为DRL计算就是依托于DL来执行的，但是RL的目标函数是为了获取最优的策略所设置的，组成元素必然含有和策略相关的参数，而这些元素有些是通过分析智能体与环境交互的数据得到而不是提前设定好的，不像DL的目标函数有一部分是带‘标签’的数据提供的。
多臂老虎机问题
1. 多臂老虎机其实代表了RL学习中一个重要的问题：探索和利用的平衡问题
DDPG算法，分别介绍DDPG四个网络？
PPO算法？DDPG和PPO算法的联系是什么？
1. PPO和DDPG都基于AC框架的RL算法
  
  尽管PPO的算法学习效率比较高，但PPO算法所使用的策略还是随机策略。随机策略本身就存在一些难以逾越的问题，比如动作空间维数很大时，利用随机策略就需要采集很多样本才能对该策略进行评估。对于像机器人等动作空间维数很高的系统，随机策略并不是一个很好的选择。Silver等提出利用确定性策略代替随机策略
  
  DDPG也是解决连续控制型问题的的一个算法，不过和PPO不一样，PPO输出的是一个策略，也就是一个概率分布，而DDPG输出的直接是一个动作。
场景题 CS游戏？训练CS中玩家，定义action，state，reward如何设置？
1. 当时举了一个类似于CS的游戏
如何解决稀疏奖励问题？

数据方面——如何利用好已有数据，如何使用外部数据和信息；

模型方面——如何提高模型解决大状态空间大动作空间下复杂问题的能力。

1. 如何利用好已有数据

13.tensorflow用到多吗？模型保存为PD？pytorch的模型保存？

Tensorflow:

主要有两种：

（1）传统的使用ckpt模型，然后需要把网络模型整体框架重写一次；

（2）较高版本的tf，使用checkpoint，再使用meta文件，直接将训练好的图导入。

pytorch保存模型：

def save_model():

checkpoint = {

'model': dqn.eval_net.state_dict(), # if self.ngpu > 1 else self.model.state_dict(),

'optimizer_state_dict': dqn.optimizer.state_dict()

}

torch.save(checkpoint, 'dqn_model2.pth')

save_model()

2021春实习系列------西山居游戏相关推荐

【2023春招】西山居游戏研发岗笔试AK
120min,一共三道算法.两道填空.10道不定项选择算法题部分 T1-二叉树后序遍历题面一个节点数据为整数的二叉搜索树,它的遍历结果可以在内存中用一个整数数组来表示.比如,以下二叉树,它每个节 ...
2021网易游戏雷火2021春招游戏功能测试工程师笔试记录----春招补录
目录 2021网易游戏雷火2021春招游戏功能测试工程师笔试记录----春招补录单选题逻辑题问:最坏情况下,教授问到第几个学生,学生才知道自己头顶帽子的颜色? 2021网易游戏雷火2021春招 ...
学堂在线《Java程序设计（2021春）》系列笔记——前言
目录写在前面这个系列是什么为什么要做这篇博客我是谁(其实不重要) 其他写在前面这个系列是什么这是关于学堂在线<Java程序设计(2021春)>(清华大学-郑莉教授)的个人同步 ...
奢潮自信即刻拥有，KOREANO ESSENTIAL春夏系列上市
纵观2022春夏时装秀场,独立女性的精神与态度仍是设计师所要表达的关键.解锁潮流设计,推进创新思维迭变,时尚界开始重新审视其与生命价值的内在关联. 日前,国内知名高端服装品牌柯利亚诺KOREANO旗下 ...
衡水学院计算机实习,衡水学院教育实习系列报道之三
基层教育吹来清新的风 --衡水学院教育实习系列报道之三本报记者贾冽本报通讯员王金刚徐东明冀州市门庄乡堤北村是有名的文化村.为了传承历史,传播当地文化,他们在门庄中学建立了"堤 ...
从红魔7S系列看游戏手机的自驱进化
7月11日,红魔发布了红魔7S系列游戏旗舰手机,同时还推出了一整套端游专业外设装备及生态新品. 一.走向"专业"的游戏手机红魔7S系列发布会的主题是"满级魔王,稳帧制胜 ...
10.1418 西山居游戏客户端一面40分钟+二面1h
原帖在牛客,被封,不知道为什么.很无语,我只是记录过程而已,起码给个理由吧? 作者:BBBourne 链接:10.14&18 西山居游戏客户端一面40分钟+二面1h_笔经面经_牛客网来源 ...
游戏笔记本计算机购买,2021年4月｜游戏笔记本电脑选购，个人主观推荐
2021年4月|游戏笔记本电脑选购,个人主观推荐 2021-04-13 22:21:26 53点赞 226收藏 80评论创作立场声明:个人主观推荐,没有任何厂商的利益关系若你有比较喜欢的产品,欢迎 ...
视频教程-H5入门-系列手机游戏开发-过河-手游开发
H5入门-系列手机游戏开发-过河 20年软件项目开发管理经验工信部人才交流中心特聘专家讲师日本U-CAN在线教育特聘主任讲师国家十二·五规划软件工程教材作者(书:清华大学出版社出版) 中国软件行 ...

2021春实习系列------西山居游戏

西山居游戏「【校招】强化学习算法工程师」

2021春实习系列------西山居游戏相关推荐

最新文章

热门文章