2021年3月多投了一些公司的实习,想增加一下自己的能力,下面整理一下当时的面试,希望给后面的人一些帮助。

本人本科学的控制,研究所主要方向是强化学习,所以主要是投递强化学习方向的岗位。

强化学习中主要在工业界的应用就说游戏,游戏AI的训练就投递了

西山居游戏「【校招】强化学习算法工程师」

下面是面试当时的问题不完全整理:

  1. 自我介绍
  2. 介绍AC算法
  3. A2C, A3C做了哪些升级

    A2C全称为优势动作评论算法(Advantage Actor Critic);

    A2C使用优势函数代替Critic网络中的原始回报,可以作为衡量选取动作值和所有动作平均值好坏的指标。

    A3C全称为异步优势动作评价算法(Asynchronous advantage actor-critic

    这里有个连接,写的很好,重要的博客关于AC算法的

  4. A3C是on-policy还是off-policy算法的?二者有什么区别吗?
  5. 经验回访是怎么回事?为啥需要经验回访?
  6. AC的优点在哪?缺点是?直接Actor的输出作为策略输出,有什么问题吗?

    网上百度的:

    缺点:(1)Actor的行为取决于 Critic 的Value,但是因为 Critic本身就很难收敛,和actor一起更新的话就更难收敛了。

    (2)Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西

  7. RL和DL的目标函数有什么区别吗?

    个人见解:首先,RL的目标函数和DL的差距不是很大,因为DRL计算就是依托于DL来执行的,但是RL的目标函数是为了获取最优的策略所设置的,组成元素必然含有和策略相关的参数,而这些元素有些是通过分析智能体与环境交互的数据得到而不是提前设定好的,不像DL的目标函数有一部分是带‘标签’的数据提供的。

  8. 多臂老虎机问题
    1. 多臂老虎机其实代表了RL学习中一个重要的问题:探索和利用的平衡问题
  9. DDPG算法,分别介绍DDPG四个网络?

  10. PPO算法?DDPG和PPO算法的联系是什么?

    1. PPO和DDPG都基于AC框架的RL算法

      尽管PPO的算法学习效率比较高,但PPO算法所使用的策略还是随机策略。随机策略本身就存在一些难以逾越的问题,比如动作空间维数很大时,利用随机策略就需要采集很多样本才能对该策略进行评估。对于像机器人等动作空间维数很高的系统,随机策略并不是一个很好的选择。Silver等提出利用确定性策略代替随机策略

      DDPG也是解决连续控制型问题的的一个算法,不过和PPO不一样,PPO输出的是一个策略,也就是一个概率分布,而DDPG输出的直接是一个动作。

  11. 场景题 CS游戏?训练CS中玩家,定义action,state,reward如何设置?

    1. 当时举了一个类似于CS的游戏

  12. 如何解决稀疏奖励问题?

数据方面——如何利用好已有数据,如何使用外部数据和信息;

模型方面——如何提高模型解决大状态空间大动作空间下复杂问题的能力。

1. 如何利用好已有数据    

13.tensorflow用到多吗?模型保存为PD?pytorch的模型保存?

Tensorflow:

主要有两种:

(1)传统的使用ckpt模型,然后需要把网络模型整体框架重写一次;

(2)较高版本的tf,使用checkpoint,再使用meta文件,直接将训练好的图导入。

pytorch保存模型:

def save_model():

checkpoint = {

'model': dqn.eval_net.state_dict(), # if self.ngpu > 1 else self.model.state_dict(),

'optimizer_state_dict': dqn.optimizer.state_dict()

}

torch.save(checkpoint, 'dqn_model2.pth')

save_model()

2021春实习系列------西山居游戏相关推荐

  1. 【2023春招】西山居游戏研发岗笔试AK

    120min,一共三道算法.两道填空.10道不定项选择 算法题部分 T1-二叉树后序遍历 题面 一个节点数据为整数的二叉搜索树,它的遍历结果可以在内存中用一个整数数组来表示.比如,以下二叉树,它每个节 ...

  2. 2021网易游戏雷火2021春招游戏功能测试工程师 笔试记录----春招补录

    目录 2021网易游戏雷火2021春招游戏功能测试工程师 笔试记录----春招补录 单选题 逻辑题 问:最坏情况下,教授问到第几个学生,学生才知道自己头顶帽子的颜色? 2021网易游戏雷火2021春招 ...

  3. 学堂在线《Java程序设计(2021春)》系列笔记——前言

    目录 写在前面 这个系列是什么 为什么要做这篇博客 我是谁(其实不重要) 其他 写在前面 这个系列是什么 这是关于学堂在线<Java程序设计(2021春)>(清华大学-郑莉教授)的个人同步 ...

  4. 奢潮自信即刻拥有,KOREANO ESSENTIAL春夏系列上市

    纵观2022春夏时装秀场,独立女性的精神与态度仍是设计师所要表达的关键.解锁潮流设计,推进创新思维迭变,时尚界开始重新审视其与生命价值的内在关联. 日前,国内知名高端服装品牌柯利亚诺KOREANO旗下 ...

  5. 衡水学院计算机实习,衡水学院教育实习系列报道之三

    基层教育吹来清新的风 --衡水学院教育实习系列报道之三 本报记者 贾冽   本报通讯员 王金刚 徐东明 冀州市门庄乡堤北村是有名的文化村.为了传承历史,传播当地文化,他们在门庄中学建立了"堤 ...

  6. 从红魔7S系列看游戏手机的自驱进化

    7月11日,红魔发布了红魔7S系列游戏旗舰手机,同时还推出了一整套端游专业外设装备及生态新品. 一.走向"专业"的游戏手机 红魔7S系列发布会的主题是"满级魔王,稳帧制胜 ...

  7. 10.1418 西山居 游戏客户端 一面40分钟+二面1h

    原帖在牛客,被封,不知道为什么.很无语,我只是记录过程而已,起码给个理由吧? 作者:BBBourne 链接:10.14&18 西山居 游戏客户端 一面40分钟+二面1h_笔经面经_牛客网 来源 ...

  8. 游戏笔记本计算机购买,2021年4月|游戏笔记本电脑选购,个人主观推荐

    2021年4月|游戏笔记本电脑选购,个人主观推荐 2021-04-13 22:21:26 53点赞 226收藏 80评论 创作立场声明:个人主观推荐,没有任何厂商的利益关系 若你有比较喜欢的产品,欢迎 ...

  9. 视频教程-H5入门-系列手机游戏开发-过河-手游开发

    H5入门-系列手机游戏开发-过河 20年软件项目开发管理经验 工信部人才交流中心特聘专家讲师 日本U-CAN在线教育特聘主任讲师 国家十二·五规划软件工程教材作者(书:清华大学出版社出版) 中国软件行 ...

最新文章

  1. advanced installer更换程序id_浅谈更换调频发射机EEPROM的方法和步骤
  2. caffe学习笔记19-batchsize参数
  3. pthread_exit()
  4. jsp+java bean+mysql数据库进行分页显示
  5. 限制Nagios报警次数
  6. 基于android对接百度地图搜索附近关键字列表展示并调用第三方地图应用打开导航(百度地图、高德地图)
  7. Project file is incomplete. Expected imports are missing 错误解决方案
  8. 【解决方案】钉钉直播课堂挂机被点到名字怎么办
  9. UI自动化---Wechat批量表情包轰炸
  10. 游戏开发者如何有效的编写游戏策划文档
  11. 科技品牌软文营销怎么讲故事
  12. getch()函数怎么用
  13. CUDA安装时提示:The following process must be stopped before the CUDA Visual Studio Integrated
  14. 揭秘数据可视化工具的研究现状
  15. 淘宝开店怎么做运营?
  16. 使用chrome调试手机,平板,pc上各种浏览器上的页面
  17. 【搞定工作】一大波高薪工作机会拍了拍你
  18. 【ASCII如何理解?】
  19. 再保险系统涉及的概念
  20. 一名优秀的UI设计师应该具备哪些条件?

热门文章

  1. 使用深度学习识别webshell
  2. SecureCRT的使用教程
  3. 1.(2)数据结构之链表的定义,链表和数组的区别
  4. 【转载】只用 CSS 就能做到的像素画/像素动画
  5. 修图必备 | 一款极简设计的APP,堪称摄影爱好者的福音
  6. QLExpress 系列入门教程-04-QLExpress 绑定java类或者对象的method
  7. C++常用库之网络库
  8. 对什么都不感兴趣,怎么办?
  9. requests使用re爬取腾讯体育新闻
  10. 制作Android手机开机动画的详细过程