环境选项:
--scenario: MPE 中的环境 (默认: "simple")
--max-episode-len 环境的每个周期的长度 (默认: 25)
--num-episodes 训练周期总数 (默认: 60000)
--num-adversaries: 环境中的 adversary 数量 (默认: 0)
--good-policy: 环境中 good policy 算法 (默认: "maddpg"; 选项: {"maddpg", "ddpg"})
--adv-policy: 环境中 adversary policy 算法 (默认: "maddpg"; 选项: {"maddpg", "ddpg"})核心训练参数:
--lr: 学习速率 (默认: 1e-2)
--gamma: 损失因子 (discount factor) (默认: 0.95)
--batch-size: Batch 大小 (默认: 1024)
--num-units: 多层神经网络层数 (默认: 64)保存
--exp-name: 实验的名称,用以保存结果。 (默认: None)
--save-dir: 保存训练结果和模型的位置 (默认: "/tmp/policy/")
--save-rate: 模型将会以这个周期频率进行保存 (默认: 1000)
--load-dir: 载入训练结果和模型的位置 (默认: "")评估
--restore: 恢复在load-dir的训练结果, 并且继续训练 (默认: False)
--display: 展示训练结果, 但不继续训练 (默认: False)
--benchmark: 对训练结果进行基准评估, 保存结果到 benchmark-dir 文件夹 (默认: False)
--benchmark-iters: 执行基准评估的训练周期 (默认: 100000)
--benchmark-dir: 存放基准数据的目录 (默认: "./benchmark_files/")
--plots-dir: 存放训练曲线的目录 (默认: "./learning_curves/")

1、首先需要在experiments下自建learning_curves和benchmark_files文件夹,否则会报错或者模型数据无法保存;文件名也可以更改为exp1等
(项目目录:E:\PycharmProjects\pythonProject\maddpg-master
(1)E:\tmp\policy :保存了训练结果和模型
(2)项目/experiments/learning_curves:保存了训练曲线
(3)项目/experiments/benchmark_files:保存了对训练结果进行评估

2、训练

python train.py --scenario simple_world_comm --num-episodes 60000 --exp-name exp1
或
在文件中直接更改参数,然后run .py(display,restore,benchmark训练时要为False,否则会读取以前的训练数据,继续训练可以用restore)

继续训练:

python train.py --scenario simple_world_comm --restore --num-episodes 60000
或
在文件中直接更改参数



3、评估

python train.py --scenario simple_world_comm --benchmark
或
在文件中直接更改参数benchmark  default = True


4、可视化结果

python train.py --scenario simple_world_comm --display
或
在文件中直接更改参数display default = True

5、显示训练曲线
后续。。

【OpenAI-Maddpg】训练运行相关推荐

  1. Yolov5学习全过程:训练+运行+c#部署(无理论全实操)

    Yolov5学习全过程:训练+运行+c#部署(无理论全实操) 1.Yolov5 理论介绍 2.Yolov5下载地址 3.Yolov5使用方法 4.制作训练样本 4.1 labelImg 下载 4.2 ...

  2. 北大校友“炼丹”分享:OpenAI如何训练千亿级模型?

    转载自:AI科技评论  |  编译:琰琰 大规模深度神经网络训练仍是一项艰巨的挑战,因为动辄百亿.千亿参数量的语言模型,需要更多的 GPU 内存和时间周期.这篇文章从如何多GPU训练大模型的角度,回顾 ...

  3. OWOD训练运行教程

    Towards Open World Object Detection的训练 代码地址:https://github.com/JosephKJ/OWODhttps://github.com/Josep ...

  4. (四)训练运行Deep CycleGAN以进行移动风格迁移

    目录 介绍 训练周期GAN 评估CycleGAN 季节更替CycleGAN 下一步 下载项目代码 - 7.2 MB 介绍 在本系列文章中,我们将展示一个基于循环一致对抗网络(CycleGAN)的移动图 ...

  5. PaddleOCR——CUDA9.0环境中训练运行错误【Cudnn error, CUDNN_STATUS_BAD_PARAM】解决方案

    解决方案 将cudnn换成7.6.5版本 https://developer.nvidia.com/rdp/cudnn-archive 参考文章 https://github.com/PaddlePa ...

  6. OpenAI 研究员最新博客:如何在多GPU上训练真正的大模型?

    [专栏:前沿进展]近年来,在大规模预训练语言模型的帮助下,许多NLP模型在基准测试任务中取得了更好的结果.如何训练大而深的神经网络是一个挑战,需要大量的GPU内存和很长的训练时间.本文回顾了几种流行的 ...

  7. OpenAI披露最新研究成果:AI训练如何扩展到更大规模?

    我们发现,梯度噪声尺度(gradient noise scale),作为一种简单的统计量,可以预测神经网络训练在诸多任务上的并行性.由于复杂的任务往往具有更强噪声的梯度,因此增长的大批次规模可能在未来 ...

  8. OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年

    今天凌晨,OpenAI通过官方博客宣布了其在Dota对抗上的新进展--由五个神经网络组成的团战AI团队,在5v5中击败了业余人类玩家,并表示,将有望挑战顶级专业团队. 打Dota乍一听可能没什么了不起 ...

  9. 多智能体深度强化学习 # MADDPG

    前置基础: DDPG 多智能体深度强化学习 # 多智能体深度强化学习基础 Multi-Agent:多智能体 Deep:与DQN类似,使用目标网络+经验回放 Deterministic:直接输出确定性的 ...

最新文章

  1. linux进程间通信:POSIX 消息队列
  2. 学习C语言的理由-别问我为什么,会用C语言,就是NB
  3. Android Service(7)--完结篇
  4. pt-online-schema-change 在线修改表结构
  5. vla点转为lisp点_A股大涨53.70点,收复3400点,下周会继续大反弹吗?
  6. 宁波大学2020计算机技术复试线,宁波大学关于公布2020年硕士研究生复试分数线的通知...
  7. Python可视化工具Matplotlib 3.0版出炉,改进默认后端选择,饼图终于变圆了
  8. eclipse在线安装ivy和ivyde
  9. 03月11日单应矩阵与鸟瞰图IPM变换
  10. 【毕设论文——必修篇】论文撰写-宝藏工具网址
  11. 安卓4.X的桌面启动器-尖端启动器APEX
  12. VeryCD将于本月关闭 P2P历史即将终结
  13. 软件工程实训有必要吗_软件工程实训总结
  14. 第二篇 第三章防火防烟分区检查(一)
  15. Oracle的全文检索
  16. web安全入门(第七章-1)文件上传漏洞--解析、验证、伪造
  17. 计算机怎么查文件打印记录表,win10系统查看打印机打印历史记录的设置教程
  18. URL 重写模块导致 IIS7 应用程序池自动关闭
  19. C++对高维vector数组排序 sort()函数第三个参数自定义
  20. 模拟手机号码抽奖活动

热门文章

  1. python的两种计时方式
  2. 2021暑假集训总结
  3. Snagit安装步骤
  4. Hadoop 配置文件介绍
  5. 在桌面上添加或删除计算机网络等图标,如何在Windows 10中添加或删除默认桌面图标...
  6. MATLAB时间计算
  7. 获取数据库的sql语句
  8. 短线外汇交易怎样获利?需要什么技巧?
  9. PPOS详情页布局加载和优化
  10. swft入门学习番外篇-创建项目