目录

  • 一、文章概述
  • 二、系统目标
  • 三、应用场景
  • 四、算法架构
    • 1.微基站处----DQN
    • 2.宏基站处---Actor-Critic
  • 五、伪代码
  • 六、算法流程图
  • 七、性能表征
    • 1.收敛时间
    • 2.信道总容量

本文是对论文《Deep Reinforcement Learning for Multi-Agent Power Control in Heterogeneous Networks》的分析,第一作者为北京邮电大学Lin Zhang

一、文章概述

本篇文章的主要内容是:在异构网络条件下使用强化学习(包括DQN和AC)算法对各个基站的功率进行控制,最终达到信道容量最大化的目的。我个人觉得这篇文章的内容很饱满,可以认为是强化学习在功率控制领域(干扰管理)应用的集大成者。

二、系统目标


与常见功率控制系统目标相同,作者所提出的算法目的是使得信道容量总和最大化。

系统的SINR定义如上式所示。

三、应用场景


作者的算法应用于如图所示的异构网络场景下,包含一个宏基站和四个微基站。宏基站的坐标为(0,0),覆盖半径为[10,1000]。微基站的坐标分别为与宏基站的距离是500米,坐标分别为(500,0)、(-500,0)、(0,500)、(0,-500),覆盖半径为[10,200]。宏基站的发送功率为30dB,微基站的发送功率为23dB,传输的路径损耗定义为120.9 +37.6 log 10(d),距离d以千米为单位。

四、算法架构

1.微基站处----DQN


每一个微基站处的强化学习模型为DQN,以基站的七中可能状态作为输入,最终的发送功率值作为输出,其环境的奖励为计算后所得到的局部信道容量值,目的是尽可能的提升局部信道容量,达到全局信道容量最大化的目的。值得注意的是,微基站处只进行网络的前向传播,其参数由顶层AC网络下发。

具体而言,每一个局部网络共有五层。第一层是微基站的七种状态,对应七个神经元。第二、三两层是具有一百个神经元的全连接层。第四层只有一个神经元,对应的激活函数为sigmod,用于把神经网络的输出转换到0-1之间。第五层也只有一个神经元,是将0-1之间的输出线性放大到0-Pmax。

2.宏基站处—Actor-Critic


宏基站处建立与微基站结构相同的DQN网络,作为AC算法的actor部分。其更新方法要点包括DQN中的:(1)网络模型固定(2)经验回放。作为顶层网络,actor部分收集local处积累的经验(状态转换_功率变化对应关系)优化自身,目的是局部功率输出最大。并将计算所得的θ参数实时下发,在实际的local模型中应用并不断积累经验值。
宏基站处同时建立一个共享的评估网络,作为AC算法Critic部分。Critic统筹全局的网络模型,以所有网络动作-状态以及全局CSI等信息作为输入,系统的信道容量总和作为输出,对于局部DQN网络做出指导,在原有DQN输出基础上调节其更新的幅度,使得模型从各个局部最优趋向于全局最优。


具体而言,对于Critic网络,以全局S的状态和动作作为输入,经过全连接层传递后各生成200个神经元,作为动作-状态混合网络的第一层。混合网络的第二层有200个神经元,激活函数为relu。最后一层以全局信道容量和作为输出。

五、伪代码

六、算法流程图


0时刻开始,微基站使用随机功率控制策略,向宏基站发送经验累积信息
Td时刻开始,local经验第一次到达,actor网络对其进行存储。
Td+D时刻开始,宏基站积累的经验达到训练的最小批次,开始进行网络的训练。
Td+D+tu时刻开始,actor网络参数下发,并且每个Tu时间间隔进行更新。
2Td+D+tu时刻开始,Critic网络开始积累actor网络的第一批次经验值,训练并且对actor网络做出指导。
至此,整个网络正常运行,系统不断学习与优化。

七、性能表征

1.收敛时间


无论是底层DQN的前向传播,抑或是顶层AC算法的训练,其用时均大幅度优于WMMSE和FP算法。

2.信道总容量


其性能如上图所示,在前200个时隙,微基站以随机功率策略发送信号。在200-1500时隙中,模型对累积经验进行学习,信道容量大幅提升并超越WMMSE和FP算法那。在约1500个时隙之后,模型收敛。

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》相关推荐

  1. 基于强化学习的医疗诊断 Inquire and Diagnose: Neural Symptom Checking Ensemble using Deep Reinforcement Learning

    将强化学习应用于医疗诊断的早期代表工作是发表在2016年人工智能领域顶级会议NIPS深度强化学习研讨会上的一篇工作(Inquire and Diagnose: Neural Symptom Check ...

  2. Deep Reinforcement Learning 深度增强学习资源

    http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...

  3. 强化学习论文分析1---多小区功率控制问题----《Power Allocation in Multi-cell Networks Using Deep Reinforcement Learning》

    目录 一.研究内容概述 二.系统目标与约束 1.系统目标 2.约束条件 三.映射到Q-learning 1.Q表的确定 2.环境的确定 四.设计DQN网络 1.输入层 2.输出层 3.损失值 五.方法 ...

  4. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  5. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  6. AAAI 2020使用深度强化学习的MOBA游戏《Towards Playing Full MOBA Games with Deep Reinforcement Learning》打败王者荣耀顶尖选手

    不知道你是否玩过王者荣耀,不知道你是不是经历过被人机疯狂怼在塔下强杀然后嘲讽你的经历?就,真说多了就是泪. 最近,NeurlPS2020会议收录了来自腾讯AI Lab的一篇强化学习的论文<Tow ...

  7. 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)

    深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...

  8. 【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术

    原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...

  9. 深度强化学习(Deep Reinforcement Learning)的资源

    深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00|  分类: Torch |  标签:深度强化学习   |举报 |字号 订阅 Goo ...

最新文章

  1. 【 MATLAB 】模拟信号采样及离散时间傅里叶变换(DTFT)案例分析
  2. 华为重磅反击,鸿蒙来了!
  3. grub2配置原理分析
  4. matlab-罗曼诺夫斯基准则剔除粗大值
  5. 10. Zend_Loader
  6. 东西湖职业技术学校计算机专业怎么样,武汉东西湖职业技术学校怎么样
  7. PROFINET通信技术总结
  8. python自动注册邮箱_python自动化办公——邮箱
  9. WIFI理论速度计算
  10. 2020十大高薪资专业和十大高薪资岗位---(之我给程序员丢人了)
  11. js中undefined怎么判断
  12. iOS视频转Gif(附example code)
  13. tplink怎么进去_如何进入tp-link无线路由器设置界面
  14. 计算机音乐数字谱抖音,抖音计算器音乐乐谱
  15. (转)实用Word使用技巧大全
  16. 使用appium进行app自动化测试时遇到AppActivity设置正确但报Connect Appium Server Fail.A new session could not be created
  17. 【STM32】基于正点原子『探索者』开发板的烧录
  18. 英语面试常见问题集锦 .
  19. 电力电子技术-第二章电力电子器件--功率二极管
  20. 二、Redis数据结构

热门文章

  1. 会声会影是什么软件?会声会影和pr哪个好?会声会影和pr比较
  2. [绍棠] 升级Xcode10和Xcode11问题集
  3. 西门子新一代HMI操作面板功能说明
  4. Code - 60990 Error: Two Way Communication Error: Function two_way_comm_post_mess
  5. mtk入门基础资料全集,呕心沥血合集让菜鸟快速上手
  6. 用Python玩转视频剪辑,秀的飞起!
  7. 安卓延时方法(推荐第三种)
  8. 通达信欧奈尔RPS指标公式编写和设置方法(完全版)
  9. 从70年兴衰史里看见AI的未来
  10. 【免刷机破解root】网心云玩客云 EMMC点位图(对焊接能力要求较高)必备软件:DiskGenius,HxD,Win32DiskImager