一、文章概述

本篇文章的主要内容是:在异构网络条件下，使用强化学习(包括DQN和AC)算法对各个基站的功率进行控制，最终达到信道容量最大化的目的。我个人觉得这篇文章的内容很饱满，可以认为是强化学习在功率控制领域(干扰管理)应用的集大成者。

二、系统目标

与常见功率控制系统目标相同，作者所提出的算法目的是使得信道容量总和最大化。

系统的SINR定义如上式所示。

三、应用场景

作者的算法应用于如图所示的异构网络场景下，包含一个宏基站和四个微基站。宏基站的坐标为(0,0),覆盖半径为[10,1000]。微基站的坐标分别为与宏基站的距离是500米，坐标分别为(500,0)、(-500,0)、(0,500)、(0,-500)，覆盖半径为[10,200]。宏基站的发送功率为30dB，微基站的发送功率为23dB，传输的路径损耗定义为120.9 +37.6 log 10(d)，距离d以千米为单位。

四、算法架构

1.微基站处----DQN

每一个微基站处的强化学习模型为DQN,以基站的七中可能状态作为输入，最终的发送功率值作为输出，其环境的奖励为计算后所得到的局部信道容量值，目的是尽可能的提升局部信道容量，达到全局信道容量最大化的目的。值得注意的是，微基站处只进行网络的前向传播，其参数由顶层AC网络下发。

具体而言，每一个局部网络共有五层。第一层是微基站的七种状态，对应七个神经元。第二、三两层是具有一百个神经元的全连接层。第四层只有一个神经元，对应的激活函数为sigmod，用于把神经网络的输出转换到0-1之间。第五层也只有一个神经元，是将0-1之间的输出线性放大到0-Pmax。

2.宏基站处—Actor-Critic

宏基站处建立与微基站结构相同的DQN网络，作为AC算法的actor部分。其更新方法要点包括DQN中的:(1)网络模型固定(2)经验回放。作为顶层网络，actor部分收集local处积累的经验(状态转换_功率变化对应关系)优化自身，目的是局部功率输出最大。并将计算所得的θ参数实时下发，在实际的local模型中应用并不断积累经验值。
宏基站处同时建立一个共享的评估网络，作为AC算法Critic部分。Critic统筹全局的网络模型，以所有网络动作-状态以及全局CSI等信息作为输入，系统的信道容量总和作为输出，对于局部DQN网络做出指导，在原有DQN输出基础上调节其更新的幅度，使得模型从各个局部最优趋向于全局最优。

具体而言，对于Critic网络，以全局S的状态和动作作为输入，经过全连接层传递后各生成200个神经元，作为动作-状态混合网络的第一层。混合网络的第二层有200个神经元，激活函数为relu。最后一层以全局信道容量和作为输出。

五、伪代码

六、算法流程图

从0时刻开始，微基站使用随机功率控制策略，向宏基站发送经验累积信息
从Td时刻开始，local经验第一次到达，actor网络对其进行存储。
从Td+D时刻开始，宏基站积累的经验达到训练的最小批次，开始进行网络的训练。
从Td+D+tu时刻开始，actor网络参数下发，并且每个Tu时间间隔进行更新。
从2Td+D+tu时刻开始，Critic网络开始积累actor网络的第一批次经验值，训练并且对actor网络做出指导。
至此，整个网络正常运行，系统不断学习与优化。

七、性能表征

1.收敛时间

无论是底层DQN的前向传播，抑或是顶层AC算法的训练，其用时均大幅度优于WMMSE和FP算法。

2.信道总容量

其性能如上图所示，在前200个时隙，微基站以随机功率策略发送信号。在200-1500时隙中，模型对累积经验进行学习，信道容量大幅提升并超越WMMSE和FP算法那。在约1500个时隙之后，模型收敛。

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》相关推荐

基于强化学习的医疗诊断 Inquire and Diagnose: Neural Symptom Checking Ensemble using Deep Reinforcement Learning
将强化学习应用于医疗诊断的早期代表工作是发表在2016年人工智能领域顶级会议NIPS深度强化学习研讨会上的一篇工作(Inquire and Diagnose: Neural Symptom Check ...
Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料增强学习课程 David Silver (有视频和ppt): http:/ ...
强化学习论文分析1---多小区功率控制问题----《Power Allocation in Multi-cell Networks Using Deep Reinforcement Learning》
目录一.研究内容概述二.系统目标与约束 1.系统目标 2.约束条件三.映射到Q-learning 1.Q表的确定 2.环境的确定四.设计DQN网络 1.输入层 2.输出层 3.损失值五.方法 ...
基于深度强化学习的车道线检测和定位（Deep reinforcement learning based lane detection and localization）论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位官方源码下载:https://github.co ...
深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述作者: Kai Arulkumaran, Marc Peter Deisenroth ...
AAAI 2020使用深度强化学习的MOBA游戏《Towards Playing Full MOBA Games with Deep Reinforcement Learning》打败王者荣耀顶尖选手
不知道你是否玩过王者荣耀,不知道你是不是经历过被人机疯狂怼在塔下强杀然后嘲讽你的经历?就,真说多了就是泪. 最近,NeurlPS2020会议收录了来自腾讯AI Lab的一篇强化学习的论文<Tow ...
深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述翻译说明综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
【DQN】解析 DeepMind 深度强化学习 (Deep Reinforcement Learning) 技术
原文:http://www.jianshu.com/p/d347bb2ca53c 声明:感谢 Tambet Matiisen 的创作,这里只对最为核心的部分进行的翻译 Two years ago, a ...
深度强化学习（Deep Reinforcement Learning）的资源
深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00| 分类: Torch | 标签:深度强化学习 |举报 |字号订阅 Goo ...

强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》

目录