Deep Q-Learning-Based Node Positioning for Throughput-Optimal Communications in Dynamic UAV Swarm Network

1、创新点

1)使用多层协议参数来识别无人机群状态

  • 物理层 → \rightarrow →SINR
  • 数据链路层 → \rightarrow → BER
  • 网络层 → \rightarrow → PDR & RTG

2) 基于M/G/1抢占式重复优先的多跳队列模型

3)使用DQN进行链路选择和位置确定

2、模型

  • swarm node 普通节点

  • gateway node 网关节点,用于和上层控制节点交流

  • relay node 中继节点,当链路断开,中继节点补位修复链路

    本文中的SINR定义为:
    γ i j [ n ] = P i [ n ] G i j [ n ] ∑ k = 1 , k ≠ i N P k [ n ] G i k [ n ] + σ 2 \gamma_{ij}[n]=\frac{P_i[n]G_{ij}[n]}{\sum_{k=1,k\neq i}^{N}P_k[n]G_{ik}[n]+\sigma^2} γij​[n]=∑k=1,k​=iN​Pk​[n]Gik​[n]+σ2Pi​[n]Gij​[n]​

    P i P_i Pi​是发射功率, G i j G_{ij} Gij​是信道关联相应, P k P_k Pk​是节点k对节点j的影响, σ 2 \sigma^2 σ2是造成方差。

    每个时隙节点i可到达的平均数据速率表示为:
    R i = 1 N T R i [ n ] = 1 N T ∑ n = 1 N T B . l o g 2 ( 1 + γ i j [ n ] ) R_i=\frac{1}{N_T}R_i[n]=\frac{1}{N_T}\sum_{n=1}^{N_T}B.log2(1+\gamma_{ij}[n]) Ri​=NT​1​Ri​[n]=NT​1​n=1∑NT​​B.log2(1+γij​[n])

3、算法

1)MHQ-PRP队列模型

数据包服务时间:
E [ X i , h ] = L i R i , h , h + 1 ( 1 − ρ i , h , h + 1 ) E[X_{i,h}]=\frac{L_i}{R_{i,h,h+1}(1-\rho_{i,h,h+1})} E[Xi,h​]=Ri,h,h+1​(1−ρi,h,h+1​)Li​​
因此,具有平均信道访问延迟 E [ W h ] E[W_h] E[Wh​]的,在跳数h的优先级i分组的平均服务时间为:
E [ S i , h ] = E [ W h ] + E [ X i , h ] E[S_{i,h}]=E[W_h]+E[X_{i,h}] E[Si,h​]=E[Wh​]+E[Xi,h​]
可以确定从源节点发送的数据包在跃点h处的平均端到端PDR为:
Ψ i , h = P r o b ( W i , h > d i − ∑ j = 0 h − 1 E [ W i , j ] = ( ∑ i − 1 4 λ i , h E [ S i , h ] ) e x p ( − ( d i − ∑ j = 1 h E [ W i , j ] ) ( ∑ i = 1 4 λ i , h E [ S i , h ] ) E [ W i , h ] ) \Psi_{i,h}=Prob\bigg(W_{i,h}>d_i-\sum_{j=0}^{h-1}E[W_{i,j}]=\bigg(\sum_{i-1}^4\lambda_{i,h}E[S_{i,h}]\bigg)exp\bigg(-\frac{(d_i-\sum_{j=1}^hE[W_{i,j}])(\sum_{i=1}^4\lambda_{i,h}E[S_{i,h}])}{E[W_{i,h}]}\bigg ) Ψi,h​=Prob(Wi,h​>di​−j=0∑h−1​E[Wi,j​]=(i−1∑4​λi,h​E[Si,h​])exp(−E[Wi,h​](di​−∑j=1h​E[Wi,j​])(∑i=14​λi,h​E[Si,h​])​)

2)DQN

本文的主要算法思想思想是:使用DQN选择一条链路,使用优化算法确定具体位置。

如图的左边,通过DQN,在Path1,Path2中选择了Path1.

如图的右边,选定好链路之后,在P3,P4中选择了P4,因为P3处节点较多,链路质量不好,尽管P3更近一些。

  • state

    S n S^n Sn表示在时隙n的状态,用SINR,PDR,和外部影响来表示。 S n = { γ h j , Ψ i , h , J h } n − 1 S^n=\{\gamma_{hj},\Psi_{i,h},J_h\}^{n-1} Sn={γhj​,Ψi,h​,Jh​}n−1

  • action

    选择一个链路 l h l_h lh​,且 h ∈ H h\in H h∈H

  • optimization

    搜索网格 A g , g ∈ N g A_g,g\in N_g Ag​,g∈Ng​, N g N_g Ng​是所有网格位置。优化问题可以表示为:
    m a x 1 T ∫ n = 0 T R n d n s . t . : i . d t , k ≥ d m i n ; k ∈ { 1 , 2 , . . . , N n e i g h } i i . E [ W j ] ≤ D j ; j ∈ { 1 , 2 , 3 , 4 } i i i . j g = 0 ; g ∈ N g max \frac{1}{T}\int_{n=0}^{T}\mathbb{R}^ndn\\ s.t.:i.\ \ d_{t,k}\ge d_{min};k\in\{{1,2,...,N_{neigh}}\}\\ ii.\ \ E[W_j]\le D_j;j\in\{{1,2,3,4}\}\\ iii.\ \ j_g=0;g\in N_g maxT1​∫n=0T​Rndns.t.:i.  dt,k​≥dmin​;k∈{1,2,...,Nneigh​}ii.  E[Wj​]≤Dj​;j∈{1,2,3,4}iii.  jg​=0;g∈Ng​
    有三个约束:1、距离大于最小距离,要不然会撞

    ​ 2、平均时延要低于deadline

    ​ 3、表示外部干扰是否存在

  • reward
    R = γ i j [ n ] = P i [ n ] G i j [ n ] P E S S J g + ∑ k = 1 , k ≠ i M P k [ n ] G i k [ n ] + σ j 2 \mathbb{R}=\gamma_{ij}[n]=\frac{P_i[n]G_{ij}[n]}{P_{ESS}J_g+\sum_{k=1,k\ne i}^{M}P_k[n]G_{ik}[n]+\sigma_j^2} R=γij​[n]=PESS​Jg​+∑k=1,k​=iM​Pk​[n]Gik​[n]+σj2​Pi​[n]Gij​[n]​

神经网络结构:

CNN 3X3X20 s=1
ReLu
CNN 2X2X40
Relu
FC(180)
FC(M+1)

为了体现连续性,定义一个 B \mathcal{B} B,使得 φ n = { s n − B , a n − B , . . . , a n − 1 , s n } \varphi^n=\{s^{n-\mathcal{B}},a^{n-\mathcal{B}},...,a^{n-1},s^n\} φn={sn−B,an−B,...,an−1,sn}输入进CNN中,得到 Q ( φ n , a ∣ θ n ) Q(\varphi^n,a|\theta^n) Q(φn,a∣θn).放到经验池中。 D = { e 1 , . . . , e n } , w h e r e e n = ( φ n , a n , R s n , φ n + 1 ) \mathbb{D}=\{e^1,...,e^n\},where\ e^n=(\varphi^n,a^n,\mathbb{R}_s^n,\varphi^{n+1}) D={e1,...,en},where en=(φn,an,Rsn​,φn+1)

Deep Q-Learning-Based Node Positioning for Throughput-Optimal Communications in Dynamic UAV 论文笔记相关推荐

  1. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  2. CNNs and Deep Q Learning

    前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...

  3. 【文献阅读03】Deep Reinforcement Learning Based Resource Allocation for V2V Communications

    Deep Reinforcement Learning Based Resource Allocation for V2V Communications(点击可见原文) p.s.此文19年发表,到20 ...

  4. Deep Q learning: DQN及其改进

    Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...

  5. 零基础10分钟运行DQN图文教程 Playing Flappy Bird Using Deep Reinforcement Learning (Based on Deep Q Learning DQN

    文件下载 链接:http://pan.baidu.com/s/1jH9ItTW  密码:0pmq 文件列表 Anaconda3-4.2.0-Windows-x86_64.exe  (python3.5 ...

  6. Deep Q Learning伪代码分析及翻译

    伪代码 代码翻译及分析 初始化记忆体D中的记忆N 初始化随机权重θaction值的函数Q(Q估计) 初始化权重θ-=θ target-action值的函数^Q(Q现实) 循环:初始化第一个场景s1=x ...

  7. 《Learning from Synthetic Data for Crowd Counting in the Wild》论文笔记

    Learning from Synthetic Data for Crowd Counting in the Wild 论文翻译 Abstract 1. Introduction 2.Related ...

  8. ICCV 2017 《Unsupervised Learning from Video to Detect Foreground Objects in Single Images》论文笔记

    本学弱喜欢在本子上记笔记,但字迹又丑. 望看不懂我的字的大佬不要喷我,看得懂的大佬批评指正.

  9. 【论文笔记】Multi-task deep learning based CT imaging analysis for COVID-19 pneumonia: Classification and

    声明 不定期更新自己精度论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data Fusion.Digital Twin 论文标题:Multi-task deep le ...

  10. Deep Reinforcement Learning: Pong from Pixels翻译和简单理解

    原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录 原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...

最新文章

  1. 鼠标坏了你别扔,可以修的
  2. 这台计算机似乎没有安装操作系统_前沿科技 | 浙江大学科学家联合之江实验室成功研制全球神经元规模最大的类脑计算机...
  3. 牛客网编程题python输入输出_牛客网算法题目记录
  4. Spring点滴二:Spring Bean
  5. Stanford CoreNLP遇到的问题
  6. angular中如何定义全局变量_如何在Angular 2 / Typescript中声明全局变量?
  7. 黑客利用 Gatekeeper 0day 攻击 MacOS 计算机
  8. 【iOS开发必备指南合集二】申请IDP/真机调试/GameCenter 指南/OpenFeint指南
  9. 43. Know how to access names in templatized base classes.
  10. 简单的NLPIR分词 JAVA 实现
  11. Hadoop环境搭建学习(1)
  12. cc2530协调器向终端发信息
  13. 18年拼多多学霸批算法笔试
  14. 豫教科计算机资源管理教案,豫科版小学五年级上册信息技术教案(全册.doc
  15. 活动选择与小船过河问题(贪心算法)
  16. 如何修改鼠标右键新建对象的顺序
  17. 台式电脑 在哪找到计算机名,win7电脑的投屏功能在哪?教你找到!
  18. WebDAV之葫芦儿·派盘 + CloudBeats
  19. PS电商插件/图牛助理插件/多模板电商工具/Adobe Photoshop CC 2015-2022可直接使用的ps插件
  20. 动画跨专业考研计算机,跨专业考研动漫

热门文章

  1. 华为机试---裁剪网格纸
  2. 使用R语言自定义设置lty参数以指定ROC曲线线条类型
  3. 如何判断一个点是否在一个3D区域内部
  4. 毕节市搜索引擎优化_毕节市网站优化技术好点的企业,网站seo优化
  5. word同时定义正文的中文字体和英文字体
  6. (很好的一篇综述) 剖析桌面化 Android 操作系统的发展与未来
  7. 盘点:中国“颜值+才华”的几位知名女程序员!如何看待女生当程序员?
  8. python和易语言哪个容易胖_碳水化合物和脂肪哪个更容易让身体发胖呢?
  9. “7”许AMD下一个50年
  10. 图说 | 人到中年,微胖更保命?这份米因健康大数据真相了