理论

应用


Deep Reinforcement Learning for Internet of Things: A Comprehensive Survey	Chen, W., Qiu, X., Cai, T., Dai, H., Zheng, Z., & Zhang, Y. (2021). Deep Reinforcement Learning for Internet of Things: A Comprehensive Survey. IEEE Communications Surveys & Tutorials, 23, 1659-1692.	综述：强化学习的主流算法，强化学习在UAV(unmanned aerial vehicle), MEC(mobile edge computing), packet routing等方面的应用
3D UAV Trajectory Design and Frequency Band Allocation for Energy-Efficient and Fair Communication: A Deep Reinforcement Learning Approach	R. Ding, F. Gao and X. S. Shen, “3D UAV Trajectory Design and Frequency Band Allocation for Energy-Efficient and Fair Communication: A Deep Reinforcement Learning Approach,” in IEEE Transactions on Wireless Communications, vol. 19, no. 12, pp. 7796-7809, Dec. 2020, doi: 10.1109/TWC.2020.3016024.	DDPG算法应用无人机通信资源分配+路径规划

强化学习重点文献汇总相关推荐

【原创】强化学习精选资料汇总：从入门到精通，看完这些干货就够啦！
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要8分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家整理了公众号之前发过的一系列强化学习资料和学习手册,包括:强化学习视频课程.经 ...
2022主流Nivida显卡深度学习/强化学习/AI算力汇总
2022主流Nivida显卡深度学习/强化学习/AI算力汇总一览表总结自国外多个网站
强化学习分类与汇总介绍
1.强化学习(Reinforcement Learning, RL) 强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给 ...
必看！52篇深度强化学习收录论文汇总 | AAAI 2020
所有参与投票的 CSDN 用户都参加抽奖活动群内公布奖项,还有更多福利赠送来源 | 深度强化学习实验室(ID:Deep-RL) 作者 | DeepRL AAAI 2020 共收到的有效论文投稿超过 ...
【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货来源:深度强化学习实验室作者:王健树 [导读]今天给大家推荐一个超赞的强化学习项目资料,该项目 ...
AAAI-2020 || 52篇深度强化学习accept论文汇总
深度强化学习实验室报道来源:AAAI-2020 作者:DeepRL AAAI 2020 共收到的有效论文投稿超过 8800 篇,其中 7737 篇论文进入评审环节,最终收录数量为 1591 篇,收录 ...
[强化学习]-网络安全资料汇总
文章目录 Papers Surveys Demonstration papers Position papers Regular Papers PhD Theses Master Theses Bac ...
83篇文献-万字总结 || 强化学习之路
深度强化学习实验室报道作者:侯宇清,陈玉荣编辑:DeepRL 深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学 ...
强化学习ppt_强化学习和最优控制的十个关键点81页PPT汇总
深度强化学习实验室报道来源:book.yunzhan365 作者:DeepRL 在线PDF阅读地址见文章末尾完整版在线阅读地址: https://book.yunzhan365.com/iths/ ...

强化学习重点文献汇总

理论

应用

强化学习重点文献汇总相关推荐

最新文章

热门文章

文献名	引用信息	备注
Reinforcement learning: An introduction	Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2018.	入门书籍
Reinforcement Learning	Wiering M A, Van Otterlo M. Reinforcement learning[J]. Adaptation, learning, and optimization, 2012, 12(3): 729.	入门书籍
Q-learning	Watkins C J C H, Dayan P. Q-learning[J]. Machine learning, 1992, 8(3): 279-292.	Q-Learning算法的收敛性
Convergence of Q-learning: A simple proof	Melo F S. Convergence of Q-learning: A simple proof[J]. Institute Of Systems and Robotics, Tech. Rep, 2001: 1-4.	Q-Learning算法的收敛性
Human-level control through deep reinforcement learning	Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. nature, 2015, 518(7540): 529-533.	提出了DQN算法
Policy gradient methods for reinforcement learning with function approximation	Sutton R S, McAllester D A, Singh S P, et al. Policy gradient methods for reinforcement learning with function approximation[C]//Advances in neural information processing systems. 2000: 1057-1063.	提出了Policy Gradient算法
Deterministic Policy Gradient Algorithms	Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]//International conference on machine learning. PMLR, 2014: 387-395.	提出了DPG算法
Continuous control with deep reinforcement learning	Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.	提出了DDPG算法
Independent reinforcement learners in cooperative markov games: a survey regarding coordination problems	Matignon L, Laurent G J, Le Fort-Piat N. Independent reinforcement learners in cooperative markov games: a survey regarding coordination problems[J]. The Knowledge Engineering Review, 2012, 27(1): 1-31.	汇总了Multi-Agent RL相较于Single-Agent RL的难点
Multi-agent actor-critic for mixed cooperative-competitive environments	Lowe R, Wu Y I, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[J]. Advances in neural information processing systems, 2017, 30.	提出了MADDPG算法
Trust region policy optimization	Schulman J, Levine S, Abbeel P, et al. Trust region policy optimization[C]//International conference on machine learning. PMLR, 2015: 1889-1897.	提出了TRPO算法
Proximal policy optimization algorithms	Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.	提出了PPO算法
Soft Actor-Critic: Off-Policy Entropy Deep Reinforcement Learning with a Stochastic Actor	Haarnoja, T., Zhou, A., Abbeel, P., & Levine, S. (2018). Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. ICML.	提出了Soft Actor-Critic算法
Actor-Attention-Critic for Multi-Agent Reinforcement Learning	Iqbal, S., & Sha, F. (2019). Actor-Attention-Critic for Multi-Agent Reinforcement Learning. ICML.	探讨了在强化学习中引入Attention机制
Counterfactual Multi-Agent Policy Gradients	Foerster, J.N., Farquhar, G., Afouras, T., Nardelli, N., & Whiteson, S. (2018). Counterfactual Multi-Agent Policy Gradients. AAAI.	提出了COMA算法
Mean Field Multi-Agent Reinforcement Learning	Yang, Y., Luo, R., Li, M., Zhou, M., Zhang, W., & Wang, J. (2018). Mean Field Multi-Agent Reinforcement Learning. ArXiv, abs/1802.05438.	提出了MFRL算法
A Survey of Multi-Agent Reinforcement Learning with Communication	Zhu, C., Dastani, M.M., & Wang, S. (2022). A Survey of Multi-Agent Reinforcement Learning with Communication. ArXiv, abs/2203.08975.	讨论了 MAMDP with communication between agents的研究现状
On Learning Intrinsic Rewards for Policy Gradient Methods	Zheng, Z., Oh, J., & Singh, S. (2018). On Learning Intrinsic Rewards for Policy Gradient Methods. Neural Information Processing Systems.	提出了reward shaping，以应对sparse and distractive reward问题