【论文阅读】基于强化学习的网络安全防护策略

本篇文章将介绍一篇针对网络安全问题，运用强化学习方法寻找最优的网络防御策略。

Finding Effective Security Strategies through Reinforcement Learning and Self-Play

前言
通过强化学习和 自对弈(self-play) 寻找有效的安全策略
- 主要思想
  提出一种针对入侵防御案例的安全策略自动查找方法，将攻击者和防御者之间的交互建模为一个马尔可夫博弈过程，让攻击和防御过程在没有人干预的情况下通过强化学习和自对弈进行
- 创新点
  建立了安全策略的自对弈模型，并解决了强化学习一直存在的问题：1、利用建立模型的结构来减小动作空间的额大小，将动作分解为两个动作，首先选择哪个节点进行攻击或防御，接着选择对该点采用什么攻击或防御策略，将动作空间 N×(m+1) 变成了 N+(m+1) 2、避免过拟合情况，在训练期间从策略池中抽取对手策略，增加了策略的多样性
- 存在的问题
  与所有自对弈问题一样，存在 训练难以收敛 的情况，在基础防御较弱时结果容易发生震荡，震荡表明防御者对对手策略的变化做出了应对，并且出现了过拟合情况。

												

											
【论文阅读】基于强化学习的网络安全防护策略相关推荐	

						华为诺亚ICLR 2020满分论文：基于强化学习的因果发现算法
		2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...
		
						【论文阅读】强化学习-Other Directions for Combining Policy-Learning and Q-Learning专题4篇
		文章目录 Combining Policy Gradient and Q-learning, O'Donoghue et al, 2016. Algorithm: PGQL. The Reactor: ...
		
						【论文阅读】强化学习与知识图谱关系路径发现
		论文标题:DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 中文标题:深度路径:知识图谱推理的强化学习方法 ...
		
						论文阅读——基于深度学习智能垃圾分类
		B. Fu, S. Li, J. Wei, Q. Li, Q. Wang and J. Tu, "A Novel Intelligent Garbage Classification Sys ...
		
						论文浅尝-综述 | 基于强化学习的知识图谱综述
		转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...
		
						【论文阅读】基于强化学习的上下文感知的自适应路由变异方案
		[论文阅读]基于强化学习的上下文感知的自适应路由变异方案 Context-Aware Adaptive Route Mutation Scheme:A Reinforcement Learning A ...
		
						论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究（附代码）
		论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...
		
						智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解：基于强化学习技术的智能派单模型...
		原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型 国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...
		
						滴滴 KDD 2018 论文详解：基于强化学习技术的智能派单模型
		国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%.其中滴滴共有四篇论文入选 KDD 2018,涵 ...
		
						【论文笔记】基于强化学习的机器人手臂仿人运动规划方法
		文章目录 摘要 关键词 0 引言 学者研究 阶段一:采集运动数据,分析运动过程特征 阶段二:设计仿人变量.建立仿人标准和约束 阶段三:用智能算法提升仿人运动机器人性能 本文工作 1 问题描述及方法架构 ...
		
		

					
最新文章	

						感恩有你，链客一周年！
		
						boost::sort模块实现spreadsort 双排序示例
		
						力扣- -阶乘函数后K个零
		
						开启Mysql远程登录账号
		
						人工智能ai知识_人工智能中基于知识的代理层
		
						linux内核安装教程,Linux内核5.9的最重要功能及安装方法
		
						MongoDB学习之在Linux下安装MongoDB
		
						计算机补丁的概念,补丁是什么意思？网上说的打补丁什么意思
		
						思维导图系列之Java多线程知识梳理
		
						python全栈开发  *  04        *  180604
		
						Android的Fragment中onActivityResult不被调用的解决方案
		
						python学习--创建模块
		
						C#之整数与字符串互转
		
						RAID磁盘阵列的部署(red hat 6.5)
		
						【杂谈】蓝屏修复杂谈
		
						【Android Studio】XUI框架的使用记录：源代码Demo安装+从Demo中获取捷径快速开发自己的APP
		
						IT行业职位分为六大类
		
						[解决] ie打不开网页自动跳转至hao.360.cn导航页
		
						计算机分析桁架受力,日光温室桁架式拱架的受力分析.doc
		
						Linux 查看自己的IP地址
		
		
	

热门文章	

									JavaScript 压缩图片
			
						数字后端概念——shielding
			
						图片免费压缩——在线压缩JPG方法分享
			
						html设置为壁纸win10,Win10让桌面壁纸自动换的设置方法（图文教程）
			
						5254. 卖木头块 动态规划
			
						小程序：解析h5标签
			
						MySQL临时表的使用
			
						eNSP华为路由器与交换机连接
			
						islower，isalnum，isalpha，tolower，isdigit等c++对ascii字符的处理判断
			
						手机备忘录里的东西突然没有了怎么办