数据中心基础设施运维管理——应急管理
应急管理,是对数据中心运维过程中所发生的紧急的非常态运行状况的措施部署与管理,数据中心基础设施的运行可能会遇到紧急状况的发生,而紧急状况是数据中心基础设可靠性和业务连续性的最大挑战,辨识和处理紧急状况是衡量运维能力的重要指标。运维要时刻准备好面对紧急状况的发生,实际中,由于紧急状况难以提前判断,所以对于应急工作的管理,更多体现在各类应急场景的应急预案准备和演练的机制及措施上。
一、应急管理的定义
1.应急的定义
应急是对超出一般运行状态的工况立即采取必要的应对措施,以降低突发状况给系统可用性和连续性带来的威胁和影响。
2.应急管理的定义
应急管理是根据数据中心实际运行情况为紧急和突发的非正常运行工况而设定的一系列流程、制度、预案等应对措施的管理工作。
二、应急管理的目的
应急管理的目的是能够及时和正确地处理突发紧急状况,达到预期处理效果,降低或消除影响,恢复数据中心基础设施系统的可用性。具体表现在:
1)使运维人员有采取应急措施的依据,且能正确高效处理应急状况。
2)对应急状况控制和监控,降低损失,保障运行现场的人员安全和设施安全。
3)尽快恢复系统运行和尽可能恢复服务等级。
三、应急管理的范围
应急管理的范围包括基础设施运维过程中产生的所有应急状况。应急状况一般分为两类:一类是常规的紧急事件,不可预估,需设置一般性应急处理流程,另一类是可预估应急状况,需要制定完善的应急预案,定期实施应急演练。
四、应急管理的流程
1.主要流程
应急管理的流程应当是针对数据中心实际运行情况,从风险分析开始到正确处理应急事件的全过程,主要包括:
1) 风险分析。
2)场景梳理。
3)体系建立。
4)应急演练。
5)优化配置。
6) 循环改进。
2.应急响应
突发或紧急事件发生时,应按照分级负责、快速反应的原则响应,数据中心应急预案及响应等级划分可参照国家应急预案标准,结合数据中心的属性和等级制定。应急预案应按照风险发生的可能性以及发生后果的严重性制定,并应确保对应应急场景下的可接受的服务目标的实现,应急预案不仅包括 EOP,还应包括以下内容:
1) 应急预案的使用原则和适用场景。
2) 应急人员的组织架构及职责。
3) 警报等级的划分及启动应急响应的策略.
4) 应急状况下的通报制度。
5) 应急状况下的关键可用资源。
6) 应急状况所造成直接后果的详细说明。
7)在预定的时间里继续或恢复数据中心运行的具体措施。
8) 应急结束后的退出过程及善后工作。
9) 应急处理信息的存档。
3.与其他流程的关系
应急状况发生时,可能会触发其他流程,此时就要与其他流程共同完成应急处理。例如,事件管理流程、问题管理流程、变更管理流程等。
4.管理策略
应急管理应遵循以下策略:
1) 应急处理有章可循,有法可依。
2) 遵守国家相关法律法规,遵守数据中心所在地区的行政法律法规。
3) 在保障运维人员生命安全的前提下,最大限度保障生产,降低损失和减小影响。
4) 应急处理要做到统一领导,分级指挥,充分利用已备资源,突出保障重点。
5) 应急处理的信息发布应当及时、准确、客观、全面。
6) 对应急处理工作进行复盘和总结。
数据中心基础设施运维管理——应急管理相关推荐
- 京东数据中心设施运维管理(三)
10.1. 京东云华东数据中心设施运维管理 随着大数据.云计算.智慧城市.移动互联网和物联网等应用的快速发展,各行各业对于数据中心的需求量越来越大.数据中心单体规模越大.系统越复杂,其脆弱性也越高,对 ...
- 一图解码数据中心数字化运维管理之道
- 数据中心基础设施运维是什么?
互联网数据中心,就是在一个恒温恒湿,有空调的空间,里面有承载互联网数据的地方,有智能柜.专门的技术人员维护.数据中心可概括为五大系统: 装修系统.电气系统.通风空调系统.弱电系统.消防系统. 1.电气 ...
- 数据中心基础设施运维——设备维护
数据中心运维服务主要负责基础设施维护,包括高低压变配电系统.发电机组.不间断直流电源系统.不间断交流电源系统.机房空调系统及电力电缆.机房环境集中监控系统.防雷及接地系统.弱电系统.消防系统等. 通过 ...
- 无人机综合管理系统/web端后台管理系统/设备管理/运维管理/维护管理/人员管理/维修保养/配件管理/保养管理/团队管理/axure后台管理原型/axure原型/web端后台管理原型/rp原型
无人机综合管理系统/web端后台管理系统/设备管理/运维管理/维护管理/人员管理/维修保养/配件管理/保养管理/团队管理/axure后台管理原型/axure原型/web端后台管理原型/rp原型 axu ...
- 我国“十三五”国家大数据战略离不开专业的数据中心基础设施运维服务
[url=http://www.c114.com.cn/news/212/a1014632.html]我国"十三五"国家大数据战略离不开专业的数据中心基础设施运维服务[/url]
- 数据中心机房基础设施运维管理体系
数据中心机房基础设施运维管理体系 一. 概述 基础设施管理主要是对各类基础设施设备的巡检.监控.维护.操作,本体系制定了上述内容的具体方法及相关要求.本体系指定的目标是保障机房基础设施.设备正常.安全 ...
- 服务器运维应该报什么专业,数据中心基础设施运维人员应该掌握哪些专业技能?...
所谓专业技能就是对某一专业有深入的研究,很高的造诣.但人的精力是有限的,一个人很难做到每个专业都精通:并不是每个人都能成为达芬奇这样的天才. 在数据中心基础设施领域,能精通供配电或暖通专业已经是需要很 ...
- 集中化运维管理——Puppet管理之路
文/刘宇 大数据时代高伸缩性.容错性的特点给运维提出了更高的要求.系统管理不再是疲于安装操作系统.对系统参数进行逐一配置与优化.打补丁.安装软件.配置软件.添加某个服务的时代.为了提高效率.避免重复劳 ...
最新文章
- 2021研究生报告新鲜出炉!博士每年招生超10万人
- python 显示html_如何使用python在本地显示带有html表单的网...
- 操作系统期末复习知识点
- python类的调用关系_JAVA 查找类的所有引用关系(python实现)
- Scikit-learn数据预处理分类变量编码之多标签二值化
- java没有对象可以调用方法吗_在没有括号的情况下调用Java中的新对象的方法:操作顺序违规?...
- 在县城开一家彩票站,一个月能赚多少钱?
- 英文识别 java_Java-百度API的图片文字识别(支持英文)
- [硬件基础] 电机学基础与常用电工定律
- 舒尔特注意力训练表格_用微信小程序里训练提升你的专注力
- android连接airprint打印机,苹果让无线打印更加便捷,安卓已羡慕
- CSS案例——静态网页制作
- photoShop支持retina显示屏
- 计算机毕业设计Java计算机培训管理(源码+系统+mysql数据库+lw文档)
- daimayuan每日一题#810 最短路计数
- Java 计算日期差
- 【日常】SpringBoot缓存注解器及整合redis实现(附近期一些python零碎的内容)
- 如何利用CRM软件建立有利可图的客户关系?
- 百度智能云开物凭什么在“双跨”新增名单中排名榜首?
- netbean+glassfish创建web项目的目录结构