《赵成的运维体系管理课》学习笔记(5)——故障管理
37 | 故障管理:谈谈我对故障的理解
系统正常,只是改系统无数异常情况下的一种特例。
Design for Failure:
我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。
故障永远只是表面现象,其背后技术和管理上的问题才是根因
理解一个系统应该如何工作并不能使人成为专家,只能靠调查系统为何不能正常工作才行。
强调技术解决问题,而不是单纯地靠增加管理流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助。必须尽快将人为动作转化到技术平台中去。
38 | 故障管理:故障定级和定责
故障的定级标准
P0-P4, MTBF,MTTR,MTTF
故障的定责标准
变更执行,服务依赖,第三方责任
39 | 故障管理:鼓励做事,而不是处罚错误
关于定责和处罚
绝大多数的严重故障都是因为无意识或意识薄弱导致的,并不是因为单纯的技术能力不足等技术因素。
鼓励做事,而不是处罚错误
40 | 故障管理:故障应急和故障复盘
故障应急
第一方面,业务恢复预案
优先恢复业务,而不是定位问题。
Chaos Engineering第二方面,有效的组织协调
- 确定故障影响面及等级
- 组织应急小组
- 信息通报
功夫要下在平时,注意建设各种工具和平台,同时要尽可能地考虑和模拟各种故障场景。
故障复盘
复盘的目的是为了从故障中学习,找到我们技术和管理上的不足,然后不断改进。
技术支持的作用:
- 召集复盘会议
- 组织会议流程
- 对故障定级定责
- 明确后续改进行动及责任人,录入系统并定期跟踪
复盘的关键环节:
- 故障简单回顾
- 故障处理时间线回顾
- 针对时间线进行讨论
- 确定故障根因
- 故障定级定责
- 发出故障完结报告
定期总结故障案例
41 | 唇亡齿寒:运维与安全
运维与安全的关系
在双方工作的协作上,我一直认为运维不能只是被动响应,而应该主动与安全合作,共建安全体系,与运维体系融合,把防线建设好,从源头控制。
蘑菇街安全体系简介
- 入网管控
- 堡垒机
- 主机安全管控
- 黑盒扫描
- 白盒扫描(代码审计)
- WAF,web application firewall
- 应急响应中心 SRC
42 | 树立个人品牌意识:从背景调查谈谈职业口碑的重要性
背调过程不可控,但是我们自身的表现却从来都是可控的。
如果想要树立个人的好口碑,那就需要我们付出更多,要让团队和其他成员明确你独特的个人价值。
要引以为戒的反例:
- 诚信问题,这是高压线,触碰不得
- 消极怠工问题,这一点我认为是职业道德问题,是令人厌恶的
结束语 | 学习的过程,多些耐心和脚踏实地
学习也是一个从厚到薄的过程。
软件架构的目的,是将构建和维护所需的人力资源降到最低。
专注带来效率提升。
总结回顾是最好最快的提升方式。
不要忘了时常做一下总结和回顾,而总结和回顾的最好方式就是写作。
《赵成的运维体系管理课》学习笔记(5)——故障管理相关推荐
- 赵成的运维体系管理课视频教程
专栏模块 专栏共三个月,36 期,围绕以应用为核心的运维体系,分四个模块介绍. 应用运维体系建设.这一模块是运维工作的基础,将从标准化和应用生命周期开始,介绍如何一步步建立运维技术体系和组织架构,如何 ...
- 《赵成的运维体系管理课》学习笔记(2)——持续交付
21 | 人多力量大vs两个披萨原则,聊聊持续交付中的流水线模式 项目需求分解 将项目管理中的需求与持续发布中的应用这两者很好地关联起来. 明确好需求拆分与应用功能的对应. 提交阶段之开发模式选择 开 ...
- 《赵成的运维体系管理课》学习笔记(1)——持续交付
16 | 持续交付知易行难,想做成这事你要理解这几个关键点 什么是持续交付 首先要把持续交付做好. 做持续交付就是提升整个研发体系效率的关键. 持续交付代表着从从业务需求开始到交付上线之后的端到端的过 ...
- 《赵成的运维体系管理课》学习笔记(3)——云计算时代的运维实践
25 | 为什么蘑菇街会选择上云?是被动选择还是主动出击? 我们所面临的问题 成本闲置问题 大促,需要业务系统有足够的容量支持,浪费机柜成本和人工投入. 基础设施维护问题 IDC机房选址,IDC机房的 ...
- 《赵成的运维体系管理课》学习笔记(4)——稳定性保障
31 | 极端业务场景下,我们应该如何做好稳定性保障? 我们所面对的极端业务场景 可预测场景:双11 不可预测场景:鹿晗公布恋情 我们要迎接的技术挑战 运维自动化 标准化覆盖面是否足够广泛,应用体系是 ...
- 从《进化/运维技术变革与实践探索》看运维体系建设与个人成长
最近在学习赵成大佬的<进化/运维技术变革与实践探索>一书,在极客时间也有教程.整本书从以下的四个方面进行了梳理:应用运维体系建设.效率和稳定性等方面的最佳实践.云计算方面的思考和实践.个人 ...
- 【转载】拿来即用的企业级安全运维体系搭建指南
拿来即用的企业级安全运维体系搭建指南 本文我们将针对如何解决问题来进行详细说明,从问题入手,通过纠正或者培养良好的运维安全习惯,搭建完整的运维安全技术体系. 作者:林伟壕来源:DBAplus社群| 本 ...
- 阿里巴巴超大规模 Kubernetes 基础设施运维体系介绍
简介:ASI 作为阿里集团.阿里云基础设施底座,为越来越多的云产品提供更多专业服务,托管底层 K8s 集群,屏蔽复杂的 K8s 门槛.透明几乎所有的基础设施复杂度,并用专业的产品技术能力兜底稳定性,让 ...
- 阿里巴巴超大规模Kubernetes基础设施运维体系解读
简介:ASI:Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施.ASI 基于阿里云公共云容器服务 ACK之上,支撑集团应用云原生化和云产品的 ...
最新文章
- Runtime实战之定制TabBarItem大小
- [Yii Framework] Yii如何实现前后台的session分离
- OpenCV-裁剪图片
- Animated Eye Candy for Programmers
- 一步步编写操作系统 45 linux的elf可执行文件中的段和节
- C++(3)--编译、gdb调试
- dev c++ 代码补全_学习干货——玩转DEV—C++
- idea存在包但是运行项目一直报java.lang.NoClassDefFoundError的问题
- 3.9 YOLO 算法
- 网络层地址解析协议ARP
- navicat输入法问题
- 有哪些将英文文献翻译为中文的网站或软件?
- 使用腾讯云服务器搭建自己网站应该怎么做
- jquery 打开网页自动弹出遮罩层或点击弹出遮罩层
- 如何在ex表格导入php_怎么使用php把表格中的数据导入到excel中,php如何快速导入excel表格数据...
- GCJ-02和BD-09互转、GCJ-02和WGS-84互转
- 服务器客户端传输文件,服务器传输文件到客户端
- 如何编写智能合约(Smart Contract)?(II)建立加密代币
- 使用GDB调试Linux内核空指针问题
- java后门_整理的比较全的一句话后门代码(方面大家查找后门)
热门文章
- 块 /宏块(MB)/片(Slice/片组/图像(picture) 对应关系
- 金山发布毒霸V及网镖V新品 坚持高定价策略 (转)
- IDEA驼峰式命名插件CamelCase
- NOI 国家集训队论文集
- mac安装python3并配置,Mac安装python3和环境配置
- UVA 10006(卡迈克尔数+素数打表)
- 2021年万众瞩目的前端学习路线图来了
- Java基础知识每日总结(19)---Java输入输出流、文件、递归
- 前端新宠 Svelte 带来哪些新思想?赶紧学起来!
- 计算机定时开机关机设置,电脑定时开关机,小编教你怎么设置电脑定时开关机...