37 | 故障管理:谈谈我对故障的理解

系统正常,只是改系统无数异常情况下的一种特例。

Design for Failure

我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

故障永远只是表面现象,其背后技术和管理上的问题才是根因

理解一个系统应该如何工作并不能使人成为专家,只能靠调查系统为何不能正常工作才行。

强调技术解决问题,而不是单纯地靠增加管理流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助。必须尽快将人为动作转化到技术平台中去。

38 | 故障管理:故障定级和定责

故障的定级标准

P0-P4, MTBF,MTTR,MTTF

故障的定责标准

变更执行,服务依赖,第三方责任

39 | 故障管理:鼓励做事,而不是处罚错误

关于定责和处罚

绝大多数的严重故障都是因为无意识或意识薄弱导致的,并不是因为单纯的技术能力不足等技术因素。

鼓励做事,而不是处罚错误

40 | 故障管理:故障应急和故障复盘

故障应急

  • 第一方面,业务恢复预案
    优先恢复业务,而不是定位问题。
    Chaos Engineering

  • 第二方面,有效的组织协调

    • 确定故障影响面及等级
    • 组织应急小组
    • 信息通报

    功夫要下在平时,注意建设各种工具和平台,同时要尽可能地考虑和模拟各种故障场景。

故障复盘

复盘的目的是为了从故障中学习,找到我们技术和管理上的不足,然后不断改进。

技术支持的作用:

  • 召集复盘会议
  • 组织会议流程
  • 对故障定级定责
  • 明确后续改进行动及责任人,录入系统并定期跟踪

复盘的关键环节:

  • 故障简单回顾
  • 故障处理时间线回顾
  • 针对时间线进行讨论
  • 确定故障根因
  • 故障定级定责
  • 发出故障完结报告

定期总结故障案例

41 | 唇亡齿寒:运维与安全

运维与安全的关系

在双方工作的协作上,我一直认为运维不能只是被动响应,而应该主动与安全合作,共建安全体系,与运维体系融合,把防线建设好,从源头控制。

蘑菇街安全体系简介

  • 入网管控
  • 堡垒机
  • 主机安全管控
  • 黑盒扫描
  • 白盒扫描(代码审计)
  • WAF,web application firewall
  • 应急响应中心 SRC

42 | 树立个人品牌意识:从背景调查谈谈职业口碑的重要性

背调过程不可控,但是我们自身的表现却从来都是可控的。

如果想要树立个人的好口碑,那就需要我们付出更多,要让团队和其他成员明确你独特的个人价值。

要引以为戒的反例:

  • 诚信问题,这是高压线,触碰不得
  • 消极怠工问题,这一点我认为是职业道德问题,是令人厌恶的

结束语 | 学习的过程,多些耐心和脚踏实地

学习也是一个从厚到薄的过程。

软件架构的目的,是将构建和维护所需的人力资源降到最低。

专注带来效率提升。

总结回顾是最好最快的提升方式。

不要忘了时常做一下总结和回顾,而总结和回顾的最好方式就是写作。

《赵成的运维体系管理课》学习笔记(5)——故障管理相关推荐

  1. 赵成的运维体系管理课视频教程

    专栏模块 专栏共三个月,36 期,围绕以应用为核心的运维体系,分四个模块介绍. 应用运维体系建设.这一模块是运维工作的基础,将从标准化和应用生命周期开始,介绍如何一步步建立运维技术体系和组织架构,如何 ...

  2. 《赵成的运维体系管理课》学习笔记(2)——持续交付

    21 | 人多力量大vs两个披萨原则,聊聊持续交付中的流水线模式 项目需求分解 将项目管理中的需求与持续发布中的应用这两者很好地关联起来. 明确好需求拆分与应用功能的对应. 提交阶段之开发模式选择 开 ...

  3. 《赵成的运维体系管理课》学习笔记(1)——持续交付

    16 | 持续交付知易行难,想做成这事你要理解这几个关键点 什么是持续交付 首先要把持续交付做好. 做持续交付就是提升整个研发体系效率的关键. 持续交付代表着从从业务需求开始到交付上线之后的端到端的过 ...

  4. 《赵成的运维体系管理课》学习笔记(3)——云计算时代的运维实践

    25 | 为什么蘑菇街会选择上云?是被动选择还是主动出击? 我们所面临的问题 成本闲置问题 大促,需要业务系统有足够的容量支持,浪费机柜成本和人工投入. 基础设施维护问题 IDC机房选址,IDC机房的 ...

  5. 《赵成的运维体系管理课》学习笔记(4)——稳定性保障

    31 | 极端业务场景下,我们应该如何做好稳定性保障? 我们所面对的极端业务场景 可预测场景:双11 不可预测场景:鹿晗公布恋情 我们要迎接的技术挑战 运维自动化 标准化覆盖面是否足够广泛,应用体系是 ...

  6. 从《进化/运维技术变革与实践探索》看运维体系建设与个人成长

    最近在学习赵成大佬的<进化/运维技术变革与实践探索>一书,在极客时间也有教程.整本书从以下的四个方面进行了梳理:应用运维体系建设.效率和稳定性等方面的最佳实践.云计算方面的思考和实践.个人 ...

  7. 【转载】拿来即用的企业级安全运维体系搭建指南

    拿来即用的企业级安全运维体系搭建指南 本文我们将针对如何解决问题来进行详细说明,从问题入手,通过纠正或者培养良好的运维安全习惯,搭建完整的运维安全技术体系. 作者:林伟壕来源:DBAplus社群| 本 ...

  8. 阿里巴巴超大规模 Kubernetes 基础设施运维体系介绍

    简介:ASI 作为阿里集团.阿里云基础设施底座,为越来越多的云产品提供更多专业服务,托管底层 K8s 集群,屏蔽复杂的 K8s 门槛.透明几乎所有的基础设施复杂度,并用专业的产品技术能力兜底稳定性,让 ...

  9. 阿里巴巴超大规模Kubernetes基础设施运维体系解读

    简介:ASI:Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施.ASI 基于阿里云公共云容器服务 ACK之上,支撑集团应用云原生化和云产品的 ...

最新文章

  1. Runtime实战之定制TabBarItem大小
  2. [Yii Framework] Yii如何实现前后台的session分离
  3. OpenCV-裁剪图片
  4. Animated Eye Candy for Programmers
  5. 一步步编写操作系统 45 linux的elf可执行文件中的段和节
  6. C++(3)--编译、gdb调试
  7. dev c++ 代码补全_学习干货——玩转DEV—C++
  8. idea存在包但是运行项目一直报java.lang.NoClassDefFoundError的问题
  9. 3.9 YOLO 算法
  10. 网络层地址解析协议ARP
  11. navicat输入法问题
  12. 有哪些将英文文献翻译为中文的网站或软件?
  13. 使用腾讯云服务器搭建自己网站应该怎么做
  14. jquery 打开网页自动弹出遮罩层或点击弹出遮罩层
  15. 如何在ex表格导入php_怎么使用php把表格中的数据导入到excel中,php如何快速导入excel表格数据...
  16. GCJ-02和BD-09互转、GCJ-02和WGS-84互转
  17. 服务器客户端传输文件,服务器传输文件到客户端
  18. 如何编写智能合约(Smart Contract)?(II)建立加密代币
  19. 使用GDB调试Linux内核空指针问题
  20. java后门_整理的比较全的一句话后门代码(方面大家查找后门)

热门文章

  1. 块 /宏块(MB)/片(Slice/片组/图像(picture) 对应关系
  2. 金山发布毒霸V及网镖V新品 坚持高定价策略 (转)
  3. IDEA驼峰式命名插件CamelCase
  4. NOI 国家集训队论文集
  5. mac安装python3并配置,Mac安装python3和环境配置
  6. UVA 10006(卡迈克尔数+素数打表)
  7. 2021年万众瞩目的前端学习路线图来了
  8. Java基础知识每日总结(19)---Java输入输出流、文件、递归
  9. 前端新宠 Svelte 带来哪些新思想?赶紧学起来!
  10. 计算机定时开机关机设置,电脑定时开关机,小编教你怎么设置电脑定时开关机...