1、VALET 定义

1.1 容量(流量,Volume)

  • 服务可以处理多少业务量?
  • 处理的记录数量

1.2 可用性(Availability)

  • 服务是否在需要时可用?
  • 在一定时间内完成工作的频率(百分比)

1.3 延迟(Latency)

  • 在使用服务时,它是否快速响应?
  • 任务运行所需的时间

1.4 错误(Errors)

  • 在使用服务时,是否会出错?
  • 无法处理的记录

1.5 工单(Tickets)

  • 该服务请求是否需要人工干预才能完成?
  • 操作员必须手动修复数据和重新处理任务的次数

1.6 SRE改进步骤

  1. 建立统一语言 VALET
  2. 各服务自动数据收集数据源
  3. 建设仪表盘,大屏看板实时监控数据趋势
  4. 写入开发负责人的OKR
  5. 管理批处理任务的SLO目标

2、SLO 落地

2.1 列出关键用户旅程

列出关键用户旅程,并根据业务影响对其进行排序。业务列出相关上下游核心调用链,可以借助相关平台工具查询调用链信息。

(关键用户旅途( critical User Journey)又称为用户旅程,是指用户从首次接触直至下单以及享受产品或服务期间,用户与企业产品或者平台互动的全过程。)

2.2 确定服务水平指标(SLI)

确定哪些指标可用作服务水平指标(SLI),以最准确地跟踪用户体验。在业务确定的核心调用链中确定核心的指标,可以参考4个黄金指标:延迟、流量、错误、饱和度。

所以,SLI 为100表示​​一切正常,为零表示一切损坏。

使用尽可能少的 SLI 来准确表示给定服务的容忍度,太多的SLI会引发太多的误报,通常,一个服务应该具有 2 到 6 个 SLI,如果 SLI 太少,可能会错过有价值的信号。如果 SLI 过多,SRE团队就要跟踪太多东西,但边际附加效用有限。经验所得衡量SLI的比较好的指标是请求延迟和错误率。

2.3 确定SLO目标和SLO度量周期

确定SLO目标和SLO度量周期,例如:每月 99.99% 的 HTTP 请求成功返回“200 OK”,假定一个月内有10,000个HTTP请求,而只有9,999个请求根据SLI返回成功响应,则表示该月的可用性为9,999 / 10,000或99.99%。

2.4 创建SLI、SLO和错误预算控制台及dashboard监控

创建SLI、SLO和错误预算控制台(管理)及dashboard监控。作为SRE,我们需要能够随时查看服务状态,那么意味着需要创建监控仪表板,开发一套SLI、SLO和错误预算的图表。

2.5 创建SLO警报

创建基于SLO警报,尽管使用哪种阈值都有不同的首选项,但作为SRE,建议使用基于错误预算记录的警报。

3、 demo







SLO 落地方案:VALET相关推荐

  1. iOS应用模块化的思考及落地方案(二)模块化自动构建工具的使用

    1.0 iOS模块化中的问题 前文已经介绍了模块化的流程及一些常见的问题,我们在这里再次总结一下. 在工作中,当我们开始一个新项目的时候,最先考虑的就是模块化工作. 模块化工作的想法是很美好的,可是执 ...

  2. iOS应用模块化的思考及落地方案(一)模块的划分及模块化工作流程

    1.0 什么是模块化 很多关于重构及设计模式的介绍中,经常提到的几个词语是复用及解耦. 模块化之所以被提出,也更多是为了解决这几个问题. 复用可以减少重复造轮子的情况,很容易理解的是,我们经常使用的g ...

  3. 分表需要解决的问题 基于MyBatis 的轻量分表落地方案

    分表:垂直拆分.水平拆分 垂直拆分:根据业务将一个表拆分为多个表. 如:将经常和不常访问的字段拆分至不同的表中.由于与业务关系密切,目前的分库分表产品均使用水平拆分方式. 水平拆分:根据分片算法将一个 ...

  4. 开源助推进NFV发展,红帽为运营商“定制”NFV落地方案

    日前,红帽公司欧洲.中东以及非洲地区的电信行业业务发展总监Nikolai Stankau和红帽公司亚太区电信业务发展总监Adam Nardella在接受采访时表示,目前运营商在引入NFV方面主要存在三 ...

  5. 人工智能技术结合制造业,是学术研究还是落地方案?!

    飞桨中国行-零门槛AI创新应用专场来了 制造业正快速步入智能化升级的新阶段,包括生产流程.业务模式.管理方式在内的每一个环节,都将发生根本改变,越来越多的制造企业正把智能化作为推动业务增长的重要途径. ...

  6. 主数据管理(MDM)项目建设落地方案

    01 主数据建设的术法道 随着企业信息化系统建设逐渐增多,领导.业务部门对信息系统支撑决策.管控.业务运行难度也随之提高,导致解决业务系统间的交互困难和数据多头管理不一致等问题成为信息化建设的难点和重 ...

  7. 网络营销推广落地方案(2018最新)

    网络营销推广落地方案(2018最新) 导读:如何做网络营销推广引流方案,3个月必成.本文以网络营销推广引流为例向大 家介绍任何一个网络营销推广项目,只要用心执行死磕3个月,只要不是足够努力,百分 百能 ...

  8. 互联网企业申请95号 正确落地方案可节省50%费用

    当接到95555来电时,你会想到招商银行:当接到95338来电时,你会想到顺丰快递.95客服号码由于资源稀缺.数字简短易记,已成为银行.证券.保险.民航.物流.石油石化.铁路运输等知名企业的专用.95 ...

  9. mysql落地方案_平台落地方案.doc

    平台落地方案 江苏省教育管理信息中心 江苏省电化教育馆 江 苏 省 教 育 信 息 化 公 共 服 务 平 台 推广应用落地方案 <江苏省教育信息化公共服务平台>推广应用落地实施方案(草) ...

最新文章

  1. 拓扑排序 - 项目管理
  2. 无忧计算机c语言二级题库,干货for计算机等级考试题库:二级C语言试题
  3. python微博热点_用 Python 监控知乎和微博的热门话题
  4. Tomcat到Wildfly:配置数据库连接
  5. section怎么制造图框_cad中如何制作带属性块的图框 - CAD自学网
  6. 理解redux中Middleware
  7. EBS_FORM_开发:关于切换不同BLOCK的时候弹出需要保存的窗口
  8. ubuntu的web服务器_如何在Ubuntu上安装OpenLiteSpeed Web服务器?
  9. 人工智能基础(高中版)教材补充和资源分享之一 无限光明的未来、过去和现在
  10. Android Studio在线自动升级版本
  11. tensorflow中model.compile()用法
  12. 计算机组装与维护论文 致谢,计算机组装与维护论文
  13. iOS内购 - 服务端票据验证及漏单引发的思考
  14. kindle 4.1.1越狱换中文字体
  15. canvas实现简单的画图功能
  16. 通过Adb无需ROOT卸载手机内置APP
  17. CheckListBox的实现方式分析
  18. android高仿京东秒杀,Android通过实现GridView的横向滚动实现仿京东秒杀效果
  19. 教育最大的失败,是普通家庭富养孩子
  20. 计算机网络如何计算有效ip地址个数,如何计算到底有多少个IP地址及IP地址的种类及取值范围...

热门文章

  1. direct9.0b 下载地址
  2. 关于职业规划,尤其值得我们程序员学习、思考
  3. LT8618SX中文简介
  4. 为什么百度只收录一个首页?
  5. 力争应届高校毕业生就业率70%
  6. 盘点多边形战士 Polygon 的扩容解决方案
  7. CRMEB知识付费系统安装支付宝支付报错invalid [default store dir]: /tmp/
  8. QQ总是登陆不上,显示(连接服务器超时,请重新登录,错误代码(0*00000001)
  9. matlab 线性系统响应,MATLAB实验二线性系统时域响应分析.doc
  10. 用Python爬取动态加载的诸如百度的图片