数十年来,IT 管理员一直使用故障指标来跟踪其基础架构的可靠性和性能,无论是 PC 硬件、网络还是服务器。

毕竟,大多数专家都同意,要管理好某件事,就需要对其进行衡量。

数据工程师和 DataOps 团队还采用故障指标来衡量其数据和数据管道的可靠性,以及故障排除工作的有效性。

但是,当涉及到数据时,某些指标比其他指标更相关和有用,尤其是在当今云密集的环境中

这个博客对当今使用的十几个最常见的故障指标进行排名,按照对数据工程师的相关性和重要性排序,从最利基和最不相关的指标开始,最后是所有 DataOps 团队都应该跟踪的最重要的指标。之后,我将讨论像HK-Acceldata这样的连续多维数据可观察性平台如何在帮助数据工程师和数据可靠性工程师优化这些指标方面发挥重要作用。

12. 平均无故障时间 (MTTF)

从历史上看,该术语衡量的是正常操作条件下不可修复的硬件或设备的平均寿命。MTTF 对于监督任务关键型数据中心和本地数据服务器的数据工程师可能很有用,他们希望围绕硬盘或固态驱动器的预测寿命规划其硬件更新,其次是网络集线器、交换机和卡将数据从一个节点移动到另一个节点。

当然,此类硬件的责任通常主要由 IT 或网络管理员负责,从而降低了 MTTF 对数据工程师的重要性。随着许多组织将数据转移到托管提供商或云原生​​ Web 服务,MTTF 也变得越来越无关紧要。它通常也不如我稍后讨论的平均故障间隔时间( MTBF ) 有用。

11. 平均检测时间 (MTTD)

一种在网络安全界流行的指标,可以帮助衡量您的监控和可观察性平台以及自动警报的有效性。然而,过分强调 MTTD 可能适得其反。例如,针对最短 MTTD 进行调整的监控系统可能会变得过于迅速和过于频繁地发出警报。这可能会为小问题或彻底的误报创建一波警报潮。这会使数据工程师士气低落,并造成严重的警报疲劳问题。

此外,最好的连续可观察性平台使用机器学习或高级分析在故障和瓶颈发生之前预测它们。MTTD 没有捕捉到能够进行此类预测的数据可观察性系统的优越性。

10. 平均识别时间 (MTTI)

MTTI 与上述 MTTD 大部分可互换,具有相同的优点和缺点。

9. 平均验证时间 (MTTV)

这通常表示解决或恢复过程的最后一步。MTTV 跟踪从部署修复程序到证明修复程序已解决问题的时间。在当今复杂的数据管道和分布广泛的异构数据存储库中,手动减少 MTTV 实际上是一项重大挑战。可能对数据工程经理有用,但对其他人很少。

8.平均知道时间(MTTK)

测量发送警报与发现问题原因之间的差距。这可能是跟踪 DataOps 团队取证技能的好方法。否则,MTTK 是一个相当小众的指标。

7. 平均确认时间 (MTTA)

跟踪从检测到故障到开始解决问题的时间。与 MTTK(平均了解时间)一样,此细粒度指标可以帮助跟踪和提高待命 DataOps 团队的响应能力,还有助于确保及时通知内部客户和用户他们的问题正在得到处理。MTTA 与 MTTK 或 MTTR(平均响应时间)配合使用时效果最佳。这确保了随叫随到的数据工程师不会通过例如立即响应警报来玩弄系统,而是以更悠闲的节奏开始他们的实际工作。

6. 平均响应时间 (MTTR)

MTTR 的较小版本,测量您的团队响应寻呼机警报或电子邮件所需的时间。该指标可用于跟踪和激励数据工程团队。但它是一个相当精细的指标,最好与众所周知的 MTTR(平均恢复/解决/修复时间)结合使用。这样,您可以跟踪 DataOps 团队响应问题所需的时间以及解决问题所需的时间。

5. 服务事件之间的平均时间 (MTBSI)

这是通过将平均故障间隔时间 (MTBF) 和 MTRS/MTTR(平均恢复服务时间/平均恢复时间)相加来计算的。这是一个重要的战略指标,可以与您的内部客户共享,它可以捕捉您的基础架构的可靠性以及您的 DataOps 团队在正确诊断根本原因时的响应能力和技能。

4. 平均恢复服务时间 (MTRS)

对于专注于客户性能和正常运行时间的数据工程师来说,这是一个有用的以业务为中心的指标。它可以应用于本地数据服务器和在公共多租户服务上托管或运行的基础架构。在这些情况下,它与平均恢复/解决/修复时间 (MTTR) 同义。然而,它对数据质量问题的不适用性使其比 MTTR 下降了几个档次。

3. 平均故障间隔时间 (MTBF)

介词有什么不同。平均故障时间 (MTTF) 仅适用于无法修复的硬件,使其成为一个相当小众的指标。与此同时,平均故障间隔时间( MTBF ) 可以应用于可修复的硬件和软件,除非它已被彻底损坏,否则可以重新启动。例如,MTBF 将是跟踪数据应用程序和数据服务器崩溃的重要指标。这种灵活性使 MTBF 成为所有数据团队都应采用的关键指标,以提高团队绩效并改善与业务方客户的关系。

MTBF 不应包括修复硬件或恢复/恢复服务的时间。考虑到这一点,数据工程师将使用诸如 MTBSI(服务事件之间的平均时间)之类的 KPI,其中包括 MTBF 和 MTTR(平均恢复时间)或 MTRS(平均恢复服务时间)。

2. 平均恢复/解决/恢复/修复时间 (MTTR)

这些 R 开头的单词中的每一个之间的差异是微妙的,但在数据上下文中是显着的。您是否正在跟踪将中断的数据管道重新上线需要多长时间?使用恢复或还原。或者您是否需要衡量定位和修复数据错误或其他数据质量问题需要多长时间?使用解决或恢复。

MTTR 包括诊断症状或一般问题、执行根本原因分析 (RCA) 以找到具体原因并修复它的时间。它几乎是 MTRS(平均恢复服务时间)的代名词。

MTTR 可能是 ITOps 和 DevOps 社区中最著名的失败指标。它可用于提高 DataOps 团队绩效,也可与您的内部用户共享。

也许令人惊讶的是,我只是将它列为数据工程师和其他 DataOps 团队成员的第二重要指标。

1. 平均停机时间 (MDT)

最大限度地减少数据停机时间,无论是由瓶颈还是不可靠的数据引起的,都是最接近数据工程总体目标的事情。零停机时间是目标,尽管这显然实际上是无法实现的,尤其是当您同时包括计划内和计划外停机时间时。平均停机时间也可以反向表示为正常运行时间百分比,目标通常是 99.999% 的可用性,或五个 9 的高可用性。

连续数据可观察性如何帮助优化 DataOps 并减少数据故障

优化您的故障指标可以通过大量的人工工程工作来完成,或者以低得多的操作、自动化和可靠的方式来完成。实现后者需要借助 HK-Acceldata 等现代连续数据可观察性平台。以下是我们的平台如何帮助数据工程师完成典型的恢复生命周期:

平均故障时间 (MTTF):HK-Acceldata全面的多维数据可观察性持续监控和验证端到端的数据管道,以解决性能瓶颈和数据可靠性问题。如果硬盘发生故障,HK-Acceldata 将立即识别并通知数据工程师,以便他们可以打开故障转移服务器。

平均检测时间 (MTTD) 和平均识别时间 (MTTI):当超过阈值时,HK-Acceldata 会立即发送警报。这些阈值可以由管理员手动设置,也可以由 HK-Acceldata 根据历史分析建议。

平均确认时间 (MTTA) 和平均响应时间 (MTTR): HK-Acceldata 使用统一的仪表板自动化并加速异常检测和工作流程,数据工程师可以使用该仪表板深入分析和诊断问题并应用修复。

平均了解时间 (MTTK): HK-Acceldata 提供对数据使用和数据热点的深入可见性,通过基于历史比较、环境健康和资源争用的事件关联来加速根本原因分析 (RCA)。阅读我们与电信运营商 Robi Axiata 的案例研究,该研究使用 HK-Acceldata 将其 RCA 时间从平均六周缩短到一分钟。

平均恢复/解决/恢复/修复时间 (MTTR) 和平均恢复服务时间 (MTRS): HK-Acceldata 不仅可以加速 RCA,它还提供了一个统一的仪表板,数据工程师可以通过该仪表板通过运行手册应用修复。

平均验证时间 (MTTV):像 HK-Acceldata 这样的高级可观察性平台可以通过多级监控和错误检查自动验证不存在数据错误或性能瓶颈。这可以显着降低 MTTV。

平均服务事件间隔时间 (MTBSI) 和平均故障间隔时间 (MTBF): HK-Acceldata 自动执行预防性维护、性能调整和问题修复。它还可以在潜在的问题变成实际的瓶颈和服务故障之前发现它们,从而使数据工程师能够应用先发制人的修复。

平均停机时间 (MDT):通过在整个数据管道中大规模自动化数据质量和可靠性,HK-Acceldata 有助于减少事件数量和停机时间,同时减少数据工程师的运营开销。当事件确实发生时,HK-Acceldata 为数据工程师提供了快速识别和解决问题的工具。

立即使用 HK-Acceldata安排您的演示,了解我们的平台如何帮助您的 DataOps 团队优化每个重要的数据 KPI 和故障指标。

每个数据工程师必须关心的 12 个关键指标相关推荐

  1. 电子工程师最关心的12个问题

    中国缺少什么样的电子工程师?中国缺少满嘴胡须的电子工程师:中国缺少坐轮椅的电子工程师:中国缺少在一个行业专注几十年的资深电子技术专家:中国缺少知识全面,做事精密细致的电子系统架构师.中国有多少工作很多 ...

  2. 决定零售商生与死的12大关键指标

    数据分析入门与实战  公众号: weic2c 决定零售商生与死的重要线在哪里?有哪些指标可以帮助零售商转危为机? 一.营业额1.营业额反映了店铺的生意走势.针对以往销售数据,结合地区行业的发展状况,通 ...

  3. 如何成为一名数据工程师

    对精通数据的工程师的需求将会迅速增长.现如今情况就是这样,无论您的公司做什么,为了在当今激烈竞争环境中取得成功,您需要一个强大的基础架构来存储和访问您公司的数据,而您从一开始就需要它. 然而,数据工程 ...

  4. 如何成为一名大数据工程师?

    未来,对熟练的大数据工程师的需求将急速增长.现实的情况是这样的,无论公司属于哪个行业,要想在当今竞争激烈的市场环境中取得成功,需要一个强大的软件架构用来存储和访问公司数据,最好从公司创立一开始就要搭建 ...

  5. 数据工程师做什么?要怎么样成为数据工程师?

    未来,对熟练的大数据工程师的需求将急速增长.现实的情况是这样的,无论公司属于哪个行业,要想在当今竞争激烈的市场环境中取得成功,需要一个强大的软件架构用来存储和访问公司数据,最好从公司创立一开始就要搭建 ...

  6. 做为一名大数据新手,如何成为大数据工程师?附上学习路线

    这几年来大数据非常的热门,到处都有大数据分析的演讲. 演讲内容通常是宣传各种大数据分析成功的案例. 但实际上大数据该怎么做呢? 大部份的讨论似乎都仅止于怎么搜集大量的数据, 然后用个工具(hadoop ...

  7. 在大厂的数据工程师工作日常工作

    问题导读: 1.本人大数据工作内容有哪些? 2.高级/资深大数据架构涉及哪些内容? 3.大数据学习路线是什么? 4.有哪些可以建议给到在学习路上的小伙伴? 网上看到一些想进名企的小伙伴,对于名企的工作 ...

  8. 大数据工程师手册:全面系统的掌握必备知识与工具

    作者 | Phoebe Wong 译者 | 陆离 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 前言 如何才能成为一名真正的"全栈(full-stack)&quo ...

  9. 【专访英特尔高级首席工程师戴金权】普通数据工程师,如何玩转深度学习?

    记者 | 白羽 几乎每周,人工智能深度学习,总会在某个领域有新的技术突破,新的亮眼成果出来. 不过,这些最新的突破和成果,更多还是在深度学习的各大社区流动,更多是被顶尖教授.学者所掌握和应用,对于普通 ...

最新文章

  1. 什么是断点,为什么要设置断点?断点的作用是什么?
  2. shell之$@和$*的区别
  3. 分布式ID生成器(来源:架构师之路,2017-06-25 58沈剑 架构师之路)
  4. java试讲题目,常见的Java面试题汇总
  5. 第 2-4 课:克隆和序列化 + 面试题
  6. postfix 过滤中文内容
  7. Jquery实现验证码功能 完美效果 jsp php 页面均可调用
  8. python+selenium自动化测试-Windows环境搭建
  9. Maven-Eclipse使用maven创建HelloWorld Java项目,使用Junit-4.11的注解
  10. 线性代数及其应用:绪论
  11. 图解迷宫算法(广度优先遍历)
  12. Caddy服务器代理
  13. 前端请求报错Provisional headers are shown接口请求失败
  14. 全国计算机技术与软件专业技术资格(水平)考试
  15. 计算机扩展屏幕管理软件,小智桌面 - 桌面助手 - 桌面管理美化软件
  16. 关于protel 99 SE如何建立自己的元件库,导入Sch文件file is not recognized.
  17. 需求分析和常见的需求问题解决
  18. 前端传输JSON格式数据 居然尾随了一个等于号...
  19. Camtasia Studio2021-激活码-序列号-秘钥中文版下载安装最新详情介绍
  20. 山东初级消防设施操作员考前必背考点,模拟真题及答案

热门文章

  1. OpenJudge1.3 答案
  2. UC HD 1.5:提高在iPad上的阅读体验
  3. IO-用 fgets函数 计算文件大小
  4. ChatGPT体验:https://m.aiask.chat/
  5. 将你的电脑变成服务器!花生壳让你的电脑拥有自己的域名
  6. 使用 VSCode 在 Mac 上配置 C/C++ 调试环境
  7. python 求 gamma 分布_Python stats.gamma方法代码示例
  8. 辅助?外挂?浅聊程序员与脚本工程师的相爱相杀
  9. 7.1 Git 工具 - 选择修订版本
  10. MFC对话框中的汉字出现问号的解决办法