确保您的警报有意义且不仅仅是噪音的最终警报策略是什么?

生产监视对于应用程序的成功至关重要。 从手动查看日志,通过使用第三方工具或本地解决方案–到我们每个人都有。 但是,无论它们是什么,都有一些元素和准则可以帮助我们充分利用我们的监视技术。

为了帮助您开发更好的工作流程,我们确定了警报应具有的重要意义。 糖,香料和所有监控物。 让我们检查一下。

目录

  1. 及时性
  2. 语境
  3. 根本原因
  4. 通讯
  5. 问责制
  6. 处理中
  7. 整合方式

1.及时性–知道一旦发生不良情况

我们的应用程序和服务器始终处于运行状态,并且在任何时刻都在发生很多事情。 这就是为什么在新错误首次引入系统时,紧跟新错误的重要性。

即使您喜欢浏览日志文件,它们也只会让您回顾应用程序,服务器或用户的情况。 有人会说计时就是一切,而实时获取警报对于您的业务至关重要。 我们希望在问题严重影响用户或我们的应用程序之前予以解决。

这是第三方工具和集成的宝贵之处,可在发生任何事情时立即通知我们。 当警报在03:00 AM或夜间外出时,此概念听起来可能不太好,但我们不能否认其重要性。

“一切安好”

TL; DR –在生产环境中,每一秒都很重要,您想知道何时引入错误。

2.背景是理解问题的关键

知道何时发生错误很重要,下一步是了解错误发生的位置。 xMatters的高级Java开发人员Aleksey Vorona告诉我们,对于他的公司而言,警报是最重要的因素。 “一旦在应用程序中引入错误,您就希望拥有尽可能多的信息,以便您能够理解它。 此上下文可以是运行应用程序的计算机,用户ID和拥有该错误的开发人员。 您拥有的信息越多,越容易理解该问题。”

上下文就是一切。 当涉及到警报时,它涉及的是不同的值和元素,可以帮助您准确了解发生了什么。 例如,如果您知道新部署是否引入了新错误,或者在记录的错误或未捕获的异常数超过特定阈值时获得警报,将使您受益。 您还需要知道某个错误是新错误还是重复发生,以及是什么原因使其出现或再次出现。

进一步细分,我们希望在每个错误中看到5个关键值:

  • 系统中引入了什么错误
  • 它发生在代码中
  • 多少次发生的每个错误,什么是它的紧迫性
  • 什么时候第一次看到此错误
  • 是最后一次发生这种错误

这些是我们在OverOps上必须面对的一些问题,试图帮助开发人员,经理和DevOps团队自动化其手动错误处理流程。 由于每个团队都有自己独特的处理问题的方式,我们创建了可自定义的仪表板,您可以在其中快速查看每个错误的前5个值。 OverOps使您可以快速识别关键错误,了解它们在代码中的位置,并知道它们是否为关键错误。

TL; DR –您需要知道什么,在哪里,发生多少错误以及何时发生错误和异常,以了解其重要性和紧迫性。

3.根本原因检测–为什么首先发生?

现在,我们正在以适当的上下文获取实时警报,是时候了解它们为什么首先发生的原因了。 对于大多数工程团队而言,这将是时候查看日志文件并开始在我们的日志干草堆中搜索该针了。 也就是说,如果错误是首先记录的。 但是,我们看到表现最好的团队的做事方式有所不同。 完整的研究报告将于10月25日在我们即将举行的网络研讨会上分享。 检查一下 。

OverOps自动根本原因(ARC)–整个调用堆栈中的完整源代码和变量状态

通常,应用程序每天会引发成千上万甚至数百万个错误,而要以一种可扩展的方式深入其真实根源而又又不会浪费大量的时间来寻找它,这是一个真正的挑战。 对于像Intuit这样的大公司,搜索日志没有帮助。 Intuit的质量首席工程师Sumit Nagal指出:“即使我们确实在原木中发现了问题,但其中一些还是不可复制的。 在这些领域中寻找,复制和解决问题是一个真正的挑战。”

Intuit选择使用OverOps ,而不是浏览日志以尝试查找关键问题并关闭带有标签“无法复制”的标签。 借助OverOps,开发团队能够立即确定每个异常的原因以及引起该异常的变量。 只需单击一下,公司就能从根本上改善开发团队的生产力。

TL; DR –找出根本原因以及完整的源代码和变量,将帮助您理解为什么首先发生错误。

4.沟通–使团队保持同步

没有开发团队中的所有人,您就无法处理警报。 因此,在警报方面,沟通是关键所在。 首先,将警报分配给合适的人很重要。 团队应该都在同一页面上,知道他们每个人负责什么以及谁在处理应用程序的哪个元素。

一些团队可能认为此过程不如应有的重要,他们分配不同的团队成员仅在“离开”后才处理警报。 但是,这是一种不好的做法,并且可能不如某些人希望的那样有效。

设想以下情况:今天是星期六晚上,应用程序崩溃了。 警报已发送给公司中的各个人员,一些团队成员正试图提供帮助。 但是,他们没有处理应用程序或代码的那部分。 现在,您有7个团队成员试图互相交谈,试图了解解决该问题需要做什么。

这是由于项目早期部分缺乏沟通,导致团队成员在发出警报时不知道是谁负责,部署了什么或如何处理事件。

TL; DR –通信很重要,在错误处理过程中,您应该努力使其变得更好。

5.问责制–确保由正确的人来处理警报

继续上一节中的交流主题,此概念的重要组成部分是知道警报已到达正确的人,并且他/她正在照料它。 我们可能知道哪个团队成员是代码破译之前最后处理代码的人,但是他现在是负责修改代码的人吗?

Aleksey Vorona在接受我们采访时指出,对他而言,重要的是要知道谁是每个警报或问题发生的负责人。 编写代码的人比团队的其他成员更有可能更好地处理它,并且与其他人相比,他最有可能应用更快的修复程序。

最重要的是,只要知道谁在做什么,您做什么都不重要。 否则,您的警报可能会堆积起来,并且需要一段时间才能从已知问题中筛选出关键警报,这将导致用户不满意,性能问题甚至服务器和系统完全崩溃。

TL; DR –团队成员应对整个开发过程中的代码负责,即使代码已交付生产。

6.处理–警报处理周期

您需要团队成员进行沟通和共同努力,这很棒。 但是,您仍然需要创建团队渴望实现的游戏计划。 游戏计划的一个很好的例子是拥有明智的异常处理策略,而不是孤立地处理每个事件。

异常是生产环境的核心要素之一,它们通常表示警告信号,需要引起注意。 当异常被滥用时,它们可能会导致性能问题,在您不知情的情况下伤害应用程序及其用户。

您如何防止它发生? 一种方法是在公司中实施“收件箱零”政策的“游戏计划”。 在此过程中,我们会在引入独特异常后立即对其进行处理,确认,妥善处理并最终消除它们。

我们研究了公司如何处理其例外情况,发现有些公司倾向于在“较晚”的日期对待它们,就像电子邮件一样。 我们发现,实施收件箱零策略的公司对他们的应用程序如何工作有更好的了解,更清晰的日志文件以及开发人员可以将精力集中在重要的项目和新的项目上。 关于它 。

TL; DR –为您找到正确的游戏计划,并将其实施为更好的警报处理流程的一部分。

是的,请

自行处理警报可能会起作用,但是从长远来看,它无法扩展。 对于服务超过2300万X1 XFINITY设备的康卡斯特(Comcast)这样的公司,几乎不可能知道哪些警报至关重要,应该尽快处理。 在这里,第三方工具和集成将是您最好的朋友。

将OverOps与他们的自动部署模型集成之后,Comcast能够对他们的应用服务器进行检测。 该公司每周都会部署其应用程序的新版本,而OverOps可以帮助他们确定Comcast不会预见的未知错误情况。 观看 Comcast Cable产品工程执行总监John McCann讲解OverOps如何帮助公司自动化其部署。

集成也可以在您当前的警报工作流程中有所帮助。 例如,xMatters的Aleksey Vorona致力于开发统一的IT警报平台,并开发了与OverOps的集成 。 通过集成,公司可以访问关键信息,例如导致每个错误的变量状态,并向合适的团队成员发出警报。

TL; DR –使用第三方工具和集成来增强您的警报并使它们有意义。

最后的想法

警报很重要,但是它不仅仅具有将警报添加到您的应用程序中的功能。 您想确保您首先了解它们发生的原因,如何处理它们以及如何充分利用它们的信息(相对于仅知道发生了一些不好的事情)。 我们的基本配方旨在帮助您创建更好的流程,它正在等待您添加对您的团队,公司和工作流程至关重要的特殊成分。

您最需要注意的是什么? 我们希望在下面的评论中听到有关它们的信息。

翻译自: https://www.javacodegeeks.com/2017/10/meaningful-alerts-7-must-ingredients-prevent-production-crisis.html

有意义的警报:防止生产危机的7种必不可少的成分相关推荐

  1. 对警报线程池的警报线程_有意义的警报:防止生产危机的7种必不可少的成分...

    对警报线程池的警报线程 确保您的警报有意义且不仅仅是噪音的最终警报策略是什么? 生产监视对于应用程序的成功至关重要. 从手动查看日志,通过使用第三方工具或本地解决方案–到我们每个人都有. 但是,无论它 ...

  2. LES物流执行系统和MES生产管理系统中几种常用名词解释

    1.JIT(Just In Time,准时制生产方式) JIT又称作无库存生产方式(stockless production),零库存(zero inventories),一个流(one-piece ...

  3. 【渝粤题库】陕西师范大学152208 公共危机管理

    陕西师范大学 内 部 题 库 教育 (yuyueshool) 编制 陕西师范大学 内 部 题 库 教育 (yuyueshool) 编制 陕西师范大学 内 部 题 库 教育 (yuyueshool) 编 ...

  4. 渝粤题库 陕西师范大学 《危机管理》作业

    <危机管理>作业 一.填空题 1.文化冲突的两种类型是(     )和(      ). 2.日本危机处理专家泷泽正雄认为危机的定义是(      ) . 3.突发事件强调的是(      ...

  5. 【渝粤题库】陕西师范大学202151危机管理 作业(专升本)

    <危机管理>作业 一.填空题 1.文化冲突的两种类型是( )和( ). 2.日本危机处理专家泷泽正雄认为危机的定义是( ) . 3.突发事件强调的是( ),紧急事件则强调的是( ),这两者 ...

  6. 教授专栏08| 徐岩:青年震荡与青年危机

    文 / 徐岩教授 千禧世代:成长中的中流砥柱 从1981年至2000年出生(即今年20至40岁左右)的千禧世代已经成为地球上最大的人口分布群体,在世界总人口中每三个人就有一个属于千禧世代.因为千禧世代 ...

  7. 《ERP123》——销售生产采购计划管理

    发表于2006-4-9 14:22:04 <ERP123>--销售生产采购计划管理  清华大学出版社 崔晓阳 ●        ERP2是实施ERP的第二步 ●        ERP2体现 ...

  8. 【运筹学】对偶理论 : 对偶问题引入 ( 生产产品线性规划 | 设备租赁线性规划 | 对偶问题引入 )

    文章目录 一.工厂生产产品模型 二.问题一 : 生产利润最大化 三.问题二 : 设备出租问题 四.对偶问题引入 一.工厂生产产品模型 工厂生产 甲 , 乙 两种产品 ; 生产每种产品 , 都需要使用 ...

  9. 试列出种计算机组生产率的公式,农业机械化生产学思考题

    从可持续观点,今后在农业机械化发展中要注意什么问题? 7. 我国有哪些典型的机械化农业生产体系?试指出北京郊区在相同的自然经济条件下,为什么会出现一年两熟和两年三熟机械化生产体系?各有何优缺点? 第二 ...

最新文章

  1. .tar.gz mysql 安装_mysql tar.gz 版本 linux系统的安装-Go语言中文社区
  2. android 相片裁剪空间,科学网—根据需要的空间范围对目标图层进行空间裁剪 - 孙露的博文...
  3. 剑桥大学在机器人,半导体,5G,区块链方面的研究实验室
  4. 【物联网工厂大揭秘】电路板、数传模块 是怎么生产制造出来的?
  5. MYSQL的replace into
  6. Entity Framework5.0运行时错误ObjectStateManager 中已存在具有同一键的对象
  7. linux定时器tinner,第三章 套接字相关数据结构--基于Linux3.10
  8. hbase 操作指令集合
  9. 韩国大面积断网事情,可能遭受了DDoS攻击,网友:真的是黑客攻击吗?
  10. Bresenham直线算法与画圆算法
  11. Service Manager流程,派BC_REPLY,唤醒FregServer流程,返回BR_TRANSACTION_COMPLETE,睡眠等待proc-gt;wait...
  12. Robot Framework自动化测试(一)---第一个脚本
  13. matlab实验 信号处理,数字信号处理MATLAB实现与实验
  14. java 读取txt乱码问题_Java读取txt文档乱码解决方法
  15. PDF文件如何转CAD格式?教你几个简单有效的方法
  16. 新斗罗大陆游戏怎么找回服务器,新斗罗大陆宗门战怎么打 新斗罗大陆手游宗门战打法技巧...
  17. oracle sql计算百分比,Oracle sql百分比问题 - oracle 使用笔记
  18. 基于Java+Dubbo设计的智能公交查询系统
  19. rf 遍历列表_RF之关键字、变量、循环
  20. 推荐7款非常棒的将代码片段转换成图片的工具

热门文章

  1. 爱奇艺:空有奈飞梦,没有奈飞命
  2. 【IDEA 断点调试】
  3. csv转为utf8编码_将utf-8编码的csv文件转换为gb2312编码的csv文件
  4. 百鬼夜行第一章:小马过河
  5. 青龙面板—安装dailycheckin库,自动签到
  6. Android中如何加载大图片和长图片
  7. 小红书2023春节消费报告解读:大众消费意愿集中释放,表达和分享成为新经济消费诉求
  8. vi etc yum mysql_修改yum的更新源vi /etc/yum.repos.d/CentOS-Base.repo
  9. 中谷教育python视频_3.Python 中谷教育python视频教程零基础自学百度云资源下载
  10. IT项目管理作业:projects、programs、portfolio、operations与OPM