背景
大部分业务监控都是业务同学自己按照需求配置,业务间的监控一般无法感知到。这种玩法存在一些问题:

  • 日志格式不标准,大部分都是自己用

  • 监控配置繁琐,阈值调整反反复复,新产品上线需要从头来一遍

  • 业务间的监控不好做,彼此口径不统一

  • 应急处理时不同平台间无法统一口径

主要痛点就是监控零散、配置繁琐、应急效率低。

新生态业务监控
为解决目前的监控痛点,我们推出了基于两码标准建设的业务监控lego。通过两码的标准化管控,实现业务口径的统一、标准管理。

所谓生态是指监控体系的发现、定位、变更、预案等,基于这套标准,大家统一口径后能实现互通。

下面详细介绍新业务监控的玩法。

数据标准化
通过标准日志格式,来统一管控业务唯一标识。不同系统通过业务标识来沟通,达到口径一致的效果。标准日志格式主要包括:

  • 非扩展区域,每个字段的含义都是固定的,可枚举的字段,枚举值是固定

比如 产品码=收钱码,事件码=支付,结果=成功,就很容易计算出"收钱码业务的支付笔数"。

  • 扩展区域,支持业务自定义数据打印,但是必须可理解/管控。 以服务端日志举例, 以K-V形式打印(key1=value1, key2=value2,…),其中key 要求提前申请,确保同样语义的业务含义的key定义是一致的。比如 pid=2088xxxxxxx(张三烧烤的店铺ID),再结合非扩展区域,就可以衍生出"张三烧烤的收钱码的支付笔数"。

目前在蚂蚁,SPM、两码规范,分别从客户端/服务端视角进行了业务身份的定义,在这里不进行展开,相关文档见 https://lark.alipay.com/dc/antlogmng/vm5i1z https://lark.alipay.com/architecture/doc/hfsvf3

通过标准日志格式,我们就有了最基础的能力:

  • 统一的业务语义

  • 清晰的产品地图

  • 自动的生命周期管控

数据模型化
基于标准数据,监控系统就可以设计出一套模型,标准数据进入模型后,自动完成监控部署。监控领域模型有兴趣可以看下lego的专题文章。

监控部署自动化
有了标准的日志,日志的切分就是标准化的,数据计算也是标准化的;通过标准数据建模,就可以自动完成监控初始化。简单说就是:

日志上线后,数据采集、数据计算、数据建模就自动完成了。

智能算法引擎
通过机器学习的能力来简化人工调整阈值的过程,lego的算法模块包括离线和实时两部分,通过协作完成动态阈值调整。


应急体系
有了业务唯一标识,不同平台间的互通就具备了。lego的监控告警发生后,就可以用唯一标识去查询其他兄弟平台的数据,提供给应急同学分析,达到快速应急恢复的要求。

两码一号(九):业务监控相关推荐

  1. 两码一号:整体方案回顾

    前言 17财年蚂蚁启动了"两码一号"项目,旨在建立蚂蚁全站统一的业务标识及关联方式,为全站的产品事件数据在业务信息层面打通全站脉络.经过一段时间的打磨和锤炼,我们对两码一号又有了全 ...

  2. 两码一号(四):蚂蚁产品大盘

    前言 蚂蚁有没有所有产品的地图信息? 这个产品的问题应该找哪位产品经理? 这个产品倒底是在线上还是已经下线了,在哪能查到? 从哪里能找到一个产品的具体说明.关联应用.架构师?等等诸多问题. 这些问题是 ...

  3. 两码一号(二): 两码生态

    前言 2017年是两码的生态之年,伴随着资金线两码95水位的收官,两码的工作重心,也从蚂蚁全站重资产投入过渡到轻资产消费能力构建上.' 两码搭台,生态唱戏,价值共享 ,共守共建'是我们围绕生态构建两码 ...

  4. 两码一号:两码定义原则

    背景 本文主要是阐述一件事情就是产品.事件定义的原则,即什么样的情况下才能定义成一个产品,或是一个事件. 涉众:蚂蚁全站产品.业务方.技术方.运营方.公司内任何对产品码事件码定义感兴趣的人员. 蚂蚁产 ...

  5. 主动做了业务监控,产品经理对我竖起大拇指

    监控,一直是个可以聊很久的话题.除了系统监控,还有一个往往容易被忽略,今天我们就来聊聊这个容易忽略的业务监控. 监控什么? 作为开发人员,不仅仅是把功能开发出来就行了,对于你负责的产品或者模块,你需要 ...

  6. 企业如何做好业务监控​?

    新钛云服已累计为您分享653篇技术干货 为什么要做业务监控? 通常情况下,大部分企业都会做基础设施监控,觉得做好基础设施监控就可以解决大部分问题.至于业务方面监控,等有人来说了再处理就行.殊不知这种想 ...

  7. 《一文带你读懂:云原生时代业务监控》

    点击上方蓝字关注我们! 对业务来说,完备的应用健康性和数据指标的监控非常重要,通过采集准确的监控指标.配置合理的告警机制,我们能够提前或者尽早发现问题,并做出响应.解决问题,进而保证产品的稳定性,提升 ...

  8. 《企业内部控制应用指引第7号——采购业务》全文及解读

    针对财政部颁发的<企业内部控制应用指引第7号--采购业务>(全文附后),财政部会计司对主要条款进行解读,尤其在采购流程中的风险和管控措施方面,给出较为具体的分析,现整理推送,旨在公益分享学 ...

  9. 腾讯业务监控的修炼之路

    作者丨李光:现任职于腾讯社交网络运营部/织云产品团队,负责织云监控告警平台规划与运维新产品开发工作,具有多年业务运维.运营规划经验. 概述 本文作为监控告警产品的专题系列的第二篇文章,主要讨论的是IA ...

最新文章

  1. [转] 前端实现文件的断点续传
  2. java threas.jion_Java Thread.join详解
  3. thinkphp mysql批量入库_ThinkPHP3.2框架使用addAll()批量插入数据的方法
  4. IDEA第一个mybatis程序 mybatis增删查改操作 mybatis的map模糊查询
  5. java 多重属性_最全面的44个Java 性能调优细节
  6. Qt学习笔记-http服务的初步认识(使用程序下载网站上的图片)
  7. thoughtworks笔试整理【转载】
  8. 金仓数据库 KingbaseGIS使用手册(2. 简介)
  9. iVMS-4200 Vs区别_45466足球推荐分析 法甲 21:00 安格斯 VS 梅斯
  10. 进一步认识Deepchem的分子特征化: 将化学分子结构作为到随机森林\CNN\RNN\GNN等机器学习模型输入的三种方法
  11. kubeadmin部署k8s
  12. android camera2 API流程分析
  13. 无线WiFi安全渗透与攻防(一)之无线安全环境搭建
  14. 可汗学院统计学 task 3
  15. python入门笔记(1)
  16. 命名----做程序员的基本要求
  17. JS中将对象转化为数组
  18. h5新增标签和表单属性
  19. 【Axure视频教程】中继器缩略图片轮播
  20. 微型计算机应避免强磁场的干扰吗,2013年计算机一级B冲刺试题七及答案解析

热门文章

  1. VMware的磁盘格式化
  2. 2022年华为杯中国研究生数学建模竞赛B题思路
  3. 微信小程序推广方式有哪些?
  4. 硕正插件安装不上(重置之后还不行)
  5. [Shell命令] tar -cvf -xvf 打包解包文件夹
  6. ps 索引模式 导出变成了白色背景
  7. 中证登姚前演讲:数字资产是数字金融的核心(全文)
  8. WebSocket长连接因为网络波动而导致客户端的“假离线”---问题发现、分析到解决
  9. 请勿关闭计算机还原更改要多久,电脑显示:配置windows更新失败,正在还原更改,请勿关闭计算机怎么办...
  10. 使用 IntraWeb (22) - 基本控件之 TIWCalendar