昨晚跟浙江移动晓征总畅谈很久,从狭义AIOps做根因分析引出,聊了AIOps的作用,跟SRE的关系,实践的总结,有很多共鸣,也碰撞出很多有意思的观点。

结合晓征总整理的,和我记录的,形成一篇文章,算是抛砖引玉,在AIOps经历了几年实践的基础上,再次探讨下AIOps这个话题。

以下是正文:

和兄弟们和以及江湖上的专家研讨了一番,居然哭笑不得地得出一个初步结论,抛抛砖:狭义上的AIOps存在严重泡沫

几个观点:

第一、靠AIOps做根因定位靠不靠谱?

AI无论基于机器学习还是深度学习,都依赖于大量的数据。但运维场景往往需要从一次故障中汲取改进的力量,而这个是典型的小数据量建模,需要大量的常识、经验,需要用到归纳和演绎能力,而这些恰恰是人类的优势,现阶段的AI还难以支撑。

所以,实践中,在故障时,再依赖什么AIOps做根因定位,实践中没有成功过。原因也不难理解,因为每次故障的原因,都会跟之前不同,让AI去识别一个从来没见过的故障,也基本不太可能。

举个例子,如果让AI从图片中识别出一只猫?但是你从来没有给AI算法足够的猫的图片样本去学习,怎么能让AI知道什么是猫?

故障时的原因也是如此,如果遇到一个从来没触发过的因素,这时靠AI在这么复杂的体系里去识别这个因素就是根因,基本不太可能。

可行思路是什么呢?通过AI快速识别出局部最小粒度的故障,比如磁盘故障,CPU高,进程响应异常等,或网元粒度的故障,比如数据库异常、服务器异常、dns异常等;

然后咋做呢?目标是不定位,不处理,要让软件自身具备自愈能力,也就是反脆弱的能力,切换、限流、熔断,确保最快的速度隔离掉这些局部问题。

注意这一点需要站在客户感知视角,从应用到基础平台南北向端到端协同,来确定最佳隔离方案,单独站在网元视角来做,有效果,但一定不彻底。

这也是我常说的,云化实现了架构分层解藕,康威推进了组织内聚自治,但没有端到端的协同机制(架构设计上,故障响应上),这些组织将迅速从屠龙勇士蜕变成恶龙。

第二、狭义AI效果最好的是感知,是预测

运维中的关键一环(高价值密度)是故障应急,这个阶段又分为感知(眼)、分析(脑)和处理(手)三步。现阶段狭义AI效果最好的是感知(预测本质上属于感知plus)。

分析这一步遇到了二十年没突破的cmdb哲学问题,我们已经基本放弃了,同时也已经有其他路子可以替代,实操效果还不错,但主要还是用到广义ai(人类主导的基于规则的建模)而不是狭义ai。

第三阶段主要是SRE的代码作用,AI基本用不上。此外,运维数字化、智能化、研发化转型的基础-数据汇通+能力融通+组织拉通,也同样是依赖于人的因素啊。

第三、AIOps、DevOps和SRE是什么关系?

AI是眼睛,发现问题,通过SRE的OPS手段、提供架构上的逃生通道,通过SRE的DEV手段,让线上代码真正解决问题。

浙江移动提出的AIOpsDev就是这个思路,通过AI发现问题,用SRE作为Dev的手段提供代码化的自动化和反脆弱的能力,依靠SRE作为Ops的经验和知识创造逃生通道、设置执行规则。

其实我在17年的时候也同样表达过类似的思路,当时是思考AIOps的意义是什么。当时还写过一篇文章《AI时代,我们离AIOps还有多远?》,大家有兴趣可以看一下。

里面的这张图基本表达了AIOps和SRE的关系,只不过经过业界这三年的实践,跟晓征总探讨下来,中间的RCA根因分析这一步,其实是没有什么意义的,应该从第一阶段可以直接到第三阶段。

第四,运维真的会被机器或AI替代吗?

这种说法,纯属扯淡。江湖上沸沸扬扬人心惶惶的说法什么运维团队的人要被机器替代了,什么运维人员都被砍掉了,什么阿里云运维人员只有几十人啊,人均运维网元数怎么怎么高啊。

一部分是真的,被机器替代了一些人,但主要替代的是纯简单可重复操作的人,但大部分是扯淡,因为大量的工作仍然依赖于有经验的人!

只是这些人不是传统操作人员,而是具备软件工程思维、数智化思维、熟悉技术栈、懂得编程能力的新型运维sre。其实根据我这边的实操看,相当部分的传统二线转型sre是有可能的。

所以也不必过分担心什么运维人员被机器替代的问题。此外,有互联网公司疑似销售人员过度宣传的因素,这些人应该不是真正搞技术的,真正懂技术懂运维转型的互联网专家一般还是有节操的,不会胡说八道。

实际上运维转型以后,看你什么口径了,实际上整体大运维人数上升是常态,但一方面配比变了,有研发和架构能力的人员比例大增强,操作类人员比例下降。

一方面人均战斗力大大提升了是肯定的,云化以后单网元不稳定了,网元层次多了数量多了复杂度高了,所以以前是拼人肉,现在是拼经验拼算力拼数据拼代码拼机制,单兵战力当然大大提升了。

看看美军就知道了,军队数字化,步兵特战化,看着前面没几个兵,问题是看不见的那些人都是作战体系一环啊,同时战力大幅提升。

AIOps做根因定位靠不靠谱?相关推荐

  1. 论__HashCode和内容Length做快速去重有多不靠谱

    论__HashCode和内容Length做快速去重有多不靠谱 本文由 Luzhuo 编写,请尊重个人劳动成果,转发请保留该信息. 原文: http://blog.csdn.net/Rozol/arti ...

  2. 通过pc算法和随机游走来做根因定位,CloudRanger论文解读

    CloudRanger:云原生系统根因识别 CloudRanger: Root Cause Identification for Cloud Native Systems论文解读 1. Abstrac ...

  3. 发现孩子做作业用计算机,孩子写作业要用手机完成?家庭作业电子化,到底靠谱不靠谱...

    原标题:孩子写作业要用手机完成?家庭作业电子化,到底靠谱不靠谱 "妈妈,拿手机给我,我要开始做作业啦!"最近,有不少家长吐槽,说从开学到现在,孩子几乎每天都有手机上的作业.每天放学 ...

  4. 为什么我觉得做在线教育平台的都不靠谱

    写在前面的话: 本文是我在2014年,也就是2年前应教育行业媒体"多知网"之邀所写的一篇在线教育行业分析+评论.虽然写得早,但文中所有观点,站在今天看,仍然是完全适用的,并无不同. ...

  5. vr全景创业靠不靠谱,vr全景业务好不好做

    随着新一轮互联网改革的和产业的不断变化,现如今传统商家都逐渐开始转型到互联网+,越来越多的商家都开始在网上进行宣传和推广,但是想到完成转换展示方式就尤为重要,因为用户在选择的时候难免就会进行多家比较, ...

  6. 如何判断一家公司靠不靠谱?

    经常有读者问我如何判断一家创业公司是否靠谱,我给改了改,其实不仅仅是创业公司具备「坑」的特征,还有很多活了很多年的公司也是「坑」. 为了节约大家的时间,我先总结一下本文的观点: 坑无处不在,不仅仅是创 ...

  7. 网约车和社交融合靠不靠谱?

    突然有这个想法,还要从几年前打车软件刚刚兴起的时候说起,那时候各个公司都在尽自己的最大努力占领市场,打车费用也是优惠到了最大幅度,我记得当时我还在海淀黄庄的银网中心上班,每天中午出去吃饭,都能看到好多 ...

  8. 如何判断一家公司靠不靠谱

    经常有读者问我如何判断一家创业公司是否靠谱,我给改了改,其实不仅仅是创业公司具备「坑」的特征,还有很多活了很多年的公司也是「坑」. 为了节约大家的时间,我先总结一下本文的观点: 坑无处不在,不仅仅是创 ...

  9. 一个月备考GRE,不靠谱的同学们来看看吧

    去年我也考的6G,在考试的一个月前我的红宝进度是这样的:Word List 1大概五遍后面的递减,B开头的单词没看过(估计有很多人现在都和我当时的进度差不多.事实上红宝这个东西是相当坑人的,老一辈的G ...

最新文章

  1. FPGA之道(58)关于外界接口的编程思路
  2. java的WebService实践(cxf)
  3. 当凡尔赛文学遇上产品经理
  4. 近20万奖金:天池异常检测大赛来了!
  5. java集合框架介绍_Java集合框架介绍
  6. springBoot整合Listener
  7. (蓝桥杯)2018JAVA B组 日志分析
  8. 不染用计算机数字,2013年计算机等级考试一级B知识预测题(6)
  9. 关于如何取消访问https时的提示:“此网站的安全证书存在问题”的解决方法
  10. WCF编程]WCF使用Net.tcp绑定时候出现错误:元数据包含无法解析的引用
  11. 数据结构------递归+迷宫问题+最短路径问题解决思路
  12. SpringBoot:事件的发布和监听
  13. 《企业IT架构转型之道-阿里巴巴中台战略思想与架构实战》读书笔记
  14. Mac的Adobe Creative Cloud无法连接至服务器解决方法
  15. 学计算机的看图写话,小老鼠上网看图写话
  16. [高数][高昆轮][高等数学上][第一章-函数与极限]09.连续函数的运算和函数的连续性...
  17. Windows 10 喇叭红叉 重装驱动无效 点击喇叭显示无插座信息
  18. CSDN 的各位新博主们,交个朋友吧~
  19. 转:关于正太分布和多维正态分布的理解(知乎)
  20. 实时时钟模块RX-8010SJ

热门文章

  1. 微型计算机2019年4月,2019年4月有几个工作日 4月份休息几天
  2. 【 数据结构 】顺序表的实现 - 详解(C语言版)
  3. 【C++笔试强训】第三十二天
  4. python 处理服务器响应数据包,Python如何解析RADIUS服务器数据包?
  5. 详解Android jit
  6. sqlite3数据库最大可以是多大?可以存放多少数据?读写性能怎么样?
  7. 资料分析:高频考点常见解题方法
  8. 简单的密码输入验证代码(java)
  9. TP LINK TL SG3452 CONSOLE 超级终端查管理IP命令
  10. 2021年11月6日-11月12日(ogre抄写+ue4视频,本周35小时,共1035小时,剩8965小时。)