过去,企业运维人员总是头疼。

头疼什么?

勤勤恳恳的运维攻城狮,不断面对系统故障,恢复业务常常需要花费数小时,故障原因分析则动辄数天甚至数周……人脑经验判断不及时,决策缺乏事实依据,业务恢复执行手忙脚乱,频繁出错。加班加点已经成为常态!

这背后呢?

业务系统越来越复杂,系统可靠性要求越来越高,用户体验急需大幅提升,IT系统数量大幅增加,只加机器不加人。

总之,攻城狮仿佛在练“七伤拳”,一方面强力支撑了业务蓬勃发展,一方面长期劳顿积累无数内伤。

有办法解决吗?

在2016年,Gartner看到人工智能和机器学习大发展的浪潮,提出使用算法来解决IT运维管理产生的诸多问题,并将其命名为AIOps(AlgorithmicITOperations),国内常常翻译为智能运维。

从字面分析,这是一种基于算法的运维方式,就是通过基于运维大数据的机器学习,用机器智能决策逐步取代人工决策。

运维不再单纯需要人脑以及手工?运维工程师们的福音来了!

对此,Gartner对未来发展表现出了很大程度的乐观,发布相关报告显示,到2020年,会有将近50%的企业在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。

AIOps收到了运维界的积极响应,尽管AIOps还是一个新名词,但它无疑代表了未来的运维发展趋势。

那么,目前企业级的AIOps发展如何?都有哪些落地实践?这种运维理念真的有传说中的那么神奇?带着一系列的问题,小编采访了新华三运维专家,答案将一一揭晓!



新华三集团资深自动化专家江东

记者:如今关于智能运维,也就是AIOps,有这样一种说法,机器学习+自动化运维=智能运维,对于这个表述应该怎么理解?

新华三:AI是赋予运维的新鲜血液,而监控、自动化、服务台依旧是AIOps的三大基石。

新华三已经在监控领域占据了相当大的市场份额,并且在2016年开始发力自动化运维领域,2017年开始将智能化算法逐步产品化,固化到U-Center运维管理产品家族中,但是我们认为现在的智能化在运维上还处在1.0的阶段。

什么是1.0的阶段?

新华三:简单来说就是运维的智能化算法还不够成熟,不能代替人去做运维操作的决策。当前的算法推测的故障准确率还不够高,只能给出故障发生的可能性,如某节点可能百分之八十到九十出现故障,类似天气预报一样。

对于业务连续性要求高的业务系统,业务切换必定会影响到业务进度,盲目切换很可能会带来副作用。当前技术条件下需要人工参与二次确认,防止出错。

但是现阶段的运维智能化还是帮助我们解决了一些问题,例如保证整体业务的连续性。说到连续性这个问题,可以简单分为两个阶段,第一阶段是故障平均探测时长(MTTD);第二阶段是平均故障恢复时长(MTTR)。

机器学习算法能辅助运维攻城狮快速定位故障,大幅降低MTTD;而第二阶段我们推荐采用梳理自动化预案,自动化执行手段来完成。

每一个客户的架构、业务都不相同,而且业务系统变化越来越快,这给AI算法带来了巨大挑战,目前尚无通用运维算法出现。

我们也期待新技术、新算法的出现,在运维领域超越人类判断能力,实现端到端的自动化流程!

记者:虽然AI现在很火爆,运维的AI化经常被提及,但也不能盲目利用AI,您觉得在运维的过程中,哪些方面的问题比较适合用AI来解决?

新华三:确实如此,AI算法往往排除了大量干扰因素,在“理想”情况下做出推断。就像咱们学物理,没有阻力的前提下,物体是永动的一样。

AI算法也有相应的适应的场景。目前比较成熟领域有如下几个:

1.单KPI异常波动探测;

2.多KPI相关性及异常波动探测;

3.告警“噪音”去除,通过机器学习,发现告警之间关联关系,确定关键告警,降低需要“人”关注的告警量;

4.基于自动化发现应用之间、应用与基础设施之间的依赖拓扑,结合相关告警和KPI指标辅助根因判断。

记者:新华三的AIOps平台或者说体系与DevOps做了什么技术关联?也可以说在技术层面上怎么完成DevOps工具链深度集成的?

新华三:新华三U-Center平台与DevOps结合点主要是在自动化层面,U-Center自动化提供资源、监控资源及业务,DevOps消费资源,部署应用。

目前大部分企业CI/CD主要集中在开发测试云,我们有集成的开发测试云整体解决方案帮助客户实现持续集成、持续发布、持续测试、持续优化。

记者:在运维方面,新华三大力推出了一款名叫U-center的智能运维平台,在设计上与其他的智能运维平台有什么区别?

新华三:我们的U-Center运维平台前身是华三成熟的iMC运维管理平台,在新的架构下,做了几点优化升级。

第一,做了容器化改造。随着云计算的发展,监控点与监控频率都会比之前高很多,数据量也会非常大,导致传统技术平台会产生性能上的问题,容器化的改造可以很好解决扩展性问题。

第二,我们增强了自动化组件能力。实现了图形化的自动化编排工具,易于配置,满足丰富的自动化场景。同时支持多种开源自动化组件,如Ansible、SaltStack,让客户有更多的选择权。

第三,增强了内部组件功能和性能,如网络流量分析、业务健康管理、应用性能管理等一系列组件。

最后,优化了图形界面展示,更贴近客户习惯,减少菜单功能层级。

记者:新华三的运维知识库是一个特殊的存在,这是把新华三之前的运维专家与运维经验整合在一起形成的吗?

新华三:这款知识库是华三非常有价值的工具之一。

我们有一本非常厚大开本的网络运维知识手册《根叔的云图》,然而在真正使用过程中会发现查阅、理解还是需要大量时间的,特别是在故障发生时无法快速使用。

为了方便客户使用,我们把《根叔的云图》在内的华三多年运维知识电子化成大量脚本。如果网络上出现一个告警,就会可以触发这个知识库,这个知识库根据云图,自动探测、分析结果,从而给出最佳操作建议。整个过程仿佛医生诊断病人,自动做一系列检查,然后根据检查结果做判断。

通过这个“电子医生”,运维攻城狮可以快速定位问题,并获得解决问题的最佳实践经验。通过此平台,无需专业攻城狮,客户自己就可以解决大部分网络问题。

记者:现在的新华三的U-center平台是1.0版本,未来会有版本的升级吗?

新华三:U-Center是一款快速迭代的产品,通常每季度会发一个版本,每一年会有一个大的版本升级。

记者:技术服务于应用,最近看到咱们新华三有一个智能远程运维的产品,落地到南方报业集团,这个项目目前进展是什么样的,怎样的契机做这个智能远程运维的?

新华三:该产品也是华三独具特色的产品,是为了解决很多企业,无法配置高级IT人才的问题。

我们的解决方案通过一个远程的设备,将这些IT信息收集起来,传到我们后台,由专业软件进行监控,由资深专家负责把脉。该产品已经有包含南方报业在内上千个成功案例,减轻了客户基础运维工作负担

采访间隙,小编除了对现在竞相讨论的AIOps有关问题咨询了专家,还就最近被广泛提及的双态运维模式展开了相关探讨!

记者:新华三如何解读双态运维,双态运维的理念是什么,这种运维模式能够解决什么问题,优势在哪些方面?

新华三:双态运维这个概念是Gartner在2015年提出来的,主要背景是当时传统企业在部分基础设施云化后,带来了一些管理、制度、考核标准、甚至人才培养方面的困难。所以Gartner给出了一个折中方案,传统IT按照稳态管理,云化IT按照敏态管理。

我们认为双态运维没有一定之规,CIO应当从业务价值最大化角度看待这个问题,把握敏态和稳态的比例和尺度。

记者:在双态运维大背景下,企业正在面临着什么样的挑战?

新华三:目前双态运维实际上也有几年了,但并不是“银弹”,只是给了我们一个方向、思路:既不固守传统ITIL流程管控,也不全面倒向极度敏捷。

举个例子,很多传统企业试图像敏捷化发展,但尝试了很多次又后退了,为什么?
一方面,以前固有的传统软件,很难向敏捷化发展,改造的时候困难太大;另外一方面是一些传统研发人员对敏态的排斥心里;从企业角度,还经常出现刚刚培养的敏态人才迅速流失问题。

另外,互联网企业随着业务量做得特别大,也不容有丝毫闪失,也会在敏态中加入一定的流程管控。

记者:新华三能够帮助企业怎么去应对这些挑战,产品方案方面有什么进展?

新华三:我们具备整套的从稳态到敏态的训练和服务,来帮助客户向双态运维,更多是向敏态去转型。但是现实情况往往是运维人员和领导对敏态的程度会有歧义,例如领导想要更敏捷,而运维人员从专业角度上会希望更稳定。我们通过服务来统一思想,实现让各方都满意的方法。

工具上,我们通过自动化的工具,将U-Center和CI/CD在解决方案层面做整合。未来我们会在这个平台上逐步固化最佳实践,实现产品化。

实施双态运维最常见的痛点是自动化,自动化工具无法全覆盖,导致在自动化流程中还需要人工干预,大大降低了效率。新华三正在逐步完善自动化产品,使其能接入各种各样的设备,从传统设备,虚拟化云,容器到应用。

记者:目前我国的双态运维落地情况如何?

新华三:双态运维是大趋势,很多企业逐步向着敏态去转型。不同行业进展有所不同,金融行业转型的比较快,有些行业整体上偏保守一些,这也是不同行业市场格局、内外部压力不同导致的。

现在中大型企业都在做敏态CI/CD的集成,有的做的比较成功,但我认为还处于敏捷的1.0阶段,所谓2.0会涉及到企业文化重塑、人才激励培养、流程简化优化、敏态与稳态交互管控等方面。

思索之后,小编发现,无论是时下与AI紧密相关的智能化运维,还是促进企业运维思路转变的折中方案“双态运维”,都需要企业保持清醒的头脑判断并谨慎选择。盲目跟风不可取,选择适合的才是最重要的。

关于运维,新华三的经验谈相关推荐

  1. Linux运维 第三阶段 (二) DHCP

    Linux运维 第三阶段 (二) DHCP服务 dhcp(dynamic host configuration protocol) 前期bootp(无盘工作站)-->dhcp(引入租约lease ...

  2. Linux运维 第三阶段 (十八) varnish

    Linux运维 第三阶段 (十八) varnish 数据: 结构化数据,RDBMS: 非结构化数据,FS,存海量小文件,NAS.SAN.DFS可提供较好的性能: web cache: 程序具有局部性( ...

  3. Linux云自动化运维第三课

    Linux云自动化运维第三课 一.正则表达式 1.匹配符 * ###匹配0到任意字符 ? ###匹配单个字符 [[:alpha:]] ###匹配单个字母 [[:lower:]] ###匹配单个小写字母 ...

  4. linux分区方案 arv,Linux运维 第三阶段 (九)NFS

    Linux运维第三阶段(九)NFS nfs 为方便文件有序管理,把磁盘disk空间在内核映射为一种软件结构,通过文件系统FS管理工具(mke2fs)将磁盘格式为某分区格式(ext4),则disk被分为 ...

  5. Linux运维 第三阶段 (一) 网络配置及openssl加密

    Linux运维 第三阶段 (一) 网络配置及openssl加密 主机接入网络:IP,netmask,gateway,hostname,DNS1,DNS2,DNS3,route,dhcp(dynamic ...

  6. 大数据虚拟化零起点-4基础运维第三步-部署vCenter Server Virtual Appliance 5.1

    在大数据虚拟化零起点基础运维第二步中,我们完成了vSphere5.1的安装.接下来,我们可以开始第三步--部署vCenterServer Virtual Appliance 5.1. 在开始部署之前, ...

  7. 深入浅出!阿里运维专家三种方法教你如何应对高并发“海啸”场景

    作者:田杰,阿里云数据库高级运维专家 在数据库的日常使用中,来自应用的高并发场景并不罕见,其标志性的表现为 高新连接创建速率(CPS,比如 PHP 短连接).发送大量请求到 DB 数据库层. 如同 海 ...

  8. 从无到有写一个运维APP(三)完结篇

    前言:自己的挖的坑还得填,此篇为完结篇. 环境的搭建参考第一篇 从无到有写一个运维APP(一),至于第二篇就跳过吧,写个 APP 没那么复杂. 由于自己现在无业游民,所以没有什么现成的环境,环境就随便 ...

  9. 经典的运维脚本三步曲

    无论是应用运维,还是数据库运维,均可以分为"人肉"-"自动化"-"智能化"阶段,其中自动化阶段,主要是将一些人做的操作,尤其是一些重复性操作 ...

最新文章

  1. 简单工厂、工厂模式初学习
  2. DP:Sumsets(POJ 2229)
  3. 弹性碰撞后速度方向_高三期中考后分析,不得不知道的重难点
  4. VTK:图片之ImageSliceMapper
  5. django1.4.9 pythoon manage.py --help 子命令解析
  6. pdo连接mysql数据库(简洁明了)
  7. jpa 事务嵌套事务_JPA 2 | EntityManagers,事务及其周围的一切
  8. ajax回调函数提交表单,MVC3中ajax提交表单无法执行success回调函数,怎么办?
  9. Boss说:你要是能搞懂这六个分布式技术栈,我给你薪资翻倍
  10. oracle 存储 秘密,鲜为人知的Exadata存储性能秘密
  11. ios睡眠分析 卧床 睡眠_在HealthKit中用 Swift 进行睡眠分析
  12. 中国四大运营商2G/3G/4G/5G工作频率以及网络制式
  13. 使用Axis2实现WebService的发布和调用
  14. MysQL索引与事务
  15. 深度linux 官网,Deepin
  16. 基于Matlab-gui信号系统设计
  17. matlab函数 无限冲激响应滤波器,MATLAB代码 有限冲激响应(FIR)滤波器和无限冲激响应(IIR)滤波器...
  18. 那一年,我与电脑结下了不解之缘
  19. 出租车不需要司机了?带你体验无人驾驶出租车!|『智能产品家』第三期
  20. fossid安装教程_源代码怎么使用,源代码生成app教程

热门文章

  1. 比特熊故事汇独家 | .NET 感恩专场
  2. 40岁前的男人必看的文章!共勉!--HP大中华区总裁孙振耀退休感言
  3. Aspose.words介绍
  4. 前端 html 基础 jQuery css
  5. 百旺税控盘清卡时候服务器返回为空,百旺税控盘会自动清卡吗
  6. CSS样式仿谷歌logo
  7. 【设计模式】行为型02模板方法模式(Template Method Patten)
  8. python游戏脚本dnf_一款Python自制的斗地主小游戏
  9. Metasploit学习笔记(一)——简单使用
  10. 思科CCNA第一学期第八章答案