网络好文,摘自:http://www.programmer.com.cn/11477/ 

文 / 杨俊华

综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。

云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。

  • 如果没有方便的监控报警平台,对于管理员而言犹如噩梦,每天都将如救火队员一样,飞快地敲击键盘,用原始的Unix命令在多台机器中疲于奔命。
  • 如果没有好的日志管理平台,对于开发者Troubleshooting更是一件泪流满面的事情。
  • 而如果你是运维团队的总负责人,简洁清晰的Report则非常重要。Stakeholder们动不动就可能问起系统的SLA、机器的利用率等诸多问题,毕竟,公司为此投入了巨大的资金和人力。

朋友们,当我们管理起公司寄予厚望的云计算平台时,当我们面对如此多充满挑战的实际问题时,该怎么办?

概述

我们在搭建趋势云计算平台时,遇到了很多的问题和挑战。开始搭建时,第一次来了那么多性能强劲的机器,我们在感到兴奋的同时,也不免有些顾虑。大家坐在一起讨论,问题就列了满满一白板。

  • 出了问题怎么办,有没有预警机制?
  • 有没有可视化的管理界面?
  • 管理平台需要自己开发吗?开发难度有多大?
  • 有没有开源的管理工具?
  • 那么多日志分布在各个机器上,有没有更有效的方法管理?
  • 能否生成好的报表?
  • 机器宕机,管理员能否收到短信通知?
  • 如何做性能调优?
  • 扩容升级时,能否给出依据?

带着这些问题,我们开始了自己的云计算平台管理和运营之旅,一路走来,收获颇丰。现在基本上形成了如图1所示的一整套云计算平台监控体系。

在这个系统中,我们综合利用了Nagios、Ganglia和Splunk,搭建起云计算平台监控体系,使其具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,我们终于能够轻松管理Hadoop/HBase云计算平台了。接下来将简单介绍它们的特点和功能。

Nagios:云计算平台的智能报警器

总不能天天盯着机器看吧,因此我们首先关心的是机器的监控与报警。最理想的境界是:如果机器出故障了,我能第一时间处理;如果机器没有问题(最好永远没有问题),我能去喝茶、钓鱼和睡大觉。

发现机器有没有问题,对我们而言不是什么难事。写个脚本,Ping一下IP,Telnet每台机器的Service端口,如果增加了新机器就改改配置即可。但这样也太原始了吧,可视化效果差,不好维护,没有层次,不好管理,出不来报表,总不能老是用Excel人工写报表吧。有没有更好的方法呢?

有,你可以用Nagios。

Nagios是一个可运行在Linux/Unix平台之上的开源监视系统,可以用来监视系统运行状态和网络信息。Nagios可以监视所指定的本地或远程主机以及服务,同时提供异常通知功能。

Nagios可以提供以下几种监控功能。

  • 监控网络服务(SMTP、POP3、HTTP、NNTP、Ping等)。
  • 监控主机资源(处理器负荷、磁盘利用率等)。
  • 简单的插件设计使得用户可以方便地扩展自己服务的检测方法。
  • 并行服务检查机制。
  • 具备定义网络分层结构的能力,并使用“parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态。
  • 当服务或主机问题产生与解决时将告警发送给联系人(通过电子邮件、短信、用户定义方式)。
  • 具备定义事件处理功能,可以在主机或服务的事件发生时获取更多问题定位。
  • 自动的日志回滚。
  • 可以支持并实现对主机的冗余监控。
  • 可选的Web界面用于查看当前的网络状态、通知和故障历史、日志文件等。

Nagios最好用的地方就是它将这些每天管理员做的工作自动化,你只需设定好要监听的端口即可,它会默默地工作,帮忙定时地去检测服务端口的状态,一旦发现问题,会及时发出报警。报警可以是电子邮件也可以是手机,从而使得管理员第一时间就能收到系统的状况。

Nagios的报表功能也很强大。管理员可以很容易地得到每天、每周和每月的Service运行状况。

红色部分清楚地标注有问题的机器,点开链接,就可以得到有问题机器的情况。虽然在HBase中,几台Region Server宕机不会对整体服务产生大的影响,但多少会影响到系统的Performance。而且,如果某几台Region Server频繁宕机,对整个系统的稳定性也会产生不好的影响。有了Nagios,我们可以快速定位有问题的机器,及时地将一些机器移除出HBase系统,待调整好了再上线运行,以保证系统的稳定性。

现在,Nagios已经成为了很多公司必备的监控工具。只需要简单地配置,就可以实现强大的功能,将管理员从日常烦琐的工作中解放出来。

有了Nagios,哪怕就是管理上千台机器,也不会手忙脚乱,而是有一种统领千军、运筹帷幄的感觉。

Ganglia:看到云计算平台的方方面面

Nagios的确不错,但你是不是真的可以喝茶、钓鱼、睡大觉呢?显然还不行。有了Nagios,你基本上可以做个优秀的救火队员,能在事发第一时间到达现场、处理事故。但如何防患于未然,真正做到运筹帷幄、游刃有余呢?

我们需要更加精确的数据,能够看到云计算平台的方方面面,能根据这些数据,做出性能调整、升级、扩容等的决策,从而保证Service能够满足不断增长的业务需求。

这时候,你需要Ganglia。

Ganglia是UC Berkeley发起的一个开源实时监视项目,用于测量数以千计的节点,为云计算系统提供系统静态数据以及重要的性能度量数据。Ganglia系统基本包含以下三大部分。

Gmond:Gmond运行在每台计算机上,它主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。

Gmetad:Gmetad运行在Cluster的一台主机上,作为Web Server,或者用于与Web Server进行沟通。

Ganglia Web前端:Web前端用于显示Ganglia的Metrics图表。

Hadoop和HBase本身对于Ganglia的支持非常好。通过简单的配置,我们可以将Hadoop和HBase的一些关键参数以图表的形式展现在Ganglia的Web Console上。这些对于我们洞悉Hadoop和HBase的内部系统状态有很大的帮助。

在Hadoop的conf文件夹下面,找到hadoop-metrics.properties,配置好Ganglia的Server即可。这里要注意,Ganglia 3.0和Ganglia 3.1的区别,它们使用了不同的class。

dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

dfs.period=10

dfs.servers={Ganglia_Server}:8649

有了这些图表,Hadoop和HBase就不再是一个黑盒。无论是Hadoop的Namenode、Datanode,还是HBase的MasterServer、RegionServer任何时刻的情况,都会一目了然。由于图标的跨度可以是小时、天、月甚至是年,这样,就可以非常方便地定期生成周报、月报和年报。同时,根据图中Metrics的状况,我们可以通过调整参数、增加内存和硬盘、增加机器等的方法调整单个机器或者整个Service的性能。Nagios 最大的问题在于不能洞悉到Service内部的状况。像Hadoop、HBase这样的分布式系统,一个节点的故障并不等于整个Service的故障,影响的只是Service的性能。所以,在测定Service的SLA时,我们不能以某一台机器的故障作为Service故障的评判标准。比如在我们的HBase SLA的设定上,我们定义了HBase Service完全不能工作的评判标准如下。

  • Master Server 联系不上。
  • 所有RegionServer 都无法联系上。
  • -ROOT- 表无法访问。
  • .META. 表无法访问。那么,我们就可以根据这个规则定义SLA,通过定期调用HBaseAdmin相应API ,将测试的结果发给Ganglia。采用同样的方法,我们还可以自定义一些规则,监视HBase Master、Zookeeper等的情况。

    通过这些方法,我们完全能够针对Hadoop/HBase使用的实际情况,做出Service级别而不是机器级别的监控系统并生成报表。

    此外,Ganglia还可以通过Server反馈回来的Load信息,给出各个机器的Load情况,给我们做升级和扩容提供依据。Ganglia分别会用不同颜色,标注出当前时刻的机器Load分布情况。如果Load过重,就应该检查机器的具体使用情况。Ganglia的安装配置,可以参考:http://www.spnguru.com/?p=604。

    Splunk:像查Google一样查日志

    有了Nagios和Ganglia,算是成功了一大半。作为一名优秀的管理员,我们需要具备一定的Troubleshooting能力,对一些常见的问题能给出解决方案。那么,对日志的分析就必不可少。

    但Hadoop/HBase的日志分布在各个机器上面,而日志之间关联性强。Client端的错误有可能是Region Server引起,而Region Server的错误有可能是Zookeeper导致。有没有一个统一的日志管理平台呢?

    众里寻它千百度,蓦然回首,我们找到了Splunk——日志界的Google。

    很遗憾,Splunk不是开源的,但它的免费版本提供每天500MB日志索引。如果数据量较小,通过定义好Log的级别,基本上也能满足需求。但对于数据量较大的公司,就有些捉襟见肘。

    Splunk支持AdHoc的日志搜索,而且可以与Nagios配合使用。比如Nagios报警某台RegionServer端口不可达,我们收到Notification后,登录Splunk,直接搜索shutdown和host名称,找到RegionServer退出的日志。点击详细信息,分析日志,就能快速定位问题。对Hadoop和HBase有了进一步了解后,我们可以利用Splunk实时检测日志中的关键字,定义关键字规则,如监控“shutdown”、“quit”、“ERROR”、“Zookeeper Session Expired”等,一旦出现,利用Splunk的Notification功能,发出邮件通知管理员,管理员通过Splunk定位问题,就可以在系统真正出现问题之前,对系统进行调整,防患于未然。

    具体Splunk的设置,可以参考:http://www.spnguru.com/?p=122。

    总结

    搭建一套云计算平台,强大的监控管理系统是必不可少的。当然,任何工具都不是万能的,在实际维护过程中,我们也发现,Nagios和Splunk经常出现误报,如果规则定义得不好,大量的警报邮件如潮水一样涌来,反而掩盖了真正的问题。可以说,在云计算平台的运维管理上,没有一劳永逸的事情,随着规模的不断增大和应用的不断多样化,需要大家不断地实践和总结。

    作者杨俊华,趋势科技研发中心资深开发工程师,2009年至今一直从事Hadoop和HBase开发和运维工作,关注Hadoop开源社区的发展。

    转载请注明出处:http://www.cnblogs.com/haochuang/ 8年IT工作经验,5年测试技术与管理,2年产品与项目管理,曾参与过云计算\云存储\车联网产品研发工作; 业余自媒体人,有技术类垂直微信公众号;如有招聘或求职方面需求,请Mail to uetest@qq.com ;或通过 QQ:363573922 微博:@念槐聚 联系;

[网文摘录]云计算平台管理相关推荐

  1. 云计算平台管理的三大利器Nagios、Ganglia和Splunk

    综合利用Nagios.Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警.性能调优.问题追踪和自动生成运维报表的功能.有了这套系统,就可轻松管理Hadoop/HBase云计算平台. ...

  2. K8S 快速入门(一)虚拟化、容器化构建云计算平台的基本概念及原理解析

    本章主题 1.认识kubernetes (k8s) 在企业中应用场景? ----- 为什么要学习K8s?? 2.云技术(云计算平台) - 虚拟化及虚拟化基本概念及原理 3.云技术(云计算平台) - 容 ...

  3. 2021网文出海操作手日记 • 寻找正确姿势

    2021网文出海操作手日记 • 寻找正确姿势 寻找网文出海的正确姿势. 中国移动互联网出海的历程 2013年到2014年,工具类应用出海:2015年,移动游戏出海规模化,工具类应用形成规模:2017年 ...

  4. 网文广告火出圈,“歪嘴战神”能拯救网文界的颓势吗?

    短视频网文广告出现,为网文行业打开另一扇天窗. 谈到最近火出圈的广告,那非"歪嘴战神"莫属,它在抖音.微博.B站中热度一路上蹿,就连广告中的主角管云鹏,也从虎扑一路火到B站. 这个 ...

  5. 抖时代,直播网文你知多少?

    #网络文化经营许可证# 短视频和直播,如今俨然已成为主流的消遣方式,通过短视频不仅可以随时随地分享个人动态,还可以看到不同喜好的人的分享,对于网络爱好者,这也是一个不错的方式. 那么企业如何利用短视频 ...

  6. mac下使用docker部署artipub,实现多平台管理,一键同步、一文多发

    背景.目标 许多技术博主或者自媒体工作者,需要在多个平台发布文章,现在确实有一些工具支持在线创作.媒体分发,但是许多都是在线的,保存账号.cookie,不能保证安全.今天给大家带来的工具教程,是本地部 ...

  7. 网文快捕(CyberArticle) 快速保存网页内容,知识文档管理利器

    网文快捕(CyberArticle) 目录 软件属性 软件介绍 官方概述 主界面(注册版) 软件属性 [1-2]软件语言: 简体中文 软件类别: 国产软件 / 共享版 / 笔记管理 / 文档管理 应用 ...

  8. EasyNVR内网摄像机接入网关+EasyNVS云端管理平台,组件起一套轻量级类似于企业级萤石云的解决方案...

    背景分析 对于EasyNVR我们应该都了解,主要应用于互联安防直播,对于EasyNVR,我们可以清楚的发现,EasyNVR的工作机制是EasyNVR拉取摄像机的RTSP/Onvif视频流,然后客户端可 ...

  9. 依托数网星工业互联网平台构建能源管理平台,助力企业能耗结构优化

    随着软件技术日臻趋于成熟,以及5G的应用,能源管理平台建设成本降低,而且系统更安全.可靠.能源管理也不再随求大平台.大展示,实用.安全.方便.高效的能源管理系统更适合用能单位的需求.终端显示可用办公电 ...

最新文章

  1. LBS定位应用app的兴趣点与名称搜索
  2. matlab找出二维矩阵中最大值的位置或者最小值的位置
  3. Android --- 订单编号怎样不重复?一秒钟如果有n个人同时下单怎么解决?凌晨12点限量抢购1000件商品,直到抢完为止订单编号怎么处理?
  4. 网页小图标Favicon
  5. onkeyup,onkeydown和onkeypress
  6. es6 --- Thunkify源码分析
  7. java 控制jsp_JSP学习之Java Web中的安全控制实例详解
  8. 41状态模式(State Pattern)
  9. c# getresponsestream返回byte[]_C++模版和C#范型求同存异录(一)sizeof(T)
  10. LeetCode 93. 复原IP地址
  11. 定义域图像用计算机怎么算,《计算机图像处理的数学和算法基础》.pdf
  12. pycharm遇到的小问题
  13. python编程语言-Python有望超越Java排第二?风变编程解析编程语言新趋势
  14. 六石管理学:使用排除法解决问题
  15. 正则表达式删除字符串中 html 标签
  16. Altium Designer(AD)18安装
  17. js、bootstrap、jq实现酷炫赛道风格的多功能辩论赛计时器
  18. 计算机共享地址怎么设置到桌面,局域网共享在哪里设置
  19. Allegro-PCB文件默认双击打开
  20. Python 离线安装 Extension Packages

热门文章

  1. java冒泡法优化_数据结构java版之冒泡排序及优化
  2. mysql提取前两个数据_各种数据库提取表的前几条记录的方法
  3. 20200714:动态规划复习day05
  4. python线程数组_Python多线程
  5. 用计算机写试卷反思,计算机试卷
  6. li鼠标悬浮手势样式
  7. xftp6无法使用处理
  8. Enjoy模板里使用layui模板引擎laytpl
  9. ‘adb‘ 不是内部或外部命令and Error while executing: am start -n解决
  10. 批处理 备份网络数据