目录

前言

一、定义

1.告警功能概述

2.通知告警信息

3.prometheus监控系统的告警逻辑

1.告警功能:

2.静默、抑制、分组等功能;

二、Grafana+onealert报警

登陆http://www.onealert.com/→注册帐户→登入后台管理​编辑

​编辑 获取appkey

1.在Grafana中配置Webhook URL

2.测试cpu负载告警

3.测试报警

开始测试

睿象云中也提示告警信息

我们解决问题后,只需在睿象云中将告警关闭就行,就会当作问题被解决了

​编辑 邮件中会告知告警已解决


前言

Prometheus对指标的收集、存储同告警能力分属于Prometheus Server和AlertManager(通用的组件)两个独立的组件,前者仅负责基于"告警规则"生成告警通知,具体的告警操作则由后者完成;

Alertmanager负责处理由客户端发来的告警通知客户端通常是Prometheus server,但它也支持接收来自其它工具的告警;
Alertmanager对告警通知进行分组、去重后,根据路由规则将其路由到不同的receiver,如Email、短信或PagerDuty等;
目前Alertmanager还不支持钉钉,那用户完全可以通过Webhook与钉钉机器人进行集成,从而通过钉钉接收告警信息。同时AltManager还提供了静默和告警抑制机制来对告警通知行为进行优化
PS:webhook是一个APr概念, webhoo是一种web回调或者http的push APT.Webhook作为一个轻量的事件处理应用

一、定义

1.告警功能概述

prometheus对指标的收集、存储与告警能力分属于Prometheus serve和alertmanager两个独立的组件,pro-server只负责通过"告警规则"生成告警通知,具体告警操作是由alertmmanager完成
告警规则:
是由PromQL编写的布尔值表达式使用>< =与一个常用量值,比如80%进行比较,其返回值为true或false

prometheus-server对抓取到的指标序列与告警规则中做为比较的Prometheus匹配,则会把此样本值抓取过来作比较,若返回值为true则认为指标异常,不能满足false,则为正常值以上表达式为告警规则表达式
比如:筛选一个指标数据cpu使用率<0%系统异常

2.通知告警信息

一旦条件表达式为true了就会触发通知信息,送给altermanager,由alter借助特定服务的API或者访问入口,将此信息发出去一般称为告警媒介,也可以借助邮件进行告警SMTP

3.prometheus监控系统的告警逻辑

route:告警路由,分组、分类分发告警消息给不同渠道

prometheus通过alter-rule规则,生成告警通知给altermanager
altermanager会生成本地的告警路由表(第一路由默认称为根路由,所有的告警信息都需要一个根路由,没有一个匹配项,则需要设置一个默认路由)为实现将特定的信息发送给特定的用户
例如:
按消息级别来看,严重、中等、普通级别,红色报警、蓝色报警,应用发送方
按分组:业务运维、系统运维、基础设施运维、k8s运维

1.告警功能:

除了基本的告警通知能力外,Altermanager还支持对告警进行去重、分组、抑制、

2.静默、抑制、分组等功能;

分组 (Grouping):将相似告警合并为单个告警通知的机制,在系统因大面积故障而触发告警潮时,分组机制能避免用户被大量的告警噪声淹没,进而导致关键信息的隐没;
抑制(Inhibition):系统中某个组件或服务故障而触发告警通知后,那些依赖于该组件或服务的其它组件或服务可能也会因此而触发告警,抑制便是避免类似的级联告警的一种特性,从而让用户能将精力集中于真正的故障所在;
静默(silent):是指在一个特定的时间窗口内,即便接收到告警通知,Alertmanager也不会真正向用户发送告警信息的行为;通常,在系统例行维护期间,需要激活告警系统的静默特性;
路由(route):用于配置Alertmanager如何处理传入的特定类型的告警通知,其基本逻辑是根据路由匹配规则的匹配结果来确定处理当前告警通知的路径和行为

二、Grafana+onealert报警

Prometheus 报警需要使用 alertmanager 这个组件,而且报警规则需要手动编写(对运维来说不友好)。所以我这里选用 grafana+onealert 报警。注意:实现报警前把所有机器时间同步再检查一遍

登陆http://www.onealert.com/→注册帐户→登入后台管理

 获取appkey

1.在Grafana中配置Webhook URL

1、在Grafana中创建Notification channel,选择类型为Webhook;
2、推荐选中Send on all alerts和Include image,Cloud Alert体验更佳;
3、将第一步中生成的Webhook URL填入Webhook settings Url;
URL格式:
http://api.aiops.com/alert/api/event/prometheus/bd8cc0af7b2644f1834a8d0b9d9e5ced4、Http Method选择POST;
5、Send Test&Save;

2.测试cpu负载告警

现在可以去设置一个报警来测试了(这里以我们前面加的 cpu 负载监控来做测试)

#查看cpu占用率
(1- ((sum(increase(node_cpu_seconds_total{mode="idle"}[1m])) by(instance)) / (sum(increase(node_cpu_seconds_total[1m])) by(instance))))*100

3.测试报警

在被监控端下载一个stress测试工具

yum install -y epel*
yum install -y stress

开始测试

设置4核cpu,此时cpu就会被冲高

发来的报警如下图

邮箱会发来报警邮件

睿象云中也提示告警信息

我们解决问题后,只需在睿象云中将告警关闭就行,就会当作问题被解决了

 邮件中会告知告警已解决

Promrtheus+Grafana+onealert--实现报警相关推荐

  1. 分布式系统——zabbix 用 onealert实现报警、agent主动模式、proxy代理

    实验环境 物理机: rhel 7.3系统--172.25.54.250 server1:rhel 7.3系统--172.25.54.1 server2:rhel 6.5系统--172.25.54.11 ...

  2. grafana的邮件报警Alerting

    grafana的邮件报警Alerting grafana 4版本以上支持了alert功能,这使得利用grafana作为监控面板更为完整,因为只有alert功能才能称得上监控. email报警前设置SM ...

  3. grafana+alertmanager 微信报警发送给不同告警人

    需求 grafana+elk+alertmanager实现微信报警到不同部门或不同告警人. 简介 grafana+alertmanager实现微信报警 这篇文章中详述了grafana+alertman ...

  4. Prometheus监控系统

    Promethus监控系统 一.普罗米修斯概述 二.时间序列 1.什么是序列数据 2.基于时间序列数据特点 3.普罗米修斯特征 4.普罗米修斯原理架构图 三.实验环境准备 四.安装普罗米修斯 1.下载 ...

  5. Grafana教程(prometheus 基本查询语法,alerting报警)

    全栈工程师开发手册 (作者:栾鹏) 架构系列文章 prometheus原理可以参考:https://blog.csdn.net/luanpeng825485697/article/details/82 ...

  6. 基于Grafana的Web监控报警

    点击蓝色字关注我! 我曾经在7月份给公司研发团队分享过「web性能监控介绍及应用」.这里面我们阐述了这样几个话题: 为什么做监控 其中,「从零搭建一个web监控系统」这一小节里面,我主要使用了Stat ...

  7. Grafana 在 Kubernetes 中的使用

    安装 grafana 是一个可视化面板,有着非常漂亮的图表和布局展示,功能齐全的度量仪表盘和图形编辑器,支持 Graphite.zabbix.InfluxDB.Prometheus.OpenTSDB. ...

  8. 服务器集群可视化监控-Prometheus+Grafana

    监控软件 Prometheus 官网:https://prometheus.io/ 监控:monitor 监视我们的服务器或者服务,一旦出现问题,要告诉我们(告警),运维人员及时去处理,将公司的损失减 ...

  9. grafanaprometheus 快速配置报警规则及报警接收

    系列文章目录 1.使用helm快速安装 grafana&prometheus 2.利用grafana&prometheus 快速配置 k8s & 主机监控 3.grafana& ...

最新文章

  1. Tomcat详解(下)
  2. Postfix无法正常发送邮件故障的排除
  3. list循环添加数据_List 去除重复数据的 5 种正确姿势!你知道几种?
  4. Luogu4606 SDOI2018 战略游戏 圆方树、虚树、链并
  5. 谷歌浏览器禁止右滑返回历史_移动端h5禁用浏览器左滑右滑的前进后退功能
  6. PYTORCH笔记 actor-critic (A2C)
  7. 默认网关及route print
  8. Little Pony and Elements of Harmony(CF 453 D)
  9. CheckedComboBoxEdit 重置初始化值的方法
  10. Run P4 without P4factory - A Simple Example In Tutorials. -2
  11. java关键字保留字_Java这个关键字
  12. 附加SQL2005数据库失败解决方法
  13. python3爬取微博评论教程_python3爬取微博评论并存为xlsx
  14. Fidder抓包 基础版
  15. 日系背景色RGB,CMYK数值
  16. 我的博客生涯开始……
  17. 初级C语言之【操作符】
  18. 低腰产品的软文营销之道 如何利用软文引流宣传产品利用软文营销提升低腰产品的知名度 如何打造有效的软文引流策略
  19. linux wifi repeater,WHR-G300N V2 上使用 OpenWrt 构建 WDS 无线网络扩展
  20. 程序员如何知道女朋友有没有偷看手机?

热门文章

  1. 编程骚操作:Java Web实现网易云音乐播放器,帮你省下会员费
  2. IntelliJ IDEA修改字体大小
  3. php如何给pdf加上文字水印和图片水印
  4. 2020年的五大科技趋势
  5. odoo with_context的用法
  6. 那些让人耳目一新的深度学习图像超分辨率重建方法
  7. 饥荒服务器票据哪里是最新的,TGP版饥荒无法开启洞穴服务器怎么办?具体解决方法一览...
  8. 2022 OPPO开发者大会即将来袭!Cocos 3D 渲染管线将率先支持OPPO光追
  9. 我曾七次鄙视我的灵魂
  10. java计算机毕业设计课程在线反馈系统源码+数据库+lw文档+系统