安装alertmanager

到https://prometheus.io/download/下载alertmanager

解压后编辑alertmanager.yml,只实现报警功能,修改如下

global:resolve_timeout: 5m                 smtp_smarthost: 'smtp.163.com:25'smtp_from: '***@163.com'smtp_auth_username: '***@163.com'smtp_auth_password: '******'                  #授权密码smtp_require_tls: false
route:group_by: ['alertname']group_wait: 10sgroup_interval: 10srepeat_interval: 1m                                  #重复间隔,这里设置为1m,生产环境设置为20m-30m左右receiver: 'mail'
receivers:
- name: 'mail'email_configs:- to: '@@@@@@163.com'

启动

nohup ./alertmanager --config.file=/root/alertmanager-0.17.0.linux-amd64/alertmanager.yml &

修改prometheus配置如下(和alertmanager同主机):

alerting:alertmanagers:- static_configs:- targets:- 127.0.0.1:9093    #本机启动Alertmanager因此使用127.0.0.1,也可部署在其他主机
rule_files:- "rules/*.yml"          #设置报警规则文件

添加node普遍报警法规则内容如下:

groups:
- name: general.rulesrules:# Alert for any ×××tance that is unreachable for >5 minutes.- alert: InstanceDownexpr: up == 0for: 1mlabels:severity: errorannotations:summary: "Instance {{ $labels.×××tance }} down"description: "{{ $labels.×××tance }} of job {{ $labels.job }} has been down for more than 5 minutes."

查看prometheus中,Targets状态,此时node  http://192.168.199.221:9100/metrics是up状态

将221的node_exporter停掉,再次观察

查看Alerts状态

稍等片刻收到报警

添加内存的报警规则内容如下:

groups:
- name: mem.rulesrules:# Alert for any ×××tance that is unreachable for >5 minutes.- alert: NodeMemoryUsageexpr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 5for: 1mlabels:severity: errorannotations:summary: "Instance {{ $labels.×××tance }} down"description: "{{ $labels.×××tance }} of job {{ $labels.job }} has been down for more than 5 minutes."

说明:由于是测试使用,将使用率调整为超过5%就报警

重载prometheus。查看prometheus  ui中alert状态

查看规则是否生效

过片刻,收到报警

添加cpu报警规则文件内容如下:

groups:
- name: cpu.rulesrules:# Alert for any ×××tance that is unreachable for >5 minutes.- alert: NodeCpuUsageexpr: 100-irate(node_cpu_seconds_total{job="node",mode="idle"}[5m])*100 > 1for: 1mlabels:severity: errorannotations:summary: "{{ $labels.×××tance }} cpu useage load too high"description: "{{ $labels.×××tance }} of job {{ $labels.job }} has been too hgih for more than 1 minutes."

这里设置阈值为1%,只是测试使用。重载prometheus,过片刻收到报警

转载于:https://blog.51cto.com/lvsir666/2409063

使用alertmanager对监控对象进行报警(邮件)二相关推荐

  1. 使用alertmanager对监控对象进行报警(微信)三

    上篇主要讲了alertmanager组件使用邮件对监控对象进行报警,本文讲解下使用企业微信进行报警,前提环境依赖上文配置. 前提:注册企业微信,添加一个报警的应用,并获取相关信息 agent_id和a ...

  2. promethues+alertmanager+grafana监控mysql和报警—详细文档

    promethues+alertmanager+grafana监控mysql和报警-详细文档 相关配套软件包网盘下载链接如下: 网盘地址: https://url28.ctfile.com/f/371 ...

  3. zabbix监控mysql日志告警_zabbix监控mysql以及报警(二)终

    Zabbix部署 监控数据库 报警服务(二) 终 接着zabbix(一)接着部署 配置过一段时间后,观察下监控图效果出来了没 zabbix3.0 server已自带mysql的模板了,只需配置好age ...

  4. python插件做nagios发报警邮件二

    接上文 python插件做nagios发报警邮件 http://www.nginxs.com/linux/371.html,由于python 传入的参数,python 会自动加 \ ,经过代码测试,代 ...

  5. nagios监控三部曲之——为什么nagios不能发送报警邮件(2)

    最近我写了关于naigos监控的安装与配置的技术文档,公司运维按照我的文档部署naigos,发现不能发送报警邮件,经过我的检查,发现问题如下: 1.hosts里的配置 [root@nagios ~]# ...

  6. 自动化监控--zabbix中的邮件报警通知详解

    前言 在自动化监控–zabbix安装和配置详解我们已经完成了zabbix监控的安装部署,今天我们就在它的基础上来实现一下自动监控的邮件报警通知. 添加一台主机 首先,添加一台host 只需填写Host ...

  7. Zabbix添加监控项及配置邮件报警

    Zabbix邮件报警的大致流程如下: 监控主机---->监控项---->触发器---->告警动作---->告警方式---->告警用户 首先添加监控项 1.选择要添加监控项 ...

  8. 网络监控cacti1.2.12邮件报警(三)

    网络监控cacti1.2.12邮件报警(三) 网络监控cacti1.2.12安装部署(一) 网络监控cacti1.2.12监控配置(二) 网络监控cacti1.2.12邮件报警(三) 网络监控cact ...

  9. nodejs PM2监控及报警邮件发送(二)

    前言 用过nodejs都知道PM2,这章主要讲讲PM2监控程序及报警邮件 用pm2 启动app后,app挂掉自动拉起,但是维护人员不知道啊,所以需要其他方式通过(如邮件) 1:环境 centos7 n ...

最新文章

  1. deeplearning搜索空间
  2. 19.04.02笔记
  3. android 展开式按钮,Android自定义View实现可展开、会呼吸的按钮
  4. c实现三角形角度大于一个值_初中数学|高分必备!数学三角形相关知识点梳理汇总...
  5. 洛谷【P2257】YY的GCD
  6. boost::statechart模块实现延期测试的测试程序
  7. Git内部原理之深入解析Git对象
  8. FPI(公共标识符): owner//class description//language//version
  9. kali 运行java_kali linux运行java程序
  10. 最近我一个朋友在职场上陷入了迷茫
  11. C++ #include头文件随想
  12. Day003 20210208
  13. java递归算法的实例最细讲解
  14. 桂林电子科技大学操作系统课程设计(一)
  15. IoT物联网天线有哪些?
  16. 华为数通ensp命令(一)
  17. NodeJS:图片验证码登录
  18. 教你炒股票13:不带套的操作不是好操作!
  19. 美国LangeEylandt长岛
  20. 计算机作业封面,西南交通大学离线作业封面-2016

热门文章

  1. Java线程面试题(超高频 超详细!!)
  2. 计算机组成原理个人小结
  3. 4星|《清单革命》:好的清单对复杂的知识工作如医疗、航空、建筑等行业帮助极大...
  4. 三种Div高度自适应的方法
  5. 经验共享:网页恶意代码的防疫(转)
  6. MTK平台NV的功能与操作
  7. 计算机网络——交换机自学习和转发帧流程
  8. Android底层开发(3)
  9. 算法(c++)——运动员ZuiJia分配问题
  10. Python输入多行数据