配置zabbix监控模板(只需要在darshboard上操作一次)

创建监控模板

在配置->模板页面,选择创建模板:

如下填写:

  • 模板名称:自定义,我们命名为gpu discovery
  • 群组:放到templates组里面

创建应用集

选择上面创建的模板,进入应用集,选择创建应用集,创建名称为GPU的应用集:

创建自动发现

进入刚才创建的模板,点击动发现规则,选择创建自发现规则:

如下创建自动发现规则:

  • 名称:自定义,我们设置discover gpu
  • 类型:zabbix客户端
  • 键值:gpu.discovery,该值要和下面服务器上配置的自动发现脚本的键值相同
  • 更新间隔:根据实际需求来,因为GPU的变化非常小,我们可以选择1h这样的间隔

创建监控项原型

从上一步创建后的结果中,点击监控项原型,并选择创建监控项原型:

如下创建监控项:

  • 名称:GPU {#GPU_ID} GPU utilization,其中{#GPU_ID}为下面服务器自动发现脚本输出的值
  • 类型:选择zabbix客户端
  • 键值:gpu.utilization[{#GPU_ID},gpu],键值为下面服务上创建的键值
  • 信息类型:根据实际采集的数据来,本次为数字型,所以选择数字无正负
  • 单位:根据实际情况,使用率是百分比,所以填%
  • 更新间隔:根据实际情况来,使用率使我们比较关注的键控值,所以可以采集密集一些
  • 历史数据保留时长:可以保留30d,根据实际需求来
  • 应用集:选择之前创建的GPU应用集

完成后点击添加。重复此操作,创建其他监控项,最终如下:

创建触发器原型

本次暂时不创建

GPU服务器配置(每个GPU服务器都要配置)

创建自动发现脚本

我们在/etc/zabbix/目录下创建自动发现gpu脚本gpu_discovery.sh;

#!/bin/sh
GPUS=(`nvidia-smi -L | awk -F ' |:' '{print $2}'`)
LENGTH=${#GPUS[*]}printf "{\n"
printf  '\t'"\"data\":["
for ((i=0;i<$LENGTH;i++))
doprintf '\n\t\t{'printf "\"{#GPU_ID}\":\"${GPUS[$i]}\"}"if [ $i -lt $[$LENGTH-1] ];thenprintf ','fi
done
printf  "\n\t]\n"
printf "}\n"

执行脚本如下输出:

{"data":[{"{#GPU_ID}":"0"},{"{#GPU_ID}":"1"}]
}

配置自动发现和采集监控项配置

调整自动发现脚本配置

chmod 755 /etc/zabbix/gpu_discovery.sh

配置agent

在/etc/zabbix/zabbix_agentd.d/目录下创建名为userparameter_gpus.conf的配置文件,并添加如下内容:

UserParameter=gpu.discovery,/etc/zabbix/gpu_discovery.sh
UserParameter=gpu.name[*],nvidia-smi -i $1 --query-gpu=name --format=csv,noheader,nounits
UserParameter=gpu.mem[*],nvidia-smi -i $1 --query-gpu=memory.$2 --format=csv,noheader,nounits
UserParameter=gpu.utilization[*],nvidia-smi -i $1 --query-gpu=utilization.$2 --format=csv,noheader,nounits
UserParameter=gpu.power[*],nvidia-smi -i $1 --query-gpu=power.$2 --format=csv,noheader,nounits

调整agent执行用户

编辑/etc/zabbix/zabbix_agentd.conf,将AllowRoot配置为1

重启agnet

systemctl restart zabbix-agent

链接模板

在zabbix web界面,找到该服务器,为其添加上文创建的模板。

zabbix自动发现并监控GPU相关推荐

  1. zabbix自动发现与监控内存和CPU使用率最高的进程

    监控需求 某项目的应用服务器CPU和内存使用率的监控,通过zabbix系统监控记录应用服务器上进程的CPU和内存的使用情况,并以图表的形式实时展现,以便于我们分析服务器的性能瓶颈. 监控方式 利用za ...

  2. 5 zabbix 添加host_运维监控实战篇,zabbix自动发现和自动注册图文详解

    一.介绍 自动发现 Zabbix自动发现就是为了解决批量监控而设计的功能之一,什么是自动发现呢,简单来说就是Zabbix Server端可以基于设定的规则,自动批量的去发现局域网若干服务器,并自动把服 ...

  3. zabbix自动发现oracle表空间并监控其使用率

    监控需求 Oracle表空间使用率实时监控,当表空间使用率达到95%时触发告警机制.Oracle表空间分为系统默认表空间和用户创建的表空间,而表空间又有自动扩展和非自动扩展两种类型,用户(DBA)在创 ...

  4. zabbix 自动发现规则 触发器_运维监控实战篇,zabbix自动发现和自动注册图文详解...

    一.介绍 自动发现 Zabbix自动发现就是为了解决批量监控而设计的功能之一,什么是自动发现呢,简单来说就是Zabbix Server端可以基于设定的规则,自动批量的去发现局域网若干服务器,并自动把服 ...

  5. 利用zabbix自动发现监控mongo数据库

    但如果公司使用mongo的端口如果不一致的话,那建议使用zabbix的自动发现的功能,自动发现mongo监听的端口,并对它进行相关数据的收集. 先看一下效果图, 教你如何利用zabbix自动发现监控m ...

  6. ZABBIX自动发现Redis端口并监控

    转载来源 :ZABBIX自动发现Redis端口并监控 : https://mp.weixin.qq.com/s/UDeRYn6376MBzNyRt48aAw ZABBIX自动发现Redis端口并监控 ...

  7. zabbix自动发现规则实现批量监控主机的TCP监听端口

    检查服务器所有监听端口和其对应的服务名称的脚本可以参考https://blog.zzyyxx.top/blog/post/gordy/acf57f04f9e1  现在准备加入zabbix自动发现规则并 ...

  8. 3306 端口 要不要修改_zabbix 自动发现并监控所有端口

    背景 端口监控是很普遍的一个需求,当一台机器上跑了几十个服务,就想着能不能自动发现并监控所有的端口呢? 毕竟我们的宗旨是能自动绝不手动,摸鱼才是工作的真谛. 实施 解决方案基于 Linux 命令 ss ...

  9. zabbix自动发现主机并加入组绑定模板

    在被监控主机多的情况下,怎样将这些主机加入zabbix server进行监控呢?下面将介绍下zabbix自动发现功能 1.创建自动发现规则 创建"规则名称,配置ip范围及检查方式" ...

最新文章

  1. 总结ISO各层协议都有哪些
  2. npm全局安装失效修复
  3. Linux 服务器配置信息查询方法,国产化申威服务器配置信息查看演示
  4. 关于数据准确性,精益求精,神策数据矢志不渝的坚持
  5. 征战蓝桥 —— 2016年第七届 —— C/C++A组第4题——快速排序
  6. VS2008和.NET3.5的学习资源
  7. colorkey唇釉是否安全_colorkey空气唇釉,19/支
  8. java当前时间推前三个月_获取当前时间的前三个月 java
  9. Linux C文件编译
  10. PhpStorm调用浏览器运行php文件
  11. XX市公共租赁住房信息管理系统模板
  12. 95-35-010-Topic-Topic的新建:扩容:删除
  13. 亚马逊被爆内部员工卖数据改差评,中国区尤为严重!
  14. 苹果 14 英寸和 16 英寸 MacBook Pro 硬件功能介绍
  15. ThreadPoolExecutor运转机制详解
  16. oracle表数据的导出到excel文件,文件怎么导出到excel表格数据库-如何导出oracle数据库中某张表到excel...
  17. 检查mysql数据库脚本_MYSQL 数据库状态检查脚本(Python版)
  18. 冬奥、亚运会、世界杯,顶级运动员与头部品牌们的营销盛宴
  19. 数据标签词构造维度表
  20. Samba TDB 数据库 在嵌入式中的使用

热门文章

  1. Android去除录音中的背景音,视频消音保留背景音乐 怎么能去掉视频中的人声 比如电影中一段人物对话有背景音乐...
  2. mysql聚合函数伪列_Oracle函数学习应用总结
  3. input修改自动填充背景色(单一色以及透明)
  4. 哈希(散列)(三):C语言实现 动态态哈希表
  5. 【RabbitMQ】RabbitMQ架构模型
  6. 专属于通信人的情诗--情书
  7. 中国纺织业对“一带一路”沿线国家出口数据(含64个国家经纬度数据)
  8. CASIA FASD 3D-MAD database Print attack
  9. 分享一款 Win10 摸鱼神器
  10. go语言实现dcv端口转发