系统突然有个IO高峰:

想知道什么事:disk.io.util/device=vda;

disk.io.util:在统计时间内所有处理IO时间,除以总共统计时间。是个百分数,比如56.43,表示56.43%。目前我的公司就是监控这个指标报警,之后去排查问题

磁盘:随着大数据快速发展、人工智能、自动化、云平台。数据量指数的增长。磁盘的使用量也在增长。目前的机器基本上采用SSD或者SATA盘,一直有人比较那个好。会不会使用时间短。寿命不长。但是最新的某科技公司的测试评论。已经显示了。SSD更安全,速度更快(SATA真的OUT)。SSD 是没有扇区、扇面、没有扫扇道...这些概念。本文讲解一下磁盘监控项。与一些排查思想。

常用的磁盘检查命令:

vmstat内存读写情况、iostat查看磁盘读写情况、top查看应用负责、strace -p 查看应用执行动作、sar、df、 MegaCli64、dd、hdparm、du、cat /proc/$pid/io、/proc/sys/vm/block_dump...

监控平台监控指标:

1)分区读写监控

测试所有已挂载分区是否可读写,作为基础监控项(非0读写有问题)

cat /proc/mounts

2)磁盘相关采集项

df.bytes.free:磁盘可用量

df.bytes.free.percent:磁盘可用量占总量的百分比

df.bytes.total:磁盘总大小

df.bytes.used:磁盘已用大小

df.bytes.used.percent:磁盘已用大小占总量的百分比(监控这个指标报警)

df.inodes.total:inode总数

df.inodes.free:磁盘可用inode数目

df.inodes.free.percent:可用inode百分比

df.inodes.used:磁盘已用的inode数据

df.inodes.used.percent:已用inode百分比(监控这个指标报警)

3)IO相关采集项

计算方法:每秒采集一次/proc/diskstats

disk.io.ios_in_progress:当前正在运行的实际I / O请求数

disk.io.msec_read:所有读取花费的总计ms数

disk.io.msec_total:ios_in_progress> = 1的时间量

disk.io.msec_weighted_total:统计最近的I / O完成时间和积压。

disk.io.msec_write:所有写入所花费的总时间

disk.io.read_merged:相邻的读取请求合并在单个req中

disk.io.read_requests:读取成功完成的总数(汇总)

disk.io.read_sectors:成功读取的扇区总数

disk.io.write_merged:相邻的写请求合并在单个请求中

disk.io.write_requests:成功写入磁盘的总次数

disk.io.write_sectors:成功写入扇区数的总次数

disk.io.read_bytes:单位是byte的数字

disk.io.write_bytes:单位是byte的数字

4)下面几个值就是iostat -x 1看到的值

disk.io.avgrq_sz:平均请求扇区的大小

disk.io.avgqu-sz:是平均请求队列的长度。毫无疑问,队列长度越短越好

disk.io.await:每一个IO请求的处理的平均时间(单位是毫秒)

disk.io.svctm:表示平均每次设备I/O操作的服务时间(以毫秒为单位)

disk.io.util:在统计时间内所有处理IO时间,除以总共统计时间。是个百分数,比如56.43,表示56.43%。目前我的公司就是监控这个指标报警,之后去排查问题

5)一些常见的linux磁盘的专业术语(具体请百度)

如何提高机器的磁盘性能

1)首先想到的就是换性能好的磁盘。这个好像是最高效的方式,SSD具有更好的性能,访问数据都是随机的。更小的功耗。LVM(逻辑卷)的扩容。

2)然后就是Raid (RAID0, RAID1, RAID5, RAID0+1)。通过raid实际数据在多块磁盘的并发读写和数据备份。增强磁盘的可用性和容错能力

3)确定机器的上线的需求。运维人员一定要知道,机器的使用场景。小文件(占用Inode例如图片)读写瓶颈是磁盘的寻址(tps),大文件(占用磁盘容量)读写的性能瓶颈是带宽

4)Linux有一句话(一切皆文件)。空闲内存作文件系统访问的cache,因此系统内存越大存储系统的性能也越好

5)最后就是架构层面的优化,CDN(nginx、squid..),机房内部反向代理(squid),memcached,消息队列,缓存机制。总之就是静态的采用缓存机制。非静态的优化性能,减小调用磁盘

那些问题导致磁盘缓慢:

1)应用程序设计的缺陷和数据库查询的滥用、操作人员的失误、都有可能导致性能问题

2)性能瓶颈可能是因为程序设计缺陷/内存太小/磁盘有损坏、性能差,但是最终都是CPU耗尽的结果(这就话很实用),系统负载极高,响应迟缓,甚至暂时失去响应。登陆不上机器。

3)由于linux的swap机制。物理内存不够时会使用交换内存(可以调优参数),大量使用swap会带来磁盘I0进而导致CPU消耗

4)可能造成cpu瓶颈的问题:频繁执Perl,php,java程序生成动态web;数据库查询大量的where子句、order by/group by排序……

5)可能造成内存瓶颈问题:高并发用户访问、系统进程多(每个进程都会消耗内存,驻留内存),java内存泄露……

6)可能造成磁盘IO瓶颈问题:生成cache文件,数据库频繁更新,或者查询大表……

如何查看磁盘缓慢(来点实际的)

1)swap(当内存不足时会调用SWAP)

a.si列表示由磁盘调入内存,也就是内存进入内存交换区的数量;

b.so列表示由内存调入磁盘,也就是内存交换区进入内存的数量

c.一般情况下,si、so的值都为0,如果si、so的值长期不为0,则表示系统内存不足,需要考虑是否增加系统内存。或者扩展机器提高可用性

2)IO

a.bi列表示从块设备读入的数据总量(即读磁盘,单位KB/秒)

b.bo列表示写入到块设备的数据总量(即写磁盘,单位KB/秒)

这里设置的bi+bo参考值为1000,如果超过1000,而且wa值比较大,则表示系统磁盘IO性能瓶颈。

参考:linux监控平台搭建-磁盘

转载于:https://www.cnblogs.com/aspirant/p/11224947.html

linux监控平台搭建-磁盘相关推荐

  1. Linux监控平台搭建( zabbix监控)

    2019独角兽企业重金招聘Python工程师标准>>> Linux监控平台搭建( zabbix监控) 一.Linux监控平台介绍 1.监控存在的原因 站点出了问题,没有人知道,等用户 ...

  2. Linux监控平台搭建zabbix

    内容摘要 Linux监控平台介绍 zabbix监控介绍 安装zabbix 忘记Admin密码如何做 主动模式和被动模式 添加监控主机 添加自定义模板 处理图形中的乱码 自动发现 添加自定义监控项目 配 ...

  3. Linux监控平台搭建Zabbix(资源)

    2019独角兽企业重金招聘Python工程师标准>>> 自动化监控: 1.cobbler实现自动装机 2.saltstack实现工程自动化配置 3.kubernetes实现容器自动化 ...

  4. linux监控平台搭建-内存

    上一篇文章说的硬盘.就写一下.更加重要的东西.在手机上面是RAM.机器是memory.内存是按照字节编址.每个地址的存储单元可以存放8bit的数据.cpu 通过内存地址获取一条指令和数据.内存溢出ou ...

  5. ELK搭建(五):linux系统日志监控平台搭建

    0. 引言 现在的生产系统多使用linux系统,在实际生产过程中我们除了需要监控一些业务日志之外,有时也需要监控linux系统本身的日志,来帮助我们进行一些排错和判断.那么这一期,我们就针对linux ...

  6. Nagios 监控平台搭建实验

    Nagios 监控平台搭建实验 前言 本文重点在于NagioS监控平台的工作原理与运行原理,后面会将详细的搭建流程展示,如有错误和遗漏的地方,欢迎大家指正,谢谢. 基础理论说明 Nagios是什么? ...

  7. Linux监控平台(zabbix监控介绍,安装zabbix,解决忘记admin密码)

    linux监控平台介绍 常见开源监控软件:cacti,nagios,zabbix,smokeping,open-falcon等等 cacti,smokeping偏向于基础监控,成图非常漂亮 cacti ...

  8. 19.1 Linux监控平台介绍;19.2 zabbix监控介绍;19.3,19.4 安装zabbi

    19.1 Linux监控平台介绍 常见开源监控软件: 1. cacti.nagios.zabbix.smokeping.open-falcon等等 2. cacti.smokeping偏向于基础监控, ...

  9. RocketMQ 实战 集群监控平台搭建

    RocketMQ 实战 集群监控平台搭建 概述 RocketMQ有一个对其扩展的开源项目incubator-rocketmq-externals,这个项目中有一个子模块叫rocketmq-consol ...

最新文章

  1. Word2010开发——操作文档
  2. golang源码分析:调度器chan调度
  3. Query理解在美团搜索中的应用
  4. oracle 最低要求吗,神谕Oracle配置要求高吗?最低及推荐配置一览
  5. CSS(1)——如何使用css选择器
  6. python easygui_python简单图形界面GUI入门——easygui
  7. MySQL5安装配置笔记【超详细】
  8. 纸牌三角形(蓝桥杯)
  9. html游戏图标库,又一款开源图标库 CSS.GG,值得一用
  10. (16)Verilog模块例化-基本语法(四)(第4天)
  11. 直播平台搭建与相关资料
  12. 12v驱动光耦用多大的电阻_倍思10000mAh PD快充充电宝拆解,内置多合一双向快充芯片...
  13. Android用户界面 UI组件--AdapterView及其子类(一) ListView及各种Adapter详解
  14. struts2入门第一天----------一个简单例
  15. cocos2d-x学习之旅(十一):制作TXM游戏地图,并加载到游戏场景中
  16. 2021-08-30缺失的第一个正数
  17. CVTE软件技术支持面试总结
  18. 中文版Latex常用语法大全教程
  19. matlab信号处理基础(音频和图像)
  20. Ubuntu中触摸板如何开启,关闭

热门文章

  1. 《android进阶之光》——事件总线(上)
  2. ilk,pch,pbd,obj,idb,pdb这些扩展名各是什么意思
  3. 计算机数控机床工作原理,数控机床电气控制系统工作原理
  4. Win7 下如何注册OCX控件 。0x80040200错误。
  5. mt4交易品种代码_mt4怎么添加交易品种mt4交易品种代码? 爱问知识人
  6. Laravel5.5 第一次运行报错call to undefined function openssl cipher iv length()
  7. linux密码验证机制,linux用户认证机制
  8. linux chrome字体发虚,软件、Chrome字体细到模糊发虚解决方案
  9. 千万商家的智能决策引擎 - AnalyticDB如何助力生意参谋双十一
  10. 软件著作权多长时间授权