集群健康检查

Ceph Monitor守护程序响应元数据服务器(MDS)的某些状态生成健康消息。 以下是健康消息的列表及其解释:

mds rank(s) have failed

一个或多个MDS rank当前未分配给任何MDS守护程序。在启动合适的替换守护程序之前,存储集群不会恢复。

mds rank(s) are damaged

一个或多个MDS rank存储的元数据出现严重损坏,在修复元数据之前无法重新启动。

mds cluster is degraded

一个或多个MDS rank当前未启动并运行,客户端可能会暂停元数据I/O,直到解决此问题。这包括失败或损坏的rank,以及在MDS上运行但尚未处于active状态的rank,例如,处于replay状态的rank。

mds are laggy

MDS守护进程应该按照mds_beacon_interval选项指定的时间间隔向监视器发送信标消息,默认值为4秒。如果MDS守护进程未能在mds_beacon_grace选项指定的时间内发送消息,默认值为15秒。Ceph Monitor将MDS守护进程标记为laggy,并自动将其替换为备用守护进程(如果有)。

守护进程报告的健康检查

MDS守护进程可以识别各种不需要的条件,并在ceph status命令的输出中返回它们。这些条件具有人类可读的消息,并且具有启动MDS_HEALTH的唯一代码,该代码出现在JSON输出中。下面是守护进程消息、它们的代码和说明的列表。

“Behind on trimming…”

Code: MDS_HEALTH_TRIM

CephFS 维护一个元数据日志,该日志分为日志段。 日志的长度(以段数计)由 mds_log_max_segments 设置控制。 当段数超过该设置时,MDS 开始回写元数据,以便它可以删除(修剪)最旧的段。 如果此过程太慢,或者软件错误阻止修剪,则会出现此运行状况消息。 此消息出现的阈值段数是 mds_log_max_segments 的两倍。

“Client failing to respond to capability release”

Code: MDS_HEALTH_CLIENT_LATE_RELEASE, MDS_HEALTH_CLIENT_LATE_RELEASE_MANY

CephFS 客户端由 MDS 发布能力。 这些能力就像锁一样工作。 有时,例如当另一个客户端需要访问时,MDS 会请求客户端释放他们的能力。 如果客户端没有响应,它可能无法及时响应,或者根本没有响应。 如果客户端响应的时间长于 mds_revoke_cap_timeout 选项指定的时间(默认为 60 秒),则会出现此消息。

“Client failing to respond to cache pressure”

Code: MDS_HEALTH_CLIENT_RECALL, MDS_HEALTH_CLIENT_RECALL_MANY

客户端维护一个元数据缓存。 客户端缓存中的项(例如 inode)也固定在 MDS 缓存中。 当 MDS 需要收缩其缓存以保持在其自己的缓存大小限制内时,MDS 也会向客户端发送消息以收缩其缓存。 如果客户端没有响应,它可能会阻止 MDS 正确地保持在其缓存大小内,并且 MDS 最终可能会耗尽内存并意外终止。 如果客户端所花费的时间超过 mds_recall_state_timeout 选项指定的时间(默认为 60 秒),则会出现此消息。 有关详细信息,请参考“了解 MDS 缓存大小限制”。

“Client failing to advance its oldest client/flush tid”

Code: MDS_HEALTH_CLIENT_OLDEST_TID, MDS_HEALTH_CLIENT_OLDEST_TID_MANY

用于客户端和 MDS 服务器之间通信的 CephFS 协议使用一个名为 oldest tid 的字段来通知 MDS 哪些客户端请求已完全完成,以便 MDS 可以忘记它们。 如果无响应的客户端未能推进此字段,则可能会阻止 MDS 正确清理客户端请求使用的资源。 如果某个客户端的请求数超过了 max_completed_requests 选项(默认为 100000)指定的数量,这些请求在 MDS 端完成但尚未计入客户端的oldest tid 值,则会出现此消息。

“Metadata damage detected”

Code: MDS_HEALTH_DAMAGE

从元数据池读取时遇到损坏或缺少元数据。此消息表示损坏已被充分隔离,MDS可以继续运行,尽管客户端访问损坏子树返回I/O错误。使用damage ls 管理套接字命令查看有关损坏的详细信息。一旦遇到任何损坏,就会显示此消息。

“MDS in read-only mode”

Code: MDS_HEALTH_READ_ONLY

MDS 已进入只读模式,并将向尝试修改任何元数据的客户端操作返回 EROFS 错误代码。

MDS 进入只读模式:

  • 如果在写入元数据池时遇到写入错误。

  • 如果管理员使用 force_readonly 管理套接字命令强制 MDS 进入只读模式。

" slow requests are blocked"

Code: MDS_HEALTH_SLOW_REQUEST

一个或多个客户端请求没有及时完成,说明 MDS 要么运行很慢,要么遇到了 bug。 使用 ops 管理套接字命令列出未完成的元数据操作。 如果任何客户端请求花费的时间超过 mds_op_complaint_time 选项指定的值(默认为 30 秒),则会出现此消息。

“Too many inodes in cache”

Code: MDS_HEALTH_CACHE_OVERSIZED

MDS 未能修剪其缓存以符合管理员设置的限制。 如果 MDS 缓存变得太大,守护程序可能会耗尽可用内存并意外终止。 默认情况下,如果 MDS 缓存大小超过其限制 50%,则会显示此消息。

MDS缓存大小限制

可以通过以下方式限制 CephFS MDS缓存的大小:

  • 内存限制: 使用 mds_cache_memory_limit 选项。重要提示:Red Hat 建议使用内存限制而不是 inode 计数限制。
  • Inode 计数: 使用 mds_cache_size 选项。 默认情况下,禁用按 inode 计数限制 MDS 缓存。

此外,可以使用mds_cache_reservation选项为mds操作指定缓存保留。缓存保留被限制为内存或inode限制的百分比,默认设置为5%。此参数的目的是让MDS为其缓存保留额外的内存,以供新的元数据操作使用。因此,MDS通常应该在低于其内存限制的情况下运行,因为它将从客户端回收旧状态,以便在其缓存中丢弃未使用的元数据。

除 MDS 节点向 Ceph Monitor发送健康警报,指示缓存太大外,mds_cache_reservation 选项在所有情况下都会替换 mds_health_cache_threshold 选项。 默认情况下,mds_health_cache_threshold 是最大缓存大小的 150%。

请注意,缓存限制不是硬限制。 CephFS 客户端或 MDS 中的潜在错误或行为不端的应用程序可能会导致 MDS 超出其缓存大小。 mds_health_cache_threshold 选项配置存储集群健康警告消息,以便操作员可以调查 MDS 无法收缩其缓存的原因。

ceph文件系统的健康消息相关推荐

  1. Ceph集群搭建及其运用(块存储、ceph文件系统)

    一.ceph简介 ceph被称作面向未来的存储, 可以实现的存储方式: 块存储:提供像普通硬盘一样的存储,为使用者提供"硬盘" 文件系统存储:类似于NFS的共享方式,为使用者提供共 ...

  2. 应用ceph文件系统存储(ceph-13.2.10)

    记录:333 场景:在CentOS 7.9操作系统上,部署ceph-13.2.10集群.应用ceph文件系统(ceph file system):主要是创建ceph文件系统.客户端挂载ceph文件系统 ...

  3. 集群基础之04(部署ceph实验环境、部署ceph集群、创建Ceph块存储、块存储应用、挂载Ceph文件系统、创建对象存储服务器)

    目录 前言: Ceph简介 Ceph特点 Ceph架构 Ceph核心组件及概念介绍 1.部署ceph实验环境: 2 .部署ceph集群 3.创建Ceph块存储 4.块存储应用 5.挂载Ceph文件系统 ...

  4. 创建Ceph文件系统

    创建Ceph文件系统 搭建Ceph集群过程省略,参考如下: https://blog.csdn.net/mengshicheng1992/article/details/120567117 1.创建C ...

  5. ceph 集群 健康状态 监管

    1.简介 1.1 介绍 我们 需要 监测 的集群 正在 运行的各种服务进程:集群 所有 pgs 正常 状态 为 active + clean,其余 均为 异常 状态 1.2 集群 基础 监测 集群 基 ...

  6. HDFS、Ceph文件系统以及Hbase、Cassendra、TiDB比较

    文章目录 HDFS.Ceph差异对比 HDFS设计目标 HDFS文件目录 Ceph设计目标 Ceph数据结构 HDFS文件导出 Ceph文件导出 暂时的结论 其它FS选型 其它思路 总结 Hbase. ...

  7. Ceph分布式存储系统优化分析

    前篇文章"Ceph分布式存储系统架构研究综述"重点分析了Ceph分布式存储系统架构,今天接着Ceph话题,继续分享Ceph常见的系统和性能优化技术. Ceph支持多种存储访问接口, ...

  8. 译文 Ceph:一个可扩展,高性能分布式文件系统

    译者注:本文是出于作者对于ceph的兴趣,在开源中国上关注ceph翻译,没有看到ceph论文的相关翻译, 索性在阅读过程中把它翻译了出来,花费了几个周末时间,翻译过程中收获颇多,现把译文分享出来,如对 ...

  9. Ceph作为Hadoop分布式文件系统的可扩展替代方案

    新钛云服已为您服务1020天 文档说明 HDFS的缩放限制.我们描述Ceph及其元素,并提供安装可与Hadoop一起使用的演示系统的说明. Hadoop已经成为一个非常流行的大规模数据分析平台.这种流 ...

最新文章

  1. cocos2d-x初探学习笔记(14)--菜单项
  2. java整体打印二叉树
  3. 区块链需要学习哪些东西_区块链主要学习哪些知识?
  4. cad制图初学入门_CAD自学不要怕,这里有你需要的CAD制图初学入门教程!
  5. axure后台示例_【Axure电商案例】如何设计和真的后台一样给客户看
  6. 业务安全(逻辑漏洞)
  7. ipsan设备挂载及模仿iscsi服务端进行挂载
  8. 火星探险 (Mars)
  9. 浏览器被hao123劫持
  10. 关于最近网上谣言传的很凶的 “太吾绘卷” 游戏源代码的问题。
  11. 『解题报告』数学 - Standard Deviation (标准差) - UVA10886
  12. python中怎么判断输入的是否是字母 阿斯克码_python中字母与ascii码的相互转换
  13. mysql查询今年过去的天数
  14. (六)图数据neo4j之cypher(一)
  15. 以太坊:创建安全多签名钱包及高级设置
  16. 自动控制原理大作业——已知某位置测控装置如图所示
  17. 4g网络什么时候淘汰_5G时间表已出4G会被淘汰吗 4g网络还能用多久
  18. (一)我要偷偷学习html,然后惊艳我们班的人!(标签学习)
  19. java发送hotmail邮件_利用javamail收取Hotmail的退信
  20. Python——unfold()函数

热门文章

  1. CSS_03_盒子模型
  2. 泛微OA系统E-office11中小企业全能OA办公系统默认的初始密码是什么
  3. linux C语言perror()函数(将错误消息写入标准错误)(把一个描述性错误消息输出到标准错误 stderr。首先输出自定义字符串 str,后跟一个冒号,然后是一个空格)
  4. AutoHotkey循环切换Win10或则Win11任务视图的多个虚拟桌面(切换桌面)
  5. C语言 强行给内存地址赋值
  6. 解决phpstudy mysql启动不了
  7. 为什么文件夹显示在另一程序打开
  8. 推荐系统的UI交互与视觉展示
  9. 跳一跳 微信小程序中的跳一跳相信大家都玩过。emmm???只学习不玩游戏?那就吃亏了...好好读题理解吧 简化后的跳一跳规则如下:玩家每次从当前方块跳到下一个方块,如果没有跳到下一个方块上则游
  10. 降低机房95计费成本思路,降低带宽,节约成本