在我之前文章 “Elasticsearch:如何调试集群状态 - 定位错误信息” 中,我有详细介绍如何调试集群状态。在今天的文章中,我将详细介绍如何故障排除和修复索引状态。

Elasticsearch 是一个伟大而强大的系统,特别是创建一个可扩展性极强的分布式数据存储,并自动跟踪、管理和路由索引中的所有数据。

但有时事情会出错,索引会遇到或大或小的麻烦。 这通常最终会导致它们具有红色或黄色的状态。 集群将紧随其后,因为它的状态是所有索引中最差的,例如 如果一个索引为红色,则集群为红色。

如果你的集群和一些索引是红色或黄色的,你会怎么做? 那么,你需要找出原因。 你是怎样做的?

红色或黄色是什么意思?

首先,说一下颜色的含义,因为它们看起来很复杂,但最终很简单:

  • 黄色 —— 一个或多个索引缺少(“未分配 - unassigned”)副本分片。 索引仍在工作,可以完全索引、搜索和提供数据,只是没有我们想要的那么快和可靠。
  • 丢失的碎片可能真的丢失、损坏或有其他问题; 或者集群可能正处于移动或重建这些丢失的分片的过程中。
  • 我们的工作是手动或自动重新创建这些丢失的副本以达到绿色。
  • 红色 —— 一个或多个索引缺少主分片并且无法正常工作,即它无法索引、搜索或提供数据。
  • 请注意,这是基于每个分片的,因此即使有 50 个分片,也只需要一个分片失效即可将索引和集群变为红色。
  • 我们的工作是手动查找或修复这些缺失的主索引,如果可以的话,否则索引就会丢失,必须从快照或原始源数据中重新创建。

查找红色和黄色索引

1) 第一步是确定你知道的主要问题,例如死节点、磁盘空间问题等可能产生问题的问题。 这有助于告知我们寻找什么以及我们以后如何修复它。

有时你只需要耐心等待,因为系统通常会通过移动数据来修复自身,例如将副本提升为主要副本,然后重新创建新副本,但这需要时间,从几分钟到更长,具体取决于分片数量和大小, 集群负载、磁盘速度等。

但你不能指望这一点,除非很明显系统正在自我修复。 有时事情真的坏了,这就是为什么了解历史是件好事,因为重启节点肯定会使一些索引变黄,但几分钟后又变绿。

2) 第二步是确定哪些索引有问题,有多少索引有问题。 _cat API 可以通过状态告诉我们:

GET /_cat/indices?v&health=red
GET /_cat/indices?v&health=yellow

从中我们可以了解我们有多少问题,这可能与上面讨论的任何最近事件有关。 我们还需要这个列表,以便我们可以更深入地挖掘每个索引。

3) 第三步是查看哪些分片有问题以及原因。 这与索引列表有关,但索引列表只会告诉你哪些索引有问题,现在我们需要每个分片的问题列表。

我们为此使用 _cat 接口,理想情况下使用排序和一些额外的列,例如这将列出按状态排序的索引,包括未分配的基本原因 - 查找 UNASSIGNED 状态:

GET /_cat/shards?v&h=n,index,shard,prirep,state,sto,sc,unassigned.reason,unassigned.details&s=sto,index

这可能足以了解正在发生的事情,其中有未分配的详细信息列,我们可以从中解决问题。 但有时我们需要更多细节,特别是当我们有节点路由或其他更复杂的问题时。

我们可以询问集群为什么分片没有分配 …

为此,我们可以要求集群解释给定分片的当前分配情况和逻辑。 这有点混乱,因为我们需要上面列表中的两个分片编号(从 0 开始),并且要知道我们是否要查看主分片或副本,同样来自上面的列表。

API 调用是这样的,这里需要设置索引名,分片号,primary true/false:

GET _cluster/allocation/explain
{"index": ".ds-heartbeat-8.6.1-2023.03.27-000001","shard": 0,"primary": true
}

这将使您更详细地了解情况,接下来要做什么取决于您在那里找到的原因。

一些常见问题包括:

  • 磁盘空间不足 —— 没有空间可以分配。请详细阅读文章 “Elasticsearch:Low disk watermark”。
  • 分片计数限制 —— 每个节点的分片太多,这在创建新索引或删除某些节点并且系统无法为它们找到位置时很常见。
  • JVM 或堆限制 —— 一些版本可以在 RAM 不足时限制分配
  • 路由或分配规则 —— 常见的 HA(Highly Available)云或大型复杂系统
  • 损坏或严重问题 —— 可能会出现更多问题,每个问题都需要特别注意或解决方案,或者在许多情况下,只需删除旧分片并添加新副本或主分片。

修复红色和黄色索引

第四步是修复问题。 修复分为几类:

  • 等待并让 Elasticsearch 修复它 —— 对于节点重启等临时情况
  • 手动分配分片 —— 有时需要解决问题
  • 检查路由/分配规则 —— 许多 HA 或复杂系统使用路由或分配规则来控制放置,随着情况的变化,这可能会创建无法分配的分片。 解释应该清楚这一点。
  • 通过将数字设置为 0 来删除所有副本 —— 也许你无法修复副本或手动移动或分配它。 在这种情况下,只要你有一个主节点(索引是黄色的,而不是红色的),你总是可以将副本计数设置为 0,等一下,然后设置回 1 或任何你想要的,使用:“index” :{“number_of_replicas”:0}

我们将在出现状态和解决方案时添加更多详细信息,但这是一个复杂的问题,并且与所有系统一样,修复会根据问题的确切细节和历史记录而有所不同。

Elasticsearch:索引状态是红色还是黄色?为什么?相关推荐

  1. elasticsearch 索引 red 状态恢复 green

    ES集群状态.节点.索引及基本查询 一.elasticsearch 索引 red 状态恢复 green 错误原因 由于CPU占用过高或者有部分节点的分片不可用,未被分配: 解决: 重新分配未被分配的分 ...

  2. Elasticsearch索引检控之Indices Segments API与Indices Shard Stores

    本文将继续介绍elasticsearch索引监控之Indices segments与Indices Shard stores api. 1.Indices Segments 提供Lucene索引(分片 ...

  3. Elasticsearch索引生命周期管理方案

    点击上方蓝色"方志朋",选择"设为星标" 回复"666"获取独家整理的学习资料! 一.前言 在 Elasticsearch 的日常中,有很多 ...

  4. Elasticsearch索引(company)_Centos下CURL增删改

    目录 返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 1.Elasticsearch索引说明 a. 通过上面几篇博客已经将Elastics ...

  5. Elasticsearch索引原理

    最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elastic ...

  6. delphi报列表索引越界怎么处理_图解Elasticsearch索引机制,此篇带你领悟新世界...

    前言 随着Elastic的上市,ELK不仅在互联网大公司得到长足的发展,而且在各个中小公司都得到非常广泛的应用,甚至连"婚庆网站"都开始使用Elasticsearch了.随之而来的 ...

  7. elk日志系统中elasticsearch 索引read only 解决

    废话:最近开发的系统使用elasticsearch来存储日志,今早发现elasticsearch中存放日志的索引入库不了新产生的日志,也不能清空索引日志.在官网找了半天才发现问题所在. 原因:当存储空 ...

  8. 干货 | Elasticsearch 索引设计实战指南

    题记 随着 Elastic 的上市,ELK Stack 不仅在 BAT 的大公司得到长足的发展,而且在各个中小公司都得到非常广泛的应用,甚至连"婚庆网站"都开始使用 Elastic ...

  9. Elasticsearch索引安装使用

    环境 系统环境:centos7.0 远程链接工具:xshell 服务器: elasticsearch-7.9.3 192.168.137.171 安装介绍 介绍 关系数据库⇒ 数据库⇒表⇒ 行⇒ 列( ...

最新文章

  1. python拼接mysql时遇到unsupported format character ‘?‘ “(0x82f1)“
  2. DCMTK:使用dcmsr API创建示例结构化报告
  3. 通过OpenFoam记录一些c++的trick(持续更新)
  4. Zing加快了JVM应用程序的预热
  5. stm32 引脚功能重复_STM32的复用时钟何时开启?
  6. uwp - 控件精确移动动画
  7. IOS小工具以及精彩的博客
  8. 条码检测系统——基于MATLAB的一维条码识别
  9. java培训靠谱吗?java培训机构哪个好?
  10. linux磁盘写保护怎么修改_linux 文件、目录写保护
  11. VS Code下载安装
  12. 老男孩教育Python课程内容
  13. 项目管理 - 团队成员无法按期完成任务怎么办?
  14. 如何从根本上防止服务器被攻击
  15. vue 数组中的元素 渲染到一行
  16. 【美食小吃】成都建设路小吃一条街美食推荐
  17. tomcat 日志报错 java.lang.UnsupportedClassVersionError: com/wlt/controller/IndexController
  18. Java毕设项目在线答题系统计算机(附源码+系统+数据库+LW)
  19. 软件测试——基础理论知识你都不一定看得懂
  20. 基于Hi3861的听话的狗子

热门文章

  1. 2017第三十三届湖北(武汉)国际先进医疗仪器设备展览会会刊(参展商名录)
  2. 计算机考试带过,软件考试可以带计算机吗?
  3. 华为机试 HJ27 查找兄弟单词
  4. mysql、mysqli、PDO
  5. [Android6.0][MTK6737] MTK 编译环境搭建
  6. 统信UOS桌面操作系统专业版安装(版本号:V20.1043)
  7. Mac 安装Homebrew慢的问题解决
  8. css图片垂直居中自适应
  9. 分析思维框架:66法则与SQVID原则
  10. Centos 7 ngrok服务器搭建