温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.问题现象

Hadoop集群HDFS、YARN、Hive等服务出现异常告警

重启集群异常告警任然存在大量告警

Cluster 1

HDFS

可用空间抑制...

NameNode 运行状况抑制...
HDFS 金丝雀抑制...

DataNode (ip-172-31-10-118) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-5-190) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-9-33) 日志文件

NameNode 连接抑制...

Hive Metastore Server (ip-172-31-6-148)  日志文件

Hive Metastore Canary 抑制...

Impala Daemon (ip-172-31-10-118)  日志文件

进程状态抑制...

Impala Daemon (ip-172-31-5-190)  日志文件

进程状态抑制...

Impala Daemon (ip-172-31-9-33)  日志文件

进程状态抑制...

NameNode (ip-172-31-6-148) 日志文件

安全模式状态抑制...

Server (ip-172-31-5-190) 日志文件

Quorum 成员资格抑制...

Zookeeper服务“Quorum 成员资格”告警

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

2.问题复现

集群环境:

  • CDH5.12.0
  • 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)

1.还原现场配置,所有服务器hosts配置文件配置

127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置为多出的异常配置。

在主机上ping自己的hostname显示

2.重启集群服务

CM出现如下大量告警

Cluster 1HDFS
可用空间抑制...NameNode 运行状况抑制...HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33)  日志文件
NameNode 连接抑制...Hive Metastore Server (ip-172-31-6-148)  日志文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148)  日志文件
进程状态抑制...Impala Daemon (ip-172-31-10-118)  日志文件
进程状态抑制...Impala Daemon (ip-172-31-5-190)  日志文件
进程状态抑制...Impala Daemon (ip-172-31-9-33)  日志文件
进程状态抑制...
NameNode (ip-172-31-6-148)  日志文件
安全模式状态抑制...
Server (ip-172-31-5-190)  日志文件
Quorum 成员资格抑制...ip-172-31-10-118
代理状态抑制...ip-172-31-5-190
代理状态抑制...ip-172-31-9-33
代理状态抑制...

Zookeeper与现场告警一致,且Zookeeper服务如下状态

在查看CM节点的日志出现如下异常“Connection refused”

Host列表监控状态

3.问题原因

集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致

4.解决方法

修改所有节点的hosts文件,将127.0.0.1行配置注释

重启集群服务恢复正常;

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。


原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

0023-HOSTS配置问题导致集群异常故障分析相关推荐

  1. 【Es】Es 集群设置分片很大导致集群无法选举主节点异常等

    1.背景 因为写了一个es运维平台,因此可以修改es的模板信息,然后测试把模板的分片设置成1000了,然后导致集群崩溃了,具体现象如下 集群每台机器启动正常 集群无法选举主节点 其他异常 [elast ...

  2. Oracle-opatchauto自动安装补丁失败导致RAC集群异常问题

    前言: 近期处理了一起由于opatchauto自动安装补丁失败导致的RAC集群异常问题,用户通过opatchauto进行RAC集群补丁升级,在升级的过程中出现报错失败并且集群也无法再重新启动. 经过分 ...

  3. 导致集群重启_解析 Elasticsearch 棘手问题,集群的 RED 与 YELLOW

    01 前言 大家先看两个故障,带着问题去思考: [故障诊断 - 案例 A]首先大致看一下分片未分配原因: 结果显示分片大都是因为 node_left 导致未分配,然后通过 explain API 查看 ...

  4. KingbaseES V8R6 集群运维案例 -- 磁盘空间问题导致集群故障

    某商业银行生产系统KingbaseES读写分离集群主库出现故障,导致集群主备发生切换.客户要求说明具体的原因. KingbaseES读写分离集群基本信息: KingbaseES集群信息   操作系统 ...

  5. ORACLE RAC 11.2.0.4 ASM加盘导致集群重启之ASM sga设置过小

    最近,一同事为一2节点的ORACLE RAC 11.2.0.4集群ASM加盘,没有注意到ASM的sga设置过小,加盘reblance时导致集群重启.详细描述如下: ​1.问题描述 ​ORACLE RA ...

  6. 导致集群重启_园区网核心交换机S7706异常重启导致无线网络故障

    问题现象 园区网核心交换机S7706设备异常重启,重启完成后其中一个无线信号故障,其它无线信号正常. 问题分析 1.问题现象分析 检查交换机上的重启时间点记录如下: 从该记录来看,重启原因是由于交换机 ...

  7. clickhouse 集群异常排查处理总结

    Cannot execute replicated DDL query, maxium retires exceeded. 报错原因 有之前执行的更新任务没有执行完,必须要之前版本的更新执行完才能进行 ...

  8. rabbitMQ集群异常

    执行命令: unable to connect to epmd (port 4369) on vm-246: nxdomain (non-existing domain) rabbitmqctl jo ...

  9. greenplum数据库集群异常FATAL,XX000,Number of freeTIDs 788079, do not match maximum free order numbe

    背景描述:greenplum生产集群晚上运行任务负载过高导致实例异常,集群资源繁忙无法正常登陆数据库无法进行恢复,清理部分任务进程后停库进行重启失败,64个实例29个失败. 现象:重启异常:[ERRO ...

最新文章

  1. 百度:2020年十大科技趋势
  2. Python——with语句、context manager类型和contextlib库
  3. 高压模块性相关的几个问题测量
  4. 2.什么是变量的数据类型
  5. Linux服务器集群系统(三)--转
  6. Halcon初学者知识:用set_paint直观显示图像的属性
  7. SAP CRM material上传调试
  8. 从1.5k到18k, 一个程序员的5年成长之路
  9. 【Android】14.2 外部文件存储和读取
  10. rn 0.57打包常见错误_linux管道命令介绍及常见用于场景
  11. 2013蓝桥杯C++B:高斯日记;马虎的算式(2种解法)
  12. 张亚勤:终日“闭关”读论文,思考终极算法
  13. 从 Promise、Async/Await 、Generator等角度实现一个 sleep 函数
  14. 金蝶K3批量出库语句与执行方法
  15. 在小县城做什么赚钱?来看看这十种赚钱的项目吧!
  16. 零知识证明(zero-knowledge proof)
  17. macbook linux 双系统,macbookair双系统怎么切换使用?macbookair双系统切换使用的方法...
  18. HTML CSS学习总结
  19. 邯郸计算机学校排名2015,邯郸初中排名2021最新排名,邯郸初中排名前十的学校有哪些...
  20. 2019春季学期总结

热门文章

  1. Linux系统网卡配置
  2. 思科领跑关键技术基础设施市场,潜力股HPE可与其一搏
  3. 【译】使用示例带你提前了解 Java 9 中的新特性
  4. 推荐产品经理必读书单
  5. 系统集成项目管理工程师(软考中级)—— 第二十四章 收尾管理、知识产权、法规标准规范 笔记分享
  6. 自学java去哪找工作比较好_自学的java,好找工作吗?
  7. 惠普中国CEO孙振耀退休感言
  8. 我所知道坦克大战(单机版)之使用键盘控制改变坦克位置
  9. 一维稳态对流扩散问题,无源项,QUICK格式的python程序
  10. linux 下vim的使用(学习必看!!重要)