近期随着业务消息量增大,现网几套kafka集群频繁收到under repliacted告警,集合近期定位分析过程,主要有以下几个方面:

1. 查看是否有主机挂掉,或近期是否有主机重启,通过kafdrop查看started时间,若有异常重启,需要分析日志定位原因;

2. 使用kafdrop可以对分区副本情况进行排查,若发现大部分under replicated的分区都与某个broker上的副本有关,则很可能是broker的问题,可以重点分析下server.log和controller.log

3. 消息量大导致broker间同步消息瓶颈,由于默认副本同步线程数num.replica.fetchers=5,所以针对消息量大或者消息体较大的场景,可以适当调高该配置;

4. CPU负载:检查CPU负载,检查软中断均衡是否开启,消息量大的场景建议开启软中断均衡,但是软中断开启均衡后可能加剧CPU的负载,因为CPU用于单块CPU用于上下文切换的时间减少了,如果请求量足够,会放通更多的请求进来,TPS进一步增加,若CPU持续高于40%,建议扩容CPU,或者增加扩容broker节点数并rebalance topic数据,或者新建集群迁移部分topic过去;

5.磁盘负载:

a. 使用top查看wa占用CPU的百分比,如果该占比长时间大于5%,则需要考虑优化;

b. 使用iostat -x 1查看磁盘io状态,util%为操作的时间占比,长时间接近100%说明磁盘满负荷工作,需要优化,svctm是平均每次io操作的服务时间,await是平均每次io操作的等待时间(包括服务时间),如果两者接近,则io几乎没有等待,如果await远大于svctm,则说明IO队列太长,应用得到响应变慢;

c. 磁盘故障,需要优化磁盘监控,版本优化,支持坏盘自动剔除;

可以考虑更换更快的磁盘;增加磁盘数量,动态新增log.dirs并均衡数据,提高并发度;调整内核elevator算法;优化应用;升级CPU等;

6. 内存负载: kafka使用堆外内存来缓存pagecache,增加发送和消费的性能,大部分内存会被cache掉,内存瓶颈很少遇到;

7. 网卡负载: 目前大部分主流机器都是万兆网卡起步了,网卡瓶颈的案例现网较少遇到,但还是发生过,某些TPS高伴随消息体大的业务,会大大消耗磁盘和网卡的性能,可以网卡发送、接受的buffer情况,通过netstat -an | grep 9092 查看3、4列,如果持续堆积较大,则存在网卡瓶颈,跨机房场景出现网卡瓶颈要多一些,也可以结合netstat -s 和ss -s一起分析丢包情况;

8. 查看进程gc情况,jstat -gcutil pid 1000, 若gc较频繁,考虑增加堆内存大小;

提升:

1. 使用netstat -s 、ss -s分析问题能力

2. kafka socket buffer配置调优

3. 磁盘监控,dmesg分析问题

kafka集群under replicated分析相关推荐

  1. ELK+Kafka集群日志分析系统

    因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部署 3 2) Elasticsear ...

  2. java进阶Kafka集群实战之原理分析及优化教程全在这里

    我不去想是否能够成功 既然选择了Java 便只顾风雨兼程 我不去想能否征服Kafka集群 既然钟情于Java 就勇敢地追随千锋 我不去想Kafka集群有多么晦涩难懂 既然目标是远方 留给世界的只能是努 ...

  3. Kafka集群在马蜂窝大数据平台的优化与应用扩展

    导读 Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题. Kafka 在马蜂窝也有非常广 ...

  4. kafka集群原理介绍

    kafka集群原理介绍 @(KAFKA)[kafka, 大数据] kafka集群原理介绍 一基础理论 二配置文件 一java调优 二参数说明 三错误处理 四zookeeper中的内容 1brokers ...

  5. Kafka 集群在马蜂窝大数据平台的优化与应用扩展

    Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题. Kafka 在马蜂窝也有非常广泛的应 ...

  6. 打造全球最大规模 Kafka 集群,Uber 的多区域灾备实践

    - Uber 的 Kafka 生态系统 - Uber 拥有世界上最大的 Kafka 集群,每天处理数万亿条消息和几个 PB 的数据.如图 1 所示,Kafka 现在成了 Uber 技术栈的基石,我们基 ...

  7. k8s kafka集群 连接不上_图解 K8s 核心概念和术语

    我第一次接触容器编排调度工具是 Docker 自家的 Docker Swarm,主要解决当时公司内部业务项目部署繁琐的问题,我记得当时项目实现容器化之后,花在项目部署运维的时间大大减少了,当时觉得这玩 ...

  8. 单机 搭建kafka集群 本地_单机快速搭建多节点kafka集群

    有时候为了更好地了解kafka集群的运行机制,需要自己搭建kafka集群.本文的目的就是让大家在单机上快速搭建kafka集群(仅作为单机测试使用). 环境及工具版本 mac OS 10.15.5 ka ...

  9. 融云发送自定义消息_数据源管理 | Kafka集群环境搭建,消息存储机制详解

    一.Kafka集群环境 1.环境版本 版本:kafka2.11,zookeeper3.4 注意:这里zookeeper3.4也是基于集群模式部署. 2.解压重命名 tar -zxvf kafka_2. ...

最新文章

  1. pandas 里面对nan的判断
  2. python安装numpy-Python使用pip安装Numpy模块
  3. windows中以管理员身份运行cmd
  4. opencv 设置视频帧的分辨率“无效”
  5. java 打包jar文件以在没有安装JDK或JRE的机子上运行
  6. 【CF 600E】Lomsat gelral(树上启发式合并, dsu on tree, 静态链分治,模板题)
  7. 8-汇编语言数据长度及寻址-bx/si/di/bp+ss+ptr+div+dd+dup
  8. 【更新】PDF控件Spire.PDF 3.9.538发布 | 附下载
  9. snap7读写西门子plc1200步骤(python) PLC通讯
  10. zend studio php 错误提示,Zend Studio错误总结,zendstudio总结_PHP教程
  11. 计算机内图片怎么自定义排序,win7电脑中如何设置图片排序方式?
  12. 天津全国计算机等级考试考点,2018年下半年全国计算机等级考试报考简章及天津考点安排...
  13. Angular 安全导航操作符(?.)和空属性路径
  14. C’est lavie
  15. 性能稳定的android手机,盘点吃鸡性能最好的4款安卓手机,黑鲨只能垫底
  16. 小船过河问题解析(过度解析)
  17. 【openstack-rally】使用rally执行tempest api测试并导出测试报告
  18. 技术答疑 普通音效、技能音效与动画音效的区别
  19. PCB原理图绘制(6)——原理图的修改、导出与PCB布线前准
  20. 汽车行业标准程序西门子1500大型程序发那科机器人焊装CCD 扫描MES通讯RFID读写

热门文章

  1. 用VBA法在Exce中l快速批量合并相同内容
  2. clipboard实现复制粘贴功能,解决复制成功多次弹出问题.
  3. UCSB研发量子传感技术,具备纳米级别的空间分辨率
  4. 【大数据数仓项目集群配置 一】
  5. matlab点云三维重构,无序点云三维重建方法技术
  6. 阿里高层大调整/ 推特突发大规模宕机/ 任天堂砍掉Switch Pro…今日更多新鲜事在此...
  7. 聚观早报 | 《三体》将于2023年上映;李恩祐加入京东董事会
  8. 油溶性PbS/CdS量子点近红外发射光PL800nm-1600nm硫化铅/硫化镉量子点
  9. 【每天学点管理学】—— 人才培养
  10. IOS企业APP开发Provisioning Profiles配置