前言

OutOfMemoryError 问题相信很多朋友都遇到过,相对于常见的业务异常(数组越界、空指针等)来说这类问题是很难定位和解决的。

本文以最近碰到的一次线上内存溢出的定位、解决问题的方式展开;希望能对碰到类似问题的同学带来思路和帮助。

主要从表现-->排查-->定位-->解决 四个步骤来分析和解决问题。

表象

最近我们生产上的一个应用不断的爆出内存溢出,并且随着业务量的增长出现的频次越来越高。

该程序的业务逻辑非常简单,就是从 Kafka 中将数据消费下来然后批量的做持久化操作。

而现象则是随着 Kafka 的消息越多,出现的异常的频次就越快。由于当时还有其他工作所以只能让运维做重启,并且监控好堆内存以及 GC 情况。

重启大法虽好,可是依然不能根本解决问题。

排查

于是我们想根据运维之前收集到的内存数据、GC 日志尝试判断哪里出现问题。

结果发现老年代的内存使用就算是发生 GC 也一直居高不下,而且随着时间推移也越来越高。

结合 jstat 的日志发现就算是发生了 FGC 老年代也已经回收不了,内存已经到顶。

甚至有几台应用 FGC 达到了上百次,时间也高的可怕。

这说明应用的内存使用肯定是有问题的,有许多赖皮对象始终回收不掉。

定位

由于生产上的内存 dump 文件非常大,达到了几十G。也是由于我们的内存设置太大有关。

所以导致想使用 MAT 分析需要花费大量时间。

因此我们便想是否可以在本地复现,这样就要好定位的多。

为了尽快的复现问题,我将本地应用最大堆内存设置为 150M。

然后在消费 Kafka 那里 Mock 为一个 while 循环一直不断的生成数据。

同时当应用启动之后利用 VisualVM 连上应用实时监控内存、GC 的使用情况。

结果跑了 10 几分钟内存使用并没有什么问题。根据图中可以看出,每产生一次 GC 内存都能有效的回收,所以这样并没有复现问题。

没法复现问题就很难定位了。于是我们 review 代码,发现生产的逻辑和我们用 while 循环 Mock 数据还不太一样。

查看生产的日志发现每次从 Kafka 中取出的都是几百条数据,而我们 Mock 时每次只能产生一条

为了尽可能的模拟生产情况便在服务器上跑着一个生产者程序,一直源源不断的向 Kafka 中发送数据。

果然不出意外只跑了一分多钟内存就顶不住了,观察左图发现 GC 的频次非常高,但是内存的回收却是相形见拙。

同时后台也开始打印内存溢出了,这样便复现出问题。

解决

从目前的表现来看就是内存中有许多对象一直存在强引用关系导致得不到回收。

于是便想看看到底是什么对象占用了这么多的内存,利用 VisualVM 的 HeapDump 功能可以立即 dump 出当前应用的内存情况。

结果发现 com.lmax.disruptor.RingBuffer 类型的对象占用了将近 50% 的内存。

看到这个包自然就想到了 Disruptor 环形队列。

再次 review 代码发现:从 Kafka 里取出的 700 条数据是直接往 Disruptor 里丢的。

这里也就能说明为什么第一次模拟数据没复现问题了。

模拟的时候是一个对象放进队列里,而生产的情况是 700 条数据放进队列里。这个数据量是 700 倍的差距。

而 Disruptor 作为一个环形队列,再对象没有被覆盖之前是一直存在的。

我也做了一个实验,证明确实如此。

我设置队列大小为 8 ,从 0~9 往里面写 10 条数据,当写到 8 的时候就会把之前 0 的位置覆盖掉,后面的以此类推(类似于 HashMap 的取模定位)。

所以在生产上假设我们的队列大小是 1024,那么随着系统的运行最终肯定会导致 1024 个位置上装满了对象,而且每个位置是 700 个!

于是查看了生产上 Disruptor 的 RingBuffer 配置,结果是:1024*1024

这个数量级就非常吓人了。

为了验证是否是这个问题,我在本地将该值换为 2 ,一个最小值试试。

同样的 128M 内存,也是通过 Kafka 一直源源不断的取出数据。通过监控如下:

跑了 20 几分钟系统一切正常,每当一次 GC 都能回收大部分内存,最终呈现锯齿状。

这样问题就找到了,不过生产上这个值具体设置多少还得根据业务情况测试才能知道,但原有的 1024*1024 是绝对不能再使用了。

总结

虽然到了最后也就改了一行代码(还没改,直接修改配置),但这排查过程我觉得是有意义的。

也会让大部分觉得 JVM 这样的黑盒难以下手的同学有一个直观的感受。

同时也得感叹 Disruptor 东西虽好,也不能乱用哦!

相关演示代码查看:

https://github.com/crossoverJie/JCSprout/tree/master/src/main/java/com/crossoverjie/disruptor

如何解决Disruptor 内存溢出?相关推荐

  1. linux/centos 解决Tomcat内存溢出,centostomcat

    2019独角兽企业重金招聘Python工程师标准>>> linux/centos 解决Tomcat内存溢出,centostomcat Tomcat本身不能直接在计算机上运行,需要依赖 ...

  2. 缩放图片,解决bitmap 内存溢出out of memory的问题

    缩放图片,解决bitmap 内存溢出out of memory的问题 参考文章: (1)缩放图片,解决bitmap 内存溢出out of memory的问题 (2)https://www.cnblog ...

  3. jvm解决堆内存溢出问题

    我们讲一下堆溢出,栈溢出,还有方法区的溢出,这就讲了一个概念,内存溢出和内存泄露的区别是什么,这个概念很混淆,内存泄露怎么又包含内存溢出,内存溢出和内存泄露又有区别,待会我会细讲的,堆溢出我们怎么去解 ...

  4. java内存溢出原因及解决_java内存溢出的原因和解决方法

    java内存溢出的原因和解决方法 发布时间:2020-06-15 17:57:39 来源:亿速云 阅读:85 作者:元一 内存溢出含义: 内存溢出(out of memory)通俗理解就是内存不够,通 ...

  5. jenkins解决jenkins内存溢出问题

    在jenkins master-slave配置中,总是出现内存溢出问题,更换了机器设备仍然跑不起来: 问题如下: Status Code: 500 Exception: org.apache.comm ...

  6. 转载:持续集成之解决jenkins内存溢出问题

    在jenkins master-slave配置中,总是出现内存溢出问题,更换了机器设备仍然跑不起来: 问题如下: Status Code: 500      Exception: org.apache ...

  7. java栈堆溢出怎么解决_java内存溢出示例(堆溢出、栈溢出)

    堆溢出:/** * @author LXA * 堆溢出 */ public class Heap { public static void main(String[] args) { ArrayLis ...

  8. weblogic内存溢出linux,解决weblogic内存溢出有关问题

    彻底解决Weblogic报出java.lang.OutOfMemoryError: PermGen space问题: 打开域下面的bin目录(D:\Oracle\Middleware\user_pro ...

  9. android 外键,android - 创建一个具有外键的sqlite数据库表,作为android中的表列。 我面临以下错误。 我该如何解决 - 堆栈内存溢出...

    创建表的代码: public static final String CREATE_USER_TABLE = "CREATE TABLE " + USER + "(&qu ...

最新文章

  1. Centos-移动文件或目录-mv
  2. 常用的几个PHP加密函数
  3. Oracle Partition By 的使用
  4. UVA10110 Light, more light【数学】
  5. airflow部署和使用示例
  6. Games101 Tansformer
  7. python ddos 伪装_Python进行DDOS攻击
  8. 清华大学计算机学教授招,清华大学计算机系网络所刘斌教授招收2015年入学博士生...
  9. 分享24个JS特效广告和66个JS特效在线客服J代码JS代码
  10. 《计算机组成原理阅读笔记》
  11. 软件测试个人绩效模板,测试工程师kpi模板.doc
  12. stokes方程matlab,【Fluent】雷诺方程:推导与求解(附MATLAB代码)
  13. java图片闪烁_java在窗口中添加图片做动画,怎么一闪一闪的?
  14. 如何删除数据库中的冗余数据…
  15. POJ 1723(中位数+连续排列)
  16. 七千年来被国人误解的七句古话
  17. QAP内建包迁移教程
  18. Hadoop中怎么解决Starting secondary namenodes [0.0.0.0]
  19. ora-07445 oracle 9,遇到ORA-07445错误
  20. KOL投放指南(六):如何实现精准找号

热门文章

  1. 地形渲染之彩色地形图(Painted Relief Map)
  2. python的join函数的用法及实例
  3. 2T的移动硬盘在拷贝时卡死,是什么原因?
  4. Docker镜像及容器基本操作命令
  5. vim复制时不复制行号
  6. 货币政策和财政政策对总需求的影响 - 异想天开
  7. 白鹭项目微信小游戏部分笔记
  8. 边玩边学,15个学习Python的编程游戏网站,终于不再从入门到放弃
  9. 一张工资条引发的关于国内OA协同办公产品的思考
  10. python公众号文章阅读量_史上最快、最笨的公众号文章阅读数、在看数采集,哈哈...