优化性能----百万订单导出

项目背景

大客户吐槽，订单导出太慢，从开始到结束，可以看一部电影了。。。

分析原因

1.产品设计上无导出时间区间限制
2.导出字段太繁琐，大概有120个字段，关联表20张左右
3.自定义导出字段，后台没有判断，还是走全字段导出逻辑
4.没有适当冗余字段
5.单线程执行

优化方案

文本产品设计上改变不了，冗余字段的没办法实现，因为是订单表，改表结构，风险太大，还是在原有的代码上优化吧，只说大概思路，具体代码因为是公司项目，不方便贴出来，贴些伪代码数据量最大导出100万

1.先死循环，使用滚动翻页查询订单主表，取消LIMIT offset,size的效率太低，因为此方案每次查询都是最终的结果集，而一般的分页方案使用的LIMIT offset,size需要先查询，后截断，查询的数据放到队列中
2.线程池处理队列数据，主要是组装不在订单表的字段数据，组装好之后把数据放到另一个队列，业务中用到并行流，处理订单列表，用","拼接订单id，判断要导出的字段有哪些，根据导出的字段，用拼接订单id为条件批量查询需要导出字段的列表数据，结果集，再依订单id分组，使用map保存，方便给原数据对比，这样做节省了每次循环查询对应字段的数据
3.死循环监听组装好的队列数据，拿到数据之后调用EasyExcel写数据

第一步伪代码

        //起始idLong lastBatchMaxId = 0L;//每页大小Integer pageSize = 2000;map.put("lastBatchMaxId", lastBatchMaxId);map.put("pageSize", pageSize);// 数据库查询的结果集 待处理数据BlockingQueue<List<OrderExcelData>> queue = new ArrayBlockingQueue<>(500);//组装好的数据的队列BlockingQueue<List<OrderExcelData>> queue1 = new ArrayBlockingQueue<>(500);for (; ; ) {List<OrderExcelData> collect1 = orderDao.selectOrderExcelDataByMap(map);//为空结束循环if (CollectionUtils.isEmpty(collect1)) {break;}//待处理数据入队queue.put(collect1);//下次循环起始id 一般都是结果集 主键id最大的值lastBatchMaxId = collect1.stream().map(OrderExcelData::getOrderId).max(Long::compareTo).orElse(Long.MAX_VALUE);map.put("lastBatchMaxId", lastBatchMaxId);

使用此方法需要数据库主键是自增，lastBatchMaxId起始id，size每次取多少数据

第二步伪代码

     //创建线程池 ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(6, 6, 10, TimeUnit.SECONDS, new ArrayBlockingQueue<>(500));int size = queue.size();for (int a = 0; a < size ; a++) {threadPoolExecutor.submit(new Runnable() {@Overridepublic void run() {try {//待处理数据List<OrderExcelData> list = queue.take();//组装数据batchAssemblyData(list,includeColumnFiledNames);//组装好把数据入队queue1.put(list);} catch (Exception e) {log.error("多线程组装数据错误{}", e);}}});}void batchAssemblyData(List<OrderExcelData> orderExcelDataList, Set<String> export) {//用","拼接订单idString collect = orderExcelDataList.stream().map(a -> String.valueOf(a.getOrderId())).collect(Collectors.joining(","));//运费险相关 先判断导出 是否有运费相关字段 有就批量把当前任务订单运费险相关的数据查到，再用订单id分组保存  这里只写一种 实际有30多个字段需要这样查出来Map<Long, List<OrderExtryEntity>> orderExtryEntityGroups = null;if (export.contains("freightInsurance")) {orderExtryEntityGroups = orderExtryDao.selectList(new EntityWrapper<OrderExtryEntity>().in("order_id", collect).eq("`key`", "freight_insurance")).stream().collect(Collectors.groupingBy(OrderExtryEntity::getOrderId));}//并行组装数据 实际项目中 有订单明细表 订单给明细是一对的关系，有些字段是给明细一对一的关系 需要做些特殊处理orderExcelDataList.parallelStream().forEach(a -> {//运费险相关if (orderExtryEntityGroups !=null && orderExtryEntityGroups .containsKey(a.getOrderId())) {for (OrderExtryEntity b : finalOrderExtryEntityGroups.get(a.getOrderId())) {a.setFreightInsurance(b.getValue());break;}}}}

网上说平行流处理速度比for循环慢，这个要是看场景的，只是遍历数据，没有io操作，数据量不大，确实平行流慢，我现在这个场景，也是要查数据库，并行流还是比for循环快的多的

第三步伪代码

     //使用EasyExcel阿里的导出依赖ExcelWriter excelWriter = EasyExcel.write(fileName, OrderExcelData.class).includeColumnFiledNames(includeColumnFiledNames).build();WriteSheet writeSheet = EasyExcel.writerSheet("Sheet1").build();//执行以前提交的任务，但不接受新任务threadPoolExecutor.shutdown();int a = 0;while (true) {List<OrderExcelData> take = queue1.poll(10, TimeUnit.SECONDS);if (take == null && threadPoolExecutor.isTerminated()) {log.info("所有的子线程都结束了");a++;}if (take != null) {//单线程写  多线程写又可能会损坏文件excelWriter.write(take, writeSheet);log.info("写数据" + take.size());}//检查2次 防止线程刚好结束 队列是空null值得时候if (a == 2) {break;}}

监听队列的好处是，线程处理好数据之后，马上写到文件中，节省了写文件的效率

优化结果

订单表大概有一千万数据，服务器配置4c—4g，导出某个月的数据量，订单90多万，120个字段全部导出，耗时15分钟左右，比之前一个多小时，提升了不少