使用 DolphinScheduler 调度 Kylin 构建

原创史少锋@Kyligence apachekylin 前天

01 背景

Apache Kylin 是一个支持海量大数据的在线分析引擎，需要离线或流式地从Apache Hive, Apache Kafka加载数据。通常当上游数据准备好以后，用户需要使用Kylin的Web界面或API触发以生成数据加载的任务。为了让整个工作流自动化起来，需要结合一些任务调度平台，如Oozie，Linux crontab等。本文将介绍如何使用Apache DolphinScheduler这个新的开源平台跟Kylin进行集成完成数据构建。

02 什么是 Dolphin Scheduler

Apache DolphinScheduler（incubating)(简称 DS) 是一个Apache孵化器项目，是由国内企业易观开源的大数据项目，是一个面向大数据应用的分布式工作流任务调度系统，之前叫EasyScheduler。目前DS 在国内已经有一定规模的用户基础，包括美团、平安、雪球等。

官网：https://dolphinscheduler.apache.org/

这里我们引用一下DS刚开源时的介绍（[1]）：相信做过数据处理的伙伴们对开源的调度系统如Oozie、Azkaban、Airflow应该都不陌生，在使用这些调度系统中可能会有这样的体验：比如配置工作流任务不能可视化、任务的运行状态不能实时在线查看、任务运行时不能暂停、不能支持参数传递、不能补数、不能多租户使用、调度系统不高可用等等问题所烦扰过。Easy Scheduler正是在这种背景下应运而生，其目标就是为使调度更加easy，更可以从其中文名“易调度”看出我们的初衷。

下图是一个跟Azkaban、Airflow的多方面对比：

从这个图上可以看出，DS 设计之初就考虑了高可用、多租户、可视化等高级功能，也支持扩展任务类型等，相比于其它工具来说，更适合企业内的复杂场景，可视化的操作界面也非常适合作为平台交给各部门自助使用。（注：Airflow 目前也有多租户的支持）

03 DS 的安装

为了验证 DS 的功能，我们决定先在一个单机上进行安装。参考文档后，发现它的安装配置步骤稍多，于是先尝试Docker 安装；可惜的是，它的Dockerfile 跟当前代码有一些不匹配，加上国内的网络条件，docker build 屡次失败，于是就放弃了，尝试单机从二进制包安装。

从官网[2]下载1.2.0版本的安装包，分前端和后端两个包；前端是一些静态文件，不到2MB；后端是主程序，较大127MB；前后端需要分别安装和配置。（据了解从1.2.1后，前后端将不再分离。）

参考前端安装文档[3]，将资源放到某个目录，然后安装和配置Nginx，让其8888端口的静态资源从DS的前端目录获取，如果是API的调用，转给后端服务12345端口；了解Nginx配置的话这块不难。小注意一下，它的安装脚本 install-dolphinscheduler-ui.sh会自动安装Nginx，如果你的系统中已经有Nginx服务的话，需要手动修改脚本以避免重新安装。

后端的安装相对比较复杂一些。首先你需要准备前置条件：

Linux服务器一台，CentOS 6/7 或Ubuntu；
创建一个dolphinscheduler的Linux账户，有sudo权限，且开启免密码登录；即便是单机安装也需要；
MySQL 5.7；起初我的MySQL版本较低（5.1），遇到DB初始化脚本失败的问题，切换高版本MySQL后解决；
Zookeeper，用于协调多个节点的状态。

安装的时候，需要仔细查看它的安装文档[4]；文档中介绍了多节点的自动部署（为有自动化一键安装脚本点赞