原创 史少锋@Kyligence apachekylin 前天

01 背景

Apache Kylin 是一个支持海量大数据的在线分析引擎,需要离线或流式地从Apache Hive, Apache Kafka加载数据。通常当上游数据准备好以后,用户需要使用Kylin的Web界面或API触发以生成数据加载的任务。为了让整个工作流自动化起来,需要结合一些任务调度平台,如Oozie,Linux crontab等。本文将介绍如何使用Apache DolphinScheduler这个新的开源平台跟Kylin进行集成完成数据构建。

02 什么是 Dolphin Scheduler

Apache DolphinScheduler(incubating)(简称 DS) 是一个Apache孵化器项目,是由国内企业易观开源的大数据项目,是一个面向大数据应用的分布式工作流任务调度系统,之前叫EasyScheduler。目前DS 在国内已经有一定规模的用户基础,包括美团、平安、雪球等。

官网:https://dolphinscheduler.apache.org/

这里我们引用一下DS刚开源时的介绍([1]):相信做过数据处理的伙伴们对开源的调度系统如Oozie、Azkaban、Airflow应该都不陌生,在使用这些调度系统中可能会有这样的体验:比如配置工作流任务不能可视化、任务的运行状态不能实时在线查看、 任务运行时不能暂停、不能支持参数传递、不能补数、不能多租户使用、调度系统不高可用等等问题所烦扰过。Easy Scheduler正是在这种背景下应运而生,其目标就是为使调度更加easy,更可以从其中文名“易调度”看出我们的初衷。

下图是一个跟Azkaban、Airflow的多方面对比:

从这个图上可以看出,DS 设计之初就考虑了高可用、多租户、可视化等高级功能,也支持扩展任务类型等,相比于其它工具来说,更适合企业内的复杂场景,可视化的操作界面也非常适合作为平台交给各部门自助使用。(注:Airflow 目前也有多租户的支持)

03 DS 的安装

为了验证 DS 的功能,我们决定先在一个单机上进行安装。参考文档后,发现它的安装配置步骤稍多,于是先尝试Docker 安装;可惜的是,它的Dockerfile 跟当前代码有一些不匹配,加上国内的网络条件,docker build 屡次失败,于是就放弃了,尝试单机从二进制包安装。

从官网[2]下载1.2.0版本的安装包,分前端和后端两个包;前端是一些静态文件,不到2MB;后端是主程序,较大127MB;前后端需要分别安装和配置。(据了解从1.2.1后,前后端将不再分离。)

参考前端安装文档[3],将资源放到某个目录,然后安装和配置Nginx,让其8888端口的静态资源从DS的前端目录获取,如果是API的调用,转给后端服务12345端口;了解Nginx配置的话这块不难。小注意一下,它的安装脚本 install-dolphinscheduler-ui.sh会自动安装Nginx,如果你的系统中已经有Nginx服务的话,需要手动修改脚本以避免重新安装。

后端的安装相对比较复杂一些。首先你需要准备前置条件:

  1. Linux服务器一台,CentOS 6/7 或Ubuntu;
  2. 创建一个dolphinscheduler的Linux账户,有sudo权限,且开启免密码登录;即便是单机安装也需要;
  3. MySQL 5.7;起初我的MySQL版本较低(5.1),遇到DB初始化脚本失败的问题,切换高版本MySQL后解决;
  4. Zookeeper,用于协调多个节点的状态。

安装的时候,需要仔细查看它的安装文档[4];文档中介绍了多节点的自动部署(为有自动化一键安装脚本点赞

使用 DolphinScheduler 调度 Kylin 构建相关推荐

  1. shell调度kylin的cube构建任务

    shell调度kylin的cube调度任务 shell shell 1 #!/bin/bash2 3 echo "kylin_host_port:${1}"4 echo " ...

  2. springboot项目集成大数据第三方dolphinscheduler调度器

    文章目录 摘要 项目背景 功能要求 功能说明 1.1用例图 1.2业务流程分析 1.3业务ER图 1.4 管理任务流程图 1.5功能设计详细说明点 1.6页面原型 三.本人相关其他文章链接 摘要 ①d ...

  3. 使用Saiku+Kylin构建多维分析OLAP平台

    http://lxw1234.com/archives/2016/05/647.htm 关于Kylin的介绍和使用请参考之前的文章 <分布式大数据多维分析(OLAP)引擎Apache Kylin ...

  4. 大数据Kylin(六):Kylin构建Cube算法

    文章目录 Kylin构建Cube算法 一.​​​​​​​layered cubing

  5. springboot项目集成dolphinscheduler调度器 实现datax数据同步任务

    Datax安装及基本使用请查看上一篇文章: 文章目录 Datax概述 1.概述 2.功能清单 3.==说明==:本项目只支持mysql及hbase之间的数据同步 代码模块 配置文件 pom.xml D ...

  6. CC00027.kylin——|HadoopOLAP_Kylin.V27|——|Kylin.v27|Kylin构建Cube|实时OLAP.V3|

    一.定义数据源 ### --- 定义数据源~~~ # 1.创建数据源 ~~~ # 2.填写kafka集群信息 ~~~ # 3.通过kylin加载的json字段:创建流表维表格式 ~~~ # 4.查看加 ...

  7. 5.Apache Kylin 构建 第一步报错 Container complete event for unknown container

    版本: Apache Kylin 3.0.0 一.问题 build cube第一步(#1 Step Name: Create Intermediate Flat Hive)报错 Container c ...

  8. CC00023.kylin——|HadoopOLAP_Kylin.V23|——|Kylin.v23|Kylin构建Cube|流式构建.V1|

    一.流式构建 ### --- 流式构建~~~ 实时数据更新是一种普遍的需求,快速分析变化趋势才能做出正确的决策. ~~~ Kylin V1.6 发布了可扩展的 streaming cubing 功能, ...

  9. DolphinScheduler×长安汽车 | 千万级数据接入能力智能网联汽车云平台引进核心调度系统...

    点击蓝字 关注我们 用户案例 | 长安汽车 长安汽车智能车云平台,网联车日活达百万级,车联网平台日均接收信号条数达百亿级.面对海量车联网数据分析的挑战,长安汽车建设了一套具备千万级数据接入能力的智能网 ...

最新文章

  1. 人工智能及其应用(第5版).蔡自兴-4章课后习题。【部分参考答案】
  2. 中国科学院大学研一课程教材课件共享项目
  3. Richard Feynman, 挑战者号, 软件工程,自顶而下
  4. 新海诚没有参与制作的作品_下列哪部作品新海诚没有参与制作
  5. python的输出方式_Python--输出方式
  6. html页面获取服务器时间,[html]定时获取服务器时间和本地时间
  7. 激励员工的首席执行官以及他们的秘诀
  8. RabbitMQ入门(五)-Topics(主题)
  9. SAP UI5 datajs.js response handling
  10. Android CardView卡片布局 标签: 控件
  11. java中timer类包_Java~util包中Timer的使用, 演示cancel方法 和 对比schedule和scheduleAtFixedRate方法...
  12. 数据结构专题(二):2.7顺序表反转
  13. node 版本管理器 之 nvm 安装与使用
  14. java6和java7的区别_Java String的intern方法 在JDK6和JDK7的不同行为
  15. 贾俊平统计学第七版笔记和课后答案
  16. 如何理解软件测试质量,我对测试总结报告和质量分析报告的理解
  17. c++ 程序员成长书单
  18. 《信号与系统学习笔记》—线性时不变系统(一)
  19. 用诺模图可视化你的模型
  20. js实现简单的视频播放

热门文章

  1. U盘故障—显示隐藏文件
  2. 魅族新系统android o,Flyme下月更新系统内核 魅族9款机型可升安卓7.0
  3. 网站诊断与网络推广方案设计
  4. 第十五届全国青少年信息学奥林匹克联赛初赛试题
  5. 【线性回归类算法的建模与评估】
  6. 微分算法 非侵入式负荷识别_基于用户用电行为和粒子群算法的非侵入式负荷识别方法...
  7. STM32 PWM波频率、占空比以及死区计算详细讲解
  8. 计算机教室档案 设备损坏赔偿,关于印发《湖北工业大学工程技术学院仪器设备损坏丢失赔偿处理办法》的通知...
  9. python中如何只执行一次初始化init工作
  10. 颜文字 for qq拼音