本文是《CDH+Kylin三部曲》的第一篇,整个系列由以下三篇组成:

  1. 准备工作:搭建CDH+Kylin环境前,将所有硬件、软件资源准备好
  2. 部署和设置:部署CDH和Kylin,再做相关设置
  3. Kylin实战:在搭好的环境上运行Kylin官方demo

整个三部曲的实战内容如下图所示:

接下来,就从最基本的准备工作开始吧。

关于CDH与Kylin

  1. Kylin的运行需要Hadoop、Hive、HBase等服务,因此用CDH来集中部署这些应用更为方便,下图来自Kylin官方,可见是支持CDH的:
  2. 官方说支持CDH6.0版本,但实际部署中发现Kylin2.6在CDH6.0.1环境启动会有问题,经尝试发现Kylin2.6+CDH5.16可以正常运行,本次实战就用这样的版本搭配;

部署方式

ansible是常用的运维工具,可大幅度简化整个部署过程,接下来会使用ansible来完成部署工作,如果您对ansible还不够了解,请参考《ansible2.4安装和体验》,部署操作如下图所示,在一台安装了ansible的电脑上运行脚本,由ansible远程连接到一台CentOS7.7的服务器上,完成部署工作:

硬件准备

  1. 一部能运行ansible的电脑,我用的是MacBook Pro,也用CentOS验证过,都能顺利完成部署;
  2. 一台CentOS7.7电脑,用于运行HDFS、Hive、HBase、Spark、Kylin等所有服务(后续文中的CDH服务器就是指该电脑),用一台机器部署所有服务仅适用于学习和开发阶段,实测发现,此电脑CPU至少要双核,内存不低于16G,如果您想用多台电脑部署CDH,建议自行修改ansible脚本来分别部署,脚本地址后面会给出;

CDH服务器设置

需要登录CDH服务器做以下设置:

  1. 检查/etc/hostname文件是否正确,如下图:
  2. 修改/etc/hosts文件,将自己的IP地址和hostname配置上去,如下图红框所示(事实证明这一步很重要,如果不做可能导致在部署时一直卡在"分配"阶段,看agent日志显示agent下载parcel的进度一直是百分之零):

下载文件(ansible电脑)

本次实战一共要准备13个文件,这里用表格列举如下:

编号 文件名 简介
1 jdk-8u191-linux-x64.tar.gz Linux版的jdk安装包
2 mysql-connector-java-5.1.34.jar mysql的JDBC驱动
3 cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm cm的server安装包
4 cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm cm的daemon安装包
5 cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm cm的agent安装包
6 CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel CDH应用离线安装包
7 CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel.sha CDH应用离线安装包sha验证码
8 apache-kylin-2.6.4-bin-cdh57.tar.gz kylin安装包(适配CDH版本)
9 hosts ansible用到的远程主机配置,里面记录了CDH6服务器的信息
10 ansible.cfg ansible用到的配置信息
11 cm6-cdh5-kylin264-single-install.yml 部署CDH时用到的ansible脚本
12 cdh-single-start.yml 初次启动CDH时用到的ansible脚本
13 var.yml 脚本中用到的变量都在在此设值,
例如CDH包名、flink文件名等,便于维护

下面是每个文件的下载地址:

  1. jdk-8u191-linux-x64.tar.gz:Oracle官网可下,另外我将jdk-8u191-linux-x64.tar.gz和mysql-connector-java-5.1.34.jar一起打包上传到csdn,您可以一次性下载,地址:https://download.csdn.net/download/boling_cavalry/12098987

  2. mysql-connector-java-5.1.34.jar:maven中央仓库可下,另外我将jdk-8u191-linux-x64.tar.gz和mysql-connector-java-5.1.34.jar一起打包上传到csdn,您可以一次性下载,地址:https://download.csdn.net/download/boling_cavalry/12098987

  3. cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm:https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm

  4. cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm:https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm

  5. cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm:https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm

  6. CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel:https://archive.cloudera.com/cdh5/parcels/5.16.2/CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel

  7. CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel.sha:https://archive.cloudera.com/cdh5/parcels/5.16.2/CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel.sha1 (下载完毕后,将扩展名从.sha1为.sha)

  8. apache-kylin-2.6.4-bin-cdh57.tar.gz:https://archive.apache.org/dist/kylin/apache-kylin-2.6.4/apache-kylin-2.6.4-bin-cdh57.tar.gz

  9. hosts、ansible.cfg、cm6-cdh5-kylin264-single-install.yml、cdh-single-start.yml、vars.yml :这五个文件都保存在我的GitHub仓库,地址是:https://github.com/zq2599/blog_demos ,这里面有多个文件夹,上述文件在名为ansible-cm6-cdh5-kylin264-single的文件夹中,如下图红框所示:

文件摆放(ansible电脑)

如果您已经下载好了上述13个文件,请按照如下位置摆放,这样才能顺利完成部署:

  1. 在家目录下新建名为playbooks的文件夹:mkdir ~/playbooks
  2. 把这五个文件放入playbooks文件夹:hosts、ansible.cfg、cm6-cdh5-kylin264-single-install.yml、cdh-single-start.yml、vars.yml
  3. 在playbooks文件夹里新建名为cdh6的子文件夹;
  4. 把这八个文件放入cdh6文件夹(即剩余的八个):jdk-8u191-linux-x64.tar.gz、mysql-connector-java-5.1.34.jar、cloudera-manager-server-6.3.1-1466458.el7.x86_64.rpm、cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm、cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm、CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel、CDH-5.16.2-1.cdh5.16.2.p0.8-el7.parcel.sha、apache-kylin-2.6.4-bin-cdh57.tar.gz
  5. 摆放完毕后目录和文件情况如下图,再次提醒:文件夹playbooks一定要放在家目录下(即:~/):

ansible参数设置(ansible电脑)

ansible参数设置的操作设置很简单:配置好CDH服务器的访问参数即可,包括IP地址、登录账号、密码等,修改~/playbooks/hosts文件,内容如下所示,您需要根据自身情况修改deskmini、ansible_host、ansible_port、ansible_user、ansible_password:

[cdh_group]deskmini ansible_host=192.168.50.134 ansible_port=22 ansible_user=root ansible_password=888888

至此,所有准备工作已完成,下一篇文章我们将完成这些操作:

  1. 部署CDH和Kylin
  2. 启动CDH
  3. 设置CDH、在线安装Yarn、HDFS等
  4. 调整HDFS、Yarn参数
  5. 修改Spark设置(否则Kylin启动会失败)
  6. 启动Kylin

欢迎关注我的公众号:程序员欣宸

CDH+Kylin三部曲之一:准备工作相关推荐

  1. 程序员欣宸的文章分类汇总

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 关于代码仓库 代码仓库里是博客中涉及的源码和文件,地址 ...

  2. 互联网摸鱼日报(2022-12-06)

    互联网摸鱼日报(2022-12-06) InfoQ 热门话题 我们从Vue到Alpine.js的旅程 对话Spring大神:Spring 生态系统的新时代来了! 2022 深圳国际金融科技大赛--西丽 ...

  3. cdh 安装_使用Cloudera的CDH部署Hadoop:第三步,安装管理平台和数据库

    导读 这篇文章是关于使用CDH搭建Hadoop集群的第三步:安装Cloudera Manager Server和数据库的. 这篇文章有点长,涉及的知识点较多,略显零碎.虽然笔者可以将一些内容剔除,但笔 ...

  4. cdh 安装_使用Cloudera的CDH部署Hadoop:第二步,安装JDK

    导读 这篇文章是关于使用CDH搭建Hadoop集群的第一步:配置package仓库.本文主要参考Cloudera官方文档. 在进行这一步之前,应该进行充分的前期准备.关于前期准备工作的相关内容请参考文 ...

  5. CDH6.2.0安装教程

    环境准备 1. 编辑每台机器的hosts节点地址并设置hostname(所有节点) vi /etc/hosts 修改完后按ESC再输入 :wq! 退出编辑 分别设置每台机器的hostname(很重要) ...

  6. 无hadoop环境 部署Kylin4 迁移元数据

    正式环境为CDH + KYLIN 2.3 , 本文在测试环境(无CDH hadoop)部署kylin4,访问正式环境的hadoop数仓进行cube构建,参考了官网的部署经验,但是官网是针对AWS ,且 ...

  7. Flink on Yarn三部曲之一:准备工作

    关于Flink on Yarn三部曲 本文是<Flink on Yarn三部曲>的第一篇,整个系列由以下三篇组成: 准备工作:搭建Flink on Yarn环境前,将所有硬件.软件资源准备 ...

  8. 本地提交到yarn_Flink on Yarn三部曲之三:提交Flink任务

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本文是<Flink on Yarn三部曲> ...

  9. glassfish启动后不能进入部署页面_Flink on Yarn三部曲之二:部署和设置

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

最新文章

  1. Weblogic项目部署教程
  2. LeetCode Linked List Cycle II(floyd cycle)
  3. FFplay源代码分析:整体流程图
  4. 【试验】三个用于日常监控开发库与对应测试库的存储过程
  5. 阿里巴巴消息系统架构与变迁--转载
  6. SpringBoot集成Redis用法笔记
  7. .NET上海社区线下Meetup - 5.22 Blazor Day
  8. php中metadata,模型元数据(Models Metadata)
  9. [快速入门]Spring Boot+springfox-swagger2 之RESTful API自动生成和测试
  10. 让我变得开朗了很多哦
  11. PHP htmlspecialchars() 函数
  12. php侧边客服,利用jquery实现网页侧边栏在线客服代码
  13. 谈谈时间序列的平稳性
  14. 光纤上网是如何实现的?—Vecloud微云
  15. 菜鸟入门Docker
  16. mysql数据生成词云图,7个好用的在线词云生成工具
  17. 怎么判断一篇微信公众号文章阅读量是不是刷上来的?
  18. mongodb 复制集部署(主从升级版)
  19. CANopen总线的高级协议详解
  20. PHP 抓取接口和网页(爬取方式)

热门文章

  1. 2级、3级...多级联动
  2. 20篇精品文章+视频,手把手带你攻克OOM难题|HeapDump性能社区专题精选
  3. Quartus-II利用两个半加器实现简单全加器
  4. scalaz使用_日常使用的Scalaz功能第2部分:Monad变形金刚和Reader Monad
  5. 初探Ultra96-v2
  6. 想让零件随着模型变动而变形?“柔性零部件”了解一下
  7. 云服务器哪个最好?这家口碑杠杠的!
  8. potplayer+lavfilter实现双字幕
  9. 第五届双态IT乌镇用户大会-智能运维算法研讨会圆满落幕
  10. 谷歌技术团队出品,Android Flutter全家桶学习资料【全新版】