0 说明

本文以CDH搭建数据仓库,基于三台阿里云服务器从零开始搭建CDH集群,节点配置信息如下:

节点 内存 安装服务角色
chen102 16G cloudera-scm-server
chen103 8G cloudera-scm-agent
chen104 8G cloudera-scm-agent

上传需要用到的安装包:
① CDH安装包,百度云分享如下:

链接:https://pan.baidu.com/s/1N9QBYxpgGOKtEeaw7Y3bpQ 提取码:o73t

② JDK(JDK8+),百度云连接

链接:https://pan.baidu.com/s/1BGw-y2sDLeqtA8ZSlf1JZw
提取码:08c8

1 前期准备

1.1 配置集群hosts文件

配置集群hosts文件,并将集群节点和ip映射配置到hosts文件中。

1.2 打通免密

  1. 生成私钥和公钥
ssh-keygen -t rsa

2)将公钥拷贝到要免密登录的目标机器上

ssh-copy-id chen102
ssh-copy-id chen103
ssh-copy-id chen104

在其他节点重复上面操作,即可

1.3 安装JDK并配置环境变量

注:CDH只能识别/usr目录下的java,这里需要将java安装在/usr目录下,这里不再赘述

1.4 安装Mysql

只需在chen102节点上安装
1)卸载mariadb

rpm -qa | grep mariadb | xargs rpm -e --nodeps

2)下载msql5.7 yum源

wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm

3)安装yum源

rpm -ivh mysql57-community-release-el7-9.noarch.rpm

4)安装mysql

yum -y install mysql-server

5)启动mysql

service mysqld start

6)查看root用户密码

grep 'temporary password' /var/log/mysqld.log    d9V,K1..6e.Q

7)执行mysql初始化脚本

mysql_secure_installation

8)输入新密码(至少12个字符,至少包含一个大写字母有,一个小写字母,一个数字,一个特殊字符)
9)配置root用户远程访问权限

mysql> grant all privileges on *.* to 'root' @'%' identified by 'Chen.123456';
mysql> flush privileges;

10)为CM安装mysql驱动
将mysql-connector-java-5.1.27-bin.jar拷贝到/usr/share/java路径下,并重命名

2 安装CM

2.1 搭建离线yum源

(1)将压缩包cloudera-repos.tar.gz拷贝到集群中的一台节点,解压到/var/www/html路径下

[root@chen102 ~]# tar -zxvf cloudera-repos.tar.gz -C /var/www/html

(2)进入/var/www/html/路径,并开启http服务

[root@chen102 ~]# cd /var/www/html/
[root@chen102 html]# python -m SimpleHTTPServer 8900

(3)浏览器访问该节点的8900端口,查看http服务是否正常开启

(4)编辑本地yum源配置文件

vim /etc/yum.repos.d/cloudera-manager.repo

文件内容如下

[cloudera-manager]
name=cloudera-manager
baseurl=http://chen102:8900/cloudera-repos/cm6/6.2.1/redhat7/yum/
enabled=1
gpgcheck=0

(5)分发该配置文件

2.2 安装CM server及agent

[root@chen102 ~]# yum -y install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server
[root@chen103 ~]# yum -y install cloudera-manager-agent cloudera-manager-daemons
[root@chen104 ~]# yum -y install cloudera-manager-agent cloudera-manager-daemons

2.3 修改CM配置文件

vim /etc/cloudera-scm-agent/config.ini

2.3 在Mysql中建库

mysql> CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE hive DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

为CM配置数据库(自带脚本)

/opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm root Chen.123456

2.4 启动CM服务

chen102执行

systemctl start cloudera-scm-server

chen102-104执行

systemctl start cloudera-scm-agent

查看Server启动日志

tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

看见Started Jetty server即说明启动成功
访问http://hadoop102:7180(初始用户名、密码均为admin)

3 部署CDH集群

欢迎页面

选择免费版

3.1 填写安装部署集群名

3.2 选择物理机节点

3.3 添加本地parcel库

选择更多选型,添加本地parcel库配置

3.4 选择CDH版本

3.5 等待parcel的下载、分配、解压和激活

3.6 检查集群网络环境

3.7 群集设置

选择自定义服务,然后选择你想要安装的组件,点击继续即可

3.8 分配角色实例

3.9 数据库设置

测试mysql连接是否正常,输入之前安装部署mysql进行连接测试,确保连接成功

3.10 确认配置

按默认配置即可,点击继续

3.11 等待安装

等待全部安装完成,点击继续

3.12 安装完成


CDH安装完成页面总览

4 CDH停止规范

4.1 停止集群


等待所有服务停止完成

4.2 Cloudera Management Service


等待成功关闭

4.3 停止agent

所有节点执行

systemctl stop cloudera-scm-agent

4.4 停止server

chen102节点执行

 systemctl stop cloudera-scm-server

4.4 关闭阿里云主机

选择停机不收费方式,关闭阿里云主机

接下来是CDH-业务数仓和用户行为数仓搭建,详见《CDH数仓项目(二) —— 用户行为数仓和业务数仓搭建》

CDH数仓项目(一) —— CDH安装部署搭建详细流程相关推荐

  1. 大数据千亿级离线数仓项目第一天 环境部署和etl

    千亿级数仓项目第01天讲义 课程目标 了解大数据离线数仓架构 了解项目部署环境(数据规模和集群规模) 掌握ETL工具 Kettle常用组件的使用 能够掌握kettle作业与转换区别以及linux部署 ...

  2. 本地数仓项目(四)—— 即席查询

    1 背景 本文描述本地数仓项目即席查询相关内容,主要涉及即席查询工具包括Presto.Druid.Kylin. 本文基于文章<本地数据仓库项目(一) -- 本地数仓搭建详细流程> 和< ...

  3. 本地数据仓库项目(一) —— 本地数仓搭建详细流程

    1 准备 1.1 本地虚拟机器准备 使用本地搭建三台机器,搭建数仓,模拟实际平台数据仓库的搭建.具体的搭建框架如下 安装软件 角色 主机1 主机2 主机3 Hadoop NameNode √ Seco ...

  4. 电商离线数仓项目实战(下)

    电商离线数仓项目实战(下) 电商分析--核心交易 文章目录 电商离线数仓项目实战(下) 电商分析--核心交易 一.业务需求 二.业务数据库表结构 1. 数据库表之间的联系 img 2. 业务数据库-- ...

  5. 本地数仓项目(二)——搭建系统业务数仓详细流程

    1 说明 本文基于<本地数据仓库项目(一)--本地数仓搭建详细流程>业务数据,在本地搭建系统业务数仓. 根据模拟sql脚本生成业务数据,依次执行生成业务数据即可. sql脚本提供如下 链接 ...

  6. 【大数据数仓项目集群配置 一】

    本文用于记录我的第一次内网大数据集群配置过程. 本篇主要实现基础配置. 配置使用的软件版本和脚本参考自尚硅谷,链接如下: 链接: https://www.bilibili.com/video/BV1r ...

  7. 2023.4.3数仓项目捋一捋

    数仓项目捋一捋 初步认识 1.数仓需具备 数据存储.管理(一些数据混乱).分析计算(分类,聚合,汇总,挖掘更大价值) 2.对于企业意义 往往作为企业BI(BI重度依赖数据,从大量数据去挖掘有用信息,帮 ...

  8. 【Docker安装部署FastDFS详细过程】

    0.国人之光~FastDFS 分布式文件存储的由来: 在我们的项目中有很多需要存储的内容出现,比如图片,视频,文件等等,在早期的时候用户量不大,产生的文件也不是很多,这时我们可以把文件和服务程序放在一 ...

  9. Elasticsearch系列之:Centos7安装部署Elasticsearch详细步骤

    Elasticsearch系列之:Centos7安装部署Elasticsearch详细步骤 一.下载ElasticSearch安装包 二.创建ES数据存储目录 三.创建ES所属用户 四.配置用户的打开 ...

最新文章

  1. MAVEN项目环境搭建
  2. python做图像识别好还是c++好_OpenCV人脸检测(C++/Python)
  3. java jvm 内存参数_深入详解JVM内存模型与JVM参数详细配置
  4. BizTalk开发系列(九) MAP的连接方法
  5. jquery知识巩固
  6. [转载] c语言中检查命令行参数_C中的命令行参数
  7. 350个特性看透ES6
  8. iptables学习笔记:同一端口号同时支持tcp和udp的转发
  9. MySql数据类型分析(银行家舍入法) Part3
  10. 【ArcGIS操作】4 空间分析篇
  11. XP3 Dumper GUI
  12. linux分区修复命令,在Linux下成功修复分区表出错
  13. Mac 创建.txt文件
  14. 电脑局域网所有IP及对应MAC地址查询
  15. Mac上更新Go版本|Go Mod使用|避坑指南|
  16. 最新的100个微信小程序-极乐Store
  17. 使用exe4j+inno setup打包exe文件踩坑记录
  18. LabVIEW概述及其优点
  19. 免费大数据搜索引擎 xunsearch 实践
  20. iOS开发 --- 开发工具

热门文章

  1. 华为ensp---AC二层旁挂组网实验(参照华为官方手册)
  2. (转载)从IRQ到IRQL(APIC版)
  3. Win10安装Rtree包报错:OSError: could not find or load spatialindex_c-64.dll
  4. 于仕琪C/C++ 学习笔记
  5. 计算字符串长度(可同时字母和汉字,字母占一个字符,汉字占2个字符)
  6. 如何在vue中引入阿里巴巴矢量图标库里面的图标
  7. js调用android代码怎么写,Android端使用WebView注入一段js代码实现js调用android
  8. 中国火炬统计年鉴(2008-2021)
  9. 大众汽车CEO:支持汽车大数据 反对数据独裁者
  10. 若依框架代码自动生成器研究----表查询篇