大数据之项目需求及架构设计
1、项目需求
- 1、用户行为数据采集平台搭建
- 2、业务数据采集平台搭建
- 3、数据仓库维度建模
- 4、采用即席查询工具,随时进行指标分析
- 5、对集群性能进行监控,发生异常需要报警
- 6、元数据管理
- 7、质量监控
- 8、权限管理
2、技术选型
2.1 技术选型
技术选型主要考虑因素:数据量大小、业务需求、行业经验、技术成熟度、开发维护成本、总成本预算
- 数据采集传输:Flume,Kafka,Sqoop,Logstash,DataX
- 数据存储:MySQL、HDFS、HBase、Redis、MongDB
- 数据计算:Hive、Tez、Spark、Flink、Storm
- 数据查询:Presto、Kylin、Impala、Druid、ClickHouse、Doris
- 数据可视化:Echarts、Superset、QuickBI、DataV
- 任务调度:Azkaban、Oozie、DolphinScheduler、Airflow
- 集群监控:Zabbix、Prometheus
- 元数据管理:Altas
- 权限管理:Ranger、Sentry
2.2 系统数据流程设计
2.3 框架版本选型
2.3.1 如何选择Apache/CDH/HDP版本?
Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)(建议使用)
CDH:国内使用最多的版本,但是CM不开源,今年(2021年)开始收费,今年开始收费,一个节点1万美金/年。
HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少。
2.3.2 云服务选择
- 阿里云的EMR、MaxCompute、DataWorks
- 亚马逊云EMR
- 腾讯云EMR
- 华为云EMR
2.4 服务器选型
2.4.1 物理机
- 以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔品牌单台报价4w出头。一般物理机寿命5年左右。
- 需要有专业的运维人员,平均一个月1万。电费也是不少的开销。
2.4.2 云主机
- 云主机:以阿里云为例,差不多相同配置,每年5w.
- 很多运维工作都是由阿里云完成,运维相对较轻松。
2.5 集群规模
以每台服务器8T磁盘,128G内存为例
- 每天增量数据100G
- 保留半年历史数据 100G*180天≈18T
- 保存3个副本:约54T
- 预留20%Buffer: 54T/0.7 = 77T
- 约8T * 10台服务器
另外,还需要考虑数仓分层、数据采取的压缩策略等情况。
2.6 集群资源规划设计
在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务,测试集群用于上线前代码编写和测试。
2.6.1 测试集群集群资源规划案例
2.6.2 生产集群集群资源规划案例
(1)消耗内存的分开
(2)数据传输数据比较紧密的放在一起(Kafka 、Zookeeper)
(3)客户端尽量放在一到两台服务器上,方便外部访问
(4)有依赖关系的尽量放到同一台服务器(例如:Hive和Azkaban Executor)
大数据之项目需求及架构设计相关推荐
- 2 大数据电商数仓项目——项目需求及架构设计
2 大数据电商数仓项目--项目需求及架构设计 2.1 项目需求分析 用户行为数据采集平台搭建. 业务数据采集平台搭建. 数据仓库维度建模(核心):主要设计ODS.DWD.DWS.AWT.ADS等各个层 ...
- 大数据项目之电商数仓、数据仓库概念、项目需求及架构设计
文章目录 1.数据仓库概念 2. 项目需求及架构设计 2.1 项目需求分析 2.1.1 采集平台 2.1.2 离线需求 2.1.3 实时需求 2.1.4 思考题 2.2 项目框架 2.2.1 技术选型 ...
- 尚硅谷数据仓库实战之1项目需求及架构设计
尚硅谷数据仓库实战之1项目需求及架构设计 第2章 项目需求及架构设计 需求分析 项目框架 技术选型 数据流程设计 框架版本选型 服务器选型 集群规模 集群资源规划设计 第3章 数据生成模块 目标数据 ...
- 数据仓库 — 01_项目需求分析与技术选型(数仓概念、项目需求及架构设计、数据生成模块格式要求)
文章目录 1 数据仓库的概念 2 项目需求分析 3 项目框架 3.1 技术选型 3.2 系统数据流程设计 3.3 框架版本选型 3.4 服务器选型 3.5 集群资源规划设计 3.5.1 集群规模计算 ...
- 基于Hadoop的大数据平台实施记——整体架构设计[转]
http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...
- 电商数仓描述_大数据企业级电商数据仓库架构设计和实现(技术点与企业接轨)...
课程咨询和资料获取请加老师QQ 1011800132 该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿 ...
- 时空位置大数据AI平台技术实现架构设计
1 开发语言选择 1.1 基于开源框架 以开源框架本身支持的主流语言作为选择,目前选择的框架,均支持Java语言. 1.2 定制开发的算法 从长远来看,人工智能算法需要依赖于分布式运算架构,无论是MR ...
- 丽水数据可视化设计价格_大数据可视化项目报价模板
项目 系统需求 需求内容 单价 数 量 单 位 合计 1 系统方案 设计 1. 整合分析项目需求和特性,制作需求文档: 进行软件 产品界面(信息架构.操作逻辑.功能.用户体验等) 的交互策划,并输出产 ...
- 对应chd5.14的spark_GitHub - shixiaopengql/BigData-News: 基于Spark2.2新闻网大数据实时系统项目...
基于Spark2.2新闻网大数据实时系统项目 1. 说明 2.环境配置 2.1 CDH-5.14.2 (安装步骤可参考地址),关于版本是按实际操作, CDH的版本兼容性很好. Service hado ...
- Hadoop精华问答 | 非大数据的项目能否用Hadoop?
戳蓝字"CSDN云计算"关注我们哦! 技术的日新月异,让我们见证了Hadoop十年从无到有,再到称王.2006年项目成立的一开始,"Hadoop"这个单词只代表 ...
最新文章
- 配置Tomcat和在Eclipse中创建Web工程
- python编的游戏可以直接玩吗_怎么用python开发游戏?
- U-net实现医学图像分割
- eclipse下安装PyDev不显示问题
- 江苏省二级c语言考试软件下载,江苏省二级c语言上机考试例题集1-20
- 在线模拟器RollerCoin使采矿业重回游戏
- NO.1 python_人工智能_学习路线
- Docker安装Redis以及配置Redis环境
- 第2课 春晓-2021.03.05 《小学生C++趣味编程》--C++、Scratch
- libjpeg学习4:libjpeg-turbo之YUV
- C#与vb6 com组件的互相调用方法
- Linux iostat和vmstat命令
- mysql客户端介绍
- t分布 u分布 卡方分布_卡方分布、t分布和f分布各有哪些重要性质?
- 小米10pro稳定版root
- 美团2020校招测试方向笔试题
- 嵌入式工程师应该知道的C语言
- 湖大计算机学院博士后李晓灿,谢鲲-湖大信息科学与工程学院
- 视频编辑器哪个好用?全民都在用的三款视频剪辑软件
- 液晶电视的MEMC(运动画质补偿技术)的优势不足