1、项目需求

  • 1、用户行为数据采集平台搭建
  • 2、业务数据采集平台搭建
  • 3、数据仓库维度建模
  • 4、采用即席查询工具,随时进行指标分析
  • 5、对集群性能进行监控,发生异常需要报警
  • 6、元数据管理
  • 7、质量监控
  • 8、权限管理

2、技术选型

2.1 技术选型

技术选型主要考虑因素:数据量大小、业务需求、行业经验、技术成熟度、开发维护成本、总成本预算

  • 数据采集传输:Flume,Kafka,Sqoop,Logstash,DataX
  • 数据存储:MySQL、HDFS、HBase、Redis、MongDB
  • 数据计算:Hive、Tez、Spark、Flink、Storm
  • 数据查询:Presto、Kylin、Impala、Druid、ClickHouse、Doris
  • 数据可视化:Echarts、Superset、QuickBI、DataV
  • 任务调度:Azkaban、Oozie、DolphinScheduler、Airflow
  • 集群监控:Zabbix、Prometheus
  • 元数据管理:Altas
  • 权限管理:Ranger、Sentry

2.2 系统数据流程设计

2.3 框架版本选型

2.3.1 如何选择Apache/CDH/HDP版本?

  • Apache:运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)(建议使用)

  • CDH:国内使用最多的版本,但是CM不开源,今年(2021年)开始收费,今年开始收费,一个节点1万美金/年。

  • HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少。

2.3.2 云服务选择

  • 阿里云的EMR、MaxCompute、DataWorks
  • 亚马逊云EMR
  • 腾讯云EMR
  • 华为云EMR

2.4 服务器选型

2.4.1 物理机

  • 以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,戴尔品牌单台报价4w出头。一般物理机寿命5年左右。
  • 需要有专业的运维人员,平均一个月1万。电费也是不少的开销。

2.4.2 云主机

  • 云主机:以阿里云为例,差不多相同配置,每年5w.
  • 很多运维工作都是由阿里云完成,运维相对较轻松。

2.5 集群规模

以每台服务器8T磁盘,128G内存为例

  • 每天增量数据100G
  • 保留半年历史数据 100G*180天≈18T
  • 保存3个副本:约54T
  • 预留20%Buffer: 54T/0.7 = 77T
  • 约8T * 10台服务器
    另外,还需要考虑数仓分层、数据采取的压缩策略等情况。

2.6 集群资源规划设计

在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务,测试集群用于上线前代码编写和测试。

2.6.1 测试集群集群资源规划案例

2.6.2 生产集群集群资源规划案例

(1)消耗内存的分开
(2)数据传输数据比较紧密的放在一起(Kafka 、Zookeeper)
(3)客户端尽量放在一到两台服务器上,方便外部访问
(4)有依赖关系的尽量放到同一台服务器(例如:Hive和Azkaban Executor)

大数据之项目需求及架构设计相关推荐

  1. 2 大数据电商数仓项目——项目需求及架构设计

    2 大数据电商数仓项目--项目需求及架构设计 2.1 项目需求分析 用户行为数据采集平台搭建. 业务数据采集平台搭建. 数据仓库维度建模(核心):主要设计ODS.DWD.DWS.AWT.ADS等各个层 ...

  2. 大数据项目之电商数仓、数据仓库概念、项目需求及架构设计

    文章目录 1.数据仓库概念 2. 项目需求及架构设计 2.1 项目需求分析 2.1.1 采集平台 2.1.2 离线需求 2.1.3 实时需求 2.1.4 思考题 2.2 项目框架 2.2.1 技术选型 ...

  3. 尚硅谷数据仓库实战之1项目需求及架构设计

    尚硅谷数据仓库实战之1项目需求及架构设计 第2章 项目需求及架构设计 需求分析 项目框架 技术选型 数据流程设计 框架版本选型 服务器选型 集群规模 集群资源规划设计 第3章 数据生成模块 目标数据 ...

  4. 数据仓库 — 01_项目需求分析与技术选型(数仓概念、项目需求及架构设计、数据生成模块格式要求)

    文章目录 1 数据仓库的概念 2 项目需求分析 3 项目框架 3.1 技术选型 3.2 系统数据流程设计 3.3 框架版本选型 3.4 服务器选型 3.5 集群资源规划设计 3.5.1 集群规模计算 ...

  5. 基于Hadoop的大数据平台实施记——整体架构设计[转]

    http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...

  6. 电商数仓描述_大数据企业级电商数据仓库架构设计和实现(技术点与企业接轨)...

    课程咨询和资料获取请加老师QQ  1011800132 该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿 ...

  7. 时空位置大数据AI平台技术实现架构设计

    1 开发语言选择 1.1 基于开源框架 以开源框架本身支持的主流语言作为选择,目前选择的框架,均支持Java语言. 1.2 定制开发的算法 从长远来看,人工智能算法需要依赖于分布式运算架构,无论是MR ...

  8. 丽水数据可视化设计价格_大数据可视化项目报价模板

    项目 系统需求 需求内容 单价 数 量 单 位 合计 1 系统方案 设计 1. 整合分析项目需求和特性,制作需求文档: 进行软件 产品界面(信息架构.操作逻辑.功能.用户体验等) 的交互策划,并输出产 ...

  9. 对应chd5.14的spark_GitHub - shixiaopengql/BigData-News: 基于Spark2.2新闻网大数据实时系统项目...

    基于Spark2.2新闻网大数据实时系统项目 1. 说明 2.环境配置 2.1 CDH-5.14.2 (安装步骤可参考地址),关于版本是按实际操作, CDH的版本兼容性很好. Service hado ...

  10. Hadoop精华问答 | 非大数据的项目能否用Hadoop?

    戳蓝字"CSDN云计算"关注我们哦! 技术的日新月异,让我们见证了Hadoop十年从无到有,再到称王.2006年项目成立的一开始,"Hadoop"这个单词只代表 ...

最新文章

  1. 配置Tomcat和在Eclipse中创建Web工程
  2. python编的游戏可以直接玩吗_怎么用python开发游戏?
  3. U-net实现医学图像分割
  4. eclipse下安装PyDev不显示问题
  5. 江苏省二级c语言考试软件下载,江苏省二级c语言上机考试例题集1-20
  6. 在线模拟器RollerCoin使采矿业重回游戏
  7. NO.1 python_人工智能_学习路线
  8. Docker安装Redis以及配置Redis环境
  9. 第2课 春晓-2021.03.05 《小学生C++趣味编程》--C++、Scratch
  10. libjpeg学习4:libjpeg-turbo之YUV
  11. C#与vb6 com组件的互相调用方法
  12. Linux iostat和vmstat命令
  13. mysql客户端介绍
  14. t分布 u分布 卡方分布_卡方分布、t分布和f分布各有哪些重要性质?
  15. 小米10pro稳定版root
  16. 美团2020校招测试方向笔试题
  17. 嵌入式工程师应该知道的C语言
  18. 湖大计算机学院博士后李晓灿,谢鲲-湖大信息科学与工程学院
  19. 视频编辑器哪个好用?全民都在用的三款视频剪辑软件
  20. 液晶电视的MEMC(运动画质补偿技术)的优势不足

热门文章

  1. Linux 磁盘分区及LVM实战演练
  2. ktv收银管理系统服务器,KTV收银管理软件
  3. 【SQL Server】用SQL命令建立数据库和表
  4. EA6900刷梅林教程超详细
  5. 使用晨曦记账本记账,将账目明细导出excel表格上
  6. [转]BT1120接口及协议
  7. 京瓷1020手动双面打印提示_自动双面打印时纸张是如何被翻转的?
  8. 正点原子STM32F4笔记
  9. Docker下载Nginx镜像并运行Nginx容器
  10. 关于EasyExcel 优化,实现格式自定义,数据字典自动转化。