目录

  • 前言
  • 一、日志采集flume in kafka
    • 1. 配置flume
    • 2. 日志采集flume测试
    • 3. 日志采集Flume启停脚本(针对file_to_kafka.conf)
  • 二、业务数据采集平台
    • 1. 电商业务简介
      • 1.1. 电商业务流程
      • 1.2. 电商常识
    • 2. 业务数据介绍
      • 2.1. 电商系统表结构
      • 2.2. MySQL安装
      • 2.3. 业务数据模拟
    • 3. 业务数据采集模块
  • 三、离线数仓数据同步策略
    • 1. 用户行为数据同步
      • 1.1. 日志消费flume配置
      • 1.2. 日志消费Flume启停脚本
    • 2. 业务数据同步
      • 2.1. 同步策略简述
    • 3. 数据同步工具
      • 3.1. 数据同步简介
      • 3.2. 全量表数据同步(DataX:MySQL=>HDFS)
      • 3.3. 增量表数据同步(Maxwell、Flume:MySQL=>Kafka=>HDFS)
      • 2.4. 采集通道启动/停止脚本(仅学习用)
  • 四、离线数仓环境准备(hive安装配置)
    • 1. 安装hive-3.1.2(资料中的)
    • 2. Hive元数据配置到MySQL
  • 总结

前言

紧接上一篇

【大数据】数仓5.0_业务采集➕数据同步策略(数仓环境搭建完成)相关推荐

  1. 【实时数仓】DWD层需求分析及实现思路、idea环境搭建、实现DWD层处理用户行为日志的功能

    文章目录 一 DWD层需求分析及实现思路 1 分层需求分析 2 每层的职能 3 DWD层职能详细介绍 (1)用户行为日志数据 (2)业务数据 4 DWD层数据准备实现思路 二 环境搭建 1 创建mav ...

  2. Hadoop入门(上):大数据特点、大数据前景、大数据组织结构、Hadoop组成、Hadoop版本介绍、Hadoop运行环境搭建、CentOS6安装JDK、安装Hadoop、Hadoop目录结构

    资料来源于尚硅谷 本篇文章目录 第1章·大数据概论 1.1.大数据概念. 1.2.大数据特点(4V) 1.3.大数据应用场景 1.4.大数据发展前景 1.5·大数据部门业务流程分析. 1.6·大数据部 ...

  3. java爬取网页数据_如何使用爬虫工具采集数据

    网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本.按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据. (图1) 这就是一个网页源码的dom结构,我们需要一级 ...

  4. 用python采集数据_python数据分析4之自动采集数据

    1 数据采集的重要性 数据采集是数据挖掘的基础,没有数据,挖掘也没有意义.很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样 2 四类采集方式 3 如何使用开放 ...

  5. 数据仓库之电商数仓-- 2、业务数据采集平台

    目录 一.电商业务简介 1.1 电商业务流程 1.2 电商常识(SKU.SPU) 1.3 电商系统表结构 1.3.1 活动信息表(activity_info) 1.3.2 活动规则表(activity ...

  6. 数据同步到数仓解决方案

    数据同步到数仓解决方案 一.概述 在数据仓库建模中,未经任何加工处理的原始业务层数据,称之为ODS(Operational Data Store)数据.在互联网企业中,常见的ODS数据有业务日志数据( ...

  7. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记6

    第6章 术:使用技法与重要问题 1.标签规范 数据必须转化成能解决业务问题.提升业务效率的标签才具有价值,否则就是数据负累.将数据提炼转化为标签的过程称为"标签化",标签化需要充分 ...

  8. 大数据理论篇--表分类及同步策略

    文章目录 数仓理论 1 表的分类 1.1 实体表 1.2 维度表 1.3 事务型事实表 1.4 周期型事实表 1.2 同步策略 1.1 实体表同步策略 1.2 维度表同步策略 1.3 事务型事实表同步 ...

  9. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记8(完结)

    第8章 果:价值.经验分享 1.7点价值总结 采用标签方法论形成的数据资产,较传统方式开发的数据指标,具有更高的应用价值与影响意义.标签价值主要体现在:串联.业务友好.全息刻画.可复用.可运营.创新场 ...

  10. 运维实操——日志分析系统ELK(中)之logstash采集数据、伪装rsyslog、多行过滤、grok切片

    日志分析系统ELK(中)之logstash 1.什么是logstash? 2.Logstash安装 3.logstash简单命令行测试 4.logstash文件测试 (1)命令行输入,输出到文件 (2 ...

最新文章

  1. 亿万级图数据库 Nebula Graph 的数据模型和系统架构设计
  2. python基础(part13)--包
  3. hdu 1280用hash解决。。
  4. 【转】Wireshark网络抓包(一)——数据包、着色规则和提示
  5. 关于表情符号与UTF-8的探讨
  6. 【剑指offer】面试题62:圆圈中最后剩下的数字(Java)
  7. 动态图相册 android,‎动态图相册 in de App Store
  8. 第三:jenkins集成httpclient项目并生成在线报告(接口自动化落地)
  9. 处理手机上点击链接出现的蓝色边框
  10. clover删除多余引导_[转载]EFI引导如何去掉多余的这个clover启动项
  11. DJL 教程 1.1 什么是AI人工智能
  12. 深度学习day05-利用TensorFlow搭建图像分类感知机模型,并使用模型进行图片分类
  13. 如何计算802.11 PHY Data Rate (11ac/11ax)
  14. 模式识别算法之2--感知器(感知机)算法
  15. Qt 应用程序输出中文乱码+UI界面输出中文乱码
  16. 【开源电机驱动】符号-幅值驱动方式
  17. Linux下更新git(亲测有效)
  18. 解决myeclipse导入maven工程时问题:No marketplace entries found to handle maven-compiler-plugin:2.3.2
  19. 解决no matching host key type found. Their offer: ssh-rsa报错信息具体方法
  20. 搭建网校平台的具体方法

热门文章

  1. The redemption of Nokia - 诺基亚的救赎
  2. 「基于Python技术的智慧中医商业项目」Django后端用户应用设计
  3. python笔迹识别_opencv python 基于KNN的手写体识别的实例
  4. 关于小米路由器AX3000连接正常却一直检测到被攻击问题
  5. L1和L2正则先验分别服从什么分布
  6. 一对多用left join 的关系。
  7. 无线局域网产品使用的SMS4密码算法简单实现
  8. 一开机checkingmedia_Win7系统开机提示Checking Media Presence如何解决
  9. 解决sqlserver限制2G内存限制安装
  10. 【渝粤题库】广东开放大学 跨文化交际学1 形成性考核