侯圣文大数据体验课笔记

一、玩转大数据和互联网大厂大数据解析

大数据职位有广袤的海洋:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R6aNWQ9r-1652164317262)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508163847484.png?lastModify=1652142610)]

未来比较吃香的ABC

A:AI人工智能

B:Big Date大数据

C:云计算

逛吃看买 肉眼检索 数据库查询 智能推荐
脑袋 海报 数据库DB 大数据BD

客户买东西的演进过程:
  1. 超市买物品,寻找商品只能靠人走看买,有哪些商品在大脑里存储
  2. 海报:寻找商品在海报上肉眼检索,物品在海报上记录
  3. 比较先进:自己家附近3公里内,有点像早期的外卖,买什么在在线购物平台上,寻找:直接搜索,数据存储在数据库中
  4. 智能推荐:基于大数据统计,发现人们买东西的时候,出现捆绑消费的习惯,把捆绑消费的东西提前放在一起,有点像现在网购,你买个手机,给你推荐同手机型号的的手机壳。寻找商品智能推荐,数据存储在大数据BD.

智能:对用户来说,体验比较好。对老板来说赚钱比较多。

阶段1:价格

阶段2:价值

阶段3:爽,价值观

分布式

​ 分布式系统,可以类比显示生活中的牛拉物,我们不可能创造出无穷无尽的牛,来拉取比较大的东西。计算机我们不能期望制造一台无穷大的机器,要留多少个卡槽合适呢,插硬盘,显卡,这种怎么设计呢。显然不太现实。牛,我们用多个牛。不能指望一头牛变得无穷大。不能指望一个机器无穷大。

​ 大数据分布式存储,分布式计算的演进过程。

从DB到BD

数据库(DB)技术发展的三个时代
  • 数据库发展的三个时代,成就了三种商业形态

    • 商业数据库时代:成就了商业软件行业;

    • 开源数据库时代:成就了互联网

    • 新(开)数据库时代:是商业和开源、SQL和NewSQL交融的时代,成就了云和数字化时代

Database BigData
OLTP交易 OLAP分析
ACID事务 TB CAP BASE PB
业务系统 洞察
大数据的3v特征–多块好省

多:规模大、多样性

快:高速性

腾讯的大数据演进之路

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TRigx0Bx-1652164495137)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508221627969.png?lastModify=1652144231)]

阿里的数据演进之路

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hNFyVNMH-1652164252720)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508221742939.png)]

Hadoop Core

账本 表格 云ERP
算盘 计算器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nYUljaFD-1652164252721)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508221851171.png)]

房子丢失,每份数据存三份

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-60H8XmGb-1652164252721)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508222128335.png)]

多副本还有一个好处就是可以分布式计算

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d0VjFCBB-1652164252722)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508222554176.png)]

副本是怎么放的:

​ 首先,客户端会挑选一个离客户端近的节点,然后再选一个跟第一个节点不同的服务器下的空闲节点(发起挑选第二个节点的是第一个副本的集群),第二个副本为了效率,会找一个同一机架下的另外一个空闲节点。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vhbIIBXl-1652164252722)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508223259757.png?lastModify=1652154537)]

MapReduce的Map阶段

计算的时候一个数据量过大及会通过map分给不同的节点。并把数据变成(the,1)二元组的格式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F9asoBY7-1652164252723)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223557390.png)]

MapReduce的shuffle&sort

将相同的key分成相同的组,

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IoSAwqRv-1652164252723)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223627913.png)]

MapReduce的Reduce阶段

相同的key,合并对应的value

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ARZKFORd-1652164252723)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223657660.png)]

MapReduce 的并行执行,Mappers提速

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u5nIRhL7-1652164252724)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223830014.png)]

MapReduce—应用案例:网页访问延迟分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uwaRxPX1-1652164252724)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508223926241.png)]

统计网页中部分访问的时长;

大数据的架构模型永远遵循I-P-O模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NLcUq5Mq-1652164252725)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508224042872.png)]

输入-计算-输出

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fWSJesed-1652164252725)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508224439630.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0EVRzA6U-1652164252725)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508230534160.png)]

技术:是一个习得的东西,自行车,一样,一旦学会终生受益。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o5CXrN79-1652164252726)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509080305785.png)]

二、离线数仓搭建哪些你不知道的点

1、数据仓库定义及演进史

2、数据仓库及核心概念

3、数据仓库建模流程讲解

4、走进大厂数据仓库搭建案例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4iblLuoC-1652164252726)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509080955240.png)]

数据仓库类似于:

淘宝开时尚潮流店,流程:生产工厂、物流公司、商品仓库、时尚潮流店。

数仓的流程:数据库、ETL、数据仓库、可视化看板。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SJaS0MLs-1652164252726)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509081225819.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3c3BK21l-1652164252727)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509081627700.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fFkiBW1p-1652164252727)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509082146106.png)]

模型:E-R、维度

E-R:支持多对多(N:N)关系 相对容易扩展 高度结构化

维度模型:面向主题、适合多维度分析。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ktL8QIoZ-1652164252727)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509082843179.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g4AcEf66-1652164252728)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083101302.png)]

概念模型、逻辑模型、物理模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-giwOOrTS-1652164252728)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083238156.png)]

概念模型:可以看到整体规划小区有哪些功能区:商家、商品、买家、订单

逻辑模型:类似于图纸,显示生活中卖房子的户型图,对应中文字段信息

物理模型:煤火电是怎么走的。对应,英文库表

分层

分层:是为了在管理和使用数据时能清洗、有序、高效。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t4fT0mjf-1652164252728)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083519616.png)]

事实表:

也叫度量,使用户评价业务的数据值型数据。是原子指标,不能再分的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HYEGJ80k-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083626565.png)]

维度:

数据观察的角度,验证指标。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jfexouGI-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509083703643.png)]

事实,我想找个女朋友是一个实时。维度,我想找个什么样的,身高,体重,年龄等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DGjsGc8a-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509084509247.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kHWPBQq3-1652164252729)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509084742047.png)]

数据调研
需求调研

​ 数据产品经理做的。1、爆款商品的排行数据。2、双11的销售额有哪些。3财务数据:营收额,费用。4有多少商家入驻,总共有多少商品了。5平台上的用户量有多少。

数仓建模:慢就是快。

业务调研:

​ 看数据都有谁看,商家产品部,平台运营部,CEO…。

数据调研:

​ 数据是怎么产生的:1.商品购买流程。2.线上活动流程。3.客服售后流程

​ 数据长什么样?1、有哪些数据库,数据表。2、有哪些字段,字段含义,字段类型。3.数据的更新方式,更新时间。

数仓规划

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7fMkkwrg-1652164252730)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090255790.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QHUCRpUe-1652164252730)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090401705.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rYkzI3Hg-1652164252730)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090419486.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fOOOHahO-1652164252731)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090505638.png)]

分析主题
数据分层
数据事实
数据维度
第三步:模型设计

星型模型,雪花模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6DaztmUF-1652164252732)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509090949912.png)]

第四步:模型开发

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Glss7wUA-1652164252732)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091042733.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IV05BoBA-1652164252733)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091155956.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t6lisgon-1652164252733)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091456952.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-shV7wenn-1652164252733)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509091543101.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4vbFFb2l-1652164252734)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509093051404.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i7kXhr5T-1652164252734)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220509093158923.png)]

三、带你走出实时数据计算的坑

实时计算:

STORM

SPARK STREAME

FLINK

实时大屏;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gh8tAIr6-1652164252735)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508200850773.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mfdSwGrb-1652164252735)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508200943457.png)]

小汽车绿灯状态下,就是流式,源源不断的进去。

直饮机。直接来了过滤,没有等一等。

车流的例子也能

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8KEP1pHD-1652164252735)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508201736141.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xGwIpGuu-1652164252736)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508202042192.png)]

当接到电话的时候同时收到防诈骗的短息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BmbxzZ6W-1652164252736)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508202314719.png)]

车路协同

机场高速,实时技术,摄像头,实现快速扣费,极大的提升了通信效率,无感通行。提升出行体验。

2、三大实时计算框架比较。

spark streaming :

storm 快、准确不强,吞吐能力有限。Twitter 自研的

flink

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GPpklXEY-1652164252737)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508203507316.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PV08ygQ9-1652164252737)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508203737033.png)]

flink:

快速灵动;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ik2mH3U5-1652164252737)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204028795.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i2ZS8lkM-1652164252738)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204039140.png)]

4大根技术

容错机制:一个一个栅栏分一段一段的。

状态管理

时间窗口

时间语义

2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nV2y5gTv-1652164252738)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204535996.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RWdm5mih-1652164252739)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508204947473.png)]

等等我让我数清楚:

核酸检测:等等我,可能比我早捅,但是检测时间比较晚

“无界数据流”中的“有界数据集”:

数车流:不管是按照时间3秒数、还是三辆数。分段数的对象就是有界数据集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fGf8yG6A-1652164252739)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508205756815.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xJsSz5Dz-1652164252739)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508210231452.png)]

大数据平台设置表数据量的监控任务(阈值)相关推荐

  1. 大数据平台下的数据治理

    文章目录 什么是数据治理 难题 大数据平台下的数据生命周期 数据治理关键场景 数据治理面临的挑战 数据治理关键问题 1. 海量系统规模 2. 复杂存储 3. 复杂采集 数据治理目标 数据治理平台与周边 ...

  2. 政府大数据平台标准规范-数据接入

    搞政府大数据平台的,标准规范是一个绕不过去的内容,而且政府项目对标准规范貌似都特别看重,这是与做企业项目很大的不同.政府大数据平台的标准规范可以从以下几个方面制订: 数据接入,包括结构化.非结构化数据 ...

  3. 典型工业企业大数据平台解决方案(含数据治理)

    一.总体思路 当前,工业企业产生的数据日与俱增,如何利用大数据为企业产生驱动力.竞争力成为工业企业面临的重要问题.工业企业大数据平台建设的总体思路是将现有PLC.MES.ERP.CRM.SRM.SCM ...

  4. 大数据平台架构:数据平台建设的几种方案

    随着大数据在越来越多的企业当中落地,企业要开展大数据相关的业务,那么首先要搭建起自身的数据平台.而企业搭建大数据平台,往往需要结合成本.业务.人员等各方面的因素,来规划数据平台建设方案.今天我们就来聊 ...

  5. R语言ggplot2可视化:使用长表数据(窄表数据)( Long Data Format)可视化多个时间序列数据、在同一个可视化图像中可视化多个时间序列数据(Multiple Time Series)

    R语言ggplot2可视化:使用长表数据(窄表数据)( Long Data Format)可视化多个时间序列数据.在同一个可视化图像中可视化多个时间序列数据(Multiple Time Series) ...

  6. 第四代数据平台技术:数据云平台

    当前社会已经进入一个企业数据高速膨胀的时代,近几年,每年全球的数据规模平均以40%的速度增长.在云计算.大数据技术并驾齐驱发展几年后,两个技术逐渐融合,数据平台的技术在云计算的助力下,能够支持更复杂的 ...

  7. 常用地理数据平台及环境数据资源 (GIS)

    一.标准地图服务系统 (yyds) 标准地图服务系统 自然资源部标准地图服务(http://bzdt.ch.mnr.gov.cn)的页面上,提供了各省.自治区.直辖市的标准地图服务网站的链接. 1 国 ...

  8. 浅谈网易大数据平台下的数据质量

    大数据平台的核心理念是构建于业务之上,用数据为业务创造价值.大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环.但随着业务的逐渐稳定,数据质量越来越被人们所重视. 千里之堤,溃于 ...

  9. 从数据仓库到大数据平台再到数据中台(内附13张架构图)

    现在,数据的新名词层出不穷,顶层的有数字城市.智慧地球.智慧城市.城市大脑-企业层面的有数字化转型.互联网经济,数字经济.数字平台- 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度 ...

最新文章

  1. Script:列出数据库中子表上没有对应索引的外键
  2. React router 4 获取路由参数,跨页面参数
  3. go语言web开发框架_Iris框架讲解(六):Session的使用和控制
  4. Dynamips和Vmware完成CCVP试验(1)
  5. 【MATLAB】三维图形绘制 ( 三维平面图 | 二维网格 | meshgrid 函数 | 绘制网格 | mesh 函授 | 绘制平面 | surf 函数 | 绘制等高线 | contour 函数 )
  6. 【MATLAB】矩阵操作 ( 矩阵下标 | 矩阵下标排列规则 )
  7. 电子计算机空调,电子计算机机房空调的设计规范
  8. java随机数生成三位数_Java编写一程序编写一程序,实现下面功能.(1)随机产生200个三位的正整数,按每行10个数输出.(2)统计其中偶数和...
  9. webservice4
  10. 关于本地yum源的创建方法和使用
  11. SEM搜索引擎竞价全方位系统网课-优就业-专题视频课程
  12. Python面向对象加强4.iter与next的用法,枚举器enumerate
  13. 计算机逻辑与 或 非的表达式,计算机算数和,逻辑与,逻辑或,逻辑非分别是什么意思...
  14. 如何在ionic官网打包自己的App
  15. 计算机网络 子网掩码
  16. java 软件流程图使用什么_流程图怎么画,教你正确使用流程图模板
  17. HTML3个炫酷代码
  18. 解决斜杠符号被转义的问题
  19. Access 密码破解原理- -
  20. TERMIOS详解【转】

热门文章

  1. 华为OD机试 - 冠亚军排名,奖牌榜排名(Java JS Python)
  2. java实现qq炫舞音乐播放功能_仿QQ炫舞按键功能--Java原创新作品
  3. 【Unity2D】制作Spike地刺效果以及对Player造成伤害
  4. Unity3D:Gizmos画圆(原创)
  5. 2021年 青岛市 初中信息技术竞赛 OJ 及题目
  6. 现代数学大厦究竟有多高?
  7. android获取屏幕ppi,快速掌握Android屏幕的知识点
  8. 如何处理SOLIDWORKS警告提示无法创建日志文件
  9. arduino与风向传感器的接线_Arduino室内OLED温度计
  10. 嵌入式Linux温湿度报警系统,嵌入式Linux下温湿度传感器的设计与实现