数据仓库、 OLAP及数据立方体计算

什么是数据仓库

有多种但并不严格的定义

  1. 与操作数据库相隔离并单独维护的一个用来支持决策过程的数据库。
  2. 一个用来对整理过的历史数据进行分析以便支持信息处理的固定平台。
  3. “数据仓库是面向主题的、集成的、时变的、非易失的数据集合,它用来支持管理部门的决策过程”—W. H. Inmon

数据仓库的特征

  1. 面向主题的:围绕主题组织, 如消费者(customer)、产品( product), 销售量(sales)等。主要目的是对数据建模与分析,以便于决策者的决策过程,而不是日常操作与事物处理。

  2. 集成的:集成多个、异构数据源

  3. 时变的:数据仓库跨越的时间比操作数据库要长的多。
    操作数据库: 当前值数据。
    数据仓库: 从历史的视角提供信息(如过去5-10的数据)

  4. 非易失的:与操作数据库分隔存储。操作数据库的数据更新不在数据仓库环境出现。仅仅需要以下2种操作: 数据的初始装载与数据访问。

数据仓库 vs. 数据库管理系统

联机事物处理 (OLTP ,on-line transaction processing)

  • 传统关系数据库的主要任务
  • 日常操作 : 购买, 存货, 财务等.

联机分析处理 (OLAP,on-line analytical processing)

  • 数据仓库的主要任务
  • 数据分析与决策支持

为什么要建立隔离的数据仓库

  1. 使得操作数据库与数据仓库都获得高性能
    DBMS—OLTP: 访问方法, 索引, 并发控制, 数据恢复。
    Warehouse—OLAP: 复杂OLAP查询, 多维视图, 整理。

  2. 对数据与功能的要求不同:
    丢失的数据: 决策支持需要历史数据,而传统数据库并不一定维护历史数据。
    数据整理: 决策支持需要对异构数据源进行数据整理 。
    数据质量: 不同的数据源常常具有不一致的数据表示,编码结构与格式。

多维数据模型

数据仓库基于多维数据模型,以数据立方体的形式对数据进行观察。
数据立方由维和度量组成

  • 维表:如维item (item_name, brand, type),或维time(day, week, month, quarter, year) 。
  • 事实表包含度量(measures):如销售额以及每个相关维表的关键字。

立方体:方体格

数据仓库概念模型

建模数据仓库: 维 & 度量

  • 星型模式(Star schema): 一个事实表以及一组与事实表连结的维表。

  • 雪花模式(Snowflake schema): 雪花模式是星型模式的变种,其中某些维表是规范化的。(normalized),因而把数据进一步分解到附加的表中。

  • 事实星座(Fact constellations): 多个事实表分享共同的维表,这种模式可以看作星型模式的集合,因此称为星系模式(galaxy schema)或事实星座。

度量的分类

  • 分布式的(distributive): 一个聚集函数是分布的,如果它能以以下分布式进行计算:如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布式计算。
    如, count(), sum(), min(), max().

  • 代数的(algebraic): 一个函数是代数的,如果它能够由一个具有M个参数的代数函数计算(其中M是一个有界整数),而每个参数都可以用一个分布聚集函数得到。
    如, avg(), standard_deviation().

  • 整体的(holistic): 如果描述它的子聚集所需的存储没有一个常数界,即不存在一个具有M个参数的代数函数进行这一计算(其中M是常数)。如, median()(中位数), mode()(出现次数最多的数,众数)等。

常见的OLAP操作

  • 上卷Roll up (上钻drill-up):
    通过一个维的概念分层向上攀升或通过维规约,在数据立方体上进行聚集。

  • 下钻Drill down (roll down): 上卷的逆操作,它由不太详细的数据得到更详细的数据。可以通过沿维的概念分层向下或引入新的维实现。

  • 切片Slice与切块dice:投影与选择。

  • 转轴Pivot (rotate):是一种目视操作,它转动数据的视角,提供数据的替代表示

  • 其它操作:
    钻过drill across:执行涉及多个事实表的查询。
    钻透drill through:使用SQL的机制,钻到数据立方的底层,到后端关系表。

数据仓库体系结构

数据仓库的多层结构

数据挖掘与数据仓库——数据仓库、 OLAP及数据立方体计算相关推荐

  1. 数据仓库、OLAP和数据立方体

    文章目录 数据仓库.OLAP和数据立方体 1. 数据仓库 1.1. 数据仓库定义 1.2. 关键术语解释 2. 数据仓库和数据库的区别 3. OLAP 3.1. 基本概念 1) 维 2)操作 3.2. ...

  2. 数据立方体计算与数据泛化

    总述:数据在经过预处理和装入数据仓库之后,下一步就是应用具体的算法来处理数据,找出其中有业务意义的部分.这一部分详细的介绍了数据挖掘相关算法的核心思想,常见问题算法的指导方向. 如何根据数据立方体的情 ...

  3. OLAP和数据立方体

    文章目录 数据仓库 多维数据模型 事实表和维表 数据立方体和OLAP OLAP的基本操作 维和立方 数据立方体实例 数据立方体物化 数据仓库 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决 ...

  4. 5.数据立方体计算与数据泛化

    1.两种不同类别的数据挖掘方法 描述性挖掘: 数据泛化 预测性挖掘:分类.回归分析 2.数据立方体的物化 3.数据立方体.闭立方体.立方体外壳和和计算策略搭档大裆..喜欢西幻 4.什么是概念描述 概念 ...

  5. 【数据挖掘笔记五】数据立方体技术

    5.数据立方体技术 数据仓库系统在各种粒度上为多维数据的交互分析提供OLAP工具,OLAP工具使用数据立方体和多维数据模型对汇总数据提供灵活的访问,因此重点要关注数据立方体的技术.数据立方体技术包括数 ...

  6. 【读书笔记-数据挖掘概念与技术】数据立方体技术

    基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...

  7. 数据挖掘:概念与技术 第五章-数据立方体技术

    数据立方体技术: 基本方体的单元是皆不能单元,非基本方体的单元是聚集单元 聚集单元在一个或者多个维上聚集,其中每个聚集维用单元记号中的星号指示.假设有一个n维数据立方体,如果a中恰有m个值不是星号,则 ...

  8. buc算法java实现,数据挖掘概念与技术(hanjiawei)阅读笔记--第五章(数据立方体技术)...

    BUC 1.BUC(Botom-Up Construction)概念 从顶点方体向下计算冰山立方体 计算稀疏冰山立方体的算法 基于先验性质进行剪枝 ### 2.算法计算 例A(a1,a2,a3),B( ...

  9. 数据立方体的基本计算

    数据立方体计算是数据仓库实现的一项基本任务.这里介绍几种计算方法 1.多路数组聚集计算法(multiway)(计算完全方体) (1)把数组划分成块,块是一个子立方体,它足够小可以放入立方体计算时所需的 ...

最新文章

  1. Android studio安装与调试
  2. JScript多语言语法加亮引擎显示(代码精简)
  3. [XJOI]最大K段和 题解
  4. Vue中去掉表单对象上前后空格
  5. arduino 嗡鸣器 音乐_[求助]怎样实现红外遥控蜂鸣器播放音乐,求大神指正
  6. Android无需权限保存文件,即使使用用户权限,也无法在外部存储上保存文件[Android]...
  7. UILocalNotification本地通知
  8. 爬动的蠕虫(C++)
  9. linux c实现线程超时退出,c – 如何在另一个线程的超时内唤醒select()
  10. mysql迁移至postgresql_PostgreSQL来自欧罗巴Patroni系列技术主题一
  11. 直播的学习与使用-----采集
  12. SQL BASELINE修改固定执行计划
  13. java 反射 systemproperties,Android添加自己的系统属性(反射调用SystemProperties)
  14. vb实时曲线的绘制和保存
  15. 转贴:水晶报表动态加载图片(签名)
  16. 文华财经指标公式,通达信指标加密破解
  17. centos 6 升级gcc
  18. 拼多多模式,砍价免费拿商品算法
  19. JAVA的直接内存介绍
  20. javaweb程序设计入门

热门文章

  1. 母乳喂养,有助婴儿身心健康
  2. 网站 服务器壁垒,卖贝商城为你详解2016年服务器存储壁垒被打破的预测
  3. 从输入URL到显示网页,都经历了什么?
  4. LiLi-OM-ROT源码阅读(三)——factors部分
  5. 绝地大逃杀显示服务器未正常运行,绝地求生大逃杀BE服务器未正常运行怎么办_绝地求生大逃杀BE服务未正常运行解决办法_3DM手游...
  6. 做自己生活的导演:华为CameraKit为你加持大师光环
  7. 美国患者满意度调查评价机构以及如何进行满意度调查?
  8. ESP8266(NodeMCU)建立最简单的网页
  9. mybatis in 参数动态拼接
  10. mac系统怎么打开ftp服务器,mac系统+怎么打开ftp服务器地址