本文原链接:什么是数据仓库,数仓有什么特点

  数据仓库,简称数仓,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。这里会介绍涉及的数仓数据开发技术,数仓的作用,数仓的特点等。

  我简单的做一个比喻,数据仓库就是可以理解就是一个使用仓库,数据就是这个仓库的货物,而数据仓库的开发人员就是这个仓库的管理员,所以数据仓库就是一个怎么管理好数据,使得数据规范的放在仓库中,便于BI、AI等其他的使用数据的方面可以更好的使用仓库里面的数据,使得数据发挥出更好的价值,显而易见在一堆有规律,整齐的货物里面找一个东西,要比在没有整理的里面找更加有效率。

  数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

  数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

  数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

数据仓库的特点:

  1. 数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
  2. 数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
    数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
  3. 数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
  4. 数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。
  5. 汇总的。操作性数据映射成决策可用的格式。
  6. 大容量。时间序列数据集合通常都非常大。
  7. 非规范化的。Dw数据可以是而且经常是冗余的。
  8. 元数据。将描述数据的数据保存起来。
  9. 数据源。数据来自内部的和外部的非集成操作系统。

  数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。

  在具体的实践操作中,为了更好地为数据应用服务,也就是为了数据分析,数据报表的高效开发。数据仓库往往有如下几点特点:

  1. 效率足够高。
      数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好
    的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
  2. 数据质量。
      数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
  3. 扩展性。
      之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
    从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。
      广义的说,基于数据仓库的决策支持系统由三个部件组成
    :数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心,在这个系列后面的文章里,将围绕数据仓库技术,介绍现代数据仓库的主要技术和数据处理的主要步骤,讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。
  4. 面向主题
      操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐

数据仓库(1)什么是数据仓库,数仓有什么特点相关推荐

  1. 数据仓库系列(四)数仓架构以及多维数据模型的设计

    文章目录 一.前言 二.数据仓库的定义 三.数据仓库的特点 四.数据仓库的作用 五.数据仓库的架构 六.数据仓库的要求 七 .数据仓库分层 八.数据仓库四个层次的划分 8.1 ODS层 8.2 PDW ...

  2. 数据仓库系列(三)数仓分层的意义价值及如何设计数据分层

    文章目录 一.前言 二.数仓建模 三.数仓分层 四.数仓的基本特征 五.数据仓库用途 六.数仓分层的好处 七.如何分层 一.前言 现在说数仓,更多的会和数据平台或者基础架构搭上,已经融合到整个基础设施 ...

  3. 【数据仓库】Inmon与Kimball数仓理论对比

    Inmon和Kimball是数据仓库领域伟大的开拓者,他们均多年从事数据仓库的研究,Inmon还被称为"数据仓库之父".Inmon的<数据仓库>和Kimball的< ...

  4. 数据仓库灵魂30问之数仓有哪几种建模思想?

    范式建模 范式建模在实际的应用中有:第一范式(1NF).第二范式(2NF).第三范式(3NF).巴斯-科德范式(BCNF).第四范式(4NF).第五范式(5NF) 在企业范式建模中,一般追求三范式,即 ...

  5. 离线数仓(1):什么是数据仓库

    目录 0. 相关文章链接 1. 数据仓库概念 2. 数仓仓库为何而来 2.1. 操作型记录的保存 2.2. 分析型决策的制定 2.3. OLTP环境开展分析可行吗? 2.4. 数据仓库的构建 3. 数 ...

  6. 数据仓库知识点总结(数仓分层建模、维度建模等)

    数据仓库知识点总结 推荐学习<华为数据之道><数据仓库工具箱-维度建模权威指南>两本书. 此文档是数据仓库建模的知识点总结文档,在持续更新中(2021-10-13). 文章目录 ...

  7. 实时数仓与离线数仓总结(一)

    精选30+云产品,助力企业轻松上云!>>> 今天主要聊聊数仓的基础知识,分为两篇文章介绍,这是第一篇. 主要内容: 数仓基本概念 数仓架构演变 实时数仓和离线数仓的区别 数仓基本概念 ...

  8. 谈笑间学会数仓-分层架构

    1.数据仓库 1-1.什么是数仓呢? ​ 数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据, ...

  9. 数仓建设保姆级教程,离线和实时理论+实战)

    文档大纲: 一.数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,"架构"是什么?这个问题从来就没有一个准确的答案.这里我们引用一段话:在 ...

  10. 浅谈数仓建模及其方法论

    认识数据仓库 1.数仓的定义: 2.数据仓库和数据库的区别: 数仓的发展 1.简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需 ...

最新文章

  1. 独家 | 如何“扰乱”科技巨头用来监视你的数据
  2. python猜数游戏在程序中预设一个_一道Python简单程序结构练习题
  3. 微服务注册中心如何承载大型系统的千万级访问?
  4. 也谈BIO | NIO | AIO (Java版--转)
  5. python文件操作与路径
  6. 什么是 Visual VM?
  7. 关于css的基础知识点
  8. 阿里巴巴对Java编程【OOP规约】的规约
  9. jQuery 的选择器 元素选择器
  10. 字节码指令之异常处理指令
  11. 如何关闭Win10易升更新?
  12. 巴厘岛最全的美食攻略
  13. 一张图讲清楚产品架构,手把手教你画产品框架图
  14. 蓝天保卫战之产品测试服务
  15. Arcgis For Android实现比例尺
  16. 广义相对论-学习记录3-第二章-狭义相对论2
  17. Java语言这些年的发展
  18. C# Parellel.For 和 Parallel.ForEach
  19. js xlsx获取表头
  20. 在36mh看漫画更爽的脚本。

热门文章

  1. 搜索技巧:怎样在网上能找到好图片?
  2. 论草(全网最完整讲解)
  3. 2700余件茅台散落公路 搬运工闻酒气醉了20小时
  4. Ubuntu使用upx加壳时报错:NotCompressibleException
  5. 用python打印输出ini配置文件,把测试数据写进ini文件里
  6. matlab 华图技巧,华图教育——图形推理技巧
  7. 五一2.74亿人倾巢而出,小长假到底去哪玩儿?
  8. 第2章 SSD主控和全闪存阵列
  9. log4j/log4j2配置不生效问题解决之道
  10. 移动电影院加速海外业务拓展