数据既是信息技术的产物,又是支撑。经过多年的信息技术的发展,数据已经形成了自己特有的科学领域,包括数据治理、数据分析、数据架构等。由于数据非常复杂,数据架构包含了很多方面,其中以下四个方面最有意义:

  • 数据的物理表现形式
  • 数据的逻辑联系
  • 数据的内部格式
  • 数据的文件结构

数据架构在各自具有意义的特点上不断演化:

大数据给组织带来了新的信息和决策机会,同时也具有着巨大的潜力。大数据和已有系统的整体流程如下:

原始大数据分为重复型和非重复型,这两种数据的处理方式和接口完全不同。重复型原始大数据的处理要对每一条记录进行解析,当定位到记录后对记录进行编辑,然后将其传送给已有系统环境,这种接口适用在原始大数据环境中,绝大多数记录都不会传送到已有系统环境中,通常当数据从大数据环境进入已有系统环境中时,将数据存放在数据仓库中是非常方便的,也可以根据需求将数据发送到已有系统环境的任何地方。一旦选用原始重复型大数据环境中的数据,就要对这些基于异常的数据进行如下分析:

  • 模式分析
  • 比较分析
  • 异常记录随着时间的增长及其分析

从非重复型原始大数据环境接入的接口与重复型的区别是非重复型;由于非重复型原始大数据环境中的大多数数据都具有业务价值,而重复型大数据环境中大多数数据业务价值较小,非重复型原始大数据接口中会选定大多数数据,并且非重复型原始大数据不宜查找,语境不明显,查找语境需要文本消岐。大多数非重复型原始大数据都是具有业务价值的,小部分没有用的数据会在文本消岐中会被排除。数据从文本消岐后就可以输出导DBMS中。

数据经过文本消岐后,一般采用另一条路线将输出数据回传到大数据环境中,原因包括以下几项:

  • 数据量:从文本消岐过程输出的数据量可能会很大,由于数量巨大需要回传到大数据环境中
  • 数据的本征:输出数据可能具有适合在大数据环境中存放的本质特征

在将文本消岐输出结果回传到大数据环境时,需要涉及大数据中“语境丰富”的数据。大数据语境丰富部分的数据和重复型原始大数据非常相似,区别在于大数据中语境丰富部分数据具有开放而明显的语境,而且依附大数据环境中与这部分数据相对应的基础数据。因此,大数据中有两种类型的重复型数据,即简单重复型数据和语境丰富的重复型数据,这种划分结构在分析处理时非常重要。

大数据可以划分为重复型和非重复型两个部分,而重复型部分分为简单重复型数据和语境丰富型数据。大数据环境中还关注处理过的数据,这些数据经过提炼或文本消岐可以存放在DBMS中。大数据和已有系统的接口并不是数据架构是关注的唯一接口,企业系统环境中另一个接口就是作业环境与数据仓库之间的接口——ETL接口。ETL代表抽取、转换、装载。通过ETL接口可以将应用程序产生的数据转换成企业共同的数据。作业数据是由各个应用程序定义的,其结果就是造成了不一致的数据定义、不一致的计算公式、不一致的数据结构等,但当数据经过ETL层的处理之后,这些不一致就会得到消解。ETL接口也有多种变体,其中一种就是将ODS包含在该接口中;另一种就是设立集结区的情况:

  • 第一种情况是将来自两个或者多个文件的数据必须经过合并处理,需要解决时间同步问题,先到的数据必须在集结区待命,直到可以进行合并操作为止
  • 第二种情况是大量的数据为了适应ETL处理的并行,需要将这些数据分割成不同的工作载荷
  • 第三种情况是来自作业的数据必须经过预处理

要时刻牢记集结区是属于数仓内部的,数据仓库内部的数据并不是返回给最终用户的数据,因此无论何时都不应该访问分析数仓内部的数据。

作业系统和数据仓库系统之间有一种接口变体称为CDC(变化数据捕获),对于高性能在线事务处理环境而言,每当需要将数据更新到数据仓库环境中时,扫描整个数据库就变得非常困难并且效率低下。这种情况下需要通过检查日志磁带来确定需要更新到数据仓库中的数据。创建日志磁带是为了进行在线备份,以便出现故障时恢复。

从业务环境导数据仓库的另一种替代品是内联转换,在内联转换中,会将需要流入数据仓库的数据视为在线事务处理的一部分来进行捕获和处理。

ETL接口是直接从作业环境将数据装载导数据仓库中的接口,当数据进入数据仓库之后就会进行转换。数据架构的特性之一就是能够提供一种高层视角:

数据架构中的数据完整性是由记录系统确立的,记录系统是唯一性、决定性确立数据价值的唯一场所,记录系统仅仅适用于详细的粒度数据,并不适合用于汇总数据或者派生出来的数据。

处理数据的环境会成为第一个记录系统,尤其是在OLTP环境下,随着时间的推移,数据架构中面向数据的记录系统会发生变化。另一种数据架构的方式是针对问题将数据架构划分成部分:

位置1是为了解决及时查询问题,位置2则是查询历史活动数据;位置3是ODS层浏览信息使用;位置4是数据集市,为主题提供维度数据。数据架构中的信息可以供不同的群体使用,位置1、2为办公人员提供信息,位置3为所有人员提供,位置4根据部门进行划分,而位置5则可以作为整个组织的数据汇聚地。

数据架构——数据架构相关推荐

  1. 普元王葱权:数字化时代需要新一代的大数据应用平台架构

    记者 | 杨丽 出品 | AI 科技大本营(rgznai100) 2018 年 12 月 6 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技 ...

  2. 架构师成长计划”牵手百度,聚焦未来数据中心基础架构|Science x Intel

    点击上方蓝色字,关注我们 在全球疫情爆发.经济低迷的特殊背景下,新基建成为提振中国经济的全新战略,聚焦了全球的目光.大数据中心成为新基建的七大领域之一. 随着5G网络.人工智能.工业互联网等产业的成熟 ...

  3. 智能&大数据时代,架构师思维的十个学习步骤(优化版)

    前言: 秦朝的<书同文.车同轨>,加上唐朝的<诗同形>,有效的减法设计,创造了大一统(加法)的辉煌国度.君不见,在前面各步骤里,诸如:从复杂中设计出简单.以需求检验设计等都是基 ...

  4. 数据中心网络架构 — 传统数据中心网络 — 胖树型三层网络架构

    目录 文章目录 目录 胖树型(Fat-Tree)网络架构 Fat-Tree 是一种无带宽收敛的网络架构 Fat-Tree 的网络拓扑 Fat-Tree 的缺点 胖树型(Fat-Tree)网络架构 为了 ...

  5. 云计算技术 — 数据中心基础架构变迁史

    目录 文章目录 目录 数据中心基础架构变迁史 1997-2007,第一波浪潮:裸机服务器基础架构 2005-至今,第二波浪潮:虚拟化基础架构 / 云计算 2010-至今,第三波浪潮:超融合基础架构 ( ...

  6. 数据中心网络架构 — 传统数据中心网络 — 传统树型三层网络架构

    目录 文章目录 目录 数据中心组网架构 传统三层网络架构 核心层(Core Layer) 汇聚层(Aggregation Layer) 接入层(Access Layer) 三层网络架构的设计原则 三层 ...

  7. 5G对数据中心的架构产生的影响-vecloud微云

    随着5G网络的推行,在5G出现之后位移,拓宽宽带或者是提升速率是非常必要的.当然对于数据中心来说也会带来一定的影响,具体的5G网络的建设对于数据中心架构有什么影响呢? 5G网络的推出,对于现有的数据中 ...

  8. 数据中台全景架构及模块解析

    数据中台是企业级能力复用平台,目标是让数据持续用起来,通过数据中台提供的工具.方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用. 今天就来点实际干货,把企业真实数据平台架构分享给您! ...

  9. 企业大数据平台仓库架构建设思路

    https://yq.aliyun.com/articles/57901 总体思路 随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据不断地产生.新环境下的数据应用呈现 ...

  10. 数据中心基础架构 22 年演进

    01 前言 当今世界正处在信息技术(IT)创新的黄金时代.由机器学习.物联网和大规模可扩展应用支持的云计算.移动应用.大数据分析的巨大力量正在重塑商业和社会的方方面面.而这场IT复兴的中心,则是超大规 ...

最新文章

  1. Microsoft SQL Server 2008 express试用心得
  2. 英特尔是 Chrome OS 代码的第二大贡献者
  3. 华师大计算机入门模拟卷,计算机入门模拟卷A-华东师范大学.docx
  4. android触摸外部关闭键盘,如何隐藏Android上的软键盘,点击外部EditText?
  5. windows下学习linux,在Windows环境下学习Linux命令行的几种方法
  6. 消息队列应用场景解析
  7. 【英语学习】【WOTD】brummagem 释义/词源/示例
  8. 启动u盘自动运行服务器,WinPE网启服务器自动配置程序
  9. DELL服务器R230 RIAD1创建
  10. 交换机下接路由器lan还是wan_小白请教,自家网络搭建中,光猫、交换机、无线路由器、NAS布线问题...
  11. Oracle select表要带双引号的原因
  12. Qt编写数据可视化大屏界面电子看板10-改造QCustomPlot
  13. 利用163 邮箱发送邮件
  14. 浙江大学python程序设计(陈春晖、翁恺、季江民)习题答案
  15. 第三次查词E001-185-1203
  16. FPGA学习笔记2.2——用Verilog实现七段管的工作逻辑
  17. oracle 命令 操作
  18. mysql 索引使用测试(group by、order by)
  19. 区块链的五个基本特征
  20. 揭秘游戏外挂开发技术(一)

热门文章

  1. java jws配置_与WordNet有关的两个JAVA库(JWNL和JWS)的配置
  2. 干货丨电源架构解析之A40i系列OKA40i-C开发板
  3. 链乔教育在线|数字化工作管理工具—Notion(四):同步块(Synced block)
  4. 2011年20大3D网站
  5. 微信浏览器 rem 不适配的解决方案
  6. 2的31次方-1的python表达式_[python]运算符与表达式
  7. 域名解析的DNS缓存如何清理
  8. 毕业一年经历两次大裁员......
  9. C语言拯救者(程序的预处理、编译、链接与宏- -15)
  10. 2)美国佬与才女薛涛的共同点