据研究表明,在数据分析的整个过程中,数据准备会占大约80%的时间。怎样把数据收集起来,并确保数据可直接用于分析展示,是最麻烦、最耗时的事情,这在企业级的数据分析中也被称为是“最脏最累”的活。倘若数据未处理妥当,炫酷好看的可视化展示毫无实际意义。

但是数据准备又非常重要,数据为机器学习、人工智能等提供动力。利用数据来重塑企业的业务虽然很具有挑战性,但对于企业的现在和未来都有重要意义。这是最有远见的企业家的生存之道,那些能够利用数据做出更好、更明智决策的人能够更快地应对意外并发现新机遇。这个重要而繁琐的过程是建立准确的 ML 模型和分析的先决条件,也是 ML 项目中最耗时的部分。

如果你参与过大型企业BI系统的建设,那就一定能有所感触。无数的决策分析系统成为临时的“政绩工程”,一时名声大噪之后却无人问津,大多因为后续数据不准确,无法真正为业务、管理提供实质的服务。这实则是数据分析项目建设的悲哀。

做好数据准备、保证数据质量,都是数据资产管理的范畴。

国际数据管理协会(DAMA International)在《DAMA数据管理知识体系指南(原书第2版)》一书中,将数据管理(DM)定义为“为了交付、控制、保护并提升数据和信息资产的价值,在其整个生命周期中制订计划、制度、规程和实践活动,并执行和监督的过程”。对于数据管理的职能,DAMA将其归为十一大类:数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作、文件和内容管理、参考数据和主数据、数据仓库和商务智能、元数据、数据质量,如图1所示。

图1 DAMA数据管理框架

其中,数据架构、数据建模和设计、数据存储和操作、数据集成和互操作、文件和内容管理、参考数据和主数据、元数据管理、数据仓库和商务智能属于数据准备”的范畴,数据治理、数据安全、数据质量可以统一归类为数据治理”

结合DAMA对数据管理职能的分类及内容,可将数据准备分为“管”“存”“算”个层面,将数据治理分为“规”、“治”两个层面,如图2所示。

图2 “管” “存” “算” “规” “治”

1、数据之“管”

数据之“管”指狭义的数据管理,是对不同类别的数据采取不同的数据管理模式。这里我们把数据分为四个层次:元数据、主数据、参考数据、一般数据(交易数据)。通过数据之“管”,来确保数据来源的可靠性、数据内容的准确性、数据安全性及数据粒度的精细性。

不同的数据,根据其特性在数据量、更新频率、数据质量和生命周期上有不同的特点。从数据的作用及管理的方式上来讲,我们把数据分为四个层次:元数据、主数据、参考数据、一般数据(交易数据),如图3所示。这里提到的数据之“管”,即指管理好这四个层次数据。

图3 数据层次

元数据(Metadata):通俗地说就是描述数据的数据,比如数据的名称、属性、分类、字段信息、大小、标签等等。要做好数据的管理,元数据起到了举足轻重的作用。

参考数据(Reference Data):是用于将其他数据进行分类或目录整编的数据,它定义了数据可能的取值范围,可以理解为属性值域,也就是数据字典。参考数据一方面有助于在TP(业务处理)侧提升业务流程的准确性,另一方面在AP(数据分析)侧规范数据的准确性,为多系统综合分析提供有利的保障。

主数据(Master Data):指具有高业务价值的,关于关键业务实体的权威的、最准确的数据,被称为“黄金”数据。通常用于建立与交易数据的关联关系来进行多维度的分析。

一般数据(General data):也就是交易数据。相对来说,我们可以认为元数据、参考数据、主数据为静态数据,而一般数据则是动态数据。它一般随着业务的发生而变化,比如资金交易流水。

2、数据之“存”

数据之“存”指数据存储,指通过技术手段将数据存储起来。涉及三个关键词是“数据湖”、“数据仓库”和“数据集市”。数据的有效性、及时性、相关性、一致性、安全性、准确性,其来源的可靠性、粒度的精细性,最终都会体现在“存”之上,具备上述条件的数据组合,帮助数据实现了其“丰富性”。

如果把数据比作是源源不断的水,那么,数据湖可以比作湖泊,数据仓库可以比作水库,数据集便是超市。水在不断的加工制造中,最后成为超市中的瓶装水供人直接食用,就好比原始数据经过加工处理最终成为数据集市中直接可用于分析的数据。如图4所示。

图4 数据湖、数据仓库和数据集

数据湖、数据仓库和数据集形成了数据存储的三个层次,三者层层递进,各自发挥着其不同的作用。数据湖为非结构化数据分析、机器学习、预测分析提供了丰富的数据土壤;数据仓库通过规范化的管理,为企业、组织系统化的规范数据体系提供了支撑;数据集则将数据场景化,让数据触手可得,实现即席分析。

数据湖(Data Lake,DL),是指一个集中化存储海量的、多个来源、多种类型数据,并可以对数据进行快速加工、分析的平台。

数据仓库(Data Warehouse,简称DW或DWH),是为支持决策而产生的数据池,它是整个组织中的各级人员可能感兴趣的、当前和历史的所有类型数据的战略集合。

数据集市(Data Mart,DM),是满足特定的部门或者用户的需求,按照多维的方式进行存储,生成面向决策分析需求的数据集合。

3、数据之“算”

数据之“算”,指的是数据预处理之“算”。为了保证数据分析时数据可用、好用而对数据进行的加工。是指对数据的清洗和加工,包括简单的清洗和处理,也包括通过智能手段如借助算法模型对数据的清洗和加工。

数据预处理的关键链路如图5所示。原始数据纳入数据湖的管理,通常混杂着各种数据。要防止数据湖变为数据沼泽,就需要将数据碎片分门别类,将不可洞察的数据和无关数据归类为数据噪声,留下可洞察的数据和相关的数据,我们称之为信息元”。这类数据进一步通过数据加工形成整理后的数据,与可直接洞察的数据共同构成了可分析的数据。

图5 数据预处理

我们前面提到数据处理大约占了数据分析80%的时间,而在数据处理的过程中,数据清洗几乎会占据40%~70%的时间,且数据质量越差,其占比越高。数据清洗不能被孤立的看待,通过借助对元数据信息、数据分布情况的分析,甚至是根据分析结果的异常性来对数据进行有效的清理,会事半功倍。所以,数据清洗和数据分析也是相辅相承,互相依赖、互相促进的。

常见数据清洗包括对缺失值的处理和异常值的处理。数据加工包括数据变换、数据结构转换、表间数据处理等。ETL(抽取Extract、转换Transform、加载Load)将上述数据清洗、数据加工的方法串联起来,形成完整的数据之“算”链路体系,是数据准备过程中最重要的一环。

4、数据之“规”

数据之“规”指数据规范,包括对数据规范的制定和数据管理上的规章制度。“规”是确保数据有效性、安全性的基石。数据的规范,包括两个层面。一方面针对数据本身,即数据标准;另一方面是数据管理上的规范和制度。我们可以通俗的理解为数据分析中的“法”。

数据标准

数据来源的多样化带来了数据的不一致性,多源系统数据整合的关键首先就是建立数据标准。数据标准的定义应遵循一定的原则,包括唯一性、统一性、通用性、稳定性、前瞻性、可行性“六大特性”和系列化、模块化“两化原则”。

基于上述特性和原则,数据标准从内容层次上可以分为语义标准、数据结构标准和数据内容标准。通过建立语义标准体系,保证整个组织层面关于数据分析的沟通“在一个频道上”;通过建立数据结构体系,统一数据资源目录及数据命名规则以确保数据规整、易查找;通过建立数据内容标准,根据业务梳理数据标签及数据描述规则以提升分析效率。

数据规范

数据标准的执行,需要依赖制度的规范。无体系、无制度的管理无异于一般散沙。数据规范可以大致分为数据基础规范、数据安全规范、数据质量规范三大类,如图7所示。

图6 数据规范体系

5、数据之“治”

数据之“治”指狭义的数据治理,实质上指数据治理相关的一套方法及体系,包括了实践数据之“规”来确保数据质量的过程和方法。它不仅是技术上的治理工作,更是以有效满足组织各层级管理诉求的有效手段,它应该是包括数据、应用、技术和组织的四位一体均衡的治理体系。数据治理,最重要的目标就是保证数据质量,即数据的一致性及准确性。

理论体系总是看起来完美无缺,但应用到实际中,往往是“理想是丰满的,现实是骨感的”。先不说平台如何搭建、技术如何选择、如何保障安全性,真正深入到工作中,会发现,所有技术上的难题都不是最难的,如何说服各个部门主动配合数据收集工作,是最大的难点。所以,数据治理实质上并不只是技术问题,更是一个管理问题。做好数据治理,一定首先是自上而下的发起,其次是有足够的组织保障,再次是建立切实有效的机制体系。

如何最好的实现数据治理?数据治理的有效手段介绍相关推荐

  1. 快讯 | 第三届数据标准化及治理优秀评选顺利结束

    5月10日,第三届数据标准化及治理优秀实践评审会在清华大学FIT楼成功举行.本届参与评审的实践水平高于前两届,对于我国数据治理实践的方法.经验的积累和分享,起到了积极的推动作用.评审汇集中国数据治理领 ...

  2. 第二届数据标准化及治理奖评选顺利结束

    2018年5月5日,第二届数据标准化及治理奖实践奖的现场评审在中国电子技术标准研究院成功举行.此次评审活动于2017年11月12日举行的第二届数据标准化及治理大会上正式宣布启动,历时半年的筹备和组织, ...

  3. 快讯 | 第二届数据标准化及治理大会成功举办,清华力量助推中国数据标准化建设

    2017年11月12日上午,第二届中国数据标准化与治理大会在北京万寿宾馆隆重举行.本届会议旨在持续汇集专家人才和经验,促进领域发展和提升业界实践水平.大会由中国工业和信息化部和国家标准化管理委员会指导 ...

  4. 近期活动盘点:数据标准化及治理大会、IBM苏中讲座、产业创新交流会、企业走访和数据法学征稿(11.6-11.12)

    想知道近期有什么最新活动?大数点为你整理的近期活动信息在此: 清华大学iCenter产业创新交流会 2017年11月6日 活动简介: 本次活动结合iCenter在智能制造.大数据.数字现实技术.人工智 ...

  5. 【2016年第2期】专题导读:大数据与社会治理

    创新社会治理体制已成为推进国家治理体系和治理能力现代化的重要内容.互联网.云计算.大数据时代的来临,为推进国家治理体系和治理能力的现代化带来空前的重大变革与发展机遇.本专题"大数据与社会治理 ...

  6. 苏宁智能 BU大数据中心数据治理团队负责人韦真:数据治理“三字经”,超实用!...

    中生代技术 链接技术大咖,分享技术干货 全文:4700字 " 随着移动互联网和大数据的蓬勃发展,"数据即资产"的理念深入人心.大数据已发展成为具有战略意义的生产资料,在各 ...

  7. 如何借助大数据提升城市治理现代化水平

    城市治理是新时代国家治理的重大课题.疫情大考下,大数据已然成为各个城市应对公共卫生事件的重要选择,大数据对于城市人员流动管理.城市民生服务保障.疫情发展趋势及潜在风险研判.疫情处置防控举措落实等都起到 ...

  8. 数据治理:数据治理之道-数据文化-数据思维融入企业文化

    参考<一本书讲透数据治理>.<数据治理>等 大数据的根本价值在于从数据的不确定性中发现规律,获得确定性.想要在繁杂的大数据中快速找到价值数据,并依靠数据发现.分析.解决.跟踪问 ...

  9. 数据资产运营 = 数据资产盘点 + 数据治理 + 数据价值实现

    略去大数据分析背景与价值部分,言简意赅的介绍如何进行数据资产管理运营. 数据资产管理运营 = 数据资产盘点 + 数据治理 + 数据价值实现 管理和运营是一个全流程的事情,首先我们需要知道有哪些数据(盘 ...

  10. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

最新文章

  1. 视频豪横时代,应用如何快速构建视频点播能力?
  2. KN-S1008S1016S1024S1024F端口状态指示
  3. Linux系统开机启动流程介绍
  4. 2015-10-15 css3
  5. 阿里云ACP认证考试细则须知与考题内容学习方法分享...
  6. delphi idtcpclient和idtcpserver的心跳包
  7. matlab处理hdf5数据画图,读取行的最佳HDF5数据集块形状
  8. C语言中的`sprintf`和`sscanf`两个函数介绍
  9. [python]凯撒密码简单方法
  10. android 编辑 word文档,word编辑文档工具
  11. 软件设计师中级-UML建模
  12. 重置IE:专治IE疑难杂症的“万精油”(转)
  13. SPSS--Friedman检验步骤
  14. Intel汇编指令在线手册
  15. cad阀门插件lisp_cad lisp程序中看不出怎么输入命令
  16. 高科技还是“智商税”?你怎么选
  17. 自然语言处理中的迁移学习(上)
  18. python数据收集整理教案_数据收集整理教学设计
  19. MT4自定义指标导入方法
  20. html如何设置ie6兼容性视图,IE6浏览器兼容性视图设置在哪里

热门文章

  1. 鸿蒙和ios底层,一文解惑,为什么说鸿蒙与iOS、安卓不在一个赛道
  2. 栈溢出攻击c语言_软件漏洞分析入门(四)初级栈溢出C_修改程序流程
  3. k8s-Authorization鉴权
  4. 教你如何从TI官网上获取芯片的封装(以导出AD为例)
  5. CentOS6 网卡详解 eth0
  6. Win10系统打开便利贴便签工具应用的多种方法
  7. VBA学习笔记2:将工作簿的表格拆分为工作簿
  8. cmd搭建vue前端项目详细过程
  9. 熊工巧匠 | Boxes.py 之小白也能学会的激光切割创意盒子玩法
  10. opencv目标跟踪概述和人脸跟踪