01

前言

我们来聊聊数据治理最最核心的部分——数据资产治理,本文主要阐述数据资产治理的策略和工具建设思路。

02

基本概念

广义的数据资产涵盖一切非结构化、半结构化和结构化数据,狭义的数据资产主要包括业务侧的业务日志、流数据的topic、批数据的数据表、生产调度任务/作业,模型层的指标、维度和数据集,应用层的报表、API、应用/服务等,本文主要面向狭义的数据资产,其中又以大家接触最多的数据表、数据指标、报表为主。

03

问题分析

1)用户A是数据开发工程师,对数据表结构和内容较为熟悉,日常工作内容主要是数据采集、数仓建模(ETL)和运维问题排查,主要需求查询数据表上下游生产链路及生产调度作业的执行情况,同时也会随机探查数据字段、枚举值和定义函数等内容来辅助进行数据开发。

2)用户B是业务侧数据分析师,具备基本的数据挖掘分析能力,日常工作主要是面向业务一线产出数据分析报告、配置业务指标和报表,需要根据业务需求查询的数据存储在哪张数据表,以及知悉数据表内各字段的定义、枚举值等,从而确定是否满足查询需求。

3)用户C是数据管理人员,对数仓建模规范和数据口径定义比较熟悉,日常工作主要是规范数据开发流程、降低数据资源存储和开发成本,同时保障业务报表产出及时性和质量,希望资产中心能提供统一的口径维护、资产监控评测等能力。

04

治理目标

综上,数据资产中心的核心用户是各业务侧的数据分析师、产品经理、数据运营等用户,他们构成了数据资产中心的消费端,是数据资产得以流通并进而产生交换价值的关键,而资产中心供给端的用户群体主要是数据开发者和数据管理者。

因此,面向消费端,资产中心主要解决找人找数和有好数的痛点,核心治理目标为保障数据资产元信息的完整性、规范性和一致性,面向供给端,资产中心主要解决生产开发提效、资源成本管控的痛点,治理目标为降本增效。

05

行业调研

研究近年来主要数据论坛上各大厂数据资产中心的建设经验,特选取滴滴和腾讯作为调研目标,详情如下:

1. 滴滴数据梦工厂

1)场景分析:如图表2所示,滴滴主要数据资产分为人、路、车三类,主要呈现出数据量极大、结构化数据占比高、数据安全等级高等特点,主要需求为数据资产成本治理、数据安全治理和数据质量治理。

2)解决思路:

如图表3所示,滴滴内部将数据服务化、指标管理平台和资产管理平台统一为数据内容建设领域,定位为向上服务各类数据应用平台,向下对接数据开发平台的中间公共数据层,以数据内容为抓手,资产管理平台统一作为数据资产元信息采集和管理的工具,通过指标管理平台规范资产口径和质量,再通过数据服务化将数据资产服务到业务团队。

2. 腾讯游戏数据资产管理平台

1)场景分析:腾讯游戏旗下包含上百款各类端游、页游和手游,数据量极大,存在数据多样缺乏统一标准、口径定义不一致、链路质量不高无法快速定位问题、数据价值和成本难以评估等痛点。

2)解决思路:腾讯游戏对资产治理主要构建了两大体系,分别是数据资产的元数据管理体系和数据资产价值的评估体系,其中元数据管理体系涉及元数据应用、元数据管理、元数据存储和元数据采集等范畴,数据资产价值评估体系则主要从热度、广度和收益度三个视角进行评估

3. 调研总结

分析滴滴和腾讯的分享内容,发现两家头部公司对数据资产治理都有一个相同点,即将各类数据资产治理通过平台化的手段去落地实施,都关注到了资产的元数据规范性、安全性和成本,都提供了数据资产检索和血缘链路检索等服务。在侧重点上,滴滴的资产管理工具更加丰富和成熟,考虑到了数据生产者和管理者的痛点,而腾讯的亮点在于对数据资产价值评估体系的独特设计,以上经验均值得我们借鉴和学习。

06

产品架构

如图表14所示,数据资产中心一共分为三层,分别是服务层、管理层和采集层,其中服务层面向数据分析师、数据产品、业务运营等数据消费端用户,提供数据资产检索相关服务能力;管理层主要面向数据资产管理者,主要代表为各业务线产品/技术团队的数据产品经理、研发工程师和主要负责人,提供数据资产录入和维护能力,提供资产成本治理服务;采集层主要面向各数据来源方,包括但不限于埋点元信息采集、业务数据库元信息采集、报表/指标元信息采集、人员组织信息采集等等,同时,采集完的元信息,需要资产维护和管理者按照管理层提供的统一模型进行定义落库。

07

产品设计

1. 数据接入

产品定位:数据资产中心核心是各类数据资产元信息的中央数据库,各类数据资产的元信息采集主要分为上游业务系统自动采集和资产中心前端页面手工输入两部分,因此,数据接入模块承担了资产中心开源和标准定义的职能。

规范定义:数据资产中心需要采集hive、kafkatopic、clickhouse、druid、报表、指标、API等等结构各异的资产元信息,针对各类异构数据进行统一定义并整合分析绘制出数据地图是资产中心需要解决的主要问题,系统设计伊始便要考虑各类资产的复杂性和差异性以及未来的通用性,因此,如果不定义一套统一的元信息收录采集标准,则随着数据资产的收录一定会出现资源管控成本和元信息质量降低等问题。

2. 数据地图

资产检索:支持普通搜索、高级搜索,同时向用户推荐结构化整理的知识图谱

资产详情:资产详情页展示资产的基础信息、业务信息和技术信息,同时提供权限申请、资产收藏、血缘链路查询、快捷取数、SQL模板生成等能力

3. 资产维护

数据资产中心提供了管理者视角的资产录入和维护界面,支持以资产中心为统一维护平台进行资产维护,保障资产元信息的及时更新

4. 资产治理

质量分析:资产治理提供数据资产质量测评和分析报告,通过计算资产元信息完整度、规范性、重复性等来进行分析评估

治理榜单:分为个人榜和团队榜,综合计算所负责资产的质量(完整性、规范性、唯一性等)分、成本分(存储成本和增长趋势等)、评价分(用户评价、查询热度等)来进行排名,提供日排名、周排名和月排名,每个月重置一次数据。

5. 资产交接

资产中心提供一站式资产交接处置能力,减少因离职造成的资产无人维护和安全隐患

08

未来展望

通过以上内容介绍,目前国内作者能接触到的主流数据资产管理平台的主要功能就都基本介绍完毕了,展望未来,我认为,资产中心基于它数据内容采集和管理的特点,其实是可以深入到数据应用和服务领域,通过先进的搜索和AI算法,快速提供轻量化的数据可视化、数据分析和归因预测等服务,在满足业务找人找数的需求上,直接反馈数据结论,简化后续业务找到数据后再去分析数据的流程,提高数据分析效率。

参考国外已有产品,比如ThoughtSpot(一款基于搜索引擎的数据报表自动化生产的工具),以搜索为切入点,基于元数据之间的关联和构建,快速推荐和绘制可视化图表,提供轻量化配置能力,快速满足用户数据分析需求:

又比如Einstein Discovery,基于用户的数据自动关联,并从中对数据内容进行分析和解读,并将分析结果以自然语言的方式为用户提供解读报告,快速且轻量化地回答用户:“发生了什么?为什么会发生?即将发生什么?需要怎么做?”:

数据治理|数据资产中心相关推荐

  1. 数据资产运营 = 数据资产盘点 + 数据治理 + 数据价值实现

    略去大数据分析背景与价值部分,言简意赅的介绍如何进行数据资产管理运营. 数据资产管理运营 = 数据资产盘点 + 数据治理 + 数据价值实现 管理和运营是一个全流程的事情,首先我们需要知道有哪些数据(盘 ...

  2. 数据治理-数据质量-数据质量实施方法

    质量实施方法 数据质量领域研究学者和专家结合自身实践,先后提出了一系列质量管理得项目实施方法,其中以全面信息质量管理.全面数据质量管理.数据管理十步法.六西格玛等.         与传统数据质量管理 ...

  3. 数据治理-数据质量-数据质量管理方法和工具

    常用质量管理工具 目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具.新的质量管理工具和其他质量管理工具. 传统的质量管理七大工具 传统的七种工具包含分层法.检查表.帕累 ...

  4. 数据治理-数据生命周期管理-大数据采集

    大数据采集 为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次. 第一层次,业务电子化.为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并 ...

  5. 数据治理——数据质量管理

    目录 数据质量保障原则 完整性 准确性 一致性 及时性 常见的数据监控原则 单表数据量监控 单表空值检测 单表重复值检测 单表值域检测 跨表数据量对比 在当今这个大数据时代,数据质量对于数据的价值有着 ...

  6. 大数据治理.数据储存技术

    1. HIVE & HBase hive是基于Hadoop的一个数据仓库工具,用来进行数据提取.转化.加载,这是一种可以存储.查询和分析存储在Hadoop中的大规模数据的机制.hive数据仓库 ...

  7. 数据治理-数据生命周期管理-大数据归档与销毁

    数据归档 在大数据时代,存储成本显著降低的情况,企业希望在技术方案的能力范围之内尽量存储更多的数据.但大数据时代同样带来了数据的急剧增长,因此数据归档仍然是数据管理必须考虑的问题.与传统的数据备份和数 ...

  8. 数据治理-数据质量-数据质量的概念和维度

    大数据质量的基本概念 数据是表示事物各种属性的基本元素,通常情况下,只要符合数据应用的需要,就可以将它视为合格数据,即数据质量合格.结合质量的定义分析可知,数据质量就是"一组固有特征满足表示 ...

  9. 美团配送数据治理实践

    背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值.将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台. 但这里要特别强调一下,如果在大 ...

最新文章

  1. 【Qt】qss样式表之:自定义属性实现动态切换样式
  2. Android中用图片自定义一个进度条(实现蒙板效果)
  3. python作业6月14日
  4. 将Python文件打包为exe文件,并在控制台运行之简易教程
  5. 蓝桥杯2017初赛-迷宫-dfs
  6. ant-design之form-重置表单多个值
  7. 微软发布Windows 11测试版开始菜单和任务栏等区域无响应的解决办法
  8. cmd指令大全指令_数控加工中心编程技巧及指令大全,请转给需要的数控人!
  9. ROS 中文教程目录(最好不要过度依赖这种,建议养成看英文原版习惯)
  10. 任正非:做芯片砸钱不行 得砸数学家、物理学家、化学家
  11. 零基础起步Keras+LSTM+CRF的实践命名实体识别NER
  12. C++ 中两个数据交换总结
  13. 关于Vue vue-cli安装遇到的一些问题
  14. 中国物联网激荡的20年发展
  15. IT,大一,这里我有点建议
  16. 为什么当函数值为定值时,梯度垂直于等值面?
  17. html中w3c标准,css标准 - W3C中国
  18. 下载Nvidia显卡以前的驱动
  19. 黄河金岸诗词大赛获奖作品选登(1)
  20. 打开支付宝 html,如何处理支付宝支付后端返回的html代码

热门文章

  1. 一点点学pic单片机,如何设计pic单片机中断程序
  2. 33重新设计流行网站以激发您的灵感
  3. 32位win10如何装64位win10?
  4. JAVA设计模式之单例模式详细分析(全)
  5. JAVA将北斗定位系统坐标系用于高德地图或百度地图
  6. unity古场景、各种小件模型-unity游戏素材
  7. 动态爱心-李峋同款爱心(有手就行版,已修改可加字)
  8. Python实现简易的勒索病毒
  9. Python xlrd将excel表的指定数据copy到另一个excel表格中
  10. 2022年湖北黄冈建设厅七大员(建筑八大员)报名考试时间是什么时候呢?甘建二