数据治理是企业数字化升级过程中的重要一环。如何让数据治理事半功倍,开展地更加顺利并最终有效服务于业务场景呢?在近日的个推TechDay线上技术直播中,个推数据中台解决方案顾问阿宣围绕数据治理的主题,分享了个推的实践经验和方法论,并结合实操案例对企业数据治理过程中的避坑点进行了细致剖析。

文末提供课件获取方式及直播回放视频

作为一家数据智能公司,个推多年来持续对自身积累的百亿级数据进行治理,深刻理解企业开展数据治理过程中的痛点和难点。结合自身数据治理经验,个推将数据治理的实施过程拆解为明确战略需求、进行数据规划、组织建设、方案设计、落地实施等五步。

Step1:明确战略需求

个推认为,企业进行数据治理的过程中,顶层设计和组织建设尤其关键。我们需要将数据治理视作一项战略层面的活动,要有明确的目标和方向,使得数据治理最终能够满足业务需求,为业务创造价值。

那么,企业如何从战略层面梳理和确认数据治理的价值和目标呢?个推建议采用系统化的方法——“3C理论”,即从企业(company)、客户(customer)、竞争(competition)等方面综合考量企业当前的数字化现状、需求和能力。“企业”指的是企业当前的资金财务状况、IT建设水平、数据资产和产品设计等现状;“客户”指的是企业在行业里所占的市场份额,销售、营销等方面现状;“竞争”指的是竞品情况、自身的市场竞争优势、外部市场环境等。

个推结合时尚服饰品牌案例进行了剖析。该服饰品牌客户多年来专注主营业务,面对外部市场的竞争压力,希望通过数字化建设来寻找新的增长点。客户希望通过对数据进行统一治理,利用大数据形成用户画像,将用户信息和商品信息关联起来进行分析,从而改进服饰设计提高销售额。

结合客户当前的数据孤岛、技术能力相对薄弱等现状,并对智慧营销、数据指导产品设计、物流数字化等意向数据应用进行利益和风险评估后,最终我们建议客户将智慧营销作为优先级最高的目标,以此来规划后续的数据治理路径。

Step2:进行数据规划

企业进行数据规划的前提是对自身数据现状和环境进行充分调研和梳理。我们建议从以下四点切入:1. 梳理自身业务系统。2. 对现有数据资产进行跨系统、跨业务的分类,比如电商行业可以将业务数据分为买方数据、卖方数据、购买行为数据三类。3. 对每一类数据资产的详情进行充分调研,包括数据量、关键字段、更新状况、饱和度、可信度、调用场景和频率等明细情况。4. 和当前业务方、数据运营人员充分沟通使用数据过程中存在的问题和难点。比如,电商业务中,可能存在订单数据更新不及时、不同地区的数据异构或者商品部分字段信息不全、非结构化数据多等问题。

对内部数据环境进行了充分调研后,企业就可以针对性地制定内部多源异构数据的治理方案。其中,很关键的一点是对数据资产进行整合,构建出符合业务逻辑的数据资产模型。比如,对电商数据进行数据治理,需要将不同体系的订单数据、用户数据、商品数据等进行打通,实现同一业务类别的数据都具有统一的字段,为后续进行准确的数据计算、构建业务算法模型创造基础和条件。

对于不同业务类别的数据,则要梳理出数据之间的联系,可通过数据ER关系图或者血缘图将数据资产之间的关系可视化,方便进行数据之间的关联分析。比如,订单数据涉及买方、卖方和商品数据,那就可以将订单数据和买家数据、卖家数据、商品数据进行对应关联,构建出完善的数据资产关系图谱。

数据规划的最后一个环节是数据分层,指的是按照数据治理的阶段及数据用途将数据进行清晰的归类分层,比如归类为ODS接入层、DW中间层、ADS应用层等。如此一来,数据运营人员就可以在业务方提出数据使用需求时,快速地对应到具体的数据层进行查数和提数,从而为数据应用提效。

Step3:数据治理组织建设

数据治理组织建设中,企业需要综合考量数据规模、数据治理难度、业务复杂性等因素,建设一个规模合适,同时能深刻理解业务需求的数据治理组织。

对于大多数初创企业来讲,至少要设置数据治理负责人、数据分析师、数据管家、系统管家这四个基本角色,以保证数据治理整个链路中的要求和目标能够得到落地实施。同时,这四个角色之间要分工明确,有成熟的协同机制,确保组织架构体系能够有效运转。

而对于大型企业而言,则要更多地关注数据和信息的体系化管理,注重激励制度的完善以及内部多个部门之间的高效安全协同。其中,问题上升通道和战略执行通道的畅通非常关键。问题上升通道,指的是要将业务部门在使用数据过程中遇到的数据问题及时反馈给数据管家和治理团队,以驱动数据治理方案不断迭代,使得数据质量不断提升;战略执行通道则是指企业要从业务全局和战略层面出发来推动数据质量问题的解决,减少跨部门、跨系统之间协作的阻力,从而使数据治理的过程更加高效。

Step4:数据治理方案设计

企业在设计数据治理方案时,要着重关注数据管理体系和数据价值体系这两个方面。

数据管理体系主要是为数据赋予业务含义,对数据资产质量进行科学衡量,并在保障数据安全的前提下,实现数据全生命周期的自动化管理,包括自动进行上线、ETL和下线等。在快时尚行业,服装款式更新迭代快,相应的,服装类商品数据的生命周期也就较短。这就需要快时尚企业对商品数据进行有效管理,及时进行商品数据的更新和再次治理。

数据价值体系则是从多维度量化企业的数据资产价值,为企业开展数据资产的运营和决策提供依据和支撑。数据价值体系包括数据流通、数据服务、数据洞察等三个模块,指的是能够把数据价值流转出去,敏捷响应业务的复杂性需求,为业务分析和洞察提供有效的参考。企业需要持续改进和迭代数据治理的流程,以构建数据资产价值创造闭环,真正盘活数据资产。

Step5:数据治理落地实施

最后一步,就是落地实施。企业根据数据治理方案,依次完成统筹规划、标准落地、数据注册、数据集成、数据勘探、监控评价等数据治理环节。需要强调的是,企业进行数据治理的过程非常复杂,仅靠人力是远远不够的,自动化的实施工具同样重要。

如何进行数据治理工具的选型呢?个推建议从以下三个方面来考量:1.技术功能,即产品功能要全面,能够满足实施过程中的全部需要。2.可复用性,指的是产品的功能要能够通用、复用到多种业务场景。3.售后完善,由于数据治理的复杂性,单纯的产品并不足以满足企业的需求,详细的使用培训以及专业的数据治理咨询服务同样重要。

这里要着重介绍下个推的数据中台产品——每日治数平台

每日治数平台沉淀了个推多年的数据治理经验,产品功能齐全,提供从数据接入层到数据应用层整个链路的数据治理服务。平台实现了数据治理全流程的可视化操作,业务人员也可以使用它便捷地开发和使用数据。每日治数平台已经服务于品牌营销、智慧交通、智慧城市等多个行业,能够满足不同企业开展数据治理的多样化、复杂性需求。同时个推还提供专业的数仓规划和数据建模服务,帮助企业构建数据资产中心,把数据对业务的切实价值真正挖掘出来。

总结

总的来说,数据治理是一项系统性、长期性的大工程。企业也需要在具体的数据治理实践中,密切关注业务发展和动向,及时迭代和优化数据治理策略,才能把数据治理好,将数据的价值释放出来。

后续,个推还将继续分享数据中台、数据治理、数据挖掘、算法建模等方面的干货内容,个推TechDay线上直播也将持续进行,请大家继续保持关注。

从顶层设计和组织建设分享万亿级数据治理经验相关推荐

  1. 第三章 中间件,3.1 万亿级数据洪峰下的分布式消息引擎(作者:冯嘉、誓嘉、尘央、牟羽)...

    3.1 万亿级数据洪峰下的分布式消息引擎 前言 通过简单回顾阿里中间件(Aliware)消息引擎的发展史,本文开篇于双11消息引擎面临的低延迟挑战,通过经典的应用场景阐述可能会面临的问题 - 响应慢, ...

  2. 【技术干货】40页PPT分享万亿级交易量下的支付平台设计

    本文主要是根据作者在2018QCon演讲内容整理而成: 苏宁金融交易量3年内从1000亿增长到万亿+,服务用户3亿+,服务场景从服务于苏宁易购内部生态,扩展到服务全渠道,全场景,多业态的线上线下智慧零 ...

  3. Apache Flink 在快手万亿级数据的应用实践总结

    作者:董亭亭 整理:蒋晓峰 作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人.目前负责 Flink 引擎在快手内的研发.应用以及周边子系统建设.2013 年毕业于大连理工大学,曾就职于奇虎 36 ...

  4. 【SDCC讲师专访】阿里巴巴冯嘉:RocketMQ开源二三事,侦破万亿级数据容量背后的架构实践...

    [编者按]每个人的成长曲线不同,有的人在研究生之时就已有相当知名的产品和框架,从而在接下来的工作中一路顺风顺水,有的人缺需要经历一个又一个的坑才能成长,不管是前者的聪明高效,还是后者的笨鸟先飞,他们都 ...

  5. 消息中间件学习总结(7)——RocketMQ之万亿级数据洪峰下的分布式消息引擎

    前言 通过简单回顾阿里中间件(Aliware)消息引擎的发展史,本文开篇于双11消息引擎面临的低延迟挑战,通过经典的应用场景阐述可能会面临的问题 - 响应慢,雪崩,用户体验差,继而交易下跌.为了应对这 ...

  6. 美团OCTO万亿级数据中心计算引擎技术解析

    美团自研的 OCTO 数据中心(简称 Watt)日均处理万亿级数据量,该系统具备较好的扩展能力及实时性,千台实例集群周运维成本低于10分钟. 本文将详细阐述 Watt 计算引擎的演进历程及架构设计,同 ...

  7. 【双11技术揭秘】万亿级数据洪峰下的分布式消息引擎

    点击打开链接 摘要: 作者:冯嘉.誓嘉.尘央.牟羽  前言 通过简单回顾阿里中间件(Aliware)消息引擎的发展史,本文开篇于双11消息引擎面临的低延迟挑战,通过经典的应用场景阐述可能会面临的问题 ...

  8. mysql最高qbs_MySQL如何实现万亿级数据存储?

    前言 业界对系统的高可用有着基本的要求,简单的说,这些要求可以总结为如下所示.系统架构中不存在单点问题. 可以最大限度的保障服务的可用性. 一般情况下系统的高可用可以用几个9来评估.所谓的几个9就是系 ...

  9. java数据库的量级_百度万亿量级数据库Tera架构应用、设计与实践全攻略

    信息技术发展突飞猛进,网络数据呈现爆炸之势,搜索引擎的实时性面临巨大挑战.百度搜索引擎每天处理着数万亿次的链接分析和数百亿次的互联网资源采集.作为百度搜索引擎的核心数据库Tera,是如何支撑万亿量级的 ...

最新文章

  1. Android 5.0学习之ListView升级版RecyclerView
  2. springcloud 文件服务器,SpringCloud传文件
  3. SELinux进阶篇 应用目标策略管理非限制进程和用户
  4. Java 三大特性之——继承
  5. 【Python CheckiO 题解】House Password
  6. Redis事务与MySQL事务的区别
  7. 两个大数之间的乘积计算,string1=123456789...76,string2=23456...8957,求模拟计算机计算这两个数字的乘积。(C++实现)
  8. 计算机图形驱动程序原理,如何安装计算机图形驱动程序?
  9. windows7下的docker的安装及使用(持续更新,未完待续,每天一点点)
  10. Flex builder3相关
  11. (翻译)折叠菜单(Accordion Menu)
  12. 公众号引流进阶教程(公众号对接电影,影视资源)
  13. 画费氏数列螺线的代码
  14. 2022年金三银四你应该去面试跳槽吗?
  15. WASCE (基于geronimo ) 配置
  16. python编写摇骰子游戏_python摇骰子猜大小的小游戏
  17. Python-数值类型
  18. lisp pl线线段数_编写lisp程序多条多段线连接成一条多段线
  19. Chango的数学Shader世界(十四)细线间断,发光闪烁,TAA削弱处理
  20. 《精要主义》读书笔记(一)

热门文章

  1. java.nio.charset.MalformedInputException: Input length = 1
  2. 高光谱成像技术在果蔬品质检测中的应用
  3. 编辑字体映射文件--完美解决CAD字体乱码现象
  4. ubuntu技能get:(持续补充)
  5. 基于PLC的升降横移立体停车库的设计,设计一个基于西门子S7-200 PLC控制核心的
  6. 性能测试之负载测试、压力测试、可靠性测试和容量测试的区别
  7. 数据库索引的原理到底是什么?-转
  8. 今天无意之间看到一个免费小说站群系统叫牛犇CMS,牛犇【ben】CMS
  9. Unable to rename ‘XXXXXXXXX.jar’ to xxxx
  10. python discuz验证码_python实现自动登录discuz论坛