数据治理的重要性在当今数字化时代日益凸显……

数据治理是企业数字化转型的重要组成部分……

数据治理是对数据的收集、存储、处理、共享和利用进行规划、控制和管理的过程,旨在确保数据的安全性、完整性、一致性和可用性,促进数据的有效利用……

一、为什么要数据治理

数据已经成为企业、组织和政府的重要资产。伴随着企业的发展,数据呈爆发式增长。数据的高效采集、存储、应用,已成为数据价值发挥的重要过程。但长期的数据发展过程,也会给系统带来各种各样的数据问题。

  • 集群资源缺乏;

  • 算力资源不够,数据查询效率慢;

  • 数据繁多,数据的精准利用效率低下;

  • 小文件增长过快,元数据信息暴增,集群NameNode内存不够;

  • 数据存储占用资源太多;

  • 数据有效利用率不足;

  • 数据质量缺乏……

    在苏宁易购的发展过程中,用户、商品、订单、交易、支付、物流、评论、图片、视频等等,各种业务、业态数据暴增,数据的安全、有效利用率、数据查询效率等方面,都会遇到一些挑战,这也是为什么我们要对数据进行治理的原因。

二、数据治理方案制定

1. 治理方案

苏宁的数据治理方案,是由专门的数据生产、数据管理、数据应用部门协同完成,进行大数据服务器资源的共同治理。

在治理内容上,主要有3个方面,分别是:数据应用治理、数据架构治理、基础平台处理。

在治理流程上,制定的治理流程为:发现问题--优化治理--效果评估--监督考核。

在组织管理上,对每个流程环节安排专门的责任部门,每天跟进治理情况,并输出治理报告,数据治理监督部门全程监督,通过治理结果公布的方式,推送数据治理进程。

2. 数据治理流程

3. 治理推进策略

明确治理原则:需要有明确的治理价值、有明确的治理规则、有明确的治理方案或流程。

治理方式:通过治理委员会的监督引导,实现线下治理、线上治理齐头并进,通过高、中、低优先级,结合产品能力,推动自动化、半自动化治理,完善治理平台功能。

4. 数据治理模型

苏宁的数据治理,主要分三个层面。

在平台层,我们治理的对象为:HDFS存储、小文件、计算引擎资源、离线队列、基础组件服务、平台账号。

在计算层,我们治理的对象为:复存复算、孤岛任务、离线失败任务、暴力扫描、表存储压缩、生命周期。

在应用层,我们治理的对象为:模型、指标、报表价值。

三、数据治理方向

1. 数据应用治理

在数据应用层,例如报表、标签应用、任务应用等方面,存量数据应用存在较多的无法描述业务价值、访问少的情况,新上线的数据应用价值评估缺乏量化标准和事后审计手段,数据应用缺少下线标准和流程。

基于大数据治理方案、治理流程,制定相应的计划。

通过价值导向,反向推动研发侧对于数据成本、价值的审计审核,从而最终实现数据应用的变更、下线,节省服务资源。

2. 计算存储治理

因缺少公共模型建设,数据开发人员不够重视数据架构设计,导致存在大量任务直接使用DWD(明细)数据进行加工处理,造成严重的不必要的资源消耗。

通过治理,推进公共的DWS(汇总)建设和使用, 降低使用方的数据计算资源成本。通过治理节省的资源,提供给各治理方归属组织优先使用。

3. 平台治理

大数据离线计算集群,经历业务申请扩容。相比较过去x月对比,大数据平台资源利用呈下降趋势的时间点由8:40提前至7:00,夜间cpu利用率由94%下降至77%。

平台上的各业务队列,多数队列存在分配的资源过剩、峰值时间持续过短的情况,资源利用时间不合理。

通过数据治理,将当前凌晨(2点~8点)资源利用率,由77%提升至90%。

全天资源利用率,由39%提升至45%。

四、基于数据规范的数据治理过程

1. 数据规范

在苏宁的数据发展过程中,为了规范数据的采集、存储、开发、应用过程,也建立了一系列的数据标准和规范。

  • 《苏宁数据治理管理规范》

  • 《苏宁数据生命周期管理规范》

  • 《苏宁控股集团HIVE表管理规范》

  • 《苏宁元数据描述规范》

  • 《苏宁数据质量管理规范》

  • 《苏宁数据质量考核评价方案》

  • ……

2. 基于数据规范的大数据治理框架

3. 基于标准和规范的企业级数据资产

4. 数据标准治理

在我们的数据资产中,有多种异构数据,在统一处理、字段融合、数据合并、整合应用过程中,必然会通过一些技术手段实现数据的灵活应用,但这就会造成数据的整合标准问题,严重的就会造成数据应用事故。

我们通过数据标准的治理,推动数据的标准、统一,实现数据的过程一致化。

5. 数据计算治理

在数据计算中,重复的计算治理、重复的任务治理、削峰平谷治理,是较为常见的治理方式,我们通过系统化的治理,架构的升级优化,实现资源的优化配置,提升数据使用效率,节约资源。

6. 数据存储治理

在数据存储过程中,有些数据生命周期较长,但数据利用率低,数据更新率低,数据关联较少,这些都是我们数据治理的对象,我们通过数据压缩、删除、归档的方式进行处理。

7. 数据性能和稳定性治理

数据稳定性是企业发展的关键所在。我们通过对HDFS小文件、数据倾斜问题,通过技术手段,进行重点治理,逐步解决数据存储问题,在计算资源方面达到优化的目的。

五、问题挑战与应对措施

以上是我们针对苏宁易购的业务,简单阐述数据治理的相关应用。

如有相关疑问、意见、异议,欢迎留言讨论。

数据治理在苏宁易购的应用相关推荐

  1. 京东商城百万数据抓取--苏宁易购,淘宝网,京东商城,百万级价格数据海量抓取

    按照惯例先上成果: 过了分割线就是代码 ps:2020.5.14更新了代码:京东商城每周都会更改规则咱们也不能落后 # -*- coding: utf-8 -*- import requests im ...

  2. 止血、回血 苏宁易购正在复苏路上

    扛住二三季度的至暗时刻,苏宁易购正在稳住其基本盘面. 在10月29日苏宁易购披露的2021年前三季度业绩报告中,公司前三季度营收达到1155.74亿元.虽然财务数据上公司仍处于"三十年发展历 ...

  3. 苏宁易购推员工持股计划,意味新一轮高速发展到来

    5月14日,苏宁易购正式公布了第三期员工持股计划草案,本期计划总金额不超过5亿元,参加员工持股计划的员工总人数不超过1600人,受让股票的价格为6.84元/股,为董事会决议公告日前1个交易日股票交易均 ...

  4. 苏宁易购明确2022年目标:加快修复经营,实现全年盈利

    4月29日,苏宁易购发布2021年年度报告及2022年一季报.报告显示,在江苏省.南京市政府以及产业投资人的支持下,苏宁易购积极推进降本.提效.增收工作,从去年四季度开始,公司经营状况发生积极改善,恢 ...

  5. 苏宁易购正在快速回归稳健发展轨道

    10月29日晚,苏宁易购发布2021年前三季度业绩报告.报告显示,苏宁易购前三季度多项核心经营指标呈现向好趋势,生产经营和业务发展正在有序恢复. 一.苏宁易购的艰难时刻 2021年的苏宁易购不容易. ...

  6. 苏宁易购升级服务战略:为用户提供家庭场景解决方案

    4月29日,苏宁易购发布2021年年度报告及2022年一季报.报告显示,在江苏省.南京市政府以及产业投资人的支持下,苏宁易购积极推进降本.提效.增收工作,从去年四季度开始,公司经营状况发生积极改善,恢 ...

  7. 分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储...

    http://blog.51cto.com/xpleaf/2093952 1 概述 在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HB ...

  8. 苏宁易购唱共享之歌,共享干衣、共享数据、共享快递盒为哪般?

    众所周知,共享经济正在慢慢地渗入我们的生活.它与传统的"所有权"经济概念不同,是以共享"所有权"为目标,讲究的是"不求所有,但求所用".由于 ...

  9. python爬虫苏宁易购店铺商品数据爬取

    苏宁易购店铺商品数据爬取 #!coding=utf-8 ##苏宁易购店铺商品数据爬取 import requests import re import math import random impor ...

最新文章

  1. 服务器文件后缀都加了re,已解决: Re: 修改了备份服务器客户端的别名之后所有的备份都出错了 - Dell Community...
  2. Rust语言——无虚拟机、无垃圾收集器、无运行时、无空指针/野指针/内存越界/缓冲区溢出/段错误、无数据竞争...
  3. tomcat 配置方法
  4. 安装mlxtend_python机器学习包mlxtend的安装和配置详解
  5. Java——String类的方法
  6. SQL Server-流程控制 6,WaitFor 语句
  7. qtablewidget设置html,Qt 设置QTableWidget,QListWidget,QTreeWidget鼠标右键
  8. python操作mysql(一)MySQLdb模块安装和数据库基本操作
  9. 杭电多校HDU 6601 Keen On Everything But Triangle(主席树)题解
  10. js中立即执行函数会预编译吗_浅析Vue的生命周期以及JS异步
  11. 2019互联网月饼哪家强?阿里走情怀;百度最土豪;浪潮最高冷;抖音最创意 .........
  12. 苹果id被禁用_【苹果ios游戏推荐】模拟人生免费版
  13. java的六大框架_常用的java开发框架介绍 (初学者必备的六大框架)
  14. 服务器之IP地址与域名之间的绑定
  15. c/c++ 输入两个日期,计算日期相差多少天
  16. 大一第一学期总结:既然选择了远方,便只顾风雨兼程
  17. Vue中watch、computed、updated三者的区别以及使用方法
  18. 颜宁发微博“求救” 要投拆造谣公众号
  19. 推迟上市的网易云,逃不开在线音乐市场的“白刃战”
  20. 国际巨星Ricky Martin抒情MTV

热门文章

  1. ubuntu 16.04 安装SGE(Sun Grid Engine)
  2. 【RuoYi-Vue-Plus】学习笔记 46 - Redisson(十二)布隆过滤器 BloomFilter 简单分析
  3. (一)智能家居的介绍与发展前景
  4. 阿里云Sophix 3.0版本热更新快速入门
  5. 华师计算机设计大赛,2017年广东大学生计算机设计大赛决赛选手手册-华南师范大学.PDF...
  6. 本周回顾:Windows 11 iOS 互连、Edge、微软财报、Windows 10 22H2、新游戏合作协议、New Bing 等
  7. Android视频通话(即时通讯)推荐—语音视频
  8. 部署前端项目的几种方案并探讨优缺点
  9. python开发框架——Django基础知识(九)
  10. 一念天堂一念地狱——Impossible Finance 闪电贷攻击事件跟踪