转载/大鱼的数据人生

有好友负责企业数据治理的工作,最近制定了一部企业内的数据开放管理办法,初稿出来后,就发给各个部门征求意见了,然后各种意见纷至沓来,令他惊讶的是,大家似乎对数据开放这个概念的理解并不一致,比如:

A部门建议:“公司内部的数据流通不能叫数据开放,应该叫数据共享!”
B部门建议:“系统间的数据流动需要在数据开放管理办法考虑!”
C部门建议:“报表的开放需要在数据开放管理办法中予以考虑!”
D部门建议:”部门内的数据流动需要在数据开放管理办法中予以考虑!“

数据开放这个概念看着简单,但每个部门每个人似乎都会受到自身背景的影响而对这个概念产生不同的理解,比如搞安全的很容易把数据开放与数据共享、数据交换等概念混为一谈,认为这些都是需要在办法中考虑的。

那么,数据开放和数据共享有没有区别?部门内的数据流动是否属于数据开放的范畴?报表算不算数据开放的形式?

今天就来聊一聊。

在《数据资产管理实践白皮书(5.0版)》中,我找到了以下的关于数据开放、数据共享及数据交易概念的诠释:

数据共享是指打通组织各部门间的数据壁垒,建立统一的数据共享机制,加速数据资源在组织内部流动。

数据开放是指向社会公众提供易于获取和理解的数据,对于政府而言,数据开放主要是指公共数据资源开放,对于企业而言,数据开放主要是指披露企业运行情况、推动政企数据融合等。

数据交易是指交易双方通过合同约定,在安全合规的前提下,开展以数据或其衍生形态为主要标的的交易行为。

数据共享、数据开放、数据交易的区别在于交换数据的属性与数据交换的主体范围。对于具备公共属性的数据,在组织体系内部流通属于数据共享,如政府机构之间的数据交换,在组织体系外部流通属于数据开放,如公共数据向社会公众开放。对于具有私有(商品)属性的数据,在组织内部流通属于企业数据共享,如企业部门间数据交换,在组织外部流通属于数据交易。

在《数据治理-工业企业数字化转型之道》中,也有类似的解释:

数据共享主要指的是面向企业内部的数据流动,其中由数据应用单位提出企业内部跨组织跨部门的数据获取需求,由对应数据供给单位进行授权并由信息部门向该数据应用部门开放数据访问权限。

而数据开放则指企业向政府部门、外部企业、组织和个人等外部用户提供数据的行为。

可以看到,数据开放似乎变成了政府公共数据对外开放的专有名词,但站在企业的角度看自己内部,如果这个企业拥有一个统一的企业数据管理组织,即数据供给组织,它已经归集了企业所有的数据并且有管理权,那么就存在一个向各部门开放数据的问题,这理所当然也是数据开放的范畴。

很多企业还没有企业级的数据管理组织,数据开放的主体并不存在,无所谓数据开放,因此把各个部门间网状的数据流动叫作数据共享。

但如果像华为一样,企业已经建立了数据责任人制度,明确了企业数据责任人和领域责任人,这个时候企业数据责任人也需要履行跟政府类似的职能,比如制定数据开放管理办法,用以规范向各部门开放数据的行为,将以前无序、低效的数据流动(比如数据共享)转变成有序、高效的数据开放,只有这样才能充分释放出数据要素的价值。

那么,报表下载这种算不算数据开放呢?我们可以先看看业界对数据开放的定义:

世界银行:
开放数据是指“能被任何人出于任何目的不受限制地进行自由利用、再利用和分发,并最大程度保持其原始出处和开放性的数据”。

G8《开放数据宪章》:
开放数据是指“具备必要的技术和法律特性,从而能被任何人、在任何时间和地点进行自由利用、再利用和分发的电子数据”。

浙江省政府:
公共数据开放是指“公共管理和服务机构面向社会提供具备原始性、可机器读取、可供社会化利用的数据集的公共服务”。

上海市政府:
公共数据开放是指“公共管理和服务机构在公共数据范围内,面向社会提供具备原始性、可机器读取、可供社会化再利用的数据集的公共服务”。

从这些定义了会发现几个关键词即“原始数据”、“可机器读取”、“可供社会化利用”,为什么要强调这些特征呢?

数据开放的目的是让别人也能有效利用数据产生价值,但不同层面的数据可供再利用的潜力是不一样的。就拿政府的信息公开来讲,你说这些公开的信息有没有价值,当然有,但这些“信息”往往经过了分析、加工和解读,被赋予了特定意义,其再被利用的价值已经很低了,举个例子:

气象局告诉你“今天会下雨”,这是一个信息,但你很难利用这个信息再进行二次创造,但如果气象局把得出“今天会下雨”这个结论依赖的原始数据和预测算法也告诉你,比如温度,湿度等等,那么你就可以利用这些原始数据用于更多的用途,比如预测灾难。可以说,数据是信息的底层,数据比信息具有更大的再利用空间和挖掘潜力。

但如果气象局只是把温度,湿度等原始数据通过文档或网页文本的形式提供出来,由于这些文本数据无法被机器直接读取,或者需要通过人工或NLP等方法处理后才能使用,这样成本就太高了,这种数据开放的价值就大打折扣了。

因此,在各国的数据开放实践中,开放数据通常呈现为以电子化、结构化、可机读格式开放的数据集。数据集是指由数据组成的集合,通常以表格形式出现,每一列代表一个特定变量,每一行则代表一个样本单位。

报表虽然也是一种数据流通的方式,但一般不把报表看做数据开放,一方面是因为大多报表数据是面向特定业务高度加工过后的信息,另一方面是报表往往无法被机器直接读取,需要一定的转化处理,很多企业动辄说我有10000张报表,1000个指标,你看我数据的利用很好吧,但数量多并不意味着质量,也许生成10000张报表的基础只是50张原始表而已,大家都在自己画的圈里面内卷。

同样的,数据可视化、数据服务、数据产品一般也不属于数据开放的范畴,因为用户无法有效获得可视化、数据服务、数据产品背后的原始数据集,也无法对这些数据进行再次利用。

很多企业部门间数据开放,数据提供部门由于各种利益的考虑,往往只愿意提供汇总数据,不愿意提供原始数据,而且要求数据需求部门说明业务用途,这种数据开放的价值其实不大,因为只能定向解决一个特定的业务问题,跟数据开放的目标相去甚远,企业所以要建立统一的数据管理组织,就是要规范这种问题,数据共享讲得是解决具体问题,数据开放追求的则是价值创造。

当前主流的数据开放形式有两种,一种是数据集合,另一种就是API。

数据开放是跨组织数据消费的基础,明确数据开放的定义和范围,形成大家对数据开放的共识,是推动数据开放能力提升的前提,希望对你有所启示。

浅谈数据开放、数据共享和数据交换相关推荐

  1. python读取图像数据流_浅谈TensorFlow中读取图像数据的三种方式

    本文面对三种常常遇到的情况,总结三种读取数据的方式,分别用于处理单张图片.大量图片,和TFRecorder读取方式.并且还补充了功能相近的tf函数. 1.处理单张图片 我们训练完模型之后,常常要用图片 ...

  2. 嵌入式AI —— 6. 为糖葫芦加糖,浅谈深度学习中的数据增广

    没有读过本系列前几期文章的朋友,需要先回顾下已发表的文章: 开篇大吉 集成AI模块到系统中 模型的部署 CMSIS-NN介绍 从穿糖葫芦到织深度神经网络 又和大家见面了,上次本程序猿介绍了CMSIS- ...

  3. oracle全表扫过程讲解,CSS_浅谈存取Oracle当中扫描数据的方法,1) 全表扫描(Full Table Scans, FTS) - phpStudy...

    浅谈存取Oracle当中扫描数据的方法 1) 全表扫描(Full Table Scans, FTS) 为实现全表扫描,Oracle读取表中所有的行,并检查每一行是否满足语句的WHERE限制条件一个多块 ...

  4. [转] 浅谈脱壳中的附加数据问题(overlay)

    浅谈脱壳中的附加数据问题(overlay) Author:Lenus From: www.popbase.net E-mail:Lenus_M@163.com -------------------- ...

  5. 浅谈脱壳中的附加数据问题(overlay)

    浅谈脱壳中的附加数据问题(overlay) Author:Lenus From: www.popbase.net E-mail:Lenus_M@163.com -------------------- ...

  6. 浅谈yolov4中的一部分数据增强

    浅谈yolov4中的数据增强 前言 数据增强 数据增强步骤 1.对图片进行水平翻转 2.对图片进行缩放 3.对图片HSV色域变换 4. Mosaic数据增强 5. 总代码 前言 在接下来的几天,我将解 ...

  7. 浅谈一个新人的大数据之路

    CCCCCold丶大数据之禅 第一章,大数据之路浅谈 数仓&数据集市&数据湖 数据模型 模型ETL频率: 模型存储技术: 模型数据分层: 模型架构分层: 模型主题域: 模型创建类型: ...

  8. 浅谈“政务互联网+”“政务大数据”

    作为在"电子政务"行业持续工作了已16个年头的"老挨踢"人,计划把"政务互联网+"&"政务大数据"作为2017年 ...

  9. 浅谈数据仓库建设中的数据建模方法

    http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/ 所谓水无定势,兵无常法.不同的行业,有不同行 ...

  10. 数据建模_浅谈数据仓库建设中的数据建模方法

    所谓水无定势,兵无常法.不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的.目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数 ...

最新文章

  1. 快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
  2. 送你9个常用的人脸数据库(附链接、报告)
  3. JavaWeb 基于Session的用户登陆注销实现
  4. 操作系统:UNIX、Linux、IOS、Android之间的渊源
  5. React开发(275):dva debugger对应的值
  6. java == 如何避免空指针异常
  7. 迅雷计算机管理员删除文件,Win10安装迅雷精简版,管理员已阻止你运行此应用...
  8. 松下plc编程软件_松下PLC编程软件Control FPWIN Pro7.3.2.0
  9. 从图形和算法层面来看LIO-SAM残差问题
  10. Location定位程序驱动合集
  11. 2020年技术领导者需要关注的5个关键领域
  12. WinCE驱动开发问题精华集锦 [转]
  13. logstash之grok正则表达式语法
  14. 国产化云平台如何实现多云管控,黄河云来“打样儿”
  15. 搜狗SEO工具批量查询搜狗收录页面
  16. dsd 转 pcm 使用arm VFP 实现
  17. 深探 while 与 do while(你弄懂了么)
  18. vs2017 配置IIS Express 失败,初始化 applicationhost.config文件失败找不到IIS Express,cocos2dx网页游戏网站形式打开错误
  19. 大学生如何白嫖并使用腾讯云mysql云数据库
  20. 【查验身份证】Python

热门文章

  1. 下一代数据库发展的趋势
  2. C++ | Qt 实现自定义QListWidgetItem效果
  3. Android Studio初学者实例:仿拼多多砍价页面
  4. 人机交互-任务3:命令语言交互界面的设计
  5. uniapp 安卓多个音频_Win10发布新版,可从PC直接访问安卓手机APP,你会重启升级吗?...
  6. C#中string用法
  7. 两个python文件怎么联系在一起_一个连接两个文件的python脚本
  8. call() apply()方法
  9. 【Java笔记】集合(Collection接口)的使用
  10. python制作鬼畜_用Python分析本山大叔鬼畜视频为啥这么火