【数据治理相关概念】(三)数据溯源综述
目录
1.1 概念和定义
1.2 数据溯源模型
1.3 几种主要的数据溯源模型
1.4 数据溯源方法
1.5 数据溯源的应用
1.1 概念和定义
数据溯源(data provenance)是一个新兴的研究领域,诞生于 20 世纪 90 年代。当初,某些文献将其称为数据志或数据档案,后来,大部分文献将其命名为数据起源,有追踪数据的起源和重现数据的历史状态之意。本文称其为数据溯源,从应用的角度出发,强调追踪的过程和方法。
目前,数据溯源还没有公认的定义,因应用领域不同而定义各异。我们参考一些学者给出的定义:
1、将数据溯源定义为从源数据到数据产品的衍生过程信息;
2、在数据库领域将其定义为“数据及其在数据库间运动的起源”;
3、数据溯源是对目标数据衍生前的原始数据以及演变过程的描述;
4、数据溯源是一种元数据,用来记录工作流演变过程、标注信息以及实验过程等信息。
在其它一些领域中还有其它一些叫法: 如数据族系( Data Lineage) 、数据系谱( Data Pedigree) 、数据来源( Data Origin) 、数据世系等。
数据溯源定义为记录原始数据在整个生命周期内( 从产生、传播到消亡)的演变信息和演变处理内容。我们认为,Data Provenance 应该翻译成“数据溯源”,强调的是一种溯本追源的技术,根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯。
1.2 数据溯源模型
建立一个数据模型是数据溯源的关键技术。根据模型可以初步确定数据溯源的大体步骤和基本思路。
从数据溯源信息管理的角度出发,提出异构数据的数据溯源概念。即采用横轴表示时间(t)、纵轴表示过程(p)、z轴表示数据的异构分布特性。将数据溯源信息保存到不同的数据库中,形成携带溯源信息的异构数据库。通过数据库接口以及数据转换工具汇聚成目标数据库。这个过程的逆过程所经历的路径能够实现数据溯源的各种操作,如:数据追踪、信息评估、过程重现等,从而完成数据溯源任务。
1.3 几种主要的数据溯源模型
目前,数据溯源模型主要有:流溯源信息模型、时间-值中心溯源模型、四维溯源模型、开放的数据溯源模型、Provenir数据溯源模型、数据溯源安全模型,PrInt 数据溯源模型等,这些模型都建立在不同领域、不同行业。
1、流溯源信息模型由 6 个相关实体构成,主要包括流实体(变化事件实体、元数据实体和查询输入实体) 和查询实体(变化事件实体、接收查询输入实体,包括元数据实体)。实体间关系密切,通过这种密切的关系可以根据数据的溯源时间来推断数据溯源。
2、Bow ers S 提出的
Time-Value Centric ( TVC ) 模型又称时间-值中心溯源模型,是一种简单有效的溯源模型。由于过去的溯源模型无论是基于标注的还是基于过程的溯源模型都用于面向交易的系统中,并不适合高容量特定需求以及连续的医疗流。于是,提出支持医疗领域数据源特点的 TVC 模型专门处理医疗事件流的溯源信息。根据数据中的时间戳和流 ID 号来推断医疗事件的序列和原始数据的痕迹。
3、四维溯源模型是由 Yogesh L.
Simmhan 等人提出。此模型将溯源看成一系列离散的活动集,这些活动发生在整个工作流生命周期中,并由四个维度(
时间、空间、层和数据流分布) 组成。四维溯源模型通过时间维区分标注链中处于不同活动层中的多个活动,进而通过追踪发生在不同工作流组件中的活动,捕获工作流溯源和支持工作流执行的数据溯源。
4、开放的数据溯源模型 OPM,在首届
International Provenance and Annotation Workshop( IPAW) 会议中,与会者对数据溯源的描述产生了一些共同的观念,并提出了一种原始的数据模型。后来,南安普顿大学等组织整理了会议的主要思想并发表了题为“The Open Provenance Model”文章,文中提及的模型基本形成业界信息交换标准,定义一些具体的格式和协议就能应用到实际当中。
5、Provenir数据溯源。模型2008年,在由Freire和Moreau组织的第二届
IPAW 会议中,Sahoo 等人提出了Provenir 数据溯源模型,该模型使用W3C 标准对模型加以逻辑描述,考虑了数据库和工作流两个领域的具体细节,从模型、存储到应用等方面形成了一个完整的体系,成为首个完整的数据溯源管理系统。用分类的方式阐明它们之间的相互关系.
该模型提供对数据产生历史的元数据、原数据、修改元数据等功能,并使用物化视图的方法有效解决了数据溯源的存储问题.
6、数据溯源安全模型。数据溯源技术能够溯本追源,通过其起源链的记录信息来实现追源的目的,但是记录信息本身也是数据。因此,同样存在安全隐患,为了防止有人恶意篡改数据溯源中起源链的相关信息,李秀美等 2010 年研究了数据溯源的安全模型,利用密钥树再生成的方法并引入时间戳参数,有效地防止某人恶意篡改溯源链中的溯源记录,对数据对象在生命周期内修改行为的记录按时间先后组成溯源链,用文档来记载数据的修改行为,当进行各种操作时,文档随着数据的演变而更新其内容,通过对文档添加一些无法修改的参数比如: 时间戳、加密密钥、校验和等来限制操作权限,保护溯源链的安全。
7、PrInt数据溯源模型。PrInt是一种支持实例级数据一体化进程的数据溯源模型。该模型主要集中解决一体化进程系统中不允许用户直接更新异构数据源而导致数据不一致的问题。由 PrInt提供的再现性是基于日志记录的,并将数据溯源纳入一体化进程。
以上七种模型是比较经典的模型,其中,对于前三种模型而言,流模型和时间-值模型没有明确指出对 W7 模式的支持,只有四维模型支持动态构建数据溯源图,能根据一系列溯源事件以及数据结点和服务结点所构成的数据流边来构建。存在的不足之处在于形成过程不直接,难于理解。后面几种模型是从不同的角度,不同层次,针对数据溯源的某种特性而建立起来的模型。随着时间的推移,数据溯源模型会越来越多。
1.4 数据溯源方法
目前,数据溯源追踪的主要方法有标注法和反向查询法。除此之外,还有通 用的数据追踪方法,双向指针追踪法,利用图论思想和专用查询语言追踪法,以及文献提出以位向量存储定位等方法。
标注法是一种简单且有效的数据溯源方法,使用非常广泛。通过记录处理相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,如背景、作者、时间、出处等,并让标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。Sudha等人提出的7W模型,就是采用标注法,事先标记并携带溯源信息完成数据溯源的模型,被称为eager方法。采用标注法来进行数据溯源虽然简单,但存储标注信息需要额外的存储空间。反向查询法,有的文献也称逆置函数法。由于标注法并不适合细粒度数据,特别是大数据集中的数据溯源,于是,提出了逆置函数反向查询法,此方法是通过逆向查询或构造逆向函数对查询求逆,或者说根据转换过程反向推导,由结果追溯到原数据的过程。这种方法是在需要时才计算所以又叫lazzy方法。反向查询法关键是要构造出逆向函数,逆向函数构造的好与坏直接影响查询的效果以及算法的性能,与标注法相比,它比较复杂,但需要的存储空间比标注法要小。
1.5 数据溯源的应用
数据溯源最早仅用于数据库、数据仓库系统中,后来发展到对数据真实性要求比较高的各个领域: 如生物、历史、考古、天文、医学等。随着互联网的迅猛发展以及网络欺骗行为的频繁发生,人们越来越怀疑数据的真伪,对数据的真实性要求越来越高。数据溯源成为考究数据真假的有效途径,掀起了一波数据溯源研究的热潮,因此,数据溯源追踪逐渐扩展到计算机各行各业。目前,研究领域已经覆盖到地理信息系统( GIS) 、云计算、网格计算、普适计算、无线传感器网络和语义网络等。其中,数据溯源在数据库和工作流领域的研究最为流行。
【数据治理相关概念】(三)数据溯源综述相关推荐
- 数据治理相关概念汇总
引言:股份制改革对我国银行业来说只是一个开始,企业在风险管理.创造价值等方面还有很长的路要走.风险管理要求提供精准的数据模型.创造价值要求充分银行数据资产,这是数据治理的外部推动因素.此外,随着第三次 ...
- 数据治理:认识数据治理
参考<一本书讲透数据治理>.<数据治理>等 数据治理是什么 笔者自我理解就是:对数据进行任何规整处理,包括从数据从业务系统接入到最后被业务系统查询应用的这其中整个过程,都是数据 ...
- 数据治理:数据治理之道-数据文化-数据思维融入企业文化
参考<一本书讲透数据治理>.<数据治理>等 大数据的根本价值在于从数据的不确定性中发现规律,获得确定性.想要在繁杂的大数据中快速找到价值数据,并依靠数据发现.分析.解决.跟踪问 ...
- dgi数据治理_银行数据治理方法浅析
数据是银行最核心的资产,数据治理能成就银行的未来.数据治理是一个新兴的并且不断演进的概念,涉及数据质量.数据管理.数据政策.商业过程管理.风险管理等多个领域,同时也受技术革新等因素的影响.在数据治理体 ...
- 数据治理服务及数据治理应用解决方案
本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 一.数据治理概述 (一) 数据治理概念 数据治理是指将数据作为组织资产围绕数据全生命周期而展开的相关管控活动.绩效和风险管理工作的集合 ...
- 如何理解元数据、数据元、元模型、数据字典、数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢?
如何理解元数据.数据元.元模型.数据字典.数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢? 导读 一.数据元 二.元数据 三.数据模型 四.数据字典 五.元模型 导读 请问元数据. ...
- 谈谈数字化转型中数据治理框架及数据战略规划的关键要素
当前,数据作为新的生产要素提到了关键位置,众多组织认为数据是重要的战略资产.可是,如何发挥数据要素的生产力,数据资产又如何为企业创造价值,确有些无从下手.那么,这就是数据战略要解决的问题.企业怎么看待 ...
- 【数据治理】数据安全-数据脱敏方案
背景 隐私保护,保障合法权益,2021年9月1日起施行的数据安全法: 防止数据滥用 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产.名誉 ...
- 数据治理:企业数据治理蓝图
参考<一本书讲透数据治理>.<数据治理>等 文章目录 企业数据治理体系 企业数据治理9个要素 企业数据治理4个层面 企业数据治理之道 企业数据治理之法 企业数据治理之术 企业数 ...
- DAMA数据治理学习笔记-数据治理
数据治理 定义 对数据资产管理行使权力.控制和共享决策(规划.监测和执行)的系列活动. 目标 提升企业数据资产管理能力 定义.规划.批准.执行数据管理的原则.政策.程序.指标.工具.责任. 监控和指导 ...
最新文章
- LeetCode实战:最大子序和
- Nginx-场景实践篇
- CLR Via CSharp读书笔记(26) - 计算限制的异步操作
- python 内置函数 sum()函数 求和函数
- Android Studio模拟器的root权限
- ZOJ - 4122 Triangle City(最短路+欧拉通路+思维)
- Python之IO模式 阻塞式io 非阻塞io 多路复用io 异步io 信号驱动io
- 使用SparkJava和Graal的本机微服务
- netstat(win)
- 绿色iPhone 13和紫色iPad Air将在明天发布?网友:苹果又寻思在配色上“整活儿”...
- 植物病理学分类的高效网络体系结构的半监督噪声学生预训练
- Android Studio实现功能丰富的仓库管理系统
- eclipse没有server选项怎么解决
- 编写c语言程序解一元一次方程,一元方程计算器1.0的代码(C语言实现)
- 网页版进销存2.0-部署手册(windows版)
- c语言函数的省略号,c++中的省略号
- 可以弹奏的钢琴页面(HTML实现)
- 三款截图软件:Snipaste+FastStone-Capture+FireShot
- python:TypeError:takes at least 8 arguments (9 given)
- 使用 IDEA 翻译插件
热门文章
- 企业备份方案设计干货参考:典型场景、典型问题及案例
- 开启工业新时代,OFweek 2019智能制造大会暨展览会圆满落幕!
- 1.1python初入网络爬虫-网络连接和BeautifulSoup库的使用
- 安全 创新 实践|海泰方圆受邀参加“数字时代的网信创新与价值共创”技术交流研讨会
- 新来的妹子把几百万数据放入了内存,系统立马爆了
- 2022最新任务悬赏抢单系统源码/UI非常新颖
- titanic生存率数据分析
- 频域自适应 matlab,频域自适应滤波算法及应用.doc
- 计算机网络:计算机网络在信息时代的作用、因特网概述
- 智能车竞赛技术报告 | 节能信标组 - 安徽工业大学 - 摸鱼大队