第三章 描述性元数据

1、都柏林核心元数据元素集

(1)都柏林核心元数据元素集从最底层常见的共同特征开始构建元数据集,包括15个核心元素集:

创建都柏林核心元数据集的初衷是描述互联网资源,但得益于采用了最底层常见的共同特征,因此常用来描述实体资源。

(2)描述性记录

一条元数据记录了一个资源,描述性元数据记录可以用于多种目的,但是最重要的用途之一是“资源发掘”。资源发掘工具是一种帮助用户发现资源的技术,例如,网络搜索引擎、图书馆卡片式目录资源发掘可以实现的原因在于元数据记录中的元素-值配对,每个元素-值配对就是所谓的接入点,利用发掘工具从这个入口可以去发掘可用于记录描述的资源。为了让都柏林核心元数据元素成为最底层常见的共同特征,它必须可以用来描述一切事物,不仅所有的元素都是可以重复的,而且任何不相关的元素都可以排除在记录之外。

(3)都柏林核心修饰词

都柏林核心元数据元素集旨在成为最底层常见的共同特征的元数据元素集,但最底层常见共同特征的问题在于有时层级过低,某些用例可能需要超过15种元素,为此,人们通过三种方式扩展了都柏林核心元数据集。

  1. 建立术语集:由现有的15种核心元素增加了由40个术语组成的集合。例如已修改(modified)、部分为(haspart)、部分于(ispartof)等。
  2. 运用修饰词:修饰词特定于个体的单独元素可更加精准的解读或细化元素的含义。例如:

实际上,所有的这些修饰词都以都柏林核心元数据术语的形式存在,即“已创建created”、“已修改modified”和“有效valid”。这些对日期元素的具体细化用处很大,在建立元素集后发明的第一批修饰词就包括了这些术语,后来则被纳入术语集中。术语集一直在不断演化中,这种演化之所以能得以延续,是因为所有术语、元素和修饰词的构建都必须基于都柏林抽象模型,抽象模型是主谓宾陈述的数据模型,具体说明了这些主语、谓语和宾语背后的概念以及如何将这些元素结合成模型图表,这种逻辑模型基于“资源描述框架RDF”。

3、借助编码体系来澄清对某一元素值的解读。

(4)网页中的元数据

最为常见的在线对象非网页莫属,网页主要以文本编写而成,往往嵌有图片、视频和其他媒体,并且为了在浏览器中显示而采用html编码的文档。网络中的文档与其他事物一样,其本身会包括元数据,或者关于某份网络文档的元数据也可以存在其他地方。在html中,<meta>是<head>元素的子元素,换句话说,<meta>元素包含在网页的页头部分中。页头部分含有关于网页的多种元数据,包含文档的标题、样式等,<meta>元素还包含<head>其他子元素没有确切说明的网页元数据,换句话说,<meta>是一组杂项的集合。任何模式的元素以及编码体系的值都可以嵌入到html文档中,例如:

但正是由于可以为单独的网页创造唯一的名称和内容元素值,html很容易被滥用,例如关键词堆砌(在一个网页的元数据标签中运用许多毫不相干的术语,从而使得某一搜索引擎尽可能多的搜索到该网页),随着关键词愈演愈烈,谷歌等大多数搜索引擎在2005年直接忽略网页中的元数据标签。

(5)都柏林核心元数据集的意义

描述性元数据对于网络搜索工具的成功来说至关重要,而全文检索的改进、谷歌等工具通过发展可以利用文字甚至网络结构和网络的其他特性,可见元数据并未取得成功。但随着人们越来越深刻认识到元数据对于大规模协同性信息资源管理项目的成功来说至关重要,美国数字公共图书馆、欧洲数字图书馆和多媒体数据库等项目都在开发自己的元数据模式,这些模式都以都柏林核心元数据集和术语集为基础。

第四章 管理性元数据

如果元数据是关于资源的陈述,那么理所当然要提出的问题就是谁在做出陈述。元数据记录的功能之一就是作为一个对象的代理,为了让代理发挥作用,一般来说元数据记录要比原始对象更为简洁。元数据作为资源代理最为简单、明显的用途之一就是在资源发掘中发挥替代物作用。描述性元数据只提供关于资源特点或属性的描述性信息,描述性元数据记录的主要用途就是资源发掘。管理性元数据是提供关于某一资源全生命周期的信息,也就是在管理资源时需要用到的信息。

1、技术性元数据

例如大部分数码相机采用的元数据模式是Exif(可交换图像文件格式),一条Exif记录包括数量相当多的元素和值,这些值可以分为三种类型:(1)由制造商设置并且在设备使用寿命中始终保持一致的值,如制造商与型号(2)可由用户配置的值,如x轴分辨率和曝光(3)不同照片之间会发生变化的值,如时间、日期、方向等。

所有数码文件的技术性元数据往往在文件创建和修改的时候自动生成,它会记录关于资源特点的信息,这与描述性元数据之间存在很大的重叠,但技术性元数据所记录的资源特点是不需要人为判断即可识别的数据,正式为此我们才能用软件来自动搜集技术性元数据。

2、结构性元数据

数码摄像是最常见的结构性元数据应用场景之一,MPEG-21是ISO颁布的标准,定义了一种开放式框架,基于这种框架可构建应用程序来提供并显示多媒体文件,MPEG-21标准的核心在于数字项,一种结构性数字对象,可包括视频、图像、音轨和其他资源,还有描述这些资源之间的关系。DIDL(数字项声明语言)描述了用于表达数字项的术语与概念集合,在这些术语中,“容器”可容纳多个子实体,包括一个描述符、多个项目以及其他容器。项目指可通过多媒体播放器应用程序向用户显示的数字项,单个项目可包含多个子项、描述符以及条件;描述符指关于某一容器或项目的描述性元数据;条件定义了多媒体播放器在显示某一文件前必须进行的测试。DIDL还可以包括许多其他元素,全部元素共同决定多媒体对象的内容以及如何在一系列软件和权限环境中显示。

结构性元数据记录了关于某一资源如何组织的信息,MPEG-21记录提供关于多媒体文件的类似信息,即以什么样的顺序播放数字项,哪些音轨必须与哪些视频项共同播放等。

3、溯源元数据

(1)根据W3C数据溯源孵化组的定义,资源溯源指“用于描述涉及创建与交付或以其他方式影响某一资源的实体与流程的记录”,溯源不仅仅是包括某个资源的历史,还包括该资源与其他影响其历史的实体之间所具有的关系。

(2)电子资源不仅易复制,而且便于编辑(比如维基百科文章),因此,了解在线资源的历史很有必要,但是并不充分,为了信任资源的有效性和可靠性,同样有必要了解什么实体影响过资源的历史。

(3)如果元数据是关于资源的陈述,那么理所当然要提出的问题是谁在做陈述,元数据是某人关于某事物做出的主张。但这种主张究竟有多可信、可靠和准确呢?溯源元数据是一种机制,可以提供关于这些实体、其与资源以及其他实体之间关系的数据,溯源元数据是将资源置于社交网络之中的方法,借此提供用户评估资源可能需要的上下文,溯源互联网是关于实体更为直接的一手知识,能让用户在决策时了解资源是否可信。

(4)虽然目前存在几种溯源元数据模式,但并未出现标准,这些溯源模式拥有许多共同特征:都由多个元素集构成、元素集可识别资源的特点以及影响资源的实体,并对资源和实体之间的关系做了分类。

(5)W3C开发的溯源数据模型的三大核心结构为实体entity、代理agent和活动activity,实体是一种资源,代理是影响资源生命周期的实体,而活动是这种影响的本质,实体可能起源于其他实体或归因于某个代理,也可能产生或用于活动,以此类推。

W3C在建立溯源标准方面进行的大量工作大部分整合在PREMIS的开发中,PREMIS是一个更为广泛的模式,目的在于搜集关于资源保存的元数据。

4、保存性元数据

(1)在资源保存上,最为发达的元数据模式是美国国会图书馆的另一项标准——PREMIS(保存性元数据维护活动),PREMIS的目的在于成为保存数字对象的核心元数据元素集,之所以成为核心是因为从都柏林核心元数据集的意义来说,PREMIS元素旨在成为搜集关于如何在一段时间内保存数字对象所必须的最小元素集。

(2)根据PREMIS文档,保存性元数据是“存储库用于支持数字保存流程的信息”,其中存储库指长期处于管理之下的在线资源集合。存储库支持数字保存过程需要用到的几类信息,包括持久生存能力viability、可呈现能力renderability、可理解性understandability、真实性authenticity以及可识别性identity,即存储库必须确保一个数字对象在一段时间内可以存续,在此期间可以显示并使用这一对象,并且能够将其原始或权威版本与拷贝或更改后的版本区分开来。

(3)PREMIS数据模型定义了四种实体:对象object(既可以是抽象知识实体,也可以是具体资源)、代理agent(可影响对象的人或组织)、活动event(由代理针对某对象进行的、带有时间标记的操作)以及权限声明right statement(知识产权等许可),每个这种实体都包括一个语义单元集合,这在其他元数据模式中被称为元素。

(4)PREMIS为四类实体具体列出了许多语义单元,例如对象中的大小、格式和创建应用程序;代理中的名称、类型和识别符;活动中的日期、描述和识别符等。PREMIS虽对某些语义单元创建或选择值提出了建议,但与都柏林相比并不具有很强的描述性,但在其他领域,PREMIS为了提供尽可能多的细节来支持数字保存过程,所以比任何其他元数据模式都精准。

5、权限元数据

任何有关数字资源的项目都在版权问题的笼罩之下,因此,难以避免的是人们为此建立起了多种搜集关于权限数据的元数据模式。

(1)都柏林核心元数据元素集。“权限”元素(关于资源具有权限以及管辖资源权限的信息)+三个可量化权限元素的元数据术语(授权、权限持有者和使用权)

(2)CC REL(创作共同权限表达语言):“创作共用”是通过建立标准化法律授权来推动创作的一个项目,其标准化法律授权允许创作者有选择性地保留在“版权”标目下捆绑在一起的多项不同权限,同时允许对相关的作品进行一定的使用。该项目详细说明了涉及版权的实体与关系。CC REL的规范识别了两类属性:作品属性和作品授权的属性,其中作品属性包括标题、类型和来源等直接来自DC的属性、原有的属性名称和属性URL;授权属性包括允许、禁止、要求、管辖地和法律条款。另外还有一个较小的受控词汇表提供了这些属性的值,例如允许的值可以是复制、分发和衍生作品等。“创作共用”项目在标准化法律授权方面运用了CC REL,甚至在其官方网站上提供了一个工具来指导用户决定自己的多项授权中选择哪些作为最适合的资源。

(3)METSRights权限声明模式(RightsDeclarationMD):这种模式旨在成为METS(元数据编码和传输标准)的扩展。RightsDeclarationMD拥有权限声明、权限持有者和上下文三个顶层元素,每个顶层元素都有多个属性。

所有元数据模式都是为了将元数据模式中版权复杂性降低到可以管理的程度,针对这一问题,这些模式采取了类似但略有不同的解决方法,目前多类权限元数据模式共存,在一定程度上可以互换,但在实践中,已经成为某些特定用例的标准,比如“创作共用”授权在网上广为使用,RightsDeclarationMD在图书馆和档案管理领域中的应用相对较为有限。

6、元-元数据

(1)可以管理上述一切的一种元数据模式:METS(元数据编码与传输标准)

(2)21世纪初,随着数字资源内容与功能性的扩散,METS计划为关于资源的元数据提供一种标准架构并确保存储库之间可以交换元数据。METS作为一种元数据模式,支持为元数据记录创建容器,即所谓的“文档”,METS文档是一种机制,用于记录内容片段之间、内容与构成一个数字图书馆对象的元数据之间存在的多种关系。

(3)METS文档分为7部分:

a. 表头header:关于METS文档本身的元数据,而不是关于文档中被描述资源的元数据;

b.描述性元数据:METS允许使用多种模式来描述一个单独的资源。

c.管理性元数据:分为技术性元数据、知识产权元数据、来源元数据和溯源元数据。没有提供任何用于描述资源管理的原生元素,但是允许将其他管理性元数据模式中的记录封装在METS文档或关联METS文档。

d.文件部分:列出包含构成数字对象电子版本内容的所有文件。

e.结构地图:提供了一种机制,用于组织METS文档在“文件部分”识别的元素。

f.结构连接:说明METS文件不同部分之间关联的一种简单机制。

g.行为:通过可执行的软件代码关联METS文档中的其他元素来表达这些操作规则。

读书笔记∣元数据:用数据的数据管理你的世界 Ch.3-4相关推荐

  1. 读书笔记∣元数据:用数据的数据管理你的世界 Ch.5-8

    第五章  使用性元数据 1.描述性.管理性等元数据都是有意创建的数据,与之相反,数据废气是做其他事情无意间产生的数据. 2.并行数据 (1)在使用在线资源时,都有可能在无意中产生数据,这种数据往往以网 ...

  2. 5000字 大数据时代读书笔记_大数据时代读书笔记

    大数据时代读书笔记 [篇一:大数据时代读书笔记] 大数据时代 -- 读书笔记 一.引论 1. 大数据时代的三个转变: 1. 可以分析更多的数据,处理和某个现象相关的所有数据,而不是 随机采样 2. 不 ...

  3. 大数据之路读书笔记-09阿里巴巴数据整合及管理体系

    大数据之路读书笔记-09阿里巴巴数据整合及管理体系 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性, 直是 ...

  4. 关于数据治理的读书笔记 - 什么是数据治理?

    <关于数据治理的读书笔记 - 数据治理.数据管理和数据管控的理解>我们了解了有关数据治理.数据管理和数据管控,这几个名词之间的区别和联系,回到数据治理的话题上,数据治理究竟是什么? 站在不 ...

  5. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4

    日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...

  6. 【读书笔记】《数据产品经理修炼手册》——从零基础到大数据产品实践

    内容简介 摘抄语录 我理解的数据产品是可以发挥数据价值去辅助用户做更优决策的一种产品形式.它在用户的决策和行动过程中,可以提供更多的分析展现和数据洞察,让数据更直观.高效地驱动业务. "If ...

  7. 小曾曾读书笔记 ||《大数据实践之路》

    <大数据实践之路>这本书,是由多位数据产品和分析师,根据自己的工作经验和个人总结,汇总而来. 类似这种合著作品的例子,现在越来越普遍,优点是可以发挥所长.精心雕刻,缺点也较为明显,就是章节 ...

  8. 读书笔记之大数据计算模式

    1.大数据计算模式:根据大数据的不同特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,传统的并行计算方法主要从体系结构和编程语言层面定义了一些较为底层的并行计算抽象和模型 ...

  9. OCA读书笔记(9) - 管理数据同步

    9.Managing Data Concurrency 描述锁机制以及oracle如何管理数据一致性 监控和解决锁冲突 管理数据的并发--管理锁 数据的不一致: 脏读 更改丢失 幻影读 脏读: 数据是 ...

最新文章

  1. 第二章 数据类型、运算符与表达式
  2. oracle复合索引介绍(多字段索引)
  3. ie11 不能调试 因为 ie的bug
  4. hadoop容灾能力测试
  5. hibernate inverse属性的作用
  6. linux openssh升级8.1,Centos7利用rpm升级OpenSSH到openssh-8.1p1版本
  7. 软件架构设计的6大原则
  8. 在Linux上安装chisel bootcamp遇到的各种问题
  9. 2020杭州学区房(WJP)
  10. 千呼万唤的线粒体基因组完成图
  11. 服务器怎么多开虚拟机,服务器多开虚拟机操作系统
  12. vim/gvim 主题配色方案下载 安装修改配置
  13. 基于Django的驾校在线考试系统
  14. 基于图书管理系统的需求分析之威胁建模
  15. 胃病患者饮食结构注意事项
  16. c语言中堆栈作用是什么意思,请问堆栈是什么?做什么时候会用到远堆栈?
  17. Spring Cloud Alibaba阿里面试题
  18. 1997. WZK打雪仗(war)
  19. H.266/VVC相关技术学习笔记18:帧间预测中的AMVR技术(自适应运动适量精度)
  20. 2020年11月份某kh比赛部分CTF赛题求大佬解题思路

热门文章

  1. 基因注释 InterProScan的三种使用方法
  2. 访问网络计算机运行里输入IP,WINDOWS在运行里输入IP地址不能访问网络位置
  3. mock server 挡板服务搭建
  4. Introduction to Track-To-Track Fusion
  5. Android 设计模式之MVC,从一个实例中来理解MVC
  6. MIT Technology Review 2020年“十大突破性技术”解读 【中国科学基金】2020年第3期发布...
  7. vuex报错Computed property “xxx“ was assigned to but it has no setter.
  8. 求解一个序列的最小相位序列
  9. c#+wps插件开发(1)
  10. HTML/JSP/CSS网页编写实例,附源码