数据仓库笔记(高质量建模)04——元数据管理
一、元数据定义
Information about data ,中介数据、中继数据,指用于描述数据的数据,用于描述数据数据属性的信息。用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。【信息来源百度百科】
二、元数据的分类
元数据按照功能分类,可分为3大类:
1、Business Metadata(业务数据)
2、Technical Metadata(技术数据)
3、Operational Metadata(操作数据)
1、Business Metadata(业务数据)
广义来讲,用于描述业务各种逻辑信息的数据都可称为业务数据,包括但不限于:
A、商业术语:
Business Glossary,包括名词与详细定义;
BG(Business Glossary)BingCard(仅为示例, 未必需要全部填充,具体内容还需根据对应业务或技术需求而定)
商业术语 | 例子 | 优先级 | 备注 |
ID | G0001 | 高 | |
编码 | SME | 高 | 一般是名词的缩写 |
名词 | Subject Matter Expert | 高 | |
描述 | 行业专家 | 中 | 名词的解释 |
URL | 如何用最短的时间成为某行业专家? - 知乎 | 低 | 关于该名词的外界相关链接 |
其他相关术语 | Subject | 中 | 与当前名词相关其他名词、可多个 |
注释 | 特指企业内部的行业专家 | 低 | |
标签 | Talent | 低 | 给当前名词添加的标签 |
父级术语 | Employee | 高 | 分类 |
数据管理员 | Raymond.shao | 中 | |
当前状态 | Approved | 高 | 状态一般有:undefined,Approved,Deleted |
B、术语分类:
对于上述商业术语的逻辑归类,可构成Glossary Tree;
C、业务规则:
Business Rule,用于描述业务逻辑的相关信息;
D、业务流程:
Business Process,包括Activity ,Input ,Output , Supplier, Consumer等。
通常还要定义一系列相关元素的负责人,需要他们对Business Metedata 进行日常额维护,以确保元数据的准确、完备与及时。
2、Technical Metadata(技术数据)
广义来讲,所有在计算机系统中用于各种程序操作的各类数据的定义以及描述信息均可称为Technical Metadata。以BI系统为例,包括但不限于如下信息:
A、系统(system)
B 、接口(Interface)
C 、实体/表(Enity/Table)
D、注释/字段(Attribute/Column)
E、数据转换(Data Transforming Rule)
F、报表语义层(Universe)
系统 BingCard及元数据
系统 | 例子 | 备注 |
# | S00001 | 这个一般不用整理,系统会自己记录 |
系统名词 | HR | |
系统描述 | Human Resource,人力资源管理系统 | |
操作系统 | AIX 7.1 | |
数据库类型 | Oracle 11g | |
主机列表 | XXX.XXX .XXX.com | |
应用 | SAP ECC HR | |
负责人 | 周二 | |
业务专家 | 张三 | |
技术专家 | 李四 |
接口的Bingcard 及元数据样例
接口 | 例子 | 备注 |
# | INTI00001 | |
接口名词 | 工时系统日接口 | |
接口描述 |
1、每晚9:00之前导出文件供下游系统适用 2、36个平面文件,以wsreredy.txt文件发出为完成标准 3、换行符为回车,字段间以“ | ”分割,日期格式为yyyy-mm-dd... |
|
接口类型 | Inbound | 分Inboud与outbound |
地址 | XXX.XXX.XXX.com/ftp/ws01.txt...ws36.txt | 与接口相对应,Inbound数据指数据来源上游,要导进来,outbound指数据提供给下游,要导出去 |
目标系统 | SAP 工时系统 | |
是否分GEO | 是 | 分为AP、AM和EMEA三个GEO进行文件传输 |
接口周期 | Daily | 有实时、小时、每天、每周、每月等 |
接口时间 |
按GMT时间: AP:8:00 AM:20:00 EMEA:16:00 |
|
负责人 | 李四 | |
通知方式 | http:XXX.XXX.XXX.com/fnterfaceready.html |
表 Bingocard及元数据
表 | 例子 | 备注 |
物理名词 | STGMDM.CUSTOMER | 名词及描述信息 |
逻辑名词 | Staging MDM Customer Table | |
描述 | 从主系统抽取的customer 信息 | |
接口ID | INT、MDM、D001 | 接口信息(Staging table only,DW、DM不用 ) |
接口 | MDM主数据日接口 | |
加载周期 | 每日 | |
触发方式 | 时间触发、每天凌晨0:30开始抽取数据 | |
直接上游原系统 | Master Data System | 数据源信息 |
上游数据表 | SUST | |
最上游源系统 | CRM | |
最上游数据表 | CLIENT | |
数据规模 | 1 milliom rows | 数据规模信息 |
数据增长规模 | 日增,变化1000 rows | |
是否增量加载 | Yes | 数据加载相关信息 |
增量加载方式 | 基于时间戳 | |
上游更表更新方式 | 只有insert 以及逻辑删除 | |
主题 | CUSTOMER | 表类型:有Staging、数据仓库(DW)、数据集市(DM) |
表类型 | Staging | |
主键 | SAP_CUSTOMER_NO | Key信息 |
其他唯一标识 | N/A | |
表创建信息 | 张三 于什么时间创建表 | 表定义修改信息 |
表维护信息 | 李四于什么时间增加abc三个字段 |
字段信息:
3、Operational Metadata(操作数据)
过程处理元数据,记录ETL过程中数据迁移情况。如迁移调度时间、迁移调度顺序,失败处理等内容。这些数据可以在迁移工具中自定义生成,但如果是手工编写ETL程序的话,Operational metadata的获取相对麻烦些。
三、DML、DDL、DCL的区别
数据库中讲SQL语句分三类:
1、DML
data manipulation languege/data modification language(数据维护语言),包括select、insert 、update 、 delect语句,后三个用来更改表中数据
2、DDL
data definition language(数据定义语言):指一些创建、修改、删除数据库对象的语言、相应的语句有:create、alter、drop
3、DCL
data control language(数据控制语言):用于控制用户对数据库的访问、常见三条命令:Grant、Revoke、setrole
数据仓库笔记(高质量建模)04——元数据管理相关推荐
- 数据仓库笔记(高质量建模)——01
接下来写随手写一些上课笔记,就当作在学习探索- 存在些理解错误或偏差,也会记录些问题,看到的小伙伴懂的话可顺便给个回复或纠正些问题,看了哪些不懂的伙伴也可以留言,看到后会给回复(有些不大懂的就略过啊- ...
- C语言书籍阅读-读书笔记--高质量程序设计指南》--C/C++,林锐
最近闲下来想找机会参加一些编程比赛锻炼锻炼,可没有一个相关网站可以搜集这些信息,因而自己记录下来: 百度之星,http://star.baidu.com/index/developer.时间07.25 ...
- 项目纪实--如何搭建一个高可用强一致性灵活元数据管理的数据平台实现高效可靠的数据分发等功能
项目纪实–大型数据平台系统构建 背景:18年入职这家轻松的国企,在19年难得接(抢)到一个有意思的项目,开始定义还比较简单:写一个CMS用于近期某XX项目中发布数据,开始是找到别人被别婉拒后我主动给接 ...
- 数据仓库笔记(高质量建模)02——数据规范
数据规范前,需注意: 1.列出实体:名词(表): 2.勾勒出关系:动词: 3.尽量消除多对多关系: 4.列出所有属性(列): 5.数据规范需满足:1NF >2NF >3NF >BC ...
- 代码大全(第二版)笔记——高质量的子程序
1. 什么是"子程序":子程序是为实现一个特定的目的而编写的一个可被调用的方法(method)或过程(procedure): 2. 子程序的目的:节约空间.可管 ...
- ERD Online 4.0.5 在线数据库建模、元数据管理(免费、私有部署)
4.0.5版本来袭 ❝ fix(erd): 增加数据库数据查询功能,支持多数据源切换查询,查看sql执行计划 fix(erd): 数据查询功能,保留历史查询记录,格式化sql,多级树结构保存历史查询 ...
- ERD Online 4.0.7 在线数据库建模、元数据管理(免费、私有部署)
4.0.7 ❝ feat(erd): 增加新春火红主题 feat(erd): 增加团队协作人员进入.退出提示 fix(erd): 修复权限配置页面显示混乱 doc(erd): 修改更新通告地址 ❞ 变 ...
- qstring 属于元数据类型吗_数据仓库的“元数据管理”
作者 | 李谦恒 数据工程师.逻辑重于代码,高效胜过勤奋.崇尚life work balance. 引言 元数据管理是企业数据治理的基础,是数据仓库的提升:作为一名数据人,首要任务就是理解元数据管理. ...
- 数据仓库-6.元数据管理
元数据(Meta Data),主要记录数据仓库中模型的定义.各层级间的映射关系.监控数据仓库的数据状态及 ETL 的任务运行状态.一般会通过元数据资料库(Metadata Repository)来统一 ...
最新文章
- FSMO角色的Windows界面查看和转移示例
- 2012年上海市高等学校计算机等级考试试卷,2012年上海市高等学校计算机等级考试A试卷...
- PHP获取 当前页面名称、主机名、URL完整地址、URL参数、获取IP
- http://nlp.stanford.edu:8080/parser/index.jsp
- 自定义能够for each的类,C#,Java,C++,C++/cli的实现方法
- 2019四川大学第二届SCUACM新生赛题解
- 一键加速去不掉加锁的_老旧油渍去不掉?这几款清洁神器帮你轻松搞定油污难题...
- [GRE] GRE协议介绍
- Atitit webservice的发现机制 discover机制
- 一劳永逸解决latex的字体问题
- 手机wps取消不等宽分栏_wps文字怎么取消分栏很简单,三个步骤即可取消
- 史上最详细金卡介绍以及金卡制作教程(附风暴数码CID转换码链接)
- html5 canvas 一个漫天飞雪的效果
- BypassDEP(数据执行保护)
- “我与女明星只差一个毛戈平”,毛戈平与上市又差什么?
- 【计算机网络 23】Socket技术详解
- 小程序商家如何开通直播带货功能
- android安卓导航下载地址,安卓导航辅助软件:Android搜星帮助文件
- 达达-高性能服务端优化之路
- [COI2007] Sabor