概述

大数据发展到今天,对数据质量的要求越来越高,如何保证数据的质量,如何对数据的一致性进行检测?

本文介绍开源的数据治理组件griffin的功能和组成。griffin是国人(ebay工程师)编写的一款数据治理开源软件。

Griffin介绍

Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。

Griffin的抽象架构

从图上可以看出griffin的组成模块:

  • 数据接入有两种方式:一种是历史数据(批量数据),一种是实时数据。
  • griffin computing cluster由三部分组成:griffin Measure,data quality defination,Scheduler。
  • UI&Browser:前端展示界面
  • Metrics:数据度量展示

Griffin的架构设计

各部分的职责如下:

  • Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)
  • Measure:主要负责执行统计任务,生成统计结果
  • Analyze:主要负责保存与展示统计结果

基于以上功能,我们大数据平台计划引入Griffin作为数据质量解决方案,实现数据一致性检查、空值统计等功能。

Griffin功能分析

  • 从以上介绍可以看出,griffin的数据源可以是hadoop,rdbms,kafka。而抽象架构中的流数据源支持主要是指对kafka的支持,离线数据源主要是指对hadoop的支持。
  • griffin可以定义对数据的:精确度(Accuracy),合法性(validity),一致性(consistency),时间序列(timeliness),完整性(completeness)等进行检测。
  • griffin的检测任务是运行在spark基础上的,也就是说,先定义检测的标准,根据标准生成spark任务。

总结

本文介绍了griffin的功能,架构和模块组成。

注意:目前griffin的版本相对较低,目前的资料相对较少,若要使用到生产环境还需要对其进行深入调研。

参考文献

  • http://griffin.apache.org/#diagram_page

大数据治理开源组件Griffin介绍相关推荐

  1. 大数据生态圈常用组件(二):概括介绍、功能特性、适用场景

    三更灯火五更鸡,正是男儿读书时. 小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助. 分类 名称 简介 功能特点 使用场景 大数据存储 HDFS HDFS是一个分布式的文件系统, ...

  2. 一文读懂 Spring Boot、微服务架构和大数据治理三者之间的故事

    微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况 ...

  3. 一文透析 Spring Boot、微服务架构和大数据治理三者之间的故事

    微服务架构 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况 ...

  4. Spring Cloud与微服务学习总结(8)——Spring Boot、微服务架构和大数据治理三者之间的故事

    前言 微服务的诞生并非偶然,它是在互联网高速发展,技术日新月异的变化以及传统架构无法适应快速变化等多重因素的推动下诞生的产物.互联网时代的产品通常有两类特点:需求变化快和用户群体庞大,在这种情况下,如 ...

  5. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

  6. 大数据治理需要具备哪些能力和关键技术?

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇文 ...

  7. 大数据治理工程师_大数据治理关键技术解析(转自EAWorld)

    在企业数据建设过程中,大数据治理受到越来越多的重视.从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战.本篇 ...

  8. 元数据与数据治理|大数据治理(第九篇)

    魅族大数据平台的一个技术分享活动,话题是<大数据治理之路>.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容. 首先,他们整理了一个治理流程,架构图 然后,依照架构图,大致讲 ...

  9. Lanius大数据治理平台

    数据继土地.劳动力.资本之后成为新兴的生产要素,各国政府相继制定战略规划,加大对数据汇聚.分析.安全等方面的投入,我国国务院和各地方政府也不断出台政策,在大数据治理研究方面给予支持. ETL处理做为数 ...

最新文章

  1. 求n!(n的阶乘)和1!+2!+....n! (阶乘求和) ----C语言实现
  2. 廊坊学院报名计算机二级,2021上半年廊坊市计算机二级报名时间|网上报名入口【1月6日开通】...
  3. Linux 小知识翻译 - 「单CD 的linux」
  4. LintCode-375.克隆二叉树
  5. java jdbc修改_java----jdbc(数据库的添加,删除,修改,更新)
  6. mysql 用户 类别_从mysql里读取用户类型
  7. [深入学习Redis]RedisAPI的原子性分析
  8. python 在window 系统 连接并操作远程 oracle 数据库
  9. codeforces 460C - Present 二分加模拟
  10. CSS常用基础效果---文字与图片并排+导航栏
  11. 基于STM32F405平台的多摩川协议编码器通讯过程(1)
  12. 内网网段范围_局域网IP段有哪些 - 卡饭网
  13. 【对比Java学Kotlin】协程-创建和取消
  14. 目标检测算法的大体框架-------backbone、head、neck
  15. 计算机怎么样返回桌面,电脑如何快速返回桌面
  16. Android11添加AIDL系统服务及HIDL接口服务
  17. 五大浏览器:chrome---Blink IE--Trident firebox--Gecko safari--Webkit opera--Blink
  18. android 实现Home键和Back键的功能
  19. 全平台福利集合大放送!24h后立刻删!冲!
  20. 使用atomikos 如何实现 JTA/XA全局事务

热门文章

  1. 马尔贝克日|阿根廷藵莱夫人酒庄(VINA DONA PAULA)
  2. 该如何从 Java 8 升级到 Java 10
  3. u盘只读模式,怎么取消无法格式化
  4. PC端3.7微信小程序无法抓包
  5. Java的基本概念(3) 判断和循环
  6. ABAP DIALOG POV F4搜索帮助
  7. 系统学习----包管理工具和包仓库管理
  8. 计算机网络之路由器与分组交换
  9. mac 服务器系统安装教程视频教程,Mac U盘安装windows7、8及8.1图文教程(最详细最全面教程)...
  10. 无向图G=(V,E)的二分图判断