1. 马哈鱼数据血缘分析工具简介

马哈鱼数据血缘分析工具(英文名称为 Gudu SQLFlow )是一款用于分析 SQL 语句,并发现其中数据血缘关系的分析软件,经常和元数据管理工具一起使用,是企业数据治理的基础工具。

如果你对 SQL 语言不熟悉,那么本文可能不适合你阅读。

阅读本文无需事先有数据血缘相关的知识,只要把数据血缘关系简单的理解为数据库中两个或多个表之间的数据依赖关系即可。

我们通过分析下面的 SQL 语句,来看看如何梳理出各个表/视图间的数据依赖关系。

INSERT INTO deptsal(dept_no,dept_name,salary)
SELECT d.deptno,d.dname,SUM(e.sal + Nvl(e.comm, 0)) AS sal
FROM   dept dleft join (SELECT *FROM   empWHERE  hiredate > DATE '1980-01-01') eON e.deptno = d.deptno
GROUP  BY d.deptno,d.dname;

通过分析以上 INSERT SQL 语句,我们可以知道

deptsal 表的数据来源于 dept 和 emp 表。进一步,字段级别的数据依赖(数据血缘)为:

  • deptsal.dept_no 字段的数据来源于 dept.deptno
  • deptsal.dept_name 字段的数据来源于 dept.name
  • deptsal.salary 字段的数据来源于 emp.sal 和 emp.comm

通过马哈鱼数据血缘分析工具,你可以看到可视化的数据血缘关系:

2. 第一次使用马哈鱼数据血缘分析工具

马哈鱼数据血缘分析软件通过 Web 界面或 Rest API,可以对单个 SQL 语句,多个 SQL 文件,连接到数据库来实时为你分析数据血缘关系。还可以分析 Redshift log, Snowflake query history, DBT 脚本等不同的数据源,快速的发现企业数据平台中的数据血缘关系。

这篇文章我们仅介绍马哈鱼数据血缘分析软件最简单的一种使用方法,只要简单的三步,马上可以从复杂的 SQL 语句中发现完整清晰的数据血缘关系。

第一步:输入 SQL 语句。

复制粘贴需要分析的 SQL 语句到马哈鱼数据血缘分析软件中的 SQL Editor中。

第二步:选择对应的数据库种类。

选择该 SQL 语句对应的数据库类型,以帮助马哈鱼数据血缘分析软件准确的分析输入的 SQL 语句。

第三步:分析数据血缘。

点击 visualize 按钮,分析输入的 SQL 语句。

完成以上三步,你就可以在右侧的主界面中看到图形化、可交互式的非常详细的数据血缘关系结果,并可以点击选择感兴趣的表、视图、字段等进行进一步的查看。

3. 对数据血缘结果的进一步探索

马哈鱼数据血缘分析软件提供了丰富的参数来按照你的需求,个性化的输出不同的数据血缘关系。

这里,我们仅介绍一个参数以展示马哈鱼数据血缘分析软件的强大功能,其他参数的使用可以参考相关文档。

show transform 参数

show transform 参数用来显示 SQL 语句中进行数据转换的表达式,即目标字段的数据是哪些源数据字段通过哪个表达式转换来的。例如:

SUM(e.sal + Nvl(e.comm, 0)) AS sal

我们可以知道 sal 字段的数据通过 SUM(e.sal + Nvl(e.comm, 0)) 表达式转换而来,源数据字段为 sal 和 comm。

通过打开 show transform 参数,我们可以方便的看到这个转换过程对应的表达式。

4. 马哈鱼数据血缘分析软件的更多功能

通过在马哈鱼数据血缘分析软件的 SQL Editor 中输入 SQL 语句,可以快速分析 SQL 语句的数据血缘关系,并了解马哈鱼数据血缘分析软件的各项功能,熟悉数据血缘的基本概念。但马哈鱼数据血缘分析软件的还有更多的功能以满足企业数据治理的需求:

  • 一次性分析多个 SQL 文件
  • 连接到数据库实时为你分析数据血缘关系
  • 支持多达 20 多种主流数据库
  • 分析 Redshift log, Snowflake query history, DBT 脚本等不同的数据源,快速的发现企业数据平台中的数据血缘关系
  • 提供 Rest API 接口,和你的数据治理平台快速集成
  • 提供 Java 库,和你的数据治理工具一起部署到最终客户
  • 提供前端 UI 库,为你的数据治理平台快速提供交互式的数据血缘关系展示功能
  • 提供和 datahub 开源元数据管理软件的集成方案

5. 软件界面的主要组成

马哈鱼数据血缘分析软件的主界面:

SQL Editor

在代码编辑框输入需要分析的 SQL 代码,点击 dbvendor 菜单选择数据库,点击 visualize 按钮或者 join 按钮,可以绘制对应的图像。

Sample SQL

点击 dbvendor 菜单选择数据库后,点击 sample sql 可以在代码编辑框中获得这个 dbvendor对应的示例 SQL。

Upload

上传一个或多个文件。或者连接数据库,在后台创建一个 job,当 job 处理成功后可以获得对应的结果。

Login

登录按钮,已支持多用户。目前登录功能仅在 SQLFlow SaaS 版本中支持。(https://sqlflow.gudusoft.com)。

Lineage and schema explorer

显示分析 SQL 后获得的 schema 结构。在database、schema、table上点击鼠标右键,可以 visualize 获得选中对象的数据血缘。

Main diagram panel

在 main diagram panel 中显示的数据血缘关系图为交互式图形,可以进行更有针对性的操作,获取感兴趣的数据。例如:鼠标左键点击某一列可以固定关联关系,点击cancel可以取消。

鼠标右键点击 table lineage、column lineage 可以显示表或列的关联关系,点击cancel可以取消。

更多内容可访问马哈鱼数据血缘分析软件的官网 https://sqlflow.gudusoft.com 进行体验。

马哈鱼数据血缘分析工具简介相关推荐

  1. 马哈鱼SQLFLow对SQL Server OUTPUT Clause 的数据血缘分析

    SQL Server OUTPUT Clause 会对 SQL 语句的血缘分析产生影响,如果忽略对 OUTPUT Clause 的分析,那么将漏掉一些关键的数据血缘关系,从而影响数据血缘分析的准确性, ...

  2. 数据治理中Oracle SQL和存储过程的数据血缘分析

    数据治理中的一个重要基础工作是分析组织中数据的血缘关系.有了完整的数据血缘关系,我们可以用它进行数据溯源.表和字段变更的影响分析.数据合规性的证明.数据质量的检查等. 分析数据血缘的方法主要分为四类 ...

  3. 【php毕业设计】基于php+mysql+apache的网络数据包分析工具设计与实现(毕业论文+程序源码)——网络数据包分析工具

    基于php+mysql+apache的网络数据包分析工具设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于php+mysql+apache的网络数据包分析工具设计与实现,文章末尾附有本毕业设 ...

  4. 基于 SpringBoot+Vue 的开源数据可视化分析工具

    简介 DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化.DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与 ...

  5. 静态代码分析工具简介

    静态代码分析工具简介 什么是静态代码分析 静态代码分析是指无需运行被测代码,仅通过分析或检查源程序的语法.结构.过程.接口等来检查程序的正确性,找出代码隐藏的错误和缺陷,如参数不匹配,有歧义的嵌套语句 ...

  6. pcap文件解析工具_【免费毕设】PHP网络数据包分析工具的设计与开发(源代码+论文)...

    点击上方"蓝字"关注我们目录 系统设计 网络数据包分析系统的设计 整个网络数据报分析工具采用模块化的设计思想,原因是许多程序太长或太复杂,很难写在单一单元中.如果把代码分为较小的功 ...

  7. 可视化数据包分析工具-CapAnalysis

    原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://chenguang.blog.51cto.com/350944/1325742 可 ...

  8. 开课吧:常见的数据可视化分析工具有哪些?

    数据分析工作的完成,既需要拥有良好的方式方法,同时还需要借助分析工具,这也是数据分析师需要熟练使用数据分析工具的主要原因,那么常见的数据可视化分析工具有哪些呢? 常见的数据可视化分析工具有哪些? 1. ...

  9. TableauBDP,哪个才是最适合中国用户的数据可视化分析工具?

    作者:pledge 本人数据分析师一枚,除了工作所需,自己对数据分析.数据可视化的产品工具都比较感兴趣,喜欢混迹于各种数据论坛,也发现和使用了不少数据工具,也积累了很多亲身经历.这两年数据可视化在国内 ...

最新文章

  1. python余弦相似度
  2. 认识一下Global.asa 文件
  3. 贝叶斯学习举例--学习分类文本
  4. sql数据库基础知识整理,常用函数及常用语法
  5. 结果集 tostring_关于避免对toString()结果进行解析或基于逻辑的美德
  6. 前端学习(3345):设计模式之工厂模式2
  7. 关于EMF模型的操作,赶紧记下来
  8. idea中使用git只add部分module的更新
  9. [数据仓库]Bill Inmon和Ralph Kimball方法论
  10. Vlan的详解-----看完明白tag and untagged
  11. npm查看源地址以及更换源地址
  12. 深入windows的关机消息截获-从XP到Win7的变化
  13. 2021-2022启航出发
  14. qq空间相册查看器_教你用微信把自己的照片制作成音乐相册,模板多,操作又简单...
  15. uniapp小程序报错Property or method item is not defined on the instance but referenced during rende
  16. Pandas读取excel文件(pandas.read_excel)
  17. linux 发邮件给用户,Linux学习之给指定用户发邮件
  18. 简易数字式电阻、电容和电感测量仪设计报告
  19. 【马克思主义】马克思200周年诞辰
  20. 搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了

热门文章

  1. 【金融财经】金融市场一周简报(2017-12-22)
  2. ***BAT机器学习面试1000题系列
  3. 闯荡江湖的必备指南(3)
  4. python怎么读取api,不懂即搜,如何用 python 读取 api 并借用文件读写数据?
  5. 【MySQL】with rollup的用法
  6. 坚持每天学英语10分钟,5年弹指一挥间
  7. Android MVP 详解(上)
  8. python爬虫的原理以及步骤-Python-爬虫的基本原理
  9. ISO/OSI七层模型理解
  10. html左边多级菜单导航栏,精美的多级侧边栏导航菜单jQuery插件