“有些人发现,他们可以留下破坏性的反应,变得像地球一样有耐心,不受愤怒或恐惧之火的影响,像柱子一样不动摇,像清澈安静的水池一样不受干扰。”

——释伽牟尼

当你的数据团队因生产错误、抱怨客户和漠不关心的数据提供商而陷入危机时,我们都希望自己能像佛一样坚定不移。最近的调查显示,97%的数据工程师报告说,他们在日常工作中感到倦怠。也许我们可以像佛祖所建议的那样,在那些紧张的情况下冷静下来去“放手”。放手的好处可能是深远的,但正如塞缪尔·弗洛曼所写,找到并解决问题的根源是“生存的快乐”

在客户意识到问题存在之前发现问题有助于团队的幸福感、生产力、客户信任和客户数据的成功。考虑到我们用来从数据中获取价值的复杂分布式系统和数据的多样性,所以需要一个简化的框架。这就是数据之旅。在一个数据驱动创新和增长的时代,数据领导者和工程师了解并监控其数据之旅的各个方面至关重要。成功的关键是能够从宏观和微观层面了解和监控数据、数据工具、管道和基础设施的运行状况、状态和性能。数据之旅的失败使组织损失了数百万美元。

将数据之旅的理念分为五大支柱是组织和共享这一概念的好方法。下表概述:

五大数据旅程支柱汇总表

另一种看待这五大支柱的方法是在典型的复杂数据产业的背景下看待它们。你的数据从来源到客户使用可能有四个步骤,或者二十个步骤。然而,每一次数据之旅都跨越了许多“小盒子”,如下图所示。

作战环境下数据之旅的五大支柱

||  支柱1:跨过台阶

“所有快乐、无错误的数据之旅都是一样的;每一次不快乐的数据之路都以其独特的方式被打破。

——《安娜·卡列尼娜》作者列夫·托尔斯泰

在你的数据之旅中,事情会有所突破。问题是它发生在哪里?据经验,这些问题的根源会随着时间的推移而变化。最初,基础设施不稳定,但后来查看源数据,发现了许多问题。客户开始查看仪表板和模型中的数据,然后发现许多问题。将数据与其他数据集放在一起是另一个错误来源。在数据系统开始使用后,更改将引入更多问题。

关键问题是问题出在哪里。这一支柱强调,需要持续监控数据到达客户的每一步中每个流程的执行情况,以确保操作顺序正确,任务按计划执行,数据本身正确。从这个意义上说,数据之旅提供了有关单个任务的状态和结果的透明度,提供了对操作序列中潜在瓶颈或效率低下的见解,并有助于确保按计划执行任务。考虑Airflow组织的数据管道。

在这种情况下,可观察性包括监控协调器的时间表,并识别潜在的问题,如重叠的作业,这些问题可能会因资源争用而导致瓶颈或延迟。气流作业是否在加载仪表板之前完成?它准时了吗?这里的价值在于提高工艺可靠性。有了这样的可观察性,你可以快速确定流程问题,最大限度地减少停机时间,通知下游,并确保端到端数据旅程更加顺畅、可靠。

||  支柱2:向下堆叠

史莱克:数据之旅就像洋葱。

驴子:它们很臭?

史莱克:不。分层。洋葱有层次,数据之旅有层次。你明白了吗?

驴子:哦,它们有层次。你知道,不是每个人都喜欢洋葱。”

––改编自史莱克电影

监控是数据之旅的另一个支柱,延伸到堆栈的下游。它涉及跟踪关键指标,如系统运行状况指标、性能指标和错误率,并密切检查系统日志以识别异常或错误。此外,成本监控可确保你的数据操作保持在预算范围内,并确保资源得到有效利用。这些要素有助于更全面地了解业务情况,从而实现积极主动的管理和问题缓解。下一步可能包括检查错误消息以识别故障进程,监控服务器CPU使用情况以发现潜在的性能问题,评估磁盘大小以确保有足够的存储容量,以及跟踪运行成本以确保你的操作保持在预算内。

这里的主要价值是对你的技术状况有一个清晰而全面的了解。你可以在问题升级之前主动发现并解决问题,并确保技术堆栈平稳且经济高效地运行。

||  支柱3:静止数据

“数据不会告诉我“你很抱歉”,因为你没有糟糕的数据,我知道你只是很抱歉被抓住了。”

––鞠躬吧,蕾哈娜

在休息时验证数据质量对于任何数据之旅的整体成功都至关重要。使用自动化的数据验证测试,可以确保存储在系统中的数据是准确、完整、一致的,并且与当前问题相关。这一支柱强调了实施彻底的数据验证测试的重要性,以降低基于错误数据的错误分析或决策的风险。

在静止状态下检查数据包括查看语法属性,如新鲜度、分布、卷、模式和沿袭。开始使用强大的数据配置文件在静止时检查数据。然后,以摄取为重点的数据测试可以通过检查传入数据模式、评估数据行计数、加载数据、评估数据量或特定列值来寻找异常的验证。

在静止状态下检查数据还需要超越数据语法。团队需要基于对其组织有意义的特定领域或业务规则的数据验证测试。这些测试可以依靠历史值来确定数据值是否合理(或在合理范围内)。例如,一个测试可以检查前50名的客户或供应商。他们的价值观相对于历史价值观是出乎意料地或不合理地上升还是下降?可接受的范围是多少?10%还是50%?数据工程师无法做出这些商业判断。他们必须依靠数据管理员或他们的商业客户来“填补”各种数据测试规则的空白。

这里的核心价值是通过数据质量确保信任。通过这些检查,可以及早发现数据问题,确保下游分析和决策基于高质量的数据。

||  支柱4:使用中的数据

“关于你的数据工具的真相令人痛心。也许不如在自行车上丢了一个座位跳得那么厉害,但很疼”。

--弗兰克·德雷宾/莱斯利·尼尔森

监测和测试数据以确保其持续可靠性至关重要。这项行动包括测试数据模型的准确性和相关性,评估数据可视化的有效性,确保数据交付机制以最佳方式运行,并检查数据利用率以确保其达到预期目的。这一支柱强调了在数据旅程的“最后一英里”中需要稳健的测试和评估流程。

这里的价值在于改善最终用户体验。进行这些测试可以确保你的数据产品(如预测模型或可视化)对最终用户来说是准确、相关和有价值的。经过所有的艰苦工作和多个系统的数据才到达客户手中,价值难道不是判断成功的关键吗?

||  支柱5:设定期望值

“高数据旅程期望值是一切的关键。”

––Sam Walton(改编)

数据之旅的最后一个支柱涉及设定和管理期望。数据之旅是对你的数据世界应该如何的期望的集合。当然,这个世界永远不会满足我们的期望。

数据之旅允许你将预期结果与现实进行比较,建立警报机制以在出现差异时通知利益相关者,并分析结果以了解导致结果的原因。它强调需要采取系统的方法来理解和管理与预期结果的偏差。数据问题通常伴随着“爆炸半径”。例如,如果摄入的文件太小,哪些报告、模型和导出会受到影响?数据之旅是一种“过程谱系”,可以帮助你发现问题的全部范围和影响,并通知可能受到影响的人。

数据团队与其客户之间建立信任至关重要。你的数据团队在问题发生之前对问题了解得越多,你的客户就越信任你的团队。带有事件警报的数据之旅为建立这种信任提供了桥梁。

结论

“数据之旅的五大支柱”概述了在数据生命周期中跟踪和监控数据的全面方法。首先,它强调了了解数据操作的顺序和结果的重要性,包括定期检查、保持正确的操作顺序和遵守时间表。其次,它强调了监控指标、日志和相关成本的必要性,以确保数据操作的效率和成本效益。第三,它建议通过业务领域测试在静止状态下自动进行数据质量验证,增强数据的完整性和可靠性。第四,支柱主张测试模型、可视化和数据利用率的结果,以验证使用中的数据,确保数据应用程序的有效性。最后,它鼓励根据实际情况设定和比较预期、警报系统和深入分析,以保持稳健和准确的数据环境。

智领云DataOps数据之旅产品

智领云云原生DataOps实现了Data Journeys的五大支柱。从数据到工具,从服务器到代码,再到所有关键维度的测试。它们提供关于开始时间、处理持续时间、测试结果和基础设施事件等指标的实时状态和警报。智领云云原生DataOps通过自动化、面向流程的数据分析方法,将人员、流程和技术进行结合,极大简化数据管道并提高数据运营效率。

DataOps可观测性提供了数据旅程的抽象、期望、警报和分析。DataOps 测试生成提供与DataOps 可观测共享的数据库内数据测试结果。最后,DataOps 自动化提供了与DataOps 可观测性共享的工具、模型和API级测试。

- FIN -

更多精彩推

  • 谁在勇闯Kubernetes大数据平台的“无人区”?

  • “拿捏”Kubernetes,智领云让数据应用标准化

  • Kubernetes使用现状,直面数据管理问题和挑战

  • 真正的云原生大数据平台,让Kubernetes又牛了一把

  • 国家数据局成立,为云原生大数据平台提供新机遇

一文读懂:数据之旅的五大支柱相关推荐

  1. 一文读懂数据中台技术架构

    一文读懂数据中台技术架构 https://www.toutiao.com/i6836923386560512516/?tt_from=weixin&utm_campaign=client_sh ...

  2. 一文读懂“数据分发服务DDS”(Data Distribution Service,RTPS,OMG)

    一文读懂"数据分发服务DDS"(Data Distribution Service,RTPS,OMG) https://blog.csdn.net/DDS_CSIT/article ...

  3. 一文读懂数据要素(附研究文档大合集下载)

    最近数据要素这个词不断出现在大数据圈里也同时出现在公众视野.各个研究机构,政府部门都在重点关注数据要素及其作用及发展,并提供各类政策性的指引,那么什么是数据要素呢? 本文将综合目前主流的研究进行归纳整 ...

  4. 超级干货 :一文读懂数据可视化

    前言 数据可视化,是指将相对晦涩的的数据通过可视的.交互的方式进行展示,从而形象.直观地表达数据蕴含的信息和规律. 早期的数据可视化作为咨询机构.金融企业的专业工具,其应用领域较为单一,应用形态较为保 ...

  5. 独家 | 一文读懂数据质量和验证检查(附代码)

    作者:Vinod Kumar 翻译:季洋 校对:王雨桐 本文约1600字,建议阅读8分钟. 本文主要讲述关于数据质量和验证检查的实例,以及运用Apache Spark和Scala采用编码来确保数据质量 ...

  6. 从单体到Flink:一文读懂数据架构的演变

    导读:近年来随着开源社区的发展,越来越多新的技术被开源,例如雅虎的Hadoop分布式计算框架.UC伯克利分校的Apache Spark等,而伴随着这些技术的发展,促使着企业数据架构的演进,从传统的关系 ...

  7. 一文读懂 | 数据中台如何为企业赋能?

    上一篇在[案例篇]数据中台的行业应用场景中介绍了数据中台在一些行业里的应用场景,但是很多管理者和开发者对于数据中台到底是如何工作的,还只有个很模糊的概念.本次就从互联网企业的视角,看看数据中台是如何为 ...

  8. 一文读懂数据科学Notebook

    编者按:本文主要介绍什么是 Notebook,Notebook 在数据科学领域的应用的重要性与优势,以及数据科学家/算法团队在选择 Notebook 时需考虑哪些关键因素.同时,基于 Notebook ...

  9. 一文读懂数据中台架构体系(收藏)

    当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集.存储,并应用分层建设.这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产.资 ...

最新文章

  1. Linux里检查的一些目录!
  2. 关于css的float
  3. 复利计算1.0,2.0,3.0
  4. 1071 mysql_mysql 出现1071错误怎么办
  5. 人工智能 | 自动驾驶与人工智能前沿研究报告(概念篇)
  6. 我们“凭什么”找工作?
  7. 如何实现Windows宿主系统和虚拟机ubuntu系统文件互相访问
  8. 07-图4 哈利·波特的考试 (25 分)
  9. C++ Byte转十六进制字符串输出
  10. Scrapy-Item Loaders(项目加载器)
  11. linux 通配符 元字符 转义字符
  12. SpringMVC自学日志02(初识SpringMVC)
  13. 大剧播出无人值守“心里不慌”,优酷全链路技术齐上阵
  14. SSL数字证书的签发及使用(服务器证书)
  15. CorelDRAWX4的VBA插件开发(十三)一键转曲(转全部页面)
  16. python3*1**3 表达式输出结果为_表达式[1, 2, 3]*3的执行结果为______________________。...
  17. ofstream错误:error: variable ‘std::ofstream ofs’ has initializer but incomplete type
  18. Linux内核中内存分配函数
  19. 小程序战局最新动态!这些你应该知道
  20. python cookie动态请求_Python请求自动处理cookie

热门文章

  1. python语法讲解小白入门第一篇
  2. php提取bing背景,宝塔+PHP方式自动获取每日必应壁纸并保存——墨涩网
  3. fatal error: pcap.h: No such file or directory
  4. vivo 2020届校招在线编程笔试B卷
  5. 模块化可重构显控系统系列方案
  6. 转:短网址(short URL)的实现_如何生成短链接URL?
  7. 聊一聊直播利器,连麦直播背后的混流方案:到底该怎么混?
  8. 蓝桥杯Web组备赛笔记3
  9. 乐理小课堂——自然/和声/旋律小调的调式音阶
  10. OpenFeign的使用--Hystrix的使用--Zuul网关的使用