Delta Lake 时间旅行

读者交流群已经开通了,有需要的可以私信进入读者交流群

听到时间旅行,你是不是觉得很高大上,既然如此高大上,我们就来看看,时间旅行其实就是可以读取历史数据,或者说是历史上某一个版本的数据,这里的版本你也可以认为是历史上某一时刻的快照,其实这就是时间旅行。

数据版本

Delta Lake 允许用户读取表或目录之前的快照。当文件被修改文件时,Delta Lake 会创建较新版本的文件并保留旧版本的文件。当用户想要读取旧版本的表或目录时,可以在 Apache Spark 的读取 API 中提供时间戳或版本号,Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这允许用户重现之前的数据,并在需要时将表还原为旧版本的数据。

数据变更带来的挑战

我们下面看一下,没有时间旅行的情况下,数据变更会带啦那些挑战

数据审核

从数据合规性和简单的调试方面来看,审计数据变化都是至关重要的,可以了解数据随时间的变化情况。 从传统数据系统转向大数据技术和云的组织在这种情况下都会面临这个问题,从而痛苦不堪。

复现实验环境和报告

在模型训练期间,数据科学家在给定的数据集上使用不同的参数运行各种实验。 当科学家在一段时间后重新审视他们的实验以重现模型时,通常上游管道已经修改了源数据。 很多时候,他们没有意识到这种上游数据的变化,因此很难重现他们的实验。 一些科学家和组织通过创建数据的多个副本来设计最佳实践,从而导致存储成本增加。 对于生成报告的分

Delta Lake 时间旅行(12)相关推荐

  1. 一次Delta lake 0.8.0 踩坑有感:使用新框架的新版本,一定要尽早关注多多关注社区动态...

    点击上方蓝色"明哥的IT随笔",关注并选择"设为星标",keep striving! 一.数据胡三剑客介绍 关注大数据发展动态的朋友,都知道最近几年数据湖存储引 ...

  2. 实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

    转载自  实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作 供稿 | eBay ADI-Carmel Team 作者 | 金澜涛 编辑 | 顾欣怡 本文7309字,预计阅读时 ...

  3. 【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

    简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章.众所周知,Databricks 主导着开源大数据社区 Apache Spark.Delta L ...

  4. 【详谈 Delta Lake 】系列技术专题 之 特性(Features)

    简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章.众所周知,Databricks 主导着开源大数据社区 Apache Spark.Delta L ...

  5. 湖仓一体技术调研(Apache Hudi、Iceberg和Delta lake对比)

    湖仓一体技术调研(Apache Hudi.Iceberg和Delta lake对比) 作者:程哥哥.刘某迎 .杜某安.刘某.施某宇.严某程 1 引 言 ​ 随着当前的大数据技术逐步革新,企业对单一的数 ...

  6. 全面介绍数砖开发 Delta Lake 的第一篇论文

    今年八月,Delta Lake 的第一篇论文发布了,我当时写了个总体介绍:Delta Lake 第一篇论文发布了,感兴趣的朋友可以先看总体介绍,再来详细了解一下本篇论文.因为篇幅较长,全文超3万字,建 ...

  7. 【详谈 Delta Lake】系列专题 之 基础和性能 - 02 深入理解事务日志 / 如何使用Schema约束和演变...

    译者 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作 前言 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章.众所周知 ...

  8. 基于Delta Lake构建数据湖仓体系

    直播回放地址:https://developer.aliyun.com/live/249789 导读: 今天很高兴能与大家分享如何通过 Delta Lake 构建湖仓架构. 全文将围绕以下四个部分展开 ...

  9. 支持delete吗_Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL

    Apache Spark 发布了 Delta Lake 0.4.0,主要支持 DML 的 Python API.将 Parquet 表转换成 Delta Lake 表 以及部分 SQL 功能. 下面详 ...

最新文章

  1. 求助关于exchange2010使用手册
  2. 天池和Kaggle:Notebook使用对比
  3. 软件测试中条件覆盖,路径覆盖,语句覆盖,分支覆盖的区别
  4. noip2017初赛的一些知识点
  5. string replaceAll
  6. 云端远程Ubuntu系统进行无桌面Web浏览器自动化测试
  7. ACM Robot Motion
  8. github免费私有仓库使用
  9. 2016开始工作一点谈
  10. android 组件生命周期,Android组件化开发实践(五):组件生命周期管理
  11. MySQL 驱动的下载方法
  12. 红巨星粒子插件:Red Giant Trapcode Suite 15 for Mac
  13. pnp mysql_NPN和PNP三极管的区别
  14. 【愚公系列】2022年10月 基于WPF的智能制造MES系统框架-简介
  15. angular ng-show中表达式的写法
  16. mac 锤子android助手,苹果电脑连安卓就靠它了 锤子Smartisan点评
  17. Method isEmpty in android.text.TextUtils not mocked
  18. 《校园宿舍管理系统》之数据库程序设计/GUI/java/eclipse/MySQL/JDBC
  19. Vant Tab标签页+下拉刷新+上拉加载
  20. 图像区分平坦区域、边缘、角点区域

热门文章

  1. 虚拟机查看端口占用情况
  2. UNIX操作系统族谱 —— 发展脉络一览
  3. H5直播系列二 MSE(Media Source Extensions)
  4. 对当代大学生恋爱的制度经济学分析
  5. 巨头的云计算正在吃掉世界!疯狂圈地后,谁将是下一个霸主?
  6. 赤峰php,赤峰php程序员培训,赤峰php程序员培训中心,赤峰php程序员培训哪家比较好...
  7. 九阴真经全文(转载)
  8. CSS媒体查询“@media”在调试中切换移动设备时不起作用。
  9. CSS3之媒体查询 - @media
  10. 流形优化: Manifold Optimization 的 全网最通俗版本详解 (一)