Lambda架构

Lambda 是用Nathan Marz(实时处理框架storm的作者) 提出的用于同时处理离线和实时的数据的,可容错的,可扩展的分布式系统。它具备强鲁棒性,提供低延迟和持续更新。它通过批量MapReduce作业提供了虽有些延迟但是结果准确的计算,同时通过Strom等实时计算引擎将最新数据的计算结果初步展示出来

缺点:

1、实时与批量计算结果不一致引起的数据口径问题;基于MapReduce和HDFS的Lambda系统有一个长达数小时的市价窗口,在这个窗口内,由于是是是任务事变二产生的不准确的结果一直存在

2、Lamdba架构需要在两个不同的API中对同样的业务逻辑进行两次编程,一次为批量计算的系统,一次为流失计算的系统,针对同一的业务问题产生了两个代码库,各有不同的漏洞,系统维护成本大大提高。

3、批量计算在计算窗口内无法完成:在IOT时代,数据量级越来越大,经常发现夜间只有4、5个小时的时间窗口,已经无法完成白天20多个小时累计的数据,保证早上上班前准时出数据已成为每个大数据团队头疼的问题。

4、数据源变化都要重新开发,开发周期长:每次数据源的格式变化,业务的逻辑变化都需要针对ETL和Streaming做开发修改,整体开发周期很长,业务反应不够迅速。

5、服务器存储大:数据仓库的典型设计,会产生大量的中间结果表,造成数据急速膨胀,加大服务器存储压力。

Kappa架构

Kappa架构的核心思想是通过改进流计算系统来解决数据全量处理的问题,使得实时计算和批处理过程使用了同一套代码。Kappa架构认为只有在有必要的时候才会对历史数据进行重复计算

Kappa架构的核心思想包括以下三点(我看大家基本上都这么写,我就直接复制过来了,捂脸)

  1. 用Kafka或者类似的分布式队列系统保存数据,你需要几天的数据量就保存几天。
  2. 当需要全量重新计算时,重新起一个流计算实例,从头开始读取数据进行处理,并输出到一个新的结果存储中。
  3. 当新的实例做完后,停止老的流计算实例,并把老的一些结果删除。

  • 缺点:

    1、流式处理对于历史数据的高吞吐量力不从心:所有的数据都通过流式计算,即便通过加大并发实例数亦很难适应IOT时代对数据查询响应的即时性要求。

    2、 开发周期长:此外Kappa架构下由于采集的数据格式的不统一,每次都需要开发不同的Streaming程序,导致开发周期长。

    3、 服务器成本浪费:Kappa架构的核心原理依赖于外部高性能存储redis,hbase服务。但是这2种系统组件,又并非设计来满足全量数据存储设计,对服务器成本严重浪费。

Lambda和Kappa优缺点:

选择

1、业务需求

所需的历史数据规模比较大,并且达到TB以上,那么选择Lamdba架构可能较为合适;如果历史数据相对较较小,比如电商网站仅30天的数据,可选择Kappa;

如果项目中需频繁的对算法模型进行调优,比如在实际应用中,需要机器学习,需要有批量处理生成预测模型,在交由实时计算进行是是是分析,这种情况下,批处理和实时处理系统不能合并,因此应选择Lambda架构

2、开发和运维成本

Kappa批量和实时计算共用同一套代码,开发和运维成本较低。

Lambda架构Kappa架构相关推荐

  1. 第十七期:详解大数据处理中的Lambda架构和Kappa架构

    在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件.   典型互联网 ...

  2. 一篇文章搞懂数据仓库:数据仓库架构-Lambda和Kappa对比

    在介绍Lambda和Kappa架构之前,我们先回顾一下数据仓库的发展历程: 传送门-数据仓库发展历程 写在前面 咳,随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代, ...

  3. 大数据平台数据处理之Lambda架构和Kappa架构

    首先我们来看一个典型的互联网大数据平台的架构,如下图所示: 在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使 ...

  4. 实时数仓之 Kappa 架构与 Lambda 架构

    大家好,我是球球.今天,我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍 数据仓库概念 离线大数据架构 Lambda 架构 Kappa 架构 Lambda 架构与 Kappa 架构的对 ...

  5. 实时数仓之 Kappa 架构与 Lambda 架构(建议收藏!)

    大家好,我是土哥. 2021 年 1月份,给大家重点分享一下离线数仓与实时数仓的内容.今天,我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍 数据仓库概念 离线大数据架构 Lambda ...

  6. Lambda架构,Kappa架构和去ETL化的IOTA架构

    经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化. ▌Lambda架构 ...

  7. Lambda架构 vs Kappa架构

    Lambda 架构     Lambda 架构由Storm的作者Nathan Marz提出,其设计目的在于提供一个能满足大数据系统关键特性的架构,包括高容错.低延迟.可扩展等.其整合离线计算与实时计算 ...

  8. Lamda和kappa架构

    首先我们来看一个典型的互联网大数据平台的架构,如下图所示: 在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使 ...

  9. 大数据架构之--Kappa架构

    一.什么是Kappa架构 Kappa 架构是由 LinkedIn 的前首席工程师杰伊·克雷普斯(Jay Kreps)提出的一种架构思想.克雷普斯是几个著名开源项目(包括 Apache Kafka 和 ...

最新文章

  1. 使用lucce分词怎么_真小叮当深度学习:自然语言处理(三)文本处理之分词专题...
  2. mysql saveorupdate_Mybatis SaveOrUpdate插件
  3. java sdk下载_Java Sdk下载 | 保利威帮助中心
  4. Python全栈开发:web框架们
  5. 第7课 阿布拉卡达布拉《小学生C++趣味编程》
  6. python len命令_python命令行参数
  7. 禁用计算机外部设备,在桌面办公系统中, ()能够阻止外部主机对本地计算机的端口扫描。...
  8. dll 重新加密打包的问题
  9. 传统语音识别GMM和HMM
  10. 苹果mac轻量级思维导图软件:Xmind
  11. dell vfoglight
  12. wordpress iis php,Windows IIS 上安装部署 WordPress 网站快速简要教程
  13. 深度学习文献阅读笔记(6)
  14. C++norm函数的用法
  15. 思科交换机接口配置trunk_cisco交换机vlan-trunk的配置详解及应用实例
  16. 激光雷达--C16镭神16线三维激光雷达使用
  17. 浅析Java的线程和Golang的协程
  18. Python爬取满7天赎回零费率基金:短线基金定投
  19. Domoticz添加实时天气信息显示
  20. cairo填充_Cairo图形指南

热门文章

  1. 超级管理员登陆后如果连续20分钟无操作再次操作时需要重新登陆的思路
  2. linux配置脚本启动快捷命令
  3. SpringBoot+MyBatisPlus+Redis+Jwt+Shiro+Vue 完整博客文章管理前后端实战
  4. 【转】SQL decode 函数的用法
  5. 电脑无法启动不断自动重启
  6. JDK的配置(附多个JDK配置方法)
  7. matlab需要64g内存吗,买128G的手机有必要吗?64G手机内存会不够用么?
  8. extjs form java_[Java教程]ExtJS入门教程02,form也可以很优雅
  9. [杂感] 缅怀乔布斯
  10. js 从一个数组中随机抽取元素