1 Lambda架构介绍

Lambda架构划分为三层,分别是批处理层,服务层,和加速层。最终实现的效果,可以使用下面的表达式来说明。

query = function(alldata)


1.1 批处理层(Batch Layer, Apache Hadoop)

批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据。计算视图数据是一个连续的操作,因此,当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。 将数据集中计算得到的视图,这使得它不会被频繁地更新。根据你的数据集的大小和集群的规模,任何迭代转换计算的时间大约需要几小时。

1.2 服务层(Serving layer ,Cloudera Impala)

服务层是由Cloudera Impala框架来实现的,整体而言,使用了Impala的主要特性。从批处理输出的是一系列包含预计算视图的原始文件,服务层负责建立索引和呈现视图,以便于它们能够被很好被查询到。

由于批处理视图是静态的,服务层仅仅需要提供批量地更新和随机读,而Cloudera Impala正好符合我们的要求。为了使用Impala呈现视图,所有的服务层就是在Hive元数据中创建一个表,这些元数据都指向HDFS中的文件。随后,用户立刻能够使用Impala查询到视图。

Hadoop和Impala是批处理层和服务层极好的工具。Hadoop能够存储和处理千兆字节(petabytes)数据,而Impala能够查询快速且交互地查询到这个数据。可是,批处理和服务层单独存在,无法满足实时性需求。原因是MapReduce在设计上存在很高的延迟,它需要花费几小时的时间来将新数据展现给视图,然后通过媒介传递给服务层。这就是为什么我们需要加速层的原因。

1.3 加速层 (Speed layer, Storm, Apache HBase)

在本质上,加速层与批处理层是一样的,都是从它接受到的数据上计算而得到视图。加速层就是为了弥补批处理层的高延迟性问题,它通过Strom框架计算实时视图来解决这个问题。实时视图仅仅包含数据结果去供应批处理视图。同时,批处理的设计就是连续重复从获取的数据中计算批处理视图,而加速层使用的是增量模型,这是鉴于实时视图是增量的。加速层的高明之处在于实时视图作为临时量,只要数据传播到批处理中,服务层中相应的实时视图结果就会被丢掉。这个被称作为“完全隔离”,意味着架构中的复杂部分被推送到结构层次中,而结构层的结果为临时的,大大方便了连续处理视图。

令人疑惑的那部分就是呈现实时视图,以便于它们能够被查询到,以及使用批处理视图合并来获得全部的结果。由于实时视图是增量的,加速层需要同时随机的读和写。为此,我将使用Apache HBase数据库。HBase提供了对Storm连续地增量化实时视图的能力,同时,为Impala提供查询经批处理视图合并后得到的结果。Impala查询存储在HDFS中批处理视图和存储在HBase中的实时视图,这使得Impala成为相当完美的工具。

Lambda抽象架构也可以这样来描述:

欢迎加入微信公众号

大数据Lambda架构相关推荐

  1. 大数据lambda架构实现方案

    大数据lambda架构实现方案 基础结构 此项目主要为拓客查找潜在企业客户,展示企业客户详情需求提供服务.借鉴DDD设计思想对域进行划分,由于需求比较简单明确,此处主要按主体类型划分为企业客户域.店铺 ...

  2. 大数据Lambda架构详解

    1. 前言 随着互联网技术的发展,每一个业务都与数据息息相关,如搜索,推荐.这些业务有一个共同的特点是连接用户和数据.随着数据量的不断增加,对大数据的处理的要求也就会越来越高,在这期间出现了很多大数据 ...

  3. 什么是大数据lambda架构

    一.什么是Lambda架构 Lambda架构由Storm 的作者 [Nathan Marz] 提出, 根据维基百科的定义,Lambda 架构的设计是为了在处理大规模数据时,同时发挥流处理和批处理的优势 ...

  4. 一篇搞懂大数据Lambda架构及实践

    一.概述: 在聊lambda之前,首先要聊聊大数据中的一个痛点:如何在海量数据里做即时查询? 其实最简单的解决方法就是直接对海量数据做计算做查询,但是效率可想而知,有些计算可能需要几个小时甚至几天来完 ...

  5. 企业数据湖与大数据 Lambda 架构

    目录 1.Lambda架构背景介绍 2.大数据系统的关键特性 3.数据系统的本质 3.1.数据的本质 3.1.1.数据的特性:When & What 3.1.2.数据的存储:Store Eve ...

  6. 大数据中台架构之道: PaaS + DaaS +DA 全域中台架构详解

    你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...

  7. Google大数据技术架构探秘

    Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学习和 研究的重点,也是行业大数据技术架构的标杆和示范. 1.谷歌的数据中心 谷歌已经建立了世界上最快.最强大.最高质量的数据中心 ...

  8. 浅谈大数据平台架构设计

    全文共3735个字,建议8分钟阅读 近年来,随着IT技术与大数据.机器学习.算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘 ...

  9. 大数据平台架构技术选型与场景运用

    内容来源:2017年5月6日,大眼科技CTO张逸在"魅族技术开放日第八期--数据洞察"进行<大数据平台架构技术选型与场景运用>演讲分享.视频地址:https://mp. ...

最新文章

  1. 边缘加速创新和AI应用,Xilinx推出Kria自适应系统模块产品组合
  2. 云监控状态调查:公有云和混合云的监控成熟度落后于传统数据中心
  3. github 修改项目为public_在GitHub上为开源项目做贡献
  4. 软件定义的数据中心已经来临
  5. unity打开一片黑_你的面膜上黑!名!单!了!吗!
  6. 我喜欢用计算机400字,我的电脑400字作文
  7. adobe reader打开pdf闪退或自动关闭
  8. Nginx优化服务之网页压缩
  9. python李白买酒_李白买酒的数学问题
  10. Origin科研绘图20211129:双y轴能量曲线及loess光滑处理
  11. c1报考驾驶证网站php删除,c1驾驶证有违章,c1驾驶证免三种违章
  12. 利用MATLAB仿真实现交通红绿灯识别的目的
  13. VBS实现的日程提醒小工具
  14. 爬取起点中文网站原创风云榜小说排行
  15. android实时监控屏幕代码,Android 屏幕切换监听的实例代码
  16. 什么是TLB ?(转载)
  17. 计算平均值和标准方差。
  18. AV1 motion filed projection
  19. win7 IIS 503错误解决方法
  20. [转载]【Alientek STM32 实验2】--按键输入

热门文章

  1. 计算矩形和圆形的面积和周长(java)
  2. 投标要求提供计算机软件著作,中标人具备所投标设备的有效检测报告及系统软件的“著作权证”,是否违规?能否废标?...
  3. html中友情链接 版权信息,哪些情况是友情链接作弊?总结了11种方法!
  4. 加入彭友会,啥都能学会!
  5. 你还相信土豪吗?iPhone 5变土豪金5s教程(一)
  6. android开发之来电自动拒接并自动回复短信_上课模式app
  7. vue el-table表格实现从上到下(有序)选择
  8. java mifare_Mifare 串行读取协议
  9. react-native进行ios系统app版本提示更新(无需后端接口)跳转到App Store
  10. 兄弟连教育ABB战略合作签约 “工业机器人学院”项目正式启动