在常规的数据处理中,我们最常访问的可能是来自于Mysql,文本等存储介质中的数据,对其进行计算分析。但是现在也越来越的出现流式计算的场景,对于某些时刻产生的数据能够进行实时性的分析。例如天猫双十一实时大屏,实时异常行为检测等。

有界数据集

有界数据集对开发者来说都很熟悉,在常规的处理中我们都会从Mysql,文本等获取数据进行计算分析。我们在处理此类数据时,特点就是数据是静止不动的。也就是说,没有再进行追加。又或者说再处理的当时时刻不考虑追加写入操作。所以有界数据集又或者说是有时间边界。在某个时间内的结果进行计算。那么这种计算称之为批计算,批处理。Batch Processing

例如:计算当前订单量。又或者是把当前mysql的数据读取到文件中等。

无界数据集

对于某些场景,类似于Kafka持续的计算等都被认定为无界数据集,无界数据集是会发生持续变更的、连续追加的。例如:服务器信令、网络传输流、实时日志信息等。对于此类持续变更、追加的数据的计算方式称之为流计算。Streaming Processing

场景比较

无界数据集与有界数据集有点类似于池塘和江河,我们在计算池塘中的鱼的数量时只需要把池塘中当前所有的鱼都计算一次就可以了。那么当前时刻,池塘中有多少条鱼就是结果。无界数据集类似于江河中的鱼,在奔流到海的过程中每时每刻都会有鱼流过而进入大海。那么计算鱼的数量就像是持续追加的。

有界数据集与无界数据集是一个相对模糊的概念,如果数据一条一条的经过处理引擎那么则可以认为是无界的,那么如果每间隔一分钟、一小时、一天进行一次计算那么则认为这一段时间的数据又相对是有界的。有界的数据又可以把数据一条一条的通过计算引擎,造成无界的数据集。所以,有界数据集与无界数据集可以存在互换的。因此业内也就开始追寻 批流统一 的框架。 

能够同时实现批处理与流处理的框架有Apache Spark和Apache Flink,而Apache Spark的流处理场景是一个微批场景,也就是它会在特定的时间间隔发起一次计算。而不是每条都会触发计算。也就是相当于把无界数据集切分为小量的有界数据。

Apache Flink基于有界数据集与无界数据集的特点,最终将批处理与流处理混合到同一套引擎当中,用户使用Apache Flink引擎能够同时实现批处理与流处理任务。

更多有趣和专业的大数据相关文章,微信搜索  : 指尖数虫  或扫码关注

一文了解Flink数据-有界数据与无界数据相关推荐

  1. 深刻理解Flink的有界流和无界流

    先来看看有界流的代码: package com.mischen.it;import org.apache.flink.api.common.typeinfo.Types; import org.apa ...

  2. Flink——有界流VS无界流

    什么是有界流和无界流? 有界流 有定义流的开始,也有定义流的结束. 有界流可以在摄取所有数据后再进行计算. 有界流所有数据可以被排序,所以并不需要有序摄取. 有界流处理通常被称为批处理 有界流,Fli ...

  3. 阻塞队列,有界队列,无界队列

    在并发编程中,有时候需要使用线程安全的队列.如果要实现一个线程安全的队列有两种方式:一种是使用阻塞算法,另一种是使用非阻塞算法. 使用阻塞算法的队列可以用一个锁(入队和出队用同一把锁)或两个锁(入队和 ...

  4. 聊聊Java中的并发队列中 有界队列和无界队列的区别

    转载自 https://blog.csdn.net/AJ1101/article/details/81711812 本文主要总体的说一说各种并发队列  首先来一张全体照  从有界无界上分  常见的有界 ...

  5. flink介绍:有界流和无界流

    日志:

  6. 小白学习Flink系列--第二篇-01(流式数据概念)

    导读 要想彻底理解Flink,就要了解流数据的前世今生,流数据的语义.特点,以及如何处理,以下文章就能很好的解释流数据的概念和模型,对了解Flink有很大的帮助 前言 今天流式数据处理在大数据领域是一 ...

  7. 【深度好文】Flink SQL流批⼀体化技术详解(一)

    持续输出 敬请关注 大数据架构  湖仓一体化  流批一体 离线+实时数仓  各种大数据解决方案  各种大数据新技术实践 持续输出  敬请关注 [珍藏版]数仓平台.推荐系统架构选型及解决⽅案_大数据研习 ...

  8. 云计算大数据面试题,云计算大数据面试题集锦

    大数据领域数据类型 1.1 有界数据 ​一般批处理(一个文件 或者一批文件),不管文件多大,都是可以度量 ​mapreduce hive sparkcore sparksql 1.2 无界数据 ​源源 ...

  9. 批处理和流处理如何区分? 有边界数据和无边界数据如何区分?

    写在前面 本文隶属于专栏<100个问题搞定大数据理论体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理 ...

最新文章

  1. 内行的AI盛会——北京智源大会带你洞见未来!(含日程及限量优惠)
  2. linux如何右键新建文件夹,在Ubuntu 18.04右键菜单中增加新文档(New Document)及其他类型选项...
  3. php种loop用法,PHP EvLoop 用法 手册 | 示例代码
  4. 一种医学图像分割的新思路【nnU-Net网络配置教程】
  5. 【Unity】6.1 Unity中的C#脚本基础知识
  6. 第 2 章 OpenStack 架构 - 017 - 部署 DevStack
  7. web服务器文件管理,web文件管理服务器
  8. 绑定控件中%#Eval()%和%=变量%的执行顺序
  9. 马云:旧制造业要凉,贸易战至少得打20年(附演讲全文)
  10. 怎样保证linux内核安全性,技术|如何做好 Linux 内核安全处理
  11. Linux内核学习路线 有入门到深入
  12. python翻转棋_Python算法做翻转棋子游戏
  13. 洛谷 P4654 [CEOI2017] Mousetrap 题解
  14. Qlikview出现异常重复计数的解决办法
  15. Redisson(2-3)分布式锁实现对比 VS Java的ReentrantLock的FairLock
  16. kotlin杂谈系列十二(Kotlin和Java的互操作)
  17. Vue3 第十篇Plus:使用iconfont阿里巴巴矢量图标库
  18. java 大于当前日期_java判断某日期 是否超过今天
  19. 粗放时代到规范时代,爬虫该何去何从?
  20. 都雪冬 20190912-2 命令行

热门文章

  1. SWUST OJ 962: 括号匹配问题(C语言实现)
  2. 进程已结束,退出代码-1073740791 (0xC0000409)查看不了详细报错的解决方法
  3. 关于覆写——Override
  4. IT行业以下几种情况,建议你趁早辞职!
  5. MATLAB 对含有nan值矩阵的处理
  6. mysql 各版本驱动jar包下载地址
  7. 实例讲解linux用户,组,文件目录权限
  8. WIN10系统桌面显示色彩不正常,发黄发暗
  9. C#,人工智能,机器人路径规划(Robotics Pathfinding)DStarLite(D* Lite Algorithm)优化算法与C#源程序
  10. angular学习是有好处