1. createStream会使用 Receiver;而createDirectStream不会,数据会通过driver接收。

2.createStream使用 Receiver 源源不断的接收数据并把数据交给 ReceiverSupervisor 处理最终存储为 blocks 作为 RDD 的输入,从 kafka 拉取数据与计算消费数据相互独立;而createDirectStream会在每个 batch 拉取数据并就地消费,到下个 batch 再次拉取消费,周而复始,从 kafka 拉取数据与计算消费数据是连续的,没有独立开

createStream 一般是一个inputstreaming 对应一个receiver,receiver其实就是一个消费者进程,你可以设置多个线程来消费,或者create多个inputstreaming 最后union就行。

3.createStream中创建的KafkaInputDStream 每个 batch 所对应的 RDD 的 partition 不与 Kafka partition 一一对应;而createDirectStream中创建的 DirectKafkaInputDStream 每个 batch 所对应的 RDD 的 partition 与 Kafka partition 一一对应。

batch与spark spring_spark streaming 与 kafka 结合使用的一些概念理解相关推荐

  1. 大数据Spark Structured Streaming集成 Kafka

    目录 1 Kafka 数据消费 2 Kafka 数据源 3 Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL 4 Kafka 特定配置 ...

  2. kafka spark Structured streaming整合后集群报错KafkaConsumer.subscribe(Ljava/util/Collection;)V

    简介 整个项目架构是在CDH中,,然后spark Structured streaming消费kafka. spark 2.3版本 kafka0.10版本 <!-- spark sql kafk ...

  3. Spark Streaming使用Kafka保证数据零丢失

    为什么80%的码农都做不了架构师?>>>    源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正.原文链接https://github.com/jacksu/ ...

  4. sparkstreaming监听hdfs目录_大数据系列之Spark Streaming接入Kafka数据

    Spark Streaming官方提供Receiver-based和Direct Approach两种方法接入Kafka数据,本文简单介绍两种方式的pyspark实现. 1.Spark Streami ...

  5. Spark Streaming之Kafka的Receiver和Direct方式

    一 Receiver方式 Receiver是使用Kafka的high level的consumer API来实现的.Receiver从Kafka中获取数据都是存储在Spark Executor内存中的 ...

  6. spark kafka java api_java实现spark streaming与kafka集成进行流式计算

    java实现spark streaming与kafka集成进行流式计算 2017/6/26补充:接手了搜索系统,这半年有了很多新的心得,懒改这篇粗鄙之文,大家看综合看这篇新博文来理解下面的粗鄙代码吧, ...

  7. Spark Streaming读取Kafka数据的两种方式

    Kafka在0.8和0.10之间引入了一种新的消费者API,因此,Spark Streaming与Kafka集成,有两种包可以选择: spark-streaming-kafka-0-8与spark-s ...

  8. Flume 以twitter为source,kafka为channel,hdfs为sink,再用spark streaming 读kafka topic

    Flume 以twitter为source,kafka为channel,hdfs为sink,再用spark streaming 读kafka topic Flume的配置文件: kafka_twitt ...

  9. 使用Spark Streaming从kafka中读取数据把数据写入到mysql 实例

    文章目录 一. 题目 题目和数据 二. pom依赖 三.建表语句 四. 连接kafka配置类 五. 自定义分区类 六. 读取数据并发送数据 七. 消费数据,把数据存储到mysql 一. 题目 题目和数 ...

  10. 2021年大数据Spark(四十九):Structured Streaming 整合 Kafka

    目录 整合 Kafka 说明 Kafka特定配置 ​​​​​​​KafkaSoure 1.消费一个Topic数据 2.消费多个Topic数据 3.消费通配符匹配Topic数据 ​​​​​​​Kafka ...

最新文章

  1. 大连理工计算机专业导师,大连理工大学计算机科学与技术学院研究生导师简介-申彦明...
  2. ​关于虚拟机迁移文档(p2v v2v
  3. java Integer中隐藏的细节魔鬼!来自面试官的三轮暴击!
  4. BugkuCTF解题报告---WEB
  5. 快速构建Windows 8风格应用31-构建磁贴
  6. 玻璃体液化研究(控制)
  7. Python 获取当前文件夹所有文件名并写入到excel文件中
  8. 前端 重构时需要注意的事项_前端数据层落地实践
  9. Hibernate学习笔记(二)
  10. 老鼠走迷宫php算法,C语言经典算法 - 老鼠走迷官(一)
  11. 构建适用于Oracle 11.2.0.x的Linux单数据库实例的DataGuard
  12. 机器学习:用正规方程法求解线性回归
  13. 大数据爆炸改变企业的决策
  14. Cortex-M开发板密码登陆界面
  15. 影视剪辑,Pr视频剪辑软件自学,界面介绍与自定义
  16. 使用lua脚本开发wow插件(魔兽世界插件开发·二)
  17. 为什么阿里不推荐使用MySQL分区表?
  18. Hulu 2022春季校园招聘来啦
  19. C++20 coroutine 探索I:co_await 原理 | 使用 C++ 协程写 python generator
  20. 智能语音电话机器人系统源码

热门文章

  1. 190322每日一句
  2. 杜克大学用13幅图告诉你人生的真谛,值得深思!
  3. Atitit Loading 动画效果
  4. Atitit 获取本机图像设备视频设备列表 设备检索列表解决方案
  5. Atitit  代理与分销系统(1)  子代理 充值总额功能设计概览 sum() groubpy subagt
  6. Atitit.atiDataStoreService   v2 新特性
  7. paip.asp vbs的代码折叠代码结构查看
  8. PAIP.从DATATABLE动态生成表头
  9. 石川:未知风险,错误定价,还是数据迁就?
  10. 金融业大整顿,是要回到十年前的水平吗?