batch与spark spring_spark streaming 与 kafka 结合使用的一些概念理解
1. createStream会使用 Receiver;而createDirectStream不会,数据会通过driver接收。
2.createStream使用 Receiver 源源不断的接收数据并把数据交给 ReceiverSupervisor 处理最终存储为 blocks 作为 RDD 的输入,从 kafka 拉取数据与计算消费数据相互独立;而createDirectStream会在每个 batch 拉取数据并就地消费,到下个 batch 再次拉取消费,周而复始,从 kafka 拉取数据与计算消费数据是连续的,没有独立开
createStream 一般是一个inputstreaming 对应一个receiver,receiver其实就是一个消费者进程,你可以设置多个线程来消费,或者create多个inputstreaming 最后union就行。
3.createStream中创建的KafkaInputDStream 每个 batch 所对应的 RDD 的 partition 不与 Kafka partition 一一对应;而createDirectStream中创建的 DirectKafkaInputDStream 每个 batch 所对应的 RDD 的 partition 与 Kafka partition 一一对应。
batch与spark spring_spark streaming 与 kafka 结合使用的一些概念理解相关推荐
- 大数据Spark Structured Streaming集成 Kafka
目录 1 Kafka 数据消费 2 Kafka 数据源 3 Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL 4 Kafka 特定配置 ...
- kafka spark Structured streaming整合后集群报错KafkaConsumer.subscribe(Ljava/util/Collection;)V
简介 整个项目架构是在CDH中,,然后spark Structured streaming消费kafka. spark 2.3版本 kafka0.10版本 <!-- spark sql kafk ...
- Spark Streaming使用Kafka保证数据零丢失
为什么80%的码农都做不了架构师?>>> 源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正.原文链接https://github.com/jacksu/ ...
- sparkstreaming监听hdfs目录_大数据系列之Spark Streaming接入Kafka数据
Spark Streaming官方提供Receiver-based和Direct Approach两种方法接入Kafka数据,本文简单介绍两种方式的pyspark实现. 1.Spark Streami ...
- Spark Streaming之Kafka的Receiver和Direct方式
一 Receiver方式 Receiver是使用Kafka的high level的consumer API来实现的.Receiver从Kafka中获取数据都是存储在Spark Executor内存中的 ...
- spark kafka java api_java实现spark streaming与kafka集成进行流式计算
java实现spark streaming与kafka集成进行流式计算 2017/6/26补充:接手了搜索系统,这半年有了很多新的心得,懒改这篇粗鄙之文,大家看综合看这篇新博文来理解下面的粗鄙代码吧, ...
- Spark Streaming读取Kafka数据的两种方式
Kafka在0.8和0.10之间引入了一种新的消费者API,因此,Spark Streaming与Kafka集成,有两种包可以选择: spark-streaming-kafka-0-8与spark-s ...
- Flume 以twitter为source,kafka为channel,hdfs为sink,再用spark streaming 读kafka topic
Flume 以twitter为source,kafka为channel,hdfs为sink,再用spark streaming 读kafka topic Flume的配置文件: kafka_twitt ...
- 使用Spark Streaming从kafka中读取数据把数据写入到mysql 实例
文章目录 一. 题目 题目和数据 二. pom依赖 三.建表语句 四. 连接kafka配置类 五. 自定义分区类 六. 读取数据并发送数据 七. 消费数据,把数据存储到mysql 一. 题目 题目和数 ...
- 2021年大数据Spark(四十九):Structured Streaming 整合 Kafka
目录 整合 Kafka 说明 Kafka特定配置 KafkaSoure 1.消费一个Topic数据 2.消费多个Topic数据 3.消费通配符匹配Topic数据 Kafka ...
最新文章
- 大连理工计算机专业导师,大连理工大学计算机科学与技术学院研究生导师简介-申彦明...
- ​关于虚拟机迁移文档(p2v v2v
- java Integer中隐藏的细节魔鬼!来自面试官的三轮暴击!
- BugkuCTF解题报告---WEB
- 快速构建Windows 8风格应用31-构建磁贴
- 玻璃体液化研究(控制)
- Python 获取当前文件夹所有文件名并写入到excel文件中
- 前端 重构时需要注意的事项_前端数据层落地实践
- Hibernate学习笔记(二)
- 老鼠走迷宫php算法,C语言经典算法 - 老鼠走迷官(一)
- 构建适用于Oracle 11.2.0.x的Linux单数据库实例的DataGuard
- 机器学习:用正规方程法求解线性回归
- 大数据爆炸改变企业的决策
- Cortex-M开发板密码登陆界面
- 影视剪辑,Pr视频剪辑软件自学,界面介绍与自定义
- 使用lua脚本开发wow插件(魔兽世界插件开发·二)
- 为什么阿里不推荐使用MySQL分区表?
- Hulu 2022春季校园招聘来啦
- C++20 coroutine 探索I:co_await 原理 | 使用 C++ 协程写 python generator
- 智能语音电话机器人系统源码
热门文章
- 190322每日一句
- 杜克大学用13幅图告诉你人生的真谛,值得深思!
- Atitit Loading 动画效果
- Atitit 获取本机图像设备视频设备列表 设备检索列表解决方案
- Atitit 代理与分销系统(1) 子代理 充值总额功能设计概览 sum() groubpy subagt
- Atitit.atiDataStoreService v2 新特性
- paip.asp vbs的代码折叠代码结构查看
- PAIP.从DATATABLE动态生成表头
- 石川:未知风险,错误定价,还是数据迁就?
- 金融业大整顿,是要回到十年前的水平吗?