Jstorm 基本概念

本质

基于消息的流水线处理模型
是一套类似MapReduce一样的编程模型
内核是一套调度系统

适合的业务

高并发的计算任务
数据流之间相互无依赖

编程模型

Topology：即一个数据流的拓扑结构，包含多个Spout和Bolt
Spout：从外部获取数据，包含DB，Hbase，Kafka等
Bolt ：计算单元，系统内计算流转数据

角色

Nimbus：资源调度角色，可主备
Supervisor：接受nimubs 任务安排，启动任务，管理Worker
Worker：进程
Executor：执行线程,继承自Runnable
Task：执行逻辑单元,继承自Runnable

ack机制

ack闭环，保证数据不丢失（以后会结合源码分析ack实现）

设置acker 的并行个数，如果设置为0,acker失效，不能保证数据不丢失,或者设置配置topology.acker.executors（默认为null，即与该任务的work数一致）
```
stormConf.setNumAckers(JStormUtils.parseInt(conf.getProperty("jstorm.acker.num")));
```

Spout 发送消息必须带msgId，否则不能实现acker闭环

collector.emit(new Values(strMsg), new KafkaMessageId(partition, toEmitMsg.offset()));

Bolt发送消息必须传入接收到的tuple作为anchors参数的值，这样才能锚定tuple，将此Bolt纳入Ack闭环中
```
    public List<Integer> emit(String streamId, Collection<Tuple> anchors,List<Object> tuple)
```
topology.max.spout.pending设置，默认为null，无限。对spout task接收速度进行流控。当topology.max.spout.pending=5000,对于spout而言，还有5000个没有进行ack，就会停止spout的nextTuple。

topology.max.spout.pending设置后，会降低整个系统的吞吐量，可根据自己系统要求自行设置，以先某个数值开始，不断增加，最终达到系统稳定且吞吐量合适

topology.max.spout.pending要起作用，必须锚定tuple，因为这个是在ack闭环的基础上实现的。所以必须满足条件1,2,3
spout发送的事件在超时时间(topology.message.timeout.secs 默认为30s)内没有最终ack闭环，系统就会自动调用spout.fail,由spout编写者自行处理，一般在里面实现重传，如果实现不好，或者不处理，数据也会丢失
acker闭环并不保证数据不丢失，只是提供了一个机制可以实现数据不丢失，取决于Spout的编写者。acker闭环完成会调用spout.ack,闭环失败或者超时会调用 spout.fail

Jstorm 基本概念相关推荐

Flink 基本原理与生产实践分享【入门必读，概念清晰】
Flink 基本原理与生产实践分享[入门必读,概念清晰] https://zh.wikipedia.org/zh-hans/Apache_Flink Apache Flink是由Apache软件基金会 ...
阿里的STORM——JSTORM
看介绍文档貌似挺好: https://github.com/alibaba/jstorm 阿里拥有自己的实时计算引擎类似于hadoop 中的MR 开源storm响应太慢开源社区的速度完全跟不上Al ...
Flink如何取代JStorm，成为字节跳动流处理唯一标准？
AI前线导读: 本文将为大家展示字节跳动公司将 Jstorm 任务迁移到Apache Flink 上的整个过程以及后续计划.你可以借此了解到字节跳动公司引入Apache Flink 的背景,Apach ...
JStorm中的并行（ parallelismction ）介绍
JStorm中的并行( parallelismction )介绍 JStrom中.一个计算任务通过多台机器使得计算分解为多个独立并行执行在集群内执行的任务(tasks).从而得到水平扩展. JStor ...
JStorm－介绍-阿云栖社区
摘要: 1.概述 JStorm 是一个类似于 Hadoop 的MapReduce的计算系统,它是由Alibaba开源的实时计算模型,它使用Java重写了原生的Storm模型(Clojure和Java混 ...
CentOS 6.8 安装JStorm集群（jstorm-2.1.1 ）
Alibaba JStorm 是一个强大的企业级流式计算引擎,是Apache Storm 的4倍性能, 可以自由切换行模式或mini-batch 模式,JStorm 不仅提供一个流式计算引擎, 还提供 ...
Flink学习1-基础概念
Flink学习1-基础概念 Flink系列文章更多Flink系列文章请点击Flink系列文章更多大数据文章请点击大数据好文推荐摘要本文是作者学习Flink的一些文档整理.记录和心得体会,希望与 ...
并发框架Disruptor(核心概念入门高性能原理-伪共享 CAS 环形数据生产和消费模式高级使用 )
并发框架Disruptor 并发框架Disruptor Disruptor概述背景什么是Disruptor 为什么使用Disruptor Disruptor 的核心概念 Ring Buffer S ...
RPC 笔记（03）— gRPC 概念、安装、编译、客户端和服务端示例
1. gRPC 概念 gRPC 是 Google 开源的一款高性能的 RPC 框架.GitHub 上介绍如下: gRPC is a modern, open source, high-performa ...

Jstorm 基本概念

本质

适合的业务

编程模型

角色

ack机制

Jstorm 基本概念相关推荐

最新文章

热门文章