1、kafka是什么?

Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。

2、产生背景

Kafka是一个消息系统,用作LinkedIn的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件,然后周期性地对这些文件进行统计分析。运营数据指的3是服务器的性能数据(CPU、IO使用率、请求时间、服务日志等等数据)。运营数据的统计方法种类繁多。

3、基本架构图

4、基本概念解释

1)Broker

Kafka集群包含一个或多个服务器,这种服务器被称为broker。broker端不维护数据的消费状态,提升了性能。直接使用磁盘进行存储,线性读写,速度快:避免了数据在JVM内存和系统内存之间的复制,减少耗性能的创建对象和垃圾回收。

2)Producer

负责发布消息到Kafka broke

3)Consumer

消息消费者,向Kafka broker读取消息的客户端,consumer从broker拉取(pull)数据并进行处理。

4)Topic

每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)

5)Partition

Parition是物理上的概念,每个Topic包含一个或多个Partition.

6)Consumer Group

每个Consumer属于一个特定的Consumer Group(可为每个Consumer指定group name,若不指定group name则属于默认的group)

7)Topic & Partition

Topic在逻辑上可以被认为是一个queue,每条消费都必须指定它的Topic,可以简单理解为必须指明把这条消息放进哪个queue里。为了使得Kafka的吞吐率可以线性提高,物理上把Topic分成一个或多个Partition,每个Partition在物理上对应一个文件夹,该文件夹下存储这个Partition的所有消息和索引文件。若创建topic1和topic2两个topic,且分别有13个和19个分区,则整个集群上会相应会生成共32个文件夹(本文所用集群共8个节点,此处topic1和topic2 replication-factor均为1)。

5、适用场景

1、Messaging

对于一些常规的消息系统,kafka是个不错的选择;partitons/replication和容错,可以使kafka具有良好的扩展性和性能优势.不过到目前为止,我们应该很清楚认识到,kafka并没有提供JMS中的"事务性""消息传输担保(消息确认机制)""消息分组"等企业级特性;kafka只能使用作为"常规"的消息系统,在一定程度上,尚未确保消息的发送与接收绝对可靠(比如,消息重发,消息发送丢失等)

2、Website activity tracking

kafka可以作为"网站活性跟踪"的最佳工具;可以将网页/用户操作等信息发送到kafka中.并实时监控,或者离线统计分析等

3、Metrics

Kafka通常被用于可操作的监控数据。这包括从分布式应用程序来的聚合统计用来生产集中的运营数据提要。

4、Log Aggregation

kafka的特性决定它非常适合作为"日志收集中心";application可以将操作日志"批量""异步"的发送到kafka集群中,而不是保存在本地或者DB中;kafka可以批量提交消息/压缩消息等,这对producer端而言,几乎感觉不到性能的开支.此时consumer端可以使hadoop等其他系统化的存储和分析系统

Kafka学习之一 Kafka是什么,主要应用在什么场景?相关推荐

  1. Kafka学习之四 Kafka常用命令

    2019独角兽企业重金招聘Python工程师标准>>> Kafka学习之四 Kafka常用命令 Kafka常用命令 以下是kafka常用命令行总结: 1.查看topic的详细信息 . ...

  2. kafka学习--使用kafka conect操作kafka connector

    1. 配置kafka connectors kafka connectors配置是简单的键值映射.对于独立模式,这些在属性文件中定义,并传递到命令行上的kafka Connect进程.在分布式模式下, ...

  3. Kafka学习笔记: Kafka 百惑梳理

    1. 消息经常堆积起来,不能消费了,重启服务就能继续消费了. 消息堆积可能原因如下:1. 生产速度大于消费速度,这样可以适当增加分区,增加consumer数量,提升消费TPS:2. consumer消 ...

  4. Kafka学习笔记——Kafka原理与使用详解

    Kafka 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础.现在它已被多家公司作为多种类型 ...

  5. Kafka学习(十)--Kafka消费者Consumer消费消息配置实战

    一. Kafka消费者Consumer消费消息配置实战 配置: public static Properties getProperties() {Properties props = new Pro ...

  6. kafka学习一-kafka消费模式

    1 点对点模式 消息生产者把消息发送到Queue中,然后消费者从Queue中取出并且消费消息.消息被消费后Queue中不再存储,所以一个消息只可以被一个消费者消费. 2 发布订阅模式 生产者把消息发布 ...

  7. [Big Data - Kafka] kafka学习笔记:知识点整理

    一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许 ...

  8. kafka 学习总结

    本文转自: https://blog.csdn.net/iverson2010112228/article/details/82631554 主要内容 kafka系统架构概要介绍 kafka重要组件 ...

  9. kafka学习笔记:知识点整理

    一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...

最新文章

  1. dede php 循环,织梦怎么循环调用多级子栏目如二级栏目下三级栏目
  2. 利用svn自动同步更新到网站服务器 -- 网摘
  3. php将换行变为 p 标签,editplus 将文本换行替换为p标签
  4. Cityscapse 数据集使用 + 训练 STDC踩坑
  5. swoole安装基本配置
  6. [转载]Java数据库设计中的14个技巧
  7. (9) ab测试工具安装与使用
  8. 【Flink】Pending record count must be zero at this point : 1
  9. 和无用代码说再见!阿里文娱无损代码覆盖率统计方案
  10. ActiveReports 报表应用教程 (9)---交互式报表之动态排序
  11. 拓端tecdat|爬取微博用户行为数据语义分析数据挖掘报告
  12. android widget 开发实例 : 桌面便签程序的实现具体解释和源代码 (上)
  13. html页面小宠物代码大全,宠物店网页设计html代码
  14. 计算机附件中小工具使用方法,计算机系统工具的使用方法
  15. 与计算机专业的社会学的论文,计算机专业研究生论文致谢词
  16. 2018招行笔试分红包
  17. Python爬虫基础1_urllib库1
  18. Oracle AutoVue 安装与配置说明
  19. 华为防火墙及它的工作原理
  20. UINX环境高级编程笔记 第3章 文件I/O

热门文章

  1. 毕业论文之Word使用
  2. 走迷宫最短距离——广搜
  3. RSA Conference 2019 APJ宣布创智赢家(R)式创新计划入围者和早期阶段初创公司展览中极具前景的初创公司
  4. STT-MRAM非易失存储器特点及应用
  5. C++字节转换 (byte转int 互转)(BCD和HEX转换)
  6. 机器学习特征工程——类别相关统计特征
  7. 剑网三问题汇总+答疑(2023年7月25日)(长期有效)
  8. 【IoT】产品认证:国密认证中的委托人、生产者、生产企业是什么意思?
  9. 阿里领导:手下两个应届生,一个踏实喜欢加班,一个技术强挑活,怎么选?...
  10. 玩客云-S805处理器-刷成安卓4.4.2系统全网通机顶盒-当贝纯净桌面-线刷固件包