flume是什么

  • 可靠的,可扩展的大数据搬运系统,从数据生产者到数据最终目的地之间充当缓冲的角色,平衡数据生产者和消费者,提供稳定的流状态。

  • 主要的目的地以hdsf以及hbase为主。

  • 类似的有apache kafka以及facebook的scribe。

为什么要使用flume

  • 把数据存储到hdfs或者hbase并不是简单地调用api那样简单,这里得考虑各种复杂的场景,比如并发写入的量以及hdfs及hbase的系统压力,网络延迟等等问题。

  • flume设计为灵活的分布式系统,提供可定制化的管道,保证不会丢失数据,提供持久的channel

flume的构成

agent为其基本单元(每个agent包括source、channel、sink三大部分)

source,负责捕获数据到agent

  • source拦截器,修改或删除事件

Avro Source
Exec Source
Spooling Directory Source
NetCat Source
Sequence Generator Source
Syslog Sources
Syslog TCP Source
Multiport Syslog TCP Source
Syslog UDP Source
HTTP Source

channel,一个缓冲区,负责在成功写入数据到sink之前,保存source已经接收的数据

  • channel过滤器/选择器(对事件应用过滤条件,决定事件应该写入到哪个source附带的channel中)

  • 内置channel

Memory Channel
File Channel
JDBC Channel

  • channel处理器(处理事件写入channel)

sink,负责从channel移走数据到目的地或下一个agent

  • sink运行器(事件处理分发)

  • sink组(包含多个sink)

  • sink处理器(从channel取数据写入到目的地)

  • 内置sink

HDFS Sink
Logger Sink
Avro Sink
IRC Sink
File Roll Sink
Null Sink
HBaseSinks
ElasticSearchSink

事件

flume把数据表示为事件,事件包括byte数组的主体以及map形式的报头(路由信息)

拦截器

  • 内置拦截器

Timestamp Interceptor
Host Interceptor
Static Interceptor
UUID Interceptor
Morpline Interceptor
Regex Filtering Interceptor
Regex Extractor Interceptor

适用场景

  • 数据可以表示为多个独立记录

  • 实时推送持续而且量级很大的数据流(如果每几个小时有几G的数据,不损害hdfs,没必要部署flume)

Using Flume要点相关推荐

  1. Flume(NG)架构设计要点及配置实践

    Flume(NG)架构设计要点及配置实践 http://shiyanjun.cn/archives/915.html 转载于:https://blog.51cto.com/vikenxu/165732 ...

  2. Flume之——配置多个Sink源(一个Source对应多个Channel和Sink)

    转载请注明出处:https://blog.csdn.net/l1028386804/article/details/98055100 配置模型如下图: Flume的配置如下: myagent.sour ...

  3. 深度人脸识别:CVPR2020论文要点

    深度人脸识别:CVPR2020论文要点 Towards Universal Representation Learning for Deep Face Recognition 论文链接:https:/ ...

  4. flume写入mysql_Flume高级之自定义MySQLSource

    1 自定义Source说明 Source是负责接收数据到Flume Agent的组件.Source组件可以处理各种类型.各种格式的日志数据,包括avro.thrift.exec.jms.spoolin ...

  5. 变更控制管理流程图_干货丨项目管理流程及绘制规范要点

    1 什么是流程 流程是把一个或多个输入转换为对顾客有价值的输出的活动.简单地来说,流程其实就是"工作流转的过程",这些工作需要多个部门.多个岗位的参与和配合,这些部门.岗位之间会有 ...

  6. Flume基础及Flume高质量博客合集

    最近在学习Flume基础,Flume适用场景,及将源码修改为按文件读取数据,Flume监控目录文件夹,监控文件的原理: Flume基础 1. Flume简介 2. Flume 3要素 3. 适用场景 ...

  7. C#调用windows api的要点

    在.Net Framework SDK文档中,关于调用Windows API的指示比较零散,并且其中稍全面一点的是针对Visual Basic .net讲述的.本文将C#中调用API的要点汇集如下,希 ...

  8. C#中调用Windows API的要点

    在.Net Framework SDK文档中,关于调用Windows API的指示比较零散,并且其中稍全面一点的是针对Visual Basic .net讲述的.本文将C#中调用API的要点汇集如下,希 ...

  9. 启动子级时出错_减速机安装与使用时需注意的八个要点,细节很重要!

    减速机安装方式一直都是广大朋友遇到的问题,因为安装出错不光会影响使用,还可能会造成减速机的损伤,一台减速机价格不菲,那么安装时该注意的八个要点都有什么呢?一起来看看吧! 1.底座式安装,应校准中心线高 ...

  10. 联机分析处理系统与联机事务处理系统的区别和联系_混合事务分析处理“HTAP”的技术要点分析...

    HTAP是近些年来比较火的一个概念,本文将聊聊HTAP的前世今生及技术特点. 一.数据应用类别 根据数据的使用特征,可简单做如下划分.在选择技术平台之前,我们需要做好这样的定位. 1.1 OLTP 联 ...

最新文章

  1. 【思维导图-索引篇】搞定数据库索引就是这么简单
  2. word2016提示mathtype文件未找到:MathPage.wll
  3. 二分图的最大匹配—匈牙利算法
  4. zcmu1716(思维)
  5. Mysql生成连续时间段记录
  6. 频域补零上采样_AURIX 学习笔记(12)频域法互相关实现超声测距
  7. 笔试算法题(28):删除乱序链表中的重复项 找出已经排好序的两个数组中的相同项...
  8. 网页字体设置你了解吗?
  9. 笔记:Microservices for Java Developers
  10. less加管道tail_Linux-10 (CentOS)cat/more/less/ / 及echo/head /tail/的用法区别
  11. Cesium专栏-裁剪效果(基于3dtiles模型,附源码下载)
  12. 认知无线电与软件定义无线电的区别
  13. 虎牙代理php,huya虎牙PHP
  14. html文字闪光效果,css实现字体闪烁效果
  15. QQ、淘宝、MSN、Skype在线状态代码生成方法
  16. 分布式图数据库-JanusGraph简介
  17. php easyui filebox,easyui fileBox 获取文件名和添加下拉框
  18. Java模拟猜数字小游戏,有次数限制,并且输出猜测次数。
  19. 每周一本书之《Python大战机器学习:数据科学家的第一个小目标》
  20. 写服务器node实际项目,基于node搭建服务器,写接口,调接口,跨域的实例

热门文章

  1. Sublime Text3报错:Error while loading PyV8 binary:exit code 3
  2. apache poi excel显示 base64 图片_java操作Excel一:POI
  3. 浙江高级职称英语 计算机考试时间2016,浙江省2016年度全国专业技术人员职称外语等级统一考试时间...
  4. python函数案例名片管理器_python实现名片管理器的示例代码
  5. 根目录_macOS Catalina 根目录锁定问题解决方法
  6. php 7 环境安装
  7. 如何利用ansible callback插件对执行结果进行解析
  8. 玩转windows内置linux子系统_1.安装
  9. fir.im Weekly - 如何打造真正的工程师文化
  10. openstack手动部署简单记录