Using Flume要点
flume是什么
可靠的,可扩展的大数据搬运系统,从数据生产者到数据最终目的地之间充当缓冲的角色,平衡数据生产者和消费者,提供稳定的流状态。
主要的目的地以hdsf以及hbase为主。
类似的有apache kafka以及facebook的scribe。
为什么要使用flume
把数据存储到hdfs或者hbase并不是简单地调用api那样简单,这里得考虑各种复杂的场景,比如并发写入的量以及hdfs及hbase的系统压力,网络延迟等等问题。
flume设计为灵活的分布式系统,提供可定制化的管道,保证不会丢失数据,提供持久的channel
flume的构成
agent为其基本单元(每个agent包括source、channel、sink三大部分
)
source,负责捕获数据到agent
source拦截器,修改或删除事件
Avro Source
Exec Source
Spooling Directory Source
NetCat Source
Sequence Generator Source
Syslog Sources
Syslog TCP Source
Multiport Syslog TCP Source
Syslog UDP Source
HTTP Source
channel,一个缓冲区,负责在成功写入数据到sink之前,保存source已经接收的数据
channel过滤器/选择器(
对事件应用过滤条件,决定事件应该写入到哪个source附带的channel中
)内置channel
Memory Channel
File Channel
JDBC Channel
channel处理器(
处理事件写入channel
)
sink,负责从channel移走数据到目的地或下一个agent
sink运行器(
事件处理分发
)sink组(
包含多个sink
)sink处理器(
从channel取数据写入到目的地
)
内置sink
HDFS Sink
Logger Sink
Avro Sink
IRC Sink
File Roll Sink
Null Sink
HBaseSinks
ElasticSearchSink
事件
flume把数据表示为事件,事件包括byte数组的主体以及map形式的报头(路由信息
)
拦截器
内置拦截器
Timestamp Interceptor
Host Interceptor
Static Interceptor
UUID Interceptor
Morpline Interceptor
Regex Filtering Interceptor
Regex Extractor Interceptor
适用场景
数据可以表示为多个独立记录
实时推送持续而且量级很大的数据流(
如果每几个小时有几G的数据,不损害hdfs,没必要部署flume
)
Using Flume要点相关推荐
- Flume(NG)架构设计要点及配置实践
Flume(NG)架构设计要点及配置实践 http://shiyanjun.cn/archives/915.html 转载于:https://blog.51cto.com/vikenxu/165732 ...
- Flume之——配置多个Sink源(一个Source对应多个Channel和Sink)
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/98055100 配置模型如下图: Flume的配置如下: myagent.sour ...
- 深度人脸识别:CVPR2020论文要点
深度人脸识别:CVPR2020论文要点 Towards Universal Representation Learning for Deep Face Recognition 论文链接:https:/ ...
- flume写入mysql_Flume高级之自定义MySQLSource
1 自定义Source说明 Source是负责接收数据到Flume Agent的组件.Source组件可以处理各种类型.各种格式的日志数据,包括avro.thrift.exec.jms.spoolin ...
- 变更控制管理流程图_干货丨项目管理流程及绘制规范要点
1 什么是流程 流程是把一个或多个输入转换为对顾客有价值的输出的活动.简单地来说,流程其实就是"工作流转的过程",这些工作需要多个部门.多个岗位的参与和配合,这些部门.岗位之间会有 ...
- Flume基础及Flume高质量博客合集
最近在学习Flume基础,Flume适用场景,及将源码修改为按文件读取数据,Flume监控目录文件夹,监控文件的原理: Flume基础 1. Flume简介 2. Flume 3要素 3. 适用场景 ...
- C#调用windows api的要点
在.Net Framework SDK文档中,关于调用Windows API的指示比较零散,并且其中稍全面一点的是针对Visual Basic .net讲述的.本文将C#中调用API的要点汇集如下,希 ...
- C#中调用Windows API的要点
在.Net Framework SDK文档中,关于调用Windows API的指示比较零散,并且其中稍全面一点的是针对Visual Basic .net讲述的.本文将C#中调用API的要点汇集如下,希 ...
- 启动子级时出错_减速机安装与使用时需注意的八个要点,细节很重要!
减速机安装方式一直都是广大朋友遇到的问题,因为安装出错不光会影响使用,还可能会造成减速机的损伤,一台减速机价格不菲,那么安装时该注意的八个要点都有什么呢?一起来看看吧! 1.底座式安装,应校准中心线高 ...
- 联机分析处理系统与联机事务处理系统的区别和联系_混合事务分析处理“HTAP”的技术要点分析...
HTAP是近些年来比较火的一个概念,本文将聊聊HTAP的前世今生及技术特点. 一.数据应用类别 根据数据的使用特征,可简单做如下划分.在选择技术平台之前,我们需要做好这样的定位. 1.1 OLTP 联 ...
最新文章
- 【思维导图-索引篇】搞定数据库索引就是这么简单
- word2016提示mathtype文件未找到:MathPage.wll
- 二分图的最大匹配—匈牙利算法
- zcmu1716(思维)
- Mysql生成连续时间段记录
- 频域补零上采样_AURIX 学习笔记(12)频域法互相关实现超声测距
- 笔试算法题(28):删除乱序链表中的重复项 找出已经排好序的两个数组中的相同项...
- 网页字体设置你了解吗?
- 笔记:Microservices for Java Developers
- less加管道tail_Linux-10 (CentOS)cat/more/less/ / 及echo/head /tail/的用法区别
- Cesium专栏-裁剪效果(基于3dtiles模型,附源码下载)
- 认知无线电与软件定义无线电的区别
- 虎牙代理php,huya虎牙PHP
- html文字闪光效果,css实现字体闪烁效果
- QQ、淘宝、MSN、Skype在线状态代码生成方法
- 分布式图数据库-JanusGraph简介
- php easyui filebox,easyui fileBox 获取文件名和添加下拉框
- Java模拟猜数字小游戏,有次数限制,并且输出猜测次数。
- 每周一本书之《Python大战机器学习:数据科学家的第一个小目标》
- 写服务器node实际项目,基于node搭建服务器,写接口,调接口,跨域的实例
热门文章
- Sublime Text3报错:Error while loading PyV8 binary:exit code 3
- apache poi excel显示 base64 图片_java操作Excel一:POI
- 浙江高级职称英语 计算机考试时间2016,浙江省2016年度全国专业技术人员职称外语等级统一考试时间...
- python函数案例名片管理器_python实现名片管理器的示例代码
- 根目录_macOS Catalina 根目录锁定问题解决方法
- php 7 环境安装
- 如何利用ansible callback插件对执行结果进行解析
- 玩转windows内置linux子系统_1.安装
- fir.im Weekly - 如何打造真正的工程师文化
- openstack手动部署简单记录