flume读取kafka写hive

2024-06-22 00:39:13

注意：需要提前创建hive接收信息的表--test0617

否则报错:

Caused by: NoSuchObjectException(message:rt1.cr_kafka_t_test0707 table not found)

配置文件

localAgent.sources = skafka
localAgent.sinks = shive
localAgent.channels = k2h

#k2h shive
localAgent.sinks.shive.channel = k2h
#skafka k2h
localAgent.sources.skafka.channels = k2h

#describe the source
localAgent.sources.skafka.type = org.apache.flume.source.kafka.KafkaSource
localAgent.sources.skafka.zookeeperConnect = localhost:2181
localAgent.sources.skafka.batchSize = 1000
localAgent.sources.skafka.batchDurationMillis = 500
localAgent.sources.skafka.kafka.bootstrap.servers = localhost:9092
localAgent.sources.skafka.kafka.topics = mytopic0617
localAgent.sources.skafka.kafka.consumer.group.id = kafka007
localAgent.sources.skafka.kafka.consumer.auto.offset.reset = earliest

#use a channel which buffers events in memory
localAgent.channels.k2h.type = memory
localAgent.channels.k2h.capacity = 1000
localAgent.channels.k2h.transactionCapacity = 1000

#sinks type hive
localAgent.sinks.shive.type = hive
localAgent.sinks.shive.channel = k2h
localAgent.sinks.shive.hive.metastore = thrift://localhost:9083
localAgent.sinks.shive.hive.database = database1
localAgent.sinks.shive.hive.table = test0617
localAgent.sinks.shive.hive.partition = %Y-%m-%d
localAgent.sinks.shive.batchSize = 500
localAgent.sinks.shive.useLocalTimeStamp = true
localAgent.sinks.shive.round = true
localAgent.sinks.shive.roundValue = 24
localAgent.sinks.shive.roundUnit = hour
localAgent.sinks.shive.serializer = JSON

启动异常：

org.apache.flume.ChannelException: Put queue for MemoryTransaction of capacity 1000 full, consider committing more frequently, increasing capacity or increasing thread count

解决，入上配置中标红部分修改之后，异常解决。

需要启动hdfs、hive、mysql、zk、kafka、flume，注意启动顺序。

flume读取kafka写hive相关推荐

大数据开发超高频面试题！大厂面试必看！包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、数仓等
大数据开发面试题包含Hadoop.zookeeper.Hive.flume.kafka.Hbase.flink.spark.数仓等高频面试题. 数据来自原博主爬虫获取! 文章目录大数据开发面试题 ...
通过Flume简单实现Kafka与Hive对接（Json格式）
将以下存储在kafka的topic中的JSON格式字符串,对接存储到Hive的表中 {"id":1,"name":"小李"} {" ...
Flume下读取kafka数据后再打把数据输出到kafka,利用拦截器解决topic覆盖问题
1:如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体表现为,Kafka Source可以正常从指 ...
Flume和Kafka的区别与联系
同样是流式数据采集框架, flume一般用于日志采集,可以定制很多数据源,减少开发量,基本架构是一个flume进程agent(source.拦截器.选择器.channel<Memory Chan ...
flume消费kafka数据太慢_kafka补充01
为什么高吞吐? •写数据 –1.页缓存技术 •kafka写出数据时先将数据写到操作系统的pageCache上,由操作系统自己决定什么时候将数据写到磁盘上 –2.磁盘顺序写 •磁盘顺序写的性能会比随机写 ...
Kafka09：【案例】Flume集成Kafka
一.Flume集成Kafka 在实际工作中flume和kafka会深度结合使用 1:flume采集数据,将数据实时写入kafka 2:flume从kafka中消费数据,保存到hdfs,做数据备份下面 ...
flume 对接 kafka 报错： Error while fetching metadata with correlation id 35 {=INVALID_TOPIC_EXCEPTION}
flume 对接 kafka 报错:Error while fetching metadata with correlation id 35 : {=INVALID_TOPIC_EXCEPTION} ...
Kafka实战－Flume到Kafka
1.概述前面给大家介绍了整个Kafka项目的开发流程,今天给大家分享Kafka如何获取数据源,即Kafka生产数据.下面是今天要分享的目录: 数据来源 Flume到Kafka 数据源加载预览下面 ...
《从0到1学习Flink》—— Flink 读取 Kafka 数据批量写入到 MySQL
 前言之前其实在 <从0到1学习Flink>-- 如何自定义 Data Sink ? 文章中其实已经写了点将数据写入到 MySQL,但是一些配置化的 ...

最新文章

热门文章