Streamsets 介绍
StreamSet 介绍
Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。
最大的特点有:
- 可视化界面操作,可以直观排查错误;
- 内置监控,可是实时查看数据流传输的基本信息和数据的质量;
- 强大的整合力,对现有常用组件全力支持。
对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)、执行器(Executor)。
具体的介绍,请参考:https://streamsets.com/documentation/datacollector/3.9.x/help/index.html
官方论坛:https://ask.streamsets.com/questions/
StreamSet 安装
streamset安装有多种方式,
1. Docker 安装
docker 镜像发布安装,步骤简单很多
docker pull streamsets/datacollector
docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc
2. RPM 安装
1、下载安装包
下载链接:https://streamsets.com/products/dataops-platform/open-source/
目前官方下载需要注册,简单注册一下好了。
这家伙足足有5个多GB,下载前请准备好充足的磁盘空间
2、安装
安装前准备:安装jdk
系统环境:centos7
# 下载解压
[root@localhost ~]# wget https://s3-us-west-2.amazonaws.com/archives.streamsets.com/datacollector/3.18.1/rpm/el7/activation/streamsets-datacollector-3.18.1-el7-activation-all-rpms.tar
[root@localhost ~]# tar xf streamsets-datacollector-3.18.1-el7-activation-all-rpms.tar
[root@localhost ~]# cd streamsets-datacollector-3.18.1-el7-activation-all-rpms
# 安装
[root@localhost ~]# yum localinstall streamsets*.rpm -y
3、启动
我们先不改Streamsts参数,直接启动
[root@localhost ~]# systemctl start sdc
[root@localhost ~]# ps -ef|grep sdc
[root@localhost ~]# systemctl status sdc
[root@localhost ~]# systemctl enable sdc
[root@localhost ~]# systemctl status sdc
4、登录
Streamsets默认端口号:18630
所以访问链接为:http://host:18630
密码:admin/admin
实时数据同步管道,我们现在主要是将RDS中的数据同步到ES中。以项目为单位创建管道(一个项目一个管道)后续我将详细介绍实时宽表的思路、实现过程
Streamsets 介绍相关推荐
- Streamsets介绍
Streamsets简单介绍 Streamsets是一款用于数据集成.处理及流转的开源平台,它提供了一个web操作界面,在该界面中业务人员可以不需要编写复杂的代码,只需要通过拖拽和连线的方式,即可从多 ...
- streamsets数据采集平台介绍
Streamsets功能介绍 Streamsets功能介绍 1 数据采集组件简介 1.1 场景分析 1.2 组件特点 1.3 数据接入组件 2 数据采集管道介绍 2.1 管道特点 2.2 数据源,处理 ...
- 【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道
更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data:此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.a ...
- Streamsets相关资料汇总
Streamsets相关资料汇总 1.Streamsets官网介绍 https://streamsets.com/ Github:https://github.com/search?utf8=%E2% ...
- StreamSets 3.22.2 安装部署
StreamSets(3.22.2) 安装部署 简介: Control Hub: StreamSets Control Hub是所有数据流管道的中心控制点.Control Hub允许团队大规模构建和执 ...
- Streamsets简介
Streamsets简介 一.是什么? 二.data collector简介 2.1 创建管道 2.2 streamsets data collector数据处理组件分类 2.3 streamsets ...
- StreamSets使用指南
最近在调研Streamsets,照猫画虎做了几个最简单的Demo鉴于网络上相关资料非常少,做个记录. 1. 简介 Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采 ...
- Streamsets自定义组件开发
需求痛点 在实际项目的使用过程中,有些情况下现有的组件不能完全满足具体的业务需求,比如JDBC插入数据不是真正的batch提交的.较低版本的没有提供FieldMapper和FTP/SFTP写入客户端等 ...
- 【StreamSets】StreamSets 表达式语言篇
StreamSets提供了强大的表达式语言,通过这些表达式语言能够完成源字段.源属性的获取,以便更好的组织数据传递给目标组件进行处理.因此熟练的掌握表达式语言,才能提高你的StreamSets的开发能 ...
最新文章
- Go 学习笔记(32)— 类型系统(命名类型、未命名类型、底层类型、类型强制转换、类型别名和新声明类型)
- ASP.NET TricksTip:关于Tooltip(title)的换行问题
- zookeeper都有哪些使用场景
- CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布
- 用matlab做bp神经网络预测,神经网络预测matlab代码
- Three.js学习笔记①---搭建本地three.js官网(来自B站老陈视频)
- Win7系统更新错误代码80073712的解决办法
- 工序(过程)能力指数
- Linux域名IP映射
- Linux完美学习笔记
- Three.js修改模型中心点
- 精简高效的CSS命名准则/方法
- 【OpenJudge】白细胞计数
- “气球” 的最大数量
- 简单的解决textarea文本框内容换行,对应到页面的内容也换行的问题
- 【Maya】移动、缩放、旋转、万向节旋转、冻结(未完成)
- python金融数据分析单元测试答案_参考答案2020智慧树知到Python金融数据分析
- 自动正则表达式生成网站
- 基于asp.net的幼儿园接送信息管理系统-计算机毕业设计
- HBase的微博案例