StreamSet 介绍

Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。
最大的特点有:

  1. 可视化界面操作,可以直观排查错误;
  2. 内置监控,可是实时查看数据流传输的基本信息和数据的质量;
  3. 强大的整合力,对现有常用组件全力支持。

对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)、执行器(Executor)。
具体的介绍,请参考:https://streamsets.com/documentation/datacollector/3.9.x/help/index.html
官方论坛:https://ask.streamsets.com/questions/

StreamSet 安装

streamset安装有多种方式,

1. Docker 安装

docker 镜像发布安装,步骤简单很多

docker pull streamsets/datacollector
docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc

2. RPM 安装

1、下载安装包
下载链接:https://streamsets.com/products/dataops-platform/open-source/
目前官方下载需要注册,简单注册一下好了。

这家伙足足有5个多GB,下载前请准备好充足的磁盘空间

2、安装
安装前准备:安装jdk
系统环境:centos7

# 下载解压
[root@localhost ~]# wget https://s3-us-west-2.amazonaws.com/archives.streamsets.com/datacollector/3.18.1/rpm/el7/activation/streamsets-datacollector-3.18.1-el7-activation-all-rpms.tar
[root@localhost ~]# tar xf streamsets-datacollector-3.18.1-el7-activation-all-rpms.tar
[root@localhost ~]# cd streamsets-datacollector-3.18.1-el7-activation-all-rpms
# 安装
[root@localhost ~]# yum localinstall streamsets*.rpm -y

3、启动
我们先不改Streamsts参数,直接启动

[root@localhost ~]# systemctl start sdc
[root@localhost ~]# ps -ef|grep sdc
[root@localhost ~]# systemctl status sdc
[root@localhost ~]# systemctl enable sdc
[root@localhost ~]# systemctl status sdc

4、登录
Streamsets默认端口号:18630
所以访问链接为:http://host:18630
密码:admin/admin


实时数据同步管道,我们现在主要是将RDS中的数据同步到ES中。以项目为单位创建管道(一个项目一个管道)后续我将详细介绍实时宽表的思路、实现过程

Streamsets 介绍相关推荐

  1. Streamsets介绍

    Streamsets简单介绍 Streamsets是一款用于数据集成.处理及流转的开源平台,它提供了一个web操作界面,在该界面中业务人员可以不需要编写复杂的代码,只需要通过拖拽和连线的方式,即可从多 ...

  2. streamsets数据采集平台介绍

    Streamsets功能介绍 Streamsets功能介绍 1 数据采集组件简介 1.1 场景分析 1.2 组件特点 1.3 数据接入组件 2 数据采集管道介绍 2.1 管道特点 2.2 数据源,处理 ...

  3. 【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

    更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data:此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.a ...

  4. Streamsets相关资料汇总

    Streamsets相关资料汇总 1.Streamsets官网介绍 https://streamsets.com/ Github:https://github.com/search?utf8=%E2% ...

  5. StreamSets 3.22.2 安装部署

    StreamSets(3.22.2) 安装部署 简介: Control Hub: StreamSets Control Hub是所有数据流管道的中心控制点.Control Hub允许团队大规模构建和执 ...

  6. Streamsets简介

    Streamsets简介 一.是什么? 二.data collector简介 2.1 创建管道 2.2 streamsets data collector数据处理组件分类 2.3 streamsets ...

  7. StreamSets使用指南

    最近在调研Streamsets,照猫画虎做了几个最简单的Demo鉴于网络上相关资料非常少,做个记录. 1. 简介 Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采 ...

  8. Streamsets自定义组件开发

    需求痛点 在实际项目的使用过程中,有些情况下现有的组件不能完全满足具体的业务需求,比如JDBC插入数据不是真正的batch提交的.较低版本的没有提供FieldMapper和FTP/SFTP写入客户端等 ...

  9. 【StreamSets】StreamSets 表达式语言篇

    StreamSets提供了强大的表达式语言,通过这些表达式语言能够完成源字段.源属性的获取,以便更好的组织数据传递给目标组件进行处理.因此熟练的掌握表达式语言,才能提高你的StreamSets的开发能 ...

最新文章

  1. Go 学习笔记(32)— 类型系统(命名类型、未命名类型、底层类型、类型强制转换、类型别名和新声明类型)
  2. ASP.NET TricksTip:关于Tooltip(title)的换行问题
  3. zookeeper都有哪些使用场景
  4. CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布
  5. 用matlab做bp神经网络预测,神经网络预测matlab代码
  6. Three.js学习笔记①---搭建本地three.js官网(来自B站老陈视频)
  7. Win7系统更新错误代码80073712的解决办法
  8. 工序(过程)能力指数
  9. Linux域名IP映射
  10. Linux完美学习笔记
  11. Three.js修改模型中心点
  12. 精简高效的CSS命名准则/方法
  13. 【OpenJudge】白细胞计数
  14. “气球” 的最大数量
  15. 简单的解决textarea文本框内容换行,对应到页面的内容也换行的问题
  16. 【Maya】移动、缩放、旋转、万向节旋转、冻结(未完成)
  17. python金融数据分析单元测试答案_参考答案2020智慧树知到Python金融数据分析
  18. 自动正则表达式生成网站
  19. 基于asp.net的幼儿园接送信息管理系统-计算机毕业设计
  20. HBase的微博案例

热门文章

  1. vue 获取安卓原生方法_VUE H5调用原生APP方法实践笔记
  2. 《逆袭大学——传给IT学子的正能量》文件夹
  3. open failed: EINVAL (Invalid argument)
  4. 数据库存储过程的作用
  5. 修改鼠标光标的形状(二)
  6. 2022年全球市场按摩椅总体规模、主要生产商、主要地区、产品和应用细分研究报告
  7. [c]输入一个英文句子,统计句子中单词的个数
  8. Shopee虾皮的流量从哪里来?站内外都包括哪些方面呢?
  9. Category为什么不能添加属性
  10. jquery validator 冬猫