基于webSpoon的数据采集器
1. 项目介绍
dataCollection项目在kettle基础开发的可视化任务调度系统,提供简单易用的操作界面,降低用户使用crontab调度的学习成本,缩短任务配置时间,避免配置过程中出错。系统对接webSpoon,支持在线编辑kettle脚本,通过数据整合功能,可同步资源库中已有的脚本,用户在创建完脚本之后,可通过系统任务管理,创建数据同步任务。
2. 特性
1、在线编辑kettle脚本,webSpoon download 提取码: cffa
2、资源库管理,避免脚本本地存储,版本错乱、丢失等问题;
3、通过Web构建kettle采集任务;
4、在线查看kettle执行结果及日志,便于排查采集问题;
5、任务告警,系统支持邮件告警,所有异常信息即使掌握;
3. 部署WEB端kettle
1)将webSpoon.zip压缩包上传到linux根目录
2)创建spoon文件夹
mkdir spoon
3)将webSpoon.zip解压到spoon文件夹下
mv webSpoon.zip spooncd spoonunzip webSpoon.zip
解压完成后查看目录
4)启动kettle web端
cd bin/./startup.sh
注意:
./startup.sh后如果提示权限不够, 需要修改权限:
chmod -R 777 /spoon./startup.sh
出现这个界面则启动成功
5)在windows上访问kettle
在浏览器上输入: http://ip:8080/spoon/spoon (ip为linux的ip地址)
4. 部署数据采集平台
V0.0.7 版本包下载
4.1 安装jdk1.8
自己安装,这里就不介绍了···
4.2 MySQL配置
1)下载部署包(自己编译也行),上传到/java 目录下
2)创建数据库data_collection
3)执行SQL文件
- 导入dataCollection平台数据库(./sql/mysql/data_collection_20220417_130951.sql)
- 导入数据库资源库脚本(./sql/mysql/kettle_rep_20220417_130548.sql)
4)解决Linux中MySQL表名区别大小写的问题
- 切到MySQL配置文件挂载的目录
cd /mysql/conf/
- 编辑 my.cnf 配置文件
vim my.cnf
在 [mysqld] 下面添加: lower_case_table_names=1
即可忽略表名大小写
4.3 修改源码配置
1)修改kettle配置文件
编辑 application-kettle.yml
kettle:log-file-path: /apps/logs/${spring.application.name}/run-logsencoding: utf-8upload-path: /apps/var/kettle-script-filekettle-home: /apps/var/file-repkettlePluginPackages: /home/ali/data/plugins
2)上传kettle插件
将kettle插件包plugins上传到 /home/ali/data/ 下
3)配置webSpoon
在 application.yml配置文件中配置 kettle的url:
spoon:url: 172.30.106.54:8080/spoon/spoon
4)配置数据源
application-mysql.yml
spring:datasource: # 数据库链接url: jdbc:mysql://172.30.106.54:3306/data_collection?useUnicode=true&characterEncoding=utf8&useSSL=false&allowPublicKeyRetrieval=true&serverTimezone=GMT%2B8username: rootpassword: root #数据库名、用户名和密码改为自己的driver-class-name: org.gjt.mm.mysql.Driver
5)运行jar包
java -jar dataCollection-0.0.7-SNAPSHOT.jar
访问: http://172.30.106.54:7080/ 出现以下界面 , 启动成功
5. 数据采集平台使用说明
5.1 启动和登录
- 启动
根据以上步骤进行启动 kettle 和 数据采集平台
- 登录
默认账号密码都为 admin
5.2 首页
首页为任务的监控界面
5.3 资源管理库
1)资源库列表
可以查看已经连接过的资源库列表
2)新增资源库
点击新增库资源库
点击保存, 新建完成, 即可在列表中查看到刚才新建的数据库资源库
5.4 数据整合
1)资源库列表
2)新增一个脚本
点击 保存, 会跳转到kettle web端界面
如果是新建的数据库资源库, 第一次新增脚本时需要在kettle界面连接该数据库资源库, 后续添加脚本则不需要
步骤:
(1) 点击右上角的 Connect 选择 Repository Manager
(2) 点击 Add 即: 新增资源库
(3) 点击 Other Repositories
(4) 选择 Database Repository, 然后点击 Get Started
(5) 设置资源库名称 (资源库名称需要和新增资源库时设置的名称保持一致)
(6) 设置 资源库连接, 点击New
(7) 连接名称(自定义); 连接类型, 连接方式 , ip, 数据库名 端口号 用户名 密码 需要和新增资源库时保持一致, 然后点击测试
(8) 点击back返回后, 点击 Finish完成
(9) 返回数据采集平台, 选择脚本,点击编辑, 即可编写脚本
5.5 编写脚本
- (1) 选择表输入和Excel输出, 并使用 shift + 鼠标左键 建立连接
(2) 编辑表输入, 新建数据库连接, 选择要操作的数据库和表
(3)点击预览, 显示如下, 表输入设置成功,点击确定
(4) 设置Excel输出
设置生成文件的路径: /opt/data/
获取字段
ctrl + s 进行保存
5.6 定时策略
可以设置任务定时执行的策略, 即: 多长时间执行一次
5.7 任务管理
- 任务分类
可以自定义任务分类
- 采集管理
(1) 新增转换
(2) 启动转换
(3) 生成文件
5.8 监控管理
可以查看任务的执行记录和执行状态
5.9 用户管理
基于webSpoon的数据采集器相关推荐
- Keil MDK介绍
转自:http://www.eefocus.com/book/08-11/575071276059422.html STM32微处理器基于ARM核,所以很多基于ARM嵌入式开发环境都可用于STM32开 ...
- STM32开发环境(工具)之Keil MDK 介绍
STM32微处理器基于ARM核,所以很多基于ARM嵌入式开发环境都可用于STM32开发平台.开发工具都可用于STM32开发.选择合适的开发环境可以加快开发进度,节省开发成本.本章将先对STM32常用的 ...
- oracle毕业论文题目,历届毕业论文申报题目大全.doc
历届毕业论文申报题目大全 历届毕业论文申报题目大全 基于蚁群算法的固定货架拣选路径优化问题 基于RS-232的数据采集器上位机编程 基于WEB的远程控制技术 基于粒子群优化算法的神经网络应用 基于BP ...
- 基于MSP430G2231实现多路数据采集器
基于MSP430G2231实现多路数据采集器 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 系列博客说明:此系列博客属于作者在大三大四阶段所储备的关于电子电 ...
- 基于dsPIC30F的高精度数据采集器的研制
基于dsPIC30F的高精度数据采集器的研制 [日期:2008-11-19] 来源:中电网 作者:哈尔滨工业大学 肖站 [字体:大 中 小] <script src="http:// ...
- 基于高并发的数据采集器
项目背景: 数据采集是当前很多智能设备都需要的.数据类型有很多种,有字符串,有json等等.交互协议有基于tcp的,有基于http的.现在针对原先项目面临的问题做出解决方案. 2.面临问题 1:并发量 ...
- Mocha NTA基于单采集器实现的多种流协议分析
业内主流的Flow协议技术 网络业界基于流(Flow)的分析技术主要有NetFlow.sFlow.cFlow和NetStreem四种.NetFlow是Cisco公司的独有技术,它既是一 ...
- 深度解析|基于 eBPF 的 Kubernetes 一站式可观测性系统
作者:李煌东.炎寻 摘要 阿里云目前推出了面向 Kubernetes 的一站式可观测性系统,旨在解决 Kubernetes 环境下架构复杂度高.多语言&多协议并存带来的运维难度高的问题,数据采 ...
- 腾讯技术课|基于Elastic Stack 搭建日志分析平台
为了让读者们可以更好的理解「如何基于Elastic Stack 搭建日志分析平台」,腾讯技术工程公众号特别邀请腾讯基础架构部的陈曦工程师通过语音录播分享的方式在「腾讯技术课」小程序里同步录制了语音+P ...
最新文章
- 特征值与特征向量_矩阵的特征值和特征向量
- 深度学习的数学 (4)张量、矩阵、导数
- JZOJ 5444. 【NOIP2017提高A组冲刺11.2】救赎
- react追加html元素,React给添加元素增加样式
- gc频繁的暂停启动_减少主要GC暂停的频率
- [html] 跨域通信有哪些方式?
- 中科大 计算机网络9 互联网历史
- 九连环_儿子的玩具—九连环
- 记录一次安恒信息面试过程
- ARM处理器异常处理
- linux 信号 --- 产生 阻塞 捕捉
- 类型事务修改 mysql 表类型 实际测试可执行
- java button_java button 问题
- K-均值聚类算法通俗讲解
- Youtube更改视频原始语言
- 明天更美好,世界有你更精彩!
- 用C语言实现推箱子小游戏基础程序
- 设计模式之建造者和原型模式
- JQuery日历 日期选择
- 详细解析STM32的时钟系统