5.2去除重复数据 和5.3异常值处理
案例介绍:
通过Kettle工具,去除原始数据集revenue.txt中的缺失值。
1、通过使用Kettle工具,创建一个转换delete_missing_value,并添加“文本文件输入”控件、“字段选择”控件、“过滤记录”控件、“Excel输出”控件、“空操作(什么也不做)”控件以及Hop跳连接线。
配置文本文件输入
点击获取字段,然后改名:
预览数据:
在过滤记录中选择条件
Excel输出
结果:
案例介绍:
通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。
通过使用Kettle工具,创建一个转换fill_missing_value,并添加“文本文件输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“替换NULL值”控件、“合并记录”控件、“字段选择”控件以及Hop跳连接线。
选择好组件
文本文件输入:
过滤记录:
替换null值:
合并两个表:
结果:
其实感觉并不需要去过滤记录可以直接替换啊很奇怪。
异常值处理
案例介绍:
通过Kettle工具,替换和修改数据表interpolation_data中的异常值。
将组件设置好。
表输入,连接上所需表所在数据库,然后通过获取sql查询语句来获取表
过滤记录进行数据分批
将错误值变成空
再进行一次替换
根据id合并
在字段选择中移除多出来的数据
5.2去除重复数据 和5.3异常值处理相关推荐
- R语言dplyr包distinct函数去除重复数据行实战
R语言dplyr包distinct函数去除重复数据行实战 目录 R语言dplyr包distinct函数去除重复数据行实战 #导入dplyr包 #仿真数据
- java 两个数组去重复数据_Java实现数组去除重复数据的方法详解
本文实例讲述了Java实现数组去除重复数据的方法.分享给大家供大家参考,具体如下: 前一段时间被面试问到:如果一个数组中有重复元素,用什么方法可以去重?一时间会想到用一种方法,但是后来查阅资料后发现, ...
- mysql基础14(关于mysql数据库在没有主键情况下去除重复数据办法)
关于mysql数据库在没有主键情况下去除重复数据办法 约定 表名:mat 根据 cat 字段去重 新增加主键为 id 步骤 1.为mat新增一列自增主键 alter table mat add col ...
- execl筛选去重_excel表格如何去除重复数据进行筛选
原标题:"Excel表格如何去除重复数据"的相关路由器设置教程资料分享.- 来源:191路由网. 我们有时候会遇到这样的一个情况,一些数据里面有一些重复的,我们想去除这些重复的数据 ...
- linux列表去重复数据,Linux常用去除重复数据口令
一.uniq干什么用的 文本中的重复行,基本上不是我们所要的,所以就要去除掉.linux下有其他命令可以去除重复行,但是我觉得uniq还是比较方便的一个.使用uniq的时候要注意以下二点 1,对文本操 ...
- mysql去除重复数据
mysql去除重复数据 根据one列查询重复的数据(根据单列判断重复) SELECT * FROM tab_test WHERE ONE IN (SELECT ONE FROM testdelete ...
- mysql中如何去除重复数据_MySQL如何去除重复数据?
这篇文章主要介绍了MySQL 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复 ...
- mysql中如何去除重复数据_mysql数据库如何去除重复数据
mysql数据库去除重复数据的方法:1.查询需要删除的记录,会保留一条记录:2.删除重复记录,只保留一条记录,代码为[delete a from test1 a, (...)as bid from t ...
- php如何去重,php如何去除重复数据
php去除重复数据的方法:1.利用"array_unique"函数直接将一个数组中的重复的值去除:2.利用"array_flip"函数和"array_ ...
最新文章
- linux 用dd将iso写入U盘
- 异地备份同步校验脚本
- caffe源码c++学习笔记
- Scrapy爬虫框架命令行操作
- python 操作 elasticsearch-7.0.2 遇到的问题
- 错误代码1500什么意思_啊早安打工人是什么梗???
- tcp建立连接为什么需要三次握手
- 7-32 中位数 (10 分)
- XML通过XSL格式化的那点事(XML到自定义节点折叠显示)
- 【html、CSS、javascript-9】jquery-选择器及过滤器
- mysql 不同服务器数据库表同步_mysql 不同服务器数据库表同步
- python3 相对路径导入_Python中相对路径(导入)和绝对路径(导入)的区别
- 计算机的云是什么意思_云计算是什么意思?为什么叫云计算?
- HCNA之路由优先级及路由冗余备份
- 最近频繁用到正则表达式,恶补一下,高手略过(零宽断言)
- 【魔兽世界插件】魔兽世界插件实战笔记从入门到放弃的心理历程 第四节 窗体的移动
- Linux基础教程: 4、用户组和用户的创建
- 微信小程序音乐播放器实践
- mysql 手机号省份_根据手机号 判断省份和运营商
- 小米机器人履带双轮平衡_小米米兔机器人评测:一个站在平衡车上的机器人
热门文章
- Docker基础:Docker Desktop community的手动更新方法
- 纳思达:完美布局打印全产业链,持续开拓芯片品类
- k8s分离jdkj环境与java程序研究测试
- 奋斗的小鸟——dogxuefeng Oracle——distinct的用法
- 第二十篇玩转【斗鱼直播APP】系列之“趣玩”界面展示
- 系统资源是什么,以及线程什么时候不会释放 共享资源
- 回归分析(Regression Analysis)
- wps解析json数据_一些非常实用的JSON 教程
- Asterisk命令MeetMe详解
- Class4-Week2 Case study