案例介绍:
通过Kettle工具,去除原始数据集revenue.txt中的缺失值。
1、通过使用Kettle工具,创建一个转换delete_missing_value,并添加“文本文件输入”控件、“字段选择”控件、“过滤记录”控件、“Excel输出”控件、“空操作(什么也不做)”控件以及Hop跳连接线。

配置文本文件输入


点击获取字段,然后改名:

预览数据:



在过滤记录中选择条件

Excel输出


结果:

案例介绍:
通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。
通过使用Kettle工具,创建一个转换fill_missing_value,并添加“文本文件输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“替换NULL值”控件、“合并记录”控件、“字段选择”控件以及Hop跳连接线。

选择好组件

文本文件输入:



过滤记录:

替换null值:

合并两个表:



结果:

其实感觉并不需要去过滤记录可以直接替换啊很奇怪。

异常值处理
案例介绍:
通过Kettle工具,替换和修改数据表interpolation_data中的异常值。


将组件设置好。
表输入,连接上所需表所在数据库,然后通过获取sql查询语句来获取表

过滤记录进行数据分批

将错误值变成空

再进行一次替换

根据id合并

在字段选择中移除多出来的数据

5.2去除重复数据 和5.3异常值处理相关推荐

  1. R语言dplyr包distinct函数去除重复数据行实战

    R语言dplyr包distinct函数去除重复数据行实战 目录 R语言dplyr包distinct函数去除重复数据行实战 #导入dplyr包 #仿真数据

  2. java 两个数组去重复数据_Java实现数组去除重复数据的方法详解

    本文实例讲述了Java实现数组去除重复数据的方法.分享给大家供大家参考,具体如下: 前一段时间被面试问到:如果一个数组中有重复元素,用什么方法可以去重?一时间会想到用一种方法,但是后来查阅资料后发现, ...

  3. mysql基础14(关于mysql数据库在没有主键情况下去除重复数据办法)

    关于mysql数据库在没有主键情况下去除重复数据办法 约定 表名:mat 根据 cat 字段去重 新增加主键为 id 步骤 1.为mat新增一列自增主键 alter table mat add col ...

  4. execl筛选去重_excel表格如何去除重复数据进行筛选

    原标题:"Excel表格如何去除重复数据"的相关路由器设置教程资料分享.- 来源:191路由网. 我们有时候会遇到这样的一个情况,一些数据里面有一些重复的,我们想去除这些重复的数据 ...

  5. linux列表去重复数据,Linux常用去除重复数据口令

    一.uniq干什么用的 文本中的重复行,基本上不是我们所要的,所以就要去除掉.linux下有其他命令可以去除重复行,但是我觉得uniq还是比较方便的一个.使用uniq的时候要注意以下二点 1,对文本操 ...

  6. mysql去除重复数据

    mysql去除重复数据 根据one列查询重复的数据(根据单列判断重复) SELECT * FROM tab_test  WHERE ONE IN (SELECT ONE FROM testdelete ...

  7. mysql中如何去除重复数据_MySQL如何去除重复数据?

    这篇文章主要介绍了MySQL 去除重复数据实例详解的相关资料,需要的朋友可以参考下 MySQL 去除重复数据实例详解 有两个意义上的重复记录,一是完全重复的记录,也即所有字段均都重复,二是部分字段重复 ...

  8. mysql中如何去除重复数据_mysql数据库如何去除重复数据

    mysql数据库去除重复数据的方法:1.查询需要删除的记录,会保留一条记录:2.删除重复记录,只保留一条记录,代码为[delete a from test1 a, (...)as bid from t ...

  9. php如何去重,php如何去除重复数据

    php去除重复数据的方法:1.利用"array_unique"函数直接将一个数组中的重复的值去除:2.利用"array_flip"函数和"array_ ...

最新文章

  1. linux 用dd将iso写入U盘
  2. 异地备份同步校验脚本
  3. caffe源码c++学习笔记
  4. Scrapy爬虫框架命令行操作
  5. python 操作 elasticsearch-7.0.2 遇到的问题
  6. 错误代码1500什么意思_啊早安打工人是什么梗???
  7. tcp建立连接为什么需要三次握手
  8. 7-32 中位数 (10 分)
  9. XML通过XSL格式化的那点事(XML到自定义节点折叠显示)
  10. 【html、CSS、javascript-9】jquery-选择器及过滤器
  11. mysql 不同服务器数据库表同步_mysql 不同服务器数据库表同步
  12. python3 相对路径导入_Python中相对路径(导入)和绝对路径(导入)的区别
  13. 计算机的云是什么意思_云计算是什么意思?为什么叫云计算?
  14. HCNA之路由优先级及路由冗余备份
  15. 最近频繁用到正则表达式,恶补一下,高手略过(零宽断言)
  16. 【魔兽世界插件】魔兽世界插件实战笔记从入门到放弃的心理历程 第四节 窗体的移动
  17. Linux基础教程: 4、用户组和用户的创建
  18. 微信小程序音乐播放器实践
  19. mysql 手机号省份_根据手机号 判断省份和运营商
  20. 小米机器人履带双轮平衡_小米米兔机器人评测:一个站在平衡车上的机器人

热门文章

  1. Docker基础:Docker Desktop community的手动更新方法
  2. 纳思达:完美布局打印全产业链,持续开拓芯片品类
  3. k8s分离jdkj环境与java程序研究测试
  4. 奋斗的小鸟——dogxuefeng Oracle——distinct的用法
  5. 第二十篇玩转【斗鱼直播APP】系列之“趣玩”界面展示
  6. 系统资源是什么,以及线程什么时候不会释放 共享资源
  7. 回归分析(Regression Analysis)
  8. wps解析json数据_一些非常实用的JSON 教程
  9. Asterisk命令MeetMe详解
  10. Class4-Week2 Case study