SPSS Modeler 数据审核学习笔记
- 学习资料
IBM SPSS Modeler 18.0 Applications 第7章
- 应用场景
初始数据探究过程前,需要使用数据审核报告显示统计以及每个数据字段的信息
- 数据源描述
数据源名称telco.sav
- 应用模型
数据审核节点
- 设计步骤
1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read names and labels
Values选择Read data and labels
2、将一个类型节点附加到源节点, 将churn 字段的Measure测量级别设置为flag标志,并将角色设置为Target目标。将所有其他字段的角色设置为 Input,并确认定义字段的Measure测量级别,例如数值为0和1的字段可以设置为标志,性别等仅包含两个值的字段设置为名义字段
3、将“数据审核”节点附加到流。
在“设置”选项卡上,保留默认设置以便在报告中包含所有字段。由于churn是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段。
在“质量”选项卡上,保留检测缺失值、离群值和极值的所有默认设置。
最后点击运行
4、浏览统计量和图表
通过数据审核的浏览器显示,可以查看每个字段的图表、基本统计量、高级统计量,还可以通过工具栏或“编辑”菜单选择要显示的统计量
基本统计量包括:最小值、最大值、平均值、标准差、偏度、唯一值及有效值。其中,唯一值为分类变量中的分类数量(性别有男和女值则唯一值为2),有效值则为非空的记录数量。
高级统计量包括:合计、范围(极差)、平均值的标准差、偏度系数标准差、峰度、峰度系数标准差
- 平均值的标准差:以平均值为中心,超过3个标准差范围以外的记录定义为离群值,超个5个标准差范围以外的记录定义为极值
- 峰度:反映数据分布的平坦度,常用于判断数据正态性的情况;数据服从正态分布的时候峰度系数等于0; 大于0时,数据分布相比于正态分布更加陡峭或尾部更厚。小于0时,数据分布相比于正态分布更加平缓或尾部更薄
- 偏度:反映数据分布对称程度,常用于判断数据正态性的情况;数据服从正态分布的时候偏度系数等于0;大于0时,高峰在左长尾在右;小于0时,高峰在右长尾在左;
当偏度系数或峰度系数与标准误差的比率小于-2或者大于2时,则可以认为数据不服从正态分布。
5、处理离群值和缺失值
审核报告中质量选项卡显示有关离群值、极值和缺失值的信息,可以指定处理缺失值的方法,方法列这里选择算法,然后菜单栏点击生成-缺失值超节点,生成的超节点(五角星)将添加到流中。
双击生成的超节点,可以点击放大,从而进一步对超节点里面包含的节点进行编辑和设置:对于需要使用算法插补的每个变量,将有一个独立的 C&RT 模型来进行预测填补缺失值
- 补充
空值/空字符串和空白/空白值 的定义
- 空值∶在数据文件中留空或在 SPSS Modeler 中使用"undef定义为空值的值将在SPSS Modeler中被识别为空值,对于空值,SPSS Modeler 将显示为nullnullnull。
- 空字符串和空白∶空字符串值和空白(带有不可见字符的字符串)将被单独识别为一类,而不被视为空值。对于大多数用途,空字符串都视为相当于空白。对于空字符串和空白,SPSS Modeler将显示一个空白单元格。
- 空白值∶在源节点或类型节点中,被专门定义为缺失的值,例如Age年龄存在负数的情况,这在现实中是不存在的,所以定义为缺失值也叫空白值,并标记为-1。对于空白值,SPSS Modeler将显示原值。
1、空白值的处理
存在以下特殊情况:
- 例如Age年龄存在负数的情况,这在现实中是不存在的,但是数据审核节点会认为负数值也是有效值,不存在缺失。
- 例如Height身高存在3米等离群值和极值的情况,这在现实中是不存在的,但是数据审核节点会认为也是有效值,不存在缺失。
为了避免以上特殊情况,可以在对输入数据进行数据审核之前,在类型节点进行缺失值的定义和检查设置,然后再进行插补处理。
(1)选中需要检查的字段,点击检查列的下三角按钮,选择警告,具体每种操作的含义如下
- 无∶默认操作,即不对字段的值进行检查。
- 无效∶将超出限制的值更改为系统空值(nullnullnull)。
- 强制∶若字段已实例化,将在该字段中把超过限制的值更改为符合该字段测量级别的合法值。不同测量级别的转换有以下3种。标志∶将真值和假值以外的值转换为假值。集合∶将未知值转换为集合值的第一个成员。数值∶大于定义域范围上限的值将转换为最大值,小于定义域范围下限的值将转换为最小值,空值将转换为范围的中间值,即(最大值+最小值)/2。
- 丢弃∶如果在检查中发现非法值,将丢弃该记录。
- 警告∶如果在检查中发现非法值,将在右下角"流消息"对话框中显示告警消息。
- 中止∶如果在检查中发现非法值,将中止运行,并提示错误。
(2)点击缺失列的下三角按钮,选择指定,具体每种操作的含义如下
- 开(*)∶指示已为该字段进行缺失值处理。
- 关∶指示没有为该字段进行缺失值处理。
- 指定∶选择"指定",将弹出操作对话框,为字段进行针对性的缺失值指定处理。在弹出的指定菜单中可以对字段"Age"进行进一步处理,包括以下
- "值"选项∶用户可以定义该字段值的有效范围。
- “检查值"选项∶可以在此处指定检查操作,同样选择"警告”。
- "定义空白"选项∶与"值"选项定义有效范围不同,"定义空白"选项是定义空白值的识别,可以在此处定义-1.0为空白值。
(3)空白值的处理
对于空白值,一般可以使用缺失值插补的方法填充;
在数据审核结果中的"质量分析报告”的缺失插补列选择对空白值进行插补,方法列选择插补的方法:
- 固定∶把缺失值替换为固定值,固定值可以是字段的平均值、中程数值(数据范围,即最大值和最小值的中间值,不是中位数)以及任何用户指定的常量。
- 随机∶把缺失值替换为该变量对应正态分布或均匀分布产生的随机值。
- 表达式∶把缺失值替换为用户指定表达式的值。
- 算法∶选择算法进行插补,SPSS Modeler将为每个变量构建一个单独的C&RT模型,对缺失值进行预测插补。
2、空字符串的处理
在SPSS Modeler 中,对于存在空字符串的缺失,一般把缺失值筛选出来进行丢弃或填充;
(1)丢弃
在数据审核结果中的"质量分析报告”,选中要处理的字段,单击菜单中的生成 - 缺失值选择节点
条件输入:@NULL(字段名) or to_string(字段名) == “” or iswhitespace(字段名) or @BLANK(字段名)
(2)填充
在数据审核结果中的"质量分析报告”的缺失插补列选择对条件/指定进行插补,条件输入:to_string(字段名) == “” or @BLANK(字段名),然后方法列选择插补的方法,最后菜单栏点击生成-缺失值超节点。
SPSS Modeler 数据审核学习笔记相关推荐
- SPSS Modeler C5.0学习笔记
学习资料 IBM SPSS Modeler 18.0 Applications 第8章 数据源描述 数据源名称:DRUG IN数据文件 应用模型 C5.0 C5.0 节点可以构建决策树或规则集.该模型 ...
- 《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法
随着文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.现代文本分类和聚类领域面临巨大的挑战,而且随着学者研究的不断深入,其中的一些深层次问题也逐渐暴露出来,一些问题也已经成为本学科进一 ...
- 《IBM SPSS Modeler数据与文本挖掘实战》之常用数据挖掘软件
根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种.专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模.类型以及研究者的需求等特点,并作了优 ...
- React学习:路由定义及传参、数据复用-学习笔记
文章目录 React学习:路由定义及传参.数据复用-学习笔记 在React中使用react-router-dom路由 简单例子 路由定义及传参 React学习:路由定义及传参.数据复用-学习笔记 在R ...
- 大数据业务学习笔记_学习业务成为一名出色的数据科学家
大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...
- redis基础命令和数据操作命令学习笔记
redis基础命令和数据操作命令学习笔记 基础命令 安装成功后,redis的启动命令:先修改配置文件.将服务改成默认运行.然后以配置文件启动服务 redis-server config/redis-c ...
- python气象数据可视化学习笔记6——利用python地图库cnmaps绘制地图填色图并白化
文章目录 1. 效果图 2. cnmaps简介及安装 2.1 写在前面 2.2 cnmaps简介和安装 3. 导入库 4. 定义绘图函数 4.1 使用get_adm_maps返回地图边界 4.2 ax ...
- 大数据HiveSQL学习笔记三-查询基础语法以及常用函数
大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...
- ECharts数据可视化学习笔记和应用
ECharts数据可视化学习笔记和应用 一.概念 二.Echarts使用 使用步骤 三.Echarts-基础配置 四.柱状图图表1 五.柱状图图表2 六.折线图1 七.折线图2 八.饼状图1 九.饼形 ...
- SPSS Modeler ADP自动数据准备学习笔记
学习资料 IBM SPSS Modeler 18.0 Applications 第6章 数据源描述 数据源名称telco.sav 应用模型 ADP自动数据准备 分析思路 ADP可以自动分析数据并识别需 ...
最新文章
- python pytz 获取指定时区的时间
- Google Code Jam Round 1A 2015 解题报告
- bspline怎么使用 python_资源分享:微软官方的Python入门教程
- 学生信息管理---C#文件写入及读取
- 文件名lin.php是什么,Linsexu程序安装PHP详细软件教程
- Linux系统如何把一个文件传递到另一个机器上
- MySQL 驱动的下载方法
- 在多媒体计算机中静态媒体是指,《多媒体技术及应用》按章复习题
- Stata:投资组合有效边界
- [水晶报表]水晶报表的使用经验和资料总结
- 中位数技巧(推理+证明)
- 【GNSS】坐标系统
- HDL4SE:软件工程师学习Verilog语言(七)
- 常微分方程 $6 一阶微分方程解的存在唯一性
- 模拟人生 java 安卓版,超级模拟人生官方下载_超级模拟人生安卓版预约下载v1.0_3DM手游...
- 视频行业创业投资与趋势报告
- java testsuite,JUnit之TestCase和TestSuite详解
- 转:怎么判断自己在不在一家好公司?
- 云计算 + AI + 遥感卫星,人类对地探测进入黄金时代
- 从“闪电战”到全面战:荣耀开启“吓人的技术”2.0时代
热门文章
- 社会工程学:关于一些信息收集的网站
- python绘制网格地图_「GIS教程」Python-GeoPandas地图、专题地图绘制
- xlsxwriter设置列宽_Python3之excel操作——xlsxwriter模块
- Matlab实现Monte Carlo期权定价
- 2sk2225代换3A/1500V中文资料【PDF数据手册】
- Ubuntu24.04下向日葵,CUDA,cuDNN的详细安装,亲测有效
- st语言和c语言一样,什么是ST语言,一文带你了解ST语言
- 计算机网络笔记 韩立刚(物理层+数据链路层+网络层+传输层已完成)
- qqxml图片代码_分享三款高级qqxml消息卡片代码
- 【启动】Windows上启动图形化软件,报错: 无法启动此程序,因为计算机中丢失api-ms-win-crt-runtime-1-1-0.dll...