• 学习资料

IBM SPSS Modeler 18.0 Applications 第7章

  • 应用场景

初始数据探究过程前,需要使用数据审核报告显示统计以及每个数据字段的信息

  • 数据源描述

数据源名称telco.sav

  • 应用模型

数据审核节点

  • 设计步骤

1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read names and labels
Values选择Read data and labels

2、将一个类型节点附加到源节点, 将churn 字段的Measure测量级别设置为flag标志,并将角色设置为Target目标。将所有其他字段的角色设置为 Input,并确认定义字段的Measure测量级别,例如数值为0和1的字段可以设置为标志,性别等仅包含两个值的字段设置为名义字段

3、将“数据审核”节点附加到流。
在“设置”选项卡上,保留默认设置以便在报告中包含所有字段。由于churn是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段。
在“质量”选项卡上,保留检测缺失值、离群值和极值的所有默认设置。
最后点击运行


4、浏览统计量和图表

通过数据审核的浏览器显示,可以查看每个字段的图表、基本统计量、高级统计量,还可以通过工具栏或“编辑”菜单选择要显示的统计量
基本统计量包括:最小值、最大值、平均值、标准差、偏度、唯一值及有效值。其中,唯一值为分类变量中的分类数量(性别有男和女值则唯一值为2),有效值则为非空的记录数量。
高级统计量包括:合计、范围(极差)、平均值的标准差、偏度系数标准差、峰度、峰度系数标准差

  • 平均值的标准差:以平均值为中心,超过3个标准差范围以外的记录定义为离群值,超个5个标准差范围以外的记录定义为极值
  • 峰度:反映数据分布的平坦度,常用于判断数据正态性的情况;数据服从正态分布的时候峰度系数等于0; 大于0时,数据分布相比于正态分布更加陡峭或尾部更厚。小于0时,数据分布相比于正态分布更加平缓或尾部更薄
  • 偏度:反映数据分布对称程度,常用于判断数据正态性的情况;数据服从正态分布的时候偏度系数等于0;大于0时,高峰在左长尾在右;小于0时,高峰在右长尾在左;
    当偏度系数或峰度系数与标准误差的比率小于-2或者大于2时,则可以认为数据不服从正态分布。


5、处理离群值和缺失值
审核报告中质量选项卡显示有关离群值、极值和缺失值的信息,可以指定处理缺失值的方法,方法列这里选择算法,然后菜单栏点击生成-缺失值超节点,生成的超节点(五角星)将添加到流中。



双击生成的超节点,可以点击放大,从而进一步对超节点里面包含的节点进行编辑和设置:对于需要使用算法插补的每个变量,将有一个独立的 C&RT 模型来进行预测填补缺失值

- 补充

空值/空字符串和空白/空白值 的定义

  • 空值∶在数据文件中留空或在 SPSS Modeler 中使用"undef定义为空值的值将在SPSS Modeler中被识别为空值,对于空值,SPSS Modeler 将显示为nullnullnull。
  • 空字符串和空白∶空字符串值和空白(带有不可见字符的字符串)将被单独识别为一类,而不被视为空值。对于大多数用途,空字符串都视为相当于空白。对于空字符串和空白,SPSS Modeler将显示一个空白单元格。
  • 空白值∶在源节点或类型节点中,被专门定义为缺失的值,例如Age年龄存在负数的情况,这在现实中是不存在的,所以定义为缺失值也叫空白值,并标记为-1。对于空白值,SPSS Modeler将显示原值。

1、空白值的处理

存在以下特殊情况:

  • 例如Age年龄存在负数的情况,这在现实中是不存在的,但是数据审核节点会认为负数值也是有效值,不存在缺失。
  • 例如Height身高存在3米等离群值和极值的情况,这在现实中是不存在的,但是数据审核节点会认为也是有效值,不存在缺失。

为了避免以上特殊情况,可以在对输入数据进行数据审核之前,在类型节点进行缺失值的定义和检查设置,然后再进行插补处理。

(1)选中需要检查的字段,点击检查列的下三角按钮,选择警告,具体每种操作的含义如下

  • 无∶默认操作,即不对字段的值进行检查。
  • 无效∶将超出限制的值更改为系统空值(nullnullnull)。
  • 强制∶若字段已实例化,将在该字段中把超过限制的值更改为符合该字段测量级别的合法值。不同测量级别的转换有以下3种。标志∶将真值和假值以外的值转换为假值。集合∶将未知值转换为集合值的第一个成员。数值∶大于定义域范围上限的值将转换为最大值,小于定义域范围下限的值将转换为最小值,空值将转换为范围的中间值,即(最大值+最小值)/2。
  • 丢弃∶如果在检查中发现非法值,将丢弃该记录。
  • 警告∶如果在检查中发现非法值,将在右下角"流消息"对话框中显示告警消息。
  • 中止∶如果在检查中发现非法值,将中止运行,并提示错误。

(2)点击缺失列的下三角按钮,选择指定,具体每种操作的含义如下

  • 开(*)∶指示已为该字段进行缺失值处理。
  • 关∶指示没有为该字段进行缺失值处理。
  • 指定∶选择"指定",将弹出操作对话框,为字段进行针对性的缺失值指定处理。在弹出的指定菜单中可以对字段"Age"进行进一步处理,包括以下
  • "值"选项∶用户可以定义该字段值的有效范围。
  • “检查值"选项∶可以在此处指定检查操作,同样选择"警告”。
  • "定义空白"选项∶与"值"选项定义有效范围不同,"定义空白"选项是定义空白值的识别,可以在此处定义-1.0为空白值。

(3)空白值的处理

对于空白值,一般可以使用缺失值插补的方法填充;
在数据审核结果中的"质量分析报告”的缺失插补列选择对空白值进行插补,方法列选择插补的方法:

  • 固定∶把缺失值替换为固定值,固定值可以是字段的平均值、中程数值(数据范围,即最大值和最小值的中间值,不是中位数)以及任何用户指定的常量。
  • 随机∶把缺失值替换为该变量对应正态分布或均匀分布产生的随机值。
  • 表达式∶把缺失值替换为用户指定表达式的值。
  • 算法∶选择算法进行插补,SPSS Modeler将为每个变量构建一个单独的C&RT模型,对缺失值进行预测插补。




2、空字符串的处理

在SPSS Modeler 中,对于存在空字符串的缺失,一般把缺失值筛选出来进行丢弃或填充;

(1)丢弃
在数据审核结果中的"质量分析报告”,选中要处理的字段,单击菜单中的生成 - 缺失值选择节点
条件输入:@NULL(字段名) or to_string(字段名) == “” or iswhitespace(字段名) or @BLANK(字段名)


(2)填充
在数据审核结果中的"质量分析报告”的缺失插补列选择对条件/指定进行插补,条件输入:to_string(字段名) == “” or @BLANK(字段名),然后方法列选择插补的方法,最后菜单栏点击生成-缺失值超节点。


SPSS Modeler 数据审核学习笔记相关推荐

  1. SPSS Modeler C5.0学习笔记

    学习资料 IBM SPSS Modeler 18.0 Applications 第8章 数据源描述 数据源名称:DRUG IN数据文件 应用模型 C5.0 C5.0 节点可以构建决策树或规则集.该模型 ...

  2. 《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法

    随着文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.现代文本分类和聚类领域面临巨大的挑战,而且随着学者研究的不断深入,其中的一些深层次问题也逐渐暴露出来,一些问题也已经成为本学科进一 ...

  3. 《IBM SPSS Modeler数据与文本挖掘实战》之常用数据挖掘软件

    根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种.专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模.类型以及研究者的需求等特点,并作了优 ...

  4. React学习:路由定义及传参、数据复用-学习笔记

    文章目录 React学习:路由定义及传参.数据复用-学习笔记 在React中使用react-router-dom路由 简单例子 路由定义及传参 React学习:路由定义及传参.数据复用-学习笔记 在R ...

  5. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

  6. redis基础命令和数据操作命令学习笔记

    redis基础命令和数据操作命令学习笔记 基础命令 安装成功后,redis的启动命令:先修改配置文件.将服务改成默认运行.然后以配置文件启动服务 redis-server config/redis-c ...

  7. python气象数据可视化学习笔记6——利用python地图库cnmaps绘制地图填色图并白化

    文章目录 1. 效果图 2. cnmaps简介及安装 2.1 写在前面 2.2 cnmaps简介和安装 3. 导入库 4. 定义绘图函数 4.1 使用get_adm_maps返回地图边界 4.2 ax ...

  8. 大数据HiveSQL学习笔记三-查询基础语法以及常用函数

    大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...

  9. ECharts数据可视化学习笔记和应用

    ECharts数据可视化学习笔记和应用 一.概念 二.Echarts使用 使用步骤 三.Echarts-基础配置 四.柱状图图表1 五.柱状图图表2 六.折线图1 七.折线图2 八.饼状图1 九.饼形 ...

  10. SPSS Modeler ADP自动数据准备学习笔记

    学习资料 IBM SPSS Modeler 18.0 Applications 第6章 数据源描述 数据源名称telco.sav 应用模型 ADP自动数据准备 分析思路 ADP可以自动分析数据并识别需 ...

最新文章

  1. python pytz 获取指定时区的时间
  2. Google Code Jam Round 1A 2015 解题报告
  3. bspline怎么使用 python_资源分享:微软官方的Python入门教程
  4. 学生信息管理---C#文件写入及读取
  5. 文件名lin.php是什么,Linsexu程序安装PHP详细软件教程
  6. Linux系统如何把一个文件传递到另一个机器上
  7. MySQL 驱动的下载方法
  8. 在多媒体计算机中静态媒体是指,《多媒体技术及应用》按章复习题
  9. Stata:投资组合有效边界
  10. [水晶报表]水晶报表的使用经验和资料总结
  11. 中位数技巧(推理+证明)
  12. 【GNSS】坐标系统
  13. HDL4SE:软件工程师学习Verilog语言(七)
  14. 常微分方程 $6 一阶微分方程解的存在唯一性
  15. 模拟人生 java 安卓版,超级模拟人生官方下载_超级模拟人生安卓版预约下载v1.0_3DM手游...
  16. 视频行业创业投资与趋势报告
  17. java testsuite,JUnit之TestCase和TestSuite详解
  18. 转:怎么判断自己在不在一家好公司?
  19. 云计算 + AI + 遥感卫星,人类对地探测进入黄金时代
  20. 从“闪电战”到全面战:荣耀开启“吓人的技术”2.0时代

热门文章

  1. 社会工程学:关于一些信息收集的网站
  2. python绘制网格地图_「GIS教程」Python-GeoPandas地图、专题地图绘制
  3. xlsxwriter设置列宽_Python3之excel操作——xlsxwriter模块
  4. Matlab实现Monte Carlo期权定价
  5. 2sk2225代换3A/1500V中文资料【PDF数据手册】
  6. Ubuntu24.04下向日葵,CUDA,cuDNN的详细安装,亲测有效
  7. st语言和c语言一样,什么是ST语言,一文带你了解ST语言
  8. 计算机网络笔记 韩立刚(物理层+数据链路层+网络层+传输层已完成)
  9. qqxml图片代码_分享三款高级qqxml消息卡片代码
  10. 【启动】Windows上启动图形化软件,报错: 无法启动此程序,因为计算机中丢失api-ms-win-crt-runtime-1-1-0.dll...