参考:https://www.cnblogs.com/serena45/p/5559122.html

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

数据平滑方法:有3种按平均值平滑、按边界值平滑和按中值平滑。

统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

例:

客户收入属性income排序后的值(人民币元):

800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。

统一权重:设定权重(箱子深度)为4,分箱后

【就是每个箱子都是装4个数值】

箱1:800 1000 1200 1500

箱2:1500 1800 2000 2300

箱3:2500 2800 3000 3500

箱4:4000 4500 4800 5000

统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后

如果,设定箱子宽度为W。那么(结合本例)

第一个:800--800+W;第二个:2000--2000+W;第三个:3500--3500+W;第四个:4800--4800+W

箱1:800 1000 1200 1500 1500 1800

箱2:2000 2300 2500 2800 3000

箱3:3500 4000 4500

箱4:4800 5000

用户自定义:如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后

箱1:800

箱2:1000 1200 1500 1500 1800 2000

箱3:2300 2500 2800 3000

箱4:3500 4000

箱5:4500 4800 5000

数据平滑方法:按平均值平滑、按边界值平滑和按中值平滑。

例子:

price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
划分为(等深的)箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

⑴按平均值平滑 :对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

⑵按边界值平滑 :用距离较小的边界值替代箱中每一数据。

⑶按中值平滑 :取箱子的中值,用来替代箱子中的所有数据。

数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理相关推荐

  1. 等宽分箱_数据分析师-数据挖掘如何分箱以及对箱子中的数据进行平滑处理

    题干: 假定用于分析的数据包含属性age.数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22, 25,25,25,30,33,33,35,35,36,40 ...

  2. ML之ME:Best-KS分箱/KS值(分类预测问题中评价指标、数据分箱方法)的简介(KS与ROC的关系)、使用方法、案例应用之详细攻略

    ML之ME:Best-KS分箱/KS值(分类预测问题中评价指标.数据分箱方法)的简介(KS与ROC的关系).使用方法.案例应用之详细攻略 目录 Best-KS分箱/KS值的简介 1.Best-KS分箱 ...

  3. 数据挖掘中的数据预处理方法总结

    1.原始数据存在的几个问题:不一致:重复:含噪声:维度高. 2.数据预处理包含数据清洗.数据集成.数据变换和数据归约几种方法. 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据 ...

  4. 等距离分箱matlab代码,数据挖掘实验(二)数据预处理【等深分箱与等宽分箱】...

    本文代码均已在 MATLAB R2019b 测试通过,如有错误,欢迎指正. 一.分箱平滑的原理 (1)分箱方法 在分箱前,一定要先排序数据,再将它们分到等深(等宽)的箱中. 常见的有两种分箱方法:等深 ...

  5. 数据仓库实验一分箱与数据平滑

    数据仓库实验一 实验描述: window_size表示平滑处理的窗口大小是指深度或者宽度吗? window_size与宽度等价吗? (1)分箱方法 1.等深分箱: 2.等宽分箱: (2)数据平滑 1. ...

  6. 特征工程之特征分箱(决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)

    特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...

  7. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  8. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  9. 机器学习特征工程之连续变量离散化:等宽分箱

    机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

最新文章

  1. android 显示yuv数据格式,YUV数据格式的理解
  2. 【JMAIL】jmail无法收邮件问题
  3. WinForm开发框架资料积累
  4. wofstream写中文失败,导致stream对象badbit
  5. rpm包时遇到Header V3 DSA signature: NOKEY时解决办法
  6. NoSQL 是否可以用来做日志中心 ?
  7. linux+last命令菜鸟,Linux基本命令。。。菜鸟保留
  8. python3中的zip_Python3实现将文件归档到zip文件及从zip文件中读取数据的方法
  9. Redis-集群监控之Redis monitor
  10. @Scheduled cron表达式
  11. hadoop的shuffle过程
  12. 汇编@data_macOS上的汇编入门(十三)——从编译到执行
  13. 《Redis实战》一2.2 使用Redis实现购物车
  14. 如何解决chm类型的文件在Windows操作系统中无法打开
  15. ARCGIS操作教程学习
  16. Drupal 曝出代码执行高危漏洞,数百万网站受影响
  17. 捷联惯导matlab算法,捷联惯导算法与组合导航原理讲义(20170220).pdf
  18. mysql查询前100个_mysql查询前100条数据
  19. 有翅膀的java游戏_翅膀只是为了拉风?在这几款游戏中,带上翅膀真的能飞
  20. ubuntu下的opencv下载编译安装

热门文章

  1. 亮风台提出用完全可训练的图匹配方法,优于最新SOTA | CVPR 2020
  2. 技术战“疫”,贾扬清、李飞飞要给程序员直播讲AI技术!
  3. 网友们票选的2018 Best Paper,你pick谁?
  4. 今晚8点直播 | 详解基于百度自定义模板的OCR结果结构化处理技术
  5. 7年增长16倍,清华AI+ML课程学生数暴增 | AI Index 2018
  6. 为了智能驾驶,李彦宏要改造城市道路
  7. 从FPN到Mask R-CNN,一文告诉你Facebook的计算机视觉有多强
  8. 资源 |“从蒙圈到入坑”,推荐新一波ML、DL、RL以及数学基础等干货资源
  9. 分布式系统互斥性与幂等性问题的分析与解决
  10. 计算机科学和Python编程导论(三) 一些简单的数值程序