一、分箱

:数据分箱(也称为离散分箱或者分段)是一种数据预处理的方法,用于减少次要观察误差的影响,是一种将多个连续值分为较少数量的分箱的方法。

1.1离散化:

,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。
通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
原数据:1,999,100000,15;处理后:1,3,4,2;
原数据:{100,200},{20,50000},{1,400};
处理后:{3,4},{2,6},{1,5};

1.2一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。
具体来说:

  • 离散特征的增加和减少都很容易,易于模型的快速迭代
  • 稀疏向量内乘积运算速度快,
  • 离散化后特征对异常值数据有很强的鲁棒性Robust:比如一个特征年龄>30是1,否则是0.如果特征没有离散化,一个异常值数据‘年龄300岁’会给模型造成很大的干扰
  • 逻辑回归属于广义的线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合
  • 离散化后可以进行特征交叉,由M+N个变量,进一步引入非线性,提升表达能力;

二、分箱方法:

2.1有监督分箱

  • 卡方分箱:自底向上的()
  • 最小熵分箱

2.2无监督分箱

  • 等距分箱:从最小值到最大值之间,均分为N等份,这样,如果A,B为最小值最大值,则每个区间的长度为W=(B-A)/N,这里只考虑边界,每个等分里面的实力数量可能不等
  • 等频分箱:区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。

https://www.jianshu.com/p/0805f185ecdf

ML binning相关推荐

  1. 使用ML.Net和C#进行机器学习

    目录 介绍 背景 概述 监督 无监督 监督机器学习 二进制分类 情感分析维基百科 训练阶段 预测阶段 你有垃圾邮件 多类分类 语言检测 鸢尾花分类 版本1 版本2 结论 参考 Wikipedia_Se ...

  2. Spark ML随机森林

    随机森林 做分类 做回归,即预测 多个决策树构成,通过多个决策树投票结果分数进行分类,不容易出现过度拟合 在生成的过程当中分别在行方向和 列方向上添加随机过程,行方向上构建决策树时采用放回抽样(boo ...

  3. aws 认证_AWS ML专业认证备忘单

    aws 认证 the highly important and carefully crafted piece, * this will only be useful after completing ...

  4. TVM 高效保护隐私 ML

    TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速.关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻 ...

  5. ML Pipelines管道

    ML Pipelines管道 In this section, we introduce the concept of ML Pipelines. ML Pipelines provide a uni ...

  6. Auto ML自动特征工程

    Auto ML自动特征工程 特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...

  7. Auto ML自动调参

    Auto ML自动调参 本文介绍Auto ML自动调参的算法介绍及操作流程. 操作步骤 登录PAI控制台. 单击左侧导航栏的实验并选择某个实验. 本文以雾霾天气预测实验为例. 在实验画布区,单击左上角 ...

  8. Amazon SageMaker和NVIDIA NGC加速AI和ML工作流

    Amazon SageMaker和NVIDIA NGC加速AI和ML工作流 从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业.但是,开发和部署AI应用程序是一项具有挑战性的工作.该过 ...

  9. ml不是内部或外部命令_美国飞机制造商波音公司采用VR技术训练宇航员 ; Snap Lens Studio推出支持自定义ML驱动的Snapchat镜头...

    看日报是个好习惯!  Valve宣布为Steam开发者推出OpenXR预览版本,支持跨平台VR/AR内容开发  Valve在为Steam游戏开发人员迎接OpenXR面世的准备方面迈出了重要的一步,开发 ...

最新文章

  1. 基于RDKit探索DrugBank
  2. phpredis5.6在win10下的安装
  3. AndEngine引擎之SmoothCamera 平滑摄像机
  4. 一文彻底搞懂静态库和动态库,显示链接和隐式链接
  5. Python eval 函数 -Python零基础入门教程
  6. FTP服务器架设详细图解
  7. linux 提示库文件,Linux系统下确实库文件的解决办法
  8. bpe编码_缓冲池扩展(BPE)–如何工作?
  9. laoshijibuzhu
  10. linux远程连接命令有哪些,linux系统远程连接命令有哪些
  11. STM32 F7xx + LAN8720+LWIP1.4.1调试坑点记录
  12. Kali Linux 软件源与更新源和更新命令
  13. python怎么设置颜色深浅变化_【opencv_python学习之三】图像处理(一)更改色彩模式...
  14. 基于安卓的高清语音技术亮相中国国际通信展览会
  15. 小公司一个人如何进行测试
  16. Datatable 列名
  17. 字符串(一) | 剑指 Offer 58 - II. 左旋转字符串、541. 反转字符串 II、剑指 Offer 05. 替换空格、151. 反转字符串中的单词
  18. Ubuntu Kylin系统中配置Apache服务器
  19. python中ipaddr库用法详解
  20. 内部披露!最新互联网大厂的薪资和职级一览

热门文章

  1. AVI格式详解(转)
  2. python中 代表什么,Python中+=是什么意思
  3. Python 协程并发在Arduino中的运用(实验)
  4. 获取新浪所有股票代码
  5. 验证码操作相关工具类
  6. 基于STM32的ADC电压采集(DMA传输)
  7. 实时多人点歌机器人 (来自网易云音乐)
  8. 集成学习:Bagging、随机森林、Boosting、GBDT
  9. redis从入门到不讲武德
  10. PCA(主元分析)的数学原理