ML binning
一、分箱
:数据分箱(也称为离散分箱或者分段)是一种数据预处理的方法,用于减少次要观察误差的影响,是一种将多个连续值分为较少数量的分箱的方法。
1.1离散化:
,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。
通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:
原数据:1,999,100000,15;处理后:1,3,4,2;
原数据:{100,200},{20,50000},{1,400};
处理后:{3,4},{2,6},{1,5};
1.2一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。
具体来说:
- 离散特征的增加和减少都很容易,易于模型的快速迭代
- 稀疏向量内乘积运算速度快,
- 离散化后特征对异常值数据有很强的鲁棒性Robust:比如一个特征年龄>30是1,否则是0.如果特征没有离散化,一个异常值数据‘年龄300岁’会给模型造成很大的干扰
- 逻辑回归属于广义的线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合
- 离散化后可以进行特征交叉,由M+N个变量,进一步引入非线性,提升表达能力;
二、分箱方法:
2.1有监督分箱
- 卡方分箱:自底向上的()
- 最小熵分箱
2.2无监督分箱
- 等距分箱:从最小值到最大值之间,均分为N等份,这样,如果A,B为最小值最大值,则每个区间的长度为W=(B-A)/N,这里只考虑边界,每个等分里面的实力数量可能不等
- 等频分箱:区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。
https://www.jianshu.com/p/0805f185ecdf
ML binning相关推荐
- 使用ML.Net和C#进行机器学习
目录 介绍 背景 概述 监督 无监督 监督机器学习 二进制分类 情感分析维基百科 训练阶段 预测阶段 你有垃圾邮件 多类分类 语言检测 鸢尾花分类 版本1 版本2 结论 参考 Wikipedia_Se ...
- Spark ML随机森林
随机森林 做分类 做回归,即预测 多个决策树构成,通过多个决策树投票结果分数进行分类,不容易出现过度拟合 在生成的过程当中分别在行方向和 列方向上添加随机过程,行方向上构建决策树时采用放回抽样(boo ...
- aws 认证_AWS ML专业认证备忘单
aws 认证 the highly important and carefully crafted piece, * this will only be useful after completing ...
- TVM 高效保护隐私 ML
TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速.关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻 ...
- ML Pipelines管道
ML Pipelines管道 In this section, we introduce the concept of ML Pipelines. ML Pipelines provide a uni ...
- Auto ML自动特征工程
Auto ML自动特征工程 特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...
- Auto ML自动调参
Auto ML自动调参 本文介绍Auto ML自动调参的算法介绍及操作流程. 操作步骤 登录PAI控制台. 单击左侧导航栏的实验并选择某个实验. 本文以雾霾天气预测实验为例. 在实验画布区,单击左上角 ...
- Amazon SageMaker和NVIDIA NGC加速AI和ML工作流
Amazon SageMaker和NVIDIA NGC加速AI和ML工作流 从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业.但是,开发和部署AI应用程序是一项具有挑战性的工作.该过 ...
- ml不是内部或外部命令_美国飞机制造商波音公司采用VR技术训练宇航员 ; Snap Lens Studio推出支持自定义ML驱动的Snapchat镜头...
看日报是个好习惯! Valve宣布为Steam开发者推出OpenXR预览版本,支持跨平台VR/AR内容开发 Valve在为Steam游戏开发人员迎接OpenXR面世的准备方面迈出了重要的一步,开发 ...
最新文章
- 基于RDKit探索DrugBank
- phpredis5.6在win10下的安装
- AndEngine引擎之SmoothCamera 平滑摄像机
- 一文彻底搞懂静态库和动态库,显示链接和隐式链接
- Python eval 函数 -Python零基础入门教程
- FTP服务器架设详细图解
- linux 提示库文件,Linux系统下确实库文件的解决办法
- bpe编码_缓冲池扩展(BPE)–如何工作?
- laoshijibuzhu
- linux远程连接命令有哪些,linux系统远程连接命令有哪些
- STM32 F7xx + LAN8720+LWIP1.4.1调试坑点记录
- Kali Linux 软件源与更新源和更新命令
- python怎么设置颜色深浅变化_【opencv_python学习之三】图像处理(一)更改色彩模式...
- 基于安卓的高清语音技术亮相中国国际通信展览会
- 小公司一个人如何进行测试
- Datatable 列名
- 字符串(一) | 剑指 Offer 58 - II. 左旋转字符串、541. 反转字符串 II、剑指 Offer 05. 替换空格、151. 反转字符串中的单词
- Ubuntu Kylin系统中配置Apache服务器
- python中ipaddr库用法详解
- 内部披露!最新互联网大厂的薪资和职级一览