贷款用户逾期问题Task2
贷款用户逾期问题Task2
- 任务2 - 特征工程(2天)
- 特征衍生
- 特征挑选
- 具体实现
任务2 - 特征工程(2天)
特征衍生
特征挑选:分别用IV值和随机森林等进行特征选择
……以及你能想到特征工程处理
特征衍生
特征衍生,指利用现有的特征进行某种组合生成新的特征,主要是从业务数据和纯技术生产特征方面着手。
特征挑选
通常我们在清洗数据后,需要进行分箱、计算WOE和IV值(WOE的性质)、特征筛选。
1、分箱(Binning)
对连续变量离散化(Discretization),对离散变量也可进行重新分箱、组合。
2、WOE(Weight of Evidence)
(1) 逻辑回归是线性的统计模式,因此遇到非线性趋势的变数会造成无法有效的建立预测模型,因此需要WOE
(2) WOE与风险成正比,WOE越大,风险越高,代表该层级的客户品质越差。如果WOE接近0,表示接近平均水平。(正负相关可以调节)
(3) WOE = ln(Odds) = ln(%Good/%Bad) = ln(p/(1-p))
3、IV值(Infomation Value)
IV= ∑(%Good-%Bad)*WOE = ∑(%Good-%Bad)*ln(%Good/%Bad)
4、特征选择
根据每个特征的分箱结果计算IV值,留下IV>0.1的变量。当然这个0.1的数值可以根据实际情况改变。
具体实现
……时间太紧,看完之后再整理
贷款用户逾期问题Task2相关推荐
- 贷款用户逾期问题Task4
贷款用户逾期问题Task4 任务4 - 模型评估(2天) 评估 任务4 - 模型评估(2天) 任务4:记录5个模型(逻辑回归.SVM.决策树.随机森林.XGBoost)关于accuracy.preci ...
- 贷款用户逾期问题Task3
贷款用户逾期问题Task3 任务3 - 建模(2天) 逻辑回归LR 支持向量机SVM 决策树 任务3 - 建模(2天) 用逻辑回归.svm和决策树:随机森林和XGBoost进行模型构建,评分方式任意, ...
- ML - 贷款用户逾期情况分析5 - 特征工程2(特征选择)
文章目录 特征选择 (判定贷款用户是否逾期) 1. IV值进行特征选择 1.1 基本介绍 1.2 计算公式 2. 随机森林进行特征选择 2.1 平均不纯度减少 mean decrease impuri ...
- ML实操 - 贷款用户逾期情况分析
目录 任务描述 实现过程 基本思路 1. 数据集预览 2. 数据预处理 3. 特征工程 4. 模型选择 4.1 数据及划分及数据归一化 4.2 LR 4.3 SVM 4.4 决策树 4.5 Xgboo ...
- ML - 贷款用户逾期情况分析2 - 特征工程1(数据预处理)
文章目录 数据预处理 (判定贷款用户是否逾期) 1. 删除无用特征 2. 数据格式化 - X_date 3. 数据处理 - 类别特征 X_cate 4. 数据处理 - 其他非数值型特征 5. 数据处理 ...
- 【机器学习-贷款用户逾期情况分析2】3.stacking模型融合
3.0 任务说明 用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分果. 3.1 stacking模型融合 Stacking(有时候也称之为stacked ge ...
- ML - 贷款用户逾期情况分析6 - Final
文章目录 思路 1. 导入数据 2. 性能评估函数 3. 模型优化 3.1 LR模型 3.2 SVM模型 3.3 决策树模型 3.4 XGBoost模型 3.5 LightGBM模型 3.6 模型融合 ...
- [转载] 机器学习 scikit-learn1 预测贷款用户是否会逾期
参考链接: 使用Scikit-Learn在Python中减少维度 scikit-learn 一周算法实践集训 简介代码说明代码目录结构代码使用方法 个人总结参考文档任务1. 逻辑回归模型实践[2018 ...
- 预测贷款用户是否逾期:数据清洗与预处理
任务一 做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析.这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期. 1.查看数据 ...
- 预测贷款用户是否会逾期
数据信息: 这是本次实践数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g 说明:这份数据集是金融数据(非原始数据,已经处理过了),要做的是 ...
最新文章
- 反向词典_根据描述查找词语
- eclipse下使用maven配置库托管jar包
- Swift和Objective-C混编 1
- MySQL--开发技巧(一)
- react实现路由跳转_react实现hash路由
- 根据分类id找出父类id
- 多希望当年做工程师时我能明白这三个道理!
- LeetCode简单题目-2019.10.10-10.11-8道
- asp.net电子影像相册_大连孕妈看过来 | 290元=孕中期四维排畸+孕妇写真+胎宝电子影集...
- 安全体系(三)——SHA1算法详解
- siege linux 压力测试工具
- 绝对值编码器的调整方法有哪些?
- 电感的两种模式——DCM和CCM的区别
- 干货 | 那些你不知道的爬虫反爬虫套路
- c语言字符串求n的阶乘,C语言求n的阶乘(n!)
- u盘能不能给联想服务器做系统盘,u盘能当系统盘吗?怎么把U盘做成系统盘
- 致江苏卫视《最强大脑第二季》节目组的一封信
- 【ipad 作为 mac 分屏分辨率调整 | sidercar 分辨率调整】
- 理解什么是接口测试?怎样做接口测试?
- 还在if-else行走天下?试试【策略模式】吧