贷款用户逾期问题Task2

  • 任务2 - 特征工程(2天)
  • 特征衍生
  • 特征挑选
  • 具体实现

任务2 - 特征工程(2天)

特征衍生
特征挑选:分别用IV值和随机森林等进行特征选择
……以及你能想到特征工程处理

特征衍生

特征衍生,指利用现有的特征进行某种组合生成新的特征,主要是从业务数据和纯技术生产特征方面着手。

特征挑选

通常我们在清洗数据后,需要进行分箱、计算WOE和IV值(WOE的性质)、特征筛选。

1、分箱(Binning)
对连续变量离散化(Discretization),对离散变量也可进行重新分箱、组合。

2、WOE(Weight of Evidence)

(1) 逻辑回归是线性的统计模式,因此遇到非线性趋势的变数会造成无法有效的建立预测模型,因此需要WOE
(2) WOE与风险成正比,WOE越大,风险越高,代表该层级的客户品质越差。如果WOE接近0,表示接近平均水平。(正负相关可以调节)
(3) WOE = ln(Odds) = ln(%Good/%Bad) = ln(p/(1-p))

3、IV值(Infomation Value)

IV= ∑(%Good-%Bad)*WOE = ∑(%Good-%Bad)*ln(%Good/%Bad)

4、特征选择

根据每个特征的分箱结果计算IV值,留下IV>0.1的变量。当然这个0.1的数值可以根据实际情况改变。

具体实现

……时间太紧,看完之后再整理

贷款用户逾期问题Task2相关推荐

  1. 贷款用户逾期问题Task4

    贷款用户逾期问题Task4 任务4 - 模型评估(2天) 评估 任务4 - 模型评估(2天) 任务4:记录5个模型(逻辑回归.SVM.决策树.随机森林.XGBoost)关于accuracy.preci ...

  2. 贷款用户逾期问题Task3

    贷款用户逾期问题Task3 任务3 - 建模(2天) 逻辑回归LR 支持向量机SVM 决策树 任务3 - 建模(2天) 用逻辑回归.svm和决策树:随机森林和XGBoost进行模型构建,评分方式任意, ...

  3. ML - 贷款用户逾期情况分析5 - 特征工程2(特征选择)

    文章目录 特征选择 (判定贷款用户是否逾期) 1. IV值进行特征选择 1.1 基本介绍 1.2 计算公式 2. 随机森林进行特征选择 2.1 平均不纯度减少 mean decrease impuri ...

  4. ML实操 - 贷款用户逾期情况分析

    目录 任务描述 实现过程 基本思路 1. 数据集预览 2. 数据预处理 3. 特征工程 4. 模型选择 4.1 数据及划分及数据归一化 4.2 LR 4.3 SVM 4.4 决策树 4.5 Xgboo ...

  5. ML - 贷款用户逾期情况分析2 - 特征工程1(数据预处理)

    文章目录 数据预处理 (判定贷款用户是否逾期) 1. 删除无用特征 2. 数据格式化 - X_date 3. 数据处理 - 类别特征 X_cate 4. 数据处理 - 其他非数值型特征 5. 数据处理 ...

  6. 【机器学习-贷款用户逾期情况分析2】3.stacking模型融合

    3.0 任务说明 用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分果. 3.1 stacking模型融合 Stacking(有时候也称之为stacked ge ...

  7. ML - 贷款用户逾期情况分析6 - Final

    文章目录 思路 1. 导入数据 2. 性能评估函数 3. 模型优化 3.1 LR模型 3.2 SVM模型 3.3 决策树模型 3.4 XGBoost模型 3.5 LightGBM模型 3.6 模型融合 ...

  8. [转载] 机器学习 scikit-learn1 预测贷款用户是否会逾期

    参考链接: 使用Scikit-Learn在Python中减少维度 scikit-learn 一周算法实践集训 简介代码说明代码目录结构代码使用方法 个人总结参考文档任务1. 逻辑回归模型实践[2018 ...

  9. 预测贷款用户是否逾期:数据清洗与预处理

    任务一 做一个项目的第一步是数据清洗与预处理,也是对数据进行探索和分析.这份数据集是金融数据,我们的目标是要预测贷款用户是否会逾期,其中status表示标签,1表示逾期,0表示未逾期. 1.查看数据 ...

  10. 预测贷款用户是否会逾期

    数据信息: 这是本次实践数据的下载地址 https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g 说明:这份数据集是金融数据(非原始数据,已经处理过了),要做的是 ...

最新文章

  1. 反向词典_根据描述查找词语
  2. eclipse下使用maven配置库托管jar包
  3. Swift和Objective-C混编 1
  4. MySQL--开发技巧(一)
  5. react实现路由跳转_react实现hash路由
  6. 根据分类id找出父类id
  7. 多希望当年做工程师时我能明白这三个道理!
  8. LeetCode简单题目-2019.10.10-10.11-8道
  9. asp.net电子影像相册_大连孕妈看过来 | 290元=孕中期四维排畸+孕妇写真+胎宝电子影集...
  10. 安全体系(三)——SHA1算法详解
  11. siege linux 压力测试工具
  12. 绝对值编码器的调整方法有哪些?
  13. 电感的两种模式——DCM和CCM的区别
  14. 干货 | 那些你不知道的爬虫反爬虫套路
  15. c语言字符串求n的阶乘,C语言求n的阶乘(n!)
  16. u盘能不能给联想服务器做系统盘,u盘能当系统盘吗?怎么把U盘做成系统盘
  17. 致江苏卫视《最强大脑第二季》节目组的一封信
  18. 【ipad 作为 mac 分屏分辨率调整 | sidercar 分辨率调整】
  19. 理解什么是接口测试?怎样做接口测试?
  20. 还在if-else行走天下?试试【策略模式】吧

热门文章

  1. CAPM模型的应用--回归模型中的Alpha, r_f
  2. python爬虫——校花网
  3. vscode管理员身份运行powershell
  4. 一行代码实现随意编辑网页内容
  5. 实习期间的一些思考整理(1)2018.4.8~4.9
  6. 35岁是个坎,为啥到岁数就不想要你了
  7. 基于SDCC的工程化实践
  8. MaxKey单点登录认证系统微服务架构v3.0.0GA发布
  9. 1-20的两个数把和告诉A,积告诉B,A说不知道是多少,B也说不知道,这时A说我知道了,B说我也知道了,请你猜猜这两个数的和是多少
  10. 保龄球 java机试题