逻辑回归模型小结--基于评分模型
逻辑回归模型
一、优点和不足
二、对变量的要求
当用逻辑回归模型来构建评分模型时,入模变量需要满足以下条件:
1、变量间不存在较强的线性相关性和多重共线性。可在单变量分析和多变量分析过程中予以解决,删除相关性较高的某些变量。
2、变量具有显著性。可从模型的返回参数中的P值进行检验,一般P值小于0.1即可。如果发现模型中某些变量不显著,则需要检验一下两种可能性:
1)该变量本身不显著。检验方法:将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情形下系数的P值仍然较高,即表明该变量本身的显著性较低。
2)该变量显著,但是由于有一定的线性相关性或多重共线性,导致该变量在多元回归中不显著。
先检验第一种可能性,如果排除,再检验第二种可能性,此时可再查看相关系数。
3、变量具有合理的业务含义,即变量对于风控业务是正确的。可从模型的返回参数中的系数进行检验,如在计算woe过程中用的是好坏比,则系数应为负,否则为正。
三、WOE(Weight of Evidence)和IV(Infomation Value)
1、逻辑回归是线性的统计模式,因此遇到非线性趋势的变量会造成无法建立有效的模型,因此需要将变量进行WOE化。
WOE的性质:
1)、WOE与风险正相关,WOE越大,风险越高,代表该层级的客户资质越差。如果WOE接近于0,表示接近平均水平。(正负相关视WOE的计算方式而定)
2)、进行WOE检定时,观察WOE的变动趋势是否符合单调性,即单调递增或单调递减,抑或是呈现u型和n型,这里视业务逻辑而定,是否是属于正常的。如果WOE趋势呈现不稳定的锯齿状波动如W型或M型,则必须通过调整分箱进行合并以解决,否则就得放弃该变量。
3)、WOE不会因为抽样误差造成数值大幅变化,即WOE的操作过程使模型排除了因数据的随机因素造成的波动,不会因为个别出现较大数据波动而影响模型性能,除非是政策、市场发生较大的变化,否则该模型应趋于稳定,并且经WOE制作的评分卡可解释性强,这也就是其经典所在的原因。
2、变量筛选,可根据每个变量的分箱结果计算IV值,一般挑选IV大于0.03的变量进入模型(如变量特征较多大于0.1,则可把阈值定为0.1),小于0.03的均不予考虑。
四、评分尺度化
得到符合要求的逻辑回归模型后,通常还需要将概率转化成分数。分数的单调性与概率相反,及分数越高表明违约的概率越低,信用资质越好。在评分卡模型中,上述过程称为尺度化,转换公式为:
,其中,
,PDO:point to double odds
1 - p:为现实数据违约的概率,则y可从现实数据计算可得
PDO的含义:当好坏比上升1倍时,分数上升PDO个单位
五、评估信用模型
KS检验:模型区分好坏客户的力度。KS>30%时,模型才能用。
ROC检验:模型判别真假的准确度。AUC>70%时,模型才能用。
模型的上线和部署,以上两个条件缺一不可。
逻辑回归模型小结--基于评分模型相关推荐
- lstm模型_基于LSTM模型的学生反馈文本学业情绪识别方法
| 全文共8155字,建议阅读时长8分钟 | 本文由<开放教育研究>授权发布 作者:冯翔 邱龙辉 郭晓然 摘要 分析学生学习过程产生的反馈文本,是发现其学业情绪的重要方式.传统的学业情绪 ...
- 【人口模型】基于Logistic模型与Malthusian模型预测人口
基于Logistic模型与Malthusian模型预测人口 1 逻辑斯特模型(Logistic) 1.1 简介 1.2 案例 2 马尔萨斯模型(Malthusian) 2.1 简介 2.2 案例 参考 ...
- 张红英模型matlab,基于GA_Xgboost模型的糖尿病风险预测
0 概述 糖尿病是一种严重危害人类身体健康的慢性病,是由于胰岛素分泌不足或外围组织对胰岛素不敏感而引起的代谢性疾病,其以持续的高血糖状态为特征,容易致使各种组织器官长期受损. 根据国际糖尿病联盟(ID ...
- 《信用管理》--信用评分方法之Z评分模型、ZETA评分模型
Z评分模型 有5个变量,Z1适用于上市公司,Z2适用于非上市公司,Z3适用于非制造企业. Z1=1.2X1+1.4X2+3.3X3+0.6X4+0.999X5 X1:衡量资产流动性=(流动资产-流动负 ...
- ansys 内聚力模型_基于内聚力模型(CZM)的单筋拉拔数值分析方法研究
基于内聚力模型( CZM )的单筋拉拔数值分析方法研究 景剑 1 , 强峰 2 , 施凯 1 [摘 要] [摘 要]目前化学植筋粘结性能数值模拟中界面单元均以双弹簧单元 为主,但是模拟结果与相应的试验 ...
- 【Day06】请画出 Css 盒模型,基于盒模型的原理,说明相对定位、绝对定位、浮动实现样式是如何实现的?
一.Css 盒模型 页面上任何一个元素,我们都可以看成是一个盒子,盒子会占用一定的空间和位置,他们之间相互制约,就形成了网页的布局. w3c 的盒模型的构成:content border paddin ...
- 【ENM-LAP模型】基于ENM-LAP模型的移动自组织网络拓扑演进的matlab仿真
1.软件版本 MATLAB2013b 2.本算法理论知识 移动自组织网络不但具有终端能量受限.无线信道状况受链路距离影响等特点,还具有节点位置的选择存在偏好的规律.本节建立基于节点位置偏好的网络拓扑演 ...
- babylonjs 分部加载模型_基于babylon3D模型研究3D骨骼动画(1)
3D骨骼动画是实现较为复杂3D场景的重要技术,Babylon.js引擎内置了对骨骼动画的支持,但Babylon.js使用的骨骼动画的模型多是从3DsMax.Blender等3D建模工具转换而来,骨骼动 ...
- aiem模型matlab,基于MIMICS模型的麦田地表土壤含水量反演研究
摘要 为尝试联合应用光学与微波遥感数据反演小麦覆盖区土壤含水量的可行性,收集了2014年3月28日RADARSAT-2微波数据和2014年3月24日Landsat8光学数据,同时开展了地面同步试验,测 ...
最新文章
- js实现textarea根据内容大小自适应高度
- resnet keras 结构_Day146:第二讲 ResNet
- 关于axios请求报400如何获取报错信息
- input radio 样式
- 2018年php框架,2018年的7个热门网站开发框架
- 深度学习花书-2.9 伪逆矩阵
- 数据库连接报错2013-lost connection to mysql server at ‘reading initial communication packet’ system error:0
- windows游戏编程:球球大作战(吃鸡版)源码
- 「SAP技术」SAP MM 启用了MPN物料管理的物料,物料主数据与源清单数据有啥不同?
- 最新手机号正则表达式验证方法(scala版)
- 领睿s1pro的黑苹果EFI及黑苹果教程
- DB2 错误码sqlcode对应表
- 毕业设计管理系统小结
- figma 导入导出 fig 文件
- 【转】加班与加薪的秘密:一位华为工程师的经验分享
- 电子书格式转换方法集锦
- 知道一点怎么设直线方程_两点直线方程怎么求
- 如何解决遇到的The server time zone value ‘?й???????‘ is unrecognized or represents more than one time zone
- 轻松了解,顶级域名,二级域名,三级域名
- Python实现“求职APP网络爬虫”