信用评分卡建模的工作流程
结合阅读书籍和实际工作经验,整理一篇笔记性质的博客,供参考。能帮助到需要的人就是我的满足,更欢迎大神指导不足,谢谢!
一、流程概述
下图概况了典型的评分卡开发流程,该流程的各个步骤的顺序根据具体情况的不同调整,也可以根据需要重复某些步骤。
具体的步骤内容
- 问题准备
- 数据获取与整合
- EDA(探索性数据分析)与数据描述
- 数据准备(特征工程)
- 变量选择
- 模型开发
- 模型检验和评价
- 评分卡创建和刻度
- 评分卡实施
- 监测和报告
引用自:《信用风险评分卡研究_基于SAS的开发与实施》
二、问题准备
建模项目的规划期,必须确认清楚以下事项,否则一旦出现问题就得从头返工了,慎重再慎重!
1、模型的应用范围
主要考虑首贷/续贷,产品种类,销售渠道等可以明显区分客群的因素
2、违约/正常样本定义
即Y变量定义,也就是好人/坏人的定义,逾期多少天的人标记成坏人。可以是DPD15+,M1+,M3+等,一般当坏账率 / 某个时点的逾期率 在80%左右,则可以用这个时点逾期作为违约的定义(此为单期产品的定义,多期产品的定义较为复杂,需要结合业务确认)
3、数据时间窗口
分为建模数据窗口和验证数据窗口,建模数据是模型训练数据,验证数据是out of time验证以避免模型过拟合的数据,一般选取建模数据窗口后的一段时间。
数据时间窗口选取的原则
1)表现期成熟:也就观察期,表现期=借款期限+违约定义期限,比如借款30天的产品,以M1作为违约定义,那么放款后60天才能算表现期成熟。
2)保证数据新鲜度:模型是为了预测未来的数据,所以要保证建模的数据最接近未来,所以选取最近的数据。
3)保证数据周期性:很多贷款产品特别是pay day loan,逾期率具有时间周期性,发薪日逾期率明显低于其他时间,这种情况,数据窗口最好以月为单位选取。
4)保证样本量大小:根据经验,违约样本的数量需要至少1500个。
4、数据源确定
刚才确定了数据有哪些行,现在来确定有哪些列,也就是说,确定我们的特征/变量/属性。
数据源可以分为内部数据、外部数据,具体来说,就是确定此次建模能用到的所有数据表。
数据源选取的原则
1)数据覆盖率:数据覆盖率不能过低(不同模型算法要求不同,逻辑回归要求覆盖率较高,xgboost等数模型要求低些)。
2)数据稳定性:数据的计算逻辑是维持稳定的,不会发生数据定义的改变
3)未来有效性:在模型实施期,可能无法获取的数据,不能用于建模
5、项目周期
建模项目的人员、资源、时间等,主要是明确各阶段的时间计划表,保证整体工作节奏可控。
三、数据获取与整合
1、数据获取
从各处数据源提取需要的数据(Mysql、MongoDB、Hive、离线数据等等),先按表分开提取即可。
注意点:生产环境的数据计算规则可能已经发生变化,为保证建模的数据跟当前保持一致,需要对一些数据重新计算,可以称为刷新数据、刷件
2、数据整合
也叫合并宽表,通过主键将所有数据合并成一张表,M行*N列。
M行表示建模样本一共有多少件;
N列表示建模初始有多少变量(这里包含了id、Y变量、时间变量等);
未完待续ING
信用评分卡建模的工作流程相关推荐
- 数据挖掘项目:银行信用评分卡建模分析(下篇)
以下是银行信用评分卡建模分析下篇的内容,包括特征工程,构建模型,模型评估,评分卡建立这四部分.其中如果有一些地方分析的不正确,希望大家多多指正,感谢! 上篇文章的链接:数据挖掘项目:银行信用评分卡建模 ...
- 银行信用评分卡建模原理
今天学习了一下评分卡的内容,博主自己也对这个不了解,由于业务的需求,今天自学了下相关的内容.我把自己学习的一些东西整理下,发到这个博客里面. 背景 1.先讲一下背景内容,什么是评分卡:其实评分卡呢,就 ...
- 数据挖掘项目:银行信用评分卡建模分析(上篇)
kaggle上的Give Me Some Credit一个8年前的老项目,网上的分析说明有很多,但本人通过阅读后,也发现了很多的问题.比如正常随着月薪越高,违约率会下降.但对于过低的月薪,违约率却为0 ...
- Python语言实现信用评分卡建模分析
背景介绍 信用评分技术是一种应用统计模型,其作用是为信用卡申请人计算一个风险评估分值的方法. 而这种用途的统计模型就称为信用评分卡.信用评分卡可以根据客户提供的资料.客户的历史数据以及第三方平台(支付 ...
- 基于Python的信用评分卡建模分析
1.背景介绍 信用评分技术是一种应用统计模型,其作用是对贷款申请人(信用卡申请人)做风险评估分值的方法.信用评分卡模型是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使 ...
- 超详细用Python进行信用评分卡建模【kaggle的give me some credit数据集】【风控建模】
1 信用评分卡模型简介 信用评分卡是一个通过个人数据对其还款能力.还款意愿进行定量评估的系统.在消费金融行业,信用评分卡主要有三种(A.B.C卡): A卡:申请评分卡,贷前阶段使用,在客户获取期,建立 ...
- 【项目经验总结】贷前评分卡建模全流程指南
由于前几个月参与了一家股份制银行的信贷风控项目,其中我负责了贷前评分卡建模相关工作,最近刚完成模型交付,在此总结记录一下,从数据诊断到样本提取,再到模型构建的全流程工作内容. 本文主要侧重实地驻场建模 ...
- 风控评分卡建模全流程
风控评分卡建模全流程 前言 本文将通过 python 代码演示传统评分卡建模的全流程,比较通用的一个版本.评分卡已经发展得非常成熟了,对于不同业务或者不同建模人员下的模型构建过程可以称得上是大同小异. ...
- [机器学习] 信用评分卡中的应用 | 干货
背景介绍与评分卡模型的基本概念 如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判.交易对手未能履行约定契约中的义务而造成经济损失的风险,即 ...
最新文章
- C# 使用反射设置某个对象的属性或读取某个对象的属性
- linux 多线程编程笔记
- json mysql乱码问题_JSON数据乱码问题
- Javascript在页面加载时的执行顺序(转载)
- GeneralUpdate实现应用程序更新
- 创建健壮的微服务架构所涉及的组件
- knn 机器学习_机器学习:通过预测意大利葡萄酒的品种来观察KNN的工作方式
- ODP 使用 ArrayBind 时可能会遇到的巨坑 'System.IConvertible' 的解决方法
- 案例集锦|科技赋能,华为云GaussDB助千行百业数字化转型
- python信息安全书籍_信息安全从业者书单推荐
- Linux 安装Zookeeper
- 常见的.net误解 1-1 字符串是不可修改的(immutable)
- python 批量爬取网页pdf_爬取网页文件并批量解析pdf
- Win11键盘无法输入任何东西怎么解决?
- 不要时刻忘记保持微笑
- 用VBA程序开发Excel工具
- 专家称“988”心理健康热线是一次“变革”,但目前运营上面临困境
- 用计算机配置局域网,怎么把一台电脑设置为局域网服务器
- 电脑文档需要服务器登录,云服务器需要用电脑登录
- pairs和ipairs的区别