在信贷风控领域众多维度的数据源中,APP设备数据对于策略规则的开发、模型变量的筛选有着重要的贡献,理由是在当今电子信息化时代,APP数据可以较全面地反映出用户的个人习惯、日常行为等综合信息。因此,金融机构在开展个人信贷产品的实际业务中,当评估用户的信用能力或风险程度时,通过数据分析挖掘并利用APP维度数据的价值,可以有效提升的风控策略或模型的决策性能。
本文以APP设备部分维度数据为例,介绍下APP数据的常见业务类型,以及加工逻辑与分析方法。同时,结合Python编程语言代码实操,通过相关特征工程、模型训练等算法,评估特征字段的应用效果。
1、样本数据概况
现有一份APP样本数据,示例如图1所示,样本量为20000条,特征量为18个。除了用户主键id、贷后标签flag之外,其余均为APP设备相关字段,包括社交类、理财类、游戏类等不同维度变量,具体特征字段表如图2所示。

1: 样本数据示例


图2: 特征字典表
2、特征衍生分析
为了提升模型训练的拟合效果,特征字段的性能评估与变量筛选是一项重要环节,具体可通过变量的区分性、相关性、稳定性、解释性等多个维度进行考虑。现根据样本特征的分布情况,采用IV值评估字段的区分能力,实现代码与结果指标分别如图3、图4所示。

图3: 特征变量分箱


图4: 原始变量指标IV

从特征字段的IV值结果来看,样本所有字段的区分效果普遍表现较差。当然,若在样本数据不更换的情况下,为了有效完成数据建模任务,还需从中选择性能较好的字段放入模型拟合变量池。但是,从上表信息可知,如果以IV>=0.015作为筛选标准,区分度效果较好的字段仅有4个,分别为App_Tot_Cnt_H(历史App总数量)、App_Fin_Cnt_L6(最近6个月理财类App总数量)、App_Fin_Cnt_H(历史理财类App总数量)、App_Game_Cnt_H(历史游戏类App总数量)。
为了保证模型训练有更多的变量可选,基于样本原始特征字段,可以进行特征衍生加工,以扩大模型变量池范围,有效提升模型的拟合效果。结合图2样本所有字段的分布类型,具体衍生方法可以通过统计学维度进行新变量的加工,包括平均、占比、差分、差比等。现根据这几个常见方式,举例实现特征变量的衍生,部分代码如图5、图6所示。

图5 : 特征衍生代码1


图6 : 特征衍生代码2

根据以上特征衍生方式,最终得到新变量字段的具体情况如图6所示,详细展示出变量的名称与标签。新加工的变量共个,按照图3代码可以同步得到各字段的IV信息值。当然,特征衍生方法还有很多,除了统计学维度,还可以通过特征聚类、主成分分析(PCA)等算法进一步补充。在实际业务中,往往从多个维度进行综合考虑与加工,但无论采用哪种方式,一定要结合业务场景和逻辑理解。


图7: 特征衍生变量1


图8: 特征衍生变量2

从以上新衍生特征的分布来看,我们在16个原始APP字段的基础上,经过衍生加工出48个新的字段。而且,各个字段的标签含义是非常贴近实际业务的,具有比较强的场景分析意义的。此外,从个字段的IV结果了解到,与原始特征(图4)相比,有部分新字段的IV表现尚可,可以放入模型拟合的变量范围。我们现以IV>=0.01作为选择标准,对衍生的新特征进行筛选,同时加上原始效果相对性较好的几个字段,得到如下图8所示的模型拟合变量池,共包含21个特征变量,其中原始字段有7个,衍生特征有14个。

图9: 模型拟合变量池

3、模型训练评估
我们根据图8的APP特征变量,采用逻辑回归算法对模型进行训练,并输出相关模型性能指标,具体代码如图9所示。

图10: 模型拟合训练

当APP模型训练成功后,可以输出相关模型指标,例如模型准确率、AUC、KS等,如图10所示。

图11: 模型评估指标

本文关于APP设备数据特征衍生与应用的实操,详情请看:

我们还给大家准备了相关的实操数据集跟代码,详情大家可以移步至知识星球查看相关的内容:

~原创文章

end

APP设备数据的特征衍生与模型应用相关推荐

  1. python机器学习(一)算法学习的步骤、机器学习的应用及流程(获取数据、特征工程、模型、模型评估)

    机器学习入门 机器学习中需要理论性的知识,如数学知识为微积分(求导过程,线性回归的梯度下降法),线性代数(多元线性回归,高纬度的数据,矩阵等),概率论(贝叶斯算法),统计学(贯穿整个学习过程),算法根 ...

  2. 机器学习数据、特征处理、模型融合

    一 解决问题流程: o 了解场景和目标 o 了解评估准则 o 认识数据 o 数据预处理(清洗,调权) o 特征工程 o 模型调参 o 模型状态分析 o 模型融合 二  数据预处理 (1 ...

  3. 【特征工程】特征衍生+案例

    问:特征衍生上千.万的变量,是怎么做的? 问:大家是如何衍生出成千上万个变量的?衍生变量是怎么生成的? 研习社-上海-桂浩: 请教一个问题,大家是如何衍生出成千上万个变量的?衍生变量是怎么生成的 云何 ...

  4. 机器学习之金融信贷风控(二)申请评分卡中的数据预处理和特征衍生(未完待续)

    申请评分卡中的数据预处理和特征衍生 模型处理的一般流程: 构建信用风险模型的特征 获取数据 链接:https://pan.baidu.com/s/1CsY11ArZ6YK3o1icghWj2w 提取码 ...

  5. python使用sklearn中的make_classification函数生成分类模型(classification)需要的仿真数据、使用pandas查看生成数据的特征数据、目标数据

    python使用sklearn中的make_classification函数生成分类模型(classification)需要的仿真数据.使用pandas查看生成数据的特征数据(features).目标 ...

  6. 吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型

    from sklearn.feature_selection import SelectPercentile,f_classif#数据预处理过滤式特征选取SelectPercentile模型 def ...

  7. 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

    数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,这个说法很深刻!贴上一张最近看的导图

  8. 大数据预测实战-随机森林预测实战(三)-数据与特征对模型的影响

    数据与特征对随机森林的影响 带着上节提出的问题,重新读取规模更大的数据,任务还是保持不变,需要分别观察数据量和特征的选寸结果的影响. 导入工具包 import pandas as pd 读取数据 fe ...

  9. 2.2w字长文详解推荐系统之数据与特征工程,码起来慢慢看

    作者丨gongyouliu 编辑丨lily 来源 | 大数据与人工智能(ID:ai-big-data) [导读]推荐系统是机器学习的一个子领域,并且是一个偏工程化.在工业界有极大商业价值的方向.大量应 ...

最新文章

  1. 三菱fx2n64mr说明书_三菱FX2N可编程控制器使用手册
  2. 2007.04.26
  3. 【Scala】Scala-调用Java-集合
  4. 新版本Chrome同源策略、跨域问题处理No ‘Access-Control-Allow-Origin‘ header is present on the requested resource.
  5. CI框架 -- CLI执行php代码
  6. C#获取网页中某个元素的位置,并模拟点击
  7. 浅谈我所见的CSS命名风格
  8. [转]深入浅出Java设计模式之备忘录模式
  9. 学习笔记5-C语言-数组
  10. Springboot 通过Ftp协议下载文件,并在Vue平台上显示其内容
  11. Seata术语_以及工作原理---微服务升级_SpringCloud Alibaba工作笔记0057
  12. python同时发大量请求_Python批量发送post请求的实现代码
  13. 正则表达式:基础知识学习
  14. 阿里健康:大数据下的北京雾霾经济
  15. 开源可视化bi工具有哪些,干货推荐
  16. Nginx(一) 下载,编译安装并设置开机启动
  17. 「 神器 」强大的系统清理工具
  18. firefox firbug 的“阻挡”
  19. 【java】判断一个数是奇数还是偶数
  20. 【每日面试】2021便利蜂123面Java

热门文章

  1. Oracle的SQL优化建议
  2. 游戏本自动掉帧_无线鼠标玩CS:GO会不会延迟掉帧?黑爵i305Pro双模电竞游戏鼠标入手体验...
  3. Axure RP 入门教程
  4. php缓存输出压缩,PHP缓冲机制:缓冲控制,压缩http响应数据,缓冲 PHP输出
  5. 2018年2月16日训练日记
  6. 一条“万圣节妆容”视频获赞64万,快手美妆达人还有哪些出圈机会?
  7. 因为相信所以看见,既然看见注定坚信《16》
  8. 前端程序员进阶到大神必备的7本前端书籍
  9. Anchor是什么?
  10. t2016gc02电子表