本文是转载自微信公众号 屁屁的sas数据分析

今天的话题,是建模前提如何处理坏样本过少的问题。

样本过少分两种情况。一种是确实没啥坏样本,就是几十个,一百来个。另外一种就是相对于好样本,坏样本比较少,例如你有一百万的好样本,只有一万的坏样本,第二种就是属于样本不均衡的话题,这个网上的文献也都有好多,我这里就不展开了。

样本过少之我只有几十个坏样本。这种情况多数发生在产品刚上线的时候,没啥数据,但是又觉得规则撑不住,所以还是想做模型来和规则一起来维稳,这时候你可以把这种情况当做冷启动来处理,我之前讲冷启动的时候,提到一点点,这边我们来细化一下可以有哪些方法。

放弃这仅有的样本,重新寻找近似的坏样本。为什么我说要放弃这仅有的样本,如果是产品上线的初期,首先这时候你的风控不敢放松,容忍度较低,那么通过率相对较低,这是坏样本少的一个方面,另外一个方面就是,本身产品刚上线的话,可能坏样本就是近一个月进来产生的坏样本,指不定就逾期了3天,你就觉得他是坏客户,这有些说不过去,所以这里有两点希望你能放弃这批坏样本:1、够不够坏,如果够坏,那是不是剩十几个了。2、坏样本的覆盖面不全,这个月进来的坏样本的特征不能覆盖到基本的坏样本的特征,尽管可以拟合出来的模型在当下有用,但是后续还是有很大的可能会不稳定。

在第一点中我说希望你放弃坏样本的理由,如果你的坏样本不满足第一条的条件,你可以不放弃的,我不想劝你。那么补充坏样本可以有以下几种方式:

1.其他数据的标准定义坏样本。你们公司接了什么第三方数据我不知道,但是一般一般呢,不是粗暴放款的,至少都接了简版征信,简版征信中有好几个逾期标准,举个例子,五年内超过90天逾期的次数,点到为止,你自己在这份数据中衍生其他逾期标准。这思路就跟你找犯人的时候,把之前有前科的人抓出来扫一遍一样。

2.使用其他数据阈值切分坏样本。我又要拿我喜欢拿出来举例子的数据–多头数据,这个方法就跟警察抓嫌疑犯一样,虽然我没看到你明显犯罪了,但是我觉得你有动机。可以使用多头的数据中,你们不能容忍的超过几次的阈值,例如近一个月超过20次,那么大于等于20次的客户就可以定义为坏客户。

3.物以类聚法或者专家评分卡。根据你的经验(感觉)找出几个跟客户逾不逾期的强相关变量,最好是数值型的变量,这时候可以把那之前提到的那几十个坏样本,使用聚类(建议KNN)找出,哪一类的坏样本的占比最高的,就把这个类的样本当做坏样本。或者使用专家评分卡,找出专家评分卡下分数较低的那5%-10%。

4.使用人工标准。那么我们在审批环节中(假设你们还是有人工介入的),这时候可以概括两种拒绝的人:1、系统拒绝,2、人工拒绝。那么系统拒绝的客户,你可以定义为,他一出来,你一眼就知道他是坏人,人工拒绝的客户,你可以理解为,这货一路伪装了好多东西,但是最后被你们公司高端的审批高超的话术征服了,道出了他想犯罪的想法,然后你叫他滚,然后他犯罪不遂,但是没有你们高端的审批,这个人很可能变成你们的坏客户。那么这里说明一个问题,就是公司做模型是为了什么,为的节省人力,最理想的状态就是风控的各个环节可以让90%的客户完成审核审批,10%人工核验,你们要是有种100%风控系统全自动审批,我也不拦你。所以你这时候,你就发现,你顶着风控建模师的职称,你的工作就变成把这本应人工拒绝的客户变成你的模型能拒绝的,所以人工拒绝的客户就变成你的坏客户了,这些思路顺着下去,你可以分析出更多适合你的模型的坏客户。

5.无监督建模。这个方法区别于以上四个方法,以上都是在说怎么找出坏样本,因为我们要做监督模型,那么要是你有种高一点,你跟领导说,我觉得我做无监督的效果也可以做的很牛逼,这我也不拦你的,毕竟建模的思维本来就是扩散,这个就有个问题,如果是无监督的话,那么可能部署到系统上是个问题。

坏样本不够多,怎么办?相关推荐

  1. 【待继续研究】建模-听说你的坏样本不太够

    今天的话题我们分为两部分,一部分是在建模前提如何处理坏样本过少的问题,第二部分是说模型建立之后,验证你这模型的效果的方法. 首先样本过少分成两种过少的情况.一种是的的确确就是没啥坏样本,就是几十个,一 ...

  2. bp神经网络需要多少样本,bp神经网络训练时间

    1.BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络样本数有什么影响 学习神经网络这段时间,有一个疑问,BP神经网络中训练的 ...

  3. 信贷风控模型开发----模型流程好坏样本定义

    第二章 模型开发流程&好坏样本定义 2.1模型开发流程 2.1.1 评分模型流程图 2.1.2流程图阐述 2.2 好坏样本定义 2.2.1观察期.表现期.观察点 2.2.2举例说明 第二章 模 ...

  4. 机器学习建模中的样本加权

    写在最前:样本加权与过采样/欠采样的本质目的基本一致,都是为了有侧重的学习样本,以期提升模型效果 一.为什么加权? 1. 业务需求 (1) 业务有侧重产品 业务角度可以将样本分类,业务未来发展方向更关 ...

  5. 机器学习基础知识详解!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:胡联粤,Datawhale面经小组 Q1 ⽼板给了你⼀个关于癌症检 ...

  6. 机器学习中的特征工程总结!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 译者:张峰 ,Datawhale成员 结构总览 特征工程 传统编程的关注 ...

  7. 探究位置误差对单目3D目标检测影响

    标题:Delving into Localization Errors for Monocular 3D Object Detection 作者:Xinzhu Ma1, Yinmin Zhang3, ...

  8. 报名 | 飞速发展的个人消费信贷与风险控制讲座

    我国个人消费信贷自2006飞速发展至今,其发展趋势上消费信贷的规模绝对数值大,但是渗透率较发达国家仍然较低,因此还有巨大空间.极速发展的消费信贷来自新的金融技术和更广泛的获客渠道.扩大的消费金融规模伴 ...

  9. 手把手教你从零到一搭建深度学习项目(附PDF下载)

    来源:机器之心 作者:Jonathan Hui 本文约14000字,建议阅读10+分钟. 本文将会从第一步开始,告诉你如何解决深度学习项目开发中会遇到的各类问题. 在学习了有关深度学习的理论之后,很多 ...

最新文章

  1. 如何快速设计元器件原理图库和PCB封装库?
  2. 为什么java线程池的submit的不抛出异常
  3. 外键查询_传统关系型数据库查询性能提高思路
  4. 大厂面试官手把手教你:三步写出好简历
  5. JavaScript 创建类/对象的几种方式
  6. C语言哆啦a梦用printf输出,【2013.1.20】故事的最后,哆啦A梦终于又回到了大雄身边。从此两个人过上了…——ProtoType...
  7. 零基础学Python(第九章 循环控制【break】与【continue】)
  8. hive 如何将数组转成字符串_教你如何将Power Logic的原理图转成Orcad的原理图
  9. sync.Once简介
  10. Oracle数据安全解决方案(1)——透明数据加密TDE
  11. 人均34万,腾讯为3300名员工发11亿红包;B站回应大会员补偿会自动续费;​小米销量超苹果跻身全球第二|极客头条...
  12. elasticsearch5.0.1集群排错的几个思路总结
  13. Linux能运行哪些行业软件,盘点支持Linux的经典Windows软件
  14. matlab光学应用实践,Matlab在光学信息处理仿真实验中的应用
  15. java输出空心菱形 用斜杠,java基础知识总结1
  16. Windows下批量修改文件名称
  17. R语言实战笔记后续修改
  18. elasticsearch中index.highlight.max_analyzed_offset设置
  19. 怎么调节台式计算机字体大小,电脑上怎么调整字体大小
  20. 数据中台-背景与概念

热门文章

  1. 解决ImageIo图像类型不支持的异常:Unsupported Image Type
  2. matlab y e x,如何使用matlab绘制函数y=xloge(x^2-1)的函数图像,以e为底。
  3. Mark一个神奇的网站
  4. Java实现在线聊天功能
  5. CocosCreator一步一步实现重力球游戏
  6. c++中赋值运算符重载
  7. 什么叫软件架构师(转)
  8. Nginx负载均衡轮询访问只会刚开始轮询一次,以后一直访问同一服务器
  9. discuz 模板代码解释
  10. stamp 邮票设计 搜索02