坏样本不够多，怎么办？

本文是转载自微信公众号屁屁的sas数据分析

今天的话题，是建模前提如何处理坏样本过少的问题。

样本过少分两种情况。一种是确实没啥坏样本，就是几十个，一百来个。另外一种就是相对于好样本，坏样本比较少，例如你有一百万的好样本，只有一万的坏样本，第二种就是属于样本不均衡的话题，这个网上的文献也都有好多，我这里就不展开了。

样本过少之我只有几十个坏样本。这种情况多数发生在产品刚上线的时候，没啥数据，但是又觉得规则撑不住，所以还是想做模型来和规则一起来维稳，这时候你可以把这种情况当做冷启动来处理，我之前讲冷启动的时候，提到一点点，这边我们来细化一下可以有哪些方法。

放弃这仅有的样本，重新寻找近似的坏样本。为什么我说要放弃这仅有的样本，如果是产品上线的初期，首先这时候你的风控不敢放松，容忍度较低，那么通过率相对较低，这是坏样本少的一个方面，另外一个方面就是，本身产品刚上线的话，可能坏样本就是近一个月进来产生的坏样本，指不定就逾期了3天，你就觉得他是坏客户，这有些说不过去，所以这里有两点希望你能放弃这批坏样本：1、够不够坏，如果够坏，那是不是剩十几个了。2、坏样本的覆盖面不全，这个月进来的坏样本的特征不能覆盖到基本的坏样本的特征，尽管可以拟合出来的模型在当下有用，但是后续还是有很大的可能会不稳定。

在第一点中我说希望你放弃坏样本的理由，如果你的坏样本不满足第一条的条件，你可以不放弃的，我不想劝你。那么补充坏样本可以有以下几种方式：

1.其他数据的标准定义坏样本。你们公司接了什么第三方数据我不知道，但是一般一般呢，不是粗暴放款的，至少都接了简版征信，简版征信中有好几个逾期标准，举个例子，五年内超过90天逾期的次数，点到为止，你自己在这份数据中衍生其他逾期标准。这思路就跟你找犯人的时候，把之前有前科的人抓出来扫一遍一样。

2.使用其他数据阈值切分坏样本。我又要拿我喜欢拿出来举例子的数据–多头数据，这个方法就跟警察抓嫌疑犯一样，虽然我没看到你明显犯罪了，但是我觉得你有动机。可以使用多头的数据中，你们不能容忍的超过几次的阈值，例如近一个月超过20次，那么大于等于20次的客户就可以定义为坏客户。

3.物以类聚法或者专家评分卡。根据你的经验（感觉）找出几个跟客户逾不逾期的强相关变量，最好是数值型的变量，这时候可以把那之前提到的那几十个坏样本，使用聚类（建议KNN）找出，哪一类的坏样本的占比最高的，就把这个类的样本当做坏样本。或者使用专家评分卡，找出专家评分卡下分数较低的那5%-10%。

4.使用人工标准。那么我们在审批环节中（假设你们还是有人工介入的），这时候可以概括两种拒绝的人：1、系统拒绝，2、人工拒绝。那么系统拒绝的客户，你可以定义为，他一出来，你一眼就知道他是坏人，人工拒绝的客户，你可以理解为，这货一路伪装了好多东西，但是最后被你们公司高端的审批高超的话术征服了，道出了他想犯罪的想法，然后你叫他滚，然后他犯罪不遂，但是没有你们高端的审批，这个人很可能变成你们的坏客户。那么这里说明一个问题，就是公司做模型是为了什么，为的节省人力，最理想的状态就是风控的各个环节可以让90%的客户完成审核审批，10%人工核验，你们要是有种100%风控系统全自动审批，我也不拦你。所以你这时候，你就发现，你顶着风控建模师的职称，你的工作就变成把这本应人工拒绝的客户变成你的模型能拒绝的，所以人工拒绝的客户就变成你的坏客户了，这些思路顺着下去，你可以分析出更多适合你的模型的坏客户。

5.无监督建模。这个方法区别于以上四个方法，以上都是在说怎么找出坏样本，因为我们要做监督模型，那么要是你有种高一点，你跟领导说，我觉得我做无监督的效果也可以做的很牛逼，这我也不拦你的，毕竟建模的思维本来就是扩散，这个就有个问题，如果是无监督的话，那么可能部署到系统上是个问题。

坏样本不够多，怎么办？相关推荐

【待继续研究】建模-听说你的坏样本不太够
今天的话题我们分为两部分,一部分是在建模前提如何处理坏样本过少的问题,第二部分是说模型建立之后,验证你这模型的效果的方法. 首先样本过少分成两种过少的情况.一种是的的确确就是没啥坏样本,就是几十个,一 ...
bp神经网络需要多少样本,bp神经网络训练时间
1.BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络样本数有什么影响学习神经网络这段时间,有一个疑问,BP神经网络中训练的 ...
信贷风控模型开发----模型流程好坏样本定义
第二章模型开发流程&好坏样本定义 2.1模型开发流程 2.1.1 评分模型流程图 2.1.2流程图阐述 2.2 好坏样本定义 2.2.1观察期.表现期.观察点 2.2.2举例说明第二章模 ...
机器学习建模中的样本加权
写在最前:样本加权与过采样/欠采样的本质目的基本一致,都是为了有侧重的学习样本,以期提升模型效果一.为什么加权? 1. 业务需求 (1) 业务有侧重产品业务角度可以将样本分类,业务未来发展方向更关 ...
机器学习基础知识详解！
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货作者:胡联粤,Datawhale面经小组 Q1 ⽼板给了你⼀个关于癌症检 ...
机器学习中的特征工程总结！
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货译者:张峰 ,Datawhale成员结构总览特征工程传统编程的关注 ...
探究位置误差对单目3D目标检测影响
标题:Delving into Localization Errors for Monocular 3D Object Detection 作者:Xinzhu Ma1, Yinmin Zhang3, ...
报名 | 飞速发展的个人消费信贷与风险控制讲座
我国个人消费信贷自2006飞速发展至今,其发展趋势上消费信贷的规模绝对数值大,但是渗透率较发达国家仍然较低,因此还有巨大空间.极速发展的消费信贷来自新的金融技术和更广泛的获客渠道.扩大的消费金融规模伴 ...
手把手教你从零到一搭建深度学习项目（附PDF下载）
来源:机器之心作者:Jonathan Hui 本文约14000字,建议阅读10+分钟. 本文将会从第一步开始,告诉你如何解决深度学习项目开发中会遇到的各类问题. 在学习了有关深度学习的理论之后,很多 ...

坏样本不够多，怎么办？

坏样本不够多，怎么办？相关推荐

最新文章

热门文章