在信息爆炸时代,“信用”已成为越来越重要的无形财产。 ”数据风控“的实际意义是用DT(Data Technology)识别欺诈,将欺诈防患于未然,然后净化信用体系。

最近我们被客户要求撰写关于风控欺诈识别模型的研究报告,包括一些图形和统计输出。

【视频】支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

,时长07:24

视频:从决策树到随机森林:R语言信用卡违约分析信贷数据实例

从决策树到随机森林:R语言信用卡违约分析信贷数据实例

,时长10:11

挑战

信贷风险和欺诈风险是消费金融业务发展中最重要的两种风险,信息不对称是导致这些风险的主要原因。

“ 数据防欺诈”是数据风控武器之一。这种武器的力量的重要保证是数据和信息收集的完整性和准确性。通过这些有价值的数据,找到欺诈者留下的线索,以防止发生欺诈。

实施过程

▍ 用户立体化呈现——多维数据采集

深入分析用户的基本属性、社会属性、消费者行为、兴趣偏好、社会偏好、资产特征、信用特征等数据,通过数据挖掘,使用户更加立体化地实时呈现。

▍ 挖掘潜在的团伙欺诈——社区发现算法 

一方面,基于机构的存量数据,运营商等数据构建复杂的网络。同时,采用社区挖掘算法实现风险分组。 在此基础上,我们训练机器学习模型。

▍ 建模的原材料 —— 特征工程

建模的第一步是特征工程,众所周知,特征是机器学习建模的原材料,对最终模型的影响至关重要。数据和特征比模型更重要,数据和特征决定了机器学习的上限,而模型和算法逼近这个上限。特征加工和衍生工作越完备,那么构建的机器学习模型效果越好。但是,面对不同数据,不同业务场景,特征加工衍生往往是最耗时间与资源的工作。

尤其在弱数据方面,充斥着大量文本、时序类数据,人工特征定义的方法天然存在较大局限性。

引入基于机器学习的特征提取框架(如 random forest,SVM,CNN)来适应不同的数据类型,自动从大量复杂的非结构化数据中产生高质量的特征,完成模型训练后可以输出特征的重要性,结合多种方法进行特征选择和解释。

▍ 和而不同——集成模型

具体的模型,我们知道在弱势数据的基础上加工和衍生的特点,机构往往面临很多特征维度,从数千到数万以上,非常稀疏。超出了传统风控的基于评分卡系统的建模能力。

引入集成模型(ensemble models)来解决这个问题。集成模型从“投票”的思想简单的理解,也就是我们对不同类型的数据使用最合适的子模型(Logistic回归,GBDT,CNN,xgboost), 然后每个子模式投票作出决策

能够使整体模型的准确度和防止过拟合的能力达到协调,从而达到在总体上的最佳准确度。

复杂的集成模式框架除了当前场景和业务建模具有很好的表现,其另一个重要价值在于可以快速应用于新业务应用,对“冷启动“阶段有非常重要的作用。

结果/效果总结

最后,在线上信用贷场景实践下来,经过多批次多个跨时间段的验证,可以看到,效果上还是有非常直接的提升,模型性能相比传统模型提升了大约30%。

基于随机森林、svm、CNN机器学习的风控欺诈识别模型相关推荐

  1. python随机森林筛选变量_一种基于随机森林的改进特征筛选算法

    刘云翔 陈斌 周子宜 摘  要: 肝癌是一种我国高发的消化系统恶性肿瘤,患者死亡率高,威胁极大.而其预后情况通常只能通过医生的专业知识和经验积累来粗略判断,准确率较差.因此文中在分析随机森林算法的基本 ...

  2. 机器学习系列|基于随机森林的生存分析模型-R实战

    机器学习系列|基于随机森林的生存分析模型-R实战 随机生存森林 随机生存森林通过训练大量生存树,以表决的形式,从个体树之中加权选举出最终的预测结果. 构建随机生存森林的一般流程为: Ⅰ. 模型通过&q ...

  3. 机器学习:基于随机森林(RFC)对酒店预订分析预测

    机器学习:基于随机森林(RFC)对酒店预订分析预测 作者:i阿极 作者简介:Python领域新星作者.多项比赛获奖者:博主个人首页

  4. 【项目实战】基于随机森林算法的房屋价格预测模型

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  5. 动手实操丨基于随机森林算法进行硬盘故障预测

    摘要:业界期望使用机器学习技术来构建硬盘故障预测的模型,更准确地提前感知硬盘故障,降低运维成本,提升业务体验.本案例将使用随机森林算法来训练一个硬盘故障预测模型. 本文分享自华为云社区<基于随机 ...

  6. 基于随机森林算法进行硬盘故障预测

    摘要:本案例将带大家使用一份开源的S.M.A.R.T.数据集和机器学习中的随机森林算法,来训练一个硬盘故障预测模型,并测试效果. 本文分享自华为云社区<基于随机森林算法进行硬盘故障预测>, ...

  7. kaggle项目:基于随机森林模型的心脏病患者预测分类!

    公众号:尤而小屋 作者:Peter 编辑:Peter 大家好,我是Peter~ 新年的第一个项目实践~给大家分享一个新的kaggle案例:基于随机森林模型(RandomForest)的心脏病人预测分类 ...

  8. RDKit | 基于随机森林的化合物活性二分类模型

    基于随机森林算法的化合物二分类机器学习模型 代码示例 #导入依赖包 import pandas as pd import numpy as np from rdkit import Chem, Dat ...

  9. 随机森林c语言编程,一种基于随机森林的C语言源代码静态评分方法与流程

    本发明涉及评分领域及机器学习领域,它特别涉及一种基于随机森林的c语言源代码静态评分的构建方法. 背景技术: c语言源代码静态评分是指对根据一定的题目描述做出解答的c语言源代码进行评分.目前,主要流行的 ...

最新文章

  1. SAP上线前数据重置方式总结
  2. 用API函数播放wav文件声音不连续的解决方法
  3. Redis-字符串(string)基础
  4. 软件构建设计图_游戏设计如何帮助您构建更好的软件
  5. python自编信息加密函数_自定义Python加密算法
  6. 性能测试知多少---吞吐量【转】
  7. java jdk1.5_jdk1.5 64位官方下载
  8. 最优化方法:六、约束最优化方法
  9. 数字电路基础01(含半加器、全加器、逻辑化简、卡诺图化简)
  10. TP-LINK配置无线上网短信Wifi认证方式
  11. 计算机桌面时间设置,电脑时间校准,教您怎么校正电脑时间
  12. 用Python爬取京东手机评论
  13. demonstration记忆_记忆单词的方法
  14. 福田欧曼ETX驱动桥的设计(说明书+8张CAD图纸+开题报告+任务书+中期检查表+答辩相关材料)
  15. eclipse IDE
  16. c# 中ToolStrip控件中button控件,显示文字和图标
  17. 探索消费级基因检测–祖源
  18. 2021年G1工业锅炉司炉考试资料及G1工业锅炉司炉考试试卷
  19. Android 编译之source和lunch
  20. 什么是HTTP协议?—深入理解HTTP协议

热门文章

  1. iOS之 2020年最新苹果移动设备屏幕的大小和系统
  2. mac 打开网页慢_在Mac电脑开启Safari速度总是很慢?可以试试这10种解决方法
  3. 受制裁,即 Github 之后,Adobe 也开始大量封禁账号和服务了!
  4. 日本語トレーニング45
  5. 蓝牙耳机哪款性价比高?2023年高性价比蓝牙耳机盘点
  6. C++通过调用Python函数调用讯飞OCR识别接口
  7. One Chat for Mac(多功能聊天软件)
  8. 婴幼儿体重在线计算机,宝宝测量体重计算器
  9. Redis Module 模块组件
  10. LeetCode hot-100 简单and中等难度,21-30.