来源:CSDN博客
作者:mishidemudong

近年来搞金融诈骗的越来越厉害啦,除了团伙化、组织化的趋势,有的居然每个月还有固定的推广费呢。那么,如何从数据的角度去鉴别诈骗团伙呢?以下这篇文章,介绍了如何利用关系网络,通过无监督学习算法,挖掘诈骗团伙的特征,从而识别诈骗团伙的反欺诈技术。

从常见的两种反欺诈模型说起

金融欺诈,一般是指采用虚构事实或者隐瞒事实真相的方法,骗取公私财物或者金融机构信用的犯罪形式。几乎所有涉及金钱和服务的商业模式都会受到欺诈的攻击。通信、保险、贷款和信用卡申请是一些最容易出现金融欺诈的领域。

目前并没有一个通用的反欺诈框架可以识别并防范所有形式的欺诈。在每一个领域,金融欺诈都有不同的形式和特征,因而,一个应用于信用卡申请的反欺诈模型并不能直接应用于保险领域。

一种最常用的反欺诈模型,是通过建立一个规则引擎或者机器学习模型来描述欺诈行为的特征,从而将欺诈行为从正常操作中区别开来。在反欺诈规则引擎中,这些甄别欺诈行为的规则依赖于从大量历史案例中总结出来的“专家知识”。例如,如果一个人申请贷款所用的手机号与其常用的手机号不一致,则这笔申请的欺诈风险就被认定稍高一些。

另一种则是反欺诈机器学习模型,它指的是采用数据挖掘方法,基于历史数据(即,已知的欺诈申请和正常申请的数据)而建立的分类模型。这类模型的训练往往需要大量数据。

两者有何区别?上面提到的规则引擎可以看作是一种特殊的最简单的机器学习模型:决策树模型。决策树模型具有极好的可解释性,因而,即使数据量不足,也可以通过专家知识来补全规则集。而广义上的反欺诈机器学习模型往往指的是采用更复杂的算法建立的模型(如随即森林、深度学习等)。这些模型的训练需要大量的历史数据并且其结果通常很难解读。

不论是规则引擎还是机器学习模型,都是从历史案例中发现金融欺诈时重复出现的个体行为模式。这个方法在很多领域被证明为有效(例如,用于审核个人还款能力意愿的信用评分模型),然而在解决金融欺诈问题时表现一般, 原因有两个:

其一,金融欺诈的模式随时间不断演化和发展,而不仅仅是重复出现在历史案例中的个体行为模式;

其二,随着反欺诈技术的进步,金融欺诈越来越难以由个体完成,而是需要通过团伙有组织的进行。

关系网络提供了全新的反欺诈分析角度

基于上述金融欺诈发生的两个特点,采用关系网络进行反欺诈检测变得越来越重要。关系网据指的是一种基于图的数据结构,由节点和边组成,如下图1所示。每个节点代表一个个体,每条边为个体与个体之间的关系。关系网络把不同的个体按照其关系连接在一起,从而提供了从“关系”的角度分析问题的能力。这更有利于从正常行为中识别出到异常的团伙欺诈行为。

图1

关系网络的结构取决于如何定义个体与个体之间的关系。如果人与人存在“关系”指的是彼此认识,那么最终的网络结构将是一个无标度网络,其典型特征是在网络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接。如果将“关系”定义为亲属关系,则最终的网络结构将是一个个非连通的子图,每个子图代表一个家族。

在解决实际问题的时候,关系的定义需要依据业务需求并且常常极为复杂。例如,某市公安局为了摸清犯罪嫌疑人的团伙,定义了24种人与人之间的关系。在反欺诈领域,如何定义“关系”更是需要保密,这是为了避免欺诈团伙采取针对性地防范策略,本文对这部分内容就不做过多的说明了。

图2展示了由从某一线城市抽样的20,000余条贷款申请数据所构成的关系网络。因为所定义的“关系”均为强关系,所以图的结构不是一个连通的无标度网络,而是由一个个孤立的“团”组成的网络。其中,大部分的“团”由两个个体组成,他们之间通过某种关系相连。个别的“团”是由几十甚至上百个体组成的具有复杂结构的网络。

图2

网络分析在反欺诈中的独到运用

接下来,我们来讨论关系网络在反欺诈中的应用场景,主要分为监督模型和无监督模型两种情况。所谓的监督模型,指的是在已知“好”和“坏”标签的前提下,尝试从历史数据中,挖掘出欺诈团伙的典型特征和行为模式,从而能够有效的识别出金融欺诈团伙。监督模型虽然在预测准确性上有不错的表现,但是,实际情况中,“好”和“坏”的标签往往很难得到。因此,在没有标签信息时,无监督模型分析也变得尤为重要。当然,本文提到的分析方法只是关系网络在反欺诈场景中的冰山一角,更多的算法模型需要结合实际业务需求进行设计和开发。

典型运用一:异常检测

异常检测是在无监督模型学习中比较有代表性的方法,即在数据中找出具有异常性质的点或团体。在检测欺诈团体的情况下,异常检测被认为是比较有效果的。以贷款申请为例,许多团伙会选择共享一些申请信息,如提供同一个皮包公司的地址作为公司信息,或者联系人电话重合程度高。因此,在关系网络中,大多数的正常的个体应该是独立的节点,或者与另一个节点组成规模为二的团体(在这种情况下,多数可能为家人或亲友关系)。若出现三个点以上甚至十几个点关系密切时,则这些团体可被归为异常。上文中的20,000笔贷款申请组成的关系网络中含有300多个团体,团体规模分布由下图所示,其中大部分团体的规模较小,当团体规模超过某一阈值时,其可被认为异常。

图3

我们对团体规模大小和欺诈度的相关性进行了分析。其中,欺诈度的定义为:欺诈度=团体中欺诈申请者的数目/团体中申请者总数。我们通过行业内的网贷黑名单数据来判定某一个体是否为欺诈申请者。相关性结果如下图所示,其中,横坐标表示团体规模大小,纵坐标表示欺诈度。可以看出,当团伙只有两个人时,欺诈度的中位数是0,而当规模变大时,欺诈度陡然增加。当团体规模大小为三人时,欺诈度最高,达到30%,其次为规模超过六人的团体。

图4

异常检测并不能够明确的给出一个团体是否欺诈,但是可以通过这种方法排查出可疑的团伙,从而进行调查。该算法并不是基于历史数据挖掘隐藏的欺诈模式,因而常常能够有效地识别出新出现的未曾记录的欺诈行为。

典型运用二:团体分群

分群是一种常常被用于客户精准营销的无监督聚类算法,根据客户各个维度的信息,将其归并于某一特定群组,并对不同群组的客户采取差异化的营销策略。除了用于精准营销,分群算法还可以用于离群行为的检测,即,检测哪些客户的行为与同一群体的其他客户不同。这些离群行为或是预示着这些客户处于某些特殊事件情境中,或是预示着欺诈行为。这一部分主要和前文提到的异常检测相关,这里不再赘述。

与客户分群不同,团体分群不仅依赖于团体中每个个体的特征,还依赖于整个团体作为一个整体的特征。这一方面使得团体分群拥有足够丰富的数据维度,另一方面也增加了问题的复杂性。一般来说,团体的特征可以分为 (1)和网络结构相关的团伙拓扑特征以及(2)和个体信息相关的团伙实体特征这两个大的维度。其中,团体的拓扑特征包括团的节点的数量、平均自由度、团体中节点间最长的最短路径等;团的实体特征包括团中男女比例、最大年龄差,平均年龄、团体总资产、团体总负债等。

团体分群即是对给定网络中的团体依据以上特征进行区分,从而挖掘有潜在欺诈风险的团体的方法。举一个简单的例子,以团体中的男性占比和年龄差者两个特征来对网络中的团体进行分群。作为以家人关系而形成的团体,一般由三人形成,多为两男一女或两女一男,男性占比33%或67%,并且年龄差一般为20-30岁。具有这种性质的团体一般为家庭团体,因而风险性较小。但对于人数较多,男性占比高,而且年龄差较小的团体,则有可能是欺诈团伙,需要进一步调查。

实际问题中,描述一个团伙的数据维度非常丰富,有时可多达数十个,这就对分群造成了困难(在高维空间中,寻找点的集群并不是一件容易的事,俗称“维度灾难”)。一个常用的解决方法是先对高维数据进行降维,然后再在低维空间中进行聚类。图5是对一组数据中由贷款申请构成的300多个团体进行分群的结果。在这个分析中,我们用男女比例、最大年龄差、有车个体占比、有房个体占比、有贷款个体占比和买理财产品个体占比这六个维度对团伙进行描述。我们采用t-SNE(t-Distributed Stochastic Neighbor Embedding)算法对高维数据进行降维和DBSCAN聚类算法对低维数据进行分群。由图5可见,在低维空间中,确实存在明显分隔的集群,这说明团体分群在实际操作中的可行性。

图5(每一个点代表一个团体,上述数据可以分为八个集群)

我们对图5中每一个集群进行分析。集群1中的团体男女比例1:1,年龄相差0-5岁,集群中无人有贷款或买理财产品。这个集群很可能描述了由年轻情侣构成的团体。对于集群2中的团伙,男女比例2:1,年龄相差15-30岁,每个团伙中平均有一人有车和房,并且背有贷款,这个集群很可能描述了由父母子女构成的“团伙”。按照同样的方法可以对图5每一个集群进行分析,这里不一一赘述。尽管我们没有“好”、“坏”标签,无法得知哪个集群含有大量欺诈团伙,但是我们可以依据经验和专家知识筛选出可疑的集群,为进一步调查做好准备。例如集群6中全部由男性“团伙”构成,年龄相差0-10岁,团伙中大量个体都背有贷款。这个集群的欺诈嫌疑就比其他集群要高一些,下一步就可以继续对其进行进一步的调查。

带你了解关系网络在反欺诈领域的常见应用相关推荐

  1. 财付通构建网络支付反欺诈实时监控系统

    本文讲的是财付通构建网络支付反欺诈实时监控系统,2014年9月17日-19日,2014 中国系统架构师大会(SACC 2014)在北京五洲皇冠国际酒店盛大开幕.作为中国规模最大的架构师豪门盛会,本届中 ...

  2. 【待继续研究】解析机器学习技术在反欺诈领域的应用

    反欺诈简单说,就是:根据借款人提供的信息,查找多方面资料,进行不同属性的比对,从而发现"羊群中的狼".这种工作复杂而枯燥,为了识别团伙欺诈,往往需要收集.整理.分析各种维度的数据, ...

  3. GNN(图神经网络)在反欺诈领域的落地

    今天的博客主要参考了<Heterogeneous Graph Neural Networks for Malicious Account Detection>和<GeniePath: ...

  4. 风控关系网络的策略分析

    由于欺诈的模式是随着时间不断演化和发展的,仅仅使用过去的数据表现来预测未来的欺诈风险效果可能会不那么显著.同时,随着反欺诈技术不断的提升,单打独斗式的欺诈变得越来越困难,团伙式的欺诈变得更加普遍.因此 ...

  5. 反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片 (2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理

    反欺诈技术揭秘-设备指纹VS关系网络模型 (2017-05-12 10:23:52) 转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理,仅供交流学习使 ...

  6. 【勉强采用】反欺诈之血缘关系分析和犯罪传导监测

    文前小故事:隔壁阿姨最近总是带个包鬼鬼祟祟地出去,妈妈好奇,今天跑过去串门,问她最近在忙什么,她一下就忍不住哭了起来:我被人骗了--好多人去要钱--我把我姐和我女儿也坑了--那是我姐夫的安葬费--还有 ...

  7. 【采用】反欺诈之血缘关系分析和犯罪传导监测 - 知识图谱

    近期,一银行找到我,说他们现在有一个立项,题目是<数据血缘关系智能分析和犯罪风险传导监测>,希望听听我的建议.今天正好听到妈妈跟我说起这件事,就想,还是针对这个课题,好好整理下思路,讲一讲 ...

  8. AI反欺诈:千亿的蓝海,烫手的山芋|甲子光年

    不久前,一家业界领先的机器学习公司告诉「甲子光年」:常有客户带着迫切的反欺诈需求主动找来,但是,我们不敢接. 难点何在? 作者|晕倒羊 编辑|甲小姐 设计|孙佳栋 生死欺诈 企业越急速发展,越容易产生 ...

  9. 干货 | 人工智能如何帮助银行反欺诈:来看看关于银行智能欺诈风险预测模型的研究

    作者 | 田江 近年来,伴随移动互联网.虚拟现实等技术的飞速发展,银行服务模式日趋多样化.在客户享受灵活便捷服务的同时,银行欺诈风险呈现出更加隐蔽.专业的特点,发展出更多的作案手法和表现形式.传统欺诈 ...

  10. 宜人贷何林海:社交图谱在金融反欺诈产品的应用

    在今年的「QingCloud Insight 2017」上,麦思博(msup)组织了主题为"AI落地实践"的专场论坛.宜人贷数据产品经理 何林海 在本场带来了题为<构建基于社 ...

最新文章

  1. Nagios使用check_mysql_health插件监控Mysql主机
  2. 【2019.09.21】ICPC Latin American Regional-2017
  3. km算法c语言,KM算法最好的讲解+POJ2195[KM算法+最小费用流]
  4. jsp页面struts2标签展示clob类型的数据
  5. 40 张图揭秘「键入网址发生了什么」
  6. 米线店结账程序 装饰着模式_真实数据:外卖销售9999+ 长沙米线万单店 它究竟是怎么做到的?...
  7. Silverlight 2中多语言支持实现(下)
  8. oneproxy出现2103错误代码解决方案
  9. SQL 获取当前日期上一个月的日期
  10. 如何处理phpmyadmin中访问被拒绝
  11. Mounty(卷“xxx”不可重新挂载)挂载失败解决方法
  12. 主机链接无线网虚拟机nat模式固定ip设置
  13. 支持DoH的DNS服务器,Win11 支持私密 DNS-over-HTTPS(DoH) 附启用教程
  14. 2013全国计算机二级vfp试题,2013年计算机二级VFP上机试题及答案解析29
  15. 转: GSM信令流程
  16. 卡在了杨继文的T10-1上
  17. java的意思 java语言的优点有什么
  18. buu [AFCTF2018]One Secret, Two encryption
  19. leetcode日记
  20. C#学习之路之使用windows media player 实例

热门文章

  1. 机器学习基础教程 -应用随机微分方程2020-最新
  2. (二) redfish简单信息获取
  3. 4份简约实用自我介绍PPT模板,总有一份适合你
  4. 数学建模可以用python_数学建模可以用Python吗
  5. Linux 命令 | 常用命令 tree
  6. c语言的循环代码大全,循环 (C语言代码)
  7. JavaScript之浏览器大战
  8. Horizon client 连接桌面后显示:USB已禁用/USB重定向功能已禁用
  9. vscode node 乱码 非中文乱码
  10. 智慧家居·万物互联:我的智能花盆DIY之旅(ESP32)