利用有向图模型检测社交网络上的欺诈账户
,欢迎关注公众号:论文收割机(paper_reader)
原文链接:利用有向图模型检测社交网络上的欺诈账户
在之前的博文中我已经介绍过如何在手机应用市场和电子商务平台上面发现虚假用户和水军。今天我将介绍一种利用有向图模型检测社交网络中虚假(欺诈或者水军)账户的方法。这篇文章来自数据挖掘顶级会议 ICDM 2017。
Wang, Binghui, Neil Zhenqiang Gong, and Hao Fu. "GANG: Detecting fraudulent users in online social networks via guilt-by-association on directed graphs." In Data Mining (ICDM), 2017 IEEE International Conference on, pp. 465-474. IEEE, 2017.
社交网络中存在着大量的虚假(欺诈)账户,以微博为例,有大量的机器人账户转发各种广告或者充当水军,还有一些账户存在贩卖色情视频、发布谣言、诈骗等行为,这些账户都属于欺诈账户。
除了利用账户本身的一些信息,我们最朴素的想法就是利用账户在社交网络中的好友关系对一些可疑账户进行识别。举个例子,对一个机器人账户,他可能关注了很多大 V,但是却有很少真实的用户关注他。所以他的好友关系和真实用户的好友关系就存在一定区别。
为了利用不同好友关系(关注与被关注)的带来的影响力变化,这篇文章采用有向图来建模好友关系,即用户之间存在关注与被关注关系,这种关系存在于类似微博,Twitter的社交网络中,不适用于 Facebook 这样的社交网络。
具体来说,对于互相关注的好友,我们可以用一条双向边来表示其好友关系。
这样,对于一个特定用户(图中的一个节点),他的好友(邻居节点)对他的影响程度可以通过公式(1)的 sigmoid 函数来表示,该公式表明,对于双向边节点之间的影响力是等价的。
第二种情况是粉丝关系,即被关注关系,我们可以用一条指向被关注人的单向边来表示这种好友关系。
在这种情况下,响应的影响力度量函数就会发生变化。根据我们的经验,一个可疑账户关注别的账户,并不会导致该被关注账户的可以程度上升,因为可疑账户一般会关注大量正常账号来降低其可疑度。所以一个节点的邻居节点的可疑程度对该节点没有任何影响。
从另一个角度,如果该节点的邻居节点都是正常节点,那么该节点是正常节点的概率就会非常大,因为正常用户关注的账户大概率也是正常用户。公式(2)和公式(1)的区别就在于影响力的权重不同。
最后一种好友关系就是关注关系,我们可以用一条从该账户出发,指向其他的账户的单向边来表示。
在这种情况下,对于一个节点的影响力衡量和也会发生变化。还是根据我们的经验,正常的邻居节点并不会影响该节点,因为不论可疑账户还是正常账户都有可能关注正常账户。
但是可疑邻居节点就会影响该节点本身,因为正常用户很少去关注这些可疑账户,所以关注这些可疑账户只能增加该账户的可疑程度。
对于节点之间的影响力建模之后,本文作者采用马尔科夫随机场模型和 LBP(Loopy Belief Propagation)计算每个节点的可疑程度。作者还对 LBP 算法进行了优化,提高了算法的效率并且有收敛性的保证。
上面这一部分内容涉及数学内容,感兴趣的读者可以去原文了解,对于 LBP 收敛性的分析,大家可以看这篇文章。
W. Gatterbauer, S. G¨unnemann, D. Koutra, and C. Faloutsos, “Linearized and singlepass belief propagation,” PVLDB, vol. 8, no. 5, 2015.
在实验部分,作者使用了之前标注好虚假用户的 Twitter 数据集还有自己手动标注好的新浪微博数据集。
实验结果表明,这种结合节点有向边和同时考虑节点可疑和正常程度的 LBP 算法比一些传统的只考虑无向图、只考虑节点可疑或者正常程度、采用随机游走的方法效果都要好。尤其是在 TopK 这个指标上新算法效果明显好于其他算法。
作者在文章最后还拿新浪微博做了具体分析,他们在新浪微博中人工查看了检测出可疑概率最高的1000个账号,他们发现这些账户中有41.5%已经被系统封禁,还有42.5%的账户存在虚假的行为,例如转发大量广告或者发帖内容相似。
通过案例分析进一步验证该算法的检测效果,另一方面,作者发现了许多高级的虚假账户。如下图所示,这些账户中有些账户会每天在固定时间发布微博,以此来模拟正常用户的行为。(下图左)
还有一些账户会从网络中找到一些公开内容作为自己的微博内容,以此来模拟正常用户的微博内容。(下图右)
这说明了我们单纯从一个账户发布的微博内容以及账户的行为上分析账户的可疑性远远不够,如果要考虑上面这种特征,我们分析算法会变得更复杂。
这就是为什么要引入好友关系(图模型)的原因,因为好友关系相比行为和内容更难模拟,因为正常用户永远不会关注虚假用户。
关于文章的更多背景和细节,可以参考我制作的解读 PPT(Google Drive)。
利用有向图模型检测社交网络上的欺诈账户相关推荐
- Python 3 利用机器学习模型 进行手写体数字检测
0.引言 介绍了如何生成手写体数字的数据,提取特征,借助 sklearn 机器学习模型建模,进行识别手写体数字 1-9 模型的建立和测试. 用到的几种模型: 1. LR,Logistic Regres ...
- 研究人员利用机器学习算法检测医疗保险欺诈
文章来源:ATYUN AI平台 佛罗里达大西洋大学工程与计算机科学学院的研究人员发表了一项健康信息科学与系统的研究,该研究展示了机器学习和高级分析如何检测医疗保险欺诈检测.这一突破可能避免每年医疗保险 ...
- 边缘设备上的实时AI人员检测:使用预先训练的SSD模型检测人员
下载数据-19.3 MB 下载模型-43.5 MB 下载结果-36.66 MB 在本系列的上一篇文章中,我们选择了两种SSD模型进行进一步工作,一种基于MobileNet,另一种基于SqueezeNe ...
- 【模型检测学习笔记】10:有限状态迁移系统上的IC3算法
IC3算法全称是Incremental Construction of Inductive Clauses for Indubitable Correctness,可以用来检测迁移系统上的不变性性质. ...
- 【历史上的今天】7 月 27 日:模型检测先驱出生;微软收购 QDOS;第一张激光照排的中文报纸
整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2022 年 7 月 27 日,在 1961 年的今天,IBM 推出了 IBM Selectric 电动打字机:S ...
- python机器学习手写字体识别_Python 3 利用机器学习模型 进行手写体数字检测
0.引言 介绍了如何生成手写体数字的数据,提取特征,借助 sklearn 机器学习模型建模,进行识别手写体数字 1-9 模型的建立和测试. 用到的几种模型: 1. LR,Logistic Regres ...
- 大数据架构和模式(五):利用大数据识别保险行业中的欺诈业务案例
大数据架构和模式(五):利用大数据识别保险行业中的欺诈业务案例 [复制链接] pig2 1232 主题 2069 帖子 1万 积分 超级版主 积分 11358 收听TA 发消息 电梯直达 楼主 ...
- PGM:有向图模型:贝叶斯网络
http://blog.csdn.net/pipisorry/article/details/52489270 为什么用贝叶斯网络 联合分布的显式表示 Note: n个变量的联合分布,每个x对应两个值 ...
- 2007图灵奖得主离开了:模型检测先驱Edmund Clarke因新冠逝世
视学算法报道 作者:蛋酱.张倩 2020 还能更糟糕吗? 12 月 23 日,英特尔量子硬件研究组总监 James S. Clarke 发文表示,他的父亲.2007 年图灵奖得主 Edmund M. ...
最新文章
- python中lambda以及与filter/map/reduce结合的用法
- 关于input单选框的radio属性
- 【基础】C#异常处理的总结
- sql server update触发器_SQL Server 触发器
- Microsoft Desktop Player是IT Pro的宝贵工具
- Android Studio开发基础之AutoCompleteTextView控件的使用
- php如何拼接数组,PHP怎么合并数组
- 需求分析之UML用例图学习
- 论文笔记之:Deep Attention Recurrent Q-Network
- python去掉人像白边_python 使用plt画图,去除图片四周的白边方法
- CENTOS5下VSFTPD的设置
- Windows Workflow Foundation开发环境配置
- unix操作系统的特点
- 音频总线之I2S总线介绍及相关协议
- 微信小程序开发详细步骤
- 模电——基本运算放大器原理
- Effective Java 2.0_中英文对照_Item 6
- Python3脚本抢票
- 英文版xp系统下载ghost xp sp3英文版(双语纯净版、可随意转换)
- 这款耳机亲测,性价比堪比 AirPods