阿里妈妈“广告主套利”风控技术分享
丨目录:
1. 背景
2. 方案概览
3. 众包流量识别
4. 套利感知
5. 洞察平台
6. 下游处置
7. 展望
8. 引用
▐ 1. 背景介绍
阿里妈妈流量质量算法团队的主要职责是对无效流量的清洗,包括:
低质量:重复点击计费策略、频率控制策略、剧烈波动策略...等;
作弊:转化效果概率为0的流量(0成交假设);
作弊流量转化期望概率一定为0,如爬虫产生的无效点击;
但成交频率为0的流量不一定是作弊,如新商品累计10万点击后仍没有转化;
常见的无效流量包括:1)消耗竞争对手;2)提升自身排名;3)自然宝贝刷单误伤;4)非恶意无效流量。具体定义可以参考《阿里妈妈流量反作弊算法实践》。
1.1 广告主套利
我们将广告主套利总结为:广告主通过作弊(虚假点击、成交...),欺骗平台机制,使得其以偏少的成本,获得更多广告的资源。
今年双十一期间,重点管控的套利风险有2类:1)质量分作弊;2)恶意超投。
套利风险还包括“诱骗点击”、“恶意引流”...等,见微知著,此处不做过多引申。
1.1.1 质量分作弊
即无效流量中的“提升自身排名”。因为广告排名由出价和质量评分决定。某些广告主会雇佣黑灰产,通过众包人工刷点击、刷成交...等手段来提高广告的转化率,通过低成本获得靠前的广告排名。
根据调研显示,当前广告主的作弊成本极高。但这些广告主仍选择将这些成本长期用于雇佣黑灰产,而不是投入广告平台中,背后的收益一定远超其成本。
1.1.2 恶意超投
由于平台计费链路存在一定程度上的延时,且日终负账会被清零。部分广告主通过够买大量搜索词,单价高、预算少,导致短时间内获得远超预算的点击量。风控团队可以通过对广告主后台操作的异常检测,预判广告主的动向,实施刚性处罚,来控制超投的数量。
1.1.3 套利特点
套利的目的是提高销量。作弊入口是全站的(包括自然搜索结果),不局限于直通车广告。其利益驱动属性强,在618、双11...等大促期间尤其明显。而且易被平台和相关广告主感知到,对生态的影响比较恶劣。
目前我们在线上已产出数万套套利广告主名单,并追回数百万的广告点击。考虑到技术耦合度,本文主要以“质量分作弊”为代表,总结一下团队近期在广告主套利检测上的一些进展。
1.2 套利的影响
1.2.1 地价受损
由于平台的有效总曝光有限,当套利广告主占据了高质量位置后,真实点击率和成交率低于模型预期,平台产生的总点击、总成交就会相应减少,从而导致该资源位的收入降低。这里我们统一使用千次展现收益(Revenue Per Mile,以下简称:RPM)来代表地价。即套利会在一定程度上使对应位置的RPM降低。
由于现阶段ctr、cvr预估模型有在线更新机制,从长周期来看是具备自愈能力的。但模型的更新有一段时间延迟,在每个模型更新的空窗期内,广告主不会恰好都补单补量至模型的预期水平。最终就导致了模型不断被欺骗又修复的过程。如下图所示。
因此,在与排序模型的博弈中,广告主周期性地实现着套利。随着online模型更新的时效性提升,套利空间在不断被压缩。也导致广告主更加倾向于高频、低程度地进行操作,识别难度进一步增大。
1.2.2 劣币驱逐良币
由于套利广告主占据了有利位置,导致其他广告主需要不断提高出价,才能获得相应的曝光。长此以往,不仅损害了多方利益,更会对平台整体生态产生极其恶劣的影响。
1.3 困难与挑战
由于作弊手法千变万化、真实标签难以界定、作弊Ground-Truth未知,风控场景很难通过监督训练等手段获得通用解。具体到广告主套利上,我们还面临着一些其他的问题。
1.3.1 众包人工流量的识别
相比于以往的无效流量甄别,众包人工流量往往更加贴近平常用户的行为。难度远超以往的爬虫、机械性攻击。高并发的广告场景,对识别的精度和召回,要求都非常高。而且即使是刷手,也会产出正常的流量。
如何精细化区分刷手的每次行为以及是否是受雇佣的,是极具挑战的一个课题。
1.3.2 精度难评价
由于众包人工流量会有一定比例的成交,不符合0转化假设。高效评价流量识别模型的精度和召回,是很困难的。此外,套利广告主检测本身也需要找到合适的假设,没有客观高效的评价方式,难以指导模型迭代。
1.3.3 区分主动与被动
存在任务流量的广告主,不仅是主动套利的,还有一部分是被其他广告主雇佣的刷手误伤、或者受到人工攻击消耗的。如何无监督、高精度、高召回、鲁棒地挖掘广告主的主动性,也是我们需要重点关注的。
▐ 2. 方案概览
在正式开始介绍方案之前,我们针对1.3节的问题,分别介绍一下思路。为了解决1.3中提到的3个问题,我们针对广告主套利开发了一套同样集感知、洞察、处置、评价于一体的检测框架,其架构图如下图所示。框架理念可以参考这篇文章:《阿里妈妈流量反作弊算法实践》。
众包流量识别,分别由统计基线、行为序列、图关系3个模型一起召回,并使用黑话模型的产出评价标准,指导模型迭代;
感知部分,通过对RPM的鲁棒预估,计算广告主实际产生的RPM与平台预期的diff,从而召回RPM偏低的广告主;
通过洞察分析平台对列表中的实例进行分析,获取新模式认知的同时进行标注作为验证样本;
将认知抽象为策略或模型(当前为双模型因果推断),产出了套利广告主名单用于区分“主动”与“被动”,最后在下游中进行分类处置;
接下来我们详细介绍每个环节的一些具体问题与思考。
▐ 3. 众包流量识别
在介绍感知、洞察、处置体系之前,我们首先对挖掘套利广告主的基础能力进行介绍——众包人工流量识别。该流量不满足0成交转化,模型的迭代和监控保障,也显然不能依赖低效的人工抽检。首先需要寻找一种可以批量校验、又和处置严格正交的评价方法。整体方案如下图所示。
3.1 黑话模型
考虑到直通车场景下,刷手需要高频地进行搜索,从而定位到自己的任务目标,不可能所有的内容都手敲。风控工程团队基于淘宝的搜索记录,对历史文本信息进行了系统地整合,使得黑话凝聚在标准化的文本库中。
3.1.1 特性
黑搜索的文本信息采集,受设备型号、手滑粘贴、误点搜索的影响,导致产出上并不稳定,所以没有直接用于召回。但同设备类型、应用、天维度同比是有意义的,可以作为精度和召回的评价指标。因此,我们构造了和众包流量构成强相关、但召回有限的黑话模型。
典型的黑话如下所示:
"3️⃣看图
阿里妈妈“广告主套利”风控技术分享相关推荐
- 基于Java的阿里妈妈数据抓取技术
基于Java的阿里妈妈数据抓取技术 前言: 对于需要登录的网站爬虫最大的困难就是需要登录,然后才能获取到数据,如微博,阿里妈妈,webqq等.之前也有看过使用浏览器登录到网站后直接从浏览器中获取coo ...
- 深度学习核心技术精讲100篇(四十二)-阿里妈妈深度树匹配技术演进:TDM->JTM->BSAT
前言 召回阶段作为互联网搜索.推荐.广告服务架构中的重要一环,是决定了系统整体服务质量的天花板.从召回算法技术发展的过程来看,大致经历了启发式规则方法及向量检索两代技术体系.阿里妈妈定向广告团队于20 ...
- 请查收 | 2021 阿里妈妈技术文章回顾
2021年5月13日,「阿里妈妈技术」正式与大家见面了~ 在过去的237天里,我们分享了50篇原创内容,覆盖了广告算法实践.算法工程&引擎&系统建设.智能创意.风控.数据科学等多个技术 ...
- 【云栖大会】阿里妈妈:数字营销“智”变
2016杭州云栖大会在云栖小镇召开,本届大会以"飞天·进化"为主题,内容规模比去年翻倍,从原本2天的议程增加至4天,从10月13日持续到16日,超过400场主题演讲使开发者们对阿里 ...
- 阿里妈妈内容风控模型预估引擎的探索和建设
作者:徐雄飞.金禄旸.滑庆波.李治 内容作为营销的重要载体,能够促进信息的交流和传播.在营销场景中,广告高曝光的特性放大了风险外漏带来的一系列问题,因此对内容的风控审核就显得至关重要.本文将为大家分享 ...
- 开放下载 | 阿里妈妈技术年货来啦!
年味愈浓,春节将近.阿里妈妈技术年货来啦~ 去年开始,我们通过「阿里妈妈技术」微信公众号分享我们的技术实践与经验.截至目前,我们发布了超过 50 篇技术内容,覆盖了广告算法实践.AI 平台及工程引擎. ...
- KDD2021 放榜,6 篇论文带你了解阿里妈妈AI技术
关于 KDD ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是国际数据挖掘领域的顶级会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为A类会议. ...
- 久等了,「阿里妈妈技术」来啦!
Hi,各位小伙伴,「阿里妈妈技术」正式和大家见面啦~ 我们是谁 我们是阿里巴巴集团核心商业化部门--阿里妈妈的技术团队. 秉承着"让天下没有难做的营销"的使命,阿里妈妈技术引领了A ...
- 开放下载 | 2022阿里妈妈技术年刊来啦!
年味愈浓,春节将近.阿里妈妈技术年刊如约而至~ 2021 年 5 月,我们开始通过「阿里妈妈技术」 微信公众号持续分享我们的技术实践与经验,覆盖广告算法实践.AI 平台及工程引擎.智能创意.风控.数据 ...
最新文章
- grub通过img文件启动linux,Linux GRUB实现双系统引导之菜鸟教程
- 信息系统项目管理师考试公式都在这里了
- Maven配置项目依赖使用本地仓库的方法汇总
- 如何把服务器系统克隆出来,一次Win2003服务器下的完全克隆 -电脑资料
- SQLSERVER中RANK OVER(PARTITION BY)的用法
- 读书笔记《TAOCP》 V1 S1.1
- 密码学基础之对称密钥的分发和存储
- python右对齐_Python中print函数输出时的左右对齐问题
- c语言mud游戏制作,MUD游戏制作工具下载
- NodeJS启动vue项目的坑
- 服务器server2012重置开机密码
- C语言编写走迷宫小游戏
- 不懂设计的产品不是好开发
- NumberRunningTextView(数字会滚动的TextView)
- 58沈剑-数据库使用规范
- 数据集特征提取_特征提取和选择
- 有两个列表 l1 =[11,22,33] l2 =[22,33,44]
- IE里的探索之定制浏览器好助手
- Unity Android平台AdMob应用
- 新概念英语一册语法总结
热门文章
- 各种芯片简述以及算力解释:
- 马自达新CX-5卡尔福安卓智能车载导航一体机评测
- Three.js - 摄像机的使用详解(透视投影摄像机、正交投影摄像机)
- 什么是 BA ?BA怎么样?BA和BI是什么关系?
- HDR Efex Pro 2 for mac(DHR滤镜工具)
- aspmaker和mysql_五分钟制作ASP图书管理系统 ASPMaker简单教程
- html中像素是什么,像素是什么
- duilib学习------网易云信Grid
- [Android Training视频系列] 8.3 Dealing with Audio Output Hardware
- 使用pip安装pySerial串口通讯模块
- 基于Java的阿里妈妈数据抓取技术