丨目录：

1. 背景

2. 方案概览

3. 众包流量识别

4. 套利感知

5. 洞察平台

6. 下游处置

7. 展望

8. 引用

▐ 1. 背景介绍

阿里妈妈流量质量算法团队的主要职责是对无效流量的清洗，包括：

低质量：重复点击计费策略、频率控制策略、剧烈波动策略...等；
作弊：转化效果概率为0的流量（0成交假设）；

作弊流量转化期望概率一定为0，如爬虫产生的无效点击；

但成交频率为0的流量不一定是作弊，如新商品累计10万点击后仍没有转化；

常见的无效流量包括：1）消耗竞争对手；2）提升自身排名；3）自然宝贝刷单误伤；4）非恶意无效流量。具体定义可以参考《阿里妈妈流量反作弊算法实践》。

1.1 广告主套利

我们将广告主套利总结为：广告主通过作弊（虚假点击、成交...），欺骗平台机制，使得其以偏少的成本，获得更多广告的资源。

今年双十一期间，重点管控的套利风险有2类：1）质量分作弊；2）恶意超投。

套利风险还包括“诱骗点击”、“恶意引流”...等，见微知著，此处不做过多引申。

1.1.1 质量分作弊

即无效流量中的“提升自身排名”。因为广告排名由出价和质量评分决定。某些广告主会雇佣黑灰产，通过众包人工刷点击、刷成交...等手段来提高广告的转化率，通过低成本获得靠前的广告排名。

根据调研显示，当前广告主的作弊成本极高。但这些广告主仍选择将这些成本长期用于雇佣黑灰产，而不是投入广告平台中，背后的收益一定远超其成本。

1.1.2 恶意超投

由于平台计费链路存在一定程度上的延时，且日终负账会被清零。部分广告主通过够买大量搜索词，单价高、预算少，导致短时间内获得远超预算的点击量。风控团队可以通过对广告主后台操作的异常检测，预判广告主的动向，实施刚性处罚，来控制超投的数量。

1.1.3 套利特点

套利的目的是提高销量。作弊入口是全站的（包括自然搜索结果），不局限于直通车广告。其利益驱动属性强，在618、双11...等大促期间尤其明显。而且易被平台和相关广告主感知到，对生态的影响比较恶劣。

目前我们在线上已产出数万套套利广告主名单，并追回数百万的广告点击。考虑到技术耦合度，本文主要以“质量分作弊”为代表，总结一下团队近期在广告主套利检测上的一些进展。

1.2 套利的影响

1.2.1 地价受损

由于平台的有效总曝光有限，当套利广告主占据了高质量位置后，真实点击率和成交率低于模型预期，平台产生的总点击、总成交就会相应减少，从而导致该资源位的收入降低。这里我们统一使用千次展现收益（Revenue Per Mile，以下简称：RPM）来代表地价。即套利会在一定程度上使对应位置的RPM降低。

由于现阶段ctr、cvr预估模型有在线更新机制，从长周期来看是具备自愈能力的。但模型的更新有一段时间延迟，在每个模型更新的空窗期内，广告主不会恰好都补单补量至模型的预期水平。最终就导致了模型不断被欺骗又修复的过程。如下图所示。

因此，在与排序模型的博弈中，广告主周期性地实现着套利。随着online模型更新的时效性提升，套利空间在不断被压缩。也导致广告主更加倾向于高频、低程度地进行操作，识别难度进一步增大。

1.2.2 劣币驱逐良币

由于套利广告主占据了有利位置，导致其他广告主需要不断提高出价，才能获得相应的曝光。长此以往，不仅损害了多方利益，更会对平台整体生态产生极其恶劣的影响。

1.3 困难与挑战

由于作弊手法千变万化、真实标签难以界定、作弊Ground-Truth未知，风控场景很难通过监督训练等手段获得通用解。具体到广告主套利上，我们还面临着一些其他的问题。

1.3.1 众包人工流量的识别

相比于以往的无效流量甄别，众包人工流量往往更加贴近平常用户的行为。难度远超以往的爬虫、机械性攻击。高并发的广告场景，对识别的精度和召回，要求都非常高。而且即使是刷手，也会产出正常的流量。

如何精细化区分刷手的每次行为以及是否是受雇佣的，是极具挑战的一个课题。

1.3.2 精度难评价

由于众包人工流量会有一定比例的成交，不符合0转化假设。高效评价流量识别模型的精度和召回，是很困难的。此外，套利广告主检测本身也需要找到合适的假设，没有客观高效的评价方式，难以指导模型迭代。

1.3.3 区分主动与被动

存在任务流量的广告主，不仅是主动套利的，还有一部分是被其他广告主雇佣的刷手误伤、或者受到人工攻击消耗的。如何无监督、高精度、高召回、鲁棒地挖掘广告主的主动性，也是我们需要重点关注的。

▐ 2. 方案概览

在正式开始介绍方案之前，我们针对1.3节的问题，分别介绍一下思路。为了解决1.3中提到的3个问题，我们针对广告主套利开发了一套同样集感知、洞察、处置、评价于一体的检测框架，其架构图如下图所示。框架理念可以参考这篇文章：《阿里妈妈流量反作弊算法实践》。

众包流量识别，分别由统计基线、行为序列、图关系3个模型一起召回，并使用黑话模型的产出评价标准，指导模型迭代；
感知部分，通过对RPM的鲁棒预估，计算广告主实际产生的RPM与平台预期的diff，从而召回RPM偏低的广告主；
通过洞察分析平台对列表中的实例进行分析，获取新模式认知的同时进行标注作为验证样本；
将认知抽象为策略或模型（当前为双模型因果推断），产出了套利广告主名单用于区分“主动”与“被动”，最后在下游中进行分类处置；

接下来我们详细介绍每个环节的一些具体问题与思考。

▐ 3. 众包流量识别

在介绍感知、洞察、处置体系之前，我们首先对挖掘套利广告主的基础能力进行介绍——众包人工流量识别。该流量不满足0成交转化，模型的迭代和监控保障，也显然不能依赖低效的人工抽检。首先需要寻找一种可以批量校验、又和处置严格正交的评价方法。整体方案如下图所示。

3.1 黑话模型

考虑到直通车场景下，刷手需要高频地进行搜索，从而定位到自己的任务目标，不可能所有的内容都手敲。风控工程团队基于淘宝的搜索记录，对历史文本信息进行了系统地整合，使得黑话凝聚在标准化的文本库中。

3.1.1 特性

黑搜索的文本信息采集，受设备型号、手滑粘贴、误点搜索的影响，导致产出上并不稳定，所以没有直接用于召回。但同设备类型、应用、天维度同比是有意义的，可以作为精度和召回的评价指标。因此，我们构造了和众包流量构成强相关、但召回有限的黑话模型。

典型的黑话如下所示：

"3️⃣看图

阿里妈妈“广告主套利”风控技术分享相关推荐
1. 基于Java的阿里妈妈数据抓取技术
  基于Java的阿里妈妈数据抓取技术前言: 对于需要登录的网站爬虫最大的困难就是需要登录,然后才能获取到数据,如微博,阿里妈妈,webqq等.之前也有看过使用浏览器登录到网站后直接从浏览器中获取coo ...
2. 深度学习核心技术精讲100篇（四十二）-阿里妈妈深度树匹配技术演进：TDM-＞JTM-＞BSAT
  前言召回阶段作为互联网搜索.推荐.广告服务架构中的重要一环,是决定了系统整体服务质量的天花板.从召回算法技术发展的过程来看,大致经历了启发式规则方法及向量检索两代技术体系.阿里妈妈定向广告团队于20 ...
3. 请查收 | 2021 阿里妈妈技术文章回顾
  2021年5月13日,「阿里妈妈技术」正式与大家见面了~ 在过去的237天里,我们分享了50篇原创内容,覆盖了广告算法实践.算法工程&引擎&系统建设.智能创意.风控.数据科学等多个技术 ...
4. 【云栖大会】阿里妈妈：数字营销“智”变
  2016杭州云栖大会在云栖小镇召开,本届大会以"飞天·进化"为主题,内容规模比去年翻倍,从原本2天的议程增加至4天,从10月13日持续到16日,超过400场主题演讲使开发者们对阿里 ...
5. 阿里妈妈内容风控模型预估引擎的探索和建设
  作者:徐雄飞.金禄旸.滑庆波.李治内容作为营销的重要载体,能够促进信息的交流和传播.在营销场景中,广告高曝光的特性放大了风险外漏带来的一系列问题,因此对内容的风控审核就显得至关重要.本文将为大家分享 ...
6. 开放下载 | 阿里妈妈技术年货来啦！
  年味愈浓,春节将近.阿里妈妈技术年货来啦~ 去年开始,我们通过「阿里妈妈技术」微信公众号分享我们的技术实践与经验.截至目前,我们发布了超过 50 篇技术内容,覆盖了广告算法实践.AI 平台及工程引擎. ...
7. KDD2021 放榜，6 篇论文带你了解阿里妈妈AI技术
  关于 KDD ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是国际数据挖掘领域的顶级会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为A类会议. ...
8. 久等了，「阿里妈妈技术」来啦！
  Hi,各位小伙伴,「阿里妈妈技术」正式和大家见面啦~ 我们是谁我们是阿里巴巴集团核心商业化部门--阿里妈妈的技术团队. 秉承着"让天下没有难做的营销"的使命,阿里妈妈技术引领了A ...
9. 开放下载 | 2022阿里妈妈技术年刊来啦！
  年味愈浓,春节将近.阿里妈妈技术年刊如约而至~ 2021 年 5 月,我们开始通过「阿里妈妈技术」微信公众号持续分享我们的技术实践与经验,覆盖广告算法实践.AI 平台及工程引擎.智能创意.风控.数据 ...
最新文章
热门文章

阿里妈妈“广告主套利”风控技术分享