自适应非欧表征广告检索系统AMCAD
丨目录:
· 摘要
· 背景
· 系统设计
· 模型设计
· 实验评测
· 总结展望
· 参考文献
摘要
图表征(Graph Embedding)是近年来信息检索领域内最流行的方法之一,但它们往往建模在平坦的欧氏空间中。近年来的研究发现欧氏空间在建模特定图结构如层次、环状结构时天然存在误差,在本文中,我们将介绍如何利用非欧图表征提高复杂异构图建模精度同时在阿里妈妈搜索广告场景下取得线上收益。该项工作已被国际数据工程顶级会议ICDE 2022 (International Conference on Data Engineering) 收录,对应框架也已开源,欢迎感兴趣的朋友阅读交流。
论文:AMCAD: Adaptive Mixed-Curvature Representation based Advertisement Retrieval System
下载:https://arxiv.org/abs/2203.14683
开源地址:https://github.com/alibaba/Curvature-Learning-Framework
背景
作为电商场景核心业务之一,搜索广告旨在满足用户搜索意图(Query)下精准检索触达相关的商品(Item、Ad)。图表征检索是目前信息检索领域最流行的方法之一,但是它们往往建模在平坦的欧氏空间中,正如在CurvLearn开源 | 阿里妈妈曲率学习框架详解中介绍的,在面对非均匀图数据时,图表征会存在不可避免的精度损失。
淘系搜索广告图(如图1)往往呈现复杂异构的特性;一方面Query节点具备语义上下位词关系,可以映射到类目树上,整体呈现较强的层次结构;另一方面Item/Ad节点均位于叶子类目,根据共现关系构图聚集性强,整体呈现较强的环形属性。
针对此类大规模复杂异构图,单一表征空间限制了图建模精度。为此我们提出了自适应非欧表征广告检索系统AMCAD,首次将混合曲率空间应用到大规模工业数据上,使模型端到端的根据复杂数据结构自动学习出损失最低的表征空间。
系统设计
样本构造
图2展示了淘系搜索广告图的构造流程。用户搜索了之后连续点击了、以及,其中和、和同属一个宝贝(Item),用虚线框表示。那么分别与、、、、连接Click边,同时相邻的Item/Ad之间也互相连Co-click边。在上述大量用户行为图的基础上,根据Query之间的语义相似度及Ad之间的共同买词程度分别构造Semantic边及Co-bidding边。最终构造的图数据包含Query、Item、Ad三种节点,Click/Co-click、Semantic、Co-bidding多种边。
训练样本由一对正样本,以及个负样本组成。具体的正样本通过预定义的metapath游走生成,负样本则通过随机游走生成,根据粒度不同可以区分为简单负样本和困难负样本。
模型设计
基于CurvLearn(开源地址:https://github.com/alibaba/Curvature-Learning-Framework)提供的非欧深度学习算子,AMCAD旨在使用多种曲率空间表征不同异构节点,通过自动学习空间曲率及动态组合权重实现对复杂异构图的高精度表征。图3展示了AMCAD的具体设计,左侧为模型总体架构,从底至上分为以下三阶段:
1. 点级别自适应混合曲率编码(Node-level Adaptive Mixed-curvature Encoder)
它旨在将节点映射为多个曲率空间的笛卡尔积,模型根据节点类型与特征自动学习最优的曲率空间组合。给定一个类型为的节点以及个特征。对每个特征,我们通过Embedding Lookup生成个欧氏空间稠密向量。第个欧氏空间向量 通过Exponential Map即,映射到曲率为的非欧空间。以上过程可以形式化的表示为:
为了更好的捕捉节点上下文信息,我们引入了GNN模块汇聚邻居信息。具体来讲,在第卷积层,节点混合曲率空间表征为,其类型为的邻居为,那么卷积汇聚得到的信息定义为:
402 Payment Required
经过非欧非线性表换后,第卷积层更新为:
注意到部分节点同时参与多种结构的构成,我们设计了曲率融合模块用于聚合不同曲率空间信息来增强在不同拓扑结构下的整体表达。聚合多曲率空间的信息向量定义为:
402 Payment Required
由此经过多空间信息交互后的曲率表征更新为:
402 Payment Required
2. 边级别空间映射(Edge Space Projection)
由于异构节点具备不同几何特性从而适应不同的空间曲率,为了统一度量相似度,我们按相同边类型(点击、语义、竞买等)将节点对映射到同一混合曲率空间。形式化的对节点对
,,它们具备类型的边,由此在第个曲率空间下它们的距离计算为
3.子空间距离融合(Subspace-distance Combination)
注意到不同关系具备不同的结构特性,如query-query相比于item-item层次结构特性更强,因此我们引入attention机制来自动生成不同曲率空间的权重来适配结构特性。考虑到召回架构的高效性,我们分解子空间权重为,以为例,它满足:
402 Payment Required
402 Payment Required
由此节点对的非欧距离相似度最终导出为:
模型使用基于该相似度计算的triplet loss,基于黎曼优化器联合优化节点表征,空间曲率及模型参数。
在线检索
基于CurvFaiss,我们将快速近邻检索拓展到上述非欧度量。由于数据分片及指令集层面的高度并行优化,亿级倒排索引可以准实时化的构建。基于倒排索引,我们构建了图4所示的双层检索架构。线上服务接受用户行为输入作为Trigger,包括Query以及一系列用户的前置点击Item,系统首先通过第一层倒排索引将Trigger扩展为更丰富的Query和Item信号,然后系统通过第二层倒排索引检索与信号相关的广告候选集合。相比于单层架构,双层架构检索深度及多样性有明显提升。
实验评测
离线实验
我们对比了三大类基线方法,包括欧氏空间模型,单一曲率空间模型及混合曲率空间模型。训练数据基于淘系单日搜索数据, 实验指标包含AUC,Hitrate及nDCG,汇总结果如表1。从结果看AMCAD各项指标均优于对照算法;特别的维持模型结构不变,仅修改模型空间类型,可以发现欧氏空间、单一曲率空间、混合曲率空间实验效果依次上升,平均指标涨幅超过20%。
进一步的消融实验如表2则说明了模型设计中各模块的必要性,其中混合曲率编码收益最为明显。限于篇幅系统可视化、参数设置及分析等详见论文。
在线实验
图5展示了不同qps下在线双层检索架构效率。可以发现即使请求压力增长十倍,系统延迟仅增长不到一倍,这验证了AMCAD在百亿级流量下的检索效率。
基于7天线上真实流量检验,AB实验结果如表3。相比于欧氏系统,AMCAD带来了可观的点击率及广告收入提升。由于线上还存在其他检索系统,我们统计了此检索通道的单独效果,可以发现单通道的涨幅效果是极为显著的。
进一步分层分析结果如表4,AMCAD收益集中于头部,这表明非欧表征相比于欧氏表征,能更精准的检索出相关的热门商品。目前AMCAD已全量上线,稳定服务淘宝搜索流量半年以上。
总结展望
相对于欧氏空间,非欧空间能更好地建模真实数据中存在的复杂结构。由于非欧空间独立于模型,理论上可以推广到任意的模型结构,并兼容原始欧氏模型,具备很高的应用潜力。AMCAD是混合曲率空间在业界检索系统中的首次上线应用,希望能为大家带来启发,共同推进非欧空间在更多工业场景下的落地发芽。
参考文献
[1] Nickel, Maximilian and Douwe Kiela. “Poincaré Embeddings for Learning Hierarchical Representations.” NIPS 2017
[2] Bachmann, Gregor et al. “Constant Curvature Graph Convolutional Networks.” ICML 2020
[3] Gu, Albert et al. “Learning Mixed-Curvature Representations in Product Spaces.” ICLR 2019
[4] Vinh Tran, Lucas et al. “HyperML: A Boosting Metric Learning Approach in Hyperbolic Space for Recommender Systems.” WSDM 2020
[5] Zhu, Shichao et al. “Graph Geometry Interaction Learning.” NIPS 2020
[6] Wang, Shen, et al. "Mixed-curvature multi-relational graph neural network for knowledge graph completion." WWW 2021
END
也许你还想看
丨CurvLearn开源 | 阿里妈妈曲率学习框架详解
丨图深度学习模型进展和在阿里搜索广告中的应用创新
丨从二值检索到层次竞买图——让搜索广告关键词召回焕然新生
丨CIKM 2021 | 基于异质图学习的搜索广告关键词推荐
喜欢要“分享”,好看要“点赞”哦ღ~
↓欢迎留言参与讨论↓
自适应非欧表征广告检索系统AMCAD相关推荐
- 广告系统设计与实现(八) -广告检索系统的设计与实现 - 下
8.4 广告检索服务 媒体方发起广告请求,检索服务检索广告数据(条件匹配过程),返回响应 媒体方的请求包含的三个要素 媒体方的请求标识 mediaId 请求基本信息 RequestInfo: requ ...
- CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用
▐ 1. 摘要 图模型能够有效的挖掘数据中的关系信息来增强数据表示,在研究和工业领域都被广泛应用.阿里妈妈搜索广告技术团队于2019年开源了工业界首个支持大规模分布式的深度图学习平台Euler(htt ...
- 字节跳动发布最新音乐检索系统ByteCover2,检索速度提高八倍
每天给你送来NLP技术干货! 机器之心发布 机器之心编辑部 翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐 ...
- 字节跳动最新音乐检索系统ByteCover2,检索速度提高八倍
翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术. 近期,字节跳动火山语音团队的最新音乐检索系统By ...
- MOBIUS:百度凤巢新一代广告召回系统
导读:本文主要介绍了百度搜索广告系统 ( 凤巢 ) 的新一代多目标召回系统架构,相比于经典召回排序两段架构,能在保证召回相关性的同时引入诸如CPM等排序层的优化目标,从而提升整体系统的效率. 01 创 ...
- 检索有关计算机系统功能设计方面的文献,文献检索系统
文献检索系统是指按某种方式.方法建立起来的供读者查检信息的一种有层次的体系,是表征有序的信息特征的集合体.在这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录(即 ...
- 腾讯专家献上技术干货,带你一览腾讯广告召回系统的演进
为拓宽选手们的技术视野,腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖,倾力打造了"技"高一筹系列专题直播.在6月24日的直播中,腾讯广告高级研发工程师陈帆,为大家详解了 ...
- 乘风广告联盟系统 v6.2
乘风广告联盟系统 v6.2 Sql版 作者:乘风(网名) QQ:178575 E-Mail:yliangcf@163.com 开发网站:http://www.qqcf.com 详细简介:http:// ...
- 莫比乌斯:百度凤巢下一代广告召回系统
星标/置顶小屋,带你解锁 最萌最前沿的NLP.搜索与推荐技术 文 | 江城 编 | 夕小瑶 今天聊聊百度在最顶级的数据挖掘会议KDD2019的计算广告track上提出的query-ad匹配模型--莫比 ...
最新文章
- 三分钟教会你搭建动态网络
- 前台更新进度条js-4
- scvmm2008R2创建委派管理员角色
- 11g内存管理新特性的internal表现
- MySQL添加服务、设置密码、修改密码
- 阿里DataV可视化大屏介绍
- spring cloud入门_Spring Boot 2.x基础教程:快速入门
- Redis的基本操作二
- 构造函数为什么不能是虚函数 ( 转载自C/C++程序员之家)
- 程序员5年工作经验,因频繁跳槽被面试官压工资!
- Elasticsearch的Watcher插件
- docker下载出现异常 dial tcp: lookup ngc.download.nvidia.cn: no such host
- 机器学习算法GBDT的面试要点总结-上篇
- 初学 PS 手绘入门小技巧整理【持续更新】
- 汇编语言 masm5与debug命令使用方法 小结
- c4d语言包英文,Win版本MAXON Cinema 4D R21.027 C4D中文与英文版下载安装
- 自己写的网页放在github里面
- Kubernetes InitContainers模式
- 基于STM32和ESP8266的天气预报系统
- 小程序实现分享朋友圈