A Study of Share Recommendation in Social E-commerce

《社交电商中的分享推荐研究》
该论文收录于35th AAAI 2021: Virtual Event
CCF A 类会议
原文链接

文章目录

A Study of Share Recommendation in Social E-commerce
一、摘要
二、简介
- 分享推荐需要解决以下问题：
- - 1、丰富的异构信息
  - 2、复杂的三元交互
  - 3、非对称分享行为
- 本文贡献
三、正文部分
- HGSRec模型
- - 1、初始化节点向量
  - 2、三方异构图神经网络
  - 3、双重共同注意机制 Co-Attention Mechanism
  - 4、传递三元组表示
四、实验结果
- 数据集
- 基线模型
- 性能评估
- 注意力分析
- 在线实验

一、摘要

社交电商的蓬勃发展催生了多样化的推荐需求，并伴随着一种新的推荐模式——分享推荐。

与传统的二元推荐不同，分享推荐模型是<User, Item, Friend>之间的三元交互，旨在向想要分享特定项目的用户推荐最有可能的朋友，逐渐成为社交电商不可或缺的服务。

分享推荐通过整合社交关系和购买行为，提高了用户粘性并通过用户影响力变现

但是遇到了三个挑战：丰富的异构信息、复杂的三元交互和不对称的分享行为。

本文提出了一种基于异构图神经网络的共享推荐模型，称为 HGSRec。
HGSRec 包括一个三方异构 GNN 来描述用户和项目的多重特征，然后通过使用双重共同注意机制捕获潜在的三元依赖关系来动态融合这些信息，然后利用三元组来描述共享动作的不对称性并预测是否发生共享操作。

离线实验证明了 HGSRec 的优越性，与现有技术相比有显著改进（11.7%-14.5%），淘宝平台上的在线 A/B 测试进一步证明了 HGSRec 的高工业实用性和稳定性。

分享推荐和二元推荐的比较：

二、简介

由于以下特点，分享推荐一直是社交电子商务中一种独特的推荐模式:
首先，分享推荐结合了社交关系和物品推荐的优点。大多数用户同时存在于商业网络和社交网络中，因此用户非常了解他的购买项目，也了解他的朋友。分享推荐不仅可以增强用户的粘性和活跃度，还可以将用户影响力变现（例如注意力经济和网红经济）。其次，分享推荐具有可靠性。由于用户既知道推荐的商品，也了解他的朋友，所以用户的分享行为对他的朋友来说是可信的，这增加了推荐的可靠性，从而有利于购买行为。

分享推荐的目标是预测 <User、Item、Friend>之间的三元交互，即用户是否会与朋友分享某项，最大化概率 P (u3|u2, i3)。

分享推荐需要解决以下问题：

1、丰富的异构信息

分享推荐通常包含复杂的异构信息，包括用户和物品之间复杂的交互，以及大量用户和物品的特征信息。这样的例子如下图所示。需要处理复杂的交互并同时利用不同的特征的问题。

2、复杂的三元交互

需要考虑一个分享行为的适用性，评估三个对象（例如，u2，i3，u3）在分享动作中的匹配程度。根据推荐物品的特点，用户会将其推荐给合适的朋友，因此应该考虑该物品对用户（或朋友）的影响。

在上图中，用户 u2 会将鞋子 i3 分享给他的同学 u3，而不是他的妈妈 u1。所以需要对用户、物品和朋友的三元交互进行建模，考虑它们的适用性。

3、非对称分享行为

分享动作是不对称且不可逆的，这意味着如果交换用户和朋友的角色，分享行为可能不会发生。
用户 u2 可以将一件女式大衣 i1 分享给他的妈妈 u1，而用户 u1 不会将女式大衣 i1 分享给她的儿子 u2。因此，理想的模型应该考虑共享行为的不对称性。

本文贡献

本文首先研究了分享推荐问题，并提出了一种基于异构图神经网络的分享推荐模型（HGSRec）。将分享推荐系统建模为属性异构图以集成丰富的异构信息，然后设计 HGSRec 来学习 u、i、v 的嵌入向量并预测分享动作 hu、i、vi 发生的概率。
具体来说，在通过编码丰富的节点特征初始化节点嵌入之后，设计了一个三方异构 GNN，通过聚合它们的基于meta-path的邻居来分别学习 u、i、v 的嵌入，这使得 HGSR 能够灵活地融合不同方面的信息。动态融合不同meta-path的时候利用了双重注意力机制。

三、正文部分

HGSRec模型

HGSRec 的总体框架: (a) 通过特征嵌入初始化用户和项目嵌入。 (b) 通过三方异构图神经网络更新节点嵌入。 © 通过双重共同注意机制动态融合嵌入。 (d) 通过传递三元组表示对非对称共享行为进行建模。

1、初始化节点向量

首先将用户、商品、朋友的特征信息初始化这些节点的嵌入向量
特征嵌入有两个好处：（1）在实际应用中，每天都有大量新节点。特征嵌入通过利用它们的特征有效地为以前未见过的节点生成嵌入。 (2) 特征数量远少于节点数量，显着减少了可学习参数的数量。

对于节点的第k个特征，初始化一个特征向量矩阵M^fk
u 的第 k 个特征的向量如下所示

所以用户u的节点特征用下面的式子表示：

W_U是权重矩阵，b_U是偏置向量。

物品和朋友的向量初始化都是一样的过程

2、三方异构图神经网络

本文提出了三元异构 GNN，分别通过相应的异构 GNN（即 HeteGNN^U 、 HeteGNN^I 和 HeteGNN^V）来学习 u、i、v 的嵌入。异构 GNN 通常遵循分层方式：它首先通过一个metapath聚合来自一种邻居的信息，并在节点级别学习语义特定的节点嵌入。然后，它聚合来自不同元路径的多个语义，并在语义级别融合一组特定于语义的节点嵌入。

具体来说，给定一个用户 u 和 k1 个与该用户相关的元路径，HeteGNN^U 能够获得 k1 个语义特定的用户嵌入

不同节点的基于元路径的邻居的数量可能会有很大差异，因此我们需要对固定数量的邻居进行采样。随机采样策略会导致大量计算消耗和丢失重要节点。
本文提出了一种 top-N 语义采样策略：（1）如果基于元路径的邻居的数量大于固定数量 N，我们基于连接强度指标筛选（例如，多少次用户查看该物品）。 (2) 否则，我们采用重复采样来获得 N 个基于元路径的邻居。

本文提出了一种语义聚合器SemAgg，用于聚合用户u和对应的meta-path Φ^U下的邻居：

考虑到时间效率，本文采用 MeanPooling 来加速聚合处理以加快预测速度。

为了凸显用户u本身属性的重要性，将初始嵌入 x_u 和基于元路径的嵌入连接起来，得到语义特定的用户嵌入：

对于用户U的k1个metapath{Φ^U₁,Φ^U₂ , · · · ,Φ^U_k }可以学习到k1个特征向量
对于friend对象v们，也一样会得到：

由于项目的特征比用户简单且稳定，我们只采用一个元路径Φ^I，通过 HeteGNN^I 得到项目 i 的嵌入X_i^Φ :

3、双重共同注意机制 Co-Attention Mechanism

在获得一组特定于语义的节点嵌入后，接下来的目标是基于复杂的三元交互 h_u、i、v_i 正确融合它们。因此，考虑到项目 i 的影响，设计了一种双重共同注意机制来动态融合 u（或 v）在不同元路径下的嵌入。

该部分由U和I的共同注意力机制CoAtt_U,I，和V和I的共同注意力机制CoAtt_V,I两部分组成

具体来说，它学习了 hu、i、vi 元路径的交互特定注意力值，并获得了 u、v 的最合适的嵌入，具有以下好处：（1）它增强了 hu、i、vi 的依赖性，使 HGSRec更完整。 (2) 它动态融合了 u（或 v）的嵌入，提高了共享适用性。

CoAtt_U,I为用户U学习一组特定于与物品交互的注意力权重：

具体来说，我们将 u 和 i 的语义嵌入向量连接起来，并将它们投影到共同注意空间中。然后，我们采用共同注意向量 q_U,I 来学习元路径对用户 u 的重要性。 metapathΦ^U_m 对 U 在相互作用 U, I中的重要性

接下来对权重进行softmax归一化：

进而得到了U的嵌入向量如下：

”朋友“对象V和U的过程一样
对于物品I，因为只有一种metapath所以依旧是X_i^Φ，没有注意力部分

4、传递三元组表示

为了预测分享行为，我们需要基于u, i, v，通过h_u, h_i, h_v, 构建一个三元组表示数r_u,i,v
我们首先通过三个特定类型的 MLP，将三个对象的H属性投影到同样的向量空间上

构建三元组表示 r_u,i,v 的一种简单方法是连接所有节点嵌入（ zu||zi||zv）
但是简单的连接并不能明确捕捉分享动作的显着特征：
（1）分享推荐实际上是基于用户和项目对候选朋友进行排名（例如，计算 zu + zi 和 zv 之间的相似度），所以分享动作是不对称的，用户和朋友的角色不能互换。（2）item描述了用户和好友之间的转换，是建立分享动作不可缺少的桥梁。

受”关系翻译“的启发，本文提出了一个可传递的三元组表示 ru,i,v 来通过 itemtranslating 显式地建模共享动作的特征，如下所示：

然后将其放到新的一个感知机中，得到一个预测指标：

定义了如下的交叉熵损失函数，y是三元组的标签。

通过该损失函数的梯度下降，最后可以训练出模型

四、实验结果

数据集

从淘宝平台收集数据，范围从 2019/10/09 到 2019/10/14
每个样本包含一个分享动作 h_u,i,vi和相应的标签 y_u,i,v∈ {0, 1}。
为用户选择了四个元路径，包括 U-s-U、U-b-Ib-U 和 U-v-I-v-U，为商品选择 U-b-I。

在离线实验中，使用最后一天（即 2019/10/14）作为验证集，之前的 3/4/5 天作为训练集，分别标记为 3 天、4 天和 5 天.为了全面评估结果，将每个训练集的大小从 40% 更改为 100%

基线模型

选择基于特征的模型（即 LR、DNN 和 XGBoost）和 GNN 模型（即 GraphSAGE、IGC 和 MEIRec）作为基线
为了验证 HGSRec 中的精细设计，还测试了 HGSRec 的两个变体（HGSRec\att 和 HGSRec\tra）
尽管深度模型依赖于随机性，其性能随随机种子的不同而变化，但它们在大规模淘宝数据集上的性能相当稳定（即 HGSRec 的方差小于 0.001）

性能评估

如表所示，我们有以下观察结果：
(1) HGSRec 始终比所有基线表现更好，并有显着改进。与最佳baseline相比，提升幅度高达11.7%-14.5%，表明HGSRec的优越性。
(2) 大多数 GNN（即 GraphSAGE、IGC 和 MEIRec）优于基于特征的方法（即 LR、DNN 和 XGBoost），表明结构信息的重要性。当深入了解这些方法时，我们可以发现，如果采用三元交互，三方版本（即 IGC+ 和 MEIRec+）的性能明显优于原始版本。它进一步证实了为股票推荐建模三元交互的好处。
(3) 将 HGSRec 与其变体的性能进行比较，我们可以发现 HGSRec 的性能最好。 HGSRec\att 的退化表明了双重共同注意机制的有效性，而 HGSRec\tra 的退化验证了传递三元组表示的优越性。请注意，HGSRec\tra 的退化比 HGSRec\att 的退化更显着，这意味着传递三元组表示可能比双重共同注意机制做出更高的贡献。

注意力分析

Dual co-attention 机制可以动态融合用户和朋友关于不同项目的多个嵌入，并提高共享适用性。我们首先通过图 4(a) 中 3 天数据集上用户注意力分布的箱线图呈现宏观层面的分析。请注意，朋友上的注意力值分布也显示出类似的现象。可以看出，元路径的注意力分布不同，U-b-I-b-U的注意力值最大，方差较高，说明这条元路径对大多数用户来说是最重要的。原因是U-b-I-bU与反映最强用户偏好的用户购买行为有关。 U-b-I-b-U 的较高方差也意味着其重要性对于不同的用户差异很大。我们进一步用单个元路径测试 HGSRec，并在图 4(b) 中用相应的平均注意力值显示它们的性能。与注意力分布一致，U-b-I-b-U 是最有用的元路径，它实现了最高的 AUC 并获得了最大的注意力值。

在线实验

在线服务需要满足以下要求：（1）海量数据的存储和处理。分享推荐系统以邻接表的形式存储在 MaxCompute 中，以提高内存效率。 (2) 异常股份行为。我们过滤异常的分享行为（例如，一个用户在 24 小时内与他的朋友分享了超过数千个项目）。 (3) 新功能和缺失功能。每天都有新功能出现，因此我们利用哈希函数来映射所有功能，在发生哈希冲突时会导致性能略有下降。缺少的功能用特定的标记填充。在线结果范围从2020/01/08到2020/02/02（25天）如图7所示。这里我们选择UCTR（UCTR=Unique Click/Unique Visitor）进行在线评估。 UCTR 越大，性能越好。长期观察表明，HGSRec 的性能始终优于 XGBoost，差距很大，证明了 HGSRec 的高工业实用性和稳定性。

《社交电商中的分享推荐研究》论文阅读笔记相关推荐

《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记
<Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记主要挑战贡献: KG上的推理挑战主要 ...
论文阅读 | NIPS‘20 | Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs
很有意思的一篇paper.在众多Knowledge Graph Embedding (KGE) 的论文中通过问题设计和有意思的解决方式脱颖而出. 首先来看看问题设计. 一般的KGE model都是利用 ...
Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis论文阅读笔记（EMNLP2021）
目录标题翻译:基于Beta分布引导方面感知图的方面类别情感分析原文链接:https://aclanthology.org/2021.emnlp-main.19.pdf 摘要: 1 引言 2 相关工 ...
Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记
问题: 因为bert是在长文本(512token长度)预训练的,因此,如果没有特定于任务的微调,BERT在短语和句子上的表现通常比简单基线(如GLoVe的平均池化)更差.且字节2020在EMNLP上的 ...
DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记
DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记 Article Background ...
[论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 购物返利 www.cpa5.cn 本文结构解 ...
论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics（AAAI，2020）
这是一篇非常有趣的工作,看完会觉得眼前一亮. 论文标题:Reasoning on Knowledge Graphs with Debate Dynamics 发表于AAAI,2020 动机很多机器 ...
论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》
<a simple but tough-to-beat baseline for sentence embeddings>published at ICLR 2017. ICLR会议的论文 ...
Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读笔记
我的博客链接 0. 前言 1. 作者试图解决什么问题? 作者想在KGE中对语义层级(semantic hierarchies)进行建模. 2. 这篇论文的关键元素是什么? semantic hiera ...
斯坦福图机器学习CS224W笔记自用: Reasoning in Knowledge Graphs using Embeddings
1. 基于嵌入的知识图推理目标:如何对知识图进行多跳推理? 知识图推理: 回答多跳查询路径查询连接查询 Query2box 示例:生物医学图知识图谱上的预测查询我们是否可以进行多跳推理,即在 ...

《社交电商中的分享推荐研究》论文阅读笔记