匿名游走 Anonymous Walk

论文地址：[http://proceedings.mlr.press/v80/ivanov18a/ivanov18a.pdf]

从节点u开始匿名游走以建立与u在给定距离内的所有节点构成的子图，这种分布唯一地决定了u中的马尔科夫过程，所以不存在两个不同的子图具有相同的匿名游走分布。这意味着两个匿名游走分布相似的图应该在拓扑结构上相似。因此定义了基于特征的网络嵌入在匿名行走的分布，并展示了一种有效的采样方法，该方法近似于大型网络的分布。

定义一：节点 $u_{i} \epsilon V$ 的有序列表 $s=\left ( u_{1},u_{2},\cdots,u_{k}, \right )$ ，定义位置函数pos： $\left ( s,u_{i} \right )\rightarrow q$ ，q为返回值，是节点 $u_{i}$ 在列表s中的位置。

例如：s=(a,b,c,b,c),pos(s,a)={1},pos(s,b)={2,4}

定义二：（匿名游走）如果 $w=\left ( v_{1}, v_{2},\cdots,v_{k}\right )$ 是一个随机游走路径，那么它对应的匿名游走是整数序列 $a=\left ( f\left ( v_{1} \right ) ,f\left ( v_{2} \right ) ,\cdots ,f\left ( v_{k} \right ) \right )$ ，其中整数 $f\left ( v_{i} \right ) = min pos\left ( w,v_{i} \right )$

图中演示了匿名游走概念。图中的两个不同随机游走1和2对应于同一个匿名游走1，随机游走3对应于另一个匿名游走2。

随机游走1： $a\rightarrow b\rightarrow c\rightarrow b\rightarrow c$

随机游走2： $c\rightarrow d\rightarrow b\rightarrow d\rightarrow b$

对应的匿名游走序列都是 $1\rightarrow 2\rightarrow 3\rightarrow 2\rightarrow 3$

随机游走3： $a\rightarrow b\rightarrow a\rightarrow b\rightarrow d$

对应的匿名游走序列是 $1\rightarrow 2\rightarrow 1\rightarrow 2\rightarrow 3$

原理：从单个节点的角度来看，在观察者的位置上，网络拓扑可能是故意隐藏的（例如社交网络通常会限制外部用户查看您的友谊）或其他方式（例如搜索引擎还不知道万维网中新创建的链接）。然而，观察者可以通过从自身开始随机游走，将过程传递给其邻居，并在随机游走中记录观察到的状态，自己对网络进行实验。由于观察者无法获得节点的全局名称，匿名记录状态的一种方法是通过随机游走中第一次出现节点来描述他们。这样记录不仅简洁，而且通常存在隐私限制，不允许纪律节点的完整描述。

算法

基于特征的模型

定义一个加权有向图，生成一个随机游走图 $R=\left ( V,E,P \right )$ ，对于边 $e=\left ( u,v \right )$ 的权重 $p_{e}=\frac{w_{e}}{\sum_{v\epsilon N_{out\left ( u \right )} }^{}w_{u,v}}$ ， $N_{out\left ( u \right )}$ 是用户u的邻居集合，图R上长度为l的随机游走w是一个节点序列 $u_{1},u_{2},\cdots,u_{l+1}$ 。根据随机游走图R中概率 $p\left ( u_{i},u_{i+1} \right )$ 选择节点对 $\left (u_{i},u_{i+1} \right )$ 。随机游走序列w的概率为 $p\left ( w \right )$ 是所有选择边的总概率

根据定义一，匿名游走是一种随机游走，任意图中长度为l的所有可能的匿名游走的数量随l呈指数增长。考虑一个初始节点u和一组从u开始且长度为l的所有不同随机游走序列 $W_{l}^{u}$ ，这些随机游走对应 $\eta$ 种不同的匿名游走 $A_{l}^{u}=\left ( a_{1}^{u},a_{2}^{u},\cdots ,a_{\eta}^{u}, \right )$ 。对于节点u，长度为l的匿名游走 $a_{i}^{u}$ 的概率是 $p\left ( a_{i}^{u} \right )=\sum_{w\epsilon W_{l}^{u}w \mapsto a_{i}}^{}p\left ( w \right )$ 通过对图中所有节点的概率进行聚合，并用节点总数N对其进行归一化，得到在图中选择匿名游走 $a_{i}$ 的概率

基于特征的匿名游走嵌入（feature-based anonymous walk embedding，AWE）

序列长度为l的所有的匿名游走序列 $A_{l}=\left ( a_{1},a_{2},\cdots ,a_{\eta}, \right )$ ，图G中向量 $f_{G}$ 的大小为 $\eta$ ，其第 $i$

部分对应图 $G$ 中具有匿名游走 $a_{i}$ 的概率为 $p\left ( a_{i} \right )$ :

时间复杂度： $O\left ( nlogn\left ( d_{in}^{max}\cdot d_{out}^{max} \right )^{\frac{l}{2}} \right )$ 最大出入度

$k_{l}$ ：表示长度为 $l$ 的随机游走序列的数量，由图G中节点的入度和出度的幂限制

因此，图中的随机游走数最多为 $n\left ( \left ( d_{in}^{max}\cdot d_{out}^{max} \right )^{\frac{l}{2}} \right )$

采样：

由于在大型图中完全计数所有匿名游走是不可行的，描述了一种近似真实分布的抽样方法。以这种方式，采样m个随机游走序列，并计算相应的匿名游走的经验分布。为了保证经验分布和实际分布在给定的置信度下接近，将随机游走的采样数量m设置的足够大。

对于集合 $A_{l}$ 上的两个离散概率分布 $P$ 和 $Q$ ，将 $L_{1}$ 距离定义为：

$D_{l}$ 是 $A_{l}$ 的真是分布，设 $X^{m}=\left ( X^{1} ,X^{2} ,\cdots ,X^{m} ,\right )$ 是从 $D_{l}$ 中提取的随机变量，原始分布 $D_{l}$

的经验分布 $D^{m}$ 定义为：

如果 $x$ 为真，则 $\left [ \left [x \right ] \right ]=1$ ，假则为0

采样数量m满足 $P\left \{ \left \| D^{m}-D \right \|_{1}\geq \varepsilon \right \} \leq \delta$ 等同于

例如，有 $\eta =877$ 个匿名游走，长度l=7，如果设置 $\varepsilon =0.1,\delta =0.05$ ，那么样本数量将增加到122500

由于可以对随机游走的转移概率进行预处理，因此可以在时间复杂度为O(1)的alias方法中对长度为l的随机游走序列中的节点进行采样。因此，计算基于特征的匿名游走嵌入的采样方法的总运行时间为O(ml)

数据驱动模型

消除基于特征嵌入的稀疏性

匿名游走的邻居：如果两个长度为l的匿名游走共享同一个源节点，我们在它们之间定义一个邻域。得到匿名游走序列的过程。

训练过程：定义了图的表示向量d和匿名游走矩阵W，向量大小为 $1\times d_{g}$ 其中 $d_{g}$ 是图嵌入向量的大小。矩阵W矩阵大小为 $\eta \times d_{g}$ ， $\eta$ 是长度为l的所有可能的匿名游走序列的数量， $d_{a}$ 是匿名游走的嵌入大小。d表示整个向量，W表示词矩阵。每个图对应它的向量d，一个匿名游走对应于矩阵W中的一行。该模型视图在给定同时发生的上下文匿名游走和一个图的情况下预测目标匿名游走。

一系列共发生的匿名游走 $s=\left ( a_{1},a_{2},\cdots,a_{T} \right )$ 对应于向量 $w_{1},w_{2},\cdots ,w_{T}$ ，图G对应于向量d，目标为最大化平均对数概率

$\Delta$ 表示窗口大小，即每个目标词的上下文词的数量，以上的概率通过softmax函数定义

学习数据驱动匿名游走嵌入的框架

所有同时发生的匿名游走都从图中的同一节点开始，目标是通过其周围的上下文游走序列 $\left ( w_{1} ,w_{2} ,w_{3} \right )$ 和图向量d来预测目标游走 $w_{4}$ ，平均上下文游走的嵌入，然后与图向量连接以预测目标向量。在抽样的匿名游走语料库中，使用随机梯度下降更新向量。