异质网络表示--Structural Deep Embedding for Hyper-Networks

[Structural Deep Embedding for Hyper-Networks](https://arxiv.org/abs/1711.10146) 是在hyperedge(超边是不可分解的)的基础上保留object的一阶和二阶相似性，学习异质网络表示。于与HEBE的区别在于，本文考虑了网络high-oeder网络结构和高度稀疏性。传统的基于clique expansion 和star expansion的方法，显式或者隐式地分解网络（如下图所示）。也就说，分解后hyper edge节点地子集，依然可以构成一个新的超边。对于同质网络这个假设是合理地，因为同质网络地超边，大多数情况下都是根据潜在地相似性（共同地标签等）构建的。

但是在异质网络中要解决两个问题：不可分解性和结构保留。对于不可分解性，作者设计了不可分解的tuplewise相似性函数。这个相似性函数定义在hyper edge的所有节点上，确保超边的子集并没有融合在网络表示中，并且这个函数是非线性的。为了保留网络结构，作者设计了一个 Auto encoder，通过重构节点的邻居结构来学习节点表示，也就说有相似邻居的节点将有相似的向量表示，每一种节点类型对应一个auto encoder。这两部分在模型中，联合优化来同时解决这两个问题。模型框架图如下：

####几个定义 **1. Hyper Network：**一般形式为
$G=(V,E)$ ，有T个类型的节点
$V={\{V_t\}}_{t=1}^T$ ，网络中的边是超边：即可以连接任意数量的节点：
$E=\{E_i=(v_1,v_2,v_{n_i})\} (n_i \geq2)$ 。如果每个超边只连接两个节点，那么就退化为一般的network；如果
$T\geq2$ ，那么就是 heterogeneous hyper-network。 **2. First-Order Similarity:** 一阶相似性衡量的是节点间的N-tuplewise相似性。对于节点
$v_1, v_2, \cdots, v_N$ ，如果他们之间存在超边，那么这N个节点的一阶相似性是1，但是这种相似性并不存在于这N个节点的子集上。 **3. Second-Order Similarity:** hyper-network上的二阶相似性，衡量的是节点的邻居结构之间的相似性。邻居指的是：
$E_i \setminus v_i,\quad if \quad v_i \in E_i$ 。 #### Loss Function 节点
$v_i$ 的向量表示是
$\boldsymbol{X}_i$ ，S表示 N-tuplewise的相似性函数。也就说 1. if
$(v_1,v_2,\cdots,v_N) \in E$ ，那么
$S(v_1,v_2,\cdots,v_N)$ 的值比较大（大于阈值 l）。 2. if
$(v_1,v_2,\cdots,v_N) \notin E$ ，那么
$S(v_1,v_2,\cdots,v_N)$ 的值比较小（小于阈值s）。本文考虑的是N=3的均匀长度的超边。 scoring函数S不可以是线性的。如果是线性的那么：
$S(v_1, v_2, \cdots, v_N)= \sum _i \boldsymbol{W}_i \boldsymbol{X}_i$ 。证明参考论文，基于阈值l和s，举个反例。对于一阶相似性，本文采用的是multilayer perceptron，分成两个部分。第一部分是模型框架中的第二层，这是个全连接层而且激活函数是非线性的。输入是三个节点
$(v_i, v_j, v_k)$ （他们属于三个不同的节点类型a,b,c）的向量表示
$(\boldsymbol{X}_i^a, \boldsymbol{X}_j^b, \boldsymbol{X}_k^c)$ 。作者把他们拼接起来，并且映射到统一的空间L。

L i j k = σ (W (2) a * X a i + W (2) b * X b j + W (2) c * X c k + b (2))

$\begin{equation} \boldsymbol{L}_{ijk}=\sigma(\boldsymbol{W}_a^{(2)} * \boldsymbol{X}_i^a + \boldsymbol{W}_b^{(2)} * \boldsymbol{X}_j^b + \boldsymbol{W}_c^{(2)} * \boldsymbol{X}_k^c + \boldsymbol{b}^{(2)} ) \end{equation}$ 为了得到相似性，把它统一的空间中的表示
$\boldsymbol{L}_{ijk}$ 映射到第三层的概率空间中：

S i j k = S (X a i, X b j, X c k) = σ (W (3) * L i j k + b (3))

$\begin{equation} \boldsymbol{S}_{ijk}=S(\boldsymbol{X}_i^a, \boldsymbol{X}_j^b, \boldsymbol{X}_k^c)=\sigma(\boldsymbol{W}^{(3)} * \boldsymbol{L}_{ijk }+\boldsymbol{b}^{(3)}) \end{equation}$ 如果节点
$(v_i, v_j, v_k)$ 之间存在hyper edge，那么
$\boldsymbol{R}_{ijk}$ 的值为1，否则为0。损失函数（1）：

L 1 = - (R i j k l o g S i j k + (1 - R i j k) l o g (1 - S i j k))

$\begin{equation} \mathcal{L}_1 = -(\boldsymbol{R}_{ijk}log\boldsymbol{S}_{ijk}+ (1-\boldsymbol{R}_{ijk})log(1-\boldsymbol{S}_{ijk})) \end{equation}$ 从上式可以看出，如果
$\boldsymbol{R}_{ijk}$ 的值为1，则
$\boldsymbol{S}_{ijk}$ 的值比较大；如果
$\boldsymbol{R}_{ijk}$ 的值为0，则
$\boldsymbol{S}_{ijk}$ 的值比较小。这也就保留了一阶相似性。 **二阶相似性**，跟[SDNE](http://dl.acm.org/citation.cfm?doid=2939672.2939753)的思想是很相似的，也是构造邻接矩阵作为Auto encoder的输入。邻接矩阵
$\boldsymbol{A}= \boldsymbol{H}\boldsymbol{H}^T -\boldsymbol{D}_v$ 。矩阵
$\boldsymbol{H}$ 是
$|V| \times |E|$ 关联矩阵，每个元素h(v,e)=1，如果节点v属于超边e，否则为0；矩阵
$\boldsymbol{D}_v$ 是对角矩阵，包含着节点的度
$d(v)= \sum\nolimits_{e \in E} h(v,e)$ 。因而，邻接矩阵的每一项代表着两个节点的共同出现的次数。 Auto encoder包含编码器和解码器。编码器是把输入A非线性映射到X空间，解码器是把X非线性的重构到原始的特征空间
$\hat{A}$ 。

X i = σ (W (1) A i + b (1)) A^i = σ (W^(1) X i + b^(1))

$\begin{equation} \boldsymbol{X}_i = \sigma(\boldsymbol{W}^{(1)} \boldsymbol{A}_i + \boldsymbol{b}^{(1)}) \\ \hat{\boldsymbol{A}}_i = \sigma(\hat{\boldsymbol{W}}^{(1)} \boldsymbol{X}_i + \hat{\boldsymbol{b}}^{(1)}) \end{equation}$ Auto Encoder的目的就是最小化输入和输出的重构错误。这就使得有相似邻居结构的节点，向量表示相近，也就是保留了二阶相似性。邻接矩阵往往是稀疏的，因而作者只是处理非零项，通过sign函数。此外，每个节点类型对应着一个Auto encoder，因而损失函数是：

L 2 = \sum t | | s i g n (A t i) ⊙ (A t i - A^t i) | | 2 F

$\begin{equation} \mathcal{L}_2= \sum _t ||sign(\boldsymbol{A}_i^t) \odot (\boldsymbol{A}_i^t - \hat{\boldsymbol{A}}_i^t)||_F^2 \end{equation}$ 为了保留一阶和二阶相似性，论文联合最小化目标函数：

L = L 1 + α L 2

$\begin{equation} \mathcal{L}=\mathcal{L}_1 + \alpha \mathcal{L}_2 \end{equation}$ 在大多数现实世界的网络中只有正相关关系，所以这个算法收敛时，其中所有的元组关系都是相似的。为了解决这个问题，根据噪声分布，为每条边采样多个负边。整体算法如下：

在实验方面，作者用了四个数据集：

GPS：超边是（user, location, activity）
MovieLens：超边是（user, movie, tag）
drug：超边是（user, drug, reac- tion）
WordNet：超边是（entity, relation, tail entity）

异质网络表示--Structural Deep Embedding for Hyper-Networks相关推荐

Structural Deep Embedding for Hyper-Networks
Structural Deep Embedding for Hyper-Networks 基本信息博客贡献人垂杨柳作者 Haoyu Wang, Defu Lian*, Yong Ge [重要作者 ...
文献学习(part14)--Structural Deep Network Embedding
学习笔记,仅供参考,有错必纠文章目录 Structural Deep Network Embedding ABSTRACT INTRODUCTION RELATED WORK Deep Neural ...
【论文阅读｜深读】SDNE:Structural Deep Network Embedding
目录前言 ABSTRACT 1. INTRODUCTION 2. RELATED WORK 2.1 Deep Neural Network 2.2 Network Embedding 3. STRU ...
Structural Deep Clustering Network阅读与翻译
文章作者信息: Structural Deep Clustering Network 结构化深度聚类网络深度聚类算法SDCN,首次将GNN用到聚类上,由北邮.腾讯和清华联合发表在WWW2020上. ...
Structural Deep Clustering Network 基于GNN的深度聚类算法 WWW2020
论文链接:https://arxiv.org/abs/2002.01633 代码与数据集链接:https://github.com/lxk-yb/SDCN 摘要聚类是数据分析中一个基础任务.最近,深 ...
基于meta-path的异质网络Embedding-HIN2vec
HIN2vec 主要是学习异质网络节点和关系的embedding向量表示.HIN2vec主要跟为训练数据准备和表示学习两部分.在训练数据准备中,将网络数据表示成 <x,y,r,L(x,y,r)& ...
【论文笔记】Unsupervised Deep Embedding for Clustering Analysis（DEC）
[论文笔记]Unsupervised Deep Embedding for Clustering Analysis(DEC) 文章题目:Unsupervised Deep Embedding for ...
同质异质网络——（F(fraud) A(Analytics) UDPSNT(Wylie_2015)）
当标签x的结点更大程度上连接其他标签x的结点的时候,这个网络是同质的.非同质的网络是异质的. 这里定义的同质异质网络是指行骗者更可能连接着其他行骗者.合法人更可能连接其他合法人. 令l为网络中合法结点 ...
《异质网络表征学习的研究进展》
文章链接: link. 基础信息包含不同类型节点和边的为异质信息网络. 元路径是定义在网络模式上的链接两类对象的一条路径挑战异质信息网络的复杂性也为网络表征学习提出了新的挑战: 节点和边的异质性 ...

异质网络表示--Structural Deep Embedding for Hyper-Networks

异质网络表示--Structural Deep Embedding for Hyper-Networks相关推荐

最新文章

热门文章