作者:CHEONG

公众号:AI机器学习与知识图谱

研究方向:自然语言处理与知识图谱

本文介绍一篇基于Random Propagation的深度图神经网络模型Grand(NIPS 2020),介绍Grand模型核心点和模型思路,完整汇报ppt获取请关注公众号回复关键字:Grand

一、Background

Knowledge1、Over-fitting:在CNN卷积神经网络中,若CNN网络结构过于复杂过于Deep,且数据量有限的情况下,便会出现Over-fitting问题,Over-fitting就是指模型对于训练数据过度学习,学习到训练数据本身而不是训练数据的规律,导致无法在测试集上准确预测的情况。

Knowledge2、Over-Smoothing:在GNN图神经网络中,由于图本身结构上节点与节点之间相互连接的特性,并且图神经网络一般是通过邻域汇聚或随机游走的方式进行表征学习,因此当图网络一旦变深,便会出现Over-Smoothing问题,Over-Smoothing指的是随着图神经网络加深,学习到的节点表征越来越相似,以至于无法区分,模型效果也将大幅下降。且在图网络中一般2 Layers时效果最佳。因此如何在DeepGNN中既能学到更深层次信息又能避免Over-Smoothing显得至关重要。

Knowledge3、DeepGNN的必要性: 通常对于少标签半监督节点分类任务,或是少特征半监督节点分类任务,DeeperGNN便较为重要,在特征较少时,便想通过多跳传递能学到更多有效信息。

二、Motivation

当前图神经网络模型大多存在以下三个问题,为了解决这三大问题本文提出了Grand Random Neural Network

Problem1、深度图神经网络存在Over-Smoothing问题,随着GNN层数堆叠使得节点表征无法区分,最近研究表明:在Propagation过程中耦合non-linear transformation操作会加剧Over-Smoothing问题(解决策略:Random Propagation Strategy);

Problem2、固定邻居的Propagation操作会使得每个节点高度依赖它的多跳邻居,导致节点表征更容易受到潜在数据噪音误导,降低模型的鲁棒性(解决策略:解耦Transformation和Propagation);

Problem3、在半监督学习中,之前针对GNN标准的训练方法很容易过度拟合稀缺的标签信息,因此如何在半监督学习中充分利用大量未标记数据便是一个关注点(解决策略:Data Augmentation Methods for Consistency Regularized Training)。

三、Method

为了解决上述提及的问题,本文提出Grand模型,两个主要的创新点:

1、Random Propagation for Graph Data Augmentation;

2、Consistency Regularized Training。

接下来我们先通过模型图来快速理解一下Grand模型运行流程,然后再从公式角度详细分析一下Grand模型的两大创新点。

上图是Grand模型图,按照顺序讲解一下模型各个步骤的具体操作:

> S Augmentation:第一步对GraphData进行S次数据增强;

> Random propagation:对每一份数据增强后的数据进行随机的DropNode,这里仔细看模型图,DropNode不是将图中节点直接丢掉,而是对某些节点特征随机进行mask操作,然后再进行Propagation without W,这里为什么是without W?就是上面问题2中提到的,在Propagation操作过程中不引入non-linear transformation操作;

> Augmented Features:将S份数据Propagation之后的得到的S份新数据分别进行两层MLP操作,这里的MLP操作指的便是Transformation操作。对此有疑问的可参考另一篇详细介绍了解耦Transformation和Propagation操作对DeepGNN Over-Smoothing问题的影响。

> Consistency Regularized Training:考虑到S份数据分别的预测结果可能有较大偏差,因此引入Consistency Regularized Training来控制S次Inference的结果尽可能相近。

1、Random Propagation

Grand模型对Propagation操作处理方式如下两个公式所示,其中X ̃是经过DropNode后的节点初始特征,A ̂是经过归一化后的邻接矩阵,先进行K次的Propagation操作得到A ̂^0,A ̂^1,…,A ̂^K,然后取平均后和X ̃进行特征汇聚操作。

2、Consistency Regularized Training

Grand模型训练时Loss除了常规使用的交叉熵损失函数L_sup外,引入S份数据增强的原因,为了增强模型的鲁棒性还引入了Consistency Regularization Loss,下面提供了L_sup和L_con 具体计算公式,其中Y_i是真实值,〖Z ̃_i〗^((s))是第s次数据的预测值,Z ̅_i则表示S次预测值得平均值,因此L_sup就是简单的交叉熵求和,L_con则控制每次预测结果尽可能相近。

四、Code

1、Grand模型实现思路也很简单,核心代码如下图所示,官网提供代码获取地址:

https://github.com/THUDM/GRAND

五、Conclusion

1、Grand模型在三份引文数据Cora,Citeseer和Pubmed上都取得了SOTA效果,证明了方案的有效性。

六、往期精彩

【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【面经系列】八位硕博大佬的字节之旅

各大AI研究院共35场NLP算法岗面经奉上

【机器学习系列】机器学习中的两大学派

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战,看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇:最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码

汇报完整版ppt可通过关注公众号后回复关键词:Grand 来获得,有用就点个赞呗!

【知识图谱系列】基于Random Propagation的深度图神经网络相关推荐

  1. 【知识图谱系列】基于互信息最大化的图谱预训练模型DGI InfoGraph

    作者:CHEONG 公众号:AI机器学习与知识图谱 研究方向:自然语言处理与知识图谱 本文介绍两篇基于互信息最大化的图谱预训练模型DGI(ICLR 2019)和InfoGraph(ICLR 2020) ...

  2. “知识图谱+”系列:知识图谱+强化学习

    泽宇个人一直认为强化学习是建模动态系统最好的方法之一,通过与环境的不断交互,在动作选择和状态更新的动态过程中逐渐达到优化目标.因此,本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容, ...

  3. “知识图谱+”系列:知识图谱+图神经网络

    最近有很多朋友联系泽宇说想了解一些知识图谱和图神经网络(GNN)结合的研究.那泽宇当然要满足朋友们的要求啊,本期泽宇从知识图谱的几个不同研究方向总结了结合GNN的经典研究,也和大家一起分享.所有内容是 ...

  4. 斯坦福大学CS520知识图谱系列课程学习笔记:第二讲如何构建知识图谱

    上一讲我们学习了知识图谱的一些基本概念: 斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱 本节课程关于如何构建知识图谱,因为知识图谱的构建是整个知识图谱领域的一个非常核心且基础的工 ...

  5. oracle 方泽宇_斯坦福大学CS520知识图谱系列课程学习笔记:第二讲如何构建知识图谱...

    上一讲我们学习了知识图谱的一些基本概念:泽宇:斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱​zhuanlan.zhihu.com 本节课程关于如何构建知识图谱,因为知识图谱的构建 ...

  6. 斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱

    随着知识图谱在人工智能各个领域的广泛使用,知识图谱受到越来越多AI研究人员的关注和学习,已经成为人工智能迈向认知系统的关键技术之一.之前,斯坦福大学的面向计算机视觉的CS231n和面向自然语言处理的C ...

  7. 斯坦福大学CS520知识图谱系列课程学习笔记:第三讲高级的知识图谱是什么样的

    这一讲的主题是:一些高级的知识图谱是什么样的.三位讲者分别从他们各自带领的团队构建出来的高质量的知识图谱实例出发,从中我们可以认识到一些大佬们构建的优秀的知识图谱产品有哪些特点和优势,从中对我们自己构 ...

  8. 【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

    作者:CHEONG 公众号:AI机器学习与知识图谱 研究方向:自然语言处理与知识图谱 本文分享一篇动态知识图谱表示学习综述汇报ppt,分享10篇优秀论文,简单介绍其核心思想,完整汇报ppt获取请关注公 ...

  9. 文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)

    文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱(含pyltp安装使用教程) 1. 项目介绍 目标:输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织 ...

  10. mysql实现知识图谱_基于电影知识图谱的智能问答系统学习记录

    学习了"谓之小一"大佬的基于电影知识图谱的智能问答系统,做个记录.地址如下:https://github.com/weizhixiaoyi/DouBan-KGQA 一.知识图谱构建 ...

最新文章

  1. InputFormat到key-value生成流程,reduce写出数据流程
  2. FPGA之道(61)时空变换之时间换空间
  3. PAT题解-1118. Birds in Forest (25)-(并查集模板题)
  4. 【Kotlin】扩展函数 ( 扩展函数声明 | 调用方式 | 与成员函数优先级 | 接收者空值处理 )
  5. python- 基础 map方法
  6. git拉取项目以及提交项目
  7. 注意力机制(SE、Coordinate Attention、CBAM、ECA)、即插即用的模块整理
  8. javascript布尔值_JavaScript布尔值通过上法庭进行解释
  9. c# 如何调用非托管函数 (转)
  10. 用css实现文本不换行切超出限制时显示省略号(小tips)
  11. 达芬奇调色软件 18 for Mac
  12. photoshop下载教程
  13. mysql 经纬度 索引_转:mysql根据经纬度查找排序
  14. Excel 常用的九十九个技巧 Office 自学教程快速掌握办公技巧
  15. 23种设计模式用英语如何表达?
  16. KO02内部订单修改
  17. struts中文乱码解决方法详解
  18. Python 和 Java、PHP、C、C#、C++等其他语言的对比?
  19. 想加入程序员行列 初学编程选择Python怎么样
  20. ALTER TABLE 表结构变更

热门文章

  1. Linux使用信号量监控程序异常退出
  2. Jmeter中的Bean shell
  3. springMvc + websocket 实现点对点 聊天通信功能
  4. [猫扑贴贴论坛]2010暴强年终总结篇:有种美叫凤姐,有种帅哥叫犀利哥
  5. ThinkPHP实现文章上一篇和下一篇
  6. java foreach 赋值_java foreach 使用
  7. 济安横断面为什么会有水印_PS差值模式是如何去水印的?你看的懂抖音的沙雕做法?...
  8. mongodb 3.4 安装_【云服务器Centos7.x建站】MongoDB 3.4安装、使用、错误总结
  9. c string erase_威刚推出SE770G移动固态硬盘:提供两年质保 附送双头USB-C
  10. java 数据流 中文_【Java I/O流】File、字符集、字节流、字符流、缓冲流、数据流、对象流、序列化、try-wi...