GCN 的的兴起为许多NLP问题的解决提供了新的思路。通过句法依赖树构建图结构,基于此通过GCN进行NLP问题的解决已经得到了广泛应用。那么除此之外,还有哪些方法可以用于在文本中建立图结构从而使用GCN呢?

小编整理了如下几篇,分别是通过TF-IDFPMI序列关系词典 等信息进行构图的顶会论文,希望能够拓展对GCN的应用思路( ఠൠఠ )ノ

AAAI2019: Graph Convolutional Networks for Text Classification

  • 论文地址: https://github.com/kuoluo1995/text-classification

本文通过GCN进行文本分类,将 words 和 documents 作为构图中的节点,通过word在document中的TF-IDF值构建 word-document edge, 通过PMI计算word-word edge的权重。

  • PMI计算:

其中, # W \#W #W 表示所有划动窗口的数量, # W ( i ) \# W(i) #W(i) 表示所有含有 w o r d i word _i wordi​ 划动窗口的数量, # W ( i , j ) \# W(i,j) #W(i,j) 表示同时含有 w o r d i word _i wordi​ 和 w o r d j word _j wordj​ 两个词窗口的数量。其中, PMI值为正,说明语义相关性较高,为负,则说明语义相关性较少甚至没有。

  • 总体来说,本文构图方法如下:

EMNLP2018: Text Level Graph Neural Network for Text Classification

  • 论文链接: https://www.aclweb.org/anthology/D19-1345/

  • 节点: 将文本中所有的 words作为图中的节点

  • 边: 在相邻的words之间构建一条边

AAAI2020: Tensor Graph Convolutional Networks for Text Classification

  • 论文链接:https://arxiv.org/abs/2001.05313

本文构建了三种图进行建模(不考虑virtual graph),图中的节点由wordsdocuments组成,并通过TF-IDF值构建 word 与 document 之间的边;对于word-word edge,不同的图中有不同的构建方法:

  • Semantic-based graph: 通过LSTM得到每个word的表示,通过余弦相似性计算两个word间的语义相似性,如果语义相似性达到一定的阈值,则认为两words之间存在语义关系;对于存在语义关系的words, 将通过如下方法计算他们之间的边权值:

  • Syntactic-based graph: 根据句法依赖解析关系构建words之间的边,并通过如下方式计算边权重:
  • Sequential-based Graph: 序列上下文信息描述了词语之间的共现信息,序列图中边权重通过PMI来计算:

EMNLP2019: A Lexicon-Based Graph Neural Network for Chinese NER

  • 论文链接: https://www.aclweb.org/anthology/D19-1396.pdf

  • 每个句子被转化为一个有向图

  • 每个字符被作为图中的一个节点, 在每个lexicon word的第一个和最后一个字符间构建一条边, 每条边代表了潜在的可能存在词语(即lexicon word)的特征

  • 构建一个全局的中继节点,它与图中的每个边和点都相连, 用来汇聚所有边和点的信息,从而消除词语之间的边界模糊;

  • 由于全局中继节点的存在,图中任意两个不邻接的节点之间都是彼此的二阶邻居,可以通过两次节点更新来接收彼此的非局部的信息;

  • 另外,对以上的图结构进行转置得到一个所有边都反向后的反向图,将反向图与原图中得到的字符表示进行拼接,作为最终的字符表示;

EMNLP2019: Leverage Lexical Knowledge for Chinese NER via Collaborative Graph Network

  • 论文地址: https://www.aclweb.org/anthology/D19-1396.pdf

本文构建了如下三种图:

  • Containing-Graph(C-Graph):

    • 目的: 辅助字符去捕捉对应self-matched lexicon word的语义信息和边界信息
    • 点集: 句子中的字符和 lexicon words
    • 构图如下:
  • Transition-Graph(T-Graph)

    • 目的: 捕捉字符最近上下文的语义信息
    • 点集: 句子中的字符和 lexicon words
    • 构图如下: 建立 lexicon words 与 字符 间 和 lexion words间 的转移关系图
  • Lattice-Graph(L-Graph)

    • 目的: 融合 lexicon knolwedge, 且将 Lattice 的 LSTM 结构转变为了图结构;
    • 点集: 句子中的字符和 lexicon words
    • 构图如下:

ACL2019: A Neural Multi-digraph Model for Chinese NER with Gazetteers

  • 论文地址: https://www.aclweb.org/anthology/P19-1141.pdf

本文提出,希望通过Gazetteer信息提高NER的性能,因此设计了一种多维图来完成NER任务。这里介绍一下作者的构图方法,具体多维图的设计可参考论文中~

  • 构图方法:

    • 节点: 预料中的每个字符作为一个节点;同时,根据 gazetteer 提供的 entity type 信息,引入标识类型的节点, 例如 P E R 1 , P E R 2 , L O C 1 , L O C 2 PER^1, PER^2,LOC^1,LOC^2 PER1,PER2,LOC1,LOC2
    • 构图: 首先,相邻的字符间构建一条有向边; 然后,根据 entity 所匹配的实体,在节点类型点与对应entity的起始字符节点和结尾字符节点间建立连边。例如,根据gazetteers认为由字符 c 1 , c 2 c_1,c_2 c1​,c2​组成的 张三一词是PER2类型的实体,则构建如下边: ( v c 1 , v c 2 ) (v_{c_1},v_{c_2}) (vc1​​,vc2​​), ( v s P E R 2 , v c 1 ) (v_{s}^{PER2},v_{c_1}) (vsPER2​,vc1​​), ( v c 2 , v e P E R 2 ) (v_{c_2},v_{e}^{PER2}) (vc2​​,vePER2​), 其中 ( v s P E R 2 ) (v_{s}^{PER2}) (vsPER2​)和 ( v e P E R 2 ) (v_{e}^{PER2}) (vePER2​) 是表示 P E R 2 PER2 PER2 起始和终止的节点。

如有遗漏与错误,还请多多交流(●’◡’●)

了解更多深度学习相关知识与信息,请关注公众号深度学习的知识小屋

在NLP中应用GCN的几种构图方法整理相关推荐

  1. GCN】在NLP中应用GCN的几种构图方法整理

    GCN]在NLP中应用GCN的几种构图方法整理:https://blog.csdn.net/qq_27590277/article/details/106264292

  2. 【GCN】在NLP中应用GCN的几种构图方法整理

    作者:Carrie GCN 的兴起为许多NLP问题的解决提供了新的思路.通过句法依赖树构建图结构,基于此通过GCN进行NLP问题的解决已经得到了广泛应用.那么除此之外,还有哪些方法可以用于在文本中建立 ...

  3. HTML5中aside标签的两种使用方法

    aside元素在网站制作中主要有以下两种使用方法 1)被包含在article元素中作为主要内容的附属信息部分,其中的内容可以是与当前文章有关的相关资料.名次解释,等等. <article> ...

  4. JAVA中线程同步的几种实现方法

    JAVA中线程同步的几种实现方法 一.synchronized同步的方法: 1.synchronized同步方法 即有synchronized关键字修饰的方法. 由于java的每个对象都有一个内置锁, ...

  5. Word中繁体艺术字的两种制作方法(转)

    Word中繁体艺术字的两种制作方法(转) Word里的艺术字是大家平时常用的一项功能,但有时我们可能需要制作一些繁体艺术字,而这个看似简单的要求,实现起来却不是那么容易,因为Word里的繁简转换功能对 ...

  6. c语言中将十六进制数转换为十进制数程序,C语言中十六进制转十进制两种实现方法...

    C语言中十六进制转十进制两种实现方法 C语言 · 十六进制转十进制 问题描述 从键盘输入一个不超过8位的正的十六进制数字符串,将它转换为正的十进制数后输出. 注:十六进制数中的10~15分别用大写的英 ...

  7. 产品设计中多见的四种倒角方法

    在工业设计中,对产品外观设计特别是关键点的把握,基本上离不开一个专业术语--倒角.无论是手绘画外观设计或是三维外观,都需要把握倒角的应用. 1.倒角定义 在机械设备制造中,倒角就是指将铸件的边角切割成 ...

  8. 图形编程中,旋转的三种表示方法

    图形编程中,旋转的三种表示方法分别是:矩阵.欧拉角和四元数. 本文总结这三种表示方法的特点: 性质 矩阵 欧拉角 四元数 在坐标系间转换 能 不能 不能 连续或增量旋转 能,但是转换速度慢 不能 能, ...

  9. 游戏二次元场景插画教程,常见的6种构图方法分享

    今天小编分享一个原画人二次元场景插画教程,这个教程是由原画人JW老师主讲的.主要分享常见的6种构图方法. 简单介绍一下 原画人JW老师,从业3年,现在是自由插画师兼独立游戏制作担任游戏主美.擅长意境的 ...

最新文章

  1. 获取当前的系统时间 年-月-日 小时-分钟-秒
  2. linux常用指令_Linux系统常用指令总结
  3. python dlib学习(三):调用cnn人脸检测
  4. java学习(32):巩固练习
  5. Introduction to Computer Networking学习笔记(七):ICMP协议
  6. JSP(6)简单购物车实现
  7. ubuntu(乌班图)常用命令大全
  8. 四阶龙格库塔法的计算例子
  9. 原生Java萝卜影视4.0.5源码/完美修复完整版萝卜影视源码
  10. 三维建模的基础知识:SolidWorks /CATIA 简介
  11. (ICPR-2021)使用胶囊的多尺度部分表示变换的步态识别
  12. 电脑显示屏字体发虚、重影、部分清晰部分不清晰解决办法
  13. phpMyAdmin安装配置教程
  14. IDEA中使用快捷键快速定位到报错位置
  15. mysql 安装与连接数据库_Mysql 安装、登录以及链接数据库
  16. 移动端APP热更新方案(iOS+Android)
  17. 美国姑娘项美丽与邵洵美的跨国恋
  18. 兔子与狐狸c语言,【狐狸和兔子的故事】_ 狐狸和兔子故事_亲亲宝贝网
  19. 苹果页面设计规范吐血整理
  20. postgresql 开启大页_Postgresql-11.X 性能优化详解

热门文章

  1. PWN-canary学习
  2. 打印提土旁,专用字符编辑程序打印冷门字,提土旁等
  3. 阿里云开发者大会,For Every Developer
  4. 通信原理实验之调频【100010372】
  5. 23种设计模式-代理模式《中介公司》
  6. 域控制器——座舱域控制器
  7. 苹果安全漏洞曝光:可能有 5 亿部 iPhone 易受攻击
  8. 第一节 树莓派开发准备工作
  9. JPA 自定义返回字段
  10. mybatis 中的条件转义字符处理