©原创作者 | 苏菲

论文来源:

https://aclanthology.org/2020.emnlp-main.668/

论文题目:

Text Graph Transformer for Document Classification (文本图Tranformer在文本分类中的应用)

论文作者:

Haopeng Zhang Jiawei Zhang

01 引言

文本分类是自然语言处理中的基本任务之一,而图神经网络(GNN)技术可以描述词语、文本以及语料库,最近研究者将GNN应用到抓取语料库中单词全局共现关系中。但此前的图神经网络引用存在不能扩展到大型语料库、且忽略文本图异质性的缺陷。

在此背景下,本文作者引入了一个基于异质性图神经网络的新Transformer方法(文本图Transformer,或者TG-Transformer)。

深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)已经被用于文本特征的学习中,取代了一些传统的特征生成(如n元语法特征、词袋特征)。

最近,一些学者又把图神经网络(GNN)用于文本分类的研究中,但论文作者指出了其中的一些缺陷,并提出使用文本图Transformer,一个异质性的图神经网络用于文本分类问题。而且这是一种可扩展的基于图的方法。

02 方法论

作者首先用图表示一个已知语料库的异质性文本图,然后引入文本图的采样方法(Sampling)从文本图中生成小批量子图。这些小批量子图可以送入TG-Transformer中,用于学习文本分类的有效节点特征,总体框架如图1所示。

图1 TG-Tranformer的总体框架

(1)建立文本图(Text Graph)

为了获得语料库中词语的全局共现,论文作者建立了一个异质性文本图G(异质图比同质图更贴近于现实世界),G =(U; V; E;F)。 所谓异质性就是图中不只包含一种类型的节点或边(nodes or edges)。

在G中建立了两种类型的节点,一种是文本节点(U),代表语料库中的所有文档;另一种是词语节点(V),代表语料库词汇表中的所有词语。一种是词语节点(U),代表语料库词汇表中的所有词语;另一种是文档节点(V),代表语料库中的所有文档。

文本图中也包含了两种类型的边:一种是词语-文档边,用大写E来表示;另一种是词语-词语边,用大写字母F来表示。词语-文档边的权重由TF-IDF方法来计算得到。而词语-词语边的权重通过计算点间互信息(point-wise mutual information)得到,该互信息基于在语料库中滑动窗口的局部词语共现来获得。点间互信息的计算公式如下:

文本图Tranformer在文本分类中的应用相关推荐

  1. 公开课报名 | 那些年,我们在文本分类中遇到的坑

    文本分类问题是企业在 NLP 领域中处理文本数据时经常会遇到的一个问题,很多时候,我们需要将文本信息进行分类,或提相关的接口以供外部进行文本上传,在针对于用户所上传的文档信息就需要进行文档内容的分类, ...

  2. label-embedding在文本分类中的应用

    ©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|QA 最近在做文本分类相关的工作,目标是想提高分类器泛化新样本的能力,当有新样本产生的时候能够不需要重新训练分类器.所以 ...

  3. FastText文本分类中的n-grams

    FastText文本分类中的n-grams FastText FastText模型结构 FastText n-grams n-grams如何计算 FastText FastText是facebook ...

  4. 文本分类中的文本特征表示

    Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分.目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站.之前知乎针对该问题在著名的 ...

  5. EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 黄毅 作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...

  6. 【自然语言处理】词袋模型在文本分类中的用法

    词袋模型在文本分类中的用法 1.加载数据 20 Newsgroups:数据被组织成 20 个不同的新闻组,每个新闻组对应一个不同的主题.一些新闻组彼此非常密切相关(例如 comp.sys.ibm.pc ...

  7. paddle2.0高层API实现自定义数据集文本分类中的情感分析任务

    paddle2.0高层API实现自定义数据集文本分类中的情感分析任务 本文包含了: - 自定义文本分类数据集继承 - 文本分类数据处理 - 循环神经网络RNN, LSTM - ·seq2vec· - ...

  8. 文本分类模型_文本分类中的经典深度学习模型

    众所周知,文本分类是NLP领域中十分基础的任务,大部分文本分类模型稍加修改就可以应用到其他任务中.下面介绍几个经典的文本分类模型. 图中被引数来源google学术(2019/5/16) 1. text ...

  9. 干货 | 深度学习在文本分类中的应用

    作者:llhthinker 个人博客:http://www.cnblogs.com/llhthinker/ 1文本分类任务介绍 文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子.文档等 ...

  10. 知否?知否?一文看懂深度文本分类之DPCNN原理与代码

    [导读]ACL2017年中,腾讯AI-lab提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN).论 ...

最新文章

  1. 基于PaddlePaddle的机器翻译教程 | 深度学习基础任务系列
  2. Laravel5.5的异常捕获和处理
  3. python脚本怎么使用_如何使用Python脚本
  4. java 打印当月日历_Java打印日历表
  5. java 加载jar_java手动加载jar
  6. P2056 [ZJOI2007]捉迷藏
  7. apache用户名和密码验证
  8. 可作为工质状态参数的是_制冷工质的热力状态参数都有哪些?
  9. ABAQUS用户子程序一览表
  10. LeetCode 302. 包含全部黑色像素的最小矩形(BFS)
  11. 神奇的linux发行版 tiny core linux
  12. Hive 之collect_list/collect_set(列转行)
  13. 基于java+SpringBoot+HTML+Mysq幼儿园日常管理系统
  14. 【word】如何在word宏里面写vb代码选中所有表格
  15. CruiseControl配置详解
  16. Android Studio中ListView通过自定义Adapter显示数据3-1
  17. php 获取当前 周,php如何获取当前时间是第几周
  18. (附源码)小程序校园拼车微信小程序 毕业设计 091617
  19. matlab矩阵求逆的模块,matlab矩阵求逆矩阵
  20. 接上篇手工课 材料:美女图片一张, 要求将其制成 边旋转边渐隐的魔幻图片

热门文章

  1. 20个邮件营销技巧?
  2. 微软演示投影触控互动 可识别立体空间
  3. Data whale AI夏令营(第三期)笔记-part1
  4. 9.2、系统移植 -- BootLoader
  5. php 借阅,PHP开发简单图书借阅系统完整还书功能实现代码
  6. python(十)与java的异
  7. 【动画图解】这个值取对了,ViewPager2才能纵享丝滑
  8. 一个字形容大数据_形容数据的-描写大数据的文章
  9. 【无标题】支持基于IPV6VLAN划分的工业级交换机
  10. 【floyed】导游的魔棒