文本图Tranformer在文本分类中的应用
©原创作者 | 苏菲
论文来源:
https://aclanthology.org/2020.emnlp-main.668/
论文题目:
Text Graph Transformer for Document Classification (文本图Tranformer在文本分类中的应用)
论文作者:
Haopeng Zhang Jiawei Zhang
01 引言
文本分类是自然语言处理中的基本任务之一,而图神经网络(GNN)技术可以描述词语、文本以及语料库,最近研究者将GNN应用到抓取语料库中单词全局共现关系中。但此前的图神经网络引用存在不能扩展到大型语料库、且忽略文本图异质性的缺陷。
在此背景下,本文作者引入了一个基于异质性图神经网络的新Transformer方法(文本图Transformer,或者TG-Transformer)。
深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)已经被用于文本特征的学习中,取代了一些传统的特征生成(如n元语法特征、词袋特征)。
最近,一些学者又把图神经网络(GNN)用于文本分类的研究中,但论文作者指出了其中的一些缺陷,并提出使用文本图Transformer,一个异质性的图神经网络用于文本分类问题。而且这是一种可扩展的基于图的方法。
02 方法论
作者首先用图表示一个已知语料库的异质性文本图,然后引入文本图的采样方法(Sampling)从文本图中生成小批量子图。这些小批量子图可以送入TG-Transformer中,用于学习文本分类的有效节点特征,总体框架如图1所示。
图1 TG-Tranformer的总体框架
(1)建立文本图(Text Graph)
为了获得语料库中词语的全局共现,论文作者建立了一个异质性文本图G(异质图比同质图更贴近于现实世界),G =(U; V; E;F)。 所谓异质性就是图中不只包含一种类型的节点或边(nodes or edges)。
在G中建立了两种类型的节点,一种是文本节点(U),代表语料库中的所有文档;另一种是词语节点(V),代表语料库词汇表中的所有词语。一种是词语节点(U),代表语料库词汇表中的所有词语;另一种是文档节点(V),代表语料库中的所有文档。
文本图中也包含了两种类型的边:一种是词语-文档边,用大写E来表示;另一种是词语-词语边,用大写字母F来表示。词语-文档边的权重由TF-IDF方法来计算得到。而词语-词语边的权重通过计算点间互信息(point-wise mutual information)得到,该互信息基于在语料库中滑动窗口的局部词语共现来获得。点间互信息的计算公式如下:
文本图Tranformer在文本分类中的应用相关推荐
- 公开课报名 | 那些年,我们在文本分类中遇到的坑
文本分类问题是企业在 NLP 领域中处理文本数据时经常会遇到的一个问题,很多时候,我们需要将文本信息进行分类,或提相关的接口以供外部进行文本上传,在针对于用户所上传的文档信息就需要进行文档内容的分类, ...
- label-embedding在文本分类中的应用
©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|QA 最近在做文本分类相关的工作,目标是想提高分类器泛化新样本的能力,当有新样本产生的时候能够不需要重新训练分类器.所以 ...
- FastText文本分类中的n-grams
FastText文本分类中的n-grams FastText FastText模型结构 FastText n-grams n-grams如何计算 FastText FastText是facebook ...
- 文本分类中的文本特征表示
Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分.目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站.之前知乎针对该问题在著名的 ...
- EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 黄毅 作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...
- 【自然语言处理】词袋模型在文本分类中的用法
词袋模型在文本分类中的用法 1.加载数据 20 Newsgroups:数据被组织成 20 个不同的新闻组,每个新闻组对应一个不同的主题.一些新闻组彼此非常密切相关(例如 comp.sys.ibm.pc ...
- paddle2.0高层API实现自定义数据集文本分类中的情感分析任务
paddle2.0高层API实现自定义数据集文本分类中的情感分析任务 本文包含了: - 自定义文本分类数据集继承 - 文本分类数据处理 - 循环神经网络RNN, LSTM - ·seq2vec· - ...
- 文本分类模型_文本分类中的经典深度学习模型
众所周知,文本分类是NLP领域中十分基础的任务,大部分文本分类模型稍加修改就可以应用到其他任务中.下面介绍几个经典的文本分类模型. 图中被引数来源google学术(2019/5/16) 1. text ...
- 干货 | 深度学习在文本分类中的应用
作者:llhthinker 个人博客:http://www.cnblogs.com/llhthinker/ 1文本分类任务介绍 文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子.文档等 ...
- 知否?知否?一文看懂深度文本分类之DPCNN原理与代码
[导读]ACL2017年中,腾讯AI-lab提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN).论 ...
最新文章
- 基于PaddlePaddle的机器翻译教程 | 深度学习基础任务系列
- Laravel5.5的异常捕获和处理
- python脚本怎么使用_如何使用Python脚本
- java 打印当月日历_Java打印日历表
- java 加载jar_java手动加载jar
- P2056 [ZJOI2007]捉迷藏
- apache用户名和密码验证
- 可作为工质状态参数的是_制冷工质的热力状态参数都有哪些?
- ABAQUS用户子程序一览表
- LeetCode 302. 包含全部黑色像素的最小矩形(BFS)
- 神奇的linux发行版 tiny core linux
- Hive 之collect_list/collect_set(列转行)
- 基于java+SpringBoot+HTML+Mysq幼儿园日常管理系统
- 【word】如何在word宏里面写vb代码选中所有表格
- CruiseControl配置详解
- Android Studio中ListView通过自定义Adapter显示数据3-1
- php 获取当前 周,php如何获取当前时间是第几周
- (附源码)小程序校园拼车微信小程序 毕业设计 091617
- matlab矩阵求逆的模块,matlab矩阵求逆矩阵
- 接上篇手工课 材料:美女图片一张, 要求将其制成 边旋转边渐隐的魔幻图片