TextRank论文阅读
基本信息
先放出论文: TextRank论文 以及 PageRank论文
TextRank
由 Rada Mihalcea
和 Paul Tarau
基于谷歌的排序方法 PageRank
所提出。其中主要思想与PageRank
相似,在文本中,使用词、短语、句子
等基本元素(文中的 text unit
)来作为图的 顶点
(文中的vertices
),使用这些元素的关系来作为边
(edge
)的构造条件,将一篇文章构成一个图
(Graph
),从而根据图中的各个顶点和各个边来研究基本元素之间的关系。
无向图(Undirected Graphs)
文中说传统的图算法一般都是有向图,但是在实际运用中也可以使用无向图,并给出了图1
(Figure1
),说明无向图相比来说收敛得更快。
图1 收敛曲线图
加权图(Weighted Graphs)
因为在网页浏览中,一般一篇文章没有几个链接去指向其他的链接,所以一般不使用加权图。但是在文本之间,各个基本元素之间,可能会存在不同词之间建立强联系,所以可以使用加权图来构建。定义权重的计算公式为:
WS(Vi)=(1−d)+d×∑Vj∈In(Vi)wji∑Vk∈Out(Vj)wjkWS(Vj)WS(V_i)=(1-d)+d \times \sum_{V_j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)}w_{jk}} WS(V_j) WS(Vi)=(1−d)+d×Vj∈In(Vi)∑∑Vk∈Out(Vj)wjkwjiWS(Vj)
其中 ddd 表示阻尼系数,代表一个结点随机跳转到另一个结点的概率,在0~1之间,通常为0.85;
用图表示文本
可选的基本元素有很多,都可以作为顶点,如:词,常见的短语搭配,句子之类的
;同时可以作为边的元素也很多,比如:词之间的情感关联,语义交叉等
。不考虑以上的顶点和边,构建一个图来表示文本的基本思路如下:
- 根据手上的数据集,要解决的问题,来定义使用什么元素(
text units
)来作为图的顶点,将顶点全部放到图中去。 - 定义一种方式来连接顶点的边,可以是有向的,也可以是无向的,可以是加权的,也可以是不加权的。
- 迭代基于图的排序算法,直至收敛。
- 提取出得到的关键元素,然后就可以用了!
其中第一步主要是根据任务和数据,选出合适的表示元素;第二步主要是建立一个评估方法,评判怎么来构建两个基本元素的关系,从而来建立这条边。
具体内容
顶点和边
文中说选取词作为图的顶点,然后使用滑动窗口,在滑动窗口内找出共现的词(co-occurrence)作为边的构造条件。
过滤文本
使用一个句法过滤器,根据具体的需求过滤一些没用的基本元素。如去停用词,去形容词,去名词等。
以句子作为顶点
在以句子作为顶点的时候,边的确立不能再用共现关系了,因为基本句子之间不可能共现了,文中说使用句子之间的相关性来建立顶点之间的边。
TextRank论文阅读相关推荐
- 论文阅读工具ReadPaper
对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...
- 多目标跟踪:CVPR2019论文阅读
多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...
- 快速人体姿态估计:CVPR2019论文阅读
快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...
- Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...
- 深度学习点云语义分割:CVPR2019论文阅读
深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...
- 3D目标检测论文阅读多角度解析
3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...
- 3D目标检测论文阅读摘要
3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...
- 目标检测——Faster R-CNN论文阅读
论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录 论文阅读--Faste ...
- 【独家】深度学习论文阅读路线图
如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节 从经典到 ...
最新文章
- TensorFlow人工智能引擎入门教程之二 CNN卷积神经网络的基本定义理解。
- shell脚本--字符串处理和动态数组
- 获取表单内部元素的N种方法
- 实验一 简单词法分析程序设计
- 多媒体技术复习汇总 收藏
- php 年月日 中文,php Date()函数输出中文年月日时分秒_PHP教程
- akoj-1153-p次方求和
- windows10中屏幕键盘 vs 触摸键盘
- c语言单向链表经典,C语言基础 - 实现单向链表
- 理财产品收益可以保证吗?
- centos 7安装搭建confluence-wiki
- 百度同步盘无法登陆,报错155010,对策
- android官方升级包下载安装,安卓7.0正式版安装包下载
- JasperReport生成pdf文件 Java开发pdf文件 pdf文件生成及下载
- Android系统分析——Bootloader(Lk)
- 杭州封杀嘀嘀、快的打车的加价功能
- 做到这些让你逃离奴隶的束缚
- 图像超分算法SRLUT: Practical Single-Image Super-Resolution Using Look-Up Table图像超分辨率重建
- 存储行业市场现状与展望
- c#中的vector_.NET Core 3 中的性能提升