基本信息

先放出论文: TextRank论文 以及 PageRank论文

TextRankRada MihalceaPaul Tarau 基于谷歌的排序方法 PageRank 所提出。其中主要思想与PageRank相似,在文本中,使用词、短语、句子等基本元素(文中的 text unit)来作为图的 顶点(文中的vertices),使用这些元素的关系来作为(edge)的构造条件,将一篇文章构成一个(Graph),从而根据图中的各个顶点和各个边来研究基本元素之间的关系。

无向图(Undirected Graphs)

文中说传统的图算法一般都是有向图,但是在实际运用中也可以使用无向图,并给出了图1Figure1),说明无向图相比来说收敛得更快。

图1 收敛曲线图

加权图(Weighted Graphs)

因为在网页浏览中,一般一篇文章没有几个链接去指向其他的链接,所以一般不使用加权图。但是在文本之间,各个基本元素之间,可能会存在不同词之间建立强联系,所以可以使用加权图来构建。定义权重的计算公式为:
WS(Vi)=(1−d)+d×∑Vj∈In(Vi)wji∑Vk∈Out(Vj)wjkWS(Vj)WS(V_i)=(1-d)+d \times \sum_{V_j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)}w_{jk}} WS(V_j) WS(Vi​)=(1−d)+d×Vj​∈In(Vi​)∑​∑Vk​∈Out(Vj​)​wjk​wji​​WS(Vj​)
其中 ddd 表示阻尼系数,代表一个结点随机跳转到另一个结点的概率,在0~1之间,通常为0.85;

用图表示文本

可选的基本元素有很多,都可以作为顶点,如:词,常见的短语搭配,句子之类的;同时可以作为边的元素也很多,比如:词之间的情感关联,语义交叉等。不考虑以上的顶点和边,构建一个图来表示文本的基本思路如下:

  1. 根据手上的数据集,要解决的问题,来定义使用什么元素(text units)来作为图的顶点,将顶点全部放到图中去。
  2. 定义一种方式来连接顶点的边,可以是有向的,也可以是无向的,可以是加权的,也可以是不加权的。
  3. 迭代基于图的排序算法,直至收敛。
  4. 提取出得到的关键元素,然后就可以用了!

其中第一步主要是根据任务和数据,选出合适的表示元素;第二步主要是建立一个评估方法,评判怎么来构建两个基本元素的关系,从而来建立这条边。

具体内容

顶点和边

文中说选取词作为图的顶点,然后使用滑动窗口,在滑动窗口内找出共现的词(co-occurrence)作为边的构造条件。

过滤文本

使用一个句法过滤器,根据具体的需求过滤一些没用的基本元素。如去停用词,去形容词,去名词等。

以句子作为顶点

在以句子作为顶点的时候,边的确立不能再用共现关系了,因为基本句子之间不可能共现了,文中说使用句子之间的相关性来建立顶点之间的边。

TextRank论文阅读相关推荐

  1. 论文阅读工具ReadPaper

    对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...

  2. 多目标跟踪:CVPR2019论文阅读

    多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...

  3. 快速人体姿态估计:CVPR2019论文阅读

    快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...

  4. Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读

    Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

  5. 深度学习点云语义分割:CVPR2019论文阅读

    深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...

  6. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  7. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  8. 目标检测——Faster R-CNN论文阅读

    论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录 论文阅读--Faste ...

  9. 【独家】深度学习论文阅读路线图

    如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节 从经典到 ...

最新文章

  1. TensorFlow人工智能引擎入门教程之二 CNN卷积神经网络的基本定义理解。
  2. shell脚本--字符串处理和动态数组
  3. 获取表单内部元素的N种方法
  4. 实验一  简单词法分析程序设计
  5. 多媒体技术复习汇总 收藏
  6. php 年月日 中文,php Date()函数输出中文年月日时分秒_PHP教程
  7. akoj-1153-p次方求和
  8. windows10中屏幕键盘 vs 触摸键盘
  9. c语言单向链表经典,C语言基础 - 实现单向链表
  10. 理财产品收益可以保证吗?
  11. centos 7安装搭建confluence-wiki
  12. 百度同步盘无法登陆,报错155010,对策
  13. android官方升级包下载安装,安卓7.0正式版安装包下载
  14. JasperReport生成pdf文件 Java开发pdf文件 pdf文件生成及下载
  15. Android系统分析——Bootloader(Lk)
  16. 杭州封杀嘀嘀、快的打车的加价功能
  17. 做到这些让你逃离奴隶的束缚
  18. 图像超分算法SRLUT: Practical Single-Image Super-Resolution Using Look-Up Table图像超分辨率重建
  19. 存储行业市场现状与展望
  20. c#中的vector_.NET Core 3 中的性能提升

热门文章

  1. c语言中staloc是什么意思,C语言函数调用栈(三)
  2. Maven安装和依赖管理详解
  3. 4G和LTE有什么不一样
  4. Redis缓存刷新配置化
  5. 2020Android 高级面试题总结(附答案解析)
  6. Java中构造方法的详细介绍
  7. PS 证件照换底色,调节发丝颜色
  8. 【git分支及处理冲突的方法】
  9. 【TARS】理解RegistryServer
  10. 三星Note8海外销量创纪录 国内销量有望“十一”期间爆发