补充关键词抽取：RAKE，LDA等

之前的《关键词抽取——结巴分词》一文仅仅利用了jiaba中的tfidf 与 textrank 进行关键词抽取，最近对以英文为主的新闻评论进行关键词提取时，这两种方法各有各的差：tfidf因为算法的限制，提取到的关键词不是很让人满意；jieba里面的textrank输出的是只针对中文语料的结果，对纯英文输入返回空值，根据源码猜测原因，可能是在处理时加入分词，将英文过滤掉了？（有待考究）。因此重新对“关键词提取”进行了有关论文的阅读，Python中新的模块——rake的应用以及主题模型的尝试。

一、理论梳理

文档的关键词集合应该具备完备性、确定性、独立性，即关键词的全体能够覆盖文档的主题信息，每个关键词应能表达准确的额意义，同时关键词间应具有一定的差异性。

（参考自基于文档主题结构的关键词抽取方法研究）

利用文档内部信息或外部信息进行关键词抽取的方式：

基于文档内部信息，利用文档的词聚类算法构建文档主题，进行关键词抽取。该方法仅利用文档内部信息，通过度量文档中词与词之间的相似度，利用聚类的方法构建文档主题，并根据不同主题在文档中的重要性进行关键词抽取。
基于文档外部结构，利用隐含主题模型构建文档主题，进行关键词抽取。针对基于文档内部信息通过聚类算法进行关键词抽取受限于文档主题提供信息不足的缺点，利用隐含主题模型构建文档主题，进行关键词抽取。
综合利用隐含主题模型和文档结构信息进行关键词抽取。

基于词聚类的关键词抽取主要包括以下步骤：

候选词选取。首先，需要将停用词去掉，为关键词抽取选取合适的候选词。
计算候选词之间的语义相似度。
根据语义相似度对候选词进行聚类。
选取每个聚类中心词，在文档中选取合适的关键词。

具体方式举例：

TFIDF根据每个词在文档中的TFIDF值来计算其重要性；
TexkRank基于图的方法；

LDA则是根据文档和单词的主题分布相似度来计算单词的重要性。

无监督的抽取方法又可细化为：

基于统计：统计词频，位置等信息，计算句子权值，选取权值高的句子作为文摘
基于图模型：构建拓扑结构图，textrank、lexrank
基于潜在语义：使用主题模型，挖掘词句隐藏信息
基于整数规划：将文摘问题转为整数规划问题，求全局最优解

微博关键词抽取流程由以下几步组成：

根据输入查询通过新浪API获取微博集合；
利用中文分词系统对微博进行分词；
利用微博权重分析系统和单词权重分析系统计算微博中每个词的权重；
采用第5章的方法，利用翻译概率模型产生微博集合的关键词列表；
利用可视化系统将关键词列表进行可视化，并输出为关键词可视化图片呈现给用户。

二、RAKE

Python实现：Github: python-rake

NLP keyword extraction tutorial with RAKE and Maui

论文Automatic Keyword Extraction from Individual Documents

其中介绍了RAKE在准确率和效率方面均优于textrank

import RAKEresult =''' '''
Rake = RAKE.Rake(RAKE.SmartStopList())
keywords = Rake.run(result)
print(keywords)

结果比较惊艳，主要以短语的输出为主。

三、基于隐含主题模型构建主题的方法

LDA:Latent Dirichlet allocation

一种基于LDA模型的关键词抽取方法

四、其他

基于HMM的加权Textrank单文档的关键词抽取算法

补充关键词抽取：RAKE，LDA等相关推荐

【NLP基础】英文关键词抽取RAKE算法
每天给你送来NLP技术干货! 来自:ChallengeHub 1 RAKE简介 RAKE英文全称为Rapid Automatic keyword extraction,中文称为快速自动关键字提取,是一 ...
开箱即用！中文关键词抽取（Keyphrase Extraction），基于LDA与PageRank（TextRank， TPR， Salience Rank， Single TPR）
Keyphrase Extraction Algorithm 项目地址:https://github.com/JackHCC/Chinese-Keyphrase-Extraction 无监督学习:中文 ...
快速上手关键词抽取的算法
前言在自然语言处理领域,我们有一种类型的问题是如何在一堆文本中提取出核心词/句子.而无论是对于长文本还是短文本,往往几个关键词就可以代表整个文本的主题思想.同时,在很多推荐系统中,由于无法直接就整体 ...
简单NLP分析套路（2）----分词，词频，命名实体识别与关键词抽取
文章大纲中文分词技术评测参考云服务哈工大语言云 ltp 基于深度学习方法的中文分词一个领域细分的中文分词工具包(北大最新开源) 信息检索与关键词提取 TF-IDF TEXTRANK word ...
NLP_learning 中文基本任务与处理（分词、停用词、词性标注、语句依存分析、关键词抽取、命名实体识别）介绍、jieba工具库
文章目录 1.分词 2.停用词和N-gram 停用词 N-gram 3. 更多任务(词性标注.依赖分析.NER.关键词抽取) 词性标注句法依存分析命名实体识别关键词抽取 4. jieba工具库使 ...
乱炖“简书交友”数据之代码（2）：关键词抽取、Word2Vec词向量
继续更新出来本系列的代码:乱炖数据之2700余篇"简书交友"专题文章数据的花式玩法在乱炖"简书交友"数据之代码(1)一文里,主要涉及结构化数据的分析,文本挖掘 ...
自然语言处理实战项目2-文本关键词抽取和关键词分值评估
大家好,我是微学AI,今天给大家带来自然语言处理实战项目2-文本关键词抽取和关键词分值评估.关键词抽取是自然语言处理中的重要任务,也是基础任务. 一.关键词抽取传统方法 1.基于统计的方法: 基于统计 ...
全网最全的文本关键词抽取包括有监督和无监督方法
GitHub代码链接:https://github.com/Tony0726/Keyword-Extraction.git 数据集:https://github.com/yuewang-cuhk/TA ...
【NLP】python中英文关键词抽取技术总结
[NLP]python中英文关键词抽取技术总结无论是在中文还是英文中关键词抽取技术都是有着很重要的应用价值和分析价值,下面在python环境中分别针对中文和英文介绍几种常用的关键词抽取方法. 1. ...

补充关键词抽取：RAKE，LDA等

补充关键词抽取：RAKE，LDA等相关推荐

最新文章

热门文章