最近研究关键字提取技术(毕设需要)。语料集是英文。推荐一些相关工具。

开源工具:
RAKE(https://github.com/zelandiya/RAKE-tutorial)
KEA(http://www.nzdl.org/Kea/) 监督式机器学习,使用训练数据和受控词表。
maui indexer(https://code.google.com/archive/p/maui-indexer/) 在kea的基础上进行拓展,增加新的特征项目,拓展了维基百科作为受控词表。
carrot2(http://project.carrot2.org/) 无监督方法,支持多种输入,输出格式和参数设置。
mallet topic modeling module(http://mallet.cs.umass.edu/topics.php)
Stanford topic modeling tool (http://nlp.stanford.edu/software/tmt/tmt-0.3/)
Mahout clustering algorithms(http://mahout.apache.org/)

商业API:
Alchemy API(http://www.alchemyapi.com/api/keyword-extraction)
zemanta API(http://developer.zemanta.com/)
yahoo term extraction api
(https://developer.yahoo.com/search/content/V1/termExtraction.html)

作为穷人,必然是开源的优先,目前主要使用了RAKE,KEA和maui indexer。
最初接触RAKE(Rapid Automatic Keyword Extraction)算法是通过伯乐在线的一篇翻译版的文章(http://python.jobbole.com/82230/),这篇文章的原作者是Alyona Medelyan,RAKE的更新版本就是她完成的,muai indexer也是她的杰作,她的GitHub上有很多关键字提取的项目。(https://github.com/zelandiya),目前在新西兰经营了一家NLP相关的公司。大部分论文和资料都可以在提供的链接中找到。

参考文献:
[1 ] Automatic keyword extraction from individual documents。
[2 ] KEA Practical Automatic Keyphrase Extraction
[3 ] Keyphrase Extraction in Scientific Publications

关键字提取工具(面向英文)相关推荐

  1. 词形变换和词干提取工具(英文)

    转载自: http://www.cnblogs.com/kaituorensheng/p/3437807.html 词形变换和词干提取工具(英文) 在信息检索和文本挖掘中,需要对一个词的不同形态进行归 ...

  2. java lucene词干提取_词形变换和词干提取工具(英文)

    在信息检索和文本挖掘中,需要对一个词的不同形态进行归并,即词形规范化,从而提高文本处理的效率.例如:词根run有不同的形式running.ran另外runner也和run有关.这里涉及到两个概念: 词 ...

  3. 读后感与机翻《理解工具:面向任务的对象建模、学习和识别》

    以下是研究朱松纯FPICU概念中P(physics)的第一篇论文记录: 目录 读后感: 作者干了什么事? 作者怎么做的? 效果怎么样? 局限性 摘要 1 介绍 2 面向任务的对象表示 2.1 三维空间 ...

  4. 一种关键字提取新方法

    一种关键字提取新方法  (转载) 原文链接https://xw.qq.com/amphtml/20181116A037K400 https://xw.qq.com/amphtml/20181116A0 ...

  5. esrXP(字幕提取工具)中文版 v10

    点击下载来源:esrXP(字幕提取工具)中文版 v10 esrXP中文版是一款专门为国内用户精心打造的视频字幕提取工具,其软件中文版界面,符合国内用户的使用习惯,摆脱了英文界面束缚,使其不受语言方面的 ...

  6. 图片文字提取,清华图片文字提取工具,wrod怎么提取图片文字,怎么把图片里面的文字提取?

    在学习工作生活中,我们会遇到一些只能查看却无法下载的文档,如果想要使用里面的文本内容怎么办,我们只能一边看文档一边打字,但是这样的效率太低了.有没有其他的好的方式呢?比如将文档拍照或者干脆截图,再把图 ...

  7. 大数据 - 文本文件数据提取工具之一 基础篇常见文本格式

    基础篇如何正确的拆分常见的文本格式, 什么样的字符能做拆分符号,理论上所有的字符都可以作为拆分符号用来拼接多列数据, 在拆分列数据的时候,数据里面不能再有这个拆分符号一样的字符串,否则数据就无法分开了 ...

  8. text rank java 实现_使用TextRank实现的关键字提取

    本文主要用于实现使用TextRank算法的关键字提取 TextRank是PageRank算法的变种,用于文本关键字 关键句的提取 主要参考为原作者Rada Mihalcea论文<TextRank ...

  9. 【转】SQL函数:字符串中提取数字,英文,中文,过滤重复字符

    SQL函数:字符串中提取数字,英文,中文,过滤重复字符 --提取数字 IF OBJECT_ID('DBO.GET_NUMBER') IS NOT NULL DROP FUNCTION DBO.GET_ ...

最新文章

  1. Map再整理,从底层源码探究HashMap
  2. PHP导入Excel和导出Excel
  3. WCF系列之.net(3.0/3.5)Rest使用示例
  4. BeanUtil使用例子:解析并转化HttpServletRequest到Bean的全面测试
  5. (五)uboot移植补基础之shell
  6. Android UI布局—— 仿QQ登录界面
  7. 2020顶会指南:征稿截止时间、举办地、举办时间一览
  8. vivo又有新机跑分曝光 机海战术要来了?
  9. iPhone 12再陷“信号门”:用户称每天需多次重启恢复;蚂蚁集团打新资金退款如期到账;Mutt 2.0 发布|极客头条
  10. 利用wcf传递字节的简单例子
  11. meta分析-stata软件使用
  12. 华为太极magisk安装教程_Magisk字体包制作、字体包导入及导入失败等详细教程
  13. 2020年黑客攻击“亮点”事件
  14. matlab 定义结构体数组,结构体数组及其定义和使用,C语言结构体数组详解
  15. 解决新版edge浏览器首页被搜狗、haoqq等垃圾搜索引擎捆绑问题,并将启动首页设为edge自带新标签页
  16. 蚂蚁金服面试题及答案-总结
  17. Android MagicIndicator 指示器 导航
  18. 奥斯卡影帝马修·麦康纳给毕业生的话
  19. 中e管家12个理财实用技巧
  20. 怎么利用jquery.form 提交form

热门文章

  1. 【小月电子】安路国产FPGA开发板系统学习教程-LESSON7串口通信
  2. 【netty篇】- 第2章netty知识应用【持续更新中】~
  3. 形变(Deform)开关的本质
  4. win7 修复计算机 黑屏,Win7系统引导文件丢失导致黑屏如何修复
  5. FDTD add语句部分详细内容
  6. VS配置Open in Brower
  7. SpringBoot2.x【四】自动化生成代码整合Mybatis
  8. 关于数据库数据唯一性保证
  9. 【百科】中药指纹图谱研究是什么
  10. ssas 数据源mysql_支持的数据源类型(SSAS 多维)