文本处理一般包括词性标注,句法分析,关键词提取,文本分类,情感分析等等,这是针对中文的,如果是对于英文来说,只需要基本的tokenize。本文为大家提供了以下这些工具包。

1.Jieba

【结巴中文分词】做最好的 Python 中文分词组件

其功能包括支持三种分词模式(精确模式、全模式、搜索引擎模式),支持繁体分词,支持自定义词典等。

代码主页:https://github.com/fxsjy/jieba

2.NLTK

【NLTK】一个构建Python程序以使用人类语言数据的领先平台,被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。

官方主页:http://www.nltk.org/

代码主页:https://github.com/nltk/nltk

3.TextBlob

【TextBlob】是一个用于处理文本数据的Python(2和3)库。它为潜入常见的自然语言处理(NLP)任务提供了一个简单的API,例如词性标注,名词短语提取,情感分析,分类,翻译等。

官方主页:http://textblob.readthedocs.org/en/dev/

代码主页:https://github.com/sloria/textblob

4.MBSP for Python

【MBSP】是一个文本分析系统,基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序。它提供了用于标记化和句子分裂,词性标注,分块,词形还原,关系查找和介词短语附件的工具。

官方主页:http://www.clips.ua.ac.be/pages/MBSP

5.Gensim

【Gensim】是一个免费的Python库可扩展的统计语义

分析纯文本文档的语义结构

检索语义相似的文档

官方主页:http://radimrehurek.com/gensim/index.html

代码主页:https://github.com/piskvorky/gensim

6.langid.py

【langid.py 】是一个独立的语言标识(LangID)工具。接受过97种语言的预训练(ISO 639-1代码),培训数据来自5个不同的来源:JRC-Acquis、ClueWeb 09、维基百科、路透社RCV2和Debian i18n。

代码主页:https://github.com/saffsd/langid.py

7. xTAS

【 xTAS】是基于Celery的分布式文本分析套件。部分xtas使用GPL许可软件,例如Stanford NLP工具,以及可能产生额外限制的数据集,检查文档中的各个功能。

代码主页:https://github.com/NLeSC/xtas

8.Pattern

【Pattern】是Python编程语言的Web挖掘模块。它具有数据挖掘工具(谷歌,Twitter和维基百科API,网络爬虫,HTML DOM解析器),自然语言处理(词性标注,n-gram搜索,情感分析,WordNet),机器学习(矢量)空间模型,聚类,SVM),网络分析和可视化。

官方主页:http://www.clips.ua.ac.be/patternAMiner 唯一官方微信公众号:学术头条(ID:SciTouTiao)。

AMiner 官方网站 网站 https://www.aminer.cn/

python文本分析库_8种Python文本处理工具集相关推荐

  1. python 文本分析库_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  2. Py之qrcode:调用python的qrcode库两种方式生成二维码、带logo的二维码

    Py之qrcode:调用python的qrcode库两种方式生成二维码.带logo的二维码 目录 python编程实现生成二维码 1.第一种方式-纯文本 2.第二种方式-带logo

  3. python如何安装matplotlib_详解python安装matplotlib库三种失败情况

    (可能只有最后一句命令有用,可能全篇都没用) (小白方法,可能只适用于本人情况) 安装matplotlib时,出现的三种失败情况 1.read timed out 一开始我在pycharm终端使用pi ...

  4. 可爱的python测试开发库及项目(python测试开发工具库汇总)

    转载: https://www.jianshu.com/p/ea6f7fb69501 可爱的python测试开发库及项目(python测试开发工具库汇总) github地址 相关书籍下载 Python ...

  5. python数据获取与文本分析_python文本分析之处理和理解文本

    前言: 在进行自然语言的建模(NLP)时,我们通常难以处理文字类型的数据,因此在常见的机器学习项目中,数据的格式是结构化的,就算在视觉处理的时候也是一个矩阵或者高维张量的形式.那么文字类型的数据我们应 ...

  6. python情感分析中文_Python有趣|中文文本情感分析

    前言 前文给大家说了python机器学习的路径,这光说不练假把式,这次,罗罗攀就带大家完成一个中文文本情感分析的机器学习项目,今天的流程如下: 数据情况和处理 数据情况 这里的数据为大众点评上的评论数 ...

  7. tidytext | 耳目一新的R-style文本分析库

    腾讯课堂 | Python网络爬虫与文本分析 tidytext是R语言的文本分析包,一般数据会整理为dataframe,每行都是由docid-word-freq组成.有一本R语言的文本挖掘书<T ...

  8. python 股票分析库_GitHub - reference-project/stock-1: stock,股票系统。使用python进行开发。...

    pythonstock V1 项目简介 特别说明:股市有风险投资需谨慎,本项目只能用于Python代码学习,股票分析,投资失败亏钱不负责,不算BUG. PythonStock V1 是基于Python ...

  9. python 股票分析库_GitHub - MrFiona/stock: stock,股票系统。使用python进行开发。

    pythonstock V1 项目简介 特别说明:股市有风险投资需谨慎,本项目只能用于Python代码学习,股票分析,投资失败亏钱不负责,不算BUG. PythonStock V1 是基于Python ...

最新文章

  1. 最受欢迎的ASP.NET的CMS下载
  2. 干货丨深度解析机器学习五大流派中主算法精髓
  3. cocos creator怎么隐藏组件(setVisible)
  4. CSS布局——横向两列布局
  5. win7系统Myeclipse下切换SVN用户
  6. Deep Learning基础理论--Classification RBM
  7. MariaDB存储引擎简介
  8. html自动按键,VBS脚本和HTML DOM自动操作网页
  9. html 图片高度 页面高度自适应,怎样让网页图片高度自适应宽度
  10. win10更新后无法进入linux,双系统win10更新后无法进入linux
  11. 切线理论-支撑位与阻力位
  12. lottie动画_极光小课堂 | 用 Lottie 实现超炫酷动画
  13. 【教程】Edraw Max(亿图图示)基本操作图文详解
  14. 如何区分杠精和批判性思维
  15. 平均指标指数与平均数指数的区别
  16. android dbm模式判断,手机信号强弱判断即【dBm/asu】知识普及
  17. 渗透测试技巧:python+burp快速编写网站测试脚本
  18. oracle账集和账薄,转载-Oracle R12 总账与子账的关系
  19. 用vue实现打印页面的几种方法
  20. 求可以进行图片抽签的小程序

热门文章

  1. [No00007F]2016-面经[下] 英文简历写作技巧
  2. 超实用的爬虫利器selenium 爬取豆瓣喜剧电影排行榜数据
  3. ubuntu18.04安装eclipse详细教程
  4. PClint报错分析实战
  5. 信息学奥赛一本通:2031:【例4.17】四位完全平方数
  6. 你好,放大器——输入失调电压(Offset Voltage,Vos)
  7. 基于vagrant 给虚拟机配一个共享文件夹
  8. 蓝牙mesh与ZigBee
  9. eclipse的安装以及JAVA的基本学习第一部分
  10. 小故事.....有道理、、、