spaCy是世界上最快的工业级自然语言处理工具。 支持多种自然语言处理基本功能。官网地址:https://spacy.io/

spaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。

一、spaCy安装

在官网的code里找到安装代码,命令行输入第一个

 pip install spacypython -m spacy download en_core_web_sm

第二个命令巨慢,可能会断掉连接,可以在这里下载他需要的文件

  • en_core_web_md-2.2.5.tar
    链接:https://pan.baidu.com/s/1zWLDr0YGOcMKjx0P1TizlQ
    提取码:0xim
  • en_core_web_sm-2.2.5.tar
    链接:https://pan.baidu.com/s/1yjCn2vN7qwzS8eTez2ocsA
    提取码:f5u5

无需解压,安装这两个压缩包

pip install en_core_web_sm-2.2.5.tar.gz
pip install en_core_web_md-2.2.5.tar.gz

不过这时候运行代码还是会报错

nlp = spacy.load('en')OSError: [E050] Can't find model 'en'. It doesn't seem to be a shortcut link, a Python package or a valid path to a data directory.

需要在管理员模式下运行

python -m spacy download en



参考资料:
SpaCy下载及安装
NLP项目:使用NLTK和SpaCy进行命名实体识别

自然语言处理(NLP)-第三方库(工具包):spaCy(更适合英文数据集)【命名实体识别、分词、词性标注、依存句法分析、语义角色标注】相关推荐

  1. 自然语言处理(NLP)-第三方库(工具包):Annoy 【向量最邻近检索工具】

    自然语言处理(NLP)-第三方库(工具包):Annoy [向量最邻近检索工具] 参考资料: 推荐系统的向量检索工具: Annoy & Faiss

  2. 自然语言处理(NLP)-第三方库(工具包):WordNet(在nltk.corpus下)【英文:同义词、反义词、蕴含关系、语义相似度】

    WordNet是面向语义的英语词典,与传统辞典类似,但结构更丰富.nltk中包括英语WordNet,共有155287个单词和117659个同义词. 一.寻找同义词 这里以motorcar为例,寻找它的 ...

  3. NLP入门(五)用深度学习实现命名实体识别(NER)

    前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...

  4. NLP——序列标注之命名实体识别

    1.概述 序列标注包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等.解决方案是NN模型(神经网络模型)+CRF 命名实体识别(Named Entity Recognitio ...

  5. NLP算法-命名实体识别

    命名实体识别 什么是命名实体识别? NER 研究的命名实体 NER研究目前所遇到的问题 命名实体识别的主要方法: 基于条件随机场的命名实体识别 常用的NER模型 1.Spacy NER 模型 2.斯坦 ...

  6. 自然语言处理 文本预处理(上)(分词、词性标注、命名实体识别等)

    文章目录 一.认识文本预处理 1 文本预处理及其作用 2. 文本预处理中包含的主要环节 3. 概览 二.文本处理的基本方法 1. 分词 1.1 什么是分词 1.2 分词的作用 1.3 流行中文分词工具 ...

  7. NLP入门(八)使用CRF++实现命名实体识别(NER)

    CRF与NER简介   CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机 ...

  8. NLP之中文命名实体识别

    在MUC-6中首次使用了命名实体(named entity)这一术语,由于当时关注的焦点是信息抽取(information extraction)问题,即从报章等非结构化文本中抽取关于公司活动和国防相 ...

  9. NLP-文本处理:词性标注【使用成熟的第三方工具包:中文(哈工大LTP)、英文()】【对分词后得到的“词语列表”进行词性标注,词性标注的结果用于依存句法分析、语义角色标注】

    词性: 语言中对词的一种分类方法,以语法特征为主要依据.兼顾词汇意义对词进行划分的结果, 常见的词性有14种, 如: 名词, 动词, 形容词等. 顾名思义, 词性标注(Part-Of-Speech t ...

  10. 「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)

    来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-27 引言     今天主要和大家分享一篇关于中文命名实体识别的文章,本文分析Lattice-LS ...

最新文章

  1. 位运算详解+竞赛常见用法总结
  2. mysql数据类型符号位_MySQL数据类型
  3. 贪心算法之——阶乘之和(nyoj91)
  4. Python之深入解析Vulture如何一键找出项目中所有无效的代码
  5. 分布式Matlab计算集群建立方法与Demo
  6. html5的交互标签,html5里交互元素的使用方法
  7. HTML P不能包含块级元素(包括自身)
  8. 表锁 行锁 页锁 是什么区别
  9. 使用Mac命令别名,提升工作效率
  10. 【转载】Android面试题集
  11. 2020届华为面试题【Python】
  12. python调用谷歌翻译英文文献pdf_python调用谷歌翻译
  13. windows无法完成安装 若要在此计算机上安装_Win10无法启动,主引导记录(MBR)损坏,用这个方法快速修复...
  14. Win11磁盘清理在哪打开?
  15. mvp的全称_打游戏抢了这么久的MVP,你竟不知道MVP的全称和由来?
  16. 京东到家开放平台消息系统-进阶之路
  17. 迭代阈值分割算法(处理图像)
  18. 【完整流程】在Windows系统中安装Python
  19. (附源码)springboot+mysql+采用协同过滤算法的视频推荐系统的设计与实现 毕业设计261620
  20. 入门篇-华为云分布式数据库中间件(DDM)创建逻辑库和逻辑表

热门文章

  1. 【kafka】二、kafka框架介绍(消费者篇):
  2. 为啥office2010的word每次打开都要自动配置
  3. ipv6做网站服务器,ipv6怎么做转换
  4. [论文阅读]《Attention is All You Need》
  5. MapReduce 作业状态卡死 ACCEPTED: waiting for AM container to be allocated, launched and register with RM.
  6. 21款酷炫的数据可视化工具,拿走不谢!
  7. Oracle三班倒分时段查询数据的一种实现方式
  8. 深度学习基础知识扫盲
  9. java微信html5上传图片代码,微信浏览器上传图片和文件功能实现(代码教程)
  10. 电子学习产品缘何备受青睐?