pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp

经过测试,HanLP比nltk在中文分词和实体识别方面都更好用。

如何向pyhanlp添加自定义的词典?以python 2.7.9为例:

1.安装pyhanlp:pip install pyhanlp

2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。

具体绝对路径可用hanlp --version获取:

#hanlp --version

jar  1.6.3: /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar
data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

config    : /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。

#cat 我的词典.txt

codis集群 nz 1000

今日头条 nz 1000

第一列为词条,第二列为词性(默认为n),第三列为词频

4.然后需要删除缓存文件,这样python才会重新加载新增的文件:

#rm -f CustomDictionary.txt.bin

5.测试新增的词典:

python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"

五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

警告: 读取/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)

报这个错误没有关系,只是个warning,重新加载缓存文件而已。

文章来源于明月三千里68的博客

转载于:https://my.oschina.net/u/3984125/blog/2934166

pyhanlp用户自定义词典添加相关推荐

  1. python 自定义词典_pyhanlp用户自定义词典添加

    pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp 经过测试,HanLP比nltk在中文分词和实体识别方面都更好用. 如何向 ...

  2. HanLP分词+用户自定义词典

    文章目录 1. 分词重要性 2. 词典说明 2.1 CustomDictionary 2.2 追加词典 2.3 词典格式 2.4 添加词典 3. 实验 3.1 未添加词典 3.2 加入词典后 4 其他 ...

  3. pyhanlp 停用词与用户自定义词典

    hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集. 其核心词典形式如下: 自定义词典 自定 ...

  4. Hanlp之理解用户自定义词典(java版本)

    首先说明,由于本人水平有限,文章纰漏以及不妥之处还请指出,不胜感激: 理解hanlp中用户自定义词典(java) 什么是hanlp用户自定义字典?为什么要有用户自定义词典? 在Hanlp分词中,不管是 ...

  5. Windows下为有道词典添加词库(图文详解)

    原文地址:LittleStarLord的博客    Windows下为有道词典添加词库(图文详解)http://blog.sina.com.cn/s/blog_6c0267490102wett.htm ...

  6. java建立英文停用词表_pyhanlp 停用词与用户自定义词典

    hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集. 其核心词典形式如下: 自定义词典 自定 ...

  7. pyhanlp添加自定义词典

    1.找到python安装包的位置,对site-packages\pyhanlp\static\data\dictionary\custom\CustomDictionary.txt,将词典放置该目录下 ...

  8. MAC自带词典添加词典文件

    来源: https://www.zhihu.com/question/20428599/answer/223511099 下载别人转换好的词典文件,后缀名为:.dictionary 将dictiona ...

  9. Ubuntu好用的词典 星际译王 stardict安装 词典添加

    Ubuntu系统默认没有安装Ubuntu星际译王,但Ubuntu系统的软件源中包含了该软件,我们可以使用apt-get命令或新立得软件包管理器来安装该软件.如果当前系统连接到互联网,我们用apt-ge ...

最新文章

  1. jquery_3month
  2. pytorch 查看当前学习率_pytorch调整模型训练的学习率
  3. 【UAV】从单个螺旋桨到四旋翼无人机运动学分析
  4. tensorflow tf.data.TextLineDataset()对象 (包含来自一个或多个文本文件的行的“数据集”) 不懂是啥玩意??
  5. 常用有话帧检测技术(VAD)
  6. leetcode47. 全排列 II(回溯)
  7. jQuery Autocomplete 用户快速找到并从预设值列表中选择
  8. Underlay网络:如何立住可靠又支持大规模无收敛的“人设”
  9. 【渝粤教育】国家开放大学2018年春季 3717-21T天然气管道长输技术 参考试题
  10. 沧小海笔记之PCIE协议解析——第一章 PCIE概述(下)
  11. 西威变频器使用说明书_西威变频器说明书 (1)
  12. 虚拟机(VMware Workstation Pro)安装CentOS7镜像
  13. Unity3D好用Unity模型场景素材和Unity资源大合集
  14. cad计算机配置要求,CAD对电脑配置有什么要求?CAD对电脑配置有什么要求?
  15. Android-手撸抖音“潜艇大挑战”,非科班面试之旅
  16. PTA习题【python】 7-5 特立独行的幸福
  17. 三维CAD设计软件的核心技术解析----工业软件讲坛第二次讲座
  18. 抖音小视频背景歌名识别的学习
  19. 多点定位MLAT系统解决方案
  20. 电脑网络连接不上怎么办

热门文章

  1. 留学必备物品清单,这3类你一定要带
  2. 测绘程序设计——矩阵相加、相乘(C#)
  3. Python+OpenCV+dlib汽车驾驶员疲劳驾驶检测
  4. (俄)快车AM3 140.0°E
  5. Python的冒泡问题
  6. html设置margin无效,CSS中margin不起作用的原因及解决方法
  7. html5音频剪辑,一种基于HTML5Canvas画布音视频分段剪辑方法与流程
  8. red5+adobe flash media live +酷播播放器实现简单的直播及回看(二)------使用media live encoder向red5服务器推流
  9. 声如其闻,DuerOS中的声音播放
  10. cma和cnas认证的检测机构区别