HanLP汉语言处理包的主要作用是对分词后的文本进行停用词的去除和标注

下面将用两种方式介绍HanLP的配置方式

方式一:maven 仓库

步骤:1直接在pom.xm中加入HanLP的坐标即可使用基本功能((由字构词、依存句法分析外的全部功能)。

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.7.8</version>
</dependency>

若用户需要自定义配置通过在resources文件下创建hanlp.properties文件即可

方式二、下载jar、data、hanlp.properties

HanLP将数据与程序分离,给予用户自定义的自由。

1、下载:data.zip

下载后解压到任意目录,接下来通过配置文件告诉HanLP数据包的位置。

HanLP中的数据分为词典模型,其中词典是词法分析必需的,模型是句法分析必需的。

data
│
├─dictionary
└─model

用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。

  • 模型跟词典没有绝对的区别,隐马模型被做成人人都可以编辑的词典形式,不代表它不是模型。
  • GitHub代码库中已经包含了data.zip中的词典,直接编译运行自动缓存即可;模型则需要额外下载。

2、下载jar和配置文件:hanlp-release.zip

配置文件的作用是告诉HanLP数据包的位置,只需修改第一行

root=D:/JavaProjects/HanLP/

为data的父目录即可,比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。

最后将hanlp.properties放入classpath即可,对于多数项目,都可以放到src或resources目录下,编译时IDE会自动将其复制到classpath中。除了配置文件外,还可以使用环境变量HANLP_ROOT来设置root。安卓项目请参考demo。

如果放置不当,HanLP会提示当前环境下的合适路径,并且尝试从项目根目录读取数据集。

附:本地jar包加入maven仓库并添加词库

起因:用maven方式不管配不配置hanlp.properties进行标准切词发现有些词语都切不出来,如“毛呢”会被分开,如下图

因项目使用的是maven方式来统一管理jar包,故采用本地jar包加入maven仓库并添加词库的方式来做。

1、按照方式二下载data以及jar包和配置文件

  • hanlp-1.7.8-sources.jar: 这个包可以不要

2、将下载的jar包导入maven仓库

install:install-file -Dfile=<Jar包的地址>

           -DgroupId=<Jar包的GroupId>

           -DartifactId=<Jar包的引用名称>

           -Dversion=<Jar包的版本>

           -Dpackaging=<Jar的打包方式>

install:install-file -Dfile=D:\hanlp-1.7.8.jar  -DgroupId=com.hankcs   -DartifactId=hanlp  -Dversion=hanlp-1.7.8   -Dpackaging=jar

成功后会在本地maven仓库看到加入的jar包

3、pom.xml中添加依赖

<!--自定义本地jar包使用python词典-->
<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>hanlp-1.7.8</version>
</dependency>

4、hanlp.properties配置data路径

/home/jar/Dict为linux上的路径,因为jar包是要上传到集群的

5、切词测试

将项目打成jar包,在hive中创建临时函数,测试

参考自:HanLP 下载和配置 - 勤奋的园 - 博客园

HanLP汉语言处理包 下载和配置相关推荐

  1. 淘淘商城 本地仓库配置和仓库jar包下载

    SVN服务器的搭建请查看该文:<Win7 x64 svn 服务器搭建> 1:仓库包存放位置: 2:setting.xml 文件配置信息 1 <?xml version="1 ...

  2. windows下php包下载及环境配置

    php开发环境包下载:https://windows.php.net/download 然后解压 将php.ini-development文件修改成php.ini(php配置文件) 打开php.ini ...

  3. Maven的mirror、repository、server和proxy配置以及jar包下载逻辑

    一.相关概念解析 Maven的settings.xml文件里面有proxy.server.repository.mirror的配置,在配置仓库地址的时候容易混淆. proxy是服务器不能直接访问外网时 ...

  4. 2022最新版超详细的Maven下载配置教程、IDEA中集成maven(包含图解过程)、以及导入项目时jar包下载不成功的问题解决

    文章目录 1.maven下载 2.maven环境变量的配置 3.查看maven是否配置成功 4.配置文件的修改 5.IDEA集成maven 6.导入项目时jar包下载不成功的问题解决 maven教程: ...

  5. idea新版:Java连接MySQL mysql-connector-java-bin.jar驱动包下载配置(全)

    目录 前言 1. 下载 2. 配置 前言 具体所需要使用的工具: 工具:idea编译器 包:jdbc的jar驱动包 idea连接数据库的时候需要使用的一个驱动包 同理其他编译器 1. 下载 通过官网下 ...

  6. Mac mysql8.0 java配置 jar包下载

    一.jar包下载 https://dev.mysql.com/downloads/connector/j/点击进入官网下载 拉到最下面 选择Platform Independent 点击Downloa ...

  7. HanLP自然语言处理包开源(包含源码)

    HanLP自然语言处理包开源(包含源码) 支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取 ...

  8. HanLP自然语言处理包介绍

    支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...

  9. redis的rpm包下载安装

    1.下载rpm包 下载路径:https://raw.githubusercontent.com/bazingafraser/cv/master/rpm/redis-3.2.3-1.x86_64.rpm ...

最新文章

  1. from . import_python首行代码import *,from * import * 解析
  2. python读取html内容 dom获取_python学习笔记十三 JS,Dom(进阶篇)
  3. UA MATH566 统计理论1 充分统计量例题答案1
  4. 微软部分服务已迁移至中国本地服务器
  5. mfc 找到字符串中字符_利用滑动窗口解LeetCode438题:找到字符串中所有字母异位词...
  6. [翻译]为什么你不要收缩数据库文件
  7. 理论加实践,终于把时间序列预测ARIMA模型讲明白了
  8. ITK:使用连通性细分具有相似统计信息的像素
  9. pycharm添加python_Pycharm 复制代码出现空格的解决方式
  10. 水墨流动生太极,四式''拳诀''展存储
  11. 强悍的 Python —— 读取大文件
  12. 简单搞一下 Oracle 存储过程测试!
  13. 苹果Mac智能照片编辑软件:​​​​Movavi Picverse
  14. Unix整理笔记——在指定时间运行程序——里程碑M12
  15. windows tcp ping 端口工具及使用方法
  16. 30封外贸邮件模板,外贸人速收藏!
  17. ERP/WMS仓库管理系统库存商品成本计算
  18. 腾讯云短信服务(详细教程-Django框架、API接口)实现
  19. OOC 面向对象C语言编程实践
  20. 荣耀8/16-年月日转换

热门文章

  1. 计算机网络基础之以太网
  2. an怎么做淡入_Pr怎么给字幕、视频、音频做淡入淡出效果
  3. 小辣椒红辣椒7X手机刷机原厂维修线刷包附刷机教程
  4. 【ADAS】车道线检测与跟踪
  5. [计算机图形学]辐射度量学、渲染方程与全局光照(前瞻预习/复习回顾)
  6. Redis GeoHash核心原理解析
  7. 用千千静听修改mp3的属性
  8. 《秘密》吸引力法则 书摘
  9. 软件测试项目截图,软件测试缺陷报告的屏幕截图处理
  10. vba移动文件_一线软件Recuva免费数据恢复软件,找回不小心误删的照片、影片、文件(Win)...