张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本)

标签:#分词##工具##编程#

时间:2017/03/03 20:31:23

作者:小木

其实步骤很简单,主要就是下载,解压,导入,配置即可。由于张华平分词最近开始使用新的授权方式,导致很多以前的分词程序无法使用。这里也会说明如何解决“初始化失败”的问题。

[TOC]

#### 1、下载分词

从官方网站下载即可:http://ictclas.nlpir.org/downloads

![](http://www.datalearner.com/resources/blog_images/1d29da60-b3a7-4d87-b55b-a86b0b281aff.jpg)

#### 2、解压

下载后解压到我们指定的工程目录(根据个人需要选择),比如我们这里导入java版本,在sample里面选择导入java文件夹下jnaTest即可。

![](http://www.datalearner.com/resources/blog_images/18a7c8f3-1098-448c-bbb1-e648d7295b6b.jpg)

#### 3、导入Eclipse工程

解压后我们看到sample文件夹,里面有个JAVA文件夹,下面有个JNA文件夹。将该文件夹拷贝到一个非中文目录下。然后打开Eclipse——File——import——Java Project——Existing Projects into Workspace,然后选择刚才jna目录点击Next——Finish即可。

![](http://www.datalearner.com/resources/blog_images/007dec37-58c1-4461-8403-cbb46fd4a3f2.jpg)

![](http://www.datalearner.com/resources/blog_images/684ebf6c-1bc2-4f12-a268-a48ce32e18a4.jpg)

#### 4、配置

其实这个时候分词系统已经导入到Eclipse中,只需要配置一下运行所需的文件位置即可。总共需要配置的地方有两个,一个是NIPIR.dll目录一个是Data文件夹目录。我们展开工程目录打开NlpirTest.java文件。在主函数main下面的arg后面填入Data文件夹目录(分词系统解压后就有一个data文件夹,将该文件夹拷贝到非中文目录下,然后将该目录写在arg后面,注意路径写到Data所在目录即可。位置可以自己选择,注意要在非中文目录下!比如我把Data文件夹放在D:/NLPIR文件夹下面,那么这里的参数就是"D:/NLPIR")。第二个配置是Native.loadLibrary的dll位置。分词系统需要dll文件。我们解压分词文件后有一个lib文件夹,里面有win64 win32 linux64 linux32等文件夹,根据自己的系统选择相应的文件夹,拷贝至非中文目录下(位置可以自己选择,注意要在非中文目录下!请注意该路径配置一直要写到dll文件的名字,但不需要加扩展名。比如我的win64位置是C:/WIN64,那么我的路径应该写成c:/win64/NLPIR)

![](http://www.datalearner.com/resources/blog_images/8356840a-9aa2-4cd6-86fd-0def78d2468b.jpg)

![](http://www.datalearner.com/resources/blog_images/b0e586f5-4875-4003-8186-6162aa07a4d5.jpg)

![](http://www.datalearner.com/resources/blog_images/44946a44-dd3d-4100-b486-5fbefb0e4e9c.jpg)

#### 5、添加用户词库

在初始化函数之后添加如下语句:

```java

String system_charset = "GBK";

int charset_type = 1;

int init_flag = CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset), charset_type, "0".getBytes(system_charset));

if (0 == init_flag) {

System.err.println("初始化失败!");

}

//添加自定义词库,dictPath是用户词库位置

int nCount = CLibrary.Instance.NLPIR_ImportUserDict(dictPath,true);

```

![](http://www.datalearner.com/resources/blog_images/46327d15-eba2-4b75-a79a-e3bf5f165a47.png)

#### 6、运行

运行NlpirTest.java会发现已经出现分词结果。

![](http://www.datalearner.com/resources/blog_images/72b526ca-fd8c-4dab-85bb-500dd952736d.jpg)

#### 7、初始化失败的问题

如果出现初始化失败的情况,请注意Data文件夹是否过期。由于最近张华平分词开始使用新的授权方式,之前的分词可能无法使用。而且新的授权方式分为7天和30天两种。授权更新首先需要在 https://github.com/NLPIR-team/NLPIR/tree/master/License 这个链接下载授权文件,有7天和30天两种。点进去发现有很多授权文件,需要什么功能下载什么功能。将下载后的文件解压,比如我需要分词,于是下载了NLPIR-ICTCLAS分词系统授权.zip。然后解压得到NLPIR.user文件,将该文件复制到Data文件夹下覆盖即可使用。

![](http://www.datalearner.com/resources/blog_images/4d6af15c-0102-422a-b5c5-4cd5b5586d67.png)

张华平 java_张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本)相关推荐

  1. java 中文分词 词性标注_ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注(转)...

    中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释 〇.总体流程 考虑输入的一句话,sSentence="张华平欢迎您" 总体流 ...

  2. 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  3. ictclas4j java_使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词...

    一.ICTCLAS的介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technolog ...

  4. Java web:基于jieba分词器(或ansj分词器)的文章关键词字符云(词云图)

    上来先丢一个展示图,吸引一下注意力(跑. 上图为对某论文用jieba分词后,计算其逆文档频率(TF-IDF)作为权重,并用echarts的字符云扩展包echarts-wordcloud画出来的字符云图 ...

  5. ICTCLAS2013(NLPIR汉语分词系统) Java版本的使用方法

    这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新 ...

  6. NLPIR 分词准确率接近98.23%

    http://www.nlpir.org/ 几个例子: 为人民办公益 为/p 人民/n 办/v 公益/n 独立自主和平等互利的原则 独立自主/vl 和/cc 平等互利/vl 的/ude1 原则/n 结 ...

  7. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  8. Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

    首发地址:http://www.54tianzhisheng.cn/2017/09/07/Elasticsearch-analyzers/ 介绍:ElasticSearch 是一个基于 Lucene ...

  9. Elasticsearch 系列文章(一):Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

    介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...

最新文章

  1. 面试问你Spring如何解决循环依赖的时候,不要一脸懵逼了!
  2. R语言使用lmPerm包应用于线性模型的置换方法(置换检验、permutation tests)、使用lm模型构建简单线性回归模型、使用lmp函数生成置换检验回归分析模型
  3. 德鲁克管理思想:管理的7大理论、43条原则,每一条都是精华
  4. HALCON示例程序connection.hdev分割连通域
  5. windows 下安装wamp环境
  6. 判断两个结构体是否相等
  7. C++ class中的静态(static)成员
  8. 【Andorid X 项目笔记】禁用ListView的Fling功能(1)
  9. mysql 获取天数_MySQL获取某月份的天数
  10. java遍历子目录_Java遍历文件夹及子目录代码实例
  11. merlin.acs的使用方法 merlin.acs添加右键菜单
  12. 怎样进行文献调研?——与青年朋友谈科研(7)
  13. 百度收购YY:第三次直播大战开启
  14. 十一届蓝狐杯的总结,顺带一点解题报告
  15. 6ES7513-1AL02-0AB0的技术参数
  16. docker出现 Error starting userland proxy: listen tcp4 0.0.0.0:3306: bind: address already in use的解决方法
  17. 使用BIOS进行键盘输入和磁盘读写
  18. 解密宝典——十招教你学会软件破解
  19. [附源码]SSM计算机毕业设计高校奖学金评定管理系统JAVA
  20. Js 显示 服务器 目录,js获得服务器目录

热门文章

  1. DATAGRIP中文插件及白色界面
  2. flash与游戏笔记:滚动数字
  3. 改变世界著名成功人士的一句话
  4. 解决 flowable 无 租户 和 ID 组合启动的问题
  5. 为什么大厂APP都喜欢做个「极速版」?
  6. MQTT协议发送GPS坐标到服务器
  7. Word文件设置了只读模式如何编辑?
  8. python向上向下取整_python 向上取整ceil 向下取整floor 四舍五入round
  9. 详解JPA 2.0动态查询机制:Criteria API(2)
  10. mybatis分页插件的使用