NLPIR分词使用说明

NLPIR系统授权，基本上1个月要授权一次，在这里替换Data/NLPIR.user即可

给出一个分词的使用实例：
1：上官网下载分词工具包

2：随便新建一个Java工程；

3：把jna.jar放到classpath下面，在eclipse中就是普通的手动添加jar包

4：新建或者直接把Data文件夹添加到工程中；

5：添加跟自己系统匹配的NLPIR.dll和NLPIR.lib文件，如果是maven工程放到resource下就行，或者放到新建的文件夹下。

6：根据给出的实例修改，主要就是注意一下上面的各个文件的路径的配置。

上面的是项目，文件的位置。

下面的是一个使用的demo;

public class NlpirSegmentUtil {public static Logger logger = Logger.getLogger("NlpirSegmentUtil");List<String> dictionary_words = new ArrayList<>();public NlpirSegmentUtil(List<String> dictionary_words) {// TODO Auto-generated constructor stubthis.dictionary_words = dictionary_words;}public NlpirSegmentUtil() {}public interface CLibrary extends Library {CLibrary Instance = (CLibrary) Native.loadLibrary("NLPIR", CLibrary.class);public int NLPIR_Init(String sDataPath, int encoding, String sLicenceCode);public String NLPIR_ParagraphProcess(String sSrc, int bPOSTagged);public String NLPIR_GetKeyWords(String sLine, int nMaxKeyLimit, boolean bWeightOut);public String NLPIR_GetFileKeyWords(String sLine, int nMaxKeyLimit, boolean bWeightOut);public int NLPIR_AddUserWord(String sWord);// add by qp 2008.11.10public int NLPIR_DelUsrWord(String sWord);// add by qp 2008.11.10public String NLPIR_GetLastErrorMsg();public void NLPIR_Exit();}public static String transString(String aidString, String ori_encoding, String new_encoding) {try {return new String(aidString.getBytes(ori_encoding), new_encoding);} catch (UnsupportedEncodingException e) {e.printStackTrace();}return null;}public List<String> getSentenceSegmentResult(List<String> sentences) {return getSentenceSegmentResult(sentences,dictionary_words);}public List<String> getSentenceSegmentResult(List<String> sentences,List<String> dictionary_words) {List<String> sentencesSeged = new ArrayList<>();String argu = System.getProperty("user.dir");int charset_type = 1;int init_flag = CLibrary.Instance.NLPIR_Init(argu, charset_type, "0");String nativeBytes = null;if (0 == init_flag) {nativeBytes = CLibrary.Instance.NLPIR_GetLastErrorMsg();logger.info("初始化失败！fail reason is " + nativeBytes);}try {for (String symptom_Name : dictionary_words) {CLibrary.Instance.NLPIR_AddUserWord(symptom_Name);}for(String sInput : sentences){nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);logger.info("增加用户词典后分词结果为:" + nativeBytes);sentencesSeged.add(nativeBytes);}CLibrary.Instance.NLPIR_Exit();} catch (Exception ex) {// TODO Auto-generated catch blockex.printStackTrace();}return sentencesSeged;}public void test(String sentenceContent, List<String> symptoms) {// String argu = SystemParas.data_dir_parent_path;String argu = System.getProperty("user.dir");int charset_type = 1;int init_flag = CLibrary.Instance.NLPIR_Init(argu, charset_type, "0");String nativeBytes = null;if (0 == init_flag) {nativeBytes = CLibrary.Instance.NLPIR_GetLastErrorMsg();logger.info("初始化失败！fail reason is " + nativeBytes);}try {for (String symptom_Name : symptoms) {CLibrary.Instance.NLPIR_AddUserWord(symptom_Name);}String sInput = sentenceContent;nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 1);Logger.getLogger("yuan_data").info("增加用户词典后分词结果为:" + nativeBytes);CLibrary.Instance.NLPIR_Exit();} catch (Exception ex) {// TODO Auto-generated catch blockex.printStackTrace();}}public static void main(String[] args) {NlpirSegmentUtil nlpirSegmentForWordCluster = new NlpirSegmentUtil();List<String> list = new ArrayList<>();list.add("口干");list.add("舌燥");List<String> sentence = new ArrayList<>();sentence.add("间断性口干舌燥三天。");nlpirSegmentForWordCluster.getSentenceSegmentResult(sentence, list);}}

NLPIR分词使用说明相关推荐

张华平 java_张华平分词（又名中科院分词/NLPIR分词）的使用（Java版本）
张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本) 标签:#分词##工具##编程# 时间:2017/03/03 20:31:23 作者:小木其实步骤很简单,主要就是下载,解压,导入, ...
NLPIR 分词准确率接近98.23%
http://www.nlpir.org/ 几个例子: 为人民办公益为/p 人民/n 办/v 公益/n 独立自主和平等互利的原则独立自主/vl 和/cc 平等互利/vl 的/ude1 原则/n 结 ...
java nlpir_中科院NLPIR中文分词java版
摘要:为解决中文搜索的问题,最开始使用版 SCWS ,但是处理人名和地名时,会出现截断人名地名出现错误.开始使用 NLPIR 分词,在分词准确性上效果要比 SCWS 好.本文介绍如何在系统下 JA ...
中科院分词ictclas50 web项目 linux,NLPIR/ICTCLAS2014中科院分词系统Api接口 For 易语言...
NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新增微博分词.新词发现与关键词提取. 中科 ...
JAVA调用NLPIR(中科院汉语分词系统)的使用
介绍最近在查找关于中文分词解析方面的开源工具,最开始找到了腾讯的文智与百度的自然语言,这两个平台都是对外提供HTTP接口调用需要把数据传输过去返回解析结果. 使用这种方式会有两种隐患:1.要确定网络 ...
Python下如何调用NLPIR(ICTCLAS2013)分词系统
NLPIR汉语分词系统-Python下如何调用NLPIR(ICTCLAS2013) 在国内研究自然语言处理的人大概都知道ICTCLAS分词系统的大名.该系统是由张华平博士开发的基于层叠隐性马可夫链的分 ...
中文分词工具比较 6大中文分词器测试（哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP）
中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...
ICTCLAS2013（NLPIR汉语分词系统） Java版本的使用方法
这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新 ...
python词库介绍_中文分词原理及常用Python中文分词库介绍
转自进击的Coder 公众号原理中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词.表面上看,分词其实就是那么回事,但分词效果好不好对 ...
python汉语叫什么意思_中文分词原理及常用Python中文分词库介绍
转自进击的Coder 公众号原理中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词.表面上看,分词其实就是那么回事,但分词效果好不好对 ...

NLPIR分词使用说明

NLPIR分词使用说明相关推荐

最新文章

热门文章