FudanNLP 复旦分词系统 小试一把
今天机缘巧合,碰到了fudannlp,就决定尝试一小把。。。发现还是蛮好用的。
首先下载需要的东西,一个.gz 文件,两个jar包。分别是:seg.c7.110918.gz,fudannlp-1.05.jar和trove-2.1.0.jar。
以下是小弟编写的测试程序:
public static void main(String[] args) throws Exception
{
String segModelFilePath="D:\\tools\\复旦nlp\\segmodel\\seg.c7.110918.gz";
String orgString="刘开瑛2000 第4章78248个交集型歧义字段中,研究进展复旦分词系统 首先 使用正向最小匹配和逆向最大匹配对文本进行双向扫描 .";
ArrayList<String> dicList =new ArrayList<String>();
dicList.add("逆向最大匹配");
Dictionary dictionary=new edu.fudan.ml.types.Dictionary(dicList);
CWSTagger tag = new CWSTagger(segModelFilePath);
CWSTagger tagdic= new CWSTagger(segModelFilePath, dictionary);
String segString = tag.tag(orgString);
String segdicString=tagdic.tag(orgString);
System.out.println("未加入词典:"+segString);
System.out.println("加入词典: "+segdicString);
}
只是简单地使用了它的中文分词功能,还有很多功能没有尝试
FudanNLP 复旦分词系统 小试一把相关推荐
- 利用现有资源快速实现汉语专用分词系统
利用现有资源快速实现汉语专用分词系统<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office&q ...
- 中科院分词系统(NLPIR)JAVA简易教程
这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限.水平较低,文档中肯定存在有很多不足之处,还请见谅. 下载地址:http://ictclas.n ...
- 中科院的java_java 中调用中科院分词系统
项目中需要对某些内容进行分词步骤,所以在Java中调用中科院ictclas2013版的分词系统 1.进入官网下载 下载两个文件.一个是:ictclas2013下载包,目前更新到0416版,另一个是:i ...
- 乱码ictclas java_中科院分词系统(NLPIR)JAVA简易教程
这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限.水平较低,文档中肯定存在有很多不足之处,还请见谅. 下载地址:http://ictclas.n ...
- 【原创】中文分词系统 ICTCLAS2015 的JAVA封装和多线程执行(附代码)
本文针对的问题是 ICTCLAS2015 的多线程分词,为了实现多线程做了简单的JAVA封装.如果有需要可以自行进一步封装其它接口. 首先ICTCLAS2015的传送门(http://ictclas. ...
- ictclas包 java_ICTCLAS分词系统Java调用接口在Eclipse中的安装
ICTCLAS分词系统Java调用接口在Eclipse中的安装 实验环境:JDK1.5.Eclipse3.1.XP操作系统 分词系统Java接口解压包:d:\fenci(http://www.nlp. ...
- ictclas java 64_ICTCLAS分词系统在win7 64 java平台下环境搭建
最近做毕设要用到ICTCLAS分词系统,记录一下这个过程中碰到的问题,希望能有些同学带来帮助. 1.准备工作 下载下面两个包 2.环境搭建 基本的java运行环境就不说了,主要说一下搭建一个基本的IC ...
- freeictclas java_天书般的ICTCLAS分词系统代码(一)
ICTCLAS分词系统是由中科院计算所的张华平.刘群所开发的一套获得广泛好评的分词系统,该版的Free版开放了源代码,为初学者提供了宝贵的学习材料.我们可以在"http://sewm.pku ...
- 基于Java实现的中文分词系统
资源下载地址:https://download.csdn.net/download/sheziqiong/85941192 资源下载地址:https://download.csdn.net/downl ...
- 中科院分词ictclas50 web项目 linux,NLPIR/ICTCLAS2014中科院分词系统Api接口 For 易语言...
NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新增微博分词.新词发现与关键词提取. 中科 ...
最新文章
- 对象----《你不知道的JS》
- 报错解决:ERROR: Failed to format E:; DiskPart errorlevel -2147212243.
- Behavior行为
- CentOS学习笔记--目录配置
- android sdk 目录说明,Android的sdk、api及工程目录说明
- 遥感分类误差矩阵_遥感卫星影像之分类精度评价
- Qt网络编程、tcp通信、文件传输、程序打包和图标设置(QT五)
- java面试 bs cs_面试题思考:BS与CS的区别与联系
- Altium_Designer17-PCB-如何重新定义板子大小
- 警惕|这类人千万不要转行学IT
- 白平衡(WB:white balance)数值设置
- win10升级助手_关闭win10系统更新
- 高级运维工程师证书_一位IT运维工程师的CISSP认证历程,值得借鉴!
- 3ds Max 2014 SDK配置开发环境以及遇到的问题
- python高并发编程_python 并发编程
- flink 相关资料
- mono.dll caused an Access Violation (0xc0000005) in module mono.dll at 0033:e6b552d6.
- R语言数据合并与连接技巧
- CAD小问题解决办法2
- 【xtku】女星黄美姬win7主题_8.6