Lucene下分词工具的学习探讨(二)
今天又找到一种分词器IKanalyzer,对Lucene的支持挺好,不过我没有找到它的人名,地名识别功能在哪里!
这个分词器的文档做得还挺好,挺细致,挺全面的!基本的功能看文档就都能学会了!
好了,闲话不多说,还是把项目的源代码贴出来,免得下次又到处去找
- /**
- * IK 中文分词 版本 5.0
- * IK Analyzer release 5.0
- *
- * Licensed to the Apache Software Foundation (ASF) under one or more
- * contributor license agreements. See the NOTICE file distributed with
- * this work for additional information regarding copyright ownership.
- * The ASF licenses this file to You under the Apache License, Version 2.0
- * (the "License"); you may not use this file except in compliance with
- * the License. You may obtain a copy of the License at
- *
- * http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- *
- * 源代码由林良益(linliangyi2005@gmail.com)提供
- * 版权声明 2012,乌龙茶工作室
- * provided by Linliangyi and copyright 2012 by Oolong studio
- *
- *
- */
- package sample;
- import java.awt.List;
- import java.io.IOException;
- import java.io.Reader;
- import java.io.StringReader;
- import java.util.ArrayList;
- import org.apache.lucene.analysis.Token;
- import org.apache.lucene.analysis.TokenStream;
- import org.wltea.analyzer.core.IKSegmenter;
- import org.wltea.analyzer.core.Lexeme;
- import org.wltea.analyzer.lucene.IKAnalyzer;
- /**
- * IKAnalyzer 示例
- * 2012-3-2
- *
- *
- */
- public class IKAnalyzerDemo {
- public static void main(String[] args)
- {
- IKSegmenter seg=null;
- ArrayList<String> list=new ArrayList<String>();
- list.add("苏轼不是圣人,他最可贵的地方是在痛苦彷徨挣扎中," +
- "总能把自己的心灵置于更广阔的天地中,如同《赤壁后赋》中横飞而去的老鹤," +
- "戛戛于星空夜月,长河大江之上,澄明清澈,皎然不滓。" +
- "苏轼是一个善于苦中找乐的人,这种乐观与真趣帮他度过了不少难关。" +
- "画家陈丹青说鲁迅是一个有趣的人,我想,拿来说苏东坡一样也行。");
- list.add("李宇春《再不疯狂我们就老了》MV首播】李宇春新专辑同名第二主打《再不疯狂我们就老了》MV今日正式发布。这首歌与《似火年华》,以“疯狂”为概念的对话曲目,采用一曲双词的方式。李宇春与韩寒,同时在一首歌里,讲述了两种截然相反,却本质同归的态度");
- list.add("上个月在天津术语学会上见到冯老,言谈中感觉到冯老对机器翻译的深厚感情和殷切希望。是啊,机器翻译事业还年轻,我辈细流,心驰沧海,愿倾尽绵薄之力,浇灌此常青之树。");
- list.add("发表了博文 《多语言信息网络时代的语言学家:冯志伟》 - 冯志伟与老伴郑初阳 多语言信息网络时代的语言学家:冯志伟 桂清扬 冯志伟,教育部语言文字应用研究所研究员,博士生导师,所学术委员会");
- list.add("Facebook CEO 马克·扎克伯格亮相了周二 TechCrunch Disrupt 大会,并针对公司不断下挫的股价、移动战略、广告业务等方面发表了讲话。自 5 月公司 IPO 后,扎克伯格极少公开露面,这也是他首次在重要场合公开接受采访");
- list.add("@新华社中国网事:#聚焦钓鱼岛#外交部长杨洁篪10日在外交部紧急召见日本驻华大使丹羽宇一郎,就日本政府非法“购买”钓鱼岛提出严正交涉和强烈抗议。当日,中国驻日本大使程永华也向日本外务省负责人提出严正交涉并递交了抗议照会。");
- list.add("阿米尔汗,8岁时出演一部轰动印度的电影,是公认的童星,长大后却一心打网球并获得过网球冠军。21岁爱上邻居家女孩,由于宗教原因两人决定私奔,现在过着幸福美满的生活。81届奥斯卡最佳影片《贫民窟的百万富翁》,他担任制片。2009年一部《三个白痴》震惊全球,他47岁");
- list.add("老郭动粗 师徒揭相声虚假繁荣");
- list.add("Facebook CEO 扎克伯格极少公开露面");
- list.add("徐德有说这是个错误!");
- list.add("而如今Facebook的CEO马克·扎克伯格表示,押在HTML5上是Facebook最大的错误。由于HTML5应用性能差到不能忍受");
- list.add("本报讯(记者胡笑红)已经过期的牛奶被销售经理修改日期,照样投放市场销售,记者昨天从蒙牛公司得到证实,蒙牛驻义乌经理王孙富和同伙赵宝峰因涉嫌生产销售伪劣产品罪已被当地批捕。");
- list.add("白玉萍是一个好人");
- list.add("张三同李四是好朋友");
- list.add("钟子期的名字能够被认出来么");
- list.add("綦玉冰");
- list.add("汤姆克鲁斯的英文名字很苦");
- list.add("曼城第23分钟遭遇打击,孔帕尼中线丢球,莫里森中路直塞,沙恩-朗拿球成单刀之势,米尔纳背后将其铲倒,主裁判克拉滕伯格认为米尔纳是最后一名防守球员,直接掏出红牌!曼奇尼在场边向第四官员抗议,认为莱斯科特已经补防到位。多兰斯主罚任意球打在人墙上高出。");
- list.add("中新网10月20日电 据日本共同社报道,日本民主党代理干事长安住淳20日表示,首相野田佳彦将履行“近期”解散众院举行大选的承诺,预计在“公债发行特例法案”获得通过等条件具备时解散众院。");
- for (String string : list) {
- StringReader reader=new StringReader(string);
- seg=new IKSegmenter(reader,true);
- Lexeme lex=new Lexeme(0, 0, 0, 0);
- try {
- while((lex=seg.next())!=null)
- {
- System.out.print(lex.getLexemeText() + "|");
- }
- } catch (IOException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- System.out.println();
- }
- }
- }
可是这个结果对人名识别不怎么理想啊!
还是把整个项目的代码上传到我的51cto空间吧!
整个Project的下载地址http://down.51cto.com/data/599592
Lucene下分词工具的学习探讨(二)相关推荐
- Telerik移动应用开发工具AppBuilder学习笔记(二)--IDEs
Telerik移动应用开发工具AppBuilder学习笔记 之 IDEs Telerik AppBuilder的IDE有四种: 1,在线IDE,地址:https://platform.telerik. ...
- commons-lang3工具类学习(二)
三.BooleanUtils 布尔工具类 and(boolean... array) 逻辑与 BooleanUtils.and(true, true) = true BooleanUtils.and( ...
- java 编写小工具 尝试 学习(二)
1. 新建一个窗口 ,代码 如下 ,截图 如下 package jFrameDemo;import javax.swing.JFrame; import javax.swing.WindowCons ...
- 盘古分词工具学习笔记
下载了盘古分词工具,学习工具使用的同时学习中文分词基础. 1. 一元分词/二元分词/多元分词/精确分词 一元分词是按字拆分的,比如一句话"梦想很丰满",在盘古分词中使用一元分词拆 ...
- 中文分词工具探析(一):ICTCLAS (NLPIR)
[开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):T ...
- python windows编程_在Windows下配置Python编程学习环境
一.需求: 之前是在Linux环境下进行Python的学习,每次开虚拟机觉得有点麻烦,希望可以直接在Windows的dos命令行下进行Python编程学习. 二.安装软件 直接从官网下载这两个软件安装 ...
- 自然语言处理学习笔记2:分词工具及分词原理
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词之 ...
- 工具的学习使用(二):快捷键、工具、批处理
快捷键 Ctrl + Shift + A 核心快捷键 : 查看 Phpstorm 的 action,所谓 action 便是 Phpstorm 的一个原子操作,只要记住这些操作的关键字,进行搜索便可以 ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(一)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(一) Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来.目前Lucene.Net的分词库很不完善,实际应用价值不高.唯 ...
最新文章
- c语言命令行选项处理函数getopt和getopt_long() 函数使用
- lindex.php,Redis学习笔记:命令
- 优酷土豆2012.9.12校园招聘会笔试题
- java)_Java NIO系列教程(一) Java NIO 概述
- MHA环境搭建【4】manager相关依赖的解决
- 实战:自定义简易版SpringBoot
- php 基础知识 常见面试题
- 在万彩手影大师上怎么制作微课_手势动画制作|万彩手影大师心得与教程
- (html字体图片纯css插件)Font Awesome
- UFO报表转换不成功!请检查文件版本或使用DOS文件转换工具
- MATLAB2017b libsvm安装教程
- 安装拼音加加时出现问题
- latex图像注释位置
- 2020-02-13
- windows2008R2新增磁盘处于脱机状态及介质写入受保护解决办法
- Win10更新系统,VirtualBox与win10不兼容处理办法
- free rainbow 分布式破解 WINDOWS 密码的最好选择!
- Flowable工作流之查询历史流程信息
- 如何用 Python 可视化《三国》人物与兵器出现频率?(视频教程)
- C语言读书1000字报告,c语言实验一实验报告1000字范文.docx
热门文章
- 数学符号arg的含义
- 计算机组装与维护教程论文,计算机组装与维护课程论文.doc
- 变频器的工作原理及其电路分析
- ABB机器人基础知识
- 舆情监控与python_python 舆情监控
- Android个人理财通课程设计,android课程设计-小组合作设计开发个人理财通项目.docx...
- SEO新手入门系列2022(七):站内SEO优化
- C++实战学习OpenCV3.2+QT5+ffmpeg实战开发视频编辑器视频教程
- 券商量化交易接口api到底是什么?
- 《C#设计模式》【装饰者模式】