Solr 3.5:配置mmseg4j同义词(已经配置好中文分词)
2019独角兽企业重金招聘Python工程师标准>>>
前提,已经安装配置好Tomcat8与Solr3.5,并且配置好mmseg4j中文分词
1.修改 conf/schema.xml
在fields节点下面的mmseg4j分词器相关配置修改为类似于如下的内容:
<fieldType name="textComplex" class="solr.TextField" >
<analyzer type="index">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
</fieldType>
2.修改solr/home/conf/synonyms.txt
在里面加入你认为中同义词的数据,形如:
手机 => 移动电话
大陆 => 中国
需要将此文件存储为UTF-8格式。如果是用UltraEdit编辑,可以在菜单中选择“文件”-》“转换”-》“ASCII到UTF-8”即可。记事本编辑的话,菜单选择“另存为”,编码类型选择UTF-8即可
3.所有复杂的同义词(就是还不在词库中的词),应该在自定义词典中有设置
如:“移动电话”这个词应该在mmseg4j的自定义词典中已经配置,否则创建索引的时候根本有没有“移动电话”这个词,查询“手机”的时候,是不可能把“移动电话”查询出来的。mmseg4j自定义词典的路径,按前文的设置是在solr/home/dic/words-my.dic文件中
4.同义词只能出现一次
即如果已经配置了“大陆 => 中国”,那么是不能再配置“中国 => 中华人民共和国”这样的词条的,否则后一条将覆盖前一条的信息。
5.重新启动Tomcat
即可以在查询中使用同义词。比如:查询“大陆”,会将“中国”的信息全部显示出来。
【备注】
Solr4.2.0+Tomcat9+JDK8+mmseg4j1.9.1
需要拷贝三个jar包
转载于:https://my.oschina.net/gibbons/blog/1512168
Solr 3.5:配置mmseg4j同义词(已经配置好中文分词)相关推荐
- Solr的学习使用之(三)IKAnalyzer中文分词器的配置
1.为什么要配置? 1.我们知道要使用Solr进行搜索,肯定要对词语进行分词,但是由于Solr的analysis包并没有带支持中文的包或者对中文的分词效果不好,需要自己添加中文分词器:目前呼声较高的是 ...
- Solr之——配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/70200378 在上一篇博文<CentOS安装与配置Solr6.5>中, ...
- Apache Solr 中文分词
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词 ...
- 中文分词之11946组同义词
2019独角兽企业重金招聘Python工程师标准>>> 这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里. 一下子 一会 ...
- 给solr配置中文分词器
Solr的中文分词器 中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器. 目前可用的分词器有smartcn,IK,Jeasy,庖丁.其实主要是两种,一种是基于中科院ICTCLAS ...
- solr配置中文分词器
solr配置中文分词器 配置IK分词器 可配置停用词.扩展词.同义词
- SOLR配置默认的一元分词与安装主流的中文分词扩展
引言:SOLR用的好不好,分词是关键,分词分的好不好,词库是关键.没有完美的分词和词库,只有更适合你网站的分词和词库. 目前网络上主流的SOLR分词模块: 1.庖丁分词:PAODING 参考地址:ht ...
- solr6.6配置IK中文分词、IK扩展词、同义词、pinyin4j拼音分词
solr基本指令: jetty部署[推荐]: Linux: $ bin/solr start: Windows: bin\solr.cmd start 创建core: Linux: $ bin/sol ...
- 1、solr包结构介绍,solrCore的安装配置,solr部署到Tomcat,多solrCore配置,配置中文分词器,界面功能介绍,Schema.xml的基本使用,数据导入
一.下载solr,下载地址是:http://archive.apache.org/dist/lucene/solr/,选择自己想要的solr的版本,本项目使用的版本是4.10.3 二.如果想下载Luc ...
最新文章
- 图像与视频合成领域的集大成者,都在这里了!
- 设计model层的理念和思路
- 区块链如何应用于保险行业
- nodeJS 事件绑定
- abp框架mysql连接配置,abp框架连接数据库
- istio可以做什么_什么是Istio?
- 给你的数据来一个顶层设计
- TCP状态转移:有限状态机
- 如何编写代码解决问题,初学者指南
- http://my.oschina.net/huangyong/blog/372491?fromerr=hobPLCmQ#OSC_h2_5
- SQL Server 的完整下载安装教程
- 模糊:让你的代码远离偷窥之眼
- php数据库太小要怎么改,PHP入坑之 MySqli对数据库增删改查
- 幼儿园小程序实战开发教程
- 【Git】git tag
- Edison编译时显示No such file or directory
- 同步/异步 异步回调 协成 线程队列
- 如何编制试算平衡表_会计实务:试算平衡表的编制步骤
- 企业电销如何获得高质量精准流量,大数据获客直击精准客流
- 四、SpringMVC文件上传