2019独角兽企业重金招聘Python工程师标准>>>

前提,已经安装配置好Tomcat8与Solr3.5,并且配置好mmseg4j中文分词

1.修改 conf/schema.xml

在fields节点下面的mmseg4j分词器相关配置修改为类似于如下的内容:

<fieldType name="textComplex" class="solr.TextField" >
       <analyzer type="index">
         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
          <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
       </analyzer>
       <analyzer type="query">
         <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
          <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
       </analyzer>
    </fieldType>

2.修改solr/home/conf/synonyms.txt

在里面加入你认为中同义词的数据,形如:
手机 => 移动电话
大陆 => 中国
需要将此文件存储为UTF-8格式。如果是用UltraEdit编辑,可以在菜单中选择“文件”-》“转换”-》“ASCII到UTF-8”即可。记事本编辑的话,菜单选择“另存为”,编码类型选择UTF-8即可

3.所有复杂的同义词(就是还不在词库中的词),应该在自定义词典中有设置

如:“移动电话”这个词应该在mmseg4j的自定义词典中已经配置,否则创建索引的时候根本有没有“移动电话”这个词,查询“手机”的时候,是不可能把“移动电话”查询出来的。mmseg4j自定义词典的路径,按前文的设置是在solr/home/dic/words-my.dic文件中
4.同义词只能出现一次

即如果已经配置了“大陆 => 中国”,那么是不能再配置“中国 => 中华人民共和国”这样的词条的,否则后一条将覆盖前一条的信息。
5.重新启动Tomcat

即可以在查询中使用同义词。比如:查询“大陆”,会将“中国”的信息全部显示出来。

【备注】

Solr4.2.0+Tomcat9+JDK8+mmseg4j1.9.1

需要拷贝三个jar包

转载于:https://my.oschina.net/gibbons/blog/1512168

Solr 3.5:配置mmseg4j同义词(已经配置好中文分词)相关推荐

  1. Solr的学习使用之(三)IKAnalyzer中文分词器的配置

    1.为什么要配置? 1.我们知道要使用Solr进行搜索,肯定要对词语进行分词,但是由于Solr的analysis包并没有带支持中文的包或者对中文的分词效果不好,需要自己添加中文分词器:目前呼声较高的是 ...

  2. Solr之——配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer

    转载请注明出处:http://blog.csdn.net/l1028386804/article/details/70200378 在上一篇博文<CentOS安装与配置Solr6.5>中, ...

  3. Apache Solr 中文分词

    中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词 ...

  4. 中文分词之11946组同义词

    2019独角兽企业重金招聘Python工程师标准>>> 这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里. 一下子 一会 ...

  5. 给solr配置中文分词器

    Solr的中文分词器 中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器. 目前可用的分词器有smartcn,IK,Jeasy,庖丁.其实主要是两种,一种是基于中科院ICTCLAS ...

  6. solr配置中文分词器

    solr配置中文分词器 配置IK分词器 可配置停用词.扩展词.同义词

  7. SOLR配置默认的一元分词与安装主流的中文分词扩展

    引言:SOLR用的好不好,分词是关键,分词分的好不好,词库是关键.没有完美的分词和词库,只有更适合你网站的分词和词库. 目前网络上主流的SOLR分词模块: 1.庖丁分词:PAODING 参考地址:ht ...

  8. solr6.6配置IK中文分词、IK扩展词、同义词、pinyin4j拼音分词

    solr基本指令: jetty部署[推荐]: Linux: $ bin/solr start: Windows: bin\solr.cmd start 创建core: Linux: $ bin/sol ...

  9. 1、solr包结构介绍,solrCore的安装配置,solr部署到Tomcat,多solrCore配置,配置中文分词器,界面功能介绍,Schema.xml的基本使用,数据导入

    一.下载solr,下载地址是:http://archive.apache.org/dist/lucene/solr/,选择自己想要的solr的版本,本项目使用的版本是4.10.3 二.如果想下载Luc ...

最新文章

  1. 图像与视频合成领域的集大成者,都在这里了!
  2. 设计model层的理念和思路
  3. 区块链如何应用于保险行业
  4. nodeJS 事件绑定
  5. abp框架mysql连接配置,abp框架连接数据库
  6. istio可以做什么_什么是Istio?
  7. 给你的数据来一个顶层设计
  8. TCP状态转移:有限状态机
  9. 如何编写代码解决问题,初学者指南
  10. http://my.oschina.net/huangyong/blog/372491?fromerr=hobPLCmQ#OSC_h2_5
  11. SQL Server 的完整下载安装教程
  12. 模糊:让你的代码远离偷窥之眼
  13. php数据库太小要怎么改,PHP入坑之 MySqli对数据库增删改查
  14. 幼儿园小程序实战开发教程
  15. 【Git】git tag
  16. Edison编译时显示No such file or directory
  17. 同步/异步 异步回调 协成 线程队列
  18. 如何编制试算平衡表_会计实务:试算平衡表的编制步骤
  19. 企业电销如何获得高质量精准流量,大数据获客直击精准客流
  20. 四、SpringMVC文件上传

热门文章

  1. dos命令添加war包
  2. php采集 纠正一下
  3. 用C#制作新闻阅读器(电脑报2005年3月14日 第10期)
  4. Confluence 6 配置 HTTP 超时设置
  5. ubuntu 14.10 使用fcitx输入法
  6. DOM manipulation
  7. ftp connect: No route to host 解决过程
  8. 验证mongodb副本集并实现自动切换primary~记录过程
  9. [官方摘要]Setup And Configuration memcached with Tomcat
  10. linux svn 开机启动