目的:在对英文句子分词的时候,一般采用采用的分词器是WhiteSpaceTokenizerFactory,有一次因业务要求,需要根据某一个特殊字符(以逗号分词,以竖线分词)分词。如图1,我输入的词,如果用ik分词器,会分成如图1的效果,用自定义按逗号分割的分词器,会分成如图2的效果。

图(1)

图(2)

1.加入jar包

<dependency>

<groupId>org.apache.solr</groupId>

<artifactId>solr-core</artifactId>

<version>6.0.0</version>

</dependency>

2.参照WhitespaceTokenizerFactory的源码,写一个自己的MyVerticalLineTokenizerFactory如图3,内容基本不变:

图(3)

3.写一个MyVerticalLineTokenizer.java类如图4,实现用逗号分词

图4

这里最主要的方法就是isTokenChar,它控制了分词的字符

4.需要把刚才的java文件打成jar包,Eclipse,直接选中两个类文件,右键 -> Export -> JAR File -> Select the export destination: ->选择输出路径,填一个jar名字:MyVerticalLineTokenizerFactory -> Finish,

得到的MyVerticalLineTokenizerFactory.jar文件大约3KB,将改文件放置到tomcat7/webapps/solr/WEB-INF/lib下,在shcema.xml中定义自己的field如图5

图(5)

重启tomcat,按照comma_text类型进行分词,就会出现如图2的效果。

参照:http://blog.csdn.net/jiangchao858/article/details/68954044

solr自定义分词器相关推荐

  1. 15.1 自定义分词器

    创建自定义分词器 测试分词器 DELETE /test_analyzer PUT /test_analyzer { "settings": { "analysis&quo ...

  2. ElasticSearch教程——自定义分词器(转学习使用)

    一.分词器 Elasticsearch中,内置了很多分词器(analyzers),例如standard(标准分词器).english(英文分词)和chinese(中文分词),默认是standard. ...

  3. 【Es】ElasticSearch 自定义分词器

    1.分词器 转载:https://blog.csdn.net/gwd1154978352/article/details/83343933 分词器首先看文章:[Elasticsearch]Elasti ...

  4. Solr Tokenizers分词器介绍

    摘要: Solr的分词器(Tokenizers)用来将文本流分解成一系列的标记(tokens).分析器analyzer 受字段配置的影响,分词器(Tokenizers)于此无关.分析器主要是把字符流( ...

  5. Elasticsearch 分布式搜索引擎 -- 自动补全(拼音分词器、自定义分词器、自动补全查询、实现搜索框自动补全)

    文章目录 1. 自动补全 1.1 拼音分词器 1.2.1 自定义分词器 1.2.2 小结 1.2 自动补全 1.3 实现酒店搜索框自动补全 1.3.1 修改酒店映射结构 1.3.2 修改HotelDo ...

  6. Elasticsearch配置拼音分词和自定义分词器

    下载elasticsearch-analysis-pinyin拼音分词器  https://codeload.github.com/medcl/elasticsearch-analysis-pinyi ...

  7. elasticsearch分词练习、自定义分词器练习

    elasticsearch分词练习.自定义分词器练习 分词练习 自定义分词器 分词练习 准备数据 post metric_zabbix/log {"@message":" ...

  8. ElasticSearch03_Mapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器

    文章目录 ①. Mapping字段映射概述 ②. 常用类型如下 - text.keyword ③. 映射中对时间类型详解 ④. ES的keyword的属性ignore_above ⑤. 映射的查看.创 ...

  9. 商城项目18_esMapping字段映射、常用类型、数据迁移、ik分词器、自定义分词器

    文章目录 ①. Mapping字段映射概述 ②. 常用类型如下 - text.keyword ③. 映射中对时间类型详解 ④. ES的keyword的属性ignore_above ⑤. 映射的查看.创 ...

  10. 微服务框架 SpringCloud微服务架构 27 自动补全 27.2 自定义分词器

    微服务框架 [SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务] SpringCloud微服务 ...

最新文章

  1. 不需要显示地图 就获得用户当前经纬度 超简单的方法
  2. 16s扩增子分析注意事项和经验总结Tips
  3. kafka项目启动_Kafka 探险 源码环境搭建
  4. 字节跳动最新开源!java界面实现查询功能
  5. Leetcode题库 598.N叉树的前序遍历(递归迭代 C实现)
  6. 副本的leader选举
  7. TIOBE 11月编程语言排行:Java首次跌出前二,Python 势不可挡。
  8. Docker容器虚拟化技术---Docker运维管理(Docker Compose)4
  9. 使用宽度优先搜索的常见场景
  10. 微信8.0来了!黄脸表情会动了,还能扔炸弹...一大波新功能上线!
  11. 【vue开发问题-解决方法】(五)vue Element UI 日期选择器获取日期格式问题 t.getTime is not a function
  12. React Native知识7-TabBarIOS组件
  13. 谷歌浏览器下载更新(附带谷歌安装包百度云)
  14. JS实现拖动滑块验证
  15. Win7系统屏保也可以当桌面壁纸
  16. LoadRunner教程(13)-LoadRunner 服务水平协议
  17. 新手CrossApp 之CAProgress小结
  18. Go语言学习日记【十八】golang中context包简介与使用
  19. MP3格式的音乐怎么转换成WAV格式?小编教你一招
  20. 我只是一只大本钟[铛铛铛]

热门文章

  1. android 字体显示框架,资源样式 - 主题 - 《XUI - Android 原生 UI 框架》 - 书栈网 · BookStack...
  2. 雄迈H.265 DVR程序功能升级简介
  3. 简单几步开启Mac访问NTFS格式读写
  4. 实用的截屏、录屏、图片识字工具推荐
  5. 在WIN10中安装经典计算器
  6. windows--bat--通过bat批处理写入.reg文件在注册
  7. 步进电机基础(4.2)-步进电机的技术要点之磁性材料、绝缘材料与线圈、轴承、减速器
  8. 图像处理——插值算法
  9. Oracle EBS新汇总模板创建系统余额表的记录
  10. 如何免费编辑PDF文档?