说明

  到目前为止,就中文分词工具和中文分词方法而言,分词模型大概有10几个种类,效果较好的并不多,HMM,MMSEG之类的,当然还有深度学习的模型,paddle的模型比较好。按工具名说的话有中科院的nlpir,哈工大的ltp,不知何出的jieba,还有清华北大都有分词工具,还有很多,十几种应该有。所有工具我都看了的效果并不是他们吹嘘的那么好,很多场景都无法正常分词。
主要问题:
  同样的词在不同的句子中分词效果不一样;
  未登录词,也就是常见的专有名词,无法处理;
  歧义句子;
  现在语言多国语言混输;
  文言文这种,常人无法看懂的文章。

这些问题解决思路:通过Natural Language Understanding和Reinforcement Learning,应该还没人研究出来;

正文

  这里用maven,IK分词找不到单独实现的包,因为它实现在lucene所以需要借用lucene-core

     <!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-core --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-core</artifactId><version>8.6.3</version></dependency><!-- https://mvnrepository.com/artifact/com.jianggujin/IKAnalyzer-lucene --><dependency><groupId>com.jianggujin</groupId><artifactId>IKAnalyzer-lucene</artifactId><version>8.0.0</version></dependency>

  java代码,注意包名这里没添加


import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
import static java.lang.System.out;import java.io.StringReader;
import java.util.ArrayList;
import java.util.List;public class test4 {public static String ikwordSplit( String content) throws Exception {@SuppressWarnings("resource")IKAnalyzer analyzer=new IKAnalyzer(true);TokenStream stream = analyzer.tokenStream(null, new StringReader(content));stream.reset();CharTermAttribute term = stream.addAttribute(CharTermAttribute.class);List<String> result = new ArrayList<String>();while(stream.incrementToken()) {result.add(term.toString());}stream.close();return String.join("|", result);}public static void main(String[] args) throws Exception {out.print(ikwordSplit("明天你好"));}
}

总结

  分词效果一般般,还没jieba好,这是个人认知,通常分词还是能胜任。见仁见智,目前文本分词还有很长的路要走,前面的问题亟待解决!像paoding,盘古这些分词方法,据网上发文好像火过一段时间,现已消沉。

  自然语言处理分词不仅仅是中文分词,还要考虑英文、古文。世界在发展,全球文字分词也需要考虑,所以,还得做语言识别,语言识别大体比较简单uncode编码可以做到。但是拼读文字可能会识别错误,而且每个字符都要做一次文字识别,计算量还是有些大。

IK分词工具的使用(java)相关推荐

  1. 分词工具 java_ICTCLA中科院分词工具用法(java)

    摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误.开始使用NLPIR分词,在分词准确性上效果要比SCWS好.本文介绍如何在windows系 ...

  2. 自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列十七 分词工 ...

  3. Java实现敏感词过滤 - IKAnalyzer中文分词工具

    IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...

  4. ik分词和jieba分词哪个好_JiebaIK Analyzer——分词工具的比较与使用

    现有的分词工具包概览 现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查.有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解. 常见开源的中文分词工具 接下 ...

  5. 分词工具 java_IK分词工具的使用(java)

    说明 到目前为止,就中文分词工具和中文分词方法而言,分词模型大概有10几个种类,效果较好的并不多,HMM,MMSEG之类的,当然还有深度学习的模型,paddle的模型比较好.按工具名说的话有中科院的n ...

  6. ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

    中文分词是中文自然语言处理中的重要的步骤,有一个更高精度的中文分词模型会显著提升文档分类.情感预测.社交媒体处理等任务的效果[1]. Pubseg是基于BiLSTM中文分词工具,基于ICWS2005P ...

  7. Java培训学习之分词工具之HanLP介绍

    HanLP 是由一系列模型和算法组成的Java工具包.目标是普及自然语言处理在生产环境中的应用.它不仅是分词,还提供了词法分析.句法分析.语义理解等完整的功能.HanLP 具有功能齐全.性能高效.结构 ...

  8. 基于java的中文分词工具ANSJ

    ANSJ 这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 ...

  9. java中文分词工具_中文分词工具(LAC) 试用笔记

    一.背景 笔者2年前写过一篇<PHP使用elasticsearch搜索安装及分词方法>的文章,记录了使用ES的分词的实现步骤,最近又需要用到分词,在网上发现一个百度的中文分词项目,中文词法 ...

最新文章

  1. 学会这21条,你离Vim大神就不远了
  2. android利用WebView实现浏览器的封装
  3. 运维工程师 | 交换机堆叠
  4. 前端科普系列(2):Node.js 换个角度看世界,
  5. StarUML使用说明-指导手册
  6. linux block的含义,Block Prefetching含义
  7. Leetcode中学到的SQL函数汇总
  8. 锁屏界面_强迫症必爱!iPhone怎样隐藏锁屏界面的手电筒、相机图标?
  9. php能做什么程序,PHP 能做什么?
  10. Android Fragment-APP调用其他APP中的Fragment 1
  11. 【Linux】虚拟服务器之LVS
  12. FashionMNIST数据集国内可以用的下载地址
  13. c/c++ utf-8与gbk的互相转化
  14. 浅析RFID固定资产管理系统应用背景与技术优势
  15. 什么是 DNS,有什么作用?为什么需要更换公共DNS服务器?
  16. word恢复到安装时的状态?
  17. sas html5,什么是sas?
  18. 怎么用计算机算出出生日期,算农历出生日期计算器,根据出生日期怎么算年龄?...
  19. lorem ipsum是什么
  20. [附源码]计算机毕业设计JAVAjsp基于个性化的汽车购买推荐系统

热门文章

  1. 个性化推荐商品-千人千面
  2. getting和setting方法
  3. Python OpenCV -- Laplacian 算子(十)
  4. python聚类分析sklearn_用scikit-learn学习K-Means聚类
  5. android前台渲染图片,自定义View
  6. 没有合同被私人老板拖欠工资要如何处理
  7. 专家系统与计算机程序的区别是,专家系统的结构和类型
  8. 电感电容的储存能量推导
  9. 汉语拼音大全_php_sir_新浪博客
  10. 2011年上海免费pmp活动计划