1.基于统计的分词(无字典分词)

主要思想:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。

主要统计模型为:N元文法模型(N-gram)、隐马尔科夫模型(Hidden Markov Model, HMM)

1.1N-gram模型思想

模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积 .

我们给定一个词,然后猜测下一个词是什么。当我说“艳照门”这个词时,你想到下一个词是什么呢?我想大家很有可能会想到“陈冠希”,基本上不会有人会想到“陈志杰”吧。N-gram模型的主要思想就是这样的。

对于一个句子T,我们怎么算它出现的概率呢?假设T是由词序列W1,W2,W3,…Wn组成的,那么P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

但是这种方法存在两个致命的缺陷:一个缺陷是参数空间过大,不可能实用化;另外一个缺陷是数据稀疏严重。

为了解决这个问题,我们引入了马尔科夫假设:一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。

如果一个词的出现仅依赖于它前面出现的一个词,那么我们就称之为bigram。即 
   P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) 
          ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

如果一个词的出现仅依赖于它前面出现的两个词,那么我们就称之为trigram。

在实践中用的最多的就是bigram和trigram了,而且效果很不错。高于四元的用的很少,因为训练它需要更庞大的语料,而且数据稀疏严重,时间复杂度高,精度却提高的不多。

设w1,w2,w3,...,wn是长度为n的字符串,规定任意词wi 只与它的前两个相关,得到三元概率模型

以此类推,N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。

分词系统判断标准(待解决问题):歧义识别,新词(未登录词)识别

转自http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html

中文分词算法——基于统计的分词相关推荐

  1. 中文分词算法—— 基于词典的方法

    1.基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个"大机器词典"中的词条进行匹配,若在词典中找到某个字符串,则匹配成功. 按照扫描方向的不同: ...

  2. 自然语言处理之中文分词(基于Python)

    人生苦短,我用python 除了给你生孩子,python都能给你做到. 这句话所言不假,python拥有丰富的库,能完成各种各样的的功能. 只有你想不到的,没有python做不到的.下面我们来看看py ...

  3. 结巴分词有前空格_NLP 分词的那些事儿

    作者: 乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理.欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习. 本文谈一谈分词的那些事儿,从定 ...

  4. 数据处理之文本分词、MMSEG分词工具、斯坦福NLTK分词工具

    一. 文本分词概述 二. 中文分词算法分类 三. MMSEG分词工具 四. 斯坦福NLTK分词工具 1 CRF方法实例 一. 文本分词概述 文本分词是将字符串文本划分为有意义的单位的过程,如词语.句子 ...

  5. 入门科普:一文看懂NLP和中文分词算法(附代码举例)

    导读:在人类社会中,语言扮演着重要的角色,语言是人类区别于其他动物的根本标志,没有语言,人类的思维无从谈起,沟通交流更是无源之水. 所谓"自然"乃是寓意自然进化形成,是为了区分一些 ...

  6. 系统学习NLP(九)--中文分词算法综述

    转自:https://zhuanlan.zhihu.com/p/33261835 挺好的,推荐! 什么是中文分词 与大部分印欧语系的语言不同,中文在词与词之间没有任何空格之类的显示标志指示词的边界.因 ...

  7. 中文分词:原理及分词算法

    http://www.dianacody.com/2014/11/05/cn_cutwords.html 中文分词:原理及分词算法 05 Nov 2014 By DianaCody 词是最小的能够独立 ...

  8. 【NLP】中文分词:原理及分词算法

    一.中文分词 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...

  9. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...

    目录 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.2 语言技术平台(Language Technology Platfo ...

最新文章

  1. “AI理论之父应该是哥德尔”,LSTM之父再抛惊人观点,网友:他有点走火入魔...
  2. 95-130-346-源码-source-kafka相关-KafkaConsumerThread
  3. java equals 字符串_Java String 字符串 比较 == equals
  4. 一些会遗忘的代码属性
  5. 面向边缘计算的资源优化技术研究进展
  6. node(map对象/键值对,作用域,函数作用域,全局作用域)
  7. python批量解压文件_Python 批量解压ZIP和RAR压缩文件(循环验证密码)
  8. IM 即时通讯开发如何设计图片文件的服务端存储架构
  9. 计算机的供电方式,电脑主板电源供电方式
  10. 遍历两个数组,使得值相等的时候,给第一个数组增加一个值为 true 的属性。
  11. Java程序员找工作很难吗?可能没有get这些内容
  12. 一般云服务器支持多少并发,一般云服务器支持是多大并发?
  13. npm 发布包与遇见的问题 (随记)
  14. 学会Pr剪辑培训,兼职竟比主业还高?
  15. 我的世界java版红石电梯_《我的世界》红石电梯建造教程
  16. java 邮件 客户端_JAVA编写ESMTP客户端发送邮件代码
  17. 什么是features(特征)
  18. 网络媒体教程:采访与写作
  19. 太阳模拟器都能够实现哪些功能?
  20. 条条大路通罗马LS-GAN:把GAN建立在Lipschitz密度上

热门文章

  1. VMware虚拟机去虚拟化完整版教程|永久过强壳VMP、SE壳、GK盾、TMD教程|VMware去虚拟化吾爱汇编论坛教程完整版
  2. avenue css,CSS构建的平面建筑布局图
  3. 小程序token有效期_微信小程序token过期时间后重新获取-微信小程序过期恢复步骤-微信小程序怎么找...
  4. 案例:学生版增删改查
  5. 吹塑机是什么?它的用途?
  6. 未雨绸缪:面试前为何要带一份不一定被阅的简历?
  7. Unrar解压缩.rar文件
  8. python解压rar文件(利用unrar)win10下教程
  9. html播放h265,Web 播放 H.265视频
  10. linux自动关机取消命令,Linux中Shutdown命令实现定时自动关机