中文分词算法——基于统计的分词

1.基于统计的分词（无字典分词）

主要思想：上下文中，相邻的字同时出现的次数越多，就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。

主要统计模型为：N元文法模型（N-gram）、隐马尔科夫模型(Hidden Markov Model, HMM)

1.1N-gram模型思想

模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积 .

我们给定一个词，然后猜测下一个词是什么。当我说“艳照门”这个词时，你想到下一个词是什么呢？我想大家很有可能会想到“陈冠希”，基本上不会有人会想到“陈志杰”吧。N-gram模型的主要思想就是这样的。

对于一个句子T，我们怎么算它出现的概率呢？假设T是由词序列W1,W2,W3,…Wn组成的，那么P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

但是这种方法存在两个致命的缺陷：一个缺陷是参数空间过大，不可能实用化；另外一个缺陷是数据稀疏严重。

为了解决这个问题，我们引入了马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。

如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为bigram。即
P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)
≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

如果一个词的出现仅依赖于它前面出现的两个词，那么我们就称之为trigram。

在实践中用的最多的就是bigram和trigram了，而且效果很不错。高于四元的用的很少，因为训练它需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多。

设w1,w2,w3,...,wn是长度为n的字符串，规定任意词wi 只与它的前两个相关，得到三元概率模型

以此类推，N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。

分词系统判断标准（待解决问题）：歧义识别，新词（未登录词）识别

转自http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html

中文分词算法——基于统计的分词相关推荐

中文分词算法—— 基于词典的方法
1.基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个"大机器词典"中的词条进行匹配,若在词典中找到某个字符串,则匹配成功. 按照扫描方向的不同: ...
自然语言处理之中文分词（基于Python)
人生苦短,我用python 除了给你生孩子,python都能给你做到. 这句话所言不假,python拥有丰富的库,能完成各种各样的的功能. 只有你想不到的,没有python做不到的.下面我们来看看py ...
结巴分词有前空格_NLP 分词的那些事儿
作者: 乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理.欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习. 本文谈一谈分词的那些事儿,从定 ...
数据处理之文本分词、MMSEG分词工具、斯坦福NLTK分词工具
一. 文本分词概述二. 中文分词算法分类三. MMSEG分词工具四. 斯坦福NLTK分词工具 1 CRF方法实例一. 文本分词概述文本分词是将字符串文本划分为有意义的单位的过程,如词语.句子 ...
入门科普：一文看懂NLP和中文分词算法（附代码举例）
导读:在人类社会中,语言扮演着重要的角色,语言是人类区别于其他动物的根本标志,没有语言,人类的思维无从谈起,沟通交流更是无源之水. 所谓"自然"乃是寓意自然进化形成,是为了区分一些 ...
系统学习NLP（九）--中文分词算法综述
转自:https://zhuanlan.zhihu.com/p/33261835 挺好的,推荐! 什么是中文分词与大部分印欧语系的语言不同,中文在词与词之间没有任何空格之类的显示标志指示词的边界.因 ...
中文分词：原理及分词算法
http://www.dianacody.com/2014/11/05/cn_cutwords.html 中文分词:原理及分词算法 05 Nov 2014 By DianaCody 词是最小的能够独立 ...
【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
《自然语言处理实战入门》 ---- 第4课：中文分词原理及相关组件简介之汉语分词领域主要分词算法、组件、服务(上)...
目录 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.2 语言技术平台(Language Technology Platfo ...

中文分词算法——基于统计的分词

中文分词算法——基于统计的分词相关推荐

最新文章

热门文章