中文分词其实有点像古代的句读(dou),韩愈的《师说》中就有:“彼童子之师,授之书而习其句读者也”。古人文章是没有标点符号的,行文一气呵成。如果不懂离经断句,就很难理解古文的意思。从某种程度上,句读就类似今天要讲的中文分词。

北京航空航天大学的梁南元教授提出了查字典的方法

查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词。如果分割出的词与后面的字不会组成更长的词,那么分割点就最终确定了。这种最简单的方法可以解决七八层以上的分词问题,在不太复杂的前提下,取得了还算满意的效果。

20世纪80年代哈尔滨工业大学的王晓龙博士将查字典的方法理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。但是并非所有最长匹配都是正确的,语言的歧义性是分词的最大难题。

1990年清华电子工程系的郭进博士率先使用统计语言模型成功解决分词二义性问题,将汉语分词错误率降低了一个数量级。最为简单的思考是有N中分词所得,统计各种分词结果出现的概率,选择最大概率的分词结果作为最好的分词方法。这里有一个实现技巧,如果穷举所有分词结果,显然会导致计算量大增。因此,可以看成一个动态规划问题,利用维特比算法快速找到最佳分词。这样就可以构造分词器:输入字串,输出分词字串,中间需要词典和语言模型作为辅助。

清华大学郭茂松教授解决了没有词典时的分词问题;香港科技大学吴德凯教授较早将中文分词方法用于英文词组的分割,并将英文词组和中文词组在机器翻译时对应起来。

另外,对于平板电脑和智能手机的出现,英文手写体中的分词常常是需要的,因此,中文分词方法可以帮助判别英语单词的边界。

衡量分词的结果可以采用分词的一致性;人工分词产生的原因主要在于人们对词的颗粒度认识问题。解决办法可以构建一个基本词表和复合词表,不断丰富完善复合词表,会将分词器的明显错误得以改进。

************************

2015-8-7

转载于:https://www.cnblogs.com/huty/p/8519263.html

读《数学之美》第四章 谈谈分词相关推荐

  1. 数学之美 十四 谈谈数学模型的重要性

    数学之美 十四 谈谈数学模型的重要性 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型.为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整 ...

  2. 数学之美 第3章 统计语言模型

    数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...

  3. 浅读西瓜书(第四章)

    浅读西瓜书(第四章) 4.1基本流程 ​ 决策树,顾名思义,肯定与做决策有关.实际上决策树既可以做决策也可以做回归.在我们生活中其实也经常用到决策树的模型.比如猜数字的游戏.给出一个数字,猜想者猜测一 ...

  4. 《数学之美》——第九章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章    图 ...

  5. 《数学之美》——第一章 个人笔记

    数学之美 最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章    文 ...

  6. 《数学之美》选章精读

    曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫 概念 图论起 ...

  7. 《数学之美》第4章 谈谈分词

    1 中文分词方法的演变 可以利用语言模型进行自然语言处理,而这些语言模型是建立在词的基础上的,因为词是表达语义的最小单位. 分词方法:查字典,北航梁南元教授提出.可以解决七八成以上的问题. 20世纪8 ...

  8. AI - 深度学习之美十四章-概念摘要(8~14)

    原文链接:https://yq.aliyun.com/topic/111 本文是对原文内容中部分概念的摘取记录,可能有轻微改动,但不影响原文表达. 08 - BP算法双向传,链式求导最缠绵 反向传播( ...

  9. 《数学之美》第一章读后感

    第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...

最新文章

  1. Linux命令行–更多bash shell命令(转)
  2. c语言源程序结构是怎样的?
  3. Python类中的私有属性和私有方法
  4. Spring boot admin 升级到2.3.1 遇到的问题总结
  5. flex4 BlazeDS 入门及配置
  6. 图像分类数据集-09-p3
  7. linux如何运行java程序,Linux环境下运行简单java程序
  8. 南京农业大学 操作系统课程设计
  9. 南京邮电大学matlab实验报告,南京邮电大学通信与信息处理江苏省实验教学示范中心...
  10. bridging the gap between anchor-based and anchor-free detection via adaptive training sample select
  11. mysql误删除数据恢复_mysql误删除数据恢复
  12. windows 错误代码2
  13. maven 打jar包:mvn clean package
  14. 集合添加元素python_集 - 百度文库
  15. 有道云笔记分享_原来分享可以更美的 有道云笔记分享功能优雅变身
  16. 网易云信周梁伟专访:亿级架构IM平台的技术难点解析
  17. 电缆故障测试仪的基本原理与组成——TFN DG15M电缆故障测试仪
  18. 数据中台 第8章 数据资产管理
  19. GNU Screen Usage
  20. SAP:QUERY中SQ02增加选择屏幕权限控制

热门文章

  1. mysql怎么返回上一行_月球上并没有发射基地,阿波罗飞船是怎么返回地球的?...
  2. APP 文档服务器,app服务器
  3. oracle把多行合并成字符串,怎样将Oracle多行转换成字符串?
  4. oracle vm 环境支持,使用 Oracle VM 模板快速部署 Oracle RAC 环境
  5. python 发送邮件附件很慢_python下smtpsendmail发送特别慢
  6. angular 注入器配置_Angular依赖注入介绍
  7. php链接远程socket,php使用socket获取远程图片
  8. mysql数据库表中的类型_MySQL数据库中表类型MyISAM与InnoDB的区别
  9. 二进制_简学:二进制数制的应用
  10. 核心交换机相对于普通交换机的优势