三字歧义链自动分词方法

(张翠英)(山西大学信息管理系,太原030006)
(亢临生)(山西大学计算中心,太原030006)Three-words Ambiguity Chain and Word Segmentation

Zhang Cuiying
(Department of Information Management,Shanxi University,Taiyuan 030006)
Kang Linsheng
(Computer Centre,shanxi University,Taiyuan 030006)1 分 析 过 程(如构词法、构形法、句法、语义等),设计出解决三字歧义链问题的实用分词规则。
  具体分析过程可概括为图1。
2.1 分析结果120万字。在分析过程中得出如下一些技术数据:
  分词词库规模:50012条
  二字词规模:32826条(占词库词条的66%)
  三字串库规模:636781条
  分析真实语料:120万字
  语料中出现的三字链次:15972次
  其中,只出现一次的三字链:3625次,重复性出现的三字链:2332次
  上述数据尽管只是对120万字原语料进行分析的结果,但在120万语料中,包含了《人民日报》各栏目的内容,题材比较广泛,涉及到了社会科学和自然科学多方面的内容,对它的研究结论具有一定的实用价值。从原理上讲,就三字歧义库规模而言,出现三字歧义链的概率可能会相当大,但从真实语料中的搜索结果来看,大多数的三字歧义链在语言的实际应用中根本不会出现,因而,无需分析所有可能的三字歧义链。实际上,只对真实语料中出现的三字歧义链进行分析、研究、总结其规律和解决正确切分的方法,即能达到实用的目的。

2.2 三字歧义链分词特性(MM法),并辅助一些特性词的处理规则(数字词规则、人名规则、前后缀规则、叠加成分规则、歧义规则等)[2]MM法的特点,三字歧义链按照前两个字的特性进行分类如下:
  (1)三字链本身在切分时,应合成为一个词,而无需再分:1988年1月由温贝托大夫主持”等。3.1 分词方法的基本思路
  目前的分词算法多种多样,基本上可分为两大类:机械性分词和理解性分词法。后者可谓理想的方法,但在语法分析、语义分析乃至篇章理解还没有得到解决之前,其分词实用系统主要采用机械分词法,但实际上纯机械性分词也无人在用,一般都使用介于二者之间的某种分词法。
  在我们开发的分词系统中,分词法的基本思想是:在分词词库中收入一定量的实用词及一些具有某种特性的字/词(如:前缀、后缀,基数字、词素、姓氏、单字词等),并对一些特性字/词或实用词加入一定分词特性信息。分词时,首先利用MM法从字串中匹配选出一个词/特性字,然后根据初选的词/字的分词特性调用相应规则,进行切分结果的调整,以保证分词的正确性。

3.2 三字歧义链切分规则
  对可能产生歧义切分的词(即三字链中的前二字)根据分词特点及前述的特性分类共使用了三种分词特性代码:PT(普通词代码:当初分出该词后无需进行歧义处理,即把该词作为分词结果,系统继续后继字串处理,前述[2]属此种情况);HH(后合特性代码:分出此类词后,系统要检测,此词的尾字是否与其后继字串可合成为词,若存在词,则第一字为词,第二字与后继字/字串组成词,前述[4]属此种情况);QY(即可能产生歧义切分,需用一组规则进行处理,前述[3]、[5]、[6]即属这种情况)。
  另外,对[1]类情况根据MM法特点,三字词优先被选出,因而切分时,不再进行处理即可(实际切不出前两字或后两字组成的词);对[7]类问题应归于专用名的切分问题[3],在此不作论述。
  下面对切分出分词特性为QY和HH的词后的调整规则进行论述。设:CW:当前词(即分词特性为QY);其中C,W分别为字。
  P=P1P2……:CW的后继字串;其中P1,P2,…分别为单字。
  PI:P中以Pi打头的子字串。
  含词:字串最左端含二字或二字以上的词(左字串为词)规则:
  (1)若WP不含词,则CW切分为词。
  (2)若WP1为词,P1不含词则:
  若P1为单字词且C为非单字词,或P1为后缀且CW为非拒合(即不能加后缀成份),则CW切分为词,否则C切分为词。
  (3)若WP为词则顺序检测P2P3…,直至Pn不含词。
  ① 若从C至Pn的字数为偶数,则CW切分为词,否则:
  ② 若C为词素且P1为非词素,则CW切分为词,否则:
  ③ 若C为单字词且P1为词素,则C切分为词,否则:
  ④ 若存在某个含词的Pk的分词特性为hh,则当C至Pk为偶数时,CW切分为词,否则:
  ⑤ 在CP中检索出第一个特性为单字词的字,或姓氏、前缀、后缀字pk且pk含词,则当c至pk为偶数时,CW切分为词,否则,C切分为词。
  例如:“野生动物种类最多的国家之一”,包含野生动、生动物、动物种、物种类四个三字歧义链,在初分出“野生”后,根据其分词特性调用上述规则,C=野、W=生、P1=动、P2=物、P3=种、P4=类、P4=类最多的国家之一,而P4不含词,因从C至P4字数为偶数,而能切分出:“野生”为正确结果。
。根据
  在我们开发的实用分词系统中采用的是最大匹配法
  对三字歧义链的分析基础是在分词系统软件中使用的分词词库及摘自《人民日报》不同时期、不同栏目的真实语料共计

摘要  歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上,根据大量的真实语料中出现的歧义现象,把可能产生歧义切分的词进行特性分类,对每类确定一组规则进行处理。
关键词  歧义 分词特性 分词系统

AbstractThe ambiguity is one of the important problem that need to solve in the automatic word segmentation.It is introduced in this paper that the maximum matching method which can be used to classify Chinese words and phrases according to their characteristics of word segmentation,mark them with different marks and process each group of words and phrases with a certain set of rules.
Keywordsambiguity,characteristics in word segmentation,word segmentation system.

  根据《信息处理用现代汉语分词规范》,以及自然语言理解领域中的研究结果表明,现代汉语的篇章中二字词占70%[1]以上。因而,在自然语言理解的基础工作——自动分词过程中,能有效地处理二字歧义组合结构就成了解决歧义组合结构的关键,本文就我们开发的“现代汉语自动分词实用系统”中采用的解决三字歧义链的方法作一概述。    


图1

  任何事物的产生和发展都有一定的特点和规律,因而找出现代汉语真实语料中出现歧义的三字链,并对它们进行分析、分类,进而总结出产生三字歧义链的特点规律,就成为解决问题的关键。在此基础上再利用汉语自身的知识

2 分析结果及三字串特性分类

[1]

  例如:“到了近代地理学
防护林体系建设工程之后”
发电机三大主机集中控制”
“公司先进工作者
  (2)三字链中,只能把前两个字处理为词:

[2]

  例如:前两字都为“干部”的三字链出现过12次,但都只能把“干部”切分为词:
    “选派干部长期深入下去帮助基层工作”应为“干部/长期;
“这样的干部下基层俺们打心眼里喜欢”应为:干部/下;
“甘肃省领导干部分10路下去抓春耕”应为:干部/分等。
  (3)三字链中只能把后两个字切分为词,这类三字链又可根据第一字的分词特性分为:
  ① 第一字与前面有的字组合为词(实为连续三字链):

[3]

  例如:“造成交通堵塞”存在:造成交、成交通
“尽快形成规模”存在:形成规、成规模
“限时完成规定的目标”存在:完成规、成规定
  ② 第一字应单独切分为词:

[4]

  例如:“把稳定物价与适当调价结构统一在可靠的基础上”应分为:“把/稳定”;
  工人和班组长”应分为:班/组长;
“经济文化发展之不平衡”应分为:不/平衡;
“进一步调整租买比价”应分为:步/调整。
  (4)三字链中可能前两字应为词,也可能后两字应为词。
  在这类三字链中,又可根据第一字和第三字的特点分为二类:
  ① 只能第一字与前面的字成词或第三字与后面的字成词(同属连续三字链的情况):

[5]

  例如:以“产品”打头的三字歧义链共出现过110次,但都属于这类情况:
  “他们生产品种达60余种”应分为:“生产/品种”;
产品质量次的企业要停产整顿”应分为:“产品/质量”;
“1980年荣获全国景泰兰产品评比第一名”应分为:“产品/评比”;
“为省优质产品评审委员会反映了意见”应分为:产品/ 评审”。
  ② 非①的情况:

[6]

  例如:以“工人”打头的三字链共出现50次,在不同的句子中具有不同的特性:
  “但工人们放弃了休息”应为“工人/们”;
“钟点工人数大增”应为“工/人数”;
“命名24名工人为业余的作家”应为:“工人/为”。
  (5)由于人名、地名等专用名词引起的三字链

[7]

  “美国格伦威尔邮局……”;

3 三字歧义链切分方法

4 结  语

  上述是对二字词可能引起歧义切分的处理方法,同样可推广到多字词。通过对上述规则实用性验证(120万语料),其对一般二字词的歧义切分正确率达到了99%以上[2],但不足之处是它不包含由于专用名词引起的歧义问题,由于专用名词(尤其是人名、地名)无法枚举,有限的词库规模无法满足这类问题的分词需要,它有待于自然语言理解各方面对这类问题的新的处理成果的应用。

参考文献

[1] 李国臣、刘开瑛、张永奎:汉语自动分词及歧义组合结构的处理,《中文信息学报》,1988,2(3),87—89
[2] 亢临生、张永奎:基于标记的分词算法,《山西大学学报》,1994,(2),283—286
[3] 亢临生、张永奎:利用分词属性解决歧义切分,《电脑开发与应用》,1994,7(4),2—5

三字歧义链自动分词方法相关推荐

  1. dedecms 漏洞_织梦dedecms文档内容页自动关联tag标签加入内链的方法_dedecms_CMS教程...

    效果: 实现教程 1.后台-系统-核心设置-关键字替换,选择[是] 2.后台-系统-其他选项-关键词替换次数,填[1]或者[0] 1:表示文档内容里有多个关键词,只让1个是内链 0:表示文档内容里有多 ...

  2. 马尔科夫链和马尔科夫链蒙特卡洛方法

    前言 译自:<Training Restricted Boltzmann Machines: An Introduction > 马尔科夫链在RBM的训练中占据重要地位,因为它提供了从复杂 ...

  3. php判断外链,php检查字符串中是否有外链的方法

    这篇文章主要介绍了php检查字符串中是否有外链的方法,涉及php针对字符串的正则匹配的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下 本文实例讲述了php检查字符串中是否有外链的方法.分享给大家 ...

  4. 通过Python实现马尔科夫链蒙特卡罗方法的入门级应用

    通过把马尔科夫链蒙特卡罗(MCMC)应用于一个具体问题,本文介绍了 Python 中 MCMC 的入门级应用. GitHub 地址:https://github.com/WillKoehrsen/ai ...

  5. html 图片防盗链,【反防盗链】介绍一个对付图片防盗链的方法

    悲催的声明: 由于腾讯也采用了防盗链技术,本文方法已经失效了! 当我们想在文章里引用某张图片时,如果对方设置了防盗链,我们看到的将是404或forbidden或其他图片,而不是想要的那张图片,为此,我 ...

  6. 如何在PHP中实现链式方法调用

    写程序的人都喜欢偷懒,希望少打几行代码,并且让代码看起来很酷. 所以很多人写程序都会选择三元运算取代if..else.... 而用过JS的人应该都见识过js中的链式方法. 如 somevars.fun ...

  7. C#中扩展StringBuilder支持链式方法

    本篇体验扩展StringBuilder使之支持链式方法. 这里有一个根据键值集合生成select元素的方法. private static string BuilderSelectBox(IDicti ...

  8. php破解referer防盗链解析,Referer原理与图片防盗链实现方法详解

    本文实例讲述了Referer原理与图片防盗链实现方法.分享给大家供大家参考,具体如下: 1.图片防盗链 在一些大型网站中,比如百度贴吧,该站点的图片采用了防盗链的规则,以至于使用下面代码会发生错误. ...

  9. 忠魁互联网站SEO优化的外链建设方法

    很多站长都认为外链的建设主要是以量取胜,但是这种想法并不正确.因为不少站长为了节省时间,会使用群发软件建设外链,而这样的外链并不稳定,随时会被删除.每个网站运营人员在SEO工作中,有个重点部分每个人都 ...

最新文章

  1. Git 提交代码之后的几种后悔药
  2. Leetcode 120. 三角形最小路径和 解题思路及C++实现
  3. 布隆过滤器原理及在推荐业务的应用
  4. Win8下的SAP安装初体验
  5. 影驰名人堂送的机器人_玩转GTX 1080Ti名人堂显示屏 影驰全新魔盘使用教程
  6. java实现登陆面试题_【Javaweb】笔面试题 ---(1)(示例代码)
  7. SQL 无限级分类语句
  8. win32键盘输入python_python-win32api键盘输入教程
  9. 基本类型与字符串的相互转换
  10. mysqlslap 压力测试工具
  11. 解决java.io.IOException: HTTPS hostname wrong: should be
  12. Android Button常用属性
  13. 蓝桥杯2021年第十二届C++省赛第四题-货物摆放
  14. 面试题1,值传递和参数传递
  15. latex怎么打区间_涨出天际的安阳房价,这个月怎么样了?
  16. 使用 SDK (Nodejs)操作阿里 OSS (对象存储服务)学习笔记
  17. ArcMap10.2 本地安装教程
  18. 【产品宣传广告片制作软件】Focusky教程 | 封面设计
  19. 省份及对应的英文名称
  20. 2020爬取美赛数学成绩

热门文章

  1. 如何使用 js 过滤文本框表情符号
  2. 信噪比概念及噪声来源
  3. 01 音视频格式封装原理
  4. GOOGLE CHROME 不能打开 FTP 网站解决方法
  5. 0x0000008e蓝屏代码含义及解决方法
  6. AI孙燕姿翻唱华语乐坛歌曲一夜爆红全网
  7. 解决Windows丢失D3DCompiler_43.dll文件问题
  8. 期刊论文是否需要查重?
  9. 小米手机动态修改网络类型信息
  10. 申请域名型证书如何通过DNS记录验证域名所有权