第四章语料库与语言知识库

文章目录

语料库技术
- 概述*
- 研究内容*
- 语料库语言学的发展*
- - 早期的语料库语言学
  - 沉寂时代
  - 复苏与发展时期
- 语料库的类型*
- - 平衡语料库和平行语料库*
  - 共时语料库和历时语料库*
- 汉语语料库建设中的问题
- - 一般语料库设计需要考虑的问题
  - 语料库的管理与维护*
  - 汉语语料库建设的规范问题
  - 汉语语料库产权保护和国家语料库建设问题
- 典型语料库的介绍
- - 布朗语料库（Brown Corpus）
  - LLC口语语料库
  - 朗文语料库
  - 树库（Tree Bank）*
  - - 举例
    - PropBank（命题库）
    - - 题型十一：给出谓词标注
    - NomBank（名词化树库）
    - Penn语篇树库（PDTB）和汉语篇章树库（CDTB）（篇章关系*）
  - 布拉格依存树库（PDT）
  - CASIA-CASSIL*
  - 其他语料库
语言知识库
- 词汇知识库
- - WordNet(特色与关系*)
  - HowNet（特色*）

语料库技术

概述*

语料库：存放语言材料的数据库。
语料库语言学：基于语料库进行语言学研究的一门学问。

研究内容*

语料库的建设与编纂；
语料库的加工和管理技术；
语料库的使用。

语料库语言学的发展*

早期的语料库语言学

20世纪50年代中期以前。语料库在语言研究中被广泛使用。

语言习得。在对儿童自然话语的大量材料分析研究上，提出关于儿童不同年龄段的语言发展模式；
音系研究。强调语料获取的自然性和语料分析的客观性；
方言学与语料库技术的结合。利用方言素材对方言词汇的分布等各种语言现象进行研究。

沉寂时代

1957年至20世纪80年代，乔姆斯基极其转换生成语法学派否定了早期语料库研究方法：

基于语料库的研究方法有误；
语料的不充分性。

复苏与发展时期

20世纪80年代至今。

第二代语料库建成；
基于语料库的研究项目增多。

这主要是因为：1. 计算机迅速发展；2. 转换生成语言学派的批判不都正确。

语料库的类型*

按内容构成和目的划分：

异质的：没有事先规定和选材原则；
同质的：比如美国TIPSTER项目只收集军事方面的文本；
系统的：充分考虑语料的动态和静态问题、代表性和平衡问题及语料库的规模等问题；
专用的：如：北美的人文科学语料库；

按照语种划分：单语种语料库和多语种语料库；

是否标注：具有词性标注；句法结构信息标注（树库）；语义信息标注。

根据语料加工程度的不同，可分为：

熟语料（指在自然语言单位上添加人工的标签标注，如经过分词、词性标注、命名实体识别、依存句法标注形成的语料）。
生语料（指直接收集而未经加工形成的语言资源集，如常见的微博语料，新闻语料等。

BCC是熟语料库，语料经过分词、词性标注，少量语料库还做了句法分析。
CCL是生语料库（除了分类、题目、作者等元信息外），正文部分未经过任何加工处理。

平衡语料库和平行语料库*

这主要是按照语料代表性和平衡性来划分的。

代表性：在该语料库中获得的分析结果可以概括成这种语言整体或其指定部分的特性。
平衡性：在该语料库中，各种因素都均衡地考虑在内。

平衡语料库着重考虑语料的平衡性和代表性。

平行语料库，两种含义：

同一种语言的语料上的平行，如“国际英语语料库”，包含不同国家的英语语料，平行性表现为语料选取时间、对象、比例、文本数、文本长度等几乎是一致的。进行不同国家英语之间的对比研究。
两种或多种语言之间的平行采样和加工，例如，机器翻译中的双语对齐语料库。

平衡语料库更考虑语料库的特征；平行语料库或考虑同种语言，选取样本结构、条件的一致性，或考虑不同语言结构上的一致性。

共时语料库和历时语料库*

共时语料库：是为了对语言进行共时（同一时间段）研究而建立的语料库。（大树的横切面）

历时语料库：是为了对语言进行历时研究而建立的语料库。（大树的纵切面）

判断历时语料库的四种原则：

是否动态：语料时间跨度大；
文本是否具有量化的流通度属性：语料来源于大众传媒；
深加工是否属于动态的加工方法：不同时间的语料给不同的加工方案；
加工结果是否动态：不同时间的语料加工后的结果也具有鲜明的时间特征。

汉语语料库建设中的问题

一般语料库设计需要考虑的问题

静态语料还是动态语料？
具有代表性还是具有平衡性？
规模应该多大？
如何管理和维护？

语料库的管理与维护*

错误修正和改善；
版本升级；
语料库检索系统、分析和处理工具的维护等。

汉语语料库建设的规范问题

面向信息处理的国家标准：

目前仍然存在的问题：1. 分词标准？ 2. 文本属性的规范？ …

汉语语料库产权保护和国家语料库建设问题

汉语语料库的知识产权包括两个方面：1. 文本的知识产权；2. 语料库的知识产权及其衍生产品。

目前还是一片空白。

典型语料库的介绍

布朗语料库（Brown Corpus）

诞生于20世纪60年代，世界上第一个根据系统性原则采集样本的标准语料库；
选自1961年出版的普通话语体文本；
15种题材，500个样本，每个文本不少于2000词；
Franis和Kucera在布朗大学建立。

LLC口语语料库

从20世纪60年代开始至1981年结束；
选自2000小时的对话和广播等口语素材；
包含五大类（面对面交谈、电话交谈、讨论、采访、辩论），标注语调、词类等等；
伦敦大学语言学家Quirk，瑞典隆德大学教授Svartvik。

朗文语料库

1981.01～1990.09；
选自二十世纪的英语；
包含十类题材（自然科学、应用科学、社会科学…），共计2800万词；
朗文语料库委员会。

树库（Tree Bank）*

1993年完成英语句子的语法结构标注；2000年完成第一版汉语树库；
CTB中汉语词性被划分为33类，句法标注被划分23类；
宾夕法尼亚大学Marcus教授。

举例

文法描述：IP为开始符号S，词性标注属于是终结符Σ\SigmaΣ，结点之间属于是规则P，句法标注属于是非终结符N。

PropBank（命题库）

树库仅提供句子的句法结构信息，对于计算机理解人类语言是不够的，因此PropBank的目标是对原TreeBank中的句法节点标注上特定的论元标记，使其保持语义角色的相似性。

比如句子“John broke the window.”“John”是事件的制造者，“winodw”为受事者，“break”为事件，因此谓词论元为break（John，window）。

题型十一：给出谓词标注

“外商投资企业在改善中国出口商品结构中发挥了显著的作用。”

改善：

文件名句序号词序号 gold(标准) 词.01(标准框架类型) ---- 4:1 ARG0 6:2 ARG1 5:0 rel

词序号是树结构的右下角编号；
回溯到NP-SBJ、NP-OBJ这样的位置；
ARG0特指施事者，ARG1特指受事者，ARGM为修饰成分（ARGM-TMP 时间；ARGM-LOC 地点；ARGM-ADV 副词），REL表示谓词；
施事者和受事者都是从第一位置处开始；
是否给出ARGM取决于谓词涉及的范围。

NomBank（名词化树库）

PropBank的孪生兄弟，标注的是同一批树库，而区别在于NomBank标注的是树库中名词词义和相关的论元信息。

Penn语篇树库（PDTB）和汉语篇章树库（CDTB）（篇章关系*）

标注语篇结构信息的大规模语料库，主要标注与语篇联通方式相关的一系列关系。标注信息主要包括连通方式的论元结构、语义区分信息以及联通方式和论元的修饰关系特征。

布拉格依存树库（PDT）

1996～2000第一阶段，完成形态和句法分析层的标注工具；2000～2004第二阶段，完成深层语法层的信息标注。

形态层：PDT最低层，包含全部形态信息的标注；
分析层：PDT中间层，主要是依次关系中的表层句法信息标注；
深层语法层：PDT的最高层，表达句子的深层语法结构。

CASIA-CASSIL*

从15000个现场录音中选取1000段汉语电话对话录音；
每段平均不少于90秒，10个回合，具体数据为：
标注信息：
案例：

其他语料库

CLKB、台湾中研院平衡语料库、BTEC。

语言知识库

语言知识库比语料库包含更广泛的内容。
语言知识库能分为两种不同的类型：

词典、规则库、语义概念库等，是显性的；
存在于语料库之中（语料库的主体是文本，即语句的集合，每个语句都是线性的非结构化的文字序列，包含的知识是隐性的）。

语料加工的目的是把隐性的知识显性化。

词汇知识库

WordNet(特色与关系*)

四种语义关系：

同义关系；
反义关系；
上下位关系/从属关系；
部分关系。

综上所述，WordNet是按语义关系网络组织的巨大词库。

应用：词汇消歧、语义推理、理解…

HowNet（特色*）

知网的特色

知网作为一个知识系统，名副其实是一个网而不是树。它所着力要反应的是概念的共性和个性，例如：对于“医生”和“患者”，“人”是他们的共同属性；
知网还着力要反应概念之间和概念的属性之间的各种关系

是一个知识系统，而不是语义词典。

描述的关系有：

上下位关系；
同义关系；
反义关系；
对义关系；
部件-整体关系；
属性-宿主关系；
材料-成品关系；
…