第四章 语料库与语言知识库
文章目录
- 语料库技术
- 概述*
- 研究内容*
- 语料库语言学的发展*
- 早期的语料库语言学
- 沉寂时代
- 复苏与发展时期
- 语料库的类型*
- 平衡语料库和平行语料库*
- 共时语料库和历时语料库*
- 汉语语料库建设中的问题
- 一般语料库设计需要考虑的问题
- 语料库的管理与维护*
- 汉语语料库建设的规范问题
- 汉语语料库产权保护和国家语料库建设问题
- 典型语料库的介绍
- 布朗语料库(Brown Corpus)
- LLC口语语料库
- 朗文语料库
- 树库(Tree Bank)*
- 举例
- PropBank(命题库)
- 题型十一:给出谓词标注
- NomBank(名词化树库)
- Penn语篇树库(PDTB)和汉语篇章树库(CDTB)(篇章关系*)
- 布拉格依存树库(PDT)
- CASIA-CASSIL*
- 其他语料库
- 语言知识库
- 词汇知识库
- WordNet(特色与关系*)
- HowNet(特色*)
语料库技术
概述*
语料库:存放语言材料的数据库。
语料库语言学:基于语料库进行语言学研究的一门学问。
研究内容*
- 语料库的建设与编纂;
- 语料库的加工和管理技术;
- 语料库的使用。
语料库语言学的发展*
早期的语料库语言学
20世纪50年代中期以前。语料库在语言研究中被广泛使用。
- 语言习得。在对儿童自然话语的大量材料分析研究上,提出关于儿童不同年龄段的语言发展模式;
- 音系研究。强调语料获取的自然性和语料分析的客观性;
- 方言学与语料库技术的结合。利用方言素材对方言词汇的分布等各种语言现象进行研究。
沉寂时代
1957年至20世纪80年代,乔姆斯基极其转换生成语法学派否定了早期语料库研究方法:
- 基于语料库的研究方法有误;
- 语料的不充分性。
复苏与发展时期
20世纪80年代至今。
- 第二代语料库建成;
- 基于语料库的研究项目增多。
这主要是因为:1. 计算机迅速发展;2. 转换生成语言学派的批判不都正确。
语料库的类型*
按内容构成和目的划分:
- 异质的:没有事先规定和选材原则;
- 同质的:比如美国TIPSTER项目只收集军事方面的文本;
- 系统的:充分考虑语料的动态和静态问题、代表性和平衡问题及语料库的规模等问题;
- 专用的:如:北美的人文科学语料库;
按照语种划分:单语种语料库和多语种语料库;
是否标注:具有词性标注;句法结构信息标注(树库);语义信息标注。
根据语料加工程度的不同,可分为:
- 熟语料(指在自然语言单位上添加人工的标签标注,如经过分词、词性标注、命名实体识别、依存句法标注形成的语料)。
- 生语料(指直接收集而未经加工形成的语言资源集,如常见的微博语料,新闻语料等。
BCC是熟语料库,语料经过分词、词性标注,少量语料库还做了句法分析。
CCL是生语料库(除了分类、题目、作者等元信息外),正文部分未经过任何加工处理。
平衡语料库和平行语料库*
这主要是按照语料代表性和平衡性来划分的。
代表性:在该语料库中获得的分析结果可以概括成这种语言整体或其指定部分的特性。
平衡性:在该语料库中,各种因素都均衡地考虑在内。
平衡语料库着重考虑语料的平衡性和代表性。
平行语料库,两种含义:
- 同一种语言的语料上的平行,如“国际英语语料库”,包含不同国家的英语语料,平行性表现为语料选取时间、对象、比例、文本数、文本长度等几乎是一致的。进行不同国家英语之间的对比研究。
- 两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库。
平衡语料库更考虑语料库的特征;平行语料库或考虑同种语言,选取样本结构、条件的一致性,或考虑不同语言结构上的一致性。
共时语料库和历时语料库*
共时语料库:是为了对语言进行共时(同一时间段)研究而建立的语料库。(大树的横切面)
历时语料库:是为了对语言进行历时研究而建立的语料库。(大树的纵切面)
判断历时语料库的四种原则:
- 是否动态:语料时间跨度大;
- 文本是否具有量化的流通度属性:语料来源于大众传媒;
- 深加工是否属于动态的加工方法:不同时间的语料给不同的加工方案;
- 加工结果是否动态:不同时间的语料加工后的结果也具有鲜明的时间特征。
汉语语料库建设中的问题
一般语料库设计需要考虑的问题
- 静态语料还是动态语料?
- 具有代表性还是具有平衡性?
- 规模应该多大?
- 如何管理和维护?
语料库的管理与维护*
- 错误修正和改善;
- 版本升级;
- 语料库检索系统、分析和处理工具的维护等。
汉语语料库建设的规范问题
面向信息处理的国家标准:
目前仍然存在的问题:1. 分词标准? 2. 文本属性的规范? …
汉语语料库产权保护和国家语料库建设问题
汉语语料库的知识产权包括两个方面:1. 文本的知识产权;2. 语料库的知识产权及其衍生产品。
目前还是一片空白。
典型语料库的介绍
布朗语料库(Brown Corpus)
- 诞生于20世纪60年代,世界上第一个根据系统性原则采集样本的标准语料库;
- 选自1961年出版的普通话语体文本;
- 15种题材,500个样本,每个文本不少于2000词;
- Franis和Kucera在布朗大学建立。
LLC口语语料库
- 从20世纪60年代开始至1981年结束;
- 选自2000小时的对话和广播等口语素材;
- 包含五大类(面对面交谈、电话交谈、讨论、采访、辩论),标注语调、词类等等;
- 伦敦大学语言学家Quirk,瑞典隆德大学教授Svartvik。
朗文语料库
- 1981.01~1990.09;
- 选自二十世纪的英语;
- 包含十类题材(自然科学、应用科学、社会科学…),共计2800万词;
- 朗文语料库委员会。
树库(Tree Bank)*
- 1993年完成英语句子的语法结构标注;2000年完成第一版汉语树库;
- CTB中汉语词性被划分为33类,句法标注被划分23类;
- 宾夕法尼亚大学Marcus教授。
举例
文法描述:IP为开始符号S,词性标注属于是终结符Σ\SigmaΣ,结点之间属于是规则P,句法标注属于是非终结符N。
PropBank(命题库)
树库仅提供句子的句法结构信息,对于计算机理解人类语言是不够的,因此PropBank的目标是对原TreeBank中的句法节点标注上特定的论元标记,使其保持语义角色的相似性。
比如句子“John broke the window.”“John”是事件的制造者,“winodw”为受事者,“break”为事件,因此谓词论元为break(John,window)。
题型十一:给出谓词标注
“外商投资企业在改善中国出口商品结构中发挥了显著的作用。”
改善:
文件名 句序号 词序号 gold(标准) 词.01(标准框架类型) ---- 4:1 ARG0 6:2 ARG1 5:0 rel
- 词序号是树结构的右下角编号;
- 回溯到NP-SBJ、NP-OBJ这样的位置;
- ARG0特指施事者,ARG1特指受事者,ARGM为修饰成分(ARGM-TMP 时间;ARGM-LOC 地点;ARGM-ADV 副词),REL表示谓词;
- 施事者和受事者都是从第一位置处开始;
- 是否给出ARGM取决于谓词涉及的范围。
NomBank(名词化树库)
PropBank的孪生兄弟,标注的是同一批树库,而区别在于NomBank标注的是树库中名词词义和相关的论元信息。
Penn语篇树库(PDTB)和汉语篇章树库(CDTB)(篇章关系*)
标注语篇结构信息的大规模语料库,主要标注与语篇联通方式相关的一系列关系。标注信息主要包括连通方式的论元结构、语义区分信息以及联通方式和论元的修饰关系特征。
布拉格依存树库(PDT)
1996~2000第一阶段,完成形态和句法分析层的标注工具;2000~2004第二阶段,完成深层语法层的信息标注。
形态层:PDT最低层,包含全部形态信息的标注;
分析层:PDT中间层,主要是依次关系中的表层句法信息标注;
深层语法层:PDT的最高层,表达句子的深层语法结构。
CASIA-CASSIL*
- 从15000个现场录音中选取1000段汉语电话对话录音;
- 每段平均不少于90秒,10个回合,具体数据为:
- 标注信息:
- 案例:
其他语料库
CLKB、台湾中研院平衡语料库、BTEC。
语言知识库
语言知识库比语料库包含更广泛的内容。
语言知识库能分为两种不同的类型:
- 词典、规则库、语义概念库等,是显性的;
- 存在于语料库之中(语料库的主体是文本,即语句的集合,每个语句都是线性的非结构化的文字序列,包含的知识是隐性的)。
语料加工的目的是把隐性的知识显性化。
词汇知识库
WordNet(特色与关系*)
四种语义关系:
- 同义关系;
- 反义关系;
- 上下位关系/从属关系;
- 部分关系。
综上所述,WordNet是按语义关系网络组织的巨大词库。
应用:词汇消歧、语义推理、理解…
HowNet(特色*)
知网的特色
- 知网作为一个知识系统,名副其实是一个网而不是树。它所着力要反应的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是他们的共同属性;
- 知网还着力要反应概念之间和概念的属性之间的各种关系
是一个知识系统,而不是语义词典。
描述的关系有:
- 上下位关系;
- 同义关系;
- 反义关系;
- 对义关系;
- 部件-整体关系;
- 属性-宿主关系;
- 材料-成品关系;
…
第四章 语料库与语言知识库相关推荐
- Scikit-learn 秘籍 第四章 使用 scikit-learn 对数据分类
第四章 使用 scikit-learn 对数据分类 作者:Trent Hauck 译者:飞龙 协议:CC BY-NC-SA 4.0 分类在大量语境下都非常重要.例如,如果我们打算自动化一些决策过程,我 ...
- 自然语言处理(4)——语料库和语言知识库
NLP学习笔记(4)--语料库和语言知识库 1. 基础知识 2.语料库技术的发展 第一个阶段:早期,20世纪五十年代中期之前 二个阶段:沉寂时期,1957-20世纪八十年代初 第三个阶段:复苏与发展时 ...
- 【Python自然语言处理】读书笔记:第四章:编写结构化程序
4 编写结构化程序 4.1 回到基础 1.赋值: 列表赋值是"引用",改变其中一个,其他都会改变 foo = ["1", "2"] bar ...
- 王道考研 计算机网络笔记 第四章:网络层
本文基于2019 王道考研 计算机网络: 2019 王道考研 计算机网络 个人笔记总结 第一章:王道考研 计算机网络笔记 第一章:概述&计算机网络体系结构 第二章:王道考研 计算机网络笔记 第 ...
- 如何建立图像数据矩阵和图像显示灰度之间的关系!_放射技术考试第四章第一节 数字图像的特征...
第四章第一节 数字图像的特征 一.模拟与数字 (一)模拟信号 在信息科学中,能够计数的离散量称为数字信号(整数),不能计数的连续量称为模拟信号. 模拟是以某种范畴的表达方式如实地反映另一种范畴.例 ...
- 多元统计分析何晓群_多元统计分析第四章作业
关注公众号,更多资源分享 回复关键词:多元统计分析 即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...
- ASP.NET自定义控件组件开发 第四章 组合控件开发CompositeControl
第四章 组合控件开发CompositeControl 大家好,今天我们来实现一个自定义的控件,之前我们已经知道了,要开发自定义的控件一般继承三个基 类:Control,WebControl,还有一个就 ...
- 谭浩强《C++程序设计》书后习题 第十三章-第十四章
2019独角兽企业重金招聘Python工程师标准>>> 最近要复习一下C和C++的基础知识,于是计划把之前学过的谭浩强的<C程序设计>和<C++程序设计>习题 ...
- sql语言管理中计算机系统,00051管理系统中计算机应用第四章数据库系统考纲
第四章数据库系统考纲 一.数据库系统概述 识记: 1.数据模型:对现实世界事物特征的模拟和抽象就是这个事物的模型.在数据库中数据模 型是抽象的表示和处理现实世界中数据的工具. 首先按人们的认识观点将现 ...
最新文章
- 英特尔将进行重大业务重组
- 如何在Mac上的IntelliJ IDEA中增加IDE内存限制?
- 一起谈.NET技术,页面片段缓存(二)
- jQuery对象的序列化详解
- Java的native关键字
- Linux 相关发音
- spring中aop事务
- 谷歌浏览器78如何安装拓展程序
- Windows环境下多个tomcat启动方法
- greendao3.0版本更新 新增字段遇到的问题
- 应用计算机金融 pdf,金融保险计算机技术及其在金融业中的应用.pdf
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用6
- String和StringBuffer、StringBuilder的区别
- [转]MSSQL查询优化
- 干货 | 平面设计、UI 设计和视觉设计的区别
- Hadoop权威指南环境搭建+实例运行
- python 人脸识别活体检测_手把手教你用Python实现人脸识别,辨别真假!
- Java 后台做图片压缩的两种方法
- 2.2CP分解CP-RALS算法推导python实现
- 关于oracle驱动jiar包版本问题导致的ORA-01460【mybatis+Oracle】
热门文章
- 人工智能 机器学习实验总结
- 企业级别应用--GFS分布式文件系统(GlusterFS工作原理、弹性 HASH 算法 、GlusterFS卷的类型、 部署GlusterFS)
- 武田公布2019财年第一季度强劲业绩并上调全年指引
- C++_输入一个字符串,并逆序输出
- python实现mysql二叉树_python环境下使用mysql数据及数据结构和二叉树算法(图)...
- 钢琴谱coda是什么意思
- java-SpringBoot-oracle配置【自用】
- 如何写公式提取车牌号
- 资源调度源码分析和任务调度源码分析
- Linux下压缩的压缩命令