语料库

定义 :语料库(corpus)就是存放语言材料的仓库(语言数据库)

语料库技术的发展

早期:语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等

沉寂时期:1957年Chomsky 的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。Chomsky 及其转换生成语法学派批判早期的语料库研究方法

复苏与发展时期:

特征之一:第二代语料库相继建成

1983年英国Lancaster 大学建成Lancaster-Oslo / Bergen Corpus (LOB语料库): 研究英国英语,500 语篇,每个语篇约2000词。
法国国家科学研究中心与美国芝加哥大学联合建成法语语料库(Tremor de la Langue Francaise, TLF语料库):2000书面法语文本,1.5 亿词

芬兰赫尔辛基大学建成历史英语语料库(The Helsinki Corpus of Historical English):850-1720年, 1600万词。
1988年伦敦大学建成国际英语语料库(The International Corpus of English, ICE): 语料来自所有英语国家,各100万词,1990-1993年,口语和书面语各一半,18 岁以上接受英语教育的成人。

特征之二:基于语料库的研究项目增多

语料库的类型

按内容构成和目的划分(4种类型)
异质的(heterogeneous)-[黄昌宁,2002] 最简单的语料收集方法,没有事先规定和选材原则。
同质的(homogeneous) 与“异质”正好相反,比如美国的TIPSTER 项目只收集军事方面的文本。

系统的(systematic)充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
专用的(specialized)如:北美的人文科学语料库

按语言种类划分

  • 单语的
  • 双语的或多语的  篇章对齐/ 句子对齐/ 结构对齐

是否标注?
-具有词性标注
-句法结构信息标注(树库)
-语义信息标注

语料库建设中的问题

语料库设计需要考虑的问题 静态和动态

平衡和非平衡

自然语言处理之语料库相关推荐

  1. 自然语言处理相关数据和参考整理

    持续更新 简体中文语料库资源汇总(更新至2017/9/21) https://www.jianshu.com/p/5dbb890a7318 中英文维基百科语料上的Word2Vec实验 http://w ...

  2. 转【@入口@】伏草惟存,文章精选系列导航

    转[@入口@]伏草惟存,文章精选系列导航 阅读目录 一.[自然语言处理系列文章] 二.[数据挖掘系列文章] 三.[机器学习系列文章] 四.[Python开发系列文章] 五.[集群系列文章] 六.[算法 ...

  3. 【@入口@】伏草惟存,文章精选系列导航

    伏草惟存,五年博客精选系列文章 作者:白宁超 2017年8月28日10:18:28 摘要:在技术学习的过程中,坚持记录是一个不错的习惯,笔者坚持五年来收益颇丰.不久前,反观之前之前的文章,层次不齐,质 ...

  4. 《Python自然语言处理》-ch1-语料库

    1.构建语料库的挑战 决定解决问题所需的数据类型:数据获取:数据的质量:数据数量的充足性. 2. 语料分析 nltk提供了一些内建语料库,包含四种语料: 孤立语料库:自然语言的文本集合,例gutenb ...

  5. 【自然语言处理】正向、逆向、双向最长匹配算法的 切分效果与速度测评

    本文摘要 · 理论来源:[统计自然语言处理]第七章 自动分词:[自然语言处理入门]第二章 词典分词: · 代码目的:手写三种算法:正向最长匹配.逆向最长匹配.双向最长匹配,比较它们的单词切分效果与速度 ...

  6. 运用深度学习教机器人理解自然语言

    运用深度学习教机器人理解自然语言 2016-08-16 16:33 转载 CSDN 1条评论 雷锋网按:本文作者Jonathan是21CT的首席科学家.他主要研究机器学习和人工智能如何使用在文本和知识 ...

  7. 深度学习在自然语言处理的应用

    深度学习在自然语言处理的应用 发表于2015-11-11 08:27| 931次阅读| 来源21CT| 0 条评论| 作者Jonathan Mugan 深度学习自然语言处理机器学习语义网络词向量RNN ...

  8. 人工智能 | 自然语言处理(NLP)(国内外研究组)

    博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 ================= ...

  9. python和nltk自然语言处理书评_Python和NLTK自然语言处理

    模块1 NLTK基础知识 第 1章 自然语言处理简介 3 1.1 为什么要学习NLP 4 1.2 从Python的基本知识开始 7 1.2.1 列表 7 1.2.2 自助 8 1.2.3 正则表达式 ...

  10. 计算机应用技术 自然语言处理,基于词联接的自然语言处理技术及其应用研究-计算机应用技术专业论文.docx...

    中文摘要摘 中文摘要 摘要 随着人类社会信息化程度和计算机软硬件水平的提高,自然语言处理(Natural LanguageProcessing,简称NLP)技术逐渐成为计算机应用和人工智能研究的热点, ...

最新文章

  1. redis stream持久化_Beetlex.Redis之Stream功能详解
  2. 【机器视觉】 measure_pos算子
  3. HashMap的实现与优化
  4. d3js mysql_D3.js入门指南
  5. java1a2b3c4d5e6f_用两个线程,一个输出字母,一个输出数字,交替输出1A2B3C4D...26Z...
  6. iframe中的历史记录问题汇总及解决方案[转]
  7. php call()函数,PHP中__call()方法详解
  8. datagridview取消默认选中_C# WinForm 取消DataGridView的默认选中Cell 使其不反蓝
  9. Hive SQL 窗口函数
  10. qt 界面控件布局
  11. 对字节输入输出流的理解以及几道练习题
  12. P1082||T1200 同余方程 codevs|| 洛谷
  13. 微信小程序:全新独立后台月老办事处一元交友盲盒
  14. 手机html5跑分,吊炸天的Chrome55内核来袭 360手机浏览器成“跑分王”
  15. 35岁没成高管被优化了.... 网友炸了!!!
  16. 入职中国人寿是个坑?
  17. 分布式之CAP原则详解
  18. html背景音乐自动播放embed,HTML中添加音乐video embed audio
  19. 李纯明博士的RSF算法源码.水平集医学图像分割
  20. 安全教育平台显示服务器繁忙,为什么安全教育平台登录不上 安全教育平台登录不上是什么原因...

热门文章

  1. 史上最简单的Map转List的方式
  2. WinHex自定义模板
  3. 信杂比公式_信噪比公式
  4. codeBlock调试技巧
  5. Android日历控件方法,Android日历控件的实现方法
  6. 已知鸡兔共35只c语言,行测数量关系技巧:巧解鸡兔同笼问题
  7. 调研分析-全球与中国非线性光学BIBO晶体(BiB3O6)市场现状及未来发展趋势
  8. matlab生成面导出stl格式,导出建模文件到STL格式时需要注意的问题
  9. 基于用户 的协同过滤算法
  10. 【0201】用户登录界面设计