[NLP]自然语言理解概述
语言是人类有别于其他动物的一个重要标志。自然语言是区别于形式语言或人工语言(如逻辑语言和编程语言等)的人际交流的口头语言(语音)和书面语言(文字)。
1、语言与语言理解
语言是人类进行通信的自然媒介,它包括口语、书面语以及形体语(如哑语和旗语)等。一种比较正规的提法是:语言是用于传递信息的表示方法、约定和规则的集合。语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。语言由语音、词汇和语法构成。语言和文字是构成语言的两个基本属性。如果没有各种口语和书面语,如英语、汉语、法语和德语等,人类之间的充分和有效的交流就难以想象。语言是随着人类社会和人类本身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。
要研究自然语言理解,首先必须对自然语言的构成有个基本的认识。
语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。
语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语,熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,如“教师”是由“教”和“师”构成。
语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则,如教+师->教师。一个词又有不同的词形、单数、复数、阴性、阳性等。这种构造词形的规则叫做构形法,如教师+们->教师们。构形法和构词法称为词法。词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔->红铅笔。这里”红“是一个修饰铅笔的形容词,它与名称”铅笔“组合成了一个新的名词。造句法则是用词或词组造句的规则。”我是计算机专业的学生“,这是按照汉语造句法构造的句子。
另一方面,语言是音义结合的,每个词汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。自然语言中所涉及的音素不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。
迄今为止,对语言理解尚无统一和权威的定义,按照考虑问题的角度不同而有所不同的解释。从微观上讲,语言理解是从自然语言到机器内部之间的一种映射。从宏观上讲,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括
- 回答有关提问
- 提取材料摘要
- 不同词语叙述
- 不同语言翻译
然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间有大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅有语义、语法和语言问题,而且还存在模糊性等问题。具体的说,自然语言理解的困难由下列三个因素引起的:
- 目标表示的复杂性
- 映射类型的多样性
- 源表达中各元素间交互程度的差异性
自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科,它能够理解口头语言或书面语言。语言交流是一种基于知识的通信。
2、自然语言处理的概念和定义
自然语言处理是用计算机对人类的口头和书面形式的自然语言进行加工处理和应用的技术,是一门它设计语言学、数学、计算机科学和控制论等多门学科交叉的边缘学科,是人工智能学科和智能科学的一个重要分支,也是人工智能的早期的和活跃的研究领域。
自然语言处理包括自然语言理解和自然语言生成两个方面。自然语言理解系统把自然语言转化成计算机程序更易于处理和理解的形式。自然语言生成系统则把与自然语言有关的计算机数据转化为自然语言。
3、自然语言处理的研究领域概括
- 文字识别(optical character recognition,OCR)
- 语音识别(speech recognition)
- 机器翻译(machine translation)
- 自动文摘(automatic summarization)
- 句法分析(syntax parsing)
- 文本分类(text categorization)
- 信息检索(information retrieval)
- 信息获取(Information extraction)
- 信息过滤(information filtering)
- 自然语言生成(natural language generation)
- 中文自动分词(Chinese word segmentation)
- 语音合成(speech synthesis)
- 问答系统(question answering system)
4、自然语言理解过程的层次
语言虽然表示成一连串的文字符号或者一串声音流,但其内部事实上是一个层次化的结构,从语言的构成中就可以清楚的看到这种层次性。一个文字表达的句子是由词素->词或词形->词组或句子,而用声音表达的句子则是由音素->音节->音词->音句,其中每个层次都受到语法规则的制约。因此,语言的分析和理解过程也应当是一个层次化的过程。许多现代语言学家把这一过程分为5个层次:
- 语音分析
- 词法分析
- 句法分析
- 语义分析
- 语用分析
参考书目
人工智能及其应用(蔡自兴 徐光祐)
[NLP]自然语言理解概述相关推荐
- 自然语言处理(NLP) vs 自然语言理解(NLU)
自然语言处理,是Natural Language Processing, 简称NLP 自然语言理解,是Natural Language Understanding,简称NLU. (图1) (图2) 1 ...
- 《人工智能》之《自然语言理解》
教材:<人工智能及其应用>,蔡自兴等,2016m清华大学出版社(第5版) 参考书: <人工智能>之<自然语言理解> 1 自然语言理解概述 1.1 什么是自然语言处理 ...
- 自然语言一般使用计算机,自然语言理解
自然语言处理(N LP , Natural Language Processing)是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机"理解"自然语言,所以 ...
- 达观数据王文广:如何玩转自然语言理解和深度学习实践?
本文根据达观数据王文广在"达观杯"文本智能处理挑战赛期间的技术直播分享整理而成,内容略有删减. 一.深度学习概述 深度学习是从机器学习基础上发展起来的,机器学习分为监督学习.非 ...
- 自然语言处理NLP、自然语言理解NLU、自然语言生成NLG、任务家族
自然语言处理NLP.自然语言理解NLU.自然语言生成NLG.任务家族 自然语言生成(NLG) 看图说话(image caption) 说话生图(text to image) 文本相似性(text si ...
- NLP 自然语言分析理解
自然语言处理(NLP,Natural Language Processing) 是研究人与计算机交互的语言问题的一门学科.按照技术实现难度的不同,这类系统可以分成简单匹配式.模糊匹配式和段落理解式三种 ...
- ChineseGLUE:为中文NLP模型定制的自然语言理解基准
机器之心整理 参与:张倩.郑丽慧 GLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低.然而,现有的 GLUE 基准针对的是英文任务,无法评价 NLP ...
- 景联文科技:自然语言处理(NLP)系列(一)——自然语言理解(NLU)
作为人工智能领域的基础,自然语言处理(NLP)一直是该领域最热门技术之一.近年来,一种潜在的新语言模型GPT-4出现,他能够掌握更广泛的会话主题,甚至成为对话的 "主导者",实时语 ...
- 自然语言处理(NLP)基础理解
人工智能的目标 - 推理 - 自动学习&调度 - 机器学习 - 自然语言处理 - 计算机视觉 - 机器人 - 通用智能 人工智能三大阶段 阶段 1--机器学习:智能系统使用一系列算法从经验中进 ...
最新文章
- 李彦宏为什么被称为AI先生,美国权威媒体给出答案
- lua学习笔记之环境
- java 并发编程第七章:取消和关闭
- SAP UI5 Currency 数据类型的校验逻辑分析
- 【20】java里的this和static
- nginx普通配置/负载均衡配置/ssl/https配置
- 学习 Perl(一) —— 安装及 hello world
- 六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集)
- springboot毕业设计 基于springboot旅游景区景点购票系统毕业设计设计与实现参考
- 使用ildasm反编译修改c# dll
- surf算法matlab代码,surf算法matlab源码
- centos7上先要关闭httpd服务之后再卸载,反正卸载之后就是安装不上一脸懵逼
- 史蒂夫·乔布斯传记_Chapter 4: Atari and India
- 视频有水印不用怕,一键轻松解析视频水印,高清画质!
- ps2018首选项出现要求96和8之间的整数怎么办?
- Matplotlib——绘制多个子图(Axes)及其布局
- 2008服务器系统只有回收站,win2008系统中彻底清空回收站的教程
- eclipse 配置Android开发环境
- 什么是RDB和ROF? 一文了解Redis持久化
- [信息论与编码理论专题-2]:信息与熵
热门文章
- 我敢打赌你们都不知道,在微软中国研究院,我们拥有许多位世界一流的多媒体研究方面的专家。——比尔·盖茨
- stata中超好用小命令:一键将excel文件转换成dta文件
- 黑客突破物理隔离的8种方法
- iOS AFN框架(二)的使用和有关序列化器的问题--缓存机制------
- yshon对讲机如何调频率_对讲机设置LT6100设置频率的方法
- 【数字IC基础】降动态功耗(降时钟翻转频率):门控时钟(clock gating)
- 嵌入式常用的算法 - 二阶IIR低通滤波器
- 国防大学计算机学院,国防大学和国防科技大学是同一所学校吗?很多人傻傻都分不清!...
- TCP协议在传输实时语音流方面的优点
- 快速加密、解密压缩包密码