自然语言处理(一)基础知识概念
基本概念
计算语言学:通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科 自然语言处理 相比较,计算语言学更加侧重
基础理论和方法的研究。
自然语言理解:通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科 自然语言处理 相比较,计算语言学更加侧重基础理论和方法的研究。
自然语言处理:自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。
自然语言理解 (natural language understanding, NLU)是人工智能最重要的研究方向之一,是当今“ 人工智能皇冠上的明珠 ”。
近年来,自然语言处理技术迅速发展成为一门相对独立的学科,倍受关注,而且该技术不断与语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学”、“自然语言处理”或“自然语
言理解”这些术语时,往往默认为同一个概念。甚至有专著[刘颖,2002]干脆直接解释为:计算语言学也称自然语言处理或自然语言理解。
三个不同的语系:
屈折语( ( fusional language/ inflectional language ) ): : 用词的形态变化表示语法关系,如英语、法语等。
黏着语( ( agglutinative language ) ): : 词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。
孤立语( ( isolating language ) ): : 又称 分析语 (analytic language),几乎没有形态变化,语法关系靠词序和虚词表示,如汉语、苗语、越南语等。
研究内容
机器翻译(Machine translation, MT): 实现一种语言到另一种语言的自动翻译。
应用: 文献翻译、网页辅助浏览等。
信息检索 (Information retrieval, IR):信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。
自动文摘 (Automatic summarization / Automaticabstracting):将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。
问答系统(Question-answering system. Q&A):通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统 (man-computer dialogue system)。
面临的问题和挑战
归纳起来,HLT所面临的挑战:
l 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
l 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和非规范语法等现象无处不在
l 始终面临的数据不充分性:有限的语言集合无法涵盖开放的语言现象
l 知识表示的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难
基本方法与技术现状
理性 主 义 : 通过对一些代表性语句或语言现象的研究得到对人的语言能力的认识,归纳语言使用的规律,以此分析、推断测试样本的预期结果。
经验主义: 利用大规真实语言数据,借助人的帮助(标注数据和筛选特征等),统计发现语言使用的规律及其可能性(概率)大小,以此为依据计算预测测试样本的可能结果。统计单元是离散事件(词、短语、词性等)。
连结主义: 利用大规真实语言数据构建模型,统计发现语言使用的规律及其可能性(概率)大小,从数据中自动学习特征,以此为依据计算预测测试样本的可能结果。统计单元采用连续的实数空间表示(向量)。
举例:
现状:
1.部分问题得到了解决,可以为人们提供辅助性帮助,如:机器翻译、电子词典、搜索引擎、文字录入、语音识别等;
2.基础问题研究仍任重而道远,如:语义表示和计算、高质量的自动翻译等;
3.社会需求日益迫切:个性化信息服务、网络内容管理、国家安全等;
4.许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系。
参考文献:
黑色的那本有神经网络的方法
自然语言处理(一)基础知识概念相关推荐
- NLP汉语自然语言处理入门基础知识介绍
NLP汉语自然语言处理入门基础知识介绍 自然语言处理定义: 自然语言处理是一门计算机科学.人工智能以及语言学的交叉学科.虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部 ...
- SQL Server基础知识概念要点详细讲解
SQL Server基础知识概念要点详细讲解 目录 基础概念 1.网状模型数据库 2.层次模型数据库 3.关系模型数据库 知识点实例总结 基础概念 SQL语言中,between and表示包括两边参数 ...
- delphi7存取配置文件与sqlserver数据库连接_SQL Server基础知识概念要点详细讲解
SQL Server基础知识概念要点详细讲解 目录 基础概念 1.网状模型数据库 2.层次模型数据库 3.关系模型数据库 知识点实例总结 基础概念 SQL语言中,between and表示包括两边参数 ...
- BB基础知识概念汇总和常见问题[最新补充JDE JDK主题
BB基础知识概念汇总和常见问题[最新补充JDE JDK主题制作工具] 原帖由 zh1234 于 2006-10-5 20:37 发表 基于部分朋友对BB的GPRS会自动产生流量的问题简要说明如下: 1 ...
- 第三十二章 XML基础知识概念
文章目录 第三十二章 XML基础知识概念 attribute CDATA区域 comment content model default namespace DOM DTD(文档类型定义) eleme ...
- Hive基础知识概念
Hive基础 Hive 概念 Hive优缺点 优点 缺点 Hive名词概念 hive底层执行流程 hive 与RDBMS传统关系型数据库对比 查询语言 数据更新 执行延迟 数据规模 hive基本数据类 ...
- Vue2简单使用及相关基础知识概念(适合小白入门,看完就能上手)
Vue2相关知识 一.概念 1.前端模式 2.MVVM模式 2.1 概念 2.2 优点 (1)低耦合 (2)可复用 (3)独立开发 (4)可测试 3.Vue 3.1 概念 3.2 优点 3.3 参考网 ...
- auto.js停止所有线程_Java多线程编程基础知识 概念介绍,以及线程状态
一.进程 进程是操作系统结构的基础:是一次程序的执行:是一个程序及其数据在处理机上顺序执行时所发生的活动.操作系统中,几乎所有运行中的任务对应一条进程(Process).一个程序进入内存运行,即变成一 ...
- LSP(Layered Service Provider)入门的基础知识概念
1.套接字 TCP用主机的IP地址加上主机上的端口号作为TCP连接的端点,这种端点就叫做套接字(socket)或插口. 套接字用(IP地址:端口号)表示. 它是网络通信过程中端点的抽象表示,包含进行网 ...
最新文章
- 升级到12c云数据库的最佳实践
- Mysql的性能优化
- 栈的应用2---后缀表达式
- vsco使用教程_VSCO如何使用 vsco新手教程
- 使用 vue 一套功能 UI 全面 的 后台管理系统
- php tp5 model 文件,tp5model的新增
- R语言︱缺失值处理之多重插补——mice包
- 统计学习方法读书笔记9-朴素贝叶斯习题
- EF Core in Action 中文翻译 第一部分导航
- java编程思想笔记(一)——面向对象导论
- 西门子s7-200解密软件下载_高邮哪里有西门子三菱PLC编程学习班?多久能学会?...
- 【最全,带注释版】雷赛运动控制卡库函数C#导出
- Hexo博客-NexT主题自定义主页配置方法
- 图像分割算法的优缺点比较
- 配置java win10_win10 Java14安装及配置
- ro手游服务器维护公告,仙境传说ro手游9月26日5点至10点停服维护公告
- Windows 下 Spark+Hadoop+Scala 安装
- stable diffusion制作韩国版AI女友关键词
- Vi编辑器的常用命令3(其他操作)
- windows10的几个常用快捷键