╮(╯▽╰)╭哎,自从人工智能火了以后,最近自称NLP研究者的人越来越多了,然而这其中的大忽悠有多少小夕就不想多说了。如果连自己在哪个领域、哪个学科搞研究都不懂的话,你相信他真的是这个领域的研究者喵?反正小夕不信╮(╯▽╰)╭

所以,这个问题就是:“自然语言处理跟自然语言理解和计算语言学是不是一个东西呢?”

在有的科普文,甚至书籍中,将自然语言处理、自然语言理解、计算语言学看作是一个东西,其实是很不准确的呐!小夕今天就讲一讲被大众媒体和诸多自称NLP领域的学者混为一谈的几个概念。

自然语言理解(NLU)

在60年前人工智能诞生之初,就提出了自然语言理解,并且将其作为人工智能最重要的研究方向。自然语言理解是为了探索人类语言能力和语言思维活动的本质,并模仿人类语言的认知过程来让计算机对人类语言进行理解和处理。其是语言学、计算机科学、认知科学、信息论和数学等多学科基础上形成的交叉学科。而其目标是让计算机真正的理解人类语言,进而进行处理与表达等。而判断计算机是否理解自然语言的标准就是“图灵测试”。

图灵测试在自然语言理解领域来说即:让一个人类提出问题,回答他的可能是人也可能是计算机。在计算机给出回答后,如果提问者分不清楚这是人还是计算机的回答,则认为计算机理解了人类语言,广义的说计算机具备了智能。

计算语言学(CL)

计算语言学的侧重点是数学建模。将人类语言建模为计算机可以有效计算的算法。也就是说,出发点是语言学,而做的是将语言学中的严谨理论借鉴并转为计算机算法,是一门非常理性的学科,即一门纯理论的学科。同时,这也是基于规则的自然语言处理方法的理论核心。

自然语言处理(NLP)

自然语言处理则是面向具体的应用场景,从系统实现与工程的角度出发来对语言文本进行加工与处理。它不一定用数学方法,但是总归是要用某种方法来解决某个特定的工程问题。其实该学科诞生的需求便是互联网上文本信息的爆炸式增长,因此只要能将互联网上的文本信息处理成我们想要达到的效果就可以啦,不一定非要让计算机去理解自然语言呀,也不一定非要有严谨的语言学规则或者数学公式呀

三者之间

这样看来应该有三门独立的学科才对,然而实际上我们发现国际上、国内的各大顶尖高校几乎只有“自然语言处理”这一个学科,偶尔会有个研究“计算语言学”的高校,而几乎没有研究“自然语言理解”的高校,为什么呢?

其实很好理解啦,虽然自然语言理解诞生的最早,但是遗憾的说,这门学科的有效进展几乎为0,也就是说现在远远谈不上让计算机去理解自然语言,依然停留在对自然语言进行处理的层次上。而随着基于规则的自然语言处理方法的衰落,计算语言学的研究热潮也大幅度冷却了。

插播一句,总有比较机智的做法,比如美国的CMU(不知道CMU的同学千万不要说自己是学计算机的!)就没有自然语言处理,人家起了个新名字叫“人类语言技术”,hhhhh,是不是感觉超机智呀~这样将来有一天计算机真的可以理解人类语言的时候,其他高校要将专业改名字啦,而CMU就不用改了╮(╯▽╰)╭

所以呀,从互相包含的关系上来说,自然语言处理(NLP)、自然语言理解(NLU)、计算语言学(CL)、人类语言技术(HLT)之间的关系是这样的:

2333,是不是感觉CMU特别心机婊╮(╯▽╰)╭

而从研究深度,或者说研究难度上说呢,NLU、CL、NLP这三个具备大量交集的领域是这样的:

所以呀,现在NLP领域正在蓬勃发展,带来了机器翻译(不解释)、搜索引擎(不解释)、人机对话(微软小冰、Siri等)、舆情检索(比如微博热搜)、文本情感分析(自动识别好评差评,参见天猫的评价标签)、信息抽取(如自动生成一篇文章的标题、文摘等,参见今日头条)、信息过滤(比如过滤小黄文或者反动言论,参加被请去喝茶的童鞋们)、文档分类(比如你写一篇足球赛事,计算机可以自动归类到体育主题,参加各大型新闻网站)、文本自动校正(参见word、搜狗拼音等,不解释啦)、语音识别、说话人识别、语音转文本、文本转语音等一系列技术~

所以呀,NLU的大量研究没有做到人工智能,但NLP却飞速发展中,通过各种方法实现计算机对自然语言的处理(甚至有时在老百姓看来,计算机好像真的理解了文本一样)。

那么深度学习会不会真正揭开NLU的篇章呢?小夕说啦,不可能哦。想象一下,一个小孩子学会一句话、并成功的将这句话转换成各种表达方式表达出来,只需要一两次的重复即可完成。而如今先进的深度学习模型则是消耗海量样本(意思即对一句话要重复上千上万次,甚至更多)才能完成勉强可以接受的“智能”水平,但是!一旦测试集稍加改变(比如改变一下问法、换一种表达方式),那么好不容易训练好的机器学习模型将近乎崩溃!所以也不难理解,哪怕是如今最先进的机器翻译系统,Google翻译,有时候在一句话的后面加一个毫无意义的“了”字,却会产生完全不同的两种翻译结果。究其根本原因就是计算机丝毫没有理解文本。虽然对大众来说这很难让人接受,但这是事实。

那么计算机何时可以真正去理解文本呢?期待新的机器学习模型吧!

一个问题就可以辨别真假NLP(自然语言处理)研究者相关推荐

  1. nlp自然语言处理_自然语言处理(NLP):不要重新发明轮子

    nlp自然语言处理 介绍 (Introduction) Natural language processing (NLP) is an intimidating name for an intimid ...

  2. nlp自然语言处理_不要被NLP Research淹没

    nlp自然语言处理 自然语言处理 (Natural Language Processing) 到底是怎么回事? (What is going on?) NLP is the new Computer ...

  3. 万分之二用百分之怎么表示_红木家具怎么辨别真假

    红木家具价格比较高,红木家具怎么辨别真假?今日就由PChouse为你一一解答. 一.对板 红木家具最怕就是买到假货,要注意的地方很多,我们要说的就是对板.比方说拿一个抽屉出来,你在它的正面看到有波浪一 ...

  4. NLP自然语言处理-机器学习和自然语言处理介绍(四)

    NLP自然语言处理-机器学习和自然语言处理介绍-事件抽取 一.案例介绍 1.背景 事件抽取技术的核心价值,是可以把半结构化.非结构化数据转换为对事件的结构化描述,进而支持丰富的下游应用. 比如说我们要 ...

  5. NLP 自然语言处理实战

    前言 自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 ...

  6. 如何辨别真假IPHONE4 , IPHONE 4S ?

    我们只谈真实数据,绝非像一些无良商家,拿虚假数据或者虚假图片来欺骗大家!甚至网络上现在大部分把高仿机当真机卖,各位千万要小心!!!现在很多人已经受骗!南光一网只希望给大家带来最真实最好的山寨机! 以下 ...

  7. NLP自然语言处理实例——实现机器自动生成商品的推荐标题和推荐语

    NLP自然语言处理实例--实现机器自动生成商品的推荐标题和推荐语 一.案例目的及实现 二.环境配置 1.安装库时遇到的问题 三.数据预处理 1.移除特殊符号 2.去除停用词 3.文本分词jiaba 四 ...

  8. NLP自然语言处理系列——LDA主题词模型探析

    NLP自然语言处理系列--LDA主题词模型探析 时间 2015-06-17 22:39:57  十一城elevencitys.com 原文  http://elevencitys.com/2015/0 ...

  9. 数据分析学习总结笔记16:NLP自然语言处理与文本探索性分析

    文章目录 1 引言 2 数据集 3 文本统计信息分析 4 Ngram模型探索 5 基于pyLDAvis的主题模型探索 6 绘制词云图 7 情感分析 7.1 TextBlob 7.2 Vader Sen ...

最新文章

  1. c语言运行时隐藏dos窗口
  2. QT的QQmlPropertyMap类的使用
  3. 栈与队列之用java实现队列
  4. codeforces1484 B. Restore Modulo(数学)
  5. 如何让自己时刻冷静的方法_睡前如何自己丰胸 健康有效方法 成就窈窕淑女
  6. 如何创建xsl文件 xml_EXCEL知识分享 I 连载如何快速创建XML文件
  7. 反射实例化不同类型的实例
  8. Rob Papen Virtual Effects for Mac - 音频效果器合集
  9. 盘点当下稳定又好用的远程控制方案,软硬全覆盖
  10. 如何用maven tycho构建自己的Eclipse RCP应用
  11. java 电子签章_PDF开发+电子签章,如何实现真正地脱离硬件的无纸化办公体验(实战篇)?...
  12. 被玩坏的“网抑云音乐“可视化数据分析
  13. 微信小程序轮播图调用接口
  14. C++ QT中国象棋项目讲解(三) 单机双人对战走棋
  15. .NET框架设计(1)
  16. 计算机wmi配置错误,系统没有WMI服务怎么办、WMI错误修复方法
  17. C语言入门必刷100题合集之每日一题(1-20)
  18. 求一个数的所有因数+质因数分解【数论】
  19. Ubuntu重装NVIDIA显卡驱动
  20. 【微服务】微服务注册与调用----Eureka

热门文章

  1. poj 1269 直线相交情况
  2. 世界是个班,美国是班长,中国是团支书(太经典了!)
  3. [推荐]VMware Workstation 6.5虚拟机(汉化补丁+注册机+原版安装文件)
  4. 为什么分布式一定要有redis,redis的一些优缺点
  5. 运行地址与加载地址估计大部分人没弄明白~
  6. c语言 数组循环移动,如何将一个数组的元素循环左移?
  7. Struts2_1_基础案例_配置文件详解_动作类
  8. 三、Web服务器——HTTP协议 Response对象 ServletContext对象 学习笔记
  9. 安装 paddleocr 报错 gcc: error trying to exec ‘cc1‘: execvp: 没有那个文件或目录
  10. LeetCode 2050. 并行课程 III(拓扑排序)