自然语言理解的机器认知形式系统(公号回复“黄培红/认知理解”下载PDF资料,欢迎赞赏转发支持)

原创: 黄培红 数据简化DataSimp 今天

数据简化DataSimp导读:本文是十多年后,黄博士对其《自然语言理解的机器认知形式系统》的详细叙述,再次解释他的理论及实例。黄培红授权数据简化社区,欢迎转发。作者简介:黄培红(1967),男,福建莆田人,工程师,研究方向为软件工程和人工智能。《自然语言理解的机器认知形式系统》(Formalizationof Natural Language Understanding)是黄培红(HUANG Peihong)在2007年第29卷第6期(Vol.29,No.6,2007)的《计算机工程与科学》(COMPUTERENGINEERING &. SCIENCE)上发表的代表作。原文摘要:自然语言理解是人工智能研究中的热点和难点之一。基于现有的相关理论,本文提出自然语言理解的形式化定义,以及改进相关的公理系统,从而统一“意思理解”和“道理理解”等两种理解类型。通过设计、开发和运行“篇章理解原型程序”,验证理论成采的正确性和有效性。(Abstract:The understanding of natural languages on machines is one of the difficult topicsin artificial intelligence. Based on the current theory, the formalization of naturallanguage understanding is defined and its axiom system is improved in t his paper.In this system, the two understanding types of ‘meaning understanding’ and‘logic understanding’ are unified. According to the out puts from the executionof a prototype program for understanding chapters, the correctness and validityof all theoretical results presented in this paper are verified.)原文关键词:自然语言理解;机器理解;知觉(Keywords: natural language understanding; machine understanding; perception)。中图分类号:TP18。

目录

自然语言理解的机器认知形式系统(12166字)

01自然语言理解的机器认知形式系统 (6566字)

自然语言理解在认知理解方向已经取得突破性进展

“真实理解即自然人的理解”

自然语言真实理解有三大特点

未来人工智能的核心将是可人类理解的人工智能系统的进阶发展

02商榷searler的中文屋实验:与NLP前辈李维讨论机器理解问题 (2484字)

“机器理解”这个词误导人

机器永远不会“理解”任何语言,机器只会做语义“计算”这种认识不对

网友评论:

03目前的计算机还没有实现真正的智能 (2364字)

首先有几个问题

下面阐述一下体系论中关于信息系统和智能的观点。

参考文献(182字)

Appx(626字).数据简化DataSimp社区简介

用数学方法描述世界、解决问题,是科学发展的核心动力。知识是如何被发现产生出来,以及不同知识间的渊源和启发关系,比记住很多知识更重要。对于人类来说,文字知识是记录人类智能和思想的手段,而非终点。把文字考试作为教育目标,是极其简单粗暴不负责任的。从启迪思想来说,应试是舍本逐末。这方面,愚昧落后的教育者要负责任。AI时代来临,在大多数研究者仍然没有掌握计算机设计制作技术精髓的情况下,很难相信如何跨过计算机科学“弯道超车”步入人工智能科学。我们必须理解计算机、人工智能是如何诞生,背后的科学思想和原理是什幺?加油!只会空想空谈喊口号表忠心可不行,而浪费人财物时间精力投入骗经费的则可耻。(秦陇纪,2018)

01自然语言理解的机器认知形式系统 (6566字)

何谓自然语言真实理解?

文|黄培红,2018年1月20日,原载http://idea.cas.cn《中国科学院科学智慧火花》

自然语言理解在认知理解方向已经取得突破性进展

自然语言理解问题很早就在自然语言处理领域隐隐约约呈现出来。1966年,美国科学院提交一份名为《机器与语言》ALPAC报告,提出机器翻译碰到语义障碍(semantics barrier),而语义障碍实质上就是自然语言理解问题。自然语言理解是人工智能研究中的一个重要的问题。这一次参加icis2017[1]国际会议,并且做了报告,个人感觉在这种环境交流起来比较方便。本人报告了自然语言真实理解方面的最新研究进展,在座的有老前辈张光鉴、冯嘉礼教授,还有人工智能学会的付理事长王国胤教授,以及许多专家教授老师同学们。会议上,我介绍了什么是自然语言真正理解问题,讲了什么是理解以及它的基础what-why理解效应,随后阐述了完全理解的公式,并讲解了李白的一个诗句"床前明月光"的真实理解的过程,以及展望了结合语言真实理解的图林模型的前景。台下冯嘉礼教授频频点头,我的信心很受鼓励。张老提出中国人才有八月十五怀念故乡的习俗,言下之意是外国人没有,我回答说外国人在别的国家也会有思念故乡的情感,而本研究以知觉为基础的,外国人可以理解这个诗,根据这个研究机器也可以,他对回答是满意的,他勉励说年轻人有创新好好琢磨要坚持要用起来会成功的。张老曾是大科学家钱学森[2]的助手,实事求是,人很厚道。

对于本研究在自然语言真实理解上所取得的进展,有人不以为然,说“是什么进展?我看了半天,一个字也没找到,难道已经到了人类无法识别和理解的程度了?”笔者认为,以前的NLP自然语言处理主要应用于分词、语法分析以及信息搜索抽取等等,并没有跟人类一样的理解。因为大家对于理解是什么还说不清楚,所以一般采用统计的方法,如果一种分词结果的频度概率比较高就采用这一种分词方法,显然而且事实上经常会出差错。研究人员经常自嘲“统计的方法是疯子,规则的方法是傻子”。人类采用理解的方法显然更高明。本研究能够弄清楚理解是什么就是一个质的飞越,可以说,本研究在自然语言真实理解机理与方法上取得突破性进展。

自然语言的真正理解研究,其研究论文《自然语言理解的机器认知形式系统》于2007年在计算机工程与科学杂志正式发表,到现在已经整整十周年,已经经过了非常之多实例的验证,也该是成熟的时候了。以下是报告完成后研究人员就自然语言真实理解理论,与同行们交流问答情况。

“真实理解即自然人的理解”

由于真实世界中自然语言机器处理的歧义性和复杂性引发的语义障碍问题,人们希望通过“理解”来处理自然语言.这使得传统的自然语言处理方法变得更加有效。这个‘理解’就是真实理解,也就是我们自然人的理解方法。

为了更好弄清自然语言真实理解理论,笔者根据同行要求介绍了该研究有关的自然语言真实理解问题的提出及其研究思路。

自然语言理解是一个难题。一个难点是,对于什么是理解这个关键问题,研究人员很难弄清楚,只可意会不可言传。有一个说自然语言真正理解已经有人在研究了,但他同时表示这些人还没研究出来。本研究以理解的定义为研究对象,发现了人类在自然语言处理过程中的what-why理解效应。这个理解效应说的是当一个人明白了某事物是什么以及为什么时也就理解了该事物。

还有一个难点就是现实世界由概念构成,但概念何其多,接近无穷尽,本研究把概念归结为由知觉元素构成的集合,把对自然语言的理解归结为对现实世界的理解,最终归结为对知觉元素的理解,结合what-why理解效应,本研究最终解决自然语言的真实理解问题。

what-why理解效应目前还没有学者做过系统的研究。理解效应是理解定义的基础,这就是理解定义与理解效应在文章里的关系。

需要反对几种片面的观点。一是机器无法理解论。有些人认为自然语言是不能机器理解的,这是一种片面的观点。目前NLP分词、语法分析等等是自然语言处理过程,并不是对自然语言的真正理解,本研究在弄清理解是什么的基础上的自然语言理解是一种对自然语言的真正理解,对真正理解的规律进行形式化后就可以在机器上实现理解了。二是语义只能是真值语义的传统观念论。目前教科书侧重于真值语义研究,同时还有一种语义叫操作语义。本真实理解理论研究考虑更多因素,该研究的理解偏向自然语义的理解,其中自然语义包括真值语义。有人以为理解就是根据真值函数推断客观事件概率分布,这是一种传统的理论观点,经过交流,该同学最终认识到,这只是最简单的理解。

在交流过程中,同行们对本自然语言真实理解理论表现出浓厚的兴趣,对该理论的核心观点提出了各种问题,比如,理解是什么?所谓“理解”是什么意思呢?计算机应该怎样做,才算是“理解”了词的意义并能运用到各种合适的场合呢?

根据已发表的有关文献3理解是外部刺激物与认知系统内的知觉模式集匹配时析出的确信性感受。计算机全面理解该外部刺激物如词语、句子、文章的各个部分各个知觉子集后才算理解它的意思,涉及各个约束关系,可以运用到各种合适的场合。那么,自然语言的一段文本,理解之后变成什么样的形式呢?同样根据已发表的有关文献,自然语言的一段文本,理解之后变成可聚知集的形式,一种知觉集合

在交流现场,应同行们要求,笔者对真实理解理论的最核心的公理1(理解)与公理2(学习)作了相应的说明和解释。公理1是说,当处于知觉模式外部的外部刺激形成知觉集合而后与认知系统内知觉模式相匹配时,就确信了外部刺激所含的知觉及其组成的知觉集合的存在,这时若原存入模式的置信度高,已无疑惑,则真正懂得了该刺激是什么为什么(即确定了它的真值性),从而理解了该知觉集合(包括各知觉)。该公理2说的是,可以设定认知系统的本能机构1为:当一个外部刺激被判断是真值(如客观存在) ,而且它引起的知觉集合有价值(如可形成功能),那么该知觉集合(包括功能)就有记忆的价值,并把它连同确信性感受(一种置信度)一同存入认知系统内。这是一个前理解本能机制,即它得到的知觉集合是理解的基础。

刺激物全面理解公式是对于刺激物比如词语、语句、篇章,对它的理解是涉及的各个部分各个知觉子集都得到理解后这个刺激物才得到理解,比如各个概念对应的知觉集以及各个知觉元素都要得到匹配理解。

那么,怎么理解一个词呢?比如“大雨”。先要知道“大雨”是什么,也就是what因素首先启动,然后what与why因素交互作用,最终形成对刺激物“大雨”的理解结果。理解是个心智程序,可以独立于内容结果之外,但理解对不对,好不好,还是需要客观事实检验,这是对“理解”的评价。这个理解过程,匹配与评价两者都需要,缺一不可,评价可以优化理解。是不是意思理解“雨”,按道理理解“大雨”呢?需要说明的是,不但要意思理解还要道理理解“雨”,对“大雨”的理解也一样,两个理解类型缺一不可。

研究人员还对同行们的理解疑问与认识偏差进行了现场答疑。

其中的一个问题是感知觉或概念匹配后就算理解吗?不是的,不但要匹配还要析取,这就是匹配析取函数的内容。这个理解定义的理论基础是what-why理解效应,即当认知系统知道刺激物是什么及有关的为什么时就理解了该刺激物;理解包括意思理解与道理理解,也就是说,这个理解定义包括了二层含义,涉及意思理解与道理理解两种理解类型。

另一个问题是理解前置定语形成的词组,那可适用的层次是不是就多了呢?是的,但这些层次的类型就两个,意思理解类型与道理理解类型。“匹配->建模”的过程,叫意思理解。只要主体产生信息匹配并建立了一个认识模型,理解就产生了,不论理解到什么结果,都是那个主体的理解。推断(道理理解)就是另一个心智程序,意思理解启动了道理推断,推断同时去启动评价、估值等。最后是一组心智程序要素的组合生成了最终认识,这个认识过程可以统称为理解(广义)。同一刺激物对象,可以有不同的理解,所谓“理解是个筐,啥个都能装”,只要认知系统在系统内认可该理解结果。

总之,理解定义的基础what-why理解效应,what启动的是意思理解,why启动的是道理理解(分析)。道理分析(解构->推断)是意思理解(匹配->建模)的思维逆运算,是对结果的倒推。本理论对这些理解规律进行了详细的数学化与细化,具体可参考有关文献3。

自然语言真实理解有三大特点

语言真实理解理论的魅力在于真实理解的灵活性、泛化性和鲁棒性三个不同的方面,机器真实理解自然语言的三个突出特点是可推理、可推广和可靠性。

灵活性真实理解可以非常成功地解决许多自然语言处理问题,我们可以用真实理解理论非常灵活地处理很多歧义性现象;

有同学提问说bright moon能够理解,那bright apple能理解吗?这个就涉及理解的灵活性方面。把bright apple理解成apple能发光是不能理解的,若把bright apple理解成发亮的苹果是可以理解的。最后该同学对这个回答表示满意。

泛化性涉及语义关联材料, 包括语境和知识,根据这些约束条件处理语言材料具有普适性,相对复杂,同时相比现有的统计自然语言处理方法具有更强的通用性。

有同行认为,能区分bright apple和bright moon的前提是对世界的理解,这对于机器来说是无解的,希望通过将人类知识“教”给计算机的做法是行不通的,因为人类还会说出“bright face”、“bright ideas”这样的话,而且这样的话会是成千上万、层出不穷的。但这个观点忽视了真实理解理论的泛化性特点。

真实理解的泛化性是真实理解理论的魅力所在。本理论正是把自然语言的理解归结为对现实世界的理解,最终归结为知觉元素的理解。这个理论的关键是它是在弄清了什么是理解基础之上建立的。本理论中,人类知识归结为现实世界的知觉模式集,人类知识可以教给计算机(认知系统),其中的学习公理可以把可理解的知识加入认知系统(cognitive system),成千上万、层出不穷的“brightface”、“bright ideas”之类的表达式是可以进行理解式推理建构的,这就是本自然语言真实理解理论的特色与优势所在。

鲁棒性鲁棒性是可靠性的体现,是让机器拥有在真实理解基础上自觉和对抗诸如手误在内的自动纠错的能力。

真实理解涉及语境、知识以及日常习惯与常识的制约,保证系统的一致性与正确性,从而实现系统的鲁棒性;但是自然语言的真实理解跟信息量的多少没多大关系,真实理解仅需适量的信息即可。

有人认为,如果u反映可信度,那么可信度未必提供信息多,比如,“小偷是人”比“小偷是老头”错的可能性更小,一般情况下更正确,但是信息少。理解特殊才可能获得更多信息。我的方法是,遵照popper说的,用信息评价。理解更好也就是获得信息更多。正确率,真,在很多情况下并不是好的准则,比如总是预报明天没地震,正确率非常高;总推测小偷是人,逻辑概率很大,但是没啥信息。

理解是个布尔量,跟信息量的多少关系不大,信息量倒是跟理解的深度相关。知道的越多,说明理解得越深。理解与理解度是两个不同的概念。理解跟对方的答案有关,是否理解就是是否知道对方说了什么。理解的深度越深那么理解的准确率可能越高。按累乘方法,理解复杂语句会得低分,理解简单语句容易得高分。复杂的句子靠推理理解仍然可以得高分。理解的深度与鲁棒性有密切关系。

以上这三个特性都涉及到真实理解理论的本质,即知觉粒度上的语义及其细粒度的约束关系,正是这三个特点使得自然语言真实理解理论在处理现实世界信息方面带来巨大的便利。

对真实理解理论的应用情况以及优化同行们提出了进一步的意见,比如:真实理解公式能解决什么问题?评价两种理解好坏?优化理解,或优化表达?你那公式u反映正确?最大值多少?

真实理解进行自然语言处理具有三性:灵活性、泛化性以及鲁棒性,这是本研究在解决自然语言处理问题上的优势,可见,该公式可以解决自然语言的真实理解问题,而且,根据心智程序对不同学科的圈定情况,可以看到,理解在基础层面,所以在实际应用中它渗透到方方面面,许多认知问题最后都归结到理解问题。评价理解的好坏是越正确越好。公式u反映认知系统认为的正确理解。目前只用到1-正确,0-不理解,0-1之间根据需要定。

比如天气预报“明天有小到中雨”,有人理解是先小雨后中雨,有人理解是降水量范围在小雨和中雨范围内,如何用数值评价两种理解?本理论中的理解偏自然语义的理解,理解的评价这个要看天气预报的人的答案是什么了。定量方面,是否理解目前就用到0与1。当然,一牵涉到“值”,理解就从狭义匹配到包涵评价的广义理解了。实际上有多个心智程序共同参与思维运算。有人在原始信息的基础上,匹配了“先后”建立降雨过程模型。有人则匹配“大小”建立降雨量模型。这两个都是理解(匹配->建模)。对这种理解的评价由提供答案的人决定。所以往往要结合上下文来理解,涉及上下文的话,这需要用到道理理解,通过这种约束条件,从而理解会更准确,这也是真实理解的鲁棒性的体现。

未来人工智能的核心将是可人类理解的人工智能系统的进阶发展

基于自然语言理解的认知系统涉及人工智能的方方面面,可以说,自然语言理解是AI-完全问题。存在这样一种观点认为,上述这样的NLP系统等价于要建立人类的认知模型,然而,纵观人类的AI研究历史,所有企图通过对人类和世界建模的系统,最后都以失败告终。这是种人工智能悲观论观点,同样是一种偏见。

历史上认知模型确实失败了,其失败的重要原因是这些系统的知识表示,这些知识在系统中只是数据,无法理解,最终导致混乱。这个世界模型数据非常之大又不可理解,一盘散沙式的数据,适用的知识又没办法得到,最终导致系统建模使用上的失败。真实理解问题的研究给了这些认知建模系统注入生机与活力。

有人认为,计算机能做的,在他看来,最多能够区分出、并对人类的“意义”进行编号(比如bright这个词对应了的各种含义的编号分别是100,200,350,...),然后将句子中的词语映射到这些id中。对于更为复杂的句子,他也相信应该可以找到一种表达方式(比如用词向量的叠加表达一个组合意义),然后在这个组合向量空间中对句子进行处理,他也相信人类一定能够走到这一步(这已经很了不起了)。不过,他相信,因为计算机没有“生活在一个世界之中”,所以计算机对于这些id究竟意味着什么,仍然是茫然无察的。

笔者要说的是,计算机虽然可以没有和我们一块“生活在同一个世界”中,但本研究着重知觉形式化基础上来进行自然语言理解的,这意味着计算机将拥有与人类等价的知觉系统,可以让它具有基本的知觉经验,比如10岁人类的现实世界经验,然后通过阅读理解,自学从小学、中学、大学等等人类知识精华,掌握完备的人类知识,理论上这样的计算机或者叫机器认知系统完全可以与人类生活在同一个世界之中的人类等价,从而对这些意义id 有所理解、有所体验、有所感知、有所认知,并不会仍然是茫然无察的。

讨论很热烈,通过这次交流,感觉还是蛮有收获的,既解答了别人的疑问,本人也收获了学习以及思考的机会。对于这个自然语言真实理解研究,有同行给予了正面的充分肯定与推荐,认为“楼主还是很棒的,网上可以搜到楼主在很多专业杂志发表的关于自然语言理解的论文,十几年的工作,很棒。”显然,这个世界上还是有人知道这个研究的价值,毕竟这个社会的发展还得靠这些正能量支撑。好事多磨的意义就在于,好事总得经得起考验才对,黑子的作用在于夯实,在于去掉水分留下精华。

在报告提问环节,笔者提到正是全世界的人与人之间知觉是一样的,知觉对应的现实世界指代对象是一致的,人类才能相互理解沟通,而这个知觉系统是人类的先天本能机制。这个先天本能机制是人类理解沟通的基础,由基因确定的。值得一提的是,本理论中的学习公理(公理2)非常重要,很有可能发展成为机器学习的原则,是自动化机器学习的基础。有同行对这个理论颇有兴趣,表示了交流合作的意愿。

可以预期的是,未来的人工智能系统一定是人类可理解的,真实理解的三大特性决定了可理解性是下一代智能系统的重要特征。

脚注1:ICIS2017,即第二届智能科学国际会议,于2017年10月25-28日在上海临港隆重召开。被誉为人工智能领域“根目录”之一的美国科学院、美国工程院、美国艺术院三院院士,加州大学伯克利分校教授迈克尔·乔丹(Michael I. Jordan)做了报告。

脚注2钱学森,大科学家,国内人工智能的形象思维学派的发起人,第一届中国人工智能学会会长。钱学森是世界著名科学家,空气动力学家,中国载人航天奠基人,被誉为“中国导弹之父”。

脚注3:自然语言真实理解研究的有关文献包括:《自然语言理解的机器认知形式系统》《自然语言理解--一个关于机器感悟人类语言实质的逻辑理论》《自然语言加工中What-Why理解效应》,以及《Exploration on Causal Law of Understanding and Fusion Linking ofNatural Language》

黄培红,2018年1月20日,原载《中国科学院科学智慧火花》,http://idea.cas.cn

02商榷searler的中文屋实验:与NLP前辈李维讨论机器理解问题 (2484字)

商榷searler的中文屋实验:与NLP前辈李维讨论机器理解问题.

文|黄培红,投稿时间:2016-04-10,原载http://idea.cas.cn《中国科学院科学智慧火花》

“机器理解”这个词误导人

有知名博主发出感慨说:说到“机器理解”,这个词误导了多少人。并说,成语里面无论有多少个故事,隐含的意义,不同的理解,这统统不在语义计算(所谓机器“理解”)的范畴内。这些都是语义表达(semantic representation)的问题,与机器理解没有一毛钱的关系。(QUOTE:重温AI历史上的思维实验:老外不会中文,正如机器没有理解from http://blog.sciencenet.cn/blog-362400-967894.html)本人想了一下,这个”误导“的原因是什么呢?很明显,这是因为理解的本意与目前学术界主流的理解并不一致造成的。

机器理解的理解与人类理解的理解,字面相同,意义同样,但目前主流的机器理解,在图像处理领域仅仅是识别,或者在自然语言处理领域,词句法分析就是机器理解。应该说,主流的机器理解仅仅讲对了理解的一部分,以至于现在出现了混乱,出现了这样一种状况:主流认为,句法分析就是机器理解,但机器做到了句法分析时,人们又不禁发出疑问,难道句法分析了就是理解吗?归结原因,是因为人们对什么是理解的问题还没有搞清楚。同样,主流认为,图像匹配了就是理解,也仅仅讲对了一部分,因为当机器做到了匹配出图像时,人们并不认为机器理解了这个图像。原因同样是对什么是理解的问题认识不清。

历史上有个著名的中文屋思想实验,用以批判强人工智能问题。QUOTE:“Searle创造了“中文房间”思想实验来反驳电脑和其他人工智能能够真正思考的观点。房间里的人不会说中文;他不能够用中文思考。但因为他拥有某些特定的工具,他甚至可以让以中文为母语的人以为他能流利的说中文。根据Searle,电脑就是这样工作的。它们无法真正的理解接收到的信息,但它们可以运行一个程序,处理信息,然后给出一个智能的印象。”(from http://baike.baidu.com/view/911657.htm)

但这个中文屋问题在今天就是个值得商榷的问题了。屋内的人是懂得母语理解母语的,这是毋庸赘言的。我们可以假想一下,如果屋内的人知道了(或者使用特定工具知道)这个中文是什么及为什么时,这种对应关系,就是一种对中文的理解,也就是说,通过他拥有的某些特定的工具后,他其实已经确切地知道了这个中文是什么了,也就是理解了这个中文,而不是机械的一一对应或变换了。当然这是当时的条件限制造成的,如果放在现在,他(Searle)知道了理解规律,掌握了理解规律,懂得什么是理解的时候,他一定不会这么认为,认为屋内的人没有理解中文了。同样,老外不会中文,但当他知道特定中文是什么及为什么时,他也就懂得了中文,而不仅仅是一种机械的对应关系。比如中文“香蕉”,当他知道它是什么(就是对应的“banana")及为什么(知道它就是”banana”或知道它为什么是”banana")时,他就理解了“香蕉”这个中文。正如屋内的人理解中文,机器也一样,根据理解效应,当机器知道中文是什么及为什么时,它也就理解了中文。总而言之,对于中文屋问题,屋内的人是根据理解效应翻译出中文时,就不能得出它不懂中文的结论,同样,机器不是通过机械的一一对应,而是根据理解效应进行信息处理时,也同样不能得出该机器不能理解中文的结论。有关“香蕉”的全面理解,可以参考对中文“蓝”的理解(from http://idea.cas.cn/viewdoc.action?docid=138)

机器永远不会“理解”任何语言,机器只会做语义“计算”这种认识不对

说机器永远不会“理解”任何语言,机器只会做语义“计算”。这种认识是不对的,这是因为目前主流还没有掌握理解效应的规律造成的。当人类知道了理解效应规律以后,机器就可以理解语言,而且还会对语义进行深度理解(deep understanding),做类似人类的理解计算。

同样,“成语里面无论有多少个故事,隐含的意义,不同的理解,这些都是语义表达(semantic representation)的问题,与机器理解没有一毛钱的关系”,这种说法也是不成立的,机器理解与语义表达(semantic representation)的问题具有紧密的关系,因为当知道成语是什么及为什么时,认知系统理解了该成语。可见,机器理解与语义表达紧密相关,而且,解决了理解问题,语义表达才能更加准确,更加合理,才更有方向。

我很认同“理解是本质,表达只是形式”这句话,但说“记忆是强盗,词典是绑架”,就值得商榷了。记忆是强盗吗,词典就是绑架吗?不一定的,正确的记忆才有价值,同样,正确的词典才有意义,否则不会引起理解效应的,不正确的记忆或词典最终都可能引起疑惑,破坏理解效应,无论是人类或是机器。如果硬说词典是绑架,那也要绑架得合情合理。

至于说人工智能(ArtificialIntelligence)没有也无需“智能”,自然语言理解(Natural Language Understanding)也没有“理解”,一切的智能和理解都是比喻,这些都只是目前学术界的主流认识,目前学术界的主流并没有解决“理解”是什么的问题,它们所谓的自然语言理解,如前所述,往往是句法分析或词法分析,或基于概念的语义计算,是有局限性的,以至于现在它们碰到这样一个如前面所说的棘手的问题,当它们用机器把某些句法分析正确时,人们往往又不承认它就是理解了这些句子。究其深层次原因,原因是它们使用理解这个字眼的时候,本来是人类理解的这个“理解”,但借用“理解”进行自然语言处理研究过程中,又给理解无意中下定义(它们并没有也没能力给理解下个确切的定义)的时候,又只是给了个诸如词句法分析这样的词义。所以现在导致了这么一个尴尬的状态。“智能”也一样,人们往往把机器能做人类能做的事情就叫智能,但这些只是表象,只是人类智能的一部分,没有掌握“智能”的规律,或者说不知道“智能”的本质,所以当机器下棋超过人类时,人们往往又不承认该机器有智能。(QUOTE:基于语义本源介入的智能界定研究from http://www.cqvip.com/QK/89810X/201003/688739072201003007.html或 http://www.cnki.com.cn/Article/CJFDTotal-XIZH201003007.htm)需要强调的是,机器理解、电脑自主思考、获得人类的情感等等,这些并不是人工智能的科幻神话,更不是只有茶余饭后博取一笑的价值。“一切的智能和理解都是比喻”,前面已经说了,只是反映了目前学术界的主流认识的现状。目前的学术界主流如果能积极接纳对“理解”是什么与“智能”是什么所进行的研究,无疑将把主流的学术水平提高到一个新的层次。

网友评论:

1楼 谭少锋:支持黄老师的观点。学生这里也有几篇文章,希望您有空了看看,多多指点。http://idea.cas.cn/viewdoc.action?docid=47113http://bbs.sciencenet.cn/home.php?mod=space&uid=2534064&view=fransis2015体系论对DNA、大脑、社会信息系统、计算机等信息系统进行了对比分析,认为前三种都能产生偶发信令,是自主...详情>>2016-05-23 15:07

03目前的计算机还没有实现真正的智能 (2364字)

目前的计算机还没有实现真正的智能——体系论对人工智能的启发

文|谭少锋,投稿时间:2016-04-15,原载http://idea.cas.cn《中国科学院科学智慧火花》

首先有几个问题

人工智能成为专门的学科诞生以来,经历了几次起落,在人们的期望和失望中摆动。即便目前在计算机、机器人中取得了许多成就,也还是显得不尽人意。业内很多人都能感觉到目前的人工智能离人类大脑的智能仍有较大差距,高等智能的提出就有这方面的因素。但究竟如何才能让人工智能更进一步走向人脑智能?还有,之前我们对智能的研究缺失了什么以至于计算机实现的智能与人脑的智能之间存在越不过去的坎?

对智能的研究一直都以人类大脑的智能为范本。但大脑及神经系统只是生物演化中形成一种信息系统而已,还有没有其他种类的信息系统可以作为研究对象?如果有,在这些信息系统会有哪些异同?

目前人们对于智能的定义有很多种说法,会思考、有意识、理智、智慧、像人那样行动等等,都归属于描述性表述。会不会有一种更简单的,更直观的,触及到本质的定义呢?

下面阐述一下体系论中关于信息系统和智能的观点。

在体系论中,细胞为一级生物体系,动物、植物、真菌为二级生物体系,人类社会为第三级生物体系。其中第一级和第二级是紧致实体,即通常人们所说的细胞(体)、动物(体)、植物(体);第三级生物体系是离散型物质体系,非紧致实体。一级生物体系细胞作为基本单元组成了二级生物体系,二级生物体系中的作为基本单元组成了第三级生物体系。

一级生物体系的信息系统以DNA为主,二级生物体系的信息系统为神经系统,其中以大脑为主,第三级生物体系的信息系统为社会信息系统,包含了社会中人的头脑、书籍、计算机、手机、互联网等。至此我们可以看到,在自然演化形成的信息系统中,除了大脑,还有DNA和社会信息系统。社会信息系统中又以人的大脑为核心,因此我们可以先以DNA、大脑-神经系统和计算机这三种典型的信息系统为对象进行研究。

对DNA主导下的细胞和大脑-神经系统主导下的人的行为表现进行观察、分析,DNA和大脑-神经系统不仅仅有感知引起的行为,还会有自发的、主动的行为。比如大脑内突然涌现出的想法、突然萌生的要去哪里做什么的意愿。可见DNA和大脑神经系统有自主能力,能够自发地形成信息活动,产生自主行为,它们都是自主信息系统

演化方面,DNA可以由突变产生新的信息概念,推动演化;大脑可以通过思考、灵感形成新的信息概念,实现信息演化。它们都有自主演化能力的。DNA中新信息概念产生的速率要小于大脑灵感的产生速率,而且大脑灵感可以有很强方向性,产生之后可以通过思考进行检验、处理,筛选出结果,大脑相比DNA有很强的信息处理能力。因此二级信息系统 大脑-神经系统的演化活性和信息处理能力是高于一级信息系统DNA的演化活性和信息处理能力的,另外通过对比我们也可以发现,第三级信息系统 社会信息系统的演化活性和信息处理能力也高于大脑-神经系统的。总结可知,一、二、三级信息系统都是自主信息系统,都具备自主演化能力,它们的演化活性和信息处理能是逐级提高的。

再看看人类制造出来的信息系统——计算机,目前它只能在编程后按人的指令产生信息活动,或者通过外界的感应形成活动,无法像人和细胞那样自发地形成信息活动。虽然有些机器人拥有自行能力,但还是基于感知-行动或者人的指令产生的,它的信息活动仍然不是自发形成。目前的计算机只是实现了半自主信息活动能力,只能算是半自主信息系统。在演化方面,计算机中的新信息概念是由人来输入形成的,它的演化是在人的辅助下的演化,和自主演化有本质的区别。

根据对DNA、大脑、计算机的观察和分析,我在体系论中提出了偶发信令、可控信令、信令协调控制机制和信息概念的观点。DNA和大脑都可以形成偶发信令,然后偶发信令在信令控制机制的协调下引发一系列可控信令,形成信息活动,即自主信息活动。计算机本身无法产生偶发信令,只能由外界引发起始信令后,在信令控制机制的协调下产生一系列可控信令,形成信息活动,即半自主信息活动。DNA可以由突变形成新信息概念——新基因,实现自主演化。大脑可以由偶发信令形成新的信息概念,实现自主演化。而计算机还形成不了偶发信令,也没有突变,无法形成自主演化,只能在人的作用下实现升级、演化。

自然界中,正是突发、偶发事件引起的一系列变化推动了事物的发展和演变。信息系统的出现使这些突发、偶发事件及连锁变化更可靠了。在DNA中,有偶发信令、突变来形成自主信息活动,产生新信息概念,推动演化;在大脑中,有偶发信令来形成自主信息活动,产生新信息概念,推动演化;在社会信息系统中,有大脑的偶发信令来形成自主信息活动,产生新信息概念,推动演化。

目前的计算机与人脑的差距就在于无法产生偶发信令,也形成不了新信息概念,所以无法产生自主信息活动,无法实现自主演化。现在计算机实现的智能可以在特定情景中达到很好的预期效果,而在情景改变后就变得极其笨拙了,更不要说适应更为广泛的情景了。然而人就不一样,到了新环境后经过学习思考可以很好地适应新环境。可见,计算机、人工智能若想要达到大脑那样的智能,必须能够产生偶发信令,形成新信息概念,实现自主演化。计算机的普适性应该通过提高其自主演化活性来实现。

通过以上对信息系统的分析,我们提出了新的关于智能的定义,即偶发信令形成新信息概念的能力为智能。这样我们会认识到计算机和DNA都没有智能,只有大脑-神经系统和社会信息系统拥有智能。目前计算机实现的只是功能上的类智能,达到一定程度地智能化,距离真正的智能似乎还很遥远。虽然如此,计算机仅是类智能的半自主信息系统,就已经使人类社会产生了跨越式的改变,那么可以预见真正人工智能实现的时候,必定会产生更深远的影响。

注:体系论是一个完整的理论,公布在科学网王晨光的博客中(http://bbs.sciencenet.cn/home.php?mod=space&uid=2534064&view=fransis2015)。因为字数限制,只这里好截取其中的一篇,分享给大家探讨了。

-END-

参考文献(182字)

1. 黄培红.《中国科学院科学智慧火花》何谓自然语言真实理解?.[EB/OL] http://blog.sina.cn/dpool/blog/s/blog_80b59afc0102xdnw.html,原载http://idea.cas.cn,2018-01-20.

2. 黄培红.商榷searler的中文屋实验:与NLP前辈李维讨论机器理解问题.[EB/OL] http://idea.cas.cn/viewdoc.action?docid=46907,2016-04-10.

3. 谭少红.目前的计算机还没有实现真正的智能.[EB/OL]http://idea.cas.cn/viewdoc.action?docid=47113,2016-04-15.

x.秦陇纪.数据科学与大数据技术专业概论;人工智能研究现状及教育应用;纯文本数据神经网络训练;大数据简化之技术体系[EB/OL].数据简化DataSimp(微信公众号)http://www.datasimp.org,2017-06-06.

自然语言理解的机器认知形式系统(12166字)

秦陇纪

简介:自然语言理解的机器认知形式系统。(公号回复“认知理解”文末“阅读原文”可下载0图4码16k字9页PDF) 蓝色链接“数据简化DataSimp”关注后下方菜单项有文章分类页。作者:黄培红。来源:黄培红教授授权转发,秦陇纪微信群聊公号,引文出处请看参考文献。版权声明:技术科普文章仅供学习研究,公开资料©版权归原作者,请勿用于商业非法目的。秦陇纪2018数据简化DataSimp综合汇译编,投稿合作,或出处有误、侵权、错误或疏漏(包括原文错误)等,请联系DataSimp@126.com沟通、指正、授权、删除等。欢迎转发:数据简化DataSimp、科学Sciences、知识简化”新媒体聚集专业领域一线研究员;研究技术时也传播知识、专业视角解释和普及科学现象和原理,展现自然社会生活之科学面。秦陇纪发起未覆盖各领域,期待您参与~ 强烈谴责超市银行、学校医院、政府公司肆意收集、滥用、倒卖公民姓名、身份证号手机号、单位家庭住址、生物信息等隐私数据!

Appx(626字).数据简化DataSimp社区简介

信息社会之数据、信息、知识、理论持续累积,远超个人认知学习的时间、精力和能力。应对大数据时代的数据爆炸、信息爆炸、知识爆炸,解决之道重在数据简化(Data Simplification):简化减少知识、媒体、社交数据,使信息、数据、知识越来越简单,符合人与设备的负荷。数据简化2018年会议(DS2018)聚焦数据简化技术(Data Simplification techniques):对各类数据从采集、处理、存储、阅读、分析、逻辑、形式等方ose 做简化,应用于信息及数据系统、知识工程、各类数据库、物理空间表征、生物医学数据,数学统计、自然语言处理、机器学习技术、人工智能等领域。欢迎投稿数据科学技术、简化实例相关论文提交电子版(最好有PDF格式)。填写申请表加入数据简化DataSimp社区成员,应至少一篇数据智能、编程开发IT文章:①高质量原创或翻译美欧数据科技论文;②社区网站义工或完善S圈型黑白静态和三彩色动态社区LOGO图标论文投稿、加入数据简化社区,详情访问www.datasimp.org社区网站,网站维护请投会员邮箱DataSimp@163.com。请关注公众号“数据简化DataSimp”留言,或加微信QinlongGEcai(备注:姓名/单位-职务/学校-专业/手机号),免费加入投稿群”科学Sciences学术文献”读者微信群等。长按下图“识别图中二维码”关注三个公众号(搜名称也行,关注后底部菜单有文章分类页链接):

数据技术公众号“数据简化DataSimp”:

科普公众号“科学Sciences”:

社会教育知识公众号“知识简化”:

(转载请写出处:©秦陇纪2010-2018汇译编,欢迎技术、传媒伙伴投稿、加入数据简化社区!“数据简化DataSimp、科学Sciences、知识简化”投稿反馈邮箱DataSimp@126.com。)

普及科学知识,分享到朋友圈

转发/留言/打赏后“阅读原文”下载PDF

文章已于2018-05-21修改
阅读原文

微信扫一扫

关注该公众号

自然语言理解的机器认知形式系统(公号回复“黄培红/认知理解”下载PDF资料,欢迎赞赏转发支持)相关推荐

  1. 深度学习的几何观点:1流形分布定律、2学习能力的上限。附顾险峰教授简历(长文慎入,公号回复“深度学习流形分布”可下载PDF资料)

    深度学习的几何观点:1流形分布定律.2学习能力的上限.附顾险峰教授简历(长文慎入,公号回复"深度学习流形分布"可下载PDF资料) 原创: 顾险峰 数据简化DataSimp 今天 数 ...

  2. 黄智生教授:大数据时代的语义技术(公号回复“黄智生语义技术”下载彩标PDF论文)

    黄智生教授:大数据时代的语义技术(公号回复"黄智生语义技术"下载彩标PDF论文) 原创: 黄智生 数据简化DataSimp 今天 数据简化DataSimp导读:介绍面向大数据环境的 ...

  3. “揭开意识的奥秘:认知相对论”及作者李玉鑑简介 (公号发“李玉鑑AI”下载PDF资料,欢迎转发、赞赏支持科普)

    "揭开意识的奥秘:认知相对论"及作者李玉鑑简介 (公号发"李玉鑑AI"下载PDF资料,欢迎转发.赞赏支持科普) 原创: 秦陇纪 科学Sciences 今天 科学 ...

  4. 新一代AI顾泽苍:自组织概率模型SDL主导的机器学习(公号回复“顾泽苍AI”下载PDF资料,欢迎转发、赞赏支持科普)

    新一代AI顾泽苍:自组织概率模型SDL主导的机器学习(公号回复"顾泽苍AI"下载PDF资料,欢迎转发.赞赏支持科普) 原创: 秦陇纪 科学Sciences 今天 科学Science ...

  5. 神经网络、深度学习、人工智能、智能制造2018资料汇编(公号回复“AI2018资料”下载PDF资料,欢迎转发、赞赏支持科普)

    神经网络.深度学习.人工智能.智能制造2018资料汇编(公号回复"AI2018资料"下载PDF资料,欢迎转发.赞赏支持科普) 秦陇纪 科学Sciences 今天 科学Science ...

  6. 编译器发展史5个十年3大人物及编译器知识(公号回复“编译器”下载PDF资料,欢迎转发、赞赏、支持科普)

    编译器发展史5个十年3大人物及编译器知识(公号回复"编译器"下载PDF资料,欢迎转发.赞赏.支持科普) 原创: 秦陇纪 科学Sciences 今天 科学Sciences导读:继本号 ...

  7. 密码学历史及近40年人物技术里程碑(公号回复“密码学”下载PDF资料,欢迎转发、赞赏、支持科普)

    密码学历史及近40年人物技术里程碑(公号回复"密码学"下载PDF资料,欢迎转发.赞赏.支持科普) 原创: 秦陇纪 科学Sciences 今天 科学Sciences导读:密码学是研究 ...

  8. 教育部人工智能科技创新专家组2名单(公号回复“教育部AI工作组”下载PDF资料,欢迎转发、赞赏支持科普)

    教育部人工智能科技创新专家组2名单(公号回复"教育部AI工作组"下载PDF资料,欢迎转发.赞赏支持科普) 教育部 科学Sciences 今天 科学Sciences导读:教育部人工智 ...

  9. 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)

    谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...

最新文章

  1. 看完弄懂,明年至少加 5K
  2. hystrix源码小贴士之Yammer Publisher
  3. RobHess的SIFT代码解析之RANSAC
  4. Android开发日记(六)
  5. bean转换 传类型_java开发中DTO、VO、PO之间的转换你应该这么操作
  6. datatables 添加时间按钮_Java 添加页面跳转按钮到PDF文档
  7. windows 下eclipse 连HBASE
  8. WPS快速截图的方法
  9. python tkinter ttk_关于tkinter和ttk的新教程,适用于Python 3
  10. mes系统故障_mes系统实施失败是什么原因?
  11. centos8 安装kvm
  12. mysql gh 划线,gh-ost:在线DDL修改MySQL表结构工具
  13. openedge-hub模块启动源码浅析——百度BIE边缘侧openedge项目源码阅读(1)
  14. 如何将WIN10自带浏览器Microsoft Edge中的书签导出
  15. PR时间轴模板 企业发展融资历程PR动态图形模板MOGRT
  16. java中的in的语法_java的输入语法
  17. 强化学习笔记-强化学习概述
  18. 计算机组成原理(五)中央处理器
  19. css选择器权重与优先级
  20. 2.2-tensorflow2-基础教程-加载和预处理数据

热门文章

  1. 嵌入式文件系统:NTFS和EXFAT比较
  2. mysql exercise --- one 建库建表练习参考
  3. 免费的区块链数据API网址
  4. 解析稍微复杂一点的数据
  5. 【JUC】Fork / Join 拆分合并
  6. IBM收购了Redhat,转身就卖掉了自己的重要软件......
  7. 使用python提取中文数字和英文_python提取字符串中的中文或数字或英文
  8. 长期接受碎片化信息,会有什么后果?
  9. ACPI相关(6)- ACPI对USB的管理
  10. Python_精灵和精灵组