6 人工神经网络汉字识别系统

6.1 电脑能“变成”人脑吗

计算机能够识字,也能够识别话音,辨别气味,实现某种通常与人类智能有关的功能。但是严格地说,现代的计算机并没有智能,只不过运算速度很高,能够执行人们事先精心编制的程序,完成规定的任务而已。也就是说,现代计算机的性能还不理想,抗干扰能力还较差,不能很好适应工作环境的变化,不像人脑那样能随机应变,去伪存真,去粗存精,具有高超的分析问题和解决问题的能力。

能不能让计算机(电脑)具有人脑那样的智能呢?这是一个极富挑战性的问题。随着科学技术的迅速发展,这个问题越来越受到科学界的重视。人工神经网络(artificial neural networks,简记为ANN)的研究就是为实现这个目标的又一次尝试。

人工神经网络是一门新兴的交叉学科。它是受生物神经网络系统的结构和信息处理方式的启发而发展起来的,不同领域的科学家对此有着不同的见解、不同的研究内容和不同的研究方法。心理学家和认知科学家研究神经网络的目的,在于探索人脑加工、存储和搜索信息的机制,弄清人脑功能的机理,以建立人类认知过程的理论。生物学家、医学家和脑科学家试图通过对神经网络的研究,推动脑科学向定量、精确和理论的系统化发展,也希望研究成果能用于临床医学,在神经医疗方面取得突破。信息处理与计算机科学家研究这个问题的目的,在于寻求一种新途径,以解决目前计算机不能解决或不善于解决的问题。日本学者把上述三种研究工作概括为:“理解脑、保护脑和创造脑”;日本政府也投入巨资,支持由日本理化研究所(RIKEN)牵头开展的研究计划。

所谓“创造脑”主要是指研制像人脑那样的计算机(电脑)。这是一个极其艰巨的任务。近10多年来,人工神经网络的研究工作虽然有不少进展,但离“创造脑”的要求还很远很远!目前已提出的以人工神经网络为基础的信息处理系统还相当“原始”,它只是受生物神经系统的启发而设计出来的极其简单很不完善的模拟系统,因而其性能还不太高,更没有人脑那样的智能。但是跟目前广泛应用的传统计算机相比较,基于人工神经网络的信息处理系统在构成原理方面</PGN0126.TXT/PGN>更接近于人脑的系统。具体地说,传统的计算机是串行处理的离散系统,而后者则是并行分布处理的系统,而且往往是模拟与离散的混合系统。前者是按照给定的程序一步一步地执行运算,后者则在一定程度上能够“学习”、适应环境、总结规律、完成某种识别、运算或过程控制的任务。因此,前者有时叫做指令程序式计算机,而后者则称为非程序化的自适应信息处理机。总之,人工神经网络的研究开创了信息处理领域的一个新方向。研究结果也表明,人工神经网络系统具有独特的联想存储和计算能力,能够解决一些传统计算机不善于解决的问题,如语言或图形识别等非结构性问题。这些研究成果进一步推动了模式识别的研究,形成了一个基于人工神经网络方法的模式识别新方向。

6.2 生物神经元结构

人工神经网络的概念、原理和设计是受生物、特别是人脑神经系统的启发提出的。因此,在讨论人工神经网络之前,须先对人脑神经系统有一个粗浅的了解。

近代解剖学已经证明,人脑是由大约10l0~l012个神经细胞(神经元)组成的。这些神经元组成约1000个模块,每个模块含有约500个神经元网络,而每个神经元网络又由大约10万个神经元连接而成,因而人脑的神经系统是一种极其复杂的巨型系统。

人脑的神经元有许多不同的类型。就其共性而言,神经元由细胞体、轴突和树突三部分组成,如图6.1所示。

树突是神经元的接收器,接收来自其他神经元的信息。它可以看做是细胞体的延伸部。延伸部的各个部位都可以跟其他神经元的轴突末梢相连,形成也能接收信息的突触。

细胞体是神经元的控制中心,它解释来自各个树突的信息并做出响应,然后通过轴突输出信息。

轴突是细胞元的输出,它把名为“动作电位”的电信号传送出去,释放化学物质去激励或抑制相邻神经元的树突。一个神经元的轴突可以有几百个分支,分别与数百个别的神经元相连,不同类型的神经元的连接是各式各样的。

单个神经元的工作是很简单的,这表明智能或信息并不是存储在单个神经元之中。人脑的智能存在于大规模的神经元相互连接之中,存在于网络神经元相互作用之中,也就</PGN0128.TXT/PGN>是说,智能是分布式地存储在神经元之间的连接之中。

6.3 神经元模型

1943年W.麦卡洛(W.McCulloch)和W.匹茨(W.Pitts)根据生物神经元的结构和工作原理,建立了一个神经元模型,叫做M-P模型。如图6.2所示。其中,

N代表神经元;

X1,,X2,,… Xn 代表神经元的输入信号;

W1,,W2,,…Wn 代表连接的强度,叫做连接权值,这些权值是可以调节的,神经系统的信息就存储在连接权值之中。

X是神经元的激励信号,它是各输入信号的加权和:

X=WlX1+W2X2+…WnXn

θ是神经元的激励门槛,叫做阈值。θ也可以调节。只有当激励信号X≥θ时,该神经元才有输出;若X<θ,则无输出。

W.麦卡洛等提出神经元模型后还证明人类思维过程中的逻辑关系可以用基于M-P模型的神经元网络进行模拟。1949年D.O.赫布(D.O.Hebb)进一步阐明了神经元的学习规则。这两个发现为人们用人工神经网络模拟人的智能行为奠定了基础。20世纪60年代,F.罗森布拉特(F.Rosenblatt)提出一种用人工神经元构成的感知器。这种感知器能自动识别印刷体英文字母。这一成就激起了学术界强烈的兴趣,逐渐形成了研究人工神经网络的热潮,使人们产生了研制“类脑计算机”的希望。虽然目前的研究成果距离这一希望还很遥远,但是作为一种新的信息处理手段的人工神经网络,仍是值得我们进行研究的新学术方向。

6.4 能识别两种模式的人工神经网络

把若干个神经元连接起来,就可以构成人工神经网络(ANN)。它跟生物神经网络一样,各神经元互相连接的方法很多,可以构成各式各样的网络。这个问题我们不详细讨论,只举一个简单的例子来说明ANN网络的应用及其特点。

图6.3是一个只有三个神经元的网络。利用这个网络可以识别一种最简单的奇偶校验码。

我们知道:在传送1,0两种数字信号时,信号有时会受到干扰而发生错误,使1变为0,或者使0变为1。为了校验信号在传送时是否发生错误,可以在传输的数字信号中,加入校验码,使发送的数字信号具有一定的规律;接收后的</PGN0130.TXT/PGN>数字信号如果符合这种规律,就可以认为传送时没有错误,否则收到的信号就有错码。常用的一种简单的检错码叫做奇偶检错码。构造这种检错码的原理很简单:①在发送一个“1"码时,再加上一个“1”码,使被传送的数字信号变成含有两个“1”码的码组;②在发送一个“0”码时,则增加另一个“0”码,使被传送的数字信号变为含有两个“0”码的码组。可以看出,这两个码组中的“1”码的数目都是偶数(一个码组的“1”码有两个,另一个码组是0个,都是偶数)。在信道发生误码较少的情况下,这两个码组经传输后,接收到的码组中“1”码的个数如果都是偶数,那么可以认为:这些码组中的信号没有错码;相反,如果接到的码组变为“O1”或“10”,即码组中的“1”码的个数变为奇数,那么这样的码组中的信号就可以认为发生了错误。在这种方法中我们利用码组中“1”的个数(奇数或偶数)来检验码组是否有错码,因而这种码叫做奇偶检错码。从模式识别的角度看,上述四种码组可分为两种模式:一种模式是没有错码的码组(包括“11”码和“00”码),另一种是有错码的码组(包括"O1"码和“10"码)。

现在来讨论如何利用图6.3的神经网络来识别上述两种模式。具体地说,把接收到的四种码组(1,1)、(1,0)、(0,1)、(0,0)分别加在网络的输入端X1和X2后,网络应该识别哪一种码组有错码,哪一种没有错码。如果码组有错码,则网络输出Z=1;否则Z=0。

在利用图6.3的人工神经网络来识别奇偶检验码时,必须先对网络进行训练。训练的作用是把信息存储在各个权</PGN0131.TXT/PGN>值之中,这一过程和上面几章中建立字典(特征库)是一样的。我们这里不讨论对人工神经网络进行训练的方法和过程,只假设网络已经训练好,各个连接权值W和各神经元的阂值θ都已调节好,并已标示在图6.3中。下面来说明图6.3是怎样对输入两种模式进行识别的。

①假设输入码组为(1,1),即X1=1,X2=1。

这时加到神经元N1的激励电信号X=1X1+(-1)X1=0,它小于神经元的阈值θ1 =1,因而输出信号y1 =0;同理,可以算得神经元N2的输出y2也等于0,这样神经元N3没有输入信号,因而也没有输出信号,Z=0,这表示码组(1,1)中没有错码。

很容易证明当输入码组为(0,0)时,输出神经元N3的输出Z也等于0,即这个码组也没有错误。

②当输入码组为(1,0)或(0,1)时,仿照上述方法,也可</PGN0132.TXT/PGN>以证明,输出神经元N1或N2有输出,所以N3也有输出,Z=1。这表示这两种码组都是有错码的。

从上述人工神经网络的识别过程可以看出:其一,用来识别输入信号的信息是分布地存储在各个神经元的连接权值W之中,而不像传统方法那样集中存放在“字典”(特征库)内,其二,各神经元同时并行地工作,而不是按事先编制好的程序、逐个串行地运行,这是ANN识别系统跟前面各章讨论的识别系统的基本区别。仿照本节所介绍的方法,我们也可以用人工神经网络来设计其他类型的模式识别系统,如汉字识别系统等。

6.5 能识别3755个汉字的人工神经网络识别器

关于ANN的研究表明,人工神经网络特别适用于模式识别。国内外已有不少单位采用ANN来识别拼音文字和阿拉伯数码;对于字量庞大的汉字识别,除日本外,从事研究工作的国家不多,或者只限于识别方法研究。我国关于用人工神经网络识别汉字的研究始于20世纪80年代中期。中科院自动化所的手写汉字联机识别系统—“汉王笔”,已采用人工神经网络作为预分类器。清华大学电子工程系于1992年和1996年先后研制成两种ANN汉字识别实验系统。同以传统计算机作为主机的识别系统相比较,ANN汉字识别系统具有不少特点。下面择要介绍我们研制的“清神I型ANN汉字识别系统”的结构、工作原理和实验结果。</PGN0133.TXT/PGN>

图6.4是清神I型ANN汉字识别实验系统的原理框图。汉字识别系统一般包括预处理、特征提取和识别三大功能模块。图6.4略去了预处理和特征提取两部分,只画出基于ANN的汉字识别部分。整个识别系统分为三级:

①第一级为粗分类。从3755个汉字提取的特征先送到“自组织聚类网络模块”,进行粗分类。这一级的分类能力很强,它把3755种汉字分为3023个子集(叫做聚类子集( Cluster) ):其中有902个子集中只有一种汉字,这些子集已不需要再进行单字识别,可以作为识别结果直接输出。此外还有2121个子集,这些子集中的汉字种类数目有2~31种,必须送人第二级再进行处理。

②识别系统的第二级含有(单字)识别网络和细分类网络模块(RNM)。第一级粗分类时汉字种类数等于2或3的子集,被送到(单字)识别网络进行识别;汉字种类数多于3的子集则送到细分类网络再进行一次分类,把这些子集再分为若干个汉字种类数更少的“孙集”,以便于进行单字识别。

③系统的第三级主要是进行单字识别,即把由第二次粗分类的“孙”集进行细分,得到单字识别输出,或由辨混网络区分极相似的汉字,如“王、主、玉”等。

应该指出:通过上述三级处理后的单字识别结果可能还有错误。为了提高整个系统性能,清神I型神经网络汉字识别系统还采取一些“反馈协同控制"(候选子集控制)等措施使系统的错识率进一步减少。限于篇幅本文不再论述。

实验结果表明:上述系统的性能很好,对训练样本的正确识别率为100%,测试样本的正确识别率也在98%以上,识别速度很快,这是神经网络固有的特点。缺点是系统比较复杂,目前又没有专用的神经网络器件或神经计算机,只能采用传统的PC机做模拟实验,难以做到实用化。

应该指出,上述ANN汉字识别系统还不适用于脱机手写汉字识别,也不具有人脑那样的智能。“把电脑变成人脑”还只是人们美好的理想,要实现这个理想还需要走很远的路程。

6.6 “类脑计算机”离实用尚远

20多年来,人工神经网络研究取得了丰硕成果,为信息科学开拓了一个崭新的学术方向,解决了一些传统的冯·诺依曼计算机难以解决的问题。但是当前的人工神经网络系统离最初设想的“类脑计算机"(brained like computer)神经计算机还很远。这是为什么呢?

有的学者认为,现在的ANN只是受生物神经网络系统的结构及信息处理方式的启发而设计的简单的信息处理系统,而不是后者的复制;所采用的神经元模型过于简单,类型也很少,网络规模更是小得可怜。人脑约有1000个主模块,每个模块含有约5亿个神经元,即使做一件简单的事情,大脑也会动用若干个模块协同工作。目前的人造系统要建造这样庞大的复杂的巨系统,是难以想象的。日本近年提出的“理解脑、保护脑、创造脑”研究中有的学者就持有这种观点,希望从“理解脑”的研究工作中深入地阐释脑的智能是怎样形成、又是怎样发挥作用的,然后仿照人脑的结构来“创造脑”,研制所谓“类脑计算机”,使它也像人脑那样具有智能。基于这种观点,要创造“类脑计算机”,除了更深刻了解人脑的工作机理之外,还需要比目前的集成系统规模更大的硬件。

对这个问题有的学者持着不同的观点。他们认为:物质的不同运动状态之间不可能实现“复制”,但可以“模拟”;要求同存异,不能要求做到“一模一样”。鸟和飞机的关系就是例证。早期试图飞行的人曾一再努力建造像鸟一样拍翅膀的飞机,都没有成功。只是人类在掌握了飞行原理,发展了燃料与材料科学之后,飞机才成为可能。飞机的设计制造是受到鸟类飞行的启发,但它是属于非生物的物质运动形态,与鸟的飞行有很多明显的差别。飞机在运载重量、飞行速度和距离远胜于鸟类,可以说是“青出于蓝而胜于蓝”,但它也有明显的不足。从这种观点看,掌握智能系统的“基本原理”,才是研究“类脑计算机”的正确途径。

人类智能的本质、宇宙的演化、物质的构成、生命的起源,被认为是自然科学最奥妙的四大问题。数千年来人类创造了巨大的物质文明,但对自身具有的智能的认识仍然十分肤浅。这是不是“不识庐山真面目,只缘身在此山中”呢?从哲学上说,世上一切事物都是可以认识的。相信人类对自己的一切,包括生理、精神和认知等方方面面的问题也都能够认识清楚,并像创造工具那样创造出“类脑计算机”。

参考文献:

[1]吴佑寿,丁晓青.汉字识别——原理、方法与实现.北京:高等教育出版社,1993

[2]张忻中.汉字识别技术.北京:清华大学出版社,广西科学技术出版社,1993

[3]郭平欣,张淞芝.汉字信息处理技术.北京:国际工业出版社,1985

[4]陆海涛.解开汉字输入计算机之谜.中文信息,1995(5):3~13

[5]张忻中.我国汉字识别技术的历史、现状和展望.中文信息学报,1995(5):25一30

[6]吴佑寿.汉字计算机自动识别研究的进展.科学通报,1991,36(2)

[7] Casey R,Nagy G.Recognition of Printed Chinese Characters.

IEEE Trans.EC一15,1966(1):91一101

[8]崔国伟,舒文豪.高识别率印刷汉字识别方法的研究.中文信息学报,1987,1(5):34~39

[9]刘迎建,戴汝为.联机手写汉字识别的理论与实践.中文信息学报,1988(2):1~13

[10]吴佑寿.教计算机识字——汉字识别.上海:上海科技教育出版社,1999

OCR(人工神经网络汉字识别系统)相关推荐

  1. 数据挖掘人工神经网络,神经网络的数据处理

    1.BP人工神经网络 人工神经网络(artificialneuralnetwork,ANN)指由大量与自然神经系统相类似的神经元联结而成的网络,是用工程技术手段模拟生物网络结构特征和功能特征的一类人工 ...

  2. 人工神经网络与神经网络,带反馈的人工神经网络

    1.人工神经网络有哪些类型 人工神经网络模型主要考虑网络连接的拓扑结构.神经元的特征.学习规则等.目前,已有近40种神经网络模型,其中有反传网络.感知器.自组织映射.Hopfield网络.波耳兹曼机. ...

  3. 人工神经网络具有的基本属性是什么?

    人工神经网络的基本特征 人工神经网络是由大量处理单元互联组成的非线性.自适应信息处理系统.它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理.记忆信息的方式进行信息处理.人工神经网 ...

  4. 人工神经网络的算法原理,深度神经网络算法原理

    1.人工智能的工作原理是什么? 人工智能的工作原理是:计算机会通过传感器(或人工输入的方式)来收集关于某个情景的事实.计算机将此信息与已存储的信息进行比较,以确定它的含义.计算机会根据收集来的信息计算 ...

  5. 人工神经网络英文简称,人工神经网络 英文

    安恩的简介(少一点) . 球员:安恩生日:1986年12月29日身高:188cm体重:90kg球衣号码:1国籍:英格兰效力球队:林肯城场上位置:守门前度效力球队:维尔港曾经效力球队:维尔港安恩是ANN ...

  6. 人工神经网络与深度神经网络

    想学习深度学习需要什么样的基础 很多小伙伴对深度学习的理解都有一些误解,今天就为你一一解答.很多人第一反应是深度学习特别高大上,需要一定基础才能学习,但是关于需要学习深度学习所需要的基础其实存在很多误 ...

  7. 人工神经网络研究的目的,人工神经网络训练过程

    1.什么是样本训练? 一般指对人工神经网络训练. 向网络足够多的样本,通过一定算法调整网络的结构(主要是调节权值),使网络的输出与预期值相符,这样的过程就是神经网络训练.根据学习环境中教师信号的差异, ...

  8. 人工神经网络原理及应用,人工神经网络教程PDF

    我见过的最脑残也是最好懂的人工神经网络算法教程 你要的这份文档,原名为<用平常语言介绍神经网络>(NeuralNetworksinPlainEnglish),有人翻译过来,做成文档供大家学 ...

  9. 人工神经网络图像识别,神经网络如何识别图像

    如何通过人工神经网络实现图像识别 人工神经网络(Artificial Neural Networks)(简称ANN)系统从20 世纪40 年代末诞生至今仅短短半个多世纪,但由于他具有信息的分布存储.并 ...

最新文章

  1. 对PInvoke函数函数调用导致堆栈不对称。原因可能是托管的 PInvoke 签名与非托管的目标签名不匹配。...
  2. hugo采用gitalk添加留言功能
  3. 鹿妮倍半机器人_功能纳米组装体中多面体低聚倍半硅氧烷的旋压
  4. Vue007_ 表单输入绑定
  5. 当电压放大电路的开路增益和输出电阻固定后_晶体管放大电路的性能分析与应用...
  6. 12产品经理要懂的-人性满足思维
  7. 京东发布双11首份战报:手机品类18秒销量突破万台
  8. Spark RDD Cache Checkpoint
  9. 学习ASP.NET Core Razor 编程系列三——创建数据表及创建项目基本页面
  10. 【解释】对用户透明=对用户隐蔽:关系模型的存取路径对用户透明
  11. chmod命令文件权限属性设置(linux/cygwin)
  12. 使用百度地图实现基本的地图显示与定位功能
  13. 边缘计算对于基础架构和运营领导者意味着什么
  14. python爬取网易云音乐视频_用Python爬取网易云音乐歌曲
  15. 年底绩效考核期又来临,企业如何挑选一款好用的绩效考核管理系统?
  16. 开源重磅分销版微信商城源码首发
  17. 十大最好用的企业资产管理软件EAM比较
  18. 机器学习--PCA(主成分分析)
  19. JavaScript数组内置方法-知识
  20. java 生成图片验证码结合struts2使用

热门文章

  1. Flink之统计PVUV
  2. 短视频变现详解:抖音变现目前流行的是七种方式之广告营销
  3. 诸神的黄昏,留给国产手机小厂的时间真的没有了
  4. Nodejs使用多个分隔符分隔字符串
  5. 怎么样开电脑省钱省电
  6. 【部署发版验证】发版checklist
  7. 站长工具综合查询 iis7站长之家SEO综合查询工具
  8. IBM 笔记本T43键盘帽安装手记
  9. 你确认C#中TryParse比Parse好?动手测试才知道!
  10. 【c++】b_game库sbwz函数讲解