一文看懂25个神经网络模型 - 人工神经网络的典型模型

深度学习可解释性差到底是什么意思？

很多人在学习深度学习的时候会遇到一个疑惑，那就是深度学习可解释差这个说法是否准确。这个拗口的词汇相信大家对其义也不甚了解。虽说这个词汇不好理解，但是这个词汇确实是一个十分重要的概念，我们要想学习深度学习知识就不能忽略这个词汇。那么深度学习可解释差到底是什么意思呢？下面我们就给大家介绍一下这个词汇的意思。

首先我们给大家解读一下“解释”的含义，其实解释的意思就是在观察的基础上进行思考,合理地说明事物变化的原因，事物之间的联系，或者是事物发展的规律。而深度学习可解释性差，意思就是我们很难去说明一条样本数据灌进一个神经网络出来这样一个预测结果的原因，这造成的直接后果就是很多时候我们不清楚如何针对一个神经网络做优化。

我们怎么去解释这个词汇的意思呢？其实我们可以从一个线性回归模型考虑。就拿现在大家最关心的房价来说，房价的因素有很多，我们主要就是说两种，第一就是面积，第二就是到市中心的距离。我们认为一个房子的房价受房屋大小和到始终细腻距离两个因素影响，而且到市中心距离这个因素的印象力很大，比房屋面积大100倍。我们还可以针对每个权重和偏置做假设检验，来看看这三个因素有没有哪些是无显著影响的。对于这种只有两个因素的线性模型，我们甚至还可以将模型的函数图像画出来，直观地检查模型与数据拟合程度如何。对于线性模型，我们很清楚每一个权重和偏置的含义是什么。所以我们可以有很多明确的优化方案。这就是线性回归的相关思想知识。

当然神经网络有很多的结构，也有很多的特点，第一个特点就是神经元多，参数众多；第二个特点就是结构分层，且隐含层众多；第三个特点就是神经网络的参数对应的特征不是人工设计的，是神经网络在学习过程中自己选择的。我们根本不知道我们的神经网络模型到底学习了写什么，我们不知道每一个参数的含义是什么，所以我们无法解释整个模型的运作机制，自然也无法得出明确而又针对性的优化方案。

其实深度学习的缺陷有很多，可解释性差也是深度学习目前最大的缺陷之一。所以说，可解释性差总是让深度学习解释事物不是那么完美。因此，我们还需要发现一些更好的方式去弥补这个缺陷，这是深度学习发展的方向之一。相信这篇文章给予大家更多的一些思考和启发，同时也发现深度学习还有很长的路要走，不过路越长说明就业的机会也更多，大家好好加油吧。

什么叫神经网络模型?

神经网络模型是个比较抽象的概念，你确定了一个神经网络的层数，输入、隐含、输出层数，输入输出函数，各层节点数之后，就可以说你建立了一个神经网络模型。

这里的模型，也就指框架。

A8U神经网络

神经网络模型是否可以描述人的记忆过程？它存在哪些缺陷

生物神经网络（Biological Neural Networks）一般指生物的大脑神经元，细胞，触点等组成的网络，用于产生生物的意识，帮虎尝港妒蕃德歌泉攻沪助生物进行思考和行动。而人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

BP神经网络的可行性分析

神经网络的是我的毕业论文的一部分。

4．人工神经网络

人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据逻辑规则进行推理的过程；它先将信息化成概念，并用符号表示，然后，根据符号运算按串行模式进行逻辑推理。这一过程可以写成串行的指令，让计算机执行。然而，直观性的思维是将分布式存储的信息综合起来，结果是忽然间产生想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。

人工神经网络就是模拟人思维的第二种方式。这是一个非线性动力学系统，其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单，功能有限，但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。

4.1人工神经网络学习的原理

人工神经网络首先要以一定的学习准则进行学习，然后才能工作。现以人工神经网络对手写“A”、“B”两个字母的识别为例进行说明，规定当“A”输入网络时，应该输出“1”，而当输入为“B”时，输出为“0”。

所以网络学习的准则应该是：如果网络做出错误的判决，则通过网络的学习，应使得网络减少下次犯同样错误的可能性。首先，给网络的各连接权值赋予(0，1)区间内的随机值，将“A”所对应的图像模式输入给网络，网络将输入模式加权求和、与门限比较、再进行非线性运算，得到网络的输出。在此情况下，网络输出为“1”和“0”的概率各为50%，也就是说是完全随机的。这时如果输出为“1”(结果正确)，则使连接权值增大，以便使网络再次遇到“A”模式输入时，仍然能做出正确的判断。

如果输出为“0”(即结果错误)，则把网络连接权值朝着减小综合输入加权值的方向调整，其目的在于使网络下次再遇到“A”模式输入时，减小犯同样错误的可能性。如此操作调整，当给网络轮番输入若干个手写字母“A”、“B”后，经过网络按以上学习方法进行若干次学习后，网络判断的正确率将大大提高。这说明网络对这两个模式的学习已经获得了成功，它已将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个模式时，能够做出迅速、准确的判断和识别。一般说来，网络中所含的神经元个数越多，则它能记忆、识别的模式也就越多。

4.2人工神经网络的优缺点

人工神经网络由于模拟了大脑神经元的组织方式而具有了人脑功能的一些基本特征，为人工智能的研究开辟了新的途径，神经网络具有的优点在于:。

（1）并行分布性处理

因为人工神经网络中的神经元排列并不是杂乱无章的，往往是分层或以一种有规律的序列排列，信号可以同时到达一批神经元的输入端，这种结构非常适合并行计算。同时如果将每一个神经元看作是一个小的处理单元，则整个系统可以是一个分布式计算系统，这样就避免了以往的“匹配冲突”，“组合爆炸”和“无穷递归”等题，推理速度快。

（2）可学习性

一个相对很小的人工神经网络可存储大量的专家知识，并且能根据学习算法，或者利用样本指导系统来模拟现实环境(称为有教师学习)，或者对输入进行自适应学习(称为无教师学习)，不断地自动学习，完善知识的存储。

（3）鲁棒性和容错性

由于采用大量的神经元及其相互连接，具有联想记忆与联想映射能力，可以增强专家系统的容错能力，人工神经网络中少量的神经元发生失效或错误，不会对系统整体功能带来严重的影响。而且克服了传统专家系统中存在的“知识窄台阶”问题。

（4）泛化能力

人工神经网络是一类大规模的非线形系统，这就提供了系统自组织和协同的潜力。它能充分逼近复杂的非线形关系。当输入发生较小变化，其输出能够与原输入产生的输出保持相当小的差距。

（5）具有统一的内部知识表示形式，任何知识规则都可以通过对范例的学习存储于同一个神经网络的各连接权值中，便于知识库的组织管理，通用性强。

虽然人工神经网络有很多优点，但基于其固有的内在机理，人工神经网络也不可避免的存在自己的弱点:。

（1）最严重的问题是没能力来解释自己的推理过程和推理依据。

（2）神经网络不能向用户提出必要的询问，而且当数据不充分的时候，神经网络就无法进行工作。

（3）神经网络把一切问题的特征都变为数字，把一切推理都变为数值计算，其结果势必是丢失信息。

（4）神经网络的理论和学习算法还有待于进一步完善和提高。

4.3神经网络的发展趋势及在柴油机故障诊断中的可行性。

神经网络为现代复杂大系统的状态监测和故障诊断提供了全新的理论方法和技术实现手段。神经网络专家系统是一类新的知识表达体系，与传统专家系统的高层逻辑模型不同，它是一种低层数值模型，信息处理是通过大量的简单处理元件(结点) 之间的相互作用而进行的。由于它的分布式信息保持方式，为专家系统知识的获取与表达以及推理提供了全新的方式。它将逻辑推理与数值运算相结合，利用神经网络的学习功能、联想记忆功能、分布式并行信息处理功能，解决诊断系统中的不确定性知识表示、获取和并行推理等问题。通过对经验样本的学习，将专家知识以权值和阈值的形式存储在网络中，并且利用网络的信息保持性来完成不精确诊断推理，较好地模拟了专家凭经验、直觉而不是复杂的计算的推理过程。

但是，该技术是一个多学科知识交叉应用的领域，是一个不十分成熟的学科。一方面，装备的故障相当复杂;另一方面，人工神经网络本身尚有诸多不足之处:。

（1）受限于脑科学的已有研究成果。由于生理实验的困难性，目前对于人脑思维与记忆机制的认识还很肤浅。

（2）尚未建立起完整成熟的理论体系。目前已提出了众多的人工神经网络模型，归纳起来，这些模型一般都是一个由结点及其互连构成的有向拓扑网，结点间互连强度所构成的矩阵，可通过某种学习策略建立起来。但仅这一共性，不足以构成一个完整的体系。这些学习策略大多是各行其是而无法统一于一个完整的框架之中。

（3）带有浓厚的策略色彩。这是在没有统一的基础理论支持下，为解决某些应用，而诱发出的自然结果。

（4）与传统计算技术的接口不成熟。人工神经网络技术决不能全面替代传统计算技术，而只能在某些方面与之互补，从而需要进一步解决与传统计算技术的接口问题，才能获得自身的发展。

虽然人工神经网络目前存在诸多不足，但是神经网络和传统专家系统相结合的智能故障诊断技术仍将是以后研究与应用的热点。它最大限度地发挥两者的优势。神经网络擅长数值计算，适合进行浅层次的经验推理;专家系统的特点是符号推理，适合进行深层次的逻辑推理。智能系统以并行工作方式运行，既扩大了状态监测和故障诊断的范围，又可满足状态监测和故障诊断的实时性要求。既强调符号推理，又注重数值计算，因此能适应当前故障诊断系统的基本特征和发展趋势。随着人工神经网络的不断发展与完善，它将在智能故障诊断中得到广泛的应用。

根据神经网络上述的各类优缺点，目前有将神经网络与传统的专家系统结合起来的研究倾向，建造所谓的神经网络专家系统。理论分析与使用实践表明，神经网络专家系统较好地结合了两者的优点而得到更广泛的研究和应用。

离心式制冷压缩机的构造和工作原理与离心式鼓风机极为相似。但它的工作原理与活塞式压缩机有根本的区别，它不是利用汽缸容积减小的方式来提高汽体的压力，而是依靠动能的变化来提高汽体压力。离心式压缩机具有带叶片的工作轮，当工作轮转动时，叶片就带动汽体运动或者使汽体得到动能，然后使部分动能转化为压力能从而提高汽体的压力。这种压缩机由于它工作时不断地将制冷剂蒸汽吸入，又不断地沿半径方向被甩出去，所以称这种型式的压缩机为离心式压缩机。其中根据压缩机中安装的工作轮数量的多少，分为单级式和多级式。如果只有一个工作轮，就称为单级离心式压缩机，如果是由几个工作轮串联而组成，就称为多级离心式压缩机。在空调中，由于压力增高较少，所以一般都是采用单级，其它方面所用的离心式制冷压缩机大都是多级的。单级离心式制冷压缩机的构造主要由工作轮、扩压器和蜗壳等所组成。压缩机工作时制冷剂蒸汽由吸汽口轴向进入吸汽室，并在吸汽室的导流作用引导由蒸发器(或中间冷却器)来的制冷剂蒸汽均匀地进入高速旋转的工作轮3(工作轮也称叶轮，它是离心式制冷压缩机的重要部件，因为只有通过工作轮才能将能量传给汽体)。汽体在叶片作用下，一边跟着工作轮作高速旋转，一边由于受离心力的作用，在叶片槽道中作扩压流动，从而使汽体的压力和速度都得到提高。由工作轮出来的汽体再进入截面积逐渐扩大的扩压器4(因为汽体从工作轮流出时具有较高的流速，扩压器便把动能部分地转化为压力能，从而提高汽体的压力)。汽体流过扩压器时速度减小，而压力则进一步提高。经扩压器后汽体汇集到蜗壳中，再经排气口引导至中间冷却器或冷凝器中。

二、离心式制冷压缩机的特点与特性。

离心式制冷压缩机与活塞式制冷压缩机相比较，具有下列优点：

(1)单机制冷量大，在制冷量相同时它的体积小，占地面积少，重量较活塞式轻5～8倍。

(2)由于它没有汽阀活塞环等易损部件，又没有曲柄连杆机构，因而工作可靠、运转平稳、噪音小、操作简单、维护费用低。

(3)工作轮和机壳之间没有摩擦，无需润滑。故制冷剂蒸汽与润滑油不接触，从而提高了蒸发器和冷凝器的传热性能。

(4)能经济方便的调节制冷量且调节的范围较大。

(5)对制冷剂的适应性差，一台结构一定的离心式制冷压缩机只能适应一种制冷剂。

(6)由于适宜采用分子量比较大的制冷剂，故只适用于大制冷量，一般都在25～30万大卡／时以上。如制冷量太少，则要求流量小，流道窄，从而使流动阻力大，效率低。但近年来经过不断改进，用于空调的离心式制冷压缩机，单机制冷量可以小到10万大卡／时左右。

制冷与冷凝温度、蒸发温度的关系。

由物理学可知，回转体的动量矩的变化等于外力矩，则。

T=m(C2UR2-C1UR1) 。

两边都乘以角速度ω，得

Tω=m(C2UωR2-C1UωR1) 。

也就是说主轴上的外加功率N为：

N=m(U2C2U-U1C1U) 。

上式两边同除以m则得叶轮给予单位质量制冷剂蒸汽的功即叶轮的理论能量头。 U2 C2 。

ω2 C2U R1 R2 ω1 C1 U1 C2r β 离心式制冷压缩机的特性是指理论能量头与流量之间变化关系，也可以表示成制冷。

W=U2C2U-U1C1U≈U2C2U 。

（因为进口C1U≈0）

又C2U=U2-C2rctgβ C2r=Vυ1/(A2υ2) 。

故有

W= U22(1-

Vυ1

ctgβ)

A2υ2U2

式中：V—叶轮吸入蒸汽的容积流量（m3/s）

υ1υ2 ——分别为叶轮入口和出口处的蒸汽比容（m3/kg）

A2、U2—叶轮外缘出口面积(m2)与圆周速度(m/s) 。

β—叶片安装角

由上式可见，理论能量头W与压缩机结构、转速、冷凝温度、蒸发温度及叶轮吸入蒸汽容积流量有关。对于结构一定、转速一定的压缩机来说，U2、A2、β皆为常量，则理论能量头W仅与流量V、蒸发温度、冷凝温度有关。

按照离心式制冷压缩机的特性，宜采用分子量比较大的制冷剂，目前离心式制冷机所用的制冷剂有F—11、F—12、F—22、F—113和F—114等。我国目前在空调用离心式压缩机中应用得最广泛的是F—11和F—12，且通常是在蒸发温度不太低和大制冷量的情况下，选用离心式制冷压缩机。此外，在石油化学工业中离心式的制冷压缩机则采用丙烯、乙烯作为制冷剂，只有制冷量特别大的离心式压缩机才用氨作为制冷剂。

三、离心式制冷压缩机的调节

离心式制冷压缩机和其它制冷设备共同构成一个能量供给与消耗的统一系统。制冷机组在运行时，只有当通过压缩机的制冷剂的流量与通过设备的流量相等时，以及压缩机所产生的能量头与制冷设备的阻力相适应时，制冷系统的工况才能保持稳定。但是制冷机的负荷总是随外界条件与用户对冷量的使用情况而变化的，因此为了适应用户对冷负荷变化的需要和安全经济运行，就需要根据外界的变化对制冷机组进行调节，离心式制冷机组制冷量的调节有：1°改变压缩机的转速；2°采用可转动的进口导叶；3°改变冷凝器的进水量；4°进汽节流等几种方式，其中最常用的是转动进口导叶调节和进汽节流两种调节方法。所谓转动进口导叶调节，就是转动压缩机进口处的导流叶片以使进入到叶轮去的汽体产生旋绕，从而使工作轮加给汽体的动能发生变化来调节制冷量。所谓进汽节流调节，就是在压缩机前的进汽管道上安装一个调节阀，如要改变压缩机的工况时，就调节阀门的大小，通过节流使压缩机进口的压力降低，从而实现调节制冷量。离心式压缩机制冷量的调节最经济有效的方法就是改变进口导叶角度，以改变蒸汽进入叶轮的速度方向(C1U)和流量V。但流量V必须控制在稳定工作范围内，以免效率下降。

神经网络模型有几种分类方法，试给出一种分类

神经网络模型的分类人工神经网络的模型很多，可以按照不同的方法进行分类。其中，常见的两种分类方法是，按照网络连接的拓朴结构分类和按照网络内部的信息流向分类。1 按照网络拓朴结构分类网络的拓朴结构，即神经元之间的连接方式。按此划分，可将神经网络结构分为两大类：层次型结构和互联型结构。层次型结构的神经网络将神经元按功能和顺序的不同分为输出层、中间层（隐层）、输出层。输出层各神经元负责接收来自外界的输入信息，并传给中间各隐层神经元；隐层是神经网络的内部信息处理层，负责信息变换。根据需要可设计为一层或多层；最后一个隐层将信息传递给输出层神经元经进一步处理后向外界输出信息处理结果。而互连型网络结构中，任意两个节点之间都可能存在连接路径，因此可以根据网络中节点的连接程度将互连型网络细分为三种情况：全互连型、局部互连型和稀疏连接型2 按照网络信息流向分类从神经网络内部信息传递方向来看，可以分为两种类型：前馈型网络和反馈型网络。单纯前馈网络的结构与分层网络结构相同，前馈是因网络信息处理的方向是从输入层到各隐层再到输出层逐层进行而得名的。前馈型网络中前一层的输出是下一层的输入，信息的处理具有逐层传递进行的方向性，一般不存在反馈环路。因此这类网络很容易串联起来建立多层前馈网络。反馈型网络的结构与单层全互连结构网络相同。在反馈型网络中的所有节点都具有信息处理功能，而且每个节点既可以从外界接受输入，同时又可以向外界输出。

神经网络BP模型

一、BP模型概述

误差逆传播(Error Back-Propagation)神经网络模型简称为BP(Back-Propagation)网络模型。

Pall Werbas博士于1974年在他的博士论文中提出了误差逆传播学习算法。完整提出并被广泛接受误差逆传播学习算法的是以Rumelhart和McCelland为首的科学家小组。他们在1986年出版“Parallel Distributed Processing，Explorations in the Microstructure of Cognition”(《并行分布信息处理》)一书中，对误差逆传播学习算法进行了详尽的分析与介绍，并对这一算法的潜在能力进行了深入探讨。

BP网络是一种具有3层或3层以上的阶层型神经网络。上、下层之间各神经元实现全连接，即下层的每一个神经元与上层的每一个神经元都实现权连接，而每一层各神经元之间无连接。网络按有教师示教的方式进行学习，当一对学习模式提供给网络后，神经元的激活值从输入层经各隐含层向输出层传播，在输出层的各神经元获得网络的输入响应。在这之后，按减小期望输出与实际输出的误差的方向，从输入层经各隐含层逐层修正各连接权，最后回到输入层，故得名“误差逆传播学习算法”。随着这种误差逆传播修正的不断进行，网络对输入模式响应的正确率也不断提高。

BP网络主要应用于以下几个方面：

1)函数逼近：用输入模式与相应的期望输出模式学习一个网络逼近一个函数；

2)模式识别：用一个特定的期望输出模式将它与输入模式联系起来；

3)分类：把输入模式以所定义的合适方式进行分类；

4)数据压缩：减少输出矢量的维数以便于传输或存储。

在人工神经网络的实际应用中，80%～90%的人工神经网络模型采用BP网络或它的变化形式，它也是前向网络的核心部分，体现了人工神经网络最精华的部分。

二、BP模型原理

下面以三层BP网络为例，说明学习和应用的原理。

1.数据定义

P对学习模式(xp，dp)，p=1，2，…，P；

输入模式矩阵X[N][P]=(x1，x2，…，xP)；

目标模式矩阵d[M][P]=(d1，d2，…，dP)。

三层BP网络结构

输入层神经元节点数S0=N，i=1，2，…，S0；

隐含层神经元节点数S1，j=1，2，…，S1；

神经元激活函数f1[S1]；

权值矩阵W1[S1][S0]；

偏差向量b1[S1]。

输出层神经元节点数S2=M，k=1，2，…，S2；

神经元激活函数f2[S2]；

权值矩阵W2[S2][S1]；

偏差向量b2[S2]。

学习参数

目标误差ϵ；

初始权更新值Δ0；

最大权更新值Δmax；

权更新值增大倍数η+；

权更新值减小倍数η-。

2.误差函数定义

对第p个输入模式的误差的计算公式为。

中国矿产资源评价新技术与评价新模型。

y2kp为BP网的计算输出。

3.BP网络学习公式推导

BP网络学习公式推导的指导思想是，对网络的权值W、偏差b修正，使误差函数沿负梯度方向下降，直到网络输出误差精度达到目标精度要求，学习结束。

各层输出计算公式

输入层

y0i=xi，i=1，2，…，S0；

隐含层

中国矿产资源评价新技术与评价新模型。

y1j=f1(z1j)，

j=1，2，…，S1；

输出层

中国矿产资源评价新技术与评价新模型。

y2k=f2(z2k)，

k=1，2，…，S2。

输出节点的误差公式

中国矿产资源评价新技术与评价新模型。

对输出层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型。

E是多个y2m的函数，但只有一个y2k与wkj有关，各y2m间相互独立。

其中

中国矿产资源评价新技术与评价新模型。

则

中国矿产资源评价新技术与评价新模型。

设输出层节点误差为

δ2k=(dk-y2k)·f2′(z2k)，

则

中国矿产资源评价新技术与评价新模型。

同理可得

中国矿产资源评价新技术与评价新模型。

对隐含层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型。

E是多个y2k的函数，针对某一个w1ji，对应一个y1j，它与所有的y2k有关。因此，上式只存在对k的求和，其中。

中国矿产资源评价新技术与评价新模型。

则

中国矿产资源评价新技术与评价新模型。

设隐含层节点误差为

中国矿产资源评价新技术与评价新模型。

则

中国矿产资源评价新技术与评价新模型。

同理可得

中国矿产资源评价新技术与评价新模型。

4.采用弹性BP算法(RPROP)计算权值W、偏差b的修正值ΔW，Δb。

1993年德国 Martin Riedmiller和Heinrich Braun 在他们的论文“A Direct Adaptive Method for Faster Backpropagation Learning：The RPROP Algorithm”中，提出Resilient Backpropagation算法——弹性BP算法(RPROP)。这种方法试图消除梯度的大小对权步的有害影响，因此，只有梯度的符号被认为表示权更新的方向。

权改变的大小仅仅由权专门的“更新值”

确定

中国矿产资源评价新技术与评价新模型。

其中

表示在模式集的所有模式(批学习)上求和的梯度信息，(t)表示t时刻或第t次学习。

权更新遵循规则：如果导数是正(增加误差)，这个权由它的更新值减少。如果导数是负，更新值增加。

中国矿产资源评价新技术与评价新模型。

RPROP算法是根据局部梯度信息实现权步的直接修改。对于每个权，我们引入它的。

各自的更新值

，它独自确定权更新值的大小。这是基于符号相关的自适应过程，它基。

于在误差函数E上的局部梯度信息，按照以下的学习规则更新。

中国矿产资源评价新技术与评价新模型。

其中0＜η-＜1＜η+。

在每个时刻，如果目标函数的梯度改变它的符号，它表示最后的更新太大，更新值。

应由权更新值减小倍数因子η-得到减少；如果目标函数的梯度保持它的符号，更新值应由权更新值增大倍数因子η+得到增大。

为了减少自由地可调参数的数目，增大倍数因子η+和减小倍数因子η–被设置到固定值。

η+=1.2，

η-=0.5，

这两个值在大量的实践中得到了很好的效果。

RPROP算法采用了两个参数：初始权更新值Δ0和最大权更新值Δmax。

当学习开始时，所有的更新值被设置为初始值Δ0，因为它直接确定了前面权步的大小，它应该按照权自身的初值进行选择，例如，Δ0=0.1(默认设置)。

为了使权不至于变得太大，设置最大权更新值限制Δmax，默认上界设置为。

Δmax=50.0。

在很多实验中，发现通过设置最大权更新值Δmax到相当小的值，例如。

Δmax=1.0。

我们可能达到误差减小的平滑性能。

5.计算修正权值W、偏差b

第t次学习，权值W、偏差b的的修正公式。

W(t)=W(t-1)+ΔW(t)，

b(t)=b(t-1)+Δb(t)，

其中，t为学习次数。

6.BP网络学习成功结束条件每次学习累积误差平方和。

中国矿产资源评价新技术与评价新模型。

每次学习平均误差

中国矿产资源评价新技术与评价新模型。

当平均误差MSE＜ε，BP网络学习成功结束。

7.BP网络应用预测

在应用BP网络时，提供网络输入给输入层，应用给定的BP网络及BP网络学习得到的权值W、偏差b，网络输入经过从输入层经各隐含层向输出层的“顺传播”过程，计算出BP网的预测输出。

8.神经元激活函数f

线性函数

f(x)=x，

f′(x)=1，

f(x)的输入范围(-∞，+∞)，输出范围(-∞，+∞)。

一般用于输出层，可使网络输出任何值。

S型函数S(x)

中国矿产资源评价新技术与评价新模型。

f(x)的输入范围(-∞，+∞)，输出范围(0，1)。

f′(x)=f(x)[1-f(x)]，

f′(x)的输入范围(-∞，+∞)，输出范围(0，

]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(0，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

在用于模式识别时，可用于输出层，产生逼近于0或1的二值输出。

双曲正切S型函数

中国矿产资源评价新技术与评价新模型。

f(x)的输入范围(-∞，+∞)，输出范围(-1，1)。

f′(x)=1-f(x)·f(x)，

f′(x)的输入范围(-∞，+∞)，输出范围(0，1]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(-1，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

阶梯函数

类型1

中国矿产资源评价新技术与评价新模型。

f(x)的输入范围(-∞，+∞)，输出范围{0，1}。

f′(x)=0。

类型2

中国矿产资源评价新技术与评价新模型。

f(x)的输入范围(-∞，+∞)，输出范围{-1，1}。

f′(x)=0。

斜坡函数

类型1

中国矿产资源评价新技术与评价新模型。

f(x)的输入范围(-∞，+∞)，输出范围[0，1]。

中国矿产资源评价新技术与评价新模型。

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

类型2

中国矿产资源评价新技术与评价新模型。

f(x)的输入范围(-∞，+∞)，输出范围[-1，1]。

中国矿产资源评价新技术与评价新模型。

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

三、总体算法

1.三层BP网络(含输入层，隐含层，输出层)权值W、偏差b初始化总体算法。

(1)输入参数X[N][P]，S0，S1，f1[S1]，S2，f2[S2]；

(2)计算输入模式X[N][P]各个变量的最大值，最小值矩阵 Xmax[N]，Xmin[N]；

(3)隐含层的权值W1，偏差b1初始化。

情形1：隐含层激活函数f( )都是双曲正切S型函数。

1)计算输入模式X[N][P]的每个变量的范围向量Xrng[N]；

2)计算输入模式X的每个变量的范围均值向量Xmid[N]；

3)计算W，b的幅度因子Wmag；

4)产生[-1，1]之间均匀分布的S0×1维随机数矩阵Rand[S1]；

5)产生均值为0，方差为1的正态分布的S1×S0维随机数矩阵Randnr[S1][S0]，随机数范围大致在[-1，1]；

6)计算W[S1][S0]，b[S1]；

7)计算隐含层的初始化权值W1[S1][S0]；

8)计算隐含层的初始化偏差b1[S1]；

9))输出W1[S1][S0]，b1[S1]。

情形2：隐含层激活函数f( )都是S型函数。

1)计算输入模式X[N][P]的每个变量的范围向量Xrng[N]；

2)计算输入模式X的每个变量的范围均值向量Xmid[N]；

3)计算W，b的幅度因子Wmag；

4)产生[-1，1]之间均匀分布的S0×1维随机数矩阵Rand[S1]；

5)产生均值为0，方差为1的正态分布的S1×S0维随机数矩阵Randnr[S1][S0]，随机数范围大致在[-1，1]；

6)计算W[S1][S0]，b[S1]；

7)计算隐含层的初始化权值W1[S1][S0]；

8)计算隐含层的初始化偏差b1[S1]；

9)输出W1[S1][S0]，b1[S1]。

情形3：隐含层激活函数f( )为其他函数的情形。

1)计算输入模式X[N][P]的每个变量的范围向量Xrng[N]；

2)计算输入模式X的每个变量的范围均值向量Xmid[N]；

3)计算W，b的幅度因子Wmag；

4)产生[-1，1]之间均匀分布的S0×1维随机数矩阵Rand[S1]；

5)产生均值为0，方差为1的正态分布的S1×S0维随机数矩阵Randnr[S1][S0]，随机数范围大致在[-1，1]；

6)计算W[S1][S0]，b[S1]；

7)计算隐含层的初始化权值W1[S1][S0]；

8)计算隐含层的初始化偏差b1[S1]；

9)输出W1[S1][S0]，b1[S1]。

(4)输出层的权值W2，偏差b2初始化。

1)产生[-1，1]之间均匀分布的S2×S1维随机数矩阵W2[S2][S1]；

2)产生[-1，1]之间均匀分布的S2×1维随机数矩阵b2[S2]；

3)输出W2[S2][S1]，b2[S2]。

2.应用弹性BP算法(RPROP)学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b总体算法。

函数：Train3BP_RPROP(S0，X，P，S1，W1，b1，f1，S2，W2，b2，f2，d，TP)。

(1)输入参数

P对模式(xp，dp)，p=1，2，…，P；

三层BP网络结构；

学习参数。

(2)学习初始化

；

2)各层W，b的梯度值

，

初始化为零矩阵。

(3)由输入模式X求第一次学习各层输出y0，y1，y2及第一次学习平均误差MSE。

(4)进入学习循环

epoch=1

(5)判断每次学习误差是否达到目标误差要求。

如果MSE＜ϵ，

则，跳出epoch循环，

转到(12)。

(6)保存第epoch-1次学习产生的各层W，b的梯度值。

，

(7)求第epoch次学习各层W，b的梯度值。

，

1)求各层误差反向传播值δ；

2)求第p次各层W，b的梯度值。

，

；

3)求p=1，2，…，P次模式产生的W，b的梯度值。

，

的累加。

(8)如果epoch=1，则将第epoch-1次学习的各层W，b的梯度值。

，

设为第epoch次学习产生的各层W，b的梯度值。

，

。

(9)求各层W，b的更新

1)求权更新值Δij更新；

2)求W，b的权更新值

，

；

3)求第epoch次学习修正后的各层W，b。

(10)用修正后各层W、b，由X求第epoch次学习各层输出y0，y1，y2及第epoch次学习误差MSE。

(11)epoch=epoch+1，

如果epoch≤MAX_EPOCH，转到(5)；

否则，转到(12)。

(12)输出处理

1)如果MSE＜ε，

则学习达到目标误差要求，输出W1，b1，W2，b2。

2)如果MSE≥ε，

则学习没有达到目标误差要求，再次学习。

(13)结束

3.三层BP网络(含输入层，隐含层，输出层)预测总体算法。

首先应用Train3lBP_RPROP( )学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b，然后应用三层BP网络(含输入层，隐含层，输出层)预测。

函数：Simu3lBP( )。

1)输入参数：

P个需预测的输入数据向量xp，p=1，2，…，P；

三层BP网络结构；

学习得到的各层权值W、偏差b。

2)计算P个需预测的输入数据向量xp(p=1，2，…，P)的网络输出 y2[S2][P]，输出预测结果y2[S2][P]。

四、总体算法流程图

BP网络总体算法流程图见附图2。

五、数据流图

BP网数据流图见附图1。

六、实例

实例一全国铜矿化探异常数据BP 模型分类。

1.全国铜矿化探异常数据准备

在全国铜矿化探数据上用稳健统计学方法选取铜异常下限值33.1，生成全国铜矿化探异常数据。

2.模型数据准备

根据全国铜矿化探异常数据，选取7类33个矿点的化探数据作为模型数据。这7类分别是岩浆岩型铜矿、斑岩型铜矿、矽卡岩型、海相火山型铜矿、陆相火山型铜矿、受变质型铜矿、海相沉积型铜矿，另添加了一类没有铜异常的模型(表8-1)。

3.测试数据准备

全国化探数据作为测试数据集。

4.BP网络结构

隐层数2，输入层到输出层向量维数分别为14，9、5、1。学习率设置为0.9，系统误差1e-5。没有动量项。

表8-1 模型数据表

续表

5.计算结果图

如图8-2、图8-3。

图8-2

图8-3 全国铜矿矿床类型BP模型分类示意图。

实例二全国金矿矿石量品位数据BP 模型分类。

1.模型数据准备

根据全国金矿储量品位数据，选取4类34个矿床数据作为模型数据，这4类分别是绿岩型金矿、与中酸性浸入岩有关的热液型金矿、微细浸染型型金矿、火山热液型金矿(表8-2)。

2.测试数据准备

模型样本点和部分金矿点金属量、矿石量、品位数据作为测试数据集。

3.BP网络结构

输入层为三维，隐层1层，隐层为三维，输出层为四维，学习率设置为0.8，系统误差1e-4，迭代次数5000。

表8-2 模型数据

4.计算结果

结果见表8-3、8-4。

表8-3 训练学习结果

表8-4 预测结果(部分)

续表