矩阵论在神经网络中的应用范文
时间:2024-03-28 18:10:06
导语:如何才能写好一篇矩阵论在神经网络中的应用,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
人工神经网络是近年来迅猛发展的前沿课题,它对突破现有科学技术的瓶颈起到重大的作用。本文剖析了人工神经网络的特征、模型结构以及未来的发展趋势。
【关键词】人工神经网络 神经元 矩阵
1 人工神经网络概述
人工神经网络(ANN)是一种用计算机网络系统模拟生物神经网络的智能神经系统,它是在现代神经生物学研究成果的基础上发展起来的,模拟人脑信息处理机制的一种网络系统,它不但具有处理数值数据的计算能力,而且还具有处理知识的学习、联想和记忆能力。
人工神经网络模拟了大脑神经元的组织方式,反映了人脑的一些基本功能,为研究人工智能开辟了新的途径。它具有以下基本特征:
1.1 并行分布性
因为人工神经网络中的神经元排列并不是杂乱无章的,往往是以一种有规律的序列排列,这种结构非常适合并行计算。同时如果将每一个神经元看作是一个基本的处理单元,则整个系统可以是一个分布式处理系统,使得计算快速。
1.2 可学习性和自适应性
一个相对很小的人工神经网络可存储大量的专家知识,并能根据学习算法,或利用指导系统模拟现实环境(称为有教师学习),或对输入进行自适应学习(称为无教师学习),可以处理不确定或不知道的事情,不断主动学习,不断完善知识的存储。
(3)鲁棒性和容错性
由于采用大量的神经元及其相互连接,具有联想映射与联想记忆能力,容错性保证网络将不完整的、畸变的输入样本恢复成完整的原型,鲁棒性使得网络中的神经元或突触遭到破坏时网络仍然具有学习和记忆能力,不会对整体系统带来严重的影响。
1.3 泛化能力
人工神经网络是大规模的非线性系统,提供了系统协同和自组织的潜力,它能充分逼近任意复杂的非线性关系。如果输入发生较小变化,则输出能够保持相当小的差距。
1.4 信息综合能力
任何知识规则都可以通过对范例的学习存储于同一个神经网络的各连接权值中,能同时处理定量和定性的信息,适用于处理复杂非线性和不确定对象。
2 人工神经网络模型
神经网络是在对人脑思维方式研究的基础上,将其抽象模拟反映人脑基本功能的一种并行处理连接网络。神经元是神经网络的基本处理单元。
在神经网络的发展过程中,从不同角度对神经网络进行了不同层次的描述和模拟,提出了各种各样的神经网络模型,其中最具有代表性的神经网络模型有:感知器、线性神经网络、BP网络、自组织网络、径向基函数网络、反馈神经网络等等。
3 神经元矩阵
神经元矩阵是神经网络模型的一种新构想,是专门为神经网络打造的一个矩阵,它符合神经元的一切特征。
神经元矩阵采用矩阵形式,它可为n维向量组成。引入向量触头和信使粒的概念,向量触头可生长,即长度可变,方向可变,信使粒可“游荡”在矩阵中,建立各种联系。如图1即是神经元矩阵模型
(1)容器可产生一种无形的约束力,使系统得以形成,容器不是全封闭的,从而保证系统与外界的沟通和交互;各向量间可用相互作用的力来联系,而各个信使粒则受控于容器、中空向量以及其它的信使粒。各神经元之间自主交互,神经元矩阵是一种多层次的管理,即一层管理一层。系统具有明显的层级制和分块制,每层每块均独立且协同工作,即每层每块均含组织和自组织因素。
(2)向量触头是中空的,信使粒可以通过向量或存储于向量中,所以又称为中空向量。向量存储了信使粒后,可以吸引更多的信使粒在附近,或使邻近向量转向、伸长,进而形成相对稳定的信息通路。
(3)当两条或更多的信息通路汇集时,可能伴随着通路的增强、合并,以及信使粒的聚集、交换,这是神经元矩阵运算的一种主要形式。通路的形成过程,也就是是神经元矩阵分块、分层、形成联接的过程,也为矩阵系统宏观管理、层级控制的实现奠定了基础。
神经元矩阵亦是一种具有生物网络特征的数学模型,综合了数学上矩阵和向量等重要概念,是一种立体的矩阵结构。尤其是将矩阵的分块特性和向量的指向特征结合起来,更好的体现了神经网络的整体性和单元独立性,系统的组织和自组织特征也更为凸显。信使粒以“点”的数学概念,增强了系统的信息特征,尤其是增强了矩阵的存储和运算功能。
4 人工神经网络的发展趋势
人工神经网络是边缘叉科学,它涉及计算机、人工智能、自动化、生理学等多个学科领域,研究它的发展具有非常重要意义。针对神经网络的社会需求以及存在的问题,今后神经网络的研究趋势主要侧重以下几个方面。
4.1 增强对智能和机器关系问题的认识
人脑是一个结构异常复杂的信息系统,我们所知道的唯一智能系统,随着信息论、控制论、计算机科学、生命科学的发展,人们越来越惊异于大脑的奇妙。对人脑智能化实现的研究,是神经网络研究今后的需要增强的地发展方向。
4.2 发展神经计算和进化计算的理论及应用
利用神经科学理论的研究成果,用数理方法探索智能水平更高的人工神经网络模型,深入研究网络的算法和性能,使离散符号计算、神经计算和进化计算相互促进,开发新的网络数理理论。
4.3 扩大神经元芯片和神经网络结构的作用
神经网络结构体现了结构和算法的统一,是硬件和软件的混合体,神经元矩阵即是如此。人工神经网络既可以用传统计算机来模拟,也可以用集成电路芯片组成神经计算机,甚至还可以生物芯片方式实现,因此研制电子神经网络计算机潜力巨大。如何让传统的计算机、人工智能技术和神经网络计算机相融合也是前沿课题,具有十分诱人的前景。
4.4 促进信息科学和生命科学的相互融合
信息科学与生命科学的相互交叉、相互促进、相互渗透是现代科学的一个显著特点。神经网络与各种智能处理方法有机结合具有很大的发展前景,如与专家系统、模糊逻辑、遗传算法、小波分析等相结合,取长补短,可以获得更好的应用效果。
参考文献
[1]钟珞.饶文碧.邹承明著.人工神经网络及其融合应用技术.科学出版社.
篇2
与经典测验理论相比,项目反应理论(简称IRT)由于具有参数不变性、能进行计算机化自适应测验等优点而受到欢迎[1,2],但是也存在着不少问题,首先是目前比较成熟的、得到广泛应用的IRT软件,如BILOG、MicroCAT等,主要是运用极大似然法或贝叶斯方法进行项目参数和被试能力估计[3],一般都只能处理二值记分的项目,也有少数软件可以处理等级记分的项目,例如MULTILOG,但对于连续记分的项目还缺少估计方法和工具;其次是在运用BILOG、MicroCAT和MULTILOG等软件时往往需要数百人的大样本,而对于小样本则缺少有效的估计方法,因此需要另寻途径来解决这些问题。
2 联结主义理论中的级连相关模型
联结主义理论(或称人工神经网络)是近年来得到广泛关注的认知心理学理论[4,5,6],它一方面可以用来模拟人的认知活动,探讨人类的信息加工机制[7],另一方面可以作为一种工具来分析系统的输入和输出之间的关系,特别是当系统的输入和输出之间难以用显性的数学方程表示时,联结主义模型就可以通过其本身的学习功能,在用一组已知的输入和输出数据对它进行训练以后,就可以在一定程度上掌握了该系统内部的输入和输出之间的关系,即建立了某种模型。如果我们再给这个经过训练的网络模型以新的输入,那么它就可以给出相应的输出值。因此,人们可以利用联结主义模型的这种性质来进行预测和参数估计等活动[8]。
联结主义模型通常由一个输入层、一个输出层和若干个隐含层组成,每一层中含有若干个结点,一个模型中所含的隐含层数目和各层所含结点数目,是由具体问题的性质和复杂程度来确定的。各个结点之间的联结具有一定的权重,它的大小反映了相邻两个结点之间相互影响的程度,在模型被训练的过程中,各结点间的权重得到了调整。
联结主义模型通常可以分为静态型和动态型两种,静态型模型的拓扑结构是实验者在一开始的时候就设计好的,它的训练过程就是调节各结点之间的权重。动态型模型的拓扑结构是在训练过程中不断变化的,它能够随着训练的进行,自动地加入新的隐含结点,同时也调整各结点间的联结权重,这样就可以更快地减少训练误差。
级连相关模型是动态型联结主义模型中的一种[9],它的计算精度较高,运算速度较快。在开始训练时,该模型只有输入层和输出层,处于最小拓扑结构。随着训练过程的进行,它能够根据需要自动地逐个加入隐含结点。该模型的训练分为输出和输入两个阶段交替进行,首先是输出阶段,在这一阶段,模型对联结隐含结点和输出结点间的各权重进行调整,直到误差不再减少为止;然后转至输入阶段,在这一阶段,模型对于联结输入结点和候选隐含结点间的各个权重进行调整,并从中选出其输出变量和网络的误差变量间相关为最大的候选隐含结点,把它装入网络,这样使得每次装入的新隐含结点都能最大程度地影响误差的变化。然后再转至输出阶段,这个过程不断重复,直到达到预定的训练精度。在本研究中,由于无法事先确定模型的拓扑结构,以及为了较快地对模型进行训练和达到较好的训练和测试效果,采用了级连相关模型作为研究的工具。
3 连续记分IRT模型
连续记分IRT模型是二值记分IRT模型的扩展,即它的记分不是按照二值逻辑的全对或全错的方式来进行,而是根据被试答对项目的程度来进行记分,如果全对该题目就得满分。由于各题目的满分值不一样,有的是3分、5分、6分或更高的分数,为了统一起见,可以对它们进行归一化处理,全部转化为0至1的值。这样就可以和下面的三参数逻辑斯谛模型中的P(θ)相一致。Samejima[10]、Muller[11]和Mullenbergh[12]等都对连续记分IRT模型进行过研究,它和二值记分模型一样,可以用正态卵形模型和逻辑斯谛模型表示。对于常用的三参数逻辑斯谛模型,它的表示式为:
P(θ)=c[,i]+(1-c[,i])exp[1.7a[,i](θ-b[,i])]/{1+exp[1.7a[,i](θ-bi)]}
在该模型中,式中的ai、bi和ci分别为第i个项目的区分度、难度和猜测参数,θ为某个被试的能力,P(θ)为该被试答对第i个项目的概率,它的值为0至1,这是一个连续的值。
虽然有些学者对于该模型进行了一些研究,但是他们的研究还只是涉及该模型的性质、信息函数的定义、参数不变性等方面,在具有实用意义的参数和被试能力估计方面还没有成熟的结果。
为了对连续记分IRT模型的参数估计问题进行研究,作者对目前常用的几个IRT软件的算法进行分析[13,14],发现它们的共同特点都是运用统计的方法来进行参数估计,都无法对小样本情况下的IRT连续记分模型进行参数估计,于是作者就决定另辟捷径,在本研究中采用了和常用统计技术完全不同的联结主义模型(人工神经网络)方法。运用统计方法不能完全解决的问题,并不意味着用其它方法就不能解决,其关键问题是常用的统计参数估计方法大多是建立在线性模型的基础上的,而被试的反应和IRT中参数之间的关系是非线性的,因此在运用统计方法进行参数估计时,要采用大样本才能得到较好的结果。而人工神经网络的输出和输入之间的关系本身就是非线性的,特别值得一提的是,本研究把人工神经网络的激活函数设计为S型的Sigmoid函数,它的表达式为
f(x)=exp(x)/[1+exp(x)]
它和上述的三参数逻辑斯谛模型的表示式非常相似,仔细比较一下,就可以看出它实际上就是IRT模型在c[,i]=0,b[,i]=0,1.7a[,i]=1,θ=x时的特例,因此联结主义模型(人工神经网络)的这种输出和输入之间的非线性结构就可以较好地处理IRT中相类似的数据关系。
4 计算机模拟实验的设计和实施
该实验的基本思想是:把一组被试对于一组项目的反应矩阵作为级连相关模型(以下简称为神经网络)的输入,这组被试的能力θ或该组项目的参数a、b和c作为该模型的输出,并且用这些输入和对应的输出值对该神经网络进行训练,经过训练的网络就具备了估计θ,a,b或c的能力。当输入一组新的反应矩阵时,该网络就可以输出所需的被试能力或项目参数估计值。本实验是用计算机模拟方法来考察运用这种方法得到的估计值和真实值之间的误差是否能够达到相当小的程度。
4.1 实验步骤的设计
整个实验分以下几个步骤进行:
(1)运用蒙特卡罗方法产生一组均匀分布的被试能力值θ,一组均匀分布的项目参数值(包括项目区分度a、项目难度b和项目猜测参数c)。被试能力值θ的分布范围为[-3,+3],项目区分度a的分布范围为[0,2],项目难度b的分布范围为[-3,+3],项目猜测参数c的分布范围为[0,0.25]。
(2)根据项目反应模型,让各个模拟的被试回答各个模拟的项目,产生反应矩阵。
(3)将该反应矩阵作为神经网络训练模式的输入部分,用所要学习的项目参数或被试能力作为训练模式的输出部分。若要估计被试的能力,就把反应矩阵中的每一行作为一个模式,因为它恰好是一个被试对于一组项目的反应;若要估计项目参数,就把反应矩阵中的每一列作为一个模式,因为它反映了每一个项目被解答的情况。
(4)用上述训练模式对一组神经网络进行训练,直至达到预定的精确度为止。在本研究中为了统计上的方便,对30个神经网络进行了训练,预定的精确度为网络的目标值和实际输出值之间的误差小于0.001。
(5)用经过训练的神经网络来估计被试能力和项目参数。在本研究中需要估计的被试能力和项目参数的真实值实际上是用蒙特卡罗方法产生的,因此可以计算出估计值(实际输出值)和真实值的误差,称为测试误差,并用下式表示:
附图
式中,T[,p.o]为每个测试模式的每个输出结点的目标值。N[,p.o]为每个测试模式的每个输出结点的实际输出值。p是测试模式的数目,o是输出结点的数目。根据测试误差E的大小,可以看出经过训练的神经网络是否真正可以对项目参数和被试能力进行很好的估计。
4.2 预备实验
由于在正式对神经网络进行训练以前,对于要用什么样的模式来训练没有任何先验的知识,为此先进行预备实验。和正式实验的步骤一样,首先运用蒙特卡罗方法产生25个被试对15个项目的反应矩阵,用这一矩阵和相应的被试能力或项目参数组成4组训练模式,分别用以估计θ,a,b和c。在对被试能力进行估计时,将矩阵的行作为一组神经网络训练模式的输入部分,因为矩阵的一行数据就代表了一个被试对所有项目的反应;相应被试的θ值作为训练模式的输出部分,因为它代表了被试的能力值。在对项目参数进行估计时,将矩阵的列作为一组神经网络训练模式的输入部分,因为矩阵的一列数据就代表了所有被试对一个项目的反应;相应项目的a,b或c值作为训练模式的输出部分,因为它代表了项目的参数值。就用这些训练模式分别对4组神经网络进行训练,这4组神经网络分别对应于被试能力和项目的三个参数,每组有30个网络。然后,再用蒙特卡罗方法产生另外25个被试对另外15个项目的反应矩阵,并用已经训练过的网络对这个反应矩阵估计θ,a,b和c,记录下测试误差。其结果表明,虽然可以进行被试能力和项目参数的估计,但误差较大,无法达到实际应用的精确度。根据神经网络训练的一般规律,估计出现这一情况的原因有两条,一是训练模式太少,二是训练模式和测试模式之间没有任何联系,即没有用“锚题”或“锚人”把它们联系起来,改进的方法可以是增加训练模式,或运用一定的“锚题”或“锚人”方法,在本研究中先用“锚题”的方法进行试验(具体方法在进行正式实验时详述),试验的效果很好,然后进行下面的正式实验。
4.3 正式实验
(1)步骤1:产生训练矩阵和测试矩阵
运用蒙特卡罗方法产生25个被试(称为第一组被试)对45个项目(称为第一组项目)的反应矩阵(称为第一矩阵),这一矩阵在下面的实验中将作为测试矩阵;从该45个项目中随机取出15个项目(称为第二组项目),再用蒙特卡罗方法产生另外25个被试(称为第二组被试),令它们和上述随机取出的第二组项目起反应,产生另一个反应矩阵(称为第二矩阵),用它作为训练模式的一部分,由此可见,训练矩阵和测试矩阵之间有15个项目作为“锚题”,如下面图1所示。
附图
图1 被试、项目和反应矩阵
图1中的第三组项目和第三矩阵将在下面作解释。
(2)步骤2:建立能力训练模式
用“第二矩阵”中的每一行作为一个模式的输入,其相应的25个第二组被试的能力值作为输出,组成能力训练模式,对一组神经网络(共30个,称为第一组神经网络)进行训练。
(3)步骤3:建立能力测试模式并进行测试
将“第一矩阵”中的每一行作为一个模式的输入,相应的第一组被试的25个能力值作为输出,组成能力测试模式,用上述经过训练的第一组神经网络对其进行测试。这时,实际上是神经网络对第一组被试的能力值进行估计。然后,将估计值和真实值进行比较,记录下测试误差,如表1左边第1列所示,要注意的是,表中记录的是30个网络的测试误差实际值,根据公式可见,它是所有输出结点和所有测试模式的误差总和。由于本研究中只有一个输出结点,有25个测试模式(因为有25个被试),因此要将表中的测验误差实际值除以25,得到对单个测试模式的测试误差,然后,再计算其平均数M和标准差SD,结果如表2所示,可以看出测试误差是比较小的。由此可见,当测试模式中有部分项目(本例中为15个项目)和训练模式相同时,经过训练的神经网络可以对被试的θ进行很好的估计。应该指出的是,测试模式和训练模式中没有被试是重复相同的,这说明经过训练的神经网络确实可以对新的被试进行能力估计。
表1 测试误差
θ
a
b
c
0.129
2.239
2.982
0.065
0.084
1.843
2.976
0.056
0.243
2.016
2.798
0.069
0.324
1.804
2.133
0.058
0.126
2.159
2.556
0.027
0.201
2.224
2.399
0.067
0.288
2.246
2.617
0.043
0.114
1.741
2.834
0.065
0.189
1.937
2.347
0.076
0.249
2.295
2.745
0.092
0.264
2.319
2.433
0.065
0.321
2.382
2.030
0.044
0.105
2.136
2.231
0.093
0.132
2.061
2.244
0.023
0.153
2.019
2.868
0.068
0.279
2.270
2.042
0.044
0.204
2.196
1.850
0.099
0.102
1.950
2.597
0.059
0.105
1.732
1.709
0.089
0.282
1.764
2.328
0.072
0.228
2.281
2.556
0.114
0.256
2.089
1.961
0.071
0.222
2.445
2.002
0.093
0.210
1.666
2.243
0.035
0.138
1.743
2.441
0.075
0.201
2.438
2.034
0.080
0.171
1.740
2.100
0.106
0.246
2.307
2.594
0.069
0.195
1.577
2.535
0.057
0.213
2.436
2.199
0.057
(4)步骤4:建立项目参数训练模式
当估计项目参数时,将“第一矩阵”中的每一列作为一个模式的输入,因为每一列都代表所有被试对一个项目的反应情况,于是可以将与各列相应项目的a、b或c作为输出,组成项目参数训练模式,用该模式对一组神经网络(共30个,称为第二组神经网络)进行训练。
(5)步骤5:建立项目参数测试模式并进行测试
用蒙特卡罗方法产生15个项目(称为第三组项目)的参数a、b、c,并用原先已经产生的第一组被试的θ值对它们起反应,产生反应矩阵(称为“第三矩阵”)。然后,将“第三矩阵”中的每一列作为模式的输入,相应的15个项目的参数a、b或c作为输出,组成测试模式。用经过训练的第二组神经网络对其进行测试,也就是由神经网络对第三组项目进行参数估计,然后将估计值和真实值进行比较,记录下测试误差,如表1的2、3、4列所示。和对θ估计的测试误差一样,它是所有测试模式的误差之和。这里共有15个测试模式(即上述的第三组项目)。因此要把表1中的的2、3、4列数字除以15,再求平均数M和标准差SD,得到结果在表2中。
表2 单个模式测试误差的平均数和标准差
统计项
θ
a
b
c
M
0.0027
0.1379
0.1586
0.0045
SD
0.0009
0.0174
0.0227
0.0015
4.4 减少项目参数的测试误差的实验
从表2的数据可以看出,上述方法对于θ的估计已经达到了较好的精度,但对于a、b和c的估计误差仍然比较大。于是再用增加训练模式的方法来试图减少测试误差。上述在训练第二组神经网络时,是用“第一矩阵”中的每一列作为模式的输入,该矩阵共有45列,相应于第一组的45个项目。现在将这组项目扩大,即增加到60个,75个,90个和105个,这些项目的参数都是用蒙特卡罗方法产生的。然后,拿第一组25个被试的θ值和它们起反应,用产生的反应矩阵和相应的项目参数作为训练模式,对30个神经网络进行训练,并重复上述步骤4和步骤5,得到在各种不同数量的训练模式条件下的a、b和c的单个模式测试误差的平均数M和标准差SD,如表3所示。从表中数据可以看出,随着训练项目数的增加,对项目参数a、b和c的测试误差都有明显降低,当项目数达到105时,基本上已经可以接受参数估计的结果了。
附图
从上面的讨论可以看出,在该计算机模拟实验中,共有两组被试,第一组被试是用于能力测试模式的,第二组被试是用于能力训练模式的;该实验中有三组项目,其中的第二组项目是第一组的一部分,第一组项目用于项目参数训练和能力测试模式的,第三组项目是用于项目参数测试模式的,第二组项目是用于能力训练模式的;该实验中有三个反应矩阵,其中的第一矩阵又被分为左、右两个部分,左部分是由被抽取出来的第二组项目产生的,右部分是由其余项目产生的,第二矩阵的“行”作为能力训练模式,第一矩阵的“行”作为能力测试模式,第一矩阵的“列”作为项目参数训练模式,第三矩阵的“列”作为项目参数测试模式。
4.5 实际测验中的被试能力和项目参数估计步骤小结
上述的实验是在计算机模拟的情况下了产生的各组被试能力和项目参数,在实际的测验情况中,可以按照以下步骤来进行测验编制以及被试能力和项目参数估计:
(1)在已知项目参数的题库中取出若干个项目(类似于上述模拟实验中的第二组项目,这些项目可以是二值记分的,它可以事先通过BILOG等估计得到),再加上自行编制的、未知参数的若干项目(类似于上述模拟实验中第三组项目),混合后组成实际的测验试卷。
(2)用这一试卷对一组真实的被试(类似于上述模拟实验中的第一组被试)进行测试,得到一组实际的结果。
(3)用蒙特卡罗方法产生一组被试的能力值(类似于上述模拟实验中的第二组被试),令它和真实试卷中的已知项目参数的那部分项目(类似于上述模拟实验中的第二组项目)起反应,得到反应矩阵(类似于上述模拟实验中的第二矩阵)。
(4)用这一矩阵和这组蒙特卡罗方法产生的被试能力值组成能力训练模式,对一组神经网络进行训练。
(5)用真实的测验结果矩阵的每一行作为一个模式的输入部分,输入上述经过训练的神经网络,其输出就是真实被试的能力估计值。
(6)运用蒙特卡罗方法产生一组项目参数,根据上述的模拟实验,大约要有100个项目的参数,令真实被试的能力估计值和它们起反应,得到一个反应矩阵(类似于上述模拟实验中的第一矩阵右部分)。用这个矩阵中的每一列和相应的蒙特卡罗方法产生的项目参数组成训练模式,对另一组神经网络进行训练,使之具有估计项目参数的功能。
(7)将这一经过训练的神经网络对真实测验中未知参数的那部分项目(类似于上述模拟实验中的第三组项目)进行参数估计,从而得到这些项目的参数估计值。
至此,就把实际的被试能力和项目参数估计出来了。对照上述模拟实验的图1,其中的第一矩阵左部分和第三矩阵是由真实测验的数据产生的,第一矩阵的右部分和第二矩阵是用蒙特卡罗方法产生的。
5 讨论
5.1 该方法的优点
(1)提出了一种全新的IRT项目参数和被试能力的估计方法,以往的方法都是建立在统计基础上的,而该方法则是建立在联结主义理论(人工神经网络)基础上的。
(2)以往的方法多数只能对二值记分的IRT模型进行参数估计,本研究中的方法则可以对连续记分的IRT模型进行参数估计。由于人工神经网络有很强的学习功能,因此从理论上讲,它也可以用于等级记分和二值记分的IRT模型,当然,这有待于进一步的实验研究。
(3)本研究中用于估计被试能力的样本只有25人,用于估计项目参数的样本只有15个项目,都属于比较小的样本,这说明该方法可以用于小样本的情况,这是以往方法所不能解决的。虽然在对神经网络训练时可能要用到较多的训练模式,但这些模式是可以用蒙特卡罗方法产生的,并不要扩大实际的测验样本。
(4)在使用一般的统计方法处理小样本的数据时,确实存在着参数估计的可靠性问题,但是本实验的研究表明,在运用与统计方法完全不同的联结主义(人工神经网络)方法处理数据时,就有可能克服这一困难。这是什么原因呢?在对人工神经网络理论进行深入探讨以后[15~17],可以发现神经网络在对IRT参数进行估计时,并不是一开始就直接根据原始数据来估计参数,而是先对一组神经网络进行训练,使它们首先具备了这方面的知识,然后再用训练过的神经网络对IRT参数进行估计,这种参数估计的可靠性如何,并不取决于被估计的样本的大小,而是取决于对这些神经网络进行训练的样本的数量、质量以及神经网络的拓扑结构和算法。在这其中,训练模式是研究者运用蒙特卡罗方法产生的,它本身并不是一个小样本,而是一个比较大的样本;产生这些数据的模型就是IRT模型本身,因此数据本身的质量是有保证的。关于神经网络的拓扑结构,在大多数情况下是要通过预测和调整学习率等参数来确定隐含层的数量和其中每一层的神经元的数量,但由于本研究采用的是级联相关模型,它可以根据反传误差的大小自动地调整网络的拓扑结构和联结权重,因此可以自动地建立优化的网络结构,不再需要考虑学习率等问题;另外在人工神经网络的训练过程中,本研究的程序设计也使得只有误差达到预定的很小的数值时,训练过程才停止,这就保证了被训练过的神经网络是较高质量的。由此可见,联结主义(人工神经网络)模型是采用了和一般统计技术完全不同的思路和方法,它对IRT参数估计的可靠性主要不是取决于被估计样本的大小,而是依赖于经过训练的神经网络的质量,因此我们只要采取一定的措施将神经网络训练好,就有可能对小样本的IRT数据进行可靠的参数估计。
5.2 需要进一步研究的问题
(1)首先是在编制测验时,需要一部分已知项目参数的二值记分题目,这对于已经建立题库的学科来说是可以做到的,但对于尚未建立题库的学科,就无法运用这一方法。虽然可以用BILOG等软件对有关的二值记分项目进行参数估计,但如果没有BILOG等软件又该怎么办呢?要解决这个问题,需要构造更加复杂的神经网络模型,笔者目前正在构造“基于知识的级连相关模型”,并试图用它解决这一困难,实验结果将另文阐述。
(2)该方法要求实际的测验中有一部分作为锚题的项目是已知参数的,那么这一部分锚题至少应该是多少项目呢?它们占整个测验的比例至少要达到多少呢?本实验表明若锚题数量为15,它们在整个测验中所占比例为三分之一,就可获得良好结果,那么少于15个项目行不行?低于三分之一的比例行不行?笔者也正在作进一步的实验。
(3)本研究中用蒙特卡罗方法产生虚拟的被试能力和项目参数,那么它们的分布应该是什么形式为最好?人工神经网络的理论认为是均匀分布为最好,因此在本研究中采用了均匀分布。但是在对实际数据的分析中,有些数据是由真实的被试和项目产生的,不可能保证他(它)们呈完全的均匀分布,那么这种偏离均匀分布的情况对于估计值的误差有多大影响?另外,是否可以减少虚拟数据数量甚至取消虚拟数据,而完全采用真实的数据?也需要进一步探讨。
虽然有待于进一步研究的问题还很多,但这一实验毕竟提出了一种新的、有一定应用价值的方法。
【参考文献】
[1] Hambleton R K.Item Response Theory:Principles and Appli-cations.Boston:Kluwer-Nijhoff Pub,1985.58~63
[2] Yu J Y.Item Response Theory and Its Application(in Chin-ese).Nanjing:Jiangsu Education Press,1992.79~84
(余嘉元.项目反应理论及其应用.南京:江苏教育出版社,1992.79~84)
[3] Baker F B.Item Response Theory:Parameter Estimation Tec-hniques.New York:M.Dekker,1992.66~71
[4] McLead P.Introduction to Connectionist Modeling of Cogn-itive Processes.New York:Oxford University Press,1998.256~261
[5] Mahwah N J,Erlbaum L L.Localist Connectionist Approaches to Human
Cognition.New
York:Oxford University Press,1998,188~192
[6] Anderson,J.A.An Introduction to Neural Networks.Cambrid-ge:The MIT Press,1995,136~143.
[7] Yu J Y.Studying perceptual boundary effects with connec-tionist model(in Chinese).Acta Psychologica Sinica,2001,33(2):123~126
(余嘉元.运用联结主义模型研究知觉边界效应问题,心理学报,2001,33(2):123~126)
[8] Haykin S S.Neural Networks:A Comprehensive Foundation.Upper Saddle
River,N.N.,Press Hall,1999.178~181
[9] Fahlman S E,Lebiere C.The Cascade-correlation learning architecture.In:Touretzky D S ed.Advances in Neural Informati-on Processing Systems.Los Altos,CA:Morgan Kaufmann,1990.524~532
[10] Samejima F.Homogeneous case of the continuous response
model.Psychometrika,1973,38(3):203~219
[11] Muller H.A Rasch model for continuous ratings.Psychmet-rika,1987,52(2):165~181
[12] Mellenbergh G J.A unidimensional latent trait model forcontinuous item responses.
Multivariate Behavioral Research,1994,29(3):223~236
[13] Qi S Q,Dai H Q.Ding S L.Modern Educational and Psychol-ogical Measurement(in Chinese).Nanchang:Jiangxi Education Pre-ss,1998.126~129
(漆书青,戴海崎,丁树良.现代教育与心理测量学,南昌:江西教育出版社,1998.126~129)
[14] Mislevy R J,Bock R D.Manual of BILOG 3.Scientific Soft-ware,Inc.1990.27~31
[15] Wang W.Artificial Neural Network Theory:Introduction a-nd Application(in Chinese).Beijing:Beijing Aviation and Space University Press,1995.36~41
(王伟.人工神经网络原理——入门与应用.北京:北京航空航天大学出版社,1995.26~41)
[16] Zhao L M,Hu H Y,Wei D H.Multilevel Forward Artificial Neural Network(in Chinese).Beijing:Huanghe Water Conservancy Press,1999.52~56
(赵林明,胡浩云,魏德华等.多层前向人工神经网络,北京:黄河水利出版社,1999.52~56)
篇3
关键词:BP神经网络; 模糊矩阵; 教学评价
中图分类号:TP183 文献标识码:A文章编号:2095-2163(2013)06-0060-03
0引言
教师教学效果的审核评定是高校教学中的重要工作。传统的考核方法或者只是由学生填写调查表,给教师划分等级,进行定性描述,或者是由督导组根据几堂课的听评给教师的课堂教学打出一个分值。无论是哪种方法都不能全面客观地对教学工作做出科学评定。而且传统的考核方法受主观因素影响较大,学生在对教师的评判中常会加入多种因素,各种因素之间的影响也各不相同,仅以学生或仅凭督导团的评定来实施评判显然已不尽合理。因此, 建立一种能尽量排除各种主观因素的干扰,同时又具有完善且稳定的评价体系的评定方法则成为必要和重要的研究课题。
本文构建一种教学效果评价体系,即对教师的评价从“教学态度”、“教学内容”、“教授方法”、“课堂效果”四大方面分项进行,无论是学生还是督导组均可据此评价体系给出相应评分。本文提出使用BP反向传播神经网络来构建一个稳定的评分系统,各项评分指标为网络输入,使用已训练完成的BP神经网络来模拟一个专家的打分经验,由此输出一个终值。BP神经网络通常是指基于误差反向传播算法的多层前向神经网络,由于BP网络的神经元采用的传递函数是Sigmoid型可微函数,因而可以实现输入和输出间的任意非线性映射[1]。由于BP神经网络本身就是一种高度复杂的非线性动力系统的辨识模型,并且BP神经网络具有逼近任意非线性函数的能力[2],因此使用BP神经网络进行评价将使结果更具客观性,以此来模拟一个稳定的评分系统亦将具备了现实实现基础。在本文提出的系统中,系统将评价体系中各组评分的分值作为反向传播神经网络的输入,使用BP网络运算后得出一个综合性的评分,即整个过程好似系统模拟一个经验颇丰的专家进行打分。其后,本文又通过数据测试验证了模型的评价结果与实际相符。
1BP神经网络模型
BP(Back Propagation)神经网络是基于误差反向传播的多层前向神经网络,即权值和阈值的调节规则采用了误差反向传播算法,这是一个有导师的神经元网络学习算法[2]。BP网络能学习和存储大量的输入输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。该网络的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。其中的隐层可扩展为多层。只要在隐层中有足够数量的神经元,就可使用这种网络来逼近任何一个函数[3]。一个典型的BP网络结构如图1所示。
2评价模型的构建
本文构建了一套评价体系,使用一套客观标准进行量化表达,且该体系适用于大多数学校的教学评价。评价项目中,各项指标的取值范围为[0,10]。多位专家将根据评价体系方案为每一位参评教师填表打分,经过汇总后,每一个教师的教学情况评分将和一个评价矩阵A对应。列向量x为各个项目指标,行向量e为各位专家评出的各项指标分值。对列向量进行均值计算,则得到各个教师的教学效果指标向量S。所得教学效果指标向量S即是神经网络的输入。评价体系方案设计如表1所示。
表1教师教学评价体系
Tab.1 The system of teaching evaluation类别项目教学态度严谨负责x0; 思想教育x1;教学内容教学目标x2; 准确度x3; 熟练程度x4; 信息量x5;教授方法启发思维x6; 讲授思路x7;重点难点x8;联系实际x9;教学仪态x11;语言表述x12;媒体使用x14课堂效果课堂纪律x15;学生思维x16 图2则为一个由6名专家给出的某位教师教学效果的评分矩阵。
3BP网络模型的设计与实现
使用BP神经网络可以构建稳定的评分系统。人为打分时由于主观因素的影响,分值出入较大,往往不能准确地反映实际情况,为了避免对同一教师的教学评价出现较大反差,构建一个稳定的BP神经网络系统即已成为实践发展过程中的一个必然要求。在系统实现过程中,一位专家首先根据本文提出的评分系统给出各项成绩,并将此成绩作为神经网络的输入值。其后,这位专家再给出一个综合评分,作为神经网络的样本,即输出值,以此即可对BP网络进行训练。训练后的神经网络就可以模拟该专家的打分经验,由此构建形成一个稳定的评分系统。
根据BP神经网络模型的定理(Kolmogrov 定理):给定任一连续函数f:[0,1]nRn,f可以用一个三层前向神经网络来模拟实现。第一层,即输入层,有n个神经元;中间层,神经元个数可由经验公式实验得出;第三层,输出层有m个神经元。因此一个三层结构的、设有Sigmoid神经元,并具有足够隐节点的BP神经网络则可以逼近任何一个连续函数。本系统采用有三层结构的BP神经网络,其结构如图1所示。由于评价体系中有17个指标,因此网络的输入层有17个输入。系统的输出层则确定为1个节点。隐层神经元个数将根据实验结果而确定为11个。隐层传递函数可使用“lognsig”对数传递函数实现,输出层传递函数使用“pureline”纯线性传递函数实现。训练函数则使用“traingdm”动量梯度下降反向传播法对网络进行训练,另外,网络性能函数使用了默认的“mse”均方误差函数。MATLAB中的主要代码如下:
设有10位教师需要评分,因而使用10组分数即17×10的矩阵作为10个教师的教学效果矩阵。教学效果矩阵即是神经网络的输入矩阵,亦是训练样本,矩阵的行向量为各项评价指标,10个样本,即10位教师的最终评价结果则作为目标样本来训练神经网络,获取1×10矩阵为目标矩阵,即10位教师的最终得分。实验中运用Matlab编程建立三层BP神经网络,目标训练误差为0.1,最大训练次数为 3 000次。训练误差随训练次数的变化情况如图3所示,神经网络经过909步迭代达到精度要求。对应输出与目标的误差如图4所示。
训练样本的输出与专家打分结果比较如表2所示。
由表2可以看出,训练后的网络输出值与专家给出的终值之间的差异均在可接受的指标范围内,因此采用BP神经网络可以构建稳定的评分系统。
4结束语
在对教师教学效果的评价中存在着多种因素,本文构建了一套较为合理的评价体系,并且提出使用BP神经网络对专家评分进行模拟,利用神经网络可避免打分过程中出现的宽严不定的情况。实验证明,BP神经网络可以构建稳定的评分系统,并取得了良好的实验效果。
参考文献:
[1]许东. 吴铮. 基于Matlab 的系统分析与设计—神经网络[M]. 西安:西安电子科技大学出版社,2003:18-19.
[2]胡守仁. 神经网络导论[M] . 长沙:国防科技大学出版社,1993 :113 - 120.
[3]Martin T. Hagan, Howard B.demuth. 神经网络设计[M]. 北京:机械工业出版社 ,2002:227-255.
[4]郭齐胜. 系统建模原理方法[M]. 长沙:国防科技大学出版社,2003:172-173.
[5]袁剑. BP神经网络在学生综合考评中的应用[J]. 福建电脑,2010(6).
篇4
[关键词]动态系统建模 仿真 人工神经网络
在讲授完线性与非线性动态系统建模方法基本理论以后,需要让学生进行上机实验[1]以达到以下目的:1进一步加深理解学习的基本理论;2各种参数的选择对建模效果的影响;3各种建模方法的优缺点及适用场合。为了达到这些目的,我们模拟实际应用时的情况,提供给学生模拟的输入输出数据,以便学生利用这些数据,进行编程建立模型。同时我们编程实现基于最小二乘法、最大似然估计、BP神经网络、RBF神经网络的动态系统建模方法[2,3],学生可以利用这些Matlab程序进行各种方法的学习、各种情况下建模效果的对比,以及各种方法的适用场合的对比。
一、 基于Matlab仿真的线性动态系统最小二乘法建模的教学
假设系统的差分方程为:y(k)=-a1y(k-1)-a2y(k-2)-…-any(k-n)+b0u(k)+b1u(k-1)+…+bmu(k-m)+e(k)。其中y(k)为输出,u(k)为输入,e(k)为模型残差。假定建模用的数据序列从y(k)开始,则构建以下数据矩阵及数据向量:
如果模型残差为白噪声(实际情况多为有色噪声,但当噪声强度不大时,可近似当作白噪声处理),则根据最小二乘法,由这 组数据估计得到的参数 。
以上的最小二乘法需要输入(u(K-m),u(K-1),…,u(K+N-1))和输出(y(K-n),y(K-n+1),…,y(K+N-1))数据,我们可用以下的Matlab程序(程序1)产生模拟的输入输出数据(程序中采用了一个简单的二阶离散系统,学生实验时可换成需要的模型),并形成数据矩阵及数据向量。
程序1:
clear all
K=3;%残差序列开始序号
N=1000;%共N组数据
n=2;%对应
m=2;%对应
u=randn(1,K+N-1)*0.1;%随机产生输入数据
for i=1:1:n
y(i)=0;%设定初始状态
end
for k=n+1:1:K+N-1
y(k)=0.2*y(k-1)+0.5*y(k-2)+u(k)+0.3*u(k-1);%根据输入计算输出
end
y=y+randn(1,K+N-1)*0.001; %在求得的单位阶跃响应上叠加噪声用以模拟测量误差
X=zeros(N,n+m+1);
for i=K:1:K+N-1
for j=1:1:n
X(i-K+1,j)=y(i-j);%构成矩阵X
end
for j=n+1:1:n+m+1
X(i-K+1,j)=u(i-j+n+1); %构成矩阵X
end
end
for i=K:1:K+N-1
Y(i-K+1)=y(i);%构成向量Y
end
save X X;
save Y Y;
save N N;
运行程序1将生产数据矩阵X(保存在X.mat中)及数据向量Y(保存在Y.mat中)。以下是根据最小二乘法估计参数的程序(程序2)。
程序2:
clear all
load X;
load Y;
XT=X';
sita=(XT*X)^(-1)*XT*Y'%计算得到估计的参数sita
运行程序2,将得到估计的参数sita。如某一次运行中sita=[0.2004,0.4998,0.9998,0.2995,-0.0005]T,与模型中的值(见程序1)a1=0.2,a2=0.5,b0=1,b1=0.3,b2=0非常接近。
二、 基于Matlab仿真的线性动态系统最大似然估计建模的教学
在模型残差为白噪声的假设下,最大似然估计和最小二乘法在估计参数时是相同的,但最大似然估计还能估计出噪声的强度,程序3为相应的程序。
程序3:
clear all
load X;
load Y;
load N;
XT=X';
sita=(XT*X)^(-1)*XT*Y'
Z=Y'-X*sita;
StdV=sqrt(Z'*Z/N)%估计标准差
运行程序3,得到和程序2一样的参数估计值,除此之外,还能得到噪声的标准差(或方差)。如某一次的运行结果为StdV=0.0011,和模型中值(见程序1)0.001非常接近。
三、 基于Matlab仿真的非线性动态系统BP神经网络建模的教学
基于神经网络的非线性动态系统建模的输入输出的样本数据组织如图1所示。
图1:基于神经网络的动态系统建模的样本数据的组织
如图1所示,当输入为y(K-1),y(K-2),…,y(K-n),u(K),u(K-1),…,u(K-m)时,期望输出为y(K),因此BP神经网络的输入输出数据样本对为(x,y),其中x,y分别为上述最小二乘法中的数据矩阵及数据向量,将程序1中的动态系统以非线性动态系统代替(如将y(k)=0.2*y(k-1)+0.5*y(k-2)+u(k)+0.3*u(k-1)
改为y(k)=0.2*y(k-1)+0.5*y(k-2)+2*u(k)*u(k)+0.3*u(k-1)),采用程序1产生非线性动态系统的数据,然后设计如下的基于BP神经网络的非线性动态系统建模程序(程序4)。
程序4:
clear all
load X;
load Y;
net = newff(X',Y,10);
net.trainParam.epochs = 100;
net.trainParam.goal = 0.000001;
net = train(net,X',Y);
Y1 = sim(net,X');
plot(Y,'s-');
hold on
plot(Y1,'*-');
save net net;
从程序4运行后的产生的图形中可以看出BP神经网络训练的效果。
四、 基于RBF神经网络的非线性动态系统建模教学
基于RBF神经网络的非线性动态系统建模的样本数据的组织和BP神经网络相同,因此可以使用BP神经网络建模时所用的样本数据进行建模实验,以便对比两种网络的建模效果。以下(程序5)是RBF神经网络建模的样例程序。
程序5:
clear all
load X;
load Y;
net=newrb(X',Y,0.000001);
Y1=sim(net,X');
plot(Y,'s-');
hold on
plot(Y1,'*-');
save net net;
从程序5运行后的产生的图形中可以看出RBF神经网络训练的效果。
五、 结论
本文设计了matlab程序,模拟产生较逼真的输入输出数据样本数据供学生使用,学生可以利用这些数据进行线性与非线性动态系统建模实验。同时也提供了面向动态系统建模的最小二乘法、最大似然估计、BP神经网络、RBF神经网络样例程序供学生学习使用。学生可以利用这些Matlab程序进行各种方法的学习、各种情况下建模效果的对比,以及各种方法的适用场合的对比。学生也可以参照这些程序编制更加复杂的程序以解决实际的系统建模问题。
基金资助:本文系东华大学信息学院教改项目的研究成果。
[参考文献]
[1]刘娣许有熊林健,基于MATLAB的“系统辨识”课程实验教学改革[J].中国电力教育,2013(1):139-140.
[2]王秀峰,卢桂章.系统建模与辨识[M].北京:电子工业出版社,2004.
篇5
关键词:燃气发电;风险评价;模糊神经网络;节能减排
引言
随着环境污染日益严重、能源供给压力不断增大等问题的凸显,转变经济增长方式,走低碳化发展道路,已经成为世界各国的普遍共识。燃气发电厂由于使用天然气等清洁能源,各项排放指标优于燃煤电厂[1,2],使得燃气发电不仅可以有效减少碳排放,而且可以缓解煤炭等传统能源的供需压力。
随着燃气发电越来越受到重视,很多学者对燃气发电进行了实证分析和研究。如文献[1]分析了我国燃气发电现状及规划,并对行业前景从天然气开采、发电量等方面进行预测;文献[3]在随机生产模拟的基础上,对天然气发电效益进行分析;文献[4-5]从风险评价方面对天然气市场或发电方面进行研究。本文在已有研究的基础上,从燃气发电现状入手,建立我国燃气发电行业的风险评价指标体系,结合模糊神经网络方法,对我国燃气发电进行风险评价。
1 燃气发电风险评价指标体系
基于风险评价指标体系的构建原则,本文将我国燃气发电的风险分为以下五类并进行评价。
(1)资源风险:对于燃气电厂来说,资源的可采储量、采选方式可能与计划结果存在偏差,导致燃气发电成本增加或发电量乃至电网收到影响。(2)生产风险:燃气电厂对天然气供应的要求很高,而其在与天然气供应商签订“照付不议”合同、与电网公司的协调方面,都存在一定程度的不确定性,并会对发电产生影响。(3)技术风险:随着燃气发电的应用扩大化和机组大型化趋势日益明显,技术和工作原理也更加复杂,因此存在一定的技术风险。(4)市场风险:燃气发电的市场风险主要包括市场竞争、市场供求和发电效益三个方面[6,7]。(5)环境风险:国内外天然气、电力市场的变动以及国际经济形势也会对燃气发电的发展起重要作用,因此存在一定的环境风险。
根据上述对燃气发电风险的分析,构建我国燃气发电风险评价指标体系,如表1所示。
2 模糊神经网络模型的构建
2.1 模糊神经网络结构
模糊神经网络将模糊理论和神经网络理论结合起来,本文构建的模糊神经网络模型采用模糊系统和神经网络串联连接方式,即输入经过隶属函数转化为模糊量后,再进入神经网络系统进行处理[8-10]。模型结构的第1层为输入层,第2层为模糊化层,第3层为模糊推理层,第4层为输出层。本文模糊神经网络结构如图1所示。
2.2 模糊化处理步骤
根据已建立的燃气发电风险评价指标体系,采用模糊综合评价法对燃气发电风险因素的指标量化处理,使得模糊处理系统的输出作为神经网络系统的输入,具体步骤如下。
(1)确定因素集。根据风险指标体系构造因素集X={x1,x2,…,xk}和每个二级指标的因素集Xi={Xi1,Xi2,...Xin},i=1,2,…k。
(2)确定评语集。对于因素Xi来说,专家对各风险因素逐个给出风险程度评语,将各指标的评语分为m个等级,评语集为Y={y1,y2,…ym}。
(3)做单因素评价,得评价矩阵R。构造模糊映射f,XF(Y),F(Y)是Y上的模糊集,映射f为风险因素xi对评语集Y的隶属向量Ri={ri1,ri2,…rim},i=1,2…n。由此得到评价矩阵R=(rij)n×m∈F(X×F)。
(4)做综合评价。对评语集中每个评价指标赋予权重A=(a1,a2,…,an), ai=1,ai?叟0由模糊运算得到一级评价结果B=A・R,并以类似方法求出二级评价结果C=(c1,c2,…,cn),该向量作为神经网络的输入。
2.3 神经网络模型
设输入层节点数为m,隐含层节点数为e,输出层节点数为n,其中隐含层节点数通常采用Kol-mogorov定理的经验处理公式e= +c,式中,c为介于1~10的常数。对任一神经元i,其输入、输出关系可表述为Oi=f( ?棕ijhj+?兹i),式中,hj为神经元的第j个输入,Oi为神经元的第i个输出;?棕ij是所有与第i个神经元相连的权值;?兹i是神经元第i节点的阈值。f(x)为传递函数,一般采用sigmoid型:f(x)=(1+exp(-x))-1。
设有p组训练样本,用其中的第k组的样本的输入、输出模式对网络进行训练。设定收敛误差界值为?着min,最大学习次数为N,经过反复迭代运算,根据误差函数,得出样本误差Ek= (hoi(k)-yoi(k)),训练集误差E= Ek。若网络输出值与期望输出值之间的误差不满足误差精度要求,则将误差反向传播,误差传播过程中,要不断地反复修正网络中连接权值和阈值,直至满足误差精度要求。连接权值和阈值修正公式为?驻k?棕(t+1)=?浊?啄jkoik+?琢?驻k?棕ij(t),?兹j(t+1)=?兹j+ ?驻k?兹j。式中,?浊学习率,?琢为动力因子,二者均介于0到1之间;?琢?驻k?棕ij(t)为动力项,?啄jk为输出节点计算误差,t为训练次数。
3 算例分析
以我国燃气发电为例,用模糊神经网络风险评价法对其风险进行评。
(1)确定因素集和评语集,根据评价矩阵得出模糊评价结果。
本文的评价对象为我国燃气发电风险,由评价体系可知,一级指标因素集为X={x1,x2,x3,x4,x5}={资源风,生产风险,技术风险,市场风险,环境风险},二级指标因素集分别为X1={x11,x12,x13}={储量风险,开采风险,地理地质条件风险},X2={x21,x22,x23}={天然气供应风险,燃气设备选择风险,技术选择风险},X3={x31,x32,x33}={技术研发风险,技术成熟度风险,技术应用性风险},X4={x41,x42,x43}={市场竞争风险,市场供求风险,发电效益风险},X5={x51,x52,x53}={国家政策法律风险,国际政治和经济环境风险,自然环境风险}。评语集为Y={y1,y2,y3,y4,y5}={大,较大,中等,较小,小},相对应的分值为1.0,0.7,0.5,0.3,0.1。由15个专家组成评分小组,得到一级评价矩阵和二级评价矩阵,以及由评价矩阵求得的最大特征向量得到的权重向量得出15个样本的综合评价得分矩阵为?滋=(?滋1,?滋2,…,?滋15)=(0.669,0.623,0.691,
0.691,0.611,0.637,0.668,0.582,0.604,0.548,0.612,0.621,0.607,0.641,0.625,0.632)。模糊化后15个样本各列得分和综合得分结果如表2所示。
(2)神经网络训练和测试阶段
设置训练参数时,在BP神经网络的训练选择22×13×1的网络结构,训练最大次N=1000,学习率?浊=0.01,动量因子?琢=0.5,最收敛误差界?着min=10-4,传递函数选择对数S函数logsig,训练函数为traingdx,学习函数为learndm,权值矩阵初值由系统随机给定。BP网络模型的仿真结果均由Matlab软件给出。选取表1的前10组数据作为训练样本,后5组数据作为测试集,模拟待评估对象。经过BP神经网络训练后的前10组样本输出结果如下图2所示。
利用训练好的BP神经网络模型对表2中的第11到15组数据进行测试,测试结果如下图3所示。
将测试结果与专家评价结果进行对比分析,如下表3所示。
表3 BP神经网络测试结果
由上表看出,5个测试集仿真评价的结果与专家评价结果非常接近,平均相对误差为2.90%,除了测试样本13的训练相对误差相比于其它测试样本稍微偏大为8.89%,但是仍保持在较低的误差水平。因此可以认为所建立的模糊神经网络模型训练精度较高,模拟测试结果较好。测试结果显示,当前我国燃气发电风险得分值在0.5与0.7之间,根据划定的评价集,可判断出当前我国燃气发电风险为较大和中等之间。
4 结束语
本文运用模糊神经网络对目前我国燃气发电风险进行了评价研究,可以得到以下主要结论:
(1)该模糊神经网络模型能够充分避免主观、人为因素的影响,具有自学习、自组织适应能力强等优点,算例分析结果也显示出该模型训练精度高,预测结果好,评价结果较为客观;
(2)建立模糊神经网络模型应合理确定网络层数及隐含层的神经元数,设置不合理会影响网络的学习能力和效率;
(3)基于模糊神经网络对我国燃气发电进行评价,有利于业内人士更加客观、清楚地了解当前我国燃气发电现状和问题,从而有利于促进该行业的发展。
参考文献
[1]张斌.我国天然气发电现状及前景分析[J].中国能源,2012,34(11):12-16.
[2]李强.燃气发电企业的市场营销战略[J].现代商业,2007,(36):163.
[3]董军,阴少华,王江波等.基于随机生产模拟的天然气发电环境效益与可靠性效益分析[J].陕西电力,2010,38(7):6-9.
[4]刘毅军,李松玲,徐小辉等.天然气产业链下游市场风险评价模型探讨[J].天然气工业,2006,26(7):136-138.
[5]熊焰,周伟国,严铭卿等.模糊神经网络在燃气风险评价的应用[J].煤气与热力,2006,26(6):6-9.
[6]唐永伟. 燃气电厂风险分析[J].中国电力,2002,35(4):1-4.
[7]刘毅军,夏新生,宋建新.天然气产业链下游市场风险评价指标体系探讨[J].天然气工业,2006,26(增刊):172-174.
[8]魏阳,李凌云,马明娟等.基于模糊综合评价法的聚光型太阳能光热发电风险评价研究[J].陕西电力,2012,40(3):1-5.
[9]M. Mosleha, M. Otadia, S. Abbasbandyb. Evaluation of fuzzy regression models by fuzzy neural network[J]. Journal of Computational and Applied Mathematics, 2011, 234(3):825-834.
[10]陈建宏,胡敏,肖诚等.基于模糊人工神经网络的金属矿山投资风险评价[J].广西大学学报(自然科学版),2011,36(6):1030-1035.
篇6
为寻求一种简便的船舶运动模型辨识方法,根据船舶动力学与运动学基本方程的结构形式,建立一种基于Elman神经网络的辨识模型,给出网络结构的选取和确定方法.以载质量为5万t的散货船为例,利用国际海事组织要求的几个典型的船舶操纵试验数据对网络进行训练,计算权值矩阵,获得该船舶可用于船舶操纵性分析的神经网络模型.将网络计算结果代入船舶运动学方程进行船舶航迹仿真,并与试验航迹数据进行对比, 验证网络模型的精确性.比较仿真验证结果和试验数据可知,该网络模型能基本反映被辨识船舶的动态特性,验证其有效性和准确性.
关键词:
船舶动力学模型; 船舶运动学方程; 神经网络; 系统辨识
中图分类号: U661.33;TP183
文献标志码: A
0引言
目前对于船舶操纵运动数学模型的研究基本上从两方面着手:一是机理建模研究,从基本运动方程出发,通过确定其水动力求解其运动参数的水动力模型;二是辨识建模研究,将船舶看作一个动态系统,舵角作为输入,船舶运动参数作为输出,进行水动力参数辨识和函数形式传递的船舶模型辨识.前一种方法需要测量和计算复杂的水动力导数,工作量大,而且某些水动力导数的理论估算目前还不能满足工程精度的要求,只能通过拘束船模试验精确确定,费用高,可行性较低.后一种方法中的水动力参数辨识,存在无法完全辨识的问题,而传递函数形式的船舶模型,更适合于宽阔水域的船舶操纵,不适合具有高强机动性的船舶操纵控制,若要应用于仿真,还需补充目前尚无统一形式的船舶纵向方程[1].近几年,随着神经网络研究的再度兴起,神经网络在模式识别、系统辨识、图像处理和自动控制等众多领域得到广泛应用[24],在运动建模与仿真,特别是在船舶操纵性中的应用也越来越受到国内外众多学者[58]的关注.神经网络具有自学习、自适应的能力,能够从输入数据中自动学习,抽取包含在数据中的映射关系,因此可以用来学习船舶在航行过程中的动态操纵特性.目前, 在系统辨识中应用最多的是多层前向网络. 该网络具有逼近任意连续非线性函数的能力, 但这种网络结构一般是静态的, 而人们更关心控制系统的动态特性, 这恰恰是反向传播(BackPropagation,BP)神经网络等前馈型网络所缺乏的.与静态前馈型神经网络不同,动态递归网络通过存储内部状态使其具备映射动态特征的功能, 从而使系统具有适应时变特性的能力, 更适合于非线性动态系统的辨识.动态递归神经网络是控制系统建模和辨识中极具发展潜力的网络.[9]本文将动态递归神经网络应用于船舶操纵运动辨识,建立一种基于Elman神经网络的辨识模型.该网络模型与已知的船舶动力学基本模型相对应,使网络结构具有明确的物理意义.随后,利用几种典型的船舶操纵性试验数据对网络模型进行训练和验证,得到比较满意的结果.
1船舶运动数学模型
船舶的实际运动是一种具有6个自由度的异常复杂的运动.对大多数情况下的船舶运动及控制而言,可以忽略船舶垂荡、横摇和纵摇运动.国际海事组织(International Maritime Organization,IMO)要求的几种典型的船舶操纵性试验极少包含对船舶垂荡、横摇和纵摇运动的数据记录.本文的主要目的在于验证Elman神经网络对船舶运动辨识的可行性.考虑上述原因,仅对船舶3自由度运动进行辨识与建模,不考虑风、浪和流等外界条件的影响.
船舶3自由度的动力学方程[5]为
篇7
Abstract: In the view of the shortage of the Wavelet Neural Network Algorithm, adapt Adaptive Inertia Weight Particle Swarm Optimization Algorithm(AIW-PSO) as a study algorithm, build the AIW-PSO Wavelet Neural Network Model to predict the Shanghai stock Index., and make a comparison between the results of improved algorithm prediction model with results of traditional Wavelet Neural Network Model. The results show that the AIW-PSO Wavelet Neural Network Prediction Model has better prediction results on the Shanghai Stock Index.
关键词: 自适应惯性权重粒子群优化算法;小波神经网络;上证指数预测
Key words: Adaptive Inertia Weight Particle Swarm Optimization;Wavelet Neural Network;Shanghai Stock Index Prediction
中图分类号:F832.5;F224 文献标识码:A 文章编号:1006-4311(2014)08-0006-03
0 引言
股票市场预测是一个非线性函数值估计和外推问题,随着股市预测问题的复杂性增高,仅仅依靠传统的预测方法或是单一的人工智能模型已经不足以达到人们所期望的要求。近年来,学者们试图将多种股市预测技术结合,使它们优劣互补,从而达到更加理想的股市预测效果。殷光伟、蔺玉佩[1]应用小波理论对混沌模型预测的结果予以重构,实现对原始收益率的预测,结果有了更高的精度。王刚[2]等利用小波将股指数据进行去噪处理,然后利用BP神经网络进行预测分析,试验结果精准度相对于BP神经网络方法更高、效果更好。刘海珗[3]等将AR模型、RBF和GRNN神经网络模型进行比较,结果表明若神经网络选择恰当的学习算法时,对上证指数预测结果会更优越。肖冬荣等[4]采用PSO算法训练神经网络对股市进行预测,实证结果表明改进算法易实现且预测精度高。文献[5、6]提出了将遗传算法与BP神经网络相结合对股市价格进行预测,实证仿真结果证实该改进模型的优越性。Yoshinori[7]等将小波系数作为特征量输入于多阶段模糊推理系统中,并价格涨落进行预测。Taeksoo[8]等利用遗传算法和神经网络将小波系数加权后作为特征量预测汇率,效果同样相对较好。而随着小波神经网络快速发展,这些年来其优越的性能使其得到了广泛的应用,但其学习算法的一些缺陷对其在股市预测中的应用得到了限制。而本文所提出的一种自适应粒子群优化算法寻优等能力突出、简单易实现等优势会克服原有缺陷,而将AIW-PSO算法与小波神经网络结合后的新技术将会成为一种全新的、更优越的股票市场预测方法。
1 自适应惯性权重粒子群优化算法
自从粒子群算法被提出以来不少学者也是提出各种各样的改进算法来克服其收敛快、容易陷入局部极小值等缺点。如通过产生多子群、增加自适应变异、鱼群算法中聚群行为、混沌理论等去改进粒子群,但在这么多改进算法中必然会存在一些如相互结合的算法之间的性能相互抵消及相互影响等情况,从而导致改进算法在做预测时的结果出现一种“假”的精度高等现象。故本文结合文献[9、10]中所提出的一种自适应惯性权重粒子群优化算法,选择该方法作为小波神经网络的学习算法,来指导小波神经网络的模型拟合。
由PSO算法的基本原理中粒子的位置和速度方程可知,其中ω是为非负数的惯性权重,它使粒子保持运动惯性,使其具有扩展收缩空间的趋势,有助于新区域的搜索。设ωmax为最大惯性权重,ωmin为最小惯性权重,k为当前迭代次数,kmax为算法迭代总次数,则自适应惯性权重ω的方程如下:
ω=ωmax-k(ωmax-ωmin)/kmax
根据个体粒子的寻优能力,给出自适应惯性权重来调整全局搜索能力和局部开发能力。每一维每个粒子在每次迭代时都有不同的惯性权重,这对于提高收敛精度上有较好的效果。而实际应用中常将惯性因子ωmax和ωmin分别设为0.9和0.4。
2 基于AIW-PSO小波神经网络预测模型
由上述AIW-PSO算法原理及算法流程,本小节试图将AIW-PSO算法的寻优机制作为学习策略添加到小波神经网络训练过程中,构建AIW-PSO小波神经网络,令小波神经网络和AIW-PSO算法相互取长补短。对于小波神经网络结构问题,输入层节点数为m,隐含层节点数为n,输出层节点数为k,则优化维度D=n×m+k×n+n+n。假设1:输入层到隐含层的权值矩阵为Wkj,隐含层和输出层的权值矩阵Wji;假设2:小波基函数平移系数bj,向量为B1=(b1,b2,…,bj);小波基函数伸缩系数aj,向量为B2=(a1,a2,…,aj);故单个粒子在维度上的顺序编码为包括以上假设1和假设2中的矩阵和向量中的所有元素的一行或一列的向量x=(W11,…,Wkj,W11,…,Wji b1,…,bj,a1,…,aj)。
优化单隐层小波神经网络结构的主要步骤和基本流程为:
步骤1:对小波神经网络的权值、小波基函数平移系数和伸缩系数进行结构编码,使其对应于AIW-PSO算法中的个体;
步骤2:将权值和小波基函数平移系数和伸缩系数的取值区间赋予AIW-PSO算法的种群,随机初始化种群;
步骤3:结合问题,设定网络类型、结构、小波基函数及初始化各项参数,生成新的网络模型;
步骤4:分别将种群的维度信息解码为网络模型各项参数,对网络进行仿真输出,计算均方误差MSE作为算法的适应度;
步骤5:按照AIW-PSO算法的寻优方式进行迭代,直到某一个体的适应度满足要求,或达到最大迭代步数则终止算法;
步骤6:将算法的最优解解码给小波神经网络,得到经过优化后的WNN模型,进行预测。
AIW-PSO算法训练小波神经网络模型的基本流程如图1所示。
3 应用分析
股票指数时间序列是一个很不稳定的动态变化过程,其影响因素众多,其中包括如宏观、微观、政治、经济等因素。如何在上述众多的影响因素中选取主要影响指标作为上证指数预测模型的输入变量将会是一个十分关键的问题。根据文献中和现实股票市场情况,输出变量选为第t 日的收盘价,而影响指标选取为上证指数第t-1日的开盘价、最低价、最高价、收盘价和交易量信息共五个。实验数据选取多少应看所预测的指数。过多会增加收集,过少则可能导致结果偏差。故本文所采集的数据是从2010年8月6日至2011年8月6日的一年的共243组上证指数序列,其中前195组用来训练,后48 组用来预测。为了消除数据之间的影响,本文利用归一化函数将原始数据的序列归一化到[-1,1]之间,再利用反归一化函数将模拟结果还原到上证指数的时间序列。本文选取的WNN隐含层激励函数为最常用的具有良好的时频局部性的Morlet小波,而各层神经元数根据预测的上证指数和影响指标个数设为:输入层为5,输出层为1。根据经验公式及反复测试后隐含层小波基函数个数取10,此时AIW-PSO算法中粒子维度D为80,粒子个数S=40,粒子个体参数初始为(-1,1)的数值,常数c1=c2=2,本文中常将粒子最大速度Vmax初始化为0.5,粒子位置的最大值Xmax 确定为1,最大迭代次数kmax为500。
为了而体现改进算法预测的优越性,固将AIW-PSO小波神经网络预测模型与传统小波神经网络预测模型进行对比。两种预测模型程序在matlab2012a工具环境下分别进行5次测试,测试结果如表1所示。
由实验各项结果可知,基于小波神经网络的模型结果不太稳定,波动较大,MAPE值在1.53%-9.03%之间。为了体现AIW-PSO小波神经网络的优越性,在此我们取该模型最好的预测结果,即预测误差百分比MAPE为1.53%,此时训练样本的均方误差MSE指标为0.0163,测试样本的预测结果见图2。对于AIW-PSO小波神经网络预测模型预测结果来说,无论是在预测结果稳定性和预测精度方面都较小波神经网络有明显提高,5次测试中MAPE值都在0.99%-1.25%之间,足以说明该预测模型的优越性,测试样本的预测结果见图3。
4 结语
用自适应惯性权重粒子群优化算法训练小波神经网络能够起到很好的网络权值和系数优化效果,而两种算法预测模型结果对比分析表明,本文所建立AIW-PSO小波神经网络预测模型无论是在测试MAPE、预测稳定性、预测精度上都相对传统小波神经网络优越。说明AIW-PSO小波神经网络预测模型具有更加优越的性能,将会是成为股市预测的一种新型混合算法预测工具。
参考文献:
[1]殷光伟,郑丕谔.基于小波与混沌集成的中国股票市场预测[J].系统工程理论方法应用,2004,13(6):554-547.
[2]王刚,许晓兵.基于小波分析与神经网络时间序列的股票预测方法[J].金融经济,2013,4(12):161-162.
[3]刘海珗,白艳萍.时间序列模型和神经网络模型在股票预测中的分析[J].数学的实践与认识,2011,3(2):14-19.
[4]肖冬荣,杨子天.基于粒子群训练的神经网络股票预测模型[J].统计与决策,2009,12(2):20-22.
[5]孟祥泽,刘新勇,车海平,袁著祉.基于遗传算法的模糊神经网络股市建模与预测[J].信息与控制,1997,13(10):388-392.
[6]欧阳林群.GA神经网络在证券市场预测中的应用研究[J].湖北武汉理工大学学报(信息与管理工程版),2006,28(11):160-163.
[7]Yoshinori K, Shozo.T. Prediction of Stock Trends by Using the Wavelet Transform and the Multi-stage Fuzzy Inferenle System Optimized by the GA[J]. IEICE Trams Fundamentals, 2000, 83(2): 357-366.
[8]Taeksoo S,Ingoo H. Optimal signal multi-resolution by genetic algorithm to Support Artificial neural network for exchange rate forecasting[J]. Expert System with Applications, 2000, 18(4): 257-269.
篇8
关键字:智能手机;安全;神经网络;病毒病毒识别模型在智能手机监测中的优越性以及可行性。
0 引言
现阶段,互联网已成为当今社会不可或缺的一部分,智能手机的数量也是与日俱增,与此同时不断发展的是手机病毒,手机病毒已成为现代病毒发展的趋势。
所谓手机病毒,其实是一种破坏手机系统的程序,且其传播手段极为广泛,可通过短信、彩信、邮件、网站或者下载文件、蓝牙等传播,手机一旦被病毒感染就会根据所感染病毒程序的要求对手机实施破坏,其表现方式不尽相同,可以使关机、死机、删除手机资料、自动通话、发邮件等,有的病毒还能够破坏手机SIM卡和芯片等手机硬件设备。
怎样才能避免手机遭受病毒的破坏?其主要措施还是杀毒软件和防火墙:
①定期对杀毒软件的病毒库进行更新升级,尽可能的保证其拥有当时已出现的病毒程序的破解,若病毒库中不存在某个病毒的特征,则杀毒软件就不能对该病毒进行查杀。此外,现在的手机杀毒软件病毒库采用的是特征代码法,病毒的细微的变化都需要病毒库对其进行辨别,然而智能手机的存储空间和运算能力都是有限的,所以这种防杀毒的方法对智能手机而言,并不是完美的。
②而智能手机的防火墙主要的作用是拦截骚扰电话等,而并不是对手机病毒进行监控,面对现存的多样易变的病毒,防火墙更是显得微不足道。
究竟该选择何种方式来保护手机,这也是本文研究的重点―神经网络。
1 神经网络
神经网络是依据生物神经的机制和原理,对信息进行处理的一种模型。它能够模拟动物大脑的某些机制机理,实现一些特定的功能。人工神经网络具有很大的优越性:
①具有自学功能。比如说,当对一幅图像进行识别时,将各种不同的图像样本及其对应的结果输入人工神经网络,它就能够自己学习识别相同类型的图像。
②具有联想存储功能。人工神经网络中的反馈网络具备了联想存储的功能。
③具有高速寻找优化解的功能。
2 神经网络安全监控系统
神经网络安全监控系统就是监控手机应用程序,使手机的正常业务能够顺利进行,而对那些异常业务则进行阻止。所谓正常的业务就是那些手机用户已知的、按照用户的意愿运行的、并且其运行并不破坏用户手机中的资源和产生额外费用的已经授权的程序。
通过神经网络监控手机的而应用程序的流程图如图1所示:
图1 神经网络安全监控流程图图2 单层感知器神经网络结构
神经网络智能手机安全监控的第一步是获取所运行程序的特征,然后借助于神经网络的识别功能,对所提取的应用程序的行为特征进行识别,如果识别结果为病毒手机会向用户发出提示信息,若不为病毒则程序将继续运行。
3.1 程序行为特征的获取
这里举个例子说明。例如OwnSkin.A病毒,该病毒以手机主题的形式诱导手机用户进行下载安装,一旦该病毒被安装进了手机,它就会在用户不知情的情况下自动连接网络,自动想外界批量发送短信,对手机收到的短信的信息内容进行删除等等。从对病毒的描述详细程度方面来说,病毒具有很多种特征,本文以3个为例,进行说明,这3个特征分别是有无按键、是否自启动、是否特殊号码,程序行为特征获取的方法如下:
①针对手机自启动的行为特征:每种手机的系统,都有其正常的程序启动方式,例如Windows Mobile通过“启动”设置,Symbian的系统式通过“Recognizer”来设置程序的启动,Linux系统是将启动语句加入/ect/init.d/rcs,或者/usr/etc/rc.local中,在程序启动的时候对这些个位置进行监控,就可以很容易的判别其是否为自启动。
②针对按键这个行为特征:塞班的系统对是否有按键这个行为特征的监控是粗略的监控,以短信为例,手机短信的使用一般是先按功能键启动功能图标,然后选取短信的图标,接着是对短信内容的编辑,即一系列的数字键,监控可得到一个相应的按键序列,这样就可以通过是否有按键这个行为特征来监测手机程序的启动是否正常。
③针对“被叫号码”和“文件信息”的特征: 对于被叫号码主要执行的是,查看所要拨出去的电话号码是否是设置在黑名单里的电话,对于文件信息则是查看信息中所添加的附件是否是安装文件,如果是手机用户之间的正常传输行为,则必定有按键行为特征,这样也就会避免手机中的病毒程序隐蔽性的自启动来传输文件。
3.2 神经网络建模
仍旧以上述3个行为特征为例,将其三个特征分别用“0”或者“1”来表示,若无按键、自启动、特殊号码,其特征值都取“1”,反之则取“0”,这三个特征值一共组合成了8中可能出现的情况,将其标记为矩阵如下:
(1)
借助于神经网络的识别功能,本文以单层单神经元的神经网络为例进行说明,采用以下的参数对神经网络进行设计:
该网络包含有一个输入向量,包汗三个元素,并且每个元素取0―1之间的值。
神经网络中的神经元通过hardlim函数为传输手段,根据这个函数设计出如图2所示的神经网络结构,:
(2)
该结构输出结果为二值向量“0”或者“1”,其中“0”表示不是病毒特征,“1”则表示是行为特征。
在智能手机的实际应用中,传输函数和网络结构、层数极易神经元等的类型多种多样,可根据病毒的实际情况进行选择和应用,在此笔者只是举个例子来论述神经网络是如何识别网络的。当网络建好之后,就需要通过适当的方法对病毒样本进行训练得出误差。
仍以上述例子为例进行训练:
输入向量为:p= ;目标向量选为:t= ,在MATLAB7.1的环境中对病毒进行训练,根据所的结果得出训练的误差性能曲线,如图3所示:
图3 训练误差性能曲线
经过训练并获取矩阵权重,至此,神经网络的建模基本完成,其模型为
a=hardlim(P1*2+P2*2+P3*1-3)
在手机中所执行的应用程序,计算程序的行为特征向量与病毒的行为特征向量(111)之间的欧式距离,当所得之数比程序的特征行为向量和正常行为特征向量之间的欧式距离大时,系统将将此程序判定为病毒。
运用神经网络系统对手机进行监测不需要像杀毒软件一样需要定期更新,这对手机的安全具有更好的防护作用。
3结语
随着现代社会智能手机数量的增多和日常化,网络黑客技术也在不断的发展和完善,因此智能手机安全问题已然不能忽视或者小视。本文针对这个问题,以及杀毒软件和防火墙的不足之处,论述了神经网络病毒识别模型在智能手机监测中的优越性以及可行性。
参考文献
[1]刘一静,孙莹,蔺洋. 基于手机病毒攻击方式的研究[J]信息安全与通信保密, 2007, (12) .
[2]李锦. 手机病毒特点及防范对策[J]通信技术, 2009, (02) .
[3]杨建强,吴钊,李学锋. 增强智能手机安全的动态恶意软件分析系统[J]. 计算机工程与设计, 2010, (13) .
[4]智能手机安全防护框架浅析[J]. 信息安全与通信保密, 2010, (10).
篇9
关键词:LM-BP网络;粮食产量;预测
中图分类号:S11+4;TP183 文献标识码:A 文章编号:0439-8114(2012)23-5479-03
Forecasting Corn Production Based on LM-BP Neural Network
GUO Qing-chun1,3,4,HE Zhen-fang2,4,LI Li3
(1. Teaching Affairs Office, Shaanxi Radio & TV University, Xi’an 710068, China; 2. Cold and Arid Regions Environmental and Engineering Research Institute, Chinese Academy of Sciences, Lanzhou 730000, China; 3. Institute of Earth Environment Research, Chinese Academy of Sciences, Xi’an 710075, China; 4. Graduate University, Chinese Academy of Sciences, Beijing 100049, China)
Abstract: A corn production porecasting method based on improved LM-BP was proposed. According to measurement and agricultural significance principle, 9 factors of grain-sown area, fertilizer input, effective grain irrigated area, stricken area, rural electricity consumption, total agriculture mechanism power, the population engaged in agriculture, rural residents family productive assets, the average net income of rural households were extracted as the network input; corn production was extracted as the network output. The LM algorithm could minimize the error, and the modeling results were evaluated with the correlation coefficients, relative error, etc. For training sample set, the correlation coefficient between the simulated value and the actual value was 0.996, the average relative error was 0.47%; for testing sample set, the correlation coefficient between the forecasted value and the actual value was 0.994, the average relative error was 0.56%. The results showed that the improved LM-BP model could improve simulation precision and stability of the model. This method is effective and feasible for corn production prediction.
Key words: LM-BP network; corn production; forecast
粮食产量预测是复杂的农学和统计学问题,受自然环境、政策、资源投入等多因素的影响。国内外的相关研究中,不少学者构建了许多很有价值的理论假说和预测模型,主要有4类:投入产出模型、遥感技术预测模型、气候生产力模型及多元回归和因子分析模型,这些模型从不同角度对粮食产量预测进行了研究[1,2]。但这些模型多数采用传统的统计预测技术,如时间序列统计模型、定性与推断技术、因果关系方法。而粮食产量是受不确定性因素影响的,是一个复杂的非线性系统。
人工神经网络具有很强的处理大规模复杂非线性系统的能力。近年来,许多学者已将人工神经网络成功地应用于实际问题的预测中,取得了令人满意的结果[3-12]。为此,采用改进算法的神经网络建立了粮食产量预测系统,结果表明,基于改进算法的BP神经网络预测模型具有良好的预测精度、训练时间短、收敛速度快等特点。
1 仿真试验数据
1.1 预测因子的选择
根据能够计量及具有农学意义的原则,结合农业专家的意见,通过前期大量的影响因子分析[13-15],选取1994-2009年的粮食总产量为输出因子,初步选取粮食作物播种面积、化肥施用量、粮食作物有效灌溉面积、受灾面积、农村用电量、农业机械总动力、从事农业的人口、农村居民家庭生产性固定资产原值、农村居民家庭平均纯收入9个因子作为输入因子构筑模型,原始数据来源于2010年《中国统计年鉴》。
1.2 网络输入的初始化
为了消除不同因子之间由于量纲和数值大小的差异而造成的误差,以及由于输入数值过大造成溢出,首先需要对数据进行标准化处理,即把输入数据转化为[0,1]或[-1,1]的数。通过公式y=(x-min(x))/(max(x)-min(x))对粮食产量进行处理,得到了符合网络要求的数据。减少了识别数据的动态范围,使预测成功的可能性得以提高。然后将数据分成两部分:网络的训练样本集(前11年的数据)和检测样本集(后5年的数据)。
2 预测仿真模型的建立
BP网络是误差反向传播(Back Propagation)人工神经网络的简称,是目前计算方法比较成熟、应用比较广泛、效果比较好、模拟生态经济系统的神经网络模型,但传统BP网络存在学习过程收敛慢,局部极小、鲁棒性不好、网络性能差等缺点。为了改进算法,引入Levenberg-Marquardt优化算法,其基本思路是使其每次迭代不再沿着单一的负梯度方向,而是允许误差沿着恶化的方向进行搜索,同时通过在最速梯度下降法和高斯-牛顿法之间自适应调整来优化网络权值,使网络能够有效收敛,大大提高网络的收敛速度和泛化能力,它能够降低网络对误差曲面局部细节的敏感性,有效抑制网络陷入局部极小。
Levenberg-Marquardt算法实际上是梯度下降法和拟牛顿法的结合,该算法期望在不计算Hessian矩阵的情况下获得高阶的训练速度,其公式表达为XK+1=XK-[JTJ+μI]-1JTe,其中,JT为雅克比矩阵,e是网络误差向量。如果μ=0的话,就变成采用近似Hessian矩阵的拟牛顿法;如果μ很大,即成为小步长的梯度下降法,由于牛顿法在误差极小点附近通常能够收敛得更快更准确,因此算法的目的就是尽快转换为牛顿法。如果某次迭代成功,误差性能函数减小,那么就减小μ值,而如果迭代失败,就增加μ值。如此可以使得误差性能函数随着迭代的进行而下降到极小值。Matlab工具箱提供了Trainlm 函数Levenberg-Marquardt算法的计算。
网络结构的选择是应用BP网络成功与否的关键因素之一,一个规模过大的神经网络容易造成网络容错性能下降、网络结构复杂、泛化能力较差等缺陷;而规模过小的神经网络往往对训练样本的学习较为困难,学习过程可能不收敛,影响网络的表现能力,降低网络应用的精度。理论研究表明,只要具有足够的隐层神经元,3层人工神经网络可以无限地逼近任何时间序列和函数,因此这里采用含有一个隐含层的3层神经网络结构。隐含层神经元数的选择较为复杂,它关系到整个BP网络的精确度和学习效率,但目前,它的选取尚无一般的指导原则,只能根据一些经验法则或通过试验来确定,如Hecht-Nielsen提出的“2N+1”法,由输入矩阵可以确定输入层节点数为9,根据“2N+1”这一经验,可确定隐含层节点数为19;输出层节点数为1,这样就构成了一个9-19-1的BP神经网络模型,其中,训练函数为Trainlm,输入层到隐含层以及隐含层到输出层的传递函数分别为Logsig和Purelm,最大训练次数Epochs为50 000次;训练误差精度Goal为0.001;训练时间间隔Show为5,学习步长Lc为0.5,动量因子Me为0.95,其他参数均选用缺省值。
3 仿真结果
取1994-2004年的11个实际产量作为训练样本集,将2005-2009年的5个实际产量作为预测效果检测样本集。将1994-2004年9个指标的原始数据作为BP神经网络的输入样本,粮食产量实际值作为输出样本,然后对网络进行训练,可得相应结点的权值与阈值,将2005-2009年9个指标的原始数据(检测样本)作为网络的仿真输入,得到最终预测结果,表1是1994-2009年中国粮食实际产量和神经网络方法模拟值对比分析结果。
从表1可以看出,训练样本集中拟合精度平均相对误差为0.47%,最大值为2004年的1.13%,模拟值和实际值的相关系数为0.996;检测样本集中,BP神经网络预测模型得到的预测值和实际值具有较好的拟合效果,平均相对误差为0.56%,最大相对误差为1.11%,最小相对误差仅为0.04%,模拟值和实际值的相关系数为0.994;2005-2009年的粮食产量预测值的相对误差均较小。这种改进后的方法比较有效,利用该算法获得的预测数据结果较好。
总之,由以上分析结果可以看出,无论是拟合精度还是预测5个独立样本,BP神经网络模型的精度都比较高。但从预测结果也可以看出,BP网络模型方法预测的平均相对误差为0.56%,平均预测精度仍有待提高。
4 小结与讨论
针对中国粮食产量预测问题,将BP神经网络应用于国家粮食安全预警系统中,采用1994-2004年的中国粮食产量和影响因子的历史数据建立模型,利用2005-2009年的数据检验模型,研究得出以下结论。
1)由于常规统计模型难以满足粮食产量的预测要求,提出的改进BP算法较好地解决了神经网络收敛慢和易陷入局部极小值的问题,通过建立预测模型,运用该改进方法对中国粮食产量进行了预测,实例证明,运用基于Levenberg-Marquardt算法的改进BP神经网络,无论从训练结果精度上还是在收敛性能上都表现出较好的效果,说明运用该方法来预测粮食产量是完全可行的,弥补了传统BP算法的不足,提高了预测精度,加快了收敛速度,而且具有很好的外延性。
2)BP神经网络模型的预测精度高,预测值和实际产量的拟合性好。BP神经网络法允许原始的随机数据或数据中含有较多的噪声,这是它区别于其他模型的最大优势,因而任何能用传统的模型分析或统计方法解决的问题,BP神经网络能处理得更好。在进行粮食产量预测时,BP神经网络法是一种非常理想的预测方法,但是在构造神经网络的预测模型时,要注意正确选择影响因素,不要漏掉对预测对象有重大影响的因素。
由于粮食产量受各种因素的影响,波动性较大,除了受到上述9种因素的影响外,在很大程度上还受国家宏观政策、作物品种、耕作技术等因素的影响,如何更全面地将难以量化的因素也纳入模型中进行考虑分析,从而不断地改进预测模型、提高预测精度,是需要进一步研究的工作。
参考文献:
[1] 和文超,师学义,邓青云,等.土地利用规划修编中粮食产量预测方法比较[J].农业工程学报,2011,27(12):348-352.
[2] 周永生,肖玉欢,黄润生. 基于多元线性回归的广西粮食产量预测[J]. 南方农业学报,2011,42(9):1165-1167.
[3] 王巧华,文友先.基于BP神经网络的鸡蛋大小分级方法研究[J].湖北农业科学,2005(1):97-99.
[4] 于平福,陆宇明,韦莉萍,等.基于小波广义回归神经网络的粮食产量预测模型[J].湖北农业科学,2011,50(10):2135-2137.
[5] 李红平,魏振方,郭卫霞.小麦白粉病的数学模型预测[J].湖北农业科学,2011,50(17):3611-3613.
[6] 李 艳,刘 军.农产品价格预测系统设计与实现[J].湖北农业科学,2011,50(14):2976-2978.
[7] 黄 华,黎未然.人工神经网络在柚皮总黄酮提取中的应用[J].湖北农业科学,2011,50(10):2088-2091.
[8] 汪东升,李小昱,李 鹏,等.基于小波和神经网络的柴油机失火故障检测[J].湖北农业科学,2011,50(15):3181-3183.
[9] 梁 丹,李小昱,李培武,等.近红外光谱法对食用植物油品种的快速鉴别[J].湖北农业科学,2011,50(16):3383-3385.
[10] 吴泽鑫,李小昱,王 为,等. 基于近红外光谱的番茄农药残留无损检测方法研究[J].湖北农业科学,2010,49(4):961-963.
[11] 章 英.基于收购质量的烤烟烟叶无损检测技术研究综述[J].湖北农业科学,2011,50(7):1297-1300.
[12] 李 哲,李干琼,董晓霞,等.农产品市场价格短期预测研究进展[J]. 湖北农业科学,2011,50(17):3666-3675.
[13] 宰松梅,温 季,仵 峰,等.基于灰色关联分析的辽宁省粮食产量预测模型[J].节水灌溉,2011(5):64-66.
篇10
关键词性能对比感知器BP网络霍普菲尔德网络字符识别
1引言
人工神经网络是在人类对其大脑神经网络认识理解的基础上人工构造的能够实现某种功能的神经网络。 它是理论化的人脑神经网络的数学模型,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。因其自组织、自学习能力以及具有信息的分布式存储和并行处理,信息存储与处理的合一等特点得到了广泛的关注,已经发展了上百种人工神经网络。
一般来说,人工神经网络从结构上可分为两种:前向网络和反馈网络。典型的前向网络有单层感知器、BP网络等,反馈网络有霍普菲尔德网络等[1]。
人工神经网络已经被广泛应用于模式识别、信号处理、专家系统、优化组合、智能控制等各个方面,其中采用人工神经网络进行模式识别具有一些传统技术所没有的优点:良好的容错能力[2j、分类能力、并行处理能力和自学习能力,并且其运行速度快,自适应性能好,具有较高的分辨率。单层感知器、BP网络和霍普菲尔德网络均可以用于字符识别。
本文通过具体采用感知器网络、BP网络和霍普菲尔德反馈网络对26个英文字母进行识别的应用,通过实验给出各自的识别出错率,通过比较,可以看出这3种神经网络的识别能力以及各自的优缺点。
2 字符识别问题描述与网络识别前的预处理
字符识别在现代日常生活的应用越来越广泛,比如车辆牌照自动识别系统[3,4],手写识别系统[5],办公自动化等等[6]。毕业论文 本文采用单层感知器、BP网络和霍普菲尔德网络对26个英文字母进行识别。首先将待识别的26个字母中的每一个字母都通过长和宽分别为7×5的方格进行数字化处理,并用一个向量表示。其相应有数据的位置置为1,其他位置置为O。图1给出了字母A、B和C的数字化过程,其中最左边的为字母A的数字化处理结果所得对应的向量为:IetterA~「00100010100101010001111111000110001〕’,由此可得每个字母由35个元素组成一个向量。由26个标准字母组成的输人向量被定义为一个输人向量矩阵alphabet,即神经网络的样本输人为一个35×26的矩阵。其中alphabet=[letterA,letterB,lettere,……letterZj。网络样本输出需要一个对26个输人字母进行区分输出向量,对于任意一个输人字母,网络输出在字母对应的顺序位置上的值为1,其余为O,即网络输出矩阵为对角线上为1的26×26的单位阵,定义target=eye(26)。
本文共有两类这样的数据作为输人:一类是理想的标准输人信号;另一类是在标准输人信号中加上用MATLAB工具箱里的噪声信号,即randn函数。
3 识别字符的网络设计及其实验分析
3.1单层感知器的设计及其识别效果
选取网络35个输人节点和26个输出节点,设置目标误差为0.0001,最大训练次数为40。设计出的网络使输出矢量在正确的位置上输出为1,在其他位置上输出为O。医学论文 首先用理想输人信号训练网络,得到无噪声训练结果,然后用两组标准输入矢量加上两组带有随机噪声的输人矢量训练网络,这样可以保证网络同时具有对理想输人和噪声输人分类的能力。网络训练完后,为保证网络能准确无误地识别出理想的字符,再用无噪声的标准输入训练网络,最终得到有能力识别带有噪声输人的网络。下一步是对所设计的网络进行性能测试:给网络输人任意字母,并在其上加人具有平均值从。~0.2的噪声,随机产生100个输人矢量,分别对上述两种网络的字母识别出错率进行实验,结果如图2所示。其中纵坐标所表示的识别出错率是将实际输出减去期望输出所得的输出矩阵中所有元素的绝对值和的一半再除以26得到的;虚线代表用无噪声的标准输人信号训练出网络的出错率,实线代表用有噪声训练出网络的出错率。从图中可以看出,无噪声训练网络对字符进行识别时,当字符一出现噪声时,该网络识别立刻出现错误;当噪声均值超过0.02时,识别出错率急剧上升,其最大出错率达到21.5%。由此可见,无噪声训练网络识别几乎没有抗干扰能力。而有噪声训练出的网络具有一定的抗干扰能力,它在均值为。~0.06之间的噪声环境下,能够准确无误地识别;其最大识别出错率约为6.6%,远远小于无噪声训练出的网络。
3.2BP网络的设计及其识别效果
该网络设计方法在文献[lj中有详细介绍。网络具有35个输人节点和26个输出节点。目标误差为0.0001,采用输人在(0,l)范围内对数S型激活函数两层109519/109519网络,隐含层根据经验选取10个神经元。和单层感知器一样,分别用理想输人信号和带有随机噪声的输人训练网络,得到有噪声训练网络和无噪声训练网络。由于噪声输人矢量可能会导致网络的1或o输出不正确,或出现其他值,所以为了使网络具有抗干扰能力,在网络训练后,再将其输出经过一层竞争网络的处理,使网络的输出只在本列中的最大值的位t为1,保证在其他位置输出为O,其中网络的训练采用自适应学习速率加附加动量法,在MATLAB工具箱中直接调用traingdx。在与单层感知器相同的测试条件下对网络进行性能测试,结果如图3所示。其中虚线代表用无噪声训练网络的出错率,实线代表用有噪声训练网络的出错率。从图中可以看出,在均值为o一0.12之间的噪声环境下,两个网络都能够准确地进行识别。在0.12~0.15之间的噪声环境下,由于噪声幅度相对较小,待识别字符接近于理想字符,故无噪声训练网络的出错率较有噪声训练网络略低。当所加的噪声均值超过。.15时,待识别字符在噪声作用下不再接近于理想字符,无噪声训练网络的出错率急剧上升,此时有噪声训练网络的性能较优.
转贴于 3.3离散型,霍普菲尔德网络的设计及其识别效果
此时网络输人节点数目与输出神经元的数目是相等的,有r=s=35,采用正交化的权值设计方法。在MATLAB工具箱中可直接调用函数newh叩.m。要注意的是,由于调用函数newhoP.m,需要将输人信号中所有的。英语论文 变换为一1。如letterA~[一1一11~1-1一11一11一l一11一11一11一1一1一11111111一l一l一111一1一1一11〕’。设计离散型霍普菲尔德网络进行字符识别,只需要让网络记忆所要求的稳定平衡点,即待识别的26个英文字母。故只需要用理想输人信号来训练网络。对于训练后的网络,我们进行性能测试。给网络输入任意字母,并在其上加人具有平均值从。~0.5的噪声,随机产生100个输人矢量,观察字母识别出错率,结果如图4所示。从图中可以看出,在均值为0~0.33之间的噪声环境下,网络能够准确地进行识别。在0.33~0.4之间的噪声环境下,识别出错率不到1%,在0.4以上的噪声环境下,网络识别出错率急剧上升,最高达到大约10%。可以看出,该网络稳定点的吸引域大约在0.3~。.4之间。当噪声均值在吸引域内时,网络进行字符识别时几乎不出错,而当噪声均值超过吸引域时,网络出错率急剧上升。
4结论
本文设计了3种人工神经网络对26个英文字母进行了识别。可以看出,这3种人工神经网络均能有效地进行字符识别,并且识别速度快,自适应性能好,分辨率较高。由图2和图3可以看出,单层感知器的有噪声训练网络在均值为O~0.06之间的噪声环境下可以准确无误的识别,而有噪声训练的BP网络可以在o~0.12之间的噪声环境下准确无误的识别,故BP络网络容错性比单层感知器的容错性好;此外,噪声达到0.2时,单层感知器的有噪声训练网络的识别出错率为6.6%,而有噪声训练的BP网络的识别出错率为2.1%,故BP网络比单层感知器识别能力强。另外,由图2、图3和图4可以看出,这3种网络中霍普菲尔德网络识别率最高,它在噪声为0.33以前几乎不会出错,BP网络次之,感知器最差。
通过设计、应用与性能对比,我们可得单层感知器网络结构和算法都很简单,训练时间短,但识别出错率较高,容错性也较差。BP网络结构和算法比单层感知器结构稍复杂,但其识别率和容错性都较好。霍普菲尔德网络具有设计简单且容错性最好的双重优点。因此,我们应根据网络的特点以及实际要求来选择人工神经网络对字符进行识别。 参考文献
[1]丛爽.面向MATLAB工具箱的神经网络理论与应用「M.合肥:中国科学技术大学出版社,2003.
[2]武强,童学锋,季隽.基于人工神经网络的数字字符识别[J].计算机工程,2003,29(14):112一113.
[3]廖翔云,许锦标,龚仕伟.车牌识别技术研究[J].徽机发展,2003,13:30一35.
[4]李中凯,王效岳,魏修亭.BP网络在汽车牌照字符识别中的应用[J].东理工大学学报,2004,18(4):69一72.
- 上一篇:口腔卫生保健基本内容
- 下一篇:历史文化遗产保护制度