卷积神经网络的算法范文
时间:2024-04-02 18:03:30
导语:如何才能写好一篇卷积神经网络的算法,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
中图分类号 TP18 文献标识码:A 文章编号:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
树叶识别与分类在对于区分树叶的种类,探索树叶的起源,对于人类自身发展、科普具有特别重要的意义。目前的树叶识别与分类主要由人完成,但,树叶种类成千上万种,面对如此庞大的树叶世界,任何一个植物学家都不可能知道所有,树叶的种类,这给进一步研究树叶带来了困难。为了解决这一问题,一些模式识别方法诸如支持向量机(Support Vector Machine,SVM)[1],K最近邻(k-NearestNeighbor, KNN)[2]等被引入,然而,随着大数据时代的到来,这些传统分类算法暴露出越来越多的不足,如训练时间过长、特征不易提取等不足。
上世纪60年代开始,学者们相继提出了各种人工神经网络[3]模型,其中卷积神经网络由于其对几何、形变、光照具有一定程度的不变形,因此被广泛应用于图像领域。其主要特点有:1)输入图像不需要预处理;2)特征提取和识别可以同时进行;3)权值共享,大大减少了需要训练的参数数目,是训练变得更快,适应性更强。
卷积神经网络在国内研究才刚刚起步。LeNet-5[4]就是一种卷积神经网络,最初用于手写数字识别,本文研究将卷积神经网络LeNet-5模型改进并应用于树叶识别中。本文首先介绍一下卷积神经网络和LeNet-5的结构,进而将其应用于树叶识别,设计了实验方案,用卷积神经网络与传统的模式识别算法支持向量机(SVM)进行比较,得出了相关结论,并对进一步研究工作进行了展望。
2人工神经网络
人工神经网络方面的研究很早就已开展,现在的人工神经网络已经发展成了多领域、多学科交叉的独立的研究领域。神经网络中最基本的单元是神经元模型。类比生物神经元,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元的状态。人工神经元模型如图1所示:
上述就是一个简单的神经元模型。在这个模型中,神经元接收来自n个其他神经元传递过来的输入信号,这些信号通过带权重的w进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”来产生输出。
一般采用的激活函数是Sigmoid函数,如式1所示:
[σz=11+e-z] (1)
该函数图像图2所示:
2.1多层神经网络
将上述的神经元按一定的层次结构连接起来,就得到了如图3所示的多层神经网络:
多层神经网络具有输入层,隐藏层和输出层。由于每一层之间都是全连接,因此每一层的权重对整个网络的影响都是特别重要的。在这个网络中,采用的训练算法是随机梯度下降算法[5],由于每一层之间都是全连接,当训练样本特别大的时候,训练需要的时间就会大大增加,由此提出了另一种神经网络―卷积神经网络。
2.2卷积神经网络
卷积神经网络(CNN)由于在图像分类任务上取得了非常好的表现而备受人们关注。发展到今天,CNN在深度学习领域已经成为了一种非常重要的人工神经网络。卷积神经网络的核心在于通过建立很多的特征提取层一层一层地从图片像素中找出关系并抽象出来,从而达到分类的目的,CNN方面比较成熟的是LeNet-5模型,如图4所示:
在该LeNet-5模型中,一共有6层。如上图所示,网络输入是一个28x28的图像,输出的是其识别的结果。卷积神经网络通过多个“卷积层”和“采样层”对输入信号进行处理,然后在连接层中实现与输出目标之间的映射,通过每一层卷积滤波器提取输入的特征。例如,LeNet-5中第一个卷积层由4个特征映射构成,每个特征映射是一个24x24的神经元阵列。采样层是基于对卷积后的“平面”进行采样,如图所示,在第一个采样层中又4的12x12的特征映射,其中每个神经元与上一层中对应的特征映射的2x2邻域相连接,并计算输出。可见,这种局部相关性的特征提取,由于都是连接着相同的连接权,从而大幅度减少了需要训练的参数数目[6]。
3实验研究
为了将LeNet-5卷积网络用于树叶识别并检验其性能,本文收集了8类树叶的图片,每一类有40张照片,如图5所示的一张树叶样本:
本文在此基础上改进了模型,使用了如图6卷积神经网络模型:
在此模型中,第一个卷积层是由6个特征映射构成,每个特征映射是一个28*28的神经元阵列,其中每个神经元负责从5*5的区域通过卷积滤波器提取局部特征,在这里我们进行了可视化分析,如图7所示:
从图中可以明显地看出,卷积网络可以很好地提取树叶的特征。为了验证卷积神经网络与传统分类算法之间的性能,本文基于Python语言,CUDA并行计算平台,训练同样大小8类,一共320张的一批训练样本,采用交叉验证的方法,得到了如表1所示的结论。
可见,无论是识别率上,还是训练时间上,卷积网络较传统的支持向量机算法体现出更好地分类性能。
4 总结
本文从人工神经网络出发,重点介绍了卷积神经网络模型LeNet-5在树叶识别上的各种研究并提取了特征且进行了可视化,并与传统分类算法SVM进行比较。研究表明,该模型应用在树叶识别上较传统分类算法取得了较好的结果,对收集的树叶达到了92%的准确率,并大大减少了训练所需要的时间。由于卷积神经网络有如此的优点,因此在人脸识别、语音识别、医疗识别、犯罪识别方面具有很广泛的应用前景。
本文的研究可以归纳为探讨了卷积神经网络在树叶识别上的效果,并对比了传统经典图像分类算法,取得了较好的分类精度。
然而,本文进行实验的样本过少,当数据集过多的时候,这个卷积神经网络算法的可行性有待我们进一步的研究;另外,最近这几年,又有很多不同的卷积神经网络模型出现,我们会继续试验其他的神经网络模型,力求找到更好的分类算法来解决树叶识别的问题。
参考文献:
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
篇2
关键词关键词:人脸识别;卷积神经网络;图像识别;深度学习;模式识别
DOIDOI:10.11907/rjdk.171043
中图分类号:TP317.4
文献标识码:A文章编号文章编号:16727800(2017)005018603
0引言
人脸识别是近年来模式识别、图像处理、机器视觉、神经网络及认知科学领域的研究热点[12]。所谓人脸识别,是指给定一个静态人脸图像或动态视频,利用存储有若干已知身份的人脸数据库验证单个或多个人的身份[1]。作为生物特征识别的一个重要方面,人脸识别有着广泛的应用场景,如:档案管理系统、公安系统的犯罪身份识别、银行和海关的监控、安全验证系统、信用卡验证等领域。在人脸识别巨大魅力的影响下,国内互联网公司也开始了人脸识别应用的探索,如百度推出的人脸考勤系统、阿里支付宝的刷脸登录等功能都是人脸识别的具体应用。目前,人脸识别的代表性方法主要有以下几种:Turk和Pentland[3]提出的特征脸(Eigenface)方法;基于线性区别分析,Belhumeur 等[4]提出了Fisherface方法;基于统计理论,剑桥大学的 Samaria和Fallside[5]提出了隐马尔科夫模型[5](HMM),Lawrence 等[6]提出的通过多级自组织映射神经网络(SOM)[6]与卷积神经网络相结合进行人脸识别。上述方法虽然获得了良好的识别正确率,但需要人工参与特征提取,然后将提取的特征送入分类器进行识别,过程较为复杂。
卷积神经网络[79]是近年发展起来,并引起广泛重视的一种高效深度学习识别算法,其已成为当前语音分析和图像处理领域的研究热点。相比传统的神经网络而言,卷积神经网络具有权值共享、局部感知的优点。局部感知的网络结构使其更接近于生物神经网络,权值共享大大减少了模型学习参数的个数,同时降低了神经网络结构的复杂性。在图像处理领域,卷积神经网络的优点体现得更为突出,多维的图像数据可以直接作为网络的输入,特征提取和分类均集成在网络中,避免了传统识别算法中复杂的特征提取和训练分类器过程。除此之外,卷积神经网络对图像中的位移、比例缩放、旋转、倾斜或其它形式的变形具有很好的鲁棒性。为了解决传统人脸识别算法特征提取和训练分类器困难的问题,本文借鉴Lenet-5[10]的结构,设计一个适合ORL数据集人脸识别任务的卷积神经网络结构。
1卷积神经网络
1.1用于ORL人脸识别的CNN
本文提出的7层卷积神经网络模型由输入层、2个卷积层、2个降采样层、一个全连接层和一个Sigmoid输出层组成。卷积核的大小均为5×5,降采样层Pooling区域的大小为2×2,采用Average Pooling(相邻小区域之间无重叠),激活函数均采用Sigmoid函数。每一个卷积层或降采样层由多个特征图组成,每个特征图有多个神经元,上层的输出作为下一层的输入。此外,本文实验学习率的取值为常数1.5,该卷积神经网络结构如图1所示。
1.2卷积层
卷积神经网络中的卷积层一般称C层[11](特征提取层)。卷积层的输入来源于输入层或者采样层。卷积层中的每一个特征图都对应一个大小相同的卷积核,卷积层的每一个特征图是不同的卷积核在前一层输入的特征图上作卷积,然后将对应元素累加后加一个偏置,最后通过激活函数得到。假设第l层榫砘层,则该层中第j个特征图的计算表达式如式(1)。
xlj=f(∑i∈Mjxl-1iklij+blj)(1)
这里的Mj表示选择的上一层输出特征图的集合。
1.3降采样层
降采样层是对上一层的特征图进行下采样处理,处理方式是在每一个特征图内部的相邻小区域进行聚合统计。常见的下采样方式有两种:Average Pooling和Max Pooling。其中,Average Pooling是取小区域内像素的平均值,而Max Pooling是取小区域内像素的最大值。降采样层只是对输入的特征图进行降维处理,不改变特征图的个数。假设down表示下采样操作,βlj表示乘性偏置,blj表示加性偏置,则降采样层中某个特征图的计算表达式如下:
xlj=f(βljdown(xl-1j)+blj)(2)
1.4输出层
卷积神经网络的输出层一般为分类器层,常用的有径向基(RBF)函数输出单元、Sigmoid输出单元和Softmax回归分类器。在ORL人脸识别任务中,采用Sigmoid函数输出单元,输出层的编码采用非分布编码“one-of-c”的方式。由于采用Sigmoid函数,每一个单元输出值是0-1范围内的一个正数,代表该样本属于该单元对应类别的概率。数值最大的那个单元即为样本的预测类别。假设x为全连接层的输出,则输出层输出结果的计算表达式如下:
y=f(wTx+b)(3)
其中,f表示激活函数,这里采用Sigmoid函数,Sigmoid函数表达式如下:
f(x)=11+e-x(4)
2实验结果与分析
实验在Windows7 64位下的Matlab 2014a中进行,采用Matlab深度学习工具箱DeepLearnToolbox。PC的内存8G,CPU主频为3.2GHZ。
ORL人脸数据集是在1992年至1994年之间由AT &T Cambridge实验室拍摄的人脸图像所构成。数据集中包含40个不同人物的脸部图像,每个人物包含10张图像,总共400张。每个类别中的脸部图像在不同的时间拍摄得到,存在如下差异:①光线;②面部表情,如眼睛的闭合和睁开状态,面部是否带有微笑的表情等;③一些面部细节上的差异,如是否佩戴眼镜等。该数据集中所有人脸图像均为灰度图像,且图像中人物面部朝向基本一致,都朝向正前方。
图2为ORL数据集中部分人脸图像。数据集中每个原始图像大小为92*112像素,本文实验中对这些图像进行预处理,使每一幅图像的尺寸调整为28*28,并对每一副图像进行归一化处理,这里采用简单的除255的方式。随机选取每一个类别的8张图像作为训练样本,剩下的2张作为测试样本。因此,训练集有320个样本,测试集有80个样本。
2.1改变C3层卷积核个数对网络的影响
卷积神经网络性能的好坏与卷积层卷积核的个数密切相关,但每一个卷积层应该设置多少个卷积滤波器,目前并没有数学理论指导。为了研究卷积核个数对网络最终识别准确率的影响,本文保持C1层卷积核个数不变,通过改变C3层卷积核的个数,形成新的网络结构,用训练集训练网络,训练迭代次数均为60次,然后用测试集对每一种网络结构的性能进行测试。实验结果如表1所示。
从表1可以看出,当C3层有10个卷积核时,网络模型对测试集的识别正确率最高。卷积核的个数与识别准确率并不成正比关系,当卷积核个数过多时,网络的识别准确率会下降,这是因为在卷积核个数增加的同时,需要学习的参数也随之增加,而数据集中训练样本的规模较小,已不能满足学习的要求。
2.2改变C1层卷积核个数对网络的影响
由上述实验结果可知,C3层卷积核个数为10时,网络识别效果最好。因此,为了研究卷积层C1层卷积核个数对识别准确率的影响, C3层保留10个卷积核,改变C1层卷积核的个数构造新的网络结构,用测试集针对不同网络结构就测试集和训练集的识别准确率进行测试。实验结果如表2所示。
从表2的实验结果可以得到相同结论:卷积层卷积核的个数并非越多越好,卷积核个数过多,网络需要学习的参数也随之增加,当训练集中样本个数无法满足学习需要时,网络识别准确率就会下降。
2.3与其它算法比较
为进一步说明本文所提卷积神经网络结构的有效性和优越性,将该结构(C1层6个卷积核,C3层10个卷积核,学习率1.5)的实验结果与其它识别方法在ORL数据集上的实验结果进行对比,结果如表3所示。可以看出,本文所提方法比Eigface、ICA的识别效果好,与2DPCA方法的识别准确率一样,比FisherFace方法的识别准确率只低了0.20%,这进一步证实了本文所提网络结构的有效性。
3结语
本文在理解Lenet-5结构的基础上,提出一种适用于ORL人脸数据集的卷积神经网络结构。实验结果表明,本文提出的卷积神经网络结构,不仅避免了复杂的显式特征提取过程,在ORL数据集上获得98.30%的识别正确率,而且比大多数传统人脸识别算法的效果都好。此外,本文还通过大量验就每个卷积层卷积核个数对网络识别准确率的影响进行了详细研究与分析,这对设计CNN网络结构具有一定的参考意义。
参考文献参考文献:
[1]李武军,王崇骏,张炜,等.人脸识别研究综述[J].模式识别与人工智能,2006,19(1):5866.
[2]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000,5(11):885894.
[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.
[4]祝秀萍,吴学毅,刘文峰.人脸识别综述与展望[J].计算机与信息技术,2008(4):5356.
[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.
[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.
[7]陈耀丹,王连明.基于卷积神经网络的人脸识别方法[J].东北师范大学学报:自然科学版,2016,48(2):7076.
[8]卢官明,何嘉利,闫静杰,等.一种用于人脸表情识别的卷积神经网络[J].南京邮电大学学报:自然科学版,2016,36(1):1622.
[9]李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,36(9):25082515.
[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
篇3
【关键词】压缩紧邻 字符识别 正确率
1 研究背景
样本选择是从原有的样本集中某一种选择方式来选出样本子集,是一个能加快数据处理效率,可以节省存储资源并且保证不降低分类性能的可靠方法。样本选择和特征选择在某些方面上有相似之处,一般都是与具体分类预测方法相关联。字符识别是模式识别中一类热门的研究问题,本文将利用样本选择方法结合深度卷积神经网络进行字符识别。
2 加权压缩近邻方法
基于压缩近邻的样本选择方法具有拥有降低存储、缩短运算等特点。郝红卫等人在此基础上提出了加权压缩近邻规则,针对那些未被选中的边缘样本,可以重复数次对压缩近邻的过程,从而确保样本数据均能够被选上。对于中心样本也能被保留的问题,通过对样本加权评估、再次选择的方式来解决。在选择的过程中可以根据实验需要进行样本数量进行控制,称之为加权压缩近邻规则(Weighted Condensed Nearest Neighbor)。
该算法是通过压缩近邻规则过程的循环保证子集P中有足够多的边界样本,但是其中仍存在大量的冗余,我们依据投票的原则对子集P中样本的代表性进行评估并且再次选择。其具体过程是对于U中的每个样本x找出P中距离最接近的样本xi,如果x和xi的类别是相同的,那么投xi一票。样本获得的票数最高,说明它最具有代表性。根据投票的实际情况和样本的数量来得到最终的子集A。用加权压缩近邻规则获得的子集比压缩近邻规则得到的子集包含更少的冗余样本和更多的具有代表性样本,同时还可以根据实验来控制子集中所含有的样本数。
3 实验结果与分析
本次实验分别使用MNIST和USPS手写体识别库作为训练和测试样本集。
实验平台采用英特尔酷睿i5-4430CPU 3.00GHz,8GB内存,Windows10操作系统,Matlab R2010b。我们设定随机选择和压缩近邻选取MNIST中样本数目为6600个,样本压缩比为10%,USPS库中选取样本数目为1767个,样本压缩比为20.34%。设置深度卷积神经网络训练次数设为100次。
算法给出了基于压缩近邻和BP神经网络手写体字符识别结果。通过融合压缩近邻规则选取样本和BP神经网络实验,在训练时间上虽然没有融合随机选取样本和深度卷积网络实验短,但是在时间上并没有很大幅度延长。在实验的识别错误率上,MNIST库中比随机选择实验提升了1.52%,分类效果提升明显。可见压缩近邻方法可以选择到更好的代表性样本。这两组数据依然说明了压缩近邻对样本选择的可靠性。表1给出了基于压缩近邻和卷积神经网络的手写体字符识别结果。
4 总结
本文主要介绍了基于压缩近邻的样本选择方法。样本选择的提出是为了有效减少样本数量,并且保证不降低训练精确度。在实验中进行验证,通过压缩近邻规则选取样本和深度卷积神经网络实验,证明其能够减少训练样本,提升训练速度,降低存储空间还可以提高识别正确率。
参考文献
[1]郝红卫,蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251.
[2]姜文瀚.模式识别中的样本选择研究及其应用[D].南京理工大学,2008.
[3]余凯,贾磊,陈雨强.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(09):1799-1804.
篇4
【关键词】图像识别;数学建模;分类算法;深度学习
引言
随着微电子技术及计算机技术的蓬勃发展,图像识别应运而生,图像识别是研究用计算机代替人们自动地去处理大量的物理信息,从而代替人的脑力劳动。随着计算机处理能力的不断强大,图像识别从最早的文字识别、数字识别逐渐发展到人脸识别、物体识别、场景识别、精细目标识别等,所采用的技术也从最早的模板匹配、线性分类到广泛使用的深层神经网络与支持向量机分类等方法。
1.图像识别中的数学问题建模
1.1飞行器降落图像智能识别建模
在复杂地形环境下,飞行器进行下降过程,需要采集图像并且判断是否符合降落要求。在对飞行器进行最终落地点的选择时,如果降落点复杂程度较高,采集的图像中将会产生大量的训练样本数目,图像配准过程中,极大地增加了运算量,造成最佳降落点选择的准确率降低。提出了利用图像智能识别进行最佳降落点的建模。利用伪Zemike矩能够对降落点的图像形状进行准确的描述,利用Procrustes形状分析法提取最佳降落点的特征,利用Rank的融合决策法最终实现最佳降落点选择的目的。
1.2人脸面部表情图像识别的隐马尔科夫建模
人有喜怒哀乐,目前有一种利用隐马尔科夫模型的建模方法,可以实现对人脸表情中的情感进行识别。具体的是:首先,采用子窗口对人脸面部表情图像进行采样,然后利用离散余弦变换提取所需要的特征向量,通过对人脸面部图像进行隐马尔科夫建模,使用获得的特征向量作为观测向量对人脸面部图像的隐马尔科夫模型进行训练,再使用训练后的隐马尔科夫模型对JAFFE人脸图像测试集中地人脸表情图像进行情感识别。
2.典型的图像识别算法
2.1 基于Gabor变换和极限学习机的贝类图像种类识别
对贝类图像进行Gabor变换,提取其图像特征,确定了图像特征维数;采用2DPCA方法,对变换后的特征进行降维,并利用极限学习机(ELM)进行贝类图像的分类识别。与BP神经网络和支持向量机(SVM)实验对比发现,极限学习机分类器用于贝类识别不仅速度极快而且泛化性良好,算法具有较高的精度。其特点对高维图像识别精确度高,但算法的复杂度和设计一个精确的分类器都显得难以把握。因此该类图像识别算法很难普遍推广使用,识别对象必须是贝类图像。
2.2 利用公开的全极化SAR数据,研究基于SAR图像的检测、极化分解和识别算法
首先根据四个线极化通道合成伪彩色图像,从而对场景进行初步认知。利用一维距离像分析全极化各通道的信噪比强度,通过对目标进行Pauli分解得到目标的奇次散射分量和偶次散射分量,从而完成对海杂波、建筑物和舰船的相干分量的研究。其特点过程简单易掌握,但识别对象有限。
2.3 基于SVM的离线图像目标分类算法
基于SVM的离线图像目标分类算法,先对训练集预处理,然后将处理后的图像进行梯度直方图提取最后对图像目标的分离器进行检测,但是这种图像识别算法只是有效,实用性不强。
3.深度学习在图像识别的应用
3.1 Deep learning的原理
深度学习是一种模拟人脑的思考方式,通过建立类似人脑的神经网络,实现对数据的分析,即按照人类的思维做出先关解释,形成方便人们理解的图像、文字或者声音。深度学习的重点是对模型的运用,模型中需要的参数是通过对大量数据的学习和分析中得到的。
深度学习有两种类型:有监督学习和无监督学习。学习模型根据学习框架的类型来确定。比如,卷积神经网络就是一种深度的监督学习下的机器学习模型,而深度置信网就是一种无监督学习下的机器学习模型。
3.2 深度学习的典型应用
深度学习是如今计算机领域中的一个夺人眼球的技术。而在深度学习的模型中研究热度最高的是卷积神经网络,它是一种能够实现大量图像识别任务的技术。卷积神经网络的核心思想是局部感受野、权值共享以及时间或空间亚采集。通常卷及神经网络使用最后一层全连接隐层的值作为对输入样本所提出的特征,通过外部数据进行的有监督学习,从而可以保证所得的特征具有较好的对类内变化的不变性。
3.2.1基于深度学习特征的人脸识别方法。
卷积神经网络在人脸识别领域取得了较大突破,为了更加有效的解决复杂类内变化条件下的小样本人脸识别问题,使用深度学习的方法来提取特征,与基于稀疏表示的方法结合起来,实验证明了深度学习所得的人脸特征具有很好的子空间特性,而且具有可迁移性以及对类内变化的不变性。
3.2.2基于深度学习的盲文识别方法。
目前盲文识别系统存在识别率不高、图片预处理较为复杂等问题。针对这些问题,利用深度模型堆叠去噪编码器自动、全面学习样本深层次特征,避免人为手工选取特征存在的多种弊端,并用学习的特征作为神经网络的输入,更大程度地避免了传统神经网络由于随机选取初值而导致结果陷入局部极值的问题。
3.2.3基于深度学习的手绘草图识别。
目前的手绘草图识别方法存在费时费力,较依赖于手工特征提取等问题。基于深度学习的手绘草图识别方法根据手绘草图时缺失颜色、纹理信息等特点,使用大尺寸的首层卷积核获得更多的空间结构信息,利用训练浅层模型获得的模型参数来初始化深度模型对应层的模型参数,以加快收敛,减少训练时长,加入不改变特征大小的卷基层来加深网络深度等方法实现减小错误率。
4.结论
图像识别是当代人工智能的热门研究方向,其应用领域也是超乎人类想象的,相信通过技术的不断创新,图像识别技术会给人们的生活带来智能化、个性化、全面化的服务。
参考文献:
[1]穆静,陈芳,王长元.人脸面部表情图像的隐马尔科夫建模及情感识别[J].西安:西安工业大学学报,2015(09).
[2]杨靖尧,里红杰,陶学恒.基于Gabor变换和极限学习机的贝类图像种类识别[J].大连工业大学学报,2013(04).
[3]马晓,张番栋,封举富.基于深度学习特征的稀疏表示的人脸识别方法[J].智能系统学报,2016(11).
篇5
关键词:无人机;STM32;道路检测;神经网络;模型训练
传统的道路巡检和保养主要由人工来完成,需要投入大量的人力物力来保证道路的相对安全,这种方式存在着低效率、高成本且难以保证道路的决定安全[1]。固定式交通检测设备大量设置在道路的主干路上,也存在着一些缺陷:(1)监控摄像头不能做到全覆盖且具有一定的探测盲区。(2)监控系统采用多屏幕方式,工作人员进行道路故障判断时受限。(3)不能灵活的通知有关部门对事故的快速应急处理。为了克服上述的缺点,本文设计了一种基于卷积神经网络的无人机道路巡检系统,对发生故障和需要保养的道路能快速响应,及时的通知有关部门,避免事故的发生。
1系统的总体设计
在无人机道路巡检系统中,我们主要考虑了以下几个要求[3]:(1)无人机系统能满足正常的工作;(2)无人机系统能适应各种天气和气候变化等;(3)无人机系统应充分考虑控制的安全性;(4)视频流的传输应避免较长的延时。无人机道路巡检系统主要由无人机系统设计、远程控制系统、PC端系统三大部分组成,系统的总体结构框图如图1所示。系统的具体工作原理为:无人机将道路环境检测的结果,将处理后的视频流通过远程传输的方式,发送到PC端进行实时监控道路状况。远程控制系统以STM32作为主控芯片,主要包括在无人机端和遥控端两个部分,遥控端将控制指令通过2.4G通信发送到无人机端,此时无人机的做出相应的位姿变化,完成遥控端对无人机位姿的控制。无人机系统的图像采集模块芯片为树莓派,完成图像的采集并采用TCP通信实现远程视频的传输,将获取的视频流传输到PC端。PC端上使用OpenCV对图像进行处理[4],利用深度学习模块对设计的神经网络进行数据训练,从而得到检测模型,最后在PC上接收处理过的数据并实时监测道路状况。上述工作原理可实现无人机道路巡检系统,下文将对其包括的三大模块进行说明介绍。
2无人机系统设计
本次使用的是RaspberryPi3(modelB+)作为无人机的主控制板[7],无人机的飞行控制算法和图像采集模块集成在树莓派中。远程控制系统通过2.4G无线通信模块连接,通过控制器实现对无人机飞行和图像采集的控制。无人机系统总体结构如图2所示。
3PC端系统设计
在PC端系统设计主要分为图像预处理、模型训练和视频监控三大部分,通过TCP通信协议进行通信,TCP通信是一种面向连接的通信,可完成客户端(树莓派)和服务端(PC)的信息传递[9]。下面主要对前两部分详细介绍。
3.1图像预处理
本系统对地面裂缝检测的图像预处理流程如图3所示具体工作原理为:(1)采用加权平均灰度化对获取的无人机影像进行灰度化处理;(2)对灰度化处理后的影像进行直方图均衡化,使得影像具有高对比度和多元的灰度色调变化,为后续的滤波降噪奠定基础;(3)对处理后的影像进行滤波降噪,消除孤立的噪声点,采用方法的是中值滤波降噪;(4)使用迭代二值化处理将影像的灰度值设置合适的阈值,使得图像更简单,目标更突出,然后对图像进行分割,计算迭代的阈值,判断迭代的阈值是否收敛到某一值或者达到限定的迭代次数,如果是的话,将完成二值化处理和滤波,否则将初始二值化阈值;(5)最终完成道路故障的识别与标记。
3.2模型检测
3.2.1卷积神经网络原理使用卷积神经网络进行模型训练,首先使用卷积层实现特征的提取,原理如图4所示。如图5所示,卷积操作是模仿神经元的机制。不同的输入在权重的影响下会有不同的输出,根据损失函数的计算来不断的更新权重,直到获得合理的权重参数。初始传递的信号为x,中间通过权重w,再经过偏置b后连接在末端,最后输出信号变成wx+b。fun(•)表示激活函数,最终f(z为输出的结果,如式(1)所示。3.2.2卷积神经网络训练流程通过相机采集到的缺陷和问题图像作为训练样本,这部分是检测道路安全的关键一步,(1)训练标记数据:首先使用图像预处理中标记好的道路故障提取出来,通过卷积神经网络对标记框内的目标数据进行训练;(2)提取特征数据:将道路故障的类型统计并归纳;(3)误差反馈学习:对测试样本进行误差反馈学习,并进行测试;(4)优化训练数据:根据实际应用场景增加图像的种类和数量,不断训练模型。3.2.3故障的基本分类道路故障主要路面缺陷(例如裂缝、残缺等)和路面增加(例如长时间静止的车辆和路人),各自训练集数量为1000张。如表1所示。3.2.4实验测试为实现故障的检测,测试数据集为100张,不同类型故障数据50张,均采集自新道路且与训练样本一致,实验结果如表2所示。由表2可知,检测路面增加(例如长时间静止的车辆和路人)的准确率高达96%,但是地面缺陷的准确率相比较而言略低,可能造成的原因是:①硬件原因导致采集的图像清晰度比较低;②地面缺陷太小,无人机难以识别;③训练的数据集较少,特征学习误差大;但是满足了设计需求,还需进一步改进。
4总结与展望
篇6
在AlphaGo赢得第一局的比赛时,就激起了人们热烈的讨论,因为很多从事人工智能研究的“技术派”也对电脑围棋程序战胜人类棋手没有足够的信心。但第一局的结果仍然让人震惊,因为在五个月前,AlphaGo的棋力水平也只是达到战胜职业二段棋手的程度,人们吃惊的是它的棋艺水平提高的速度。
与20年前深蓝在国际象棋人机大战中战胜世界冠军卡斯帕罗夫不同,AlphaGo并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是具有深度学习的能力,能在实战和练习中不断学习和积累经验,这已经非常类似于人类棋手的成长过程了,不过它成长的速度非常之快。
普通大众会认为,机器人获胜是因为它内部存储有极为丰富的棋谱,以及很多一流棋手的经验,再配合它强大的逻辑判断能力,是一群人对一个人的战斗,是机器计算对人脑计算的碾轧,结果是必然的。这样的归纳未免有些草率和简单,完全无视机器学习在程序中的作用。
机器学习(Machine Learning,ML)是一种让计算机在事先没有明确的程序的情况下做出正确反应的能力,是计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的一种方法,是人工智能的核心,也是使计算机具有智能的根本途径。但是它仍然主要是使用归纳、综合而不是演绎的方式来进行学习。
早在1959年,塞缪尔的下棋程序就具有了学习能力,能在不断对弈中改善自己的棋艺。这个程序已经涉及到了关于学习的令人头疼的哲学问题,此后就有各种各样的棋类程序诞生,演绎出一个又一个电脑程序战胜人类棋手的传说,不断刷新博弈难度的记录。
而围棋,因为棋盘的复杂性(大约10的172次方种状态,是计算机不可能穷尽的天文数字),则被看作是“人类智力的最后防线”,是仅存的人类能够击败电脑的完全信息博弈游戏。AlphaGo的获胜,宣告了机器学习的重大突破。
AlphaGo是一套为围棋优化的深度学习引擎,它使用了神经网络和蒙特卡罗算法,可以让机器充分学习,并能在不断自我对决中提升水平。
深度学习(Deep Learning)的概念在10年前就已提出,又叫深层神经网络(Deep Neural Networks),是机器学习研究中的一个新领域,通过建立模拟人脑进行分析学习的神经网络,模仿人脑机制来解释数据。深度学习提出了一种让计算机自动学习出模式特征的方法,有深度置信网络、卷积神经网络等不同的机器学习模型,但都需要大量的并行计算。非监督贪心逐层训练算法可以解决深层结构相关的优化难题,卷积神经网络可以利用空间相对关系减少参数数目以提高训练性能,这些特点正适合用于复杂的博弈程序。
但是,在具有不确定性的对决中,即使深度学习也发挥不了作用,无法帮助程序来确定对手的状态。
篇7
关键词:人机大战;人工智能;发展前景
中图分类号:TP391 文献标识码:A
0.引言
2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。
这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:
(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。
(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。
简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。
1.人工智能的发展历程
AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。
孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。
形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。
暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。
知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。
集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。
人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。
2.人工智能l展现状与前景
人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。
自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。
自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。
当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。
机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。
机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。
无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。
机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。
人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。
在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。
3.人工智能的发展前景
总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。
人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。
人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。
参考文献
[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.
篇8
人工智能、大数据、光纤网络等技术的发展和改进,人类社会已经进入到了“互联网+”时代,有力的促进了信息化系统的普及和使用,比如证券交易所开发了结算交易系统,政府机关开发了电子政务系统,旅游景区开发了旅游住宿管理系统等,提高了行业智能化、自动化和共享化水平。互联网虽然为人们带来了极大的方便,提高了各行业的信息化水平,但是其也面临着海量的安全攻击威胁,比如数以万计的病毒或木马,都给互联网的应用带来了极大的障碍。目前,网络中流行的攻击包括病毒木马、DDOS攻击等,这些病毒木马常常发生各类型的变异,比如2018年初爆发的勒索病毒,攻击了很多政企单位的服务器,导致终端操作系统无法登录和访问,传统的防火墙、杀毒软件等网络安全防御软件已经无法满足需求,需要引入大数据技术,以便能够将被动防御技术改进为主动防御技术,及时的查处网络中的病毒或木马,从而可以提高互联网防御水平。
1.网络安全防御现状研究
网络安全防御经过多年的研究,已经吸引了很多的学者和企业开发先进的防御技术,比如360安全卫士、访问控制列表、防火墙等,同时还提出了一些更加先进的深度包过滤和自治网络等防御技术,这些技术均由许多的网络安全防御学者、专家和企业进行研究提出,已经在网络中部署喝应用,一定程度上提高了网络防御水平。(1)防火墙防火墙是一种部署于因特网和局域网之间防御工具,其类似一个过滤器,可以不熟一些过滤规则,从而可以让正常的数据通过防火墙,也可以阻止携带病毒或木马的数据通过防火墙,防火墙经过多年的部署,已经诞生了数据库防火墙、网络防火墙、服务器防火墙等,使用枚举规则禁止查看每一个协议是否正常,能够防御一定的病毒或木马。(2)杀毒软件杀毒软件也是一个非常关键的程序代码,可以在杀毒软件系统的服务器中保存检测出的病毒或木马基因特征片段,将这些片段可以与网络中的数据信息进行匹配,从而可以查找网络中的病毒或木马,及时的将其从网络中清除。杀毒软件为了能够准确的识别病毒,目前引入了许多的先进技术,这些技术包括脱壳技术、自我保护技术等,同时目前也吸引了更多的网络安全防御公司研究杀毒软件,最为著名的软件厂商包括360、瑞星、江民、卡巴斯基等,同时腾讯公司、搜狗公司也开发了自己的安全管理技术,大大的提高网络防御能力。(3)访问控制列表访问控制列表是一个易于配置、安装简单和管理容易的网络安全防御工具,设置了黑白两个关键名单,白名单收录了安全数据源IP地址,黑名单收录了非法的数据源IP地址。访问控制列表已经可以在四个层次配置防御策略,分别是目录及控制级、入网访问控制级、属性控制级和权限控制级。访问控制列表级别越高访问性能越好,但是工作效率非常慢,不能够实时升级访问控制列表,因此应用的场所比较简单,一般都是不重要的中小学实验室等,许多大型政企单位都不用这个防御措施。(4)深度包过滤深度包过滤能够嵌入到硬件中形成一个固件,这样就可以快速的采集网络中的数据,然后利用深度包过滤的枚举检查规则,不仅检查数据包的头部IP地址、目的IP地址,还检查数据包中的内容,以便能够深入到数据包内部检查是否存在病毒或木马,一旦发现就可以启动防御软件。深度包过滤可以实施穿透式检查规则,分析每一个协议字段,深入到内部检查的更加详细和全面,从而避免病毒或木马隐藏在数据包内部,因此深度包过滤已经在很多领域得到应用,比如阿里云、腾讯云、百度云等都采用了这些技术,许多的政企单位也采用了深度包过滤技术,进一步提高了数据防御水平。(5)自治网络自治网络作为一种先进的互联网安全防御技术,其采用了自动愈合的建设理念,在网络中构建了一个冗余策略,一旦网络受到病毒或木马的攻击,此时自治网络就可以将这些一部分网络设备隔离,同时形成一个新传输通道为网络设备提供连接,知道数据修复完毕之后才能够将这些网络拓扑结构纳入到网络中。自治网络可以实现自我防御,也可以调动网络信息安全的许多的资源,将网络病毒导入备用服务器,此时就可以杀灭这些病毒。
2.基于大数据的网络安全防御系统设计
网络安全防御系统集成了很多先进的技术,尤其是快速的数据采集和大数据分析技术,能够将传统的被动网络安全防御模式转变为主动,提高网络安全防御性能。本文结合传统的网络安全防御功能及引入的大数据技术,给出了网络安全防御系统的主要功能,这些功能包括四个关键方面,分别是数据采集功能、大数据图1基于大数据的网络安全防御系统功能分析功能、网络安全防御功能和防御效果评估功能。(1)网络数据采集功能目前,人们已经进入到了“互联网+”时代,网络部署的软硬件资源非常多,访问的用户频次数以亿计,因此网络安全防御首先需要构建一个强大的数据采集功能,可以及时的采集网络中的软硬件数据资源,将这些网络数据发送给大数据分析功能。网络数据采集过程中可以引入深度包过滤功能,利用这个深度包过滤可以快速的采集网络数据,提高网络数据采集速度。(2)大数据分析和处理功能网络数据采集完毕之后,系统将数据发送给大数据分析和处理模块,该模块中包含了很多的病毒基因片段或特征,可以针对网络数据进行智能分析,将预处理后的网络数据与学习到的特征进行对比,以便能够发现这些数据信息中是否潜藏着木马或病毒,发现之后及时的将其发送给安全防御模块。(3)网络安全防御功能网络安全防御与传统的防御技术一致,采用木马或病毒查杀软件,因此一旦发现网络中存在病毒或木马,此时就可以启动网络安全防御工具,及时的将网络中的病毒或木马杀灭,并且可以跟踪病毒或木马来源,从而可以锁定源头服务器,将源头清除掉。如果源头涉及到犯罪就可以获取这些证据,同时将这些证据发送给公安机关进行侦破。(4)防御效果评估功能网络安全防御功能完成之后,系统可以针对处理效果进行评估,从而可以获取网络系统中的杀毒信息,将这些网络病毒消灭,避免网络中的病毒或木马复发。网络安全防御效果评估之后,还可以跟踪大数据分析的准确度,一旦准确度降低就可以及时进行学习,从而提高网络安全防御性能。大数据是一种非常关键的数据处理和分析技术,可以利用多种算法,比如BP神经网络算法、支持向量机、深度学习、K-means算法等挖掘数据中潜在的知识,这些知识对人们是有价值的,能够帮助人们进行决策。本文为了能够更好的展示互联网应用性能,重点描述了深度学习算法分析互联网安全数据过程。深度学习算法是一种多层次的卷积神经网络,包括两个非常关键的层次结构,一个是卷积层称为病毒数据特征提取层,一个卷积层为病毒数据特征映射层,可以识别病毒数据中的特征数据,同时将池化层进行处理,压缩和处理池化层数据信息,比如进行预处理、二值化等,删除病毒数据中的一些明显的噪声特征。池化层可以将海量的病毒数据进行压缩,减少卷积神经网络分析时设置的参数,解决卷积神经网络学习和训练时容易产生的过度拟合问题,避免病毒识别模型陷入到一个过度拟合状态,避免无法提高病毒识别能力,还会提升病毒识别处理开销。全连接层就是一个关键分类器,可以将学习到的病毒知识标记到一个特征空间,这样就可以提高病毒识别结果的可解释性。卷积神经网络通过学习和训练之后,其可以形成一个动态优化的网络结构,这个结构可以在一定时期内保持不变,能够实现病毒特征的识别、分析,为病毒识别提供一个准确的结果。
篇9
关键词:边缘检测;边缘;梯度算子
中图分类号:TP391
边缘检测是图像处理中最基本最经典的技术问题之一,它对于图像分析和图像理解有着重要作用。因此,边缘检测在模式识别等高层次图像处理领域有着重要的地位。然而由于图像前期处理过程中的失误易造成图像的模糊和变形使得边缘检测很困难,这就要求研究性能更好的边缘检测算子。经过多年的发展,到现在算法已有成百上千种。
边缘为图像中灰度发生急剧变化的区域边界,两个具有不同灰度值的相邻区域之间总存在着边缘,可以利用微分运算方便地检测到。人们提出了用图像灰度分布的梯度来反映图像灰度变化的微分边缘算子,如1965年提出的Robert算子[1],在其基础上改进得到的Sobel算子、Prewitt算子和Kirsch算子等。这些算子由于计算量小和操作简单在当今使用较多,但易产生较宽的响应,故需作细化处理,影响了边缘定位的精度。因而又产生了与边缘方向无关的二阶微分边缘检测算子,即Laplacian算子[2]。它利用图像强度的二阶导数零交叉点使边缘的定位更准确。
近年来随着应用的需要,传统方法越来越难以满足要求。针对这种情况,人们提出了许多新的边缘检测方法。这些新的方法利用各种新的理论工具对图像进行边缘检测,例如基于数学形态学的检测技术,借助统计学方法的检测技术[4]、利用神经网络的检测技术[5]、利用模糊理论的检测技术[6]、利用信息论的检测技术[7]、利用遗传算法的检测技术等得到了兴起与发展,表现异常活跃。
由于实际图像中含有噪声和物理和光照等原因,利用一种边缘检测算子不可能有效的检测出这些边缘,当需要提取多空间范围内的变化特性时,要考虑多算子的综合应用。因此,传统的边缘检测算法检测效果并不理想。
1 边缘检测的步骤
1.1 边缘检测的步骤
(1)滤波:边缘和噪声同属于图像中强度剧烈变化部位,因此噪声对边缘检测有很大的影响,于是有必要使用滤波器来改善边缘检测算子的性能。
(2)增强:增强边缘的原理是确定图像各点邻域强度的变化值。增强算法可以将邻域灰度值有显著变化的点突显出来。
(3)检测:在图像中,有许多点的梯度幅值比较大,而这些点并不都是边缘,所以需要确定哪些点是真正的边缘点。最简单的办法是利用梯度幅值的阈值作为判据。
(4)定位:边缘定位即精确的确定边缘点的具置。
图像边缘检测的基本步骤如图1所示:
1.2 边缘检测要求
对于图像的边缘检测来说,一般在检测过程中出现各种各样的情况,导致误差的出现。因此,对边缘检测有如下的要求:
(1)漏检率与误检率较少。
(2)边缘定位较准确。
(3)对于每一个边缘只有一个响应。
2 经典边缘检测算法
2.1 经典边缘检测的基本算法
一阶微分算子是通过梯度算子或一阶导数算子估计图像灰度变化的梯度方向,增强图像中的灰度变化区域,然后将梯度值与给定的阈值进行比较来确定具体的边缘。
对于连续函数 ,它在点 处的x方向,y方向和 方向的一阶方向导数为:
它在点 处的梯度是一个矢量,即
梯度幅值为:
梯度方向角为:
基于上述理论人们提出了许多经典算子的,如Sobel算子、Roberts算子、Prewitt算子等。但在实际应用中,常常以图像的一阶差分运算代替图像的一阶微分运算。所有这些基于梯度的边缘检测算法主要有两点区别:1)边缘检测算子的方向。2)在同一方向上近似图像一阶导数合成梯度算子的方式。
2.1.1 Sobel算子
Sobel是一种将方向差分运算与局部平均相结合的边缘检测方法。它计算一个图像强度的梯度近似值。该算子是在以(x,y)为中心的3 3邻域上计算 的偏导数。为了抑制噪声,给它的中心点加一个权重,则它的数字梯度近似等于下式:
梯度大小为:
它的卷积模板算子如下:
用以上模板与图像进行卷积运算后,按照式9可以求出图像的梯度幅度值g(x,y),然后选择适当的阈值T,如果在(x,y)处g(x,y)>T,则此点为边缘点;否则为非边缘点。
在较小的邻域范围内,Sobel算子比较理想,受噪声的影响比较小。当使用到大的邻域时,抗噪声特性会更好,但计算量会增加,得出的边缘较粗。因为局部平均计算的原因,易产生误检,造成边缘定位精度不够高。因此,Sobel算子在精度要求不高的情况下,是一种不错的边缘检测算法。Sobel算子对噪声具有平滑作用,提供较为精确的边缘方向信息。如果它与其他的算法相结合可能会达到更好的检测效果。
2.1.2 Canny算子
Canny边缘检测方法是通过计算图像像素点的梯度,根据局部极值来获得边缘信息的方法。1986年,Canny通过对过去一系列边缘检测算子的方法和应用,进行总结分析,用数学的形式推导出最优边缘检测算子。Canny认为一个良好的边缘检测算法应满足以下几点要求:
(1)定位能力好。检测出的边缘点尽可能落在实际图像边缘的中心。
(2)优良的检测性能。误检和漏检的概率小。
(3)单一响应。尽可能减少虚假边缘的响应和多个响应的发生,最好是单一边缘只产生一个响应。
Canny边缘检测算法主要步骤:
第一步:平滑。使用高斯函数对待检测图像进行平滑滤波处理,得到平滑图像。
第二步:计算平滑图像中每个像素点的局部梯度幅度值和边缘方向。
第三步:对梯度进行非极大值抑制。在梯度幅度的集合图像中,在边缘强度的极大值附近会产生屋脊带。为了细化边缘,寻找梯度幅值图像中极大值的点,并将所有非极大值的像素设为零。
第四步:得到图像边缘信息。给定两个阈值T1和T2,T1
Canny边缘检测算子的缺点与改进:1)高斯滤波对于某些特定的噪声效果不是很好,还有待改进,提供性能更好的自适应去噪方法。2)双阀值的参数是人为设定,不能根据图像的边缘特征来确定的,有可能对噪声的抑制不是很好,同时也可能丢失边缘信息,导致边缘检测效果是很理想,即对于不同的图像不具有自适应性。因此,有必要根据图像的特征自适应确定图像的阀值来达到理想的检测效果。3)在多角度上计算梯度。
3 基于形态学边缘检测
设g(x,y)为输入图像,E(x,y)表示图像的边缘函数,f(x,y)为检测算子。形态学中的膨胀会缩小图像的背景区域,扩张图像的目标区域;而腐蚀恰恰相反,它会扩张背景区域,缩小目标区域。根据这样性质,可以构造图像的边缘检测算子如下:
灰度膨胀运算表示: (11)
同理灰度腐蚀运算表示: (12)
那么膨胀腐蚀型边缘检测算子可如下表示:
由以上的操作运算,我们知道膨胀运算会使图像边缘变的模糊,腐蚀运算会使图像边缘信息损失一些细节信息。为了避免上述情况,对上述算子加以修改:
边缘算子修正为:
边缘算子改进以后,添加了一些原图像边缘信息,也可能添加了一些噪声。
4 神经网络边缘检测算法
为了检测有256灰度值的灰度图像的边缘,可以考虑一个类似BP神经网络[3][9]的模型,该模型由8个子BP神经网络组成,每一个子网络可以检测2值图像的边缘。每一个子BP神经网络对应灰度图像的一个位平面。每个神经网络的输出会根据每个位平面的权重做调整。8个位平面的权重依次为1/256、2/256、4/256、8/256、16/256、32/256、64/256、128/256。通过类似的模型,可以很精确的检测出灰度图像的边缘。结构如图2所示:
5 总结
边缘检测是图像处理领域中最基本的问题,也是图像处理其他工作的基础。如何准确、快速地进行边缘检测一直是图像处理领域的热点。一个边缘检测算法的好坏主要体现在能否做到以下两点:一是正确地检测出所有边缘并不出现伪边缘;二是尽可能地抑制噪声对图像的影响,即去噪能力。通过上面的分析可知,前人提出的很多经典算法,比如微分算子法,BP神经网络算法,基于形态学的检测算法,基于关联规则的检测算法[8]等,对于现在边缘检测的要求而言,其效果都不是特别理想。这就需要我们寻找更好的算法,其研究更多的向多尺度、多领域、多方法融合的方向发展。
参考文献:
[1]冈萨雷斯.数字图像处理[M].北京:电子工业出版社,2007:467-471.
[2]孙即祥.数字图像处理[M].河北出版社,1993.
[3]Weiqing Li,Chengbiao Wang,Qun Wang,Guangshe Chen,An Edge Detection Method Based on Optimized BP Neural Network. ? 2008 IEEE DOI 10.1109/ISISE.2008,310.
[4]S.Konishi,A.Yuille and J.Coughlan.A statistical approach to multi-scale edge detection.Image and Vision Computing,2003,21:37-485.
[5]S.C.Douglas,T.H.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
[6]D.S.Kim,W.H.Lee and I.S.Kweon.Automatic edge detection using 3*3 ideal binary pixel patterns and fuzzy-based edge thresholding.Pattern Recognition Letters,2004,25:101-106.
[7]Q.Tian,X.Li and N.M.Bilgutay.Multiple Target Detection Using Split Spectrum Processing and Group Delay Moving Entropy.IEEE Trans.On UFFC,1995,42(6):1075-1886.
[8]洪俊田,陶剑锋,李刚.基于灰色关联的数字图像去噪研究[J].武汉理工大学学报,2006,2:15-17.
[9[S.C.Douglas.TH.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
篇10
关键词:视觉注意;自顶向下;显著性;对象信息;卷积神经网
中图分类号:TP391.41
文献标志码:A
文章编号:1001-9081(2016)11-3217-05
0 引言
视觉注意机制的研究是探索人眼视觉感知的重要一环。在过去几十年中,如何用计算模型模拟人眼视觉注意过程一直是核心问题。尽管取得了很大的进步,但是快速准确地在自然场景中预测人眼视觉注意区域仍然具有很高的挑战性。显著性是视觉注意的一项重要研究内容,它反映了区域受关注的程度。本文的研究着眼于显著性计算模型,更多模型对比和模型分类可以参考Borji等[1]的文章。视觉注意存在两种机制:自底向上(Bottom-up)和自顶向下(Top-down)。过去的研究中,大多数的计算模型是基于自底向上的信息,即直接从图像像素获取特征。
自底向上显著性计算模型开创性工作源自于文献[2]的Itti模型,该模型是很多其他模型的基础和对照基准,它通过整合多种低层次特征,如颜色、亮度、方向等,给出一个显著度的概率分布图。Harel等[3]在Itti模型的基础上引入图算法,通过计算节点间特征值相似性和空间位置距离进行差异性度量获取显著图。近年来随着深度学习技术在目标识别领域的成功应用[4],研究者们对特征学习产生了更多的兴趣。Borji等[5]通过稀疏编码方法获取特征,使用图像块的稀疏表示结合局部和全局统计特性计算图像块的稀有性(rarity),稀有性反映了当前图像块中心位置的显著性。Vig等[6]通过训练多个神经网络获取层次特征,然后自动优化特征组合。特征提取的过程可以看作是一种隐式空间映射,在映射空间中使用简单的线性模型进行显著或非显著的分类。以上学习方法获得的特征都是一些低层次特征,对图像中的边缘和特定纹理结构敏感。此外,部分研究人员希望从数学统计和信号处理的角度来度量显著性。Bruce等[7]根据最大化信息采样的原则构建显著性模型。Li等[8]总结了多种基于频域的视觉注意研究工作,提出了一种基于超复数傅里叶变换(Hypercomplex Fourier Transform)的视觉注意模型,并展示了其他多种基于频域的模型在某种程度上都是此模型的特例。
以上模型均为数据驱动的显著性模型,模拟人眼视觉注意过程中自底向上的机制。由于人眼视觉注意过程中不可避免地受到知识、任务、经验、情感等因素的影响,因而整合自底向上和自顶向下信息的视觉注意研究受到更多的关注。现有模型整合的自顶向下信息可以分为三类:任务需求、场景上下文和对象特征。
Borji等[9]提出了一种构建任务驱动的视觉注意模型的联合贝叶斯方法。Zhang等[10]提出了一种使用贝叶斯框架整合自底向上和自顶向下显著性信息的方法。Siagian等[11]利用多种低层次特征对场景主旨进行建模,使用场景主旨引导视觉注意的转移。考虑到任务需求和场景上下文建模的复杂性,研究人员将对象特征视为一种高层次的知识表示形式引入视觉注意模型中。Judd等[12]和Zhao等[13]通过将低层次特征和对象特征整合在一个学习框架下来获得特征整合过程中每张特征图的叠加权重,但是模型使用的对象特征只有人脸、行人、车辆等有限的几种。Borji等[14]遵循了同样的方法,但是在整合过程中添加了更多特征并且结合了其他显著性模型的结果,最后用回归、支撑向量机(Support Vector Machine, SVM)、 AdaBoost等多种机器学习算法结合眼动跟踪数据进行训练。实验结果表明对象特征引入较大地提高了模型性能。Xu等[15]将特征划分为像素级、对象级和语义级三个层次,并重点探索对象信息和语义属性对视觉注意的作用;然而,模型中的对象级和语义级特征是手工标定的,因而不是一种完全意义上的计算模型。
总的来看,虽然部分模型已经使用对象特征作为自顶向下的引导信息,但是在对象特征的获取和整合上仍有很大的局限性。首先,对不包含特定对象的场景适应性较差;其次,对象特征描述困难,通常是通过特定目标检测方法获取对象特征,计算效率低下;此外,对象特征的简单整合方式不符合人眼的视觉感知机制。本文提出了一种结合深度学习获取对象特征的视觉注意计算模型,重点研究了对象级特征的获取和整合方法。算法结构如1所示,其中像素级突出图获取采用现有视觉注意模型的方法,对象级突出图获取采用本文提出的基于卷积神经网(Convolutional Neural Network, CNN)的特征学习和基于线性回归的特征整合方法。实验结果表明,对象级特征的引入可以明显提高显著性预测精度,预测结果更符合人类视觉注意效果。
1 对象信息获取
1.1 对象特征
大量实验证据表明对象特征引导视觉注意的转移。视觉注意中引入对象特征是为了获得图像中对象位置等信息,目的与计算机视觉中的目标检测类似。因而,已有的视觉注意计算模型的对象特征通常是通过特定目标检测方法获得。其中,Viola&Jones人脸检测和Felzenszwalb车辆行人检测是最常用的方法。文献[12-14]均使用此类方法引入对象特征。由于这一类特征针对特定对象样本进行设计和训练,因而推广能力不强。
li=fixations(obji)area(obji)(3)
其中: fixations()表示落入当前对象区域的正样本的数目;area()表示对象区域面积。li衡量当前对象单位面积受关注的程度,对象单位面积受关注程度越高,其在对象整合过程中的权重应越高,因而li与叠加权重成正比。
式(4)通过一个线性回归模型对已有样本数据进行训练,获得对象整合叠加权重W:
L=WF(4)
其中:F={F1,F2,…,FN}为训练样本数据集合;L={l1,l2,…,lN}为训练样本标签集合。
测试时根据式(5)~(6)获得对象级突出图:
3 显著图生成
视觉注意是自底向上和自顶向下两种机制作用的结果。完全使用自顶向下的对象特征进行显著区域预测有一定缺陷,主要表现在以下几个方面:首先,知识是对训练样本数据的抽象表示,由于神经网络的规模和训练样本中对象种类的限制,场景中部分对象对应的特征没有被抽象在网络结构中;其次,部分不具有明确语义的区域被错误地认为是对象,对视觉注意形成错误的引导;另外,人眼视觉注意转移的生理学机制并不清楚,兴趣区可能落在不具有对象特征区域中。因此,使用像素级特征给出低层次显著性信息是必要的。
视觉注意模型中常用的像素级特征有颜色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多种像素级特征获取像素级突出图Spixel。式(7)给出了整合的方法:
其中:S(i, j)为最终给出的视觉注意显著图;N()为归一化操作;λ控制对象级突出图与像素级突出图的相对权重,通过实验分析可知λ=0.4时效果较好。当图像中不存在显著物体或无法获得高置信度的对象信息时,图像任意位置Sobj(i, j)=0,此时完全由像素级特征驱动的视觉注意引导。
4 实验结果及分析
本次实验是以Visual Studio 2012为实验平台,选取OSIE和MIT数据集作为实验数据。OSIE数据集包含700张含有一个或多个明显语义对象的图片以及15名受试者的眼动跟踪数据,此外该数据集还提供了语义对象统计及人工标注的精确对象区域。MIT数据集包含1003张自然场景图片以及15名受试者的眼动跟踪数据。这两个数据集是当前视觉注意研究领域中较大的数据集。为了验证本文方法的准确率,将本文算法与GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等视觉注意方法进行对比。
对比实验中使用的评价指标为ROC(Receiver Operating Characteristic)曲线,实现方法与文献[12,15]相同。图6~8为实验对比结果,显著区域百分比是通过对归一化显著图作阈值处理获得,真正率(True Positive Rate)反映当前落入显著区域的样本占所有样本的比例。通过变化显著区域百分比获得ROC曲线。为了更直观比较算法效果,实验结果图中标注了每种算法的AUC(Area Under Curve)值,AUC值通过计算ROC曲线下的面积获得。AUC值越大表示该方法给出的显著性预测结果越准确。
图6为利用对象级突出图作为显著图在OSIE数据集上的实验结果。相对于RCNN算法, fasterRCNN算法使用了更深层次的网络结构和更多对象类别的训练样本,具有较高的对象位置预测准确率和对象检出率。实验分析可以看出,使用fasterRCNN算法生成对象级突出图可以更好进行显著性预测。同时,人脸特征(FACE)的引入进一步提升了预测准确性,从一个侧面说明了对象性信息对视觉注意的转移具有引导作用。
图7是多种视觉注意算法在OSIE数据集上的ROC曲线,可以看出本文方法实验效果明显好于其他算法。仅次于本文算法的是GBVS和Judd,Itti的准确率较差。图中对象级特征曲线为使用fasterRCNN结合人脸特征生成对象级突出图获得,由于该方法完全使用自顶向下的对象特征,显著性预测准确率明显弱于其他方法,因而证明了引入像素级特征必要性。图8为MIT数据集上的实验结果,本文方法和Judd算法为最好的两种方法,实验结果相差不大。AIM和LG方法效果较差。本文方法和Judd方法均使用了对象特征,可以看出整合了对象特征的方法相对于完全自底向上模型有明显优势。
图9中给出了多种算法显著图的直观对比。与其他方法强调对象边缘不同,本文结合了对象信息的方法可以有效突出图像中的完整对象区域。
5 结语
本文提出一种结合对象信息的视觉注意方法。与传统的视觉注意整合对象方法相比,该方法利用卷积神经网学到的对象特征,获取图像中对象位置等信息;然后通过一个线性回归模型将同一幅图像的多个对象加权整合,获得对象级突出图;最后,根据视觉注意的层次整合机制,将低层次特征和对象特征进行融合形成最终的显著图。本文方法在不同数据集上的准确率要高于现有模型。针对包含明显对象的图像,本文方法克服了部分现有模型由于边缘强化效果导致的显著区域预测不准的问题。本文方法仍然存在一定局限性,未来的工作将尝试非线性对象整合以及增大训练样本数量和网络规模以获取更多种对象特征。
参考文献:
- 上一篇:家庭与社区教育
- 下一篇:老旧小区初步设计方案