卷积神经网络的改进范文
时间:2024-04-01 11:31:22
导语:如何才能写好一篇卷积神经网络的改进,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
【关键词】深度学习 卷积神经网络 权值共享 下采样 R-CNN Fast-R-CNN
1 绪论
随着电子信息技术的快速发展,芯片的设计与生产进入了纳米时代,计算机的计算能力与计算速度得到了空前的提高,但是人们的需求是无限的,要求计算机能更加任性化的服务于我们的生活,这也就要求计算机本身能像人一样识别与感知周围的环境,并对复杂的环境做出正确的判断。而图片信息是我们周围环境最直观的,最容易获取的信息,要求计算机能对为的环境做出识别与判断也就要求计算机能够智能的识别图像信息。深度学习是机器学习中的一个新的研究领域。通过深度学习的方法构建深度网络来抽取目标特征进而识别周围的环境。卷积神经网络对图像的处理具有平移,旋转,扭曲不变的优良特性。在处理图像是更加快捷和便利。卷积神经网络使得计算机在感知识别周围环境的能力有了巨大的提升,使得计算机更加智能。卷积神经网络拥有强大的特征提取能力,使得其在图像分类识别,目标跟踪等领域有着强大的运用。
1.1 国内外研究现状
1986年,Rumelhart和Mc Celland提出BP算法。BP算法反向传导神经网络输出误差进行训练神经网络。通过BP算法,神经网络能够从大量训练数据中的学习到相关统计信息,学习到的数据统计信息能够反映关于输入-输出数据模型的函数映射关系。
自2006年以来,Geoffery Hinton教授提出深度信念网络。从此深度学习在学术界持续升温。深度学习不仅改变着传统的机器学习方法,也影响着我们对人类感知的理解,迄今已在语音识别和图像理解等应用领域引起了突破性的变革。各种相关的算法和模型都取得了重要的突破,使得深度学习在图像分类,语音识别,自然语言处理等领域有广泛的运用。
2013年百度成立百度深度学习研究院以来我国的人工智能领域取得了长足的进步。在人工智能专家吴恩达的带领下,百度陆续推出一系列人工智能产品,无人驾驶技术,DuerOS语音交互计算平台,人脸识别技术,美乐医等优秀产品。此外Imagenet图像识别大赛中也诞生了一系列经典的神经网络结构,VGG,Fast-R-CNN,SPP-net等等,可以说人工智能技术在近几年得到了空前的发展。
2 深度学习概述
深度学习是机器学习的一个新方向,通过学习样本数据内在规律和深层特征深度,深度学习神经网络能够像人一样有分析和学的能力,尤其在文字处理,图像识别,语音等领域更加突出。能够自主学习一些新的东西。目前深度学习使用的典型技术是通过特征表达和分类器来进行目标识别等任务的。并在语音识别、图像处理、机器翻译等领域取得很多成果。
深度学习不同于以往的浅层学习,浅层学习模型值包含一个隐藏层,或者不存在隐藏层,深度学习则是由很多隐藏层组成的,上一层的输出作为下一层的输入,实验对输入信息进行分级表达。目前深度学习框架主要包含三种深度学习框架,如图1、2、3所示。
3 卷积神经网络
卷积神经网络的结构层次比传统的神经网络复杂,卷积神经网络包含大量的隐藏层,相邻的卷积核或者下采样核采用局部感受野全链接,神经元权值共享的规则,因此卷积神经网络训练参数的数量远比传统神经网络少,卷积神经网络在训练和前向测试的复杂度大幅度降低,同时也减少了神经网络训练参数过拟合的几率。卷积神经网络主要有两部分,分别是卷积核和下采样核。卷积核主要对上一层的图像进行卷积运算,提取图像特征,下采样核则是对上层的数据进行将为处理,减少神经网络的复杂度。
卷积神经网络中每一个神经元的输入与前一层的局部感受野相连,提取局部感受野的特征,比如图像的轮廓,颜色等特征,而这些特征不仅包括传统人类能理解的特征,也包括神经网络自身能够识别的特征,卷积核全职共享,因此这些特征提取与图像的位置无关。
图4是经典的LeNet5卷积神经网络架构,LeNet5架构中卷积核和下采样核交替出现,下采样核及时的将卷积核生成的特征向量进行降维,减少神经网络的运算量。LeNet5算法在1962年幼Hubel等人提出,在识别手写数字mnist中有极高的准确率。
4 R-CNN、Fast-R-CNN对比分析
卷积神经网络在对图像进行识别具有平移,旋转,扭曲不变的优良特性,并且能够实现高准确率识别图像,但是在现实生活运用中往往需要神经网络标记出目标的相对位置,这是传统卷积神经网络不具备的功能。因此在前人传统卷积神经网路基础上对卷积神经网络进行改进,产生了具有对图像中目标进行识别和定位的卷积神经网络R-CNN,Fast-R-CNN等改良算法。
4.1 R-CNN
R-CNN为Region Convoluntional Neural Network的缩写即对图像进行局部区域的卷积处理,其核心思想主要是利用候选区图像对物体探测中位置信息进行精确处理和利用监督式预训练和区域特殊化的微调方法,代替了传统的非监督式预训练和监督式微调。
在CNN中,全连接层输入是固定大小的,因此R-CNN用计算机视觉算法将每一张图片分割成1000-2000张的候选区图片后,要将这些候选区图片进行变换,生成固定大小的候选图片,在训练提取特征时一般采用经过预训练的模型参数进行finetuning,榱嗽黾友盗费本,模型在也将生成的候选框以及标定的标签作为训练样本进行训练。R-CNN采用SVMs分类器对特征向量进行分类,在训练SVMs时将候选框经过卷积神经网络提取的特征和SVM标定结果输入到SVMs分类器训练分类器模型。而在测试时将图像全部候选框经过卷积神经网络提取的特征输入到SVMs分类器中,得到每一类的评分结果。但是R-CNN在处理一张图片是要处理需要对一张图片1000-2000个候选区图像进行前向运算,保存所有后选取图片的特征值,要求计算硬件有大量的存储空间,同时处理每一张图片的时间也会增加。由于训练集庞大,本文采用hard negative mining method方法提高存储的利用率。
R-CNN的体现出了极大的优势,其中MAP也可以大幅度提高,但是正如本文上述,R-CNN计算的时间成本很大,达不到实时的计算效果,R-CNN在对候选区进行处理时会使得图像失真,部分信息丢失。
4.2 Fast-R-CNN
Fast-R-CNN则是再次改进的一种基于卷积神经网络目标跟踪定位算法。相比于R-CNN,Fast-R-CNN从单输入变为双输入,在全连接层后有了两个输出,引入了Rol层。
Fast-R-CNN在运行的时候同样会生成大量的候选区,同时将原始的图片用卷积神经网络进行特征提取,将原始图片提取的特征与生成的候选区坐标送入Rol层为每一个候选区生成一个固定大小的特征向量。最后将Rol生成的特征向量全连接层产生最终的LOSS。Fast-R-CNN中的LOSS采用多LOSS模式,SoftMax LOSS用于计算K+1分类的损失,K为第K个目标,1为背景;Regression LOSS计算候选区的四个角的坐标。
Fast-R-CNN在MAP上有了大幅度的提升,速度也得到了提升,但是在计算候选区是仍存在瓶颈,这也是限制Fast-R-CNN速度的因素。
5 实验测试
对于本文提出的卷积神经网络识别图像定位图像目标算法R-CNN,Fast-R-CNN,在本章给出实验结果。实验平台为基于Linux系统的debian8下运行caffe进行训练,采用显卡K620进行实验。
训练模型初始化参数在是服从高斯随机分布,R-CNN采用的网络结构如图7所示,Fast-R-CNN的网络结构如图8所示。
本次实现的训练样本为录制实验室视频数据,将视频数据转换成帧图片,对每张图片数据进行裁剪,裁剪后图像大小在256*256,共有500张,再将裁剪后的图片进行旋转,平移,扭曲,镜像,加噪声等处理,最后生成144万张样本图片,其中136.8万张图片作为训练样本,7.2万张作为测试样本。
6 总结
在目标识别定位领域,卷积神经网络具有强大的图像处理能力,对图像的识别定位具有很高度平移,旋转,扭曲不变形的优良性能。卷积神经网络架构R-CNN和Fast-R-CNN都有强大的图像处理能力。Fast-R-CNN在识别准确率上比R-CNN高。R-CNN算法复杂,对一张图片需要进行1000-2000次的卷积运算,特征重复提取。因此在训练和前向测试时,R-CNN用的时间长,不能很好的适用于处理实时图片数据,尤其视频数据。R-CNN在对每个候选区进行特征提取之后需要将提取的特征向量存入内存,降低训练测试时间的同时也需要耗费大量内存。因此从各方面分析可知,Fast-R-CNN性能优于R-CNN。
参考文献
[1]谢宝剑.基于卷积神经网络图像分类方法研究[D].合肥工业大学,2015.
[2]郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014(02):175-184.
[3]陈先昌.基于卷积神经网络的深度学习算法与运用研究[D].杭州:浙江工商大学,2006(04):603-617.
[4]李彦冬,郝宗波,雷航等.卷积神经网络研究综述[J].计算机应用,2016.
[5]Gibson.J J.The perception of the Visual World[J].Cambridge,England,1950.
[6]HORN B,SCHUNCK P.Determining optical flow[J].Artificial Intelligence, 1981,17:185-203.
[7]R.Girshick,J.Donahue,T. Darrell,and J.Malik,“Rich feature hierarchies for accurate object detection and semantic segmentation,”in CVPR,2014
[8]Ross Girshick,Wicrosoft Research. Fast R-CNN,.
[9]R.Girshick.Fast R-CNN. arXiv:1504.08083,2015.
篇2
以上文章都结合卷积神经网络模型对交通标志分类做了大量的研究,避免了复杂的人工特征提取算法的设计,研究结果具有一定的参考性。在现有卷积神经网络模型的启发下,以上文章都采用分类器。而训练分类器需要大量样本,因而在小样本数据下,采用分类器容易造成过拟合,降低网络的泛化性。同时,由于SVM分类器在小样本数据集上具有出色分类性能,本文提出一种基于卷积神经网络和多类SVM分类器[[4]的交通标志识别模型。此模型利用卷积神经网络强大的特征提取和泛化能力,使得算法在复杂环境中依然具有可靠的识别结果。 首先,本文通过迁移学习策略「51L61对AlexNet网络[7]特征提取部分进行微调,并将微调结果作为本文的特征提取器。然后将卷积神经网络提取的特征作为多类SVM分类器的输入。同时为了进一步防止过拟合现象的发生,本文在SVM分类器中加入dropout层,利用随机置零策略进行参数选择。最后,文章通过实验结果证实本文提出的分类模型相比于采用softmax分类器有更好的准确率、在复杂背景中具有较高的识别率和较强的鲁棒性棒。1卷积神经网络和SVM
1.1 AlexNet网络
AlexNet网络是著名的卷积分类网络,可成功实现对1000类别物体的分类。其结构可以分为特征提取器和分类器两部分。
特征提取器主要由卷积层、池化层、激活函数组成。卷积层由大小不同的卷积核组成,卷积核类似于传统视觉中的特征提取算子。但区别于传统视觉算子,卷积核参数由网络自己学习得到,可以提取图像从底层到高层的不同特征信息。池化层常连接在卷积层之后,一般常用最大池化操作。池化层可以加强网络对平移变化的鲁棒性。激活函数为网络引入非线性因素,使得网络可以逼近任意函数形式。
分类层主要由全连接层和多类逻辑回归函数组成。全连接层学习用合理的方式组合特征,可以看为函数映射。逻辑回归函数进行类别概率判别,逻辑回归判别见公式。同时,为了防止全连接层过拟合,AlexNet网络引入dropout层,dropout[9]采用随机置零的方式,防止神经元以特定的方式组合工作,从而防止深度网络的过拟合。p}Y}}}=j1二(‘);B)=艺 e醉x})丫‘eBTx}' }e' j代表类别,二(i)为输入,k代表类别总数,8,表示将样本x}')映射到j类的参数,B代表er,r=i,z,~… ,,组成的矩阵,p(少‘)=j}x(仍表示x}'}属于j类的概率。1.2标准SVM SVM是基于结构风险最小化理论的有监督学习算法,通过寻找最优分割超平面来实现分类[}10}。相比于神经网络,SVM在小样本数据集上也能表现出良好的分类效果,因而得到广泛使用。标准的SVM通过寻求公式(2)的最优解来找到最优超分割平面。minw,b含,,w,,(2)yc> (w·二(‘)+b) >_ 1,i=1, 2,……,m尹)代表第i个样本标签,x}'}代表第i个样本特,m为训练集大小。分类模型设计
本文提出的分类模型主要分为两部分,特征提取部分和多类SVM分类器。整体结构如图1所示。
图1中,特征提取器主要对输入图片进行特征提取和融合,最终得到图像的高阶特征并将提取到的信息特征送入多类SVM分类器。dropout层进行参数随机丢失步骤,此步骤通过随机失活神经元可有效防止过拟合的发生;然后结合不加正则化项的SVM算法进行分类,得到最终输出结果。
2.1特征提取器
篇3
过去10年,人们对机器学习的兴趣激增。几乎每天,你都可以在各种各样的计算机科学课程、行业会议、华尔街日报等等看到有关机器学习的讨论。在所有关于机器学习的讨论中,许多人把机器学习能做的事情和他们希望机器学习做的事情混为一谈。从根本上讲,机器学习是使用算法从原始数据中提取信息,并在某种类型的模型中表示这些信息。我们使用这个模型来推断还没有建模的其他数据。
神经网络是机器学习的一种模型,它们至少有50年历史了。神经网络的基本单元是节点(node),基本上是受哺乳动物大脑中的生物神经元启发。神经元之间的连接也以生物的大脑为模型,这些连接随着时间的推移而发展的方式是为“训练”。
在20世纪80年代中期和90年代初期,许多重要的架构进步都是在神经网络进行的。然而,为了得到好的结果需要大量时间和数据,这阻碍了神经网络的采用,因而人们的兴趣也减少了。在21世纪初,计算能力呈指数级增长,计算技术出现了“寒武纪大爆发”。在这个10年的爆炸式的计算增长中,深度学习成为这个领域的重要的竞争者,赢得了许多重要的机器学习竞赛。直到2017年,这种兴趣也还没有冷却下来;今天,我们看到一说机器学习,就不得不提深度学习。
作者本人也注册了Udacity的“Deep Learning”课程,这门课很好地介绍了深度学习的动机,以及从TensorFlow的复杂和/或大规模的数据集中学习的智能系统的设计。在课程项目中,我使用并开发了用于图像识别的卷积神经网络,用于自然语言处理的嵌入式神经网络,以及使用循环神经网络/长短期记忆的字符级文本生成。
本文中,作者总结了10个强大的深度学习方法,这是AI工程师可以应用于他们的机器学习问题的。首先,下面这张图直观地说明了人工智能、机器学习和深度学习三者之间的关系。
人工智能的领域很广泛,深度学习是机器学习领域的一个子集,机器学习又是人工智能的一个子领域。将深度学习网络与“经典的”前馈式多层网络区分开来的因素如下:
比以前的网络有更多的神经元更复杂的连接层的方法用于训练网络的计算机能力的“寒武纪大爆炸”自动特征提取
这里说的“更多的神经元”时,是指神经元的数量在逐年增加,以表达更复杂的模型。层(layers)也从多层网络中的每一层都完全连接,到在卷积神经网络中层之间连接局部的神经元,再到在循环神经网络中与同一神经元的循环连接(recurrent connections)。
深度学习可以被定义为具有大量参数和层的神经网络,包括以下四种基本网络结构:
无监督预训练网络卷积神经网络循环神经网络递归神经网络
在本文中,主要介绍后三种架构。基本上,卷积神经网络(CNN)是一个标准的神经网络,通过共享的权重在空间中扩展。CNN设计用于通过内部的卷积来识别图像,它可以看到图像中待识别的物体的边缘。循环神经网络(RNN)被设计用于识别序列,例如语音信号或文本。它的内部有循环,这意味着网络上有短的记忆。递归神经网络更像是一个层级网络,在这个网络中,输入必须以一种树的方式进行分层处理。下面的10种方法可以应用于所有这些架构。
1.反向传播
反向传播(Back-prop)是一种计算函数偏导数(或梯度)的方法,具有函数构成的形式(就像神经网络中)。当使用基于梯度的方法(梯度下降只是方法之一)解决优化问题时,你需要在每次迭代中计算函数梯度。
对于神经网络,目标函数具有组合的形式。如何计算梯度呢?有两种常用的方法:(i)解析微分(Analytic differentiation)。你已经知道函数的形式,只需要用链式法则(基本微积分)来计算导数。(ii)利用有限差分进行近似微分。这种方法在计算上很昂贵,因为函数值的数量是O(N),N指代参数的数量。不过,有限差分通常用于在调试时验证back-prop实现。
2.随机梯度下降法
一种直观理解梯度下降的方法是想象一条河流从山顶流下的路径。梯度下降的目标正是河流努力达到的目标——即,到达最底端(山脚)。
现在,如果山的地形是这样的,在到达最终目的地之前,河流不会完全停下来(这是山脚的最低点,那么这就是我们想要的理想情况。)在机器学习中,相当从初始点(山顶)开始,我们找到了解决方案的全局最小(或最佳)解。然而,可能因为地形的性质迫使河流的路径出现几个坑,这可能迫使河流陷入困境。在机器学习术语中,这些坑被称为局部极小值,这是不可取的。有很多方法可以解决这个问题。
因此,梯度下降很容易被困在局部极小值,这取决于地形的性质(用ML的术语来说是函数的性质)。但是,当你有一种特殊的地形时(形状像一个碗,用ML的术语来说,叫做凸函数),算法总是保证能找到最优解。凸函数对ML的优化来说总是好事,取决于函数的初始值,你可能会以不同的路径结束。同样地,取决于河流的速度(即,梯度下降算法的学习速率或步长),你可能以不同的方式到达最终目的地。这两个标准都会影响到你是否陷入坑里(局部极小值)。
3.学习率衰减
根据随机梯度下降的优化过程调整学习率(learning rate)可以提高性能并减少训练时间。有时这被称为学习率退火(learning rate annealing)或自适应学习率(adaptive learning rates)。训练过程中最简单,也是最常用的学习率适应是随着时间的推移而降低学习度。在训练过程开始时使用较大学习率具有进行大的改变的好处,然后降低学习率,使得后续对权重的训练更新更小。这具有早期快速学习好权重,后面进行微调的效果。
两种常用且易于使用的学习率衰减方法如下:
逐步降低学习率。在特定的时间点较大地降低学习率。
4 . Dropout
具有大量参数的深度神经网络是非常强大的机器学习系统。然而,过拟合在这样的网络中是一个严重的问题。大型网络的使用也很缓慢,这使得在测试时将许多不同的大型神经网络的预测结合起来变得困难。Dropout是解决这个问题的一种方法。
Dropout的关键想法是在训练过程中随机地从神经网络中把一些units(以及它们的连接)从神经网络中删除。这样可以防止单元过度适应。在训练过程中,从一个指数级的不同的“稀疏”网络中删除一些样本。在测试时,通过简单地使用一个具有较小权重的单一网络,可以很容易地估计所有这些“变瘦”了的网络的平均预测效果。这显著减少了过拟合,相比其他正则化方法有了很大改进。研究表明,在视觉、语音识别、文档分类和计算生物学等监督学习任务中,神经网络的表现有所提高,在许多基准数据集上获得了state-of-the-art的结果。
5. Max Pooling
最大池化(Max pooling)是一个基于样本的离散化过程。目标是对输入表示(图像,隐藏层输出矩阵等)进行下采样,降低其维度,并允许对包含在分区域中的特征进行假设。
这在一定程度上是为了通过提供一种抽象的表示形式来帮助过拟合。同时,它通过减少学习的参数数量,并为内部表示提供基本的平移不变性(translation invariance),从而减少计算成本。最大池化是通过将一个最大过滤器应用于通常不重叠的初始表示的子区域来完成的。
6.批量归一化
当然,包括深度网络在内的神经网络需要仔细调整权重初始化和学习参数。而批量标准化有助于实现这一点。
权重问题:无论权重的初始化如何,是随机的也好是经验性的选择也罢,都距离学习到的权重很遥远。考虑一个小批量(mini batch),在最初时,在所需的特征激活方面将会有许多异常值。
深度神经网络本身是有缺陷的,初始层中一个微小的扰动,就会导致后面层巨大的变化。在反向传播过程中,这些现象会导致对梯度的分散,这意味着在学习权重以产生所需输出之前,梯度必须补偿异常值,而这将导致需要额外的时间才能收敛。
批量归一化将梯度从分散规范化到正常值,并在小批量范围内向共同目标(通过归一化)流动。
学习率问题:一般来说,学习率保持较低,只有一小部分的梯度校正权重,原因是异常激活的梯度不应影响学习的激活。通过批量归一化,减少异常激活,因此可以使用更高的学习率来加速学习过程。
7.长短时记忆
LSTM网络在以下三个方面与RNN的神经元不同:
能够决定何时让输入进入神经元;能够决定何时记住上一个时间步中计算的内容;能够决定何时让输出传递到下一个时间步长。
LSTM的优点在于它根据当前的输入本身来决定所有这些。所以,你看下面的图表:
当前时间标记处的输入信号x(t)决定所有上述3点。输入门从点1接收决策,遗忘门从点2接收决策,输出门在点3接收决策,单独的输入能够完成所有这三个决定。这受到我们的大脑如何工作的启发,并且可以基于输入来处理突然的上下文/场景切换。
8. Skip-gram
词嵌入模型的目标是为每个词汇项学习一个高维密集表示,其中嵌入向量之间的相似性显示了相应词之间的语义或句法相似性。Skip-gram是学习单词嵌入算法的模型。
Skip-gram模型(以及许多其他的词语嵌入模型)的主要思想是:如果两个词汇项(vocabulary term)共享的上下文相似,那么这两个词汇项就相似。
换句话说,假设你有一个句子,比如“猫是哺乳动物”。如果你用“狗”去替换“猫”,这个句子仍然是一个有意义的句子。因此在这个例子中,“狗”和“猫”可以共享相同的上下文(即“是哺乳动物”)。
基于上述假设,你可以考虑一个上下文窗口(context window,一个包含k个连续项的窗口),然后你跳过其中一个单词,试着去学习一个能够得到除跳过项外所有项的神经网络,并预测跳过的项是什么。如果两个词在一个大语料库中反复共享相似的语境,则这些词的嵌入向量将具有相近的向量。
9.连续词袋(Continuous Bag Of Words)
在自然语言处理问题中,我们希望学习将文档中的每个单词表示为一个数字向量,使得出现在相似的上下文中的单词具有彼此接近的向量。在连续的单词模型中,我们的目标是能够使用围绕特定单词的上下文并预测特定单词。
我们通过在一个庞大的语料库中抽取大量的句子来做到这一点,每当我们看到一个单词时,我们就会提取它周围的单词。然后,我们将上下文单词输入到一个神经网络,并预测位于这个上下文中心的单词。
当我们有成千上万的这样的上下文单词和中心词以后,我们就有了一个神经网络数据集的实例。训练神经网络,最后编码的隐藏层输出表示特定单词的嵌入。而当我们对大量的句子进行训练时也能发现,类似语境中的单词得到的是相似的向量。
10.迁移学习
篇4
>> 用于脑运作分析的前向网络样本重组树生成算法研究 基于三角构成规则的加权有向网络拓扑生成算法 适用于网络渐进传输的多分辨率曲线生成算法 全排列生成算法比较分析 KenKen问题的生成算法研究 曲线生成算法的文献综述 基于列生成算法的集装箱班轮运输网络优化 基于全卷积神经网络的图像缩略图生成算法 传感器网络中一种基于编码的MAC生成算法 数据库关键词检索中候选元组集连接树生成算法的研究 基于分类随机算法的试卷生成算法研究 分析基于列生成算法的动车组检修计划优化 AOS自相似业务流等时帧生成算法的Matlab仿真分析 关于传统空间缓冲区生成算法的分析 基于Bresenham的直线快速生成算法 题库系统中试卷生成算法的改进 一种可用于脑神经网络分析的有向网络分解算法 形式概念演化生成算法 MPI通信代码自动生成算法 一种启发式双代号网络图自动生成算法 常见问题解答 当前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]谢勤.WAP算法连续化及其应用[C].毕业论文,2004.
[31]谢勤.一种可用于脑神经网络分析的有向网络分解算法[J].数字化用户,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]谢勤.一种可用于脑神经网络分析的有向网络分解算法[C].第八届海内外华人神经科学家研讨会论文集.北京:科学出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]谢勤.用于脑运作分析的前向网络样本重组树生成算法研究[C].电子技术与软件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通讯作者:谢勤)
作者简介
谢勤(1982-),男,A南理工大学硕士,中国神经科学学会会员,工程师,近年在亚组委信息技术部完成核心信息系统――计时记分和成绩处理系统项目实施管理方面的工作,其中计时记分系统投资一亿。主要研究方向为计算机科学与工程、人工智能、神经生物学。
作者单位
1.广州市科技和信息化局 广东省广州市 510000
2.第16届亚运会组委会信息技术部 广东省广州市 510000
3.广州生产力促进中心 广东省广州市 510000
4.广州市科学技术信息研究所 广东省广州市 510000
5.广州市科技创新委员会 广东省广州市 510000
篇5
基金项目:甘肃省自然科学基金资助项目(1014RJZA009);甘肃省教育厅硕士生导师基金资助项目(0803-07)。
作者简介:王燕(1971-),女,甘肃兰州人,副教授,硕士,主要研究方向:模式识别、图像处理、智能信息处理; 公维军(1987-),男,甘肃张掖人,硕士研究生,主要研究方向:模式识别。
文章编号:1001-9081(2011)07-1822-03doi:10.3724/SP.J.1087.2011.01822
(兰州理工大学 计算机与通信学院, 兰州 730050)
()
摘 要:提出了一种基于双阈值的两级级联分类器的人脸检测加速方法。该方法首先应用Gabor滤波器提取经模板匹配保留的似人脸样本特征,经主成分分析(PCA)降维后的特征作为第一级BP神经网络输入进行检测,在输出端应用双阈值对人脸/非人脸进行粗检测,然后把介于双阈值之间的人脸/非人脸模块作为第二级AdaBoost算法设计的输入并再次进行精检测,从而在提高检测速度的同时达到提高检测率和降低误检率的目的。实验表明,应用双阈值进行级联分类加速检测后,该方法的检测精度要优于基于简单阈值的分类器。
关键词:人脸检测;双阈值;分类器;级联;加速
中图分类号:TP391.4文献标志码:A
Accelerated algorithm of face detection based on
dual-threshold cascade classifiers
WANG Yan,GONG Wei-jun
(School of Computer and Communication, Lanzhou University of Technology, Lanzhou Gansu 730050, China)
Abstract: The paper proposed an accelerating way of face detection based on dual-threshold cascade classifiers. First, it applied Gabor filter to extract the face-like features that were retained by template matching, then put eigenvectors extracted by the way of Principal Component Analysis (PCA) into the BP neural network as first classifier, then used dual-threshold to decide face or non-face on output end, and put the face or non-face of midway between up and down threshold into the AdaBoost classifier as the second classifier to decide. In this way, it can improve the detection rate and reduce the false rate while speeding up the detection speed. The experimental results prove that the precision of cascade classifier of face detection based on dual-threshold is superior to the classifier of single threshold.
Key words: face detection; dual-threshold; classifier; cascade; acceleration
0 引言
人脸作为人类视觉中常见而复杂的模式,它所表现的信息在人与人的交流及人机交互领域都有着重要的意义。对人脸进行检测在安保视频监控,目标身份检测、门禁系统、智能人机接口和侦查犯罪等诸多领域都有着广泛的应用背景。人脸检测可描述为对一幅给定的图像(静态或者视频),采用一定的方法和策略对其进行搜索以确定其中是否含有人脸以及人脸在图像中出现的位置。
人脸是一类非刚性的自然形体,虽然具有很强的共性,但由于个体表情、光照、遮掩以及成像角度等因素的影响,使得人脸具有比较复杂而细致的模式变化。如果能够很好地提取关键特征及设计良好的分类器,将为解决后续跟踪识别及相似的复杂模式检测问题提供有益的指导,所以人脸检测是当前模式识别领域的一个热点研究课题。
之前不少学者提出了各种综合算法以及一些改进算法,Rowley等人[1]提出了使用神经网络算法设计的人脸检测模型,Viola等人[2]等人提出了用简单特征训练级联人脸检测器的AdaBoost方法,这之后又有学者在此基础上提出了改进算法,如Lienhart等人提出的扩展特征的旋转人脸检测[3]、支持向量机[4]等。还有学者提出各种模型算法,如肤色模型的人脸检测[5-6]等。上述基于单一分类器的人脸检测在一定程度上提高了检测精度,但是由于自身特点的局限性,并且分类阈值的单一性等造成了进一步提升精度和降低报警率的困难。本文通过级联分类这种粗细检测的原则,提出了一种基于双阈值的级联分类器的加速人脸检测方法。与以往级联的方法不同,本方法结合基于知识与统计的方法[7],先应用模板匹配将大量背景去除,只将其中很少的似人脸送入第一级BP神经网络构成的分类器进行双阈值初检,将介于上下阈值的人脸/非人脸送入应用Haar特征的AdaBoost算法的第二级分类器进行精确判别。实验证明该方法能够有效提高检测率,降低误检率并提高检测速度。
1 两级分类器的构建
1.1 基于Gabor小波的BP神经网络分类器
1.1.1 Gabor小波特征提取
Gabor小波变换(加窗傅里叶变换)由于其小波核函数具有和人脑大脑皮层简单细胞的二维反射区相类似的特性,使其在空间频率、方向选择及空间位置的局部信息上有着良好的采集和分辨能力,因此在以生物学和视觉特性为背景的图像学和人脸检测等多方面得到了广泛的应用。
二维Gabor滤波器函数形式为:
Gj(w)exp(-)[exp(ikjw)-exp(-)](1)
其中:kj,φuu・,w(x,y);δ为高斯窗口的尺度因子,控制滤波器的带宽和尺度;φu与ωv控制滤波器的调制方向和频率。只要选择合适的δ、φu和ωv,就可以使Gabor小波滤波器构成Gabor滤波器组来一同作用于图像,从而实现目标图像的Gabor小波分解,得到我们所要的特征。在本文中通过检测窗口与Gabor滤波器组卷积即可得到我们所要提取的特征。
1.1.2 BP神经网络
BP神经网络是一种基于误差修正学习规则的网络,它实现一种由输入到输出的非线性空间的一种映射,它的模型一般由输入层、隐层、输出层组成,隐层可以由一层或多层组成。该算法学习的目的是对网络的连接权值进行调整,使得对任意输入都能得到所谓期望的输出[8],它采用了优化的梯度下降算法,直到调整的误差满足需求为止。
1.2 基于AdaBoost算法的人脸检测分类器
1.2.1 Haar特征模板和积分图像
应用AdaBoost学习算法的特征级联人脸检测方法是由Viola和Jones提出来的,该方法采用一种“积分图像”的表示方法,能快速从人脸中计算出所用到的人脸特征。
Haar型特征是Viola等人提出的一种简单的矩形矩阵。Haar型特征的值是指图像上两个或者多个形状大小相同的矩形内部所有像素灰度值之和的差值。这些以图像灰度值为自变量的矩形特征在边缘检测方面有着很好的表现能力,对人脸脸部的各种特征有很好的提取和编码能力,检测速度很快。
Haar型特征的计算是通过引入积分图像实现的,见图1。对于一个灰度图像I,它的积分图像i的定义为图像中(x,y)点左上部分所有像素点的累加:
I(x,y)∑x′≤x,y′≤yi(x′,y′)(2)
图1 积分图像
这时,1、2、3、4的积分图的值分别为A、A+B、A+C、A+B+C+D,D点的矩形特征可以通过4+1-(2+3)计算得出,这样,只要对图像遍历一次,就可以得到积分图,就可以在恒定的时间内得到任意尺度下的图像的特征。
1.2.2 AdaBoost学习算法
AdaBoost学习算法选择少量而又非常重要的矩形特征来构造一系列弱分类器,然后将这些弱分类器级联起来构成一个强分类器。算法通过选择最能区分正负样本的矩形特征。对于每一个特征,弱分类器给定一个最优的分类函数的阈值,使得最少的样本被错误分类。一个弱分类器hj(x)包含矩形特征fj,阈值θj和用于控制不等式方向的pj:
hj(x)1, pjfj(x)≤pjθj
0, 其他 (3)
具体学习算法如下:
设(X1,Y1)、(X2,Y2)、…、(Xn,Yn)为具体输入的图像,用Yj0,1来标记正负样本,T为循环次数。
1)初始化权值w1,对正样本(Yj1)和负样本(Yj0)有I1/(2m),1/(2n)。
2)当t1,2,…,T时:
①标准化权值,wt,i
②对每一个特征j,训练相应的分类器hj使该分类器对该特征进行分类,误差为εj∑Tt1wt|hj(x)-yi|。
③选择最小误差分类的分类器。
④更新权值wt+1,twt,jβ1-eit,若Xi被正确地分类,则ei0;反之,ei1,βt(1-ei)/t。
⑤最终的强分类器为:
h(x)1, ∑Tt1αtht(x)≥∑Tt1αt
0, 其他 (4)
其中αtlb (1/βt)。
2 基于双阈值的级联分类器的加速算法
2.1 系统构造框架
为了解决基于传统的检测方法中无论是单分类器还是级联分类器均由单一阈值造成漏检与误检之间的矛盾,本文在兼顾速度的同时通过利用双阈值设置检测缓冲区,达到提高检测率与降低误检率和漏检率的目的。具体流程如图2所示。
图2 人脸检测系统框架
2.2 样本选取和图像预处理
该系统所用的人脸训练样本来自MIT、ORL训练图库。为了便于训练,统一将其裁剪为21×18的样本图像进行相应的分类器训练,在训练当中可以根据后期检测结果适时添加一些非人脸样本,减少一定的盲目性。
无论在训练还是在检测前,为了减少图像由于光照、背景以及采集设备等造成的影响,都将进行一定的预处理。在本系统中,我们采用了连续性能更好的Gamma光照补偿,这样当原始图像分布不均匀,并且主要集中在较低范围灰度级时,经过均衡处理后,图像的灰度动态范围变大,对比度增强,人脸特征更加突出。这样可以进一步减少光照等因素带来的影响,从而更有利于提取人脸特征。
2.3 系统加速算法设计
传统基于滑动窗的检测方法在待测图像中依次滑动,通过将每一个窗口送入训练好的神经网络分类器进行判别,而经实验测试一张21×18的图片在本文所训练的神经网络分类器中运行时间为0.07s左右,若进行全部窗口测试,计算量相当大,这也是时间复杂度相对较高的原因之一。基于此,本文对基于欧氏距离的模板匹配算法[9]进行模板改进,去除眼睛模板,在应用多尺度压缩的图像金字塔方法的测试图片上进行整体模板匹配[10],通过保留与人脸相似度大的窗口位置进行神经网络分类器测试进而将大量背景去除,通过这种加速处理方法来提高前期算法的效率。
2.4 双阈值级联分类器
第一级分类器我们采用神经网络的方法[11-12]。它是通过主成分分析(Principal Component Analysis,PCA)降维[13]后进行BP神经网络训练得到的分类器,由于传统BP神经网络在应用时存在一些问题,如容易形成局部最小问题、收敛速度问题而不能保证全局最小结果[14],因此本文在训练BP神经网络时采用具有自适应能力的动量项对BP神经网络进行优化设计。对隐层的神经元来说:
Δwji(n)αΔwji(n-1)+ηδj(n)yj(n)(5)
对于输出层来说:
Δwji(n)αΔwji(n-1)+ηδk(n)yj(n)(6)
在式(5)和式(6)中,α为动量因子,调节范围在(0,1),其中式中第二项相当于ηδ(n)y(n)-η,可以根据这一项来判断误差曲面的趋势以进行自适应调整,从而不至于过大造成过冲或过小造成收敛速度慢,从而起到一定的稳定作用。根据具体实验效果,得出了以下自适应因子数据参照表,见表1。
表1 自适应因子参照表
通过自适应因子来调节学习速度进而控制反馈回路。通过应用优化设计的BP网络,其收敛速度和鲁棒性得到了很大的提高。
将达到一定程度的匹配模块经过Gabor特征提取输入第一级分类器,在应用神经网络进行粗检测时,如果高于双阈值中的上阈值则直接判别为人脸,不再送入细检测分类器;而低于下阈值的直接判别为非人脸,直接剔除;而由于训练集范围的有限性及光照,遮掩等各种原因,在介于高阈值和低阈值之间的范畴中,有存在人脸的可能性。因此,把介于这两个阈值之间的人脸与部分非人脸图像块再输入基于Haar特征的AdaBoost分类算法的第二级分类器进行再次判别,由于只检测第一级分类器输出介于双阈值之间的人脸或非人脸的小尺寸图像,所以在此进一步进行加速检测。
由于第二级分类器采用灰度级上的积分特征提取,所以能够快速地对介于双阈值中的人脸/非人脸从灰度级上进行确认。最后通过这两级级联分类器的最终确认并合并人脸中心位置以确定最终位置,从而得到检测后最终的人脸图像。
2.5 算法描述
根据粗细检测的原则,对检测图片进行分类器级联检测,由第一级神经网络分类器进行粗检测,在与第二级分类器级联时,通过设置双阈值接口算法来进行细检测从而达到既降低计算复杂度又提高精度的目的。具体算法描述如下:
1)初始化分类器,预处理测试集图片
2)FOR i1:n//n为测试集图片数
Input classifier_gabor&bp( )//进入第一级分类器
FOR j1:m //m为第一级分类器初检图像块数
IF wj>Threshold_up
yj+1 accept//加入到人脸集
ELSE IF
(wjThreshold_down)
Input classifier_adaboost( )//进入第二级分类器
IF (wj>Threshold_adaboost)
yj+1 accept//再次确认加入到人脸集
ELSE discard
ELSE discard
END
END
Threshold_up与Threshold_down为系统第一级分类器的上下阈值。
3 系统测试结果与分析
为了验证该算法的加速性能与检测率,采用2组实验进行检测,第一组采用一张320×240的标准视频的一帧静态多人脸图像进行速度检测,验证本文算法的加速性能;第二组进行识别率检测,首先对CMU实验室的CMU_PIE中的gallery图库中的68张简单背景正面人脸进行检测,由于背景单一且为单人脸,检测率最高达到了100%,同时为了进一步验证算法设计的有效性,我们对部分MIT+CMU的测试图片以及室外收集的部分图片进行了测试(包含120张图片,235个人脸,其中包括部分不超过±20°的侧面人脸),并对单一使用AdaBoost算法检测人脸与BP神经网络、Gabor+BP神经网络人脸检测方法做了对比实验,实验1和实验2的结果如下所示,图4为应用双阈值级联分类器的对比效果。
表2 不同算法检测速度和检测率
图3 部分测试图片检测效果
图4 双阈值级联分类效果对比
通过以上实验结果表明,本文提出的算法在精确度和鲁棒性上有了明显的提高,从表2的检测速度上来看,虽然本文提出的算法相比AdaBoost算法较慢,但比传统算法有很大幅度的提高,有进一步提升的潜力;同时从图4中可以清晰地看出,应用双阈值粗细检测方法能进一步降低误检率,精度有相对较大的提升。
4 结语
本文提出了一种基于双阈值的两级级联分类器的人脸加速检测方法,通过模板匹配方法来降低在分类器中的计算时间,同时在两级级联分类器之间设置双阈值接口进行级联检测,并在第一级分类器的收敛性上做了一定的改进,在加速的同时更加提高了精度。通过应用双阈值级联分类器的加速算法判断人脸/非人脸,解决了基于传统阈值分类器在检测当中的矛盾问题,速度也有相应的提高,误检率进一步降低,系统整体性能得到了提升。
参考文献:
[1] ROWLEY H A, BALUJA S, KANADA T. Neural network-based face detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(1):23-38.
[2] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2001:511-518.
[3] LIENHART R, MAYDT J. An extended set of haar-like features for rapid object detection[C]// Proceedings of the International Conference in Image Processing. New York:IEEE, 2002:900-903.
[4] HEISELE B, SERRE T, POGGIO T. A component-based framework for face detection and identification[J]. International Journal of Computer Vision, 2007, 74(2):167-181.
[5] HSU R L, ABDEL-MOTTALEB M, JAIN A K. Face detection in color images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5):696-706.
[6] 月书仁,梁昔明,叶吉祥,等.基于脸部信息和支持向量机的人脸检测[J].计算机应用,2006,26(5):1032-1034.
[7] 梁路宏,艾海舟,徐光佑,等.人脸检测研究综述[J].计算机学报,2002,25(5) :449-458.
[8] 王志良,孟秀艳.人脸工程学[M].北京:机械工业出版社,2008.
[9] 梁路宏,艾海舟,徐光佑,等.基于模板匹配与人工神经网确认的人脸检测[J].电子学报,2001,29(6):744-747.
[10] 林宇生,杨静宇. 基于Gabor滤波特征和支持向量机的人脸检测[J]. 计算机工程与应用, 2007, 43(1):33-34.
[11] 聂祥飞,郭军.基于Gabor小波的人脸检测[J].计算机工程,2006,32(21):44-46.
[12] 顼改燕,徐华,翟忠武,等.基于Gabor滤波器和BP神经网络的人脸皮肤皱纹区域自动识别[J].计算机应用,2010,30(2):430-432.
篇6
【关键词】神经网络;故障测距;小波包;相对误差
0 引言
我国矿井配电网多为6kV单侧电源供电系统,采取中性点非有效接地方式,属于小电流接地系统(NUGS)。馈电回路选用多段短电缆径向延伸为各种井下高低压电机、电气设备、照明及各种通信、自动化装置和仪表、仪器提供电能。由于井下工作环境恶劣,供电电缆经常发生接地、断线、短路等故障,据电力部门统计,其中单相接地故障的发生率最高。尽管发生单相接地故障时,线电压仍然对称,暂时不影响对负荷的连续供电,但就矿井这类危险易爆场所而言,当发生单相接地故障时,应尽快跳闸断电以确保安全。为此,必须及时对故障点进行定位、排除故障、加快恢复线路供电。
NUGS馈线的故障定位问题一直以来未得到满意的解决,这与其自身的特点有关。由于电网变压器中性点不直接接地,造成单相接地电流无法形成小阻抗回路,故障电流主要由线路对地电容电流提供,其数值较小,且基波分量幅值故障前后变化不大,使得定位保护装置很难准确进行故障选线和定位。考虑到井下环境条件和负荷的特殊性,矿井配电网与传统意义上的NUGS存在一定的差异:单相接地产生的暂态分量较稳态分量大得多,暂态波形畸变严重,应研究利用暂态电气量进行故障测距的可行性;馈电线路分支少、长度短,对测距精度要求高[1]。
鉴于上述原因,本文就井下配电网故障测距问题进行研究,以期提高故障测距的精度和可靠性。
1 BP网络的结构和算法
BP网络结构上类似于多层感知器,是一种多层前馈神经网络,网络权值的训练算法为误差反向传播(BP)学习算法。如图1所示为一典型3层BP网络模型。
图1 3层BP网络模型
以图示BP网络模型为例说明网络的学习过程:
(1)初始化。为每个连接权值wij、wjt、阀值θj、θt赋予(-1,1)区间的随机值。
(2)给定输入输出目标样本。给定输入向量Xp=(x1,x2,...,xn)和期望目标向量Tp=(t1,t2,...,tm),p∈1,2,...,P。
(3)计算网络各层的输出。由输入样本、连接权值、阀值及各层神经元传递函数计算隐含层和输出层的输出。
(4)计算网络实际输出与期望输出的一般化误差。系统的目标函数为:
E=■■■(t■-y■)2=■E■(1)
网络通过调整权值和阀值使满足预先设定的一个极小值。
(5) 利用目标函数调整网络的权值和阀值。BP算法按照目标函数梯度的反方向对网络参数进行调整,使目标函数收敛,即实际输出接近目标输出。对于第p个输入样本的权值、阀值,按下式修正,式中?浊为学习速率。
?驻w=-?浊■, ?驻θ=-?浊■(2)
对应的权值、阀值按下式调整,式中为迭代步数。
w(k+1)=w(k)+?驻wθ(k+1)=θ(k)+?驻θ(3)
(6)随机选择下一组学习样本向量进行训练,直到P个样本对训练完毕。
(7)重新从P个学习样本中随机选取一组输入、目标样本对,返回步骤(3),直到目标函数E收敛于给定值,若训练次数大于设定的最大训练次数,则网络不收敛。
由于BP算法学习速率为固定值,收敛速度较慢,且可能会产生多个局部极小值,另外网络的隐含层层数和神经元数目的选择尚无理论指导,因此网络具有较大的冗余性。为了克服以上不足,提出了许多改进算法,从改进途径上分为两类:
一类为启发式学习算法,如动量BP算法、弹性算法、学习率可变的BP算法等;另一类为快速优化算法,如拟牛顿算法、LM算法等。
2 基于BP小波神经网络的故障测距
小波包具有正交特性、信号分解后的信息量是完整的,因此利用小波包算法分析信号频率的分布情况,能够有效提取信号的暂态特征。对于电缆线路而言,其暂态零序电流的自由振荡频率一般在1500~3000Hz之间[2-3]。本文利用小波包提取该频段的暂态零序电流信号模极大值作为神经网络模型的输入,以期实现高精度的故障测距。
2.1 小波基的选择
在利用小波包提取模极大值时,小波基的选择十分重要,选择不同的小波基对信号进行分解,可以突出不同特点的信号特征。Daubechies小波系是信号分析处理中常用的一类小波,具有紧支性、正交性,满足精确重构条件,但由于其不具有对称性,因而其边界效应会随尺度的增加而扩大,引起分解误差;Morlet小波常用于信号表示、图像特征的提取和识别;Mexican hat小波则用于系统辨识。
3次B样条小波是一种具有线性相位的紧支对称小波,分频能力强,频带相干小,由于具有对称性,只要采取合理的延拓方式,其边界效应引起的误差可忽略不计。
B样条基函数的递推公式如下:
N■(x)=1,x■≤x≤x■0,x?埸x■,x■N■(x)=■N■(x)+■N■(x)(4)
3次B样条基函数N■(x)在xi,xi+4上具有局部支集性,表达式如(5)所示。
(5)若取参数x■=i(i=0,1,...,n)为节点即为均匀B样条基,再对均匀B样条基作参数变换,在每个子区间内以参数代换,在每个子区间的值均为u0,1。3次B样条基函数的表达式如式6所示。
由于二进小波包变换具有平移不变性,不会引起正交小波包变换在所分析信号不连续处产生的伪吉布斯现象[4]。故本文利用3次B样条小波包对短路故障电流进行卷积型二进小波包分解,以期获得更显著的故障特征信息。
N■(x)=■,x■≤x≤x■■+■,x■≤x≤x■■+■,x■≤x≤x■■,x■≤x≤x■0,x?埸x,x■
(5)
N■(u)=■u3■(-3u3+3u2+3u+1)■(3u3-6u2+4)■(-u3+3u2-3u+1) 0≤u≤1(6)
2.2 分解尺度的选择
如何选择分解尺度对于零序电流暂态分量的模极大值提取至关重要,尺度取得越大,信号与噪声的表现差异越明显,越有利于两者的分离。但分解尺度取得越大,则对应的频带宽度越窄,采样点数过小,不利于下一步的信号分析[5-7]。
由于本文仿真的采样频率取1MHz,则Nyquist频率为5kHz,为提取暂态零序电流1500~3000Hz频率段分量,小波包分解层数为3,考虑小波包频带划分规则,取(3,3)、(3,7)频带的零序电流暂态分量即可满足要求。
2.3 BP网络结构参数的选择
欲利用BP小波神经网络计算井下配电网故障测距,必须首先确定BP网络的结构和参数,如各层的初始权值、阀值,学习速率,各层节点数、传递函数等,只有确定了网络的最佳配置,才能有效解决所提出的问题[8]。
(1)网络层数的确定。Hecht-Nielsen已经证明,在不限制隐层节点数的情况下,含有一个隐层的BP网络能够实现任意非线性映射。Cybenko指出,当隐层传递函数选用S型传递函数时,单隐层足以满足解决任意判决分类问题的需要,两个隐层则能够实现输入图形的映射。增加隐层数可以进一步提高精度,但同时会增加网络权值的训练时间。另外,增加隐层神经元个数也能降低误差,训练效果也更易观察,因此,应优先考虑增加隐含层神经元的个数。对于本文研究的故障测距问题,网络需要较快的收敛速度,因此采用单隐层网络。
(2)各层节点数目的确定。网络输入层节点数等于输入向量的维数。由于井下电网大多数实时运行参数如负荷、系统等效阻抗可由监控终端获得,其它随机性因素如发生故障线路、故障时刻可由故障后可测信息准确识别,不可知变化因素仅包括接地过渡电阻及故障点位置,并且神经网络的内插性能优于外推性能,故输入向量维数等于3,分别为(3,3)、(3,7)频带零序电流暂态分量的模极大值和故障点过渡电阻值。输出层节点数为1,表示故障点位置。隐含层节点数的选择比较复杂,需要依据经验和经过多次实验确定,选取过多将导致学习时间过长,过少将引起容错性差,对未经学习的样本识别能力低。根据Hebe准则可以确定最佳隐含层节点数的参考值。另外,也可先令隐含层节点数可变,开始时给以较小数值,学习到给定训练次数最大值,若未达到收敛精度则再增加节点数,直至达到合理数值为止。经过多次仿真训练,隐层节点数为11时,网络的训练误差最小。
(3)初始权值的选取。初始权值的选择对于网络能否收敛和训练的速度关系密切。若权值选择过大,会使加权输入处于激励函数的饱和区,导致无法进行权值的调整。威得罗等人提出一种权值初定策略,选择权值的量级为S1的r次方,其中S1为第一层神经元数目,利用此方法可以在较少的训练次数下获得满意的训练结果。本文选择的输入层及隐含层至输出层的初始权值均为0.25。
(4)训练算法的选择。给定一个具体问题,采用何种训练算法对于是否能够达到目标误差及网络收敛速度的影响很大。就中等规模的前馈神经网络而言,LM算法的训练函数trainlm可以获得比其它任何一种算法更小的均方误差,且收敛速度最快,在精度要求较高时,该算法的优点尤其突出。本文选择LM算法对BP网络进行训练。
(5)学习速率的选择。一般情况下倾向于选择较小的学习速率以保证训练过程的稳定性,但是过小的学习速率会导致训练时间过长,收敛速度很慢,无法保证网络的误差值跳出误差曲面的低谷而最终趋于最小误差,一般选择范围在0.01~0.9之间。
3 系统仿真及测距结果
深井供电系统仿真模型如图2所示。各模块参数如下:进线电缆(In line)采用YJV42,线路正序参数为:R1=0.078/km,L1=0.27mH/km,C1=0.695F/km,零序参数为:R0=0.106/km,L0=1.223mH/km,C0=0.358F/km;配电电缆(Line)采用YJV32;采区电缆(Mine line)、负荷电缆(Load line)采用UPQ,正序参数为:R1=0.024/km,L1=0.516mH/km,C1=0.308F/km,零序参数为:R0=0.196/km,L0=3.98mH/km,C0=0.203F/km;采区变压器(MineT1)型号为KBSG-200/6/0.69kV,Ud%=4%,I0%=2.5%;隔爆移动变电站(MineT2)选用KBSGZY-315/6/1.2kV,P0=1400W,Pd=2200W。负荷变压器采用SL7-100/6/0.4kV。线路长度分别为:进线电缆取1km;
配电电缆1、3、4取0.5km;配电电缆2取0.4km;采区电缆长度均取0.3km;负荷电缆取0.2km。电源线电压有效值6.3kV,X/R ratio=7。
考虑配电线路1在不同故障点位置和过渡电阻下发生单相接地故障(数据窗取故障前1ms至故障后4ms共5ms)得到的暂态零序电流经小波包分析后(3,3)、(3,7)频带的模极大值(为防止边界效应引起的信号值突变,取前2000个采样值进行模极大值分析)经归一化处理后所形成的训练和测试样本集,对BP网络进行训练,并测试网络的测距性能。
选取的训练样本集如下:
(1)过渡电阻值分别为0.01、5、50、100、150、200、250、300、350、400、450、500;
(2)在靠近线路两端发生故障时,应适当减小故障距离以提高测距精度。故障点位置分别为:0.01km、0.02km、0.025km、0.075km、0.125km、0.175km、0.225km、0.25km、0.3km、0.325km、0.375km、0.425km、0.475km、0.48km、0.49km。
组合两因素可形成12×15=180个训练样本集。
训练误差曲线如图3所示,经2794次迭代后误差收敛于0.00099829,基本达到了设定的目标误差0.001。
为检验训练后BP网络的推广能力即测距效果,采用非训练样本集进行测试,选取的测试样本集如下图3:
图3 BP网络训练误差性能曲线
(1)过渡电阻值分别为25、75、125、175、225、275、325、375、425、475;
(2)故障点位置分别为0.015km、0.05km、0.1km、0.15km、0.2km、0.275km、0.35km、0.4km、0.45km、0.485km。
组合两因素形成10×10=100个测试样本集。
对于给定的测试样本集,经BP网络前馈运算得到的实际测距结果及相对误差分别如表1、表2所示。
其中,L表示实际故障距离,l表示测量距离。
相对误差e=(实际故障距离-测量距离)线路总长×100%。
由表2可知,对于测试样本集,训练后的BP网络测距相对误差随过渡电阻值的增加有增大的趋势,最大误差达到了-16.56%,且出现在过渡电阻为475时,同时注意到在故障点接近线路两端时,由于适当增加了训练样本,测距相对误差明显减小,因此,通过增加训练样本数量有望进一步提高测距精度。
4 结论
通过研究得出以下结论:
1)采用小波包提取故障暂态零序电流的模极大值能有效表征故障时所蕴含的物理现象,为准确进行故障测距提供了有效的数据。
2)BP神经网络具有良好的分类及拟合功能,能在获得大量样本数据的基础上,训练出符合要求的前馈型网络,为煤矿井下电网故障测距提供强有力的手段。从测距相对误差结果来看,基于小波分析与BP神经网络的故障测距方法能基本满足测距要求。另外,本文下一步的工作将在样本集数量、网络结构等方面进行更为深入的研究。
【参考文献】
[1]丁恩杰,王超楠,崔连成.矿井配电网输电线路故障测距方法的研究[J].中国矿业大学学报,2006,35(3):311-316.
[2]窦新宇,李春明.小电流接地系统行波测距方法研究[J].电力科学与工程,2010,26(2):51-53.
[3]季涛.基于暂态行波的配电线路故障测距研究[D].济南:山东大学,2006.
[4]姚李孝,赵化时,柯丽芳,等.基于小波相关性的配电网单相接地故障测距[J].电力自动化设备,2010,30(1):71-74.
篇7
技术快速进步确保安全
人脸识别是基于人的脸部特征信息,应用人工智能模式识别和计算机视觉技术鉴别个体身份的一种生物识别技术。从人工智能的角度来看,人脸识别其实是机器视觉的一个分支。旷视科技智能商业产品线资深总监宋晨表示,人脸识别实际上就是给机器赋能,让它具备一双眼睛的能力,让它像人一样去想、去看,从而“学会”各种检测、判断、识别和测量。
人们看好人脸识别,因为作为生物可识别技术,人脸识别有其独特的优势。一方面,人脸识别具有非接触性和非侵扰性,不接触人体就可以直接通过摄像头在一定距离内进行识别,从而实现更大范围、更多方位的信息采集,不需要被采集者配合,更易被大众接受。另一方面,人脸识别的硬件门槛更低,指纹识别需要特定采集芯片,但人脸识别只需要摄像头,智能手机上的相机和城市视频监控体系中的高清摄像头已足够满足需要。
但人脸识别应用的快速推进,仍来自于技术的快速提升。“我们最早在深圳的超级计算机上做人脸识别,要花28天进行迭代,但现在同样的工作在6块GPU芯片上只需要6个小时,这就是硬件提升带来的瓶颈突破。”商汤科技CEO徐立告诉记者。宋晨则对此解释说,人脸识别所需要的图像处理和深度学习能力,是基于GPU的训练来产生的,它代表着高速和价廉的计算能力。
而在硬件之外,卷积神经网络则在算法上大幅提升了人脸识别的精度。2014年前,在人脸检测评测平台FDDB上,学术界获得的最好检测精度是84%,但在2015年以后,通过使用卷积神经网络算法,众多人脸检测应用的准确率提升到90%以上,现在最高正确率已经超过99%。北京大学信息科学技术学院智能科学系教授徐超表示,考虑到人眼识别的正确率仅有97%多,人脸识别技术已经超过了人的识别能力,在识别效率上更是远超人类。
但对于人脸识别技术来说,“认得准”只是第一步,还需要足够安全,能够抵抗各种攻击,比如伪造面具、使用照片或者3D软件“换脸”等方式。蚂蚁金服生物识别负责人陈继东告诉记者,活体检测是其中最核心的技术,“我们通过一系列软件算法来判断摄像头前的是不是‘活人’,一是基于动作交互的识别模型,所以用户会被要求做出眨眼、摇头、张嘴等动作,通过检测过程中动作的连续性,以此让照片难以通过。但对于会模拟动作的视频,或者预先制作好的动作视频,我们还需要图像的分析,比如说区分正常的图像和通过软件模拟、视频剪辑的图像之间有多大的差异”。旷视科技公司则表示,合成脸在图形特征上会与真人有很大的差异,并不容易通过框体检测和对翻拍的图形特征分析检测。
判断“你是你”和“你是谁”
“临川区荣耀网吧43号机器,一位17岁男性未成年人正在上网!”江西省抚州市文化综合执法支队的工作人员手机上接到这样一条弹窗报警信息。“这正是应用了人脸识别技术,用户在网吧上网时要拍照,这张照片会与上网者的身份证照片比对,一旦发现是未成年人,我们的技术监管平台就会报警。”抚州市文化综合执法支队支队长胡光斌表示。
在沈阳地铁,人脸识别系统同样成为话题。在短短11天内,这套系统连续抓获了3名网上逃犯。这是沈阳警方首次应用智能人脸识别系统追逃,在包括沈阳站等3个地铁站,有人从高清摄像头前经过,就会被连续拍摄20到30张角度不同的照片并与警方数据库比对,一旦相似度评分超过83分,系统就会自动报警,并对目标拍摄一条10秒钟的即时视频。
在中科院自动化研究所雷震博士看来,这两个应用场景正对应了人脸识别应用的两个方向:用来确定“你是你”的1:1确认和用来判断“你是谁”的1:N辨认。“1比1确认是将人脸图像与图片库中的图像进行比对,是目前比较成功的应用,精准度已经很高;1比N人脸搜索,先要在视频中确认人脸的位置,然后抽取一适合进行人脸识别的图片,最后则将这张图片与N张照片比对,看是否有相符的一张,技术上讲要难得多。”雷震说。
“在身份确认上,以前是人来做,现在交给机器,流程没有变,只是效率大大提升,因此在各个传统行业中渗透得最为迅速。”徐立表示。
的确,如果说“1比N人脸搜索”目前基本还集中于安防领域“试水”,那么在“1:1确认”方向,人脸识别应用则成熟得多。拿金融领域来说,陈继东介绍,目前支付宝在高风险支付、修改密码、实名认证等48个场景使用刷脸验证,在支付宝的4.5亿实名用户中,有三分之一“刷过脸”。今年2月,蚂蚁金服的“刷脸支付”还被知名科技杂志《麻省理工科技评论》评为全球十大突破性技术之一。
“做到从实名到实人,人脸识别起了非常重要的作用。在金融领域的人脸识别技术应用,除了准确度和安全级别之外,还需要极高的稳定性、可靠性和极低的实时响应。”陈继东说。而在金融领域之外,证明“你是你”还在智能门禁、智能考勤、刷脸安检、个税申报、养老金领取资格认证等场景被广泛使用。
防攻击能力需不断提升
如果说在确认“你是你”和搜索“你是谁”两个方向上,人脸识别技术还都是“把人能做的事做得更好”,那么人脸识别技术还能完成“人无法完成的事情”。
今年年初,厦门的一些珠宝店在货架上装上了人脸识别系统,能够分析每个用户在柜台前停留的时间。“VIP客户一到店,人脸识别系统就能将消息推送到店员手机上,同时还能显示出这些客户以往的购买记录。如果记录到一个客户上次在哪个货架停留的时间久,下次这一信息也会推送给店员。”厦门瑞为信息技术有限公司负责人詹东晖说。人脸识别技术与线下商业的“亲密接触”,被视为是“互联网+线下零售”的一个全新方向。
篇8
关键词:语义标记;三维人脸;网格标记;随机森林;正方形切平面描述符
DOIDOI:10.11907/rjdk.171139
中图分类号:TP317.4
文献标识码:A 文章编号:1672-7800(2017)006-0189-05
0 引言
在计算机视觉与图像领域,对于二维图像人脸的研究(包括人脸识别、人脸检测、人脸特征点标记等)非常多,并且取得了很大进展。特别是近几年,随着深度学习算法的应用,对于二维人脸的研究有了极大突破[1]。然而,相对于二维人脸,人们对三维人脸研究较少。三维人脸的研究是以人脸的三维数据为基础,结合计算机视觉和计算机图形学,充分利用三维人脸的深度信息和其它几何信息,解决和克服现有二维人脸研究中面临的光照、姿态、表情等问题[3]。三维人脸模型标记与分割是将三维人脸网格模型上的顶点进行分类,将人脸划分为几个区域,例如眉毛、眼睛、鼻子、嘴等。对这些区域的标记与分割对三维人脸重建、特征点定位和表情动画等方面的研究都起着重要作用。三维人脸的研究是模式识别和图形学领域活跃且极具潜力的研究方向之一,在影视、游戏动画、人脸识别、虚拟现实、人机交互等方面都有着广泛应用[2-3]。
目前,许多对三维人脸方面的研究,包括三维人脸重建、识别与跟踪、姿态估计及特征点标记等,都是基于深度图的方法[4-7]。Fanelli等[6-8]提出一种方法,将从深度数据估算人脸姿态表达为一个回归问题(Regression Problem),然后利用随机森林算法解决该问题,完成一个简单深度特征映射到三维人脸特征点坐标、人脸旋转角度等实值参数的学习。通过训练数据集建立随机森林,该数据集包括通过渲染随机生成姿态的三维形变模型得到的5万张640*480深度图像。在实验部分,对Fanelli等提出的从深度图中提取特征的方法与本文的特征提取方法进行了对比。与文献[6]中的方法相比,Papazov[9]提出了一个更为复杂的三角形表面patch特征,该特征是从深度图重建成的三维点云中计算获得的,主要包括两部分:线下测试和线上测试。将三角形表面patch(TSP)描述符利用快速最近邻算法(FLANN)从训练数据中寻找最相似的表面patches。
在计算机图形学领域,网格理解在建立和处理三维模型中起着重要作用。为了有效地理解一个网格,网格标记是关键步骤,它用于鉴定网格上的每个三角形属于哪个部分,这在网格编辑、建模和变形方面都有着重要应用。Shapira等[10]利用形状直径函数作为分割三维模型的一个信号,通过对该信号的计算,定义一个上下文感知的距离测量,并且发现众多目标之间的部分相似性;随后,Sidi等[11]提出一个半监督的联合分割方法,利用一个预定义的特征集实现对目标的预先分割,然后将预先做好的分割嵌入到一个普通空间,通过使用扩散映射获得最终的对网格集的联合分割。网格标记的一个关键问题是建立强大的特征,从而提高各类网格模型标记结果的准确性,增加泛化能力。为了解决该问题,Kalogerakis等[12]提出采用一种基于条件随机场算法的方法来标记网格。通过对已标记的网格进行训练,成功地学习了不同类型的分割任务;Xie等[13]提出一种三维图形快速分割与标记的方法,用一系列特征描述法和极端学习器来训练一个网格标记分类的神经网络;Guo等[14]提出用深度卷积神经网络(CNNs)从一个大的联合几何特征中学习网格表示方式。这个大的联合几何特征首先被提取出来表示每个网格三角形,利用卷积神经网络的卷积特征,将这些特征描述符重新组织成二维特征矩阵,作为卷积神经网络的输入进行训练与学习。
本文提出一种新的几何特征描述符(正方形切平面描述符)来表示人脸模型上的顶点特征,利用随机森林算法对三维人脸模型顶点进行训练,实现对人脸模型上顶点的分类(属于鼻子或是眼睛区域等),从而实现三维人脸模型的区域标记。这种新描述符并非从深度图提取的简单矩形区域特征,而是直接从三维人脸模型计算获得,在人脸的姿势、尺寸、分辨率的改变上具有一定鲁棒性。因此,训练过程是在三维人脸模型上执行的,这种数据相对于真实的深度图数据更容易获取(例如在文献[6]中使用的训练数据)。
1 特征描述符与三维人脸区域分割
1.1 正方形切平面描述符
从一个三维人脸模型M的所有顶点上随机选取一个种子点P,根据三维人脸模型的几何结构,计算该种子点的法向量,此时根据一点和法向量即可确定一个切平面。确定正方形的边长L和正方形的方向。正方形的方向(正方形局部坐标系)是根据全局坐标系下建立的正方形,通过法向量转换而成。建立正方形局部坐标系,以便于计算三维人脸上的点到正方形的投影距离,减少程序运行时间,从而可以确定一个正方形切平面块S。在这种情况下,根据正方形切平面块S,可以计算出一个简单且具有鲁棒性的几何描述符V。将正方形边长分成K等份,正方形则细分为K2个小正方形,如图1(a)所示。模型M上的所有点向正方形切平面块上投影,如果投影点在正方形内,此点则肯定在K2个小正方形中的某一个正方形内,称该点属于该小正方形或者称小正方形包含该点。每个小正方形的描述符是其包含所有点投影距离的平均值。考虑到人脸模型的几何特征,有些人脸部分存在于正方形上面,有些部分则存在于正方形下面,因此每个点的投影距离有正负之分。整个正方形切平面块的描述符V是所有小正方形描述符的简单串联。在实验部分,本文将对边长L和划分的小正方形个数K2对分类的准确率进行对比研究。
使用每个小正方形包含所有点的平均投影距离作为描述符,使得该描述符对噪声、数据分解和分辨率上的变化具有鲁棒性,这在实验部分有所体现。许多三维几何特征已经在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。这些描述法都根据局部坐标系定义并且依赖于大量的平面法向量,使噪声数据对结果产生一定影响。和以上描述法相比,本文描述符取平均投影距离,并且正方形取的足够大,使描述法更加简单、有效且具有鲁棒性。除三维几何特征外,许多文章也对三维模型投影生成的深度图进行了特征选取和处理。例如,Fanelli等[6-8]在深度图中选取patch,然后在patch中随机选取两个矩形框F1、F2,如图2所示。以像素点的深度值和几何法向量的X、Y、Z值作为随机森林的4个特征通道,F1和F2中所有像素点某个特征通道平均值的差值作为随机森林每棵树节点的二元测试。二元测试定义为:
本文在实验部分对上述特征选取方式与本文提出的正方形描述符在三维人脸区域标记上的结果进行了比较。
1.2 数据库与人脸区域分割
训练阶段的正方形切平面描述符均取自于高分辨率的人脸网格模型,这些训练模型由Basel Face Model (BFM)[20]生成。BFM是一个公开、可获得的基于PCA的三维形变模型,由200个人脸对象的高分辨率三维扫描创建而成。通过从一个正态分布取样的PCA系数,BFM能被用来生成任意数量的随机网格人脸。此外,在所有生成的人脸网格模型上,对应顶点的索引都是一样的。例如,在所有训练模型上,在鼻尖的顶点有相同的索引数字,这将带来诸多便利。对于训练模型,只需在任意一个BFM人脸模型上进行一次人脸区域的手动标记,即可知道每个训练模型要分割的区域上各点的索引,如每个模型鼻子区域的所有顶点索引都是一样的。
对训练模型进行手动分割标记(只需分割标记一次),将一个三维人脸模型分割为10个区域:左眉毛、右眉毛、左眼睛、右眼睛、左脸颊、右脸颊、鼻子、上嘴唇、下嘴唇、下巴,剩下部分属于其它区域。如图3所示,对三维人脸模型进行区域分割,不同的分割区域用不同颜色进行标记,每个区域包含很多三维人脸模型顶点。由于很多三维人脸模型额头部分包含的顶点相对较少,特征信息也相对较少,所以将额头区域划分至其它区域。人脸模型的每个区域包含的所有顶点属于同一类,根据上述BFM数据库特点可知,数据库中任何一个人脸模型每个区域包含的所有顶点索引都是一致的。
2 随机森林算法分类标记人脸区域
2.1 随机森林算法
分类回归树[21]是一个强大的工具,能够映射复杂的输入空间到离散或者分段连续的输出空间。一棵树通过分裂原始问题到更简单、可解决的预测以实现高度非线性映射。树上的每一个节点包含一个测试,测试的结果指导数据样本将分到左子树或是右子树。在训练期间,这些测试被选择用来将训练数据分组,这些分组对应着实现很好预测的简单模型。这些模型是由训练时到达叶子节点的被标记的数据计算而来,并且存储于叶子节点。Breiman[22]指出虽然标准的决策树单独使用会产生过拟合,但许多随机被训练的树有很强的泛化能力。随机被训练树的随机性包括两方面,一是用来训练每棵树的训练样本是随机选取的,二是每棵树上的二元测试是从使每个节点最优的测试集中随机选取的。这些树的总和称为随机森林。本文将三维人脸模型区域的标记与分割描述为一个分类问题,并利用随机森林算法来有效地解决它。
2.2 训练
训练数据集是由BFM生成的50个三维人脸模型。从每个模型上随机取n=10 000个顶点样本,每个顶点对应一个正方形切平面块。本文实验中森林由100棵树建立而成,森林里每个树由随机选取的一系列块(patch){Pi=Vfi,θi}构建而成。Vfi是从每个样本提取的特征,即正方形切平面描述符,f是特征通道的个数,正方形划分为K2个小正方形,f=K2。实值θi是这个样本所属的类别,例如鼻子区域类别设为数字1,那么鼻子区域内的顶点样本所对应的θ=1。建立决策树时,在每个非叶子节点上随机生成一系列可能的二元测试,该二元测试定义为:
这里的Pi∈{L,R}是到达左子树或右子树节点上的样本集合,wi是到左子树或右子树节点的样本数目和到父节点样本数目的比例,例如:wi=|Pi||P|。
2.3 测试
通过BFM生成55个三维人脸模型,其中50个人脸模型作为训练数据,剩下5个人脸模型作为测试数据。测试数据依然取10 000个样本点,并且知道每个样本点属于哪一个区域,通过测试数据计算三维人脸模型网格点分类的准确率。为了测试提出方法的有效性,研究过程中从网上下载获取了其它三维人脸模型,对人脸模型上的所有网格点通过之前训练好的随机森林模型进行分类。因为其它人脸模型与BFM生成人脸模型的尺寸、坐标单位等不一致,所以本研究对这些测试模型进行了后期处理,对正方形的边长按照模型尺寸的比例M行选取。
3 实验
3.1 数据集与实验环境
本文三维人脸标记与分割所用的训练和测试三维人脸模型由BFM生成,50个模型作为训练数据,5个模型作为测试数据。每个模型包含53 490个顶点和106 466个三角形网格,每个训练模型选取10 000个顶点样本。用C++和OpenGL、OpenCV等库对三维人脸模型数据进行采样,得到每个样本的正方形切平面描述符。在Matlab平台下用随机森林算法对数据集进行训练和测试,并对实验结果进行可视化。
3.2 实验结果
利用已训练好的模型对测试数据集上三维人脸模型的所有顶点进行分类,计算顶点分类的准确率。准确率(Accuracy Rate)计算公式为:
准确率=预测正确的顶点个数(m)人脸模型上所有顶点个数(N)
根据文献[10]提出的类似描述符参数选取以及参数优化策略,经过多次实验,研究发现正方形边长L和正方形划分的小正方形数目K2两个参数的选取对顶点分类准确率有着一定影响。实验中选取参数L∈{60,80,100}、参数K2∈{9,16,25,36}进行对比,具体对比结果如表1、表2所示(其中表1中K2为16,表2中L为80mm)。
根据上面两个表格,可以明显得出,L=80mm,K2=25时顶点分类准确率最高。接下来对L=80mm,K2=25情况下的三维人脸模型区域进行标记,可视化结果如图4所示,上边是原始三维模型数据,下边是标记后的结果。(a)、(b)模型标记图是由BFM生成的三维人脸模型区域标记的结果,模型有53 490个顶点。为了验证本文方法的一般性和对分辨率具有不变性,(c)~(e)模型标记图是非BFM生成的其它三维人脸模型的标记结果,模型约有5 000个顶点。以上所有图都是对三维人脸模型所有顶点进行标记的结果。
文献[6]~[8]中提到的基于深度图的特征提取方法(见图1),同样利用随机森林算法进行了实验,并与本文的正方形特征描述符的实验结果进行了比较,如表3所示。将深度图投影到96*96大小,深度图patch所取边长c深度图大小的比例和正方形所取边长与模型大小的比例相等。
由表3可得,对三维人脸模型顶点级分类和区域标记问题,本文提出的特征描述符的标记结果优于深度图patch特征选取方法。此外,由于深度图的一些局限性,直接对三维模型处理要比对深度图处理更有优势。
3.3 结果讨论与分析
图4中5个模型顶点数目、三角形面数目和头部姿势都不一样,验证了本文所提方法对于姿势、模型尺寸和模型分辨率具有较好的鲁棒性。并且其对不同的眉毛、眼睛、脸颊区域也能进行很好的区分,将左右眉毛、左右眼睛和左右脸颊用同一颜色、不同符号进行显示。本文提出的描述符和直接对三维模型处理的方法,与在深度图上选取特征方法相比具有一定优势。由于手动分割人脸区域时,很难避免分割粗糙,区域交界处有的部分顶点没有包含进去,因此在区域交界处顶点的分类误差会相对略大,特别是嘴唇之间的部分。另外,三维人脸模型中额头和下巴的顶点和特征相对较少,所以相较于其它区域,这两个区域的顶点分类误差也会略大。
4 结语
本文提出一种基于正方形切平面描述符的三维人脸区域标记方法。将这种几何特征描述符作为选取样本的特征,通过随机森林算法,对三维人脸模型进行区域分类和标记。该方法可有效识别出三维人脸模型的眉毛、眼睛、鼻子、嘴巴和脸颊等区域,这对三维人脸特征点的定位及其它三维人脸方面的研究都具有重要意义。本文提出的方法对三维人脸模型头部姿态、模型尺寸、模型分辨率具有较好的鲁棒性。和基于深度图的方法相比,本文提出的方法具有更好的泛化能力,是一种行之有效的特征提取方法。
然而,手动分割人脸区域的做法在一定程度上略显粗糙,特征选取速度亦仍需优化。同时,本文仅对三维模型上所有顶点所属区域进行标记,没有将标记后的结果结合三维分割算法进行区域分割优化。如何对相关算法加以改进,将是下一步需要解决的问题。
参考文献:
[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.
[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.
[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.
[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.
[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.
[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.
[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.
[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.
[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.
[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.
[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.
[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.
[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.
[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.
[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.
[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.
[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.
[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.
[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.
[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.
[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.
篇9
2.基于层次分析法FDM工艺中分层方案的决策张剑峰,彭安华,ZhangJianfeng,PengAnhua
3.页轮干式磨削Ti6Al4V合金霍文国,徐九华,傅玉灿,苏宏华,HuoWenguo,XuJiuhua,FuYucan,SuHonghua
4.基于博弈论的8自由度整车悬架参数优化设计宋崇智,赵又群,谢能刚,王璐,SongChongzhi,ZhaoYouqun,XieNenggang,WangLu
5.近空间飞行器泛函连接网络自适应预测控制都延丽,吴庆宪,姜长生,DuYanli,WuQingxian,JiangChangsheng
6.用户自主完好性监测新算法杨传森,徐肖豪,刘瑞华,赵鸿盛,YangChuansen,XuXiaohao,LiuRuihua,ZhaoHongsheng
7.改进的CFD/CSD耦合系统设计方法及其计算安效民,徐敏,陈士橹,AnXiaomin,XuMin,ChenShilu
8.基于带限随机信号相位谱的分数延时估计方法柏业超,张兴敢,唐岚,BaiYechao,ZhangXinggan,TangLan
9.噪声与共振环境下的数字助听器鲁棒声源定位法赵立业,李宏生,ZhaoLiye,LiHongsheng
10.简化Q矩阵的渐增式扩张生成算法杨淑群,丁树良,丁秋林,YangShuqun,DingShuliang,DingQiulin
11.动态数据驱动的森林火灾仿真框架及其实现燕雪峰,胡小林,古锋,郭松,YanXuefeng,HuXiaolin,GuFeng,GuoSong
1.微型CT系统适用的心肺运动检测新方法田丰,梁春峰,郭晓莲,胡广书
2.电子直线加速器辐射场优化的蒙特卡洛模拟赵洪斌,张新,包尚联,黄斐增,李泉凤
3.应用绿色半导体量子点进行乳腺癌原位成像许恒毅,ZoraidaP.Aguilar,苏怀朋,BenjaminJ.Jones,John.D.Dixon,熊勇华,魏华,AndrewY.Wang
4.7T磁共振seipin鼠活体无损显型陈春晓,刘雯卿,彭新桂,居胜红
5.不同扫描条件下的小动物成像评估贾鹏翔,王浩宇,闫镔,李磊,陈健,张锋,包尚联
6.锥束CT重建图像中环状伪影的拟合校正罗守华,吴婧,张波,陈功
7.帕金森大鼠模型的影像特性胡光霞,钱志余,孙涛,杨天明,王文宏,谢捷如
8.激光治疗鲜红斑痣手术机器人双目视觉系统的实时立体匹配唐晓英,应龙,刘伟峰
9.激光照射离体血液的衰变规律张枫,刘莹,杨成方,李雷
10.中风患者康复期运动皮层网络的功能磁共振成像郝冬梅,秦文,于春水,董会卿,刘楠
11.基于虚拟现实的血管内介入手术三维导丝运动模拟周正东,PascalHaigron,VincentGuilloux,AntoineLucas
12.基于高斯分解的乙醚-水溶液荧光光谱分析韩彩芹,宋春元,吴斌,刘莹,骆晓森,倪晓武
13.探针式光纤探头的有效检测深度李韪韬,钱志余,陈春晓,肖笛
14.水溶性近红外荧光发射的PbS量子点的合成与表征曹洁,李杉,邓大伟,顾月清
15.基于振动模型的呼吸运动估计与伪影反卷积校正许全盛,袁克虹,于丽娟,王文志,叶大田
16.IMRT逆向计划中的混合多目标梯度算法李国丽,盛大宁,王俊椋,景佳,王超,闰冰
17.非正定矩阵对磁共振扩散张量导出量的影响张怀岺,任红润,金新安,何青,高嵩
18.基于IHE-RO框架的一体化放疗信息管理系统构建邱学军,戴建荣,符贵山,黄金带,冒苏
19.基于功能核磁共振成像的右脑额下回情绪处理朱询,高嵩,胡佩诚
1.基于鲁棒性参数设计法的多超声电机驱动机器人的控制孙志峻,帅双辉,黄卫清,SunZhijun,ShuaiShuanghui,HuangWeiqing
2.冲击滑动耦合作用下的材料磨损魏勇强,王黎钦,WeiYongqiang,WangLiqin
3.基于潜在成分的时变系统损伤的概率神经网络分类袁健,周燕,吕欣,YuanJian,ZhouYan,LüXin
4.高速气流吹袭防护气动特性的数值模拟魏涛,张大林,WeiTao,ZhangDalin
5.边界层壁面振动诱导T-S波的直接数值模拟曹卫东,李跃,蒋婷,CaoWeidong,LiYue,JiangTing
6.在线稀疏最小二乘支持向量回归机及其应用赵永平,孙健国,王,ZhaoYongping,SunJianguo,WangJiankang
7.基于线性参数变化自适应观测器的鲁棒故障诊断陈伟,姜斌,张柯,杨浩,ChenWei,JiangBin,ZhangKe,YangHao
8.基于特征点运动矢量估计的动态序列图像运动目标跟踪黎宁,周建江,张星星,LiNing,ZhouJianjiang,ZhangXingxing
9.短消息公钥加密构造Tag-KEM方案陈原,陈丹,董庆宽,ChenYuan,ChenDan,DongQingkuan
10.基于支持向量机和线性判别分析的维数约减方法及其应用杨波,YangBo
11.更强的密钥交换可证安全模型任勇军,王建东,徐大专,庄毅,RenYongjun,WangJiandong,XuDazhuan,ZhuangYi
12.基于阴影信息的多视角SAR图像识别杨露菁,郝威,王德石,YangLujing,HaoWei,WangDeshi
1.绝缘层厚度对孔电解加工稳定性和精度的影响王维,朱荻,曲宁松,黄绍服,房晓龙,WangWei,ZhuDi,QuNingsong,HuangShaofu,FangXiaolong
2.基于信息公理的车间布局问题评价方法王晓勇,唐敦兵,楼佩煌,WangXiaoyong,TangDunbing,LouPeihuang
3.喷丸强化10Ni3MnCuAl钢的表面性能缪宏,左敦稳,王,汪洪峰,MiaoHong,ZuoDunwen,WangHongjun,WangHongfeng
4.高速铣削系统稳定性动态优化新方法宋清华,万熠,艾兴,赵军,刘战强,SongQinghua,WanYi,AiXing,ZhaoJun,LiuZhanqiang
5.局部粗糙边界层流中二维T-S波的非线性演化陆昌根,吴卫国,戚琴娟,LuChanggen,WuWeiguo,QiQinjuan
6.运动激波与气泡串相互作用的多介质数值模拟张军,任登凤,谭俊杰,ZhangJun,RenDengfeng,TanJunjie
7.基于格子Boltzmann方法的可压缩翼型绕流模拟钟诚文,李凯,孙建红,卓从山,解建飞,ZhongChengwen,LiKai,SunJianhong,ZhuoCongshan,XieJianfei
8.正交投影二次曲面立体图的斜置对称面检测王翔,丁运亮,WangXiang,DingYunliang
9.机会维修策略下的多部件系统可用度仿真蔡景,左洪福,吕德峰,CaiJing,ZuoHongfu,LüDefeng
10.基于运动物体高阶多普勒效应的横向速度估计张兴敢,柏业超,ZhangXinggan,BaiYechao
11.考虑位移的土压力计算方法张小平,胡明亮,ZhangXiaoping,HuMingliang
12.基于层次分析法的桥梁承载力检算方法张丽芳,艾军,ZhangLifang,AiJun
1.5坐标数控加工刀轴矢量规划方法姬俊锋,周来水,安鲁陵,张森棠,JiJunfeng,ZhouLaishui,AnLuling,ZhangSentang
2.基于弯振模态的螺纹杆式直线超声电机张健滔,黄卫清,朱华,赵淳生,ZhangJiantao,HuangWeiqing,ZhuHua,ZhaoChunsheng
3.两自由度球面并联机构动力学分析李成刚,王化明,朱剑英,LiChenggang,WangHuaming,ZhuJianying
4.基于封闭空间辐射模态的结构声有源控制姜顺明,陈南,JiangShunming,ChenNan
5.并联式混合动力车能量控制策略设计王爱华,WangAihua
6.支持向量机的正定核谢志鹏,XieZhipeng
7.类生物化自适应制造系统控制结构王雷,唐敦兵,万敏,袁伟东,许美健,WangLei,TangDunbing,WanMin,YuanWeidong,XuMeijian
8.涡扇发动机排气系统斜切波瓣强迫混合器气动和混合特性数值研究单勇,张靖周,徐亮,ShanYong,ZhangJingzhou,XuLiang
9.航天器推进剂晃动与控制系统之间耦合效应的混合型估算方法齐乃明,董锴,李运迁,赵宝山,QiNaiming,DongKai,LiYunqian,ZhaoBaoshan
10.低空空域航空器飞行安全分析王世锦,隋东,WangShijin,SuiDong
11.基于Voronoicell的RNNk近似查询与计算郝忠孝,李博涵,HaoZhongxiao,LiBohan
1.燃气驱动弹跳器郭坚毅,王化明,朱剑英,王正东,GuoJianyi,WangHuaming,ZhuJianying,WangZhengdong
2.模糊自组织网络在刀具磨损状态监测中的应用申志刚,何宁,李亮,ShenZhigang,HeNing,LiLiang
3.辊弯成形仿真分析与参数优化郭烈恩,赵亚莉,涂文斌,GuoLieen,ZhaoYali,TuWenbin
4.等离子体气动激励的诱导气流速度的实验研究李益文,李应红,周章文,贾敏,宋慧敏,吴云,LiYiwen,LiYinghong,ZhouZhangwen,JiaMin,SongHuimin,WuYun
5.新的被动自适应起落架缓冲器设计与着陆性能研究朱书华,童明波,许杰,ZhuShuhua,TongMingbo,XuJie
6.平行航路安全评估新方法隋东,SuiDong
7.串联磁路混合励磁爪极发电机的研究赵朝会,秦海鸿,严仰光,ZhaoChaohui,QinHaihong,YanYangguang
8.基于改进微粒群算法的无人机姿态控制参数智能整定浦黄忠,甄子洋,王道波,胡勇,PuHuangzhong,ZhenZiyang,WangDaobo,HuYong
9.基于距离和角度信息的无线传感器网络定位算法诸燕平,黄大庆,ZhuYanping,HuangDaqing
篇10
关键词:拉格朗日力学; 图像预测; 图像追踪; 天气雷达; 临近预报
DOIDOI:10.11907/rjdk.162240
中图分类号:TP317.4
文献标识码:A文章编号:1672-7800(2016)012-0001-04
0 引言
多普勒天气雷达(以下简称雷达)是现代气象业务研究及应用中不可或缺的重要工具,基于雷达回波及图像的追踪与外推是短时临近预报的关键性技术,也是长期以来的难点问题。准确而及时的雷达外推预报,可以为局地龙卷风、雷暴、短时强降水等极端灾害性天气提供预警,以便做好防御措施,最大限度保障人民及生命财产安全。
近半个世纪以来,很多学者在基于雷达资料的预报领域作出了大量卓有成效的贡献,并逐步形成了一系列较为通行的方法。例如,TREC算法通过逐区域寻求相邻时刻雷达反射率的最大相关,跟踪整个回波区域的移动,并且假设回波具有一致的移动方向[1]。CTREC算法则利用交叉相关分析,跟踪反射率因子大于一定阈值区域的移动,进而推算回波的发展[2]。TITAN是由美国国家大气研究中心(NCAR) 研发的一套风暴识别、跟踪、分析和预报系统,其利用雷达一次完整体扫所构成的三维结构数据对强回波中心进行识别追踪[3-4]。SCIT算法则更加侧重对雷暴单体的有效追踪和预测[5-7]。近年来,又有一些学者试从图形图像学中的光流技术入手,通过分析雷达回波时序图像中的光流场特征进行回波强度和位置的外推预测[8-11]。此外,还有基于神经网络、模式匹配等多种方法[12-14]。
总体来说,这些方法的共同之处是需要分析相邻时刻雷达图像(或基数据)中区域的相似性,而该相似性的度量,如最大相关法,虽然可以计算出最匹配的位置,但匹配和外推结果往往表现出发散性或多个最优解。并且,基于窗口平移的模板匹配算法无法适应区域图像的旋转和变形等情况。
为了克服相关性度量算法所遇到的问题,本文考虑对位移场的分析加以分层,也就是每个特征运动被认为是确定在相对粗糙的空间分辨率下的平稳变化趋势的总和,然后衍生为更高的空间分辨率下的小幅度局部修正,并对此过程进行多次迭代。对于位移场的分析,将充分考虑雷达回波所指示风暴的动力学特征,运用拉格朗日力学相关理论构建预测模型。该方法的研究意义在于进一步提高中小尺度、强对流天气事件的预测能力,且相对于光流等一些大运算量算法,本方法运算规模更小,进而能够更好地满足短临预报业务高时效性的要求。
1 理论与方法基础
1.1 雷达回波外推预测
大量研究表明,合理的外推预测算法可以为降水、雷暴、冰雹等对流天气的预报提供重要支撑[15-17]。基于外推预报的一般性描述为:
其中,pt(x,y)表示任一位置的回波强度,U和V分别表示回波在水平和垂直方向上的偏移量,由U和V共同组成回波移动的速度矢量。g表示一个函数,用来计算单位时间间隔后回波强度的变化。根据式(1),Δpt(x,y)反映了任一点(x, y) 在t 时刻回波强度的变化情况,U和V反映了回波移动的方向和速度。此外,函数g代表一个拉格朗日动力学过程,在此过程中雷达回波的强度是由其沿回波路径移动时在拉格朗日坐标系统中的历史变化推导出的,也就是用当前回波演变的趋势预测回波未来的位置和强度。究其趋势预测的方法,多年来诸多学者作出很多研究,本文主要从拉格朗日力学角度进行分析,提出一种雷达回波图像追踪预测的方法。
1.2 拉格朗日力学
拉格朗日力学是由Joseph Lagrange[18-19]最早提出的一种力学分析方法。由于该方法引用了广义坐标的概念,使得对力学相关问题的研究更具普适性。
在雷达回波图像预测研究中,如何准确得到回波运动矢量是预测需要解决的关键问题。在不考虑天气系统的非线性变化时,拉格朗日力学模型能够满足构建回波发展演变过程的算法要求,式(1) 可以改写为:
有研究表明,对整个回波图像采用统一的U和V所构成的位移矢量,可适用于对大尺度天气系统的预测分析,如对卫星图像的外推预测和云导风的分析[20]。但对于局地强对流天气系统,预测结果往往与实际偏差较大。因此,这也是本文将重点阐述解决的问题。
2 雷达图像追踪预测
2.1 基于拉格朗日力学的追踪算法
在上述理论基础上,根据大气运动演变发展的规律及其在雷达回波图像上的表征特点,构建基于拉格朗日力学的追踪算法模型,如式(3) 所示。
该模型假定所预测的回波图像是当前和过去若干个回波图像以固定时间间隔而变化的函数。f2表征一个用于估测单位时间间隔前后回波图像各相应网格点回波强度值变化率的函数,即回波的演变趋势。在不断生消、发展的对流系统中,ΔP可以为正,也可以为负数。式(4)~式(6) 进一步表明了函数f1和f2,即回波移动矢量及回波强度的计算方法。
2.2 中心极值滤波
为了降低雷达杂波对位移矢量计算的不良影响,本节提出采用一种滤波器对雷达基数据进行滤波处理。其基本思想是:逐网格分析回波强度特征,如果某格点的值大于周边最相邻一圈(共8个网格)的最大值,或者该值小于周边最相邻一圈的最小值,则将当前网格点回波强度值用上述8个网格的最大值或最小值替代。
如图1所示,位于当前中心点的数值39大于其最邻近一圈8个网格的最大值。因此,使用数值23替换当前网格的39。
从图像上看,该滤波方法可显著降低图像中的椒盐噪声,从实际效果上看,该方法可以有效过滤单点的杂波奇异值,较传统的均值滤波和中值滤波更好地保留了回波细节[21-22],特别是回波中梯度变化较大的边缘区域。
2.3 分层外推预测算法
由于天气系统复杂多变,特别是尺度较小的局地强对流,其生命周期短的只有几分钟到几十分钟,由于其空间尺度小,生消速度快,因此,包括基于拉格朗日力学在内的各种线性关系外推算法,其预测准确性都存在一定的局限性。为了改善这一问题,本节提出采用分层的外推预测方法。该思想最早由Bellerby等 [20]提出,并研究应用于卫星图像的云顶平流场分析中。
该算法的关键流程为:先将当前雷达回波图像逐级抽稀,降低图像的分辨率,以模糊回波细节,由此粗略估算出回波主体的移动趋势;然后再反向逐级提高图像分辨率,在较粗的移动趋势基础上,细化和订正位移矢量的细节。从而产生一个在空间上连续和平滑的且不受模板边界不连续性影响的矢量场。计算方法如式(7)所示:
对于每一级抽稀计算,都是将当前一级各网格点的回波强度值经由公式(7)计算,并往复迭代。其中P表示某一点的回波强度,L和L-1代表抽稀的层级,在本文下述实验中,采用的最高层级为4。
在计算两个相邻时刻图像中回波的位移时,可以借鉴交叉相关法,计算方法如式(8),在每个选定的匹配窗口遍历出最大相关矩阵的位置,从而输出位移矢量。
式(8) 中,P和P’ 分别表示相邻两个时刻(如t-Δt与t)的回波,(x, y) 表示图像中的某一点,X和Y表示匹配窗口的大小。再将两幅回波图像之间的网格还原或内插到其先前空间分辨率的两倍,重复上述匹配。该迭代过程还考虑到了由非矩形网格代表的局部扭曲,结合这些局部扭曲,使外推预测算法能够适应旋转、扩展、缩小等回波图像形态上的变化。如此插值和匹配计算,迭代直到网格分辨率达到原始雷达图像分辨率。
3 实验与结果分析
3.1 实验数据说明
为检验所述方法的预测效果,本实验数据使用2016年6月南京地区多普勒天气雷达的基数据文件。该雷达使用VCP-21体扫模式,探测周期为6分钟。实验选用1.5°和2.4°仰角的基本折射率数值。为方便计算,实验前将原始数据由极坐标系统转换为平面直接坐标系统,数据的图像分辨率为920×920。为减少样本数量,从全部7199个基数据文件中筛选出以230库长为半径,其覆盖区域内具有大面积强回波的数据文件,共计880个。
3.2 实验结果分析
为检验雷达回波图像预测的准确性,使用与预测同一时刻的雷达实际探测数据作比对分析,计算过程采用交叉相关检验法。
首先以自然日为单位,统计逐日样本数据中每份预测结果与实况交叉检验的相关系数的平均值,如图2所示。
图2中3种图案标记分别表示预测6分钟、30分钟和60分钟的检验结果,每个值代表当日所有样本检验结果的平均值。横坐标为2016年6月的逐个日期,纵坐标为相关系数,其中横坐标4、5、9、10等日期没有标记图案,原因是这些日期的当日为晴天或少云,体现在雷达上没有强的大面积回波,因此没有列入样本数据进行分析。从图2中还可以看出,本方法预测未来6分钟的结果与实况相比,相关系数超过87%,平均达到93%以上,而随着预测时效的延长,预测准确率逐步下降,在未来60分钟的预测中,全月平均相关系数为70%左右。
进一步统计分析每次预测准确率的稳定性。以6月19日全天样本数据为例,统计每批样本所预测6、12、18至60分钟结果分别与实况交叉相关检验的情况,如图3所示。
图3中,每个柱状条的顶端和底端分别表示检验的相关系数的最大值和最小值,柱状条中间的黑色方形表示相关系数的均值。可以看出,随着预测时效的增长,其预测准确率的个体差异也随之增大。在前6分钟的预测中,该差异约为3%,30分钟时约为8%,而到预测60分钟时,差异进一步增大到20%。结果与强对流天气系统具有生命史短、突发性强,水气生消发展变化快的特点是相一致的。
4 结语
由于天气系统复杂多变,特别是对于中小尺度的对流系统,其生消、发展时间短、变化快,如何进行准确、有效的预报是提升当今短时临近预报的关键环节之一。考虑到大气中水气等物质的移动变化应遵循一般力学规律,而拉格朗日力学正是表征和计算动力学问题的普适性方法,因此,本文的预测动力模型建立在拉格朗日力学关系基础之上。又由于天气系统的变化表现在雷达图像上,其回波图形具有相当的不确定性,因此,本文提出采用分层的位移场分析方法,先假定位移矢量是在相对粗糙的空间分辨率下的平稳变化趋势的总和,然后在更高空间分辨率下作小幅度局部修正,并如此进行多次迭代。为了减少低仰角杂波对实验结果的影响,提出采用中心极值滤波对实验数据进行处理。结合上述理论构建起基于拉格朗日力学的追踪预测模型及算法流程,以雷达基本反射率因子作为输入场,追踪和预测回波在空间和时间上的位移矢量,并由此预测未来一段时间雷达回波的位置和强度。
实验部分采用1个月样本数据对本算法模型进行检验,通过预测结果与同时刻实况的比对分析,得出两者的相关性和个例稳定性等评价指标。结果表明,该方法能够较好地预测局地天气系统的演变过程,在未来30分钟的预测中准确率平均超过80%,且对于辅助预报未来60分钟内的局地龙卷风、强降水、雷暴等灾害性事件具有实践应用的价值。
参考文献:
[1] 刘红艳,魏鸣.多普勒雷达风场资料在临近预报中的应用[J].大气科学学报,2015(4):483-491.
[2] 郑永光,林隐静,朱文剑,等.强对流天气综合监测业务系统建设[J].气象,2013(2):234-240.
[3] 周康辉,郑永光,蓝渝.基于闪电数据的雷暴识别、追踪与外推方法[J].应用气象学报,2016,(2):173-181.
[4] DIXON M, WIENER G.TITAN:thunderstorm identification,tracking,analysis,and nowcasting―a radar-based methodology[J].Journal of Atmospheric & Oceanic Technology, 1993, 10(6):785-797.
[5] SHAH S, NOTARPIETRO R, BRANCA M.Storm identification,tracking and forecasting using high-resolution images of short-range X-band radar[J].Atmosphere, 2015, 6(5):579-606.
[6] 庄旭东,胡胜,陈荣,等.“雨燕”中风暴算法与新一代雷达SCIT产品的对比分析[J].热带气象学报,2011(3):299-306.
[7] DUAN Y, XU Y, ZHI S.Application analysis of the hail suppression operation based on the improved SCIT Algorithm[J].Meteorology & Disaster Reduction Research, 2014(15):23-29.
[8] 曹春燕,陈元昭,刘东华,等.光流法及其在临近预报中的应用[J].气象学报,2015(3):471-480.
[9] GARCIA F, CERRI P, BROGGI A, et al.Data fusion for overtaking vehicle detection based on radar and optical flow[J].2012, 7(2272):494-499.
[10] 王兴,王新,苗春生,等.基于GPU加速的雷暴追踪外推方法研究[J].南京师范大学学报:工程技术版,2015(1):35-42.
[11] STAINVAS OLSHANSKY I, BILIK I, BIALER O.Doppler-Based Segmentation and Optical Flow in Radar Images: US20160084953[P].2016.
[12] 盛仲飙.BP神经网络在数据预测中的应用[J].软件导刊,2016(1):147-148.
[13] 王利卿,黄松杰.基于多尺度卷积神经网络的图像检索算法[J].软件导刊,2016(2):38-40.
[14] WANG X, GU Y H, MIAO C S, et al.Parallelization and performance optimization of radar extrapolation algorithm with OpenCL[J].Journal of Internet Technology, 2016(17):323-330.
[15] .雷达外推预报与暴雨数值模式融合预报降水方法研究[D].北京:中国气象科学研究院,2013.
[16] 张蕾.多普勒雷达回波演变的动力学分析及临近预报算法改进[D].南京:南京信息工程大学,2015.
[17] FOX N I, WEBB R, BALLY J, et al.The impact of advanced nowcasting systems on severe weather warning during the sydney 2000 forecast demonstration project:3 November 2000[J].Weather & Forecasting, 2004, 19(1):97-114.
[18] 李艳艳.相似空间中不变的欧拉-拉格朗日方程[J].河南大学学报:自然科学版,2014,03:273-276.
[19] ERICKSEN R E, GUITERAS J J, LARRIVEE J A, et al.A parachute recovery system dynamic analysis [J].Journal of Spacecraft & Rockets, 1967, 4(3):321-326.
[20] BELLERBY T J.High-resolution 2-D cloud-top advection from geostationary satellite imagery[J].IEEE Transactions on Geoscience & Remote Sensing, 2006, 44(12):3639-3648.