卷积神经网络存在的问题范文

时间:2024-03-29 16:55:31

导语:如何才能写好一篇卷积神经网络存在的问题,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

卷积神经网络存在的问题

篇1

关键词:机器学习;深度学习;推荐算法;远程教育

深度学习(DeepLearning),也叫阶层学习,是机器学习领域研究的分支,它是学习样本数据的表示层次和内在规律,在学习的过程中获取某些信息,对于数据的解释有巨大帮助。比如对文字数据的学习,在网络上获取关键字,对图像数据的学习,进行人脸识别等等。

一、深度学习发展概述

深度学习是机器学习领域里一种对数据进行表征学习的方法。一句话总结三者之间的关系就是:“机器学习,实现人工智能的方法;深度学习,实现机器学习的技术。深度学习目前是机器学习和人工智能领域研究的主要方向,为计算机图形学、计算机视觉等领域带来了革命性的进步。机器学习最早在1980年被提出,1984年分类与回归树出现,直到1986年,Rumelhart等人反向传播(BackPropaga-tion,BP)算法的提出,解决了感知模型只能处理线性分类的问题,1989年出现的卷积神经网络(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的发展。在1990年至2012年,机器学习逐渐成熟并施以应用,GeoffreyHinton在2006年设计出了深度信念网络,解决了反向传播算法神经网络中梯度消失的问题,正式提出了深度学习的概念,逐渐走向深度学习飞速发展的时期。随后,各种具有独特神经处理单元和复杂层次结构的神经网络不断涌现,深度学习技术不断提高人工智能领域应用方面的极限。

二、深度学习主要模型

1、卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是指有着深度结构又包含着卷积计算的前馈神经网络。卷积物理上理解为系统某一时刻的输出是有多个输入共同叠加的结果,就是相当于对一个原图像的二次转化,提取特点的过程。卷积神经网络实际上就是一个不断提取特征,进行特征选择,然后进行分类的过程,卷积在CNN里,首先对原始图像进行特征提取。所以卷积神经网络能够得到数据的特征,在模式识别、图像处理等方面应用广泛。一个卷积神经网络主要由三层组成,即卷积层(convolutionlayer)、池化层(poolinglayer)、全连接层(fullyconnectedlayer)。卷积层是卷积神经网络的核心部分,通过一系列对图像像素值进行的卷积运算,得到图像的特征信息,同时不断地加深节点矩阵的深度,从而获得图像的深层特征;池化层的本质是对特征图像进行采样,除去冗杂信息,增加运算效率,不改变特征矩阵的深度;全连接将层间所有神经元两两连接在一起,对之前两层的数据进行分类处理。CNN的训练过程是有监督的,各种参数在训练的过程中不断优化,直到得到最好的结果。目前,卷积神经网络的改进模型也被广泛研究,如全卷积神经网络(FullyConvolutionalNeuralNetworks,FCN)和深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循环神经网络区别于卷积神经网络在图片处理领域的应用,循环神经网络(RecurrentNeuralNetwork,RNN)主要应用在自然语言处理领域。RNN最大的特点就是神经元的输出可以继续作为输入,再次利用到神经元中循环使用。RNN是以序列的方式对数据进行读取,这也是RNN最为独特的特征。RNN的串联式结构适用于时间序列的数据,可以完好保持数据中的依赖关系。循环神经网络主要有三层结构,输入层,隐藏层和输出层。隐藏层的作用是对输入层传递进来的数据进行一系列的运算,并将结果传递给输出层进行输出。RNN可用于许多不同的地方。下面是RNN应用最多的领域:1.语言建模和文本生成,给出一个词语序列,试着预测下一个词语的可能性。这在翻译任务中是很有用的,因为最有可能的句子将是可能性最高的单词组成的句子;2.语音识别;3.生成图像描述,RNN一个非常广泛的应用是理解图像中发生了什么,从而做出合理的描述。这是CNN和RNN相结合的作用。CNN做图像分割,RNN用分割后的数据重建描述。这种应用虽然基本,但可能性是无穷的;4.视频标记,可以通过一帧一帧地标记视频进行视频搜索。3、深度神经网络深度神经网络(deepneuralnetworks,DNN)可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(Mul-ti-Layerperceptron,MLP)。DNN内部的神经网络层也是分为三类,输入层,隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。深度神经网络(DNN)目前作为许多人工智能应用的基础,并且在语音识别和图像识别上有突破性应用。DNN的发展也非常迅猛,被应用到工业自动驾驶汽车、医疗癌症检测等领域。在这许多领域中,深度神经网络技术能够超越人类的准确率,但同时也存在着计算复杂度高的问题。因此,那些能够解决深度神经网络表现准确度或不会增加硬件成本高效处理的同时,又能提升效率和吞吐量的技术是现在人工智能领域能够广泛应用DNN技术的关键。

三、深度学习在教育领域的影响

1、学生学习方面通过网上学习的实时反馈数据对学生的学习模式进行研究,并修正现有教学模式存在的不足。分析网络大数据,相对于传统在线学习本质区别在于捕捉学生学习过程,有针对性,实现学生个性化学习。举个例子,在学习过程中,可以通过学习平台对学生学习课程所花费的时间,参与的程度,知识的偏好等等数据加以分析。也可以通过学生学习某门课程的次数,鼠标点击次数、停留的时间等,来推断学生学习情况。通过以上或类似数据汇总分析,可以正向引导学生学习,并给予积极的学习评价。这种利用计算机收集分析出来的客观数据,很好展示了学生学习行为的结果,总结学习规律,而不需要教师多年的教学经验来判断。对于教育研究者而言,利用深度学习技术可以更客观准确地了解学生,使教学工作良好发展更进一步。2、教学方面学习平台的数据能够对教学模式的适应度进行预测,通过学生的考试成绩和对教师的线上评价等加以分析,能够预测出某一阶段的教学方式发发是否可行,影响如何。通过学生与教师的在线互动,学生测验时完成的时间与完成的结果,都会产生大量的有效的数据,都可以为教师教学支持服务的更好开展提供帮助,从而避免低效率的教学模式造成教学资源的浪费。

四、成人远程教育中深度学习技术的可应用性

深度学习方面的应用在众多领域都取得了成功,比如电商商品推荐、图像识别、自然语言处理、棋类博弈等等。在远程教育方面,深度学习的技术还有很大的发挥空间,智能网络教育的实现是人们的众望所盼。若要将深度学习技术应用到远程教育平台,首先要清楚学生的需求和教学资源如何分配。1、针对学生的学习需求与学习特征进行分析美国斯坦福大学克里斯皮希研究团队的研究成果显示,通过对学生知识学习进行时间建模,可以精确预测出学生对知识点的掌握情况,以及学生在下一次学习中的表现。深度学习的应用可以帮助教师推测出学生的学习能力发展水平。通过学生与教学环境的交互行为,分析其学习风格,避免教师用经验进行推断而产生的误差。2、教学资源的利用与分配深度学习技术能够形成智能的分析结论。计算机实时采集数据集,对学生的学习情况加以分析,使教师对学生的学习状态、情绪状态等有更加清晰、准确的了解。有了上面良好的教学模式,教师对学生的学习状态有了更准确的掌握,对学生的学习结果就有了更科学的教学评价。基于深度学习的人工智能技术,还可以辅助教师实现智能阅卷,通过智能阅卷自动总结出学习中出现的问题,帮助教师减少重复性劳动,减轻教师负担。作为成人高校,远程教育是我们的主要教学手段,也是核心教学方式,学校的教学必定是在学生方便学习的同时,以学生的学习效果为重。通过深度学习技术,可以科学地分析出学生的学习效果,对后续教与学给予科学、可靠的数据支撑。我们可以在平台上为每位同学建立学习模型,根据学生的学习习惯为其定制个性化方案,按他们的兴趣进行培养,发挥他们专业的潜能。同时,可以将学生正式在线参加学习和考试的学习行为和非学习时间浏览网站的行为结合到一起,更加科学地分析出学生在学习网站上感兴趣的地方。采用深度学习算法,根据学生学习行为产生的海量数据推算出学生当前状态与目标状态之间的差距,做到精准及时的学习需求反馈。有助于帮助学生明确学习目标,教师确立教学目标,真正做好因材施教。基于深度学习各种智能识别技术,可以为教师的线上教学活动增光添彩,在反馈学生学习状态的同时,采用多种形式的教学方法吸引学生的注意力,增强教学活动的互动性,达到良好的教学效果。

篇2

关键词:图像复原;盲复原;逆滤波;神经网络复原

1 图像退化及复原模型

1.1 图像降质的数学模型

图像复原处理的关键问题在于如何建立退化模型。假定输入图像f(x,y)经过某个退化系统后输出的是一幅退化的图像。为了方便讨论, 把噪声引起的退化(即噪声)对图像的影响一般作为加性噪声考虑,这也与许多实际应用情况一致,如图像数字化时的量化噪声、随机噪声等就可以作为加性噪声,即使不是加性噪声而是乘性噪声,也可以用对数方式将其转化为相加形式。原始图像f(x,y) 经过一个退化算子或系统H(x,y) 的作用,然后和噪声n(x,y)进行叠加,形成退化后的图像g(x,y)。图像退化的过程可以用数学表达式写成如下的形式:

g(x,y)=H[f(x,y)]+n(x,y)

n(x,y)是一种统计性质的信息下图表示退化过程的输入和输出的关系,其中H(x,y)包含了退化系统的物理过程,即所要寻找的退化数学模型。

1.2 图像的退化恢复模型

数字图像的图像恢复问题可以看作是:根据退化图像g(x ,y)和退化算子H(x ,y)的形式,沿着逆向过程去求解原始图像f(x ,y), 或者说逆向地寻找原始图像的最佳近似估计。

2 研究背景与意义

图像复原是数字图像处理技术的一个重要研究方向,在现实生活中,有着非常广阔的应用前景和市场。数字图像处理研究很大部分是服务于数字图像复原的,而运动模糊图像的复原又是图像复原中的重要课题之一,从六十年代起就有人研究它。初期研究的主要原因是对卫星所拍摄的图像进行复原,因为卫星相对地球是运动的,所拍出的图像是模糊的(当然卫星所拍摄图像的模糊原因不仅仅是相对运动而造成的,还有其他原因如大气湍流所造的模糊等等)。美国的喷气推进实验室(JPL)对徘徊者飞行器发回的月球照片进行了图像恢复处理。传统的图像恢复方法可以很好地恢复出来原始图像,但是需要事先知道系统的先验知识(例如系统的点扩散函数)。在先验知识不足的情况下,如何恢复出来原始图像?这就需要模糊图像盲恢复技术。根据不同的应用背景和先验知识,大致可以两种方法恢复两种类型的模糊图像,以满足不同的应用要求。

第一种方法:如何快速恢复模糊图像,进行适时性图像处理?这个技术在实际生活中有着广泛应用。

第二种方法:如何在事先不能确定模糊系统点扩散函数的情况下,恢复模糊图像,改善图像的质量,这就是图像盲恢复的问题。

3 国际国内研究发展和现状

从历史上来看,数字图像处理研究有很大部分是在图像恢复方面进行的,包括对算法的研究和针对特定问题的图像处理程序的编写。数字图像处理中很多值得注意的成就就是在这两方面取得的。

在六十年代中期,去卷积(逆滤波)开始被广泛地应用于数字图像恢复。这一阶段对模糊图像的研究主要是把因相对运动而拍摄的模糊图像复原过来,从而增强人们的判读能力。早期做图像复原研究,主要强调尽可能使模糊图像复原到原貌,增加它的判读性,在此发展了很多的复原方法,诸如:差分复原、维纳滤波等.这些方法各有特点,较好的解决了运动模糊图像的判读问题,但是在应用上均有一定的限制。

虽然经典的图象复原方法不少,但归纳起来大致可分为逆滤波法,或称相关变换法( inv ersefiltering or t ransfo rm related techniques) 和代数方法( alg ebraic techniques) 两种。

3.1 传统复原法

3.1.1 逆滤波方法

逆滤波法大致有经典逆滤波法、维纳滤波法、卡尔曼滤波法等. 其中,在傅立叶变换域,经典逆滤波的变换函数是引起图象失真的变换函数的逆变换,其虽在没有噪声的情况下,可产生精确的复原图象,但在有噪声时,将对复原图象产生严重的影响,虽然滤波函数经过修改,有噪声的图象也能复原,但它仅适用于极高信噪比条件下的图象复原问题; 维纳滤波法是通过选择变换函数,同时使用图象和噪声的统计信息来极小化均方复原误差,这虽然在一定程度上克服了逆滤波法的缺点,但是维纳滤波法需要较多有关图象的先验知识,如需要对退化图象进行满足广义平稳过程的假设,还需要知道非退化图象的相关函数或功率谱特性等等,而在实际应用中,要获得这些先验知识有较大的困难,为此,Ozkan 等人在研究图象序列的复原问题时,提出了一种解决空间和时间相关性的多帧维纳滤波法,是近年来维纳滤波法的新发展; 卡尔曼滤波是一种递归滤波方法,其虽可用于非平稳图象的复原,但是因计算量过大,而限制了其实际应用的效果。 Wu 和Kundu 又对卡尔曼滤波方法进行了改进,不仅提高了速度,并考虑了应用于非高斯噪声的情况; Cit rin 和Azimi-Sadjadi 也对卡尔曼滤波方法进行了改进,提出了块卡尔曼滤波方法; Koch 等提出了扩展卡尔曼滤波( extended Kalmam filter) 复原方法,该方法可以较好地复原模糊类型不相似的退化图象.除了上述的逆滤波方法外,还有参数估计滤波法,它实质上是维纳滤波法的变种. 20 世纪90 年代初,又提出了基于递归图象滤波的自适应图象复原方法及合成滤波方法,它代表了滤波方法新的发展方向. 1998 年Kundur 等人首先明确提出了递归逆滤波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又进行了改进,即在代价函数中增加了空间自适应正则化项,从而很好地抑制了噪声,并减少了振铃现象,较好实现了在低SNR 条件下的盲图象复原. 2001 年,Eng 等人结合模糊集的概念,提出了自适应的软开关中值滤波方法,它能在有效地去掉脉冲噪声的同时,很好地保存图象的细节,是一种值得重视的新的图象复原方法。

3.1 2 代数方法

Andrews 和Hunt 提出了一种基于线性代数的图象复原方法。这种方法可能比较适合那些相对于积分运算,则更喜欢矩阵代数,而相对于分析连续函数,又更喜欢离散数学的人的口味。它为复原滤波器的数字计算提供了一个统一的设计思路。代数方法可分为伪逆法、奇异值分解伪逆法、维纳估计法和约束图象复原方法等。 其中,伪逆法,实质上是根据图象退化的向量空间模型来找到引起图象退化的模糊矩阵,但由于模糊矩阵总是很大的,因此在计算上往往不可行; 而奇异值分解伪逆法则是利用矩阵可分解成特征矩阵系列的思想,将模糊矩阵进行分解,由于简化了计算,从而有利于模糊矩阵的估计计算,但在有噪声存在时,经常会出现不稳定的现象; 维纳估计法虽然考虑了噪声的情况,但它仅适合噪声是二维随机过程,且已知其期望和协方差的情况。前面的方法仅把图象看成是数字的阵列,然而一个好的复原图象应该在空间上是平滑的,其在幅度值上是正的,而约束图象复原方法就是将这些因素作为约束条件,如基于维纳估计法和回归技术而提出的图象复原方法就是一种约束图象复原方法,而且通过选取不同的约束参数和回归方法可以得到不同的图象复原算法。传统的图象复原算法或面临着高维方程的计算问题,或要求恢复过程满足广义平稳过程的假设,这就是,使得具有广泛应用价值的图象复原问题没有得到圆满的解决的根本原因。

3.2 神经网络图象复原的方法

神经网络图象复原方法的发展方向自从神经网络图象复原首次提出十多年来,其研究在不断地深入和发展,描述它的现状已属不易,展望它的未来更是困难,况且科学研究具有不确定性. 据笔者判断,如下诸方面是亟待解决的问题,或研究活动已有向这些方面集中的趋势。

3. 2.1小波神经网络用于图象复原将是研究的重点

自1992 年Zhang 提出小波神经网络以来,如今已提出了各种类型的小波网络,且小波与神经网络的结合成了一个十分活跃的研究领域。通过学者们的理论分析和模拟实验表明: 由于小波神经网络具有逼近能力强、可显著降低神经元的数目、网络学习收敛的速度快、参数( 隐层结点数和权重) 的选取有理论指导、能有效避免局部最小值问题等优点,因此将其用于图象复原是一个值得研究的方向。将小波的时频域局部性、多分辨性等性质,与神经网络的大规模并行性、自学习特性等优点结合起来,不仅将使用于图象复原的小波神经网络具有自适应分辨性,也将使正则化参数的选取更具有自适应能力. 最终使复原图象既能保持图象的细节,又能很好地抑制图象中的各种噪声。

3.2.2细胞神经网络、BP 网络、自组神经网络

值得进一步研究细胞神经网络( CNN ) 由于其具有易于硬件实现的特点,因而具有很强的商业价值,但由于其自身还有很不成熟的地方,因此值得深入地研究. 其研究方向有: 细胞神经网络理论基础的进一步完善及在此基础上建立细胞神经网络中邻域系统的概念; 与图象数据局部相关性等概念结合起来研究,以建立新的图象复原理论,形成新的图象复原技术。BP 网络对受污染或带噪声的训练样本,不仅能进行正确的映射,且与其纯样本仍相似。 正是BP 网络的泛化能力强,使它在解决图象复原问题时,可能比其他神经网络具有更好的潜在性能。 将BP 网络用于图象复原是很值得进一步研究的.大家知道,人脑的学习方式是“自主的”,即有自组织和自适应的能力的,即人脑能在复杂、非平稳和有“干扰”的环境及其变化的情况下,来调整自己的思维和观念,还能根据对外界事物的观察和学习,找到其内在的规律和本质属性,并能在一定的环境下,估计到可能出现的情况以及预期会遇到和感觉到的各种内容及情况。 自组织神经网络(SONN) 正是基于人脑的这些功能而生成的,由于它具有能从输入的数据中,揭示出它们之间内在关系的能力,因此将其用于“盲图象”的复原将是非常有利的。

3.2.3 需要提出更适合图象复原的新神经网络模型

小波神经网络是为逼近任意非线性函数而提出来的,但为了图象复原的需要,可考虑针对图象复原的特殊情况,提出新的神经网络模型。 如,因为大多数图象是由平滑区域和轮廓细节组成的,其图象数据在平滑区域虽具有较强的相关性,但与轮廓细节相邻的数据应极不相关,所以,提出一种专用于图象复原的“相关性神经网络模型”是必然的期待; 再有,因为多项式具有较广的拟合性和较好的收敛性,所以应提出的“多项式神经网络”,将它们用于图象复原也是值得研究的。

3.2.4 神经网络与其他理论的结合

研究是寻求新模型、新方法的重要途径目前神经网络的研究正由单纯的神经计算转向计算智能,并结合脑科学的研究向生物智能方向发展。 为此,神经网络图象复原的研究也应考虑吸收模糊、分形、混沌、进化计算、信息融合等交叉学科的研究成果。 与模糊系统的结合将是一个重要的研究方向,因为,神经网络与模糊系统有如下很多的相同之处: ( 1) 它们在处理和解决问题时,无需建立对象的精确数学模型,而只需要根据输入的采样数据去估计其要求的决策; ( 2) 在对信息的加工处理过程中,均表现出了很强的容错能力; ( 3) 它们都可以用硬件来实现. 由此可见,将神经网络与模糊系统结合,用于图象复原将是有意义的研究工作。

4 未来展望

图像恢复发展到现在,已经有了许多成熟的算法,但是还是存在许多问题,等待着我们去解决。目前图像恢复的最新发展有:

1. 非稳图像复原,即空间可变图像复原。

2. 退化视频信号的复原问题,以及摄像机拍照图像复原,这是一个需要进一步研究的领域。

3. 运动补偿时空复原滤波,同时将时间相关应用到运动补偿中。

4. “Telemedicine“的出现,远程诊断极大的依赖于远程接受的图像质量,图像恢复在医学领域中有相当重要的作用。

5. 模糊 PSF 的 Identification 仍然是一个困难的问题,尤其在空间可变的 PSF 的估计中。

6. 空间可变恢复方法,可以利用 Wavelets 和 Markov 随机场等方法进行复图像恢复,这是一个具有发展潜力的研究方向。

参考文献

1 冯久超,黄海东. 基于神经网络的盲图象恢复[ J ] . 计算机科学,2000,27( 1) : 67~68.

2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.

篇3

关键词:视觉注视;移动端;数据集;行为推测

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)01-0254-03

Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.

Key words: visual gaze; mobile end; data set; behavior conjecture

1 概述

伴S着计算机软硬件性能和互联网技术的迅猛发展,大规模的并行计算技术突飞猛进,不断地发展使各种现有技术变得越来越成熟,同时机器学习和计算机视觉领域也都得到了飞速发展。视觉技术的发展变得越来越重要,并且可以应用到实际生活中的很多方面。人类大量的视觉信息现在可以利用计算机来辅助处理,并完成相关的一些工作。相对于生物信息识别技术这一计算机视觉领域的热点技术来说,也已广泛应用于日常生活中[1]。比如指纹识别器,人脸考勤器等平时在许多地方可以经常见到,还有居民家用的摄像头智能报警系统以及近期炒得火热的运用支付宝进行刷脸而完成的支付技术等,这些都是运用了生物信息识别技术。现实中的种种迹象已经表明运用生物信息识别的计算机技术已渐渐的渗透到人们的日常生活中并成为不可或缺的组成部分。时下发展较快也比较常见的生物特征有视网膜、指纹、人脸和人眼等。这些生物信息比如人脸具有个体差异性和自身稳定性特点,从用户的角度来看该特征具有便携和低侵入等一些优点。而人眼作为人脸中最显著的特征,又是人们获取外界信息最直接最方便的途径。都说眼是心灵的窗户,因为眼睛中蕴含着表情、意图等多种信息。因此,眼睛注视的行为预测受到了国内外众多学者的广泛关注,同时在生物信息识别领域中也具有重要的研究意义[2]。

2 注视预测问题

2.1 问题的背景

在心理、认知和用户交互研究中的注视跟踪最近已朝向移动解决方案发展,因为它们使得可以直接评估用户在自然环境中的视觉注意。 除了注意,注视还可以提供关于用户的动作和意图的信息:用户正在做什么以及接下来将做什么。然而,在自然状态下非结构化的任务中注视行为是相当复杂的,并且不能使用在受控的实验室环境中创建的模型来得到令人满意的解释。自然条件下和实验室环境有着很大的不同。为了演化在自然环境中对注视行为的推断,需要一种更加整体的方法,将从认知科学到机器学习的许多学科结合在一起[3]。

从人机交互技术到医学诊断到心理学研究再到计算机视觉,眼睛注视跟踪在许多领域都有应用。注视是外部可观察的人类视觉注意的指标,许多人试图记录它。对于眼睛视线方面的研究可以追溯到十八世纪后期。而现如今已经存在各种解决方案(其中许多是商业化的),但是所有的解决方案都具有以下一个或多个方面的问题:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在现实中的自然条件下,这些因素对实际的应用会造成一些障碍影响,使得眼睛注视跟踪不能成为任何具有合理的相机(例如,智能手机或网络摄像头)的人应该可以使用的普及技术。如何才能使得这种技术普及并且得到应用,提出了一种解决方案。

2.2问题的提出

研究中首先要解决的就是用户的约束问题,也就是自然条件下使用过程中所受到的各种限制问题。到目前为止,基于注视数据推断用户动作的研究受到许多的限制,特别是在自然环境中。限制因素可能包括可用的商业解决方案的昂贵性,其专有性和封闭性以及缺乏实时交互能力等方面。目前的注视跟踪系统,只是尽量在移动设置中设置各种条件进行补救。商业化定制化的解决方案都有其独自的闭合性质,因此阻碍了注视跟踪算法的发展,并且使得不同方法之间的客观比较变得不可能[4]。此外,注视是一种复杂的现象,涉及认知过程的相互作用。这些过程在设置计算上的建模是非常困难的,尤其是涉及一些未知因素,使得构建实验设置成为一个很大的挑战。此外,来自跟踪实验的数据因为其商业化的原因很少共享,即使共享数据很大部分也是有其独立的实验条件。这些方面的问题都阻碍了跨学科方法在分析和利用注视数据和实验的相关研究与发展。

2.3 解决问题的研究方向

对基于注视的推断的个体贡献通常保持孤立,不能形成更大的整体以促进对注视动作行为的研究。随着这方面的技术发展和应用,最近出现了一些开源的解决方案。虽然在不同的应用和用户界面中使用注视已经相当有限,但是移动注视跟踪的新颖应用开始出现并得到了很快的发展。然而使用移动注视跟踪来推断用户动作的问题是高度多学科的,需要深入理解各个研究领域,包括人眼的功能,数学建模,计算机视觉,机器学习,信息技术,认知过程,用户交互以及心理学。任何一个研究员或甚至任何研究小组都不可能拥有所有研究领域的专家,因此需要相互的协作共同推进技术的发展[5]。

目前的研究主要是从以下几个方面进行:

1)研究移动注视跟踪的认知方面,例如增强对任务中的注视行为的理解或识别不同任务的特征和阶段;

2)开发用于从注视数据推断用户动作的计算方法,诸如应用机器学习用于行为推断,优选地实时地;

3)增强用于改善移动注视跟踪方法和性能的技术软件/硬件解决方案,并使得设备更容易访问;

4)发现注视数据在自然环境和虚拟和增强现实应用中的潜在用途,以及定义任务,其中注视可以是用户动作的有用的预测器。

3 解决方案

首先选择移动端进行研究,因为目前比较普遍的移动设备比如智能手机、平板电脑都有自己可靠的工作系统,且不需要外部附件。移动设备相对于其他平台具有以下优势:

1)使用的广泛性。据估计,到2019年,世界上超过三分之一的人口拥有智能手机,远远超过台式机/笔记本电脑用户;

2)软硬件技术升级的采用率较高。大部分的移动设备具有允许使用拥有计算复杂数据方法的实时的最新软硬件;

3)移动设备上相机的大量使用已经导致相机技术的快速开发和部署;

4)相机相对于屏幕的固定位置减少了未知参数的数量,潜在地允许开发高精度的校准跟踪应用。

3.1 注视类型分析

注视估计方法可以分为基于模型或基于外观[6]。基于模型的方法使用眼睛的几何模型,并且可以被细分为基于角膜反射和基于形状的方法。另一方面,基于形状的方法从观察到的眼睛形状观察注视方向。这些方法倾向于具有低的图像质量和可变的照明条件。基于外观的方法直接使用眼睛作为输入,并可能在低分辨率图像上工作。相比基于模型的方法,基于外观的方法被认为需要更大量的用户特定的训练数据。通过使用深度学习和大规模数据不必依赖于视觉,以实现准确的无校准注视估计。这种方案提出建立一个基于外观的数据模型,而不使用任何手工设计的功能,例如头部姿势或眼球中心位置。

3.2 技术方案

深度学习的最近成功在计算机视觉的各种领域中是显而易见的,但是它对改善眼睛跟踪性能的影响还是相当有限。因为深度学习是需要大量的数据作为支持,而视线追踪这方面的数据集还比较少,普通的研究所得到的稻菁比较有限,最大的数据集通常只是具有50个受试者左右,由于缺乏大规模数据的可用性,因此发展比较缓慢。因而提出了使用深度学习进行研究的一套方案,就是构造大规模的数据集。利用网络资源构造一个大规模的基于移动的眼动跟踪数据集,它包含来自各种背景的大量的受试者,在可变照明条件和不受限制的头部运动下记录[7]。运用现有的智能算法得到一个可以进行卷积神经网络学习端到端的注视预测的后台决策网络。不依赖任何预先存在的系统,不需要头部姿态估计或其他手动设计的特征用于预测。使用只有双眼和脸部的特征训练网络,在这个领域的性能优于现有的眼睛跟踪方法。虽然现在的决策网络在精度方面实现了很先进的性能,但是数据输入的大小和参数的数量使得难以在移动设备上实时使用。 为了解决这个问题,需要培养学习得到一个更小更快的网络,在移动设备上实现实时性能,使得精度损失进一步降低。

3.3 大规模数据集

为了达到这一方案的预测效果,首先要进行的是数据集的建立。网络上相关的研究中有许多公开的注视数据集[8]。总结对比这些相关的数据集,分析出有些早期的数据集不包含显著性的头部姿势变化或具有粗略的注视点采样密度。需要对这些数据进行筛选,使得到的数据具有随机分布特点。虽然一些现代数据集遵循类似的方法,但它们的规模(尤其是参与者的数量)相当有限。大多数现有的眼动追踪数据集已经由邀请实验室参与者的研究人员收集,这一过程导致数据缺乏变化,并且成本高且效率不高。因此需要大量的进行数据收集和筛选分析。大规模数据可以通过卷积神经网络有效地识别人脸(他们的眼睛)上的细粒度差异,从而做出准确的预测。

收集眼动跟踪数据应该注意的方面:

1)可扩展性。数据应该是自然条件下的使得用户具有灵活性;

2)可靠性。运用现有的智能移动设备真实的应用图像而非设计处理过的图像;

3)变异性。尽量使数据具有较大的变异性,使得模型更加稳健,适应各种环境下的操作。

4 结束语

文章介绍了一种针对移动设备的用户注视行为推测解决方案。首先建立一个大规模眼动跟踪数据集,收集大量的注视数据。大型数据集的重要性,以及具有大量各种数据以能够训练用于眼睛跟踪的鲁棒模型。然后,训练得到一个深层卷积神经网络,用于预测注视。通过仔细的评估,利用深度学习可以鲁棒地预测注视,达到一个较好的水平。此外,虽然眼睛跟踪已经存在了几个世纪,相信这种新方案的策略可以作为下一代眼动跟踪解决方案的关键基准。希望能通过这方面的研究,使人机交互得到更好的发展。

参考文献:

[1] 崔耀 视控人机交互系统技术研究与实现[D].西安,西安电子科技大学,2013.

[2] 迟健男, 王志良, 张闯.视线追踪[M].北京: 机械工业出版社, 2011.

[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.

[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/

6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.

[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.

[6] 杨彩霞.基于近红外光源的非接触式视线跟踪技术研究 [D].山东:山东大学,2012.

篇4

关键词: 机器人视觉; 定位跟踪系统; 系统设计; 控制模块

中图分类号: TN802.4?34; TP242 文献标识码: A 文章编号: 1004?373X(2016)14?0080?04

Design and implementation of robot vision locating and tracking system

CAO Qingmei1, WANG Xuelian2, MA Zhanfei3

(1. Vocational and Technical College of Inner Mongolia Agricultural University, Baotou 014100, China;

2. College of Public Administration, Inner Mongolia Normal University, Hohhot 010000, China;

3. School of Information Science and Technology, Normal College of Inner Mongolia University of Science and Technology, Baotou 014030, China)

Abstract: In view of the problems existing the design of the traditional robot locating and tracking system, such as incomplete tracking region acquired by image preprocessing module and incomplete noise elimination, a tracking system location according to robot vision was designed and implemented. In the system, the tracking region is acquired with the image preprocessing module, various modules of the whole system are coordinated and controlled with the control module to acquire the image of the target in the region, and then the acquired information is sent to the image processing module to complete the information exchange among the system modules. In the process of software design, the system locating program code is given while image processing to realize the robot visual positioning and tracking. The experimental results show that the designed system has the high feasibility and practicability.

Keywords: robot vision; locating and tracking system; system design; control module

0 引 言

近年来,机器人视觉被广泛应用在工业、图像处理等众多领域,而在定位跟踪领域的使用是最好的,也是最突出的[1?2]。随着科学技术的发展,设计并实现了很多定位跟踪系统,如基于人脸特征设计的定位跟踪系统,通过体型特征设计的定位跟踪系统,通过DNA检测设计的定位跟踪系统以及通过机器人视觉设计的定位跟踪系统。其中,最常用、效果最好的就是通过机器人视觉设计的定位跟踪系统[3?5],相比其他的定位跟踪系统,该系统应用前景广泛,跟踪效果好,已经成为很多学者研究的重点课题,受到越来越广泛的关注,是相关领域的前沿方向[6?9]。

本文设计并实现了一种通过机器人视觉进行定位的跟踪系统,通过机器人视觉进行区域目标信息的采集及分析,为视觉监控等领域提供有效依据。

1 机器人视觉定位跟踪系统总体设计

设计的机器人视觉定位跟踪系统主要由控制模块、图像预处理模块、信号采集模块、通信模块和视觉定位模块构成。首先通过图像预处理模块将需要的区域图像中的噪声进行干扰去除,经过控制模块对整个系统各个模块进行协调和控制,将区域图像信息进行采集及存储,并通过通信模块进行信息的传输,最后通过机器人视觉进行定位,最终根据定位完成跟踪。其中,图像预处理的好坏,直接影响后面机器人视觉定位的准确度,定位出现误差,跟踪效率就会降低,因此图像预处理模块是整个机器人视觉定位跟踪系统的基础。详细的机器人视觉定位跟踪系统结构如图1所示。

2 机器人视觉定位跟踪系统硬件设计

2.1 控制模块

控制模块是本文设计系统的核心,主要用来协调和控制整个机器人视觉定位跟踪系统各个模块,其主要由C8051F206单片机、UART和SPI串行接口、片内FLASH存储器等构成。选择C8051F206单片机为系统的核心芯片,它是集成的MCU芯片,具有12位多通道ADC,依据系统整体设计的需求,选用UART和SPI的串行接口,该串行接口共有32个通用I/O引脚,部分引脚用于数字外设接口。所有端口引脚均能够被配置ADC模拟输入,片内还集成有VDD监视器、硬件看门狗定时器以及时钟振荡器。片内FLASH存储器还可用于部分数据存储。通过设计的这个控制模板可以及时有效地对其余各个模块进行调控并获取区域图像,为定位跟踪提供了先决条件。

2.2 图像预处理模块

获取区域图像之后,需要进一步对图像进行预处理,图像预处理模块主要负责获取相对比较完整的、最大程度的不含阴影与噪声的区域图像。其中,图像信息主要通过LT1959CS8、视频解码芯片、SRAM进行预处理。SRAM需采用精度和稳定性较高的双电源供电,以消除机器人视觉定位跟踪系统各模块存在的电磁噪声,因此,本文选用两片Linear公司生产的LT1959CS8进行供电。视频解码芯片选用Trident Microsystem公司生产的SAA7113H芯片。图像存储选择两片IDT71V424异步SRAM芯片实现,其芯片容量是512 KB。这样通过图像预处理模板,可以去除噪声对定位跟踪产生的干扰,为信息采集模块提供最“纯净”的信息。

2.3 信息采集模块

信息采集模块主要用于对经过处理后的目标图像信息进行采集,同时将采集的信息发送至通信模块进行处理。信息采集模块主要包括MMA7260QT芯片、信息调理、单极低通滤波器以及温度补偿单元等。设计该模块时,将MMA7260QT芯片作为核心,对处理后的图像信息进行采集。该模块不但需达到信息采集的功能要求,同时体积需尽可能的小,以节省资源。MMA7260QT是美国Freescale公司生产的一款低成本的单芯片,该芯片融合了信息调理、单极低通滤波器以及温度补偿技术,同时可提供四种采集范围,具有噪音低、灵敏度高的优点。因此,该模块使用MMA7260QT芯片可达到更好、更全面的图像信息。

2.4 通信模块

通信模块主要用于整个系统模块之间的信息交换,是整个系统设计成败的关键枢纽,因此,本文选择CAN总线进行通信。和其他总线相比,CAN总线具有节点间不分主次,通信速率高的特点。除此之外,该模块还采用Microchip公司的MCP2515控制器和TJA1040驱动器辅助实现,不仅能够达到系统所需的要求,还能节约成本。

2.5 机器人视觉定位模块

机器人视觉定位模块是整个系统的关键模块,采集到的信息通过预处理去除噪声干扰,再经过通信模块传输到视觉定位模块,在此模块经过图像智能化定位处理,使得要跟踪的信息更加清楚、明了,增加了跟踪的精度。

3 机器人视觉定位跟踪软件算法的设计

3.1 算法的设计思路

在上述机器人视觉定位跟踪系统各个模块的设计的基础上,设计软件算法,具体步骤如下:

(1) 获取定位图像特征,为动态估计提供依据。假如,区域图像信息集为[φkζ],[k=1,2,…,M],则第[k]个图像的特征可通过下式求出:

式中:[Fkx;pk]用于描述图像信息的动态变化;[vkx;pk]用于描述图像不确定项;[pk]用于描述各参数向量。

(2) 动态估计值的计算,为获取定位误差值提供有利条件。通过利用RBF神经网络对一般动态信息图像特征[φkx;pk=Fkx;pk+vkx;pk]进行局部分类,同时将获取的信息用常值神经网络[WkTSx]权值的形式进行保存,并获取[M]阶的动态估计值:

式中:[k=1,2,…,M]用于描述第[k]个参数;[χk=χ1k,χ2k,…,χnkT]用于描述图像信息个数;[B=diagb1,b2,…,bn]用于描述对角矩阵。

(3) 定位误差值的计算及误差范数的获取。在测试过程中,通过式(2)获取的动态估计值,即可获取定位误差值,计算公式如下:

式中,[χki=χki-xi]用于描述状态估计误差。

通过式(4)求出误差[χkit]的[L1]范数:

式中,[TC]用于描述图像信息获取周期。

(4) 完成机器人视觉定位,其基本思想为:若信息动态模式为[s]([s∈1,2,…,k]),则动态模式[s]中常值RBF的神经网络[WkTiSix]值,可通过定位误差值获取。所以,相应的误差[χsit1]在全部误差[χsit1]中最小。依据最小误差原则,实现快速定位。

依据上述定位过程给出系统用于定位的主流程图,如图2所示。

(5) 在定位的基础上完成跟踪,则具体的跟踪结果如下:

式中:[Ii,j]代表目标图像边缘上的像素点;[S]代表图像边缘梯度向量;[t]代表目标滤波值。

3.2 源代码设计

本文设计的机器人视觉定位跟踪系统软件,是在Windows XP环境下,通过Visual C++ 6.0实现的,其关键跟踪部分的源代码如下:

4 仿真实验分析

为了验证本文设计的机器人视觉定位跟踪系统的有效性,需要进行相关的实验分析。实验将基于确定学习的跟踪系统作为对比进行分析,本文实验在Windows XP环境下,LabVIEW构建系统平台上完成。分别采用本文系统和基于确定学习的跟踪系统对测试区域目标进行跟踪,测试区域目标图像如图3所示,两种系统测试得到的结果分别如图4、图5所示。

由图4、图5可知,改进算法进行多人视觉定位中的防丢失效果要优于传统算法,这主要是因为本文设计的跟踪系统,通过控制模块对整个系统的各个模块进行协调和控制,再经过图像预处理模块对目标区域图像进行处理,并对区域目标图像信息进行采集,将采集的信息发送至图像预处理模块进行处理,完成整个系统模块之间的信息交换,最终达到跟踪的目的。采用本文系统对区域目标图像进行跟踪,从侧面视角的角度,对本文系统和基于确定学习的跟踪系统的跟踪准确率进行比较,得到的结果如表1所示。分析表1可以看出,本文系统的准确率一直高于基于确定学习的跟踪系统,且准确率一直在90%以上,说明本文系统具有很高的跟踪性能。

5 结 论

本文设计并实现了一种机器人视觉定位跟踪系统。控制模块作为系统的核心,主要负责整个系统各个模块的协调和控制,通过图像预处理模块进行处理,再用信息采集模块对目标图像信息进行采集;并通过通信模块在整个系统模块之间进行信息的交换。在软件设计过程中,在图像处理的同时给出定位跟踪程序代码,实现目标的定位跟踪。仿真实验结果表明,本文设计的系统具有很高的可行性和实用性。

参考文献

[1] 梁栋,高玮玮,张艳,等.基于足底压力图像的静态触觉步态识别[J].华中科技大学学报(自然科学版),2013,41(10):25?29.

[2] 王欣,唐俊,王年.基于双层卷积神经网络的步态识别算法[J].安徽大学学报(自然科学版),2015(1):32?36.

[3] 贲烨,张鹏,潘婷婷,等.线性插值框架下矩阵步态识别的性能分析[J].智能系统学报,2013(5):415?425.

[4] 范玉红,梁栋,鲍文霞.改进的谱特征和足底边缘距离的步态识别[J].安徽大学学报(自然科学版),2014(6):37?43.

[5] 李一波,李昆.双视角下多特征信息融合的步态识别[J].智能系统学报,2013,8(1):74?79.

[6] 王蒙,孙运强,姚爱琴.基于PCA和BP神经网络的步态识别系统研究[J].电子质量,2014(3):83?85.

[7] 郑伟南,曲娜,程凤芹,等.基于步态识别技术的热释电红外安防预警系统研究[J].中国新通信,2014(23):96?97.

篇5

本文结合计算机行业的发展,对计算机网络云计算技术进行了分析研究,希望能为计算机技术的进步提供一定的理论支持。

一、计算机网络的云计算技术概念

美国的网络公司最早提出计算机网络云计算技术的概念,随着科学的进步与发展已经逐渐成为了一门成熟的技术,有着丰富的理论基础与实践经验。现在的“云计算”技术是指能将网络、硬件、设备相融合,同时实现规模性、安全性、虚拟性的技术。目前来看,对计算机网络云计算的定义还没有统一的趋势,每一名研究人员都有自己的研究与看法,通过研究与分析,本文对云计算的观点是:首先,每一个“云”都是独立的计算机分布体系,基于网络化、虚拟化的计算机服务层,与计算机中的资源保持一定的节奏,实现计算机资源的同步。其次,计算机网络云是一个综合体,并非是独立的,计算机软件的开发中离不开云计算的环节,其重点就是网络云计算特征的研究。对于计算机网络的使用者来说,计算机集成软件层面,能被接受与理解的就是云计算,在本文重点突出的就是云计算的属性。最后,计算机网络的使用者没有进行长期的规划后使用,很容易出现浪费现象,目前的云计算技术可以实现分或秒内的数据计算,可以很好地避免资源过载或资源浪费现象。

通过研究可以看出,计算机网络云计算技术可以定义成计算机网络中进行的某种服务形式,其中相关的硬件设施与软件系统统称为计算机网络云计算。定义中包括网络计算机、超级计算机、集成技术等,相关的技术既有区别又有联系。计算机网络云计算技术的原理是:大量的数据分布于分布式计算机中,同时保证用户的数据系统与计算机同步运行,进而实现及时将需要的资源切换到相应的应用中,根据使用者的访问需求进行存储系统与计算机系统的定位。计算机网络云计算技术可以基于用户服务需求及时提供所需的网络信息资源。计算机网络云计算技术适应性强,弹性好,专业技术性高,发展前景十分好,应用越来越广泛。

二、计算机网络云计算技术的分类

基于多样化的标准,计算机云计算的分类也有多种方式。比较常见的是:根据服务方式的不同,云计算可以分为私有云和公有云。私有云是根据用户的自身情况进行独立使用,同时建立平台,操作性与实用性十分好。公有云是ζ渌用户的资源进行开发利用。在选择私有云与公有云时,应该考虑的主要因素是:

1.服务的延续性

大部分情况下,公有云提供的服务容易受外界影响,如网络故障等情况,而私有云则不会出现这种问题。

2.数据安全性

如果对于稳定性与安全性不存在过高要求,则比较适合使用公有云。

3.综合使用成本

通常状况下,如果对于计算资源要求不高可以选用公有云,如果对于计算资源要求较高则比较适合建立自己的私有云平台。

4.监控能力

公有云可以将使用用户对系统的监控能力屏蔽起来,这对于金融保险投资行业是十分有必要的。

三、计算机网络云计算技术的实现

为了将计算机系统的系统处理过程进行简化,通常将该过程划分为预处理过程与功能实现过程两大部分。对系统的各项功能进行分解,得到一些不需要进行功能实现过程与预处理过程的功能。对于可以进行预先处理过程的功能通常是一次性处理,在执行过程中,可以将预处理过程得到的结果直接使用,以此完成特点的系统功能。该方法与原则的采用,极大地简化了系统,大幅度提高了系统运行效率。计算的云化中的系统就是计算云化系统,它的计算量十分巨大,系统计算运行效率极高。但因为计算云化系统为一次处理系统,只要计算云规则生成,计算云化系统的使命与任务也就完成,而不是在对计算机加以应用时需要该系统。通常在计算机网络云计算中形成的系统就是云计算系统,是一个十分简单的系统,对计算机的处理能力没有过高要求,同时应用于各类计算机系统计算中。

四、计算机网络云计算的计算与优势

建立计算机网络云计算过程的第一步是服务器架构的建立,其对计算机网络云计算技术中的IAAS部分进行充当。目前来看,仍没有关于网络云计算服务器架构的专门、统一的标准出现,这需要一定的相关技术进行支持,例如计算区域网SAN和附网NAS等,这都是应用比较多的服务器架构技术。NAS文件计算系统是松散结构型的集群,它的架构有很明显的分布式特征。NAS文件系统集群中的各个节点具有互补与相互影响的特点,文件是最小的单位,因为只要在集群存储文件就可以计算出文件的数据信息,直接减少了很多计算的冗余性。它的拓展性很高,同时成本较低,安全控制系统安全稳定。如果客户发出过多的请求,NAS系统的限制就表现出来,二级计算就可以通过NAS的云服务完成。

SAN是一种紧密结合类型的集群,在集群中存储文件之后,可以分解成很多个数据块。相比于集群之中的节点,各数据块之间能够进行相互访问。节点可以借助于访问文件间的数据块针对客户的请求进行处理。SAN系统之中可以通过节点数量增减来响应请求,同时提升界定本身的性能。为了能够将以SAN为基础的OBS发展起来,就需要更好的性能与更低的成本。而SAN计算建构的硬件价格十分高,同时依托于SAN的服务价格,因此可以适当地降低一下性能,保证更好的性能与更低的成本。

五、实例――基于谷歌云计算技术的AlphaGo亮点分析

AlphaGo通过谷歌云计算技术,拥有与人类棋手类似的“棋感”,其技术远胜于1997年IBM公司研制的超级电脑“深蓝”。“深蓝”面对的是相对围棋简单多的国际象棋,设计理念为根据棋局情况不断演算各种可能的步骤,最终从各种步骤中选定走棋方案。AlphaGo背后的云计算技术,可以让AlphaGo无需“暴力”分析演算所有步骤,只需要把运算能力都集中在“棋感策略”网络中最有可能的情况上。其背后的深层算法,具备三大亮点:(1)深度卷积神经网络学习技术:“棋感策略”网络的本质学习人类围棋大师走法思维。AlphaGo藉此拥有强大的盘面评估能力。(2)增强学习算法技术:此算法可通过自我对弈来持续提升AlhpaGo的棋感策略和盘面评估能力,并且给出落子选择。(3)蒙特卡洛搜索技术:“评价网络”的核心,可以融合棋感策略和盘面评估能力,修正落子选择而最终给出落子方案。

六、计算机网络云计算技术发展遇到的问题

在目前计算机网络云计算技术广泛地运用到各个领域的过程中,云计算技术也存在一些缺陷与不足还需要引起我们的重视,同时在云计算的应用过程中应采用足够的措施来对数据信息的安全性进行可靠的保障,这是计算机网络云计算技术发展过程中十分重要的一项课题。现在的大部分云端是通过浏览器进行接入的,浏览器是计算机系统中非常薄弱的地方,存在着很多的缺陷与漏洞,因此用户的云端接入浏览器时,用户证书与认证密钥特别容易因为浏览器漏洞而产生泄密。同时由于不同的应用都需要在云端中进行认证,这就需要保证认证机制的高效性与安全性。在应用服务层之中,应该采取安全有效的措施来保护用书的隐私安全,在基础设施层中要采取安全可靠的方法保C数据的安全性。

七、采取措施保障网民数据安全

如果数据的安全不能得到保障,就会对云计算的发展产生不利影响,所以为了能够保障网民数据的安全。就需要采取切实可行的手段来保证数据的安全性。

1.隔离操作系统与数据

为了能够切实有效地保障网民信息的安全,就需要充分使用Hypervisor,从而将网民的操作系统与数据资源隔离起来,从而有效地保证了计算资源的安全性,避免了网民操作系统所带来的可能的不利影响。

2.重置API保护层

服务商提供给用户API,用户根据需要进行应用。但同时第三方也有可能对这些API进行使用。为了保证数据的安全性,就需要你安装API保护层,重叠保护API。

3.严格身份认证

服务商应严格的执行身份认证,防范冒充网民身份的行为,加强对账号与密码的管理控制,确保网民只访问自己的程序与数据,从而保证数据资源的安全性。

篇6

关键词: 车牌定位;图像处理;HSV颜色模型;边缘检测;数学形态学

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)32-0184-03

Vehicle License Plate Locating Method Based On Color Positioning and Edge Detection

WU Lei, WANG Xiao-fei, LI Yan*

(School of Information Engineering,Hubei University for Nationalities, Enshi 445000, China)

Abstract:License plate recognition technology is one of the key technologies of intelligent traffic management system, license plate location is the basis for the realization of license plate recognition. Fast, accurate and robust license plate location technology can give a great help to the license plate recognition. In view of the problem of license plate location, this paper proposes a color location method based on HSV color model and the edge detection method based on vertical edge detection. Combined with the use of the two methods not only to achieve a fast, accurate positioning, but also for the license plate recognition follow the character segmentation, character positioning and other steps to lay a solid foundation.

Key words:vehicle license plate recognition; image processing; HSV color model;edge detection; mathematical morphology

1 引言

S着当今社会经济的飞速发展,车辆的数量也变得与日聚增起来。高速增长的汽车数量和落后的停车场管理模式形成了鲜明的矛盾冲突。于是,智能车辆管理系统的实现变得尤为重要。实现智能车辆管理系统的核心内容就是能够自动化识别车辆车牌,而作为车牌识别核心技术的第一步――车牌定位技术的好坏极大程度上决定了车牌识别的性能。

目前车牌定位的实现方法大体分为两类,一类是基于灰度图像的车牌区域定位方法,另一类是基于彩色图像的车牌区域定位方法。前者主要有基于纹理特征法、基于数学形态学法、基于小波分析法等方法。后者主要有基于RGB颜色法、基于神经网络法等。本文结合两类不同的方法,先采用改良的RGB颜色法――HSV颜色模型来识别车牌,可以定位出大部分颜色鲜明的车牌,由于此方法受图片质量影响较大,我们在颜色法后采用边缘检测定位法,通过垂直边缘检测,将图片中垂直边缘较多的区域定位出来,两种方法的结合可以获得车辆图片中车牌所在的区域,判断出真正的车牌位置。

2 颜色定位

采用RGB颜色定位方法需要RGB的3个分量(Red分量--红色,Green分量--绿色,Blue分量--蓝色)共同确定一个颜色标准,我国大部分车牌都是蓝色,我们要从Blue分量中找到分量的阈值确定蓝色的范围,这本就不是一件容易的事。但是我们往往不只有3原色构成的车牌,遇到像黄色的车牌时情况会更加复杂,需要考虑Red分量和Green分量的配比问题。这些问题让单纯选择RGB颜色定位变得分外困难。

为了解决这些问题我们采用HSV颜色模型,如图1所示。HSV模型是根据颜色的直观特性创建的一种圆锥模型。与RGB颜色模型中的每个分量都代表一种颜色不同的是,HSV模型中每个分量并不代表一种颜色,而分别是:色调(H),饱和度(S),亮度(V)。

H分量是代表颜色特性的分量,用角度度量,取值范围为0~360,从红色开始按逆时针方向计算,红色为0,绿色为120,蓝色为240。S分量代表颜色的饱和信息,取值范围为0.0~1.0,值越大,颜色越饱和。V分量代表明暗信息,取值范围为0.0~1.0,值越大,色彩越明亮。我们可以从一种纯色彩开始,即指定色彩角H,并让V=S=1,然后我们可以通过向其中加入黑色和白色来得到我们需要的颜色。增加黑色可以减小V而S不变,同样增加白色可以减小S而V不变。这就意味着通过保持V,S不变来找表示颜色的H的范围,再反过来通过H的范围确定V,S的取值范围,从而可以确定出我们需要的颜色范围,如图2所示。

采用颜色定位我们首先需要将图像颜色空间从RGB转换为HSV,再遍历图像的所有像素,将满足HSV范围内的像素点标记为白色,其余部分标记为黑色。所得图片中白色部分为车牌位置。再采用闭操作,取轮廓等操作获取目标车牌。

3 边缘检测定位

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。而本文采用的是基于垂直边缘的检测方法。因为一般的车牌图片在没经过一定的处理之前车牌边缘都有很多垂直边缘,那么就可以以此来判定车牌的位置。

车牌定位准确率的高低与图片的好坏有着密不可分的关系,如图片的天气,环境等外界环境因素直接影响图片的识别率。所以在进行识别之前必须对车辆图片进行预处理,消除干扰并突出车牌特征。

这里对车辆图片进行车牌边缘检测定位的流程如图3所示:

3.1 高斯模糊

对车辆图片先进行高斯模糊就是把图片中某一点周围的像素色值按高斯曲线统计起来,采用数学上加权平均的计算方法得到这条曲线的色值,最后能够留下物体的轮廓。高斯模糊使图片变得更平滑,去除了干扰的噪声对后面车牌的判断打下了坚实的基础。

3.2 灰度化

将彩色图像转化成为灰度图像的过程称为图像的灰度化处理。彩色图像中的每个像素的颜色有R、G、B三个分量决定,而每个分量有255中值可取,这样一个像素点可以有255*255*255种颜色的变化范围。而灰度图像是R、G、B三个分量相同的一种特殊的彩色图像,也正因为如此,对图像的灰度化处理存在的最大争议就是图像信息的丢失,图像信息的丢失可能使得对车牌的识别变得更加复杂。但对于计算机而言,处理灰度化图像相比于处理彩色图像要更加容易,同时,现在已研究的很多处理图像的算法和技术仅支持对灰度化图像的处理,在现今的科技状况下对图像灰度化处理使我们更便捷地获取所需要的信息。但无疑,对彩色图像直接进行判断更符合人眼识别的规律,更趋近人工智能的本质,也是今后研究的方向与趋势。一般有以下四种方法对彩色图像进行灰度化处理:分量法,最大值法,平均值法,加权平均法。

(1)分量法:将彩色图像中的三分量的亮度作为三个灰度图像的灰度值,可根据应用需要选取一种灰度图像。

f1(i,j) = R(i,j)f2(i,j) = G(i,j)f3(i,j) = B(i,j)

其中fk(i,j)(k=1,2,3)为转换后的灰度图像在(i,j)处的灰度值。

(2)最大值法:将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。

f(i,j) = max(R(i,j), G(i,j), B(i,j))

(3)平均值法:⒉噬图像中的三分量亮度求平均得到一个灰度值。

f(i,j) = ( R(i,j) + G(i,j) + B(i,j) ) /3

(4)加权平均法:根据重要性及其他指标,将三个分量以不同的权值进行加权平均。由于人眼对绿色的敏感最高,对蓝色敏感最低,因此,按下式对RGB三分量进行加权平均能得到较合理的灰度图像。

f(i,j) = 0.30 R(i,j) + 0.59 G(i,j) + 0.11 B(i,j))

3.3 Sobel算子

Sobel算子是边缘检测定位中的核心算法,用于检测图像的垂直边缘,便于区分车牌。

Sobel算子是一阶导数的边缘检测算子,在算法实现过程中,通过3×3模板作为核与图像中的每个像素点做卷积和运算,如下所示,其中A为原图像,然后选取合适的阈值以提取边缘。

许多学者已经提出了很多图像检测算子,如Sobel算子、Laplace算子、Canny算子等。比较常用的有Sobel算子和Laplace算子。Sobel算子求图像的一阶导数,Laplace算子则是求图像的二阶导数,在通常情况下,也能检测出边缘,不过Laplace算子的检测不分水平和垂直。

3.4 二值化

图像的二值化,就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果。一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群,然后分别设置为黑白两种颜色,实现了整个图像的二值化。

3.5 闭操作

对二值化图像先进行膨胀运算,其次进行腐烛运算,此组合运算即为图像的闭运算。对二值化图像先进行腐烛运算,其次进行膨胀运算,此组合运算即为图像的开运算。闭操作可使轮廓线更光滑,但与开操作相反的是,闭操作通常消除狭窄的间断和长细的鸿沟,消除小的空洞,并填补轮廓线中的断裂。使用结构元素B对集合A进行闭操作,数学表达为:

这个公式表明,使用结构元素B对集合A的闭操作就是用B对A进行膨胀,然后用B对结果进行腐蚀。

3.6 取轮廓,筛选,角度与尺寸判断

经过上述一系列的图像操作我们可以得到一张包含许多独立图块的图像,取轮廓操作就是将图像中的所有独立的不与外界有交接的图块取出来。然后根据这些轮廓,求这些轮廓的最小外接矩形。尺寸判断操作是对外接矩形进行判断,以判断它们是否是可能的候选车牌的操作。经过尺寸和角度判断,会排除大量由轮廓生成的不合适尺寸的最小外接矩形。接下来需要对剩下的图块进行旋转操作,将倾斜的车牌调整为水平,为后面的车牌判断与字符识别提高成功率的关键环节。最后确定我们要识别的车牌的尺寸。

4 结论

本文提出了两种关于车牌识别中车牌定位的方法,采用改进的HSV颜色模型,准确,快速地对颜色鲜明的车牌进行定位,简化了车牌定位中一些图片处理和特征判断的过程。而另一种方法是边缘检测中垂直边缘定位的方法,垂直边缘的选择让此方法能获得更高的准确率,同时采用图像处理,数学形态学等多种算法强化了图片中的许多特征量,极大提高了垂直边缘的判断。

虽然采用两种定位方法的结合,极大提高了车牌定位的准确率,但仍然有不足之处,需要进一步完善。两种方法都需要较高的图片质量,大量的光暗区域和严重的雨雪天气都会对车牌定位的准确率产生较大的影响。还有如颜色定位中一旦车辆的颜色与车牌的颜色一致,那判断的准确率会大大降低。而第二种方法如果遇到大量垂直边缘的车辆也会造成较大的误差。

参考文献:

[1] 魏平顺.智能交通系统中车标图像识别技术研究[D].南京:南京理工大学,2013.16-25.

[2] 李侠.车标定位技术研究[D].大连:辽宁师范大学,2011,16-26.

[3] 张闯, 孙兴波, 陈瑶,等. 常用边缘检测技术的对比[J].传感器世界, 2013,19(11):20-23.