卷积神经网络的特性范文
时间:2024-04-02 11:39:16
导语:如何才能写好一篇卷积神经网络的特性,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
【关键词】深度学习 卷积神经网络 权值共享 下采样 R-CNN Fast-R-CNN
1 绪论
随着电子信息技术的快速发展,芯片的设计与生产进入了纳米时代,计算机的计算能力与计算速度得到了空前的提高,但是人们的需求是无限的,要求计算机能更加任性化的服务于我们的生活,这也就要求计算机本身能像人一样识别与感知周围的环境,并对复杂的环境做出正确的判断。而图片信息是我们周围环境最直观的,最容易获取的信息,要求计算机能对为的环境做出识别与判断也就要求计算机能够智能的识别图像信息。深度学习是机器学习中的一个新的研究领域。通过深度学习的方法构建深度网络来抽取目标特征进而识别周围的环境。卷积神经网络对图像的处理具有平移,旋转,扭曲不变的优良特性。在处理图像是更加快捷和便利。卷积神经网络使得计算机在感知识别周围环境的能力有了巨大的提升,使得计算机更加智能。卷积神经网络拥有强大的特征提取能力,使得其在图像分类识别,目标跟踪等领域有着强大的运用。
1.1 国内外研究现状
1986年,Rumelhart和Mc Celland提出BP算法。BP算法反向传导神经网络输出误差进行训练神经网络。通过BP算法,神经网络能够从大量训练数据中的学习到相关统计信息,学习到的数据统计信息能够反映关于输入-输出数据模型的函数映射关系。
自2006年以来,Geoffery Hinton教授提出深度信念网络。从此深度学习在学术界持续升温。深度学习不仅改变着传统的机器学习方法,也影响着我们对人类感知的理解,迄今已在语音识别和图像理解等应用领域引起了突破性的变革。各种相关的算法和模型都取得了重要的突破,使得深度学习在图像分类,语音识别,自然语言处理等领域有广泛的运用。
2013年百度成立百度深度学习研究院以来我国的人工智能领域取得了长足的进步。在人工智能专家吴恩达的带领下,百度陆续推出一系列人工智能产品,无人驾驶技术,DuerOS语音交互计算平台,人脸识别技术,美乐医等优秀产品。此外Imagenet图像识别大赛中也诞生了一系列经典的神经网络结构,VGG,Fast-R-CNN,SPP-net等等,可以说人工智能技术在近几年得到了空前的发展。
2 深度学习概述
深度学习是机器学习的一个新方向,通过学习样本数据内在规律和深层特征深度,深度学习神经网络能够像人一样有分析和学的能力,尤其在文字处理,图像识别,语音等领域更加突出。能够自主学习一些新的东西。目前深度学习使用的典型技术是通过特征表达和分类器来进行目标识别等任务的。并在语音识别、图像处理、机器翻译等领域取得很多成果。
深度学习不同于以往的浅层学习,浅层学习模型值包含一个隐藏层,或者不存在隐藏层,深度学习则是由很多隐藏层组成的,上一层的输出作为下一层的输入,实验对输入信息进行分级表达。目前深度学习框架主要包含三种深度学习框架,如图1、2、3所示。
3 卷积神经网络
卷积神经网络的结构层次比传统的神经网络复杂,卷积神经网络包含大量的隐藏层,相邻的卷积核或者下采样核采用局部感受野全链接,神经元权值共享的规则,因此卷积神经网络训练参数的数量远比传统神经网络少,卷积神经网络在训练和前向测试的复杂度大幅度降低,同时也减少了神经网络训练参数过拟合的几率。卷积神经网络主要有两部分,分别是卷积核和下采样核。卷积核主要对上一层的图像进行卷积运算,提取图像特征,下采样核则是对上层的数据进行将为处理,减少神经网络的复杂度。
卷积神经网络中每一个神经元的输入与前一层的局部感受野相连,提取局部感受野的特征,比如图像的轮廓,颜色等特征,而这些特征不仅包括传统人类能理解的特征,也包括神经网络自身能够识别的特征,卷积核全职共享,因此这些特征提取与图像的位置无关。
图4是经典的LeNet5卷积神经网络架构,LeNet5架构中卷积核和下采样核交替出现,下采样核及时的将卷积核生成的特征向量进行降维,减少神经网络的运算量。LeNet5算法在1962年幼Hubel等人提出,在识别手写数字mnist中有极高的准确率。
4 R-CNN、Fast-R-CNN对比分析
卷积神经网络在对图像进行识别具有平移,旋转,扭曲不变的优良特性,并且能够实现高准确率识别图像,但是在现实生活运用中往往需要神经网络标记出目标的相对位置,这是传统卷积神经网络不具备的功能。因此在前人传统卷积神经网路基础上对卷积神经网络进行改进,产生了具有对图像中目标进行识别和定位的卷积神经网络R-CNN,Fast-R-CNN等改良算法。
4.1 R-CNN
R-CNN为Region Convoluntional Neural Network的缩写即对图像进行局部区域的卷积处理,其核心思想主要是利用候选区图像对物体探测中位置信息进行精确处理和利用监督式预训练和区域特殊化的微调方法,代替了传统的非监督式预训练和监督式微调。
在CNN中,全连接层输入是固定大小的,因此R-CNN用计算机视觉算法将每一张图片分割成1000-2000张的候选区图片后,要将这些候选区图片进行变换,生成固定大小的候选图片,在训练提取特征时一般采用经过预训练的模型参数进行finetuning,榱嗽黾友盗费本,模型在也将生成的候选框以及标定的标签作为训练样本进行训练。R-CNN采用SVMs分类器对特征向量进行分类,在训练SVMs时将候选框经过卷积神经网络提取的特征和SVM标定结果输入到SVMs分类器训练分类器模型。而在测试时将图像全部候选框经过卷积神经网络提取的特征输入到SVMs分类器中,得到每一类的评分结果。但是R-CNN在处理一张图片是要处理需要对一张图片1000-2000个候选区图像进行前向运算,保存所有后选取图片的特征值,要求计算硬件有大量的存储空间,同时处理每一张图片的时间也会增加。由于训练集庞大,本文采用hard negative mining method方法提高存储的利用率。
R-CNN的体现出了极大的优势,其中MAP也可以大幅度提高,但是正如本文上述,R-CNN计算的时间成本很大,达不到实时的计算效果,R-CNN在对候选区进行处理时会使得图像失真,部分信息丢失。
4.2 Fast-R-CNN
Fast-R-CNN则是再次改进的一种基于卷积神经网络目标跟踪定位算法。相比于R-CNN,Fast-R-CNN从单输入变为双输入,在全连接层后有了两个输出,引入了Rol层。
Fast-R-CNN在运行的时候同样会生成大量的候选区,同时将原始的图片用卷积神经网络进行特征提取,将原始图片提取的特征与生成的候选区坐标送入Rol层为每一个候选区生成一个固定大小的特征向量。最后将Rol生成的特征向量全连接层产生最终的LOSS。Fast-R-CNN中的LOSS采用多LOSS模式,SoftMax LOSS用于计算K+1分类的损失,K为第K个目标,1为背景;Regression LOSS计算候选区的四个角的坐标。
Fast-R-CNN在MAP上有了大幅度的提升,速度也得到了提升,但是在计算候选区是仍存在瓶颈,这也是限制Fast-R-CNN速度的因素。
5 实验测试
对于本文提出的卷积神经网络识别图像定位图像目标算法R-CNN,Fast-R-CNN,在本章给出实验结果。实验平台为基于Linux系统的debian8下运行caffe进行训练,采用显卡K620进行实验。
训练模型初始化参数在是服从高斯随机分布,R-CNN采用的网络结构如图7所示,Fast-R-CNN的网络结构如图8所示。
本次实现的训练样本为录制实验室视频数据,将视频数据转换成帧图片,对每张图片数据进行裁剪,裁剪后图像大小在256*256,共有500张,再将裁剪后的图片进行旋转,平移,扭曲,镜像,加噪声等处理,最后生成144万张样本图片,其中136.8万张图片作为训练样本,7.2万张作为测试样本。
6 总结
在目标识别定位领域,卷积神经网络具有强大的图像处理能力,对图像的识别定位具有很高度平移,旋转,扭曲不变形的优良性能。卷积神经网络架构R-CNN和Fast-R-CNN都有强大的图像处理能力。Fast-R-CNN在识别准确率上比R-CNN高。R-CNN算法复杂,对一张图片需要进行1000-2000次的卷积运算,特征重复提取。因此在训练和前向测试时,R-CNN用的时间长,不能很好的适用于处理实时图片数据,尤其视频数据。R-CNN在对每个候选区进行特征提取之后需要将提取的特征向量存入内存,降低训练测试时间的同时也需要耗费大量内存。因此从各方面分析可知,Fast-R-CNN性能优于R-CNN。
参考文献
[1]谢宝剑.基于卷积神经网络图像分类方法研究[D].合肥工业大学,2015.
[2]郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014(02):175-184.
[3]陈先昌.基于卷积神经网络的深度学习算法与运用研究[D].杭州:浙江工商大学,2006(04):603-617.
[4]李彦冬,郝宗波,雷航等.卷积神经网络研究综述[J].计算机应用,2016.
[5]Gibson.J J.The perception of the Visual World[J].Cambridge,England,1950.
[6]HORN B,SCHUNCK P.Determining optical flow[J].Artificial Intelligence, 1981,17:185-203.
[7]R.Girshick,J.Donahue,T. Darrell,and J.Malik,“Rich feature hierarchies for accurate object detection and semantic segmentation,”in CVPR,2014
[8]Ross Girshick,Wicrosoft Research. Fast R-CNN,.
[9]R.Girshick.Fast R-CNN. arXiv:1504.08083,2015.
篇2
关键词:图像复原;盲复原;逆滤波;神经网络复原
1 图像退化及复原模型
1.1 图像降质的数学模型
图像复原处理的关键问题在于如何建立退化模型。假定输入图像f(x,y)经过某个退化系统后输出的是一幅退化的图像。为了方便讨论, 把噪声引起的退化(即噪声)对图像的影响一般作为加性噪声考虑,这也与许多实际应用情况一致,如图像数字化时的量化噪声、随机噪声等就可以作为加性噪声,即使不是加性噪声而是乘性噪声,也可以用对数方式将其转化为相加形式。原始图像f(x,y) 经过一个退化算子或系统H(x,y) 的作用,然后和噪声n(x,y)进行叠加,形成退化后的图像g(x,y)。图像退化的过程可以用数学表达式写成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一种统计性质的信息下图表示退化过程的输入和输出的关系,其中H(x,y)包含了退化系统的物理过程,即所要寻找的退化数学模型。
1.2 图像的退化恢复模型
数字图像的图像恢复问题可以看作是:根据退化图像g(x ,y)和退化算子H(x ,y)的形式,沿着逆向过程去求解原始图像f(x ,y), 或者说逆向地寻找原始图像的最佳近似估计。
2 研究背景与意义
图像复原是数字图像处理技术的一个重要研究方向,在现实生活中,有着非常广阔的应用前景和市场。数字图像处理研究很大部分是服务于数字图像复原的,而运动模糊图像的复原又是图像复原中的重要课题之一,从六十年代起就有人研究它。初期研究的主要原因是对卫星所拍摄的图像进行复原,因为卫星相对地球是运动的,所拍出的图像是模糊的(当然卫星所拍摄图像的模糊原因不仅仅是相对运动而造成的,还有其他原因如大气湍流所造的模糊等等)。美国的喷气推进实验室(JPL)对徘徊者飞行器发回的月球照片进行了图像恢复处理。传统的图像恢复方法可以很好地恢复出来原始图像,但是需要事先知道系统的先验知识(例如系统的点扩散函数)。在先验知识不足的情况下,如何恢复出来原始图像?这就需要模糊图像盲恢复技术。根据不同的应用背景和先验知识,大致可以两种方法恢复两种类型的模糊图像,以满足不同的应用要求。
第一种方法:如何快速恢复模糊图像,进行适时性图像处理?这个技术在实际生活中有着广泛应用。
第二种方法:如何在事先不能确定模糊系统点扩散函数的情况下,恢复模糊图像,改善图像的质量,这就是图像盲恢复的问题。
3 国际国内研究发展和现状
从历史上来看,数字图像处理研究有很大部分是在图像恢复方面进行的,包括对算法的研究和针对特定问题的图像处理程序的编写。数字图像处理中很多值得注意的成就就是在这两方面取得的。
在六十年代中期,去卷积(逆滤波)开始被广泛地应用于数字图像恢复。这一阶段对模糊图像的研究主要是把因相对运动而拍摄的模糊图像复原过来,从而增强人们的判读能力。早期做图像复原研究,主要强调尽可能使模糊图像复原到原貌,增加它的判读性,在此发展了很多的复原方法,诸如:差分复原、维纳滤波等.这些方法各有特点,较好的解决了运动模糊图像的判读问题,但是在应用上均有一定的限制。
虽然经典的图象复原方法不少,但归纳起来大致可分为逆滤波法,或称相关变换法( inv ersefiltering or t ransfo rm related techniques) 和代数方法( alg ebraic techniques) 两种。
3.1 传统复原法
3.1.1 逆滤波方法
逆滤波法大致有经典逆滤波法、维纳滤波法、卡尔曼滤波法等. 其中,在傅立叶变换域,经典逆滤波的变换函数是引起图象失真的变换函数的逆变换,其虽在没有噪声的情况下,可产生精确的复原图象,但在有噪声时,将对复原图象产生严重的影响,虽然滤波函数经过修改,有噪声的图象也能复原,但它仅适用于极高信噪比条件下的图象复原问题; 维纳滤波法是通过选择变换函数,同时使用图象和噪声的统计信息来极小化均方复原误差,这虽然在一定程度上克服了逆滤波法的缺点,但是维纳滤波法需要较多有关图象的先验知识,如需要对退化图象进行满足广义平稳过程的假设,还需要知道非退化图象的相关函数或功率谱特性等等,而在实际应用中,要获得这些先验知识有较大的困难,为此,Ozkan 等人在研究图象序列的复原问题时,提出了一种解决空间和时间相关性的多帧维纳滤波法,是近年来维纳滤波法的新发展; 卡尔曼滤波是一种递归滤波方法,其虽可用于非平稳图象的复原,但是因计算量过大,而限制了其实际应用的效果。 Wu 和Kundu 又对卡尔曼滤波方法进行了改进,不仅提高了速度,并考虑了应用于非高斯噪声的情况; Cit rin 和Azimi-Sadjadi 也对卡尔曼滤波方法进行了改进,提出了块卡尔曼滤波方法; Koch 等提出了扩展卡尔曼滤波( extended Kalmam filter) 复原方法,该方法可以较好地复原模糊类型不相似的退化图象.除了上述的逆滤波方法外,还有参数估计滤波法,它实质上是维纳滤波法的变种. 20 世纪90 年代初,又提出了基于递归图象滤波的自适应图象复原方法及合成滤波方法,它代表了滤波方法新的发展方向. 1998 年Kundur 等人首先明确提出了递归逆滤波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又进行了改进,即在代价函数中增加了空间自适应正则化项,从而很好地抑制了噪声,并减少了振铃现象,较好实现了在低SNR 条件下的盲图象复原. 2001 年,Eng 等人结合模糊集的概念,提出了自适应的软开关中值滤波方法,它能在有效地去掉脉冲噪声的同时,很好地保存图象的细节,是一种值得重视的新的图象复原方法。
3.1 2 代数方法
Andrews 和Hunt 提出了一种基于线性代数的图象复原方法。这种方法可能比较适合那些相对于积分运算,则更喜欢矩阵代数,而相对于分析连续函数,又更喜欢离散数学的人的口味。它为复原滤波器的数字计算提供了一个统一的设计思路。代数方法可分为伪逆法、奇异值分解伪逆法、维纳估计法和约束图象复原方法等。 其中,伪逆法,实质上是根据图象退化的向量空间模型来找到引起图象退化的模糊矩阵,但由于模糊矩阵总是很大的,因此在计算上往往不可行; 而奇异值分解伪逆法则是利用矩阵可分解成特征矩阵系列的思想,将模糊矩阵进行分解,由于简化了计算,从而有利于模糊矩阵的估计计算,但在有噪声存在时,经常会出现不稳定的现象; 维纳估计法虽然考虑了噪声的情况,但它仅适合噪声是二维随机过程,且已知其期望和协方差的情况。前面的方法仅把图象看成是数字的阵列,然而一个好的复原图象应该在空间上是平滑的,其在幅度值上是正的,而约束图象复原方法就是将这些因素作为约束条件,如基于维纳估计法和回归技术而提出的图象复原方法就是一种约束图象复原方法,而且通过选取不同的约束参数和回归方法可以得到不同的图象复原算法。传统的图象复原算法或面临着高维方程的计算问题,或要求恢复过程满足广义平稳过程的假设,这就是,使得具有广泛应用价值的图象复原问题没有得到圆满的解决的根本原因。
3.2 神经网络图象复原的方法
神经网络图象复原方法的发展方向自从神经网络图象复原首次提出十多年来,其研究在不断地深入和发展,描述它的现状已属不易,展望它的未来更是困难,况且科学研究具有不确定性. 据笔者判断,如下诸方面是亟待解决的问题,或研究活动已有向这些方面集中的趋势。
3. 2.1小波神经网络用于图象复原将是研究的重点
自1992 年Zhang 提出小波神经网络以来,如今已提出了各种类型的小波网络,且小波与神经网络的结合成了一个十分活跃的研究领域。通过学者们的理论分析和模拟实验表明: 由于小波神经网络具有逼近能力强、可显著降低神经元的数目、网络学习收敛的速度快、参数( 隐层结点数和权重) 的选取有理论指导、能有效避免局部最小值问题等优点,因此将其用于图象复原是一个值得研究的方向。将小波的时频域局部性、多分辨性等性质,与神经网络的大规模并行性、自学习特性等优点结合起来,不仅将使用于图象复原的小波神经网络具有自适应分辨性,也将使正则化参数的选取更具有自适应能力. 最终使复原图象既能保持图象的细节,又能很好地抑制图象中的各种噪声。
3.2.2细胞神经网络、BP 网络、自组神经网络
值得进一步研究细胞神经网络( CNN ) 由于其具有易于硬件实现的特点,因而具有很强的商业价值,但由于其自身还有很不成熟的地方,因此值得深入地研究. 其研究方向有: 细胞神经网络理论基础的进一步完善及在此基础上建立细胞神经网络中邻域系统的概念; 与图象数据局部相关性等概念结合起来研究,以建立新的图象复原理论,形成新的图象复原技术。BP 网络对受污染或带噪声的训练样本,不仅能进行正确的映射,且与其纯样本仍相似。 正是BP 网络的泛化能力强,使它在解决图象复原问题时,可能比其他神经网络具有更好的潜在性能。 将BP 网络用于图象复原是很值得进一步研究的.大家知道,人脑的学习方式是“自主的”,即有自组织和自适应的能力的,即人脑能在复杂、非平稳和有“干扰”的环境及其变化的情况下,来调整自己的思维和观念,还能根据对外界事物的观察和学习,找到其内在的规律和本质属性,并能在一定的环境下,估计到可能出现的情况以及预期会遇到和感觉到的各种内容及情况。 自组织神经网络(SONN) 正是基于人脑的这些功能而生成的,由于它具有能从输入的数据中,揭示出它们之间内在关系的能力,因此将其用于“盲图象”的复原将是非常有利的。
3.2.3 需要提出更适合图象复原的新神经网络模型
小波神经网络是为逼近任意非线性函数而提出来的,但为了图象复原的需要,可考虑针对图象复原的特殊情况,提出新的神经网络模型。 如,因为大多数图象是由平滑区域和轮廓细节组成的,其图象数据在平滑区域虽具有较强的相关性,但与轮廓细节相邻的数据应极不相关,所以,提出一种专用于图象复原的“相关性神经网络模型”是必然的期待; 再有,因为多项式具有较广的拟合性和较好的收敛性,所以应提出的“多项式神经网络”,将它们用于图象复原也是值得研究的。
3.2.4 神经网络与其他理论的结合
研究是寻求新模型、新方法的重要途径目前神经网络的研究正由单纯的神经计算转向计算智能,并结合脑科学的研究向生物智能方向发展。 为此,神经网络图象复原的研究也应考虑吸收模糊、分形、混沌、进化计算、信息融合等交叉学科的研究成果。 与模糊系统的结合将是一个重要的研究方向,因为,神经网络与模糊系统有如下很多的相同之处: ( 1) 它们在处理和解决问题时,无需建立对象的精确数学模型,而只需要根据输入的采样数据去估计其要求的决策; ( 2) 在对信息的加工处理过程中,均表现出了很强的容错能力; ( 3) 它们都可以用硬件来实现. 由此可见,将神经网络与模糊系统结合,用于图象复原将是有意义的研究工作。
4 未来展望
图像恢复发展到现在,已经有了许多成熟的算法,但是还是存在许多问题,等待着我们去解决。目前图像恢复的最新发展有:
1. 非稳图像复原,即空间可变图像复原。
2. 退化视频信号的复原问题,以及摄像机拍照图像复原,这是一个需要进一步研究的领域。
3. 运动补偿时空复原滤波,同时将时间相关应用到运动补偿中。
4. “Telemedicine“的出现,远程诊断极大的依赖于远程接受的图像质量,图像恢复在医学领域中有相当重要的作用。
5. 模糊 PSF 的 Identification 仍然是一个困难的问题,尤其在空间可变的 PSF 的估计中。
6. 空间可变恢复方法,可以利用 Wavelets 和 Markov 随机场等方法进行复图像恢复,这是一个具有发展潜力的研究方向。
参考文献
1 冯久超,黄海东. 基于神经网络的盲图象恢复[ J ] . 计算机科学,2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
篇3
关键词: 超分辨率; 深度学习; 卷积; 神经网络; 视觉特征; 映射
中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2017)07-38-04
Application of deep learning in super-resolution image reconstruction
Han Sensen
(School of Computer and Information Engineering, Henan University, Kaifeng, Henan 475000, China)
Abstract: Super-resolution image reconstruction can reconstruct a high-resolution image using low-resolution images; it has become a hotspot in image processing. Deep learning is a popular branch of machine learning, which by combining low-level features to form more abstract high-level visual features, to avoid the artificial extraction of features. This paper divides the current reconstruction algorithm into three categories, which are based on interpolation, based on reconstruction and based on learning, and especially focuses on the reconstruction algorithms based on deep learning. Finally the future research direction of super-resolution image reconstruction technology is prospected.
Key words: super-resolution; deep learning; convolution; neural networks; visual feature; mapping
0 引言
单帧图像的超分辨率(super resolution,SR)重建是指利用已知的低分辨率图像,重构出具有更高像素密度的图像,并且重构出的图像还能够保持丰富的纹理、质地等细节信息。它在视频监控、图像打印、医学图像处理、卫星成像等领域有较广泛的应用。
超分辨率图像的重建本质上是一个病态(ill-posed)问题,因为不完全相同的多张图像高分辨图像在经过相同的降采样都可以产生相同的低分辨图像,这是一种典型的一对多问题,因此存在惟一解,特别是在放大倍数较高的情况下该问题将变得更为复杂。
1 算法分类
当前的超分辨算法大致可分为三类:基于插值的超分辨率重建算法,基于重构的超分辨率重建算法和基于学习的超分辨率重建算法。
基于插值的重建算法假设像素的灰度值是连续变化的,并利用邻近像素的灰度值计算待插值像素的灰度值,然而实际应用中许多图像并不满足这种假设。并且该算法通过一个预定义的数学公式直接将低分辨率图像生成高分辨率的图像而不考虑任何的图像特性,也不接受任何的训练。所以基于差值方法得到的重建图像容易产生模糊、锯齿现象。常见的线性插值方法有最近邻插值方法,双线性插值方法,双三次插值方法等。
基于重构的超分辨率重建算法是依照特定的退化模型,将已知的低分辨率图像序列中不同鼍暗男畔⒔行融合来重建出高分辨率图像,因此该算法需要对图像进行配准。常见重构算法有种迭代反向投影[1](IBP)、凸集投影法[2](POCS)。
基于学习的分辨率重建算法则是通过机器学习方法从大量的低分辨图像和高分辨图像对中学习它们之间的映射函数,利用学习到的函数对测试图像进行预测来产生高分辨率图像。常见的基于学习的分辨率重建算法有嵌套的邻域嵌入[3](Neighbor Embedding with Locally Linear Embedding)、固定邻域回归[4](Anchored Neighborhood Regression)、稀疏编码[5](Sparse Coding)。
相比较于其他两类算法而言,基于学习的SR算法直接学习分辨率图像与高分辨率图像端到端的映射函数,比传统的插值和重构的方法具有更突出的性能。本文着重介绍几种基于深度学习的超分辨算法,包括SRCNN[6],DRCN[7], ESPCN[8]和SRGAN[9]等。
2 SRCNN
SRCNN(Super-Resolution Convolutional Neural Network)是较早地使用卷积神经网络来做SR的网络模型。该网络结构十分简单,仅仅用了三个卷积层。对于一张低分辨率图像,SRCNN首先使用双三次插值将它放大到将要放大的尺寸,再通过三层卷积神经网络做非线性映射,得到的输出结果作为重建的高分辨率图像。整个过程可分为三个部分:图像块的提取和特征表示,特征非线性映射和最终的重建。
图像块提取与表示:该过程从低分辨率图像中提取出部分重叠的图像块,并将每个图像块表示为一个高维向量,这些向量包含一些特征映射,映射的个数与向量的维数相同。
非线性映射:这个功能将每个高维向量非线性地映射成另外一个高维向量。从概念上来讲每个映射后的向量代表了一个高分辨率图像块。这些向量构成了另外一个特征集。
重建:这个处理聚集以上高分辨率基于像素块的替代对象,用于生成最终的高分辨率图像。并且我们希望这个图像能尽可能与高分辨率原图相近。
对重建后的超分辨率图像的质量进行定量评价的两个常用指标是PSNR[10](Peak Signal-to-Noise Ratio)和SSIM[11](Structure Similarity Index)。这两个值代表重建图像的像素值和原始图像像素值的接近程度,具体对比结果如表1,在2、3、4的放大倍数下,SRCNN与传统方法的对比,可以看出无论是在哪个放大倍数下,SRCNN的PSNR值都比其他的重建算法要高出0.4Db左右。
SRCNN的网络层数较少,同时局部感受野也较小,所以从输入图像中提取到的信息就非常有限。因此DRCN(Deeply-Recursive Convolutional Network for Image Super-Resolution)提出在网络中增加更多的卷积层增加局部感受野的大小,这样可利用更多的邻域像素。同时为了避免过多W络参数,DRCN提出使用递归神经网络RNN(Recurrent neural network)。
与SRCNN比较类似DRCN的网络结构可分为三个部分,第一个是Embedding network,相当于SRCNN中的特征提取,第二个是Inference network,相当于SRCNN中的非线性变换,第三个是Reconstruction network,即从特征图像得到最后的重建结果。其中的Inference network是一个递归网络,即数据循环地通过该层进行多次递归。将这个递归过程展开后可以看出,它等效于多个串联的卷积层共享同一组参数,Inference network展开后的网络结构是由D个共享参数的卷积层组成。DRCN将每一层的卷积输出都送入同一个Reconstruction Net来作为其输入,由于递归的深度是D,从而一共可得到D个重建图像,再把它们加权平均得到最终的输出。此外DRCN受ResNet[14]的启发通过skip connection将输入图像与Inference net的输出HD叠加作为Reconstruction Net的输入,这就相当于Inference Net学习的是高分辨率图像与低分辨率图像的残差图像,即图像的高频信息。
实验部分,DRCN同样也使用了包含91张图像的Set91[4]数据集进行训练,与SRCNN不同的是DRCN使用的训练数据是在多个方法倍数下生成的,而不像SRCNN那样在单一的放大倍数下生成,这样可以利用不同尺度图像间的信息进行互补,理论上DRCN的重建效果会由于SRCNN,具体的对比结果如表2所示,可以看出DRCN的重建图像的PSNR与SRCNN相比有了较大提高。
4 ESPCN
在SRCNN和DRCN中,低分辨率图像都需要先使用双三次插值得到与高分辨率图像大小相同的低分辨率图像来为网络输入,这意味着卷积的计算将在较高分辨率的图像上进行,这与在低分辨率图像上计算卷积相比于会需要较大的计算开销。因此ESPCN(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network)提出在低分辨率图像上直接计算卷积来得到高分辨率图像。
ESPCN的核心思想是亚像素卷积层(Sub-pixel Convolutional Layer)。网络的输入是原始的低分辨率图像,经过两个卷积层后得到的特征图像大小与输入图像一样,但是特征的通道数变为r2,γ是图像的目标放大倍数。然后将每个像素上的r2个通道重新排列成一个γ×γ的区域,该区域对应于高分辨率图像中的一个区域大小为γ×γ的子块,从而对于一个大小为r2×H×W的特征图像在通道上进行重新排列会形成一个大小为1×rH×rW的图像,该图像的尺寸是输入图像尺寸的r倍,从而间接地实现了输入图像的放大。
通过使用sub-pixel convolution可以间接的实现图像的放大过程,即插值函数是隐含地包含在前面的卷积层中,只在网络的最后一层对图像大小做变换,前面的卷积运算由于在低分辨率图像上进行,因此效率会有很明显的较高。
ESPCN的训练与SRCNN类似,在重建效果上,以PSNR为评价指标来看ESPCN比SRCNN有进一步的提高,具体对比如表3所示。而时间效率方面对于一个1080HD的视频图像,对其放大四倍进行的高分辨率重建,SRCNN需要的时间为0.434s,而ESPCN只需要0.029s。
SRGAN(Photo-Realistic Single Image Super Resolution Using a Generative Adversarial Network)是将生成对抗网络用于SR问题的处理。其出发点是传统的方法一般只能处理的是较小的放大倍数,当图像的放大倍数在4以上时,得到的结果往往显得过于平滑,从而重建出的图像在视觉上却少一些质地细节的真实感,因此SRGAN使用GAN来生成图像中的细节。
SRGAN网络由两部分组成:生成网和判别网,生成网用于生成一些图像,判别网用于判断接收到的输入图像是由生成网生成的还是来自于真实样本中的原始图像。训练时如果判别网无法区分出来输入的样本来自于哪里就达到了预期的效果。
传统方法一般使用图像的最小均方差(MSE)作为误差函数,即该误差函数使重建图像有较高的PSNR,但是重建图像缺少了必要的高频信息,因而在重建后的图像中容易出现过度平滑的纹理。在SRGAN的误差函数中又增加了一个内容误差项和生成误差项。
内容误差用于衡量重建出图像与原始图像在更高级的视觉特征上的差e。其具体定义由以下公式描述。
生成误差项基于判别网输出的概率,其输出值表示输入数据来自于真实样本的概率大小。其具体定义由以下公式描述。
其中是一个图像属于真实的高分辨率图像的概率。是重建的高分辨率图像。
SRGAN的训练过程与前面的网络类似,同样使用PSNR和SSIM评价标准对算法的重建效果进行测试,SRGAN生成的高分辨率图像看起来更真实,具体的对比如表4所示。
6 结束语
深度学习已经在超分辨率图像重建领域取得了突破性的成绩,同时它仍然存在一些问题,例如它与传统的机器学习方法一样,通常假设训练数据与测试数据服从同样的分布,而实际上这两者存在一定的偏差。此外当前的重建算法仍然只使用于较小的放大倍数,对于较大的放大倍数得到重建图像仍然过于平滑模糊,因此如何充分利用深度学习来增强算法在较高的放大倍数下的重建性能是目前深度学习研究的重点。
参考文献(References):
[1] Irani M, Peleg S. Improving resolution by image registration[J].
CVGIP: Graphical models and image processing,1991.53(3):231-239
[2] Stark H, Oskoui P. High-resolution image recovery from
image-plane arrays, using convex projections[J].JOSA A,1989.6(11):1715-1726
[3] Timofte R, De Smet V, Van Gool L. A+: Adjusted
anchored neighborhood regression for fast super-
resolution[C],2014:111-126
[4] Timofte R, De Smet V, Van Gool L. Anchored
neighborhood regression for fast example-based super-
resolution[C],2013:1920-1927
[5] Yang J, Wright J, Huang T S, et al. Image
super-resolution via sparse representation[J]. IEEE transactions on image processing,2010.19(11):2861-2873
[6] Bruna J, Sprechmann P, Lecun Y, et al. Image
Super-Resolution Using Deep Convolutional Networks[J]. Computer Science,2015.
[7] Kim J, Lee J K, Lee K M. Deeply-Recursive Convolutional
Network for Image Super-Resolution[J]. arXiv preprint arXiv:1511.04491,2015.
[8] Shi W, Caballero J, Huszár F, et al. Real-Time Single
Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J],2016.
[9] Ledig C, Theis L, Huszar F, et al. Photo-Realistic Single
Image Super-Resolution Using a Generative Adversarial Network[J],2016.
[10] Hore A, Ziou D. Image Quality Metrics: PSNR vs. SSIM[J],
2010:2366-2369
[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality
assessment: from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004.13(4):600-612
[12] Kim K I, Kwon Y. Single-image super-resolution using
sparse regression and natural image prior[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on,2010.32(6):1127-1133
[13] Dong C, Loy C C, He K, et al. Image super-resolution
using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence,2016.38(2):295-307
篇4
关键词:灰值动态学卷积模板卷积投影牌照识别
基于图像理解的汽车牌照自动识别系统是智能交通系统一个重要分支,有着非常广泛的应用前景,而把汽车牌照从复杂的汽车图像中分割出来是汽车牌照自动识别系统必须解决的关键问题。在过去的十几年中,各国的科研人员提出了不少提取汽车牌照的方法。Choi和Kim提出利用Hough变换寻找垂直边缘提取汽车牌照的方法,此方法由于许多汽车前部散热器产生的垂直边缘和某些牌照边框的扭曲或某些汽车牌照没有边框而鲁棒性较差。S.K.Kim和H.J.Kim提出的基于遗传算法分割提取汽车牌照的方法,最大缺点是耗时长,难以进行实时处理。S.H.Park提出的一种基于神经网络提取汽车牌照的方法,使用二个时延神经网络在水平和垂直方向对输入图像进行滤波,得到牌照的候选区域,然后利用牌照的长宽比、面积、面积与周长比来区分真正的牌照区域与类牌照区域。此方法要求图像中的牌照尺寸基本不变,一旦图像中的牌照尺寸发生了较大的变化,必须对神经网络重新进行训练。T.R.Crimmins提出了一种数字形态学方法,此方法用不同尺寸的每个可能字符作为结构元素,采用击中击不中方法先提取输入图像中的字符,再根据牌照字符的语法得到汽车牌照,这种方法计算量非常大且易受噪声影响。C.H.Poon提出了一种灰值形态学方法,它通过检测字符中的直线段和字符间的空间来提取牌照,这种方法耗时较多,且没有利用版照的尺寸信息。C.M.Hwang提出了空间频率方法,它利用牌照区域内空间频率变化大的特性,对图像进行一阶差分。差分图在牌照区域内形成多个峰,然后利用峰的幅度、宽度和密度区分真正的牌照区域与类牌照区域。这种方法具耗时少、抗噪能力强的优点。本文提出的灰值形态学方法仅利用了牌照区域内空间频率变化大的特性而且利用了牌照区域字符笔划具有高曲的特性,因而比单纯的空间频率方法更加有效。通过建立牌照与卷积算子形态学结构元素尺寸的相互关系。本文提出的方法对不同尺寸牌照具有很好的鲁棒性。
1数字形态学
数字形态学是一种重要的数字图像处理方法和理论。在数字形态学中,两种最基本的变换或运算是腐蚀和膨胀,其它形态学变换都可通过它们来定义。下面列出了一些灰值形态学变换的定义。
图像f(x,y)平移(a,b)定义为:
f(a,b)(x,y)=f(x-a,y-b)
图像f(x,y)相对于原点的反射为:
f^(x,y)=f(-x,-y)
二幅图像f(x,y)和g(x,y)的最小记为(f∧g)(x,y)。
当(x,y)位于图像f的定义域D(f)和图像g的定义域D(g)的交集D(f)∩D(g)内时:
(f∧g)(x,y)=min{f(x,y),g(x,y)}
否则:
(f∧g)(x,y)=0
二幅图像f(x,y)和g(x,y)的最大记为(f∨g)(x,y)。
当(x,y)位于图像f的定义域D(f)和图像g的定义域D(g)的交集D(f)∩D(g)内时:
(f∨g)(x,y)=max{f(x,y),g(x,y)}
当(x,y)∈D(f)且(x,y)∈D(g)时
(f∨g)(x,y)=f(x,y)
当(x,y)∈D(g)且(x,y)∈D(f)时
(f∨g)(x,y)=g(x,y)
f(x,y)被g(x,y)膨胀定义为:
(fg)(x,y)=max{f(x-a,y-b)+g(a,b)}
(a,b)∈D(g)
f(x,y)被g(x,y)腐蚀定义为:
(fg)(x,y)=max{f(x-a,y-b)-g(a,b)}
(a,b)∈D(g)
开运算定义:
fog=(fg)g
闭运算定义:
f·g=(fg)g
Top-Hat变换定义:
Hat(f,g)=f-fog
与Top-Hat变换相对的是波谷检测器(Valley变换),其定义为:
Valley(f,g)=(f·g)-f
形态学梯度有下面三种形式:
Grad(f)=f-(fg)
Grad(f)=(fg)-f
Grad(f)={[(fg)-(fg)]}/2
2牌照提取算法
在牌照提取算法中,需要用到卷积、模板卷积和卷积投影等概念。下面对它们进行定义。
对于图像[aij]m×n,i=0...m-1,j=0...n-1,模板[aij]p×q。p<m,q<n,其卷积、模板卷积和卷积投影都是一维数组。
水平模板卷积
垂直模板卷积投影vmp:
水平模板卷积投影hmp:
图1中牌照区域的长为173象素、高为36象素。从左到右、从上到下的8条曲线依次为牌照区域灰度图第10~17条水平方向的灰度值。通过观察发现,在牌照区域的水平方向不令空间频率变化大,而且具有许多陡峭的峰(欲)和高曲率点。而灰值形态学的梯度变换可以对图像进行高通滤波,灰值形态学的Top-Hat变换和Valley变换可以撮高曲率点、波峰和波谷。
进行形态学变换,需要考虑二个因素:结构元素和变换类型。变换类型准备采用灰值形态学的梯度变换、Top-Hat变换和Valley变换。结果元素采用n×1的维水平结构,以提取水平方向上的高频分量、波峰和波谷。结构元素的大小n对Top-Hat变换和Valley变换的结果结构元素的大小n对Top-Hat变换和Valley变换的结果有着很大的影响,因此问题的关键是怎样确定n。
分析图1中水平方向的灰度曲线,发现在穿过字符的水平线上,灰度曲线波峰的宽度与字符垂直笔划的宽度存在着某种线性关系。根据中国汽车牌照的一般规范,牌照上字符的垂直笔划宽度与牌照的宽度也存在着某种线性关系。结构元素的尺寸n与灰度曲线波峰的宽度又可建立一种线性关系。因此可建立n与牌照宽度w的一种近似线性的关系:
n=Integer{(w/k)+b}
式中的Integer()表示对括号内的值取整。w、b都为整数。根据经验令w、b分别为25和0,则:
n=Integer(w/25)
由上式可知,当牌照的宽度w变化25个象素时,结构元素的大小n才变化1个单位,也就是说n对w不是很敏感。
牌照区域提取算法包括以下几步:
(1)缩小图像:对输入的灰值汽车图像进行隔行隔列抽样,得到一幅大小为四分之一原因的新图像。接下列抽样,得到一幅大小为四分之一原图的新图像。接下来的处理均在新图像上进行,这样可以大大减少处理时间,提高算法的效率。根据形态学的尺度变换兼容性原理,对图像缩小(放大)后再进行形态学变换,只要对结构元素做相应的变换,结果不变。
(2)水平分割:对汽车图像进行水平分割,得到几个可能含牌照的水平区域。
(3)垂直分割:对第(2)步所得到的每一个水平区域进行垂直分割,得到一些牌照的候选区域。
(4)牌照区域甄别:分析各个候选区域得出真正的牌照区域。
2.1水平分割
分别对汽车图像进行灰值形态学的梯度变换、Top-Hat变换和Valley变换,如图2。一般来说,在大多数汽车车牌照自动识别系统应用中,CCD摄取的汽车图像中牌照的大致宽度和高度是已知的。如果牌照的宽度为w∈(a,b),则取水平模板m×1,其中m=(a+b)/2。用模板分别对图像的梯度图、Top-Hat变换图和Valley变换图进行水平模板卷积。对每帧变换图取每一行模板水平卷积的最大值,得到1个一维数组,3幅变换图共得到3个一维数组g1,ti和vi,其中i大于等于1,而小于等于图像的高度,其曲线如图2的b、c、d。观察图2可以发现,由于受车体上其它字符和车前灯等因素的影响,仅仅依靠梯度图较难对牌照进行水平定位,而结合Top-Hat变换图和Valley变换图,能更好地对牌照进行水平定位。据此,构成了1个一维数组pi。
pi=gi×ti×vi
其曲线如图3。取图3中最高峰的位置作为牌照的水平中线,为了确保不会出错,把次高峰也作为牌照的另一备选位置。了高峰和次高峰的位置,分割出2个宽为汽车图像宽度,高为牌照的最大可能高度b的区域,如图4中的a和b。
2.2垂直分割
对图4中的a和b二个区域分别进行灰值形态学的梯度变换、Top-Hat变换和Valley变换,并在垂直方向对变换图进行卷积得到3个一维数组gi、ti和vi,其中i大于等于1,而小于等于图像的宽度w,其曲线如图5和图6。qi=gi×ti×vi
的曲线如图7。利用下面的公式分别对图4中的a和b进行垂直分割。
{(m,n)|qi>kT,i=m...n,n-m+1∈(a,b)}
其中:T=Max(qi),k为一经验值,(a,b)为牌照的宽度范围。
i=l...w
分割结果如图8所示。
2.3牌照区域甄别
篇5
关键词: 粮虫检测; 特征提取; RBF神经网络; 图像识别
中图分类号: TN911.73?34; S24 文献标识码: A 文章编号: 1004?373X(2017)04?0107?04
Application of image recognition processing technology in agricultural engineering
ZHOU Qingsong, TANG Xiuzhong
(School of Technology, Puer University, Puer 665000, China)
Abstract: A grain insect detection method based on image recognition processing is studied. The image recognition processing technology is applied to the agricultural engineering. The gray processing, binaryzation, smoothing and sharpening techniques are used to preprocess the grain insect image to make it easier to conduct the edge detection and image feature extraction. The commonly?used four edge detection methods are adopted to detect the edge of the grain insect image under recognition. Eight regional descriptor features of the grain insect image are taken as the input characteristics of the grain insect recognition model. Three familiar grain insects of maize weevil, tribolium and coleoptera are selected as the research objects, and the identification model based on RBF neural network is used to recognize the geometric feature of three grain insect images.
Keywords: grain insect detection; feature extraction; RBF neural network; image recognition
0 引 言
目前储粮害虫问题是世界上很多国家所面临的困难,在很多国家每年都会因为粮食害虫而损失很多粮食。在遭受到粮食害虫的侵害以后粮食的籽粒会被破坏,容易变质、Y块、发热以及发霉,另外在老化死去害虫尸体、粪便以及有毒液体的影响下粮食会受到较为严重的污染[1]。
总的来说,目前主要有四种方法来检测粮食害虫:首先是取样法,将所制作的扦样器按照区域定点的方法安装在储粮库内。采用电机或者人工的方法吸取粮食样本,然后交由技术人员分类、鉴别以及筛选,这样就可以对库区粮食害虫密度进行确定。这种方法需要较大的劳动量,降低了工作效率,另外人为主观因素容易对最后的结果产生影响,因此产生了较大的误差。其次是诱捕法,通过对粮食害虫生理特性以及习性的利用来采取合适的诱捕方式,主要包括粮食害虫生理特性诱集法以及陷阱式诱集法两种。但是在应用诱捕法的过程中需要制作诱导剂以及提取粮食害虫的信息素,由于具有较强的针对性,而且具有种类繁多的粮食害虫,因此所消耗的成本比较大,所以以上两种方法也存在着一定的缺陷。再次是声测法,通过对声音监测装置的应用,分析害虫爬行以及吃食时的声音,进而就可以获取粮食害虫密度信息。在应用这种方法的过程中会在周围产生较大的噪音,同时需要花费较大的资金来制造声音监测装置,所以目前这种方法并没有得到广泛的应用。最后一种方法是近红外反射光谱识别法,粮食害虫的C,H,N成分存在着很大的差距,因此就会产生不同的近红外线光谱,这种不同种类的粮食害虫就可以通过NIR 的扫描来进行识别。但是这种方法仍然存在着一定的缺陷,例如粮食的不完整颗粒以及颗粒大小等物理因素会对扫描结果产生一定的影响,使得无法获得准确和清晰的NIR 扫描图像[2?3]。
除了使用声音检测方法外,其他方法不利于实现自动化粮虫检测,人工检测方法效率低、成本高,因此本文研究一种基于图像识别处理的粮虫检测方法,将图像识别处理技术应用于农业工程。
1 粮虫图像预处理
1.1 图像灰度化处理
在分析粮虫图像的过程中首先需要进行图像颜色之间的转换,通常是将彩色转换为灰色,这样既能够加快图像的处理速度,另外还能够方便地将处理后的信息向原来的图像上进行转移。
通常利用最大值法、加权平均法以及平均值法来进行彩色图像和灰色图像之间的转换。本文在进行彩色图像灰度化处理的过程中主要采用了最大值法,这种方法比较简单,采用三原色R,G,B来对图像的灰度值进行描述[4]。
1.2 二值化
采用二值化手段来处理粮虫图像,这样能够重点显示对象区域,对于后续的分析和辨别非常有利。由于在灰度上目标图像与背景图像存在着较大的差距,因此可以根据灰度值的不同来对目标图像进行区分。分别用0和1来表示目标图像和背景图像,这样就能够实现灰色图像和二值图像之间的转换,具有较高的识别度。本文只对单个的背景和图像进行了分析。因此在数据对比的过程中使用了一个阈值Th,达到分类像素群的目的。将图像中的背景灰度值以及目标灰度值分别设置[5]为1和0。
1.3 图像平滑
本文使用邻域平均法对粮虫图像进行平滑处理。所应用的均值滤波的邻域平均法实际上就是进行空域平滑处理,首先在相同的窗口上放置图像,平均所有的像素灰度值,通过对中心部位像素灰度值的替代就能够达到平滑的目的。均值滤波和低通滤波器具有相同的作用,输出的图像可以用离散卷积来进行表示[6]。
1.4 图像锐化
通过对图像的锐化处理能够达到修复外部形状以及进行图像边缘聚焦的目的。通过图像灰度颜色的加深以及外援色彩数值的对比能够对图像的清晰度进行提升。目前Sobel算子、Laplace算子以及Robert算子是图像锐化过程中经常采用的算子,本文在图像锐化的过程中采用了Robert算子。
2 边缘检测
在经过上述的预处理后,能够显著地提升图像的质量,但是还需要采用图像边缘检测技术来对图像中的背景和目标进行区分[7]。
(1) Roberts 边缘检测算子。Roberts 边缘检测算子是使用局部差分算法实现。其中原始图像用f(x,y)表示,边缘检测后输出的图像用g(x,y)表示:
(1)
利用互相垂直方向上的差分Roberts 边缘检测算子就可以对梯度进行计算,另外边缘之间的检测可以利用对角线方向相邻像素之差来实现。
通过对模板的利用能够对Roberts 的梯度幅度G进行计算,进而得到合适的阈值T,当G>T时,该点就是阶跃边缘点,进而获取边缘图像。
(2) Sobel 边缘检测算子。Sobel边缘检测算子考察各个像素的邻域加权差,加权差值最大的点就是边缘点:
(2)
算子模板为:
(3)
(3) Prewitt 边缘检测算子。算子和算子具有相似的特点:
(4)
算子模板为:
(5)
(4) Laplacian 边缘检测算子。边缘检测算子,通过在边缘处产生陡峭的零交叉来实现边缘检测的目的[8]:
(6)
本文选取常见的玉米象、拟谷盗和锯谷盗三种粮虫为研究对象,使用上述四种边缘检测方法对粮虫图像边缘进行检测,其中检测效果最好的是使用边缘检测算子,检测效果最差的是使用边缘检测算子。两种算子检测结果如图1所示。
图1 两种算子对玉米象、拟谷盗和锯谷盗三种粮虫的边缘检测
3 粮虫图像特征提取
区域描述子特征在图像分析的过程中具有非常强的实用效果。因此本文使用粮虫图像的八种区域描述子特征作为粮虫识别模型的输入特征[9?10]:
(1) 面积A:图像中待识别对象面积像素点个数总和:
(7)
(2) 周长P:待识别对象的周长:
(8)
式中,SUM(in)为4邻域内像素均为待识别对象的像素个数总和。
(3) 相对面积RA:待识别对象面积占图像总体比例:
(9)
(4) 延伸率S:待R别粮虫图像的最小外接矩形的宽度比上长度值[11]:
(10)
(5) 复杂度C:待识别对象紧凑性:
(11)
(6) 占空比B:反应待识别对象的复杂程度:
(12)
(7) 等效面积圆半径R:
(13)
(8) 偏心率E:待识别对象长短轴长度之比,描述了待识别对象的紧凑性,使用Tenebaum近似计算公式对偏心率E求解:
平均向量求解:
(14)
j+k阶中心矩求解:
(15)
方向角求解:
(16)
偏心率E近似求解[12?13]:
(17)
4 粮虫识别实验
本文选取常见的玉米象、拟谷盗和锯谷盗三种粮虫为研究对象,对其图像进行处理识别。分别使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测,并提取其图像的面积A、周长P、相对面积RA、延伸率S、复杂度C、占空比B、等效面积圆半径R和偏心率E这八个特征用于对三种粮虫的识别,具体特征值如表1所示。
使用基于RBF神经网络的识别模型对三种粮虫图像的几何形态特征进行识别,识别原理如图2所示。
选取50张玉米象图像、50张拟谷盗图像和50张锯谷盗图像以及20张无粮虫图像对基于RBF神经网络的识别模型进行训练,提高其识别粮虫图像的泛化能力。
基于RBF神经网络的识别模型的输入向量为粮虫图像的八种特征,即输入节点数为8;基于RBF神经网络的识别模型的输出向量结果为玉米象图像、拟谷盗图像、锯谷盗图像以及无粮虫图像4种,即输出节点数为4;隐含层节点数根据经验公式计算。
分别使用20张玉米象图像、20张拟谷盗图像和20张锯谷盗图像对训练后的基于RBF神经网络的识别模型进行测试。
能够得到使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测后,以及使用基于RBF神经网络的识别模型对粮虫图像的识别结果如图3所示。
从基于RBF神经网络识别模型的粮虫识别结果可以看出,分别使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测后,识别模型对三种粮虫的平均识别率为80.65%,81.96%,80.34%和78.56%,说明在其他情况相同情况下,使用Sobel 边缘检测算子对粮虫图像边缘检测对于粮虫图像识别准确率是最有利的,而使用Laplacian 边缘检测算子后粮虫图像的识别率最低。
5 结 论
本文研究一种基于图像识别处理的粮虫检测方法,将图像识别处理技术应用于农业工程。选取常见的玉米象、拟谷盗和锯谷盗三种粮虫为研究对象,对其图像进行处理识别。分别使用边缘检测算子、边缘检测算子、边缘检测算子和边缘检测算子对其图像进行边缘检测,并提取其图像的面eA、周长P、相对面积RA、延伸率S、复杂度C、占空比B、等效面积圆半径R和偏心率E这八个特征用于对三种粮虫的识别,使用基于RBF神经网络的识别模型对三种粮虫图像的几何形态特征进行识别。结果表明,在本文的研究条件下,使用边缘检测算子对粮虫图像边缘检测对于粮虫图像识别准确率是最有利的,而使用边缘检测算子后粮虫图像的识别率最低。
参考文献
[1] 代亭.粮食害虫智能检测及分类方法研究[D].郑州:河南工业大学,2012.
[2] 张明真.储粮害虫活动声信号识别研究[D].西安:陕西师范大学,2013.
[3] 张红涛.储粮害虫图像识别中的特征抽取研究[D].郑州:郑州大学,2002.
[4] 张成花.基于图像识别的储粮害虫分类的研究[D].郑州:郑州大学,2002.
[5] 韩瑞珍.基于机器视觉的农田害虫快速检测与识别研究[D].杭州:浙江大学,2014.
[6] 葛恒赫.基于机器视觉的外螺纹表面缺陷检测技术研究[D].重庆:重庆大学,2014.
[7] 王凡.基于机器视觉的螺纹缺陷检测技术研究和系统开发[D].成都:电子科技大学,2011.
[8] 梅雪.基于图像识别的储粮害虫检测专家系统的研究[D].北京:北京邮电大学,2009.
[9] 张卫芳.基于图像处理的储粮害虫检测方法研究[D].西安:陕西师范大学,2010.
[10] 张红梅,范艳峰,田耕.基于数字图像处理技术的储粮害虫分类识别研究[J].河南工业大学学报(自然科学版),2005(1):19?22.
[11] 胡祝华,赵瑶池,白勇,等.基于图像处理技术的储粮害虫快速识别[J].安徽农业科学,2014(30):10784?10787.
[12] 苏庭奕.基于图像处理的储粮害虫检测及识别方法研究[D].郑州:河南工业大学,2015.
篇6
关键词:小波变换,非整数次谐波,谐波检测
1 引言
近年来,随着电力电子技术的迅速发展,各种变频器、变流器、开关电源和电抗器等非线性设备的应用日益增多,产生了大量的高次谐波,造成电力系统电压、电流严重畸变,引发了一系列问题。
传统的快速傅氏变换以求和替代积分,以降低精度为代价来提取实时性,可以得出各次谐波的幅值相位。
瞬时无功功率理论自20世纪80年代提出后,突破了传统的平均值为基础的功率定义,具有较好的实时性,抗干扰能力强。
神经网络方法其特点是算法基于误差曲面上的梯度下降,权调数量与输入量一致,并保持与误差的负梯度方向一致,因此能保证网络的收敛性。
小波变换理论适合于对局部频域进行精确分析,它提供了一个自适应的可调采样窗口,具有更强的实时性。而且小波变换理论分析时频问题的良好特性使得它在检测非整数次谐波方面优于其他理论。本文采用连续小波变换分析系统中的整数次与非整数次谐波,并通过Matlab仿真得到了较好的分析结果,表明了小波变换具有检测电力系统中各种谐波的良好功能。
2 谐波检测原理
小波变换公式:。论文格式。
其中,为小波基函数,a为伸缩因子,为平移因子,x(t)为待分析信号。
由上式可知,小波变换实质上是信号x(t)与小波母函数的卷积,是对信号满足一定附加条件的滤波。而滤波的范围则是由参数α, 来决定,反映在小波母函数和小波因子的选择上。可见,小波变换是按频带而不是按频点的方式处理频域,因此信号频率的微小波动不会对处理产生很大影响,且不要求对信号进行整周期采样;其次,由小波变换的时间局部性可知,在信号局部发生波动时,它不会像傅立叶变换那样把影响扩散到整个频谱,而只改变当时一小段时间的频谱分布,这使其可以跟踪时变信号和暂态信号。
由于小波变换具有良好的时频局部化特征,使得小波变换应用于电力系统的谐波检测有着很好的理论基础,可以根据不同尺度的小波变换系数的幅值来测量谐波的频率。由连续小波变换公式可见,信号的连续小波变换相当于信号通过有限长的带通滤波器不同的尺度因子α决定带通滤波器的带通特性。如果能够使不同频率的谐波位于不同的频带中,就能够把包括整数次非整数次的不同频率的谐波分离出来。因此,利用小波变换可以实现整数次和非整数次的谐波含量的测量。
本文中采用Daubechies小波对函数进行小波变换。论文格式。一般将其简写为dbN,N是小波的阶数。dbN没有明确的表达式(除了N=1外),但转换函数h的平方模是很明确的。
令,其中为二项式的系数,则有:
式中,。
3 仿真结果分析
对本文提出的检测方法进行数字仿真,其中3.1是对于含有基波、2、3.4次谐波检测信号的仿真,3.2是对含噪的的谐波信号检测的仿真。论文格式。
3.1 含有基波、2、3.4次谐波检测信号的仿真
由于非线性元件和电力电子器件的广泛应用,使电力系统中存在着大量的整数次与非整数次谐波。采样一个周期,而系统中分别有基波、2、3.4次谐波时,采用db3小波对信号进行5层分解。
图1 线形组合后的信号
图2 小波分解后各层的逼近信号
图3 小波分解后各层的细节信号
当信号中含有基波、2次、3.4次谐波时,其线形组合后的信号如图1所示,对组合信号进行5层db3分解后的逼近信号如图2所示,细节信号如图3所示。从图2可以看出,逼近信号a1显示了3.4次谐波,逼近信号a2显示了基波,二次谐波则出现在细节信号d2中。由此可知,对于常规傅立叶变换不能检测非整数次谐波的问题,可以利用小波变换分析系统中存在的非整次谐波。通过分析小波变换对谐波检测的特点,选用了db3小波变换并分析了含有非整次谐波的系统,证明了小波变换对于解决含有非整次谐波的检测和分析具有良好的特性。
3.2对含噪的谐波信号的仿真
在电网电压中,由于各种现代电力电子设备的干扰,不但存在谐波信号,而且有着广泛的噪声信号。采样一个周期,而系统中分别含有3.7次谐波和噪声信号时,采用db3小波对信号进行5层分解。
图4 含噪声信号线形组合后的信号
图5 含噪声信号小波分解后各层的逼近信号
图6 含噪声信号小波分解后各层的细节信号
当信号中含有3.7次谐波和噪声信号时,其线形组合后的信号如图4所示,对组合信号进行5层db3分解后的逼近信号如图5所示,细节信号如图6所示。从图6可以看出,3.7次谐波体现在逼近信号部分,而白噪声体现在细节信号部分。由此可知,小波变换不但具有良好的非整次谐波的检测能力还具有良好的噪声分辨能力。
4 结论
小波变换是针对快速傅立叶变换在分析非稳态信号方面的局限性形成和发展起来的一种十分有效的时频分析工具,它克服了快速傅立叶变换的缺点,采用不同尺度的分析方法,能在信号的不同部位得到最佳的时域分辨率和频域分辨率,为非稳态信号的分析提供了一条新的途径,通过本文的仿真可知,它对于含有整数次、非整数次谐波和含噪谐波的检测有着很大的优越性。
参考文献
1 石国萍、田立军. 基于小波变换的统一电能质量控制器检测方法研究. 2004,16(1):34-37
2 林易群等. 基于小波多孔算法的暂态电能质量检测方法. 中国电力,2002,35(10):54-57
3 张庆超. 基于小波神经网络的输电线路故障检测. 天津大学学报,2003,36(6):710-713
4 薛蕙、杨仁刚. 利用Morlet连续小波实现非整次谐波检测. 电网技术,2002,26(12):41-44
5 欧阳森. 基于小波原理的电能质量检测数据实时压缩方法. 电网技术,2003,27(2):37-39
篇7
关键词: 数字信号处理课程 教学改革 优化知识结构 加强实验教学 综合化教学模式
数字信号处理所涉及的内容非常繁多、广泛。其所应用的数学工具涉及微积分、随机过程、数值分析、复变函数和各种变换等;其理论基础包括网络理论、信号与系统、神经网络等;其应用领域包括通信、雷达、人工智能、模式识别、航空航天、图像处理、语音处理等。在GSM手机中应用数字信号处理技术可将语音压缩至13kps;在语音信箱、留言电话方面也均可以采用数字信号处理技术。
学生在学习数字信号处理课程时,常常会觉得枯燥乏味,不仅觉得概念抽象,而且对其中的分析方法与基本理论不能很好地理解与掌握。为了有利于学生系统地理解和掌握课程中的基本内容,充分锻炼实验的应用能力,我对数字信号处理课程的教学进行了针对性的改革与探讨。
1.优化知识结构
数字信号处理课程中知识点比较多,数学推导十分复杂。我通过对本门课程进行深入研究,类比各知识点,发现有一条线路贯穿于课程之中,只要在课程教学中把握好这条线路,复杂的数学推导将会变得清晰,容易识记。我将该课程优化成两大模块:变换域的知识结构和数字滤波器的知识结构。
1.1变换域的知识结构
变换域的知识结构是该课程的第一大模块结构。先引入时域离散信号与系统,通过时域采样定理对模拟信号进行采样得到离散时间信号(序列)内容进行展开讨论,对于几种典型序列和时域离散系统性质:线性、时不变、因果性和稳定性进行重点介绍。其次讲述DTFT、DFS、ZT(IZT)、DFT变换的定义、性质和定理。其中每个变换都遵循严密的数学推理,都围绕着变换的定义、性质和定理展开内容讲解。在教学过程中除了详细讲解各个知识点之外,还要建立之间的联系,归纳出变换之间的联系如图1所示。在建立联系时不仅要从数学公式上进行变换证明,而且要用物理意义进行直观的讲解,使学生能够完全掌握。例如DTFT是单位圆上的Z变换,DFT是DTFT的等间隔采样,等等。
1.2数字滤波器的知识结构
数字滤波器的知识结构是该课程的第二大模块结构,其主要围绕数字滤波器网络结构及其设计方法展开讨论。数字滤波器的网络结构分为:IIR网络结构和FIR网络结构。通过状态变量分析法对网络结构进行分析,确定状态变量,求出状态方程和输出方程。应用脉冲响应不变法和双线性变换法设计低通、带通IIR数字滤波器,分析理解两种具体方法的特点和区别,与分别设计的数字滤波器的频域特性。窗函数法和频率采样法是设计FIR滤波器基本方法,通过实验使学生熟悉线性相位FIR滤波器的幅频特性和相频特性,了解不同窗函数对滤波器性能的影响。数字滤波器的设计和网络结构分析如图2所示。
2.加强实验教学
数字信号处理课程中的理论和结论大都是经过数学推导得来的,比较抽象,也较难理解。MATLAB语言对诸如离散线性卷积、循环卷积、抽样定理、对Z变换进行等间隔采样实现DFT、数字滤波器设计等一系列问题都可通过图形建模使之可视化。实验教学平台可以选择MATLAB软件平台和DSP硬件平台,MATLAB软件平台主要用来演示数字信号处理的概念、性质和原理。例如序列的傅立叶变换、Z变换、离散傅立叶变换的概念和性质等;硬件平台主要实现数字信号处理的算法,例如卷积、FFT算法、FIR滤波器和IIR滤波器设计方法等。
2.1基于MATLAB基础理论实验
数字信号处理课程具有理论性强和应用性强等特点,在教学中教师要加强理论教学。实验教学的设计可以更好地让学生理解理论教学内容,具有启发性,能培养学生的思考能力和科研能力。
针对理论知识点的内容,可将实验各部分的内容划为:系统响应及系统稳定性;时域采样与频域采样;用FFT对信号作频谱分析;IIR数字滤波器设计及软件实现;FIR数字滤波器设计与软件实现。对于所涉及的实验教学内容,要突出强调对实验结果的“物理意义”的理解,使知识点覆盖基本完整且重点突出。
2.2综合性课程设计
在基础理论实验的基础上,为了充分调动学生主动学习的积极性,提高学生钻研科学的兴趣,综合性课程设计是非常有必要的。其可以充分发挥学生的主观能动性,更有利于培养他们独立思考、善于创造、综合运用知识的能力。
根据数字信号处理在双音多频拨号系统中的实际应用,我进行了综合性、设计性实验的探讨。双音多频(Dual Tone Multi Frequency,DTMF)信号是音频电话中的拨号信号。DTMF信号系统是一个典型的小型信号处理系统,它用数字方法产生模拟信号并进行传输,其中还用到了D/A变换器;在接收端用A/D变换器将其转换成数字信号,并进行数字信号处理与识别。
3.综合化教学模式
由于数字信号处理的DTFT、DFS、ZT(IZT)、DFT变换的定义、性质和定理和数字滤波器设计的内容涉及的公式繁多、概念抽象,在学习过程中,学生对其都具有犯难情绪,因而在授课中需要采用形象化教学方法、多样化教学手段、创造自主化学习情境,提高学生的学习兴趣,帮助学生理解公式的物理意义,便于对知识的识记和应用。
3.1形象化教学方法
数字信号处理课程中大量的抽象概念都是用繁琐的公式来描述,其推导过程也相当复杂。在实际的教学中,教师需要采用课程板书的形式,让学生跟上你的思路一步一步去解析公式,完全细化每一个变换的来源。而不是急于把最新的知识、最新的技术一股脑地塞给学生。教师在教学中,必须从公式所代表的具体意义去理解公式,注重物理意义的表达,也要相信学生在打好基础后,能举一反三,学一知十,例如:X(k)=X(e)|k=0,1,…,N-1,说明X(k)为x(n)的傅里叶变换X(e)在区间[0,2π]上的N点等间隔采样。在讲解相关抽象化的知识点时,教师可采用绘制波形图或框图的方法将抽象概念形象化,用直观图形进行解读公式的意义。在教学中,教师可采取合理应用形象化的方法,培养学生看到公式可以联想到公式的物理意义,突破公式难懂难记的问题。
3.2多样化教学手段
在习题课和一些基本原理、基本方法的推导和证明中,教师要采用课堂板书形式,解答思路清晰,在板书的过程中,也要留给学生足够的时间进行领会。
对于难以理解的抽象概念,需要用形象化的图形来进行解析,采用多媒体教学手段,可以节约大量的板书时间,可以化抽象为形象,化枯燥为生动,增加课堂信息量,使学生把重点放到加深对抽象概念的理解上。同时,PPT要有一定的吸引力,比如适当地粘贴一些图片性内容,远比文字要形象和生动,还可以粘贴一些调节气氛的有意思图片,但不可太花哨,速度要放慢,讲一行放一行,切不可地所有的一次都放出来,否则容易误导学生去费劲地阅读PPT上的文字。多媒体教学手段与传统的板书教学相融合,不但可以发挥多媒体手段信息量大、形象、直观等优势,而且板书可以对多媒体的推导细节进行补充,放慢上课节奏,使教学逻辑更严密、交互性更强,其实际效果比单独使用其中的一种都要好。
3.3自主化学习情境
在实际教学中,教师要站在学生的立场上,找到学习入门的最好切入点:结合课堂提问、作业布置、习题讲解等手段,使学生达到基本的教学要求。适当地提问,可以检验学生学得怎么样,将学生的状况及时的反馈给老师,老师再适当地在教学中作调整,将取得很好的教学效果,同时也可加强与学生的双向交流,活跃课堂气氛。
由于该门课程比较抽象,公式又相对繁琐,单靠课堂讲解学生当时可能听得明白,但是课后若不加以巩固,掌握情况也不会太理想,因此每次课后要给学生布置适量的作业,通过批改作业来发现存在的问题并及时解决。
3.4完善化考试模式
本门课程的成绩考核采取传统模式,即由平时表现成绩、期末笔试成绩按比例综合计算。这样的考核方式简单易于操作,这也是一些学生不重视实验、不注重如何应用所学知识解决实际问题的原因之一,结果造成理论联系实际和解决实际问题的能力差。
完善化考试模式,增加上机考试,要求MATLAB上机考试,这能极大地强化学生的自主学习能力及动手实践能力。
4.结语
我针对数字信号处理课程的特点,应用知识的连贯性,建立了各个知识点之间的联系,便于学生理解与联想记忆。MATLAB的引入为数字信号处理教学提供了全新的方法,激发了学生的学习兴趣,变被动学习为主动探索,加强了理论与实践相结合,提高了综合运用知识及解决实际问题的能力。采用了传统板书和多媒体教学相结合的手段,提高了学生的学习兴趣,做到了用中学、学中用,使学生大大增强了学习的兴趣。
参考文献:
[1]高西全,丁玉美.数字信号处理[M].陕西:西安电子科技大学出版社,2008.
[2]A・V・奥本海姆,R・W・谢弗.离散时间信号处理[M].西安:西安交通大学出版社,2001.
[3]姜恩华.数字信号处理课程“教与学”探索[J].淮北煤炭师范学院学报,2009,30,(3):78-81.
[4]王祥春.“数字信号处理”教学方法探讨[J].科技创新导报,2010,16:248.
篇8
论文关键词:图像盲恢复现状前景
论文摘要:当点扩展函数未知或不确知的情况下,从观察到的退化图像中恢复原始图像的过程称为图像盲复原。近年来,图像盲复原算法得到了广泛的研究。本文在介绍了盲图像恢复算法的现状的基础上进一步研究其的发展方向。
一、引言
图像恢复是图像处理中的一大领域,有着广泛的应用,正成为当前研究的热点。图像恢复的主要目的是使退化图像经过一定的加工处理,去掉退化因素,以最大的保真度恢复成原来的图像。传统的图像恢复假设图像的降质模型是己知的。而许多情况下,图像的降质模型未知或具有较少的先验知识,必须进行所谓的盲恢复。其重要性和艰巨性而成为一个研究热点。目前所能获取的观测图像是真实图像经过观测系统成像的结果。由于观测系统本身物理特性的限制,同时受观测环境的影响,观测图像和真实图像之间不可避免地存在着偏差和失真,称观测系统对真实图像产生了降质。图像恢复的目的就是根据降质的观测图像分析和计算得出真实图像。
二、图像盲恢复算法的现状
总体来说,图像盲复原方法主要分为以下两类:一是首先利用真实图像的特别特征估计PSF,然后借助估计得到的PSF,采用经典的图像复原方法进行图像的复原。这类方法将PSF的估计与图像的复原过程分为2个不同的过程,因而具有较少计算量的特点;二是PSF辨识和真实图像估计相结合,同时辨识PSF和真实图像。这类算法较为复杂,计算量较大。另外,对于点扩展函数也考虑了空间变化的复杂情况。针对目前的盲复原算法的现状,根据退化模型的特点,重新将算法分为空间不变的单通道盲复原算法、空间不变多通道盲复原算法和空间变化图像盲复原算法3类。
(一)单通道空间不变图像盲复原算法
在这类算法中,最为常用的是参数法和迭代法。
1)参数法。所谓参数法,即模型参数法,就是将PSF和真实图像用某一类模型加以描述,但模型的参数需要进行辨识。在参数法中,典型的有先验模糊辨识法和ARMA参数估计法,前者先辨识PSF的模型参数,后辨识真实图像,属于第1种类型的图像盲复原算法,因而计算量较小;后者同时辨识PSF和真实图像模型参数,属于第2种类型图像盲复原算法。
2)迭代法。所谓的迭代法,不是通过建立模型而是通过算法的迭代过程,加上有关真实图像和PSF的约束来同时辨识PSF和真实图像的方法。迭代法是单通道
图像盲复原算法中应用最广泛的一类算法,它不需建立模型,也不要求PSF为最小相位系统,因而跟实际更为接近。在这类算法中,迭代盲复原算法(IBD),基于非负性和决策域的递归逆滤波器算法(NAR2RIF),基于高阶统计特性的最小
熵算法等最为典型。
(二)多通道二维图像盲复原
多通道二维图像盲复原,这类方法将数字通讯领域应用的一维多通道盲原分离算法扩展到二维情况并用于图像的盲恢复。这类算法中有两种代数方法,一种是先辨识模糊函数,再采用常规的恢复算法进行复原;另一种是直接对逆滤波器进行估计。此类算法的优点在于不需对初始图像进行估计,也不存在稳定性和收敛性问题,对图像以及模糊函数的约束是松弛的,算法具有一般性。但是第1种算法要求采用复原算法具有收敛性;第2种算法对噪声敏感。
(三)空间改变的图像盲复原方法
在许多实际的应用中,模糊往往是空间变化的,但由于处理工作的难度,目前的研究较少,基本有相关转换恢复和直接法两类。
相关转换恢复的基本思想是区域分割,即将整幅图像分为若干局部区域,然后假设在各个局部区域模糊是空间不变的,利用空间不变的图像复原有关算法进行复原。这类方法都是基于窗口的模糊辨识技术,图像的估计取决于窗口的大小,由于模糊参数是连续变化的,在范围较大时空间不变的假设是不成立的,因而模糊的估计精度较差,而且这种方法只能针对部分空间变化的模糊进行处理,缺乏通用性;其次在区域的边上存在振铃现象。
直接法的基本思想是直接对图像进行处理。如采用简化的二维递推卡尔曼滤波器进行图像模型和模糊模型的直接转换方法,其缺点是只能针对有限的模型,而且模型数增加,计算量会显著增大;采用共轭梯度迭代算法,但只见到一个31×31的文本图像处理的结果报道,对于大图像处理效果尚需进一步的研究;将空间变化图像系统建立成马尔苛夫随机模型,对复原过程,采用模拟退火算法进行最大后验估计的方法,这种方法避免了图像的窗口化,并能克服模糊参数不连续性造成的影响,但这种方法只能局限于将模糊过程建立成单参数的马尔苛夫随机模型的情况,而且计算量也较大。
三、图像盲恢复的应用前景
(1)现有算法的改进以及新的算法研究。现有各种算法还存在许多不足,有必要对算法进一步改进。如IBD算法中,如何选择初始条件才能保证算法的收敛;如何选择算法终止条件才能保证恢复的质量;如何选择滤波器中的噪声参数才能减少噪声的影响。又如NAR2RIF算法中,如何进一步解决噪声敏感问题,支持域的确定以及如何将算法扩展到非均匀背景的情况等。提出新的算法更好地解决图像盲复原问题,也是今后研究的热点。
(2)基于非线性退化模型的图像盲复原算法。在实际应用中,严格来讲,所有的退化模型都是非线性的。对模型采用线性化的方法进行近似处理,虽然算法简单,但对非线性严重的情况处理效果并不理想。基于多项式以及神经网络两种参数模型处理非线性信号盲分离算法,算法扩展到二维图像情况需要进一步研究。研究基于非线性退化模型的图像盲复原算法也是下一步研究方向之一。
(3)去噪处理算法研究。加性噪声的存在,使图像的复原问题变成了一个病态问题,而且由于一般假设只知道噪声的统计特性,因此要从退化图像中完全去除噪声是不可能的。另外,由于噪声的存在,恢复的效果并不理想,结合降噪的图像盲恢复的算法研究有很现实的意义,这方面也进行了部分工作。为克服噪声的影响,一般采用先进行降噪,后进行复原;二是将降噪和复原同时进行这两类方法。目前,大多数算法中将噪声描述成高斯噪声进行研究,在实际应用时有较大局限性。对于非高斯情况的研究采用基于噪声的高阶统计特性的去噪算法研究也是很重要的研究方向,也可采用其他类型的方法进行降噪,利用自组织映射的非线性独立组件分析方法进行图像降噪处理算法。
篇9
关键词:化学计量 化学分析 重要作用
随着科学技术的发展,化学计量在日常生活中发挥了越来越的作用。化学计量学包括了整个化学量测的过程,主要有采样理论、实验设计、实验条件、选择和优化、数据分析以及单变量和多变量信号的处理,这些都渗透了化学计量的应用。化学计量学主要是对化学的一些测量数据进行分析和处理,通过对测量程序的设计和选择,应用实验方法,将这些测量数据进行全面的解析,从而获取更多的化学信息。化学计量学的应用,对化学实验设计、信号解析、化学分类等都起到了很大程度的作用,打破了我国传统的化学研究方法困难复杂的局面。
1、化学计量学对化学测量的作用
随着国家的经济和技术的不断发展,越来越多的化学仪器和化学技术被不断的开发和应用,分析化学的体系也不断得到健全和完善,分析测试工作也开始向自动化、仪器化以及计算机化的方向进行发展。在目前,分析仪器的应用为分析工作的研究提供了大量的测量数据,具有较高的准确性和可靠性。如何将这些复杂的化学测量数据进行科学解析,也成为了分析工作者的难题之一。
化学计量在食品安全的实验室测量过程同样中发挥了重要作用,例如对奶粉中三氯氰胺含量的检测,对食品中苏丹红的检测等。化学计量方法的应用,使得这些食品中蕴含的有效信息能够完整地被挖掘,使数据的利用率得到了很大的提高。化学计量学的应用,给化学测量提供了一套有效的科学方法,为化学领域的研究和发展注入了新的动力。
2、化学计量学在化学分析中的应用
化学计量学与化学分析有着密切的联系,化学计量学主要由化学分析的信息理论基础、化学测量过程的试验设计和优化、化学测量数据的多元校正和多元分辩的定性定量解析、化学采样理论与方法等,内容涉及的研究和技术十分广泛,应用的领域范围也较大。
2.1 化学定量构效关系的应用
化学定量构效关系是化学科目中一个基本问题,主要是指从物质的化学成分与构成对其化学特性进行分析,是理论化学中一个十分重要的学习内容和研究目标。在化学定量构效关系的研究,主要通过图论和数值方法对化合物分子进行分析,将其结果与实际测量化合物的特性有效结合,对其化学特性进行明确的特性定义。在目前的研究发展中,化学定量构效关系在分子力学的寻优中引入了最优算法,对最佳先导化合物的寻找进行了有效的指导,得到了广泛的应用。
2.2 模式识别法的应用
模式识别法主要是通过对化学量测数据矩阵的分析,结合某种性质对样本进行有效的分类和选取。模式识别法主要包括了线性判别分析法、SMCA法以及K-最邻近法。模式识别法的应用和研究,为化学研究的决策和优化提供了价值性信息,为一些较为困难的实验研究提供了新的思路方向。
2.3波谱化学的应用
如何通过现有的波谱数据库,对定性定量进行迅速分析,这一直是一个很大的难题。智能数据库和化学计量学的应用,使定性定量分析工作有了新的发展。滤波、平滑、变换、卷积等技术的不断推广和应用,为化学分析工作提供了新的解析途径,同时也提供了无需分离即可对存在互向干扰关系的共存物种进行测定。波谱数据库和专家系统也在一些大学和研究单位得到了广泛的应用。
2.4 多元校正分析法的应用
多元分析法的不断发展和完善,其研究对象也日益复杂,因此需要分析工作者要准确和迅速的提供定性定量,并提供结构分析的结果。多元校正法主要是针对了现代的分析仪器的一些量测数据,通过这些数据的提供从而进行解析,是一种数学统计方法。在目前,多元分析法的灵敏度、检测限、紧密度、准确性等指标被不断研究和分析,指标也经过了不断的优化和完善,分析仪器的功能也因此得到了更大的扩展空间,其分析方法的有效性和实用性也得到了更多人的认可。在对正交设计、因子设计、析因设计以及均匀设计等方法的基础上,能够有效研究在多种因素条件下的影响和协同作用,进一步提高了分析选择性,将其应用范围进行了扩展。
2.4.1 无机离子的测定
分析化学中主成分分析、聚类分析等数学多元分析方法的应用,能够将分析对象的测量数据结构进行简化,有效减少了测量数据的复杂程度,通过将分析对象和变量进行分类和分组,对变量之间的关系进行分析。在化学计量学中,中线性回归分析、曲线拟合、信号转换等多种分析方法不断得到应用,对无机离子的测定和分析起到了巨大的作用。例如,我国已经通过正交回归极谱法,对锢和锡同时进行了分析,另外通过回归正交极谱法,还对锌、钴、镍的组成成分进行了测定。
2.4.2 有机电分析化学中的应用
生物学、药物学、环境学以及生命学不断发展,化学分析工作者对于复杂的有机混合物需要迅速做出定性定量的分析。多元校正法在目前已经广泛应用在对农药残留量、抗氧化剂等的分析中。
3、如何规范管理化学计量器具
新型的化学计量器具在购买引入后,需要经过相关的校准和检定阶段,合格之后才可以验收入库。计量人员还需要对仪器进行编号、履历卡的建立以及台账登记等。相关人员在领取仪器时,需要填写相关的申请单,经过计量主管批准后才可领取使用,最后需要在台账上进行签字。另外,计量器在存放过程中,需要进行定期的检定,确保仪器的使用状态良好。对于一些长期不需要使用的计量仪器,则需要进行封存,办理相关的封存手续。当仪器需要重新使用时,则需要办理启封手续,并进行相关的检定程序,确认合格才可进行使用。
参考文献:
[1]倪永年,等. 化学计量学在分析化学中的应用[M]. 北京: 科学出版社, 2004: 1-120.
篇10
【摘要】 为了实现人体器官的三维重建,如何准确、有效地提取二维医学图像的边缘成了首要解决的问题。我们提出一种新的图像边缘提取方法,该方法先将原始CT图像二值化,然后利用数学形态运算对二值化图像进行预处理,最后利用Canny算子提取图像边缘。通过肾脏CT图像边缘提取结果表明,该方法简单、高效、性能优越。
【关键词】 CT图像;边缘提取;数学形态学;Canny算子
Research on the Edge Extraction of CT ImageZHANG Xiaoping,ZHU Zhisong,WANG Junze
(Nantong Univirsity, Nantong 226019, China)
Abstract:To reconstruct the body organs in 3-D, how to extract the edges from 2-D medical images accurately and effectively has benen the primarily problem. Therefore, a new method of edge extraction was introduced in this paper. The original CT image was binarized firstly and then preprocessed by mathematical morphology operating. Finally, the image edge was extracted by the Canny algorithm. The results of kidney CT image edge extraction show that the method is simple, efficient and superior performance.
Key words:CT image;Edge extraction;Mathematical morphology;Canny algorithm
1 引 言
随着计算机技术、CT(计算机断层扫描)、MRI(核磁共振)等医学影像技术的不断发展,虚拟现实技术也越来越多地应用到现代医疗领域。利用计算机图像处理和数据可视化技术,根据医学影像设备提供的二维断层图像,进行人体器官的三维重建已是现代医学重要发展方向之一。肾脏疾病的外科手术是泌尿外科中的一个重点和难点,因此,根据CT二维图像重构肾脏及其周围结构的三维模型,有助于医生选择最佳手术路线、减少手术损伤、提高手术成功率[1]。CT二维图像的边缘提取作为器官三维重构的第一步,一直受到国内外学者的关注,提出了众多的边缘检测算法,如小波变换法、神经网络法、模糊技术法等[2]。近几年,随着数学形态学理论的不断完善与发展,数学形态学在图像边缘检测中得到了广泛的应用[3-5]。本研究正是在数学形态学的基础上,结合Canny算子,以肾脏为例,进行了CT图像的边缘提取。
2 数学形态学在图像预处理中的运用
数学形态学是一门新兴的、以形态为基础对图像进行分析的学科。它利用具有一定结构和特征的结构元素对图像进行匹配,以实现对图像的分析和识别,在去除噪声、边缘检测等图像预处理问题中有着明显的优势[6]。数学形态学定义了两种基本变换,即膨胀(Dilation)和腐蚀(Erision)。首先介绍其定义[7]:设F是原始图像,B是结构元素,膨胀运算定义为:
D(F)=FB={(x,y)/Bxy∩F≠Φ}(1)
即B对F膨胀产生的二值图像D(F)是由这样的点(x,y)组成的集合,若图B的原点位移至(x,y),那么它与F的交集非空。
腐蚀运算定义为:
E(F)=FΘB={(x,y)/BxyF}(2)
即B对F腐蚀产生的二值图像E(F)是由这样的点(x,y)组成的集合,若图B的原点位移至(x,y),那么B将完全包含于F。
由上述两种基本运算可以复合得到开启、闭合变换。
开启是对图像先腐蚀后膨胀的过程,F用B来开启,其数学表达式可记为:
F·B=(FΘB)B(3)
闭合是对图像先膨胀后腐蚀的过程,F用B来闭合,其数学表达式可记为:
F·B=(FB)ΘB(4)
上述4种运算中,膨胀可以填充图像中的小孔及图像边缘上小的凹陷部分;腐蚀可以消除图像中细小的成分;开启则具有消除细小物体、在纤细处分离物体和平滑较大物体边界的作用;闭合则具有填充物体内细小孔洞、连接临近物体和平滑边界的作用。
利用数学形态学进行图像预处理时,选择简单、表现力强的结构元素是关键,是形态变换中最重要的参数;其次,还要综合考虑目标体的清晰度和噪声的大小来选取结构元素的大小[8]。一般目标体轮廓不清晰时,选择较小的结构元素;噪声颗粒较大时,选择较大的结构元素。
3 Canny算子的边缘检测原理
经过数学形态变换之后,图像的边缘将变得清晰、突出,此时,图像的边界信息可以被方便地提取出来。传统的算法有Sobel、 Prowitt 、Robert、Canny算子等[9]。在众多的算子中,Canny算子因其具有高信噪比、高定位精度及单边缘响应等优良性能[10],在许多图像处理领域得到应用。本研究也正是采用该算法提取肾脏CT图像边缘。
Canny算子的基本思想是采用二维高斯函数的任意方向上的一阶方向导数为噪声滤波器,通过与图像卷积进行滤波,然后对滤波后的图像寻找局部梯度最大值,以此来确定图像边缘[11]。其数学描述如下:
3.1 用高斯滤波器平滑图像
二维高斯滤波函数为:
G(x,y)=12πσ2exp(-x2+y2〖〗2σ2)(5)
在某一方向n上G(x, y)的一阶导数为:
Gn=Gn=nG(6)
式6中n是方向矢量,n=cosθ
sinθ,
G是梯度矢量,G=Gx
Gy。
将图像{F|f(x,y)}与Gn 作卷积,改变n的方向,Gn×f(x,y)取得最大值时的n,就是正交于检测边缘的方向。
3.2 梯度的幅值和方向计算
用一阶偏导的有限差分来计算梯度的幅值和方向。
Ex=Gx×f(x,y) Ey=Gy×f(x,y)
A(x,y)=Ex2+Ey2 Φ=Arctan(ExEy)(7)
A(x,y)反映了图像(x,y)点处的边缘强度,Φ是图像(x,y)点处的法向矢量。
3.3 对梯度幅值进行非极大值抑制
为确定图像边缘,必须保留局部梯度最大的点,而抑制非极大值。若图像F上(x,y)点处的梯度幅值A(x,y)小于沿着梯度线方向上的相邻像素点的边缘强度,则认为该点为非边缘点,将A(x,y)置为0。
3.4 用双阈值法检测和连接边缘
设定两个阈值t1和t2(t2>t1)。凡边缘强度>t2者,则一定是边缘点;凡边缘强度t2的点,若有,则补为边缘点,若没有,则不是边缘点。用t1、t2两个阈值对非极大值抑制图像进行双阈值化,可得两个检测结果,分别记为T1和T2。图像T2阈值较高,所以噪声较少,但会造成边缘信息的损失;图像T1阈值较低,则保留了较多信息。于是以图像T2为基础,以图像T1为补充,连接图像的边缘。
由此可见,Canny算子是既能去除噪声又能保留边缘特性的边缘检测一阶微分算法的最佳方法。
4 应用实例
本研究在Matlab6.5软件平台上,以某医院一患者的肾脏CT断层图像为例,提取了其中右肾的边缘轮廓,具体实施步骤如下:
4.1 图像二值化
CT图像是灰度图像,为了更好的形态运算和边缘检测,首先进行二值化处理,即把灰度图像转变成由0、1 组成的矩阵所表示的图像。图1为原始CT图像,图2是二值化图像。在本次实验中,二值化阈值为0.8。实验过程中发现,该方法简单、高效,且丢失的信息也很少。
4.2 数学形态学处理
由图2可见,图像存在着一些空腔、毛刺、边缘凹陷等现象,要进行边缘检测,还需经过进一步处理,通过本研究介绍的数学形态运算即可完成。
所求边缘是肾脏外围轮廓,首先需要填充图像中的空腔和边缘凹陷。对此,可采用imclose函数进行闭合运算,即进行先膨胀后腐蚀,其中结构元素为5×5圆形结构元素,结果见图3。由图3可见,经过闭合运算后,图像中还存在一些小短枝和孤立斑点,这些也必须剔除,否则,将影响边缘提取效果。对此,可采用imopen函数进行开启变换实现,即先腐蚀后膨胀。针对小短枝和孤立斑点,无法用同一种结构元素去剔除,所以必须分两步:首先选用3×3矩形结构元素执行开启变换,去除小短枝像素,结果见图4;然后用3×3菱形结构元素再次执行开启变换,去除孤立斑点,结果见图5。
4.3 Canny算子提取边缘
经过上述处理,肾脏图像边缘已经逐渐清晰、突出,此时利用Canny算子即可提取其边界信息,如图6所示,本次实验中,边缘强度阈值t1为0.0063,t2为0.0156 。图6基本无失真地描述了边界信息。提取图6中各边界点的坐标,即可获得重构的边界图形,见图7。对肾脏各层CT图像进行上述运算后,经过插值处理,即可进行该器官的三维重构。
5 结束语
本研究从实用性的角度出发,阐述了利用数学形态学和Canny算子进行肾脏CT断层图像边缘提取的方法和步骤。实验证明该方法简单、快速、精度高、适用性强,为医学图像的三维重建和虚拟手术技术的研究奠定了良好的基础。
参考文献
[1]王洛夫, 张绍祥,江军,等.肾脏及其周围结构的三维可视化研究[J].第三军医大学学报,2004,26 ( 6 ): 537-539.
[2]张小琳.图像边缘检测技术综述[J].高能量密度物理,2007,(1):37-40.
[3]Bai X Z, Zhou F. Edge detection based on mathematicalmorphology and iterative thresholding[A].International conference on computational intelligence and Security[C]. NY: IEEE, 2006.1849-1852.
[4]Serra J. Image analysis and mathematical morphology[M].New York: Academic Press,1982.
[5]Huang C-P,Wang R-Z.An intergrated edge detection method using mathematical morphology[J].Pattern Recgnition and Image Analysis,2006,16(3):406-412.
[6]陈虎,王守尊,周朝辉.基于数学形态学的图像边缘检测方法研究[J].工程图学学报,2004,(2):112-115.
[7]崔屹.图像处理与分析-数学形态学方法及应用 [M].北京:科学出版社,2000.
[8]Li Z H,Yang Y P,Jiang W.Multi-scale morphologictracking approach for edge detection[A].The 4th International conference on image and graphics[C]. NY: IEEE,2007.358-362.
[9]马艳, 张治辉.几种边缘检测算子的比较[J].工矿自动化,2004(2): 54-56.
- 上一篇:乡镇卫生院工作总结和计划
- 下一篇:村级班子运行情况汇报材料