卷积神经网络的定义范文
时间:2024-03-29 11:12:47
导语:如何才能写好一篇卷积神经网络的定义,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词: 模式识别; 神经网络; 卷积; 文字识别
中图分类号: TN711?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2014)20?0019?03
Large pattern online handwriting character recognition based on multi?convolution neural network
GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2
(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;
2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)
Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.
Keywords: pattern recognition; neural network; convolution; character recognition
0 引 言
随着全球信息化的飞速发展和对自动化程度要求的不断提高 ,手写文字识别技术被广泛地应用到许多方面。特别是近几年拥有手写功能的手机、平板电脑等智能电子产品的普及,联机手写文字识别研究已经成为一个备受关注的主题。联机手写字符识别要求实时性较高,识别过程中要求特征空间的维数比较高,在进行特征样本训练时要求训练的数目很大,要匹配的特征值或特征对象比较多 [1?2]。
卷积神经网络(Convolutional Neural Networks,CNNs)的优点在于图像的识别过程中对视觉模式的获得是直接从原始图像中获得的,所以在设计系统时图像的预处理工作很少,与一般神经网络相比是一种高效的识别方法。卷积神经网络在模式识别的一些领域具有很好的鲁棒性,如在识别有变化的模式和对几何变形的识别方面。利用卷积神经网络的手写识别方法具有如下一些优点:对于要检测的图像可以与事先制定网络拓扑结构之间有较高的匹配率;特征提取和模式分类同时进行;训练参数往往是系统计算量的重要参数,而卷积神经网络中利用权值共享技术,这样就可以大大降低该参数,在设计系统结构时使得结构变得更简单,从而使得整个系统具有更好的适应性[3?5]。
目前,人机交互系统的手写字符识别、汽车车牌号识别和信息安全中常用的人脸识别等领域都有卷积神经网络的成功应用。文献[6]用一个4层的卷积神经网络LeNet?5对Mnist库进行识别实验,获得了98.4%的识别率,用2层的BP网络的识别率[4,6]是87%。许多学者对卷积神经网络在联机手写文字识别方面做了多方位的研究。 但是,这些成功的联机手写文字识别主要是针对小模式字符集,利用以往的这些方法对大规模模式分类的联机手写文字的识别依然有识别率不高的问题。本文介绍了卷积神经网络的基本概念和一种典型的卷积神经网络结构,给出了基于多重卷积神经网络的字符识别和词语识别模型。通过使用大字符集的UNIPEN数据库进行训练和测试,本文提出的方法在大模式联机手写识别上,取得了较高的识别速度和满意的识别率。
1 卷积神经网络
文献[6?7]中详细地描述了卷积神经网络如何保证图像对位移、缩放、扭曲鲁棒性能。典型的手写字符卷积神经网络LeNET 5的结构图如图1所示[6?7]。
图1 典型的卷积神经网络结构
在图1中,输入层接收要识别32×32的手写字符图像,经过简单的大小归一化和图像灰度处理,之后的结果作为一个采样层的图像;然后用一个可学习核进行卷积操作,卷积结果经过激活函数的输出形成这一层的神经元,每个神经元与输入图像的一个5×5的邻域相连接,从而得到由6幅特征图组成的第一个隐层(C1层)。每个特征图有25个权值(如方向线段,端点、角点等),考虑到边界效果,得到的特征图的大小是28×28,小于输入图层[3?9]。卷积层的数学计算过程可表示为:
[xlj=fi∈Mjxl-1j*kernellij+blj] (1)
式中:[l] 代表层数;kernel是卷积核;[Mj]代表输入特征图的一个选择。每个输出图有一个偏置[b]。
每个卷积层的结果作为下一个次采样层的输入,次采样层的作用是对输入信息进行抽样操作。如果输入的特征图为n个,则经过次采样层后特征图的个数仍然为n,但是输出的特征图要变小(例如,各维变为原来的50%)。因此隐层S2是由6个大小为14×14的特征图组成的次采样层。次采样层计算公式可以用式(2)表示:
[xlj=fβl-1jdown(xl-1j)+blj] (2)
式中down(・) 表示次采样函数。次采样函数一般是对该层输入图像的一个n×n大小的区域求和,因此,输出图像的大小是输入图像大小的[1n]。每一个输出的特征图有自己的β和b。
类似的,C3层有16个10×10的特征图组成的卷积层,特征图的每个神经元与S2网络层的若干个特征图的5×5的邻域连接。网络层S4是由16个大小为5×5的特征图组成的次采样层。特征图的每个神经元与C3层的一个2×2大小的邻域相连接。网络层C5是由120个特征图组成的卷积层。每个神经元与S4网络层的所有特征图的5×5大小的邻域相连接。网络层F6,包括84个神经元,与网络层C5进行全连接。最后,输出层有10个神经元,是由径向基函数单元(RBF)组成,输出层的每个神经元对应一个字符类别。RBF单元的输出yi的计算方法如式(3)所示:
[yi=j(xj-wij)2] (3)
很多研究人员通过对字符集作弹性训练,经测试发现在MNIST字符集上的识别率可以高达99%以上[6?7] 。卷积神经网络的优势主要是对小模式集上,如对数字或26个英文字母组成的集合都有着较高的识别率。然而,对大模式集的识别仍然是一个挑战,因为设计一个优化的并足够大的单一网络是比较困难的,且训练时间也较长。因此,本文的目的旨在通过组合多个对某一字符集有高识别率的卷积神经网络,从而构成多重卷积神经网络,进而提高卷积神经网络对大模式集手写字符的识别率。
2 多重卷积神经网络
2.1 多重卷积神经网络字符识别
根据传统卷积神经网络的运算过程以及其在处理大模式集手写字符时存在的不足,本文提出一种多重卷积神经网络来改进传统的卷积神经网络模型,用多个拥有高识别率的小卷积神经网络组成一个多重卷积神经网络。每一重小卷积神经网络对某一具体字符集有较高的识别率,另外,单重卷积神经网络除了有一个正式的输出集之外,还产生一个未知的输出(即难以识别的字符),即如果一个输入字符没有被正确识别,它将被输出为一个未知字符,然后输入模式转到下一重卷积神经网络进行识别。最后,通过一个拼写检查模块进行判断,选择最好的结果输出。系统的流程如图2所示。
其中CNN 1是识别手写数字的卷积神经网络,CNN 2是识别手写小写英文字母的卷积神经网络,该模型具有极强的扩展性,可以添加多任意模式的卷积神经网络(如中文,日文等)。
图2 多重卷积神经网络字符识别示意图
2.2 随机对角Levenberg?Marquardt训练方法
传统的结构比较简单、单一的卷积神经网络多采用基本的Back Propagation(BP)规则训练网络,往往需要几百次迭代,网络的收敛速度较慢。本文采用LeCun博士提出的随机对角Levenberg?Marquardt 算法对网络作训练,该算法需要的迭代次数明显比基本的BP 算法少[4,9]。随机对角Levenberg?Marquardt算法的公式为:
[ηki=ε?2E?w2ij+μ] (4)
式中[ε]是全局的学习率,一般取初始值0.01,太大会使网络无法收敛,太小则会降低收敛速度,且使网络更容易陷入局部极小值,训练过程中可以用启发式规则改变[ε]的值,本文取最下值为5e-005; [?2E?w2ij]是一个估计值,根据训练集的大小可以调整样本数量,文中随机选取200个样本估算它的值;[μ]用来避免[?2E?w2ij] 太小时[ηki]的变化过大 。
2.3 多重卷积神经网络词句识别
本文提出的多重卷积神经网络对手写词语的识别方法可以简单地描述为:首先对输入的手写图像进行预处理和分割,然后通过多重卷积神经网络模块分别进行识别,最后采用单词识别模块对识别结果进行判断,选择最好的结果输出。其过程如图3所示。
图3 多重卷积神经网络联机手写词句识别过程
本文提出的多重卷积神经网络联机手写文字识别方法克服了传统卷积神经网络文字识别的对字符集的限制,每一重卷积神经网络是一个针对小模式的卷积神经网络,易于训练和优化,更重要的是此方案的灵活性非常好易于调节参数,可扩展性强。每一重卷积神经网络都具有可重用能力,可以根据需要加载一个或多个网络,可以根据新的模式添加新的网络而不需改变或重建原来的网络。
3 训练和实验
为了评估多重卷积神经网络对基于大模式字符集的联机手写文字识别的性能,本系统采用MNIST和UNIPEN两种不同的手写字符训练集进行测试。UNIPEN数据库是在1992年举行的IEEE IAPR会议上提出并建立的,其目的是创建一个大型的手写体数据库用于为在线手写识别提供研究和开发的基础,得到了多个知名公司或研究所的支持并完成了UNIPEN的规范设计。在进行数据比对实验中,本文采用许多研究使用的MNIST手写数字数据库,该数据库是NEC 研究中心设计的,是NIST(The National Institute of Standards and Technology)数据库的一个子集,该训练集中有大量训练样本和测试用例。本文默认用以下定义:
[识别率=正确识别数样本总数×100%]
[失误率误识率=错误识别数样本总数×100%]
实验测试是在通用的台式电脑上进行的。整个识别原型系统采用C#编写,运行在.NetFrame 4.5平台上。经测试对MNIST训练集识别正确率可达[9]99%,对UNIPEN数字识别正确率可达97%,对UNIPEN数字和大写字母识别正确率可达89%(1a,1b) ,对UNIPEN小写字母识别正确率可达89%(1c) 。图4是对UNIPEN小写字母3次训练的均方误差比较。
图4 训练的误差数据
从图4中可以看出,在开始的几个训练周期内,均方误差(MSE)下降得很快,然后在第13个周期后神经网络达到一个稳定的值,约为0.148 5。也就是说,网络在第13个周期后,改善程度就很小。所以修改训练错误率的值为0.000 45后重新进行18代的第二次训练,均方误差有所降低。经过第三次的训练后趋于稳定,对UNIPEN小写字母识别正确率可达89%。经测试,通过使用随机对角Levenberg?Marquardt方法,收敛速度比基本BP算法快了许多,经过68代训练后识别正确率可达89%。
4 结 语
本文提出了基于多重卷积神经网络的联机手写字符的识别方法,通过使用多个识别率高的卷积神经网络和随机对角 Levenberg? Marquardt方法,可以适用于大模式联机手写识别。经过实验数据比较,该方法在大模式联机手写识别过程中具有很高的识别率,与此同时识别速度也很快,有很好的实时性,总体效果很好。在当今触摸屏应用遍及生产生活的各个方面的趋势下,该方法有着广阔的应用前景。同时此方法为今后多手写汉字识别的研究提供了很好的借鉴。
注:本文通讯作者为潘立武。
参考文献
[1] 吴鸣锐,张钹.一种用于大规模模式识别问题的神经网络算法[J].软件学报,2001,12(6):851?855.
[2] 张辉.大规模联机手写汉字识别数据库整理、统计与实验分析[D].广州:华南理工大学,2012.
[3] 徐姗姗,刘应安,徐,等.基于卷积神经网络的木材缺陷识别[J].山东大学学报:工学版,2013,43(2):23?28.
[4] 吕刚.基于卷积神经网络的多字体字符识别[J].浙江师范大学学报:自然科学版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
篇2
关键词:BP神经网络;Morlet小波;决策理论;Hilbert变换
中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在军事电子对抗等多方面的重要应用,通信信号调制的自动识别分类问题也相继发展起来。无线电信号调制实识别就是要判断截获信号的调制种类。为此,需要事先对其特征进行选定,并确定它们与相应调制种类相联系的取值范围,然后再对信号进行特征测量,并根据测量结果对信号的调制进行分类判决。
如果把无线电信号的调制识别与分类视为一种模式识别问题,那末,从模式识别理论来看,模式分类是模式识别的一个子系统。因此,在模式识别理论框架下,无线电信号的调制识别是一个总体概念。而调制分类则只是调制识别的一个分支[1]。
1 基于决策理论的模拟调制方式识别方法
此算法主要实现区分AM、FM、DSB、LSB、USB、VSB、AM-FM等七种调制样式,所分析的对象序列s(n)是由接收机中频输出并经过采样得到的,这样s(n)的采样频率和载频都已知,分别记做Fs和Fc。算法分两个步骤:
第一步,根据信号的包络特征将AM、USB、LSB与FM区分开,因为前三种信号的包络不为恒定值,而FM的包络理论上是恒定值(实际中接近恒定)。因而可以从中提取一个特征参数R。参数R反映了零中心归一化包络的功率谱特征,FM的零中心归一化包络接近零,因其参数R应远远小于前三种信号。实际中若R
第二步,根据信号频谱的对称性,将AM与USB与LSB区分开,因为AM的单边频谱关于载频是近似对称的,USB和LSB的单边频谱对于载频来说分别只有上边频和下边频。因而可以从中提取另一个特征参数 。理论上,由于AM的上下边频对称,所以AM的P接近零,而LSB和USB的P分别接近1和-1。实际中若|P|< 0.5,判为AM信号,若P>0.5,判为LSB,P
第三步,零中心非弱信号段瞬时相位非线性分量绝对值的标准偏差:σap 。
σap由下式定义:
(1)
式中,at是判断弱信号段的一个幅度判决门限电平,c是在全部取样数据Ns中属于非弱信号值的个数,?准NL(i)是经零中心化处理后瞬时相位的非线性分量,在载波完全同步时,有:?准NL(i)= φ(i)-φ0
式中:,φ(i)为瞬时相位。用σap来区分是DSB信号还是AM-FM信号。
第四步,零中心非弱信号段瞬时相位非线性分量的标准偏差:σdp。
σdp由下式定义:
(2)
σdp主要用来区别不含直接相位信息的AM、VSB信号类和含直接相位信息的DSB、LSB、USB、AM-FM信号类,其判决门限设为t(σdp) 。
2 决策论方法的改进
前面介绍的基于决策理论的模拟调制方式识别方法存在缺陷针对上述问题,人们又提出了基于神经网络(NN)的识别方法。
2.1 BP网络作为分类器的模拟调制方式识别方法
该算法用基于有监督训练的神经网络模型BP网络作为分类器,用BP模型多层感知网络与反向传播学习算法相结合,通过不断比较网络的实际输出与指定期望输出间的差异来不断的调整权值,直到全局(或局部)输出差异极小值,不难想象该神经网络对模型细节中的诸多问题均有良好效果。
基于NN的模拟信号调制识别框图[2]如图1所示,该NN采用三层结构即,1个输入层,1个输出层,1个中间层。中间层可采用多层。但由于受到计算复杂性的限制,目前采用单层或双层中间层的NN比较多见。本图中间层采用单层25个节点,输入层和输出层的节点数取决于信号特征参数的个数和信号的分类数,因而分别为4和7。
神经网络具有信息分布式存储、大规模自适应并行处理和高度容错特性,适用于模式识别的基础。其学习能力和容错特性对不确定性模式识别具有独到之处[3]。通信信号在传播过程中受到信道噪声的污染,接受到的信号是时变的、非稳定的,而小波变换特别适用于非稳定信号的分析,其作为一种信息提取的工具已得到较广泛的应用。小波变换具有时频局部性和变焦特性,而神经网络具有自学习、自适应、鲁棒性、容错性和推广能力,两者优势的结合可以得到良好的信号模式自动识别特性,从而形成各种处理方法。
2.2 基于小波的特征提取和识别方法
小波特别适用于非稳定信号的分析,作为一种特征提取的工具已得到较为广泛的应用。小波的重要特点是它能够提供一个信号局部化的频域信息。小波变换能够将各种交织在一起的不同频率组成的混合信号分解成不同频率的块信号,它对不同的时间和频率有不同的解释,因此,对调制信号进行小波分解,得到不同水平下的细节信息,这些信息对于不同类别的调制信号来说是有差别的[4]。
在实际应用中,小波变换常用的定义有下列两种:
(3)
(4)
式中,星号*表示共轭。式(3)表示小波变换是输入信号想x(t)和小波函数φα, τ(t)的相关积分;式(4)用卷积代替了相关积分。两种定义在本质上是一致的。本为采用后者。
将式(4)中的τ和t离散化,即令τ=kTs,及t=iTs,得连续小波变换公式(4)的离散形式,又称小波系数:
(5)
Morlet小波是一种单频复正弦调制高斯波,也是最常用的复值小波。其实、频两域都具有很好的局部性,它的时域形式如下:
(6)
虽然信号特征有很多种,神经网络在进行信号识别时,主要是依据谱峰位置的不同,因此提取信号特征主要任务就是寻找信号类别与谱峰位置间的必然联系。而小波变换在这里则相当于一个数学显微镜,通过它,可以详细了解各类信号在不同低频段上的频谱构成。
整个系统在PC机上进行仿真,采用Windows2000操作系统和Matlab6.1和Cool Edit2.0进行声音录制。
在仿真中,采用44K的采样率,录制了一段歌声和一段笑声,用Matlab生成22K的正弦载波,并根据第二章的各调制样式的定义,生成了各个仿真的调制波形。并转化成.wav文件录在电脑中。
3 结束语
本文仅限于理论理论研究,用MatLab仿真实现,没有用DSP芯片等物理电路实现,仅为实际实现提供理论指导。
参考文献:
[1] 罗利春.无线电侦察信号分析与处理[M].北京:国防工业出版社,2003.
[2] 杨小牛,楼才义,徐建良.软件无线电原理与应用[M].北京:电子工业出版社,2001.
篇3
2. 应用领域安防
实时从视频中检测出行人和车辆。
自动找到视频中异常的行为(比如,醉酒的行人或者逆行的车辆),并及时发出带有具体地点方位信息的警报。
自动判断人群的密度和人流的方向,提前发现过密人群带来的潜在危险,帮助工作人员引导和管理人流。
医疗
对医学影像进行自动分析的技术。这些技术可以自动找到医学影像中的重点部位,并进行对比比分析。
通过多张医疗影像重建出人体内器官的三维模型,帮助医生设计手术,确保手术
为我们每个人提供康建议和疾病风险预警,从而让我们生活得更加健康。
智能客服
智能客服可以像人一样和客户交流沟通。它可以听懂客户的问题,对问题的意义进行分析(比如客户是询问价格呢还是咨询产品的功能呢),进行准确得体并且个性化的回应。
自动驾驶
现在的自动驾驶汽车通过多种传感器,包括视频摄像头、激光雷达、卫星定位系统(北斗卫星导航系统BDS、全球定位系统GPS等)等,来对行驶环境进行实时感知。智能驾驶系统可以对多种感知信号进行综合分析,通过结合地图和指示标志(比如交通灯和路牌),实时规划驾驶路线,并发出指令,控制车子的运行。
工业制造
帮助工厂自动检测出形态各异的缺陷
3. 概念什么是人工智能?
人工智能是通过机器来模拟人类认知能力的技术。
人工智能的三种训练方式分别是监督学习、非监督学习、强化学习。下文会一一介绍。
二、这是不是鸾尾花(分类器)1. 特征提取人类感官特征
花瓣数量、颜色
人工设计特征
先确定哪些特征,再通过测量转化为具体数值
深度学习特征
这里先不提及,文章后面会说
2. 感知器
老师给了一道题:
要区分两种鸾尾花,得画出一条直线区分两类花,你可以画出无数条直线,但是哪条才是最好的呢?
怎么办呢?我可是学渣啊,靠蒙!
随便找三个数a=0.5、b=1.0、c=-2 带入 y = ax[1] + bx[2] + c,
每朵花的两个特征也代入x[1]、x[2],比如带入(4, 1) 得出 y[预测] = 1,此时 y[实际] = 1 (样本设定变色鸾尾花为 1,山鸾尾为 -1 ),所以y[实际] – y[预测] = 0.
重复以上两步,得出所有的『实际值和预测值的差距的综合,记为 Loss1
可怎么知道是不是最优的直线呢?继续猜啊!继续懵!像猜世界杯一样猜就好了。
通过沿 y = ax[1] + bx[2] + c 梯度(梯度就是求导数,高中有学的!)下降的方向继续猜数字,具体过程大概是这样子的:
上述所属的实际值和预测值的差距 实际上是一种损失函数,还有其他的损失函数,比如两点间直线距离公式,余弦相似度公式等等可以计算预测结果和实际结果之间的差距。
划重点:损失函数就是现实和理想的差距(很残酷)
3. 支持向量机
*判断依据的区别也导致了损失函数的不同(但依旧是猜)
直观的说,缝隙(上图的分类间隔)越大越好
4. 多分类
如果有多种花怎么办?
一趟植物课上,老师请来了牡丹鉴别专家、荷花鉴别专家、梅花鉴别专家。老师拿出了一盘花给各个专家鉴定,牡丹角色这是牡丹的概率是0.013、荷花专家角色这是荷花的概率是0.265、梅花专家角色这是梅花的概率是0.722。
老师综合了各位专家的意见后,告诉同学们,这是一盘梅花。
小明:这老师是不是傻,一朵花是啥都不知道,还要请三个专家
老师:你给我滚出去
实际计算过程就是通过用 2.2 和 2.3 等方法训练的二分类器,分别输出对应的分类值(比如三种花的分类器分别输出-1,2,3),那怎么把这些分类值转化成概率呢?这就要用到归一化指数化函数 Softmax(如果是二分类就用 Sigmoid函数),这里就不拿公式来说,可以直观的看看书中这个表格就懂了:
5. 非监督学习第 2.2 能从预测值和实际值的差别判断”是否猜对了”,是因为生物老师告诉了学渣,哪些样本是山鸾尾花,哪些变色鸾尾花。但如果老师连样本实际的类别也不告诉学渣(非监督式学习),学渣不知道样本分别是什么花。
那该怎么办呢?
机器学习的入门课程总是在讲鸾尾花,也是够烦的。
这里我们换个场景:
假如你是某直播老板,要找一堆小主播,这时候你有一堆应聘者,然而你只有她们的胸围和臀围数据。一堆8份简历摆在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉丝。你也没空全部面试,那应该怎么挑选呢?
这时候你把她们的胸围和臀围都标准在一张二维坐标图上:
这是你随手一划,把她们分成两组,可以说“聚成两类了”。
用某种计算方式(比如平均值)找到这个聚类的中心。点离聚类中心越近,代表越相似。
求出每个聚类中的点到蓝色聚类中心点和黄色聚类中心的距离
如果一个点离黄色聚类中心更近却被你随手划到了蓝色分组(上图用红色边框标出的小方块),那么就把它划入黄色分组。
这时因为分组范围和分组内包含哪些小姐姐都发生了变化。这时候你需要以 步骤3 的方法重新计算聚类的中心
重复步骤 4 (算点中心距离)-> 重复步骤 5 (调整黄色小姐姐们和蓝色小姐姐们)-> 重复步骤 3 (算中心),一直循环这个过程直到蓝色和黄色聚类下所包含的小姐姐不再发生变化。那么就停止这一循环。
至此,小姐姐们已经被分为两大类。你可以得出两类小姐姐:
计算机在没有监督的情况下,成功把小姐姐们分成两类,接下来就可以在把两种主播各投放2个到平台看看谁更能干。效果更好的,以后就以那个聚类的样本特征扩充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黄色小姐姐更能干
老师:你给我滚出去
上面聚类小姐姐的算法就叫做 K 邻近算法,K 为要聚类的数量(这需要人工指定),上述例子 K=2.那么如果分成三类就是 K=3,训练过程可以看下图,有个直观的了解:
三、这是什么物品(图像识别)1. 特征提取人类感官特征
花瓣颜色、花瓣长度、有没有翅膀(区分猫和小鸟)、有没有嘴巴和眼睛(飞机和小鸟)
感官的特征通过量化得到颜色(RGB值)、边缘(圆角、直角、三角)、纹理(波浪、直线、网格)数值特征
人工设计特征
深度学习特征
通过卷积提取图像特征
划重点:卷积的作用就是提取图像有用信息,好比微信把你发出的图片压缩了,大小变小了,但是你依旧能分辨出图像的主要内容。
1维卷积 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2维卷积 1*2+3*0+2*4+4*2=28…
通过卷积就可以得到图像的特征信息,比如边缘
垂直边缘检测
水平边缘检测
方向梯度直方图
2. 深度学习和传统模式分类的区别既然有传统模式分类,为什么还要神经网络呢?
区别就在于传统的模式分类需要人为设置特征,比如花瓣长度、颜色等等。而深度学习省略掉人工设计特征的步骤,交由卷积操作去自动提取,分类器的训练也同时融入到神经网络当中,实现了端对端的学习
划重点:端对端学习(End to End)就是从输入直接得出输出,没有中间商,自己赚差价。
3. 深(多)层神经网络存在的问题一般来说,神经网络层数增多,会提高准确率。但是,网络层数加深导致:
过拟合学渣把高考预测试题的答案都背一遍而不理解,考试的时候,如果试题是考生背过的,那么考生就能答对;如果没背过那么考生就不会回答了。我们就可以说,学渣『过拟合了预测试题。
与之对应的是:欠拟合渣得不能再渣的人,连预测试题都背不下来,即使考试试题和预测试题一模一样,他也只能答对30%。那么就可以说这种人~~欠揍~~欠拟合。
有兴趣的还可以了解一下梯度弥散和梯度爆炸下面是网上很火很励志的一个公式,权重在多层网络中相乘,比如每一层的权重都是0.01,传递100层 就是 0.01 的100 次方,变得非常小,在梯度下降 Gradient Descent 的学习过程中,学习将变得非常慢。(好比从一个碗顶部放下一个小球,在底部徘徊的速度会越来越慢)
非凸优化学习过程可能在局部最小值(极小值)就停止了,因为梯度(斜率)为零。在局部最低停止而不是全局最低停止,学习到的模型就不够准确了。
看图感受一下
你说的底不是底,你说的顶是什么顶
解决的办法
均匀初始化权重值(Uniform Initialization)、批归一化(Batch Normalization)、跳远链接(Shortcut)涉及到比较多数学逻辑,这里就不展开说明了。
4. 应用人脸识别
自动驾驶把汽车顶部拍摄到的图片切分层一个个小方块,每个小方块检测物体是车还是行人还是狗,是红灯还是绿灯,识别各种交通标识等等。再配合雷达等判断物体距离。
四、这是什么歌(语音识别)1. 特征提取人类感官特征音量、音调、音色
通过采样、量化、编码。实现声波数字化(声波转电信号)
人工设计特征梅尔频率在低频部分分辨率高,高频部分分辨率低(这与人耳的听觉感受是相似的,即在一定频率范围内人对低频声音比较敏感而对高频声音不敏感)。
关系为:
在每一个频率区间对频谱求均值,它代表了每个频率范围内声音能量的大小。一共有26个频率范围,从而得到26维的特征。倒谱操作后,得到 13 维的梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)
深度学习特征通过 3.1 所介绍的 1维卷积进行特征提取
2. 应用音乐风格分类
输入:音频文件特征:声音特征输出:音乐种类
语音转文字
输入:音频文件特征:声音特征输出:声学模型(比如26个英文字母)
再把声学模型送入另外的学习器
输入:声学模型特征:语义和词汇输出:通顺的语句(可以查看第6点,如何让计算机输出通顺的语句)
听歌识曲通过窗口扫描(把音乐分割成一小段一小段的),然后通过4.1说的方法提取这一段的特征,就得到一个特征向量。对数据库的歌和用户录音的歌做同样的操作得到特征向量,然后两两之间计算相似度(两个向量的距离可以用余弦公式算夹角大小或者两点间距离公式来算)
五、视频里的人在做什么(视频理解,动作识别)1. 介绍视频,本质是由一帧帧图片连续组成的,因为人视觉的暂留效应(Persistence of vision,人眼在观察景物时,光信号传入大脑神经,并不立即消失,让人产生画面连续的印象),看上去是连续的,也就是视频。识别视频里面有什么物体,可以用上文说过的图像识别和分类方法去实时分析单帧图像,比如:
但是视频相对于图像有一个更重要的属性:动作(行为)。
怎么从一个连续的视频分析动作呢?
举个例子,像上图那只二哈,腿部的像素点相对于黄色的方框(框和狗相对静止)在左右”移动”,这里的”移动”我们引入一个概念——光流(一个像素点从一个位置移动到另一个位置),通过像素点移动形成的光流作为神经网络的训练特征(X),『奔跑作为训练目标值(Y),经过多次的迭代训练,机器就可以拟合得出一个 Y = f(X) 用于判断视频中的物体(Object)是否在奔跑。
2. 光流假设,1)相邻两帧中物体运动很小2)相邻两帧中物体颜色基本不变
至于神经网络是怎么跟踪某个像素点的,这里不展开说明。
第 t 时刻的点指向第 t+1 时刻该点的位置,就是该点的光流,是一个二维的向量。
整个画面的光流就是这样:
整个视频的光流(轨迹)是这样的
不同的虚线代表图像上某个点移动的轨迹
假设视频宽width、高 height、一共有 m 帧,那么该视频可以用 width * height * m * 2 的张量(就是立体的矩阵)来表示,把向量喂到神经网络即可进行分类训练。
进一步优化,可以把光流简化为8个方向上的,把视频某一帧的所有光流累加到这八个方向上得出某一帧的光流直方图,进一步得出 8 维的特征向量。
六、一段文字在表达什么(自然语言处理)1. 特征提取
这里有4个句子,首先进行分词:
去掉停用词(副词、介词、标点符合等等,一般在文本处理上都有一个停用词表)
编码词表
句子向量化
这样就得到一个句子19 维 的 特征向量,再把这19维的特征向量用普通卷积网络或者 LSTM 循环神经网络作为 X 读入(喂它吃东西),文本的分类(比如积极、消极)作为训练标签值 Y,迭代训练得到的模型可以用于情感分析或文本分类等任务。
2. 进阶词向量化厉害-牛逼、计算机-电脑是同义词。光从上面的步骤,我们可能认为厉害和牛逼是两个完全不一样的词语,但其实他们是近似的意思,怎么才能 AI 学习知道这点呢?需要从多个维度去进一步给词语更丰富的内涵,比如:
举例来说,男性用1表示,女性用0表示,不带性别倾向就是0.5。多个维度扩展之后,就得到“男人”这个词的特征向量(1,0, 0.5,0,1)
逆向文档频率一个词在一类文章出现的多,而在另外分类的文章出现的少,越能说明这个次能代表这篇文章的分类。比如游泳在体育类的文章中出现的多(2次),而在工具类的文章出现的少(0次),相比其他词语(1次)更能代表体育类的文章。
假设句子中有 N 个词, 某个词出现次数为 T,一共有 X 个句子,该词语在 W 个句子出现,则逆向文档频率 TF-IDF 为 T/N * log(X/W)
3. 应用
七、让计算机画画(生成对抗网络)从前有个人,以卖临摹名家的画来赚钱。他开始临摹一副名画:
第一次他画成这样子了:
鉴赏家一眼就看出来是假的,他不得不回去画第二幅画、第三幅画…
经过了10万次”画画-鉴别”的过程,这个临摹者画出来的画,鉴赏家居然认为这是真的原作,以高价买入了这副画。
这种生成(画画)- 鉴别(鉴伪)的模式正是生成对抗网络(GAN)的核心。
通过生成器,把随机像素点有序排列形成具有意义的画面,再通过鉴别器得出生成的画面的分类、和真实画面之间的差距,并告诉生成器要往什么方向去优化。多轮的训练之后,生成器就学会了画『真画了。
计算机是怎么把随机像素点变成有意义的画面的呢?我们通过一个简化的例子来看看。
直线上一些均匀分布的点,经过 y=2x+1变换后变成了非均匀分布。一张随机排布的像素点画面,经过某个f(x) 变换后就会变成具有某种意义的画面,而生成器就是不停地去近似f(x), 就像 2.2 感知器拟合一条直线那样。
下图为计算机生成手写数字的过程
划重点:函数可以变换数据分布(库克说:可以把直的变成弯的)
八AlphaGo是怎么下棋的?(强化学习)1. 粗略认知监督/无监督训练:尽可能让每一次任务正确强化学习:多次任务是否达成最终目标
每一次任务都准确,不就是能达成最终目标吗?我们来看一个例子:
一家批发商店的老板爱丽丝要求她的经理比尔增加销售额,比尔指导他的销售员多卖一些收音机,其中一个销售员查尔斯弄到了一个可以获利的大单,但是之后公司因为供应紧缺无法交付这些收音机。
应该责怪谁呢?
从爱丽丝的角度来看,查尔斯的行为让公司蒙羞了(最终任务没完成)。
但是从比尔的角度,查尔斯成功地完成了他的销售任务,而比尔也增加了销量(子任务达成)。——《心智社会》第7.7章
2. AlphaGo下围棋,最古老的办法是决策树,从左上角的位置开始到右下角的位置遍历,每一个空的位置就是一个分支,然后预测每种棋局赢的概率,找出最大概率的走法玩。这就是落子预测器。
但是由于围棋19X19的超大棋盘,空间复杂度高达10的360次方,要穷尽所有的走法几乎是不可能的,如大海捞针。
要降低复杂度,关键是要降低搜索的广度和深度。
我们栽培一颗小盆栽的时候,如果不对枝叶进行修剪,那么养分就会浪费在没长好的枝条上。需要及时对枯萎或者异常的枝条进行修剪以保证养分往正常(或者说我们希望它生长的方向)枝条上输送。
同样的道理,有限的计算机算力如果浪费在穷尽所有围棋走法上,将导致棋局推演非常慢,而且耗费大量的时间也难以找到最优的方案。
是否可以通过 “修剪” 落子选择器这颗庞大的决策树,加快较优落子方案的选择呢?怎么判断哪些是好的”枝条”,哪些是坏的”枝条”呢?这就需要棋局价值评估器(哪个棋盘的赢的概率更大),把没有价值的棋局先去掉不再往下遍历,这就同时减少了搜索的广度和深度。
其中,落子预测器有个名称,叫做政策网络(policy network)价值评估器有个名称,叫做价值网络(value network)政策网络(policy network)利用蒙特卡洛搜索树从当前棋局推演(随机下棋)到最终的棋局,最终胜则回报为正,反之回报为负。之后该算法会反向沿着该对弈过程的落子方案步步回溯,将路径上胜者所选择的落子方案分数提高,与此对应将败者的落子方案分数降低,所以之后遇到相同局面时选择胜者方案的概率就会增加。因此可以加速落子选择,称为快速走子网络。
通过 政策网络 + 价值网络 + 蒙特卡洛搜索树 实现最优落子方案的选择,同时两个机器人互相对弈,这样就不停地训练网络,学习落子方案。
3. 定义接下来说一下枯燥的定义
什么是强化学习?
当我们关注的不是某个判断是否准确,而是行动过程能否带来最大的收益时使用强化学习(reinforeement learning)。比如在下棋、股票交易或商业决策等场景中。
强化学习的目标是要获得一个策略(poliey)去指导行动。比如在围棋博弈中,这个策略可以根据盘面形势指导每一步应该在哪里落子;在股票交易中,这个策略会告诉我们在什么时候买入、什么时候卖出。
一个强化学习模型一般包含如下几个部分:
一组可以动态变化的状态(sute)
对于围棋棋盘上黑白子的分布位置对于股票交易来说,就是股票的价格
一组可以选取的动作(metion)
对于围棋来说,就是可以落子的位置;对于股票交易来说,就是每个时间点,买入或者卖出的股票以及数量。
一个可以和决策主体(agent)进行交互的环境(environment)这个环境会决定每个动作后状态如何变化。
棋手(主体)的落子会影响棋局(环境),环境给主体奖励(赢)或惩罚(输)操盘手(主体)的买入或卖出会影响股票价格(环境,供求关系决定价格),环境给主体奖励(赚钱)或惩罚(亏钱)
篇4
虽然目前公众媒体将无线通信炒的很热,但这个领域从1897年马可尼成功演示无线电波开始,已经有超过一百年的历史。到1901年就实现了跨大西洋的无线接收,表明无线通信技术曾经有过一段快速发展时期。在之后的几十年中,众多的无线通信系统生生灭灭。
20世纪80年代以来,全球范围内移动无线通信得到了前所未有的发展,与第三代移动通信系统(3G)相比,未来移动通信系统的目标是,能在任何时间、任何地点、向任何人提供快速可靠的通信服务。因此,未来无线移动通信系统应具有高的数据传输速度、高的频谱利用率、低功耗、灵活的业务支撑能力等。但无线通信是基于电磁波在自由空间的传播来实现信息传输的。信号在无线信道中传输时,无线频率资源受限、传输衰减、多径传播引起的频域选择性衰落、多普勒频移引起的时间选择性衰落以及角度扩展引起的空间选择性衰落等都使得无线链路的传输性能差。和有线通信相比,无线通信主要由两个新的问题。一是通信行道经常是随时间变化的,二是多个用户之间常常存在干扰。无线通信技术还需要克服时变性和干扰。由于这个原因,无线通信中的信道建模以及调制编码方式都有所不同。
1.无线数字通信中盲源分离技术分析
盲源分离(BSS:Blind source separation),是信号处理中一个传统而又极具挑战性的问题,BSS指仅从若干观测到的混合信号中恢复出无法直接观测的各个原始信号的过程,这里的“盲”,指源信号不可测,混合系统特性事先未知这两个方面。在科学研究和工程应用中,很多观测信号都可以看成是多个源信号的混合,所谓“鸡尾酒会”问题就是个典型的例子。其中独立分量分析ICA(Independent component analysis)是一种盲源信号分离方法,它已成为阵列信号处理和数据分析的有力工具,而BSS比ICA适用范围更宽。目前国内对盲信号分离问题的研究,在理论和应用方面取得了很大的进步,但是还有很多的问题有待进一步研究和解决。盲源分离是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道混合矩阵。盲源信号分离是一种功能强大的信号处理方法,在生物医学信号处理,阵列信号处理,语音信号识别,图像处理及移动通信等领域得到了广泛的应用。
根据源信号在传输信道中的混合方式不同,盲源分离算法分为以下三种模型:线性瞬时混合模型、线性卷积混合模型以及非线性混合模型。
1.1 线性瞬时混合盲源分离
线性瞬时混合盲源分离技术是一项产生、研究最早,最为简单,理论较为完善,算法种类多的一种盲源分离技术,该技术的分离效果、分离性能会受到信噪比的影响。盲源分离理论是由鸡尾酒会效应而被人们提出的,鸡尾酒会效应指的是鸡尾酒会上,有音乐声、谈话声、脚步 声、酒杯餐具的碰撞声等,当某人的注意集中于欣赏音乐或别人的谈话,对周围的嘈杂声音充耳不闻时,若在另一处有人提到他的名字,他会立即有所反应,或者朝 说话人望去,或者注意说话人下面说的话等。该效应实际上是听觉系统的一种适应能力。当盲源分离理论提出后很快就形成了线性瞬时混合模型。线性瞬时混合盲源分离技术是对线性无记忆系统的反应,它是将N个源信号在线性瞬时取值混合后,由多个传感器进行接收的分离模型。
20世纪八、九十年代是盲源技术迅猛发展的时期,在1986年由法国和美国学者共同完了将两个相互独立的源信号进行混合后实现盲源分离的工作,这一工作的成功开启了盲源分离技术的发展和完善。在随后的数十年里对盲源技术的研究和创新不断加深,在基础理论的下不断有新的算法被提出和运用,但先前的算法不能够完成对两个以上源信号的分离;之后在1991年,法国学者首次将神经网络技术应用到盲源分离问题当中,为盲源分离提出了一个比较完整的数学框架。到了1995年在神经网络技术基础上盲源分离技术有了突破性的进展,一种最大化的随机梯度学习算法可以做到同时分辨出10人的语音,大大推动了盲源分离技术的发展进程。
1.2 线性卷积混合盲源分离
相比瞬时混合盲源分离模型来说,卷积混合盲源分离模型更加复杂。在线性瞬时混合盲源分离技术不断发展应用的同时,应用中也有无法准确估计源信号的问题出现。常见的是在通信系统中的问题,通信系统中由于移动客户在使用过程中具有移动性,移动用户周围散射体会发生相对运动,或是交通工具发生的运动都会使得源信号在通信环境中出现时间延迟的现象,同时还造成信号叠加,产生多径传输。正是因为这样问题的出现,使得观测信号成为源信号与系统冲激响应的卷积,所以研究学者将信道环境抽象成为线性卷积混合盲源分离模型。线性卷积混合盲源分离模型按照其信号处理空间域的不同可分为时域、频域和子空间方法。
1.3 非线性混合盲源分离
非线性混合盲源分离技术是盲源分离技术中发展、研究最晚的一项,许多理论和算法都还不算成熟和完善。在卫星移动通信系统中或是麦克风录音时,都会由于乘性噪声、放大器饱和等因素的影响造成非线性失真。为此,就要考虑非线性混合盲源分离模型。非线性混合模型按照混合形式的不同可分为交叉非线性混合、卷积后非线性混合和线性后非线性混合模型三种类型。在最近几年里非线性混合盲源分离技术受到社会各界的广泛关注,特别是后非线性混合模型。目前后非线性混合盲源分离算法中主要有参数化方法、非参数化方法、高斯化方法来抵消和补偿非线性特征。
2.无线通信技术中的盲源分离技术
在无线通信系统中通信信号的信号特性参数复杂多变,实现盲源分离算法主要要依据高阶累积量和峭度两类参数。如图一所示,这是几个常见的通信信号高阶累积量。
在所有的通信系统中,接收设备处总是会出现白色或是有色的高斯噪声,以高阶累积量为准则的盲源分离技术在处理这一问题时稳定性较强,更重要的是对不可忽略的加性高斯白噪声分离算法同时适用。因此,由高阶累积量为准则的盲源分离算法在通信系统中优势明显。
分离的另一个判据就是峭度,它是反映某个信号概率密度函数分布情况与高斯分布的偏离程度的函数。峭度是由信号的高阶累积量定义而来的,是度量信号概率密度分布非高斯性大小的量值。
篇5
关键词:水尺 检测 图像识别
中图分类号:TP274 文献标识码:A 文章编号:1007-9416(2013)01-0114-02
1 引言
随着航运技术的发展,船舶运输越来越受到人们的关注。船舶的水尺计重作为一种科学的计重方法,具有一定的准确性,在国际上已广泛应用,其计算结果可作为商品交接结算、理赔、计算运费和通关计税的依据。其适用于价值较低,衡重困难的大宗散装固体商品,例如煤炭、铁矿石、水泥、粮食等商品的重量计算。水尺计重的优点是省时、省力、省费用,能迅速计算出整船货物的重量,但是计算过程较为复杂,影响计重结果的客观因素较多,特别船舶刻度观测水平是影响水尺准确性最重要因素。船舶吃水线的检测目前主要依靠经过长期训练的观察人员目测船舶的水尺标志而获得船舶的实际吃水值,为了获得较为精确的数值,需要观察人员多次查看,以求得平均值。这种人眼目测船舶吃水线数值的方式,往往带有主观性,存在较大的局限性,例如:观测不方便,受环境影响大,并且观测存在一定危险。因此,本文提出采用Matlab7.0作为仿真环境,利用图像处理技术,设计船舶吃水线自动检测的算法来自动检测船舶水尺刻度数值,可以克服人工目测所引起的一系列问题,完整的记录整个观测阶段的吃水线位置,并使后续的数据处理成为可能。降低了系统复杂性,又提高了效率和准确度。
2 图像识别技术的原理
近年来,拍摄设备性能的不断完善,设备的分辨率能够达到很精确的程度,图片质量清晰度非常高,同时计算机体系结构和算法的快速发展,使得图像处理的性能和运算速度得到了较大提高,这些都为吃水线的求取提供了可能。一幅图像在计算机中可以定义为一个二维函数f(x,y),其中x和y是空间(平面)坐标,而在任何一对空间坐标(x,y)处的幅值f称为该点处的灰度,当x,y和灰度值f是有限的离散数值时,我们称该图像为数值图像,数字图像处理就是借助计算机来处理上述这些数字图像。数字图像是由有限数量的元素组成的,每个元素都有一个特殊的位置和数值,要将一副图像转化为数字形式,就要求数字化x,y和灰度值f。在此基础上,利用上述数值,设计相应的算法即可得到船舶水尺精确的刻度值。
3 船舶吃水线刻度检测算法的设计
3.1 总体结构设计
本文利用Matlab7.0作为仿真环境,通过采集到的视频图像序列,首先设计计算法检测出吃水线边缘,找到吃水线的位置,然后对船帮上刻度字进行分割,并求出水平面距离所在刻度上边缘的距离,利用BP神经网络对水尺刻度线进行识别,得到吃水线的数值。吃水线检测算法的总流程图如(图1)所示:
3.2 船舶吃水线刻度检测算法关键步骤的处理
3.2.1 图像的灰度化和二值化处理
相比彩色图像,灰度图像的边缘检测较为方便和快捷,计算量小,所以先将获取到的彩色图像转为灰度图像。而图像的二值化处理就是将图像上的像素点的灰度值设置为0至255,将采样后所得到的各像素的灰度值用矩阵表示,即灰度图的量化。所有灰度值大于或者等于阀值的像素被判定为特殊物体,灰度值小于阀值的则表示为背景或者其他物体区域。通过将灰度值投影到曲线上,则可以获得灰度值的分布特征。
3.2.2 选择合适的边缘检测算法找到吃水线的边缘
数字图像的边缘检测是图像分割,目标区域识别,区域形状提取等图像领域中十分重要的基础,边缘是图像的最基本特征之一,它是利用周围像素灰度有阶跃变化或屋顶变化的像素的集合。边缘检测算法大致分为两类:基于查找和基于零穿越的边缘检测。常用的边缘检测算法有:Roberts、Prewitt、Sobel、LOG、Canny算法等。
3.2.3 选择合适的阀值对刻度字的分割
图像分割是一种重要的图像分析技术,在对图像的研究和应用中,人们往往仅对图像中的特定部分感兴趣。为了识别和分析图像中得目标,需要将它们从图像中分离提取出来,在此基础上才有可能进一步对目标进行测量和对图像进行利用。而分割字符的思想就是利用刻度字区域黑色像素点比较多,比较集中,同时根据水尺标志的特点,每个字符之间有10cm的空隙间隔隔开,这样得到的投影图有几个比较集中却又有明显分割的投影峰值群,通过设定特定的阀值来判定特定物体,通过这种方法将找出船帮上刻度字的左右边界。
3.2.4 选择BP神经网络对船帮处水尺字符进行识别
字符识别的主流技术有:统计决策法、人工智能法、模板匹配法和人工神经元网络法等。同在字符识别领域相对比较成熟的光学字符(OCR)识别、车牌识别相比,船帮处水尺刻度字符由于表面凹凸、油漆掉色或摄像时水面反光等情况造成的字符畸变。为了提高系统的抗干扰性和自适应性,本文计划采用对噪声干扰和形变有较好适应性的BP神经网络模型方式来进行识别。BP网络是神经网络的一个分支,又称误差信号反馈网络,是神经网络中使用最广泛的一类。并尝试通过改善收敛性,神经元的个数,提高系统的识别率。
3.3 Matlab软件的使用
Matlab由美国的MathWorks公司出品,它的指令表达式与数学,工程中常用的形式十分相似。其典型的应用包括:(1)数学和计算;(2)算法开发;(3)数据获取;(4)建模、模拟和原型设计;(5)数据分析、研究和可视化;(6)科学和工程图形;(7)应用开发,包括图像用户界面的构建。MATLAB中补充了许多针对特殊应用的工具箱,图像处理工具箱是一个MATLAB函数集合,能进行图像的和、差等线性运算,以及卷积、相关、滤波等非线性运算,几乎包括了常用的图像处理操作的各种函数,只需了解这些函数的使用方法,正确调用函数就可以实现常用的各种图像处理的操作。MATLAB能支持包括:TIFF、BMP、JPEG等的图形文件的格式,用它来解决图像问题比用C,Fortran等语言完成相同的事情简捷的多。因此利用此工具,我们可以方便地从各个方面对图像的性质进行深入的研究。
本文所研究的内容是在静态图像上对吃水线进行检测,其技术路线包括图像的预处理,利用边缘检测算子对吃水线边缘进行拟合,去除干扰,得到吃水线的位置。利用船舶刻度字的特点,对其进行分割,对分割出来的字符进行识别后,得到吃水线的数值。以上都可以通过Matlab调用不同的工具箱和函数来实现。
4 结语
由于经济利益,发货人、收货方和承运人都对货物的重量非常重视,而且越来越精细、严格,如何准确计算船舶载重量成为亟待解决的问题。作为近年来快速发展起来的一个计算机学科,通过使用图像处理和分析的手段,获得水平面在图像中的准确位置,既可以克服人工目测所引起的一系列问题,完整的记录整个观测阶段的吃水线位置,使后续的数据处理成为可能,既降低了系统复杂性,又提高了效率和准确度。图像处理的对象是一幅幅拍摄下的照片,其中的吃水线位置是固定的,这样就为后续的处理和计算奠定了一个静态的基础,不会发生象人眼目测,由于景物晃动而产生的错觉。同时,拍摄下的照片作为测量的记录保存,可以满足今后复核或是查对的要求。再次,利用图像处理技术,可以大幅度降低对有经验观测人员的依赖。因此利用图像识别技术对船舶水尺测量具有广泛的应用价值。
参考文献
[1]SN/T 0187-93 进出口商品重量鉴定规程——水尺计重.
[2]陈德为,张培铭.转动式交流接触器动态过程分析与控制[J].福州大学学报:自然科学版,2008,36(1):95—99.
[3]陈德为,张培铭.采用高速摄像机的智能交流接触器控制及其测试装置的研制[M].电工电能新技术:2009,28(3):58-61,72.
[4]周广程.图像处理技术在船舶吃水自动检测系统中的应用[D].南京:南京理工大学,2006.
篇6
[关键词]排水防涝;数据融合;涝情预警;数据可视化
1引言
近年来,暴雨等极端天气给社会管理、城市运行和人民群众生产生活造成了巨大影响,加之部分城市排水防涝等基础设施建设滞后、调蓄雨洪和应急管理能力不足,出现了严重的暴雨内涝灾害。《全国城市市政基础设施规划建设“十三五”规划》提出“加快对城市易涝点整治”“建设暴雨内涝监测体系,提高内涝预报预警能力。”如何及时、准确、完整地掌握各个城市排水防涝工作进展,对城市排水防涝工作进行科学、有效的监督指导,成为住建部、省、市城建管理部门的迫切需求。大数据技术在海量异构数据融合、分布式数据处理与计算、数据可视化等方面具有优势,[1]融合大数据技术与城市涝情监管预警业务,成为客观分析排水防涝效果,科学指导城市安全度汛的有效方法。[2]
2应用需求
基于大数据技术,通过数据集成、互联网信息爬取、传感器采集等方式收集城市易涝点信息、城市降雨信息、城市涝情信息,为用户提供综合数据分析、可视化展现等服务,为城建管理部门监督、指导城市开展排水防涝工作提供支撑平台。系统主要需求包括以下三方面:①准确、及时掌握城市降雨及涝情信息。能够从气象网站获取全国主要城市的逐小时降雨信息。从门户网站、微博等渠道爬取城市涝情相关信息,及时掌握全国各地涝情程度和影响;②城市涝情信息预警预测。综合降雨量、城市防涝标准、易涝点治理进展、历史涝情等信息,建立城市涝情预警分析模型,对全国城市未来涝情情况进行预警,指导城市排水防涝工作;③对降雨、积水、涝情等信息进行综合利用,提供每日涝情情况汇总报告、涝情周报、涝情预警情况报告。辅助领导决策,满足监督、指导各地开展排水防涝工作的需要。
3系统建设方案
3.1数据架构。排水防涝信息系统融合易涝点基础信息、补短板项目进展信息、易涝点实时监测信息、城市涝情信息、城市降雨信息,形成排水防涝综合数据库,支撑排水防涝业务处理及科学决策需要。排水防涝数据体系包括:基础数据、业务数据、决策分析数据三类:①排水防涝基础数据:基础数据包括代码数据、基础数据、空间数据。基础数据在排水防涝系统各模块共享使用;②排水防涝业务数据:包括补短板项目业务进展数据、易涝点实时监控数据以及从互联网、第三方采集的降雨数据、涝情数据、统计年鉴等排水防涝相关数据,为排水防涝分析决策提供支撑;③排水防涝决策分析数据:决策分析数据是依据数据分析与综合决策要求,对排水防涝业务数据进行加工处理形成的数据,包括排水防涝统计数据、治理系统评价数据、涝情分析预测等数据。3.2技术架构。排水防涝信息系统利用大数据平台的数据采集、存储、计算、分析能力构建,由基础设施层、综合数据库层、大数据技术支撑层、排水防涝应用层以及信息安全体系、数据指标体系组成,构建科学合理的数据分析、涝情预测模型,通过丰富、形象、易用的数据可视化技术,满足排水防涝业务的数据应用需求。①基础设施层:通过云计算技术,将网络、计算、存储、安全等基础设施池化,为大数据支撑平台、综合数据库、排水防涝应用提供稳定、可靠、高效的运行环境;②综合数据库层:将易涝点数据、涝情数据、降雨数据、监测数据等按照数据标准体系进行清理、转换、加载等处理,形成满足业务处理与分析决策的综合数据库;③大数据技术支撑层:满足分布式环境下海量异构数据采集、存储与资源管理、分布式计算框架、大数据分析与可视化展现等功能需求。主要的技术组件包括地理信息、信息爬取与搜索、数据挖掘、集成接入(ETL)、遥感遥测分析等;④信息安全体系:围绕信息保密性、真实性、可用性(CAA)目标,参照信息系统安全机制构建涵盖物理安全、网络安全、应用安全、数据安全、管理安全的数据安全服务体系,为排水防涝信息管理提供安全的数据服务;⑤数据指标体系:建立排水防涝信息的数据标准、技术标准和管理标准,确定数据采集、数据集成、数据共享的技术路线,推动数据互联互通与信息共享,形成排水防涝顶层数据指标体系;⑥排水防涝应用层:梳理排水防涝信息管理业务流程,按照数据指标体系要求,提供易涝点管理、涝情信息管理、降雨信息管理、综合数据分析、业务一张图、涝情预测等服务,满足排水防涝业务需求。3.3功能架构。排水防涝系统主要功能包括:城市降雨信息管理、涝情报告生成、综合展现一张图、统计分析、基础信息管理等模块。①城市涝情预警。融合降雨数据、防涝标准、历史涝情数据,构建涝情预警模型,提供城市涝情预警预测服务;②涝情报告生成。利用网络爬虫及语义识别技术,从微博、门户网站等渠道采集城市涝情信息。提供城市涝情周报、日报等报告生成功能;③综合展现一张图。基于二维GIS地图展现城市降雨、涝情以及易涝点位置、积水、视频等数据,实现相关数据的综合展现;④统计分析。从行政区域、时间等维度提供涝情分布、涝情趋势对比分析等功能,通过统计图表方式,实现数据的直观展现和应用;⑤基础信息管理。对城市防涝标准、易涝点位置、监测设备等基础信息进行管理,为规范城市涝情、降雨、积水等信息提供支持。
4关键技术
4.1涝情信息爬取与识别技术。4.1.1涝情信息爬取。通过爬虫采集数据主要包括三种方式:定向采集、扩展采集以及源搜索。定向采集是指限定站点或者频道来搜索,实现精确的数据采集;扩展采集是指通过设定采集的起始点和采集的深度来实现比较精确的数据采集;源搜索是指利用搜索引擎(如百度、搜狗、360等),通过设置关键词组来实现数据的非精确采集。本项目采用定向采集方式。按照数据采集范围、关键词持续采集数据,并对重复数据进行去重,能够根据语义过滤垃圾数据。分布式城市涝情信息爬虫体系包括如下四部分:①系统管理控制台:对爬虫系统部署的软硬件资源进行监控及动态管理,包括服务器资源及网络状况、爬虫进程运行情况以及异常事件处理等;②爬取规则定义:能够依据网络爬虫的运行状况和信息爬取效果对爬取规则进行定义及优化。主要定义的爬取规则包括:爬取范围、优先策略(深度、广度)、分析词策略(关键词、剔除词)、爬取频率等;③功能中间件:主要包括爬取中间件、爬取防屏蔽中间件、数据存储中间件等,提供数据采集、分析、避免反爬取策略、数据存储及查询服务;④分布式基础设施:采用“主从”模式构建,主节点将爬取、分析任务在从服务器动态分配,并建立异常处理机制,实现爬虫高效、稳定运行。4.1.2涝情信息识别。网络爬虫依据“大雨、内涝”等关键字采集的舆情数据不都是有效涝情信息,存在大量噪声。为了提高爬虫获取涝情数据的准确率,构建了“正则关联”与机器学习算法结合的涝情信息识别模型。通过机器学习算法进行语义理解,建立爬虫抽取的数据类别库,即判读每一条数据是否与洪涝相关,从而将样本库分为两类。通过卷积神经网络(CNN)和循环神经网络(RNN)提取文本上下文语义特征信息,依据属性特征对其进行分类,判别爬取的内容是否属于涝情相关的数据。该模型进一步提高了涝情数据的精准度。4.2城市涝情预警预测技术。以降雨预报、历史降雨信息、历史涝情信息、排水防涝标准、易涝点治理进展为主要因子构建城市涝情预测模型,将风险划分为“最高”“高”“较高”“一般”“无”5种等级,并三天内各城市的风险预警,为指导城市内涝工作提供决策依据。通过接入涝情城市、基于内涝点的降水实况及预报、覆盖内涝城市的降水实况及预报等数据,通过滚动计算方法,将其与城市防涝标准做对比,通过制定风险预警策略,预判城市涝情风险和易涝点涝情风险,并实时涝情预警信息。4.3排水防涝数据可视化技术。通过大数据技术融合城市涝情舆情信息、城市降雨信息、城市涝情监控实时信息,利用专题一张图、报告生成等方式实现多维度叠加式数据可视化,更好地服务综合管廊建设管理部门的规划和决策。①排水防涝专题一张图。基于GIS的业务多图层综合展现,将全国易涝点、降雨和涝情信息集中在一张图,关联降雨对涝情的影响,科学评估易涝点治理效果;②排水防涝业务分析报告:面向不同用户的业务需求,按照报告模板要求的格式、数据快速生成分析报告。报告采用文字、表格、统计图等多种数据展现形式,内容包括降雨分布情况、涝情分布情况、降雨与涝情关系分析等。
5结论
文章研究大数据在城市涝情监管预警领域的应用方案,充分发挥大数据在分布式、海量、异构数据采集、存储、处理、分析方面的优势,改变传统信息采集方式,融合易涝点数据、降雨数据、涝情数据、补短板项目数据,实现“填报型”到“监控型”应用的转变,构建城市排水防涝效果评价、涝情预测等数据分析应用模型,为促进排水防涝工作提供有力支撑。
参考文献:
[1]孙敏,王琳.大数据时代下的数据可视化方法分析[J].软件,2019,40(9).
[2]张丽虹.大数据背景下城市排水防涝设施动态管理系统设计[J].工程管理与技术,2018(4).
[3]薛祥光,蒋世峰,李萌,等.GIS在城市排水防涝中的应用趋势[J].科技视界,2016(1):71-72.
[4]侯圣峦,刘磊,曹存根.基于语义文法的网络舆情精准分析方法研究[J].计算机科学,2014(10).
[5]郝莹,陈靖,王元,等.基于高时空分辨率降水预报产品的城市内涝预警研究[J].暴雨灾害,2019(3).
篇7
可以看出,krisch算子的运算量比较大。其次在边缘检测中边缘定位能力和噪声抑制能力方面,有的算子边缘定位能力强,有的抗噪声能力比较好:roberts算子利用局部差分算子寻找边缘,边缘定位精度较高,但容易丢失一部分边缘,同时由于没经过图像平滑计算,不能抑制噪声。该算子对具有陡峭的低噪声图像响应最好;sobel算子和prewitt算子都是对图像进行差分和滤波运算,差别只是平滑部分的权值有些差异,对噪声具有一定的抑制能力,不能完全排除检测结果中出现伪边缘。这两个算子的边缘定位比较准确和完整,但容易出现边缘多像素宽。对灰度渐变和具有噪声的图像处理的较好;krisch算子对8个方向边缘信息进行检测,因此有较好的边缘定位能力,并且对噪声有一定的抑制作用,该算子的边缘定位能力和抗噪声能力比较理想;laplacian算子是二阶微分算子,对图像中的阶跃型边缘点定位准确且具有旋转不变性即无方向性。但该算子容易丢失一部分边缘的方向信息,造成不连续的检测边缘,同时抗噪声能力比较差,比较适用于屋脊型边缘检测(将在第3节中讨论)。 2.2 最优算子 最优算子又可以分为马尔算子(log滤波算子)、坎尼(canny)边缘检测、曲面拟合法。 torre和poggio[5]提出高斯函数是接近最优的平滑函数,marr和hildreth应用gaussian函数先对图像进行平滑,然后采用拉氏算子根据二阶导数过零点来检测图像边缘,称为log算子。对于log算子数学上已经证明[6],它是按照零交叉检测阶跃边缘的最佳算子。但在实际图像当中,高斯滤波的零交叉点不一定全部是边缘点,还需要进一步确定真伪[7];坎尼把边缘检测问题转换为检测单位函数极大值问题,根据边缘检测的有效性和定位的可靠性,研究了最优边缘检测器所需的特性,推导出最优边缘检测器的数学表达式。与坎尼密切相关的还有deriche算子和沈俊算子,它们在广泛的意义下是统一的;曲面拟合的基本思想是用一个平滑的曲面与待测点周围某邻域内像素的灰度值进行拟合,然后计算此曲面的一阶或二阶导数。该方法依赖于基函数的选择,实际应用中往往采用低阶多项式。 2.3 多尺度方法 早期边缘检测的主要目的是为了处理好尺度上的检测和定位之间的矛盾,忽略了在实际图像中存在的多种干扰边缘,往往影响到边缘的正确检测和定位。 rosenfeld等[8]首先提出要把多个尺寸的算子检测到的边缘加以组合;marr倡导同时使用多个尺度不同的算子,并提出了一些启发性的组合规则。这一思想后来经witkin等发展成了尺度空间滤波理论,说明了不同尺度上的零交叉的因果性;lu jain对二维信号进行了类似的研究;yuille和poggio证明了对于任意维信号,当用高斯函数滤波时,尺度图中包含了数目最小的零交叉,并且可以由粗到细地跟踪这些零交叉。 多尺度信号处理不仅可以辨识出信号中的重要特征,而且能以不同细节程度来构造信号的描述,在高层视觉处理中有重要的作用。 其中小波变换是近年得到广泛应用的数学工具。与傅立叶变换和窗口傅立叶变换相比,小波变换是时间和频率的局域变换,因而能有效地从信号中提取信息,它通过伸缩和平移等运算功能对函数或信号进行多尺度细化分析,解决了傅立叶变换不能解决的很多困难问题,因而被誉为“数学显微镜”。信号突变点检测及由边缘点重建原始信号或图像是小波变换应用的一个很重要的方面。 从边缘检测的角度看,小波变换有以下几个优点: (1)小波分解提供了一个数学上完备的描述; (2)小波变换通过选取合适的滤波器,可以极大地减小或去除所提取的不同特征之间的相关性; (3)具有“变焦”特性:在低频段可用高频分辨率和低时间分辨率;在高频段可用低频分辨率和高时间分辨率; (4)小波变换可通过快速算法来实现。 文献[9]提出了一种基于层间相关性的小波边缘检测算法,依据的是信号主要分布在低频部分或低尺度部分,而噪声分布于高频部分或高尺度部分的特点。另外小波变换具有较强的去相关性,变换后的小波系数之间仍然存在大量的相关性质,即小波系数在不同分辨率下的对应系数之间具有较强的相关性或称层间的相关性。通过对比该方法能够较好多的防止噪声干扰,又能有效地保留图像边缘。 2.4 自适应平滑滤波方法 该方法是边缘检测的一个重要方法[10],无论是对于灰度图象处理还是距离图像和平面曲线处理都是非常有效的。它的优点是: (1)平滑滤波的迭代运算使信号的边缘得到锐化,此时再进行边缘检测,可以得到很高的边缘定位精度; (2)通过自适应迭代平滑,实现了将高斯平滑之后的阶跃边缘、屋顶状边缘和斜坡边缘都转化为理想的阶跃边缘,提高了图像的信噪比; (3)经过多次迭代运算,图像按边缘分块实现自适应平滑,但不会使边缘模糊; (4)应用自适应平滑滤波得到一种新的图像尺度空间描述。 2.5 其他方法 近年来随着模糊数学、神经网络的发展,人们不断探索将其应用于图像的边缘检测中。文献[11]和[12]依据模糊理论讨论了边缘检测算法的抗噪性和检测速度问题,并证明了模糊集合理论能较好地描述人类视觉中的模糊性和随机性;应用人工神经网络提取图像边缘成为新的研究分支,目前已提出了很多算法,具有计算简单功能强的特点,但是速度慢,稳定性差。但是神经网络边缘检测可以避免自适应确定阈值的问题,具有较好的容错性和联想功能。 2.6 边缘检测的步骤 边缘检测分为彩色图像边缘检测和灰度图像边缘检测两种,由于彩色图像有八种彩色基,在边缘检测时选用不同的彩色基将直接影响实时性、兼容性和检测效果,因此本文只限于灰度图像的边缘检测研究,其步骤如图2.1所示。
其中边缘定位是对边缘图像进行处理,以得到单像素宽的二值边缘图像,通常使用的技术是阈值法和零交叉法。边缘定位后往往存在一些小的边缘片断,通常是由于噪声等因素引起的,为了形成有意义的边缘需要对定位后的边缘进行链接。通常有两种算法:局部边缘链接和全局边缘链接。 3 边缘模型的分类及性能分析 本小节从边缘检测“两难”问题出发,总结了实际图像中可能出现的七种边缘类型,并分别给出了数学模型描述,最后分析比较了不同边缘类型表现出的特性及不同类型的边缘定位与平滑尺度的关系。 3.1 边缘检测的“两难”问题 首先来了解一下边缘检测的常用定义[13]:边缘检测是根据引起图像灰度变化的物理过程来描述图像中灰度变化的过程。引起图像灰度不连续性的物理过程可能是几何方面的(深度的不连续性、表面取向、颜色和纹理的不同),也可能是光学方面的(表面反射、非目标物体产生的阴影及内部倒影等)。这些景物特征混在一起会使随后的解释变得非常困难,且实际场合中图像数据往往被噪声污染。信号的数值微分的病态问题:输入信号的一个很小的变化就会引起输出信号大的变化。令 f(x)为输入信号,假设由于噪声的影响,使 f(x)发生了一个很小的变动: 式(3.1) 其中 ε<<1。对式(3.1)两边求导数则: 式(3.2) 由式(3.2)可以看到,若w足够大,即噪声为高频噪声时,会严重影响信号 f(x)的微分输出,进而影响边缘检测的结果。为了使微分正则化,则需要先对图像进行平滑。然而图像平滑会引起信息丢失,并且会使图像平面的主要结构发生移位。另外若使用的微分算子不同,则同一幅图像会产生不同的边缘,因此噪声消除与边缘定位是两个相互矛盾的部分,这就是边缘检测中的“两难”[14,15]。 3.2 边缘分类及性能分析 图像中的边缘通常分为:阶跃边缘、斜坡边缘、三角型屋脊边缘、方波型屋脊边缘、楼梯边缘、双阶跃边缘和双屋脊边缘[1]。 (1)阶跃边缘 模型为: f(x)=cl(x) ,其中 c>0为边缘幅度, 为阶跃函数。若存在噪声,可以选用大尺度的模板平滑图像,不会影响边缘的定位。 (2)斜坡边缘 理想的斜坡边缘模型为:,其中s为边缘幅度,d为边缘宽度。斜坡边缘的检测不仅跟尺度有关,还与边缘本身的宽度有关,若边缘宽度比较小,则在小的平滑尺度下也能检测到边缘;无论是检测极值点还是过零点,边缘的定位都没有随着尺度的变化而变化。因此,对于斜坡边缘若存在噪声,可以选用大尺度的模板平滑图像。而不会影响到边缘定位。 (3)三角型屋脊边缘 模型为:,其中s为边缘幅度,d为边缘宽度。对于三角型屋脊边缘若存在噪声可以选用大尺度的平滑模板,而不会影响边缘的定位。 (4)方波型屋脊边缘 方波型屋脊边缘的模型为:,其中s为边缘幅度,d为边缘宽度。对于方波型屋脊边缘检测,不仅与平滑尺度有关,还与边缘宽度有关,若存在噪声,可以选用大尺度的平滑模板,而不会影响边缘的定位。 (5)楼梯边缘 楼梯边缘模型为:,其中c1、c2、l均为常数。这种检测的特点是平滑后的楼梯边缘不能准确定位,必须对检测到的边缘位置进行移位校正。 (6)双阶跃边缘 双阶跃边缘与方波型屋脊边缘相同,不同之处为:双阶跃边缘的边缘点为x=-d/2与 x=d/2,而方波型屋脊边缘的边缘点为 x=0。双阶跃边缘的两个边缘点通过检测一阶导数的两个极值点和二阶导数的两个过零点获得。因此对于双阶跃边缘大尺度下不能准确定位,必须对检测到的边缘位置进行移位校正。 (7)双屋脊边缘 模型为:, 其中:
篇8
【摘要】 为了实现人体器官的三维重建,如何准确、有效地提取二维医学图像的边缘成了首要解决的问题。我们提出一种新的图像边缘提取方法,该方法先将原始CT图像二值化,然后利用数学形态运算对二值化图像进行预处理,最后利用Canny算子提取图像边缘。通过肾脏CT图像边缘提取结果表明,该方法简单、高效、性能优越。
【关键词】 CT图像;边缘提取;数学形态学;Canny算子
Research on the Edge Extraction of CT ImageZHANG Xiaoping,ZHU Zhisong,WANG Junze
(Nantong Univirsity, Nantong 226019, China)
Abstract:To reconstruct the body organs in 3-D, how to extract the edges from 2-D medical images accurately and effectively has benen the primarily problem. Therefore, a new method of edge extraction was introduced in this paper. The original CT image was binarized firstly and then preprocessed by mathematical morphology operating. Finally, the image edge was extracted by the Canny algorithm. The results of kidney CT image edge extraction show that the method is simple, efficient and superior performance.
Key words:CT image;Edge extraction;Mathematical morphology;Canny algorithm
1 引 言
随着计算机技术、CT(计算机断层扫描)、MRI(核磁共振)等医学影像技术的不断发展,虚拟现实技术也越来越多地应用到现代医疗领域。利用计算机图像处理和数据可视化技术,根据医学影像设备提供的二维断层图像,进行人体器官的三维重建已是现代医学重要发展方向之一。肾脏疾病的外科手术是泌尿外科中的一个重点和难点,因此,根据CT二维图像重构肾脏及其周围结构的三维模型,有助于医生选择最佳手术路线、减少手术损伤、提高手术成功率[1]。CT二维图像的边缘提取作为器官三维重构的第一步,一直受到国内外学者的关注,提出了众多的边缘检测算法,如小波变换法、神经网络法、模糊技术法等[2]。近几年,随着数学形态学理论的不断完善与发展,数学形态学在图像边缘检测中得到了广泛的应用[3-5]。本研究正是在数学形态学的基础上,结合Canny算子,以肾脏为例,进行了CT图像的边缘提取。
2 数学形态学在图像预处理中的运用
数学形态学是一门新兴的、以形态为基础对图像进行分析的学科。它利用具有一定结构和特征的结构元素对图像进行匹配,以实现对图像的分析和识别,在去除噪声、边缘检测等图像预处理问题中有着明显的优势[6]。数学形态学定义了两种基本变换,即膨胀(Dilation)和腐蚀(Erision)。首先介绍其定义[7]:设F是原始图像,B是结构元素,膨胀运算定义为:
D(F)=FB={(x,y)/Bxy∩F≠Φ}(1)
即B对F膨胀产生的二值图像D(F)是由这样的点(x,y)组成的集合,若图B的原点位移至(x,y),那么它与F的交集非空。
腐蚀运算定义为:
E(F)=FΘB={(x,y)/BxyF}(2)
即B对F腐蚀产生的二值图像E(F)是由这样的点(x,y)组成的集合,若图B的原点位移至(x,y),那么B将完全包含于F。
由上述两种基本运算可以复合得到开启、闭合变换。
开启是对图像先腐蚀后膨胀的过程,F用B来开启,其数学表达式可记为:
F·B=(FΘB)B(3)
闭合是对图像先膨胀后腐蚀的过程,F用B来闭合,其数学表达式可记为:
F·B=(FB)ΘB(4)
上述4种运算中,膨胀可以填充图像中的小孔及图像边缘上小的凹陷部分;腐蚀可以消除图像中细小的成分;开启则具有消除细小物体、在纤细处分离物体和平滑较大物体边界的作用;闭合则具有填充物体内细小孔洞、连接临近物体和平滑边界的作用。
利用数学形态学进行图像预处理时,选择简单、表现力强的结构元素是关键,是形态变换中最重要的参数;其次,还要综合考虑目标体的清晰度和噪声的大小来选取结构元素的大小[8]。一般目标体轮廓不清晰时,选择较小的结构元素;噪声颗粒较大时,选择较大的结构元素。
3 Canny算子的边缘检测原理
经过数学形态变换之后,图像的边缘将变得清晰、突出,此时,图像的边界信息可以被方便地提取出来。传统的算法有Sobel、 Prowitt 、Robert、Canny算子等[9]。在众多的算子中,Canny算子因其具有高信噪比、高定位精度及单边缘响应等优良性能[10],在许多图像处理领域得到应用。本研究也正是采用该算法提取肾脏CT图像边缘。
Canny算子的基本思想是采用二维高斯函数的任意方向上的一阶方向导数为噪声滤波器,通过与图像卷积进行滤波,然后对滤波后的图像寻找局部梯度最大值,以此来确定图像边缘[11]。其数学描述如下:
3.1 用高斯滤波器平滑图像
二维高斯滤波函数为:
G(x,y)=12πσ2exp(-x2+y2〖〗2σ2)(5)
在某一方向n上G(x, y)的一阶导数为:
Gn=Gn=nG(6)
式6中n是方向矢量,n=cosθ
sinθ,
G是梯度矢量,G=Gx
Gy。
将图像{F|f(x,y)}与Gn 作卷积,改变n的方向,Gn×f(x,y)取得最大值时的n,就是正交于检测边缘的方向。
3.2 梯度的幅值和方向计算
用一阶偏导的有限差分来计算梯度的幅值和方向。
Ex=Gx×f(x,y) Ey=Gy×f(x,y)
A(x,y)=Ex2+Ey2 Φ=Arctan(ExEy)(7)
A(x,y)反映了图像(x,y)点处的边缘强度,Φ是图像(x,y)点处的法向矢量。
3.3 对梯度幅值进行非极大值抑制
为确定图像边缘,必须保留局部梯度最大的点,而抑制非极大值。若图像F上(x,y)点处的梯度幅值A(x,y)小于沿着梯度线方向上的相邻像素点的边缘强度,则认为该点为非边缘点,将A(x,y)置为0。
3.4 用双阈值法检测和连接边缘
设定两个阈值t1和t2(t2>t1)。凡边缘强度>t2者,则一定是边缘点;凡边缘强度t2的点,若有,则补为边缘点,若没有,则不是边缘点。用t1、t2两个阈值对非极大值抑制图像进行双阈值化,可得两个检测结果,分别记为T1和T2。图像T2阈值较高,所以噪声较少,但会造成边缘信息的损失;图像T1阈值较低,则保留了较多信息。于是以图像T2为基础,以图像T1为补充,连接图像的边缘。
由此可见,Canny算子是既能去除噪声又能保留边缘特性的边缘检测一阶微分算法的最佳方法。
4 应用实例
本研究在Matlab6.5软件平台上,以某医院一患者的肾脏CT断层图像为例,提取了其中右肾的边缘轮廓,具体实施步骤如下:
4.1 图像二值化
CT图像是灰度图像,为了更好的形态运算和边缘检测,首先进行二值化处理,即把灰度图像转变成由0、1 组成的矩阵所表示的图像。图1为原始CT图像,图2是二值化图像。在本次实验中,二值化阈值为0.8。实验过程中发现,该方法简单、高效,且丢失的信息也很少。
4.2 数学形态学处理
由图2可见,图像存在着一些空腔、毛刺、边缘凹陷等现象,要进行边缘检测,还需经过进一步处理,通过本研究介绍的数学形态运算即可完成。
所求边缘是肾脏外围轮廓,首先需要填充图像中的空腔和边缘凹陷。对此,可采用imclose函数进行闭合运算,即进行先膨胀后腐蚀,其中结构元素为5×5圆形结构元素,结果见图3。由图3可见,经过闭合运算后,图像中还存在一些小短枝和孤立斑点,这些也必须剔除,否则,将影响边缘提取效果。对此,可采用imopen函数进行开启变换实现,即先腐蚀后膨胀。针对小短枝和孤立斑点,无法用同一种结构元素去剔除,所以必须分两步:首先选用3×3矩形结构元素执行开启变换,去除小短枝像素,结果见图4;然后用3×3菱形结构元素再次执行开启变换,去除孤立斑点,结果见图5。
4.3 Canny算子提取边缘
经过上述处理,肾脏图像边缘已经逐渐清晰、突出,此时利用Canny算子即可提取其边界信息,如图6所示,本次实验中,边缘强度阈值t1为0.0063,t2为0.0156 。图6基本无失真地描述了边界信息。提取图6中各边界点的坐标,即可获得重构的边界图形,见图7。对肾脏各层CT图像进行上述运算后,经过插值处理,即可进行该器官的三维重构。
5 结束语
本研究从实用性的角度出发,阐述了利用数学形态学和Canny算子进行肾脏CT断层图像边缘提取的方法和步骤。实验证明该方法简单、快速、精度高、适用性强,为医学图像的三维重建和虚拟手术技术的研究奠定了良好的基础。
参考文献
[1]王洛夫, 张绍祥,江军,等.肾脏及其周围结构的三维可视化研究[J].第三军医大学学报,2004,26 ( 6 ): 537-539.
[2]张小琳.图像边缘检测技术综述[J].高能量密度物理,2007,(1):37-40.
[3]Bai X Z, Zhou F. Edge detection based on mathematicalmorphology and iterative thresholding[A].International conference on computational intelligence and Security[C]. NY: IEEE, 2006.1849-1852.
[4]Serra J. Image analysis and mathematical morphology[M].New York: Academic Press,1982.
[5]Huang C-P,Wang R-Z.An intergrated edge detection method using mathematical morphology[J].Pattern Recgnition and Image Analysis,2006,16(3):406-412.
[6]陈虎,王守尊,周朝辉.基于数学形态学的图像边缘检测方法研究[J].工程图学学报,2004,(2):112-115.
[7]崔屹.图像处理与分析-数学形态学方法及应用 [M].北京:科学出版社,2000.
[8]Li Z H,Yang Y P,Jiang W.Multi-scale morphologictracking approach for edge detection[A].The 4th International conference on image and graphics[C]. NY: IEEE,2007.358-362.
[9]马艳, 张治辉.几种边缘检测算子的比较[J].工矿自动化,2004(2): 54-56.
篇9
关键词:PCB;图像处理;视觉检测
中图分类号:TP277文献标识码:A文章编号:1009-3044(2012)07-1648-06
当今世界科技发展日新月异,电子产业的发展直接制约着国民经济的腾飞与否,而PCB电路板制作工艺的提高对促进电子产业的发展至关重要,能否有效精确地检测PCB电路板的缺陷一直都是电子行业的研究热点。国外的印刷电路板自动检测技术一直领先于国内,国内的很多厂家不得不采用昂贵的外国技术,虽然近年国内的印刷电路板自动检测技术发展迅速,但大都没有取得令人非常满意的结果。加入研究这一领域的热潮,赶超外国的先进技技水平,打断外国垄断技术,对于发展国民经济具有十分重要的意义。
1 PCB检测系统的硬件设计
1.1 PCB检测系统的硬件组成框图
虽然本文所做的工作主要是软件方面,但对于硬件系统的设计也是至关重要的,它对于建立有效的计算机视觉识别检测系统,起着决定性作用。因此,必须在综合考虑系统性价比和系统性能的基础上,设计出合理的硬件系统[9]。PCB检测系统的硬件组成框图如图1所示:图1 PCB检测系统硬件组成框图
1.2系统的硬件组成
系统的硬件组成[10]主要包括:计算机主机、CCD摄像机、图像采集卡、照明系统及相关的设备。
2 PCB电路板缺陷检测识别
PCB电路板在电子工业中的应用越来越广泛,如何降低电路板的故障率、提高电路板的质量直接影响到整个产业的发展。因此,对于PCB电路板缺陷的识别技术的发展至关重要。PCB电路板的缺陷很多[16],主要有短路、断路、划痕、凸起、空洞、缺焊、过焊等等,由于实验室设备限制和个人水平所限,本文主要研究的内容是PCB电路板短路与断路的检测识别
近年来出现了很多图像检测算法,这些算法大致可分为三大类:有参考算法、无参考算法以及混合型算法。有参考算法分为两大类:图像对比法和模型对比法。无参考算法是一种不需要标准图像的检测算法,它是基于一定的设计规则来进行检测的。混合型方法是将有参考算法与无参考算法混合使用,从而发挥出各自的优点。比如,模板匹配法与数学形态学方法结合使用,或者连接表方法与数学形态学方法结合使用等。本文中短路与断路的检测识别采取了图像对比法,即将经过一定处理后的图像进行相减,从而分析相应的结果;而对焊点缺陷的识别主要采用模板匹配法与数学形态学方法结合使用。
2.1 PCB电路板缺陷检测识别的主要流程图
图2为子程序流程图;图3为主程序流程图。
2.2 PCB电路板短路与断路的检测识别
2.2.1边缘检测
在对图像进行基本的处理过后可以将图像与背景分割开来。边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。
这些包括:深度上的不连续;表面方向不连续;物质属性变化;场景照明变化。边缘检测是图像处理和计算机视觉中,尤其是特征提取中的一个研究领域。
图像边缘检测大幅度地减少了数据量,并且剔除了可以认为不相关的信息,保留了图像重要的结构属性。有许多方法用于边缘检测,它们的绝大部分可以划分为两类[17]:基于查找一类和基于零穿越的一类。基于查找的方法通过寻找图像一阶导数中的最大和最小值来检测边界,通常是将边界定位在梯度最大的方向。基于零穿越的方法通过寻找图像二阶导数零穿越来寻找边界,通常是Laplacian过零点或者非线性差分表示的过零点。
1)Roberts算子
边缘,是指周围像素灰度有阶跃变化或屋顶等变化的那些像素的集合。图像的边缘对应着图像灰度的不连续性。显然图像的边缘很少是从一个灰度跳到另一个灰度这样的理想状况。真实图像的边缘通常都具有有限的宽度呈现出陡峭的斜坡状。边缘的锐利程度由图像灰度的梯度决定。梯度是一个向量,?f指出灰度变化的最快的方向和数量,如式2-1所示。
?f=(决定的。
因此最简单的边缘检测算子是用图像的垂直和水平差分来逼近梯度算子,式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))(式2-4)
因此当我们想寻找边缘的时候,最简单的方法是对每一个像素计算出(2,4)的向量,然后求出他的绝对值,然后进行阀值操作就可以了。利用这种思想就得到了Roberts算子,由式2-5所示。
R(i,j)=
(式2-5)
它是一个两个2×2模板作用的结果。
2)Sobel算子
该算法通过2个3*3的模板,对选定的二维图像中同样大小窗口进行卷积,通常是一个模板对一个边缘响应大,另一个模板对水平边缘响应大,两个卷积值对最大值作为该点对输出。对于图像上的任意点(i,j)进行卷积,可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)](式2-6)Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)](式2-7)则输出图像公式如式2-8所示。
用sobel算子检测阶跃边缘得到的边缘宽度至少为两个宽度。3)Laplacian边缘检测算子
Laplacian算子定义由式2-9所示。
Δ2f(x,y)=
(式2-9)它的差分形式由式2-10所示。
Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}
=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)(式2-10)
Laplacian算子是一种各向同性算子,在只关心边缘的位置而不考虑其周围的灰度象素差值时时比较合适,Laplacian算子对孤立象素的响应要比对边缘或线的响应更要强烈,因此只适用于无噪声图像。
原图像与用三种边缘检测算子处理后的图像如下所示:图6 Sobel边缘检测图7 Laplacian边缘检测
从上面四幅图分析比较可得出结论:用Roberts边缘检测得出的图像较之其他方法更为清晰,噪点更少,图像更为连续,所以本文中采用Roberts算子来进行边缘检测。
2.2.2阈值分割
阈值分割法是一种基于区域的图像分割技术,其基本原理是:通过设定不同的特征阈值,把图像象素点分为若干类。常用的特征包括:直接来自原始图像的灰度或彩色特征;由原始灰度或彩色值变换得到的特征。设原始图像为f(x,y),按照一定的准则f(x,y)中找到特征值T,将图像分割为两个部分,分割后的图像为:
若取:b0=0(黑),b1=1(白),即为我们通常所说的图像二值化。
在数字化的图像数据中,无用的背景数据和对象物的数据经常放在一起,同时,图像中还含有各种噪声,因此可以根据图像的统计性质,从概率的角度来选择合适的阈值。
1)最大方差阈值法
把待处理图像的直方图在某一阈值处分割为两组,当被分割成的两组间的方差最大时,便可以决定阈值了。
设灰度图像f(x,y)的灰度级为0-L,灰度级I的像素为Ni,则图中:
总象素数N=∑j=0 i=LNi(式2-11)灰度级i出现的概率Pi= 1-ω(K)(式2-16)则两组间的数学期望为ω0μ0ω1μ1=μ(式2-17)两组间的方差为ρ2(k)
ρ2(k)是K的函数,计算k取从0,1,2…L时ρ2(k)的值,当多的值为最大时,K即为阈值。
2)双峰法
根据图像的直方图具有背景和对象物的两个峰,分割两个区域的阈值由两个峰值之间的谷所对应的灰度值决定。设灰度图像f(x,y)的灰度级为0-L,灰度i的像素为Pi,分别计算
因为实际PCB电路板有着许多的划痕、污点等,使用最大方差阈值法时,会在处理后的图像上产生许多误点,而影响实际结果的分析,而双峰法能够顺利地滤除这些干扰,这个结论在分析对比以上图像时也可得出。所以本文选用了双峰法来进行阈值分割。
2.2.3粒子分析与图像对比
经过边缘检测和阈值分割的图像中会存在许多瑕点,这些点会影响到最后的图像识别与分析,有可能会增加多余的残留图像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能进行去除,如图11和图12所示。图11原图像图12粒子分析
将标准PCB图片减去缺陷缺陷PCB图片,便可以得到缺陷板的断路部分的图像,再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到断路部分的具体分析,如图13示。
将缺陷PCB图片减去标准PCB图片,便可以得到缺陷板的短路部分的图像,与上述相同的方法,便可以得到短路部分的具体分析,如图14所示。
3结束语
利用LABVIEW来进行PCB电路板缺陷的识别与检测是一项非常好的课题,它在近些年已经得到了一定的发展,并将得到更大的进步。限于本人能力和时间,本文的研究还未涉及很深的领域,可以在以下方面加以改进:
1)本文中只利用到NI公司的LABVIEW和IMAQ VISION,更好的设计可以再利用其他语言如VISUAL BASIC,C++等编程语言加以辅助设计,相信可以取得更加令人满意的结果。
2)由于实验设备等其他因素,本文中只重点研究了PCB电路板短路与断路的检测识别,PCB电路板的其他缺陷还有待于进一步的分析研究、分类和总结,并设计出更好的检测方法,以真正满足PCB电路板检测的需求。
3)照明设备的限制在很大程度上影响到了图像的检测效果,为取得PCB缺陷检测的进一步进展,在照明设备的选择上必须重视,并且设计出更好的图像采集系统。
4)在识别与检测手段上,可以引入更新更好的方法,而不要局限于在传统的方法中分析比较,例如基于BP神经网络的识别检测,图像的模糊决策等将有待于进一步研究。
总之,基于LABVIEW的机器视觉检测系统已经取得了不错的进展,高速发展的PCB制造技术和计算机技术对于PCB缺陷的检测提出了更高的要求,同时也大大地促进了PCB缺陷检测技术的发展。利用机器视觉检测在未来的较长的一段时间内将占据检测行业的半壁江山,相信在未来会取得更大的发展。
参考文献:
[1]程学庆,房晓溪.LabVIEW图形化编程与实例应用[M].北京:中国铁道出版社,2005.
[2]胡仲波.基于虚拟仪器技术的PCB视觉检测系统[D].南京:南京理工大学硕士学位论文,2006.
[3]段峰,王耀南.机器视觉技术及其应用综述[J].自动化博览,2002,19(3).
[4]周长发.精通Visual C++图像处理编程[M].北京:电子工业出版社,2004.
[5]陈锡辉,张银鸿.LabVIEW 8.20程序设计从入门到精通[M].北京:清华大学出版社,2007.
[6]郑伟.图像法检测印刷电路板缺陷[M].西安:西安理工大学,2002.
[7] National Instruments,IMAQ User Manual Concepts[Z].1999.
[8]李强.PCB板缺陷自动检测技术的分析研究[D].合肥:合肥工业大学,2002.
[9]傅茂名.基于形态边缘检测算法的一种改进[J].电子科技大学学报,2005(2).
[10]王思华.计算机视觉新技术及其在IC标记质量检验系统设计中的应用[J].电子技术应用,2000(9).
[11]岳永哲.图像处理技术在阅卷系统中的应用[D].北京:北京工业大学,2006.
[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.
[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.
[14]高育鹏,杨俊,何广军.基于图像识别的自动阅卷系统研究[J].现代电子期刊,2006(22).
[15]杨青燕,彭延军.基于灰度图像的答题卡识别技术[J].山东科技大学学报:自然科学版,2009(3).
[16]周海涛,韩晓军.基于数字图像处理的答题卡识别方法研究[J].电脑知识与技术,2008(28).
[17]周万珍,郑广,王建霞,等.数字图像处理技术在客观题阅卷中的应用[J].数学的实践与认识,2006(8).
[18]王胜春.基于SVM的信息卡识别系统[D].长沙:湖南师范大学,2008.
[19]吴志明.SMT系统中焊点位置的检测[D].哈尔滨:哈尔滨工业大学,2006.
[20]杨敏,王春青,邹增大,等.表面组装印刷电路板上焊点信息的自动获取[J].焊接学报,2005,39(6).