卷积神经网络实现过程范文

时间:2024-04-02 18:05:00

导语:如何才能写好一篇卷积神经网络实现过程,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

卷积神经网络实现过程

篇1

关键词:图像分类;深度学习;Caffe框架;卷积神经网络

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)35-0209-03

Research and Implementation of Image Classification Based on Convolution Neural Network

WANG Chao

(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)

Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.

Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network

S着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。但是面临有海量图像信息却找不到所需要的数据的困境,因而图像分类技术应运而生。通过各种机器学习算法使计算机自动将各类图像进行有效管理和分类,但是由于图像内容包含着大量复杂且难以描述的信息,图像特征提取和相识度匹配技术也存在一定的难题,要使得计算机能够像人类一样进行分类还是有很大的困难。

深度学习是近十年来人工智能领域取得的重要突破,在图像识别中的应用取得了巨大的进步,传统的机器学习模型属于神经网络模型,神经网络有大量的参数,经常会出现过拟合问题,因而对目标检测准确率上比较低。本文采用卷积神经网络框架,图像特征是从大数据中自动学习得到,而且神经网络的结构深由很多层组成,通过重复利用中间层的计算单元来减少参数,在特征汇聚阶段引入图像中目标的显著信信息,增强了图像的特征表达能力。通过在图像层次稀疏表示中引入图像显著信息,加强了图像特征的语义信息,得到图像显著特征表示,通过实验测试,效果比传统的图像分类算法预测的准确度有明显的提升。

1 基于卷积神经网络的图像分类方法

1.1 人工神经网络

人工神经网络(Artificial Neural Network, ANN)是描述生物神经网络运行机理和工作过程的抽象和简化了的数学物理模型,使用路径权值的有向图来表示模型中的人工神经元节点和神经元之间的连接关系,之后通过硬件或软件程序实现上述有向图的运行[1]。目前最典型的人工神经网络算法包括:目前最典型的人工神经网络有BP网络 [2]Hopfield网络[3]Boltzmann机[4]SOFM网络[5]以及ART网络人工神经网络[6],算法流程图如图1所示[7]。

1.2 卷积神经网络框架的架构

Caffe是Convolutional Architecture for Fast Feature Embedding的缩写[8],意为快速特征嵌入的卷积结构,包含最先进的深度学习算法以及一系列的参考模型,图2表示的是卷积神经网络结构图。Caffe深度学习框架主要依赖CUDA,IntelMKL,OpenCV,glog软件以及caffe文件。本文使用的各个软件版本说明,如表1所示。

Caffe深度学习框架提供了多个经典的卷积神经网络模型,卷积神经网络是一种多层的监督学习神经网络,利用隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能,卷积神经网络模型通过采取梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练来提高网络的精度。卷积神经网络使用权值共享,这一结构类似于生物神经网络,从而使网络的复杂程度明显降低,并且权值的数量也有大幅度的减少,本文使用这些模型直接进行训练,和传统的图像分类算法对比,性能有很大的提升,框架系统训练识别基本流程如图3表示。

1.3 图像分类特征提取

卷积神经网络的结构层次相比传统的浅层的神经网络来说,要复杂得多,每两层的神经元使用了局部连接的方式进行连接、神经元共享连接权重以及时间或空间上使用降采样充分利用数据本身的特征,因此决定了卷积神经网络与传统神经网络相比维度大幅度降低,从而降低计算时间的复杂度。卷积神经网络主要分为两个过程,分为卷积和采样,分别的对上层数据进行提取抽象和对数据进行降维的作用。

本文以Caffe深度学习框架中的 CIFAR-10数据集的猫的网络模型为例,如图4所示,对卷积神经网络模型进行训练。CIFAR-10是一个标准图像图像训练集,由六万张图像组成,共有10类(分为飞机,小汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车),每个图片都是32×32像素的RGB彩色图像。通过对数据进行提取和降维的方法来提取图像数据的特征。

2 实验分析

将猫的图像训练集放在train的文件夹下,并统一修改成256×256像素大小,并对猫的图像训练集进行标记,标签为1,运行选择cpu进行训练,每进行10次迭代进行一次测试,测试间隔为10次,初始化学习率为0.001,每20次迭代显示一次信息,最大迭代次数为200次,网络训练的动量为0.9,权重衰退为0.0005,5000次进行一次当前状态的记录,记录显示如下图5所示,预测的准度在98%以上。而相比传统的图像分类算法BP神经网络网络的收敛性慢,训练时间长的,网络的学习和记忆具有不稳定性,因而卷e神经网络框架在训练时间和预测准度上具有非常大的优势。

3 结束语

本文使用Caffe深度学习框架,以CIFAR-10数据集中猫的网络模型为例,构建小型猫的数据集,提取猫的图象特征信息,最后和目标猫图像进行预测,并和传统的图像分类算法进行对比,预测的准确率有很大的提升。

参考文献:

[1] 杨铮, 吴陈沭, 刘云浩. 位置计算: 无线网络定位与可定位性[M]. 北京: 清华大学出版社, 2014.

[2] 丁士折. 人工神经网络基础[M]. 哈尔滨: 哈尔滨工程大学出版社, 2008.

[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.

[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.

[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.

[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.

篇2

关键词:卷积神经网络;图像分类;空间变换;可变形卷积

DOIDOI:10.11907/rjdk.171863

中图分类号:TP317.4

文献标识码:A 文章编号:1672-7800(2017)006-0198-04

0 引言

图像分类一直是计算机视觉领域的一个基础而重要的核心问题,具有大量的实际应用场景和案例。很多典型的计算机视觉问题(如物体检测、图像分割)都可以演化为图像分类问题。图像分类问题有很多难点需要解决,观测角度、光照条件的变化、物体自身形变、部分遮挡、背景杂波影响、类内差异等问题都会导致被观测物体的计算机表示(二维或三维数值数组)发生剧烈变化。一个良好的图像分类模型应当对上述情况(以及不同情况的组合)不敏感。使用深度学习尤其是深度卷积神经网络,用大量图像数据进行训练后可以处理十分复杂的分类问题。

卷积神经网络是为识别二维形状而专门设计的一个多层感知器,这种网络结构对平移、缩放、倾斜等扰动具有高度不变性,并且具有强大的特征学习与抽象表达能力,可以通过网络训练获得图像特征,避免了复杂的特征提取与数据重建过程。通过网络层的堆叠,集成了低、中、高层特征表示。AlexNet等网络模型的出F,也推动了卷积网络在海量图像分类领域的蓬勃发展。

1 卷积神经网络

卷积神经网络是人工神经网络的一种,其“局部感知”“权值共享”[1]等特性使之更类似于生物神经网络,网络模型复杂度大大降低,网络训练更容易,多层的网络结构有更好的抽象表达能力,可以直接将图像作为网络输入,通过网络训练自动学习图像特征,从而避免了复杂的特征提取过程。

Yann LeCun等[2]设计的LeNet-5是当前广泛使用的卷积网络结构原型,它包含了卷积层、下采样层(池化层)、全连接层以及输出层,构成了现代卷积神经网络的基本组件,后续复杂的模型都离不开这些基本组件。LeNet-5对手写数字识别率较高,但在大数据量、复杂的物体图片分类方面不足,过拟合也导致其泛化能力较弱。网络训练开销大且受制于计算机性能。

2012年,在ILSVRC竞赛中AlexNet模型[3]赢得冠军,将错误率降低了10个百分点。拥有5层卷积结构的AlexNet模型证明了卷积神经网络在复杂模型下的有效性,并将GPU训练引入研究领域,使得大数据训练时间缩短,具有里程碑意义。AlexNet还有如下创新点:①采用局部响应归一化算法(Local Response Normalization,LRN),增强了模型的泛化能力,有效降低了分类错误率;②使用Dropout技术,降低了神经元复杂的互适应关系,有效避免了过拟合;③为了获得更快的收敛速度,AlexNet使用非线性激活函数ReLU(Rectified Linear Units)来代替传统的Sigmoid激活函数。

Karen等[4]在AlexNet的基础上使用更小尺寸的卷积核级联替代大卷积核,提出了VGG网络。虽然VGG网络层数和参数都比AlexNet多,但得益于更深的网络和较小的卷积核尺寸,使之具有隐式规则作用,只需很少的迭代次数就能达到收敛目的。

复杂的网络结构能表达更高维的抽象特征。然而,随着网络层数增加,参数量也急剧增加,导致过拟合及计算量大增,解决这两个缺陷的根本办法是将全连接甚至一般的卷积转化为稀疏连接。为此,Google团队提出了Inception结构[5],以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能。以Inception结构构造的22层网络GoogLeNet,用均值池化代替后端的全连接层,使得参数量只有7M,极大增强了泛化能力,并增加了两个辅助的Softmax用于向前传导梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC竞赛中以Top-5错误率仅6.66%的成绩摘得桂冠。

网络层数的增加并非永无止境。随着网络层数的增加,将导致训练误差增大等所谓退化问题。为此,微软提出了一种深度残差学习框架[6],利用多层网络拟合一个残差映射,成功构造出152层的ResNet-152,并在2015年的ILSVRC分类问题竞赛中取得Top-5错误率仅5.71%的成绩。随后,对现有的瓶颈式残差结构进行改进,提出了一种直通结构[7],并基于此搭建出惊人的1001层网络,在CIFAR-10分类错误率仅4.92%。至此,卷积神经网络在越来越“深”的道路上一往直前。

2 可变形的卷积神经网络

2.1 空间变换网络

空间变换网络(Spatial Transformer Network,STN)[8]主要由定位网络(Localisation net)、网格生成器(Grid generator)和可微图像采样(Differentiable Image Sampling)3部分构成,如图1所示。

定位网络将输入的特征图U放入一个子网络(由卷积、全连接等构成的若干层子网络),生成空间变换参数θ。θ的形式可以多样,如需要实现2D仿射变换,那么θ就是一个2×3的向量。

2.3 本文模型

本文以自建的3层卷积网络C3K5(如图6所示)和VGG-16作为基准网络,分别引入空间变换网络、可变形卷积和可变形池化,构造出8个卷积神经网络,用以验证可变形模块对浅层网络和深层网络的影响,如表1所示。

图6中C3K5网络模型包含3个带有ReLU层、LRN层和池化层的卷积模块,卷积层采用步长为1的5×5卷积核,输出保持原大小,池化层采用步长为2核为2×2的最大值池化,即每经过一个卷积模块,特征图缩小为原来的一半。

3 实验与分析

3.1 实验设置

本文实验环境:CPU为Intel i5-7400,8G内存,显卡为GTX1060,采用Cuda8+CuDNN6.0加速。

实验数据集包括公共图像数据集mnist、cifar-10、cifar-100和自建图像数据集pen-7。公共数据集分别有50 000张训练样本图像和10 000张测试样本图像。自建数据集pen-7为京东商城的七类笔图像库,每类有600张图片,图像分辨率为200×200,总计训练样本数3 360,测试样本数840, 图7为其中的14个样本。

3.2 结果与分析

分别将表1中的10个卷积网络应用到mnist、cifar-10、cifar-100和pen-7四个数据集进行训练,batch-size设置100,即每次传入100张图片进行训练,每训练100次测试一次(记为一次迭代),总共迭代100次,取最后10次迭代的准确率计算平均值,得各网络应用在不同数据集的分类结果,如表2所示。

实验结果表明,在卷积网络中引入空间变换网络、用可变形的卷积层和可变形的池化层替换传统的卷积层和池化层,不管是在浅层网络还是在深层网络,都能获得更高的分类准确率,这验证了空间变换网络和可变形卷积(池化)结构,丰富了卷积神经网络的空间特征表达能力,提升了卷积网络对样本的空间多样性变化的鲁棒性。包含3种模块的网络获得了最高的分类精度,使空间变换网络、可变形卷积层和可变形池化层在更多应用场景中并驾齐驱成为可能。

4 结语

通过在现有卷积神经网络中引入空间变换网络、可变形的卷积层和可变形的池化层,使得卷积网络在mnist、cifar-10、cifar-100及自建的pen-7数据集中获得了更高的分类精度,包含3种模块的网络获得了最高分类精度,证明了空间变换网络、可变形的卷积层和可变形池化层都能丰富网络的空间特征表达能力,协同应用于图像分类工作,这为后续研究打下了坚实的基础。

参考文献:

[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.

[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.

[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.

[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.

[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.

[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.

[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.

[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.

篇3

关键词:深度学习;行为识别;神经网络

1 概述

动作行为识别是计算机视觉领域中的一个研究热点,已经广泛应用于智能监控、人机交互、视频检索等领域中[1]。动作行为识别技术是通过对视频或者图像中人体动作行为做出有意义的判断。有效表达图像(视频)中的实际目标和场景内容是最基本,最核心的问题。因此,对于特征的构建和选择得到广泛关注,例如STIP、SIFT、MSER等。但是,能通过无监督方式让机器自动从样本中学习到表征样本的特征,会让人们更好地利用计算机来实现人的视觉功能。而深度学习作为神经网络的延伸和发展,是通过逐层构建一个多层网络来使得机器自动学习到隐含在数据内部的关系,从而让学习到的特征更加准确性。

文章旨在探讨深度学习与机器学习(神经网络)之间的关系,并且介绍深度学习的由来、概念和原理;同时介绍目前深度学习在计算机视觉中的应用。最后提出深度学习目前发展所面临的问题,以及对未来的展望。

2 深度学习

2.1 深度学习概述

深度学习源于人工神经网络的研究,是机器学习的拓展。深度学习是经过组合低层特征来形成更加抽象的属性类别和特征,从中发现原始数据的特征表征[2]。现在用于动作行为识别的技术是通过“动作表征”+“动作分类器”的框架来进行行为识别的。其中“动作表征”是人们手动设计特征获取到的,也就是在目前识别框架内存在一个对动作图像(视频)的预处理过程。

深度学习和浅层学习相对。目前许多学习算法是浅层网络学习方法,具有一定的局限性,例如在样本有限的状况下,表示复杂函数的能力有限制,且对复杂分类问题的泛化能力也会受到一定约束[3]。而深度学习通过学习深层非线性网络结构,达到复杂函数逼近,又能在样本少的情况下学习原始数据的特征。BP算法作为传统神经网络的典型算法,虽然训练多层网络,但仅含几层网络,训练方法很不理想[3]。因为其输入和输出间非线性映射让网络误差函数形成含多个极小点的非线性空间,因而经常收敛到局部最小,且随着网络层数的增加,容易过拟合。而深度学习可以获得分布式表示,通过逐层学习算法来得到原始输入数据的主要变量。通过深度学习的非监督训练完成,同时利用生成性训练避免因函数表达能力过强而出现过拟合情况。

2.2 深度学习原理

传统机器学习仅含单层非线性变换的浅层网络结构,而且浅层模型单一。这对于深度网络来说易造成陷入最优或产生梯度分散等问题。因此,Hinton等人在基于深度置信网(DBNs)的情况下提出非监督贪婪逐层训练算法,随后提出了多层次自动编码器深层结构,这给解决深层网络结构相关的优化难题带来了希望。此外Lecun等人提出的卷积神经网络是第一个多层次结构的学习算法。同时深度学习还出现了许多结构:多层感知机、去噪自动编码器、稀疏编码等。

卷积神经网络是第一个真正采用多层次网络结构,具有鲁棒性的深度学习算法,通过探究数据在空间上的相关性,减少训练参数的数量。而且卷积神经网络(CNN)适应性强,善于发现数据的局部特征。它的权重共享结构降低了网络模型的复杂度,减少了权值的数量,使得卷积神经网络在模式识别中取得了很好的结果。

自动编码器的核心关键是将原始图像(视频)输入信号进行编码,使用编码后的信号来重建原始信号,使得两者之间的重建误差最小。通过将原始信号编码成另一形式,能够有效地提取信号中的主要信息,能够简洁地表达原始图像(视频)的特征。

3 深度学习的应用

3.1 语音识别

从2009年开始,微软研究院语音识别专家通过与Hinton合作,首先将RBM和DBN引入到语音识别声学模型训练中,使得语音识别的错误率相对减低30%,这彻底改变了语音识别原有的技术框架。在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。国内方面,阿里巴巴,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。

3.2 视频中的动作行为识别

准确迅速识别视频中人的动作行为对于视频搜索和视频监控具有划时代的意义。最近几年,深度学习技术被应用于视频动作行为识别中。如Ji等人[4]提出多层网络的3D卷积神经网络来学习视频中的时空特征,并通过卷积来实现对整个视频特征的学习,从而代替之前的时空兴趣点检测和特征描述提取。在TRECVID数据库上进行的实验取得了不错效果。

4 结束语

文章对深度学习的主要概念进行了全面阐述,包括其由来、原理、研究进展和相应的应用等。在很多领域中,深度学习都表现了潜在的巨大价值,但深度学习作为浅层学习的延伸,仍处于发展阶段,还有很多问题值得我们深入探讨:

(1)我们需要了解深度学习的样本复杂度,需要多少训练样本才能学习到足够的深度模型。

(2)在推进深度学习的学习理论和计算理论的同时,我们是否可以建立一个通用的深度学习网络模型,作为统一的框架来处理语音、图像和语言。

(3)神经网络具有前馈性连接和反馈性连接,可是我们研究的深度网络中还没有加入反馈连接,这些都给深度学习的研究带来了严峻的挑战。

参考文献

[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25(3):225-237.

[2]余凯,贾磊,陈雨强.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804.

篇4

摘要:

针对带钢表面缺陷检测系统的速度滞后,精度偏低等问题,在分析成像理论和图像检测理论的基础上,设计并实现了一种带钢表面缺陷高速高精度在线检测系统.该系统首先采用大功率半导体均匀发光激光器技术、高速线扫描成像技术和基于图形处理器的Gabor纹理滤波技术实现了高速高分辨率的图像采集和处理,然后采用基于嵌套循环的K-折交叉验证、信息增益率和BP神经网络方法构建了高准确率的分类器,以达到对带钢表面缺陷高速高精度在线检测.实验结果表明,该系统满足了现有带钢生产速度的要求,具有较高的精度和准确率.

关键词:

图像采集和处理;图像检测;Gabor纹理滤波;神经网络

0引言

钢铁企业为了提高竞争力,对带钢的生产提出了新的要求,也对带钢表面检测系统提出了更高的要求,既要有更高的检测速度还要有更加准确的检测精度[1].而与此同时,跟随机器视觉技术的发展,带钢表面检测系统也得到了广泛的研究与应用[2].主要研究包括:①光源技术.由于带钢检测对光源要求频度高、体积小,这限制了传统光源在其应用[3],激光具有方向性好、亮度高、体积小等优点,被广泛应用于带钢检测应用中,国内的徐科等[4]提出热轧钢检测中用绿光作为激光光源,但激光照明需解决均匀性问题.②扫描技术.由于电荷耦合元件能够实现实时检测,成为目前研究和应用的主流技术[5].但是,CCD电荷耦合器需在同步时钟的控制下,以行为单位一位一位地输出信息,速度较慢,而互补金属氧化物半导体光电传感器采集光信号的同时就可以取出电信号,还能同时处理各单元的图像信息,速度比CCD电荷耦合器快很多[6].③图像处理算法.受限于带钢加工过程的特性,带钢表面呈现出随机纹理的特点,对于随机纹理图像的处理分析,目前常用的方法有共生矩阵法、频域滤波法、分形法等.作为频域滤波法的代表,二维Gabor滤波器有着与生物视觉系统相近的特点[7],广泛应用于纹理图像的处理分析.但是,CPU很难满足现在的带钢检测的实时要求[8].④分类算法.特征选择的主流算法是主成分分析和信息增益.主成分分析存在特征向量方向不一致的问题,而且如何确定主成分存在主观性[9].信息增益可以衡量特征的优劣,利用它可对特征进行排序,方便后面的特征选择,但信息增益适用于离散特征,信息增益率既适用于离散特征也适用于连续特征[10],被广泛应用于特征选择的过程中.图像分类算法主流算法包括支持向量机和BP神经网络.支持向量机不适用于大样本的分类问题[11].BP神经网络方法具有能够解决非线性分类问题,对噪声不敏感等优点,被广泛应用于带钢检测中,如王成明等[12]提出的基于BP神经网络的带钢表面质量检测方法等,但是BP神经网络的超参的设定往往具有随机性,这严重影响了分类效果[13].本文首先介绍了带钢表面缺陷高速高分辨率成像系统的设计,针对光源的不均匀性、图像处理速度慢等问题,提出改进方法,然后介绍了分类器的构建,针对样本划分的随机性、特征选择的随机性以及BP神经网络超参设定的随机性问题,做出改进,最后介绍试验结果.

1带钢表面缺陷高速高分辨率的成像系统的设计

1)大功率半导体均匀发光激光器技术.激光能够保证带钢表面缺陷的检出率[14],本系统选用808nm半导体激光器作为照明源,出光功率可达30W,亮度可达1500流明.激光照明需解决均匀性的问题,本文采用了基于鲍威尔棱镜的激光线发生办法,解决了激光照明的均匀性问题,其光路如图1所示.该方法首先在激光聚焦位置放置圆形球面透镜,负责将发散的激光束汇聚成准平行光,同时控制光柱的粗细,然后,利用鲍威尔棱镜的扩散效果对圆柱的一个方向进行扩束,最终形成激光线.为保证亮度及宽度的适应性,激光器出光口距离圆透镜、鲍威尔棱镜的距离可以精密调整.为了降低反射亮度损失,在透镜表面镀上808±5nm的T≥99%的增透膜.

2)基于GPU的Gabor纹理滤波技术.二维Ga-bor滤波器具有易于调谐方向、径向频率带宽及中心频率等特征,本文采用该方法来进行图像处理,二维Gabor函数为guv(x,y)=k2σ2exp-N2(x2+y2)2σ[]2×expi(k•()xy[])-exp-σ2{()}2(1)其中:k=kxk()y=kvcosψμkvsinψ()μ;kv=2-v+22π;ψμ=μπN;v的取值决定了Gabor滤波的波长;μ的取值表示Gabor核函数的方向;N为总的方向数.设f(x,y)为图像函数,guv(x,y)为卷积函数,则卷积输出N(u,v)可表示为N(u,v)=f(x,y)*guv(x,y)(2)二维Gabor滤波算法计算量较大,为了保证了带钢表面缺陷检测的实时性,采用基于GPU的并行处理架构,其计算流程如图2所示.GPU的算法分为两个流程:训练过程主要针对无缺陷图像进行,通过训练完成纹理图像的背景建模,一方面消除背景变化带来的干扰,另一方面形成有效的Gabor卷积参数,以便在检测过程中得到最优的检出效果.检测过程对实际拍摄的缺陷图像进行分析,首先按照GPU的核心数和缓存大小对图像进行分解,本文所有GPU的核心数为1024,显存2G,因此将原始图像分解为1000块,分别加载到1000个核心中,同时并发运行卷积运算.最后将各个窗口的卷积结果合并到一起,得到完成的滤波结果,最后借助于背景模式,将背景的干扰消除,得到干净的缺陷区域.

3)成像系统.根据缺陷检测的精度要求(1800m/min的检测速度,0.25mm的精度),带钢的规格要求(1900mm规格),对带钢进行成像系统设计.基于互补金属氧化物半导体(CMOS)的成像芯片具有速度快,用电低等优势.选用两个4K线扫描CMOS相机作为成像核心器件,选用CameraLinkFull接口作为数据输出.两个4K扫描中间重叠100mm作为图像拼接区.两组线激光光源与线扫描组成系统的主要成像模块.成像系统结构如图3所示.

2构建分类器

检测缺陷类别及其特征描述如表1所示.

1)训练集和样本集划分.主要缺陷类别有5个,每个类别收集样本7000,共计35000个样本.为了避免训练集和样本集划分的盲目性,采用10-折交叉验证的方式划分训练集和测试集,即将样本集分成10份,从中选1份为测试集,剩下的为训练集,如图4所示,究竟选择哪一份作为测试集,需在后面的嵌套循环中实现.

2)特征选择.缺陷区域的长度、宽度、面积、区域对比度等共计138个特征形成初始特征集合,利用信息增益率来对各个特征排序.设样本集T的某个特征子集S中,相异值构成集合A,集合A把特征子集S划分为多个子集{S1,S2,Sv,…},|Sv|、|S|为集和大小,信息增益率的公式为Gainration(S,A)=Gain(S,A)Intrinsiclnfo(S,A)(3)式中Gain(S,A)为信息增益,是分裂前的信息减去分裂后的信息,公式为Gain(S,A)=InfoBefore(S)-InfoAfter(S)=Entropy(S)-∑v∈Values(A)|Sv||S|Entropy(Sv)(4)式中Entropy(S)为集合S的熵,公式为Entropy(S)=Entropy(p1,p2,…,pm)=-∑mi=1pilogpi(5)式中pi为第i个类别的概率.式(3)中,Intrinsiclnfo(S,A)为内在信息,公式为Intrinsiclnfo(S,A)=∑v∈Values(A)|Sv||S|log(|Sv||S|)(6)利用信息增益率对特征进行排序,再利用循环(从1到138循环)实现最优的特征个数的确定.

3)BP神经网络隐含层节点数的确定.BP神经网络应用到带钢表面质量检测上具有很多优势,但也存在一些问题,主要体现在隐含层节点数选取的盲目性和初始权值选取的随机性.对于隐含层节点数确定问题,利用隐含层节点数常用计算公式[15](2(m+n)+1,n+槡m+a,log2n,n为输入层节点数,m为输出层节点数,a为的[1,10]常数)求得节点数的可能取值集合n1,求得该集合最大值n1-max和最小值n1-min,从n1-min开始到n1-max,利用循环,节点数逐个增加,确定最优的隐含层节点数[16];

4)BP神经网络初始权值的选取.当隐含层节点数确定后,需要确定输入层和隐含层之间、隐含层和输出层之间的初始权值.首先生成10组随机数数组,利用循环确定最优的随机数数组.

5)判别标准和嵌套循环.上述各循环中,分类效果好与坏的判别标准是分类的总体精度,公式为OA=∑niin(7)式中:nii为样本被预测为类别i,n为样本个数.上述各循环组合在一起就是一个嵌套循环,其N-S盒图如图5所示,最外层是测试集和训练集的10折交叉验证,第1层是确定最优的特征数,第3层是确定最优的隐含层节点数,第4、5层是确定最优的输入层和隐含层、隐含层和输出层的初始权值[17-20].经以上循环,确定D3作为测试集,最优特征数为23个,最优的隐含层节点数是46个,同时也确定了最优的初始权值,对应的3层BP神经网络的网络模型如图6所示.

3实验结果

1)鲍威尔棱镜与柱透镜进行对比在实际工作距离1.5m处,采用0.1m为间隔使用光功率计测试光源功率,如图7所示,横轴为测试点,纵轴为测试点的光功率.实验表明,鲍威尔棱镜均匀性优于柱透镜.

2)Gabor滤波方法与其他方法比较将动态阈值法+Blob分析法(方法A)和灰度共生矩阵纹理背景消除法(方法B)两种方法与Gabor滤波方法进行比较,如图8所示.由于缺陷与背景灰度相近(图(a)),致使方法A缺陷丢失(图(b)),由于缺陷与背景纹理相近(图(d)),致使方法B产生噪声(图(e)),Gabor方法取得了不错的效果(图(e)、(图(f))).

3)GPU与CPU比较以4096×4096的图像为例,选10幅有代表性图像,利用CPU(最新的inteli7-2600处理器,4核8线程,2.6GHz,内存8G)和GPU(nVidiaGTX970,4G缓存显卡)进行Ga-bor运算,计算时间如表2所示,GPU计算效率明显优于CPU,其中CPU的平均耗时为290.4ms,而GPU的平均耗时为31.7ms.

4)检测效果在产线速度为1775m/min,最小检测缺陷的尺寸为0.25mm的检测系统中,对带钢的主要4种类型缺陷进行检测统计,检测结果如表3所示.可计算出整体检出率99.9%,检测准确率99.4%.

4结论

本文提出将基于鲍威尔棱镜的大功率激光器应用到光源的设计中,保证光源光照的均匀性;提出了新的带钢表面缺陷检测系统的成像系统结构设计,保证了快速、高精度的生成图像;提出了基于GPU的二维Gabor滤波图像处理的算法,满足了实时处理的要求;提出了基于嵌套循环的分类器择优算法,避免了样本集选择、特征选择和BP神经网络参数设定的盲目性.借助上述技术,系统实现了较好的效果,满足当前带钢生产的检测需求.

参考文献:

[1]张长富.中国钢铁工业运行情况和发展展望[J].中国钢铁业,2013(4):5-8.

[2]刘彩章.基于机器视觉的带钢表面缺陷成像系统理论与实验研究[D].武汉:武汉科技大学,2012:2-4.

[3]高瑀含,安志勇,李娜娜等.高斯光束整形系统的光学设计[J].光学精密工程,2011,19(7):1464-1471.

[4]徐科,杨朝霖,周鹏.热轧带钢表面缺陷在线检测的方法与工业应用[J].机械工程学报,2009,45(4):111-114.

[5]李霞.基于CCD的钢板测宽仪系统设计[D].秦皇岛:燕山大学,2014:5-10.

[6]石东新,傅新宇,张远.CMOS与CCD性能及高清应用比较[J].通讯技术,2010,43(12):174-179.

[7]高梓瑞.Gabor滤波器在纹理分析中的应用研究[D].武汉:武汉理工大学,2012:6-10.

[8]王成顺.表面缺陷检测GPU并行图像处理技术[D].合肥:合肥工业大学,2012:3-6.

[9]徐永智,华慧川.对主成分分析三点不足的改进[J].科技管理研究,2009(6):128-130.

[10]李佳龙,阎威武,白晓慧,等.基于数据驱动与信息增益率多指标决策模型的生活饮用水水质评估[J].大连理工大学学报,2016,56(1):92-96.

[11]张晓雷.支持向量机若干问题的研究[D].北京:清华大学,2012:1-20.

[12]王成明,颜云辉,李骏,等.基于BP神经网络的冷轧带钢表面质量检测研究[J].机械设计与制造,2007(6):106-108.

[13]高正中,张晓燕,龚群英.基于BP神经网络的超声波流量计的设计[J].现代电子技术,2016,39(16):6-9.

[14]周洋,何平安,蒋千年等.激光束整形光学系统的设计与研究[J].光学与光电技术,2006,4(2):26-28.

[15]飞思科技产品研发中心.神经网络理论与Matlab7实现[M].北京:电子工业出版社,2005.

[16]沈花玉,王兆霞,高成耀等.BP神经网络隐含层单元数的确定[J].天津理工大学学报,2008,24(5):13-15.

[17]文冬林.BP神经网络中一种逃离局部极小点的方法研究[D].贵阳:贵州大学,2008.

[18]甘胜丰.带钢表面缺陷图像检测与分类方法研究[D].北京:中国地质大学,2013:3-20.

[19]吴彬彬.机器视觉方法在带钢表面缺陷检测中的应用研究[D].武汉:武汉科技大学,2015:4-50.

篇5

关键词:BP神经网络;Morlet小波;决策理论;Hilbert变换

中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)32-9050-02

Wireless Signal Simulation Algorithm for Automatic Identification

ZHANG Meng

(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)

Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.

Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform

在军事电子对抗等多方面的重要应用,通信信号调制的自动识别分类问题也相继发展起来。无线电信号调制实识别就是要判断截获信号的调制种类。为此,需要事先对其特征进行选定,并确定它们与相应调制种类相联系的取值范围,然后再对信号进行特征测量,并根据测量结果对信号的调制进行分类判决。

如果把无线电信号的调制识别与分类视为一种模式识别问题,那末,从模式识别理论来看,模式分类是模式识别的一个子系统。因此,在模式识别理论框架下,无线电信号的调制识别是一个总体概念。而调制分类则只是调制识别的一个分支[1]。

1 基于决策理论的模拟调制方式识别方法

此算法主要实现区分AM、FM、DSB、LSB、USB、VSB、AM-FM等七种调制样式,所分析的对象序列s(n)是由接收机中频输出并经过采样得到的,这样s(n)的采样频率和载频都已知,分别记做Fs和Fc。算法分两个步骤:

第一步,根据信号的包络特征将AM、USB、LSB与FM区分开,因为前三种信号的包络不为恒定值,而FM的包络理论上是恒定值(实际中接近恒定)。因而可以从中提取一个特征参数R。参数R反映了零中心归一化包络的功率谱特征,FM的零中心归一化包络接近零,因其参数R应远远小于前三种信号。实际中若R

第二步,根据信号频谱的对称性,将AM与USB与LSB区分开,因为AM的单边频谱关于载频是近似对称的,USB和LSB的单边频谱对于载频来说分别只有上边频和下边频。因而可以从中提取另一个特征参数 。理论上,由于AM的上下边频对称,所以AM的P接近零,而LSB和USB的P分别接近1和-1。实际中若|P|< 0.5,判为AM信号,若P>0.5,判为LSB,P

第三步,零中心非弱信号段瞬时相位非线性分量绝对值的标准偏差:σap 。

σap由下式定义:

(1)

式中,at是判断弱信号段的一个幅度判决门限电平,c是在全部取样数据Ns中属于非弱信号值的个数,?准NL(i)是经零中心化处理后瞬时相位的非线性分量,在载波完全同步时,有:?准NL(i)= φ(i)-φ0

式中:,φ(i)为瞬时相位。用σap来区分是DSB信号还是AM-FM信号。

第四步,零中心非弱信号段瞬时相位非线性分量的标准偏差:σdp。

σdp由下式定义:

(2)

σdp主要用来区别不含直接相位信息的AM、VSB信号类和含直接相位信息的DSB、LSB、USB、AM-FM信号类,其判决门限设为t(σdp) 。

2 决策论方法的改进

前面介绍的基于决策理论的模拟调制方式识别方法存在缺陷针对上述问题,人们又提出了基于神经网络(NN)的识别方法。

2.1 BP网络作为分类器的模拟调制方式识别方法

该算法用基于有监督训练的神经网络模型BP网络作为分类器,用BP模型多层感知网络与反向传播学习算法相结合,通过不断比较网络的实际输出与指定期望输出间的差异来不断的调整权值,直到全局(或局部)输出差异极小值,不难想象该神经网络对模型细节中的诸多问题均有良好效果。

基于NN的模拟信号调制识别框图[2]如图1所示,该NN采用三层结构即,1个输入层,1个输出层,1个中间层。中间层可采用多层。但由于受到计算复杂性的限制,目前采用单层或双层中间层的NN比较多见。本图中间层采用单层25个节点,输入层和输出层的节点数取决于信号特征参数的个数和信号的分类数,因而分别为4和7。

神经网络具有信息分布式存储、大规模自适应并行处理和高度容错特性,适用于模式识别的基础。其学习能力和容错特性对不确定性模式识别具有独到之处[3]。通信信号在传播过程中受到信道噪声的污染,接受到的信号是时变的、非稳定的,而小波变换特别适用于非稳定信号的分析,其作为一种信息提取的工具已得到较广泛的应用。小波变换具有时频局部性和变焦特性,而神经网络具有自学习、自适应、鲁棒性、容错性和推广能力,两者优势的结合可以得到良好的信号模式自动识别特性,从而形成各种处理方法。

2.2 基于小波的特征提取和识别方法

小波特别适用于非稳定信号的分析,作为一种特征提取的工具已得到较为广泛的应用。小波的重要特点是它能够提供一个信号局部化的频域信息。小波变换能够将各种交织在一起的不同频率组成的混合信号分解成不同频率的块信号,它对不同的时间和频率有不同的解释,因此,对调制信号进行小波分解,得到不同水平下的细节信息,这些信息对于不同类别的调制信号来说是有差别的[4]。

在实际应用中,小波变换常用的定义有下列两种:

(3)

(4)

式中,星号*表示共轭。式(3)表示小波变换是输入信号想x(t)和小波函数φα, τ(t)的相关积分;式(4)用卷积代替了相关积分。两种定义在本质上是一致的。本为采用后者。

将式(4)中的τ和t离散化,即令τ=kTs,及t=iTs,得连续小波变换公式(4)的离散形式,又称小波系数:

(5)

Morlet小波是一种单频复正弦调制高斯波,也是最常用的复值小波。其实、频两域都具有很好的局部性,它的时域形式如下:

(6)

虽然信号特征有很多种,神经网络在进行信号识别时,主要是依据谱峰位置的不同,因此提取信号特征主要任务就是寻找信号类别与谱峰位置间的必然联系。而小波变换在这里则相当于一个数学显微镜,通过它,可以详细了解各类信号在不同低频段上的频谱构成。

整个系统在PC机上进行仿真,采用Windows2000操作系统和Matlab6.1和Cool Edit2.0进行声音录制。

在仿真中,采用44K的采样率,录制了一段歌声和一段笑声,用Matlab生成22K的正弦载波,并根据第二章的各调制样式的定义,生成了各个仿真的调制波形。并转化成.wav文件录在电脑中。

3 结束语

本文仅限于理论理论研究,用MatLab仿真实现,没有用DSP芯片等物理电路实现,仅为实际实现提供理论指导。

参考文献:

[1] 罗利春.无线电侦察信号分析与处理[M].北京:国防工业出版社,2003.

[2] 杨小牛,楼才义,徐建良.软件无线电原理与应用[M].北京:电子工业出版社,2001.

篇6

关键词:智能科学与技术;兴趣导向;逆向教学

0引言

智能科学与技术是信息科学与技术的核心、前沿与制高点,也是整个现代科学技术体系的头脑中枢,是现代科学技术创新的引领和示范,是现代社会(包括经济、社会、文化、民生、国防等)走向智能化的主导技术支柱。在越来越激烈尖锐的国际竞争环境中,智能科学与技术水平已经成为一个国家综合国力与科技实力的标志。智能科学与技术的发展和智能科学与技术学科的人才培养,不仅仅是智能科学与技术研究与教育本身的事情,更是关系到整个社会智能化发展优劣的大事情,也是关系到整个国家强弱兴衰的大事情。

科技发展,关键在于人才。在新的发展机遇下,国家对智能科学与技术专门人才的需求更加旺盛。因此,如何促进智能科学与技术教学方式的改革是培养厚基础、高层次的智能科学与技术人才的基本途径。智能科学与技术教学方式的改革,不仅发展智能科学与技术本身,而且对受教育者创新能力的提高也至关重要。

目前,网络的普及与全社会信息化程度的提高,对我国人才培养提出了更高的要求,特别是高校在课堂教学方面,部分原有教材及培养模式亟待调整。以智能科学与技术为代表的前沿新兴学科,在学科发展途径、应用技术转化及从业人员年龄、成长环境等方面,均与很多传统学科存在较大的差异,而使用传统教学方式进行人才培养,也出现了一些水土不服的现象。

1教学理念的改变

相对于传统学科,智能科学与技术从业人员平均年龄显现出年轻化的特点,且由于从业人员及学生普遍年龄较轻,在他们的成长过程中,外在环境相对宽松,自由、平等的理念在他们的成长过程中不断被提及和强化。传统“教师讲、学生听”的演讲式讲授方式虽然能够在一定时间内让学生了解大量信息,但学生接收到的大部分信息只停留在记忆层面,很难上升到理解层面,导致学生只是被动的“填鸭式”接受。

在科技发达、网络互联的今天,人们不是自投罗网就是被网罗其中,知识获取的渠道不再局限于纸质媒介和言传身教,更多来自于电子资源及网络媒介,教师和学生获取知识的途径及资源差异越来越小,在知识量、阅历等方面缩小了师生间的差距,师生之间传统的信息不对称差距逐步缩小,导致教师在知识积淀上没有了绝对优势。

与此同时,逐步深入青年学生内心的自由、平等观念对中国传统的尊师重道思想带来了不小的冲击。在当今开放的网络环境下,针对新兴时代的学生,传统习俗中的师长观念由于知识获取渠道的平等化而缺乏强有力的现实支撑,教师的身份权威性和知识权威性都受到了不同程度的质疑,继续使用“填鸭式”“训导式”教学方式,将会事倍功半。

因此,针对新兴学科,一线教师需要进行教学理念上的修正,特别是教师应顺应培养对象的整体特点,基于自由和平等的观念进行自我定位,以交流讨论式代替居高临下布施式的教学观念,充分与学生打成一片,以便更好地调动学生的思维,引导学生进行主动思考和主动学习。

2教学素材的改进与提高

当今时代是知识爆炸的时代,科学技术日新月异,新知识、新成果层出不穷,特别是智能科学与技术这一前沿学科,正在向理论创新和大规模实际应用发展,新理论、新方法不断被提出并验证,新模型、新实例、新应用不断产出。

“教学素材对教育理念的渗透发挥着重要作用,它已经成为促进或阻碍教学模式转变的活跃而关键的要素。随着新时代知识的快速更新换代和知识面的不断拓宽,教学素材是否优秀的标准不仅仅是包含多少知识,更重要的是包含多少最新的知识;不仅仅是传递解决问题的方法,更重要的是传递超前、新颖的解决问题的方法。

当今学生知识涉猎面广,现有的网络环境也为他们提供了很好的平台,如果他们已经获取的知识及应用的先进程度远远超过课本素材罗列的知识,将会极大地削弱他们对本学科的兴趣,进而影响课堂教学效果。

此外,作为智能科学与技术这一前沿学科的教学素材,必须体现出时代性、开放性、多元性与全面性。因此,教学过程中所采用素材的改进和提高,应该向着不断更新、与时俱进的方向靠拢,教师应该不断将最新理论、最新方法、最新应用融合于一线基础教学过程中,使学生在学习过程中始终紧跟前沿技术的发展,在未来工作中能更快、更好地融入行业中。

3教学方式的转变

目前,学生群体主要为90后,高校即将迎来00后,他们成长过程中的家庭环境和社会环境与早期学生相比更为平等和宽松,他们的学习需求也由目标导向型逐步演化为兴趣导向型。因此,如何激发学生的兴趣,进而以兴趣为基础激发学生自主学习的动力,将是教学效果事半功倍的途径。

青年学生正处于思维高度活跃的阶段,他们往往对新兴成果和前沿热点有着超过常人的关注,如何巧妙而有效地将这种关注转化为针对本学科的兴趣,进而反向推导出基础理论并让学生消化、吸收,就成为一线教师面临的重要问题。

从1997年国际象棋大师卡斯帕罗夫和电脑“深蓝”第一次人机大战开始,智能科学与技术迅速跻身科技前沿热点,且经久不衰。2016年3月,Alpha Go再次燃起人工智能之火,经过媒体的推波助澜,成为社会关注的焦点,大大增强了智能科学与技术的关注度。而青年学生作为最容易追赶潮流的群体,自然对此类热点趋之若鹜。

作为智能科学与技术学科的一线教师,应把握和利用社会舆论的潮流以及学生心理的律动,及时以此热点为突破口,吸引学生的兴趣,引起共鸣,进而进行反向推导相关基础理论并加以详解。

例如,教师以Alpha Go为课堂开篇讨论,引导学生思考,并说明Alpha Go的核心原理是深度学习。在这个实例中,Alpha Go模拟人类下棋的推理与思考过程,其中推理过程通过搜索树来搜索可能的棋局,思考过程通过两个深度神经网络确定可能的搜索方向和评估棋局,这两个神经网络包括:

(1)落子选择器(policy network),这是一种深度卷积神经网络,主要通过当前棋盘布局预测下一步走棋位置的概率。

(2)棋局评估器(value network),与落子选择器具有相似的结构,主要在给定棋子位置的情况下,输出双方棋手获胜的可能性,从而对棋局进行评估。

如此,教师可以带领学生了解搜索树及搜索算法,也可以从深度卷积神经网络到普通神经网络,讲解神经网络的基础知识,分析神经网络到深度学习的发展过程。这样就可以将学生对Alpha Go本身的兴趣,巧妙地引导到对神经网络等基础概念和原理方面,以此强化学生对基础知识的掌握。

同时,开放式的考核方式也是促进学生创新、使教学方法适应新时代的一种有效途径。对于本学科感兴趣的话题,教师应鼓励学生多谈自己的思路和想法;对于开放式课题,应给学生提供展示的舞台,鼓励学生分享自己在查找资料、解决难点、编程过程中的心得体会,充分调动学生的积极性和主动性;将这些考核成绩按比例计入学生课业总成绩中,充分肯定学生的创新能力。

4结语

教学成效是设计和构建教学方式的基本出发点,教师应该结合学生需求从学习成效、教学技巧、教学内容上总体把握教学方式阁,采用不同于传统讲授方式的逆向教学(如图1所示),使其满足和顺应新一代青年学生的心理认同需求和学习需求,将新理论、新应用不断融入基础教学中,达到更好的教学效果。

篇7

关键词:车牌识别系统; 智能交通; 技术

中图分类号: TP391.4文献标识码:A文章编号:1009-3044(2008)18-20ppp-0c

Research on Licence Plate Recognition System

YI Lian-jie

(Loudi Vocational and Technical College Loudi Huanan417000)

Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.

Keywords: the licence plate recognition system; intelligent traffic system; technology

车牌识别系统是智能交通系统的关键部分,可广泛应用于交通管理、监控和电子收费等场合。车牌识别系统就是以车牌作为车辆的唯一标识,采用计算机视觉和模式识别技术对汽车车牌的自动识别。

1 车牌识别系统的组成

典型的车牌识别系统由车辆检测、图像采集、车牌识别等部分组成(图1)。车辆检测就是使用车辆传感器或红外线检测等来判断车辆是否通过某一位置。当车辆驶过探测部位时,CCD摄像机拍摄车辆图像,由图像采集卡采集图像并输入计算机。车牌识别部分由计算机和识别软件组成,从由CCD摄像机采集的图像中自动寻找车牌,然后对找到的车牌进行字符切分和识别,最后获得车牌号码,并将识别结果送至监控中心等场合。

图1车牌识别系统的组成

在整个识别系统中,以车牌识别最为关键。识别过程有两个步骤,首先从图像中找出确切的车牌位置,即车牌定位,然后对找出的车牌进行字符切分和识别。车牌识别过程包含两大关键技术:1.车牌区域定位技术;2.车牌字符切分和识别技术。

2 车牌定位技术

图像输入计算机后,系统要自动找出车牌的准确位置。车牌区域定位是车牌字符切分和识别的基础,是提高系统识别率的关键。车牌定位过程包括三个步骤:图像预处理、车牌搜索和车牌纠偏。

2.1 图像预处理

图像预处理的作用:平滑去噪和车牌特征增强。

平滑去噪就是消除图像上由于光照、车牌污损等产生的噪声干扰。平滑方法主要有平均滤波、中值滤波和指数函数滤波等方法。中值滤波和指数滤波平滑效果好且能较好保持牌照和字符边缘,但在平滑效果和处理速度方面不如平均滤波。

通常的车牌定位算法是依据车牌特征从图像中找出车牌,因此必须使车牌区域显示出与非车牌区域不同的独有的特征,车牌特征增强使图像中车牌区域明显突出。通常有下述增强方法:边缘检测法、二值化法、量化法、数学形态学法。

具有不同灰度的相邻区域之间存在边缘,在车牌区域存在车牌边框边缘和车牌字符边缘。边缘检测法就是要检测出这些边缘。有关边缘检测的算法很多,考虑实时性要求,采用简单的微分算子,如一阶微分算等。这些算子采用小区域模板与图像卷积实现边缘检测。文献[1]提出一种牌照字符边缘特征增强的方法,该方法使用线性滤波器函数将每一行中多个连续的水平方向梯度值相加,使得字符的垂直边缘增强。微分算子对噪声较为敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指数平滑法与Laplacian算子相结合的边缘检测方法,既能消除噪声又能很好的突出车牌字符的边缘。

二值化增强法先确定一个阈值,然后将图像中各个像素的灰度值都与这个阈值比较,根据比较结果将整个图像的像素点分为两类,车牌区域归为一类,便于车牌搜索。为了满足实时性要求,采用简单、快速的二值化法,如平均阈值法,反积分自适应阈值法等。

文献[3]使用神经网络来对彩色图像量化,使得车牌区域的字符为一种特定的颜色,然后进行颜色过滤或线扫描,借此提取车牌。该方法首先必须选取车牌样本图像,并且要把RGB颜色模式转换为HSI模式,以HSI各分量值作为输入对神经网络进行训练,再以训练好的神经网络对图像的各像素点量化分类,该方法抗干扰能力强,量化前可不要求平滑,

数学形态学表示以形态为基础对图像进行分析的数学工具,它的基本思想使用具有一定形态的结构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的。数学形态学有四种基本的运算:膨胀,腐蚀,开启和闭合。出于以下两个意图而使用形态学方法:1.将开启和闭合结合起来,消除二值化后的车牌区域中存在的细小空洞;2.采用水平线段的结构元素膨胀,使二值化后的车牌区域成为一连通区域。

需要说明的是,上述方法往往不是单独使用,如二值化法是对边缘检测后的图像进行,而形态学方法是在二值化图上实现。不能简单的评价图像预处理方法的优劣,因为这与所对应的车牌搜索方法紧密相关。

2.2 车牌搜索

车牌搜索就是根据车牌区域特征在图像中寻找车牌的过程。根据搜索的方式可把车牌搜索方法分为以下几种:投影统计法、线扫描法、模板匹配法和反Hough变换法等。车牌搜索法要与相应的车牌增强法配合使用(见表2)。

表2车牌增强法用于不同搜索法的情况

投影统计法对边缘化或二值化图像进行水平和垂直累加投影,根据投影直方图呈现的连续峰、谷、峰的分布的特征来提取车牌,或对由形态学膨胀运算后的图像水平和垂直投影,在投影图上寻找波峰和波谷而确定车牌位置。文献[24]提出的采用高斯指数函数对投影图平滑,能有效消除投影图的毛刺,使车牌位置为明显的波峰,提高车牌定位的精度。

线扫描搜索法则是对边缘化或二值化后的图像逐行水平扫描,穿过车牌区域的扫描线因为字符边缘的存在,灰度呈现起伏的峰、谷、峰的变化,或频繁交替出现亮基元、暗基元的特征,以提取车牌。文献[3]用神经网络对彩色图像量化之后,再逐行水平扫描,分别获取颜色向量和长度向量,能与标准车牌区域的颜色向量和长度向量匹配的为车牌区域。

模板匹配搜索法是以特定的模板在图像区域滑动,以与模板匹配的局部区域为车牌。使用的模板有线模板、倒”L”角模板、矩形框模板。线模板以水平线段或垂直线段为模板,来检测车牌的边框角点;倒“L”模板以倒“L”结构为模板来寻找车牌边框的左上角;矩形框模板以一个与车牌长宽比例相当的矩形框作为模板,在整个图像区域滑动,以符合某一判别函数值的区域作为车牌区域。

反Hough变换搜索法是基于车牌形状特征的方法,先对图像进行Hough变换,然后在Hough参数空间寻找车牌的四个端点。

上述搜索法可以结合使用,如文献[25]提出的自适应边界搜索法,先用倒”L”模板寻找车牌边框的左上角,然后用水平线扫描和垂直线扫描找出下边框和右边框。投影统计搜索法和线扫描搜索法处理速度快,能对大小不同的车牌识别,但定位精度不高和出现虚假车牌的情况,需要提高定位精度和去除虚假车牌的后续工作。模板匹配搜索法能比较准确的找到车牌位置,但难以满足实时性要求,可以采用神经网络或遗传算法来加快搜索进程。反Hough变换搜索法除了能准确找到车牌位置,还能确定车牌的倾斜角度,对噪声、轮廓线中断不敏感,但在有直线干扰下可能实效,文献[28]提出的快速Hough变换的策略能满足实时性要求。

2.3 车牌纠偏

由于车辆运行轨迹不定、摄像机位置偏斜等原因,使得图像中车牌扭曲,为了后续正确的车牌字符切分和识别,就须对车牌纠偏,使车牌达到规范的位置和大小。采用的纠偏方法通常先是用Hough变换确定水平边框倾斜角度和垂直边框倾斜角度,然后纠偏。文献[22]提出使用Rodan 变换可用来确定倾斜角度。

3 车牌字符识别技术

车牌定位之后就要对车牌字符识别。这一过程包含下列几个步骤(见图2):车牌二值化,字符切分,字符特征提取和字符识别。这里只讨论后三个步骤。

图2 车牌字符识别步骤

3.1 字符切分

字符切分把车牌上的字符分开,得到一个个的字符图像。常用的字符切分方法有投影法、模板匹配法、区域生长法、聚类分析法等。

投影法把车牌图像垂直累加投影,形成峰谷交替的投影直方图,找到投影图的各个谷就能把字符分开。模板匹配法以字符大小的矩形作为模板,根据字符的宽度初步确定每个字符的起始位置,然后以此模板在初定位置附近滑动,找到最佳匹配位置而切分字符。区域生长法对每个需要分割的字符找一个像素作为生长起点的种子,将种子像素周围邻域中与之相同或相近性质的像素合并到种子像素所在的区域,然后将这些新像素当作新的种子继续进行上述过程,直到再没有满足条件的像素可被包含进来。基于聚类分析的方法对车牌图像从上到下逐行扫描,如属于字符类的两像素间距离小于阈值,可认为两像素为同一字符,由此而得字符像素的聚类。

3.2 字符特征提取和车牌字符识别

目前使用的车牌字符特征提取的方法可归纳为下述三种:1.基于字符统计特征。计算字符图像的多阶原点矩,多阶中心矩以及中心惯性矩,以中心矩与中心惯性矩的比值作为字符特征向量,这样提取的特征量具有平移,旋转和尺度不变性,但运算量大;也有把字符在多个方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二阶中心矩的比值作为特征向量。2.基于结构特征。轮廓特征,粗网格特征,层次轮廓特征以及字符特征点.这类特征提取计算量较少,但对噪声和位置变化比较敏感,需要去噪和对字符归一化。3.基于变换。对原始特征(像素点矩阵)进行傅里叶变换、K-L变换或小波变换等,提取的特征向量反映字符的结构特征和统计特征,相似字符的特征矢量距离较大,效果较好。实际应用中往往是多种特征的提取,多种特征提取方法的使用。

对车牌字符特征提取之后,就把相应的特征值输入分类器识别,目前对于车牌字符的分类识别方法归纳为下列几种。(1)模板匹配。该方法首先对待识字符进行二值化并将其缩放为字符数据库中模板大小,然后与所有的字符模板比较匹配,计算相似度,以最大相似度者为识别结果。(2)PCA子空间分类器。子空间分类器由训练样本相关矩阵的特征向量构成,单个模式的子空间建立彼此独立,相互之间没有联系,以待识别字符的特征向量与所对应的子空间距离最小作为结果。(3)基于人工神经网络。人工神经网络有抗噪声、容错、自适应、自学习能力强的特点。多隐含层的BP神经网络,BAM(Bidirectional association memories)神经网络方法,自谐振ART神经网络识别等是此方法的典范。(4)基于逻辑规则推理的识别方法。文献[18]提出基于归纳推理的字符识别,该方法在训练时自动生成识别规则。(5)基于随机场图像模拟的识别方法。该方法识别率高,并且可对灰度图像直接提取字符特征,抗干扰性强。另外使用感知器的识别,通常感知器只用于相似字符对的识别,作为其他识别方法的补充。

4 总结与展望

从已有车牌识别系统的性能分析来看,正确识别率和识别速度两者难以同时兼顾。其中原因包括目前的车牌识别技术还不够成熟,又受到摄像设备、计算机性能的影响。

现代交通飞速发展,LPR系统的应用范围不断扩宽,对车牌识别系统的性能要求将更高。对现有的算法优化或寻找识别精度高、处理速度快、应用于多种场合的算法将是研究的主要任务。

参考文献:

[1] 廖金周,宣国荣.车辆牌照的自动分割[J].微型电脑应用,1999(7):32-34.

[2] 刘智勇.车牌识别中的图像提取及分割[J].中文信息文报,2000(3):29-34.

[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.

[4] 郭捷,施鹏飞.基于颜色和纹理分析的车牌定位方法[J].中国图像图形学报,2002,7(5):473-476.

[5] 章毓晋.图像工程(上)――图像处理与分析[M].清华大学出版社.

篇8

关键词:视觉注意;自顶向下;显著性;对象信息;卷积神经网

中图分类号:TP391.41

文献标志码:A

文章编号:1001-9081(2016)11-3217-05

0 引言

视觉注意机制的研究是探索人眼视觉感知的重要一环。在过去几十年中,如何用计算模型模拟人眼视觉注意过程一直是核心问题。尽管取得了很大的进步,但是快速准确地在自然场景中预测人眼视觉注意区域仍然具有很高的挑战性。显著性是视觉注意的一项重要研究内容,它反映了区域受关注的程度。本文的研究着眼于显著性计算模型,更多模型对比和模型分类可以参考Borji等[1]的文章。视觉注意存在两种机制:自底向上(Bottom-up)和自顶向下(Top-down)。过去的研究中,大多数的计算模型是基于自底向上的信息,即直接从图像像素获取特征。

自底向上显著性计算模型开创性工作源自于文献[2]的Itti模型,该模型是很多其他模型的基础和对照基准,它通过整合多种低层次特征,如颜色、亮度、方向等,给出一个显著度的概率分布图。Harel等[3]在Itti模型的基础上引入图算法,通过计算节点间特征值相似性和空间位置距离进行差异性度量获取显著图。近年来随着深度学习技术在目标识别领域的成功应用[4],研究者们对特征学习产生了更多的兴趣。Borji等[5]通过稀疏编码方法获取特征,使用图像块的稀疏表示结合局部和全局统计特性计算图像块的稀有性(rarity),稀有性反映了当前图像块中心位置的显著性。Vig等[6]通过训练多个神经网络获取层次特征,然后自动优化特征组合。特征提取的过程可以看作是一种隐式空间映射,在映射空间中使用简单的线性模型进行显著或非显著的分类。以上学习方法获得的特征都是一些低层次特征,对图像中的边缘和特定纹理结构敏感。此外,部分研究人员希望从数学统计和信号处理的角度来度量显著性。Bruce等[7]根据最大化信息采样的原则构建显著性模型。Li等[8]总结了多种基于频域的视觉注意研究工作,提出了一种基于超复数傅里叶变换(Hypercomplex Fourier Transform)的视觉注意模型,并展示了其他多种基于频域的模型在某种程度上都是此模型的特例。

以上模型均为数据驱动的显著性模型,模拟人眼视觉注意过程中自底向上的机制。由于人眼视觉注意过程中不可避免地受到知识、任务、经验、情感等因素的影响,因而整合自底向上和自顶向下信息的视觉注意研究受到更多的关注。现有模型整合的自顶向下信息可以分为三类:任务需求、场景上下文和对象特征。

Borji等[9]提出了一种构建任务驱动的视觉注意模型的联合贝叶斯方法。Zhang等[10]提出了一种使用贝叶斯框架整合自底向上和自顶向下显著性信息的方法。Siagian等[11]利用多种低层次特征对场景主旨进行建模,使用场景主旨引导视觉注意的转移。考虑到任务需求和场景上下文建模的复杂性,研究人员将对象特征视为一种高层次的知识表示形式引入视觉注意模型中。Judd等[12]和Zhao等[13]通过将低层次特征和对象特征整合在一个学习框架下来获得特征整合过程中每张特征图的叠加权重,但是模型使用的对象特征只有人脸、行人、车辆等有限的几种。Borji等[14]遵循了同样的方法,但是在整合过程中添加了更多特征并且结合了其他显著性模型的结果,最后用回归、支撑向量机(Support Vector Machine, SVM)、 AdaBoost等多种机器学习算法结合眼动跟踪数据进行训练。实验结果表明对象特征引入较大地提高了模型性能。Xu等[15]将特征划分为像素级、对象级和语义级三个层次,并重点探索对象信息和语义属性对视觉注意的作用;然而,模型中的对象级和语义级特征是手工标定的,因而不是一种完全意义上的计算模型。

总的来看,虽然部分模型已经使用对象特征作为自顶向下的引导信息,但是在对象特征的获取和整合上仍有很大的局限性。首先,对不包含特定对象的场景适应性较差;其次,对象特征描述困难,通常是通过特定目标检测方法获取对象特征,计算效率低下;此外,对象特征的简单整合方式不符合人眼的视觉感知机制。本文提出了一种结合深度学习获取对象特征的视觉注意计算模型,重点研究了对象级特征的获取和整合方法。算法结构如1所示,其中像素级突出图获取采用现有视觉注意模型的方法,对象级突出图获取采用本文提出的基于卷积神经网(Convolutional Neural Network, CNN)的特征学习和基于线性回归的特征整合方法。实验结果表明,对象级特征的引入可以明显提高显著性预测精度,预测结果更符合人类视觉注意效果。

1 对象信息获取

1.1 对象特征

大量实验证据表明对象特征引导视觉注意的转移。视觉注意中引入对象特征是为了获得图像中对象位置等信息,目的与计算机视觉中的目标检测类似。因而,已有的视觉注意计算模型的对象特征通常是通过特定目标检测方法获得。其中,Viola&Jones人脸检测和Felzenszwalb车辆行人检测是最常用的方法。文献[12-14]均使用此类方法引入对象特征。由于这一类特征针对特定对象样本进行设计和训练,因而推广能力不强。

li=fixations(obji)area(obji)(3)

其中: fixations()表示落入当前对象区域的正样本的数目;area()表示对象区域面积。li衡量当前对象单位面积受关注的程度,对象单位面积受关注程度越高,其在对象整合过程中的权重应越高,因而li与叠加权重成正比。

式(4)通过一个线性回归模型对已有样本数据进行训练,获得对象整合叠加权重W:

L=WF(4)

其中:F={F1,F2,…,FN}为训练样本数据集合;L={l1,l2,…,lN}为训练样本标签集合。

测试时根据式(5)~(6)获得对象级突出图:

3 显著图生成

视觉注意是自底向上和自顶向下两种机制作用的结果。完全使用自顶向下的对象特征进行显著区域预测有一定缺陷,主要表现在以下几个方面:首先,知识是对训练样本数据的抽象表示,由于神经网络的规模和训练样本中对象种类的限制,场景中部分对象对应的特征没有被抽象在网络结构中;其次,部分不具有明确语义的区域被错误地认为是对象,对视觉注意形成错误的引导;另外,人眼视觉注意转移的生理学机制并不清楚,兴趣区可能落在不具有对象特征区域中。因此,使用像素级特征给出低层次显著性信息是必要的。

视觉注意模型中常用的像素级特征有颜色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多种像素级特征获取像素级突出图Spixel。式(7)给出了整合的方法:

其中:S(i, j)为最终给出的视觉注意显著图;N()为归一化操作;λ控制对象级突出图与像素级突出图的相对权重,通过实验分析可知λ=0.4时效果较好。当图像中不存在显著物体或无法获得高置信度的对象信息时,图像任意位置Sobj(i, j)=0,此时完全由像素级特征驱动的视觉注意引导。

4 实验结果及分析

本次实验是以Visual Studio 2012为实验平台,选取OSIE和MIT数据集作为实验数据。OSIE数据集包含700张含有一个或多个明显语义对象的图片以及15名受试者的眼动跟踪数据,此外该数据集还提供了语义对象统计及人工标注的精确对象区域。MIT数据集包含1003张自然场景图片以及15名受试者的眼动跟踪数据。这两个数据集是当前视觉注意研究领域中较大的数据集。为了验证本文方法的准确率,将本文算法与GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等视觉注意方法进行对比。

对比实验中使用的评价指标为ROC(Receiver Operating Characteristic)曲线,实现方法与文献[12,15]相同。图6~8为实验对比结果,显著区域百分比是通过对归一化显著图作阈值处理获得,真正率(True Positive Rate)反映当前落入显著区域的样本占所有样本的比例。通过变化显著区域百分比获得ROC曲线。为了更直观比较算法效果,实验结果图中标注了每种算法的AUC(Area Under Curve)值,AUC值通过计算ROC曲线下的面积获得。AUC值越大表示该方法给出的显著性预测结果越准确。

图6为利用对象级突出图作为显著图在OSIE数据集上的实验结果。相对于RCNN算法, fasterRCNN算法使用了更深层次的网络结构和更多对象类别的训练样本,具有较高的对象位置预测准确率和对象检出率。实验分析可以看出,使用fasterRCNN算法生成对象级突出图可以更好进行显著性预测。同时,人脸特征(FACE)的引入进一步提升了预测准确性,从一个侧面说明了对象性信息对视觉注意的转移具有引导作用。

图7是多种视觉注意算法在OSIE数据集上的ROC曲线,可以看出本文方法实验效果明显好于其他算法。仅次于本文算法的是GBVS和Judd,Itti的准确率较差。图中对象级特征曲线为使用fasterRCNN结合人脸特征生成对象级突出图获得,由于该方法完全使用自顶向下的对象特征,显著性预测准确率明显弱于其他方法,因而证明了引入像素级特征必要性。图8为MIT数据集上的实验结果,本文方法和Judd算法为最好的两种方法,实验结果相差不大。AIM和LG方法效果较差。本文方法和Judd方法均使用了对象特征,可以看出整合了对象特征的方法相对于完全自底向上模型有明显优势。

图9中给出了多种算法显著图的直观对比。与其他方法强调对象边缘不同,本文结合了对象信息的方法可以有效突出图像中的完整对象区域。

5 结语

本文提出一种结合对象信息的视觉注意方法。与传统的视觉注意整合对象方法相比,该方法利用卷积神经网学到的对象特征,获取图像中对象位置等信息;然后通过一个线性回归模型将同一幅图像的多个对象加权整合,获得对象级突出图;最后,根据视觉注意的层次整合机制,将低层次特征和对象特征进行融合形成最终的显著图。本文方法在不同数据集上的准确率要高于现有模型。针对包含明显对象的图像,本文方法克服了部分现有模型由于边缘强化效果导致的显著区域预测不准的问题。本文方法仍然存在一定局限性,未来的工作将尝试非线性对象整合以及增大训练样本数量和网络规模以获取更多种对象特征。

参考文献:

篇9

2.输流管道参数共振的试验研究梁峰,金基铎,杨晓东,闻邦椿,LiangFeng,JinJiduo,YangXiaodong,WenBangchun

3.非接触式超声马达的声流及声压分析邹楠,魏守水,姜春香,ZouNan,WeiShoushui,JiangChunxiang

4.基于核函数Fisher鉴别分析的特征提取方法胡金海,谢寿生,骆广琦,李应红,杨帆,HuJinhai,XieShousheng,LuoGuangqi,LiYinghong,YangFan

5.光纤机敏结构振动形态感知及其SMA致动控制朱晓锦,陆美玉,赵晓瑜,张合生,ZhuXiaojin,LuMeiyu,ZhaoXiaoyu,ZhangHesheng

6.虚拟式零件尺寸检测仪的研制郭明青,秦树人,王见,GuoMingqing,QinShuren,WangJian

7.一种基于支持向量机的齿轮箱故障诊断方法会,WuDehui

8.超声电机多定子同步驱动技术的研究李亭,张铁民,刘潇建,LiTing,ZhangTiemin,LiuXiaojian

9.阻尼材料动态力学参数自动测试系统的设计胡卫强,王敏庆,刘志宏,马少璞,周赤奇,HuWeiqiang,WangMinqing,LiuZhihong,MaShaopu,ZhouChiqi

10.减振装置过油孔对阻尼阀水击的影响研究陈轶杰,顾亮,黄华,张中生,王亚军,ChenYijie,GuLiang,HuangHua,ZhangZhongsheng,WangYajun

11.点蚀与剥落对齿轮扭转啮合刚度影响的分析安春雷,韩振南,AnChunlei,HanZhennan

12.基于EKF训练的RBF神经网络及其故障诊断应用王璐,潘紫微,叶金杰,WangLu,PanZiwei,YeJinjie

13.液压脉振注射机塑化过程螺杆动态特性分析王权,瞿金平,WangQuan,QuJinping

14.最佳小波包基改进软阈值的消噪方法及应用侯新国,刘开培,魏建华,HouXinguo,LiuKaipei,WeiJianhua

15.新型多轴旋转超声电机原理金家楣,张建辉,赵淳生,JinJiamei,ZhangJianhui,ZhaoChunsheng

16.百万等级汽轮发电机基础动力特性优化研究代泽兵,刘宝泉,吉晔,王树岭,朱祝兵,DaiZebing,LiuBaoquan,JiYe,WangShuling,ZhuZhubing

17.CSP轧机扭振与垂振耦合研究闫晓强,史灿,曹曦,刘丽娜,YanXiaoqiang,ShiCan,CaoXi,LiuLina

18.抖晃对振动脉冲频响特性估计的影响黄迪山,HuangDishan

19.刚架拱桥病害与损伤识别的动力学研究李枝军,李爱群,缪长青,LiZhijun,LiAiqun,MiaoChangqing

20.大型船闸人字闸门工作模态试验分析蒋建国,李勤,JiangJianguo,LiQin

21.CSP轧机振动的振源研究王永涛,臧勇,吴迪平,范小彬,WangYongtao,ZangYong,WuDiping,FanXiaobin

22.基于遗传编程的发动机滑油系统故障诊断侯胜利,王威,胡金海,周根娜,HouShengli,WangWei,HuJinhai,ZhouGenna

23.低功耗顶板离层仪研究阎学文,吴波,廉自生

1.航空发动机转子振动信号的分离测试技术马建仓,石庆斌,程存虎,赵述元,MaJiancang,ShiQingbin,ChengCunhu,ZhaoShuyuan

2.刀具磨损监测及破损模式的识别康晶,冯长建,胡红英,KangJing,FengChangjian,HuHongying

3.用最大重叠离散小波包变换的Hilbert谱时频分析杨宇,何怡刚,程军圣,于德介,YangYu,HeYigang,ChenJunsheng,YuDejie

4.柴油发动机曲轴轴承振动信号的双谱分析赵慧敏,夏超英,肖云魁,李会梁,夏天,ZhaoHuimin,XiaChaoying,XiaoYunkui,LiHuiliang,XiaTian

5.动态·信息

6.基于能量的振动信号经验模态分解终止条件胡劲松,杨世锡,HuJingsong,YangShixi

7.金属橡胶材料阻尼性能的影响参数李宇燕,黄协清,LiYuyan,HuangXieqing

8.应用变精度粗糙集获取柴油机故障有效监测点刘军,LiuJun

9.反馈回路系统诊断策略优化技术研究杨鹏,邱静,刘冠军,YangPeng,QiuJing,LiuGuanjun

10.独立分量分析在机械振动信号分离中的应用刘婷婷,任兴民,LiuTingting,RenXingmin

11.基于KPCA-SVM的柴油机状态识别方法的研究振动、测试与诊断 李宏坤,马孝江,LiHongkun,MaXiaojiang

12.运用希尔伯特黄变换的桥梁颤振导数识别宋斌华,黄方林,王学敏,SongBinhua,HuangFanglin,WangXuemin

13.小波包时频分析及其特性钟佑明,ZhongYouming

14.基于EI及MAC混合算法的斜拉桥传感器优化布置袁爱民,戴航,孙大松,YuanAimin,DaiHang,SunDasong

15.利用倒阶次谱和经验模态分解的轴承故障诊断康海英,祁彦洁,王虹,栾军英,郑海起,KangHaiying,QiYanjie,WangHong,LuanJunying,ZhengHaiqi

16.钢混简支梁加载损伤后耗能特征试验研究王卓,闫维明,秦栋涛,刘昌鹏,WangZhuo,YanWeiming,QinDongtao,LiuChangpeng

17.三级同心液压溢流阀噪声特性的CFD分析陈青,许惠,权龙,ChenQing,XuHui,QuanLong

18.基于故障原因-征兆矩阵的故障诊断专家系统姚剑飞,江志农,赵庆亮,张雪,YaoJianfei,JiangZhinong,ZhaoQingliang,ZhangXue

19.往复式压缩机气缸压力模拟曲线提取赵俊龙,,郭正刚,李宏坤,王奉涛,ZhaoJunlong,ZhangZhixin,GuoZhenggang,LiHongkun,WangFengtao

20.基于类间可分性度量和SVM的多故障分类算法李敏,杨洁明,张晓平,LiMin,YangJieming,ZhangXiaoping

21.磁通量法在预应力悬挂结构拉索施工中的应用宋杰,陈鲁,张其林,陈国栋,SongJie,ChenLu,ZhangQilin,ChenGuodong

22.框架在脉冲位移作用下的回传波射矩阵法解范志华,孙国钧,缪馥星,FanZhihua,SunGuojun,MiuFuxing

23.改进的主成分分析方法在磁浮系统中的应用邹东升,佘龙华,ZouDongsheng,YuLonghua

24.高速列车垂向振动的模拟器再现方法研究王小亮,李立,张卫华,WangXiaoliang,LiLi,ZhangWeihua

25.装甲车辆动力传动系统载荷谱测试方法研究潘宏侠,黄晋英,郭彦青,孙黎明,PanHongxia,HuangJinying,GuoYanqing,SunLiming

26.挠性接头刚度测量中传感器的研究王广林,王慧峰,詹捷,陶崇德,孙国光,卢泽生,WangGuanglin,WangHuifeng,ZhanJie,TaoChongde,SunGuoguang,LuZesheng

1.橡胶V带式无级变速器性能的测试与试验研究上官文斌,王江涛,王小莉,ShangguanWenbin,WangJiangtao,WangXiaoli

2.一种新型孔式模态转换型超声电机杨淋,金家楣,赵淳生,YangLin,JinJiamei,ZhaoChunsheng

3.基于瞬态声与阶次倒谱的齿轮箱故障诊断田昊,唐力伟,陈红,杨通强,张磊,TianHao,TangLiwei,ChenHong,YangTongqiang,ZhangLei

4.轴心轨迹自动识别及其在旋机诊断中的应用许飞云,钟秉林,黄仁,XuFeiyun,ZhongBinglin,HuangRen

5.多传感器主元方向和神经网络的状态识别方法张金萍,李允公,刘杰,ZhangJinping,LiYungong,LiuJie

6.多分支扭转振动建模方法与分析软件的研究袁清珂,曹广忠,YuanQingke,CaoGuangzhong

7.基于EMD和球结构SVM的滚动轴承故障诊断杨洁明,田英,YangJieming,TianYing

8.新型气浮联合轴承转子系统启动过程振动特性张占一,应怀樵,刘杰,杨金福,李磊,ZhangZhanyi,YingHuaiqiao,LiuJie,YangJinfu,LiLei

9.基于粒子群优化的核主元分析特征的提取技术魏秀业,潘宏侠,王福杰,WeiXiuye,PanHongxia,WangFujie

10.齿轮箱起动过程故障诊断李辉,郑海起,杨绍普,LiHui,ZhengHaiqi,YangShaopu

11.采用像素编码技术的感应电机定子故障诊断侯新国,刘开培,夏立,胡煊,HouXinguo,LiuKaipei,XiaLi,HuXuanHtTp://

12.高架路交通诱发的地面振动测试与分析常乐,闫维明,任珉,周福霖,ChangLe,YanWeiming,RenMin,ZhouFulin

13.基于相关函数的多振动信号数据融合方法李学军,李萍,褚福磊,LiXuejun,LiPing,ChuFulei

14.轴承-转子系统在弱控制作用下的动力学行为孙保苍,钟晓波,陈威,骆英,冯耀岭,SunBaocang,ZhongXiaobo,ChenWei,LuoYing,FengYaoling

15.振动、测试与诊断 海边山坡场地爆破地震波的衰减测试与分析吴小波,WuXiaobo

16.双图同轴光纤束位移传感器研究杨亮,张小栋,YangLiang,ZhangXiaodong

17.利用小波去噪和HHT的模态参数识别汤宝平,何启源,蒋恒恒,陆冬,TangBaoping,HeQiyuan,JiangHengheng,LuDong

18.应用小波包和包络分析的滚动轴承故障诊断唐贵基,蔡伟,TangGuiji,CaiWei

19.小波变换的流体压力信号自适应滤波方法研究谷立臣,闫小乐,刘泽华,GuLichen,YanXiaole,LiuZehua

20.CSP轧机扭振中"伪拍振"的研究王永涛,臧勇,吴迪平,秦勤,范小彬,WangYongtao,ZangYong,WuDiping,QinQin,FanXiaobin

21.动态·信息

22.直升机旋翼不平衡故障诊断试验研究高亚东,张曾锠,GaoYadong,ZhangZengchang

23.梁桥上移动荷载识别中的测点优化陈锋,李忠献,ChenFeng,LiZhongXian

24.基于遗传小波神经网络的双余度电机故障诊断李世超,石秀华,崔海英,许晖,LiShichao,ShiXiuhua,CuiHaiying,XuHui

25.某型工业叉车护顶架的振动诊断杨义,李志远,马庆丰,YangYi,LiZhiyuan,MaQingfeng

26.银基合金摩擦振动与噪声特性的分析与控制陈传海,杨世锡,郑传荣,ChenChuanhai,YangShixi,ZhengChuanrong

27.椭圆振动修整超声磨削ZrO2温度试验研究陈东海,刘春孝,ChenDonghai,LiuChunxiao

1.超声电机接触界面的两种简化有限元模型周盛强,赵淳生

2.基于特征参数的旋转机械智能故障诊断方法张征凯,薛松,张优云

3.《振动、测试与诊断》编委会会议纪要

4.燃料电池车氢气辅助系统结构动态特性分析申秀敏,左曙光,蔡建江,张静芬,李林,张世炜

5.铁路货车侧墙制造过程建模与变形规律预测卢碧红,李亚娜,聂春戈,兆文忠

6.改进支持向量机模型的旋转机械故障诊断方法曹冲锋,杨世锡,周晓峰,杨将新

7.基于小波神经网络的木质材料缺陷模式识别孙建平,王逢瑚,曹军,胡英成

8.旋转机械故障诊断中的振动信号自适应分形压缩算法唐贵基,张杏娟,杜必强

9.距离函数分类法在制粉系统故障诊断中的应用陈蔚,贾民平

10.基于模态综合技术的结构有限元模型修正刘洋,段忠东,周道成

11.循环平稳度在发电机组故障趋势分析中的应用左云波,王西彬,徐小力

12.900t级架桥机多软件协同仿真平台试验研究凌正阳,曹恒,王瑜,张振雄,商伟军

13.岸桥前大梁铰支座支承对其横向振动的影响邱惠清,卢凯良,李雪,归正,曾怡

14.车辆发动机悬置处的动态刚度仿真研究兰凤崇,谢然,陈吉清

15.拉索平面内自由振动影响因素分析姜健,李国强,郝坤超

16.基于小波和自组织网络的电缆故障识别汪梅,曲立娜

17.非库仑摩擦转子试验台碰摩分叉行为振动、测试与诊断 王正浩,王景愚

18.小波包与改进BP神经网络相结合的齿轮箱故障识别时建峰,程珩,许征程,史少辉,时伟,钮效鹍

19.基于奇异值分解的频响函数降噪方法孙鑫晖,张令弥,王彤

20.球磨机料位电声检测系统的研制杨数强,余成波,全晓莉,崔焱喆

21.上卧式闸门水弹性振动试验研究顾云,严根华,赵建平

22.抖晃初相在振动频响估计误差中的作用黄迪山

23.大型铝电解槽针振信号深层特征提取方法研究周孑民,单峰,唐骞,李贺松,蒋科进,郭洁

24.非稳态信号计算阶次分析中的重采样率研究汪伟,杨通强,王红,王平,邓士杰

25.基于无传感器检测方法的机械系统扭振试验研究时献江,郭华,邵俊鹏

26.运用小波变换检测汽车后桥总成故障余德平,王宝强,史延枫,任德均,姚进

27.基于AR模型和神经网络的柴油机故障诊断黄泉水,江国和,肖建昆

1.运用改进残余力向量法的结构损伤识别研究何伟,陈淮,王博,李静斌,HeWei,ChenHuai,WangBo,LiJingbin

2.交通荷载作用下桥梁结构参数识别方法吴子燕,易文迪,赵宇,WuZiyan,YiWendi,ZhaoYu

3.行波超声电机定、转子接触状态试验分析姚志远,吴辛,赵淳生,YaoZhiyuan,WuXin,ZhaoChunsheng

4.伺服阀滑阀叠合量测量方法潘旭东,王广林,邵东向,韩俊伟,PanXudong,WangGuanglin,ShaoDongxiang,HanJunwei

5.基于CAN总线远程振动监测系统研究何青,李红,何子睿,HeQing,LiHong,HeZirui

6.纵向脉冲作用下压电层合杆的动力分析彭亮,罗松南,邓庆田,PengLiang,LuoSongnan,DengQingtian

7.超临界600MW机组检修后振动分析及处理刘石,刘兴久,冯永新,刘永生,朱军,肖小清,王栋,LiuShi,LiuXinjiu,FengYongxin,LiuYongsheng,ZhuJun,XiaoXiaoqing,WangDong

8.虚拟式流体参量集成测试系统及其实现季忠,陈青,秦树人,温海松,JiZhong,ChenQing,QinShuren,WenHaisong

9.弹性支承双跨碰摩故障转子系统非线性特性李东,袁惠群,吴立明,LiDong,YuanHuiqun,WuLiming

10.盲解卷积的机械振动信号分离技术刘婷婷,任兴民,杨永锋,郭峰,LiuTingting,RenXingmin,YangYongfeng,GuoFeng

11.基于压电元件的悬臂梁半主动振动控制研究赵永春,季宏丽,裘进浩,朱孔军,ZhaoYongchun,JiHongli,QiuJinhao,ZhuKongjun

12.凸轮轴加工的误差在线测量方法研究周传德,贺泽龙,吴宏刚,张彩芳,ZhouChuande,HeZelong,WuHonggang,ZhangCaifang

13.振动、测试与诊断 一种仿真数字人步态规划优化算法曹恒,凌正阳,王瑜,龙勇波,朱钧,CaoHeng,LingZhengyang,WangYu,longYongbo,ZhuJun

篇10

技术快速进步确保安全

人脸识别是基于人的脸部特征信息,应用人工智能模式识别和计算机视觉技术鉴别个体身份的一种生物识别技术。从人工智能的角度来看,人脸识别其实是机器视觉的一个分支。旷视科技智能商业产品线资深总监宋晨表示,人脸识别实际上就是给机器赋能,让它具备一双眼睛的能力,让它像人一样去想、去看,从而“学会”各种检测、判断、识别和测量。

人们看好人脸识别,因为作为生物可识别技术,人脸识别有其独特的优势。一方面,人脸识别具有非接触性和非侵扰性,不接触人体就可以直接通过摄像头在一定距离内进行识别,从而实现更大范围、更多方位的信息采集,不需要被采集者配合,更易被大众接受。另一方面,人脸识别的硬件门槛更低,指纹识别需要特定采集芯片,但人脸识别只需要摄像头,智能手机上的相机和城市视频监控体系中的高清摄像头已足够满足需要。

但人脸识别应用的快速推进,仍来自于技术的快速提升。“我们最早在深圳的超级计算机上做人脸识别,要花28天进行迭代,但现在同样的工作在6块GPU芯片上只需要6个小时,这就是硬件提升带来的瓶颈突破。”商汤科技CEO徐立告诉记者。宋晨则对此解释说,人脸识别所需要的图像处理和深度学习能力,是基于GPU的训练来产生的,它代表着高速和价廉的计算能力。

而在硬件之外,卷积神经网络则在算法上大幅提升了人脸识别的精度。2014年前,在人脸检测评测平台FDDB上,学术界获得的最好检测精度是84%,但在2015年以后,通过使用卷积神经网络算法,众多人脸检测应用的准确率提升到90%以上,现在最高正确率已经超过99%。北京大学信息科学技术学院智能科学系教授徐超表示,考虑到人眼识别的正确率仅有97%多,人脸识别技术已经超过了人的识别能力,在识别效率上更是远超人类。

但对于人脸识别技术来说,“认得准”只是第一步,还需要足够安全,能够抵抗各种攻击,比如伪造面具、使用照片或者3D软件“换脸”等方式。蚂蚁金服生物识别负责人陈继东告诉记者,活体检测是其中最核心的技术,“我们通过一系列软件算法来判断摄像头前的是不是‘活人’,一是基于动作交互的识别模型,所以用户会被要求做出眨眼、摇头、张嘴等动作,通过检测过程中动作的连续性,以此让照片难以通过。但对于会模拟动作的视频,或者预先制作好的动作视频,我们还需要图像的分析,比如说区分正常的图像和通过软件模拟、视频剪辑的图像之间有多大的差异”。旷视科技公司则表示,合成脸在图形特征上会与真人有很大的差异,并不容易通过框体检测和对翻拍的图形特征分析检测。

判断“你是你”和“你是谁”

“临川区荣耀网吧43号机器,一位17岁男性未成年人正在上网!”江西省抚州市文化综合执法支队的工作人员手机上接到这样一条弹窗报警信息。“这正是应用了人脸识别技术,用户在网吧上网时要拍照,这张照片会与上网者的身份证照片比对,一旦发现是未成年人,我们的技术监管平台就会报警。”抚州市文化综合执法支队支队长胡光斌表示。

在沈阳地铁,人脸识别系统同样成为话题。在短短11天内,这套系统连续抓获了3名网上逃犯。这是沈阳警方首次应用智能人脸识别系统追逃,在包括沈阳站等3个地铁站,有人从高清摄像头前经过,就会被连续拍摄20到30张角度不同的照片并与警方数据库比对,一旦相似度评分超过83分,系统就会自动报警,并对目标拍摄一条10秒钟的即时视频。

在中科院自动化研究所雷震博士看来,这两个应用场景正对应了人脸识别应用的两个方向:用来确定“你是你”的1:1确认和用来判断“你是谁”的1:N辨认。“1比1确认是将人脸图像与图片库中的图像进行比对,是目前比较成功的应用,精准度已经很高;1比N人脸搜索,先要在视频中确认人脸的位置,然后抽取一适合进行人脸识别的图片,最后则将这张图片与N张照片比对,看是否有相符的一张,技术上讲要难得多。”雷震说。

“在身份确认上,以前是人来做,现在交给机器,流程没有变,只是效率大大提升,因此在各个传统行业中渗透得最为迅速。”徐立表示。

的确,如果说“1比N人脸搜索”目前基本还集中于安防领域“试水”,那么在“1:1确认”方向,人脸识别应用则成熟得多。拿金融领域来说,陈继东介绍,目前支付宝在高风险支付、修改密码、实名认证等48个场景使用刷脸验证,在支付宝的4.5亿实名用户中,有三分之一“刷过脸”。今年2月,蚂蚁金服的“刷脸支付”还被知名科技杂志《麻省理工科技评论》评为全球十大突破性技术之一。

“做到从实名到实人,人脸识别起了非常重要的作用。在金融领域的人脸识别技术应用,除了准确度和安全级别之外,还需要极高的稳定性、可靠性和极低的实时响应。”陈继东说。而在金融领域之外,证明“你是你”还在智能门禁、智能考勤、刷脸安检、个税申报、养老金领取资格认证等场景被广泛使用。

防攻击能力需不断提升

如果说在确认“你是你”和搜索“你是谁”两个方向上,人脸识别技术还都是“把人能做的事做得更好”,那么人脸识别技术还能完成“人无法完成的事情”。

今年年初,厦门的一些珠宝店在货架上装上了人脸识别系统,能够分析每个用户在柜台前停留的时间。“VIP客户一到店,人脸识别系统就能将消息推送到店员手机上,同时还能显示出这些客户以往的购买记录。如果记录到一个客户上次在哪个货架停留的时间久,下次这一信息也会推送给店员。”厦门瑞为信息技术有限公司负责人詹东晖说。人脸识别技术与线下商业的“亲密接触”,被视为是“互联网+线下零售”的一个全新方向。