计算机视觉研究领域范文

时间:2024-01-12 17:49:30

导语:如何才能写好一篇计算机视觉研究领域,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

计算机视觉研究领域

篇1

Abstract: This paper puts forward the camera calibration method in computer vision, through analysis of principle of computer vision, and analyzes the application of camera calibration methods in computer vision.

关键词: 计算机;视觉;摄像机;定标

Key words: computer;visual;camera;scaling

中图分类号:TP391.4 文献标识码:A 文章编号:1006-4311(2013)24-0193-02

0 引言

在计算机技术快速发展的今天,人们越来越依赖于计算机,计算机在人们的生活工作中占有重要的地位。计算机中的各种应用层出不穷,广泛应用在各个领域,计算机视觉在摄像中的应用为摄像机定标方法提供了巨大的参考价值。由于人们对摄像机拍摄效果的要求,使得摄像机在不断改革更新,摄像机的定标方法是摄像机研究领域备受关注的话题。计算机视觉中摄像机的定标方法是摄像机研究领域所推崇的,它受到了研究人员的高度重视。计算机视觉中摄像机的定标方法呈现出了高质量的摄像效果,极大地满足了人们对摄像机摄像效果的要求。

1 计算机视觉投影原理

计算机视觉投影原理是利用光的折射现象,把视觉中呈现的影像投射到摄影机的屏幕上,形成了固定的图像。在计算机视觉中摄影机的成像原理就是利用光的感应,通过对摄像机的焦距进行调整,确定拍摄目标在摄像机镜头中的位置,然后利用光的折射形成固定的图像。在进行摄像时调整焦距是非常关键的,焦距就是镜头与目标之间的距离,这两者距离的远近决定了摄像的效果。如果焦距太远的话,目标成像就会非常小甚至是模糊。如果焦距太近的话,目标成像会很大也会导致无法看清图像,所以调整焦距是非常必要的,只有调好了焦距才会形成高质量的图像。

2 计算机视觉中的摄像机定标方法

2.1 三维立体定标法 摄像机的成像往往都是三维立体的,把图形通过每个立体面详细的表现出来,以达到完美的效果。要想达到三维立体的效果在对摄像目标的位置进行确定时,就要找出目标的三维坐标点,以便接下来的摄像工作可以顺利进行。然后在图像投影中找到对应的三维坐标,这一步决定了整个摄像过程的设计方案。最后确定目标在摄影镜头中的实际三维坐标,根据镜头中目标的实际三维坐标形成具体的图像。三维立体定标方法的操作原理就是把目标的三维投影进行分步成像,和实际成像效果相联系,形成镜头中具体的三维图像。在计算机视觉中把三维成像图进行处理,对三维定标的参数进行分析,找出最优的三维成像方法,使摄像机呈现出高质量的摄像效果。

2.2 平面定标法 平面定标法就是利用多个成像平面对目标的位置进行分析,选择合适的成像平面对目标进行位置的确定。每个平面的成像都是不同的,由于每个平面的成像都是在运动的,所以应该在摄像机与目标之间的平面内找到一个点,来分析目标与摄像机之间的成像规律,然后根据这一规律对目标进行定标,使摄像机中运动的目标给人们带来不一样的感受。随着目标的不断运动,摄像机与目标之间平面内的点会越来越多,对物体的定标会受到这些点的影响,物体定标的准确度也越来越高,为摄像机定标提供了可靠的信息支持,会减少摄像机定标的成本,提高了摄像的经济效益。相比三维立体定标法,平面定标的精确度更高,定标所用的时间相对较短,所以平面定标法在摄像研究领域中值得推广。

2.3 双平面定标法 所谓的双平面定标法就是利用镜头与目标之间的两个平面的成像点来进行定标,不需要成像平面上的光线通过平面中心,只要选取两个平面之间任意两点坐标来对定标参数进行计算分析,得出具体的成像图。这种定标方式不受平面中心的影响可以在任意点上成像,减少了定标参数的数量,提高了定标的工作效率。但是由于双平面定标法只是任意选取两平面上的点,对定标的精确度造成了一定的影响,使计算机对参数的运算缺少可靠的数据支持,一定程度上降低了摄像机的成像清晰度,使计算机视觉中摄像机的定标精度存在一定的偏差,呈现出来的具体图像质量相对比较差。

2.4 直线两点定标法 在三维立体和平面定标法的基础上,又进一步研究了直线两点定标法,极大程度上满足了人们对摄像效果的要求。直线两点定标法是利用定标物与摄像机镜头之间的直线上的两点进行定标。然后通过计算机视觉对这两点的坐标参数进行分析,然后摄像机利用这些参数对摄像机的焦距进行调整,确定物体的具置。在三维立体和平面定标的基础上对计算机视觉程序进行改进升级,进一步提高对物体定标的精确度。对原有定标方法进行创新改进得出了直线两点定标法使定标参数的数量大幅度的下降,节省了很多的人工成本,摄像机的清晰度也会大大提高。

2.5 透视变换焦距的定标法 透视变换焦距定标法是通过分析镜头与目标之间的距离,不断调整两者之间的距离使镜头里呈现出来的图形清晰为止,然后就将现在的目标设置为定标物。由于这种定标方法不用去分析具体的定标参数被人们广泛的应用。随着科技的发展现在的摄像机都有自动调整焦距功能,不用人为的去调整焦距,使定标物更快地呈现在镜头中,节省了大量的定标时间,计算机的运算速度也加快了。但是这种定标方法也存在一定的缺陷,在实际操作如果不考虑摄像环境以及摄像镜头的变化,定标的精确度会存在一定的偏差,导致镜头中的定标物成像不清晰。

3 计算机视觉中摄像机定标方法的应用

3.1 在计算机视觉中摄像机的主动定标 计算机视觉中摄像机的定标方法推动了计算机技术在摄像机中的广泛应用。计算机视觉中摄像机的主动定标是计算机技术在摄像机中的显著应用。计算机技术使摄像机在定标过程中主动寻找定标物,使焦距和视角很好地配合,充分发挥计算机视觉在摄像机中的成像原理,把定标方法合理地运用在摄像机主动定标过程中,使摄像机的清晰度得到大幅度地提升。

3.2 分层次进行摄像机的定标 随着计算机技术在摄像机定标中的不断发展更新,摄影者喜欢分层次地进行定标,把自己的观点融入到摄像机定标过程中,用自己的思维对定标参数进行分析,利用计算机视觉成像原理把定标物直观的反映在计算机上,以便更好的对定标物进行分析,以其中一个定标物的成像平面来确定定标物的具体成像图,使摄像机镜头中的定标物图像可以更清晰。这种分层次的定标使计算机技术可以更好的应用在摄像机定标过程中,呈现出高质量的摄像效果。

4 总结

在计算机视觉中摄像机的定标方法都是可行的,但各种方法都存在一定的缺陷,所以在实际应用中还应该根据摄影环境以及摄影机的质量选择最优的定标方法,保证定标参数的准确性,在镜头里呈现出清晰的成像。针对计算机视觉中摄像机定标方法的缺陷,摄像机的研究领域应该要不断更新摄像机定标方法,提高摄像机定标的精确度,不断满足人们对摄像机清晰度的要求,呈现出清晰的摄像效果。

参考文献:

[1]邱茂林,马颂德,李毅.计算机视觉中摄像机定标综述[J].自动化学报,2000(1).

[2]伍雪冬,蒋新华,李建兴,黄靖.计算机视觉中传统摄像机定标方法综述[J].福建工程学院学报,2007(1).

篇2

关键词:三目摄像机;标定;立体视觉;外部参数

一、绪论

1.1研究的背景及意义

计算机视觉是当今极为重要的学科之一,它在具有很强的挑战性的同时又拥有广泛的应用前景和实用价值。计算机视觉以视觉理论为中心,以图像处理、模式识别、计算机技术和生理学、心理学为基础,研究内容主要有两个方面:一是开发从输入图像数据自动构造场景描述的图像处理系统;二是理解人类视觉机理,用机器代替人去做人类难以达到或根本无法达到的工作[1]。

计算机视觉应用的广泛性体现在其不仅用于文字、指纹、面部、商标以及图像数据库、检测集成电路芯片、多媒体技术这些图像方面,还应用到机器人导航、工业检测和产品的自动装配、CT图像器官重建和遥感照片解释等空间物体的定位、识别以及重建上。现如今,计算机视觉已经应用到机器人、地理、医学、物理、化学、天文等各大的研究领域。

作为多个学科交叉与融合中心的计算机视觉,摄像机是其研究的重要工具,而摄像机标定又是计算机视觉研究的一个关键问题,故摄像机的标定越来越受到广泛的重视。摄像机标定是通过物体空间上的点与图像中的对应点的几何关系,来确定摄像机的内外参数的过程。标定结果是否准确影响着三维测量的精度和三维重建的结果,而且实时的标定更能满足自动导航机器视觉的需要[2]。

伴随着应用的发展,摄像机广泛地被应用于三维立体的测量、视觉检测、运动检测等领域。由此,对摄像机标定的精度要求也日益增加。摄像机标定结果的优劣影响了计算机视觉在各领域的应用。摄像机标定的准确与否,对能否提高计算机视觉在各领域测量的准确度有重要影响[3]。因此,研究摄像机标定方法具有重要的理论研究意义和实际应用价值。

1.2摄像机标定技术研究的发展及现状

摄像机有一个图像平面和提供三维空间到图像平面转换的镜头。由于镜头会产生畸变,不能把这个转化过程简单描述为投射变换。所以它表示的是畸变的模型,这些模型近似于真实数据,而其精确性则依靠于建立的模型及模型参数的准确性。

首先进行摄像机标定工作的是加拿大的Deville,他于1910年建立实验室,使用多个瞄准仪对他的“测量摄像机”(surveying camera)进行标定[4]。上个世纪三十年代后期,美国标准局发明了一种精确镜头,用来检测摄像机,同时将它用在摄像机标定上。四十年代后期,该项工作得到进一步加深,有了更多对高精度的需求和对易操作设备的需求。1955年,Carman出版了 《棋盘平面度的干涉测量和控制》,该书引起了社会各界对摄像机标定的关注。二战时期,随着飞机的大规模使用,航空摄影与制图兴起,为得到更加精确的测量结果,对摄像机镜头的校正要求也变得更高。五十到七十年代也是镜头校正技术发展最为迅速的时间段。在这期间,各种镜头像差的表达式逐步被提出并且得到普遍认同与采用,建立了很多的镜头像差的模型,D.C.Brown等人作出了比较大的贡献,他们导出了近焦距情况下给定位置处径向畸变表达式并证明了近焦距情况下测量出镜头两个位置的径向畸变就可以求出任何位置的径向畸变[5]。这些径向与切向像差表达式成为后来各摄像机的标定非线性模型的基础。这段时间里,研究的重点是如何校正镜头与用何种方法补偿镜头像差,这些研究对促进各性能镜头组的研制起到了重要作用。在1999年,张正友提出了一种简便的摄像机标定方法,该方法介于传统标定和自标定之间,操作方便灵活,能够得到不错的精度,满足了众多拥有桌面视觉系统的用户在摄像机标定方面的需求。

1.3本文的主要研究内容

本文的主要研究多个摄像机的标定问题。标定主要是对摄像机内外参的测量计算,利用这些参数对多个摄像机识别的物体尺寸进行衡量并建立起多摄像机系统的数字环境。

论文的内容包括:

第一章为绪论,介绍摄像机标定相关的研究背景、国内外研究现状。

第二章为摄像机标定理论基础:主要介绍标定的坐标系与待标定的参数。

第三章提出本文的多摄像机标定方法与实验过程。

第四章进行全文的总结。

二、摄像机标定方法研究

2.1摄像机标定原理

摄像机通过透镜将三维物体投影到--维图像平面上,这个成像变换的过程称为摄像机成像模型。摄像机成像模型有多种,最常用的为小孔成像模型。由于实际的摄像机镜头会发生一定的畸变,使得空间点所成的像不在线性模型描述的位置而会发生一定的偏移,为了能准确的标定摄像机参数,标定的过程中要考虑非线性畸变因子。

一般来说,得到标定结果后要对其精度进行评估,然而很难得到准确的摄像机标定参数真值作为参考,其中基于图像坐标和世界坐标的绝对和相对误差的评价方法应用广泛,本文将对这些方法的原理进行探讨。

2.2摄像机标定坐标系建立

首先定义了四个坐标系,如图1所示,图像坐标系的坐标原点为O0,列与行由坐标轴u和v表示;成像平面坐标系的原点是摄像机光轴与图像坐标系的交点0l,x、y 轴分别与u、v 轴平行;在摄像机坐标系中,坐标原点0c即为在摄像机的光心,Xc、Yc轴与x、y 轴平行,与图像平面垂直是摄像机光轴作为Zc轴,0c0l为摄像机焦距f;世界坐标系是假想的参考坐标系,可固定于场景中某物体上,用于描述摄像机的位置,由Xw,Yw,Zw轴组成。

图(1)

2.3摄像机外部参数构成

主动视觉传感器从在笛卡尔直角坐标系中的运动表现为相应的旋转矩阵和平移矩阵,故摄像机外部参数表现为旋转矩阵R和平移矩阵T,则摄像机坐标系与世界坐标系的转化关系可以表示成:

上式中(Xc,Yc,Zc)表示空间点在摄像机坐标系下的坐标,(Xw,Yw,Zw)表示空间点在世界坐标系下的坐标。根据靶标点在像空间坐标系和物方空间坐标系中的坐标,通过分解旋转矩阵线性计算像空间坐标系与物方空间坐标之间的转换参数,即外方位元素(摄站参数)[6]。

2.4各摄像机相对位置确定

三目摄像机拥有三个视觉传感器,而三个传感器之间的相对位置可通过已获得的外部参数进行确定。将三个摄像机坐标系设置为,Oci xci yci zci(i=1,2,3),由2.3中所介绍的内容可知,这三个摄像机坐标系与世界坐标系的关系为:

i=(1,2,3)

由此我们可以得到任意两个摄像机i,j的坐标系转换关系:

其中: = = i,j=1,2,3

三、摄像机标定实验过程及结果

3.1实验系统介绍

实验中被用来标定的是一个多摄像机系统,摄像机标定有关的基本参数、系统组成和开发环境如下:

(1)硬件环境

标定板、三目摄像机和图像采集卡等。

(2)软件环境

OpenCV开源视觉库,它仅由一系列C函数和少量C++类构成,为Python、MATLAB等语言提供了接口,在图像处理和计算机视觉方面实现了很多通用算法。

3.2实验过程

本系统以棋盘格模板作为标定模板。采用激光打印机打印棋盘格黑白方块间隔纸,方块边长为3cm,共6行9列,将打印纸固定在一块平板上,作为标定模板,如图(2)。安装三目摄像机系统,调节固定好个摄像机位置,如图(3)。手持标定板在三目摄像机前方各个位置拍摄5组共15张各姿态的照片,利用Canny算子进行像点灰度中心提取、同名像点匹配并解算出三个摄像机在标定板坐标系中的外部参数值。

3.3标定结果

摄像机1:

R= T=

摄像机2:

R= T=

摄像机3:

R= T=

四、总结

随着计算机技术的高速发展,计算机视觉成为当今热门的研究课题,受到了广泛关注。本文就如何在机器视觉的理论基础上对三目视觉系统进行标定进行了研究,讨论了计算机视觉理论知识,分析摄像机标定原理以及标定坐标系的建立。同时通过计算机视觉知识的分析讨论了基于三目视觉系统的摄像机标定技术,完成了三目视觉系统的外部参数标定实验。三目摄像机测量系统外部参数的标定能够解决测量作业现场、测量控制场建立难的问题,为快速地建立简单实用的控制场提供了方案,有一定的实用价值。

参考文献

[1] 荆丽秋.双目视觉系统标定与匹配的研究与实现[D].哈尔滨工程大学,2009.DOI:10.7666/d.y1489086.

[2] 马颂德.计算机视觉―计算理论与算法基础[M].北京:科学出版社,1998.

[3] 王荣一.摄像机标定及关键技术研究[D].哈尔滨理工大学,2011.DOI:10.7666/d.y2012483.

[4] Clarke T A,Fryer J G.The development of camera calibration methods andmodels.Photogrammetric Record,1998,16(91):51-66

[5] Brown D C.Decentering distortion of lenses.Photogrammetric Engineering,1 966,32(3):444-462.

[6] 范亚兵,黄桂平,高宝华等.三目立体工业摄影测量系统外部参数的快速标定[J].测绘工程,2012,21(5):48-52.DOI:10.3969/j.issn.1006-7949 .2012.05.013

篇3

关键词:壁纸;计算机视觉;灰度共生矩阵;纹理

中图分类号:TP391.41 文献标识码:A 文章编号:1007-9599 (2012) 11-0000-01

一、壁纸样本特征参数的获取

纹理是一种普遍存在的视觉现象,如木材表面、草坪、皮肤、织物、水波等都有各自的纹理特征,而纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的重要特征。壁纸大都仿制木材表面、皮肤、织物等物体,具有典型的纹理特征。因此,本文采用经典的灰度共生矩阵法对壁纸进行纹理特征参数的获取。

数学定义:灰度共生矩阵是从图像灰度为i的像元位置为(x,y)出发,统计与其距离为d,灰度为j的像元(x+Dx, y+Dy)同时出现的频度P(i, j, d,θ),数学表达为[1]:

P(i, j, d,θ)={[ (x, y), (x+Dx, y+ Dy) | f(x, y)= i;f(x+ Dx, y+ Dy)= j]} (1)

其中,θ为共生矩阵的生成方向,通常取0°、45°、90°、135°四个方向。Haralick等人由灰度共生矩阵提取了14个纹理特征参数,分别为角二阶矩、对比度、相关、熵、方差、均值和、方差和、逆差矩、差的方差、和熵、差熵、聚类阴影、显著聚类、最大概率,依次标为W1~ W14,表1列出了部分样本的纹理特征参数。

二、实验样本

实验样本选用了壁纸样本手册中的8类样本进行实验测试,每类样本包含100张初始样本图像,样本库共包含800张图像(100×8),如图2所示。为了便于进行识别实验,将样本分成3部分,依次为:标准样本集(70×8)、测试样本集(30×8)。

三、实验分析

为了能真实地反映所获取特征的识别能力,应选择相对简单的分类器,从而避免分类器差异对识别率的影响,因此,本研究选择最近邻分类器对壁纸样本进行识别。

观察表2可见,对壁纸测试样本集的总体分类识别率为87.50%,获得了较高的分类识别率。其中,对第5类板材样本的识别率最低为750%,对第3类的识别率最高为100.0%,这也能够反映出样本自身的复杂程度和灰度共生矩阵特征参数对各类样本的描述能力。

四、结论:

本文使用最近邻分类器对壁纸测试样本集合进行分类,总体识别率为87.50%,表明灰度共生矩阵特征参数能够有效描述壁纸的纹理特征,同时也表明采用计算机对板材进行分类识别取代人工识别是基本可行的。

参考文献:

[1]庄军,李弼程.一种基于灰度共生矩阵的文本图像识别方法[J].计算机工程,2006,32(3):214-216

[2]王克奇,王辉,白雪冰.基于模拟退火算法和最近邻分类器识别率的特征选择方法[J].自动化技术与应用,2007,26(1):27-29

[3]杨彩霞.基于Gabor变换与最近邻分类器的字符识别方法[J].西安文理学院学报(自然科学版),2010,13(4):83-85

篇4

(上海大学通信与信息工程学院,上海200072)

摘要:运动目标的检测是数字图像处理和模式识别的基础,也是计算机视觉研究的一个重要领域。以C#为主要研究工具,对基于相邻帧差法及背景差分法的视频目标检测算法进行了研究,主要对其原理和算法进行研究。最后利用以AForge.NET架构类库,利用图像灰度的绝对值是否大于设置的阈值实现了对运动目标进行检测,实验结果表明,采用该算法可以对运动目标进行较为精确的检测。

关键词 :运动检测;AForge.NET;帧差法;背景差分法

中图分类号:TN911.73?34 文献标识码:A 文章编号:1004?373X(2015)17?0058?03

0 引言

由于微电子技术的发展与社会生活水平的提高及各种安防需求的增多,运动目标检测逐步成为当前监控系统研究领域的热点,更是计算机视觉领域中视频跟踪算法和识别技术的基础,该算法的检测精度直接影响了后续的运动目标跟踪及识别效果。目前,运动目标检测领域比较常用的方法有:光流法、帧间差分法和背景差分法。

光流法是相对于观察者的运动目标造成的观测目标、表面或边缘的运动[1]。但是该算法计算量比较大,并且存在抗干扰能力差,所以对于实时性要求较高的场合,该检测算法在视频运动检测应用中并不是特别的适用,目前在运动检测中最常用的方法实际上是背景差分法[2]和帧间差分法[3]。

帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,非常适用于存在多个运动目标和摄像机移动的情况[4]。由于该算法对光线及场景变化具有较强的抗干扰性,且无需获得背景图像,更新速度快,所以非常适用于实时性较强的应用场合。但是该算法存在阈值难以确定的问题,这个现象在低对比度灰度图像序列别明显,导致对目标对象的完整区域提取不完整而产生空洞的现象。

背景差分法是采用图像序列中的当前帧和背景参考模型比较,来检测运动目标的一种方法,其检测性能依赖于所使用的背景建模技术[5]。该算法可以实现缓慢的背景变化过程中对目标进行精确快速的分割,所以具有很强的适用性,然而对于突然的光照变化和背景扰动,对物体带有影子的图像分割出来的前景图像可能带有影子区域[6],为此可以通过建立实时更新的背景模型机制将前景区域分割出来,就可以减少动态场景变化对运动分割的影响[7]。

本文利用AForge.NET[8]架构类库,在Microsoft VisualStudio 2010中分别实验了帧间差分法与背景差分法,并实现运动目标的检测。实验结果表明,利用帧间差分法可以快速实现运动目标的检测,但是对于运动速度较慢的目标检测效果不是特别理想。为此,对于缓慢变化的运动目标引入背景差分法,利用类库中MoveTowards类建立实时有效的背景模型,有效地解决目标低速运动识别率较低的问题,提高了目标检测的准确率。

1 AForge.NET 简介

AForge.NET是一个专门为开发者和研究者设计的基于C#框架,包括计算机视觉与人工智能、图像处理、神经网络、遗传算法、机器学习、模糊系统、机器人控制等领域[9]。AForge.NET 是一个不断完善和发展的计算机视觉和图像处理库,目前的最新版本是2.2.5。

这个框架由一系列的类库组成,主要包括有:

AForge.Imaging:日常的图像处理和过滤器;

AForge.Vision:计算机视觉应用类库;

AForge.Neuro:神经网络计算库AForge.Genetic?进化算法编程库;

AForge.MachineLearning:机器学习类库;

AForge.Robotics:提供一些机器学习的工具类库;

AForge.Video:一系列的视频处理类库;

AForge.Fuzzy:模糊推理系统类库;

AForge.Controls:图像,三维,图表显示控件。

2 检测原理

帧差法及背景差分法主要原理就是图像的差分技术。设在一个时间轴上相邻时刻点ti 采集到的图像帧分别为f (x,y,ti),ti + 1 采集到的帧为f (x,y,ti + 1),则可以得出:

//对两帧数据差值进行数据滤波

Bitmap tmp3 = erosionFilter.Apply(tmp2);

上面几行代码可以计算出当前帧与上一帧这两帧数据相差的像素数据,通过设定特定的阈值,就可以实现对运动目标的报警功能。在本文所做的实验中,为了形象展示当前帧与上一帧数据的差值数据,把连续两帧数据差值用过红色高亮数据进行显示。实验结果表明,通过差帧法可以快速实现运动目标的检测,由于帧差检测法存在阈值难以确定的问题,特别是对于低速运动的运动目标,如果设定较低的阈值则存在误触发虚报的问题,而对于设定的高阈值,因为具有较低的检测灵敏度,则存在漏警的问题,实验结果如图2所示。

为此,本文引入了背景差分法技术,相对帧差检测算法,该算法使用AForge.NET的MoveTowards类实现实时背景的建模,再通过当前图像帧与建模形成的背景帧数据进行差分运算,实现运动目标的检测。该算法可以解决帧差检测法阈值难以确定的问题,可以实现低速运动目标精确的定位与检测。

背景差分法与帧间差分法的区别只是有了一个背景更新的过程,本文新背景的建立是通过AForge.NET视频库中类实现,该类背景提取算法原理是当前帧与前一个背景帧求加权平均得出当前背景帧数据。背景差分法的具体算法流程如图3所示。

背景差分法相关实现代码如下:

// 初始化背景类

MoveTowards moveTowardsFilter = new MoveTowards();

// 把当前帧复制给该类

moveTowardsFilter.OverlayImage = currentFrame;

// 通过前一帧与当前帧建立新的背景

Bitmap tmp = moveTowardsFilter.Apply(backgroundFrame);

// 把原先老的背景去除掉

backgroundFrame.Dispose();

//把当前计算出来的背景帧保存下来,为下一背景帧计算做准备

backgroundFrame = tmp;

背景差分法运动检测算法的相关实验结果如图4所示。

从图4 可以看出,背景差分法具有更好的目标轮廓,通过当前帧与背景帧比较的运动检测算法,可以很好地解决运动目标低速运行的问题,可以较为精确地实现与运动目标的检测。所有背景差分法与帧差法相比,具有更高的检测精度,非常适合工程中的应用。

4 结语

本文利用AForge.NET 类库,分别采用帧差法及背景差分法对运动目标进行实时检测。实验结果证明,利用AForge.NET可以实现运动目标的检测功能,并且具有很强的实时性。帧差法可以快速地检测运动目标,但是由于其特性决定了其对于低速运动目标的检测较背景差分法检测灵敏度要低。本文只针对运动目标进行简单的检测,对于更进一步的问题将在后续工作中继续研究。

参考文献

[1] 陈银,任侃,顾国华,等.基于改进的单高斯背景模型运动目标检测算法[J].中国激光,2014(11):245?253.

[2] 纪青华,禹素萍.基于Surendra背景减除法和四帧差分法的目标检测算法[J].计算机应用与软件,2014(12):242?244.

[3] 邱斌,干红华,张亶.基于时空信息的运动目标分割算法[J].激光杂志,2014(12):40?44.

[4] 柴池.基于背景差分和三帧差分的运动目标检测[J].网络安全技术与应用,2014(11):75?76.

[5] 黄素茵.基于视频监控运动目标检测算法研究[D].广州:华南理工大学,2013.

[6] 余启明.基于背景减法和帧差法的运动目标检测算法研究[D].赣州:江西理工大学,2013.

[7] 严晓明.一种基于改进帧差法的运动目标检测[J].莆田学院学报,2011(5):69?72.

[8] KIRILLOV A. AForge.NET framework [EB/OL].(2010?03?02)[2010?12?20]. http:// aforgenet. com.

篇5

关键词:图像内容检索; 纹理特征;视频水印; 高压缩; 鲁棒性

中图分类号:TP391.41 文献标识码:A

1 引 言20世纪70年代末期,基于文本的图像检索技术(textbased image retrieval)方兴未艾。当时流行的图像检索系统是将图像作为数据库中存储的一个对象,用关键字或自由文本对其进行描述。查询操作是基于该图像的文本描述进行精确匹配或概率匹配。然而,完全基于文本的图像检索技术存在着严重的问题。90年代初期,随着大规模数字图像库的出现,基于内容的图像检索技术(contentbased image retrieval)应运而生。区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术自动提取每幅图像的视觉内容特征作为其索引,如色彩、纹理、形状等。此后几年中,这个研究领域中的许多技术发展迅速,一大批研究性的或商用的图像检索系统被建立起来。这个领域的发展主要来归功于计算机视觉技术的进步,在文献[1]中有对这一领域的详细介绍。

图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)

两类。由于基于文本的图像特征提取在数据库系统和信息检索等领域中已有深入的研究,本文我们主要介绍视频图像视觉特征的提取和表达。并利用特征提取选定相应帧,并在选定的特定帧中嵌入水印。

2 Tamura纹理特征

纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征[2]。它是所有物体表面共有的内在特性,例如云彩、树木、砖、织物等都有各自的纹理特征。

基于人类对纹理的视觉感知的心理学的研究,Tamura等人提出了纹理特征的表达[3]。Tamura纹理特征的六个分量对应于心理学角度上纹理特征的六种属性,分别是粗糙度(coarseness)、对比度(contrast)、方向度(directionality)、 线像度(linelikeness)、规整度(regularity)和粗略度(roughness)。其中,前三个分量对于图像检索尤其重要[4]。接下来我们就着重讨论粗糙度、对比度和方向度这三种特征的定义和数学表达。

计算技术与自动化2011年9月

篇6

关键词 SIFT 尺度空间 图像匹配 特征描述符

中图分类号:TP39 文献标识码:A

Research on the Simplified SIFT Feature Matching Algorithm

YIN Lihua[1], CHEN Yong[1], YANG Yuping[2]

([1] Chongqing Normal University, Chongqing 401331;

[2] Chongqing College of Electronic Engineering, Chongqing 401331)

Abstract For SIFT algorithm, for the matching problem of the classic descriptors for feature dimension is too high and lead to reduced efficiency, this paper presents a simplified SIFT feature matching algorithm, the first of the operator dimensionality reduction to improve the speed, then use two-way matching to eliminate errors together with the algorithm to ensure the accuracy of experiments and achieved good results, verify the feasibility of the method.

Key words SIFT; scale space; image matching; feature descriptors

0 引言

图像匹配是同一场景在两个不同视点下的图像之间的对应关系,是虚拟现实、计算机视觉等研究领域的一个热点,也是计算机视觉应用,如深度恢复、摄像机标定、运动分析以及三维重构等研究的基本问题。①总结起来,图像匹配算法大致分为:基于面积的方法、②基于比值的方法③等,但这些算法有着共同的缺点。本文提出一种简化的SIFT算法,通过减少特征描述符的维数来降低计算的复杂度,并采用双向匹配增强匹配的精度。

1 SIFT算法研究

SIFT( scale invariant feature transform,即尺度不变特征变换)算法是David G.Lowe于1999年提出,2004年进行了总结和完善的特征匹配算法,SIFT特征匹配算法共分为如下五个步骤:

1.1 尺度空间的形成。

Koendetink等人证明了高斯卷积核是实现尺度变换的惟一线性核,因此,一幅二维图像的尺度空间可定义为:

() = ()* () (1)

式中:L为尺度空间,()为空间坐标, 则为尺度因子。 的值越小表示图像越清晰,越大则表示图像越模糊。为了提高尺度空间中被检测关键点的稳定性,采用了高斯差分尺度空间()。定义为两相邻尺度的高斯核差分,公式如下:

() = [ () ()]* () = () - () (2)

1.2 空间极值点的检测

在中,为确保在尺度空间及二维图像空间都能检测到极值点,每一个像素点(最顶层和最底层像素点除外)要和其上下两层各9个及同层8个相邻点进行比较。并通过拟和三维二次函数来精确确定特征点的尺度和位置,同时去除对比度低的特征点和不稳定的边缘特征点,以增强图像匹配的稳定性、提高抗噪声能力。

1.3 特征点方向分配

为使算子具备旋转不变性,统计特征点邻域像素的梯度方向直方图,以确定每个特征点的方向参数。

1.4 特征点描述器的生成

为了增强算子的抗噪能力,每个特征点选用16个种子点来描述,而每个种子点又有8个方向的向量信息,因此,每个特征点就能形成16共128维的SIFT特征向量。

1.5 特征匹配

SIFT算法选用欧式距离作为特征点的相似性度量函数,设定一个阈值,当距离小于这个阈值时就接受这一对匹配点。

2 简化的SIFT算法研究

2.1 简化算法的匹配步骤

经典算法中,第三步的计算时间在整个算法中占了70%多,大大地降低了算法的速度,影响了实时性。为了改善这一状况,将第二、三步合并,并在对特征点进行描述时,把原来的128维向量降为现在的12维向量。匹配步骤如下:

2.1.1 初步特征点的检测(方法同原算法)

2.1.2 形成特征向量

(1)以初步检测到的特征点为中心采用圆形窗体来确定需要统计的领域范围,选取圆形窗口半径为4.5s,在该窗体内统计12个梯度方向。

(2)归一化这12个梯度方向,以保证算子的光照不变性。用表示特征向量,即 = ,归一化后得到:

(3)

(3)为保证算子的旋转不变性,查找最大的梯度方向统计量。向左循环移动整个向量序列,直至梯度方向统计量最大的元素移动到序列的第一个元素。

2.1.3 特征匹配

为保证算法的精度,采用双向匹配。即第一次匹配完后,记录下成功匹配的坐标对,然后交换匹配对的坐标位置,再匹配一次,如果这两次匹配得到的坐标对是一样的,就接受这一对匹配点。

2.2 维数设定

简化算法中最重要的一步就是圆形窗口中维数n的设定,实验结果表明,当<12时,匹配效率随着维数的增加呈指数级增加;反之,当>12时,匹配效率却随着维数的增加反而下降。由此可得,当 =12时,匹配效率最高, =12即为所需确定的维数。对于匹配效率,定义为:

匹配效率 = (4)

3 仿真实验及结果

为了验证算法,在CPU为Intel Corei3 2.20GHz,内存为2G的PC机上采用Matlab7.8软件平台进行实验。为了证明算法对物体旋转、遮挡和光照的鲁棒性,在设计场景的时候将物体任意摆放,在不同的光照条件下进行实验,部分效果及结果如图表所示,其中图1(a)为SIFT算法匹配图像,图1(b)为简化SIFT算法匹配图像,表1为两种算法匹配对比结果。

4 结论

总之,本文研究了经典SIFT算法,并分析了算法的优势及其局限性,从匹配速度上加以了改进。首先利用圆形窗口本身的旋转不变特性对算法进行降维,从原来的128维降为12维;其次采用双向匹配提高匹配的精度,去除可能存在的不明显误匹配。将匹配结果同原SIFT算法进行了比较,试验结果表明本文改进算法比原SIFT算法在速度上有了很大的提高,同时在一定程度上也保证了精度。

注释

① 孔晓东,屈磊,桂国富等.基于极约束和边缘点检测的图像密集匹配[J].计算机工程,2004(20):178-179.

篇7

关键词:视频检测;蜂群算法;互信息

中图分类号:TP391 文献标识码:A

Abstract:Here,a video object detection method based on an improved bee colony algorithm is presented.First,the maximum mutual information values of two images are obtained through optimization.Then,the best spatial matching parameters are acquired,and finally the target is detected through the three frame difference pared to the traditional algorithm,the proposed algorithm can restrain the residual background noise,and does not require the image pre-processing,feature selection and background updating,which reduce the complexity of the pared with the results based on the traditional bee colony algorithm,the effectiveness and reliability of the improved algorithm are demonstrated.

Keywords:video detection;bee colony algorithm;mutual information

1 引言(Introduction)

近年来,科学技术的不断发展以及人民生活水平的不断提高使人类对生活质量和本身的安全性保证需求愈来愈高。视频监控由于能形象、直观地表示信息而被应用于大部分公共场所。相比较传统的视频监控,高端化的视频监控系统可通过计算机视觉、图像处理等技术提取出人们感兴趣的目标信息图像,然后对其进行检测、跟踪、分类以及行为理解和描述等过程来判别监控画面中的情况,代表了未来视频监控产业的发展趋势。视频监控系统的关键技术主要有四个方面:目标的检测,目标的跟踪,目标的分类,行为的理解与描述。

视频目标检测在人机交互、视频监控、交通视频、视频会议、客流量统计等许多方面都有非常重要的应用,是当今计算机视觉领域的研究热点与难点之一。传统的检测算法[1]如背景差分法、相邻帧差法、光流场法等已相对成熟,但存在不足:背景差分法对光线等外在因素的变化过于敏感,帧差法检测目标的完整性较差,光流场法的计算比较复杂且容易被外界噪声干扰。因此,学者们提出了许多改进算法,如背景移动补偿算法[2]、帧间差法与背景差分相结合的算法[3]等。

2 互相关信息(Mutual information)

互相关信息是一种具有测量图像间的统计相关性作用的信息理论概念。它代表图像间的重合区域,重合区域越多,互相关信息越大。当两幅图像在几何上完全重合时的互相关信息是最大的,称为最大互信息。

假设有两个随机变量A和B,灰度值范围为0―255,和分别是它们各自的概率密度函数,表示它们之间的相关密度函数。那么随机变量A和B的互相关信息表示如下:

由于联合熵的值取决于边缘熵与变换函数,因此需要找出最优变换函数对图像进行配准,以让联合熵最小,则此时的互相关信息为最大互信息。因为互相关信息是关于图像全部像素的,所以带来的计算量较大。小波变换为一种拥有多分辨率的时间――尺度分析方法,本文结合小波分解的方法,对配准图像进行小波变换,主要包括平移和旋转,因此,通过对小波变换函数中平移和旋转参数的最优化以获得最大互信息。

3 改进蜂群算法(Improved bee colony algorithm)

所谓人工蜂群算法就是对蜜蜂行为加以模拟而提出的一种优化算法。蜂群中出现群体智慧的最小搜索模型主要包括四个基本的组成要素:食物源、引领蜂、侦查蜂与跟随蜂。

在蜂群算法中,优化问题的一个可能解就是一个食物源的位置,解的质量(适应度)就是食物源的花蜜数目。详细过程如下:起先,生成具有个解(食物源)的初始种,其中的各个解――是一个维数为D(待优化参数的数目)的向量;其次,所有的食物源都要被蜜蜂进行反复(次数为MCN)搜寻:对应的食物源(解)先被引领蜂在邻域作一次搜寻,通过对比搜寻前后两个食物源的花蜜数目后,选取适应度相对高即花蜜数目大的食物源(解)来采蜜;结束搜寻以后,所有的引领蜂将食物源上花蜜数目的信息传递给跟随蜂,跟随蜂通过获得的信息按照一定的概率选取食物源,即花蜜越多的食物源被选择的可能性越大。而后,跟随蜂为了选取更好的解也作一次与引领蜂相同的邻域搜寻。

其中,,,以上和都是随机选择的,并且。在-1和1之间。

在蜂群算法中,通过次循环之后得不到改善的解要被丢弃,这里的“”便是算法中的一个关键的控制参数。假设是被丢弃的解,侦查蜂可以随机生成一个新解对进行代替。

以上表述可以看出,蜂群算法中的三个控制参数――食物源的数目、引领蜂的数目、跟随蜂的数目(SN)是相等的。以上整个算法的核心包括三个部分:(1)引领蜂:邻域搜索;(2)跟随蜂:将搜寻范围缩小后对邻域作搜寻;(3)侦查蜂:随机搜索。

因为蜜蜂随机选择邻域个体,并且未考虑食物源之间的内部联系,致使收敛速度较为缓慢。为了提高收敛性能,提出改进蜂群算法,将式(4)变化为

式中,―遗忘因子,代表搜寻其它食物源时对当前食物源的记忆强度,并且为了使蜜蜂充分的利用邻域个体的搜索信息从而更好地寻找到全局的最优点,在下一食物源的搜索过程中遗忘因子会动态调整;―邻域因子,确定信息共享的强度是根据邻域个体食物源的优劣来进行的,在搜索后期为了使蜜蜂具有较强的全局寻优能力,邻域因子进行动态变化。为常量,以1为分界线,当食物源质量比蜜蜂当前食物源质量劣时取1,从而让蜜蜂可以向高质量的食物源移动。

邻域因子、遗忘因子中的参数、随搜索进程动态变化如下:

式中,iter代表搜索步数;、、与都是常量,取值在[0.1,1.5],且、。为了使蜜蜂迅速向最优食物源区域移动,遗忘因子中的参数随搜索进程从逐渐下降至,取值范围在[0.8,1];随着搜索的进行,邻域因子中的参数从逐渐上升到,代表逐渐增大邻域个体与当前蜜蜂的信息共享强度,β取值范围在[1,1.2]。

4 三帧差分法(Three frame difference method)

三帧差分法把相邻三帧图像当作一组进行差分,可以将实际运动目标的轮廓完整的检测出来,具体算法如下:

(1)读取图像序列中的三帧图像、、,依次计算出相连两帧图像的绝对差值灰度图、,设置阈值T对差值图像进行二值化,提取运动目标区域如下:

(2)通过逻辑“与”运算提取和的交集,获取运动目标:

5 计算分析(Calculation and analysis)

5.1 基于改进蜂群算法的视频目标检测算法流程

(1)首先通过小波变换将图像映射到小波域。

(2)利用式(1)作为衡量标准进行基于互相关信息的图像配准计算。

(3)采用改进的蜂群算法优化两幅图像间的互信息值,此算法通过迭代后将获得最优的小波变换平移参数与旋转参数。

(4)最终依靠三帧差分法实现对图像中运动目标的增测,使用矩形框将目标进行标记,完成目标检测。

5.2 结果与分析

图1和图2分别为基于蜂群算法和改进蜂群算法的视频目标检测结果。从中可看出,基于蜂群算法检测到的目标范围过大,而基于改进蜂群算法检测出的目标范围更加精确,也更能够反映出真实情况。

6 结论(Conclusion)

本文在基于互相关信息进行目标检测的基础上,利用改进的蜂群算法对两幅图像间的互相关信息进行优化,得到最大互信息值,进而获得最佳空间匹配参数并完成对图像的空间配准,最后通过三帧差分法检测出目标。通过与传统蜂群算法的结果对比,证明了改进算法的有效性和可靠性。

参考文献(References)

[1] 万缨,韩毅,卢汉清.运动目标检测算法的探讨[J].计算机仿真,2006,23(10):221-226.

[2] 於时才,吴键.运动背景下的运动目标检测方法[J].计算机仿真,2011,28(2):292-294.

[3] 朱明旱,罗大庸,曹倩霞.帧间差分与背景差分相融合的运动目标检测算法[J].计算机测量与控制,2005,13(3):215-217.

[4] Teodorovi'c,Dell Orco.Bee colony optimization-a cooperative learning approach to complex transportation problems[M].In Proceedings of the 10th Ewgt Meeting,Poznan,13-16 September 2005.

作者简介:

仲 跃(1960-),男,硕士,高级工程师.研究领域:水利信息系统应用开发.

杨 劲(1986-),男,硕士,工程师.研究领域:计算机图形学和图像处理.

顾 京(1985-),男,硕士,工程师.研究领域:信息系统建模与仿真.

篇8

关键词:人脸修饰;频域滤波;几何表示;演化模型

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)22-0119-03

Abstract: With the popularity of digital cameras, mobile phones and other camera equipment, automatic face modification technology has become a research hotspot in the field of computer vision, digital image processing. In this paper, the framework and the new progress of automatic face modification technology are summarized. The algorithm based on frequency domain filtering, the algorithm based on geometric representation, and the algorithm based on age evolution model are summarized. The main algorithms are introduced and the advantages and disadvantages of various algorithms are also analyzed. Through the research on the practical problems in the domestic and international application, the challenge and the shortage of the automatic face modification technology are presented.

Key words: face modification; frequency domain filtering; geometric representation; evolution model

随着图像信息处理技术的不断进步,以及拍照设备的普及,人们对照片的处理需求不断提高,尤其是针对面部图像的修饰技术已成为电脑软件和手机软件的一个开发热点,比如:美图秀秀、人人-美颜美图、光影魔术手等。这些软件不要求用户具有专业的图像处理技术,可以方便地实现美化照片的效果。

人脸自动修饰与渲染是计算摄影领域中新的研究热点。其主要关注人脸照片品质的提高,更关注对人脸的某些属性的处理,如:对人脸皱纹的去除、肤色的改善、光洁度的提高等。人们希望经自动修饰与渲染的照片,能够符合视觉感知习惯、更具吸引力,改变传统的摄影、图像处理工作需繁复的人工操作的现状。因此,在摄影、广告设计、电影制作、数字娱乐、专业研究领域都有着广泛的应用前景。

本文对自动人脸修饰技术的研究背景、研究现状进行了综述,列举了近几年自动人脸修饰技术的主要算法,以及算法的改进、对比,最后对自动人脸修饰技术发展趋势、存在的问题、下一步的研究方向进行了阐述。

1 人脸修饰技术研究进展

1.1 基于频域滤波的方法

该算法可以实现图像中高频率瑕疵(如:皱纹、斑点)的去除,进而完成人脸的修饰,使处理后图片看上去更白、更美观,但该算法当遇到大范围皱纹、斑点等瑕疵时的处理效果不理想。

1.2 基于几何表示的方法

此外还有一些修改人脸外形的算法,通过对面部轮廓和器官作适当变形,使其更加贴近最优脸型,达到优化人脸的目的。但该类算法容易造成修改后的人脸对标准人脸的依赖,调整过大时,容易造成人脸原来特征的丢失。

1.3 基于年龄演化模型的方法

基于年龄演化模型的算法通常基于FG-NET数据库、MORPH数据库开展实验。FG-NET数据库包含了82个人,年龄从0~69岁,共有1002张照片,为包含大的年龄跨度里面收集的照片直接采自被拍摄者的老照片,因此拍摄角度、环境、光照条件都不能一致,有的照片还有帽子、眼镜等遮挡,年代很早的照片都是黑白照片,而且早期的照片,受拍照摄备所限,画面不够清晰。但FG-NET仍然是现有的人脸年龄数据库中,唯一包含了0~18岁照片的数据库,而且照片反映的年龄跨度大、且密集。

MORPH数据库是最大的、已公开的纵向人脸数据库。该数据库包含超过13000人的55000幅图像,年龄跨度在16岁到77岁之间,并且该数据库还在不断扩种中。MORPH数据库除了包含人脸照片,还包含被拍照者的年龄、性别、种族、体重、身高等信息,可供面部分析、年龄分析、面部识别的研究使用。

现阶段年龄相关的人脸数据库还很不完善,人脸图像的采集需要经历相当长时间的跟踪拍摄,这需要相当长时间的积累,并且考虑包含不同种族、性别、地域的人脸照片。

在计算机视觉领域,年龄演化问题是一个研究热点。基于年龄演化模型的自动人脸修饰技术的关键是通过各年龄段的人脸照片构建合适的年龄演化模型。

早期的基于年龄演化模型的自动人脸算法中,结合了小波变换的内容,如:参考文献[3]中,Tidderman提出了通过小波变换建立特征向量,并针对不同年龄构建合成人脸。实验结果表明,当使用小区域边缘强度加权来保留边缘特征后,根据年龄进行人脸修饰的效果更明显。对这一算法进一步改进,通过MRF模型在小波变换后进行年龄演化过程中的人脸特征学习,可以实现人脸的年轻化修饰、以及性别修改。实验结果表明,MRF模型比单纯使用小波变换对人脸的修饰效果要好。

此外,还有根据生物学、遗传学等领域的研究来建立年龄演化模型的方法。如:参考文献[4]中,Ramanathan根据生物学中颅面骨的生长规律,对0-18岁期间的人脸建立基于年龄影响的模型,融入人体测量学的方法,即:人脸不同部位在不同年龄段会有不同的生长进度,来提取不同年龄段人脸的特征。图3显示了侧面人脸随年龄增长的模型,及对应不同年龄跨度,产生的特征参数k。通过最优化计算人脸成长参数k,来实现不同年龄人脸比例的转换,图4显示了参考文献[4] 的实验结果。

针对成年人的年龄演化模型,如:参考文献[5]中,Ramanathan考虑到人的衰老,主要体现在面部肌肉的弹性变差、皱纹的增加,提出了与年龄相关的形状、纹理变化的模型,可以用来修饰人脸产生老化特征,如:额头皱纹、眼角纹、嘴角纹等。实验通过将数据库人脸按年龄分组,年龄跨度在10岁,如:21-30岁一组,31-40岁一组等,搜集的实验数据可以很好的反映随年龄、性别、种族等变化而产生的形状、纹理特征。

综上,基于年龄演化模型的自动人脸修饰技术先要对人脸数据库按年龄分组,对不同分组提取特征,得到经年龄演化修饰后的图像。实验效果很大程度上依赖于人脸数据库,为了得到好的演化效果,需要使用年龄跨度大的人脸照片。

2 总结

本文总结了国内外关于自动人脸修饰技术的算法框架,主要针对基于频域滤波的算法、基于几何表示的算法、基于年龄演化模型地算法进行了归纳,这些算法仍存在很大的改善空间,下一步研究可以考虑如下问题:

1)自动人脸修饰技术最重要的是保留人脸的个性化特征,不能在修饰后面目全非,因此如何在特征提取过程中尽量保留原照片的个性化特征,仍然需要继续探讨。

2)现阶段的自动修饰技术,会使修饰的结果和方向趋于一致,如何使美化修饰过程具有一定的个性化是一个有待进一步研究的问题。

最后,为了使自动人脸修饰技术的应用更具有利用价值,在算法的改进中不能只局限于现有的数据模型、年龄演化模型,可以跨学科地尝试、引入新的模型方法,以期在更具有实用价值的指导下设计新的算法或改进。

参考文献:

[1] 韩静亮,赵曦,赵群飞,等.基于迭代多级中值滤波的人脸美化算法[J].计算机应用与软件,2010,27(5): 227-229.

[2] Leyvand T, Cohen-Or D, Dror G, et al., Data-driven enhancement of facial attractiveness, in ACM Transactions on Graphics(TOG), 2008: 38.

[3] Tidderman B, Stirrat B, Perrett D I, Towards realism in facial image transformations: Results from a wavelet mrf method, Computer Graphics Forum,2005, vol. 24: 449-456.

篇9

关键词:智能;监控技术;安防;应用

中图分类号:TB381 文献标识码:A 文章编号:

引言

目前,传统的视频监控系统已经不能够满足快速发展的人类社会的需要,这就需要更加有效、更加智能的视频监控技术来满足人们的需求。在视频监控里所说的智能视频技术一般是指:“自动的分析和抽取视频源中的关键信息。”我们可以把摄像机比作是人的眼睛,而智能视频的系统和设备就好比是人用来思考的大脑。智能的视频技术就是运用强大的计算机数据的处理功能,高速的分析视频画面里的大量的数据,将那些对用户没用的信息过滤掉,只留下一些关键的信息。

一、智能视频监控技术及的工作原理

智能视频监控是将计算机视觉技术引入到视频监控中而产生的,目前,智能视频监控已经成为计算机视觉中一个重要的研究领域,从监控摄像头开始,包括运动对象提取、对象描述、对象跟踪、对象识别和对象的行为分析,最后进行预警或报警。

智能视频监控技术主要包括对视频图像序列自动地进行运动对象的提取、描述、跟踪、识别和行为分析等方面的内容。如果把摄像机看作人的眼睛,而智能视频系统或设备则可以看作人的大脑。智能视频监控技术就是借助计算机强大的数据处理功能,对视频画面中的海量数据进行高速分析,过滤掉监控者不关心的信息,仅仅为监控者提供有用的关键信息。智能视频监控以数字化、网络化视频监控为基础,但又有别于一般的网络化视频监控,它是一种更高端的视频监控应用。智能视频监控系统能够识别不同的物体,发现监控画面中的异常情况,并能够以最快和最佳的方式发出警报和提供有用信息,从而能够更加有效的协助安全人员处理危机,并最大限度的降低误报和漏报现象。其最终目的就是要使计算机能够分析、描述和理解视频画面中的内容。智能视频监控涉及到计算机视觉、图像视频处理和人工智能领域中的众多核心技术,是一个非常具有挑战性的困难问题。

二、智能视频监控技术的主要优势

视频监控技术的升级换代除了追求高压缩比、高清,还在从普通的视频移动侦测向视频分析迈进,具备更多面向特定应用的智能(如防丢失、风险管理、商业管理等等)。智能视频的本质就是对于视频图片进行一个数学上的分析处理,然后这个处理的结果为视频的使用者提供一个决策和行动的建议。以下是智能视频监控的主要优势:

1、快速的反应时间。毫秒级的报警触发反应时间。智能视频监控系统大大提高了报警的及时性,在事故发生的第一时间就会发出报警信号,使得事件能够在最短的事件内得以解决。

2、更有效的监视。针对广场、旅游景点等重要领域的监控范围广、人流量大,且极易发生应急事件的问题,要求高速球需具备速度快、精度高的特点,在出现警情的情况下,能够更快速、便捷的跟踪目标移动物体,从而改变普通高速球的“被动监控”的现状,实现“主动监控”。安保操作员只需要注意相关信息。

3、强大的数据检索和分析功能。能提供快速的反应时间和调查时间。智能视频监控系统能够有效提高报警精确度,大大降低误报和漏报现象的发生。智能视频监控系统的前端设备(网络摄像机和视频服务器)集成了强大的图像。

4、有效扩展视频资源的用途。无论是传统的视频监控系统还是网络视频监控系统,其所监控到的视频画面都只能应用在安全监视领域,而在智能视频系统中,这些视频资源还可以有更多的用途。

智能视频监控设备比普通的网络视频监控设备具备更加强大的图像处理能力和智能因素,因此可以为用户提供更多高级的视频分析功能,它可以极大的提高视频监控系统的能力,并使视频资源能够发挥更大的作用。

三、智能视频监控技术在安防领域的应用

1、主要安防应用类型

智能视频监控除具有一般的数字监控系统的优势外,还具有实现24×7 h全天候可靠监控、报警精确度高、响应速度快、有效扩展视频资源的用途等特点。因此,随着视频监控的普及以及监控要求的提高,智能视频监控应用范围会不断扩大。智能视频监控的应用主要分为安防类应用和非安防类应用。安防类应用是目前市场上存在的主要智能视频应用,主要包括:

(1)高级视频移动侦测:在复杂的天气环境中(例如雨雪、大雾、大风等)精确的侦测和识别单个物体或多个物体的运动情况,包括运动方向、运动特征等。

(2)人物面部识别:自动识别人物的脸部特征,并经与数据库档案的比较来识别或验证人物身份。

(3)遗留、遗弃物品检测:当一个物体(如箱子、包裹、车辆、人物等)在敏感区域停留的时间过长,或超过了预定义的时间长度就产生报警。典型应用场景包括机场、火车站、地铁站等。

(4)车辆识别:识别车辆的形状、颜色、车牌号码等特征,并反馈给监控者。可用在被盗车辆追踪等场景中。

(5)人体行为分析:在目标检测分类的基础上,利用人体的各种行为特征对其进行各种行为的描述和分析,提取哪些危险和有潜在危险的行为,如打斗、抢夺和突然倒地等行为。

(6)物体追踪:侦测到移动物体之后,根据物体的运动情况,自动发送PTZ控制指令,使摄像机能自动跟踪物体,在物体超出该摄像机监控范围之后,自动通知物体所在区域的摄像机继续进行追踪。

(7)入侵探测:可感知设定区域内突然出现和入侵的物体并及时报警。比如在戒备森严的军事重地或银行博物馆等重要场所出现可疑人物等。

(8)拥挤检测:识别人群的整体运动特征,包括速度、方向等等,用以避免形成拥塞,或及时发现异常情况。典型的应用场景包括超级市场、火车站等人员聚集的地方。

(9)物品被盗或移动检测;当监控场景中的物体被盗和移动,算法将自动检测这种动作,常用于贵重物品和关键设备的监控。

(10)焰火检测:根据发生火情过程中烟火表现出的时一空特征进行烟火的实时检测。

2、应用模式

智能视频监控技术具有2种应用模式:

(1)与传统的模拟视频监控系统结合使用,以突破传统视频监控发展中遇到的瓶颈问题。主要用于对已存在的模拟视频监控系统进行智能化改造。选择重点、高危监控目标和场所,针对该部分图像进行分析,选择智能视频服务器(IVS BOX)实现主动监控,同时将预警、警情实时发给模拟矩阵和DVR,完成快速切换和录像。

(2)基于网络的全数字化智能视频监控系统。该模式主要用于新建的数字化监控系统中。同样,选择重点、高危监控目标和场所,直接在前端选择智能视频服务器(IVS BOX),实现主动监控,将预警、警情实时发给后端智能管理平台,完成快速切换和录像。

3、实现方式

智能视频监控系统一般采用模块化的设计方式,智能视频分析模块实现对运动目标的自动检测、识别、跟踪和报警,是实现智能视频监控的核心。该模块可以部署在监控系统的前端采集部分,也可以置于监控中心。其产品形态可以是嵌入式DSP板卡的方式(板卡可以集成在视频服务器、数字录像机、摄像机等设备中),也可以是纯软件的方式。

智能视频分析模块接收上位机发送的告警规则设置;对固定摄像头摄取的图像内容进行高速分析与数据处理,实现目标检测和识别,对比预先设置的报警规则或用户设定的条件给出预警、报警或处理结果。在发现威胁目标并进行报警的同时,对目标进行自动跟踪。

结束语

智能化、数字化、网络化是视频监控发展的必然趋势,智能视频监控的出现正是这一趋势的直接体现。智能视频监控设备比普通的网络视频监控设备具备更加强大的图像处理能力和智能因素,因此可以为用户提供更多高级的视频分析功能,它可以极大地提高视频监控系统的能力,并使视频资源能够发挥更大的作用,其在安防领域的应用也必将越来越来越广泛。

参考文献:

[1]周永红.智能视频监控技术及应用[J].智能建筑与城市信息,2009,6.

[2]吕立波.浅析智能视频监控技术及其主要应用[J].中国公共安全杂志,2009,5.

篇10

关键词:字符提取;HALCON;机器视觉;图像处理

中图分类号:TP319

文献标识码:A

文章编号:16727800(2017)004008003

0引言

我国专利申请量居世界前列,每年都有数以百万项专利申请。专利号是每个专利的唯一标识,数目繁多,统计工作量巨大,人工管理专利作业不仅效率低,还容易出错。因此,设计一种自动识别专利发票上的专利申请号系统十分必要。本文以专利发票为实验对象,介绍一种票据字符提取系统。 随着计算机技术和数字图像处理技术的飞速发展,机器视觉广泛应用于生产生活中。视觉检测技术作为机器视觉的重要研究领域,不仅能提高自动化程度,还能显著提升检测的安全性与可靠性[1]。当今几乎所有需要人类视觉的场合都可以用机器视觉技术来代替,尤其对于需要快速、重复地从图像中获取精确信息的场合,机器视觉技术是实现计算机集成制造的基础技术[23]。 HALCON是德国MVtec公司开发的具有强大图像处理功能的软件,包含所有标准和高级的图像处理方法,拥有非常完善的函数库,包括定位、匹配、识别等高级算法,能够进行图像获取、模板匹配、Blob分析、边缘提取、测量、识别等[4],具有全面的视觉处理库和应用广泛的机器视觉集成开发环境。HALCON通过交互编程开发应用程序,或加入新的算子来实现视觉功能,是应用效果最好的机器视觉处理软件[2,5]。本文利用HALCON机器视觉技术设计并实现票据特定字符――专利申请号的提取。

1系统设计

基于机器视觉的专利收费票据检测系统需要对置物台上的专利收费票据进行采集和识别,最终提取出申请号字符。申请号字符提取系统主要由电源光源部分、z像机传感器单元、图像采集单元和图像处理操作平台等构成。通过调节器控制光源,摄像机传感器和图像采集单元由检测元件控制。系统架构如图1所示。

系统流程如图2所示。 申请号字符提取系统中,用CMOS数字像机进行图像采集,图像采集单元主要完成置物台上整个票据图像的获取。图像采集和处理是机器视觉系统的核心,摄像机获取的图像包含了需要的所有信息,图像质量的好坏将直接影〖HJ*3〗响系统检测效率和精度,是整个机器视觉系统的关键。光源则影响整个图像质量,合适的光源能很好地区分目标信息和背景信息,影响输入图像的质量和至少30%的应用效果[6]。根据应用需求,系统光源采用LED光源。系统工作时,采用检测触发抓拍方式获取图像,摄像机由检测元件触发控制。检测元件由光电触发器与反射板组成,它是一个反射型的触发器。当票据通过置物台时,信号强度会变化,检测元件据此输出控制信号来触发摄像机拍摄图像[7]。拍摄的图像传送到采集单元,再经过像机数据接口传输到机器视觉图像库中,利用软件中的算子功能对图像进行相应处理、识别和输出。机器视觉软件为HALCON 10.0。

2图像处理技术

采用 OCR图像处理方法检测专利收费票据申请号字符。OCR指通过图像处理和模式识别技术对光学字符进行识别,用于阅读和识别特定区域字符。基于模板机制,针对不同票据,定制不同的识别要素,专利票据为印刷票据,因此采用OCR图像处理方法对票据申请号字符进行提取,基本步骤为:获取图像预处理图像分割图像OCR匹配识别字符输出结果。

2.1获取图像

图像获取由摄像机传感器、检测元件等硬件设备和HALCON软件算子共同完成,HALCON软件首先调用open_framegrabber算子访问图像采集设备,再调用grab_image算子完成采集图像,将采集得到的图像加以保存,然后再调用read_image和dev_display把图像显示出来。票据图像如图3所示。

2.2预处理图像

为使采集的图像区域特征更加明显,目标信息更加突出,要经过一系列预处理,主要有图像增强、灰度值调节、滤波、填充缝隙、图像分割等[7]。

2.2.1图像增强与灰度值调整

调用emphasize算子,使发票上的信息显示更为明显。为了得到更清晰的申请号字符,需要将申请号信息从整个票据复杂的背景中提取出来,消除噪声,以降低后续步骤难度。采用阈值分割,调节灰度值调用threshold算子,调节灰度值过后的图像突出了申请号字符信息,见图4。

2.2.2填充缝隙与滤波 灰度值调整后的数字图像仍存在许多噪声,去除这些噪声干扰,常采用数学形态学方法进行去噪[8]。数学形态学有4个基本运算:膨胀、腐蚀、开运算和闭运算。数学形态学利用结构元素作为探针不断移动图像信息来了解图像的结构特征。为使图像数字特征更为明显,调用fill_up_shape和dilation_circle算子填充字符内部的黑色部分;对深色部分进行处理时,调用形态学opening_circle算子以抑制杂波。为满足申请号字符精准检测提取要求,在图像预处理阶段需将灰度值调整、填充缝隙、滤波等3种处理方式相互协调使用。

2.3申请号定位与分割图像

申请号字符定位算法是整个字符识别的核心,从专利票据可以看到许多数字组合,但是申请号的位数是固定的,而且距离整个方框中心最近。基于此,可以根据申请号的长度定位申请号,但最下排汉字会存在干扰,如图5所示绿色部分。 通过申请号的方框两条竖线定位中心,寻找距离中心较近目标,即为申请号位置,见图5。HALCON主要程序如下:MiddleColumnSum:=0 for i := 1 to NumIntermediate2 by 1 MiddleColumnSum:=(Row22[i-1]+Row21[i-1])/2+MiddleColumnSum endfor MiddleColumn:= MiddleColumnSum/NumIntermediate2 **寻找与竖线中心坐标最接近的目标,即为申请号devbig:=0 dev:=0 for i := 1 to NumIntermediate3 by 1 dev :=(Row22[i-1]+Row21[i-1])/2 if(dev>devbig) devbig:=dev n:=i endif endfor

确定申请号位置后,单独分割提出申请号部分图像,见图6,再应用图像处理技术,对申请号字符串进行分割。首先进行图像分割,通过对原始图像进行某种方式的分割处理,提取图像的某些特征,最常用的方法是阈值分割[910]。经过处理后,申请号字符可能存在一些微小的断裂,此时调用closing_circle算子以连接这些微小断裂,减少误识别。因为申请号字符水平排列成一排,可以调用closing_rectanglel算子将申请号字符在水平方向合并成一个整目标,调用connection算子把合并后的目标区域转换为一个个分离的对象,采用联合与分割方法分开字符,调用intersection算子和connection算子得到分割好的底滞枷瘛>过以上步骤,整个申请号字符基本上能够清晰地显示出来,再使用sort_region算子将数字排列,调用region_to_bin算子把区域转化成二值图像,最后将图像显示出来,结果如图7所示。

2.4OCR匹配

在HALCON软件中进行OCR图像处理和识别:根据申请号字符特征,将经过处理后的图像与已知 “模板”进行比对,把置信度最高的值返回到class中,进行自动识别然后输出结果。字符检测提取 “模板”非常重要,它将决定最后匹配结果的精准度。申请号一般是非常简单的数字和字母组合,所以本系统采用HALCON自带的OCR模板库即可。但是如果想识别其它文字等符号,则需要使用函数库,或者创建及训练ORC分类器,即建立相应的“模板”。

2.5识别字符

采用模板匹配法识别字符。将待识别的字符逐个与建立好的模板字符匹配。识别过程就是利用模板,对要识别的对象进行图形处理,最后通过OCR模板匹配度算子得到结果。 首先调用read_ocr_class_mlp算子读取分类文件,读取 HALCON 自带的 'Industrial_0-9A-Z.omc' 模板文件。do_ocr_multi_class_mlp算子将最终处理后得到的图像与模板逐一匹配,得到匹配结果和匹配置信度,再调用smallest_rectangle1算子提取特征,得到该图像上的字符方位,为后面定位操作提供参考。最后选择一个起始位置显示识别结果,这里要用到set_tposition 和write_string 两个算子。程序运行结果见图8。

3结语

票据特殊字符人工提取不仅工作量大、速度慢,而且枯燥乏味,容易因疏忽导致错误。本文将机器视觉技术应用到专利票据申请号提取中,能准确识别出专利发票收据上的申请号,实现了自动快速检测提取,大幅降低了成本,提高了效率和准确度。此技术还可识别增值税发票等不同种类票据,在财务管理等领域用途广泛。

参考文献:[1]赵杰文,陈振涛,邹小波.机器视觉实现方便面破损在线检测的研究[J].微计算机信息,2007,23(10):238240.

[2]孙怀远,廖跃华,周夫之,等.基于HALCON的药品包装瓶批号检测技术研究[J].包装工程,2008,29(8):7173.[3]彭晓辉.基于HALCON的IC卡喷码符号识别技术研究与实现[D].广州:广东工业大学,2006.

[4]肖海俊,葛广英,姚坤,等.基于HALCON的喷码字符识别技术的研究与实现[J].现代电子技术,2015,38(15):9598.

[5]郭佳寅,岳秀江,吴双,等.基于HALCON的乳制品箱体喷码字符识别方法研究[J].制造业自动化,2013(3):2122.

[6]杨莉,潘丰.基于机器视觉的硬盘磁体检测系统设计[J].江南大学学报:自然科学版,2012,11(5):505-508.[7]孙怀远,杨丽英,周夫之.基于机器视觉技术的药品瓶包装在线检测系统[J].自动化与控制,2011(2):4650.[8]春霞,魏敏,唐正宁.基于数学形态学的印刷网点图像分割方法[J].包装工程,2007,28(6):14-15,36.