计算机视觉基本原理范文

时间:2023-12-22 18:04:30

导语:如何才能写好一篇计算机视觉基本原理,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

计算机视觉基本原理

篇1

1、引言

随着经济的迅猛发展,汽车的迅速普及,根据社会对汽车产业的要求,车辆的各方面指标都受到人们越来越多地关注,汽车涂装过程中的瑕疵直接影响汽车的外观质量,因此如何在生产过程中利用计算机视觉检测技术检测出并及时修补汽车涂装过程中产生的瑕疵就成了首要的任务[1]。本文的研究内容是首先了解计算机视觉检测系统的工作原理,汽车涂装瑕疵的种类,然后结合两者的特点,应用计算机视觉检测系统检测汽车涂装瑕疵。该研究的价值在于两方面:①对于汽车生产的自动化和过程自动化,计算机视觉是现实真正意义的自动的基础和一种重要的质量控制的手段;②对于汽车涂装瑕疵的修补可以提高其修补的精度。

2、汽车涂装瑕疵的计算机视觉检测系统

汽车涂装瑕疵检测系统主要包括照明系统、图像采集卡、CCD摄像机、计算机以及软件处理等几个主要部分[2]。综合计算机视觉检测系统的构成和线结构光测量的原理,基于计算机视觉的汽车涂装瑕疵的检测系统大致是这样构成的:将线结构光投射到被测物上,所形成的光斑作为传感信号,用CCD摄像机采集光斑图像,采集到的图像信号被传输到计算机,根据图像处理和计算机视觉检测系统的处理产生处理结果,返回到涂装生产线,对车身的涂装进行修正,从而提高产品质量。汽车涂装瑕疵的视觉检测系统如图1所示[3]。

3、计算机视觉检测

计算机视觉是计算机对图像进行自动处理并报告“图像中有什么”的过程,也就是说它识别图像中的内容。图像中的内容往往是某些机器零件,而处理的目标不仅要能对机器零件定位,还要能对其进行检验。计算机视觉系统基本原理:机器视觉系统通常采用CCD相机摄取图像,将其转化为数字信号,再采用先进的计算机硬件与软件技术对图像数字信号进行处理,从而得到所需要的各种目标图像特征值,并在此基础上实现模式识别、坐标计算、灰度分布图等多种功能。计算机视觉系统能够根据其检测结果快速地显示图像、输出数据、指令,执行机构可以配合其完成指令的实施。计算机视觉系统主要由图像获取、图像分析和处理、输出显示或控制三个功能模块组成[4]。视觉检测按其所处理的数据类型可分为二值图像、灰度图像、彩色图像和深度图像的视觉检测。另外,还有X射线检测、超声波检测和红外线检测。一个完整视觉检测系统包括:图像采集、图像分割、零件识别、模型匹配和决策判断。Newman[5]等描述了利用深度图像进行零件检测的AVI系统,具有一定的代表性。一个典型的AVI系统如图2所示。

4、汽车涂装瑕疵的检测算法

由于汽车涂膜中一些缺陷的边界比较模糊,例如:气泡、爆裂气泡孔、气泡针孔、抽缩等等。边缘处灰度变化很小,直接用传统的微分边缘检测算法无法有效的检测出来。所以对缺陷模糊边缘的检测成为了算法的关键[6]。本文介绍了基于线结构光的边缘检测方法。汽车涂装表面被光源投射器发出的线结构光照射,反射出的图像被CCD摄像机所接收传输到计算机视觉检测系统中。若涂装表面没有瑕疵,则产生图3的图像。若涂装表面有瑕疵,则产生图4的图像[7]。

篇2

关键词:三维点云;配准;迭代最近点

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)31-7568-03

在计算机应用领域,三维点云数据的配准对解决曲线曲面匹配、图像拼接、三维重建、计算机辅助文物复原等问题至关重要。以计算机辅助文物碎片拼接为例,在过去十年间有很多研究项目需要获取文物详细的三维表示,但是通过三维扫描设备获取的多个扫描需要采取一定的技术恢复每个扫描的相对视点,然后将多个扫描融合到一个最终的模型。这一过程就是三维点云数据的配准,它是获取文物准确的三维表示的关键步骤。1992年,Besl和Mckay提出了一种基于几何模型的三维物体配准算法——迭代最近点算法[1]。近年来,伴随着三维扫描技术的不断进步,该算法得到了广泛应用,也吸引了众多研究者的目光。许多研究者对该算法进行了系统的研究,分析了该算法的特点与不足,提出了各种改进算法。国外学者Michael Wild[2]回顾了2002年到2007年ICP算法的发展;介绍了ICP算法的流程并对几种改进算法做了详细的分析和比较;最后介绍了该算法在放射疗法中的应用。近几年,ICP算法的研究改进以及应用仍然是国内外众多学者热衷的一个研究方向,这从发表在IEEE上的论文数量即可看出。本文详细总结了ICP算法的基本原理,然后从数据采样、特征点选取与点对权重、非重叠区域检测、兼容性约束四个方面对几种改进算法进行了系统而详细的分析与研究。总结了这些算法的基本思想和特点,这些工作对后期的研究将会起到重要的作用。

1 ICP算法的基本原理

篇3

关键词:嵌入式;GUI;QT;OpenCV

中图分类号:TP368.1

1 目前主流的嵌入式GUI

GUI技术是嵌入式的关键技术之一,其直接关系到产品的界面友好性程度,最终影响到产品的竞争力。

目前主流的嵌入式GUI主要有以下几种:

Microwindows的体系结构由上至下,分别为API层、图形引擎层、驱动层、硬件层,用户可以根据具体的应用需求来实现每一个层。

MiniGUI的实现主要依赖于标准C的库函数,它可以任意在支持标准C的环境上运行,MiniGUI很小巧但也很高效。MiniGUI主要应用在一些中低端设备中。

2 QT的搭建

由于QT具有跨平台的特性,所以一般开发可以在windows下开发,再移植到Linux中,本文重点介绍QT在Windows下的使用。

QT的开发环境包括以下几部分:QT的GUI库,QT creator,windows版本还包含编译器,可以是Microsoft visual stdio c++,还可以是MinGW,本文中使用的是MinGW。

搭建QT开发环境包括以下几部分:(1)下载安装MinGW编译器,该编译器支持Gcc和G++。(2)下载安装qt-creator-win-opensource。(3)为QT、MinGW、qmake添加环境变量。

3 OpenCV的安装配置

3.1 OpenCV简介。QT中本身也支持视频处理,但功能十分有限,如果需要更强大的视频处理功能,需要引入OpenCV(open source computer vision library),即开源计算机视觉库。

3.2 OpenCV的优点:(1)开源。OpenCV完全遵循BSD协议(五大开源许可协议之一),具有极高的开放性。(2)跨平台。OpenCV支持Windows、Linux,Mac,可以轻松实现平台之间的移植。(3)效率高,速度快。由于OpenCV采用C++实现,并且算法经过优化,效率有较大程度的提高,执行的速度也比较快。(4)涵盖面广、功能强大。OpenCV主要有13个模块构成,涵盖了计算机视觉的各个方面,在相关方面基本都应用。

3.3 OpenCV的安装配置:(1)前提是QT已经安装配置成功。(2)下载OpenCV。下载OpenCV后,解压即可,实际上并不需要安装,注意解压路径不能有空格,否则会出错。(3)下载安装CMake。OpenCV只是一个库,并不能直接拿来使用,需要借助CMake将其编译后才可以使用。(4)配置CMake参数,进行编译。使用CMake,主要是设定OpenCV的输入路径、输出路径、MinGW的位置等相关信息。运行CMake之后,需要在命令提示符下进入输出路径,然后执行mingw32-make命令,由MinGW对OpenCV进行编译,其间会耗费一定的时间。此步骤成功后,再执行mingw32-make install命令,会把编译好的所有文放到这个文件夹下,这个就是将来开发要用到的OpenCV全部文件。(5)将上一步骤得到的install目录bin文件夹,添加到系统的环境变量中,重新启动电脑。(6)在QT工程中,打开.pro工程属性文件,将OpenCV添加到INCLUDEPATH和LIBS中后,就可以在QT开发中使用OpenCV计算机视觉库了。

4 在QT中通过OpenCV实现视频处理

4.1 实现的基本原理。在视频处理中主要用到OpenCV的highgui模块,该模块,前面已说过,主要完成视频捕捉、编码,图片处理等相关功能。

highgui模块中已经封装了视频、图像、窗口的所有操作。

首先,利用OpenCV建立窗口,然后打开摄像头,获取摄像头中的帧,然后申请IplImage类型的指针,将帧放入指针指向的内存空间,此时的只是静止的图像而已,为了符合我们人眼的观看习惯,再通过循环,达到每秒钟显示30次左右的效果,与放电影的原理基本一样,最终显示到窗口,看到就是动态的视频效果,使用完之后释放内存,释放窗口即可。

5 总结

嵌入式技术在当前的大环境下得到了快速发展,随着硬件设备性能的不断提高,高性能的嵌入式程序会越来越广泛地被使用,而QT恰好与这个大环境相吻合,同时OpenCV的出现对QT也是一个促进,QT+OpenCV模式在未来嵌入式视频处理中会广泛地被使用。

参考文献:

[1]彭均键,史步海,刘洋.基于Qt的嵌入式GUI开发平台的搭建[J].微型电脑应用,2010,2.

[2]郭晖,陈光.基于OpenCV的视频图像处理应用研究[J].微型机与应用,2010,21.

[3]秦小文,温志芳,乔维维.基于OpenCV的图像处理[J].电子测试,2011-7.

[4]许生模,余敏.嵌入式QT的内核分析与优化[J].微计算机信息,2007-10.

[5]陈峰,郭爽,赵欣.基于QT和嵌入式的视频监控系统[J].通信技术,2011,10.

篇4

【关键词】量子计算;量子计算机;量子算法;量子信息处理

1、引言

在人类刚刚跨入21山_纪的时刻,!日_界科技的重大突破之一就是量子计算机的诞生。德国科学家已在实验室研制成功5个量子位的量子计算机,而美国LosAlamos国家实验室正在进行7个量子位的量子计算机的试验。它预示着人类的信息处理技术将会再一次发生巨大的飞跃,而研究面向量子计算机以量子计算为基础的量子信息处理技术已成为一项十分紧迫的任务。

2、子计算的物理背景

任何计算装置都是一个物理系统。量子计算机足根据物理系统的量子力学性质和规律执行计算任务的装置。量子计算足以量子计算目L为背景的计算。是在量了力。4个公设(postulate)下做出的代数抽象。Feylllilitn认为,量子足一种既不具有经典耗子性,亦不具有经典渡动性的物理客体(例如光子)。亦有人将量子解释为一种量,它反映了一些物理量(如轨道能级)的取值的离散性。其离散值之问的差值(未必为定值)定义为量子。按照量子力学原理,某些粒子存在若干离散的能量分布。称为能级。而某个物理客体(如电子)在另一个客体(姻原子棱)的离散能级之间跃迁(transition。粒子在不同能量级分布中的能级转移过程)时将会吸收或发出另一种物理客体(如光子),该物理客体所携带的能量的值恰好是发生跃迁的两个能级的差值。这使得物理“客体”和物理“量”之问产生了一个相互沟通和转化的桥梁;爱因斯坦的质能转换关系也提示了物质和能量在一定条件下是可以相互转化的因此。量子的这两种定义方式是对市统并可以相互转化的。量子的某些独特的性质为量了计算的优越性提供了基础。

3、量子计算机的特征

量子计算机,首先是能实现量子计算的机器,是以原子量子态为记忆单元、开关电路和信息储存形式,以量子动力学演化为信息传递与加工基础的量子通讯与量子计算,是指组成计算机硬件的各种元件达到原子级尺寸,其体积不到现在同类元件的1%。量子计算机是一物理系统,它能存储和处理关于量子力学变量的信息。量子计算机遵从的基本原理是量子力学原理:量子力学变量的分立特性、态迭加原理和量子相干性。信息的量子就是量子位,一位信息不是0就是1,量子力学变量的分立特性使它们可以记录信息:即能存储、写入、读出信息,信息的一个量子位是一个二能级(或二态)系统,所以一个量子位可用一自旋为1/2的粒子来表示,即粒子的自旋向上表示1,自旋向下表示0;或者用一光子的两个极化方向来表示0和1;或用一原子的基态代表0第一激发态代表1。就是说在量子计算机中,量子信息是存储在单个的自旋’、光子或原子上的。对光子来说,可以利用Kerr非线性作用来转动一光束使之线性极化,以获取写入、读出;对自旋来说,则是把电子(或核)置于磁场中,通过磁共振技术来获取量子信息的读出、写入;而写入和读出一个原子存储的信息位则是用一激光脉冲照射此原子来完成的。量子计算机使用两个量子寄存器,第一个为输入寄存器,第二个为输出寄存器。函数的演化由幺正演化算符通过量子逻辑门的操作来实现。单量子位算符实现一个量子位的翻转。两量子位算符,其中一个是控制位,它确定在什么情况下目标位才发生改变;另一个是目标位,它确定目标位如何改变;翻转或相位移动。还有多位量子逻辑门,种类很多。要说清楚量子计算,首先看经典计算。经典计算机从物理上可以被描述为对输入信号序列按一定算法进行交换的机器,其算法由计算机的内部逻辑电路来实现。经典计算机具有如下特点:

a)其输入态和输出态都是经典信号,用量子力学的语言来描述,也即是:其输入态和输出态都是某一力学量的本征态。如输入二进制序列0110110,用量子记号,即10110110>。所有的输入态均相互正交。对经典计算机不可能输入如下叠加Cl10110110>+C2I1001001>。

b)经典计算机内部的每一步变换都将正交态演化为正交态,而一般的量子变换没有这个性质,因此,经典计算机中的变换(或计算)只对应一类特殊集。

相应于经典计算机的以上两个限制,量子计算机分别作了推广。量子计算机的输入用一个具有有限能级的量子系统来描述,如二能级系统(称为量子比特),量子计算机的变换(即量子计算)包括所有可能的幺正变换。因此量子计算机的特点为:

a)量子计算机的输入态和输出态为一般的叠加态,其相互之间通常不正交;

b)量子计算机中的变换为所有可能的幺正变换。得出输出态之后,量子计算机对输出态进行一定的测量,给出计算结果。由此可见,量子计算对经典计算作了极大的扩充,经典计算是一类特殊的量子计算。量子计算最本质的特征为量子叠加性和相干性。量子计算机对每一个叠加分量实现的变换相当于一种经典计算,所有这些经典计算同时完成,并按一定的概率振幅叠加起来,给出量子计算的输出结果。这种计算称为量子并行计算,量子并行处理大大提高了量子计算机的效率,使得其可以完成经典计算机无法完成的工作,这是量子计算机的优越性之一。

4、量子计算机的应用

量子计算机惊人的运算能使其能够应用于电子、航空、航人、人文、地质、生物、材料等几乎各个学科领域,尤其是信息领域更是迫切需要量子计算机来完成大量数据处理的工作。信息技术与量子计算必然走向结合,形成新兴的量子信息处理技术。目前,在信息技术领域有许多理论上非常有效的信息处理方法和技术,由于运算量庞大,导致实时性差,不能满足实际需要,因此制约了信息技术的发展。量子计算机自然成为继续推动计算速度提高,进而引导各个学科全面进步的有效途径之一。在目前量子计算机还未进入实际应用的情况下,深入地研究量子算法是量子信息处理领域中的主要发展方向,其研究重点有以下三个方面;

(1)深刻领悟现有量子算法的木质,从中提取能够完成特定功能的量子算法模块,用其代替经典算法中的相应部分,以便尽可能地减少现有算法的运算量;

(2)以现有的量子算法为基础,着手研究新型的应用面更广的信息处理量子算法;

(3)利用现有的计算条件,尽量模拟量子计算机的真实运算环境,用来验证和开发新的算法。

5、量子计算机的应用前景

目前经典的计算机可以进行复杂计算,解决很多难题。但依然存在一些难解问题,它们的计算需要耗费大量的时间和资源,以致在宇宙时间内无法完成。量子计算研究的一个重要方向就是致力于这类问题的量子算法研究。量子计算机首先可用于因子分解。因子分解对于经典计算机而言是难解问题,以至于它成为共钥加密算法的理论基础。按照Shor的量子算法,量子计算机能够以多项式时间完成大数质因子的分解。量子计算机还可用于数据库的搜索。1996年,Grover发现了未加整理数据库搜索的Grover迭代量子算法。使用这种算法,在量子计算机上可以实现对未加整理数据库Ⅳ的平方根量级加速搜索,而且用这种加速搜索有可能解决经典上所谓的NP问题。量子计算机另一个重要的应用是计算机视觉,计算机视觉是一种通过二维图像理解三维世界的结构和特性的人工智能。计算机视觉的一个重要领域是图像处理和模式识别。由于图像包含的数据量很大,以致不得不对图像数据进行压缩。这种压缩必然会损失一部分原始信息。

作者简介:

篇5

[关键词] 数字图像、编码编码方法

中图分类号:TN131+.4 文献标识码:A 文章编号:

1 引言

数字图像处理又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。早期图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像。常见的图像处理有图像数字化、图像编码、图像增强、图像复原、图像分割与图像分析等。图像编码是对图像信息进行编码,可以压缩图像的信息量,以便满足传输与存储的要求。本文主要介绍了图像编码的基本原理和技术方法。

一幅二维数字图像可以由一个二维亮度函数通过采样和量化后而得到的一个二维数组表示。这样一个二维数组的数据量通常很大,从而对存储、处理和传输都带来了许多问题,提出了许多新的要求。为此人们试图采用对图像新的表达方法以减少表示一幅图像需要的数据量,这就是图像编码所要解决的主要问题。压缩数据量的主要方法是消除冗余数据,从数学角度来讲是要将原始图像转化为从统计角度看尽可能不相关的数据集。这个转换要在图像进行存储、处理和传输之前进行,然后将压缩了的图像解压缩以重建原始图像,即通常所称的图像编码和图像解码。

2 传统编码方法

传统的编码方法可以分成两大类,预测编码方法(对应空域方法)和变换编码方法(对应频域编码方法)。预测编码方法的优点是:算法一般较简单,易于用硬件实现;缺点是:压缩比不够大,承受误码的能力较差。由于它采用的最小均方误差准则不能反映人眼的视觉心理特性,近年来已较少单独采用,而是与其他方法混合使用。另外,由于DPCM编码系统会引起斜率过载、界线繁忙、颗粒噪声和轮廓噪声,在使用中应加以考虑。变换编码方法的优点是:压缩比高、承受误码能力强;缺点是:算法较复杂。

3 现代编码方法

31 第二代图像编码方法

第二代图像编码方法[2]是针对传统编码方法中没有考虑人眼对轮廓、边缘的特殊敏感性和方向感知特性而提出的。它认为传统的第一代编码技术以信息论和数字信号处理技术为理论基础,出发点是消除图像数据的统计冗余信息,包括信息熵冗余、空间冗余和时间冗余。其编码压缩图像数据的能力已接近极限,压缩比难以提高。第二代图像编码方法充分利用人眼视觉系统的生理和心理视觉冗余特性以及信源的各种性质以期获得高压缩比,这类方法一般要对图像进行预处理,将图像数据根据视觉敏感性进行分割。

按处理方法的不同,第二代图像编码方法可分为两种典型的编码技术[3]:一种是基于分裂合并的方法,先将图像分为纹理和边缘轮廓,然后各自采用不同的方法编码;另一种是基于各向异性滤波器的方法,先对图像进行方向性滤波,得到不同方向的图像信息,再根据人眼的方向敏感性对各个通道采用特定的方法单独编码。

32 分形图像编码

分形图像编码是在分形几何理论的基础上发展起来的一种编码方法。分形理论是欧氏几何相关理论的扩展,是研究不规则图形和混沌运动的一门新科学。它描述了自然界物体的自相似性,这种自相似性可以是确定的,也可以是统计意义上的。这一理论基础决定了它只有对具备明显自相似性或统计自相似性的图像,例如海岸线、云彩、大树等才有较高的编码效率。而一般图像不具有这一特性,因此编码效率与图像性质学特性有关,而且分形图像编码方法实质上是通过消除图像的几何冗余来压缩数据的,根本没有考虑人眼视觉特性的作用。

33 基于模型的图像编码

基于模型的图像编码技术[4]是近几年发展起来的一种很有前途的编码方法。它利用了计算机视觉和计算机图形学中的方法和理论,其基本出发点是在编、解码两端分别建立起相同的模型,针对输入的图像提取模型参数,或根据模型参数重建图像。模型编码方法的核心是建模和提取模型参数,其中模型的选取、描述和建立是决定模型编码质量的关键因素。为了对图像数据建模,一般要求对输入图像要有某些先验知识。

基于模型的图像编码方法是利用先验模型来抽取图像中的主要信息,并以模型参数的形式表示它们,因此可以获得很高的压缩比。然而在模型编码方法的研究中还存在很多问题,例如:①模型法需要先验知识,不适合一般的应用;②对不同的应用所建模型是不一样的;③在线框模型中控制点的个数不易确定,还未找到有效的方法能根据图像内容来选取;④由于利用模型法压缩后复原图像的大部分是用图形学的方法产生的,因此看起来不够自然;⑤传统的误差评估准则不适合用于对模型编码的评价。

34小波图像编码

一维连续小波变换可看成原始信号和一组不同尺度的小波带通滤波器的滤波运算,从而可把信号分解到一系列频带上进行分析处理。将其离散化后即为离散小波变换。小波变换图像编码压缩[6]的核心问题是要对子带图像进行小波分解系数的量化和编码。低频子带图像包含原图像的大部分能量,即包含图像的基本特性。它在图像重构算法中起主导作用,对重建图像的质量有很大影响,因此这部分信号应精确保留。

高频子图像的系数分布符合广义高斯分布,对其系数进行粗量化编码较为有效。这也完全符合人的视觉特性,根据对人眼视觉系统的研究可知,人眼视觉灵敏度具有明显的低通特性,而且对不同方向上的敏感度也不一样,尤其是对倾斜方向的刺激不太敏感,如人眼对对角线方向子图像系数误差敏感度较低,因此可对对角线方向子图像进行粗量化高压缩。

小波变换后的能量主要集中在低频系数分量,而其他高频系数分量大多为零值,这为高倍率压缩提供了可能。通过选择合适的具有平滑特性小波基,就可消除重建图像中出现的方块效应,减小量化噪声,获得较好的重建图像质量。

小波变换图像编码压缩方法可分为如下两大类:基于传统的图像编码方法和基于分形理论的小波变换图像编码方法。

基于传统的图像编码方法[7]包括:零树小波编码、基于塔式网络矢量量化的小波变换编码、基于LBG算法的小波变换编码、基于标量量化的小波变换编码等。

由于不同分辨率级子图像之间存在着相似性,因此,利用此相似性,可提高压缩比[8]。J.M.Shapiro采用零树自嵌套编码方法,对小波分解系数进行压缩,在PSNR=27.54dB的情况下,获得压缩比为128∶1。这是最著名的一种小波变换图像编码压缩方法。该方法的优点是:与传统的DCT编码相比,它既可以克服方块效应,又可以在低比特率下获得较好的图像主观质量。缺点是:由于它对各子带采用相同的门限量化,因此不能充分利用人眼的视觉特性,限制了图像压缩比的进一步提高。对此,A.Said等人提出了改进算法。

针对分形图像编码尚存在的缺点,如编码算法的耗时、自然图像不一定具有严格的分形结构而无法达到预期的高压缩比、高压缩倍率时的方块效应等,有人提出了基于小波变换的分形编码[9]。它具有以下特点:①采用平滑小波可去除传统分形变换中存在的方块效应;②小波表示使图像的四叉树分割十分自然;③可将零树算法看成是该算法的一个特例。图像经过金字塔形离散小波变换后的系数在小波域内可组成分层树状数据结构小波树。这些跨越不同分辨率的小波树之间存在一定的相似性,可通过分形变换来描述。基于小波变换的分形压缩过程就是一个由分层树状结构的顶部开始一层层地向下预测其余系统的过程,而这个由上至下、由粗至细的预测过程是通过分形编码来实现的。基于小波变换的图像编码压缩的特点是[10]:压缩比高、压缩速度快,压缩后能保持信号与图像的特征不变,且在传递过程中就可以抗干扰。从现在的研究结果可看到,该方法已获得了较好的编码效果,是现代图像压缩技术研究的热点之一,也是十分有前途的一种方法。

4结束语

本研究介绍了图像编码的基本原理,传统的图像编码方法和几种比较新的编码方法。第二代图像编码将视觉特性引入到图像编码技术,分形图像编码是以分形几何理论为基础,基于模型的图像编码是利用了计算机视觉和计算机图形学中的理论,而小波变换图像编码则引入了小波分析理论。尽管它们理论基础不同,但它们均在不同情况下不同程度地提高了编码质量。相比之下,小波变换图像编码是一种性能更佳的图像编码方法,仅从去除冗余信息的角度而言,它的性能就远远优于其他几种编码方法。另外,将小波变换与其他的新型编码方法结合,也是小波图像编码方法的重要研究方向。

参考文献

1 万建伟,黄埔堪,周良柱,梁甸农图像编码技术的发展系统工程与电子技术,1996,5:31~38

2 张雪松,倪国强,周立伟,金伟其图像编码技术发展综述光学技术,1997,3:37~41

3 曹宁,吴琰,冯晔模型基方法在图像编码中的应用与改进河海大学学报,1997,25(6):97~102

4 陈红丽几种新型的图像编码技术淮北煤师院学报,2001,22(2):28~30

5 吴谨图像编码与小波变换图像编码武汉科技大学学报(自然科学版),2000,23(3):289~292

6 陈雷霆,吉家成,傅志中,梁福成小波图像编码与JPEG图像编码的比较研究计算机应用,2000,20(增刊):273~277

7 唐良瑞小波图像编码技术的研究北方工业大学学报,2001,13(3):9~13

篇6

关键词:双目立体视觉;立体匹配;光流

中图分类号:TP391.41 文献标识码:A 文章编号:1674-7712 (2013) 20-0000-02

一、引言

双目立体视觉在机器人导航、微操作系统的参数检测、三维测量和虚拟现实等领域都有广泛的应用,它是计算机视觉的一个重要分支。它主要是由不同位置的左右两个摄像机同时获得同一场景的两幅图,通过计算空间点在两幅图像中的视差,获得该点的三维信息。立体匹配算法的目的就是找出左右图像对中的匹配点,进而获得距离信息,其基本原理就是从两个视点同时观察同一景物以获取立体像对,并匹配出相应像点,从而计算出视差并获得三维信息。

考虑到光流这种运动速度,不仅包含了二维瞬时速度场,还可以反映可见点的三维速度矢量在成像表面得投影,提出了一种融合光流的立体匹配算法。该方法在基于区域相关匹配的基础上,求取左右运动目标的光流,用光流作为一种外加限制条件进行立体匹配。首先分别求取左右图像序列中垂直和水平方向上的光流,然后通过对右图像序列中候选点的光流的计算与左图像序列中的种子点进行匹配,进而提高了匹配的精度和准确度;而且该算法只选用边缘点进行匹配,这样简化了运算,提高了算法的运行速度。

二、求取光流

三、实验

图1显示了在连续时间帧里获得的两对立体图像对,图2显示了在50帧时边缘检测结果。然后用这两幅图像中的边缘点作为种子点在第二个立体图像对(也就是下一帧)中寻找相关点,这样就可以在连续的图像序列中进行相关性研究。图3中给出了光流的计算,把每个边缘点的光流都分解为水平(X)和垂直(Y)方向的位移,其中(a),(b)图显示了左右图像的水平位移,而(c),(d)显示了垂直位移。

采用融入光流的匹配方法,不仅测量了互相关系数,还测量了待估计的两点水平及垂直位移,这样就可以避免光照和摄像机本身移动的问题。视差图反应的是目标离摄像机的远近,离摄像机越近,视差越大,表现在灰度图中越亮,反之,离摄像机越远,视差越小,表现在灰度图中越暗。图4中的(a),(b)分别为没有融合光流和融合光流之后的视差图,从图中可以明显的发现,没有融合的视差图中有很多地方出现误匹配,而融合光流之后的视差图更为清晰,消除了伪匹配点。

四、总结

本文通过对传统匹配算法的分析,提出了一种融合光流的立体匹配算法,该算法是在区域相关立体匹配的基础上附加上了光流作为限制条件,使得匹配更为准确迅速。实验结果表明了该算法的有效性,不仅缩小了匹配搜索空间,提高了匹配的速度与准确度,而且可以有效的克服光照等外部环境的干扰,消除误匹配点。

参考文献:

[1]刘金颂.双目立体视觉中的摄像机标定技术研究[J].计算机工程与应用,2008,44(6).

[2]梁元月.基于双目立体视觉的工件识别定位方法研究[D].西安理工大学,2008.

[3]白明,庄严,王伟.双目立体匹配算法研究与进展[J].控制与决策,2008.

篇7

关键词: 目标检测; 全局运动估计; 角点; 奇异值分解

中图分类号: TN911.73?34 文献标识码: A 文章编号: 1004?373X(2016)07?0066?05

Abstract: To resolve the indistinct background problem caused by dynamic camera behavior, and in combination with the global motion estimation algorithm of angular point distance feature, the maximum interclass variance method is introduced into the RANSAC estimation algorithm to improve the common RANSAC algorithm. The moving object detection algorithm based on difference multiply principle is used to detect and locate the moving object in object detection process. Aiming at the object detection of follow?up frame sequence of the obtained object location, the moving target detection algorithm based on angular point marching of improved singular value decomposition is proposed. The experimental results demonstrate that the proposed algorithm has good background motion compensation effect in dynamic background, and can accurately detect the moving target of the follow?up frame sequence in the subsequent measured dynamic background measurement. The algorithm has good robustness.

Keywords: target detection; global motion estimation; angular point; singular value decomposition

0 引 言

运动目标检测是计算机视觉最主要的研究方向和难点之一[1?2],主要涉及到图像理解、模式识别、人工智能、自动控制和机器视觉等有关专业学科和领域的知识,并且已经被广泛地应用到很多场合 [3]。运动目标检测为后续的目标跟踪和目标识别奠定了良好的基础。在现实生活中,大量有意义的视觉信息包含在运动之中,人类可以凭借自身强大的视觉系统获取80%的信息[4],通过大脑的分析判断出运动目标,而对于计算机视觉而言,从获取视频到分析出运动的物体成为关键问题。

基于视频的目标检测系统具有结构简单、隐蔽性好、抗干扰能力强的优点,而且视频检测系统采用价格低廉的摄像机和光学成像结构,具有更高的性价比。通过摄像机采集回来的图像信息,可以获得关于运动目标的丰富信息,具有很高的直观性和可靠性。因此,研究运动目标检测的有关问题,在理论上和应用价值上都具有重要的意义。

1 基于角点矩特征的背景运动补偿算法

1.1 基于Harris算子的角点矩特征的提取及匹配设计

Harris[5]算子是在 Moravec算子的基础上进行改进的。因此,它也是一种基于信号的特征点提取算子。通过在图像位置建立局部窗口,监测窗口各个方向的能量数值和变化。对图像亮度改变具有无关性,算法只关注梯度。因此系统运动后只发生了方向的改变,系统具有旋转稳定性。同时,Harris特征点提取算子适用于角点数目较多并且光源复杂的情况。但是,Harris角点不具有尺度不变性。因此本文引入不变矩特征对其进行改良。Hu最早提出了几何矩特征,1962年,他在几何不变量理论的基础上提出了几何矩的概念[6]。Hu构造了7个不变矩并证明了相应的矩组对于平移、旋转和缩放变换的不变性。

本文将角点和矩特征进行结合,以弥补Harris角点不具备缩放不变性的缺点,提高角点的稳定性,从而可以实现在视频序列中存在平移、旋转和缩放时,具有一种稳定的特征进行全局运动估计和补偿,最终实现准确的运动目标检测。在视频序列中角点矩特征的提取步骤主要分为:

(1) 在每一帧图像中提取Harris角点;

(2) 在获得角点的[W×W]的邻域内进行矩特征的计算,即得到一个7维的图像特征向量。

在实现角点矩特征向量的提取后,需要对已提取的特征向量进行帧间的匹配。角点矩特征向量的匹配原理是:视频序列中存在仿射变换时,矩特征对仿射变换具有不变性,因此对应角点特征向量的矩值是相等的或者是相近的,对于误匹配的角点向量的矩值存在较大变化。

本文中采用计算特征向量之间的欧式距离进行角点矩特征的匹配。即寻找特征向量在待匹配向量集中与其欧式距离最小的向量且该距离小于设定阈值[T,]如果满足条件则该特征向量对相互匹配,否则从初匹配特征向量集中删除该特征向量。将匹配的特征点集作为运动信息的表达,便于进行参数估计的计算。在角点矩特征点集中既包含有背景点,又有前景点,也就是进行鲁棒的参数估计所指的内点和外点。把提取出的角点矩特征点集作为待估计点集,如何将该点集中的外点去除,是进行全局运动估计的关键。

1.2 基于改进的RANSAC全局运动估计算法

传统的RANSAC算法是将所有的点都代入参数估计模型,将估计残差大于所选阈值的点作为外点,迭代[N]次,最终求得所有的内点。但是外点数据在迭代过程中对估计精度会造成影响,而且在摄像机存在旋转运动时,仿射模型对外点的敏感加强[7]。因此,为了提高全局运动估计的精度,本文将最大类间方差引入RANSAC。

首先,利用RANSAC算法进行全局运动参数的初始值估计。然后,计算每个点的估计残差[r:]

在本文中,把从图像中提取出的[n]个角点矩的特征点作为全局运动估计的点,设其残差点集为[R={r1,r2,…,rn}]。令阈值[Tr∈R,]根据残差值的大小将点集残差分为两类:

本节详细阐述了角点矩特征的提取及匹配、基于角点矩特征改进的RANSAC全局运动估计及补偿的过程,其流程图如图1所示。

2 运动背景下基于特征的运动目标检测

2.1 角点匹配的基本原理

角点匹配的基本原理通过确定图像[J]和图像[I]的单独相应的组点,在无误确定相应的点特征的情况下,算法可以进一步进行最优匹配,完成图像最终的匹配。

相匹配的特征点对由于矩阵[P]和[G]具有一致的结构被进一步突出,这种结构具有抑制非对应的特征。

当矩阵[P]中的元素[Pi,j]既是所在列所有元素中的最大值,同时也是所在行所有元素中的最大值,相互对应的特征点则为特征点[Ii]和[Jj,]当元素[Pi,j]不具备上述特征时,则说明[Ii]和[Jj]不匹配[8]。

2.2 改进的角点匹配的运动目标检测算法

本文提出的改进的基于奇异值分解的角点匹配算法,核心思想是通过改变该算法中涉及到的相似矩阵构造相关系数,达到适用于运动目标角点匹配的目标,解决了由于运动目标位置变化导致待匹配的两组角点中正确配对的角点之间距离相关性降低,造成误匹配角点对的问题。其核心流程如图1所示。

由式(9)可以看出,在相似矩阵构造过程中,上述的核心匹配方法考虑了距离的影响。然而,误匹配角点的数量增加,多数由于运动目标位置的变化导致待匹配的两组角点中正确配对的角点之间距离相关性降低。正确描述这些对应的特征点是研究的关键所在。在式(9)中,基于奇异值分解的角点匹配算法使用公式[r2i,j=Ii-Jj]描述两点之间距离的相关性,即两个特征点[Ii]和[Jj]之间的欧氏距离。然后,针对运动目标,两个特征点之间的欧式距离不能准确描述两点之间的距离相关性。

式中:目标运动的距离估计通过目标运动区域预测中心与模板中心在[y]轴和[x]轴的差值分别用[Δcenter x]和[Δcenter y]表征。系统针对目标运动中心位移及区域的预测使用Kalman滤波算法进行。

通过四个主要步骤,基于奇异值分解的角点匹配算法可以改善运动目标的检测:

(1) 确定目标模板。通过上一节全局运动补偿后,且经过基于差分相乘原理的运动目标检测获取形心位置来捕获得到目标区域。将视频序列中测量的运动目标的矩形区域作为目标模板,然后检测目标角点。

(2) 确定目标预测区域。使用Kalman滤波预测下一帧目标位置的特征点作为目标模板的中心,从而得到目标预测区域,最终获取检测角点。

(3) 确定偏移距离。通过步骤(1)和步骤(2)计算得到的角点进行匹配,再去除其误匹配角点,目标位置预测的特征点是由正确角点的聚类中心构成,由此计算目标预测中心与目标模板中心的偏移距离。

(4) 检测运动目标。利用改进的角点匹配算法进行角点匹配,同时检测当前帧中目标预测区域的角点,最后检测到运动目标并用矩形框标将其标注出来。具体的算法流程框图如图2所示。

运动目标检测流程图

3 算法仿真试验

3.1 基于改进的RANSAC全局运动估计算法验证分析

实验1:实验中对河流中船只运动的视频序列中连续的两帧进行全局运动估计和补偿。图3给出了视频序列上相邻两帧在完成全局运动估计和补偿前后的帧差。从图3中可以看出本文提出的全局运动估计和补偿算法能够将帧间的运动背景准确对齐。

实验2:为了证明基于RANSAC改进算法的效果,通过对比实验,详细分析了RANSAC算法和改进RANSAC算法的全局运动精度。通常采用相邻两帧完成全局运动估计和补偿后的峰值信噪比来衡量全局运动估计的精度,图中所示,在背景区域内随着差分图像[Id]非零像素点的不断降低,系统的信噪比PSNR不断升高的情况下,系统非零值不断减小,进一步证明了运动补偿算法的效果显著。本实验在视频序列1和视频序列2中分别提取了30帧图像进行信噪比的计算,图4为两种方法的信噪比对比图。

3.2 基于改进的奇异值分解的角点匹配的运动目标检测算法验证分析

实验是在3.1节中对相邻两帧进行了全局运动估计与补偿的基础上实现的。在对相邻帧进行了全局运动的估计和补偿后,可以按照静态背景下的运动目标检测算法检测并定位出运动目标,试验采用基于差分相乘原理的运动目标检测算法进行运动目标的检测和定位。然后,根据获得的运动目标形心,采用基于改进奇异值分解的角点匹配的运动目标算法进行后续帧的目标检测。

实验中对船只的视频序列进行后续的检测。首先对视频序列中连续的四帧进行全局运动估计和补偿,即在连续的四帧第10帧、第11帧、第12帧、第13帧中,估计第10帧和第11帧的全局运动,并进行全局补偿;同理,对第12帧和第13帧进行处理。图5(a)~(c)分别表示第10帧原始图像、第11帧原始图像、全局运动补偿结果。

图5(d)~(f)分别表示第12帧原始图像、第13帧原始图像、全局运动补偿结果。图5(g)~(i)分别表示第11帧与补偿帧的帧差二值图、第13帧与补偿帧的帧差二值图、差分相乘结果。图5(j),图5(k)分别表示对图5(i)进行形态学滤波处理、连通域分析,最终确定目标范围获取形心图。

图6中显示了获取形心后,利用改进的基于奇异值分解的角点匹配的运动目标检测算法对运动目标检测的6帧图像。可以看出该算法可以稳定的检测出运动目标,当背景中出现其他运动目标时,该算法依然能够保持良好的检测效果。

4 结 论

本文提出了基于角点矩特征的全局运动估计算法。此外,本文将最大类间方差的方法引入了随机抽样一致性估计算法中,改善了参数估计的精度,且在计算速度上有所提高。针对全局运动估计和补偿的复杂性,实际运动目标检测的实时性检测难以满足。本文提出了一种基于改进的奇异值分解的角点匹配的运动目标检测算法,该算法具有计算简单的特点,为运动目标检测系统的实时性实现奠定了基础。

参考文献

[1] FUJIMOTO L, YAMADA Y, MORIZONO T, et al. Development of artificial finger skin to detect incipient slip for realization of static friction sensation [C]// Proceedings of 2003 IEEE Conference on Multisensor Fusion and Integration for Intelligent System. [S.l.]: IEEE, 2003: 15?21.

[2] AZARBAYEJANI A, WREN C, PENTLAND A. Real?time 3?d tracking of the human body [J]. IEEE transactions on pattern analysis and machine intelligence, 1996, 19(7): 780?785.

[3] 谢文辉.动态场景下运动目标检测与跟踪算法研究[D].武汉:华中科技大学,2011.

[4] 章毓晋.图像工程(上册)[M].2版.北京:清华大学出版社,2005:1?10.

[5] HARRIS C, STEPHENS M.A combined corner and edge detector [C]// Proceedings of the 4th Alvey Vision Conference. Manchester: ACM, 1988: 147?151.

[6] HU M K. Visual pattern recognition by moment invariants [J].IRE transactions on information theory, 1962: 8(2): 179?187.

篇8

(上海市计算技术研究所上海 200040)

摘 要 针对公共交通资源浪费和分配的不匀,导致公共交通承载体出现过度拥挤,甚至严重超载现象,提出利用智能视频检索分析技术,通过将场景中背景和目标分离进而分析并追踪在摄像机场景内出现的目标,可以实时分析车内上下车人数,提供有力客流数据分析,有效的控制超载超员,实验证明这些方法可以为策略的制定者提供客观公正的数据。

关键词 人像,智能,检索,分析

中图分类号:TP391 文献标识码:Adoi:10.3969/j.issn.1674-7933.2015.05.008

作者简介:胡竹平,男,1964 年生,硕士,工程师,主要从事及研究领域:计算机应用,Email:huzpcast@sina.com。

0 引言

近十年来,平安城市的数字化进程中,数字视频录像机(DVR)、数字视频服务器(DVS)得到了长足发展。特别是近两年,随着平安城市项目的推进,各个城市的大街小巷已经布满了摄像头。存储技术的不断更新,也为大量案件积存了海量视频信息,这给公安破案带来极大的便利。这时,如何在海量视频中快速提取有价值的线索便显得尤为重要。随着安防智能化需求越来越强烈,视频检索技术也得以快速发展。下面主要讨论智能视频检索技术在公交客流数据分析中的发展与应用。

在社会公共安全领域,视频监控系统成为维护社会治安,加强社会管理的一个重要组成部分。传统视频检索的模式下,需要从头到尾顺序播放,需要大量人员进行视频审看,实际应用过程中,视频录像存在存储数据量大,存储时间长等特点,通过录像寻找线索,获取证据传统的做法是要耗费大量人力、物力以及时间,效率极其低下,以至于错过最佳时机。因此必须在视频监控系统中,对原始视频进行处理和分析,使其可以快速浏览,锁定检索对象,能够满足用户的各种需求及应用。

视频监控检索关注的人数据以视频为主,目的是查找某一事件的起因和关联的发展过程,相关信息数据包含:发生事件的时间、发生事件的地点、相关的人和物体、相关的图像和声音等信息的一系列数据。当检索条件包含的信息越多,定位就越精准,检索的算法也就容易;反之,检索条件传递包含的信息越少,定位就越模糊,这时如要精确定位相应的检索算法的难度也就越高。不过对用户来说总是期望检索条件最简单时,定位也要能精准。

智能视频检索技术就是要满足人们的这种需求把用户从单一、繁琐的任务中解放出来。通过的智能分析预处理分析,将无序无章无逻辑的视频监控内容进行梳理,获取目标的关键信息,从而生成目标视频及索引。智能视频检索,以图像处理、图像识别、图像理解等知识为基础,利用了内容自动关联,视频结构化,视频分割、镜头检测、关键帧抽取、自动数字化、语音识别等相关技术,采用了集群方式,实现了快速分析处理,并可根据实际使用中的需要进行扩展,大大提高了计算能力,节省了锁定目标的时间。

在智能视频检索过程中,用户可以根据自己所需要的检索条件,通过智能视频分析技术,从海量视频中获取想要的关键信息。

1 智能视频检索现状

智能视频分析技术源自计算机视觉技术,是人工智能研究的分支之一,它能够在图像及图像内容描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来有限理解视频画面中的内容[1]。

基于内容的图像检索是近年来的热门研究内容,涉及图像处理、计算机视觉和数据库系统等方面的学科。其中,高效实时的大规模图像库的检索是关键技术。目前的技术主要是将监控视频中的人脸进行整理聚集,通过智能分析处理以及人脸检测算法,对目标的人脸信息生成索引。有关人员通过查看人脸图示,就能快速查看视频中的所有目标,并迅速确定嫌疑目标,察看该目标在整个视频图像中的片段和轨迹,如图1。

运动目标属性包括目标的速度、幅度、轨迹及规律等因素。目标轨迹的检索是指通过在视频中选定一个特定的区域,目标进入或离开该区域、以及滞留该区域,视频检索算法可以快速关注所有时间内在该区域出现过的目标,还可以过滤目标图例或排查结果,如图2。在目标结果较多的情形下,系统还可以将目标的类型进一步分离,缩小关注范围,比如车辆、人、树木等。

在系统中输入待查询的人脸照片,选择需要检索的人脸后进行相似度等参数设置后开始检索,最后检索出的相似人脸的结果会在界面上显示出来。

2 公交视频应用需求

长期以来公交线路覆盖率低、重叠系数大、车辆运行效率不高、调度指挥全凭人力和手工、不能及时了解公共汽车在线路上的运行情况从而造成又“聋”又“瞎”(公交调度部门即不知道公交车辆行驶位置又得不到公交车辆的信息)[2],更无法实时了解客流信息。

近几年,随着车载视频设备在城市巴士、长途大巴、长途货运车辆上的应用越来越广泛,并且逐渐扩展到了火车、船舶、救护车、消防车、执法车等特种车辆领域。车载视频的普及为人民出行安全起到十分重要的保护作用,为国家平安城市建设、社会稳定和谐发展做出了重要贡献。

与此同时,随着“智慧城市”“物联网”“公交优先”“快速公交”等政策的实施,为公交车辆智能调度系统的实施也带来了契机。

根据《安全生产法》的有关要求,2011年交通运输部会同公安部、安监总局、工信部下发了《关于加强道路运输车辆动态监管工作的通知》,要求公交客车必须安装车载视频监控装置,国内大部分大中型城市的公交车和长途运输车辆也迅速地完成了车载视频设备的安装工作。

公共交通领域的车载视频监控的发展逐步经历了以下几个阶段:

第一阶段:主要是以车辆本地录像为主,由于防震方面的原因导致存储设备以SD卡、CF卡等低容量介质为代表。受存储设备容量的限制,这一阶段的设备往往视频通道数少,视频分辨率也以标准化图像格式(CIF,320×288像素)为主,视频文件存储时间较短,由于不带显示终端,对录像资料查阅基本通过拔取存储卡至PC观看为主。此阶段的车载录像机基本完成了从无到有的过程。

第二阶段:由于大容量硬盘的价格迅速下跌以及硬盘减震技术的发展,以使用硬盘作为存储设备的车载录像机诞生了。由于存储设备容量的显著增加,导致视频分辨率从CIF向D1(720×576像素)转化,视频文件存储时间也显著延长。但由于此时的硬盘减震技术尚不成熟,导致硬盘故障率居高不下。

第三阶段:随着gps卫星定位系统与3G无线通信系统的广泛应用,具有网络化特征的车载录像机诞生了,此时的设备逐渐体现出公交行业的应用特点,初步实现视频远程传输,基本实现了平台化的远程视频监控。此阶段的车载录像机开始体现出系统化、网络化、平台化的特点,但与公交行业的调度系统尚属两套相对独立的系统,两者的融合度不高,导致部分设备出现重复投资的局面。

第四阶段:随着各个城市ITS智能公交调度管理系统的建设逐步成熟,调度管理平台初具规模,调度平台与视频监控平台进行整合势在必行,这也要求车载录像机与车载调度终端必须进行融合。但是由于车载录像机的生产厂家与车载调度终端的生产厂家众多,设备型号不一,也没有一套通用的数据交互协议,设备的整合特别是已有设备的整合显得非常困难。

随着“智慧城市”“物联网”“大数据”“云计算”等技术的发展以及4G通信的普及,未来的公共交通领域的车载视频监控设备必然向高清晰度、人脸识别、客流统计、数据高收集率、WIFI覆盖等方面发展,调度平台也必将与移动互联网进行深入融合。

目前,客流数据分析,就是基于这种需求被广泛应用到众多人流密集场所,客流量的统计分析、活动评估和安全管理预警等方面发挥了极为重要的作用。特别是商业零售业,越来越多的企业在开店前和营业后,都需要先进的客流统计系统,结合POS、erp、CRM等其他相关数据为其商业经营活动提供科学高效的决策依据。通过视频智能分析实时分析车内上下车人数,提供有力数据分析,有效的控制超载超员,为策略的制定者提供客观公正的数据。

3 公交视频应用解决方案

双目立体视觉是指通过对同一物体从不同角度获得的两幅图像来复原被摄物体的三维信息的过程。这是一种模拟人的双眼获得视觉信息的过程。摄像机标定是双目立体测量系统不可缺少的前提和基础,并且标定精度直接影响最终测量精度[3]。双目立体视觉技术主要包括图像获取,摄像机标定,特征点匹配以及三维信息复原个方面。最主要的部分是确定同一目标的两个图像中的投影点间的对应关系即特征点匹配。这两个投影点之间的距离称为视差。视差图反映了物体的深度信息。物体距离摄像机越近,视差越大;物体距离摄像机越远,视差越小。

特征匹配算法的基本原理就是通过提取图像特征的灰图信息取代图像灰图值的直接利用而进行的匹配,该算法是由的D.G.LOWE于1999年提出的,2004年进一步完善[4]。我们求取视差采用的是高效的单相匹配算法,该方法的目的是使用计算复杂度更高更有效的方法,来检测不可靠的点的深度值。主要原理是通过区域灰度相关性匹配,在左右两幅图像中寻找对应点,从而计算视差图像,获得深度信息。对应点匹配满足唯一性约束,极线约束,以及视差搜索范围的限定等。这些约束条件不仅可以减少计算量,也可以提高计算精度。在单相位匹配中,保存最好的那个匹配结果,同时抛弃剩下不好的匹配结果,在减少了计算量的同时,也保证了算法的精度。

车载客流统计系统通过分析安装在垂直于大巴进门口的视频摄像头,分析过往人数的头部特征和肩部辅助特征,通过计算运动轨迹,从而获知不同运动方向的人数,即进出车内的实时人数。通过分析统计进出人数的数据,达到控制车内乘客数量和调控车辆调度的目的。

通过对进出通道客流量的双向统计,得到每辆车上下站的客流量和客流变化的情况。通过客流量状况,可以对进出通道的设置进行优化调整。对不同时间段的客流进行统计,得到客流分布图。统计各个区域客流量大小及变化,客观决定发车密度和车辆调度安排。根据客流变化,可以有效分配管理、维护人员的配备,降低营运成本,提高服务质量和服务效率。根据客显示当前客流状态和变化趋势,实施判断当前的实际人数,预防突发安全事件发生。可通对单独安装统计摄像头或利用原有摄像头,采集客流信息,上传到相关服务器进行处理。

GPS是基于卫星技术的全球定位系统。GPS的技术基础是同时观测接收机到几颗卫星的距离。卫星的位置和GPS信号一起发播给用户,利用几个卫星的已知位置以及接收机与卫星间测得的距离,就可以确定接收机的位置。接收机位置的变化即速度也可确定。GPS最重要的应用是定位和导航[5]。经过几十年的发展,GPS已经广泛地应用于各领域,已经成为日常生活、工业、研究和教育的必需。

通过多通道双向统计功能,可以实时统计车内乘客人数。实时分析前后门进出人数,并依此分析车内滞留乘客人数。加载GPS(北斗)模块,实现普通的车辆信息管理功能。通过与车上的行车记录、GPS(北斗)设备等联动,实现视频监控平台与车辆调度管理平台的整合,构造完整的车辆视频调度指挥综合监控系统。加载无线3G网络模块,实现车辆调度管理中心对车辆的视频监控和调度管理,并可利用WLAN模块和场站布置的热点,实现对录像和多媒体文件的网络化下载管理。上下车人数视频监控,支持远程IE浏览器登录,直接查看现场的视频画面(需3G网络),查看客流数量。同时智能客流统计主机支持存储功能可保存客流视频录像。

图3是智能客流统计主机工作原理。

4 应用与实践

在公共交通行业应用人脸视频监控流量后,首先可以实现公交车辆线路调度通过车载客流统计,系统可以获得实时的车载人数,具体到每个时段,每个公交站台,对车内人数了如指掌,方便公交线路调度,以便公交资源达到优化配置。其次可以实现公交车辆票款评估,通过精准的车载客流统计系统,结合票务系统,可以评估出每天的票款数,起到票务监督的作用。第三可以实现公共车辆,校车等人员超载监管,对有明文严格限载人数的车辆,实时监控客流数据,如发现超载行为前端报警提示,后台系统同时会提醒监管单位,采取措施纠正超载行为。再有可以实现长途大巴票务监督,对于长途大巴业务,对司机和售票员中途私自载客的行为起到很好的监督作用。同时实现交管等第三方监管,车载客流统计系统对交警、交管、教育等三方监管单位,对公交车,大巴车,校车实时监控客流数据,这种创新型的技术监督手段,给公车载客安全带来极大便利。

通过双目摄像机捕捉到视频图像,分析经过图像中的所有物体的高度、形状、方向,从而精确的判断这个物体是否是人,和人的进出方向,精确的累加进出的人数,并叠加日期和时间,生成一条进出记录。双目摄像机内置的红外LED灯照明能适应任何光线环境,即使全黑的情况也能正常工作。进出人数的数据可以通过RS485、RS232、TCP/IP、USB盘进行传输。内置的独立数字I/O口可以方便的和其它设备或开关门的设备相连接。如连接DVR,则可以标记有人经过时的视频段,便于事后回放检索,可弥补计数仪的精度不足。如连接门的开关,则可设置当门关闭时,计数仪停止计数。

VPC是一款基于双目立体视觉技术的小巧、自动、非接触式的高科技智能视觉产品。能在公交车、大巴车、和建筑物的各种门/通道下进行人数统计和计数。VPC能区分进/出的人数或者是停留在某个封闭的区域内部的人数。

VPC是通过检测和分析经过双目摄像机视野下物体的高度、大小和方向,来判断出物体的移动方向是“进”还是“出”,从而将该物体的“进”“出”信息实时记录,并以时间顺序保存到VPC中的可擦写存储器,这些“进”“出”记录可以被下载和做进一步的报表分析。

双目立体视觉匹配一直是计算机视觉领域研究的热点问题,人们一直热追于物体的三维恢复,获得效果不错的视觉感受,立体视觉中立体匹配是最重要最困难的问题[6]。双目视觉的基本原理就是模拟人眼利用照像设备从不同的位置获取被测量物体的两幅图像,然后通过计算图像对应点之间的位置偏差,获取物体三维几何信息和深度信息。这两个存在距离差别的图像,即称作视差图像。双目立体视觉技术主要包括图像获取,摄像机标定,特征点匹配以及三维信息恢复几个方面。立体视觉的双目摄像机比起平面(二维)视觉的单个摄像机而言,在分析可视范围内各物体之间相对距离(深度/高度信息)上具有更高的精度,如图4。

为了能实时监看乘客上下车的情况,VPC可以通过RS485/232接口连接在随车的其它设备上,进行实时人数数据传输,如图5。采用双目视频客流统计产品,实时采集上/下车客流,并通过RS232串口与GPS报站器的通信,确定每个时间段、每个站点上/下客流,统计车内实时总人数,确定不同时段的乘客拥挤程度,向决策层提供公交行业客流分析、分布数据,最终为公交线路运力调整提供科学依据。例如嵌入式DVR或GPS/GPRS通过GPRS/3G网络实时将上下乘客数据上传到后台,便于查看。

VPC上集成的带有隔离的数字I/O接口,可连接车门开关时的信号,以保证VPC在开门时计数。

该产品目前已经在上海、广州等地区实际安装使用,准确率达到95%左右。

5 结语

智能视频检索技术已经得到了快速发展,提升了智能视频检索产品的应用准确率及效率,在完善核心算法的同时,现阶段将继续向以下几个方面努力:首先,与智能视频监控技术、云计算、物联网等新一代技术相结合,扩展更大的智能视频应用范围。其次,要立足行业用户需求,推出细分化市场服务,研发出更有针对性的产品,以符合现场环境的需求,提高产品的判别能力。第三,要加强研发力量,继续完善产品性能指标。

参考文献

[1]王睿林. 智能分析助力大数据时代视频检索技术发展. 中国安防网, 2014-10-14.

[2]张国伍. 北京市公共交通总公司, 北方交通大学. 城市公共交通运营调度管理[M]. 北京:中国铁道出版社, 2011.

[3]张鑫. 双目立体测量系统标定及精度评价. 计算机应用与软件 2014,(7):160.

[4]Lowe D. G.Distinctive image features from scaleinvariantkeypoints[J]. International Journal of ComputerVision, 2004,(60):91.

篇9

关键词:双目视觉,特征提取,特征匹配,三维混合地图

中图分类号:G255.4 文献标识码:A文章编号:1007-9599 (2010) 09-0000-01

Construction of Three-dimensional Mixed Feature Map

Liu Hongbo

(Dezhou Vocational and Technical College,Dezhou253034,China)

Abstract:This paper introduces the basic principles of binocular vision and space point reconstruction.Use of binocular vision sensor for the environmental characteristics of three-dimensional coordinates of points,established a three-dimensional geometric features of the environment map,the same time,these features corner windows local gray level information be saved as image feature information,geometric features including built environment and image characteristics of mixed map.

Keywords:Binocular vision,Feature extraction;Feature matching;Three-dimensional hybrid map

立体成像的方式主要由光源、采集器和景物三者的位置决定。如果采用两个采集器分别在一个位置对同一场景取像就是双目成像。

环境地图构建地越精确,对服务机器人的运动越有利。目前大多数研究是采用声纳等距离传感器来构建地图,但是这些距离传感器的分辨率较低,且存在高度不确定性,在复杂的环境中由于观测数据的高度不确定性很难取得理想的效果,本文将介绍利用双目视觉传感器,构建三维立体混合特征地图。

一、双目立体视觉实现原理

(一)双目立体视觉实现步骤

双目立体视觉技术的实现可分为以下步骤:图像获取、摄像机标定、特征提取、立体匹配和三维重建。

(二)三维混合地图的提出

环境地图的表示方法对于SLAM的性能至关重要。在构建混合特征地图的过程中,利用立体视觉传感器提取环境的Harris角点特征,通过立体匹配算法获得这些角点精确的坐标值,通过坐标转换,建立起米制坐标的三维立体模型,同时获取这些几何特征对应的图像特征信息,并将这些混合信息进行绑定,作为实时更新信息存入智能空间信息库中。利用混合特征构建地图可以有效提高机器人定位的精度。

二、双目视觉传感器模型

求物体的深度,主要问题在于从立体图像中找到对应点。两部摄像机安装于不同的位置,对同一物体或目标同时拍摄两幅图片,构成一组立体图像。同一物体的某一点在两幅图像中的位置差称为视差,该视差与对应点在空间中的位置、方位以及摄像机的物理特性有关,若摄像机的参数已知,则可以得出物体的深度。

假设两部摄像机的光学中心线平行,间距为 ,目标物 与两部CCD光学中心线的距离分别为 和 ,其投影到两部CCD图像。

平面上与光学中心线的距离分别为 和 ,视差,由几何系得:

(1)

则: (2)

三、构建局部三维地图

空间点是构成三维空间结构的最基本单元,理论上可以由点形成线,由线形成面,再由各种面构成三维立体结构。假如能得到物体表面上所有点的空间坐标,那么三维物体的形状与位置就是唯一确定的,因此,空间点的重建是计算机视觉三维重建的最基本的要素。

考虑非平行双目系统的计算量比较大,因此采取特殊布置的双目视觉系统。选取两个内部参数完全相同的摄相机,平行放置,使它们的光轴相互平行,另有一对坐标轴共线,使得两个成像平面共面,两相机的光心有一个固定距离。这样求解图像点的世界坐标时仅涉及到相机的内部参数,降低了目标点计算的难度。

经过特征点匹配对应以后,可以求取对应点之间的视差 ,根据前面提到的立体视觉原理,可以获得特征点的深度(depth),进而求出场景征点相对于摄像机坐标系的三维坐标值,如下:

(3)

其中, 、 为图像中心坐标, 和焦距 属于摄像机的参数。

实验中利用左右摄像机获取了两幅图像,采集的图像像素为320×240,根据计算得出三维立体图。运用Harris角点检测方法提取环境中物体的基元特征,通过立体匹配算法实现对应特征点的匹配,根据成像关系计算出角点的三维几何信息,获取的数据较为准确。

四、智能空间中的混合特征地图

在智能空间的信息数据库中,混合地图信息作为实时更新的信息存入其中,可用以下形式表示:

(4)

(5)

其中, 为实时更新信息库, 为混合地图信息, 为环境特征的几何信息集合, 为环境的图像特征信息集合, 和 为具体信息,“ ”表示相关性。

提取环境中的一特征角点,该点的序号是5,它的三维几何坐标为(36.15,18.72,103.43),将角点5的这些信息进行绑定,即可以得到该点的混合地图信息 ,包含了三维几何信息 和图像特征灰度信息 。

五、深度图的表示

形状是三维物体的最基本性质,利用它能够推导出许多其他特性,例如:表面结构,物体的边界等。形状是组成物体外轮廓或外表面的所有点的相对位置所决定的性质,因此表示景物中的形状可通过灰度/深度图和灰度/表面方向表示。

篇10

关键词:目标检测和跟踪; 背景差分; CamShift; OpenCV; OGRE

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)22-5156-05

1 概述

人类和电脑的交流从打孔机到屏幕,从文字到图形,从鼠标到触摸板,计算机用更符合直觉和人性的方法让人机交互方式更加快捷方便。那么以后的人机交互会怎样?

从另一方面,随着图形学和硬件计算能力的发展,计算机能够实时获取和记录人体动作。计算机将人体动作参数转化为计算机中的物理模型,并且将其在虚拟环境中再现,同时3D人体模型动作目前成为最热门的研究课题之一。现在人体运动主要通过各种传感器进行捕获和测量,并通过传感器将相关的人体信息记录为虚拟动作。这种方法更加精确,但是由于其成本较高,计算量较大且需要特定的实验场合,因此无法广泛应用。

目前基于OpenCV的第六感交互技术和3D图形处理技术正在迅速发展之中,该文讨论如何通过这些技术完成基于计算机视觉的人体运动3D模型动作记录器,尝试将人机交互推向更深的层次。

2 系统分析

3 获取背景

摄像机首先获取静态场景,从而作为运动目标检测判断的依据,因此需要对背景不断进行更新。常用的背景更新方法有包括多帧平均法,选择更新法,随机更新法等。多帧平均法简单而且准确,但是计算量大,并且在运动物体多且运动速度缓慢的情况下也不能达到满意的效果;选择更新法对于光线的变化有较强的适应性,但是环境光线变化强烈时容易检测错误,并且受人为因素较大。

本课题采用将多帧图像分别和背景图像做差,并用帧间差来判断光线的变化。该方法通过多帧的联合判断,能够较准确判断监视场景中是否有运动的物体或者是否应该进行背景更新。该方法融入了背景差分法对于物体的准确分割,又运用了帧差法较强的适应性。

为了不受背景的影响,人物捕捉采用了人物进入捕捉方法。首先实现对人物进入的实时判断监测,在没人的时候进行背景更新,而当有人进入领域时则实现了动作实时监测功能。为了缓冲图像采集速度并配合3D模型输出,每帧间间隔20ms保证系统运行流畅。而运动目标检车跟踪部分和3D模块部分则通过全局的条件变量实现同步和互斥的操作。

4 运动目标检测

运动目标检测是指在序列图像中检测出变化区域并将运动目标从背景图像中提取出来。一般后处理过程仅仅考虑图像中对应于运动目标的像素区域,因此运动目标检测与分割对于后期处理起决定性作用。运动目标检测方法有很多,包括帧差法、光流法、背景差分法等,该文选择背景差分法对静态背景下的目标进行分析。

通过上述原理可知,首先获取背景图像,将背景图像和当前图像转化为灰度图像并进行高斯滤波以平滑图像;之后将当前图像和背景图像相减,差值图像二值化,再进行形态学滤波,消除噪声;最后将二值图像扫描并查看是否有非零值像素点,从而获取目标像素。在此差分图像中,若像素的值大于一个特定的阈值,则认为视频图像中在相同位置的像素属于运动目标区域,若像素的值小于特定的阈值,则认为视频图像中在相同位置的像素属于背景区域。

在本课题中,当人物进入静态场景时,程序处理捕捉到的图像,检测出人物部分的像素差大于设定的阈值从而检测出目标人体。如图2所示,黑色部分是差分之后的背景,白色部分是通过背景检测出的人体。从图中可以看出,背景差分法可以正确的检测出运动目标,但是由于算法只用亮度值做为检测依据,因此当运动目标的亮度与背景亮度相似时,就难以检测出目标。

5 运动目标跟踪

运动目标检测之后,计算机则需要跟踪提取出来的检测目标。运动目标跟踪方法包括meanshift、camshift、kalman滤波等。其中Camshift的全称是 “ContinuouslyApative Meanshift”算法,基本原理是将跟踪目标的色彩信息做为特征,并将这些信息计算处理后投影到下一帧图像中,计算出这幅图像中的目标,并用这幅图像作为新的源图,分析下一帧图像,重复这个过程就可以实现对目标的连续跟踪。在每次搜寻前将搜寻窗口的初始值设置为移动目标当前的位置和大小,由于搜寻窗就在移动目标可能出现的区域附近,搜索时就可以节省大量的搜寻时间,因此Camshift 算法实时性较好,另外Camshift 算法是通过颜色匹配找到移动目标,而在目标移动过程中颜色信息变化不大,所以Camshift 算法具有良好的可靠性。考虑到以上因素,故采用camshift算法。

Camshift方法首先将RGB空间转换为HSV空间并提取H颜色分量hue;然后提取跟踪窗口并得到需要跟踪的区域selection,之后根据获得的色彩直方图将原始图像转化成色彩概率分布图像。处理前目标图像中的每一个像素值描述该点的颜色信息,而处理后每一个像素值则成为该颜色信息出现在此处的可能性离散化度量;之后对目标直方图的反向投影backproject进行搜索,并返回下一帧的跟踪窗口;最后画出跟踪结果的位置并循环执行。

6 3D建模

7 测试

由表2可知,背景固定、光照满足一定强度以及背景不能有运动杂质即可满足系统要求。最后系统在不同的平台上进行测试。基于X86的计算机系统(CPU主频2G,内存2G)反应时间不超过1秒,而基于ARM9的嵌入式平台(CPU主频203.3MHZ,内存64M)系统反应时间不超过2秒,满足了实时性的需求。

综上,本系统并通过了开发阶段的测试。系统设计较好地实现了通过摄像头捕捉跟踪人物动作来操作女孩做基本动作的功能,在功能上还可以再添加更多动作已期更好实现动作记录功能。由于采用高实时性和低消耗的算法设计,因此系统拥有较好的同步操作,动作记录延迟较小。另外系统在经过捕捉图像预处理下能够适应更多的环境,在多次的测试与修改之后,本课题最终获得了良好的测试结果。

8 总结

本系统通过摄像头获取人体运动视频并检测跟踪,之后通过处理数据控制3D模型,从而将人体动作进行记录保存。系统要求首先提取静态背景建立背景模型,之后采用背景差分和Camshift方法对运动目标进行检测跟踪,因此要求光线稳定、运动物体较少的环境条件。除此之外,Camshift方法对跟踪目标的选择也是有一定的限制:鲜艳的目标物体跟踪起来很容易,但是由于白色物体H分量太低很容易跟丢。

在实时性方面,视频流数据送入系统处理之后将处理结果显示在屏幕上。通过观察视频处理结果,发生视频流能够流畅的显示,并没有出现停滞和跳帧的情况,这就说明本文的跟踪系统已经达到了实时性的要求。

参考文献:

[1] 毛剑飞,邹细勇,诸静.改进的平面模板两步法标定摄像机[J].中国图像图形学报,2004,9(7):846-852.

[2] 张春田,苏育挺.数字图像压缩编码[M].北京:清华大学出版社,2006:20-23.

[3] Park J S.Interactive 3D reconstruction from multiple images:a primitive-based approach[J].Pattern Recognition Letters,2005,26(16):2558-2571.

[4] Intel Corporation. Open Source Computer Vision Library Reference Manual[S].2001-12.

[5] Fernando de la Torre Frade, Elisa Martínez Marroquín,MaEugenia Santamaría Pérez,Jose Antonio Morán Moreno. Moving object detection and tracking system:a real-time implementation.1997.