计算机视觉综述范文
时间:2024-01-09 17:35:15
导语:如何才能写好一篇计算机视觉综述,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
Abstract: This paper puts forward the camera calibration method in computer vision, through analysis of principle of computer vision, and analyzes the application of camera calibration methods in computer vision.
关键词: 计算机;视觉;摄像机;定标
Key words: computer;visual;camera;scaling
中图分类号:TP391.4 文献标识码:A 文章编号:1006-4311(2013)24-0193-02
0 引言
在计算机技术快速发展的今天,人们越来越依赖于计算机,计算机在人们的生活工作中占有重要的地位。计算机中的各种应用层出不穷,广泛应用在各个领域,计算机视觉在摄像中的应用为摄像机定标方法提供了巨大的参考价值。由于人们对摄像机拍摄效果的要求,使得摄像机在不断改革更新,摄像机的定标方法是摄像机研究领域备受关注的话题。计算机视觉中摄像机的定标方法是摄像机研究领域所推崇的,它受到了研究人员的高度重视。计算机视觉中摄像机的定标方法呈现出了高质量的摄像效果,极大地满足了人们对摄像机摄像效果的要求。
1 计算机视觉投影原理
计算机视觉投影原理是利用光的折射现象,把视觉中呈现的影像投射到摄影机的屏幕上,形成了固定的图像。在计算机视觉中摄影机的成像原理就是利用光的感应,通过对摄像机的焦距进行调整,确定拍摄目标在摄像机镜头中的位置,然后利用光的折射形成固定的图像。在进行摄像时调整焦距是非常关键的,焦距就是镜头与目标之间的距离,这两者距离的远近决定了摄像的效果。如果焦距太远的话,目标成像就会非常小甚至是模糊。如果焦距太近的话,目标成像会很大也会导致无法看清图像,所以调整焦距是非常必要的,只有调好了焦距才会形成高质量的图像。
2 计算机视觉中的摄像机定标方法
2.1 三维立体定标法 摄像机的成像往往都是三维立体的,把图形通过每个立体面详细的表现出来,以达到完美的效果。要想达到三维立体的效果在对摄像目标的位置进行确定时,就要找出目标的三维坐标点,以便接下来的摄像工作可以顺利进行。然后在图像投影中找到对应的三维坐标,这一步决定了整个摄像过程的设计方案。最后确定目标在摄影镜头中的实际三维坐标,根据镜头中目标的实际三维坐标形成具体的图像。三维立体定标方法的操作原理就是把目标的三维投影进行分步成像,和实际成像效果相联系,形成镜头中具体的三维图像。在计算机视觉中把三维成像图进行处理,对三维定标的参数进行分析,找出最优的三维成像方法,使摄像机呈现出高质量的摄像效果。
2.2 平面定标法 平面定标法就是利用多个成像平面对目标的位置进行分析,选择合适的成像平面对目标进行位置的确定。每个平面的成像都是不同的,由于每个平面的成像都是在运动的,所以应该在摄像机与目标之间的平面内找到一个点,来分析目标与摄像机之间的成像规律,然后根据这一规律对目标进行定标,使摄像机中运动的目标给人们带来不一样的感受。随着目标的不断运动,摄像机与目标之间平面内的点会越来越多,对物体的定标会受到这些点的影响,物体定标的准确度也越来越高,为摄像机定标提供了可靠的信息支持,会减少摄像机定标的成本,提高了摄像的经济效益。相比三维立体定标法,平面定标的精确度更高,定标所用的时间相对较短,所以平面定标法在摄像研究领域中值得推广。
2.3 双平面定标法 所谓的双平面定标法就是利用镜头与目标之间的两个平面的成像点来进行定标,不需要成像平面上的光线通过平面中心,只要选取两个平面之间任意两点坐标来对定标参数进行计算分析,得出具体的成像图。这种定标方式不受平面中心的影响可以在任意点上成像,减少了定标参数的数量,提高了定标的工作效率。但是由于双平面定标法只是任意选取两平面上的点,对定标的精确度造成了一定的影响,使计算机对参数的运算缺少可靠的数据支持,一定程度上降低了摄像机的成像清晰度,使计算机视觉中摄像机的定标精度存在一定的偏差,呈现出来的具体图像质量相对比较差。
2.4 直线两点定标法 在三维立体和平面定标法的基础上,又进一步研究了直线两点定标法,极大程度上满足了人们对摄像效果的要求。直线两点定标法是利用定标物与摄像机镜头之间的直线上的两点进行定标。然后通过计算机视觉对这两点的坐标参数进行分析,然后摄像机利用这些参数对摄像机的焦距进行调整,确定物体的具置。在三维立体和平面定标的基础上对计算机视觉程序进行改进升级,进一步提高对物体定标的精确度。对原有定标方法进行创新改进得出了直线两点定标法使定标参数的数量大幅度的下降,节省了很多的人工成本,摄像机的清晰度也会大大提高。
2.5 透视变换焦距的定标法 透视变换焦距定标法是通过分析镜头与目标之间的距离,不断调整两者之间的距离使镜头里呈现出来的图形清晰为止,然后就将现在的目标设置为定标物。由于这种定标方法不用去分析具体的定标参数被人们广泛的应用。随着科技的发展现在的摄像机都有自动调整焦距功能,不用人为的去调整焦距,使定标物更快地呈现在镜头中,节省了大量的定标时间,计算机的运算速度也加快了。但是这种定标方法也存在一定的缺陷,在实际操作如果不考虑摄像环境以及摄像镜头的变化,定标的精确度会存在一定的偏差,导致镜头中的定标物成像不清晰。
3 计算机视觉中摄像机定标方法的应用
3.1 在计算机视觉中摄像机的主动定标 计算机视觉中摄像机的定标方法推动了计算机技术在摄像机中的广泛应用。计算机视觉中摄像机的主动定标是计算机技术在摄像机中的显著应用。计算机技术使摄像机在定标过程中主动寻找定标物,使焦距和视角很好地配合,充分发挥计算机视觉在摄像机中的成像原理,把定标方法合理地运用在摄像机主动定标过程中,使摄像机的清晰度得到大幅度地提升。
3.2 分层次进行摄像机的定标 随着计算机技术在摄像机定标中的不断发展更新,摄影者喜欢分层次地进行定标,把自己的观点融入到摄像机定标过程中,用自己的思维对定标参数进行分析,利用计算机视觉成像原理把定标物直观的反映在计算机上,以便更好的对定标物进行分析,以其中一个定标物的成像平面来确定定标物的具体成像图,使摄像机镜头中的定标物图像可以更清晰。这种分层次的定标使计算机技术可以更好的应用在摄像机定标过程中,呈现出高质量的摄像效果。
4 总结
在计算机视觉中摄像机的定标方法都是可行的,但各种方法都存在一定的缺陷,所以在实际应用中还应该根据摄影环境以及摄影机的质量选择最优的定标方法,保证定标参数的准确性,在镜头里呈现出清晰的成像。针对计算机视觉中摄像机定标方法的缺陷,摄像机的研究领域应该要不断更新摄像机定标方法,提高摄像机定标的精确度,不断满足人们对摄像机清晰度的要求,呈现出清晰的摄像效果。
参考文献:
[1]邱茂林,马颂德,李毅.计算机视觉中摄像机定标综述[J].自动化学报,2000(1).
[2]伍雪冬,蒋新华,李建兴,黄靖.计算机视觉中传统摄像机定标方法综述[J].福建工程学院学报,2007(1).
篇2
关键词:计算机视觉系统 工业机器人 探究
中图分类号:TP242 文献标识码:A 文章编号:1007-9416(2015)05-0000-00
计算机视觉系统主要是为了工业机器人更好的工作而研发出来的,是一套装有摄像机视场的自动跟踪与定位的计算机视觉系统。近年来,机器人已经广泛使用于工业生产,但是多数机器人都是通过“示教-再现”的模式工作,在工业机器人工作是都是由操作员进行操作示范再由机器人跟着示范进行工作。由于机器人缺乏对外界事物的识别能力,工作中经常发生偏差或者位移等情况。由于工作环境的恶劣以及各种阻碍,为了提高工业机器人的工作效率、灵活性、适应性等,让机器人更好的识别外部环境并及时调整运作方向,能更好的发挥其作用,在原有的机器人系统中添加了一套计算机视觉系统,利用计算机视觉图像装置的信息,通过图像使机器人进行外部环境的识别处理,采用三维的重建,通过作业中利用三维图像的信息进行计算,采用Motocom32软件和机器人控制柜通讯等设备,对工业机器人进行控制,更好的实现机器人对空间特点的跟踪与定位。
1系统的结构与原理
本文主要针对Motoman UP6工业机器人系统的二次研究,在原有的工业机器人的系统中,增加了一套计算机视觉系统, 使工业机器人更好的识别外界环境的系统。计算机视觉系统主要包括:Panasonic CCD摄像机、Motoman UP6工业机器人系统、工控机、OK C-50图像采集卡等外部设备。工业机器人的整个系统由原有系统与计算机视觉系统组成,在原有的系统中包含了YASNAC-XRC- UP6机器人控制柜、Motoman UP6工业机器人本体、示教编程器、Motocom32系统以及相关的外部设备等[1]。计算机视觉系统的设备主要有Panasonic CCTV摄像机、AVENIR TV镜头、OK系列C-50图像采集卡、工控机、AVENIR TV镜头、Panasonic CCD摄像机、OK系列C-50图像采集卡形成的视频采集系统主要是捕获物体的图像,该功能主要是分三个层次进行图像处理、计算、变换以及通信等功能来实施工控机。利用远程控制来对工业机器人进行Motocom32系统进行通信。
2计算机视觉系统的构建
2.1硬件的组成
CCD摄像头:选用的CCD摄像机采用PAP-VIVC810AOZ型彩色摄像头,如图1。摄像机的像素为P:500(H)x582(V),N:510(H)x 492(V),摄像机的分辨率为420。摄像机的成像器使用1/33"CCD,信噪>48 dB,同时摄像机具有自动背景光补偿、自动增益控制等功能。
图像采集卡:图像采集卡主要采用CCD摄像头配套的MV-200工业图像处理。如图2所示。MV-200图像采集卡的分辨率、图像清晰度具有较高的稳定性,其真彩色实施工业图像采集卡,该图像采集卡的硬件构造、地层函数都具有稳定性,同时在恶例的环境中都可以稳定运行[2]。图像采集卡的图像采集效果非常好,画面效果非常流畅。
MV-200图像采集卡性能特点:其分辨率为768 x 576,具有独特的视频过滤技术,使图像质量的采集、显示更加清晰流畅。主要支持的系统为Win98 /2K/XP,主要用于人工智能、事物识别、监控等多种领域。
工控机:工控机以奔4系列为主。
2.2软件组成
图像匹配软件。
图像处理与获取软件。
定标和定位算法软件,功能分布如图3所示。
3视觉系统的原理及流程图
工业机器人的主要系统包括是由工业机器人本体、相关的外部设备、控制器(供电系统、执行器等)计算机视觉系统主要由三部分组成:图像处理和获取、图像匹配、摄像机的定位等组成。通过借助OpenCV的视觉库进行VC++.NET实行,流程如下图表4所示。
在本视觉系统运行中,需要对摄像机实行定标,建立实际空间点和摄像机的对应点。在定标的过程中,就需要标记基准点,使摄像机在采集图像时可以准确的把这些基准点投放到摄像机的坐标上[3]。同时在采集卡的图像中,对图像进行处理并计算出该基准点图像的坐标,通过定标计算法,从而得出摄像机的参数。
在机器人系统中的反馈,计算机通过C语言的调节图像采集卡进行动态链接来控制函数[4]。同时,对摄像机中的数据、视频信号进行采集,构成数字化的图像资料,采用BMP格式存储进行计算,在计算机上显示活动视频,然后系统对获取的图像进行分析处理,以及对噪声的去除、图像的平滑等进行处理,利用二值化处理对那些灰度阀值的图像进行处理,同时检测计算机获取图像的特征量并计算[5]。在完成图像的处理后,就需要确立图像的匹配特征,对图像进行匹配[6]。如果两个图像不重叠,就需要建立3D数据库进行模型重新选择,再把模型进行计算、投影计算、坐标更换等指令,直到找到与图像相匹配的数据模型,才能真正得到真实有效的图像。重叠时,要获得有效的图像,以工业机器人识别物体为目的,才能建立机器人系统之间的通信。同时,通过三维图像重建,进行机器人空间定位[7]。如下图表5所示。
4结语
综上所述,计算机视觉系统主要是为了工业机器人更好的工作而研发出来的,是一套装有摄像机视场的自动跟踪与定位的计算机视觉系统。通过3D数据模型指定目标,机器人系统利用计算机视觉图像的采集装置来识别外界环境的数据,经过图像的姿态预算、影像的投影计算产生图像,通过图片的合成比较,以此来实现机器人在工作中对物体的识别。利用计算机系统对机器人进行有效的控制,在工业机器人工作中对事物目标的搬运、跟踪、夹持等指令。计算机视觉系统具备清晰的视觉功能,有利于提高工业机器人的灵活性以及适应性。
参考文献
[1]夏群峰,彭勇刚.基于视觉的机器人抓取系统应用研究综述[J].机电工程,2014(06):221-223.
[2]华永明,杨春玉.机器人视觉系统在立体编织自动铺纱过程中的应用研究[J].玻璃纤维,2011(01):189-191.
[3]王培屹.基于多传感器多目标实时跟踪视觉系统在全自主机器人上的应用[J].软件导刊,2011(01):263-264.
[4]谭民,王硕.机器人技术研究进展[J].自动化学报,2013(07):123-125.
[5]鲍官军,荀一,戚利勇,杨庆华,高峰.机器视觉在黄瓜采摘机器人中的应用研究[J].浙江工业大学学报,201(01):93-95.
篇3
Abstract: Surface roughness is key indexes to evaluate surface quality. Surface quality has influence on service life and usability. Two basic measuring methods are introduced: contact measuring and non-contact measuring. Non-contact measuring method based on the computer vision technology is discussed in detail.
关键词: 表面粗糙度;非接触;光学测量
Key words: surface roughness;non-contact;optics measurement
中图分类号:TH6文献标识码:A文章编号:1006-4311(2011)08-0050-02
0引言
随着科学技术的进步和社会的发展,人们对于机械产品表面质量的要求越来越高。表面粗糙度是评价工件表面质量的一个重要指标,国内外很多学者在表面粗糙度检测方面做了大量研究工作。目前测量表面粗糙度的主要方法有:接触式测量和非接触式测量。
1接触式测量
接触式测量就是测量装置的探测部分直接接触被测表面,能够直观地反映被测表面的信息,接触式测量方法主要是触针法,该方法经过几十年的充分发展,以其稳定、可靠的特点被广泛应用。但接触式测量存在很大的缺陷,具体表现在:①对高精度表面及软质金属表面有划伤破坏作用;②受触针尖端圆弧半径的限制,其测量精度有限;③因触针磨损及测量速度的限制,无法实现在线实时测量[1]。
2非接触式测量
为了克服接触式测量方法的不足,人们对非接触式测量方法进行了广泛研究。研究表明,非接触式测量方法具有非接触、无损伤、快速、测量精度高、易于实现在线测量、响应速度快等优点。目前已有的非接触式测量方法包括各种光学测量方法、超声法、扫描隧道显微镜法、基于计算机视觉技术的表面粗糙度检测方法等。这里我们只对基于光学散射原理的测量方法、基于光学干涉原理的测量方法和基于计算机视觉技术的测量方法做简单介绍。
2.1 基于光学散射原理的测量方法当一束光以一定的角度照射到物体表面后,加工表面的粗糙不平将引起发生散射现象。研究表明:表面粗糙度和散射光强度分布有一定的关系。对于表面粗糙度数值较小的表面,散射光能较弱,反射光能较强;反之,表面粗糙度数值较大的表面,散射光能较强,反射光能较弱。
基于光学散射原理测量表面粗糙度的研究方法和理论较多。四川联合大学和哈尔滨理工大学相继提出了一种称之为散射特征值的参数,表征被测物体表面上反射光和散射光的分散度,散射特征值与被测物体表面的粗糙度有很好的对应关系[2]。哈尔滨理工大学利用已知表面粗糙度参数值的标准样块测得其散射特征值,建立―关系曲线,从而实现利用散射特征值测量火炮内膛表面粗糙度[3]。
基于光学散射原理的表面粗糙度检测方法,具有结构简单、体积小、易于集成产品、动态响应好、适于在线测量等优点。该方法的缺点是测量精度不高,用于超光滑表面粗糙度的测量还有待进一步改进。
2.2 基于光学干涉原理的测量方法当相干光照射到工件表面同一位置时,由于光波的相互位相关系,将产生光波干涉现象。一般的干涉法测量是利用被测面和标准参考面反射的光束进行比较,对干涉条纹做适当变换,通过测量干涉条纹的相对变形来定量检测表面粗糙度。该方法的测量精度取决于光的波长。但是由于干涉条纹的分辨率是以光波波长的一半为极限的,仅从条纹的状态无法判断表面是凸起还是凹陷,因此,作为一种具有较好分辨率、宽测量范围的表面粗糙度在线检测技术,这种干涉法测量技术还有待于进一步发展[4]。
基于光学干涉原理,1984年美国洛克西德导弹公司huang采用共模抑制技术研制成功了光学外差轮廓仪,光外差干涉检测技术是一种具有纳米级测量准确度的高精度光学测量方法,适用于精加工、超精加工表面的测量,而且可以进行动态时间的研究;华中理工大学采用光外差干涉方法研制出2D-SROP-1型表面粗糙度轮廓仪[5]。美国的维易科(VEECO)精密仪器有限公司,采用共光路干涉法研制了WYKO激光干涉仪和光学轮廓仪,可用来测量干涉条纹位相[6]。
基于光学干涉原理测量表面粗糙度分辨率高,适于测量超光滑表面粗糙度,但由于该方法的测量精度受光波波长的影响很大,所以其测量范围受到一定影响。
2.3 基于计算机视觉技术的测量方法基于计算机视觉的粗糙度测量方法是指使用摄像机抓取图像,然后将该图像传送至处理单元,通过数字化处理,根据像素分布和灰度、纹理、形状、颜色等信息,选用合理的算法计算工件的粗糙度参数值。近年来,随着计算机技术和工业生产的不断发展,该方法受到越来越多的关注。
北京理工大学的王仲春等人采用显微镜对检测表面进行放大,并通过对CCD采集加工表面微观图像进行处理实现了表面粗糙度的检测[7]。哈尔滨理工大学吴春亚、刘献礼等为解决机械加工表面粗糙度的快速、在线检测,设计了一种表面粗糙度图像检测方法,建立了图像灰度变化信息与表面粗糙度之间的关系模型[8]。英国学者Hossein Ragheb和Edwin R.Hancock通过数码相机拍摄的表面反射图来估计表面粗糙度参数,运用Vernold Harvey修正的B K散射理论模型获得了比Oren Nayar模型更好的粗糙度估计结果[9]。澳大利亚学者Ghassan A.Al-Kindi和Bijan Shirinzadeh对基于显微视觉的不同机械加工表面粗糙度参数获取的可行性进行了评估,讨论了照射光源与表面辐照度模型对检测的影响,结果显示尽管从视觉数据和触针数据所获得的粗糙度参数存在一定差异,但是基于视觉的方法仍是一种可靠的粗糙度参数估计方法[10-11]。
可以看出,基于计算机视觉技术的测量方法主要有统计分析、特征映射和神经网络等黑箱估计法。通过这些方法获得的表面粗糙度参数的估计值受诸多因素的影响,难以给出其准确的物理解释。真正要定量地计算出粗糙度参数,需要科学的计算。
但是随着机械加工自动化水平的提高,基于计算机视觉技术的检测方法处理内容丰富、处理精度高、处理速度快、易于集成等优点将受到越来越多的重视。
3结束语
接触式测量测量速度较慢,容易划伤工件表面,并且不适用于连续生产材料表面的检测。非接触式测量具有无损伤、快速、测量精度高、易于实现在线测量等优点,已成为表面粗糙度检测的重点研究方向。非接触测量以光学法为主,随着计算机技术和工业生产的迅猛发展,基于计算机视觉技术的表面粗糙度非接触式检测方法受到越来越多的重视。
参考文献:
[1]刘斌,冯其波,匡萃方.表面粗糙度测量方法综述[J].光学仪器,2004,26(5):54-55.
[2]苑惠娟等.非接触式表面粗糙度测量仪[J].哈尔滨科学技术大学学报,1995,19(6):30-34.
[3]强熙富,张咏,许文海.扩展激光散射法测量粗糙度的测量范围的研究[J].计量学报,1990,11(2):81-85.
[4]王文卓,李大勇,陈捷.表面粗糙度非接触式测量技术研究概况[J].机械工程师,2004,11:6-9.
[5]王菊香.2D-SROP-1型表面粗糙度轮廓仪[J].工业计量,1994,(4):27-29.
[6]徐德衍等.光学表面粗糙度研究的进展与方向[J].光学仪器,1996,18(1):32-41.
[7]王仲春,高岳,黄粤熙等.显微成像检测表面粗糙度[J].光学技术,1998,5:46-48.
[8]吴春亚,刘献礼,王玉景等.机械加工表面粗糙度的图像检测方法[J].哈尔滨理工大学学报,2007,12(3):148-151.
[9]Hossein Ragheb,Edwin R.Hancock.The modified Beckmann Kirchhoff scattering theory for rough surface analysis[J].Pattern Recognition,2007,40:2004-2020.
篇4
英文名称:Journal of Image and Graphics
主管单位:中国科学院
主办单位:中国科学院遥感应用研究所;中国图象图形学学会;北京应用物理与计算数学研究所
出版周期:月刊
出版地址:北京市
语
种:中文
开
本:大16开
国际刊号:1006-8961
国内刊号:11-3758/TB
邮发代号:82-831
发行范围:国内外统一发行
创刊时间:1996
期刊收录:
中国科学引文数据库(CSCD―2008)
核心期刊:
中文核心期刊(2008)
中文核心期刊(2004)
中文核心期刊(2000)
期刊荣誉:
联系方式
期刊简介
《中国图象图形学报》是由中国科学院遥感应用研究所、中国图象图形学会、北京应用物理与计算数学研究所共同创办,是集计算机图像图形高科技理论、技术方法与应用研究成果产业化于一体的综合性学术期刊。《中国图象图形学报》是被国内主要检索系统收录的核心中文期刊,是图像图形学及相关领域的权威性杂志。
篇5
【关键词】双肤色模型;AdaBoost算法;人脸检测;OpenCV
Design of Face Detection System Based on Dual Skin Models and AdaBoost Algorithm
HOU Shun-yan QIE Jian-min XU Jing
(College of Electronic and Information Engineering, Hebei University, Baoding Hebei 071002,China)
【Abstract】A practical face detection system which is based on VS2010 and Intel open source computer vision library (OpenCV) under the platfrom of windows.was designed. It shoud bring out the face region detection in the complex backgroud image which may consist of face regions. The realization of face detection function is mainly fusion of dual skin models and Adaboost algorithm. The image segemention of skin region was firstly got based on a smiple boundary skin model and Gaussian skin color model in the YCbCr color space. The face coarse region location was determined by using the results of skin color segmentaion. Combining Adaboost algorithm, the accurate candidate face region was acquired secondly. This system is easy to use and has better detection.
【Key words】Dual skin models;AdaBoost algorithm;Face detection;OpenCV
0 引言
人脸检测是人脸表情识别、人机交互的第一步,快速有效的人脸检测直接影响人脸识别系统的实现。人脸检测是指运用一定的算法从不同背景或者视频中图像确定其中是否有人脸,若有则标出人脸的大小、位置、是否旋转以及旋转角度等信息。自上世纪90年代以来,科研人员提出了很多人脸检测算法,大致分为四类:基于知识的方法、基于特征的方法、基于模板的方法和基于表象的方法[1]。本文结合双肤色模型与Adaboost算法开发人脸检测系统。
1 系统开发方案
Intel公司的开源计算机视觉库OpenCV (Open Source Computer Vision Library)[2],由一系列C函数和少量 C++ 类构成,具有良好的可移植性,其代码都经过优化,可以进行图像的实时处理。OpenCV广泛应用在人机互动、物体识别、图象分割、人脸识别、动作识别、运动跟踪、机器人等领域。利用OpenCV实现人脸检测,为系统开发带来了极大的方便。
在Windows环境下,基于可视化开发平台VS2010,调用OpenCV视觉库,设计人脸检测算法,开发一个实用的人脸检测系统。
2 人脸检测算法设计
2.1 颜色空间的选择
肤色作为人脸的主要特征,从图像中抽取肤色,利用肤色检测可有效减小搜索范围,提高检测速度。常用的颜色空间有RGB、HIS、CYMK、YCbCr等,其中,YCbCr色彩空间是MPEG数字视频编码标准建议的颜色空间,具有计算、表示简单,亮度分离,能较好的限制肤色分布范围等特点。本文在YCbCr空间下实现肤色检测,从RGB空间到YCbCr空间的转化可由线性公式(1)得到。
■ (1)
2.2 基于双肤色模型的人脸粗检
肤色模型是指用一种代数的(解析的)或查找表等形式来表示哪些像素的颜色属于肤色,或者表征出某一像素的颜色与肤色的相似程度[3]。
2.2.1 简单边界肤色模型
简单边界肤色模型依据肤色在颜色空间中相对的集中在某一区域,使用一个或一组已知数学公式来表示肤色范围。简单边界模型要取得好的效果必须解决两个问题[4]:(1)如何选择合适的颜色空间;(2)如何确定规则中的参数。在选择颜色空间时除了要考虑肤色在颜色空间中的聚集程度外,还要考虑肤色与非肤色区域的可分离性。
2.2.2 高斯肤色模型
根据统计理论,在YCbCr空间中肤色的分布是连续的并且满足高斯分布。本文从自建的图像集中选取大量含有肤色的图像,分出肤色像素点,组成训练样本,利用样本的统计方法、EM算法确定Gauss分布的均值和方差。根据肤色在YCbCr空间的高斯分布,对被检测的图像计算像素点距离高斯模型分布中心的马氏距离。按照公式(2)得到各像素点属于肤色区域的概率,即可得到肤色似然图。
p(Cb,Cr)=e0.5(x-m)TC-1(x-m) (2)
其中,m是该图像的平均值;C是协方差矩阵;
xi=[Cbi,Cri]T,C=E{(x-m)(x-m)T}。
2.2.3 基于双肤色模型的肤色分割
简单边界模型运行效率较高,逻辑简单,常用于实时系统检测,但是肤色范围如果设置的太大,则会引入大量非肤色。基于概率的动态阈值模型如高斯模型,相对来说实现较复杂,但是检测精度高。因此本文采用简单边界模型和高斯模型相结合的方法优化肤色检测过程。
首先输入图像如图1(a),选择YCbCr颜色空间中的CbCr平面,设置肤色边界范围:100≤Cb≤127,133≤Cr≤173。如果图像中的像素落在限定的矩形区域内,就认为该像素为肤色,从而得到初次分割结果,如图1(b)。通常采用白色表示肤色区域,黑色表示非肤色区域。
初次分割的结果修正高斯肤色模型,对输入图像应用高斯模型进行肤色相似度判定,得到肤色似然图,如图1(c)。用最大类间方差法确定最佳阈值,得到肤色二值图像如图1(d)。
2.2.4 人脸粗检
对肤色分割得到的二值图像进行后处理,通过膨胀与腐蚀等形态学处理填充小空洞,去除小的噪声,以去除非人脸区域,判定肤色区域内孔的数量、大小及其位置关系,计算连通区域的宽和高,确定候选人脸区域。
2.3 结合AdaBoost的人脸精检测
Viola[5]提出了一种结合Adaboost和Cascade算法的多特征检测系统,具有极高的运行速度,实现了人脸的实时检测,并具有较高的检测准确率,在人脸分析领域引起了广泛的关注。该算法采用一组类似于哈尔小波变换(Haar-Like)的滤波器来计算图象的特征值,包括3种特征:双矩形特征、三矩形特征和四矩形特征。
(a)原始图像 (b)简单边界模型初次分割结果
(c)肤色似然图 (d)高斯模型二次分割结果
图1 基于双肤色模型的肤色分割
本文利用AdaBoost级联分类器扫描候选人脸区域,依次调用每级强分类器对该区域检测,因此AdaBoost级联分类器不用扫描整个图像,从而提高了人脸检测速度,准确的定位出人脸。
3 系统运行及功能分析
3.1 系统运行界面
人脸检测系统基于Windows风格,方便用户操作。系统运行界面如图2,图中为精确定位人脸实例。
3.2 人脸检测功能分析
人脸检测是人脸识别的第一步,检测效果直接影响后续工作。对人脸检测效果进行分析,采用540张静态图像进行测试,包括各种复杂环境和背景、不同尺寸、不同角度的单人脸和多人脸图像,共878个人脸。通过测试,共检测出789张人脸,误检人脸43张,检测率为89.9,平均每张脸检测时间0.963秒。总体说来,检测效果较好,基本满足系统要求。
图2 人脸检测系统运行界面
4 结论
基于双肤色模型和AdaBoost算法,开发了一个实用的人脸检测系统。该系统实现了肤色检测、人脸检测及特征定位等功能。实验证明该系统在检测率和检测速度上均有一定的提高,为后续人脸识别及实际应用提供了有力的保障。
【参考文献】
[1]Yang M H, Kriegnum D J. Ahuja N.Delecting face in images:a survey[J].Pattern Analysis and Machine Intelligence, 2002,24(1):34-58.
[2]贾小军,喻擎苍.基于开源计算机视觉库OpenCV的图像处理[J].计算机应用与软件,2008,25(4):276-278.
[3]Guangzheng Yang, Thomas S Huang. Human face detection in a complex background[J]. Pattern Recognition,1996:345-350.
篇6
【关键词】智能车辆 机器视觉 发展
一、前言
机器视觉技术,即计算机视觉技术,是智能车辆行驶环境感知的通道,一些控制决策参数直接由机器视觉获取。例如,智能车辆自主导航行驶时前方预瞄点位置的获取,超车行驶时前方车辆和车道边界位置的获取等等都要由机器视觉来完成。机器视觉系统在智能车辆上的应用源于20世纪 80年代中期。其早期研究是针对具有良好的室内试验环境条件进行设计的。
从20世纪90年代中期开始,智能车辆机器视觉的研究出现两个发展方向,其中一个发展方向是相对简单的机器视觉系统在智能车辆中的早期应用。主要体现在如下几个方面:(1)机器视觉横向辅助导航系统。(2)自适应导航控制系统。(3)自主“停车启动”驾驶系统。(4)换道辅助系统[1]。智能车辆机器视觉技术发展的另一个方向是研制开发具有拟人驾驶性能水平的复杂机器视觉系统。从长远来看,这种视觉系统还应具有自学习的功能。目前,德国联邦国防大学(UBM)著名学者Dickmanns教授开展了“多焦距主动汽车眼”(MarVEye-Multi-focal active/reactive Vehicle Eye)的研究。这种新型的综合视觉系统将智能车辆机器视觉技术提高到了一个新的水平。
二、国内外研究现状
机器视觉导航智能车辆已经成为当今智能车辆的发展主流,世界各主要国家都在竞相开展智能车辆视觉系统的研究。机器视觉系统是智能车辆感知局部环境的重要“器官”,而其所起的核心作用无外乎两个:识别行驶道路边界与行驶环境中的其它车辆(主要指前方车辆)或其它障碍物。具体地讲,就是利用安装在智能车辆前方的单目或多目光学CCD摄像机(或其它传感器)实时地获取图像,利用图像中的信息根据设计的算法识别出道路边界位置和前方车辆位置,再将这些路、车位置信息传给智能车辆的指挥系统,为其自主导航决策提供依据。而国内外的研究工作也主要集中在道路位置识别和前方车辆识别这两个方面。
目前对道路边界的识别主要集中在直线路形和路旁障碍物较少的道路条件。直线路形识别较为简单,用直线方程描述道路边界,可以大大减少计算量,此技术也相对较为成熟,例如有霍夫变换法,通过几何折射关系直接将道路边界标注出来。这种方法的缺点是受噪声尤其是直线噪声的影响较大,且算法不稳定。
吉林大学智能车辆课题组用基于图像灰度与方差统计的方法识别直线路界,即在得到图像后进行预处理并在最终的二值图像中划分网格,通过计算各网格的统计特性,由马氏距离区分道路边界点与非边界点,得到边界点最多的一条直线作为直线道路边界。此方法能够准确的识别道路边界,但当路旁噪声较大时识别效果不够理想。同时,基于熵最大化边缘提取的图像预处理过程由于算法复杂,耗时较长。
由于弯曲路形模式较为复杂,情况变化多样,算法难以统一,并且由于算法的复杂性,很难满足准确性和实时性要求。因此国内外对弯曲路径识别的研究从方法上并不成熟。国外有人用具有某些特征的曲线方程拟合弯曲路界,但由于参数的增加,计算量增大,因此很难满足实时性要求。国内有人用直线整条或分段近似拟合弯曲路界,在车道边界曲率不大时能够基本满足要求,但当曲率较大时识别准确性不高。因此,可以认为对道路边界尤其是弯曲道路边界的识别还有待于进一步研究。
由于前方车辆在图像中的灰度信息特征很不明显,例如当车辆在远方与近处时的灰度统计特性、纹理特性、外形特性等完全不同。因此,算法鲁棒性是一个非常棘手的问题。很难提出一种满足各种状态的识别算法。一般利用机器视觉进行车辆识别的方法可分为以下三类:
(1)基于车辆特征的方法。该方法利用图像中车辆存在的特征(纹理、边缘、对称性以及底部阴影等)进行分割和识别。这种方法的缺点是,当单独使用某一种特征时,经常会因光照或环境的变化,导致该特征信息量不足。因此,极易出现错判或漏判的现象。
(2)基于模板匹配的方法。这种方法利用大量的预先做好的车辆模板(基于灰度信息或小波特征) ,与实时采集的图像进行匹配。寻找相关性最大的匹配区域作为车辆存在区域。通常,这种方法鲁棒性相对较好,缺点是实时性较差。
(3)基于学习的方法。这种方法的本质是利用神经网络,对大量的车辆图像进行训练,然后通过分类器进行分类。通常这种方法被用来对已检测的车辆进行验证。
吉林大学智能车辆课题组提出一种基于车辆特征的方法识别和跟踪前方的车辆。首先,利用车辆底部存在阴影的特征,在图像中确定可能存在的车辆区域。然后,通过分形维数计算该区域的纹理特征,排除非车辆区域。这种方法对于强光条件和车辆颜色与路面的颜色特征相似的情况,识别和定位的效果不够理想。
三、关键难点与长远发展
在不考虑硬件设备的情况下,制约智能车辆视觉系统探测效果的三个关键因素是视觉系统所应用算法的实时性、鲁棒性和精确性。实时性要求视觉系统数据处理必须与车辆的高速行驶同步进行;鲁棒性要求智能车辆视觉系统在各种复杂的路面环境下均具有良好的适应性,例如路面有大量树木与建筑物阴影、变化的气候条件等;精确性则要求视觉系统在一些复杂环境下不能出现过多的错判率。这三个要求相辅相成,互相制约。要完全达到上述要求,智能车辆机器视觉系统还需要很长的发展历程。目前有关智能车辆机器视觉系统的研究正处于一个高速发展的阶段,由于硬件水平的提高和理论研究工作的深入,在可以预见的将来将达到一个更高的水平。
参考文献:
[1]王荣本, 游峰, 崔高健, 郭烈. 基于计算机视觉高速智能车辆的道路识别. 计算机工程与应用,2004,(8):34-39
[2]顾柏园, 王荣本, 余天洪, 郭烈. 基于视觉的前方车辆探测技术研究方法综述. 公路交通科技. 2005,(10):28-33
篇7
关键词:无人机平台;多视角;倾斜影像;匹配策略;影像获取;影像处理 文献标识码:A
中图分类号:P231 文章编号:1009-2374(2017)08-0023-02 DOI:10.13535/ki.11-4406/n.2017.08.011
1 概述
随着地理信息产业的快速发展,用户对于地理信息产品的地理要素完整性、精确性、实时性提出了更高要求。近年来提出的“数字地球、智慧城市”预示着未来地理信息产业中三维城市建模的重要性。传统单镜头、近似垂直摄影测量作业模式经过几十年的发展,在理论、技术上趋于完善,但是其获取的影像缺乏高大地物的侧面纹理信息。为了同时获取地物多个侧面的信息,多视角倾斜航空摄影技术受到越来越多的重视。当前随着无人机技术的发展,多视角倾斜航空摄影成本正逐步降低,大规模运用指日可待。
2 倾斜影像摄影作业概述
多视角倾斜航空摄影从多个视角拍摄地面影像,较常见的构造为1个下视镜头+4个倾斜镜头,此外也有1个下视镜头+2个倾斜镜头(如Trimble的AOS相机)。三线阵CCD扫描相机ADS40在参考文献[1]中也作为三视角倾斜相机。不论是五视角相机还是三视角相机,多个镜头的分布一定是严格对称且关系稳固的。这些数字倾斜相机都集成精确的定位定姿系统(GPS/IMU)获取影像外方位元素。本文只研究五视角相机的影像获取和处理技术。五视角倾斜相机集成1个下视镜头和4个倾斜镜头。每次曝光垂直和倾斜相机设计为同时曝光。以AMC580相机为例,曝光瞬间同时存储1张垂直影像和4张倾斜影像,并记录这5张影像的外方位元素。
倾斜航摄作业记录的数据包括控制数据和影像数据。航摄飞行记录包括航摄时间、天气状况、航线的分布图以及每条航线上每次曝光记录的影像名序列。
其中,相机检校文件包括相机名称、主距、像主点偏移、辐射畸变改正系数、偏心变形系数以及像点纠正方程。POS数据指的是每张影像的外方位元素。影像外方位元素由线元素和角元素共6元素组成,线元素Xs、Ys、Zs是投影中心在物方空间坐标系中的位置,角元素描述成像面在成像时刻的姿态。倾斜航空摄影测量作业也可以与传统单镜头作业模式一样,在按照“S型”轨迹拍摄完后,再垂直于这组“平行航线”沿“垂直架构航线”获取影像,以增强影像间的相关性,便于后续平差处理。
3 倾斜影像匹配难点
五镜头倾斜航空摄影获取的影像具有如下难点:(1)地面分辨率、比例尺不一致。倾斜镜头对严格水平的地面成像时,远景的GSD(地面采样间隔)比近景的要低。参考文献[2]给出了计算倾斜影像上不同点比例尺以及近景点与远景点比例尺差异的公式。离相机远的地面点和离相机近的地面点成像比例尺不一致;(2)倾斜影像遮挡严重,高度重叠,数据冗余;(3)在航摄角度上,5个镜头朝向各异,进入镜头的光强也会明显不同,因此不同镜头、不同航线影像的亮度、对比度有较大偏差;(4)从影像像素尺度来看,在多视角倾斜影像匹配中,待匹配窗口与模板窗口之间发生了大的变形,像素值发生偏移,正方形框是开取的模板窗口和搜索窗口,计算两个正方形框内像素的相关系数,相关程度不可能很高。前期实验表明,适用于传统垂直影像性能稳定的灰度匹配算法,在应用于倾斜影像时往往出现大量误匹配,甚至失效。
4 常规匹配方法
影像匹配可能由于存在遮挡而无解或因重复模式存在多解。在匹配过程中加入约束条件对匹配有重要作用:缩小影像上的匹配搜索空间,提高匹配效率,同时也提高匹配正确率。倾斜影像严重的几何畸变本身就给“点―点”的相似性测度计算带来很大困难,这时有效限制搜索范围对于匹配成功尤为重要。
4.1 金字塔多级匹配
金字塔多级匹配就是先把待匹配的左、右原始影像降采样成多个尺度的影像。沿着影像金字塔自上而下,尺度由粗到精,单个像素对应的地面尺寸逐渐减小,地面采样间隔GSD(Ground Sampling Distance)减小,影像空间分辨率提高。首先在影像金字塔上层匹配,然后将匹配结果传递到下层影像上,直至最高分辨率的原始影像上。多级匹配方法可以达到减小搜索空间的目的。
影像匹配是直接对像素灰度值进行的操作。在影像金字塔上层,细节信息已被平滑,整体纹理具有更大的相似性,因而能取得更理想的匹配效果;在影像金字塔下层,细节信息未被平滑,灰度变化更剧烈,轻微的几何变形就会给匹配增加很大难度。
4.2 单应约束
单应约束的理论基础是计算机视觉中Marr提出的影像匹配约束框架。无论是基于灰度还是特征的匹配,整体匹配结果体现的视差变化规律应该是连续的、相容的、协调的,而除了特殊地形外不会出现视差突变、跳跃的情况。基于这一原理,可以利用影像整体的视差对每个点的匹配过程进行约束。
RANSAC是计算机视觉中稳定的参数估计算法,其作用是排除不稳定和错误的匹配点对,对于两张影像间的几何关系进行最似然模拟。其思想就是根据已知同名点对估计单应矩阵H,再根据求出的变换矩阵对于已知同名点对进行划分,筛选出符合模型的同名点,利用新的同名点集重新估计变换模型。这样迭代若干次后同名点对数最多时的单应矩阵H即为最优解。也可以说,利用尽可能多的同名像点估计的单应矩阵H更具有一般性,能对更大范围的像点进行有效的几何约束。
篇8
关键词:CCD、轨迹、图像处理
视觉在人类生活中起着非常重要的作用,人们每天都通过眼睛采集大量的信息,这些信息经过大脑的处理,成为人们认知和理解世界的基础。机器人视觉信息主要指CCD摄像机采集的二维图像信息。视觉信息能否被正确、实时地处理直接关系到机器人对障碍物的避碰、对路标的识别以及对路径的跟踪,对系统的实时性和鲁棒性具有决定性的作用。视觉信息的处理技术是移动机器人研究中关键的技术之一。为了简化视觉信息处理,通常把移动机器人的工作环境分为结构化道路环境和非结构化道路环境。结构化道路的检测相对来说较易实现,其检测技术一般都以边缘检测为基础,辅以Hough变换、模式匹配等,并利用最小二乘法对应于道路边界的线条,得出道路的几何描述。由于非结构化道路的环境复杂、特征描述困难,使得非结构化道路的检测及信息处理复杂化。
近年来,机器人视觉导航技术有了很大的发展。移动机器人的工作环境可能比较复杂,因此,提高图像识别的准确性以实现移动机器人的准确定位是移动机器人完成其导航任务的首要前提;同时,由于移动机器人在导航过程中需要实时的采集并分析图像信息,从而实现对作业环境的识别以进行准确的路径跟踪。因此,如何在提高图像识别的准确性的同时达到较好的实时性是移动机器人视觉技术的一个发展方向
1.图像处理
数字图像处理,是对数字图像信息进行加工以满足人的视觉心理或应用需求的行为,数字图像处理的英文名称是"Digital Image Processing'',通常所说的数字图像处理是指用计算机对图像进行的处理,因此也称为计算机图像处理。图像处理就是用一系列的特定操作来改变图像的像素,以达到特定的目标,比如使图像更清晰,或者从图像中提取某些特定的信息等。
CCD摄像头的主要工作原理具体而言,就是摄像头连续地扫描图像上的一行,输出就是一段连续的电压视频信号,该电压信号的高低起伏正反映了该行图像的灰度变化情况。当扫描完一行,视频信号端就输出低于最低视频信号电压的电平(如0.3v),并保持一段时间。这样相当于,紧接着每行图像对应的电压信号之后会有一个电压"凹槽",此"凹槽"叫做行同步脉冲,它是扫描换行的标志。然后就需要跳行,跳过一行后(因为摄像头是隔行扫描的方式),开始扫描新的一行,如此下去,直到扫描完该行的视频信号,接着就会出现一段场消隐区。此区中有若干个复合消隐脉冲,其中会有个脉冲远宽于(即持续时间长于)其它的消隐脉冲,该消隐脉冲又称为场同步脉冲,它是扫描换行的标志。场同步脉冲标志着新的一场的到来,不过,场消隐区恰好跨在上一场的结尾部分和下一场的开始部分,要等到场消隐区过去,下一场的视频信号才真正到来。摄像头每秒扫描25幅图像,每幅又分奇、偶两场,先奇场后偶场,故每秒扫描50场图像。奇场时只扫描图像中的奇数行,偶场时则只扫描偶数行。
选择一款具有全电视信号输出的黑白CCD图像传感器,用LMl881进行信号分离,结合A/D采样,实现了视频信号的采集。在总线周期为400M的情况下,每行采集72个有效数据,摄像头每场信号有320行,其中第23到310行为视频信号。我们从中均匀采集了24行,最后得到一个24×72的二维数组。
CCD采集的原始数据包含了黑线的位置信息,为了稳定可靠地提取这一信息,有一下几种方法:
(1)二值化算法
算法的思路是:设定一个阈值value,对于视频信号矩阵中每一行,从左至右比较各像素值和阈值的大小。若像素值大于等于阈值,则判定该像素对应的是白色道路;反之,则判定对应的是目标指引线。记下第一次和最后一次出现像素值小于阈值时的像素点的列号,算出两者的平均值,以此作为该行上目标指引线的位置。该算法的思想简单,具体实现时还可以一旦检测到左边缘后就退出该行扫描,这样上面的流程图将变得更加简洁。但是这种提取算法鲁棒性较差,当拍摄图像中只有目标指引线一条黑线时,还能准确提取出目标指引线。但当光强有大幅度的变化,或图像中出现其它黑色图像的干扰时,并且离机器人比较近的黑线比较的明显,离机器人越来越远时黑线越来越淡,该算法提取的位置有可能与目标指引线的实际位置偏离较大。
(2)直接边缘检测算法
算法的思路是:设定一个阈值,对于视频信号矩阵中每一行,从左至右求出相邻两像素值的差值(左减右)。若差值大于等于阈值,则判定下一个的像素点对应的是目标指引线的左边缘,以此像点作为该列的特征点,记录下此像素点的列号,作为该行上目标指引线的位置。当然,可能出现差值始终小于阈值的情况,此时一种方法是令该行上目标指引线位置为0,通过进一步滤波或拟合来修正;另一种方法是让该行上目标指引线位置和通过上一场视频数据求得的位置一样。
该算法较二值化方法而言,抗环境光强变化干扰的能力更强.同时还能削弱或消除垂直交叉黑色指引线的干扰。因为该算法在视频信号矩阵中是由左至右来寻找目标指引线的左边缘的,所以当黑色图像出现在目标指引线左方时,该算法无法排除干扰,而当其出现在右方时,则可以排除干扰。
(3)跟踪边缘检测法
这种算法跟直接边缘榆测算法一样,也是寻找出目标指引线的左边缘,仍然用左边缘的位置代表目标指引线的位置。但跟踪边缘检测从视频信号矩阵每行中寻找左边缘的方法与直接边缘检测法不同。
因为目标指引线是连续曲线,所以相邻两行的左边缘点比较靠近。跟踪边缘检测正是利用了这一特性,对直接边缘检测进行了简化。其思路是:若已寻找到某行的左边缘,则下一次就在上一个左边缘附近进行搜寻。这种方法的特点是始终跟踪每行左边缘的附近,去寻找下一列的左边缘,所以称为"跟踪"边缘检测算法。
在首行边缘检测正确的前提下,该算法具有较强的抗干扰性,能更有效地消除垂直交叉黑色指引线的干扰,以及指引线外黑色图像的影响,始终跟踪目标指引线。
另外,较之前两种算法,跟踪边缘检测算法的时间复杂度更低,因此效率更高。但值得注意的是第一行的左边缘位置对整个目标指引线的搜寻影响 很大,一旦它的位置和实际导引线偏差较大,就会产生一连串的错误,这是不可容忍的。
通过比较本系统选择了效率更高,更可靠的跟踪边缘检测法。流程图如图所示:
2.结论
本文中图像处理和路径信息识别的方法,并对不同时刻不同位置采集到的图像的处理效果进行比较研究,结合实际环境中的图像特点,确定出适合于本研究的图像处理算法。提出了改善路径信息辨识速度和精度的方法。
参考文献:
[1]张文志,吕恬生.基于改进的遗传算法和模糊逻辑控制的移动机器人导航[J].机器人.2003,
25(1):1
[2]邱茂林,马颂德,李毅.计算机视觉中摄像机定标综述[J].自动化学报.2000,26(1):44-45
[3]吴文琪,孙增圻.机器视觉中的摄像机定标方法综述[J].计算机应用研究.2004,21(2):4-5
篇9
关键词:彩色图像聚类算法;K-means算法;行为分析
中图分类号:TP391 文献标志码:A 文章编号:1009-3044(2015)13-0180-02
随着科学技术的不断发展、计算机应用领域的不断开拓,图像处理方法应运而生,目的是利用计算机设备将图像进行分类处理,用于智能分析图像信息。当今图像处理与识别的应用范围越来越广,但就目前的水平而言,计算机对外部的感知能力还比较薄弱,还需要投入大量人力、物力从事数字图像处理与识别的理论和应用的研究。于是各行各业对于数字图像处理技术的精确化与智能化有着更大的需求。这样的需求尤其体现在航空航天、生物医学工程、工业检测、机器人视觉、公安司法、文化艺术等领域。
而本文针对数字图像处理技术的特性,将其应用在普遍计算机操作行为的分析之中,实现了一种根据计算机操作过程中显现的图像色彩来智能分析其操作行为的创新功能。
1 算法简介
彩色图像的聚类分析以及K-means算法是本课题的关键。本文通过彩色图像聚类分析与K-means算法将图像转化为3类模块,分别为正常图像,渲染图像与灰度图像。对这3类模块同时进行遍历与聚类,计算出其影响行为分析判断的影响色块区间与影响深度区间,基于两类区间相互结合,最终依照阀值界限对原图像进行行为判断,得出操作行为分析结论。
图1为算法结果演示图。
2 算法实现
2.1获取计算机图像
获取当前窗体的大小,创建一个以当前窗体为模板的图象,创建一个位图Bitmap绘图图面,得到窗体的句柄和图像的句柄,复制土块的光栅操作码,调用API函数,实现窗体捕获。释放句柄,保存图像。本例中图像结果如图2。
2.2彩色图像聚类分析
根据行为分析图像・自定义颜色的色系,程序将获取的图像,统一转化为rgb格式,遍历图像的像素点,获取图像中色系种类与比例及色系的位置,统计主要颜色所在色系的权重。根据自定义的色彩模型,分析图像内容。
基于色彩图像的RGB格式,建立三维坐标图,其中R为X轴,G为Y轴,B为Z轴,坐标轴长度均为255,根据近似色的微小差别,将三通道色素划分为14个色系,即14个色彩区块,之后根据色彩区块的冷暖调与鲜明程度,与已有的操作行为图像结果进行匹配统计得出具体阀值。图4为划分的部分色系图。
根据彩色图像将所有像素点规划到14个色彩区块,之后遍历所有像素点将其编入类组,将同一类组的像素点进行渲染形成同一颜色,图3为渲染图。
通过反复试验经验积累,按照冷暖色调与色彩鲜明度提取出色彩区块中该色彩比例对行为分析判断结果造成影响的六类色区。构建一个影响色块区间,存放六类色区中最终对行为分析结果造成影响的像素点。统计这六类色区,当某一色区所占总像素比例超过指定阀值时(本阀值是在反复试验中经过大量已归类行为图片分析计算后归约出来的行为色彩区分界限),保存其色区像素比例致影响色块区间。图5为主色系所占比例。
2.2灰度图像聚类分析
本研究中对于灰度图像的聚类分析主要根据K-means算法进行聚类实现。
本研究所采用的K-Means聚类算法的优点主要集中在:算法快速、简单;对大数据集有较高的效率并且是可伸缩性的;时间复杂度近于线性,而且适合挖掘大规模数据集。
K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目。
K-means算法具体流程为:
1)随机选取k个聚类质心点(cluster centroids)为[μ1,μ2,...,μk∈Rn]。
2)重复下面过程直到收敛
对于每一个样例i,计算其应该属于的类
[c(i)=argminj||x(i)-μj||2]
对于每一个类j,重新计算该类的质心
[μj:=i=1m1{c(i)=j}x(i)i=1m1{c(i)=j}]
在 K-means 算法中 K 的选取均有人工指定,而 K 值的选定是非常难以估计的。本文在对大量原始数据实验结果的基础上进行总结,得出当k值选定为5时,对于操作行为分析具有最佳精准度。
在 K-means 算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择不当,则可能无法得到有效的聚类结果。本研究中初始聚类中心,是根据彩色图像的比例最大的主色系的位置的中心来设定的。
3 算法效果
本文针对目前市面中出现率频繁的娱乐游戏、电影、办公软件、学习软件进行检测,本算法效果有着较强实用性。其中,深色系游戏与电影分析的效果显著,如《英雄联盟》、
《DOTA》、《哈利波特》。而浅色系游戏,在特定场景中分析效果会受到干扰,如《剑网三》当中对图片进行光晕处理后,其影像色彩区间受到波动。对此现象,经过大量的图片测试,对游戏类的图像进行了归纳,这对今后的算法修改提供了很好的数据矫正。
4 结束语
本文立足于图像处理技术的创新与应用,并将图像处理技术与计算机操作行为分析相结合,运用自编彩色图像聚类分析算法对图像色彩进行分类统计,构建影响色彩区间并对区间色彩进行操作行为匹配,划定区间阀值。以及引入K-means算法对图像进行灰度化处理,通过实验数据结果以及经验选择K值以适应行为分析计算,同时构建深度影响区间,对图像色彩深度进行分类,最终结合影响色彩区间划定行为分析界限。实现了智能分析计算机操作行为的创新,摆脱人工监控与识别行为。这对将来自动对计算机图像界面、行为模式分析的监控与统计提供了可观的价值。
参考文献:
[1] Parker J R. 图像处理与计算机视觉算法及应用[M]. 2版. 北京: 清华大学出版社, 2012.
[2] 赵春江. C#数字图像处理算法典型实例[M]. 北京: 人民邮电出版社, 2009.
[3] 谢凤英. 数字图像处理及应用[M]. 北京: 电子工业出版社, 2008.
篇10
关键词:手势分割;轮廓模型;运动分析;肤色提取
中图分类号:TP391.41
随着计算机技术的发展,出现了物联网、信息物理系统(CPS)等新概念、新技术,人机交互技术的重要性更加凸显并成为当前信息产业竞争中的一个焦点。与传统的交互方式相比,手势以其独有的简洁、直观、人性化、信息量丰富的特点成为与计算机交互的媒介。手势分割是整个手势识别系统中的起点和关键技术之一,其分割质量的好坏直接影响到后续操作如特征提取、目标识别的最终效果。手势分割[1]可以理解为从包含手势的图像中提取出有意义地手势区域的过程,其主要特点是选取如颜色,灰度等与无意义区域有明显差异的特征,将手势区域与无意义区域分离,致使二者之间存在更为明显差异。因此对于基于内容的图像检索,对象分析等提取有用信息,必须采用分割效果较好的分割方法。作为计算机视觉中的一个重要研究内容,手势分割技术在图像处理领域有着至关重要的地位。
1 基于活动轮廓模型的分割技术
活动轮廓模型的提出给传统的图像分割和边界提取技术带来了重大突破。活动轮廓模型是指在图像域上的曲线(曲面),在图像力(内力)和外部约束力共同作用下向物体边缘靠近的模型,外部约束力是由图像数据定义的。活动轮廓模型主要由模型的描述,模型的能量函数和模型的最小化组成。基于活动轮廓模型的分割方法是一种半自动的基于先验知识和用户交互的图像分割。根据使用方式、应用曲线的类型和图像能量项的选择等,将其划分为基于变分法的活动轮廓模型和几何活动轮廓模型的分割方法。
1.1 基于变分法的活动轮廓模型分割方法
在1987年Kass,Witkin和Terzopoulos提出了Snake模型[2] ,即基于变分法的活动轮廓模型,又称为参数活动轮廓模型。它是直接以不规则排列的不连续点构成曲线或基函数构成的曲面的参数形式显式地表达曲线/曲面的演化。其工作机制是首先为给定的模型构造所需的能量函数,其次利用变分法对该能量函数极小化,最后根据获得模型演化的偏微分方程,当轮廓线到达目标边界时,能量函数达到最小值而自动停止。该模型的优点是把图像分割问题转化成泛函数求极值问题,通过合适地初始化后轮廓线能够自主地收敛于能量极小值状态,从而获得正确的边界,同时保持了边界的光滑性,降低计算复杂度。但是Snakes模型的缺点是分割的最终效果与活动轮廓的初始位置有关,需要依赖其他方式将Snake放置在感兴趣图像特征周围;当靠近曲率高的边缘时,活动轮廓线有可能收敛到局部极值点,甚至发散;其拓扑结构不易改变。
1.2 几何活动轮廓模型分割方法
几何活动轮廓模型分割方法主要是基于曲线进化的思想和水平集方法共同描述曲线进化的过程,因为采用了水平集方法而隐含有拓扑变化的能力,使得更为复杂结构的图像分割成为可能。其原理是把平面闭合曲线隐性地表示为具有相同函数值的点集,然后根据曲面的进化过程来隐性求解曲线的进化过程,嵌入的曲面总是其零水平集,因此只要确定零水平集就能够确定移动界面演化的结果。由于几何活动轮廓模型的初始轮廓线与参数特性无关,无需对曲线重新进行参数化,它是在轮廓曲线(如曲率)的几何特性的推动下运动到目标边缘,这就弥补了基于变分法的活动轮廓模型的某些缺陷,比如因为水平集方法的引入,从而可以自然的处理拓扑结构的变化。对初始位置不敏感,避免了参数活动轮廓模型必须重复地参数化曲线,提供了稳定的数值算法等优点,基于上述优点,研究学者们把几何活动轮廓模型越来越广泛的应用到计算机视觉和图像处理领域。但该模型的不足之处是仅仅利用了图像区域的灰度信息,致使图像边缘定位的精确度不高。因此目前几何活动轮廓模型分割方法研究的重点和难点是如何求解出不同的轮廓曲线能量函数,获取所需的图像分割结果。
2 基于运动分析的分割技术
视频序列中的手势图像作为一种运动目标实体是手势识别系统的研究重点和难点。视频中的运动目标分割的是指在二维连续图像序列中,将感兴趣的运动目标实体从场景中提取的过程。但是由于视频场景的复杂性,如受到光照、阴影等因素的影响,使得运动目标的分割变得困难。针对不同运动视频场景而言,目前常用于视频图像序列中的手势分割方法主要有以下几种:基于背景减法的分割方法、基于帧间差阈值的方法、基于光流场的分割方法。
2.1 基于背景减法的分割方法
基于背景减法的分割方法原理是先选取多幅图像的平均构建一个背景图像,利用当前帧图像与背景帧图像相减,进行背景消去来获得差分图像,最后通过设定阈值进行目标提取的一种检测运动区域算法。这种方法的优点在于原理和算法都比较简单,根据它较为完整的特征数据,更好的解决帧间差分法中目标区域偏大,目标内部出现孔洞等问题。但是由于受光照变化和外部条件的影响,场景的动态变化致使目标阴影的出现,导致检测的最终效果受到干扰,还有对于背景的更新问题也难以解决。
2.2 基于帧间差分阈值的分割方法
2.3 基于光流场的分割方法
光流技术的思想是通过序列图像中各个像素的矢量特征对光流方程进行求解,从而检测出运动区域,其实质是求解运动目标的速度。基于光流法的分割方法[3]也称为连续处理方法,是由光流场估计和运动场模型构成,通常忽略相邻时刻之间的间隔。在摄像机运动时,能够有效地反映出运动不一致的区域,具有较好鲁棒性,该方法能够在进行运动检测时,给出运动的大小和方向信息。光流法具有很多优点的同时,也存在一些问题,对于运动物体遮挡和运动偏差,没有有效的解决手段。计算过程相当复杂,导致所使用的计算时间太长,一般条件下不能应用于全帧视频流的实时处理。此外还会衰减目标的边缘运动信息,将运动边界模糊化,最终降低了分割准确性。
3 基于肤色检测的分割技术
同其他特征的处理方式相比,颜色特征的处理更快捷简单,同时对方向不敏感,所以肤色检测在人脸和手势的识别与跟踪、数字视频处理、安全防范、医疗保健等领域有着极为广泛的应用价值。根据有没有涉及成像过程,将肤色检测方法分成基于统计的方法和基于物理的方法两种基本类型。
基于统计的肤色检测是利用建立的肤色统计模型实现肤色检测,包括颜色空间的选取和肤色建模两个方面,主要分为静态肤色检测和动态肤色检测。颜色空间是颜色的一种数学表示方式,人们对颜色的研究和应用产生了许多不同的颜色空间,例如用于电视工业的YUV,YIQ,YCbCr,色度学的CIE-RGB真实三原色系统和CIE-XYZ虚拟三原色系统,面向色调的HIS,HSL,HSV等HS系列和TSL。静态肤色模型中,目前常用的主要为非参数化的直方图统计、阈值化的规定肤色范围。直方图统计肤色模型是一种非参数模型,理论上因为与肤色分布形态无关,所以速度快。但是不足之处就是需要大量的统计样本和存储空间,更适用于大规模训练和测试的图像数据。由于受到某些颜色空间的色域没有规则的边界的影响,阈值化的规定肤色范围主要考虑何种颜色空间适合以及如何确定规则的参数。目前主要包括能够适应成像条件随时间的变化的图像和将肤色模型参数调节到适应具体的某幅静态图像的两大类动态肤色建模方法。但是一般情况这些自适应的方法所建立的模型通用性较差,只有规定在具体特定条件下才能得到较高的检测率。
基于物理的方法从皮肤的光学特性出发,引入照明和皮肤间的相互作用,估计肤色可能的分布范围,尽可能实现肤色的光照不变性。在复杂光照条件,基于统计的肤色检测技术不能有效分割感兴趣区域时,就需要此方法对肤色区域进行检测和纠正。总之基于物理的肤色检测和基于统计的肤色检测所使用的数学工具基本相同,主要差异在于是否利用解释皮肤辐射特性的物理模型。
目前肤色检测技术仍然存在一些问题:
(1)环境因素:复杂照明或复杂背景下的肤色检测效果欠佳,单一手段不能获取理想的分割效果。
(2)因为目前还没有建立起统一的肤色数据库,运用定量的手段对各种肤色检测技术的性能进行比较是难以实现的。因此为了能够客观地比较各种肤色的性能,应该着手建立一个统一的系统测评方法和规范。
(3)颜色空间的选择和量化级数与肤色建模和分类方法有关,肤色不是很独特,会出现类肤色与肤色范围重叠,因此应该采用均匀的颜色空间,而不要只局限于比较不同颜色空间的肤色分布形态和交叠情况。
4 总结
随着手势识别技术的广泛应用,手势图像质量要求越来越高,出现了多种手势分割的算法。这些算法各有其优缺点,目前涉及到的大部分算法都是针对较为简单环境下,理想和清晰的目标图像。但是在实际处理过程中,特别是在复杂多变的环境中,想使用单一的分割方法分割出较好的手势图像还存在明显不足。比如复杂环境下出现与手势肤色重叠的情况下,会造成干扰以及运动目标识别困难,使得分割的手势图像存在偏差。另外在获取手势视频序列过程中,往往受光照角度和亮度,背景复杂度以及光源的颜色的影响,也无法得到理想的手势分割图像。那么如何在复杂多变的情况下将人手高效地分离出来,同时提高获取图像的实时性,将成为后续的研究重点。
参考文献:
[2]王辉.基于视觉的实时手势跟踪与识别及其在人机交互中的应用[D].杭州:浙江大学,2008.
[2]李培华,张田文.主动轮廓线模型综述[J].软件学报,2000,11(6):751-757.
[3]Jun Zhao, Shuguang Zhao, Yuan Wang. A novel method for moving object detection in intelligent video surveillance systems[A]. International Conference on Computational Intelligence and Security[C],IEEE,2006,2:1797-1800.
- 上一篇:商务英语研究方向
- 下一篇:气象服务生态文明建设