计算机视觉常用技术范文

时间:2023-09-14 17:50:34

导语:如何才能写好一篇计算机视觉常用技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

计算机视觉常用技术

篇1

关键词:计算机技术;视觉识别技术;交互技术;会议展示;智能办公环境

在日常的企业办公管理活动中,有很多时候需要可视化地展示企业市场计划、新产品设计、数据分析报告等。尽管这些活动所需要的材料在事前可以经由办公自动化软件处理,但处理结果却很大程度上只能由静态的PPT展示和说明。但很多时候,这些展示和说明往往是多个部门不同专业背景的人员参与,于是展示材料制作的水平和质量就很大程度上影响到了参与者对所展示内容的理解和吸收程度。很多复杂的问题或者设计的展示,如果能采用互动交互的方式展示,在很大程度上能够帮助问题讨论的参与者对所讨论问题更好的理解。这一点在常规的教育过程中已经获得了充分的证实,相关的数据和结果可以从多媒体教学的优势的相关研究中得到。同样,企业中很多方案的讨论,数据分析报告的说明其实对于企业而言也是一个方案设计者或数据研究分析者对相关人员类似教学的过程。采用现有企业常规会议设备诸如投影仪、普通笔记本电脑、电脑摄像头配合相应的计算机视觉识别程序,我们可以将交互的投影演示引入到企业日常的展示讨论活动中,增强沟通效果,提高工作效率,并且在技术上同样的识别交互的程序配合上相应的员工面部特征的数据库,还能扩展延伸到考勤或门禁系统中提供更加智能化的办公环境。对于以展示沟通为主的教育培训企业,通过配合一般人脸数据特征,可以通过摄像头捕捉现场视频并识别其中人脸识别,记录现场关注展示内容的人员的数量,作为日后教学效果的自然客观的评估参考。

1目前办公信息化中存在的问题

1.1会议演示文稿展示时多人交互型差

目前主流的演示文稿制作及展示软件主要大多都集成在套装的办公软件中,其中主要常见的种类分别是MicrosoftOffice系列中的PowerPoint、MacOS系统下的KeyNote、基于Linux操作系统的Openoffice中的Impress。它们主要的功能都是对输入的文字、图片声音等多媒体进行编辑制作最后生成电脑上播放的多媒体幻灯片,尽管它们都具有强大的多媒体数据的处理能力,但最终制作的多媒体幻灯片在演示时都是“单向交互”的,即由播放者播放,而其中的内容及动画按预先设计好的模式显示。如果使用Adobe公司的Captivate或Authware这样的多媒体交互制作软件则会需要有专人进行操作,浪费大量的时间和精力,但如果是配置专门的多点触摸屏幕,则一来屏幕尺寸有所限制,二来费用相对较高容易造成设备的浪费。

1.2传统办公考勤与门禁系统的弱势

目前企业常规的门禁系统与日常考勤系统往往是分离的,两个系统使用了各自独立的软硬件环境,其中门禁系统使用的是摄像监控设备采集信息并通过专人24小时值班,其主要职能仅仅是监控办公环境的人员进出并记录下相应的影像资料。而企业日常的考勤系统则要么采用人工签到的方式,要么采用人工打卡或者指纹打卡方式。如果采用打卡方式管理则需要添置专门的打卡机,这些打卡机多数是独立工作,对于员工的考勤则需要人工根据卡片记录情况统计。无论是员工自身打卡或者是统计考勤都是人工完成,有时还会出现错误和疏漏,同时主要的问题还在于容易出现代人打卡等作假的情况。所以,在传统的办公考勤与门禁系统独立的情况下,两个系统各自记录各自的相关数据,同时投入两套不同的软硬件环境,有时这样的办公环境的信息化反而没有给人员带来便利,而是增加一项打卡签到的日常任务。

2对存在的部分问题的分析和讨论

2.1传统演示设备缺乏交互型功能

由于很长一段时间硬件以及软件的条件约束,电脑的键盘、鼠标完成了95%以上的数据输入工作,单一显示功能的显示器投影仪也成了最主要的信息输出设备。所以常规软件设计和开发时都是把键盘、鼠标、显示器/投影仪的输入输出组合当做几乎所有使用情况下的模式。但随着触摸屏与多点触控硬件的出现,多点触控、屏幕的直接交互输入输出操作成了未来发展的一个趋势,并且相对普通鼠标和单一显示功能的显示器用户交互体验明显提升,人机交互界面更友好直观。但是对于普通办公中使用的投影仪,由于其投影的目标位置情况多样,如果一体化的设计制造具有交互功能的互动投影仪其成本要比普通投影仪更高,对于解决互动操作的问题经济上不是最优的。而大面积的多点触控屏幕由于设备体积和重量的因素无法在需要灵活移动的新产品推广谈判等活动中使用,如果只是企业自身办公环境中做普通会议展示的效果改进,其投入产出的效率也不理想。

2.2基于传统输入输出设备的开发

由于长期以来人机交互都是以鼠标键盘为主,所以绝大多数程序开发设计都只考虑这种单一的输入方式。但对于目前多媒体数据增多的趋势,这样传统的输入输出模式就存在着很多弊端,其中最明显的是对于多媒体数据的采集就需要单独使用设备,采集后再人工处理。而为了简化系统设计的复杂度,很多管理信息系统的数据采集和录入主要基于键盘鼠标的录入,如果出现非键盘鼠标录入的数据则被要求人工进行数据格式的转换,所以从一个侧面也反映出一些企业排斥信息化,因为原本带来效率提升与管理便利的信息系统,反而由于一些数据格式的录入要求增加了人工劳动。如果直接使用现实当中的多媒体类的数据则系统又缺少相应转换的功能。因为系统在考虑使用键盘鼠标录入采集数据时已经默认了操作者来完成数据录入前的标准化工作。但是实际上随着现代计算机视觉以及人工智能、模式识别技术的发展和完善,过去无法识别的原始多媒体数据现在也可以由计算机识别并进行标准化的处理。

3运用计算机视觉技术改善人机交互

3.1低分辨率识别情况下改善会议演示交互效果

采用现代的计算机影像处理技术和方法,可以用普通的图像采集设备配合程序识别影像当中的特定颜色区域的移动轨迹,并对轨迹做出判断实现与计算机的交互。由于该识别只是需要识别图像中的特定颜色的区域的运动,而非具体的形状与细节,所以识别的难度相对不大,可以运用在会议的展示环境下,通过定位确定普通投影区域与特定颜色区域的位置关系,并通过图形图像的投影与变形运算,实现人与普通投影的交互。在环境背景比较清晰,图像采集设备分辨率与色彩分辨比较灵敏的情况下还能更进一步对人体肤色和手的几何特征进行识别,实现更加自然良好的人机互动交互,并且还能引入人工智能的模式识别算法,实现多人的互动交互,从而大大改善互动展示效果,实现更加人性化有效的沟通。特别在教育培训行业,在现有普通硬件条件下能够实现更加生动的教学讲解演示,提高学生的课堂体验激发更多兴趣,改善教学效果。

3.2运用计算机视觉与模式识别技术整合企业门禁与考勤系统

应用计算机视觉技术配合相对高分辨率的识别与人像数据库,企业可以采用现有的门禁系统的硬件设备配合相应的软件实现门禁与考勤系统的整合,以此提高企业办公环境的智能化人性化的效果,并对员工进行更加精细化的管理。重要的是,通过人机接口的改进改变以往服务信息系统的面貌,让人在自然的环境下工作提高系统的人性化程度。同时整合门禁与考勤系统可以通过识别企业内部员工与外来人员加强办公环境的管理,而且在硬件上可以利用现有的设备,软件方面可以与前面提到的交互演示系统共用相同的图形图像处理内核,减少代码的冗余降低系统复杂度提高可靠性。就目前的人像识别技术而言,已经在个人电脑的安全保护上得到了应用,所以在技术上是可行的,并且也有了实际应用的例子。将该技术移植到普通的门禁管理系统与考勤系统中,只需要解决接口的数据交换就能实现,并且随着现代企业办公环境的要求,应用该技术能大大提高企业的办公环境的智能化程度,并且通过门禁系统提取的企业员工考勤信息更加自然和真实,能够更加准确地掌握和管理企业员工的日常工作情况提高管理精度。

3.3具体实现方法与原理

为了能充分利用企业现有的硬件设备,并使得附加的程序简单化,这里针对类似会议互动展示这样不需要细节识别的情况采用的是颜色识别的方法,即统计场景中的图像直方图,然后探测直方图上的变化,由于特定颜色的待识别区域的引入可以对整体直方图的特定区域产生峰值的变化,并且通过反向的直方图运算又可以确定特定区域的位置。而直方图的运算属于比较简单的图像运算处理所以能够在很多图像处理的开发工具中直接找到。并且对于细节识别要求比较高的人像的模式识别,采用以上的运算也能缩小待检测区域的大小,提高识别效率,并且人的面部特征采用色识别也能很快找到特征点(眼睛、鼻孔、嘴唇、头发以及头像边缘)。在前面通过色彩识别找到的检测区域中,识别出特征点,并测量特征点的位置关系比例,进而在和数据库中数据对比模式匹配找到最终结果。

4结语

在越南河内的机场,为了使乘客能在等待航班时有比较轻松的环境,在旅客的候机大厅专门安放了一台具有互动功能的投影仪,并将互动内容投影在地面,乘客可以在候机时与地面上的互动投影交互,缓解候机带来的单调乏味感。同样我们可以把它引入到日常企业办公会议或者是培训教育类企业的日常教学中,运用现有的投影屏幕和现有的设备实现多人的在投影屏幕上的互动交互讨论。而人像识别系统在单机上的应用也在很多商用笔记本电脑上得到了应用,在一些科研院所和高科技企业人像识别的门禁系统也被应用到了办公环境当中,提高了办公环境的智能化程度;将人像识别技术结合考勤系统则在教育行业能够实现更为方便的考勤管理防止目前比较严重的代签逃课等情况的发生。随着现在对数据挖掘技术的研究,从日常情况采集到的数据积累到一定程度还能为今后分析员工/学生行为做出数据的积累。这里所讨论和解决的问题主要只是集中在人机交互界面的一些改进,其实对于IT技术而言这只是一小部分,对于企业而言需要使用IT技术真正提高企业的工作效率还需要其他很多方面的配合和集成。

作者:赵磊 邓世翔 刘德飞 单位:云南机电职业技术学院

参考文献:

[1]黎松,平西建,丁益洪.开放源代码的计算机视觉类库OpenCv的应用[J].计算机应用与软件,2005,22(8).

[2]陈雪松.基于图像势能理论的特征提取方法研究[D].华中科技大学,2011.

[3]李超,许春耀,潘林,余轮.面向投影环境的计算机视觉交互信息获取[J].电视技术,2013,37(11).

篇2

【关键词】Opencv;计算机视觉技术;系统;研究

随着计算机技术的快速发展,计算机设备逐渐被应用到社会生活的各个方面,尤其是在当前计算机视觉技术和图像处理技术快速发展的时期,各个科技领域中的计算机视觉技术已经逐渐成熟。计算机视觉技术主要是利用计算机智能化来替代人眼,即对于客观存在的三维立体化世界的理解和识别,整个实现过程均是以计算机技术作为基础。随着计算机视觉技术的不断发展,现今其已逐渐成为了一门神经生理学、计算机工程、信号学、物理学、应用数学等综合性学科。计算机视觉技术系统其在高性能计算机基础之上来实现对大量数据的获取,并且通过智能算法来对获取数据进行处理,从而完成对数据集成。

一、视频中运动物体检测原理

对于视频中的运动物体检测主要分为两中方法,其一为宏观检测法;其二为微观检测法。宏观检测法是对获得的整幅图像进行检测,而微观检测法则是对所需要的区域进行图像检测。视觉技术在检测运动物体的时候,首先对图像进行采集,并对采集的信息数据进行预处理,将图像进行分割,然后分别提取运动物体的影象,从而实现参数的更新。图像采集过程中采用背景差分法,实现对背景图像的提取,其通过一定算法采用人为手段获取没有背景的图像。另外在进行运动物体检测的时候还可以采用帧间差分法,其主要是实时获取帧图,然后实现一帧一帧图像比值的比较,从而获取具有差值的图像。运动物体进行检测的时候需连续获取帧图,将这些帧图组合起来,其实就是物体的运动轨迹,然后同分割技术就能勾勒出物体的轮廓。随着计算机视觉技术的不断深入研究,发现此两种方法单独使用仍然存在的一些缺点,于是研究人员将二种检测方法进行融合,形成一种综合检测方法。综合检测法将两者检测方法的优势进行了融合,并将其灵活的应用到了生产和生活之中,取得了十分不错的效用。

二、基于Opencv的计算机视觉技术探究

(一)基于Opencv的运动物体检测

运动物体在进行检测的时候,基于Opencv的检测原理主要为:根据物体某项特定信息,例如,颜色、轮廓、性状等,在复杂背景中利用这些特定的信息将物体分离出来。整个图像的分离过程首先是进行视频流捕捉,然后是进行视频的格式转换,再将图像进行预处理,从而提取前景物体,减少环境因素对图像处理的误差,最后根据物体特征提取,并完成对运动物体的跟踪。从图像中提取所需的目标物体,其实质就是对整个屋里轮廓进行检测和分割,根据每个图像的帧差异来进行提取。

(二)基于Opencv图像预处理

视觉技术应用于复杂的环境之中,由于存在着光照的变化,其场景中所出现的环境因素对视频采集设备性能影响很大。环境因素会使得获取的图像信息的质量降低,并且在图像中无法避免的存在着噪点,这对于运动物体的检测和图像采集会造成很大的影响。当获取视频帧图像之后需对其数据进行预处理,通常有平滑度滤波处理、图像填充、图像背景更新等。

1.平滑度滤波处理

由于在进行视频图像采集的时候存在着噪点,那么我们就需要对其进行噪点处理,以求减小噪声。滤波平滑度滤波处理,其具有线性和非线性两种方式,其中线性方式进行处理器运算简单、运算速度快,但是在进行处理之后的图像都会呈现不清晰的情况。而非线性方式尽心给处理之后,虽然能够很好的减小噪点,确保信号的局部特点,但是其运算的速度会较慢。

2.图像填充

对于帧图像进行处理,通常采用检测边缘填充法或者是腐蚀膨胀法来完成,其中填充法是指当检测出目标物体之后,利用边缘检测方法来对物体进行辨识,然后利用形态学的漫水填充法进行填充。图像的腐蚀膨胀则主要是由于摄像机的性能等问题造成的。

3.实时背景更新

在进行图像差分之前,需要对背景图样进行确定,并且需要对其进行初始化处理。以方便以后在进行检测时候能够对实时背景图进行差分计算,只有这样,才能够获得极佳的前景效果。在进行图像差分时,首先需要根据指定法来确定第一帧背景的图像,并将其指定为第一张背景图片,然后在检测过程中根据算法对背景实施更新。整个图像在进行更新时,其主要的流程为:判断并读取图像是否为第一帧;将Opencv处理的图像转化为单通道灰度值;将实时采集的图像进行高斯平滑度处理,去除噪点;最后使用形态学滤波处理噪点。

(三)提取前景运动物体图像

检测运动物体的时候,只有在检测流程中确保精确度,才能够获取满意的前景跟踪效果。此过程中主要分为两个步骤,第一步为二值化图像之后进行分割;第二步,图像分析前处理,进行充分填充,确保前景图的完整性。其中,前景图的提取主要分为下面几个步骤:首先对前景图像和背景图像进行差分,然后对差分的图像进行二值化,再对背景中的前景图像边缘进行检测,根据轮廓进行填充图像。由于摄像头存在于不同的场景和环境之中,不论是室外或者是室内随着场景的变化都会对图像的采集产生影响。那么在前景图中提取目标就需要在检测系统中采用有效手段来完成背景实时更新。

阀值二值化分割法可以对检测的物体进行前景和背景差图分割,从而使目标物体能够分离出图像,且阀值分割先要确定每个像素的点是否处于灰度范围值之内。将图像中的像素灰度与确定的阀值进行比较,其结果解释所有像素点分为2类,一类像素的灰度小于阀值,另外一类就是大于阀值。阀值二值化分割时,确定分割的阀值T,然后分割图像。选取合适的阀值进行分割,可以有效的减少光照因素影响,常用的动态阀值主要有直方图来法与最大类方差法这另种分割方法。

三、计算机视觉三维技术

计算机视觉技术的核心为分割问题、运动分析、3D立体场景重构等,立体视觉主要是从多幅图像的参照中获取目标物体的三维几何信息。计算机视觉所模拟出的3D立体画面只需要摄像机从不同的角度同一时间针进行图像捕获,将2D信息进行3D重构,进而将计算机程序重建于真实的三维场景之中,以恢复物体的真实空间信息。

(一)视觉系统

视觉系统捕获图像的过程,实则可以看成为对大量信息进行处理过程,整个系统处理可以分为三个层次,其一,理论层次;其二,描述层次;其三,实现层次。在摄像机视觉系统之中,输入的是2D图像,但是输出为3D信息,而这就可以实现对图像的位置、距离等信息的如实描述。视觉系统分为三个进阶层次,第一阶段为基础框架;第二阶段为2.5D表达;第三阶段为三维阶段。在第二阶段中实现的2.5D表达,其原理是将不完整的3D图像信息进行表达,即以一个点为坐标,从此点看去某一些物体的部分被遮挡。第三阶段的三维阶段,则是人眼观察之后可以从不同的角度来观察物体的整体框架,从而实现了将2.5D图像信息的叠加重合运算,进一步处理之后得到了3D图像。

(二)双目视觉

人们从不同角度观看同一时间内的同一物体的时候,可以利用算法测量物体间的距离。此法被称为双目立体感觉,其依据的原理是视觉差原理,利用两台摄像机或者一台摄像机,对两幅不同的图像进行不同角度观察,并且对其观察的数据进行对比分析。实现双目立体视觉与平面视觉图像获取,其主要的步骤为:

(1)图像获取

从两台不同的摄像机,捕获帧图像,由于环境因素会造成图像差异困难。为了更好的跟踪目标、检测,当捕获图像之后,需要对图像进行预处理。

(2)摄像标定方式

获得真实坐标系中的场景点中的与平面成像点占比见的对应关系,借用三维立体空间中的三维坐标,标定之后确定摄像机的位置以及属性参数,并建立起成像的模型。

(3)特征提取方式

所谓的特征提取方式主要是为了提升检测、跟踪目标的准确性,需要对目标物体进行特征提取,从而实现对图像分割提取。

(4)深度计算

深度信息主要是根据几何光学原理,从三维世界进行客观分析,因为距离会产生不同的位置,会使得成像位置与两眼视网膜上有所不同。简单来说,客观景物的深度可以反映出双目的视觉差,而利用视觉差的信息结合三角原理进行计算,可呈现出深度的图像信息。

(三)摄像机模型

摄像机在标定过程中确定了其建立的基础为摄像机的模型,摄像机模型在标定过程中关系到三个不同坐标系的转换,分别为2D图像平面坐标系、摄像机自身坐标系以及真实的世界坐标系。摄像机在摄像的时候起本质是2D图像坐标转换,首先要定义摄像机的自身坐标系,将坐标系的原点设置为光心,X、Y、Z成立三维坐标系。其次则是建立平面的图像坐标系,用以透视模型表示,其原点也在广心的位置,称之为主点。实际应用中,物理的距离光心的位置d≠f焦距,而且会远远大于焦距,为了解决如此问题就提出了平面概念。在光轴z上设置一个虚拟的图像平面,然后在此位置于平面关于光心对称。接着,在设置的虚拟2D坐标系中,光轴和原点重合,并且摄像机与垂直平面的垂直方向相同,真实图像上的点影射到摄像机坐标系。

(四)3D重构算法

视频流的采集,主要是采用Kinect设备、彩色摄像头、红外发射摄像头、红外接收摄像头。使用微软提供API控制Kinect设备,在操作之前需调用NUI初始化函数,将函数的参数设置为用户信息深度图数据、彩色图数据、骨骼追踪图数据、深度图数据。上述的视频流的打开方式不同,既可以是一种打开方式,也可以是多种打开方式,尤其在进行Kinect传输数据处理的时候,需遵循三条步骤的运行管线。此三条管线分别为:第一条为处理彩色和深度数据,第二条为根据用索引添加颜色信息,并将其放入到深度图之中,第三条为骨骼追踪数据。

四、总结

随着计算技术的快速发展,视觉技术逐渐被广泛的应用于我们日常的研究之中。本文通过对视觉技术的相关问题进行分析,探究了图像处理、分割、前景提取、运动物体观测以及重构3D图等问题,为实现视觉技术更加深入研究做出了相应的贡献;为广大参与计算机视觉技术研究同仁提供一个研究的思路,为实现视觉技术的腾飞贡献薄力。

参考文献

[1]张海科.基于Opencv的人手识别与跟踪定位技术研究与实现[D].云南大学,2013.

篇3

关键词:数字图像处理;测距;聚焦;频域

中图分类号:TP391.41 文献标识码:A 文章编号:2095-1302(2012)09-0016-03

Images ranging method based on frequency domain analysis

ZHU Xue-yi

(School of Microelectronics and Solid-State Electronics, University of Electronic Science and Technology, Chengdu 610054, China)

Abstract: Using digital image processing theories and methods, the digital image pre-processing mode, the target graphic detection and the ranging model construction are studied and analyzed. Combined with a ranging scheme of single camera, a focusing ranging technique based on frequency domain analysis is given to process images captured by the monocular camera and calculate the distance from target detection image to the camera based on frequency domain image signals. The technique saves lots of complex hardware and reduces the demands of digital image processing, which has the advantages of high ranging precision and fast processing speed.

Keywords: digital image processing; ranging; focusing; frequency domain

0 引 言

视觉是人类观察世界、认知世界的重要功能手段,人类感知外部世界主要通过视觉、触觉、听觉和嗅觉等感觉器官,其中80%的信息是由视觉获取的。计算机视觉就是人类利用计算机实现人的视觉功能,从而对客观世界三维场景进行感知、识别和理解。计算机视觉是一个相当新而且发展迅速的研究领域。

在对生物视觉系统的研究中,人们早就注意到,几乎所有具有视觉功能的生物都有两只眼睛。用两只眼睛同时观察物体,会有深度或远近的感觉,我们称之为视差。因此,在计算机视觉系统中,也常用两台或多台摄像机从两个或多个视点去观察同一场景,从而获得在不同视角下的一组图像,然后通过同一场景点在不同图像中的视差,推断出场景中目标物体的空间几何形状和位置,这种方法称为立体视觉。它是计算机视觉的一个重要分支,也是计算机视觉的核心研究内容之一。

视频和图像是对物质世界客观事物的形象而生动的描述,是最直接且具体的信息表达形式之一,是人类最重要的信息载体。随着科技的日益发展,人们需要一种更加先进快捷的工作方式,另外,人们对工作环境和工作条件也提出了更新、更高的要求,视频测距系统便在这种背景下应运而生。

视觉测距技术的发展对于距离测量有重要的意义。在基于数字图像处理技术的视觉测距系统中,使用单个CCD(Charge Couple Device)摄像机的系统称为单目摄像系统,而同时使用两台摄像机对同一景物进行摄像,并运用计算机分析两幅图像来确定物体的三维状况的系统称为双目摄像系统。双目摄像系统测量精度高,但计算速度较慢,成本较高。而单目摄像系统方法则比较简洁、快速,因此,本文对采用单目摄像系统检测目标物的测距方法进行研究。

1 测距技术在国内外的研究现状

目前,国内外对视觉测距技术的研究仍在不断的进行之中,还并没有形成国际统一的标准模式,各种数字图像处理技术和算法之间孰优孰劣仍在不断的探讨和比较中。当前,国内外的研究机构主要研究的测距技术包括超声波测距技术、微波雷达测距技术、激光雷达测距技术和视觉测距技术。

1.1 激光雷达测距

激光雷达测距具有测量时间短、量程长、精度高等特点,但激光雷达在恶劣天气环境下或逆光状态下的测距准确性降低,另外,其造价、耗能、对人眼安全等因素也对其进一步应用有一定影响。

1.2 超声波测距

超声波是指振动频率在20 kHz以上的机械波,具有声波传输的基本物理特性。超声波测距是根据超声波反射时间来计算与前方车辆之间的距离。超声波测距原理比较简单,成本低,但超声波的传输速度受天气影响较大,不同天气条件下的传输速度不同。

篇4

计算机视觉的第一步是特征提取,即检测图像中的关键点并获取有关这些关键点的有意义信息。特征提取过程本身包含4个基本阶段:图像准备、关键点检测、描述符生成和分类。实际上,这个过程会检查每个像素,以查看是否有特征存在干该像素中。

特征提取算法将图像描述为指向图像中的关键元素的一组特征向量。本文将回顾一系列的特征检测算法,在这个过程中,看看一般目标识别和具体特征识别在这些年经历了怎样的发展。

早期特征检测器

Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技术的早期实现。但这些属于计算密集型算法,涉及到大量的浮点运算,所以它们不适合实时嵌入式平台。

以SIFT为例,这种高精度的算法,在许多情况下都能产生不错的结果。它会查找具有子像素精度的特征,但只保留类似于角落的特征。而且,尽管SIFT非常准确,但要实时实现也很复杂,并且通常使用较低的输入图像分辨率。

因此,SIFT在目前并不常用,它主要是用作一个参考基准来衡量新算法的质量。因为需要降低计算复杂度,所以最终导致要开发一套更容易实现的新型特征提取算法。

二代算法

Speeded Up Robust Features(SURF)是最早考虑实现效率的特征检测器之一。它使用不同矩形尺寸中的一系列加法和减法取代了SIFT中浩繁的运算。而且,这些运算容易矢量化,需要的内存较少。

接下来,HOG(Histograms ofOriented Gradients)这种在汽车行业中常用的热门行人检测算法可以变动,采用不同的尺度来检测不同大小的对象,并使用块之间的重叠量来提高检测质量,而不增加计算量。它可以利用并行存储器访问,而不像传统存储系统那样每次只处理一个查找表,因此根据内存的并行程度加快了查找速度。

然后,ORB(Oriented FASTand Rotated BRIEF)这种用来替代SIFT的高效算法将使用二进制描述符来提取特征。ORB将方向的增加与FAST角点检测器相结合,并旋转BRIEF描述符,使其与角方向对齐。二进制描述符与FAST和HarrisCorner等轻量级函数相结合产生了一个计算效率非常高而且相当准确的描述图。

CNN:嵌入式平台目标识别的下一个前沿领域

配有摄像头的智能手机、平板电脑、可穿戴设备、监控系统和汽车系统采用智能视觉功能将这个行业带到了一个十字路口,需要更先进的算法来实现计算密集型应用,从而提供更能根据周边环境智能调整的用户体验。因此,需要再一次降低计算复杂度来适应这些移动和嵌入式设备中使用的强大算法的严苛要求。

不可避免地,对更高精度和更灵活算法的需求会催生出矢量加速深度学习算法,如卷积神经网络(CNN),用于分类、定位和检测图像中的目标。例如,在使用交通标志识别的情况下,基于CNN的算法在识别准确度上胜过目前所有的目标检测算法。除了质量高之外,CNN与传统目标检测算法相比的主要优点是,CNN的自适应能力非常强。它可以在不改变算法代码的情况下快速地被重新“训练(tuning)”以适应新的目标。因此,CNN和其他深度学习算法在不久的将来就会成为主流目标检测方法。

CNN对移动和嵌入式设备有非常苛刻的计算要求。卷积是CNN计算的主要部分。CNN的二维卷积层允许用户利用重叠卷积,通过对同一输入同时执行一个或多个过滤器来提高处理效率。所以,对于嵌入式平台,设计师应该能够非常高效地执行卷积,以充分利用CNN流。

事实上,CNN严格来说并不是一种算法,而是一种实现框架。它允许用户优化基本构件块,并建立一个高效的神经网络检测应用,因为CNN框架是对每个像素逐一计算,而且逐像素计算是一种要求非常苛刻的运算,所以它需要更多的计算量。

不懈改进视觉处理器

篇5

关键字:计算机视觉;作物病害诊断;进展;模式识别

中图分类号:TP311 文献标识号:A 文章编号:2095-2163(2015)02-

The Research Development of Computer Vision in the Plant Disease Diagnosis

PU Yongxian

(Computer Science Dept .Dehong Teachers'college, Dehong Yunnan 678400, China)

Abstract: according to the statistics, crop yield loss caused by disease in more than 12% on average, disease occurs not only affect the production, also decreased the quality of the product. Research by computer vision technology realizes fast and accurate diagnosis of crop disease, and provides scientific basis for disease prevention and control, which is the urgent demand of agricultural informatization development. Articles on computer vision technology is applied to the crop disease diagnosis has carried on the detailed analysis and research, in order to get these new technologies in the current situation of crop disease diagnosis each link, points out the shortages of computer vision in the diagnosis of crop diseases and research direction. The study on the development of crop disease intelligent detection technology will play an important role.

Key words:Computer Vision; Crop Disease Diagnosis; Progress; Pattern Recognition

0引言

在作物生产中,病害是制约作物质与量的重要因素。病害发生,往往致使作物的使用价值降低,甚至还会导致大面积减产,乃至绝收,造成巨大的经济损失。因此,在作物生长过程中,病害防治是个关键的问题之一。因各种原因植保人员匮乏,而种植户个体素质差异及受一些主观人为因素的影响,对作物病害诊断存在主观性、局限性、模糊性等,不能对作物病害的类型及受害程度做出客观、定量的分析与判断,结果要么是药量不对、要么是药不对症,严重影响了作物的质与量。

计算机视觉也称为机器视觉,是研究如何用计算机来模拟和再现人类视觉功能的科学,也被称为图像理解和图像分析,是人工智能领域的一个重要分支。随着计算机技术、图像处理和人工智能等学科的发展,以及数码相机、手机等摄像工具像素的提高,将机器视觉用于作物病害诊断,实现作物病害的无损检测、快速诊断提供了新的途径和方法[1]。报道最早的是在1989年穗波信雄等人[2]对采集的缺乏钙、铁、镁营养元素的茨菇叶片图像进行研究,在RGB模型中,利用直方图分析了正常和病态的颜色特征。为适应农业信息化的迫切需求,国内外学者对机器视觉用于作物病害诊断进行了研究和实践,而取得进展主要集中在近10年,涉及的作物有水稻、玉米、小麦、葡萄、黄瓜、甘蔗、蔬菜等病害[3-14],这些研究针对不同作物,从不同侧面为作物病害实现自动化诊断提供了理论和实践基础。因机器视觉比人眼能更早发现作物因病虫危害所表现的颜色、纹理、形状等细微变化,所以利用这种技术病害病害与人工方式相比,提高了诊断的效率和精准度,为作物保护智能化、变量喷药等提供了科学依据。

本文综述和归纳了机器视觉诊断作物病害的主要技术:病害图像采集、增强处理、病斑分割、特征提取、特征优化、病害识别等各环节的方法及现状,指出了机器视觉诊断作物病害存在的不足和研究方向。该研究对实现作物病害的机器视觉诊断技术的发展将起到重要的推动作用。

1机器视觉识别作物病害的技术路线与进展

作物病害因其病原物种类不同会产生形状、颜色、纹理等不同的病斑,通常专业植保技术人员就是根据这些特征判断病害的。机器视觉诊断作物病害是通过无损采集病害图像,利用图像处理技术对图像增强处理、分割病斑,提取病斑特征、优化特征,用模式识别技术诊断病害类别及危害程度,从而为病害的防治提供科学依据。图1为机器视觉诊断作物病害的技术路线图。

图1机器视觉识别作物病害技术路线图

Fig 1 Technology roadmap of machine vision recognition crop diseases

1.1病害图像采集与增强处理

(1)病害图像采集方法。图像采集是病害识别的第一步,采集的质量会直接影响识别结果。常用采集设备有数码摄像机、扫描仪、数码相机、手机等。其中,数码相机便于携带,能满足图像清晰度要求,符合野外作业等特点,因此病害图像采集中用得较多。依据采集环境氛围分为室内采集和室外(田间)采集两种。室内采集是将田间采摘到的病害标本经密封保湿后使用CCD摄像机或数码相机在室内摄取病害的标本图像。在田间采集图像中,有学者为了采集到高质量的图像,采取了一系列措施以减少外界因素的影响。如陈佳娟[5]采用便携式扫描仪采集图像,以减少自然光照对图像质量的影响。徐贵力等人[6]设计了活体采光箱,使照射光变成反射光,从而避免了阴影,以减少误差。这种规范图像采集方式虽简化了后期图像处理和识别的难度,但基层生产单位可能缺乏配套的技术设备,且会使病害识别过度依赖图像。为扩展应用范围和通用性,有学者对在田间自然光照射下直接获取的病害图像,用图像处理和模式识别技术诊断病害进行了研究,如李宗儒[7]用手机拍摄了苹果的圆斑病、花叶病等5种病害图像,对病害图像增强处理、分割病斑,提取病斑特征,用BP神经网络识别病害,获得了较好效果。姜武[8]用Canon EOS 50D相机在阳光充足的早晨拍摄山茶叶片图像,进行颜色分形和RGB强度值提取,用支持向量机对山茶分类识别,取得了较好效果。

(2)图像增强方法。在采集图像过程中,因受设备、环境等因素影响,往往使采集到的图像含有噪声,若不对其增强处理会影响到病害的正确识别率。病害图像增强是为病斑分割,特征提取做准备,所以应确保在去除噪声的同时,保证病斑边缘不模糊。图像增强处理根据其处理的空间不同,分为空域法和频域法。空域法是对图像本身直接进行滤波操作,而频域法是对图像进行转化,将其转化到频率域中去噪处理,之后再还原到图像的空间域。图像增强处理常用方法有:直方图均衡化、对比度增强、均值滤波、中值滤波、高斯滤波、锐化等。王静[9]利用数码相机采集了赤星病与野火病两种病害图像80幅,采用灰度图像直方图均衡化及中值滤波两种方法对图像增强处理,实验表明,中值滤波去噪效果最好,在保留图像病斑边缘信息的同时,使病斑轮廓与细节更加清晰,便于后期病斑分割及特征提取。刘芝京[10]采集黄瓜早、中、晚期的角斑病病害图像,分别用均值滤波、中值滤波、高斯滤波等对图像处理,实验表明这些去噪方法中,高斯滤波效果最好。

1.2病斑特征获取

(1)病斑分割

计算机视觉主要是依据病斑的特征信息诊断病害类别及危害程度的。因此,彩色病斑的准确分割,是后期提取病斑特征,病害类别的客观、准确诊断的关键环节之一。当前针对作物病害图像分割算法有阈值分割、空间聚类、区域分割、边缘检测分割、计算智能方法等。由于作物病害图像存在背景复杂、病斑区域排列无序、颜色、纹理分布不均、病斑边界模糊、叶片表面纹理噪声等干扰,因此尚无一种鲁棒性好,且简单适用的通用方法,也还没有一种判断分割是否成功的客观标准。近年来学者们对作物病害图像的分割进行了大量研究,试图寻找一种更具潜力的分割算法,以期获得更完美,通用的分割方法。赵进辉等人[11]分析了甘蔗病害图像的颜色与形状特征,采用面积阈值及链码分割赤腐病和环斑病病斑,收到了较好的效果。管泽鑫等人[12]提取水稻病斑与斑点外轮廓颜色,用最大类间方差法(Otsu[13])分割病斑,取得了较好的效果。邵庆等人[14]以小麦条锈病为例,对获取的小麦病害图像采用迭代阈值分割和微分边缘检测分割病斑。温长吉等人[15].用改进蜂群算法优化神经网络实现玉米病害图像分割。祁广云等[16]采用改进的遗传算法及BP神经网络对大豆叶片病斑分割,能有效提取病斑区域。毛罕平等人[17-18]利用模糊C均值聚类对棉花、玉米病害图像的病斑进行分割。张飞云[19]采用K-means硬聚类算法对玉米叶部病害图像分割,得到彩色病斑。张芳、仁玉刚[20-21]用采分水岭算法分割黄瓜病害图像,正确率均在90%以上。刘立波[22]对水稻叶部病害图像的分割进行研究,结果证明,模糊C均值聚类法的分割效果较好,但速度欠佳,Otsu法分割效果略差,但速度较快。濮永仙[23]利用支持向量机检测烟草病斑边缘,以分割彩色病斑。石凤梅等人[24]利用支持向量机分割水稻稻瘟病彩色图像病斑,其分割效果优于Otsu法。

(2)病斑特征提取

计算机视觉识别作物病害用到的特征主要有颜色、纹理、形状等特征。颜色是区分病害类别的重要特征,有RGB、HSI、Lab、YUV等7种颜色空间模型,可得到颜色特征值和颜色特征差异,而模型的选择会影响到病害识别效果。纹理是指图像中反复出现的局部模式及排列规则。作物病害图像正常与病变部分的纹理在粗细、走向上有较大差异。纹理特征有基于灰度直方图的统计测度,基于灰度共生矩阵的纹理特征和基于游程的纹理描述特征。提取纹理特征的方法有分形维数、小波变换、Gabor小波变换、局域二值模式,以及Gabor分块局域二值模式方法等。形状常与目标联系在一起,形状特征可以看作是比颜色和纹理更高层的特征,它能直观描述目标和背景之间的区别,不同病害的病斑在尺寸大小、似圆性、长短轴等方面有不同特性,对旋转、平移有很强的稳定性。提取病斑形状特征的方法有弗里曼链码法,傅里叶描述子,多尺度曲率空间方法等。王美丽等人[25] 在HSV颜色空间提取小麦白粉病和锈病病害图像的颜色和形状特征,对病害进行识别,识别率达96%以上。蔡清等人[26]对虫食菜叶图像处理后,提取其形状的圆形度、复杂度、球形度等7个特征,用BP神经网络识别病害。王克如[27]提取玉米病害图像中纹理特征的能量、熵及惯性矩作为识别病害的特征,实验得出,以单个特征识别正确识别率达90%,综合应用三个纹理特征,识别率达100%。田有文等人[28]提取葡萄叶部病斑的颜色、纹理、形状特征,用支持向量机识别,实验表明,综合应用三种特征的识别率比只用单一特征的识别高。李旺[29]以黄瓜叶部3种常见病害图像为研究对象,提取病斑颜色、纹理和形态特征总共14个特征,用支持向量机识别,实验表明,分别以颜色、纹理、形状特征识别,识别率分别为72.23%、90.70%、90.24%,综合3种特征识别率为96.00%。

(3)特征优化

特征优化是指在特征提取完成后,将特征因子中对识别病害贡献低的因子丢弃,以确保在降低特征维度的同时,能提高病害的识别率。常用的特征优化方法有:逐步判别法、主成分分析法、遗传算法等。实践证明,优化后的特征能更好的表征病害,能在特征减少的情况下提高诊断的正确率。管泽鑫等人[12]提取水稻3种常见病害图像的形态、颜色、纹理共63个特征,用逐步判别法对特征优化,用贝叶斯判别法识别病害,可使特征数减少到原来的35.2%,而病害准确识别率达97.2%。柴洋等人[30]提取了番茄早疫病、晚疫病等4种叶部病害图像的颜色、纹理和形状共18个特征,用逐步判别法优化,最终选取12个特征,用主成分优化后综合成2个新变量,分别用贝叶斯判别法和用费歇尔判别函数识别病害,均取得了较好的效果。陈丽等人[31]提取了玉米5种叶部病害图像病斑特征,用遗传算法优化特征,用概率神经网络识别病害,识别率为90.4%。彭占武[32]提取了黄瓜6种常见病害图像的颜色、纹理、形状特征14个,用遗传算法优化得到8个特征,用模糊识别模式识别病害,其识别率达93.3%。濮永仙[33]提取了烟草常见病害图像的颜色、纹理及形态共26个特征,用双编码遗传算法与支持向量机结合优化特征,最后得到16个特征,该方法与没有采用遗传算法的支持向量机识别相比,在同等条件下,特征向量减少了38%,正确率提高了6.29%。所谓双编码遗传算法,即二进制编码和实数编码结合,支持向量机作为底层分类器,分类精度作为遗传算法的适应度对个体进行评估,在去除冗余特征的同时为保留的特征赋予权重,如图2所示。韩瑞珍[34]提取了害虫的颜色、纹理特征共35个,用蚁群算法对特征优化,将35个特征降低到29个,识别准确率从87.4%提高到89.5%。

图2双编码遗传算法中的个体

Fig 2 Individual in the double coding genetic algorithm

1.3病害模式识别

模式识别也叫模式分类,指依据输入的原始数据,判断其类别并采取相应的行为[35]。病害模式识别的任务是依据特征数据由分类器完成分类的,分类器设计和特征描述共同决定了模式识别系统的性能。用于病害识别的模式可分为统计模式、句法结构模式、模糊模式和机器学习方法四类。其中,统计模式识别是用概率统计原理,获取满足某种已知分布的特征向量,然后通过决策函数来分类,不同的决策函数能够产生不同的分类方法。常见的统计模式识别方法有两种:一是由Neyman决策和贝叶斯决策等构成的基于似然函数的分类方法,另一种是基于距离函数的分类识别方法。模糊模式识别是基于模糊理论利用模糊信息进行模糊分类的,主要方法有最大隶属原则识别法、接近原则识别法和模糊聚类分析法三种。机器学习指计算机模拟或者实现人类的某些行为,它的应用已涉及很多领域。目前常用于作物病害识别的机器学习方法有人工神经网络、支持向量机(SVM)、移动中心超球分类器等。其中,支持向量机分类器是目前机器学习领域的研究热点之一,它能够较好地解决小样本、非线性、高维数的分类问题,且具有良好的推广和泛化能力。神经网络是基于经验风险最小化原则,以训练误差最小化为优化目标,而SVM以训练误差作为优化问题的约束条件,以置信范围最小化为优化目标,所以SVM的解具有唯一性,也是全局最优[36]。移动中心超球分类器是近年来新提出的一种分类器,它是一种对参考样本进行压缩的方法,可以节省空间,但其识别率不如人工神经网络高。以下是在作物病害诊断中较成功的几种识别模式及技术进展。

1.3.1 贝叶斯判断法

贝叶斯判别法是一种典型的基于统计方法的分类器。它的基本原理是将代表模式的特征向量X分到m个类别(C1,C2,…,Cm)中的某一类。操作步骤为:

(1)设样本有n个属性(W1,W2,…Wn),每个样本可看作是n维空间的一个点X=(x1,x2,…,xn);

(2)设有m个不同的类(C1,C2,…,Cm),X是一个未知类别的样本,预测X的类别为后验概率最大的那个类别;3)用贝叶斯后验概率公式计算,并进行比较,依据后验概率可将样本X归到Ci类中,当且仅当>,成立。贝叶斯分类器因其结构简单、易于扩展等特点,被广泛用于作物病害诊断。杨昕薇等人[37]对3种寒地水稻常见病害图像处理、提取特征,用贝叶斯判别法识别病害,其识别率达97.5%。赵玉霞等人[38]提取玉米锈病、灰斑病等5种病斑图像的特征,利用朴素贝叶斯分类器识别,其识别精度在83%以上。柴阿丽等人[39]提取了番茄早疫病、晚疫病等4种叶部病害图像病斑的颜色、纹理和形状特征,优化特征后,用贝叶斯判别法识别病害,其识别率达94.71%。

1.3.2 人工神经网络识别法

神经网络技术是目前广泛使用的一种机器学习方法,其研究工作始于19世纪末20世纪初[40],因具有并行处理、非线性映射、自适应学习、鲁棒容错性等优点,以及采用数据驱动模式,故在模式识别领域得到广泛应用。人工神经网络诊断作物病害的基本步骤是:构建神经网络识别模型,将已提取并优化好的病害图像特征数据作为分类器的输入特征矢量对模型训练,经过训练后的模型可实现作物病害的分类识别。目前应用于作物病害识别的人工神经网络主要有:BP神经网络、概率神经网络、自组织特征映射网络,并衍生出模糊神经网络、量子神经网络等。BP神经网络具有较好的自学习性、自适应性、鲁棒性和泛化性。概率神经网络是径向基网络的一个重要分支,其分类器是一种有监督的网络分类器,在识别过程中随着训练病害种类的增加[41],其运算速度会减慢。自组织特征映射网络分类器是于1981年提出的一种由全连接的神经元阵列组成的自组织自学习网络[42],可以直接或间接地完成数据压缩、概念表示和分类的任务,多项实验表明它的病害图像识别率都在90%以上。模糊神经网络是模糊理论同神经网络相结合的产物,它汇集了神经网络与模糊理论的优点,集学习、联想、识别、信息处理于一体。量子神经网络是量子计算理论和人工神经网络结合的产物,并集成了两者的优点。王军英[43]以葡萄发病部位、病斑形状、病斑颜色和主要症状为特征,用改进的BP神经网络识别病害,识别率达95.36%。谭克竹等人[44]用BP神经网络识别大豆的灰斑病、霜霉病和斑点病的特征与病害的关系,其轻度病害的识别精度为87.19%,中度病害的识别精度为90.31%,重度病害的识别精度为93.13%。魏清凤等人[45]利用模糊神经网络诊断模型以诊断蔬菜病害,其病害识别率达85.5%。张飞云[19]提取了玉米灰斑病、锈病和小斑病病害图像的颜色、纹理、形状特征,用量子神经网络进行病害识别,其平均识别率达94.5%。陈丽等人[31]对田间采集的玉米叶部病害图像,对图像分割、特征提取,利用概率神经网络识别病害,其识别率为90.4%,同样条件下高于BP神经网络。

1.3.3 支持向量机识别法

支持向量机[46](Support Vector Machine,简称SVM)是Vapnik等人提出的一款新型的机器学习方法。SVM有线性可分和线性不可分两种情况,采用不同的核函数会有不同的SVM 算法。常用的核函数有:线性核函数、多项式核函数、径向基核函数、Sigmoid核函数等。SVM在基于数据的机器学习领域,它兼顾训练误差和泛化能力,在解决小样本、非线性、高维数、局部极小值等模式识别问题中表现出许多特有的优势[47-48],在基于图像诊断作物病害领域应用越来越多。宋凯等人[49]提取了玉米叶部病害图像特征,选择基于SVM的不同的核函数识别病害,其中径向基核函数的正确识别率为89.6%,多项式核函数为79.2%,Sigmoid核函数的识别性能最差。刘鹏[50]提取甜柿病害图像的纹理特征和颜色特征采用SVM识别病害,结果表明,当SVM类型为nu-SVR,核函数为Sigmoid,参数C=26、ξ=24时识别效果最好。田有文等人[51]用支持向量机识别黄瓜病害,实验表明,SVM方法在处理小样本问题中具有良好的分类效果,线性核函数和径向基核函数的SVM分类方法在黄瓜病害的识别方面优于其他类型核函数的SVM。越鲜梅[52]提取了向日葵叶部的叶斑病、黑斑病、霜霉病3种病害图像的颜色矩、纹理特征共9个特征,采用一对一投票决策的SVM多分类模型识别病害,取得了较好的效果。刘立波[22]提取了水稻常见叶部病害图像的颜色、纹理、形状等特征,对特征优化后,分别用最近邻域、BP神经网络和SVM方法识别病害,其中识别率最高的是SVM,BP神经网络居中,最近邻域法最差,BP神经网络的训练速度最慢。

2机器视觉识别作物病害存在的问题与进一步研究重点

将计算机视觉用于作物病害诊断,以改变传统的诊断方式,为种植户准确诊断病害,以及变量施药提供了决策支持。目前,计算机视觉诊断作物病害虽然取得了一定的进展,但从研究的深度、应用的范围和实用化角度看,还存在许多不足,还需进一步深入研究。

2.1机器视觉诊断作物病害存在的问题

笔者查阅了大量文献,对目前常用的机器视觉识别作物病害的技术进行了研读,目前机器视觉识别作物病害的技术还不够成熟,存在以下问题:

(1)在实验室条件下计算机视觉诊断作物病害正确率高,但应用到田间,难度较大,主要原因是大多研究是在简单背景下、对少数几种病害图像诊断,而对大田复杂背景下诊断多种病害的研究还比较少。

(2)病害图像分割背景简单,对于自然状态和复杂背景下的病害图像分割有待进一步的研究。

(3)因作物病斑的大小、颜色等图像特征在不同时期有差异,对于某一发病时期建立的作物病害诊断系统,用于不同发病时期诊断识别率会有所不同。

(4)许多分类算法和分类器都存在各自的优缺点,不能适合所有作物病害识别,没有统一的评价标准,难以实现各诊断系统之间的客观比较。

(5)不同研究者使用的病害图像各不相同,难以比较不同。

(6)机器视觉诊断作物病还是少数专家对某类作物在局部范围内的研究,很难满足现实生产的多种作物、不同区域同时诊断的要求。

2.2进一步研究重点

根据以上存在的问题,今后的研究方向和重点为:

(1)机器视觉识别作物病害技术从实验室向大田扩展时,需综合考虑所提取的病害图像特征在复杂背景下的可获取性、稳定性、可操作性等。

(2)机器视觉诊断作物病害系统应充分考虑不同发病时期,识别特征的变化规律。

(3)研究适合多种作物在复杂背景下实现病斑分割、特征提取等高效的图像处理算法,在模式识别方面要侧重于模糊数学、支持向量机、神经网络、遗传算法、组合优化等理论与技术的研究。

(4)建立规范统一的作物病害图像数据库,图像可普遍获取,建立合理完善的病害分割、特征提取、病害种类识别等系统,以及病害评价标准。

(5)模式识别病害中的算法需进一步发展和优化,建立统一的评判标准,评价方法适合所有的识别算法和各应用领域,采用定量和客观评价准则,可精确描述算法性能,评判应摆脱人为因素。

参考文献:

[1]GEORGIEVA K, GEORGIEVA Y, DASKALOV D.Theoretical substantiation of model of system for evaluation a state of vine plants and taking a decision for plant protection activities[J]. Trakia Journal of Sciences (Series Social Sciences),2003,1:30-32.

[2]穗波信雄.图像处理在植物生长信息提取中的应用[R].日本:农业机械学会关西支部研究会资,1992:63-46.

[3]SASAKI Y , OKAMOTO T. Automatic diagnosis of plantdisease-recognition between healthy and diseased leaf[J]. Journal of the Japanese Society of Agricultural Machinery,1999,61(2):119-126.

[4]陈佳娟,纪寿文,李娟,等.采用计算机视觉进行棉花虫害程度的自动测定[J].农业工程学报,2001,17(2):157-160.

[5]贾浩.基于计算机视觉的玉米叶部病害识别技术研究[D]. 泰安:山东农业大学,2013.

[6]徐贵力,毛罕平,李萍萍,等.差分百分率直方图法提取缺素叶片纹理特征[J].农业机械学报,2003,34(2):76-79.

[7]李宗儒.基于图像分析的苹果病害识别技术研究[D].杨凌:西北农林科技大学,2010.

[8]姜武.模式识别技术在山茶属植物数值分类学和叶绿素含量预测中的应用研究[D]. 金华:浙江师范大学,2013.

[9]王静.基于图像处理技术的烟叶病害自动识别研究[D]. 昆明:昆明理工大学,2009.

[10]刘芝京.基于图像处理的黄瓜细菌性角斑病的识别研究[D]. 成都:西华大学.2012.

[11]赵进辉,罗锡文,周志艳.基于颜色与形状特征的甘蔗病害图像分割方法[J].农业机械学报,2008,39(9).

[12]管泽鑫,唐健,杨保军,等.基于图像的水稻病害识别方法研究[J].中国水稻科学,2010,24(5):497~502.

[13]OTSU N A. Threshold selection method from gray-level histo-gram[J]. IEEE Trans Syst Man Cybenet, 1979, 15: 652-655.

[14]邵庆,张楠,路阳.小麦病害图像识别处理及形状特征提取研究[J].农机化研究,2013,35(8):35-37.

[15]温长吉,王生生,于合龙,等.基于改进蜂群算法优化神经网络的玉米病害图像分割[J].农业工程学报,2013,29(13):142-147.

[16]祁广云,马晓丹,关海鸥.采用改进的遗传算法提取大豆叶片病斑图像[J].农业工程学报.2009,25(5).

[17]毛罕平,张艳诚,胡波.基于模糊C均值聚类的作物病害叶片图像分割方法研究[J].农业工程学报.2008,24.

[18]张柏毅,朱景福,刘勇.基于模糊C-均值聚类的作物叶部病斑图像分割[J].智能计算机与应用.2011,3(10).

[19]张云飞.基于量子神经网络和组合特征参数的玉米叶部病害识别[J].南方农业学报,2013,44(8):1286-1290.

[20]张芳.复杂背景下黄瓜叶部病害识别方法研究[D]. 沈阳:沈阳农业大学,2014.

[21]任玉刚,张建,李淼,等.基于分水岭算法的作物病害叶片图像分割方法[J].计算机应用,2012,32(3):752-755.

[22]刘立波.基于图像的水稻叶部病害诊断技术研究[D]. 北京:中国农业科学院,2010.

[23]濮永仙.基于支持向量机与多特征选择的作物彩色病斑边缘检测[J].计算机应用系统,2014,9(23):118-123.

[24]石凤梅,赵开才,孟庆林,等.基于支持向量机的水稻稻瘟病图像分割研究[J].东北农业大学学报,44(2):128-135.

[25]王美丽,牛晓静,张宏鸣,等.小麦叶部常见病害特征提取及识别技术研究[J].计算机工程与应用, 2014,50(7):154-157.

[26]蔡清,何东健.基于图像分析的蔬菜食叶害虫识别技术[J].计算机应用, 2010,7(30):1870-1872.

[27]王克如.基于图像识别的作物病虫草害诊断研究[D]. 北京:中国农业科学院,2005.

[28]田有文,李天来,李成华,等.基于支持向量机的葡萄病害图像识别方法[J].农业工程学报,2007,23(6):175-179.

[29]李旺.基于图像处理的黄瓜叶部病害识别研究[D]. 长沙:湖南农业大学,2013.

[30]柴洋,王向东.基于图像处理的温室大棚中番茄的病害识别[J].模式识别与仿真,2013,32(9):83-88.

[31]陈丽,王兰英.概率神经网络在玉米叶部病害识别中的应用[J].农机化研究,2011,(6):145-148.

[32]彭占武.基于图像处理和模式识别技术的黄瓜病害识别研究[D].长春:吉林农业大学,2007.

[33]濮永仙,余翠兰.基于双编码遗传算法的支持向量机作物病害图像识别方法[J].贵州农业科学,2013,7(41)187-191.

[34]韩瑞珍.基于机器视觉的农田害虫快速枪测与识别研究[D].杭州:浙江大学,2014.

[35]边肇祺,张学工.模式识别[M].北京:清华大学出版社,2002:284-304.

[36]奉国和.基于聚类的大样本支持向量研究[J].计算机科学,2006,33(4):145-147.

[37]杨昕薇,谭峰.基于贝叶斯分类器的水稻病害识别处理的研究[J].黑龙江八一农垦大学学报,2012,24(3):64-67.

[38]赵玉霞,王克如,白中英等.基于图像识别的玉米叶部病害诊断研究[J].中国农业科学 2007,40(4):698-703

[39]柴阿丽,李宝聚等.基于计算机视觉技术的番茄叶部病害识别[J].园艺学报,2010,37(9):1423-1430.

[40]Han Jiawei,Kamber M.数据挖掘概念与技术[M].第二版. 范明,孟小峰,译.北京:机械工业出社,2007:251-306.

[41]贺鹏,黄林.植物叶片特征提取及识别[J].农机化研究,2008(6):168-170.

[42]杨占华,杨燕.SOM神经网络算法的研究与进展[J].计算机工程,2006,32(16):201-228.

[43]王军英.基于BP神经网络的葡萄病害诊断系统研究[J].农业信息网,2013,8:30-33.

[44]谭克竹,沈维政.基于BP神经网络的大豆叶片病害诊断模型的研究[J].控制理论与应用,2013,32(12):5-7.

[45]魏清凤,罗长寿,曹承忠,等.基于模糊神经网络的蔬菜病害诊断模型研究[J].河南农业科学,2013,(9):4224-4227.

[46]BURGOS-ARTIST X P, RIBERA A, TELLAECHE A, et al. Improving weed pressure assessment using digital images from an experience-based reasoning approach [J]. Computers and Electronics in Agriculture, 2009, 65(2): 176-185.

[47] BURGES C J C. A tutorial on support vector machines for pattern recognition [J].Data Mining and Knowledge Discovery, 1998, 2(2):121-169.

[48]Steve R Gunn. Support vector machines for classification and regression [R].Southampton: University of Southampton, 1998:1-28.

[49]宋凯,孙晓艳,纪建伟.基于支持向量机的玉米叶部病害识别[J].农业工程学报,2007,23(1):155-157.

[50]刘鹏,屠康,徐洪蕊,等.基于支持向量机的甜柿表面病害识别[J].现代食品科技,2011,27(3):349-353.

[51]田有文,牛妍.支持向量机在黄瓜病害识别中的应用研究[J].农机化研究,2009,(3):36-38.

[52]越鲜梅.基于图像识别的向日葵叶部病害诊断技术研究[D].呼和浩特:内蒙古工业大学,2013.

1 项目基金:云南省科学研究基金子课题(2013Y571)。

作者简介:濮永仙( 1976-),女,云南腾冲人,硕士,副教授,主要研究方向:机器视觉诊断作物病害,智能农业方面的研究。

??

??

篇6

关键词:涂胶机 双目立体视觉 图像标定

中图分类号:TP273 文献标识码:A 文章编号:1672-3791(2015)01(b)-0000-00

随着现代机器视觉处理技术发展,目视系统制造工艺得到巨大进步,高分辨率、低非线性失真目视系统价格已大大降低。飞速发展的计算机视觉系统在汽车生产领域使用日愈广泛,双目视系统通过图像定位获取物体的精确坐标,并将物置信息提供给机器操作分支进行精确操作。在计算机视觉系统和工业检测中需要对景物进行三维立体坐标测量、精确定位和定量分析。双目视系统是计算机视觉的重要部分,能够对视觉范围内的物体进行自动识别定位,对数据进行分析后实现系统现场标定。目视系统需要将三维场景中的物体和二维图像进行连接,具有高效率、高精确度和低成本等特点,在现代工业中得到广泛应用。一般常用的目视系统模型分为线性针孔模型、拟透视投影模型和正交投影模型三类。

1 透视变换模型标定

双目视系统的需要从二维图像中计算出空间物体的三维信息,运用透视变换模型需要获取物体图像信息,再根据所获取的图像信息分析物体的三维立体坐标,从而进行识别并得到物体准确的位置信息。所谓的目视系统标定是指通过几何模型参数将空间物体和图像进行点对点连接后,进行数据分析标定的过程。几何模型参数决定了空间物体表面的几何位置和图像对应点间的相互关系,对双目视系统定位具有关键性的作用[1]。

在视觉导航、监控跟踪等立体视觉系统应用中,对图像定位处理的效率要求较高,建立高效快捷的双目视系统模型是社会发展的现实要求。在实际应用中,常使用线性目视系统模式进行图像标定处理,反而忽视了目视系统非线性因素的影响。

2 目视系统标定重要性

目视系统标定具有如下几个重要作用:

1:从计算机图像中导出三维信息

目视系统标定经过多次试验和计算能够得到一个目视系统模型参数,该参数决定了计算机图像和空间物体表面进行点对点连接的相互关系,能够提供给定坐标点的图像坐标,并确定实际物体目标点的空间位置信息。目视系统标定在机电元件自动装配、机器人标定、轨迹分析及在线检测等方面运用广泛。

2:确定自动行驶车辆上的空间位置

利用目视系统标定可以确定自动行驶车辆和移动机器人的空间位置信息,如果知道目标点的空间坐标和图像坐标,可以通过目视系统参数标定技术进行分析,从而得到目视系统的方向信息。

3:已知物体的三维信息可导出物体的二维计算机图像坐标

在进行模型驱动的机器视觉检测和装配中,有关于物体的方向假设和立体空间坐标问题时,可以利用目视系统参数转化为该图像的假设,然后将假设的图像和物体三维图像进行比较,如果假设图像满足物体三维信息,则可确认或拒绝对该物体和物体空间位置假设成立。

3 目视系统的标定原则

目视系统的标定包括图像获取、参数计算、图像预处理等关键步骤,在进行图像标定时一般需要在目视系统前放置特制的标定参照物,获取该物体图像后计算内、外部系统参数[2]。采用点特征提取方式标定参照物,并根据每个特征点相对于世界坐标系OwXwYwZw 的位置进行精确的测量。得到物体坐标点的数据进而可以解出目视系统内、外部参数。

下面用矩阵形式写出这些方程:

(1)

从以上方程中可以知道, M矩阵乘以任意一个不为零的常数都不会影响 与 的关系,我们可以任意使m34=1,可以得到M矩阵中其他元素的2n个线性方程。这些未知元素的个数为11个,将其记为11维向量,可以将(1)式简写成:Km = U

其中,K为(1)式左边2n×11矩阵;m指代未知的11维向量;U为(4)式右边的2n维向量,K,U为已知向量。当2n>11时,用最小二乘法可以求出上述线性方程解为: m =(KTK)-1KTU 。

m向量与 =1构成了所求解的M矩阵。从以上式子可知,若有空间6个以上的已知点和它们的二维图像坐标匹配的话,就可以求出M矩阵。一般在进行标定时都会使标定模板上有数十个已知坐标点,使方程的个数远远多于未知数的个数,用最小二乘法求方程解,从而降低误差。

求出M矩阵后,如果需要解目视系统的内部、外部参数,可由(4)式表示的关系算出目视系统的全部的内部、外部参数。不过,所求得的M矩阵与(4)式所表示的矩阵M相差一个常数因子 。指定 =1虽然并不影响投影关系,但在分解M矩阵时必须进行考虑。将(1)式M矩阵与目视系统内部、外部参数的关系写成

(2)

其中,miT(i=1~3)从式子(1)中解出,作为M矩阵第i行的前三个元素组成的行向量。二mi4是M矩阵第i行第四列元素;riT(i=1~3)是作为旋转矩阵R的第i行;tx,ty,tz分别为平移向量T的三个分量。且r1T ,r2T ,r3T ,之间有如下的约束关系:

, , ,

, , (3)

由式(2)可以得到

(4)

比较以上式子可知: m3= ,由 是正交单位矩阵的第三行, ,因此,可以从 求出 即 ,再由以下式子可以求得 , , , , :

(5)

(5)式中的×表示向量运算符号,根据(5)所得参数可以得到(6)式中的参数。

(6)

从以上方程式中可以知道,根据空间6个以上一直点及其坐标信息和图像,可以按照方程(5)和(6)求出目视系统的内、外部参数。

4 总结

本文根据汽车涂胶机目视系统图像坐标和针孔目视系统模型定位等方面展开讨论。在此基础上,说明通过目视系统标定和图像点坐标可以唯一地确定空间中的一条射线。利用两个标定过的目视系统观察同一个待测点,它的空间三维坐标可以用两条这样的射线的交点计算出来,说明了双目视觉的基本原理,并讨论了投影矩阵的求解方法。

参考文献

篇7

关键词 运动目标检测 计算机视觉 摄像机

中图分类号:TP391.41 文献标识码:A

视频运动目标检测是指在视频或图像序列中,把运动着的,人们感兴趣的目标与背景和其它运动目标进行区分。它是后续高层次视频处理和应用理解的基础,也是智能视频监控技术自动化和实时应用的关键。

从摄像机是否运动来看,运动目标检测分为静止背景和运动背景下的运动目标检测。静止背景是指在整个运动场景中,摄像机或承载平台不发生任何运动,只有目标在监控范围内运动;而运动背景是指当目标运动的同时,由于摄像机或承载平台发生了运动,而导致目标与背景共同变化。本文主要从摄像机静止状态对现有的典型运动目标检测算法进行介绍,并做了对比分析。

1帧差法

在视频图像序列中,相邻的视频流图像具有连续性,如果背景中没有运动目标,则相邻帧间的变化会很小,相反则会引起较大的变化。帧间差分法就是利用这个特性对图像序列中的连续两帧或几帧图像做差分运算来对运动目标进行检测。帧差法假设运动目标为刚性,设第k帧的图像为fk(x,y),第k-1帧的图像为fk-1(x,y),则将相邻两帧图像做差分,差分后的图像为Dk(x,y)。公式如1-1。

(1-1)

设置一个阀值T和Dk(x,y)进行比较,就可以判断出图像中各个像素点是背景还是前景,见公式1-2。

(1-2)

帧间差分法的优点是实现简单,程序设计复杂度低;易对目标进行实时监控。但是它对光照变化敏感;对帧间的时间间隔有较强的依赖性;且该算法容易产生空洞现象,只能提取出目标的轮廓边界,而不是完整的图像,从而损失一些重要的信息。

2背景减法

背景减法的基本思想是:在摄像机静止的情况下,通过对视频序列进行分析,建立背景模型,然后将当前图像和背景模型做差分,最后和预设的阀值进行比较,得到前景目标。设B(x,y)为构建的背景图像帧,F(x,y,t)为图像序列,(x,y)为图像的位置坐标,t代表图像的帧数,则背景减法用公式表示为:

(1-3)

D(x,y,t)为背景减除后的每一帧图像,对减除后的图像设置一个阀值T,就可以得到一个二值化的结果图像:

(1-4)

背景减除法原理简单,检测的速度快,理论上能够将运动目标完整地检测出来,但是在现实中场景是非常复杂的,在外界不可预见的环境干扰和噪声下,如光照的突变,摄像机的抖动,背景图像中物体的波动,场景中物体的进出等使获得与图像序列相对应的背景模型和对背景进行更新成为了一大难点。

3光流法

在视频图像序列中,光流是指图像亮度模式的一种表现运动,是三维空间中的物体速度矢量在成像平面上的投影,它表示了物体在图像中位置的瞬时变化。基于光流场的运动目标检测法,其基本原理是:由投影关系,在运动的某个特定时刻,图像上的点与三维物体上的点一一对应,给图像中的每一个像素点赋予一个速度矢量,由此速度矢量特征,就可以对图像进行动态分析。当物体和图像背景存在相对运动时,运动物体所形成的速度矢量必然和邻域背景速度矢量不同,从而检测出运动目标的位置,这是因为当图像中没有运动物体时,光流矢量在整个图像区域是连续变化的。

光流法的优点是不需要预先知道场景的任何信息,但是在对复杂场景下进行运动物体检测时,但是在对复杂场景下进行运动物体检测时,光流法具有以下缺点:

(1)光流法要得到正确的结果仅适用于梯度不变的基本条件;

(2)光流容易受外界噪声的干扰,抗干扰能力差;

(3)计算复杂,不适于应用实时很强的场合;

(4)对于面积较大且内部均质的物体内部点难以用光流矢量来正确描述。

4总结

在静止摄像机下,常用运动目标检测算法各有优缺点,表1从不同方面对各种算法进行了特性比较。

表1:运动目标检测算法比较

在摄像机静止情况下的运动目标检测算法中,帧差法是最直观也是最快的检测运动目标的方法。它通过比较连续的两帧图像,在根据比较所得到的不同之处找出运动目标。然而,如果摄像机运动时,即便在拍摄的环境中没有任何物体在移动,所获得的图像在前后两帧间也会产生较大的差异。那么帧差法将不在适用。

运动目标的检测算法各有优缺点,要根据不同的现实环境选择最适合的算法,从而准确检测出运动目标。

参考文献

[1] McKenna S.,Jabri S.,Duric Z.Rosenfeld A.,Wechsler H.Tracking groups of people[J].Computer Vision and Image understandUnderstanding.2000,80(1):42-56.

[2] 郑江滨,张艳宁等.视频监视中运动目标的检测与跟踪算法[J].系统工程与电子技术,2002,24(10):34-37.

篇8

关键词: 摄像机标定; OpenCV; 计算机视觉; 透镜畸变

中图分类号: TN919?34; TP391.9 文献标识码: A 文章编号: 1004?373X(2013)08?0097?04

0 引 言

摄像机标定的目的,就是要建立三维世界坐标与二维图像坐标之间的一种对应关系。在单目视觉中,这种对应关系是一对多的对应,即二维图像上的一个像素点对应着三维空间中的一条直线;而在双目视觉中,可以通过两幅二维图像上的对应像素点计算得到三维世界坐标与二维图像坐标的一一对应关系。由此,便可以得到物体的三维坐标值。

目前常用的标定方法是由Tasi首先提出的基于“两步法”的传统摄像机标定方法[1]。随后,张正友提出用二维平面模板来标定摄像机,他的方法首先利用线性和非线性方法求取摄像机内外参数的初值,然后再解非线性最小化方程,以求得内外参数的精确解[2]。因此,其无论在精度方面,还是在简便方面都优于Tsai的方法,可以说它是两步法的代表,从而使摄像机标定技术大大前进了一步。

OpenCV(Open Source Computer Vision Library)是Intel开放计算机视觉函数库,具备强大的图像和矩阵运算能力[3]。尽管有很多求解摄像机参数的方法,OpenCV函数库中提供的摄像机标定方法就是基于张正友的标定方法。OpenCV中的摄像机标定模块为用户提供了良好的接口,并且执行速度快,具有良好的跨平台移植性,因此可以很好地应用于工程实际当中。

1 摄像机标定原理

1.1 理想摄像机模型

如图1所示[4],首先在棋盘模板平面上,建立世界坐标系(xw,yw,zw),世界坐标系的原点为Ow;然后以摄像机透视中心Oc为坐标原点,并使其xc轴和yc轴分别平行于像平面(Image Plane)坐标系的x轴和y轴,且方向相同,zc轴为摄像机镜头的主光轴,按右手定则建立摄像机坐标系(xc,yc,zc);再以像平面上像素坐标值(0,0)的点为坐标原点O,以水平像元阵列方向为u方向,以垂直像元阵列方向为v方向,建立图像像素坐标系(Pixel Image Coordinate)(u,v);最后以主光轴与像平面的交点Od为坐标原点,建立图像物理坐标系(Physical Image Coordinate)(xd,yd),并使其坐标轴分别平行于图像像素坐标系。

建立好以上4个坐标系后,棋盘模板平面上的一点pw(xw,yw,zw),在不考虑透视畸变情况下,其成像点在图像像素坐标系下的坐标pu(u,v)记为[2]:

[zcuv1=A3×3R3×3t3×1xwywzw1] (1)

式中:[zc]为pw点在摄像机坐标系下的深度;[A3×3]为摄像机内参数矩阵;[R3×3t3×1]是摄像机的外参数矩阵;R和t分别表示世界坐标系相对于摄像机坐标系的旋转矩阵和平移向量。其定义如下:

[A3×3=αcu00βv0001,R3×3=r1r2r3]

式中:a,b分别表示在x和y方向上像点的物理坐标到像素坐标的比例系数;u0,v0表示主光轴与像平面的交点(主点)在像素坐标系下的坐标;参数[c]描述了2个图像坐标轴之间的歪斜(即2个坐标轴不完全垂直的情况)。需要说明的是,考虑到当前的像机制造水平,可以认为2个坐标轴是垂直的,因此在OpenCV所使用的模型中认为c=0。

在张正友的平面标定法中,标定板位于世界坐标系的z=0平面内,即对于模板上的点,其zw=0,这样式(1)重写为[5?6]:

[zcuv1=A3×3r1r2r3t3×1xwywzw1=A3×3r1r2r3t3×1]

[xwyw01=A3×3r1r2t3×1xwyw1] (2)

式中:[r1],[r2],[r3]为旋转矩阵[R3×3]的列向量。令[H=r1r2r3=Ar1r2t],H称为模板和图像之间的单应矩阵(Homography)。式(2)可以改写为:

[zcuv1=Hxwyw1] (3)

通过一系列运算后,就可以得到摄像机的所有内参数和外参数[2,4]。

1.2 引入畸变后的摄像机模型

以上表示的是理想情况下的透镜成像方程,然而由于实际的像机存在着制造精度误差,因此实际的摄像机存在着径向、切向畸变。

这里,为摄像机定义一个归一化的图像平面,这个平面平行于摄像机的像平面,且到针孔的距离为单位长度。接着在这个平面上建立一个坐标系,原点在光轴和这个平面的交点处。由针孔透视投影可知,摄像机坐标系下的点([xc],[yc],[zc])在这个归一化的像平面上的投影点的坐标([xn],[yn],1)可以写为:

[xn=xczcyn=yczc] (4)

引入透镜的畸变后,新的归一化坐标值定义为[7]:

[xdyd=1+k1r2+k2r4xnyn+2k3xnyn+k4(r2+2x2n)k3(r2+2y2n)+2k4xnyn] (5)

式中:[r2=x2n+y2n];[k1],[k2]表示径向畸变系数;[k3],[k4]表示切向畸变系数。

应用上述畸变模型后,最终成像点在图像像素坐标系下的坐标为:

[uv1=A3×3xdyd1] (6)

当4个畸变系数为0时,上面的公式退变成[8]:

[uv1=A3×3xczcyczc 1=1zcA3×3xcyczc] (7)

1.3 标定方法

OpenCV中的摄像机标定是基于张正友的平面标定方法来完成的[3,5]。该方法要求使用一个具有较高绘制精度的棋盘模板,然后通过自由移动摄像机或标定模板,使得摄像机至少在3个不同的位置(相对标定模板)拍摄模板图像。在求解相机内外参数时,第一步暂不考虑摄像机镜头的畸变,通过将检测到的所有角点代入投影方程,求得模板和图像之间的单应矩阵H,然后确定摄像机的内部参数和外部参数的初始值。第2步,再以这些参数为初始值,考虑畸变的影响,应用Levenberg?Marquardt算法对图像点与再投影点间的距离之和进行非线性最小优化,以得到一组精度更高的值[9]。

2 基于OpenCV 的标定系统实现

摄像机标定算法的流程如图2所示。

(1)初始化。用cvCreateMat()函数为摄像机的内外参数以及所有图像最大可能数量的角点分配存储空间。

(2)读取一副标定用的图像并进行角点检测。用cvFindChessboardCorners()函数检测并提取图像中的棋盘角点位置。如果返回值为1,则表示该幅图像上提取的角点数目和设定的相同,角点提取成功;否则返回0,表示角点提取失败,即该幅图像中提取到的角点数要少于设定的数目。

(3)细化角点坐标并绘制。对提取到的角点,需要使用cvFindCornerSubPix()函数对这些角点进一步的细化,以得到更为精确的角点像素坐标。而后,调用cvDrawChessboardCorners()绘制提取到的角点。

(4)对于角点提取成功的图像,存储角点在世界坐标系下的坐标值以及在图像坐标系下亚像素级的坐标值。

(5)读取完所有图像后,根据角点提取成功的图片数量,为它们中的所有角点重新分配数据空间,并释放原有的数据空间。

(6)标定。调用cvCalibrateCamera2()函数,求取摄像机的内外参数。需要注意的是该函数输出参数里的rotation_vectors矩阵。

该矩阵里的每一行(或列)向量表示的是相应的一副图像所对应的旋转向量,当需要转换成旋转矩阵时,要使用罗格里格斯变换函数(cvRodrigues2)。

(7)标定结果的误差分析。这里使用重投影的方法来计算标定误差,即根据得到的摄像机内外参数,调用cvProjectPoints2()计算角点三维坐标在图像上的投影坐标,然后,调用cvNorm函数将其与通过角点提取到的投影坐标进行比较,从而得到一个均方误差值。

(8)计算每幅角点提取成功图像的旋转矩阵、旋转向量和平移向量。

3 试验与结果分析

根据以上标定原理和开发步骤,本文在Windows XP平台下,用Visual C++开发了一个基于OpenCV 1.0版本的摄像机标定程序。试验使用Canon IXUS 85IS型照相机,分辨率为640×480像素。标定所用的模板是在A4纸上用激光打印机打印的黑白相间的国际象棋图案,然后将其粘贴在平板上。

模板中方格边长为30 mm,共有6×8=40个角点。利用9副图像对摄像机进行标定,检测出的角点如图3所示,标定结果如表1第2列所示,总体平均误差为0.031 562 6个像素。

为了验证标定结果的正确性,本文还利用Matlab中标定工具箱对这9副图像进行了摄像机标定,结果如表1第3列所示。从中可以看出,两者的值是非常接近的,因此证明了本文标定程序的正确性。

4 结 语

利用OpenCV开发的摄像机标定程序具有标定结果精确、运算效率高、跨平台移植性好等优点,可以有效地应用于需要计算机视觉系统的各个领域。利用OpenCV库的强大功能可以缩短程序员的开发周期,使计算机视觉技术从理论走向实际应用。

参考文献

[1] TSAI R Y. A versatile camera calibration technique for high?accuracy 3D machine vision metrology using off?the?shelf TV cameras and lenses [J]. IEEE Journal of Robotics and Automation, 1987, 3(4): 323?344.

[2] ZHANG Zheng?you. Flexible camera calibration by viewing a plane from unknown orientations [C]//International Conference on Computer Vision(1CCV).Proceedings of Seventh International Conference on Computer Vision. Liege, Belgium: Elsevier Science Publishers, 1999: 666?674.

[3] BRADSKI Gary, KAEHLER Adrian. Learning OpenCV: computer vision with the OpenCV library [M]. [S.l.]: O’Reilly Media,2008.

[4] 毛剑飞,邹细勇,诸静.改进的平面模板两步法标定摄像机[J]. 中国图象图形学报,2004,9(7):846?853.

[5] 陈胜勇,刘胜.基于OpenCV的计算机视觉技术实现[M].北京:科学出版社,2008.

[6] 高伟.相机与成像模型[EB/OL]. [2010?10?09].http://.

[7] BOUGUET Jean?Yves. Camera calibration toolbox for Matlab [EB/OL]. [2010?07?09]. http://vision.caltech.edu/Bouguetj/calib_doc.

[8] FORSYTH David A, PONCE Jean. Computer vision : a modern approach [M]. [S.l.]: Person Education, Inc., 2004.

[9] 尹文生,罗瑜林,李世其.基于OpenCV的摄像机标定[J].计算机工程与设计,2007,28(1):197?199.

[10] 伍尤富.基于平面模板的摄像机两步标定方法[J].电子科技,2007(9):71?74.

[11] 陶旺林,卢选民,刘李娟,等.基于OpenCV的非线性图像畸变校正研究[J].现代电子技术,2011,34(12):117?120.

篇9

关键词:双目视觉;三维可视化;信息融合

1.引言

随着计算机软、硬件突飞猛进的发展,社会的各行各业对三维可视化技术的需求已经越来越突出。当前三维显示技术已在军事、航空、航天、医学、地质勘探、文化娱乐和艺术造型等方面得到广泛应用。

为实现变电站的三维可视化,需要对变电站进行三维建模,构建变电站的三维模型。监控摄像头采集现场数据之后,对视频进行智能处理,根据设备的状态和人员目标的状态,将设备与人员的状态融合入变电站的三维可视化系统中,通过采集的数据以及处理结果实时更新目标的状态和位置,并且实时显示到变电站三维系统中。

2.三维可视化技术研究现状

(1)研究现状

1)建模软件

目前应用较多的是欧特克(Autodesk) 公司的 3ds MAX 和Maya;Multigen 公司的 Creator;Google 公司的 Sketch Up;Microsoft旗下Caligari公司的trueSpace等。这些建模软件,几乎可以满足我们所见到的任何现实世界中的物体模型的建立,比如房屋、道路、管道、植物、动物、日常用品以及我们现实生活中见到的一切。

2)平台软件和应用软件

三维可视化软件大都依赖于计算机图形学和可视化技术的发展。人们对计算机可视化技术的研究已经历了一个很长的历程,而且形成了许多可视化工具,比如 Directx 和 OpenGL,尤其在地里信息系统领域,当前Arc/info,MapInfo,MAPGIS,SuperMap,GeoStar等国内外专业二维 GIS 软件都有自己专有的三维GIS 子系统。比较专业的三维可视化系统软件或平台有:美国 ERDAS 公司的 IMAGINE Virtual GIS;美国 Skyline 软件;国内适普软件有限公司的 IMAGIS Classic;国内灵图的VRMap。

另外,像国内的武汉吉奥公司的CCGIS、上海杰图三维展示系统、中视典的 VRP 产品体系,在三维可视化方面都有自己独特的功能。

(2)双目立体视觉与三维重建

双目立体视觉是计算机视觉的基础内容,它利用成像设备在不同角度获取目标物体的两幅图像,然后基于视差原理,计算两幅图像中对应点的位置偏差,获取物体空间信息的方法。

3.信息融合技术发展状况及方法

(1)发展状况

信息融合技术是智能信息处理的一个重要研究领域。1973年,美国国防部自主开发了声呐信号理解系统,数据融合技术在该系统中得到最早的体现。此后,数据融合技术蓬勃发展,不仅在人工系统中尽可能采用多种传感器来收集信息,而且在工业控制和管理等领域也朝着多传感器方向发展。20世纪70年代末,在公开的技术文献中开始出现基于多传感器信息整合意义的融合一词,并开始广泛应用与军事与民用领域。

在美国军用电子技术带动下,20世纪80年代后期以来西方其他先进技术国家也先后加强多传感器信息融合研究活动,而且很快向民用部门扩展。1987年2月,美国国家科学基金会(NSF)首次在犹他州召开了“制造自动化中的多传感器信息融合”学术研讨会。

同年10月,全美人工智能学会(AAL)在伊利诺斯州召开了“空间推进与多传感器融合”学术研讨会。1988年,美国摄影仪器工程师协会(SPIE)主办了两次有关信息融合的学术研讨会,一次主题为“空间推理与景物解释”,另一次主题为“传感器融合”。同年,美国国防部把信息融合技术列为90年代重点研究开发的二十项关进技术之一,且列为最优先发展的A类。1989年,北约组织也在巴黎召开了这方面的会议,主题是“计算机视觉中的多传感器融合”。美国一实验室理事会(JDL)下设的C3技术委员会(TPC3)专门成立了信息融合学术会议,并通过SPIE传感器融合专辑、IEEE Trans,On AES,AC等发表有关论著;为了进行广泛的国际交流,1998年成立了国际信息融合学会,总部设在美国,每年举行一次信息融合研究国际学术大会。

到目前为止,美、英、法、意、日等国已研究出上百个军用融合系统,取得了一定的成果,但还存在着一些难题没有完全解决。如传感器模型、融合过程的推理以及有关算法的研究等。

国内关于信息融合技术的研究起步相对较晚,到了20世纪80年代末才开始有关多传感器信息融合技术研究的报道。20世纪90年代初,这一领域在国内才逐渐形成。在政府、军方和各种基金部门的资助下,国内一批高校和研究所开始广泛从事这一技术的研究工作,出现了一大批理论研究成果。

20世纪90年代中期以来,信息融合技术在国内已发展成为多方关注的共性关键技术,出现了许多热门研究方向,许多学者致力于机动目标跟踪、分布监控融合、多传感器综合跟踪与定位、分布信息融合、目标识别与决策信息融合、姿态评价与威胁估计、图像融合、智能机器人等领域的理论及应用研究,相继出现了一批多目标跟踪系统和有初步综合能力的多传感器信息融合系统。

(2)信息融合技术方法

信息融合作为对多源信息的综合处理过程,具有本质的复杂性。传统的估计理论和识别算法,以及新兴的基于统计推断、人工智能和信息论的新方法,都可以用来解决信息融合问题。目前主要的信息融合方法可以分为以下几类:

1)信号处理与估计理论方法

这种方法包括小波变换技术、加权平均、最小二乘、卡尔曼滤波等线性估计技术,以及扩展卡尔曼滤波(EKF)、高斯和滤波(GSF)等非线性估计技术,以及近年来发展的 UKF滤波、粒子滤波和马尔科夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)等非线性估计技术。

2)统计推断方法

统计推断方法包括经典推理、贝叶斯推理、证据推理、随机集(random set)理论以及支持向量机理论等

3)信息论方法

信息论方法运用优化信息度量的手段融合多源数据。典型算法有熵方法、最小描述长度方法(MDL)等。

4)决策论方法

决策论方法往往应用与高级别的决策融合。

5)人工智能方法

人工智能方法包括模糊逻辑、神经网络、遗传算法、基于规则的推理,以及专家系统、逻辑模板法和品质因数法等。

6)几何方法

几何方法通过充分探讨环境以及传感器模型的几何属性来达到多传感器信息融合的目的。

4.总结

随着新技术的不断发展,未来还会应用到更多更新的领域中,本文对三维可视化技术和信息融合技术的研究现状及原理进行了分析,相信基于信息融合的三维可视化技术未来也将在电网建设中进一步深化应用。

参考文献

[1]郭玲. 智能视频监控中运动目标检测的算法研究[D]. 华南理工大学,2013.

[2]孙振宇. 双目视觉重构算法及其在变压器中的应用[D]. 东北电力大学,2015.

[3]余小欢,韩波,张宇等. 基于双目视觉的微型无人机室内3维地图构建[J]. 信息与控制,2014,43(4):392-397.

[4]常文凯,李恩,杨国栋等. 基于双目视觉的输电线路近距离三维位置测量[J]. 华中科技大学学报,2015,43:144-147.

篇10

关键词:手伸及界面;定标;最小二乘法

一、引言

汽车已逐渐走进普通百姓家,“以人为本”的设计思想在汽车设计上日益受到重视。车辆驾驶室的品质对于减轻驶乘人员的疲劳、预防职业病、提高人车系统的工作效率和行车安全有着重要作用,因而需要测量驾驶室内驾驶员手伸及界面参数。普通的数码相机对于量测用摄相机的测量缺陷(如物镜畸变大等)已有较好的克服,一些新的算法的应用,也使测量精度有较大的提高;且数码相机可以和计算机直接进行数据交换,进行数字图像处理,所以普通数码相机已常用于进行测量工作。

传统的驾驶员手伸及界面参数的测量方法为手工测量,且占用驾驶员比较多的时间,本文提出了汽车驾驶员手伸及界面测量新方法,通过使用普通数码相机来对驾驶室进行图像信息采集,利用计算机视觉基本原理求取驾驶员手伸及界面相关参数。

二、基本原理

(一)线性模型摄像机定标

计算机视觉的研究目标是使计算机具有通过一幅或多幅图像认知周围环境信息的能力。利用数码相机能较好地采集三维数字图像,通过单个或多个数码相机从不同方向拍摄的两幅或两幅以上二维图像,从二维图像中萃取出物体的三维信息。测量系统中大都采用小孔成像模型,其中数码相机定标是实现三维测量的重要环节。

图1为数码相机定标模型。设空间坐标系为(X,Y,Z),数码相机像平面的图像坐标系为(u,v)。P为空间任一点,其三维物坐标为(x,y,z),在图像平面上的像坐标为p1(u1,v1),p2(u2,v2)。数码相机的物相关系如下:

XYZ10 0 0 0-u■X-u■Y-u■Z0 0 0 0XY Z 1-v■X-v■Y-v■Z・

M=u■m■v■m■①

式中i=1,2,实际计算中取mi34=1。 M=[millmi12...mi33]为系统变换矩阵中的元素,即11个线性定标参数。对每张图片来说,有11个未知数,而一对物体与图像的对应点只能有4个方程组,因此至少需要6个控制点参与定标解算。

完成系统定标后根据②式,用系统变换矩阵M和被测点P在数码相机像面上的坐标p1(u1,v1),p2(u2,v2),求P点的三维空间坐标(X,Y,Z)。

m■ -m■ u■ m■ -m■u■ m■-m■u■m■ -m■v■ m■ -m■v■ m■ -m■v■XYZ=u■ -m■v■ -m■②

(二)非线性模型摄像机定标

在实际工作时,当计算精度要求较高,且摄像机是使用数码相机而非量测用摄像机时,在远离图像中心处会有较大的镜头畸变,线性模型不能准确地描述摄像机的成像几何关系,因此采用非线性模型来描述。对于系统的畸变,已经提出很多求取摄像机参数补偿畸变的方法,Tsai提出摄像机两步定标算法,使用一个直接的线性变换并且考虑了系统的径向畸变,并指出:主点位置的细微变化不会对三维测量造成很大的影响。由于只考虑径向畸变差,且只用到3次项,因而摄像机定标方程得到很大简化。即:

Δu=(u-u0)(k1r2+k2r4+k4r6)

Δv=(v-v0)(k1r2+k2r4+k3r6)③

Weng考虑了含有径向畸变和切向畸变补偿模型,如④式所示

Δu=(u-u■)(k■r■+k■r■+k■r■)+t■(r■+2(u-u■)■)+2t■(u-u■)(v-v■)Δv=(v-v■)(k■r■+k■r■+k■r■)+t■(r■+2(v-v■)■)+2t■(u-u■)(v-v■)④

其中,r2=(u-u0)2+(v-v0)2,u0=-(m11m31+m12m32+m13m33)/(m231+m232+m233),v0=-(m21m31+m22m32+m23m33)/(m231+m232+m233),(u,v)是实际的图像点坐标,Δu与Δv是非线性畸变值,它与图像点在图中的位置有关,(u0,v0)为像主点坐标,原点为CCD数字影像中心像元。由①式和④式可得两个非线性方程组,对每张图片来说,有16个未知数,一对物体与图像的对应点只能有4个方程组,因此至少需要8个控制点参与定标解算,可使用最小二乘原理平差。

(三)基于最小二乘法的摄像机定标

本实验采用DLT(直接线性变换)定标算法直接求取定标矩阵的11个线性定标参数,由于在采用Tsai和Weng方法后所得到的实验解算结果差别不大,所以本文采用解算含有径向畸变参数的Tsai方法,以11个线性定标参数作为初始值,其余补0,共14个初始值来解算,用迭代的方法来解算非线性模型摄像机定标的14个参数。

在测量汽车驾驶员手伸及界面参数时,对于部分距离较长线段的测量,其误差总是比较大,无法达到测量精度要求。本文基于上面所述的方法,在得到含径向畸变的14个定标参数后,用另一些未曾参与解算、分布均匀的控制点残差和原本参与解算的控制点残差进行误差拟合,并内插出控制点的像坐标改正值,用改正后像坐标重新进行解算,重复执行,直到达到限值;以此来提高定标矩阵参数的精确度。

三、实验结果和分析

实验采用310万相素精度的OLYMPUS数码相机,定标物为三维黑白格子,大小为150mm*150mm*150mm,其中每个网格大小均为25mm*25mm。

采用单数码相机,保持靶标和被测对象的相对位置不变,在两个或两个以上位置分别拍摄两幅或两幅以上二维图像(本文解算使用两幅图像)。拍摄时,应尽量使相机绕以靶标为圆心的弧线上移动,即保持相机和靶标的距离相同;两幅图像间的拍摄角度应在20-50°,拍摄角度过低则二维图像所含物体深度信息少,定标解算精度差,拍摄角度过高则两幅图像的场景差别大,空间点难匹配。

拍摄图像时应尽可能选取光亮的场景,减少图像的噪音;在选取图像上点坐标前应对图像进行数字图像预处理,求取其边缘图像;选取图像上测量点时,应尽量选在物体外形变化或物体的边缘,手工选取图像上的点坐标,简单方便,可减少图像点匹配误差。

拍摄驾驶室内图片,处理后得到其边缘图像如图2所示。选取“AB、CD、EF、GI”这4段线段来进行测量,包括其中一块挡板的相对高度“AB”,挡板和座位中间的距离“CD”,方向盘的直径“EF”,两块挡板间的距离“GI”(其他参数由于编幅关系没有列出),如图3所示。

求解数定标参数时,选取的定标物控制点应采用较强的分布图形,即控制点均匀且充分覆盖定标物图像。

在实验中采用Tsai方法(含有径向畸变参数)比采用DLT直接解算的测量结果有明显改善,另外实验还采用了Weng方法,解算含有径向畸变和切向畸变的补偿模型,解非线性方程组后对于距离较长线段的测量结果的误差和采用Tsai方法所测量的误差相差不大,而采用本文算法,对于较长距离线段有较好的实验结果。实验数据见表1。

实验误差分析:

定标物的误差:定标物的制作不够精细,打印的纸张无法精准达到预设的数值,则物点三维坐标值产生误差。

图像边缘的误差:边缘检测产生误差,如方向盘由于拍摄角度的不同,使边缘图像的提取在两张图像产生差别。

测量的误差:在量取挡板到座位之距离时,由于座位上是软质材料而产生变形,实际量取值产生误差,但两块挡板间的距离由于边缘提取准确,所以误差较小。

算法的误差:计算过程中计算机有舍入误差,使得结果有偏差;用广义逆矩阵解定标矩阵时,本身有误差;优化算法及最小二乘法都是取计算结果误差最小的解,同样存在误差。

四、结论

采用数码相机,不需专业的量测用摄影相机;利用已知尺寸的定标物对视觉系统定标,不需事先精确测定系统参数。该技术适合于测量时间紧拉、参数多的非接触测量。

证明本文所提出的测量方法简单、方便、快速,实用性强。

参考文献:

1、马颂德,张正友.计算机视觉-计算机理论与算法基础[M].科学出版社,1997.

2、张靖瑜,董明得,吕乃光,邓文怡.用广义逆法解决摄影测量系统的非线性问题[J].北京机械工业学院学报,2001(1).

3、伍雪冬.计算机视觉中摄像机定标及位姿和运动估计方法的研究[D].湖南大学,2004.

4、龙兴明.三维测量中的图像处理技术研究[D].重庆师范大学,2005.

5、苗红杰,赵文吉,刘先林.数码相机检校和摄像测量的部分问题探讨[J].首都师范大学学报,2005(1).

6、蔡祥鹏,林建,张翔.基于数字图像处理方法的三维测量[D].福建农林大学,2007.