计算机视觉的概念范文

时间:2023-12-22 18:04:27

导语:如何才能写好一篇计算机视觉的概念,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

计算机视觉的概念

篇1

关键字:大数据;数据挖掘;分类算法;概念漂移

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)09-0011-03

Design and Implementation of Flow Mining Algorithm and Resistance Concept Drift System Based on Storm Platform

LU Yuan-fu, PENG Tian-ci, Ji Kai-yang, TAN Hai-yu

(College of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210046, China)

Abstract:With the rise of cloud computing and Internet of things(LOT) technology,stream data widely exist in all fields as a new mega data form.This article propose a stream-classifying algorithm and system oriented to big data,which is based on DCP (Distributed Computing Platform).Parallelize windows and CVFDT algorithm are both adopted.We use a DCP to test whether the mutation concept drift happened in data stream,so as to change the inflow of modeling sample data adaptively.The accuracy and efficiency of stream data model will be improved at last.

Key words: big data; data mining; classifying algorithm; concept drift

1 背景

随着云计算、互联网+等技术的快速发展,生产制造控制、无线通信网络、电子商务交易、金融信息监控等领域形成了高速、海量、动态的数据流,而有效的对数据流进行处理并从中挖掘有价值的信息就显得尤为重要。

在流数据分类挖掘中,概念漂移是指流数据特性的改变使得目标分类模型随着时间的变化而变化。针对流数据挖掘过程中的概念漂移问题,Hulten等人提出了概念自适应快速决策(Concept-adaptingVeryFastDecisionTree,CVFDT)算法[1]。CVFDT 算法是一种扩展了VFDT算法用以解决概念漂移问题的高效算法,通过在原有的算法基础上改进添加滑动窗口使得建立决策树模型的数据流能够不断实现更新,从而保证在概念漂移的数据流中模型建立的准确率。

本文主要讨论研究了基于分布式实时计算系统STORM平台的去概念漂移算法及系统的设计与实现,在流挖掘过程中,利用分布式平台的特点采用并行化窗口方案来检测数据流中是否发生概念漂移,并行化窗口bin-win根据数据流中的概念漂移自适应调整窗口大小,从而自适应的改变建模样本数据的流入,提高了流数据的准确性和高效性。

2 算法分析与实现

2.1 CVFDT算法

2.1.1 CVFDT算法的原理

概念自适应快速决策树(CVFDT)[2]是一种扩展了VFDT算法用以解决概念漂移问题的高效算法,具有类似VFDT的HT树生成过程,在保持了VFD的速度和精度的前提下,能够处理样本产生过程中所出现的概念漂移问题[3]。CVFDT对样本维持一个滑动窗口,并能够动态改变窗口的大小。CVFDT算法过程包括CVFDTGrow过程、ForgetExample过程、RemoveExample过程和CheckSplitValidity过程。算法主要思想是先根据当前的数据构建临时决策树,然后并不断地获取新的数据去优化已建立的决策树。若在某个时候出现了概念漂移,则算法会在出现漂移的节点上建立一个新的替代子树。当替代子树的分类效果优于当前的决策子树时,就直接取而代之。

2.1.2 CVFDT算法抵抗概念漂移问题

概念漂移表示目标变量的统计特性随着时间的推移以不可预见的方式变化的现象[4]。在流数据分类挖掘中,也指流数据特性的改变使得目标分类模型随着时间的变化而变化。CVFDT周期性的扫描HT生成树的内部节点来检验原先的分裂节点是否依然是最优的分裂属性节点。当该节点发生了概念漂移,最优分裂属性节点已不再是原先的Xa。CVFDT算法会重新寻找最佳测试属性,新的属性不直接取代原有的测试属性,而是成为一个替代子树的根节点,并且依据该根节点建立替代子树。如果后继滑动窗口的样本在替代子树上有较高的分类精度,则替代子树便取代原先的决策树,以维持滑动窗口的样本和更新后的决策树的一致性。

2.2 基于STORM平台的CVFDT算法实现

2.2.1 CVFDT并行化窗口抵抗概念漂移算法设计

本小节讨论以STORM作为分布式实时计算平台,结合CVFDT流挖掘算法,解决数据流的概念漂移问题,从而提高模型建立的准确性。基于storm分布式平台的并行化窗口抵抗概念漂移方案,通过并行化窗口bin-win对数据流实时检测实现概念漂移抵抗[5-6],窗口调整流程图如图1所示。

从流程图中,可以看到并行化窗口根据数据流中的概念漂移自适应调整窗口大小,当窗口检测数据流未发生概念漂移时,则增大窗口中的样本量,反之,则减小并行化窗口的大小,有利于较快的适应概念漂移。

其中,检测是否发生概念漂移模块,通过对HT树中的非叶子节点的替代子树调用CheckSplitValidity函数,计算属性增益,从而判断是否发生概念漂移,流程图如图2 所示。

2.2.2 CVFDT算法实现与分析

在现实生活中,大部分数据都是非平稳分布的,数据流根据时间的推移不断发生变化,即发生了概念漂移[7]。CVFDT算法通过并行化窗口检测数据流是否发生概念漂移,窗口太大不能快速有效的抵抗数据流中的概念漂移,窗口太小影响模型建立的时间和模型一段时间内的稳定性,如图3所示在建立决策树模型时检测到概念漂移,则减小窗口的大小。当数据流稳定时,则增大窗口的大小,从而有效建立准确的决策树模型。

3 系统实现

3.1 系统总体架构

CVFDT算法在STORM平台上的实现方式有两种,一种是垂直并行化实现,一种是结合随机森林的实现,该抵抗概念漂移系统的设计主要基于垂直并行化的实现方式。系统包括三大模块:并行化窗口模块、抵抗概念漂移模块、决策树建立更新模块。系统整体框架如图4所示。

3.2 系统界面

抵抗概念漂移流分类挖掘系统参数设置界面如图5所示,用户输入训练样本、更新样本、测试样本以及样本所在文件的具体地址。点击确定之后传输相应参数,CVFDT算法执行结束之后,弹出该算法挖掘结果显示窗口,姐main如图6所示,结果展示界面输出当前决策树以及其评价结果,以及未分类样本的标记结果[8]。

4结束语

本文以分布式实时计算STORM平台,设计并实现CVFDT算法,解决在流数据挖掘过程中出现的概念漂移现象,保证了流数据分类挖掘模型的准确性和高效性。CVFDT算法对样本数据维持一个滑动窗口,在新样本到达的时候更新节点上的统计信息,并在样本滑出窗口的时候肩上其对应的统计信息。STORM平台保证算法能够提前预测数据流中的概念漂移,并实时更改窗口的大小,提高决策模型的准确性。

本文设计实现的算法与系统仅仅只是数据挖掘的一个方面,随着大数据时代的到来,数据流会越来越大,并且会不断变化,这就影响到了决策模型的建立与改善,因此,如何设计准确的算法和平台来彻底解决流数据的概念漂移仍然需要进一步的研究。

参考文献:

[1] Hulten G, Spencer L, and Domingos P. Mining time-changing data streams[C]//Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2001: 97-106.

[2] Ganti V, Johannes Gehrke, Raghu Ramakrishnan. Mining Data Streams under Block Evolution. [J].SIGKDD Explorations, 2002, 3(2).

[3]Street W N, Kim Y S. A streaming ensemble algorithm (SEA) for large-scale classification[C]//Proceedings of the seventh International Conference on Knowledge Discovery and Data Mining. San Francisco, USA, 2001: 377-382.

[4] Mitchell T M. Machine learning[M]. New York City: McGraw-Hill, 1997.

[5] 杨雅双. 关联规则的并行挖掘算法研究[D]. 西安:西安科技大学,2010.

[6] 唐耀红. 数据流环境中关联规则挖掘技术的研究[D]. 北京:北京交通大学,2012.

篇2

【关键词】Opencv;计算机视觉技术;系统;研究

随着计算机技术的快速发展,计算机设备逐渐被应用到社会生活的各个方面,尤其是在当前计算机视觉技术和图像处理技术快速发展的时期,各个科技领域中的计算机视觉技术已经逐渐成熟。计算机视觉技术主要是利用计算机智能化来替代人眼,即对于客观存在的三维立体化世界的理解和识别,整个实现过程均是以计算机技术作为基础。随着计算机视觉技术的不断发展,现今其已逐渐成为了一门神经生理学、计算机工程、信号学、物理学、应用数学等综合性学科。计算机视觉技术系统其在高性能计算机基础之上来实现对大量数据的获取,并且通过智能算法来对获取数据进行处理,从而完成对数据集成。

一、视频中运动物体检测原理

对于视频中的运动物体检测主要分为两中方法,其一为宏观检测法;其二为微观检测法。宏观检测法是对获得的整幅图像进行检测,而微观检测法则是对所需要的区域进行图像检测。视觉技术在检测运动物体的时候,首先对图像进行采集,并对采集的信息数据进行预处理,将图像进行分割,然后分别提取运动物体的影象,从而实现参数的更新。图像采集过程中采用背景差分法,实现对背景图像的提取,其通过一定算法采用人为手段获取没有背景的图像。另外在进行运动物体检测的时候还可以采用帧间差分法,其主要是实时获取帧图,然后实现一帧一帧图像比值的比较,从而获取具有差值的图像。运动物体进行检测的时候需连续获取帧图,将这些帧图组合起来,其实就是物体的运动轨迹,然后同分割技术就能勾勒出物体的轮廓。随着计算机视觉技术的不断深入研究,发现此两种方法单独使用仍然存在的一些缺点,于是研究人员将二种检测方法进行融合,形成一种综合检测方法。综合检测法将两者检测方法的优势进行了融合,并将其灵活的应用到了生产和生活之中,取得了十分不错的效用。

二、基于Opencv的计算机视觉技术探究

(一)基于Opencv的运动物体检测

运动物体在进行检测的时候,基于Opencv的检测原理主要为:根据物体某项特定信息,例如,颜色、轮廓、性状等,在复杂背景中利用这些特定的信息将物体分离出来。整个图像的分离过程首先是进行视频流捕捉,然后是进行视频的格式转换,再将图像进行预处理,从而提取前景物体,减少环境因素对图像处理的误差,最后根据物体特征提取,并完成对运动物体的跟踪。从图像中提取所需的目标物体,其实质就是对整个屋里轮廓进行检测和分割,根据每个图像的帧差异来进行提取。

(二)基于Opencv图像预处理

视觉技术应用于复杂的环境之中,由于存在着光照的变化,其场景中所出现的环境因素对视频采集设备性能影响很大。环境因素会使得获取的图像信息的质量降低,并且在图像中无法避免的存在着噪点,这对于运动物体的检测和图像采集会造成很大的影响。当获取视频帧图像之后需对其数据进行预处理,通常有平滑度滤波处理、图像填充、图像背景更新等。

1.平滑度滤波处理

由于在进行视频图像采集的时候存在着噪点,那么我们就需要对其进行噪点处理,以求减小噪声。滤波平滑度滤波处理,其具有线性和非线性两种方式,其中线性方式进行处理器运算简单、运算速度快,但是在进行处理之后的图像都会呈现不清晰的情况。而非线性方式尽心给处理之后,虽然能够很好的减小噪点,确保信号的局部特点,但是其运算的速度会较慢。

2.图像填充

对于帧图像进行处理,通常采用检测边缘填充法或者是腐蚀膨胀法来完成,其中填充法是指当检测出目标物体之后,利用边缘检测方法来对物体进行辨识,然后利用形态学的漫水填充法进行填充。图像的腐蚀膨胀则主要是由于摄像机的性能等问题造成的。

3.实时背景更新

在进行图像差分之前,需要对背景图样进行确定,并且需要对其进行初始化处理。以方便以后在进行检测时候能够对实时背景图进行差分计算,只有这样,才能够获得极佳的前景效果。在进行图像差分时,首先需要根据指定法来确定第一帧背景的图像,并将其指定为第一张背景图片,然后在检测过程中根据算法对背景实施更新。整个图像在进行更新时,其主要的流程为:判断并读取图像是否为第一帧;将Opencv处理的图像转化为单通道灰度值;将实时采集的图像进行高斯平滑度处理,去除噪点;最后使用形态学滤波处理噪点。

(三)提取前景运动物体图像

检测运动物体的时候,只有在检测流程中确保精确度,才能够获取满意的前景跟踪效果。此过程中主要分为两个步骤,第一步为二值化图像之后进行分割;第二步,图像分析前处理,进行充分填充,确保前景图的完整性。其中,前景图的提取主要分为下面几个步骤:首先对前景图像和背景图像进行差分,然后对差分的图像进行二值化,再对背景中的前景图像边缘进行检测,根据轮廓进行填充图像。由于摄像头存在于不同的场景和环境之中,不论是室外或者是室内随着场景的变化都会对图像的采集产生影响。那么在前景图中提取目标就需要在检测系统中采用有效手段来完成背景实时更新。

阀值二值化分割法可以对检测的物体进行前景和背景差图分割,从而使目标物体能够分离出图像,且阀值分割先要确定每个像素的点是否处于灰度范围值之内。将图像中的像素灰度与确定的阀值进行比较,其结果解释所有像素点分为2类,一类像素的灰度小于阀值,另外一类就是大于阀值。阀值二值化分割时,确定分割的阀值T,然后分割图像。选取合适的阀值进行分割,可以有效的减少光照因素影响,常用的动态阀值主要有直方图来法与最大类方差法这另种分割方法。

三、计算机视觉三维技术

计算机视觉技术的核心为分割问题、运动分析、3D立体场景重构等,立体视觉主要是从多幅图像的参照中获取目标物体的三维几何信息。计算机视觉所模拟出的3D立体画面只需要摄像机从不同的角度同一时间针进行图像捕获,将2D信息进行3D重构,进而将计算机程序重建于真实的三维场景之中,以恢复物体的真实空间信息。

(一)视觉系统

视觉系统捕获图像的过程,实则可以看成为对大量信息进行处理过程,整个系统处理可以分为三个层次,其一,理论层次;其二,描述层次;其三,实现层次。在摄像机视觉系统之中,输入的是2D图像,但是输出为3D信息,而这就可以实现对图像的位置、距离等信息的如实描述。视觉系统分为三个进阶层次,第一阶段为基础框架;第二阶段为2.5D表达;第三阶段为三维阶段。在第二阶段中实现的2.5D表达,其原理是将不完整的3D图像信息进行表达,即以一个点为坐标,从此点看去某一些物体的部分被遮挡。第三阶段的三维阶段,则是人眼观察之后可以从不同的角度来观察物体的整体框架,从而实现了将2.5D图像信息的叠加重合运算,进一步处理之后得到了3D图像。

(二)双目视觉

人们从不同角度观看同一时间内的同一物体的时候,可以利用算法测量物体间的距离。此法被称为双目立体感觉,其依据的原理是视觉差原理,利用两台摄像机或者一台摄像机,对两幅不同的图像进行不同角度观察,并且对其观察的数据进行对比分析。实现双目立体视觉与平面视觉图像获取,其主要的步骤为:

(1)图像获取

从两台不同的摄像机,捕获帧图像,由于环境因素会造成图像差异困难。为了更好的跟踪目标、检测,当捕获图像之后,需要对图像进行预处理。

(2)摄像标定方式

获得真实坐标系中的场景点中的与平面成像点占比见的对应关系,借用三维立体空间中的三维坐标,标定之后确定摄像机的位置以及属性参数,并建立起成像的模型。

(3)特征提取方式

所谓的特征提取方式主要是为了提升检测、跟踪目标的准确性,需要对目标物体进行特征提取,从而实现对图像分割提取。

(4)深度计算

深度信息主要是根据几何光学原理,从三维世界进行客观分析,因为距离会产生不同的位置,会使得成像位置与两眼视网膜上有所不同。简单来说,客观景物的深度可以反映出双目的视觉差,而利用视觉差的信息结合三角原理进行计算,可呈现出深度的图像信息。

(三)摄像机模型

摄像机在标定过程中确定了其建立的基础为摄像机的模型,摄像机模型在标定过程中关系到三个不同坐标系的转换,分别为2D图像平面坐标系、摄像机自身坐标系以及真实的世界坐标系。摄像机在摄像的时候起本质是2D图像坐标转换,首先要定义摄像机的自身坐标系,将坐标系的原点设置为光心,X、Y、Z成立三维坐标系。其次则是建立平面的图像坐标系,用以透视模型表示,其原点也在广心的位置,称之为主点。实际应用中,物理的距离光心的位置d≠f焦距,而且会远远大于焦距,为了解决如此问题就提出了平面概念。在光轴z上设置一个虚拟的图像平面,然后在此位置于平面关于光心对称。接着,在设置的虚拟2D坐标系中,光轴和原点重合,并且摄像机与垂直平面的垂直方向相同,真实图像上的点影射到摄像机坐标系。

(四)3D重构算法

视频流的采集,主要是采用Kinect设备、彩色摄像头、红外发射摄像头、红外接收摄像头。使用微软提供API控制Kinect设备,在操作之前需调用NUI初始化函数,将函数的参数设置为用户信息深度图数据、彩色图数据、骨骼追踪图数据、深度图数据。上述的视频流的打开方式不同,既可以是一种打开方式,也可以是多种打开方式,尤其在进行Kinect传输数据处理的时候,需遵循三条步骤的运行管线。此三条管线分别为:第一条为处理彩色和深度数据,第二条为根据用索引添加颜色信息,并将其放入到深度图之中,第三条为骨骼追踪数据。

四、总结

随着计算技术的快速发展,视觉技术逐渐被广泛的应用于我们日常的研究之中。本文通过对视觉技术的相关问题进行分析,探究了图像处理、分割、前景提取、运动物体观测以及重构3D图等问题,为实现视觉技术更加深入研究做出了相应的贡献;为广大参与计算机视觉技术研究同仁提供一个研究的思路,为实现视觉技术的腾飞贡献薄力。

参考文献

[1]张海科.基于Opencv的人手识别与跟踪定位技术研究与实现[D].云南大学,2013.

篇3

关键词OpenCV;科学教育;推广价值

1、OpenCV库简介

OpenCV是由Intel微处理器研究实验室的视觉交互组开发的一个跨平台计算机视觉库,它的代码都是开源的而且都经过非常好的优化,并且具有很好的移植性,可以根据需求导入到合适的环境中使用。它可以实现有关图像识别与处理和计算机视觉技术方面的很多通用算法。它的优势是可以运行在当代社会使用热门的各大操作系统上,适用性强,还可以脱离外部库而独立运行。OpenCV的C和C++都是经过优化的开源代码,采用灵活的接口,提升计算机的运行速度。其中包含的函数就有500多个,包括的种类有C和C++等。OpenCV因为免费面向市场,已经被社会各界广泛使用。现已应用于人机互动、图像识别、图像分割、目标追踪、3D重建、机器视觉、结构分析等数个领域。OpenCV主要包括以下几个部分:①cxcore:核心功能模块,包含一些基本函数,运用于各种数据类型的计算。②cv:图像处理和计算机视觉功能。③ml:机器学习模块,主要内容是分类器。④cvaux:包括大部分实验性的函数,例如ViewMorph-ing、三维跟踪、PCA、HMM等。⑤Highgui:图像界面接口,支持摄像头的读取和转换。

2、OpenCV处理图像的功能

OpenCV中有很多的函数,可以实现很多不同的功能,其中最具有学习价值的部分就是图像处理。处理图像主要分为三部分:加载图像,显示图像,处理图像。

2.1加载图像

不同类型的图像有着不同的内部结构。我们需要根据图像的结构采用合适的方法将图像文件中的数据读入内存。OpenCV中的cvLoadImage()函数,可以加载图像数据。而且图像的格式不影响加载的效果,加载后它以一个指向IplImage结构体的指针形式返回,大大方便了后续处理的过程。2.2显示图像加载图像后需要通过函数使其显示。cvNamedWindow()函数由HighGUI库提供,它可以在屏幕上创建一个窗口,将图像显示出来。cvShowImage()函数的作用是在这个创建的窗口中显示出加载过后的图像。观察图像时经常用到的重要函数还有可以使程序暂停的函数cvWaitKey(),以及用于释放内存的函数cvReleaseImage()和cvDestoryWindow(),掌握并运用这些函数,就可以轻松的实现观察图像的功能。

2.3处理图像

OpenCV中包含的多种函数,可以达到图像处理技术方面的很多效果,包括图像灰度化函数cvtColor(),边缘检测函数Sobel()、Laplacian()、Canny(),其中Canny算子只能处理8位灰度图,其余两种8位32位都可以,合并梯度函数addWeighted(),放大缩小函数resize(),阈值化操作函数imshow()等等。适当选用合适的函数并加以运用即可达到目标所需。

3、OpenCV的推广价值体现

OpenCV可以应用在社会的各个领域,价值就体现在每个科学的产物当中。举个近在身边的例子,随着社会的发展,生活质量的提高,人们的居住环境也在逐渐改善,楼层越盖越高,无数摩天大楼,商业大厦群起而立,电梯已经成为了我们日常生活中必不可少的工具。尽管现在电梯的功能、质量不断地提升,但是仍然存在些许不足,当我们在学校的教学楼内等电梯时发现了一个问题,那就是在电梯使用的高峰期时,比如在上下课时段,有很多人都在同一楼层等电梯。但是此时只有一台离该楼层最近的电梯会过来,而其余的电梯都会自动向其它叫梯楼层运行或是闲置。可是此时这一台电梯只能容纳有限数量的人,时常不能使所有人坐上电梯,这样就无法满足全部人的需求,由此就导致了有部分人无法及时地坐上电梯,需要继续等候,而闲置的电梯又不能及时地被利用。这样不仅不能合理地利用资源,反而浪费了许多不必要的时间。因此,我们想到可以通过利用图像识别与处理的方法来弥补这个不足,首先通过硬件设备连接拍照捕获候梯人像,后台运行判断出候梯人数,然后运用语言编程来确定调动电梯的个数,从而来达到实现自动控制每个电梯的运行的目的,使所有人都能在第一时间乘坐电梯。而上文中提到的OpenCV就可以完成这项艰巨的任务。我们将OpenCV导入编程环境,其次修改电梯工作系统的运行程序,将软件与硬件设备相连通,这样通过调度程序,就可以轻松高效地解决这个问题。使用这种方法,不仅可以节约人们的候梯时间,方便学生、老师上课,而且可以合理有效地调度电梯,使电梯的价值得到最大化。见微知著,OpenCV可以应用在每个领域,对各界的发展起到推动作用,造福社会的科技发展,方便人们的生活。

4、科学教育存在的问题

在历年的教学模式中,老师们往往会强调理论知识的重要性,但却忽略了对学生使用动手能力的培养,学生不能独立完成实践性的技术操作,也就是说教学模式缺乏实践性。只有将理论与实践相结合,才能实现知识价值的最大化,因此,应当在教学中配合着实践课程,举一反三,让学生们更加深刻地学习和了解所学到的知识。而如今虽然一部分学校也开设了实践课程,但也只是浅尝辄止,并没有过多地讲授计算机技术实践方面的知识,学生们也没有真正拥有动手实践能力,这使学生们的技术知识十分受限。虽然现在多数学生对计算机略懂一二,但是实际上仅仅会使用类似Word等简单的软件,而技术要求较高的一些软件及工具却全然不知,甚至对自己所学过的课程软件的使用也是马马虎虎,这对于未来工作所需的能力来讲,实在是九牛一毛。目前中学生使用电脑的重心更多放在了社交软件和游戏上,很少有人利用计算机学习更多的技能,这对青少年的发展实在是利大于弊的,而且这样也失去了计算机的正向价值。因此,我们应该改变现有的教学模式,一边教授理论知识,一边配合指导学生动手操作,将理论与实践相结合,也能让学生更好地消化和吸收所学到的知识,并且引导学生正确使用计算机,发挥计算机的价值,让学生们都能够在计算机中获得更多的知识。

5OpenCV开源算法库在各个领域的实例化体现

OpenCV在医学领域、军事领域、安全防护领域等都有很大的重要意义。在医学领域中,由于有了这个开源算法库,我们可以尽可能地调用它,从而来进行图像处理、对象检测,让医生更好更快速观测人体结构,及时发现病症。在军事领域中,大多数无人操作的机器运作,比如无人机飞行、水下无人驾驶仪、无人驾驶汽车等等,都需要用到OpenCV来对图像进行处理,并进行分析,并且可以检测出人眼看不到的事物,这是OpenCV能够带来人类的巨大的进步。在安全防护领域中,我们现实生活中常见的汽车的安全驾驶,房屋入侵的检测、自动监视报警系统等等,正是由于这些技术,让我们的环境更加安全,这都是我们生活中息息相关不可缺少的。现如今,国家的科学技术飞速发展,日益强盛,OpenCV的成绩有目共睹,未来的发展需要科学技术的不断推进,才能为祖国未来的其他事业提供强有力的后盾。

6OpenCV在科学教育中的作用

在文化改革的大背景下,文盲的概念早已从没有文化转变成了不会使用计算机。因为随着科技的进步,计算机的使用已经越来越广泛,计算机已经逐步取代了以往人工可以完成的许多工作,比如在超市生成的结账单、用计算机控制动力系统的运行、人造卫星轨迹的计算等等,这些都依赖于计算机强大的功能。计算机的推广证明着我国科技的发展和人类文明的进步,由此可见,计算机技术知识的掌握对现代人来说是十分重要的。如果想要成为一个真正有技术、有能力的人才,就务必要熟练掌握计算机技术的使用。但是目前当代社会的教育在计算机技术方面的内容还不够丰富。减压政策开放以来,教育课时被压缩,技术知识的传输也相应减少,学生们的能力也因此日益下降。而科学教育,顾名思义,是使科学技术在教育过程中得以传承。想要科学地教育学生,就必须要多多讲授科学技术方面有关的知识。说到科学技术,它的重点自然是计算机技术,而OpenCV作为计算机视觉技术的核心,可以说也是计算机技术甚至科学教育中的一个重要部分。在教育中普及并传承这个技术无疑可以提高学生们的技术水平。但是,相信有大多数的人在此之前从未听说过计算机视觉技术,也并不了解OpenCV库,更加不会学习到与之有关的技术知识。在这样严峻的形势下,我们更应该将类似OpenCV方面技术有关的知识通过教育传递下去。各大高校应积极开展有关计算机的活动,开设与计算机技术有关的课程。这样才能根据社会的需求来培养更多的综合性人才。如果可以将其投入到现代教育当中,定会使现在的教育事业更加辉煌,也能使祖国的未来更加璀璨。

参考文献

[1]于仕琪,刘瑞祯.学习OpenCV(中文版)[M].北京:清华大学出版社,2009.

[2]阴法名.基于OpenCV图像处理[J].科技信息,2009(32):220.

[3]贾小军,喻擎苍.基于开源计算机视觉库OpenCV的图像处理[J].计算机应用与软件,2008,25(4):276-278.

[4]陈胜勇.基于OpenCV的计算机视觉技术实现[M].北京:科学出版社,2008.

[5]刘洁,冯贵玉,张汗灵.一种图像处理和计算机视觉的开发工具[J].计算机仿真,2006(11).

篇4

关键词:机器视觉技术;大米;品质检测

中图分类号:TP391.4 文献标识码:A 文章编号:0439-8114(2012)05-0873-04

Application Progress of Machine Vision Technology in the Quality Inspection of Rice

WAN Peng,LONG Chang-jiang,REN Yi-lin

(College of Engineering, Huazhong Agricultural University, Wuhan 430070, China)

Abstract: The research dynamic of machine vision technology was reviewed from the aspects of rice varieties, germ, crack, yellow grain rice, and so on; and the shortcomings of the machine vision technology in rice quality inspection were proposed for its further application.

Key words: machine vision technology; rice; quality inspection

我国是世界上最大的稻米生产国,稻米年产量常年保持在1.8亿t左右,占世界稻米总产量的1/3,居世界第一位[1]。我国也是大米消费大国,有近2/3的人口以大米为主食,全国大米年消费总量保持在1.35亿t左右[2]。我国的水稻研究在世界上处于领先地位,但是在国内外贸易、加工和消费等领域中仍然存在诸多问题[3,4]。

我国曾经是世界三大稻米输出国之一,但是由于我国大米的品质不高,再加上大米的生产标准、质量技术标准、检验检疫技术等与发达国家存在较大差距,在相当程度上影响了我国大米在国际市场上的竞争优势,大米的年出口量已退居六七位。2008年以来,随着世界稻米产量的下降,各国对大米出口配额进行调整,导致国际大米的价格出现了疯涨,而我国出口的大米因品种不稳定、品质较差,在国际市场上竞争力较低,市场份额逐渐减小。

为了提高大米的品质,不但需要选育优质的稻米品种,还需要加强大米品质的检测。但是,由于我国对大米品质的检测研究起步较晚,同时也缺乏方便简单的检测方法和快捷准确的检测仪器,在对大米品质进行检测的过程中,主要依靠人工识别、感官评定等方法进行检测,这些方法主观性较强,准确度较低,可重复性较差,工作效率也较低,因此在实施过程中的有效性受到了质疑[5]。

机器视觉(Machine vision)又称计算机视觉,是指利用计算机实现人的视觉功能,是研究采用计算机模拟生物外显或宏观视觉功能的科学和技术,是一门涉及数学、光学、人工智能、神经生物学、心理物理学、计算机科学、图像处理、图像理解、模式识别等多个领域的交叉学科[6]。机器视觉技术在农业上的应用研究始于20世纪70年代末期,主要进行的是植物种类的鉴别、农产品品质检测和分级等。随着计算机软硬件技术、图像处理技术的迅速发展,它在农业上的应用研究有了较大的进展[7,8]。

目前,大部分的大米品质检测指标根据国家标准采用人工进行检测,容易产生许多问题。随着机器视觉技术的发展和在农产品无损检测领域的广泛应用,采用机器视觉技术对大米的品质进行检测,不仅能够提高大米品质的检测效率,而且能够克服主观因素的影响,降低检测误差,使得大米品质的检测变得更加快速和准确[9]。

1 基于机器视觉技术的大米品质检测装置

基于机器视觉技术的大米品质检测系统由检测箱、检测台、光源、CCD图像传感器、镜头、图像采集卡和计算机系统等几个部分组成[10,11](图1)。

大米品质检测系统是一个内空的箱体,箱子的底部是检测台,顶部为光源和摄像头;检测箱内表面粘贴有背景纸,使光在箱体内形成均匀的漫反射,避免样品在检测时形成镜面反射。光源提供样品检测照相时所需的亮度,为了提供充足的光线,同时尽量消除光源照射样品时在背景上产生的阴影,通常选用环形荧光灯管作为光源[12]。CCD图像传感器是获取数字米粒样品图像的关键部件之一,它将大米图像由光信号转换为表示R、G、B颜色值的模拟电信号,并输入图像处理设备进行后续处理[13]。计算机软件系统用于对采集到的数字图像进行分析、处理和识别,实现对特定目标的检测、评价等[14]。

2 基于机器视觉技术的大米粒形检测

大米的粒形是实现大米分级和质量检测的最基本参数。根据《GB1345-1986大米》中的规定,评价大米质量的检测指标主要有加工精度、不完善粒、杂质、碎米等,这些检测指标与大米的粒形直接或间接相关。由于人工评价是通过肉眼观察对大米粒形进行评价,因此受检测环境、视觉生理、视觉心理等诸多因素以及评价人员对大米标准理解程度不同的影响,即便是同一份大米样品,很难保证大米粒形检测结果的稳定,而采用计算机视觉技术进行检测则可以有效避免主观因素的影响,保证大米粒形检测结果的准确性[9,15]。

中国农业大学孙明等[16]借助于MATLAB图像处理工具箱对大米粒形进行测定。首先定义单粒大米子粒的粒长(A)与粒宽(B)的比值为粒形,检测时先求出大米粒的椭圆离心率R,通过公式:

■=sqrt■

将大米子粒的椭圆离心率转变为长宽比A/B,即求出大米子粒的粒形。试验结果表明,该方法具有操作简单、检测速度快、重复性好的优点。

武汉工业学院张聪等[17]提出了一种基于计算机图像分析识别大米破碎粒的方法,即先采用数码相机获取大米图片,再对大米图片进行分析处理。识别时先将大米图像的边缘曲线变换为极坐标形式,再结合大米粒形的一般形状,用椭圆模板定位米粒,获得一组与米粒平移、旋转和尺度无关的形状描述数据,再运用小波变换提取奇异点及特征参数。试验结果表明,该方法简单有效,用于米粒定位与识别时的可信度高。同时,刘光蓉等[18]也研究了通过扫描仪获取大米的图像,再采用计算机图像处理技术将彩色图像转化成灰度图像并进行进一步的处理,最后获得大米子粒的二值图像,然后利用八邻域分析法提取大米图像的轮廓。试验结果表明,这种方法的检测效果良好。

此外,袁佐云等[19]还提出了采用最小外接矩形计算大米粒形的方法。包晓敏等[20]分析了采用Roberts算子、Sobel算子、Prewitt算子、模板匹配法和快速模糊边缘检测法对大米粒形进行边缘检测,并通过对大米图像的分割试验验证了快速模糊边缘检测法最为有效。

3 基于机器视觉技术的大米加工精度检测

大米加工精度是指大米背沟和粒面留皮程度,即糙米皮层被碾去的程度。大米的加工精度是决定大米外观质量的主要因素,加工精度越高,米粒表面残留糠皮量就越少,胚乳表面光洁度、口感、外观品质也就越好。我国国家标准规定各类大米按加工精度分等级[9]。因此,大米加工精度的检测具有十分重要的意义。传统大米加工精度的测定有多种方法,国标中规定大米加工精度的判定采用试剂染色法[21],通过染色剂使米粒胚乳和胚乳表面残留糠皮呈现不同的颜色差异便于肉眼观测,该方法受到光照条件、视力、情绪等诸多因素以及各种染色参数的影响,操作繁琐、效率低、误差大,不能满足快速、客观检测的需要。

河南工业大学张浩等[22]研究了机器视觉技术结合数字图像处理技术检测大米加工精度的方法,首先获取大米的图像,利用米粒区域和背景区域的亮度差异将大米图像转化为灰度图像,再利用边缘检测函数求出分割阈值,将米粒从背景中分割出来,并计算米粒区域的面积;然后利用米粒区域中糠皮部分和胚乳部分R-B特征值差异,将大米图像分解为R、G、B分量图,以R-B矩阵代替大米图像,再将R-B矩阵转化为灰度图,用边缘检测函数求出分割阈值把糠皮部分分割出来,计算糠皮部分面积。最后测得大米留皮率为米粒糠皮部分面积与米粒区域面积之比。

江苏理工大学许俐等[23]将计算机图像处理技术与色度学理论相结合研究了大米加工精度的自动检测方法。检测时先将大米染色,然后采用机器视觉系统获取大米图像,再根据染色后大米的胚乳、皮层以及胚芽所呈现的不同颜色特征,采用不同的区分方法获取米粒不同部位的面积即像素的个数,然后根据胚乳面积与大米图像总面积的百分比计算大米的加工精度。

此外,无锡轻工大学田庆国[24]根据色度学原理,采用图像处理技术对染色后的大米进行检测,识别大米的加工精度,并建立了大米染色后的颜色值与加工精度之间的数据库。西华大学的刘建伟与日本岐阜大学的三轮精博[25]合作研究大米加工精度与碾白程度之间的关系时,采用改良后的大米精度鉴定NMG溶液,按照品红石碳酸溶液染色法(GB 5502-85)对大米进行染色获得米粒表皮呈绿色、糊粉层呈蓝色、胚乳呈蓝红色的大米样品,米粒干燥后采用测差计检测样品的颜色计算大米的加工精度。

4 基于机器视觉技术的大米垩白检测

垩白是指稻米粒胚乳中不透明的部分。垩白之所以不透明是因为稻米子粒中淀粉粒排列疏松,颗粒间充气引起光线折射所致。按其发生部位可将垩白区分为腹白、心白和背白等类型。通常用垩白粒率、垩白大小和垩白度等概念描述稻米的垩白状况。垩白是衡量稻米品质的重要性状之一,不仅直接影响稻米的外观品质和商品品质,而且还影响稻米的加工品质和蒸煮食味品质[9,26]。

黑龙江农业工程职业学院于润伟等[27]研究了采用机器视觉技术和图像处理技术检测稻米垩白的方法。先用机器视觉装置获取大米的原始图像,再采用图像处理方法对大米图像进行预处理,然后应用大津算法自动选取分割阈值对稻米图像进行两次分割,分别得到大米子粒的二值图像和垩白区域的二值图像,再根据区域内部像素点的联通性,将不同区域分别进行标记,计算出子粒数和垩白粒数,同时计算出二者对应的面积(像素点个数)。研究结果表明,该算法的自动检测结果与人工检测相关性大于90%。

中国农业大学侯彩云、日本东京大学Seiichi等[28]采用微切片三维图像处理系统对大米的品质特性进行探索性研究,结果表明借助于三维可视化技术分析大米的微切片,不仅可以观察大米垩白部分内部的组织结构以及在蒸煮过程中的变化,还可以利用灰度直方图定量计算出垩白米粒中各部分垩白的面积和体积。同时,侯彩云等[29]还利用自行研制开发的机器视觉图像处理系统对大米的垩白度及垩白粒率进行检测,试验结果表明所研制的装置具有客观、准确、快速和重现性好等特点,在大米的快速分等定级中具有良好的应用前景。

江苏大学黄星奕等[30]研究了采用遗传神经网络计算大米垩白度的方法。先采用机器视觉系统提取垩白米的图片,然后采用数字图像处理技术提取米粒的垩白区域与胚乳非垩白区域的交界区域内的像素,再采用遗传算法建立一个人工神经网络识别系统对这部分交界区域内的像素进行识别。试验结果表明,采用机器视觉系统的检测结果与人工检测结果的误差小于0.05。

此外,凌云等[31]提出了一种基于分形维数的垩白米检测算法。孙明等[32]采用了MATLAB软件开发平台构造了基于计算机视觉的大米垩白检测算法,完成了对大米垩白参数、垩白度以及垩白粒率的测定。吴建国等[33]从实际应用出发,采用计算机和扫描仪结合开发了机器视觉系统的垩白测定软件。而曾大力等[34]利用视频显微镜对大米粒进行扫描,结合计算机图形分析,直接计算大米的垩白大小和透明度,初步探讨了视频显微扫描技术在大米垩白分析中的应用。湖南农业大学萧浪涛等[35]开发了基于微软Windows 98平台的大米垩白度测定软件Chalkiness 1.0,该软件与计算机和图像扫描仪相结合能够组成一套高效的大米垩白度测定系统。

5 基于机器视觉技术的整精米率检测

整精米是指糙米碾磨成国家标准一级大米时米粒产生破碎,其中的完整米粒以及长度达到完整精米粒平均长度4/5以上(含4/5)的米粒。整精米率是指整精米占净稻谷试样质量的百分率,它是稻米加工品质优劣的指标,是稻米贸易中商家最关注的内容,与碾米厂的经济效益密切相关。正确识别整精米是检测整精米率的关键。目前整精米率主要采用人工方法进行检测,该方法难以满足对稻米品质快速、准确的检测要求[9,36]。

中国农业大学尚艳芬等[37]开发了一套基于机器视觉技术的整精米检测系统用于识别整精米和碎米。该方法通过提取并分析稻米的粒长、粒形等特征参数,提出了同一品种并在同一生长条件下生长的大米粒形具有相似性的前提假设,据此求得标准米,再通过偏差计算、粒长、粒形分析等对整精米和碎米进行识别。采用该方法开发的整精米识别系统对整精米和碎米识别的准确率与人工检测结果的相关系数可到达0.99。

于润伟等[38]首先通过图像识别系统采集大米的原始图像,再采取动态阈值分割等图像处理方法把米粒图像变成二值图像,然后根据区域内部像素的连通性计算出单个米粒的像素个数;再根据先期计算的整精米长度/面积比换算出米粒长度,最后根据米粒长度判断整精米和碎米。研究结果表明,该算法的自动检测与人工检测的相关性大于99%,可用于整精米的自动检测。

6 问题和展望

机器视觉技术在农产品的品质检测方面具有广泛的应用,国内外的学者在此领域进行过广泛研究。但机器视觉技术在大米品质检测领域的应用尚处于起步阶段,仍有许多等待解决的技术问题,需要进一步深入研究。

1)目前的大米品质检测装置多为静态检测装置,即将大米放于检测箱中通过机器视觉系统获取图片或通过扫描仪获取图片,大米相对于摄像头静止不动;获取图像之后再采用计算机软件系统对图像进行分析处理。这种检测方法效率低下,因此,动态地获取大米图像并进行分析检测是下一个要解决的难题。

2)采用机器视觉系统检测大米品质时,多采用的是串行化算法,即先获取大米图像,然后采用某种算法对大米图像进行处理,再检测大米的某项品质指标;之后再采用某种算法对大米图像处理大米的另一项品质指标,这种检测方法在处理群体米粒图像时极大地影响了检测速度,因此开发并行处理算法对大米图像进行分析检测可以有效提高机器视觉系统的工作效率。

3)目前对大米品质指标进行检测分析时缺少统一的检测装置,有的研究者采用CCD摄像头获取大米的图像进行分析检测,而有的研究者采用扫描仪获取图像进行分析检测,检测装置不同、检测条件不一致难以达到相同的检测结果,因此有必要研制具有实用价值的大米品质检测装置,使基于机器视觉技术的大米品质检测能够具有统一的标准。

总之,伴随着计算机科学技术的迅速发展,机器视觉技术在大米品质检测中的应用将越来越广泛。

参考文献:

[1] 庞乾林.稻米知识纵览[J].中国稻米,2004(3):44-47.

[2] 刘月好.陈米产生的原因与处理方法[J].粮食加工,2004(1):30-31.

[3] 庄丽娟,刁慕容.中国谷物外贸格局与发展趋向分析[J].中国农垦经济,2004(8):25-26.

[4] 山世英,彭玉珊.我国农产品出口遭遇技术性贸易壁垒的原因及对策[J].山东农业大学学报,2004,6(2):41-43.

[5] 李里特.粮油产品规格化、标准化是农业现代化的迫切任务[J].中国粮油学报,2001,16(5):1-5.

[6] 刘传才.图像处理与计算机视觉[M].厦门:厦门大学出版社,2002.

[7] 赵晓霞.计算机视觉技术在农业中的应用[J].科技情报开发与经济,2004,14(4):124-126.

[8] 熊利荣,陈 红,丁幼春.机器视觉技术在农产品破损检测上的应用[J].农机化研究,2005(5):204-205.

[9] 李天真,周柏清.基于计算机视觉技术的稻米检测研究[J].粮食与食品工业,2005,12(4):50-53,55.

[10] 凌 云,王一鸣,孙 明,等.基于机器视觉的大米外观品质检测装置[J].农业机械学报,2005,36(9):89-92.

[11] 张巧杰,王一鸣,凌 云,等.稻谷品质检测技术与装置研制[J].现代科学仪器,2006(1):128-130.

[12] 赵志强,熊元姣.计算机视觉检测系统的设计方案[J].工业控制计算机,2005,18(10):1-2.

[13] 唐向阳,张 勇,李江有,等.机器视觉关键技术的现状及应用展望[J].昆明理工大学学报(理工版),2004,29(2):36-39.

[14] 张纪明.基于PC的机器视觉系统研究[J].可编程控制器与工厂自动化,2006(11):107-110.

[15] 任宪忠,马小愚.农产品粒形识别研究进展及其在工程中应用现状[J].农业工程学报,2004,20(3):276-280.

[16] 孙 明,石庆兰,孙 红,等.基于计算机视觉的大米外观品质检测[J].沈阳农业大学学报,2005,36(6):659-662.

[17] 张 聪,管庶安.基于图像分析的大米形状识别[J].粮食与饲料工业,2006(6):5-7.

[18] 刘光蓉,周 红,管庶安.基于图像处理技术的大米轮廓检测[J].粮食与饲料工业,2004(6):14-15.

[19] 袁佐云,牛兴和,刘传云.基于最小外接矩形的稻米粒型检测方法[J].粮食与饲料工业,2006(9):7-8.

[20] 包晓敏,汪亚明,黄振.计算机视觉技术在大米轮廓检测上的应用[J].浙江工程学院学报,2003,20(2):104-107.

[21] 吕季璋,陈效贵,范慕蕙,等.GB/T 18105-2000米类加工精度异色相差分染色检验法[S].北京:国家质量技术监督局,2000.

[22] 张 浩,孟永成,周展明,等.基于图像处理技术大米加工精度的检测研究[J].中国粮油学报,2006,21(4):135-137.

[23] 许 俐,钱敏娟,方如明,等.大米加工精度的图象识别方法[J].农业工程学报,1996,12(3):172-175.

[24] 田庆国.图像处理技术在大米碾白精度测定中的应用[J].粮食与饲料工业,1997(10):10-11.

[25] 刘建伟,徐润琪,三轮精博,等.大米加工精度与碾白程度检测的研究[J].中国粮油学报,2004,19(3):5-8,61.

[26] 周新桥,邹冬生.稻米垩白研究综述[J].作物研究,2001(3):52-58.

[27] 于润伟,朱晓慧.基于图像处理的稻米垩白自动检测研究[J].中国粮油学报,2007,22(1):122-125.

[28] 侯彩云,SEIICHI O,YASUHISA S,等.三维图像处理系统在稻米品质检测中的应用研究[J].农业工程学报,2001,17(3):92-95.

[29] 侯彩云,王一鸣,凌 云,等.垩白米粒的计算机图像识别[J].农业工程学报,2002,18(5):165-168.

[30] 黄星奕,吴守一,方如明,等.遗传神经网络在稻米垩白度检测中的应用研究[J].农业工程学报,2003,19(3):137-139.

[31] 凌 云,王一鸣,孙 明,等.基于分形维数的垩白米图像检测方法[J].农业机械学报,2005,36(7):92-95,91.

[32] 孙 明,凌 云,王一鸣.在MATLAB环境中基于计算机视觉技术的大米垩白检测[J].农业工程学报,2002,18(4):146-149.

[33] 吴建国,刘长东,杨国花,等.基于计算机视觉的稻米垩白指标快速测定方法研究[J].作物学报,2005,31(5):670-672.

[34] 曾大力,藤 胜,钱 前,等.视频显微扫描技术在稻米垩白研究中的应用[J].中国农业科学,2001,34(4):451-453.

[35] 萧浪涛,李东晖,蔺万煌,等.一种测定稻米垩白性状的客观方法[J].中国水稻科学,2001,15(3):206-208.

[36] 郭英群.对国家标准中整精米率定义及检测方法的探讨[J].粮油仓储科技通讯,2005(6):52-53.

篇5

诞生于20世纪40年代的电子计算机是人类最伟大的发明之一。并且一直以飞快的速度发展着。进入21世纪的现代社会,计算机已经进入各个行业,并成为各行业必不可少的工具。如今的计算机发展的更加智能化,就如今来说,人们最什么事情都非常重视信息,人类和社会的发展,时刻都离不开信息。计算机如今重视的方面就是对信息的阅读和控制,人脸检测与识别技术也是应运而生。

人脸识别的论述

人脸识别是人类视觉中的一大特色,因为能对身边的人进行识别,才不会对身边的信息进行混淆,简单来说,根据人脸可以对人的年龄,性别进行初步判断。随着计算机技术的智能化,计算机业已经通过视觉能进行人脸的识别。其中在对人脸识别的同时进行有关信息的收集、识别、提取、变换、存储、传递、处理、检索、检测、分析和利用等技术。如今人脸识别已经应用于很多的领域,但是要人脸检测与识别是需要基于本来已经收集和整理的信息本库才能进行。再加上现在计算机技术虽然已经接近成熟,然而在人脸识别方面的表情传达出什么信息还是无从下手进行编程和设计。所以,基于计算机视觉的人脸检测与识别技术还是会有很广的发展空间,再加上人脸识别还可以维护人们的财产安全和隐私保护,必然会引起社会各界人士的广泛关注。

从19世纪末开始就已经有人对人脸识别进行了研究,因为当时没有先进的科学技术做后盾,所以经过了数百年的研究仍然没有什么显著的进展和成果。直到20世纪90年代人脸识别才成立了自己的学科,在加上当时的科技发展水平已经达到了不错的水平,人脸识别这个学科得到了快速的发展。如今,我国的计算机技术也已经居于世界的前列,我国也已经拥有比较完善的一套东方面孔的人脸数据库。

人脸识别在发展过程中大概经历了三个阶段:第一阶段就是对人脸特征进行整理,整理出所需要的数据库,并且应用当时的计算机技术做出一套质量不错的人脸灰度模型,这个阶段的识别工作全部由操作人员来完成;第二阶段比第一阶段要先进,有了基础人机互交,将人脸的特征经过多维度的矢量在模型上表示出来,并也可以设计出一套人脸识别的系统,这个阶段的识别不再是仅仅依靠操作人员,而是操作者和计算机一起完成;第三个阶段是计算机智能识别的最高峰,一切操作和识别都依靠机器全自动化进行,在人脸识别过程中也不再是每台计算机都需要完成一整套的工作,也实现了计算机与计算机之间的互联,多台计算机一起完成人脸识别的过程,都人力也是一种解放。

积极践行人脸检测识别技术

人脸检测识别技术是计算机实现智能化特征后的又一重要发展方向之一,它已经在世界范围内得到了广泛的普及与应用。人们可以通过人脸识别来进行定位,来起到保护人们财产安全的作用,通过人脸识别来抵制社会中的造假率,之前曾经有一些不法分子利用假身份来做损害公共利益和侵犯人们隐私权的事情,有了人脸识别让不法分子没有可乘之机,也应用人脸识别来对财务密码进行联系,起到对人们的财产有绝对的保护作用,对社会的安定何尝不是一项有意义的发明。

人脸识别一直是计算机智能化发展过程中的一个重要领域,因为人脸的识别与检测是一个很难做到完善的项目,由于人类的面部表情丰富,要对人类的面部表情做出判断和分析会存在一定的困难。再加上人脸识别的过程中,每个独立存在的个体都有一张专属于自己的脸。它的轮廓没有明显的特征界限,同时对眼、鼻子、嘴等器官在脸上的分布情况也没有明确的界限,这就使得对人脸识别来进行算法设计有一定的困难,所以只有通过轮廓特征来进行初步的判断,分辩出各种器官,再根据器官来完成人脸的分布情况设计灰度模型的完成工作。

篇6

关键词:多模态;检索;图像特征

0 引言

现阶段基于图像检索普遍采用方式是人工对上传到网络中的数字图像进行文字标注,根据每幅图像的视觉特征人为的设置他们的文字描述。在检索时,使用标注的文字作为关键字来检索我们想要的数字图像。这种依据图像标注的文字匹配检索的方法简称为“字找图”,它的缺点为:(1)由于需要大量的人工对每幅图像进行文字标注,数字图像的数量是海量的,标注工作是非常耗费人力和时间;(2)由于每个人对图像的认识不同,所以,在标注的过程中会按照自己对图像的认识来选择标注文字,这样会使不同的人对图像的标注不同,而在检索中会产生很大误差;(3)不同国家使用的标注文字不同,所以在匹配文字时也会产生很大的偏差;(4)有的图像里面含有大量的内容,不可能用几个关键字就能表达清楚。为解决标注图像检索的缺陷问题。学者着手开展对内容的图像检索技术的研究。基于多模态的图像检索的改善了此类瓶颈问题,主要从被检图像库根据海量图像特征进行检测和匹配,获取图像之间的相关性特征信息。

1 基于多模态的图像特征匹配方法

(1)直接从图像中寻找匹配线索,而不是通过人为的文字标注,正因为这个特点,突破了传统的关键字标注的耗费人力时间的缺点,而是直接对图像本身进行处理和分析,使检索更贴近图像本身。

(2)检索可以是人机交互的,当使用一种特征选取方式检索的结果不能满足人们的需求时,人们可以人工的改变特征选取方式使检索结果向于人们需求的方向接近。这样避免了计算机检索图像时的不灵活性,加入了人为的因素。因此,人和计算机结合检索能使效率和准确率更高。

(3)基于内容的图像检索是一种相似性检索,可以将检索结果进行相似性排序,我们可以采取逐步求精的算法,不断减小检索的范围,直到定位到准确目标,这与传统数据库精确匹配有很大的不同。

由于这些方法,基于多模态内容的图像检索渐渐成为人们研究的重点,此类技术可以应用在社会安全、遥感、医学、数字图书馆、建筑、计算机辅助设计、地理信息系统、商标版权管理、等诸多领域。

2 基于纹理识别的多模态的图像检索系统的框架和技术

基于纹理识别的多模态图像检索系统组成部分如图1所示。

(1)输入模块:分析和获取图像的纹理特征值,并将特征向量输入图像特征数据库。

(2)描述模块:利用查询抽象检索技术,实现将用户需求抽象提取相关图像特征语义,并完整描述成计算机能进行识别的特征向量。

(3)检索模块:与图像数据库的图像纹理特征值进行相关性匹配,根据机器学习和神经网络技术,对跨语义的特征向量进行学习和筛选,获取最符合查询要求的图像信息,并返回给用户。

3 基于图像纹理特征的检测方法

图像有三大底层特征,分别是颜色特征、纹理特征和形状特征。纹理特征是显著的视觉特征,其弱化了颜色和亮度的作用,但它吸收了表面结构的排列与组织次序,而且表现出了上下文的关系,反映出了同质再现的视觉特征。

纹理源于人们对物体表面触感的概念,这种固有的内在特征反映了物体表面的组织结构或者上下文内容的关系等诸多有用的信息,或者反映了图像像素间的灰度变化情况或者颜色变化情况。组成纹理的基本元素叫作纹元或者纹理基元,是一个触发视觉感知并且特性相对稳定的基本单元,这些单元在一定的区域内的不同位置会以不同的形态再现,主要是灰度或色彩模式呈现不同特点,其包含多个像素,在物体表面呈现三种:周期性、准周期性或随机性。

如今,神经网络、最近邻分类器、决策树和支持向量机等模式方法已经广泛的应用到了许多领域,譬如图像分类、视频处理、检索等。模式类就是由一些共同属性所决定的,模式分类就是根据对象的特征或属性进行分类。

按照学习方法的监督程度,也就是根据否存在先验知识并且是否使用到这些先验知识,模式分类方法可以分为监督分类和非监督分类。

监督分类对各对象分类的依据是通过训练样本,选择合适的特征参数,以此建立判别函数。监督分类必须要有分类区域的先验类别知识用以建立判别函数,从而获得训练分类器,它把图像分解为多个组成部分,求解各部分之间的空间关系。一般监督分类在训练阶段需要手工选择分类区域从而可以确定模型。

在没有先验知识情况下,非监督分类能够有效地分类,是因为其根据图像像元间的相似度和从分析数据上得到的统计特性,它不需要获取判别函数集而去进行场地训练。熟知并且常用的K-means和ISODATA法就是非监督分类方法,也是一种聚类分析方法。这种方法是将图像视作一些特征的集合,先对这些特征进行聚类分析,得到特征单词和特征码,再用统计方法对特征单词和特征码进行统计分析,最后根据统计特征进行有效分类。

前面一种分类是根据监督程度来划分,模式分类方法还可以分为经验型分类方法和理论型分类方法,此时是根据有无前人分类算法的思想。经验型方法中比较常用的有最近邻分类器、RBF网络和神经网络等。理论型模式分类算法比较常用的有贝叶斯分类器,支持向量机,这种分类算法数量较少,远没有经验型分类方法多。贝叶斯分类器通过计算样本概率的差异,将样本进行分类,但是分布函数的求取较为困难;支持向量机方法SVM基于统计学习理论,在实际应用中取得了一定的成效。

篇7

关键词:计算机专业教育;图形学;图像处理;多媒体;教学改革

中图分类号:TP391,G642 文献标识码:A

文章编号:1672-5913 (2007) 24-0080-05

1对图形图像与多媒体知识的要求

1.1CC2004知识领域要求

在CC2004中,和图形图像与多媒体相关的知识领域是人―机交互(Human-Computer Interaction -HC)、图形学与可视计算(Graphics & Visual Computing-GV)、信息系统(Information Management -IM)、网络计算(NetCentric Computing-NC)等几个部分。表1是CC2004列出的五种课程计划中所含人―机交互和图形学与可视计算两个计算机主题的比重。表中的数字表示对应的专业与相应的知识域的相关性,范围从0~5。其中,min值表示该学科报告中列举的学生对相应知识域掌握的典型的最低要求,也是相对于其它专业最低要求的值,max值表示该专业学生对相应知识域掌握的典型的最高要求。

表1 计算机主题的比重

分析CC2004中各课程计划和表1可得出,CC-CS2001对图形图像与多媒体的知识要求最高,所涉及的具体知识单元见表2。

表2 和图形图像与多媒体相关的知识单元

CC-CS2001在附录B的课程描述中,推荐了一些覆盖知识领域和单元的课程,每门课程里对预备课程、课程提纲、覆盖的知识单元、各单元学时做了较为详细的描述。相应地,和图形图像与多媒体有关的中介课程有CS250W人机交互和CS255W计算机图形学等课程,高级课程有CS352图形用户接口、CS355高级计算机图形学、CS356图像处理等课程,但高级课程只给出课程名称,还没有详细描述。

CS250W人机交互课程要求全面介绍人机交互原理和技术,CS255W计算机图形学课程则要介绍计算机图形学的原理和技术,两门课程覆盖的知识单元见表3。

表3 CS250W和CS255W的知识单元

1.2CCC2002和教指委计算机科学规范的要求

CCC2002同CC2001一样,把计算机科学与技术学科的知识体系划分为知识领域、知识单元和知识点等三个相互关联的层次结构。完整的本科课程体系结构由三部分组成,即奠定基础的基础课程,涵盖知识体系大部分核心单元的主干课程,用来完备课程体系的特色课程。根据我国计算机科学与技术学科教育的现状及对典型课程设置的分析,给出了16门课程,分别为计算机导论,程序设计基础,离散结构,算法与数据结构,计算机组织与体系结构,微型机系统与接口,操作系统,数据库系统原理,编译原理,软件工程,计算机图形学,计算机网络,人工智能,数字逻辑,计算机组成基础,计算机体系结构。在教指委的《计算机科学规范》中,也选取部分知识单元组成了15门核心课程,分别是计算机导论,程序设计基础,离散结构,算法与数据结构,计算机组成基础,计算机体系结构,操作系统,数据库系统原理,编译原理,软件工程,计算机图形学,计算机网络,人工智能,数字逻辑,社会与职业道德。可见,计算机图形学都为核心课程之一。

在《计算机科学规范》中,计算机图形学和可视化计算可以划分成以下四个相互关联的领域:

(1) 计算机图形学:计算机图形学是一门以计算机产生并在其上展示的图像作为通信信息的艺术和科学。它有以下几方面的要求:①表示信息的模型的设计和构建应有助于图像的产生和观察;②方便用户使之能够通过精心设计的设备和技术与模型(或者说观察到的图像)进行交互;③能提供绘制模型的技术;④设计出有助于图像保存的技术。计算机图形学的目标是对人类的视觉中心及其他的认知中心有进一步深入的了解;

(2) 可视化技术:主要目标是确定并展示存在于科学的(如计算和医学科学)和比较抽象的数据集中的基本的相互关联结构与关系。展示的主要目标则应当是发掘在数据集中潜在的信息,从而有助于用户增强对它们的理解。虽然,当前的可视化技术主要是探索人类的视觉能力,但是其他的一些感知通道,包括触觉和听觉,也均在考虑之中,以便通过它们进一步发现信息的处理过程;

(3) 虚拟现实:虚拟现实(VR)是要让用户经历由计算机图形学以及可能的其他感知通道所产生的三维环境,提供一种能增进用户与计算机创建的“世界”交互作用的环境;

(4) 计算机视觉:计算机视觉的目标是推导出一幅或多幅二维图像所表示的三维图像世界的结构及性质。对计算机视觉的理解和实践依赖于计算学科中的核心概念,但也和其他一些学科(如物理、数学、心理学等)密切相关。

CC2004和CCC2002的规范中给出的课程建议规定了每门课程的最小核心内容,包括的这些单元是要获得学位必须具备的相应知识。核心单元不是课程的全部,核心单元是课程最小的部分,但不能构成完整的本科课程,每门课程应当包括来自知识体系中的附加选修单元。核心单元不能仅安排在本科阶段的入门性课程中。许多核心单元属于入门的导论性知识,但这不意味着它们必须安排在低年级的入门性课程中,因为有些导论性的知识,只有当学生具有必需的基础知识后才能接受。另外,引论性课程也可以包括选修单元。所以核心这一说法只是意味着必须具备的含义,而并没有限制它必须安排在那些课程里。

从以上国内外计算机专业推荐的教学计划和设置的课程可以得到,涉及到图形图像与多媒体的内容,一般宜设置计算机图形学、数字图像处理、多媒体技术等课程及相关课程,可涵盖的知识有人―机交互、图形学、图像处理、多媒体技术等基础内容,这样才可基本达到规范的要求。

2部分高校课程开设情况

从网上可查到的清华大学、上海交通大学、中国科技大学等几所高校的计算机科学与技术专业本科生培养教学计划中计算机图形学、数字图像处理、多媒体技术等课程设置情况如表4。

表4 涉及图形图像与多媒体类课程开设情况

从表4可看到,近几年在计算机专业里,国内的大学普遍增加了图形图像与多媒体类课程的课程数量和教学时间。

3 存在问题及教改研究

3.1问题

篇8

微软的游戏操控设备 Kinect 有一句广告语:You are the controller(你就是遥控器)。通过 Kinect,普通人不需要使用任何手柄、摇杆、鼠标或者其他遥控器就能操控游戏,这让 Kinect 远远超越了普通家用游戏机的段位。事实是,人们也没有把它仅仅当成游戏机,无数黑客对其进行破解,开发出一系列创新发明,有模拟光剑道具,也有自动跟着垃圾跑的垃圾桶,甚至英国一所大学正在基于它研发一种技术帮助中风患者恢复健康。

新的人机交互方式让计算机能读懂人所传递的命令。现在,眼睛是人们开发的下一个目标。去年底丹麦公司 Senseye 了一个视频,视频里,一个人捧着平板电脑在玩“切水果”的游戏——不过,他没有动一根手指,而是完全用眼神控制。后来,这家由四个丹麦博士生创立的公司改名为“The Eye Tribe”,他们开发的眼控技术能通过智能手机或者平板电脑的前置摄像头获取图像,利用计算机视觉算法进行分析。软件能定位眼睛的位置,估计你正在看屏幕的什么地方,甚至精确到非常小的图标。这项眼控技术能够取代手指,控制平板电脑或手机。据国外媒体报道,他们已经开始与手机制造商和运营商进行合作,希望明年能将正式产品推向市场。

除了用眼神控制手机,用眼睛操控的概念笔记本、眼控相机等产品也已面世。以眼神的移动轨迹为基础进行的人机交互方式,是继 Kinect 之后人机交互界面的又一次革命。

眼睛上的实验

17 世纪初,人们就开始研究眼睛的运动。1879 年,法国人路易斯·艾米·贾维尔观察到,人们的眼睛在阅读文字时,并非像之前猜想的是平滑地一行行扫射,而是每隔几个字就会有短暂的视觉停留。

于是人们很好奇:阅读时,眼睛会停留在哪些字上?停留多长时间?

为了研究这个问题,埃德蒙·休伊做出世界上第一个眼睛追踪器:一个有洞的隐形眼镜,和一个会根据眼睛活动摆动指针的铝制指示器相连。但这个追踪器因为要和眼球接触,对眼睛的干扰比较大。另一个芝加哥的家伙托马斯·巴斯维尔转换了思路,做出了一个非接触式的追踪器,他利用光束照射眼睛,通过在电影胶片上记录眼睛反射的光记录眼睛的活动轨迹。他用这个装置研究人们阅读和观看图片的行为习惯。

到了 1980 年,眼睛追踪器被用来研究和人机交互有关的问题;比如,研究人员很好奇用户如何在电脑菜单中搜索命令。最近几年,人们越来越多运用眼部追踪器研究用户如何和不同的计算机界面互动,结果往往能改变界面的设计。其他的研究包括用户如何对待下拉菜单,他们通常将注意力集中在网站的什么位置,开发人员就会知道该在哪里设计广告位。

随着眼控技术的发展,和人类对视觉生理及心理的了解,基于人类视觉系统(Human Vision System, 简称“HVS”)的凝视绘制技术也逐渐成为图形学的研究热点。这种技术通过略去不为用户感知的画面区域的图像细节来提高图像的绘制和显示效率。

在研究中,人们普遍达成的共识是,“注意力”和眼睛看在哪并不统一,前者总是比眼睛要领先大约 100-250 微秒;也就是说,人的注意力转移到新的位置 100-250 微秒后,眼睛才会跟随其后。

在技术上,眼控技术已经相当成熟,在工业控制、机器人学和临床医学领域都有应用,只是还没有应用到消费领域。它是基于角膜反射原理,通过光在用户眼睛角膜上形成高亮度反射点作为参考点,当眼球转动注视屏幕上不同位置时,由于眼球近似为球体,光斑不动,瞳孔相对光斑发生偏移,利用瞳孔中心和光斑的位置关系就能确定视线方向。目前运用最广泛的设计是以视频为基础的眼睛追踪器。一个设想镜头聚焦在一只或一双眼睛上,在观众受到某种刺激时记录它们的变动。眼控技术的核心是算法,如何让系统迅速准确地“学习”人眼睛的各种行为,这是个挑战。

EyePhone 应该翻译成“眼机”或者“目机”?似乎都不太好听。在大触屏手机广泛流行之前,有人就开始研究如何用眼睛控制手机了。

美国达特茅斯学院(Dartmouth College)就有一支眼控手机的研发团队,他们试图创造一套眼睛追踪系统,开发以眼睛来控制手机的操作方法。

让眼睛追踪系统运用到操作系统里,重要的是设计一套能够实现的软件。首先,你需要校准这个系统,在室内室外不同光线下盯着同一张图片看,让软件学习、识别你的眼睛在不同光照条件下的运动。他们在诺基亚 N810 上做了试验,设计出一个初始“眼菜单”,屏幕被分为9格,分别对应邮件、接电话、拍照片、日历、短信等不同功能。当一个人盯着某一块区域看时,某一个功能区域就被激活高亮显示,一眨眼,这个功能就被激活。

根据《麻省理工科技评论》杂志 2010 年的报道,眼控式手机的技术研发已经数年。进行这项技术开发的主要目的,是希望能让手部残疾的人克服无法使用电话的障碍。

在这项研究中,整个系统技术含量最高的部分就是自动校正系统,它需要算法优化,提高光学采集精度,实现视线跟踪,适应外部环境光强度变化,判别眼睛睁、闭状态等。带领“EyePhone”研发团队的安德鲁·坎贝尔(Andrew Campbel)教授认为,眼控式手机解放了双手,不仅仅是残疾人,每个人都能享受到它带来的极大便利。但靠眼神操作手机,比在桌上的电脑执行眼控指令更困难,因为使用者和手机都是行动中的物体,而周围环境也是变幻莫测,如何演算和辨识使用者在不同的状态下所传达的眼神收发讯号,是最难解决的问题。

在 2011 年的 Cebit 展上,联想和瑞典眼控技术公司 Tobbi 联合了一款概念笔记本,特制的长方形感应器能够追逐眼球的移动轨迹,记录数据,电脑处理器把这些数据转化为鼠标控制,整个系统并不会让眼控的过程感觉十分刻意,也不会像传统的眼控系统一样过于敏感或是过于驽钝。

Tobii 公司成立于 2001 年,是一家专门研发眼动追踪和眼动控制技术的公司。除了桌面眼动电脑,他们也在研发一款具备眼控界面的 windows 平板电脑 C12,用户可以转动眼珠来移动 C12 上的鼠标指针,而眨眼则代表点击。机器里设置了一个校准界面,允许多个用户定义眼控指令。

篇9

【关键词】灰度化 RGB HSI HSV

一、引言

彩色摄像机采集的图像一般是RGB三个颜色通道的模型,即拥有红(700nm)、绿(546.1nm)、蓝(435.8nm)三个分量,这三个分量不同比例的混合,可以得到人类视觉上几乎全部的色彩信息[1]。但由于该信息占据存储空间大小灰度化后的三倍,并且三个通道没办法按照数学方法进行一些必要的处理(比如边缘检测或者二值化),故需将RGB模型处理成为一种新的色彩通道,该模型只有一个色彩通道,可以令R=G=B,这样原本用三个通道的信息,便转化为一个叫做灰度的值,而这个值的范围同样是0~255,并且可以直观地认为,该数字表示图像上色彩的亮度。由于彩色光(RGB混合)同一波长有可能对应不同的混合颜色,所以我们又定义了色调、饱和度、明度的概念。色调用于标识颜色,如果颜色可以用单一色光和白光按照一定比例配合,则这个颜色的色调用此单一色光的波长表示,若非单色光和白光按照比例合成,则这个颜色的色调用此非单色光的补光表示[2]。饱和度用以表示颜色的纯洁程度,明度用于表示颜色的明亮程度。要提取亮度分量,需要用到HSV和HSL模式。HSV由色调、饱和度、纯度表示颜色。HSL则由色调、饱和度、亮度三个通道构成,是目前应用最多的色彩模式之一[3~4]。灰度化一般可以采取RGB分量、HSL分量、HSV分量、HSI分量等方式。

二、 灰度化原理

(一)RGB分量法:将RGB空间中的R分量、G分量或B分量提取出来称为强度信号,变为所要的图形。

(二)HSL分量法:将RGB空间按公式转换为HSL空间,然后分别提取H、S、L分量[5]。

(三)HSV分量法:将RGB空间按公式转换为HSV空间,然后分别提取H、S、L分量。

(四)HSI分量法:人的视觉系统经常采用HSI色彩空间,它比RGB色彩空间更符合人的视觉特性。在图像处理和计算机视觉中大量算法都可在HSI色彩空间中方便地使用,它们可以分开处理而且是相互独立的。因此,在HSI色彩空间可以大大简化图像分析和处理的工作量。

三、灰度化的实现

四、总结

本文介绍了几种图像灰度化的方法,并用LABVIEW编程实现了,仿真结果表明对于不同的图像应该针对图像本身采用相应的灰度化方法。

参考文献:

[1]郝建青,张仲义,陈滨.基于车辆实时跟踪的编组站综合自动化系统集成方案的研究[J].铁道学报,2000,(2):1-6.

[2]徐杰民,肖云.二维条码技术现状及发展前景[J].计算机与现代化,2004,(12):141-142.

[3]张聪,张慧.复杂背景下维条码图像的提取[J].微计算机信息,2007,23(10):302-304.

[4]霍宏涛,林小竹,何薇.数字图像处理[M].北京:北京理工大学出版社,2003.

[5]刘红霞.图像分割算法的研究与实现[D].上海:华东师范大学,2004.

作者简介:

篇10

Linear Algebra Tools for Data Mining

2012,880 p

Hardcover

ISBN9789814383493

Dan A Simovici著

随着大数据时代的到来,数据挖掘技术逐渐走向了应用的前台。从文本检索到社交关系挖掘,从计算机视觉到语音识别,从推荐系统到网络安全,众多应用领域都需要数据挖掘技术的支撑。而随着数据规模的膨胀,数据挖掘技术也面临着如何提高效率、提高可扩展性的挑战。为此科学家们提出很多解决思路,其中基于矩阵计算或线性代数的数据挖掘技术因其易于并行化且计算效率相对较高等优势而受到研究人员的青睐。而对于计算机科学或者工科计算技术的教材来说,一般只对线性代数的理论和技术进行讲解,很少能与实际应用进行结合。本书的目的就是希望弥补这一空白,把传统的线性代数内容与最新的数据挖掘技术结合在一起展示给人们。

本书分为线性代数理论部分和数据挖掘应用部分,共包含16章。线性代数部分,含第1-10章:1.通过基本代数结构的建立引入线性空间;2.矩阵的概念;3.MATLAB的基本编程;4.行列式;5.线性空间中的范式;6.内积空间;7.凸性;8.特征值;9.相似和谱;10.矩阵的SVD(奇异值分解)。第2部分讲解了线性代数在数据挖掘中的应用,含第11-16章:11.矩阵在图中的应用;12.数据采样矩阵;13.最小二乘近似和数据挖掘;14.维度约减技术;15.kMeans聚类;16.图的谱和谱聚类。

本书非常好地把线性代数和数据挖掘结合起来进行介绍,使得科研人员不仅能深化对于矩阵和线性代数理论的认识,又可以从应用中理解各种方法的作用。本书的作者Dan A Simovici教授是马萨诸塞波士顿大学计算机科学系的教授,多年来致力于将基本数学理论与数据挖掘技术相结合的教学研究工作。他目前还在撰写另一本图书《数据挖掘的数学工具(Mathematical Tools for Data Mining)》,预计2014年会由Springer出版。本书非常适合在读研究生和相关科研人员阅读。

张志斌,副研究员

(中国科学院计算技术研究所)