计算机视觉的展望范文

时间:2024-01-04 17:47:19

导语:如何才能写好一篇计算机视觉的展望,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

计算机视觉的展望

篇1

关键词:计算机视觉技术;食品工业;分级;图像处理

中图分类号: TS207 文献标识码:A

随着微型个人计算机应用的越来越广泛,以及计算机在综合学科中应用的深入研究,现如今在工农业、军事国防、医学卫生等众多领域的使用和研究方面计算机视觉技术都起到了至关重要的作用,为了节省人力、降低成本、减少误差,该项技术在食品企业、科研院所、检测机构中的应用更加普遍。如今,在农产品药物残留检测、水果重量分级、等级筛选、质量监管等方面计算机视觉技术有众多应用。

1 计算机视觉技术概述

计算机视觉技术是利用计算机、摄像机、图像卡以及相关处理技术来模拟人的视觉,用以识别、感知和认识我们生活的世界[1]。该技术是模拟识别人工智能、心理物理学、图像处理、计算机科学及神经生物学等多领域的综合学科。计算机视觉技术用摄像机模拟人眼,用计算机模拟大脑,用计算机程序和算法来模拟人对事物的认识和思考,替代人类完成程序为其设定的工作。该技术由多个相关的图像处理系统组成,主要包括光源提供系统、图像提取系统、计算机数据运算系统等。原理是:首先通过摄像机获得所需要的图像信息,然后利用信号转换将获得的图像信息转变为数字图像以便计算机正确识别[2]。随着科学技术的发展,计算机技术在各个领域得到广泛应用,计算机视觉技术不仅在代替人类视觉上取得了重大成就,而且在很多具体工作方便超越了人的视觉功能。计算机视觉计算有如此快速的发展,是因为与人类的视觉相比该技术具有以下显著优势[3]。

1.1 自动化程度高

计算机视觉可以实现对农产品的多个外形和内在品质指标进行同时检测分析,可以进行整体识别、增强对目标识别的准确性。

1.2 实现无损检测

由于计算机视觉技术对农产品的识别是通过扫描、摄像,而不需要直接接触,可以减少对所检测食品的伤害。

1.3 稳定的检测精度

设计的运行程序确定后,计算机视觉技术的识别功能就会具有统一的识别标准,具有稳定的检测精度,避免了人工识别和检测时主观因素所造成的差异。

2 计算机视觉技术在食品检测中的应用

20世纪70年代初,学者开始研究计算机视觉技术在食品工业中的应用,近几十年电子技术得到快速发展,计算机视觉技术也越来越成熟。国内外学者在研究计算机视觉技术在食品工业中的应用方面主要集中在该技术对果蔬的外部形态(如形状、重量、外观损伤、色泽等)的识别、内部无损检测等方面。国内有关计算机视觉技术在食品业中的应用研究起始于90年代,比国外发达国家晚多达20a,但是发展很快。

2.1 计算机视觉技术在果蔬分级中的应用研究

计算机视觉技术在食品检测中的应用研究相当广泛,从外部直径、成熟度的检测到内部腐烂程度的检测都有研究。韩伟等[4]采用分割水果的拍摄图像和新的计算机算法计算水果的半径,进而得出果蔬的最大直径。研究表明,该算法不仅降低了计算量而且提高了计算精度,此方法用于水果分级的误差不超过2mm,高于国际水果分级标准所规定的5mm分类标准差,可在工业生产中很好应用。李庆中[5]也利用图像的缺陷分割算法研究了计算机视觉技术在苹果检测与分级中的应用,结果表明此算法能快速、有效地分割出苹果的表面缺陷。孙洪胜等[6]以苹果色泽特征比率的变化规律为理论基础,结合模糊聚类知识利用计算机视觉技术来检测苹果缺陷域,检测不仅快速而且结果精确。刘禾等[7]通过研究认为苹果的表面缺陷可以利用计算机视觉技术进行检测,计算机视觉技术还可以将苹果按照检测结果进行分级,把检测过的苹果分成裂果、刺伤果、碰伤果和虫伤果等类别。梨的果梗是否存在是梨类分级的重要特征之一,应义斌等[8]通过计算机视觉技术、图像处理技术、傅立叶描述子的方法来描述和识别果形以及有无果柄,其识别率达到90%。杨秀坤等[9]综合运用计算机视觉技术、遗传算法、多层前馈神经网络系统,实现了具有精确度高、灵活性强和速度快等优点的苹果成熟度自动判别。陈育彦等[10]采用半导体激光技术、计算机视觉技术和图像分析技术相结合的方法检测苹果表面的机械损伤和果实内部的腐烂情况,初步验证了计算机视觉技术检测苹果表面的损伤和内部腐烂是可行的。冯斌等[11]通过计算机视觉技术对水果图像的边缘进行检测,然后确定水果的大小用以水果分级。试验表明,该方法比传统的检测方法速度快、准确率高,适用于计算机视觉的实时检测。朱伟[12]在模糊颜色的基础上,分析西红柿损伤部分和完好部分模糊颜色的差别,用分割方法对西红柿的缺陷进行分割,结果显示准确率高达96%。曹乐平等[13]人研究了温州蜜柑的果皮颜色与果实可滴定酸含量以及糖分含量之间的相关性,然而根据相关性,样品检测的正确识别率分别只有约74%和67%。刘刚等[14]从垂直和水平两个方向获取苹果的图像,并通过计算机自动分析图像数据,对苹果的外径、体积、以及圆形度等参数进行处理,与人工检测相比,计算机视觉技术具有检测效率高,检测标准统一性好等优点。Blasco. J [15]通过计算机视觉技术分析柑橘果皮的缺陷,进而对其在线分级,正确率约为95%。赵广华等[16]人综合计算机视觉识别系统、输送转换系统、输送翻转系统、差速匀果系统和分选系统,研制出一款适于实时监测、品质动态的智能分级系统,能够很好地实现苹果分级。王江枫等[17]建立了芒果重量与摄影图像的相互关系,应用计算机视觉技术检测桂香芒果和紫花芒果的重量和果面损伤,按重量分级其准确率均为92%,按果面损伤分级的准确率分别为76%和80%。

2.2 计算机视觉技术在禽蛋检测中的应用研究

禽蛋企业在生产过程中,产品的分级、品质检测主要采用人工方法,不仅需要大量的物力人力,而且存在劳动强度大、人为误差大、工作效率低等缺点,计算机视觉技术可以很好的解决这类产品工业生产中存在的困扰。欧阳静怡等[18]利用计算机视觉技术来检测鸡蛋蛋壳裂纹,利用摄像机获取鸡蛋图像后,采用fisher、同态滤波和BET算法等优化后的图像处理技术,获得裂纹形状并判断,试验结果表明,计算机视觉技术对鸡蛋蛋壳裂纹的检测准确率高达98%。汪俊德等[19]以计算机视觉技术为基础,设计出一套双黄鸡蛋检测系统。该系统获取蛋黄指数、蛋黄特征和蛋形尺寸等特征,和设计的数学模型对比来实现双黄鸡蛋的检测和识别,检测准确率高达95%。郑丽敏等[20]人通过高分辨率的数字摄像头获取鸡蛋图像,根据图像特征建立数学模型来预测鸡蛋的新鲜度和贮藏期,结果表明,计算机视觉技术对鸡蛋的新鲜度、贮藏期进行预测的结果准确率为94%。潘磊庆等[21]通过计算机视觉技术和声学响应信息技术相结合的方法检测裂纹鸡蛋,其检测准确率达到98%。Mertens K等[22]人基于计算机视觉技术研发了鸡蛋的分级检测系统,该系统识别带污渍鸡蛋的正确率高达99%。

2.3 计算机视觉技术在检测食品中微生物含量中的应用研究

计算机技术和图像处理技术在综合学科中的应用得到快速发展,在微生物快速检测中的应用也越来越多,主要是针对微生物微菌落的处理。食品工业中计算机视觉技术在微生物检测方面的研究和应用以研究单个细胞为主,并在个体细胞的研究上取得了一定的进展。殷涌光等[23]以颜色特征分辨技术为基础,设计了一套应用计算机视觉技术快速定量检测食品中大肠杆菌的系统,该系统检测结果与传统方法的检测结果具有很好的相关性,但与传统方法相比,可以节省5d时间,检测时间在18h以内,并且能够有效提高产品品质。Lawless等[24]人等时间段测定培养基上的细胞密度,然后通过计算机技术建立时间和细胞密度之间的动态关联,利用该关联可以预测和自动检测微生物的生长情况,如通过计算机控制自动定量采集检测对象,然后分析菌落的边缘形态,根据菌落的边缘形态计算机可以显示被检测菌落的具置,并且根据动态关联计算机视觉系统可以同时处理多个不同的样品。郭培源等[25]人对计算机视觉技术用于猪肉的分级进行了研究,结果显示计算机视觉技术在识别猪肉表面微生物数量上与国标方法检测的结果显著相关,该技术可以有效地计算微生物的数量。Bayraktar. B等[26]人采用计算机视觉技术、光散射技术(BARDOT)和模式识别技术相结合的方法来快速检测李斯特菌,在获取该菌菌落中的形态特征有对图像进行分析处理达到对该菌的分类识别。殷涌光等[27]人综合利用计算机视觉、活体染色、人工神经网络、图像处理等技术,用分辨率为520万像素的数字摄像机拍摄细菌内部的染色效果,并结合新的图像处理算法,对细菌形态学的8个特征参数进行检测,检测结果与传统检测结果显著相关(相关系数R=0.9987),和传统检测方法相比该方法具有操作简单、快速、结果准确、适合现场快速检测等特点。鲁静[28]和刘侃[29]利用显微镜和图像采集仪器,获取乳制品的扫描图像,然后微生物的图像特征,识别出微生物数量,并以此作为衡量乳制品质量是否达标的依据,并对产品进行分级。

2.4计算机视觉技术在其他食品产业中的应用研究

里红杰等[30]通过提取贝类和虾类等海产品的形状、尺寸、纹理、颜色等外形特征,对照数学模型,采用数字图像处理技术、计算机识别技术实现了对贝类和虾类等海产品的无损检测和自动化分类、分级和质量评估,并通过实例详细阐述了该技术的实现方法,证实了此项技术的有效性。计算机视觉技术还可以检验玉米粒形和玉米种子质量、识别玉米品种和玉米田间杂草[31]。晁德起等[32]通过x射线照射获取毛叶枣的透视图像后,运用计算机视觉技术对图像进行分析评估,毛叶枣可食率的评估结果与运用物理方法测得的结果平均误差仅为1.47%,因此得出结论:计算机视觉技术可以应用于毛叶枣的自动分级。Gokmen,V等通用对薯片制作过程中图像像素的变化来研究薯片的褐变率,通过分析特色参数来研究薯片中丙烯酰胺的含量和褐变率也关系,结果显示两项参数相关性为0.989,从而可以应用计算机视觉技术来预测加热食品中丙烯酰胺的含量,该方法可以在加热食品行业中得到广泛应用。韩仲志等人拍摄和扫描11类花生籽粒,每类100颗不同等级的花生籽粒的正反面图像,利用计算机视觉技术对花生内部和外部采集图像,并通过图像对其外在品质和内在品质进行分析,并建立相应的数学模型,该技术在对待检样品进行分级检测时的正确率高达92%。另外,郭培源等人以国家标准为依据,通过数字摄像技术获取猪肉的细菌菌斑面积、脂肪细胞数、颜色特征值以及氨气等品质指标来实现猪肉新鲜程度的分级辨认。

3 展望

新技术的研究与应用必然伴随着坎坷,从70年代初计算机视觉技术在食品工业中进行应用开始,就遇到了很多问题。计算机视觉技术在食品工业中的研究及应用主要存在以下几方面的问题。

3.1 检测指标有限

计算机视觉技术在检测食品单一指标或者以一个指标作为分级标准进行分级时具有理想效果,但以同一食品的多个指标共同作为分级标准进行检测分级,则分级结果误差较大。例如,Davenel等通过计算机视觉对苹果的大小、重量、外观损伤进行分析,但研究结果显示,系统会把花粤和果梗标记为缺陷,还由于苹果表面碰压伤等缺陷情况复杂,造成分级误差很大,分级正确率只有69%。Nozer等以计算机视觉为主要技术手段,获取水果的图像,进而通过分析图像来确定水果的形状、大小、颜色和重量,并进行分级,其正确率仅为85.1%。

3.2 兼容性差

计算机视觉技术针对单一种类的果蔬分级检测效果显著,但是同一套系统和设备很难用于其他种类的果蔬,甚至同一种类不同品种的农产品也很难公用一套计算机视觉设备。Reyerzwiggelaar等利用计算机视觉检查杏和桃的损伤程度,发现其检测桃子的准确率显著高于杏的。Majumdar.S等利用计算机视觉技术区分不同种类的麦粒,小麦、燕麦、大麦的识别正确率有明显差异。

3.3 检测性能受环境制约

现阶段的计算机视觉技术和配套的数学模型适用于简单的环境,在复杂环境下工作时会产生较大的误差。Plebe等利用计算机视觉技术对果树上的水果进行识别定位,但研究发现由于光照条件以及周边环境的影响,水果的识别和定位精度不高,不能满足实际生产的需要。

综上所述,可看出国内外学者对计算机视觉技术在食品工业中的应用进行了大量的研究,有些研究从单一方面入手,有些研究综合了多个学科,在研究和应用的过程中,取得了较大的经济效益,也遇到了很多问题,在新的形势下,计算机视觉技术和数码拍摄、图像处理、人工神经网络,数学模型建设、微生物快速计量等高新技术相融合的综合技术逐渐成为了各个领域学者的研究热点,以计算机视觉为基础的综合技术也将在食品工业中发挥更加重要的作用。

参考文献

[1] 宁纪锋,龙满生,何东健.农业领域中的计算机视觉研究[J].计算机与农业,2001(01):1-3.

[2] 李峥.基于计算机视觉的蔬菜颜色检测系统研究[D].吉林:吉林大学,2004.

[3] 曾爱群.基于计算机视觉与神经网络的芒果等级分类研究[D].桂林:桂林工学院,2008.

[4] 韩伟,曾庆山.基于计算机视觉的水果直径检测方法的研究[J].中国农机化,2011(05):25-29.

[5] 李庆中.苹果自动分级中计算机视觉信息快速获取与处理技术的研究[D].北京:中国农业大学,2000.

[6] 孙洪胜,李宇鹏,王成,等.基于计算机视觉的苹果在线高效检测与分级系统[J].仪表技术与传感器,2011(06):62-65.

[7] 刘禾,汀慰华.水果果形判别人工神经网络专家系统的研究[J].农业工程学报,1996,12(0l):171-176.

[8] 应义斌,景寒松,马俊福.用计算机视觉进行黄花梨果梗识别的新方法[J].农业工程学报,1998,14(02):221-225.

[9] 杨秀坤,陈晓光,马成林,等.用遗传神经网络方法进行苹果颜色白动检测的研究[J].农业工程学报,1997,13(02):193-176.

[10] 陈育彦,屠康,柴丽月,等.基于激光图像分析的苹果表面损伤和内部腐烂检测[J].农业机械学报,2009,40(07):133-137.

[11] 冯斌,汪憋华.基于计算机视觉的水果大小检测方法[J].农业机械学报,2003,34(01):73-75.

[12] 朱伟,曹其新.基于模糊彩色聚类方法的西红柿缺陷分割[J].农业工程学报,2003,19(03):133-136.

[13] 曹乐平,温芝元,沈陆明.基于色调分形维数的柑橘糖度和有效酸度检测[J].农业机械学报,2009,41(03):143-148.

[14] 刘刚,王立香,柳兆君.基于计算机视觉的苹果质量检测[J].安徽农业科学,2012,40(08):5014-5016.

[15] Blasco J,Aleixos N,Molto puter vision detection of peel defects in citrus by means of a region oriented segmentation algorithm[J].Journal of Food Engineering,2007,81(03):535-543.

[16] 赵广华,飞,陆奎荣,等.智能化苹果品质实时分选系统[J].中国科技信息.

[17] 王江枫,罗锡文,洪添胜,等.计算机视觉技术在芒果重量及果面坏损检测中的应用[J].农业工程学报,1998(12):186-189.

[18] 欧阳静怡,刘木华.基于计算机视觉的鸡蛋裂纹检测方法研究[J].农机化研究,2012(03):91-93.

[19] 汪俊德,郑丽敏,徐桂云,等.基于计算机视觉技术的双黄鸡蛋检测系统研究[J].农机化研究,2012(09):195-199.

[20] 郑丽敏,杨旭,徐桂云,等.基于计算机视觉的鸡蛋新鲜度无损检测[J].农业工程学报,2009,25(03):335-339.

[21] 潘磊庆,屠康,詹歌,等.基于计算机视觉和声学响应信息融合的鸡蛋裂纹检测[J].农业工程学报,2010,26(11):332-337.

[22] Mertens K,De Ketelaere B,Kamers B,et al.Dirt detection on brown eggs by means of colorcomputer vision[J]. Poultry Science,2005,84(10):1653-1659.

[23] 殷涌光,丁筠.基于计算机视觉的食品中大肠杆菌快速定量检测[J].吉林大学学报(工学版),2009,39(02):344-348.

[24] Lawless C,Wilkinson DJ,Young A,et al.Colonyzer: automated quantification of micro-organism growth characteristics on solid agar[J].BMC Bioinformatics,2010(08):38-44.

[25] 郭培源,毕松,袁芳.猪肉新鲜度智能检测分级系统研究[J].食品科学,2010,31(15):68-72.

[26] Bayraktar B,Banada PP,Hirleman ED,et al.Feature extraction from light-scatter patterns of Listeria colonies for identification and classification [J].Journal of Biomedical Optics,2006,11(03):34- 36.

[27] 殷涌光,丁筠.基于计算机视觉的蔬菜中活菌总数的快速检测[J].农业工程学报,2009,25(07):249-254.

[28] 鲁静.乳品微生物自动检测系统的设计[J].湖北第二师范学院学报,2010,27(08):115-117.

[29] 刘侃.鲜奶含菌量快速检测系统[D].华中科技大学,2008.

[30] 里红杰,陶学恒,于晓强.计算机视觉技术在海产品质量评估中的应用[J].食品与机械,2012,28(04):154-156.

篇2

关键词:数据融合传感器无损检测精确林业应用

多传感器融合系统由于具有较高的可靠性和鲁棒性,较宽的时间和空间的观测范围,较强的数据可信度和分辨能力,已广泛应用于军事、工业、农业、航天、交通管制、机器人、海洋监视和管理、目标跟踪和惯性导航等领域[1,2]。笔者在分析数据融合技术概念和内容的基础上,对该技术在林业工程中的应用及前景进行了综述。

1数据融合

1.1概念的提出

1973年,数据融合技术在美国国防部资助开发的声纳信号理解系统中得到了最早的体现。70年代末,在公开的技术文献中开始出现基于多系统的信息整合意义的融合技术。1984年美国国防部数据融合小组(DFS)定义数据融合为:“对多源的数据和信息进行多方的关联、相关和综合处理,以更好地进行定位与估计,并完全能对态势及带来的威胁进行实时评估”。

1998年1月,Buchroithner和Wald重新定义了数据融合:“数据融合是一种规范框架,这个框架里人们阐明如何使用特定的手段和工具来整合来自不同渠道的数据,以获得实际需要的信息”。

Wald定义的数据融合的概念原理中,强调以质量作为数据融合的明确目标,这正是很多关于数据融合的文献中忽略但又是非常重要的方面。这里的“质量”指经过数据融合后获得的信息对用户而言较融合前具有更高的满意度,如可改善分类精度,获得更有效、更相关的信息,甚至可更好地用于开发项目的资金、人力资源等[3]。

1.2基本内容

信息融合是生物系统所具备的一个基本功能,人类本能地将各感官获得的信息与先验知识进行综合,对周围环境和发生的事件做出估计和判断。当运用各种现代信息处理方法,通过计算机实现这一功能时,就形成了数据融合技术。

数据融合就是充分利用多传感器资源,通过对这些多传感器及观测信息的合理支配和使用,把多传感器在空间或时间上的冗余或互补信息依据某些准则进行组合,以获得被测对象的一致性解释或描述。数据融合的内容主要包括:

(1)数据关联。确定来自多传感器的数据反映的是否是同源目标。

(2)多传感器ID/轨迹估计。假设多传感器的报告反映的是同源目标,对这些数据进行综合,改进对该目标的估计,或对整个当前或未来情况的估计。

(3)采集管理。给定传感器环境的一种认识状态,通过分配多个信息捕获和处理源,最大限度地发挥其性能,从而使其操作成本降到最低。传感器的数据融合功能主要包括多传感器的目标探测、数据关联、跟踪与识别、情况评估和预测[4]。

根据融合系统所处理的信息层次,目前常将信息融合系统划分为3个层次:

(l)数据层融合。直接将各传感器的原始数据进行关联后,送入融合中心,完成对被测对象的综合评价。其优点是保持了尽可能多的原始信号信息,但是该种融合处理的信息量大、速度慢、实时性差,通常只用于数据之间配准精度较高的图像处理。

(2)特征层融合。从原始数据中提取特征,进行数据关联和归一化等处理后,送入融合中心进行分析与综合,完成对被测对象的综合评价。这种融合既保留了足够数量的原始信息,又实现了一定的数据压缩,有利于实时处理,而且由于在特征提取方面有许多成果可以借鉴,所以特征层融合是目前应用较多的一种技术。但是该技术在复杂环境中的稳健性和系统的容错性与可靠性有待进一步改善。

(3)决策层融合。首先每一传感器分别独立地完成特征提取和决策等任务,然后进行关联,再送入融合中心处理。这种方法的实质是根据一定的准则和每个决策的可信度做出最优的决策。其优点是数据通讯量小、实时性好,可以处理非同步信息,能有效地融合不同类型的信息。而且在一个或几个传感器失效时,系统仍能继续工作,具有良好的容错性,系统可靠性高,因此是目前信息融合研究的一个热点。但是这种技术也有不足,如原始信息的损失、被测对象的时变特征、先验知识的获取困难,以及知识库的巨量特性等[5,6]。

1.3处理模型

美国数据融合工作小组提出的数据融合处理模型[7],当时仅应用于军事方面,但该模型对人们理解数据融合的基本概念有重要意义。模型每个模块的基本功能如下:

数据源。包括传感器及其相关数据(数据库和人的先验知识等)。

源数据预处理。进行数据的预筛选和数据分配,以减轻融合中心的计算负担,有时需要为融合中心提供最重要的数据。目标评估。融合目标的位置、速度、身份等参数,以达到对这些参数的精确表达。主要包括数据配准、跟踪和数据关联、辨识。

态势评估。根据当前的环境推断出检测目标与事件之间的关系,以判断检测目标的意图。威胁评估。结合当前的态势判断对方的威胁程度和敌我双方的攻击能力等,这一过程应同时考虑当前的政治环境和对敌策略等因素,所以较为困难。

处理过程评估。监视系统的性能,辨识改善性能所需的数据,进行传感器资源的合理配置。人机接口。提供人与计算机间的交互功能,如人工操作员的指导和评价、多媒体功能等。

2多传感器在林业中的应用

2.1在森林防火中的应用

在用MODIS(ModerateResolutionImagingSpectroradiometer)数据测定森林火点时的20、22、23波段的传感器辐射值已达饱和状态,用一般图像增强处理方法探测燃烧区火点的结果不理想。余启刚运用数据融合技术,在空间分辨率为1000m的热辐射通道的数据外加入空间分辨率为250m的可见光通道的数据,较好地进行了不同空间分辨率信息的数据融合,大大提高了对火点位置的判断准确度[8]。为进一步提高卫星光谱图像数据分析的准确性与可靠性,利用原有森林防火用的林区红外探测器网,将其与卫星光谱图像数据融合,可以使计算机获得GPS接收机输出的有关信息通过与RS实现高效互补性融合,从而弥补卫星图谱不理想的缺失区数据信息,大大提高燃烧区火点信息准确度和敏感性。

2.2森林蓄积特征的估计

HampusHolmstrom等在瑞典南部的试验区将SPOT-4×S卫星数据和CARABAS-IIVHFSAR传感器的雷达数据进行了融合,采用KNN(knearestneighbor)方法对森林的蓄积特征(林分蓄积、树种组成与年龄)进行了估计[9]。

KNN方法就是采用目标样地邻近k个(k=10)最近样地的加权来估计目标样地的森林特征。研究者应用卫星光谱数据、雷达数据融合技术对试验区的不同林分的蓄积特征进行估计,并对三种不同的数据方法进行误差分析。试验表明,融合后的数据作出的估计比单一的卫星数据或雷达数据的精度高且稳定性好。

2.3用非垂直航空摄像数据融合GIS信息更新调查数据

森林资源调查是掌握森林资源现状与变化的调查方法,一般以地面调查的方法为主,我国5年复查一次。由于森林资源调查的工作量巨大,且要花费大量的人力、物力和资金。国内外许多学者都在探索航空、航天的遥感调查与估计方法。

TrevorJDavis等2002年提出采用非垂直的航空摄影数据融合对应的GIS数据信息实现森林调查数据的快速更新,认为对森林资源整体而言,仅某些特殊地区的资源数据需要更新。在直升飞机侧面装上可视的数字摄像装置,利用GPS对测点进行定位,对特殊地区的摄像进行拍摄,同时与对应的GIS数据进行融合,做出资源变化的估计或影像的修正[10]。

试验表明,融合后的数据可以同高分辨率矫正图像相比,该方法花费少,精度高,能充分利用影像的可视性,应用于偏远、地形复杂、不易操作、成本高的区域,同时可避免遥感图像受云层遮盖。

3数据融合在林业中的应用展望

3.1在木材检测中的应用

3.1.1木材缺陷及其影响

木材是天然生长的有机体,生长过程中不可避免地有尖削度、弯曲度、节子等生长缺陷,这些缺陷极大地影响了木材及其制品的优良特性,以及木材的使用率、强度、外观质量,并限制了其应用领域。在传统木制品生产过程中,主要依靠人的肉眼来识别木材缺陷,而木材板材表面缺陷在大小、形状和色泽上都有较大的差异,且受木材纹理的影响,识别起来非常困难,劳动强度大,效率低,同时由于熟练程度、标准掌握等人为因素,可能造成较大的误差。另外在集成材加工中,板材缺陷的非双面识别严重影响了生产线的生产节拍。因此必须开发一种能够对板材双面缺陷进行在线识别和自动剔除技术,以解决集成材加工中节子人工识别误差大、难以实现双面识别、剔除机械调整时间长等问题。

3.1.2单一传感器在木材检测中的应用

对木材及人造板进行无损检测的方法很多,如超声波、微波、射线、机械应力、震动、冲击应力波、快速傅立叶变换分析等检测方法[11,12]。超声技术在木材工业中的应用研究主要集中在研究声波与木材种类、木材结构和性能之间的关系、木材结构及缺陷分析、胶的固化过程分析等[13]。

随着计算机视觉技术的发展,人们也将视觉传感器应用于木材检测中。新西兰科学家用视频传感器研究和测量了纸浆中的纤维横切面的宽度、厚度、壁面积、壁厚度、腔比率、壁比率等,同时准确地测量单个纤维和全部纤维的几何尺寸及其变化趋势,能够区分不同纸浆类型,测定木材纤维材料加固结合力,并动态地观察木材纤维在材料中的结合机理。

新西兰的基于视觉传感器的板材缺陷识别的软件已经产业化,该软件利用数码相机或激光扫描仪采集板材的图像,自动识别板材节子和缺陷的位置,控制板材的加工。该软件还具有进行原木三维模型真实再现的计算机视觉识别功能,利用激光扫描仪自动采集原木的三维几何数据。

美国林产品实验室利用计算机视觉技术对木材刨花的尺寸大小进行分级,确定各种刨花在板中的比例和刨花的排列方向;日本京都大学基于视觉传感器进行了定向刨花板内刨花定向程度的检测,从而可以通过调整定向铺装设备优化刨花的排列方向来提高定向刨花板的强度。

在制材加工过程中,利用计算机视觉技术在线实时检测原木的形状及尺寸,选择最佳下锯方法,提高原木的出材率。同时可对锯材的质量进行分级,实现木材的优化使用;在胶合板的生产过程中,利用计算机视觉技术在线实时检测单板上的各种缺陷,实现单板的智能和自动剪切,并可测量在剪切过程中的单板破损率,对单板进行分等分级,实现自动化生产过程。Wengert等在综合了大量的板材分类经验的基础上,建立了板材分级分类的计算机视觉专家系统。在国内这方面的研究较少,王金满等用计算机视觉技术对刨花板施胶效果进行了定量分析[14]。

X射线对木材及木质复合材料的性能检测已得到了广泛的应用,目前该技术主要应用于对木材密度、含水率、纤维素相对结晶度和结晶区大小、纤维的化学结构和性质等进行检测,并对木材内部的各种缺陷进行检测。

3.1.3数据融合在木材检测中的应用展望

单一传感器在木材工业中已得到了一定程度的应用,但各种单项技术在应用上存在一定的局限性。如视觉传感器不能检测到有些与木材具有相同颜色的节子,有时会把木板上的脏物或油脂当成节子,造成误判,有时也会受到木材的种类或粗糙度和湿度的影响,此外,这种技术只能检测部分表面缺陷,而无法检测到内部缺陷;超声、微波、核磁共振和X射线技术均能测量密度及内部特征,但是它们不能测定木材的颜色和瑕疵,因为这些缺陷的密度往往同木板相同。因此,一个理想的检测系统应该集成各种传感技术,才能准确、可靠地检测到木材的缺陷[15,16]。

基于多传感器(机器视觉及X射线等)数据融合技术的木材及木制品表面缺陷检测,可以集成多个传统单项技术,更可靠、准确地实时检测出木材表面的各种缺陷,为实现木材分级自动化、智能化奠定基础,同时为集裁除锯、自动调整、自动裁除节子等为一身的新型视频识别集成材双面节子数控自动剔除成套设备提供技术支持。

3.2在精确林业中的应用

美国华盛顿大学研究人员开展了树形自动分析、林业作业规划等研究工作;Auburn大学的生物系统工程系和USDA南方林业实验站与有关公司合作开展用GPS和其他传感器研究林业机器系统的性能和生产效率。

目前单项的GPS、RS、GIS正从“自动化孤岛”形式应用于林业生产向集成技术转变。林业生产系统作为一个多组分的复杂系统,是由能量流动、物质循环、信息流动所推动的具有一定的结构和功能的复合体,各组分间的关系和结合方式影响系统整体的结构和功能。因此应该在计算机集成系统框架下,有效地融合GPS、GIS、RS等数据,解决这些信息在空间和时间上的质的差异及空间数据类型的多样性,如地理统计数据、栅格数据、点数据等。利用智能DSS(决策支持系统)以及VRT(可变量技术)等,使林业生产成为一个高效、柔性和开放的体系,从而实现林业生产的标准化、规范化、开放性,建立基于信息流融合的精确林业系统。

南京林业大学提出了“精确林业工程系统”[17]。研究包括精确林业工程系统的领域体系结构、随时空变化的数据采集处理与融合技术、精确控制林业生产的智能决策支持系统、可变量控制技术等,实现基于自然界生物及其所赖以生存的环境资源的时空变异性的客观现实,以最小资源投入、最小环境危害和最大产出效益为目标,建立关于林业管理系统战略思想的精确林业微观管理系统。

[参考文献]

[1]高翔,王勇.数据融合技术综述[J].计算机控制与测量,2002,10(11):706-709.

[2]龚元明,萧德云,王俊杰.多传感器数据融合技术(上)[J].冶金自动化,2002(4):4-7.

[3]钱永兰,杨邦杰,雷廷武.数据融合及其在农情遥感监测中的应用与展望[J].农业工程学报,2004,20(4):286-290.

[4]高德平,黄雪梅.多传感器和数据融合(一)[J].红外与激光工程,1999,28(1):1-4.

[5]王耀南,李树涛.多传感器信息融合及其应用综述[J].控制与决策,2001,16(5):518-52.

[6]许军,罗飞路,张耀辉.多传感器信息融合技术在无损检测中的应用研究[J].无损检测,2000,22(8):342-344.

[7]WhiteFE.Datafusionlexicon:DatafusionsubpanelofthejointdirectorsoflaboratoriestechnicalpanelforC3[R].SanDiego,1991.

[8]余启刚.数据融合技术在“3S”森林防火中的应用[J].森林工程,2003,19(4):5-6.

[9]HampusHolmstrom,biningremotelysensedopticalandradardatainKNN-estimationofforest[J].ForestScience,2003,49(3):409-418.

[10]TrevorJDavis,BrianKlinkenberg,PeterKellerC.Updatinginventory:Usingobliquevideogrammetry&datafusion[J].JournalofForestry,2002,100(2):45-50.

[11]杨春梅,胡万义,白帆,等.木材缺陷检测理论及方法的发展[J].林业机械与木工设备,2004,32(3):8-10.

[12]胡英成,顾继友,王逢瑚.木材及人造板物理力学性能无损检测技术研究的发展与展望[J].世界林业研究,2002,15(4):39-46.

[13]肖忠平,卢晓宁,陆继圣.木质材料X射线与超声检测技术研究的发展与展望[J].木材加工机械,2004,15(1):25-27.

[14]王金满,周秀荣.刨花板施胶效果计算机视觉分析方法[J].东北林业大学学报,1994,22(3):25-26.

[15]KlinkhachornP.Prototypinganautomatedlumberprocessingsystem[J].ForestProductsJournal,1993(2):11-18.

篇3

一、数据融合

1.1概念的提出

1973年,数据融合技术在美国国防部资助开发的声纳信号理解系统中得到了最早的体现。

7年代末,在公开的技术文献中开始出现基于多系统的整合意义的融合技术。1984年美国国防部数据融合小组(dfs)定义数据融合为:“对多源的数据和信息进行多方的关联、相关和综合处理,以更好地进行定位与估计,并完全能对态势及带来的威胁进行实时评估”。

1998年1月,buchroithner和wald重新定义了数据融合:“数据融合是一种规范框架,这个框架里人们阐明如何使用特定的手段和工具来整合来自不同渠道的数据,以获得实际需要的信息”。

wald定义的数据融合的概念原理中,强调以质量作为数据融合的明确目标,这正是很多关于数据融合的文献中忽略但又是非常重要的方面。这里的“质量”指经过数据融合后获得的信息对用户而言较融合前具有更高的满意度,如可改善分类精度,获得更有效、更相关的信息,甚至可更好地用于开发项目的资金、人力资源等。

1.2基本内容

信息融合是系统所具备的一个基本功能,人类本能地将各感官获得的信息与先验知识进行综合,对周围环境和发生的事件做出估计和判断。当运用各种现代信息处理方法,通过计算机实现这一功能时,就形成了数据融合技术。

数据融合就是充分利用多传感器资源,通过对这些多传感器及观测信息的合理支配和使用,把多传感器在空间或时间上的冗余或互补信息依据某些准则进行组合,以获得被测对象的一致性解释或描述。数据融合的内容主要包括:

(1)数据关联。确定来自多传感器的数据反映的是否是同源目标。

(2)多传感器id/轨迹估计。假设多传感器的报告反映的是同源目标,对这些数据进行综合,改进对该目标的估计,或对整个当前或未来情况的估计。

(3)采集管理。给定传感器环境的一种认识状态,通过分配多个信息捕获和处理源,最大限度地发挥其性能,从而使其操作成本降到最低。传感器的数据融合功能主要包括多传感器的目标探测、数据关联、跟踪与识别、情况评估和预测。

根据融合系统所处理的信息层次,目前常将信息融合系统划分为3个层次:

(l)数据层融合。直接将各传感器的原始数据进行关联后,送入融合中心,完成对被测对象的综合评价。其优点是保持了尽可能多的原始信号信息,但是该种融合处理的信息量大、速度慢、实时性差,通常只用于数据之间配准精度较高的图像处理。

(2)特征层融合。从原始数据中提取特征,进行数据关联和归一化等处理后,送入融合中心进行分析与综合,完成对被测对象的综合评价。这种融合既保留了足够数量的原始信息,又实现了一定的数据压缩,有利于实时处理,而且由于在特征提取方面有许多成果可以借鉴,所以特征层融合是目前应用较多的一种技术。但是该技术在复杂环境中的稳健性和系统的容错性与可靠性有待进一步改善。

(3)决策层融合。首先

每一传感器分别独立地完成特征提取和决策等任务,然后进行关联,再送入融合中心处理。这种方法的实质是根据一定的准则和每个决策的可信度做出最优的决策。其优点是数据通讯量小、实时性好,可以处理非同步信息,能有效地融合不同类型的信息。而且在一个或几个传感器失效时,系统仍能继续工作,具有良好的容错性,系统可靠性高,因此是目前信息融合研究的一个热点。但是这种技术也有不足,如原始信息的损失、被测对象的时变特征、先验知识的获取困难,以及知识库的巨量特性等。

1.3处理模型

美国数据融合工作小组提出的数据融合处理模型,当时仅应用于军事方面,但该模型对人们理解数据融合的基本概念有重要意义。模型每个模块的基本功能如下:

数据源。包括传感器及其相关数据(数据库和人的先验知识等)。

源数据预处理。进行数据的预筛选和数据分配,以减轻融合中心的计算负担,有时需要为融合中心提供最重要的数据。目标评估。融合目标的位置、速度、身份等参数,以达到对这些参数的精确表达。主要包括数据配准、跟踪和数据关联、辨识。

态势评估。根据当前的环境推断出检测目标与事件之间的关系,以判断检测目标的意图。威胁评估。结合当前的态势判断对方的威胁程度和敌我双方的攻击能力等,这一过程应同时考虑当前的环境和对敌策略等因素,所以较为困难。

处理过程评估。监视系统的性能,辨识改善性能所需的数据,进行传感器资源的合理配置。人机接口。提供人与计算机间的交互功能,如人工操作员的指导和评价、多媒体功能等。

二、多传感器在林业中的应用

2.1在森林防火中的应用

在用modis(moderateresolutionimagingspectroradiometer)数据测定森林火点时的2、22、23波段的传感器辐射值已达饱和状态,用一般图像增强处理方法探测燃烧区火点的结果不理想。余启刚运用数据融合技术,在空间分辨率为1m的热辐射通道的数据外加入空间分辨率为25m的可见光通道的数据,较好地进行了不同空间分辨率信息的数据融合,大大提高了对火点位置的判断准确度。为进一步提高卫星光谱图像数据分析的准确性与可靠性,利用原有森林防火用的林区红外探测器网,将其与卫星光谱图像数据融合,可以使计算机获得gps接收机输出的有关信息通过与rs实现高效互补性融合,从而弥补卫星图谱不理想的缺失区数据信息,大大提高燃烧区火点信息准确度和敏感性。

2.2森林蓄积特征的估计

hampusholmstrom等在瑞典南部的试验区将spot-4×s卫星数据和carabas-iivhfsar传感器的雷达数据进行了融合,采用knn(knearestneighbor)方法对森林的蓄积特征(林分蓄积、树种组成与年龄)进行了估计。

knn方法就是采用目标样地邻近k个(k=1)最近样地的加权来估计目标样地的森林特征。研究者应用卫星光谱数据、雷达数据融合技术对试验区的不同林分的蓄积特征进行估计,并对三种不同的数据方法进行误差分析。试验表明,融合后的数据作出的估计比单一的卫星数据或雷达数据的精度高且稳定性好。

2.3用非垂直航空摄像数据融合gis信息更新调查数据

森林资源调查是掌握森林资源现状与变化的调查方法,一般以地面调查的方法为主,我国5年复查一次。由于森

林资源调查的工作量巨大,且要花费大量的人力、物力和资金。国内外许多学者都在探索航空、航天的遥感调查与估计方法。 trevorjdavis等22年提出采用非垂直的航空摄影数据融合对应的gis数据信息实现森林调查数据

的快速更新,认为对森林资源整体而言,仅某些特殊地区的资源数据需要更新。在直升飞机侧面装上可视的数字摄像装置,利用gps对测点进行定位,对特殊地区的摄像进行拍摄,同时与对应的gis数据进行融合,做出资源变化的估计或影像的修正。

试验表明,融合后的数据可以同高分辨率矫正图像相比,该方法花费少,精度高,能充分利用影像的可视性,应用于偏远、地形复杂、不易操作、成本高的区域,同时可避免遥感图像受云层遮盖。

三、数据融合在林业中的应用展望

3.1在木材检测中的应用

3.1.1木材缺陷及其影响

木材是天然生长的有机体,生长过程中不可避免地有尖削度、弯曲度、节子等生长缺陷,这些缺陷极大地影响了木材及其制品的优良特性,以及木材的使用率、强度、外观质量,并限制了其应用领域。在传统木制品生产过程中,主要依靠人的肉眼来识别木材缺陷,而木材板材表面缺陷在大小、形状和色泽上都有较大的差异,且受木材纹理的影响,识别起来非常困难,劳动强度大,效率低,同时由于熟练程度、标准掌握等人为因素,可能造成较大的误差。另外在集成材加工中,板材缺陷的非双面识别严重影响了生产线的生产节拍。因此必须开发一种能够对板材双面缺陷进行在线识别和自动剔除技术,以解决集成材加工中节子人工识别误差大、难以实现双面识别、剔除机械调整时间长等问题。

3.1.2单一传感器在木材检测中的应用

对木材及人造板进行无损检测的方法很多,如超声波、微波、射线、机械应力、震动、冲击应力波、快速傅立叶变换分析等检测方法。超声技术在木材工业中的应用研究主要集中在研究声波与木材种类、木材结构和性能之间的关系、木材结构及缺陷分析、胶的固化过程分析等。

随着计算机视觉技术的发展,人们也将视觉传感器应用于木材检测中。新西兰科学家用视频传感器研究和测量了纸浆中的纤维横切面的宽度、厚度、壁面积、壁厚度、腔比率、壁比率等,同时准确地测量单个纤维和全部纤维的几何尺寸及其变化趋势,能够区分不同纸浆类型,测定木材纤维材料加固结合力,并动态地观察木材纤维在材料中的结合机理。

新西兰的基于视觉传感器的板材缺陷识别的软件已经产业化,该软件利用数码相机或激光扫描仪采集板材的图像,自动识别板材节子和缺陷的位置,控制板材的加工。该软件还具有进行原木三维模型真实再现的计算机视觉识别功能,利用激光扫描仪自动采集原木的三维几何数据。

美国林产品实验室利用计算机视觉技术对木材刨花的尺寸大小进行分级,确定各种刨花在板中的比例和刨花的排列方向;日本京都大学基于视觉传感器进行了定向刨花板内刨花定向程度的检测,从而可以通过调整定向铺装设备优化刨花的排列方向来提高定向刨花板的强度。

在制材加工过程中,利用计算机视觉技术在线实时检测原木的形状及尺寸,选择最佳下锯方法,提高原木的出材率。同时可对锯材的质量进行分级,实现木材的优化使用;在胶合板的生产过程中,利用计算机视觉技术在线实时检测单板上的各种缺陷,实现单板的智能和自动剪切,并可测量在剪切过程中的单板破损率,对单板进行分等分级,实现自动化生产过程。wengert等在综合了大量的板材分类经验的基础上,建立了板材分级分类的计算机视觉专家系统。在国内这方面的研究较少,王金满等用计算机视觉技术对刨花板施胶效果进行了定量分析。

x射线对木材及木质复合材料的性能检测已得到了广泛的应用,目前该技术主要应用于对木材密度、含水率、纤维素相对结晶度和结晶区大小、纤维的结构和性质等进行检测,并对木材内部的各种缺陷进行检测。

3.1.3数据融合在木材检测中的应用展望

单一传感器在木材工业中已得到了一定程度的应用,但各种单项技术在应用上存在一定的局限性。如视觉传感器不能检测到有些与木材具有相同颜色的节子,有时会把木板上的脏物或油脂当成节子,

造成误判,有时也会受到木材的种类或粗糙度和湿度的影响,此外,这种技术只能检测部分表面缺陷,而无法检测到内部缺陷;超声、微波、核磁共振和x射线技术均能测量密度及内部特征,但是它们不能测定木材的颜色和瑕疵,因为这些缺陷的密度往往同木板相同。因此,一个理想的检测系统应该集成各种传感技术,才能准确、可靠地检测到木材的缺陷。

基于多传感器(机器视觉及x射线等)数据融合技术的木材及木制品表面缺陷检测,可以集成多个传统单项技术,更可靠、准确地实时检测出木材表面的各种缺陷,为实现木材分级自动化、智能化奠定基础,同时为集裁除锯、自动调整、自动裁除节子等为一身的新型视频识别集成材双面节子数控自动剔除成套设备提供技术支持。

3.2在精确林业中的应用

美国华盛顿大学研究人员开展了树形自动分析、林业作业规划等研究工作;auburn大学的生物系统工程系和usda南方林业实验站与有关公司合作开展用gps和其他传感器研究林业机器系统的性能和生产效率。

篇4

【关键词】:电力系统;新技术应用;未来展望

1、新技术在电力系统自动化中的应用

通过上文对电力系统的解读可知,该系统是一个规模比较庞大的系统,其中涵盖了诸多的电力设备设施,想要实现对这些设备的自动化控制,就必须对相关的技术加以运用。下面本文重点分析几种新技术在电力系统自动化中的应用。

1.1智能控制技术的应用

自电力系统自动化这一概念被提出之后,电力系统自动化与新技术应用文/周观春柴宇冯浩铭文章首先对电力系统自动化进行了解读,在此基础上对几种新技术在电力系统自动化中的应用进行论述。期望通过本文的研究能够对确保电力系统的安全、稳定、可靠、经济运行有所帮助。摘要智能控制技术便成为其研究的一个重要领域,相对于传统的人工控制方式而言,智能控制更具优越性,将之应用于复杂程度高、非线性较强的电力系统当中,可以_保系统的安全、稳定、可靠、经济运行。智能控制技术的核心是计算机,所有的控制功能都是凭借相关的软件程序来实现的,借助这些控制功能可对电力系统运行过程中产生的状态数据进行实时监测和自动分析与处理,并从中找出电力系统运行时存在的问题,然后参考数据库中的故障处理指令,自动对故障问题进行解决处理,再利用通信网络将处理指令下发至电力系统的设备当中,从而实现对系统的调整,由此便可确保系统始终处于相对稳定的运行状态。

1.2计算机视觉技术的应用

该技术是一门综合性较强的学科,主要包括计算机、信号处理、物理学等等,它是各种智能系统不可或缺的重要组成部分之一,应用该技术可对电力系统进行有效的监测。随着业内专家学者对该技术的研究不断深入,出现了诸多新的技术,其中较具代表性的有以下几类:在线监测技术、环境监测技术、无人机监测技术等等,这些技术能够通过各种不同的方式获取电力系统的状态信息。

1.3动态安全监控系统的应用

随着社会生产生活对供电稳定性的要求不断提高,电力系统有必要应用动态安全监控系统,减少供电故障,保障电力系统可靠运行,满足供电需求。在动态安全监控系统中,要引入GPS和EMS技术,通过全面检测电气设备,实时掌握电气设备的运行情况,可及时发现并处理故障隐患,做到防患于未然,从而大幅度降低事故发生的可能性。基于GPS定位技术的动态安全监控系统,可通过卫星提供所需数据,加之EMS系统可对整个电力系统进行实时监控,从而实现了动态监控与静态监控相结合,从多个方向入手对电力系统运行进行综合分析,若发现电力系统存在不稳定运行的因素,则可及时提出补救措施。

1.4 DFACTS技术

FACTS技术和DFACTS技术是应用于电力系统的新技术,其中FACTS技术即柔流输电,能够对电力系统的相关参数进行及时调控,保证电压维持在稳定状况,从而提高电力系统的可靠性。DFACTS技术则可有效解决电力系统的各类质量问题,有效管控电力系统运行质量,保障电气设备始终处于良好运行状态,减少不利因素对电气设备的干扰和损害,从而促使电力系统运行的自动化水平大幅度提升。

1.5微机保护技术

电力系统应用微机保护技术,能够在发生故障时自动启动保护措施,减少电力系统受到的损害。随着电力系统对微机保护技术的应用要求不断提高,微机保护技术必须及时更新。当前,在电力系统中常用基于C/C++语言的微机设备,该微机设备具备良好的可移植性和灵活性,能够满足电力系统保护的多种需求。

2、电力系统新技术发展的未来展望

2.1电力系统将向着自动化和智能化的方向迈进

目前,电力系统的整体发展趋势是向着自动化和智能化的方向发展,其智能控制手段将由研究逐渐走向实用,通过对计算机技术的不断学习,将能够帮助电力工作者找到新的发展电力的道路和方向,也能够使得一些系统达到新的发展高度。计算机技术、控制技术和现代通信技术将会对电能的产生、控制、传输等各个环节产生影响,使得电力系统实现智能化和自动化的新高度。当前电力系统正处在大数据的时代,各种高科技的技术频发,电力系统的安全运行程度高。同时,电力系统还有高效率运行、降低成本和对环境负面影响小的优点,将不断的提升系统的可靠性和自愈性,达到更高的发展高度。

2.2太阳能等可再生资源发电比例和对储能设备要求增高

随着全国经济和文化的发展,电力系统领域也迎来了新的发展方向,太阳能和风能成为可再生资源的发展重点。根据研究资料表明,地球上接受的太阳能如果有效的利用和供给是足够地球上的人类实现总需求的。在能源评价、技术服务和创新等方面,光伏发电也成为了新的发展趋势,现阶段需要重点光电池、多晶硅提炼等技术,不断推广新的发展渠道,解决更多的技术问题和障碍,实现包括太阳能在内的可再生资源的合理利用,为电力能源的生产提供充足的保障。另一方面,随着电力系统信息化和新技术的发展,电力储能系统就像计算机网络中的信息存储系统一样,有着重要的影响力。随着储能装置的不断改进,新型高性能的电极材料和电介质材料将不断被应用在各个领域,推动电力系统的全方位发展。此外,电力电气设备的性能还需要不断的研究其材料,提高电气设备的极限容量,确保电力系统的安全稳定,满足电网的运行需求。新型高性能电极材料、储能材料和新技术的应用,推动了大容量电池储能等技术的发展和大容量储能设备兴起和实践运用。

结论

电力系统的运行稳定与否,直接关系到供电可靠性,为了确保系统运行的稳定性,可将智能控制技术、计算机视觉技术、动态安全监控技术等,合理运用到电力系统自动化当中,由此不但能够对电力系统进行全面的监视和控制,而且还能使系统的重要设备始终处于受控状态。

篇5

关键词:机器视觉;三维重建;图像处理

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2014)003-0013-02

作者简介:罗尤春(1989-),男,华中科技大学机械科学与工程学院硕士研究生,研究方向为机器视觉。

1 Marr机器视觉框架

在漫漫进化历程中,人类和大部分动物通过视觉、听觉、触觉等来获取周围世界的信息,并通过大脑处理这些信息。而根据调查,人类大脑处理的信息有80%是来自视觉,我们通过双目感受深度信息,通过对不同频率光信号进行判别来获取颜色信息[1]。通过运用摄像机来达到模拟人眼的识别和测量功能,机器视觉成为人工智能研究的重要环节。机器视觉区别于计算机视觉,更偏向于应用,一个机器视觉系统一般通过摄像机之类的光学仪器以图像的形式获取周围世界的信息,通过计算机进行图像处理和图像理解,再根据相应的控制程序和机械驱动设备对智能输出设备发出操作指令,实现智能控制和操作功能。

早期的机器视觉局限于对二维图像的分析、识别和理解上[2]。20世纪80年代初,Marr第一次融合图像处理、神经科学的相关研究,提出了里程碑式的视觉系统框架。具体来说,Marr框架包括三个层次:计算理论层次、表达与算法层次、硬件实现层次。计算理论层次,可以理解为通过对二维图像的理解来重建三维客观世界的视觉三维重建理论研究。因为现实世界是复杂多变的,如何建立一种通过二维图像来实现三维重建的普适性方法成为机器视觉系统中最重要也是终极的目的。Marr提出的这一层次是想通过建立某种普适性模型来获取客观世界任何物体的形状、位置以及运动的信息;表达与算法层次低于计算理论层次,是要解决“软件”的问题,即如何实现机器视觉系统各个模块之间信息输入、输出和信息表达的问题,亦即各种算法的实现;硬件实现层次可理解为如何组建机器视觉系统的硬件实体设备,与表达与算法层次一起为计算理论层次服务。

Marr提出的视觉框架中研究最多的是计算理论层次和表达与算法层次,分别对应下节要介绍的三维重建理论和图像处理。

2 三维重建

视觉三维重建理论是整个视觉领域研究的重点和前沿。客观世界的物体都是由基本的几何要素组成的:点、直线、二次曲线等。因此,要实现对客观世界的描绘,利用这些最基本的几何要素来组建客观世界是可以实现的。在很多研究中,通过大量的点对匹配得到三维世界中物体的三维点云模型,从而模拟出真实物体的形状。在三维重建研究中,立体视觉或称双目(多目)视觉是最重要的手段。仿照人眼的原理,要获得对周围三维世界的认知,必须知道深度信息,最少需要两个眼睛。与此同理,立体视觉一般都需要两个或者多个摄像机同时工作,才能较好地得到周围世界的三维信息。

2.1 摄像机针孔模型

摄像机的普适模型——针孔模型来源于小孔成像现象。简单地说,针孔模型是指空间中一点P与摄像机中一特定点C(称为光心)的连线交摄像机的图像平面于点p,这个点p便是空间点P的成像点,蕴含了空间点P的几何信息。从数学的观点,摄像机的成像模型是一个从三维到二维的映射f:Pp,是一个降维映射,丢失掉了深度信息,即处于光心C—空间点P的直线上任意一点Q的投影也都是p。从数学上可以证明,至少需要两幅或以上图像才能重建出空间点P的深度信息zP。

2.2 空间点三维重建

采用两个不同的摄像机位拍摄空间中同一点P的图像,分别得到P在左右摄像机图像平面上的投影点p\-L和p\-R,如果事先知道左右摄像机的相对位置关系——称为双目摄像机标定,那么就知道了左右摄像机的光心C\-L和C\-R的位置。简而言之,双目视觉系统能够提供给我们一个坐标系(左或者右摄像机坐标系),在这个坐标系下通过摄像机标定知道两个光心C\-L和C\-R的位置以及投影点p\-L和p\-R的位置,直线C\-Lp\-L和C\-Rp\-R的交点就是要重建的空间点P。

2.3 空间直线三维重建

空间直线的重建原理和空间点的重建类似,假如要重建空间直线L,得到L在左右摄像机图像平面上的投影直线l\-L和l\-R,那么左摄像机光心C\-L和左投影l\-L形成一个平面S\-L,同理右摄像机光心C\-R和右投影l\-R形成一个平面S\-R,则空间直线L就是平面S\-L和S\-R的相交直线。

2.4 二次曲线三维重建

实二次曲线一般包括椭圆、双曲线、抛物线和圆[3]。关于二次曲线的三维重建,司少华等[4]在1993年提出了一种特征值的方法,其开创性贡献在于首先将二次曲线视为一个几何元素来进行重建,而非利用二次曲线由其上的若干点(至少5个点)决定的原理,更不是利用点云的思想来重建二次曲线。将要重建的对象视作整体而非利用局部元素(点)去拟合逼近的思想是视觉理论更进一步的发展。圆作为最常见的二次曲线特征被广泛应用在物体空间定位上[5]。

3 图像处理

图像处理是指利用计算机对图像进行分析,得到需要的信息。所谓图像,其数学模型即一个二元向量函数f(x,y),其坐标(x,y)表示图像的横纵坐标。对于灰度图像,这个向量函数成为一个标量函数,f(x,y)表示对应平面坐标(x,y)的灰度值。对于彩色图像,一般使用RGB三原色来表征,即f=[R,G,B]\+T。图像处理的内容非常丰富,包括了图像滤波去噪、边缘检测、图像复原、形态学处理、图像分割等。其中,为了得到三维重建所必须知道的点、直线、二次曲线等图像信息,边缘检测至关重要。所谓边缘检测,目的是要识别出图像中灰度值变化明显的图像点。图像中突变的位置一般代表了三维世界中的不同属性。现有的边缘检测算子包括Canny算子[6]、Sobel算子、Prewitt算子、Roberts Cross算子、罗盘算子、Marr-Hildreth算子等。

A=imread('Beach.jpg');

B=rgb2gray(A);

C=edge(B,'canny',0.1);

imshow(C)

4 机器视觉应用及前景

机器视觉技术广泛应用于机器人、工业检测等领域。由于机器视觉系统是一套光学系统,因此具有非接触式测量的优点。由于计算机的运算速度不断刷新纪录,使得图像处理效率也不断提升,运用机器视觉系统能够为工业中的不同应用提供实时数据。加载视觉系统的智能机器人不仅拥有灵活、快捷的操作手臂,而且配置了灵敏的摄像机充当“眼睛”,还有超强计算能力的计算机充当“大脑”,真正实现了手—眼—脑同体。在工业检测以及测量领域,机器视觉利用自身的独特优势在质量缺陷、生产监控等方面占据了重要地位。机器视觉是一种人工智能技术,在未来的智能化时代,视觉技术必定能成为人机交互的最重要途径之一。

参考文献:

[1] 张广军.机器视觉[M].北京:科学出版社,2005.

[2] 马颂德,张正友.计算机视觉:计算理论与算法基础[M].北京:科学出版社,2003.

[3] 吕林根,许子道.解析几何[M].北京:高等教育出版社,2006.

[4] 司少华,马颂德.基于二次曲线的立体视觉[J].自动化学报,1993,19(4):420-427.

篇6

关键词:ICA-HMAX模型;视觉相似度;卷积核;语义相似度

中图分类号:TP317 文献标识码:A 文章编号:1009-3044(2016)08-0177-05

Abstract: This paper firstly introduces a multi-level convolutional ICA-HMAX model; then propose visualization methods of the convolution kernel convolution kernel to achieve different levels of understanding. Proposed using S3 layer feature of the ICA-HMAX model to achieve visual similarity calculation of different categories. By implementing different categories of visual similarity between calculated on Caltech 101 datasets, and compared with the semantic similarity between categories and further explore the relationship between semantic similarity and visual similarity between.

Key words: ICA-HMAX model ;visual similarity; kernel convolution kernel; semantic similarity

1 概述

21世纪以来,数字成像技术和存储技术得到了空前的发展;使得每天有数量巨大的数字图像进入人们的生活,成为人类生活、工作、娱乐中的组成部分。另一方面,互联网技术的发展给图像的迅速传播提供了有利的条件。此外,图像是视觉信息的重要来源之一,蕴含丰富的语义信息。图像理解是人工智能领域中的一个新的方向,其核心问题是研究如何使计算机能够像人脑一样有效正确理解图像中所表达的高层语义信息。

仿生多层模型在计算机视觉和人工智能邻域取得了显著的成果。20世纪末,Poggio和Riesenhuber根据IT皮层的生理学数据提出了标准HMAX模型[1],该模型模拟视皮层中腹侧通路中简单细胞(Simple Cell)和复杂细胞(Complex Cell)的交替处理的功能,实现多层次特征提取。在此基础上,Serre等人提出一种具有随着层次的增加复杂度和不变性逐渐增强的图像特征表达[2],并将其应用到真实场景的目标识别中,其识别性能明显优于传统的特征表达(如SIFT特征[3]);Hu等人根据大脑神经元响应的稀疏特性进一步扩展HMAX模型,提出了Sparse-HMAX模型[4],在分类性能上远远优于HMAX模型,同时较好模拟和解释神经元对视觉信号的稀疏响应。

本文内容章节安排如下:第2节首先简要描述了本文的ICA-HMAX模型;然后介绍卷积核的可视化方法;第3节介绍基于WordNet的语义相似度计算和基于ICA-HMAX的视觉相似度计算方法。第4节实验结果和分析。第5节总结与展望。

2 ICA-HMAX模型与卷积核可视化

2.1 ICA-HMAX模型简介

前馈ICA-HMAX模型由五层构成如图1所示。自底向上依次为S1C1S2C2S3五层,其中S1层卷积核(W1、V1)由独立成分析(Independent Component Analysis,ICA)方法从彩色图像的数据块中学习获得,为了使得C1层具有局部空间平移不变性,在S1层的每个二维平面响应图上进行局部最大值汇聚(max pooling)操作;同理,S2层卷积核(W2、V2)也是采用ICA方法从C1层采样块中学习获得;同样,为了使得C2层也具有局部空间平移不变性,在S2层的每个二维平面响应图上进行最大值汇聚(max pooling)操作;同理可以获得S3层的卷积核(W3、V3)以及S3层的特征表达。值得注意的是该前馈模型的卷积核均为单尺度。

2.2 卷积核的可视化

若要实现对多层模型ICA-HMAX的深入的了解,需要知道不同层次的卷积核编码的图像信息。由于S1层特征卷积核是在彩色图像的原始像素层上学习,可以在像素空间上直接观察S1层卷积核编码的图像信息。而S2、S3层的卷积核是在图像C1、C2层的响应图上经过ICA学习获得高维数据,因此不能直接观察其卷积核编码的图像信息。为了观察S2、S3层的卷积核所编码的图像信息,当给定一个某个类别的卷积核的条件下,本文提出在该类别的图像上找出使得该卷积核的刺激最大的前50个感受野区域,并将这些区域与其刺激的响应值进行加权求和,然后取平均;所得结果具有表示S2、S3层卷积核所编码的图像信息从而作为S2、S3层的卷积核可视化。

3 相似度计算

3.1 基于WordNet的语义相似度计算

WordNet是由普林斯顿大学心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。一般来讲,国内外的研究学者将经典的基于语义的相似度的计算方法分为三个类型[6,7]:基于距离的相似度计算(Path Counting Measures)、基于信息内容的相似度计算(Information Content Measures)和基于特性的相似度计算(Feature-based Measures)。本文主要介绍基于距离的相似度计算方法――Shortest Path算法和Leacock and Chodorow算法。

3.2 基于视觉的类别相似度

众所周知,不同类别之间存在部分外观相似性,比如山猫和豹、狼和哈士奇、浣熊和果子狸等等。可见,分别在两个类别的训练集上训练ICA-HMAX模型,若两个类别视觉相似度越高,则这两个类别的S3层卷积核相似的基元个数越多;反之,两类别的S3层卷积核中的相似的基元个数越多,两个类别的视觉相似度越高。

我们知道两个类别的相似度越高,则两个类别的ICA-HMAX模型越能较好地实现对异类图像的相互表达。因此采用配对字典的方法[10]实现对S3特征表达的重构。然后,将重构图像与输入图的结构相似度[11](SSIM)作为衡量S3层特征对输入图像描述的好坏。若重构图像与输入图的结构相似度越高,则两个类别的视觉语义相似度越高,反之亦然。基于目标类别的视觉语义相似度算法流程如表1所示:

4 实验结果与分析

实验设置:实验所使用的PC机配置为Intel(R) Core(TM) i7-4770、CPU 3.4GHz × 8 cores、RAM 16 GB、Windows 7操作系统。为了探索不同类别之间的语义相似度和基于ICA-HMAX模型S3层的特征描述子的视觉语义相似度之间的关系,本文选择了Caltech 101数据集[12]进行实验,该数据集以彩色自然场景图像为主(包含一定数量的人造图像)。包括动物、花、人脸等101个目标类别以及一个背景类别。除背景类别之外,每个类别中的每张图片只包括一个类别中的一个实例,这有利于本实验进行。在进行实验之前,首先对数据集中每张图像做如下预测处理:统一图像高度为140个像素,保持图像的长宽比不变,采用双三次插值对其进行缩放。将每个类别中的图片按照4:1的比例分成训练集和测试集,在训练上训练各个类别的ICA-HMAX模型,采用3.2节介绍的视觉语义相似度方法在测试集上测试不同类别之间的视觉相似度。

4.1卷积核的可视化

图3(b)、(c)、(d)分别给出了S1、S2和S3层卷积核的可视化结果。结果表明,不同层次的卷积核编码了图像不同类型的特征。图3(b)中的S1层卷积核均编码了图像底层特征(如彩色边缘、彩色表面、拐角等结构信息等),并且不同类别的底层特征具有相似的结构特征;值得注意的是,通过ICA在彩色图像上的学习,获得了重要的颜色信息如彩色边缘、彩色表面等。S2层卷积核编码了各类别的中层部件特征,例如face_easy类别的S2层编码了人脸的眼睛、嘴巴、鼻子等信息,如图3(c)所示。由图3(d)可以看出,由于S3层卷积核的感受野比S2层大,编码信息更趋于类别信息。研究表明:这符合图像理解的层次特性[13]。

4.2 相似度

数据集Caltech101图像部分类别之间的基于路径的Shortest Path算法和Leacock and Chodorow的相似度矩阵分别如图4和图5所示。由图4和图5可以看出这两个矩阵都是对称矩阵。与一个类别最相似的类别有的不止一个,如与ant类别最相近的类别是butterfly、dragonfly、mayfly。值得注意的是图5中基于路径的Leacock and Chodorow算法的类别相似度数据是经过归一化处理后的数据。

本文采用基于ICA-HMAX模型的S3层的特征计算视觉相似,其视觉相似度矩阵的结果如图6所示。在该相似度矩阵中,把同一类别之间的视觉相似度设置为1作参考,来衡量不同类别之间的视觉相对度。在图6中横轴表示ICA-HMAX模型的类别。纵轴表示测试图像的类别。由图6可见,不同类别之间的视觉相似度矩阵不是对称。比如用airplane的ICA-HMAX模型对helicopter类别的图像进行表达,并计算其视觉相似度其值为0.506;而当用helicopter的ICA-HMAX模型对airplane类别的图像进行表达,并计算其视觉相似度其值为0.253。且与一个类别最相似的类别只有一个。在Caltech101数据集中helicopter类别的直升机的实例图片上都存在较为明显的螺旋桨。在airplane类别的飞机图像没有明显的螺旋桨。而在忽略helicopter类别的直升机螺旋桨后,直升机的机体形状与airplane类别的机体在视觉上存在相似。基于语义和视觉的相似度统计如表2所示。

两种相似度之间的差异性分析:由表2可知,基于语言的语义的相似度与基于视觉的相似度之间存在一致性和差异性。一致性:由表2可知,20个类别中基于语义和视觉的相似度一致有5对,分别sunflower和bonsai、rhino和llama、airplane和helicopter、ant和mayfly、hedgehog和llama。比如airplane和helicopter这两个类别的实例如图7所示。由图可见,不同类别之间存在视觉相似,两个类别实例在的某些局部形状、颜色、纹理等方面具有视觉上的相似性。差异性:由表2可知:20个类别中基于语义和视觉的相似度不一致的较多。如图8所示,ant、butterfly和dragonfly这三个类别的语义相对度很高但是它们的视觉相似度相差较大。原因在于:语义即语言意义,是人脑对客观上事物的认识和理解,它具有高度的概括性和抽象性。类别之间的语义往往根据类别所属范畴、关系、属性、功能等综合特性来进行划分。而仅仅从事物的视觉外观上无法体现出上述种种关系。

5 结论与展望

通过ICA-HMAX不同层次卷积核的可视化分析可知:自底层到高层不同层次的卷积编码规律如下:不同层次的卷积核编码了图像不同类型的特征。模型的层次越高,卷积核编码的信息越趋向于反映目标类别的特性,S1层卷积核编码体现底层共享特征(如拐角、 彩色边缘、彩色表面等)。S2层卷积核编码中层部件特征,比如face_easy类别的S2层编码了人脸的眼睛、嘴巴、鼻子等局部信息。S3层编码信息更趋于类别的全局信息。研究表明:这符合图像理解的层次特性。

通过视觉的相似和语义的相似度分析可知,基于ICA-HMAX模型的S3层特性的视觉相似度与语义相似之间存在一致性和差异性。这种一致性和差异性在计算机视觉和人工智能领域具有互补性。比如对于那些语义和视觉的相似度一致的类别,尤其是视觉相似度较高的类别之间可以进行迁移学习,使得计算机实现人类的类比学习能力。对于语义和视觉的相似度差异性在图像的检索和图像理解等方面可以实现互补。通过语义的相似度我们可以检索到较多的相似类别,如与ant语义相似的有ant、dragonfly、butterfly。这样我们可以实现大范围的查找。然后在通过视觉的相似度进一步筛选正确的类别图片。反之,通过语义可以指导基于视觉的机器学习。

参考文献:

[1] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex [J]. Nature neuroscience, 1999, 2(11): 1019-1025.

[2] Serre T, Wolf L, Bileschi S, et al. Robust object recognition with cortex-like mechanisms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007, 29(3): 411-426.

[3] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91-110.

[4] Hu X, Zhang J, Li J, et al. Sparsity-regularized HMAX for visual recognition [J]. PloS one, 2013, 9(1): e81813-e81813

[5] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines [C] //Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010: 807-814.

[6] Hliaoutakis A. Semantic Similarity Measures in MeSH Ontology and their application to Information Retrieval on Medline [J]. 2005.

[7] Raftopoulou P, Petrakis E. Semantic similarity measures: A comparison study [J]. Technical University of Crete, Department of Electronic and Computer Engineering, Tech. Rep. TR-TUC-ISL-04-2005, 2005.

[8] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and Application of a Metric on Semantic Nets”, IEEE Transactions on Systems, Man and Cybernetics, vol. 19, Issue 1, (1989) January-February, pp. 17 - 30.

[9] H. Bulskov, R. Knappe and T. Andreasen, “On Measuring Similarity for Conceptual Querying”, Proceedings of the 5th International Conference on Flexible Query Answering Systems, (2002) October 27-29, Copenhagen, Denmark.

[10] Vondrick C, Khosla A, Malisiewicz T, et al. HOGgles: Visualizing Object Detection Features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1-8.

[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

篇7

关键词:虚拟现实技术;校园环境设计;分析

DOI:10.16640/ki.37-1222/t.2016.23.108

0 前言

随着社会和科学技术的发展,基于图像绘制的虚拟现实技术已经成为计算机视觉,图像处理,计算机图形学,人工智能研究的热点。虽然虚拟现实技术目前在很多领域中的实际应用已有很大进展,例如虚拟现实技术己经广泛地应用于军事、医学、建筑、商业等领域。

伴随着虚拟现实技术(VR技术)的日益成熟和飞速发展,在园林景观设计中,对虚拟现实技术的应用也不断加强。

1 虚拟现实技术的简介

虚拟现实技术又称VR技术,是20世纪90年代伴随着计算机技术而兴起的新兴技术,主要特点是可沉浸式的与虚拟场景进行交流互动,它的基础媒介和载体是计算机和互联网,利用计算机生成一种仿真系统来模拟真实环境,利用互联网充分传播虚拟现实技术,虚拟现实技术被应用在军事、医学、商业、建筑规划等多个领域,具有广泛的发展前景。

而近几年随着虚拟现实技术的不断发展,人机交互技术成为了虚拟现实领域的一项重要研究方向,由此而引发了一系列的交互性硬件载体的出现,如3D虚拟眼镜、浮动鼠标器、头盔式虚拟显示器、数据手套、数据衣、语音识别器等,通过这些传感设备,体验者可以对虚拟世界中的物体进行观察和操作,使体验者拥有沉浸式的体验感受,融入五感体验(视觉、嗅觉、听觉、味觉、触觉)的虚拟现实技术与以前的单纯通过视觉来刺激体验者的模式发生了质的变化。

2 虚拟现实技术在校园环境设计领域的应用

2.1 虚拟现实软件

虚拟现实技术所应用的软件主要分为前期建模阶段的软件和后期渲染的软件,前期建模阶段的主流软件有:MAYA、3Dsmax、犀牛、Google Sketchup,后期渲染的软件主要有lumion、unity3D、C4D、Vray、光辉城市、酷家乐。

2.2 应用特点介绍

(1)准确性:利用计算机辅助系统下的虚拟现实技术,在虚拟场景建立方面具有很强的精准度,根据实际设计中的真实尺寸可以创造出真实建立之后的效果感受,供使用者观察。(2)实时渲染:利用虚拟现实软件生成的实时渲染场景,具有良好的可视化效果,通过实时渲染技术,生成真实的阳光、风向、天气、季节,模拟大自然的真实光照,使体验者沉浸于场景的游览交互中,而且无需像传统渲染那样耗费大量时间。(3)想象力:除了虚拟现实校园环境具有模拟真实场景外,还可以进行模拟某些不可能发生的场景环境,使得游览体验过程中的趣味性得到极大的提高,超越体验者的想象。

2.3 虚拟现实技术与3D动画的区别

传统的3D动画与虚拟现实表现技术表面上看起来都具有动态效果,但实质却完全不同。虚拟现实技术可以进行人机交互,由人控制虚拟场景的镜头,具有实时渲染的效果,而3D动画虽然也是动态效果,却是不可操控的,由设计师事先做好播放的,更不能进行场景切换和镜头操控等动作。在虚拟场景下操控者可以对设计方案进行创作、修改和优化,而3D动画无法进行二次修改,只能重新制作而耗费了大量人力物力和时间成本。

2.4 虚拟现实技术在景观设计中的应用特色

传统校园景观设计的表现多侧重于手绘图和平面CAD图和PS效果图,在对外宣传过程中,CAD图和PS效果图这些表现方法,无法提供给体验者沉浸感和真实的3维感受,也无法根据意愿自由旋转视角,通过平面图推敲想象方案,无法以人的视角进行活动。而在虚拟现实系统中的校园景观,我们利用计算机可以对不同人物的视线高度进行设置调整,体验者可以随意观察场景内的任意角度,让体验者有亲临现场的真实感受。

3 交互性设备在校园环境设计中的应用发展

虚拟现实技术经过十几年的快速发展,在传统的建模方法、效果表现等方面,已经有了较大的突破和发展,随着交互性设备在虚拟现实技术中的应用,校园环境设计领域的效果表现也迎来了新的改变。lumion6.3结合虚拟3D眼镜,把lumion中的场景导出全景模式,将3D眼镜与lumion连接,就可以进行3维全景观看效果图,伴随着头部的晃动,3D眼镜内的的场景也会随之变化。利用3D眼镜观察虚拟校园场景方案,相比传统2维效果图和平面图,有了质的飞越,对于校园方案的效果感受将会更强烈。国内新晋软件光辉城市也在虚拟现实表达领域有所发展,可以通过该软件进行虚拟场景内的互动,漫游和修改场景,利用外接鼠标可以对场景内的镜头进行控制,利用键盘可以实现场景内的移动与行走,全方位观察场景内的物体。酷家乐作为新型互联网+的设计软件,在室内设计领域的虚拟场景表现上技术很成熟,通过该软件制作的虚拟校园室内实时渲染场景,体验用户可以通过鼠标进行3维角度旋转进行浏览,比传统3Dsmax渲染效果更直观,最重要的是通过该软件进行实时渲染效果好,速度快,节省了大量的渲染时间,从而节约了时间成本。

4 发展展望

伴随着电脑和手机客户端的日益强大、交互性硬件设施越来越完善,虚拟现实技术也将会越来越成熟,虚拟现实技术未来的两大发展方向便是手机客户端和交互性硬件的应用,伴随着虚拟现实技术的发展,在校园景观环境设计中,也将更多的被应用于方案设计阶段、方案表达阶段、以及后期虚拟校园运营服务阶段,在21世纪,可视化的表达已经不仅限于传统二维平面的形式。

参考文献:

[1]李国松.虚拟现实(VR)技术在风景园林规划与设计中的应用研究[D].中南林业科技大学硕士学位论文,2007.

[2]芦建国,苏同向.虚拟现实技术与风景园林设计[A].南京林业大学,2007.

篇8

关键词:目标跟踪 视频图像 机器视觉

中图分类号:TP3 文献标识码:A 文章编号:1672-3791(2012)06(a)-0007-01

随着计算机技术的飞速发展,视频图像中的运动目标跟踪作为计算机科学、人工智能、数学等多学科的结晶,逐渐成为图像处理和计算机视觉领域的研究热点,其应用范围也逐渐拓展,目前,运动目标跟踪已经运用到了智能人机交互、医疗诊断、军事制导、天文观测、安全监控等众多领域。因此,在实际应用中,对运动目标跟踪算法的研究具有重要的理论价值和现实意义。

1 基于区域的跟踪

基于区域的跟踪方法首先要得到包含目标的区域模板,模板的提取一般通过图像分割获得或者是预先人为确定,模板通常为略大于目标的矩形,也可以是不规则形状,然后设定一个相似性度量,在序列图像中搜索目标,把度量取极值时对应的区域作为对应帧中的目标区域。由于提取的目标模板是以目标整体作为对象,它包含了较完整的目标信息,因而具有较高的可信度。

由于该方法以目标的整体特征信息作为跟踪依据,所以在目标发生较小形变等情况下仍然可以准确的对目标进行跟踪;在目标未被遮挡时,跟踪的准确性和鲁棒性也较好。其缺点首先是这种方法需要对整个图像区域进行搜索,要求获取的信息较多,因此比较耗时,不能满足实际应用中视频监控实时性的要求,这种方法一般用于跟踪较小的目标或者对比度较低的目标;而且跟踪的目标变形不能太大,否则会导致跟踪精度下降甚至目标丢失;而且,当目标出现太大遮挡时,也容易造成跟踪目标的丢失。针对这些缺陷,近年来,对于基于区域跟踪方法研究最多的是如何处理包含目标的模板更新,以保证跟踪的连续性和稳定性。

2 基于活动轮廓的跟踪

基于活动轮廓跟踪的基本思想是提取物体的边界轮廓作为轮廓模板,利用封闭的曲线轮廓来表达运动目标,在后继帧的二值边缘图像中跟踪目标轮廓。由于这种方法所使用的模板是目标轮廓,并且匹配过程是在二值图像中进行,所以相对基于区域的跟踪算法来说,它的优点是计算量较小,而且在目标被部分遮挡的情况下也能连续的进行跟踪。近来发展很快的两种基于轮廓匹配的跟踪算法:一是主动轮廓线跟踪算法(Snake模型),Kass[1]等人在1987 年提出了主动轮廓模型,也称其为蛇模型,它是一条可变形曲线(Snake曲线),可任意调整曲线形状使其与目标轮廓保持一致。另一种是基于Hausdorff距离的轮廓跟踪算法。基于Hausdorff距离的形状匹配不同于其他的形状匹配,一方面,Hausdorff距离不需要建立两个点集中的点之间一一对应的关系,并且对图像噪声和晃动具有较好的鲁棒性。其缺点是当所匹配的点的数目比较大时,匹配效率会迅速降低,通常计算量也较大。

在基于活动轮廓方法中,初始化轮廓是整个算法的核心和关键,如何准确的获取运动目标的初始轮廓也是算法研究中的一个难题,而且运动物体轮廓的更新比较困难,这也决定了基于活动轮廓的方法无法在目标跟踪中得到普遍应用。

3 基于特征的跟踪算法

基于特征的跟踪方法基本思想是,在跟踪过程中首先提取目标的某个或某些具有不变性的特征,然后利用相关算法实现对运动目标的跟踪。该方法包括特征提取和特征匹配两个过程。目前常见的特征选择有角点、纹理、色彩等,但在序列图像中,单一的特征选取往往无法实现跟踪的准确性。因此,基于多特征融合的目标跟踪成为当前研究的趋势。基于特征的方法其优点是能够在部分遮挡的情况下,仍旧实现目标跟踪,在准确选取特征点的前提下,还可以克服关照改变以及目标发生几何形变时带来的跟踪障碍。同时,该方法还可以将与粒子滤波器[2]、mean-shift算法[3]等结合使用,提高跟踪的实时性和鲁棒性。

4 基于模型的跟踪

基于模型的跟踪方法首先是对目标物体的外形特征进行建模,然后通过一定的匹配方法跟踪目标,并进行模型的实时更新。常用的表征物体模型的形式一般分为三类:线图模型、2D模型和3D模型。目前应用较多的是利用物体的三维立体模型。基于模型的跟踪方法即使在目标姿态变化和部分遮挡的情况下,仍旧可以精确分析目标的运动轨迹,实现可靠的跟踪,因而它有较强的鲁棒性。但是由于在现实生活中获得所有运动目标的精确模型是非常困难的,因此限制了基于模型的跟踪算法的使用。其次,该跟踪方法需要大量的时间来计算复杂的模型,比较耗时,不能满足跟踪过程中的实时性和迅速性要求。

5 结语

视频图像跟踪作为机器视觉领域研究的一个重要内容,融合了多个学科的知识,具有很大的理论和应用价值,尽管目前对视频图像中运动目标跟踪的研究取得了较多的成果,但仍有很多亟待解决的问题,比如怎样解决算法实时性和准确度之间的矛盾,同时,算法研究的通用性也始终未能取得全面性的突破和进展,因而研究进程中将会面临许多的挑战。伴随着多媒体技术、生物学技术以及神经理论知识的不断进步,同时基于社会各行各业对于目标跟踪技术的不断增长的需求,相信不久之后,运动目标的跟踪技术将会得到飞速的发展。

参考文献

[1] KASS M,WITKIN A.Snakes:active contour models[J].International J of Computer Vision,1988,1:321~331.

篇9

关键字:多投影面;教学系统;沉浸式环境

中图分类号:G434 文献标志码:B 文章编号:1673-8454(2014)02-0070-03

虚拟现实技术的发展使得计算机技术不再是完成某一项工作的重要工具,而是朝着更人性化的一面发展,它可以使用户足不出户就享受到计算机虚拟世界给我们带来的真实感觉。显示技术是最终形成虚拟环境的关键步骤。目前沉浸式显示技术正处于蓬勃发展的阶段。

多投影面沉浸式虚拟环境是由多台投影仪拼接而组成的大规模显示设备,加上各种人机交互设备,能够更加清晰地模拟现实世界场景以及对历史的逼真反映,给用户带来更佳的视野范围和更强的沉浸感,[1]它可以是对高性能计算结果或数据库的可视化,也可以是纯粹的虚拟空间。多投影面沉浸式虚拟环境为学校教学中创设鲜活的情境提供了技术支持,可以成为一种全新的教学平台,学习者可以以各种自然的交互手段与虚拟世界进行交互获取知识,改变了传统学习环境下学习者被动接受的学习方式,让学习者有一种主动学习的环境。

一、多投影面沉浸式虚拟环境的实现

1.系统总体设计

多投影面沉浸式虚拟环境按系统结构主要分为:投影系统、用户交互系统、图形与计算系统。投影系统主要包括投影仪阵列以及投影屏幕,用来显示大范围画面,实现沉浸式体验;用户交互系统是让用户通过各种虚拟现实交互设备与系统应用程序之间进行自然的交互;图形与计算系统是负责生成虚拟环境并对用户的交互信息进行处理。

在投影系统搭建的过程中,图1所示的多投影面沉浸式虚拟环境的系统设计方案如下:使用多台PC机、多台投影仪、一个摄像机,将其中一台PC机作为图像校正服务器(Client PC),负责捕获投影仪的反馈信息,计算校准数据;另外几台PC机(Server PC)作为客户端,分别连接一台投影仪,用于负责读取、处理并根据相应位置分布绘制各显示区域的数据;最后分别通过相应的投影仪输出到投影屏幕,构成一个完整的无缝的显示画面,各计算机通过局域网进行连接和通信,采用鼠标或键盘等方式与系统进行交互。

2.关键技术

在多投影面沉浸式虚拟环境的构建过程中,为了保证高清晰、实时流畅、逻辑上完整的显示效果,几何校正和颜色校正是最为关键的问题。技术流程如图2所示。

几何校正是为了解决单个投影在投影屏幕上产生畸变问题以及多个投影仪之间的画面对齐问题,使得整个投影画面看起来具有连续性。[2]

在本系统中,我们在前人研究的基础之上,采用一台反馈照相机来获取投影图像的几何位置信息,根据图像处理技术对原始图像进行几何畸变校正,使得各投影仪投出的图像能形成一幅完整的画面,使使用者完全沉浸在由多个投影仪创建的虚拟环境中。在实验过程中考虑到由照相机镜头自身畸变而造成的扭曲,所以在几何校正之前,我们采用张正友[3]提出的摄像机标定的方法对数码相机进行标定,从而对拍摄出的图像进行预校正。

几何校正方案如下:

第一步,特征点采集与处理。对每台投影仪以此投影一组特征图案,利用数码相机进行特征图案采集。再利用图像处理技术对拍摄图像进行处理,对投影仪依次编号记为Hi,与Hi对应的帧缓存中的特征点记为Fi;

第二步,求出所有投影仪显示区域的最大有效显示区域,并按等距离原则细分最大有效区域,记为Pi;

第三步,利用最小二乘法计算相机图像到投影仪帧缓存图像的映射关系,记为M。并求出映射矩阵M的逆矩阵M-1,再利用投影仪的有效显示区域预校正缓存区的图像。

为了真正地实现画面的完整性,还有一个必须解决的问题就是颜色校正问题。颜色校正主要用来解决不同投影仪表现在颜色上的差异而导致画面整体上的颜色不一致问题。所以要采用有效的方法尽可能地消除或缩小这种颜色差异,给人更好的视觉效果,具体算法本文不做详细介绍。

二、多投影面沉浸式虚拟环境的特点及应用实例

1.多投影面沉浸式虚拟环境的特点

①逼真性

在多投影面沉浸式虚拟环境中,逼真性主要表现在环境的真实性、视野范围的无限扩充和对象动作的流畅展示。通过增加投影仪的数量,使用超大的物理尺寸屏幕,可以体现出真实的图像质量,实现单个投影所不能获得的视觉效果,给用户带来身临其境的感觉。

②沉浸感

理想的虚拟环境是使用户达到难以分辨真假的程度。在多投影面沉浸式虚拟环境中,沉浸感主要是用户对由计算机创造和显示出来的虚拟环境的感知和认识。当用户置身在多投影面沉浸式虚拟环境中时,其感觉系统在处理来自虚拟环境中的视觉和其他感知数据时的方式如同在真实环境下一样。

③交互性

在多投影面沉浸式虚拟环境中,用户可以与计算机生成的虚拟环境进行自然交互,能够用人类自然的感知能力与虚拟环境中的对象进行实时交互,让我们很容易地进入角色,大大增强了参与其中的趣味性。

2.应用实例

根据多投影面沉浸式虚拟环境的特点以及其他领域的广泛应用,在教学系统中的应用可以分为两大类别的学科:①结构演示和位置信息展示等学科的学习。包括工程中的结构图、地理学习中的信息图示、模型演示等。如化学学习过程中,通过多投影面沉浸式虚拟环境真实地展示出物质分子结构模型。②动作演示类的科目。主要包括具体的操作以及与操作相关的位置信息等。其在医疗手术、化学实验的具体操作当中有很好的应用价值。

三、多投影面沉浸式虚拟环境对教学的促进作用

1.创建逼真的实习场,为情境学习提供更真实的学习环境

根据情境学习理论的观点,实践不是独立于学习的,意义也不是与实践和情境脉络相分离的,真正的意义是在实践和情境脉络中加以协商的。[4]情境学习的关键是创设学习环境,在教学场所与空间内必须有真实的情境作为学习活动的目标,即实习场的创建。然而学校的学习环境与现实生活中的环境是完全不一样的。如何创建这样的实习场就成为我们要考虑的问题。传统的抛锚式教学是通过真实化的录像境脉来呈现与解决问题相关的信息。然而,这样只能使学习者被动地观看,不能导致学习的发生。多投影面沉浸式虚拟环境通过无限扩充学习者的视角视野,为学习者营造出身临其境的感觉,将整个学习活动都抛锚在真实的情境之中。它构建出的实习场,不仅高度接近真实情境,将抽象化的知识具体化为可视化信息,而且其学习过程也与现实生活中的问题解决过程类似。学习者可以直接参与到“真实”的情境中,从而接触许多平时不易接触的场景。学生受到多感官强烈的刺激,增加了学习者体验的真实性,改变了学习者仅仅面对静态文字的传统学习方式。

2.沉浸式的学习体验,提高了学习者的参与性

人类学学家Lave在他的代表著作 《情境学习:合法的边缘性参与》中指出:学习应该从参与实际活动的过程中学习知识。[5]也就是学习者不是被动的观察者,而是主动参与其中的过程,那么如何使学习者主动参与其中而不偏离主题,这也是我们需要考虑的问题。另外,还有一些学者担心学习者参与到真实情境中可能会带来一些危险。多投影面沉浸式虚拟环境具有高仿真、宽屏幕、大视角、宏大震撼的效果,不再是传统的书本教育和普通的多媒体教学,能极大地提高学习者的学习热情和参与度,将学习者完全吸引并投入到当前情境中去,而忘却了计算机设备的存在,过滤掉很多不相关的知觉,使注意力完全集中到学习任务中去。为学习者提供了丰富的情感虚拟体验,使整个学习过程充满乐趣,亲身体验更加强化了学习者的记忆和知识的建构。

3.交互式学习环境,丰富了情境学习的趣味性

特洛伊・威廉姆斯(Troy Williams)在回顾了教育信息化发展的历程之后,提出为了给予学生力量,让我们把交互式学习技术带进教室吧。[6]其中就讲到了如何实现课堂教学中的交互活动最大化。多投影面沉浸式虚拟环境应用于教学的过程中,为学习者提供了更加直接的交互环境,学习者在与虚拟信息的交互中获得知识和经验,超越了传统的以知识接受为主的间接获取学习经验的方式,有助于培养学习者的动手实践能力和自主探索问题的能力。学习者通过与系统进行交互,置身于“超越现实、身临其境”的学习环境中。同时,多投影面沉浸式虚拟环境还是一个支持合作的协同环境,合作学习也是情境学习的重要方面,学习者可以以小组的形式参与到真实境脉中来,大大地改善了传统的课堂学习氛围,提高了学习者的学习积极性。在多投影面沉浸式虚拟环境中,学习者之间、学习者与教师之间进行协作,提出问题、讨论结果、分享发现、探索未知的领域。

四、总结

本文探讨了多投影面沉浸式虚拟环境对教学的重要作用,它所创造的逼真情境使学习者可以在课堂的实习场中体验到现实生活的经验,并且支持交互操作、学习的交流合作等,学习者沉浸在虚拟环境中,实现知识的建构和迁移,并还原到实际生活中去。多投影面沉浸式虚拟环境由于其高度沉浸感和交互性,在遥感技术、展览、工业设计、计算机可视化中具有非常好的应用前景。随着虚拟现实技术的发展以及在教学中的应用,多投影面沉浸式虚拟环境的教育意义也备受关注,其在教育领域仍有很大的发展空间,有待于我们积极开发和应用。

参考文献:

[1]林柏伟.PC架构的多投影面沉浸式虚拟环境及其应用[D].杭州:浙江大学,2003.

[2]黄淼,周志光,陶煜波,林海.基于数码相机参数还原的多屏拼接几何校正技术[J].计算机辅助设计与图形学学报,2010(10).

[3]马颂德,张正友.计算机视觉[M].北京:科学出版社,1998.

[4]俞贞.情境学习和学校环境中实习场的建构[J].全球教育展望,2006(5):35.

[5]王文静.人类学视野中的情境学习[J].外国中小学教育,2004(4).

篇10

关键词:显著区域检测; 视觉显著性检测; 评测

中图分类号:TP301 文献标识码:A文章编号:2095-2163(2014)01-0038-03

0引言

人类可以快速准确地识别视觉场中的显著区域。在机器上模拟人类的这种能力对于使机器能够像人类一样处理视觉内容是至关重要的。在过去的几十年内,已有大量的显著性检测方法进入了公开发表。这些方法中的大部分[1-4]都趋向于预测人眼视觉注视点。然而这些人眼视觉注视点只是一些空间中的离散点,并不能准确地标识整个显著区域[5-6]。

近些年来,一些科研单位和研究人员已经开始密切关注于显著区域检测方法的构建工作,如洛桑联邦理工学院的Sabine Süsstrunk研究员,以色列理工学院的Ayellet Tal教授,微软亚洲研究院的研究人员,清华大学的胡世民教授等。显著区域检测方法对以下领域发挥着重大的助益作用:图像分割[7]、物体检测[8]、内容保持的图像缩放[9]等。本文将对显著区域检测算法的研究现状进行介绍,同时对典型的显著区域检测算法进行分析。

文章内容组织结构为:第2节对现有的显著区域检测算法进行了分类和分析;第3节对典型的显著区域检测算法进行了评测;最后在第4节给出了总结,并展望了下一步的研究工作。

1显著区域检测算法分类及分析

感知方面的研究成果表明[10]:在低层视觉显著性中,对比度是最重要的影响因素。现有的显著区域检测算法通过计算每个图像子区域同其一定范围内的相邻区域的对比度来度量该图像子区域的显著性。而依据用于计算对比度的相邻区域空间范围的不同,现有的显著区域检测算法可分为两类:基于局部对比的算法[6,11-12]和基于全局对比的算法[13-18]。下面分别对其探讨如下。

1.1基于局部对比的显著区域检测算法

基于局部对比的显著区域检测算法通过计算每个图像子区域或像素同其周围一个小的局部领域的对比度来度量该图像子区域或像素的显著性。Ma等人[11]提出了一种基于局部对比和模糊生长的显著区域检测算法。该方法首先对输入图像进行均值滤波和降采样。然后,该方法对新产生的低分辨率图像中的每个像素计算其与周围N个像素的LUV颜色向量的欧几里得距离之和, 并将此值作为该像素的显著值。为了从产生的显著图中提取显著区域,Ma等人[11]运用模糊生长(fuzzy growing)的方法提取显著区域。Liu等人[6]为了更加准确地检测显著区域,提出了一系列新的局部区域和全局特征用于计算显著性。这些特征包括:多尺度对比,中心-周围直方图和颜色空间分布。该方法通过学习一个条件随机场来高效地结合上述这些特征用于检测显著区域。由上可知,因为只是通过局部对比来检测显著区域,所以基于局部对比的方法趋向于关注边缘周围的区域,而不会突出整个显著区域(在生成的显著图中即表现为边缘周围的区域具有高的显著值,而显著区域内部的显著值则较低)。这个问题可以称其为“不一致突出显著区域”问题。

1.2基于全局对比的显著区域检测算法

基于全局对比的显著区域检测算法将整幅图像作为对比区域来计算每个图像子区域或像素的显著值。Achanta 等人[13]从频率域角度出发,首次提出了一种基于全局对比的显著区域检测的方法。该方法将经过高斯低通滤波图像中的每个像素值和整幅图像的平均像素值之间的欧几里得距离作为该点的显著值。该方法非常简单,时间消耗非常低,且实验结果在查准率-差全率方面的效果也堪称优良。该方法使得显著区域检测向实用化的方向更前进了一步。然而Achanta 等人提出的方法[13]在以下两种情况下会失效:

(1)显著区域的颜色占图像中的大部分,通过方法[11]计算后,背景会具有更高的显著值;

(2)背景中含有少量突出的颜色,这样背景中的这部分颜色的显著值也会非常高。第1期景慧昀,等:显著区域检测算法综述智能计算机与应用第4卷

针对以上缺陷,作者又在文章[18]中将此方法完成了进一步的改进。作者发现检测显著区域边缘和检测显著区域中心所需要的图像频段是不同的,由此而依据像素点越在图像中心越可能接近区域中心这样一个假设,来调整均值滤波的带宽,使得位于显著区域不同位置的像素点则有不同的均值滤波带宽。而且,即将经过滤波后的图像中每个像素值和该像素所在的对称子窗口内的像素平均值的欧几里得空间距离作为该点的显著值。经过这样的调整,算法的时间复杂度有所提高,但是实验结果性能却有较大提升。

Cheng等人在文章[15]中提出了两种简单快速且更为准确的显著区域检测方法。第一种方法只采用颜色的全局对比,作者将每个像素点和图像中其它所有像素的Lab颜色向量的欧几里得距离之和的1 / N(N为该图的像素点个数)作为该点的显著值。为了更快速地开展计算,作者对图像中的颜色进行了量化,以颜色为单位计算每种颜色和图像中其它所有颜色的欧几里得距离。第一种方法中只考虑了颜色的全局对比,并未考虑空间位置关系,使得和显著区域颜色接近的背景区域的显著值也较高。作者在加入空间位置关系后又一次提出了方法二:首先对图像进行分割,获得一定数量的子区域。基于子区域,将子区域之间的空间位置关系作为权值计算该子区域与图像其它所有子区域之间的相似度之和。方法2比方法1的时间复杂度略高(主要是由于引入了图像分割操作,该操作比较耗时),但是实验结果得到了较大提高。通过仿真验证,Cheng等人[15]提出的方法简单高效。

He等人[17]在Cheng的研究基础上,提出了结合全局对比和颜色空间分布的显著区域检测方法。作者指出颜色的空间分布越紧凑,该类颜色就应具有更高的显著性,反之亦然。该方法将每类颜色所属像素空间位置的方差作为衡量颜色空间分布的指标,生成颜色空间显著图。其后将颜色空间显著图和直方图对比度显著图或区域对比度显著图进行叠加得到最终的显著图。Perazzi等人[16]也提出了一个基于对比度和空间分布的显著区域检测方法。

上述这些基于全局对比的显著区域检测方法可以在一定程度上消减“不一致突出显著区域”问题。但是当显著区域非常大或者图像背景非常复杂时,这些基于全局对比的方法就趋向于突出背景区域而不是显著区域了。因而该问题可以称之为“突出图像背景”问题。

2显著区域检测算法测试

本节使用Achanta等人[13]提出的公开可用的测试图像库来评价现有典型的显著区域检测算法的性能。该测试图像库包含了1 000幅自然图像以及与其相对应标识显著区域的二值基准图像,并将查准率-查全率曲线作为衡量显著区域检测算法性能的评价指标。

图1显示了近期6个性能最先进的显著区域检测方法(MZ[11]、 LC[14]、 FT[13]、 HC[15]、 RC[15]、 SF[16])在Achanta数据集上的评测结果。这些方法中,对于FT、HC、RC和SF,本节使用作者的原始的实现程序来生成对应的显著图。而对于MZ和LC方法,本节直接使用Ma等人[11]和Cheng等人[15]所提供的显著图。由图1可以看出SF在Achanta等人[13]提供的测试集上取得了最好的检测性能。

3结论与展望

本文对现有的显著区域检测方法进行概述。现有的显著区域检测方法是利用局部邻域或者整幅图像作为对比区域来计算显著性的。从本质上而言,现有方法使用的并不恰当的对比区域导致了其相应具有的“不一致突出显著区域”和“突出图像背景”两个问题。在进行对比度计算之前,首先实现对比区域预估计的显著区域检测方法将成为下一步的发展趋势。

参考文献:

[1]ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254–1259.

[2]MURRAY N, VANRELL M, OTAZU X, et al. Saliency estimation using a non-parametric low-level vision model[C] // IEEE Conference on Computer Vision and Pattern Recognition. 2011:433–440.

[3]HOU X, ZHANG L. Saliency detection: A spectral residual approach[C] // IEEE Conference on Computer Vision and Pattern Recognition. 2007:1–8.

[4]BAN S, JANG Y, LEE M. A?ective saliency map considering psychological distance[J]. Neurocomputing, 2011, 74(11):1916–1925.

[5]LIU T, SUN J, ZHENG N, et al. Learning to detect a salient object[C] // IEEE Conference on Computer Vision and Pattern Recognition. 2007:1–8.

[6]LIU T, YUAN Z, SUN J, et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence 33 (2) (2011) 353–367. , 2011, 33(2):353–367.

[7]KO B C, NAM J Y. Object-of-interest image segmentation based on human attention and semantic region clustering[J]. Journal of Optical Society of America A, 2006, 23(10):2462–2470.

[8]RUTISHAUSER U, WALTHER D, KOCH C, et al. Is bottom-up attention useful for object recognition?[C] // IEEE Conference on Computer Vision and Pattern Recognition, 2004:30–37.

[9]ZHANG G X, CHENG M M, HU S M, et al. A shape-preserving approach to image resizing[C] // Computer Graphics Forum, 2009:1897–1906.

[10]EINHAS?ER W, KO^ENIG P. Does luminance-contrast contribute to a saliency map for overt visual attention?[J]. European Journal of Neuroscience, 2003, 17 (5):1089–1097.

[11]Y. Ma, H. Zhang, Contrast-based image attention analysis by using fuzzy growing[C] // ACM International Conference on Multimedia, 2003:374–381.

[12]KLEIN D, FRINTROP S. Center-surround divergence of feature statistics for salient object detection[C] // IEEE International Conference on Computer Vision, 2011:2214–2219.

[13]ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C] // IEEE Conference on Computer Vision and Pattern Recognition, 2009:1597–1604.

[14]ZHAI Y, SHAH M. Visual attention detection in video sequences using spatiotemporal cues[C] // ACM International Conference on Multimedia, 2006:815–824.

[15]CHENG M, ZHANG G, MITRA N, et al. Global contrast based salient region detection[C] // IEEE Conference on Computer Vision and Pattern Recognition, 2011:409–416.

[16]PERAZZI F, KRAHENBUHL P, PRITCH Y, et al. Saliency ?lters: Contrast based ?ltering for salient region detection [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2012:733–740.