计算机视觉感知技术范文
时间:2023-09-14 17:50:59
导语:如何才能写好一篇计算机视觉感知技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
【关键词】计算机;视觉系统;框架构思
在现代计算机技术的支持下,对人类视觉功能进行模拟的计算机系统被称为计算机视觉系统,因为视觉系统本身兼具科学性和应用性,所以计算机视觉系统本身既具有科学学科的特性又具有工程学科的特性。对其的研究不仅能够进一步了解人类本身,而且能够在工业生产领域发挥更大的作用。
1 计算机视觉系统现有理论框架
1.1 计算机世界理论框架
20世纪80年代,麻省理工学院教授Marr在视觉理论研究领域获得突破,提出了利用计算机实现视觉能力的理论框架――计算机视觉理论,这一理论主要特点是以现代信息处理的方式对人类视觉能力作用机制进行了分析,并以人类的视觉能力为基础在计算机技术的支持下形成了三个不同的计算机层次。分别是计算机理论层次、表示层次和算法层次。这三个层次分别对应着人类对视觉信息进行处理的三个环节,通过各个环节的仿生设置,计算机视觉系统就能够将初步的视觉处理能力赋予计算机。这一理论中的核心是计算机理论层次,Marr认为人类的视觉能力主要是从图像中建立物体形状和位置的描述,所以在这一层次中设计者设计的主要环节是从初步获取的二维图像中提取和细化物体的三维结构和位置,并将这些信息在一个二维平面上反映出来,即三维重建。
1.2 基于知识的视觉理论框架
基于知识的视觉理论框架最早产生于20世纪90年代,最早的提出者是Lowe。认为在人类的视觉能力发挥过程中,对三维物体的实际测算是不必要的,人类的视觉能力与三维测算能力没有直接的关系,虽然使用三维测算技术也能够实现计算机视觉系统的功能,但并不是对人类视觉功能的模仿。Lowe认为在人类的视觉活动中,会将三维物体看成二维物体,也会将二维物体看成三维物体。这种现象本身并不是偶然性的,而是一种视觉作用机制的必然。既然人类肉眼能够借助一定的作用机制和处理能力实现二维的三维化,在计算机视觉系统中就完全有可能设计出这种对人类肉眼直接模拟的机制。以感知系统感知物体的二维特性,并在其基础上直接生成三维图像,而不需要借助复杂的测量过程。
1.3 主动视觉理论框架
主动视觉理论是在现有计算机理论的基础上形成的新型理论框架,是根据人类视觉功能实现的主动性提出的。在人类实现视觉功能的过程中,人类的视觉系统并不是被动的,而是会根据视觉系统的要求调动身体的其他部位进行配合的、具有主动性的,所以在人类视觉功能的发挥过程中,视觉系统是具有主动性的,人类视觉系统的视角、关注点都会是动态变化的。
基于这一理论,主动视觉理论框架认为人类的视觉活动是一种“感知――动作”过程。根据这一原则,主动视觉理论框架认为计算机视觉系统并不需要精准的三维测算系统。而应该以计算机视觉获取系统为核心,设置主动的视觉系统。这一理念在实际的应用中主要通过对图像获取系统技术参数的调整和控制来实现,例如摄像机的位置、取向、焦距、光圈等,通过对这些参数的调整图像信息获取系统就能够从不同的视角对物体进行观察,进而获取物体的三维图像信息。
2 计算机视觉理论框架中存在的问题
计算机视觉理论框架的产生极大的支持了计算机视觉系统的研发工作,但是在计算机视觉系统的实际研发工作中,也逐渐暴露出了计算机理论框架的缺陷。当前主流的计算机视觉系统框架中,计算机视觉理论是最早产生的也是唯一一种被动的计算机视觉技术。在其理论系统中更多的强调人类视觉系统的测算能力,而没有意识到人类的视觉系统是一种主观性很强的、目的性很强的信息获取系统,完全建立在测算基础上的计算机视觉理论框架是不必要的。
基于知识的理论框架,认为人类视觉系统的功能实现主要环节是反馈,强调了人类视觉活动中主观意识的指导作用。但是它过于强调系统的目的性和主观性,完全否定了计算机视觉理论,认为人类视觉系统是个完全脱离计算机的认识过程,这种认识显然是错误的,在判断物体尺寸大小、距离远近时,测算无疑是极为必然的。
主动视觉理论并不完全排除三维重建,认为计算机视觉系统的三维重建应该建立在图像获取系统的主动性上。通过改变图像获取摄像机的角度、参数对时间、空间和分辨率等进行有选择的感知,解决了计算机视觉系统认知过程中的不稳定问题,降低了计算机视觉系统实现的难度。但是在其理论框架内部缺乏主观、高层的指导,从整体上看并不完善。
3 计算机视觉系统框架的新构思
在计算机视觉系统的研究领域,三种理论构建各有优劣。但是无疑反应了当前计算机视觉系统研发的主流思想,因此计算机视觉系统框架的新构思应该在其基础上进行,致力于克服各个理论的缺点。综合比较三种理论框架,笔者认为计算机视觉理论虽然存在某些问题,但是从整体上看这一理论框架是最具实践性和操作性的,其存在的问题完全可以借助其他理论框架加以解决,因此笔者以计算机视觉理论为主体,结合基于知识的视觉理论和主动视觉理论,提出一个更加完善和通用的计算机视觉系统构架。
计算机视觉系统视觉功能实现的主体结构还是建立在计算理论结构的基础上的,将计算理论框架中的早期视觉处理环节分为图像预处理、图像分割和二维模式识别两个部分,因为图像的预处理是在平面图像基础上的简单处理,不需要主观主导意识和目的性的参与,同时图像分割和二维模式识别能够最大限度的提升后继图像处理的效果。
在早期处理完成以后,后继的中后期处理还是分别情调了二维模式识别和三维模式识别,虽然这两种模式本身的识别原理是一样的,但是其面对的对象不同,物体的模型也不同。一般来讲,在我们的世界中二维信息具有很强的重要性,图形、文字、指纹等关键二维信息在通常情况下作用更大、应用范围更广,所以计算机视觉系统矿建的新思路中,要对二维信息进行进一步的处理。
模型库提供具体物体模型的表示。知识库不但要对物体进行抽象表示而且还要对抽象知识进行推理。人类经验的积累和知识的获取是通过学习而得到的,所以加人模型库、知识库管理,并让其从输出结果中进行学习。这将使模型库和知识库更加丰富和完善。
视觉活动本身是带有目的性的,所以在有些时候视觉系统的应用确实需要视物体的实际情况来决定,有时只需识别场景中存在的是什么物体或某物是否存在,而不要求定量恢复场景中的物体。因此,在计算机视觉系统中引人视觉目的来判断输出是否满足要求。同时,用视觉目的对图象分割和二维模式识别、中期视觉处理、后期视觉处理和三维模式识别加以控制。如果需要三维重建则由主动视觉控制成象来获得景物更完整的信息。
计算机视觉系统框架是支持计算机视觉系统实现的重要基础,所以在计算机视觉系统的研发、设计工作中,对理论框架的研究具有鲜明的现实意义,本文简单介绍了现有框架思想,并分析了其各自的优缺点,最后再这些理论框架的基础上形成了计算机视觉系统框架的新构思。认为计算机视觉系统构架应该以计算机理论为基础,以视觉活动的主观性和目的性为指导,以具体的视觉实现形式为方法。
【参考文献】
篇2
以下为报告详细内容:
2017年计算机视觉技术在更多的领域有所落地应用,自动驾驶领域、高考、政务等领域更多的场景开始应用计算机视觉技术。艾媒咨询分析师认为,计算机视觉行业技术是核心基础,随着技术成熟度提高,未来将有更多的场景能够应用计算机视觉技术,计算机视觉企业应在强化技术打造的前提下,发掘更多新的应用领域,提高商业落地应用。
2017年人脸识别技术在智能手机终端应用开始普及。9月苹果新品会上,iPhone X宣布引入Face ID高精度人脸识别技术,引来人们高度关注。而除了iPhone X,华为、小米、OPPO、vivo等手机厂商都推出了带人脸识别功能的智能手机。艾媒咨询分析师认为,计算机视觉领域内人脸识别功能可应用场景广泛,商业化落地能力强,除了计算机视觉创业企业,互联网巨头和硬件巨头企业也纷纷关注布局人脸识别领域。但目前人脸识别技术仍然存在一定缺陷,艾媒大数据舆情管控系统数据显示,“手机人脸识别”热词言值数据为48.5,整体舆情偏负向。现阶段人脸识别技术在智能手机终端上的应用仍处于起步发展阶段,技术和安全性仍有待提高,未来随着各计算机视觉企业加强技术研发,人脸识别技术有望进一步改善,成为智能手机标配。
iiMedia Research(艾媒咨询)数据显示,2017年中国计算机视觉市场规模为68亿元,预计2020年市场规模达到780亿元,年均复合增长率达125.5%。艾媒咨询分析师认为,人们安全和效率需求不断提升,计算机视觉技术在各行业应用能有效满足人们需求,市场发展空间巨大。国家政策对人工智能行业的支持也为计算机视觉的发展提供了有利的环境。随着计算机视觉技术日渐成熟,企业商业化落地能力不断提高,未来计算机视觉市场规模将迎来突破性发展。
iiMedia Research(艾媒咨询)数据显示,商汤科技以24.3%的企业知名度排名各计算机视觉企业首位,旷视科技与云从科技则分别以23.1%以及21.7%的知名度分列二三位。艾媒咨询分析师认为,商汤科技计算机视觉技术及算法能力在行业内较为出色,同时在安防、金融、商业、手机端等多个领域均有商业落地应用,在企业认知和品牌推广方面具有优势。
iiMedia Research(艾媒咨询)显示,61.7%的受访网民通过手机APP应用接触计算机视觉应用,另外有50.9%的受访网民接触途径为通过智能手机终端。艾媒咨询分析师认为,计算机视觉企业主要服务B端用户及政府机构,相比于其他途径,移动端更适合应用计算机视觉技术的产品推广。计算机视觉技术日趋成熟,在移动终端和APP上均有落地应用,也进一步为计算机视觉企业在大众中奠定基础。未来企业可通过线上渠道开发挖掘C端用户市场。
iiMedia Research(艾媒咨询)显示,半数受访网民认为智能手机及APP加入人脸识别技术功能方便了二者的使用,另有48.8%的受访网民认为人脸识别技术在手机及APP上的应用是未来技术发展的趋势。艾媒咨询分析师认为,人脸识别技术在手机及APP端的应用满足人们智能化和便捷化的需求,随着越来越多的手机及APP产品加入人脸识别功能,未来其普及和认可程度将得到进一步提高。
iiMedia Research(艾媒咨询)显示,41.8%的受访网民表示未来愿意使用人脸识别技术进行手机及APP解锁,同时有41.4%的受访网民虽持观望态度,但愿意尝试。此外,47.4%的受访网民认为人脸识别将取代其他手机及APP解锁技术成为未来主流。艾媒咨询分析师认为,近期智能手机纷纷应用人脸识别技术解锁推动该功能技术的普及,便捷性的优势使该功能技术前景受看好。但目前人脸识别解锁技术的准确性仍然受到质疑,随着未来技术进一步成熟,该技术有望成为智能手机设备标配。
iiMedia Research(艾媒咨询)显示,33.9%的受访网民曾使用过人证比对功能进行业务办理。在使用过该功能的人群中,54.6%认为其方便了业务办理,提供了效率,且有47.3%该部分人群认为其识别准确程度高。艾媒咨询分析师认为,政府、银行等机构业务办理效率以往常遭诟病,人证识别技术的应用提高了办事效率,在提高人们满意度的同时,加强了计算机视觉技术的认可度。未来计算机视觉技术在政府、银行等机构的落地应用将进一步扩展,但其中涉及到个人信息保护等问题需要企业及相关机构合力解决。
iiMedia Research(艾媒咨询)显示,34.1%的受访网民认为公安办案为最有必要应用人脸识别技术的安防情景。而关于网民对人脸识别技术在安防监控领域应用看法调查中,56.1%的受访网民认为其能有力保护人们人身财产安全。艾媒咨询分析师认为,计算机视觉技术,尤其是人脸识别技术在安防领域应用意义重大,在刑侦破案、身份认证、公共安全保护等情景具有重要应用价值。未来安防领域将成为计算机视觉技术重点应用领域,而安防的重要性也对相关企业技术实力有严格的要求,未来安防领域市场或由少数技术实力较强的企业占据。
商汤科技是专注计算机视觉与深度学习原创技术的人工智能创业企业,拥有强大的技术能力和人才资源储备支撑发展。商汤科技在计算机视觉领域综合实力较强,获资本方青睐,B轮融资4.1亿美元,同时与国内外知名企业展开合作。艾媒咨询分析师认为,商汤科技在商业营收上同样处于行业领先水平,但其本质专注于技术发展,强大的技术基础能较好支撑商汤科技在上层应用场景的扩展。商汤科技在技术驱动商业应用的同时,积累商业应用经验,提高企业知名度,拓展应用至更多领域。
艾媒咨询分析师认为,商业化落地能力欠缺是目前计算机视觉行业大部分企业的痛点,商汤科技在商业落地应用方面处于行业领先位置。这一方面源于商汤科技技术能力往专业化发展,以专业技术和研发基础实现场景差异化应用。另一方面,纯计算机视觉技术或算法由于其专业性,需求方在使用时需要具备专业能力,而商汤科技技术产品往标准化方向打造,打包成行业解决方案,能适应更多企业使用需求,也有利于商汤科技技术进一步落地应用。未来坚持技术为基础,继续提高商业落地能力,商汤科技有望继续保持良好发展态势。
旷视科技成立于2011年,2017年10月完成巨额C轮融资,专注于人脸识别、图像识别和深度学习技术自主研发和商业化落地,深耕于金融安全、城市安防、商业物联、工业机器人等领域,同时打造人工智能开放云平台。艾媒咨询分析师认为,旷视科技利用云平台为开发者提供技术支撑,有利于计算机视觉技术进一步结合产品运营,同时可以收集海量图片数据,通过进行深度学习,旷视科技图像识别技术又能进一步得到提升,有利于其强化自身核心技术能力。
艾媒咨询分析师认为,人脸识别技术对于金融行业业务办理及风控等流程具有重要应用价值,旷视科技在人脸识别技术上的优势也助其有效开展金融领域的服务应用。未来随着旷视科技利用云开放平台相关图片数据进行深度学习强化人脸识别技术,以及在金融领域积累的渠道资源,其有望在金融领域继续强化技术服务,成为该领域市场有力的竞争者。
艾媒咨询分析师认为,自动驾驶为人工智能和汽车行业未来发展方向,计算机视觉技术在自动驾驶汽车实现路况感知、高精度定位等方面发挥重要作用,自动驾驶为计算机视觉技术未来重要应用领域。图森未来的计算机视觉技术和算法在自动驾驶领域实现专业化发展,未来有望在此细分领域成长为领先企业。
2017-2018中国计算机视觉行业发展趋势
需求驱使计算机视觉行业发展潜力巨大应用场景拓展渗透各行业
艾媒咨询分析师认为,人们对生活安全以及生产效率追求两大需求的提升,决定计算机视觉行业具有巨大发展空间。而计算机视觉技术场景应用具有广泛性,有望发展成为下一个智能时代的标配。目前计算机视觉技术主要应用在B端领域,短期内行业发展趋势也是集中于B端领域。未来随着技术成熟,计算机视觉有望拓展更多新的应用场景,实现场景落地,渗透至各行各业,形成AI+,开拓更多C端业务。此外,计算机视觉技术可以跟其他技术,如AR、VR、无人驾驶等结合发展,创造新的应用领域。
技术应用由点及面行业解决方案及软硬件结合成商业产品出路
对于计算机视觉技术使用者来说,由于技术的学习应用需要花费较多时间和精力,硬件产品及行业解决方案往往更受青睐。未来计算机视觉企业需要将软硬件结合,如打造嵌入式芯片等。此外,计算机视觉企业应将技术应用由点及面,将技术应用发展成针对各行业的解决方案。未来市场将出现更多基于计算机视觉技术应用的行业解决方案和软硬一体化产品,只有打造方便用户使用的商业产品,才能有效适应其需求,帮助计算机视觉企业迅速占领行业市场,在市场竞争中取得领先优势。
计算机视觉行业发展对企业综合实力要求高
艾媒咨询分析师认为,计算机视觉行业巨大的发展前景决定其具有高成长性特点,未来将涌现更多人工智能领域优秀企业。但行业发展同时伴随高风险性,行业竞争需要比拼企业技术算法能力、资金能力、以及人才资源,同时考验企业能否实现技术迅速落地,对企业综合实力要求高,综合实力不具备优势的企业在行业内将难以生存。
篇3
关键词:计算机视觉;案例推理;图像处理;图像描述
中图分类号:TP391.41 文献标识码:A文章编号:1009-3044(2007)04-11102-03
1 引言
基于案例推理(case-base reasoning)是人工智能中正不断发展的一项重要推理技术。基于案例推理与类比推理方法相似,案例推理将旧经验或教训转换为知识,出现新问题时,首先查找以前是否有相似的案例,并用相似案例解决新问题。如果没遇到相似案例的,经过推理后解决新问题的方法,又会成为新的案例或新经验,下一次再遇到相同问题时,就可以复用这些案例或经验。
这与人遇到问题时,首先会用经验思考解决问题的方式相似,这也是解决问题较好的方法。基于案例推理应用于工业产品检测或故障诊断时具有以下特点:
CBR智能化程度较高。利用案例中隐含的难以规则化的知识,以辅助规则推理的不足,提高故障诊断系统的智能化程度。
CBR较好解决“知识获取”的瓶颈。CBR知识表示以案例为基础,案例的获取比规则获取要容易,大大简化知识获取的过。
CBR求解效率较高。是对过去的求解结果进行复用,而不是再次从头开始推导,可以提高对新问题的求解效率。
CBR求解的质量较高。CBR以过去求解成功或失败的经历,可以指导当前求解时该怎样走向成功或避开失败。
CBR持续不断的学习能力,使得它可以适应于将来问题的解决。
所以基于案例推理方法正不断应用在产品质量检测和设备故障诊断方面,并取得较好的经济效益。为了产品检测和设备故障诊断中,更为智能化,更容易实现现场检测和诊断,计算机视觉技术起到很大的作用。
计算机视觉是研究用计算机来模拟人和生物的视觉系统功能的技术学科,使计算机具有感知周围视觉世界的能力。通过计算机视觉,进行图像的获取预处理、图像分割与特征抽取、识别与分类、三维信息理解、景物描述、图像解释,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力,从而达到识别、理解的目的。
计算机视觉随着科学技术发展,特别计算机技术、通信技术、图像采集技术、传感器技术等,以及神经网络理论、模糊数学理论、小波的分析理论等计算机视觉理论的不断发展和日趋成熟,使计算机视觉从上世纪60年代开始兴起发展到现在,取得快速发展,已经从简单图像质量处理发展到围绕着纹理分析、图像编码、图像分割和滤波等研究。图像的分析与处理,也由静止转向运动,由二维转向三维,并主要着眼于对图像的识别和理解上,也使计算机视觉的应用领域更为广泛,为案例推理中运用计算机视觉打下基础。
2 案例推理系统的主要关键技术
(1)案例的表示与组织
案例的表示与组织即是如何抽取案例的特征变量,并以一定的结构在计算机中组织存储。如何将信息抽取出特征变量,选择什么语言描述案例和选择什么内容存放在案例中,案例按什么组织结构存放在存储器中,这关系到基于案例推理方法的效率,而且对于案例数量越来越多,结构十分复杂的案例库,尤其重要。
(2)案例的索引与检索
案例的索引与检索即是为了查找最佳相似案例,如何建立案例索引和相似度算法,利用检索信息从案例库中检索并选择潜在可用相似案例。后面的工作能否发挥出应有的作用,很大程度上依赖于这一阶段得到的案例质量的高低,因此这一步非常关键。
(3)案例的复用和调整
案例的复用即是如何根据旧案例得出新解,涉及到找出案例与新问题之间的不同之处,案例中的哪些部分可以用于新问题,哪些部分不适合应用于新问题的解决。而复用还分案例的结果复用,案例的求解方法复用。
(4)案例的学习
案例的学习即是将新解添加到案例库中,扩充案例库的案例种类与数量,这过程也是知识获取。此过程涉及选取哪些信息保留,以及如何把新案例有机集成到案例库中,包括如何存储,如何建立索引等等。
针对案例推理的关键技术,根据检测和故障诊断系统的特点,计算机视觉主要解决如何将产品图像输入系统,如何将产品图像特征进行抽取和描述,如何区别产品不同之处。以便案例推理系统进行案例建模,确立案例的表示形成和案例相似度的计算。本文主要从计算机视觉如何运用在案例推理系统进行探讨。
3 产品输入系统
产品输入系统在不同产品类型和生产环境可能有不同之处,主要应有传感器单元和图像采集单元。如图1。
图1 产品输入系统结构
传感器单元主要判断是否有产品存在,是否需要进行图像采集,是否继续下一个产品图像的采集。这简单传感器可使用光电开关,配合光源,当产品经过时,产品遮挡住光源,使光电开关产生一个0值,而没有产品经过时,光电开关产生相反的1值,系统通过判断光电开关的值,从而判断是否有产品。
图像采集单元简单地说是将产品拍摄并形成数字化图像,主要包括光源、反射镜、CCD相机和图像采集卡等组成。光源和反射镜作用主要使图像中的物体和背景之间有较大灰度。CCD相机主要是拍摄设备。图像采集卡主要是将图像数字化。通过传感器判断有产品后,光源发出的光均匀地照在被测件上,CCD相机拍摄,拍摄图像经过图像采集卡数字化后输入存储设备。存储设备即为计算机硬盘。存放原始图像、数据、处理结果等。
这是案例推理系统的原始数据,是图像处理、图像特征抽取描述的基础。
4 图像处理
在案例推理系统中,需要对案例的组织和案例建模,案例的组织即案例的表示,相对计算机而言,即图像特征的抽取,即某图像具有与其它图像不同之处,用于区别其它图像,具有唯一性。同时,又能完整地表示该图像。所以案例的表示要体现案例的完整性、唯一性、操作容易性。
图像中有颜色区别、又有物体大小之分以及图像由不同的物体组成。如何表示图像,或说图像内部包含表示的本质,即图像的描述。根据图像特点,确立图像案例的表示,以图像的像素、图像的数字化外观、图像物体的数字组成等属性。这需要对产品输入的原始图像进行处理。
在计算机视觉技术中,对原始图像主要进行图像增强、平滑、边缘锐化、分割、特征抽取、图像识别与理解等内容。经过这些处理后,输出图像的质量得到相当程度的改善,既改善了图像的视觉效果,又便于计算机对图像进行分析、处理和识别。具体工作流程如图2所示:
图2 计算机视觉的任务与工作流程
图像预处理是将产品的数字图像输入计算机后,首先要进行图像的预处理,主要完成对图像噪声的消除以及零件的边缘提取。预处理的步骤为:图像二值化处理;图像的平滑处理;图像的边缘提取。
图像二值化处理主将灰度图形二值化的关键是阈值的选取,由于物体与背景有明显的灰度差,可以选取根据灰度直方图中两峰之间的谷值作为阈值来分割目标和背景。
图像的平滑处理技术即图像的去噪声处理,主要是为了去除实际成像过程中因成像设备和环境所造成的图像失真,提取有用信息。
图像边缘提取是为了将图像中有意义的对象与其背景分开,并使之具有某种指定的数学或符号表达形式,使计算机能够理解对象的具体含义,检测出边缘的图像就可以进行特征提取和形状分析了。可采用多种算法,如采用Sobel算子提取边缘。
图像预处理是为下一步的特征描述打基础,预处理的好坏直接影响案例推理的结果和检测诊断的效率。
特征提取是对图像进行描述,是案例建模关键,案例建模是根据案例组织要求抽取图像特征,是建立案例索引和检索的关键。如果图像没有特征,就谈不上进行检索。图像特征可通过图像边界、图像分割、图像的纹理等方法,确定图像特征,包括是什么产品、产品形状大小、产品颜色,产品有什么缺陷、产品缺陷在什么位置等特征,根据这些图像特征进行描述,形成计算机中属性值,并从数据库查找相应信息资料,从而确定产品之间的关系,相似度,也就是案例推理的方向。
5 系统的检索
根据案例推理原理和相应算法,建立案例推理系统模型,如图3所示。
图3 案例推理系统
对话系统:完成人机交互、问题描述、结果显示和系统总控制。
案例库系统:由案例库及案例库管理系统组成。
数据析取系统:对各种已有的源数据库的数据通过转换而形成所需的数据。
多库协同器:根据问题求解的需要,按照一定的数据抽取策略,完成问题求解过程中对模型库系统、方法库系统、知识库系统和数据库系统等资源的调度与协调。
知识库系统:由产生式规则组成,这些知识包括专家经验和以规则形式表示的有关知识,也可以是数据挖掘结论,支持案例检索、案例分析、案例调整等。 模型库系统:由模型库、算法库、模型库管理系统组成。完成模型识别和调用,并把结果综合,送入对话系统显示,作为补充信息供案例检索、调整使用。
数据库系统:存放待决策支持的所有问题,并完成其维护与查询等功能。
由于系统主要应用产品的现场实时检测监控或故障诊断,所以系统的检索时,也必须输入检索值,即输入现场产品的图像,在通过产品预处理、图像的二值化、分割和边界处理后,进行图像特征描述,根据图像描述进行分类识别。根据案例推理的算法检索案例库中,是否有相似的案例。即确定相似度。相似度确定主要由案例推理的算法确定,如贴近分析法。确定相似度最大作为结果,并将案例的解输出,给相关控制系统进行决策。如产品质量检测,确定产品质量是否合格,是否有不合格产品,不合格产品是什么原因造成,故障源是什么,如何解决和排除故障,等等。
6 结论
案例推理方法有效地解决计算机视觉技术中图像检索问题。对提高图像检索的效率和准确度提供了平台。
计算机视觉技术也为案例推理系统实现产品现场实时检测、监控、诊断提供技术支持。计算机视觉技术现场的数据采集、处理为案例推理打好基础。
两者的结合设计的系统适用范围很广,只要产品需要进行质量检测、监控,或设备需要进行故障诊断和维护,都可以适用。
系统提供的实时检测、监控和诊断功能,提高企业的生产效益,降低了生产成本。
参考文献:
[1](美)桑肯(Sonka,M).图像处理分析与机器视觉[M].人民邮电出版社.
[2]王宏等译.计算机视觉[M].电子工业出版社.
[3]蔡建荣.自然场景下成熟水果的计算机视觉识别[J].农业机械,36(2):61-64.
[4]王宇辉.基于计算机视觉的锥体零件尺寸在线检测算法[J].重型机械,2005,2:4-6
[5]骆志坚.基于计算机视觉检测技术自动计数系统的研究与应用[J].仪表技术与传感器,2005,3:41-43.
[6]左小德.贴近度分析法在案例库推理中的应用[J],南大学学报(自然科学版),1997,18(1):21-26.
[7]姜丽红.案例推理在智能化预测支持系统中的应用研究[J].决策与决策支持系统,1996,6(4):63-69.
篇4
关键词:计算机视觉技术;C# ;;作物无损检测;软件设计
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)15-3640-03
数字农业和农业物联网技术作为现代农业最前沿的发展领域之一,是当今世界发展农业信息化,实现农业可持续发展的关键和核心技术。数字农业要求快速、实时、准确和定位化的获取植物生长信息,而农业物联网技术要求植物信息可实时动态感知,显然,传统的实验室测量分析和信息获取方法已经不能满足数字农业和农业物联网技术的发展要求。因此,研究和开发植物生命信息快速无损检测技术和传感仪器等软硬件平台已经成为现代农业承待解决的关键问题[1]。
目前,国内在作物无损检测方面的研究仪器主要是依赖进口,而相应的软件也是伴随着仪器而购买。此类软件,一般价格昂贵,而且在自主研究平台中,因为无法取得源代码而无法使用或升级,从而出现研究瓶颈。在各类无损化检测技术中,随着计算机视觉技术越来越广泛的应用,对应的软件系统的开发迫在眉睫[2]。
正是基于这样的背景,我们通过对目前应用比较广泛的C#进行研究,利用C#强大的数据处理能力和良好的用户界面开发,并结合强大的图像处理能力,进行作物实时检测软件平台的自主设计与开发。
1 计算机视觉技术简介
计算机视觉也称机器视觉,是采用摄像机或者数码相机将被检测图像转化为数字信号,再采用先进的计算机软件技术对图像信号进行处理,从而得到所需要的各种目标图像特征值。并由此实现模式识别,坐标计算等功能。然后再根据其结果输出数据,发出指令,再配合执行机构完成好坏筛选,位置调整,数据统计等自动化流程。与人工视觉相比较,计算机视觉的最大的优点是快速、精确、可靠,以及数字化。
随着数字农业和农业物联网技术的发展,计算机视觉技术将越来越广泛的应用于农业生产中,而构成计算机视觉系统的软件系统是整个计算机视觉系统的灵魂。随着硬件技术的不断发展完善,计算机视觉系统其功能是否强大,可以说完全取决于软件系统的能力。
2 软件系统设计
2.1 C#与
C#是由微软公司开发的一种面向对象的新型编程语言,它是从C和C++ 中派生出来的,保留了C/C++原有的强大功能,并且继承了C/C++的灵活性。同时由于是MicroSoft公司的产品,它又同Visual Basic一样具有简单的语法结构和高效的开发能力,可以使程序员快速的编写出基于.NET平台的应用程序。
一个基于C#框架,专门为C#开发者和研究者设计和开发的,这个框架提供了丰富的类库资源,包括图像处理,神经网络,模糊系统,遗传算法,人工智能和机器人控制等领域。该框架架构合理,易于扩展,涉及多个较前沿的技术模块,为相关开发人员或科研人员的工作提供了极大的便利。本系统就是采用C#程序设计语言,通过调用该框架来实现作物无损检查系统的开发。
2.2 系统设计与实现
本软件系统是在数码相机拍摄的作物图像的基础上,采用图像处理方法进行特征提取与分析,从而实现作物的无损检测。主要分为图像输入,图像预处理,特征提取,特征分析几个模块。
1) 图像输入
将要分析处理的图像读取到系统中来,为后面图像处理作准备。C#提供了三个最重要的图像处理类,即Bitmap类、BitmapData类和Graphics类。三种图像处理的方法,即提取像素法、内存法和指针法。从执行效率和实现难度综合考虑,本系统的开发采用内存法。
2) 图像预处理
图像预处理主要包括图像的大小调整,形态矫正,平滑和去噪等,以降低环境对拍摄照片造成的不利影响。提供了多个类,可以对图像进行平滑去噪等操作,本系统中采用了中值滤波算方法,对应中的Median类。
3) 特征提取
特征提取分析,是整个系统的核心所在,需要选取合适的图像分割算法,对图像进行处理,提取目标区域,为特征分析作准备。在本系统中采用了阈值分割技术,因为这种算法相对来说比较直接并且易于实现。
采用阈值分割技术,首先,必需确定一个阈值作为图像分割的阈值,在本系统中,采用自适应阈值法,由用户在软件的操作过程中进行设定,并且可以根据需要进行调整。然后,根据这个阈值对图像进行分割,并将其转化为二值图,如图(b)所示。从图中我们可以看到二值图像中存在大量的小孔,这种太小的孔洞对我们进行图像分析没有实际意义,并且会干扰结果的正确性,因此我们需要采用腐蚀和膨胀的形态学方法来进行填充孔洞,结果如图(C)所示。最后,我们需要根据需要提取目标区,涉及到连通区域的提取问题。最后,输出结果。
4) 特征分析
对图像分割结果进行分析,用于指导生产实践。我们可以对通过图像处理得到的目标区域进行分析,比如可以根据叶片颜色的变化判断叶绿素含量,进而推算出作物的营养状况,根据色素区域的大小计算出叶面积,根据不同区域的形状、大小判断病虫害等。
3 实验结果及分析
软件运行后主界面如图3所示。
为验证本系统的有效性,我们通过设定不同的阈值进行图像分割,并跟photoshop cs4软件中魔棒的工具作对比,来提取图片中的目标区域。测试图片大小为800px×610px,取特征点坐标P(310,70),该点的RGB值为(29,92,0),获取目标区域的总像素和绿色分量平均值,数据如表1所示。
从上述表中我们可以看出,本软件在图像处理目标区域的提取方面,提取到的目标区域较photoshop 提取的小,绿色分量平均值较photoshop更接近特征点数值,由此看出用本软件做图像分割准确性更高。
4 结束语与展望
计算机视觉具有非破坏性、快速、高效、信息量大等特点,目前已在主要的农作物和经济作物的养分诊断,植物病虫害的快速检测及预警预报等方面有了广泛应用,取得了较好的效果。随着计算机视觉技术和图像处理技术的发展,计算机视觉技术将更多的应用于植物长势预测、产量估计等方面。
通过本次研究,开发了一个交互界面良好的色素分量检测系统,能对图像在RGB分量上实现阈值分割,并实现目标区域的获取分析。该文主要提倡一种软件开发的理念,所设计开发的软件的针对性较强,还存在着很多的局限和不足,要作为计算机视觉类的通用软件,系统的稳定性和功能都还有待进一步提升。
参考文献:
[1] 刘飞.基于光谱和多光谱成像技术的油菜生命信息快速无损检查机理和方法研究[D].浙江:浙江大学博士学位论文,2011.
[2] 朱哲燕,陈红.基于MATLAB的作物信息光谱分析平台的设计与开发[J].科技资讯,2012(16).
[3] 蒋丽华.基于计算机视觉技术的叶绿素含量检测系统[D].苏州:苏州大学硕士学位论文,2009.
[4] 赵春江.C#数字图像处理算法典型实例[M].北京:人民邮电出版社,2009.
[5] 何勇,刘飞,聂鹏程. 数字农业与农业物联网技术[J].农机论坛,2012(1).
[6] 张起丽.基于数学形态学的彩色图像处理研究[D].西安:西北大学硕士学位论文,2009
[7] 冀高.基于数字图像处理的棉花群体特征提取[D].北京:北京邮电大学硕士学位论文,2007.
篇5
在用常见的手势进行交流时,人们很容易就能互相理解,在经过学习之后,聋哑人或是正常人都可以运用手语进行交流。不过,想象一下,当你对计算机(或机器)做一个手势,它就能领会你的意图会是怎样的情景呢?如果计算机(或机器)看得懂手语,又意味着什么呢?姑且不管实现这样的人机交流有何深远的意义,还是先让我们来探究一下这样的可行性吧,想想看得懂手语的计算机(或机器)能有什么用途。
人机交互:从呆板到员活
人类之间的交流往往声情并茂,既采用自然语言(口语、书面语言),还广泛采用人体语言(表情、体势、手势)。与人类之间的交流相比,人机交互就显得呆板多了。以计算机的输入方式为例,人要向计算机下达指令,最常见的方式还是通过键盘输入。当然,手写输入也正为许多人所接受和喜爱,语音输入的研究也进行得热火朝天,最初单一而呆板的输入方式已经得到了扩展。然而,科学研究是永无止境的,人体语言这种简单快捷的信息交流方式得到了很多研究者的关注,他们想,能不能把这种灵活的信息交流方式也引进人机交互中呢?
于是研究人员展开了对人体语言理解的研究。人体语言的感知、人体语言与自然语言的信息融合对提高计算机的人类语言理解水平,加强人机接口的可实用性有着积极的意义。手语(手势)是人体语言的一个非常重要的组成部分,它是包含信息量最多的一种人体语言,它与语言、书面语等自然语言的表达能力相同。因而完全可以把手语作为人机交互的一种手段,它具有很强的视觉效果,生动、形象、直观。可见,将手势运用于计算机能够很好地改善人机交互的效率。
计算机怎样识别手势?
从不同的角度可以对手势进行不同的分类。分为交互性手势和操作性手势,前者手的运动表示特定的信息(如乐队指挥),靠视觉来感知,后者不表达任何信息(如弹琴);分为自主性手势和非自主性手势,后者需要与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息),分为离心手势和向心手势,前者直接针对说话人,有明确的交流意图,后者只是反应说话人的情绪和内心的愿望。
手势的各种组合、运动相当复杂,不过简单来看,手势主要有如下的特点:手是弹性物体,因此同一手势之间差别很大,手有大量冗余信息,由于人识别手势关键是识别手指特征,因此手掌特征是冗余的信息:手的位置是在三维空间,很难定位:手的表面是,非平滑的,容易产生阴影。
了解了手势的这些特点,就可以在手势研究中对手势做适当的分割、假设和约束。例如,可以给出如下约束:如果整个手处于运动状态,那么手指的运动和状态就不重要,如果手势主要由各手指之间的相对运动构成,那么手就应该处于静止状态。比如鼠标和笔式交互设备就是通过识别手的整体运动来完成人与计算机的交互,但它们不能识别手指的动作,其优点是仅利用软件算法就能实现,适合于一般桌面系统。只有当用鼠标或笔式交互设备的运动或方向变化来传达信息时,才可将鼠标或笔式交互设备看作手势表达工具。笔式交互设备发展很快,它提供了充分的交互信息,如压力、方向、旋转和位置信息,但现有交互主要是简单地替代鼠标。
计算机识别手势的手段主要有两种:
1.数据手套。数据手套是虚拟现实系统中广泛使用的传感设备,用户通过数据手套,能做出各种手势向系统发出命令,与虚拟世界进行各种交互操作:比如通过一只与数据手套对应的在计算机屏幕上显示的虚拟手,使用户成为虚拟世界中的一员:抓取物体,如果手套有力反馈,还能让用户感觉到物体的重量和材质等。美国在“洞穴”虚拟系统中就是利用数据手套来研制武器。数据手套的主要优点是可以测定手指的姿势和手势,但是相对而言代价较为昂贵,并且有时会给用户带来不便(如出汗)。
2.计算机视觉。即利用摄像机输人手势,其优点是不干扰用户,这是一种很有前途的技术,目前有许多研究者致力于此项工作。但在技术上存在很多困难,目前的计算机视觉技术还难以胜任手势识别和理解的任务。
目前较为实用的手势识别是基于数据手套的,因为数据手套不仅可以输入包括三维空间运动在内的较为全面的手势信息,而且比基于计算机视觉的手势在技术上要容易得多。
更好地为人服务
日本三菱电子研究实验室的研究人员已经使用低成本的视觉系统,通过手势就可以控制一台电视机。由计算机控制的美国航空航天局虚拟太空站也是采用美国Cybernet公司开发的手语识别软件,通过一部架设在顶部的摄像机来追踪指挥者的手势。当系统捕捉到挥手等手势时,就会做出相应的反应,让指挥者像航天员一样在计算机虚拟的阿尔法国际太空站上移动(确切地说是飘动)。
Cybemet公司的软件还能识别一系列的特定手势,就像工地上的工人或交通警察经常用的那种手语,通过这些手势你能够旋转在虚拟旅行中看到的三维图像,还可以向上或是向下改变你的视角。美国航空航天局正在考虑把这套系统用于真正的太空站,因为笨重的航天服和微重力环境使得鼠标和键盘都变得难以操纵。也许不久之后,航天员就能用简单的手语来控制机器人在太空中抓取物体。
手语(手势)识别系统的研究还有助于改善和提高聋哑人的生活学习和工作条件,为他们提供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外,手语识别系统的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此,手语识别系统的研究非常有意义。
篇6
鼠标、键盘、遥控器和触摸屏,主导着当前人类与电子产品沟通的界面,无论电脑、电视、冰箱还是手机,都因为它们的存在而显得更加弱智与呆板。也许不久之后,我们就可以抛开它们,更加直接地与机器对话,不是用语言,而是用动作。
3月中旬,海尔展示了一款具备智能化手势识别能力的空调。“举起手,你就拥有了控制权。如果你想开机,就快速握拳并松开;想调节温度,每向左挥一下手,空调设置温度就降低一度;每向右挥一下手,空调设置温度就升高一度……”海尔工作人员如此介绍。其实现原理是通过配备的摄像头获取、识别用户的动作,并转换成控制信息发送给空调的控制板,从而实现控制功能。
这实际上是一种相对初级,但已经完全可以实现商业化的手势控制技术,更高级的技术还在不断推出之中,从微软到英特尔,从美国德州仪器到日本索尼、富士通,都是其中热情的推动者。谁知道呢?也许在不久的将来,我们就可以通过自己在电视机前的动作,直接参与到正在荧屏上播放的电视剧表演当中。
从游戏机到手机
手势控制,有时也被称为体感操控,提到这一技术,人们往往会首先想到微软在其Xbox上采用的Kinect技术。该技术在2010年6月推出,借助一个3D摄像头和手势识别软件,让人们利用身体的自然活动玩游戏,从而取代原始的摇柄。就在今年3月中旬,微软宣布,为Windows版Kinect SDK开发套件进行了两年多来最大的一次更新,主要针对“KinectInterations”手势识别和“Kinect Fusion”实时3D建模两个方面。据了解,本次重点推出的手势识别功能将包括“推按按钮、抓取拖拽,并且支持以更为智能的方式容纳多用户及2人互动”。而微软希望通过开发套件的更新,吸引开发者创造出更多好玩的东西。
其实不只是游戏机,手势控制可以改变很多产品。通信和IT圈对新的接口尤其感兴趣。
就在微软推出了它的体感技术Kinect的那一年,比利时公司In3Depth获得了来自比利时电信和一家风险投资公司的一笔800万欧元的投资,用于开发应用于通信产品的手势技术。In3Depth旗下有一家子公司――Optrima,致力于研究手势感应3D相机技术,其中一个产品OptriCam,是基于深度感应技术(DepthSense)的图像传感器,以及应用了其他一系列专利技术的三维TOF成像器。
比利时还有一家开发手势识别技术的公司Softkinetic,其CEO迈克尔・汤姆布罗夫认为,他们的产品可能将是一种“瓦解智能手机触摸屏的玩意儿”。
就在一个多月前,黑莓公司申请了一项最新专利,其申请文件显示,该公司拟通过红外线技术捕捉手势动作,在手指不接触设备屏幕的情况下,完成对图片的选择及编辑。黑莓将此项专利描述为“一种移动通信设备,包括数码相机和移动电话的子系统。”如果近况不佳的黑莓公司能够坚持到2014年,它的新产品中就将有这种功能。
而高通公司从去年就开始大力推销其Snapdragon芯片处理器的视觉手势识别技术。韩国做智能手机代工的泛泰公司已经在去年开始销售其具备这一功能的VegaLTE手机。
市场研究机构ABIResearch公布的一项最新研究预测,到2017年,具有视觉手势识别功能的智能手机出货量将达6亿部。
争先恐后
目前看来,几乎所有的电子电器巨头都对手势控制投入了巨大力量进行研发,未来可能出现的产品也是五花八门。
在今年1月的2013年国际消费电子产品展(CES)上,德州仪器(TI)展示了其与Softkinetic合作推出的芯片组。TI 芯片组内置在 3D 摄像机中,可跟踪手指、手掌甚至全身的动作,只需挥手就可控制笔记本电脑及智能电视,从而对电影、游戏以及其他内容进行访问和导航。此外,采用了TI芯片的电视机,也可以将来自用户界面的高清图像纳入电视影像当中。
今年2月,英特尔也与Softkinetic合作推出了一项新的广告技术,能够针对不同用户展示广告,通过全视角监视器与用户建立连接后,就能立刻判断用户性别与大致年龄,进而提供个性化信息。例如:用户为20岁左右的年轻女性,设备就会显示附近的商场和服饰商店;而用户为60岁左右老年男性时,设备则会显示附近的雪茄店等。英特尔公司将会利用这一技术制造出一种小型设备,这样消费者就可以将其安装到任何一款设备中进行使用。英特尔预计这一产品将会在今年下半年问世,并且还会捆绑到现有的SDK中。
与此同时,英特尔公司还联合Nuance等多家公司推出了全新的计算机语音、手势以及面部识别方式。在英特尔的一次公开展示中,可以看到使用者能够隔空操控着屏幕中的管子,英特尔将这一技术称之为“感知计算”。
在今年2月的MWC2013(世界移动通信大会)上,富士通公司还向人们展示了另一种更具未来色彩的虚拟键盘技术――手势键盘。通过隔空进行的手势操作,就能完成电脑输入。目前,富士通已经计划在未来自家的平板或手机产品中内置这种输入技术。相对于激光投影键盘,手势键盘拥有更低的硬件开发成本,以及更长的续航时间。
计算机视觉
无论名称是叫“手势控制”、“体感操作”,还是叫“感知计算”,其实都是脱胎于同一项技术的发展成果―计算机视觉。
作为一门工程学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。这类系统的组成部分包括:程序控制、事件监测、信息组织、物体与环境建模、交感互动等。为实现这一技术,人们需要用软件和硬件为三维空间内的生物行动与计算机处理能力之间建立联系。
这种联系一般是通过多个光学或红外传感器来完成的,3D传感器可以感应空间三个轴向上的加速度变化,捕捉空间坐标,实现精确瞄准功能。以英特尔的产品为例,在展示中,使用一个USB接口的双摄像头设备,镜头进行面孔识别、麦克风用来进行声音控制,另外这个设备还可以识别三维空间的手势,进行更精细准确的控制和互动。
有时候,利用这样的摄像头,人物的背景也可以“抠掉”,可以被虚拟场景所取代。在MWC2013展会上,意法爱立信就展示了这样一种手机芯片,将装有该芯片的手机摄像头对着一个古城模型,然后就可在手机上以古城为背景玩起3D游戏,比如在古城里面玩赛车,或是开直升机等。
新的衍生
沿着与计算机视觉的3D感知相反的思维轨迹,许多机构也在研究着3D重现――即全息电视――的技术实现方法,并取得了一定的成果。
一个总部位于比利时鲁汶的微电子研究中心内,科学家们就在研究如何制造移动的像素。他们将激光照射到微电子机械系统平台上,建立起全息显示器,这种平台可以像小型的反射活塞一样上下左右移动,从而实现移动像素的效果。微电子研究中心的科学家声称:“全息视觉可以为众多观众提供自然的3D体验,而不会有如今的3D立体视觉所带来的各种令人不快的副作用,如麻烦的3D眼镜、眼睛疲劳和精神紧张等。”
在这套微系统中,二氧化硅呈一块块正方形的补丁镶嵌于芯片上,形成了一种西洋跳棋盘式的图案。然后,芯片上层再镀上一层反射性铝膜。当激光照射到芯片上时,芯片会将临近像素的反射光呈某种角度反射出去。衍射的光线呈建设性或破坏性地相互干涉,从而形成了一幅3D图像。如果小型的反射平台每秒钟数次上下左右快速移动,就会形成一个移动的投影。
而麻省理工的罗伯特・王(Robert Wang)和其教授则在2011年展示过另一个成果,通过一个彩色手套配上一个摄像头,不仅能够实现2D操作,还能够实现复杂的3D建筑模型构造。
也许在不久的将来,能够让我们参与其中的全息立体电视就会出现在现实生活中。
商业化挑战
然而,尽管研究成果颇丰,计算机视觉方面的许多研究成果在实际商用中还有着巨大的难题。以手势控制为例,尽管其初步形态已经正式商用将近三年了,但除了在游戏领域外,在其他领域鲜有成功产品。人机互动的复杂性是其主要瓶颈。
首先,无论何种方式实现动作捕捉,都离不开三维传感器,传感器若缺乏实时跟踪技术,就会灵敏度不佳,导致反应迟缓;另外在不利的光线条件下,该技术能够实现的效果受限,体积和高功耗问题也使其很难作用到手机等便携设备中。
其次,鼠标键盘等的操作也有其优势,有游戏用户就曾向微软反馈:“当我用鼠标玩一个游戏,比如《死亡空间》或者《极品飞车》,经常不知不觉就会玩上三四个小时。但是体感游戏,我恐怕坚持不了那么长时间。”这就导致许多用户并不愿意放弃鼠标键盘。
篇7
关键词:计算机视觉;移动机器人;路径识别;自主导航
中图分类号:TP24262文献标识码:B
文章编号:1004-373X(2008)08-165-03オ
Navigation of Mobile Robot Based on Computer Vision
ZHAO Yu,ZHONG Lanxiang,ZHANG Wanxu
(Information Science & Technology College,Northwest University,Xi′an,710069,China)オ
Abstract:Mobile robot navigation using path following has several weaknesses such as weak flexibility,high cost of maintenance and single function.Considering those disadvantages computer vision is proposed in mobile robot navigation using path recognition.First,the image obtained by vision sensor is processed in order to get the useful target,then the robot can comprehend the current path environment,second,the robot is controlled by the different movement module of straight or turning according to the results in the first step.The experimental results demonstrated the effective and robustness of the system.
Keywords:computer vision;mobile robot;path recognition;autonomous navigation
现代机器人技术在人工智能、计算机技术和传感器技术的推动下获得了飞速发展,其中移动机器人因具有可移动性和自治能力,能适应环境变化被广泛用于物流、探测、服务等领域[14]。移动机器人的核心技术之一是导航技术,特别是自主导航技术。由于环境的动态变化和不可预测性、机器人感知手段的不完备等原因,使得移动机器人的导航难度较大,一直是人们研究的重点[5]。
目前常用的一种导航方式是“跟随路径导引”[6],即机器人通过对能感知到某些外部的连续路径参考信息做出相应的反应来导航。如在机器人运动路径上敷设金属导线或磁钉,通过检测金属导线或磁钉的特征信息来确定机器人的位置。从导航的角度看,这种方法的优点是可靠性较高,但功能单一,如不能在行进的同时对目标进行识别、避障,对环境的适应能力较弱、灵活性较差、维护成本较高,因此限制了其在移动机器人中的应用。
随着计算机技术、数字图像处理技术及图像处理硬件的发展,基于计算机视觉的导航方式在机器人导航中得到广泛关注[68]。在实际应用中,只需要在路面上画出路径引导线,如同在公共交通道路上画的引导线一样,机器人就可以通过视觉进行自主导航。相对于敷设金属导线、磁钉等方法,这种方法增强了系统的灵活性,降低了维护成本。视觉信息中包含有大量的数据,要从中提取有用的信息,需要复杂的算法及耗时的计算。如何保证视觉导航系统在正确理解路径信息的前提下仍具有较好的实时性和鲁棒性,是该方法要解决的核心问题。
1 视觉导航系统构成及工作过程
基于计算机视觉的移动机器人导航实验系统的硬件部分由计算机、USB接口的摄像头、LEGO实验用机器人组成。软件分为2部分,即图像处理和机器人运动控制。基于视觉导航的原始输入图像是连续的数字视频图像。系统工作时,图像预处理模块首先对原始的输入图像进行缩小、边缘检测、二值化等预处理。其次利用哈夫变换提取出对机器人有用的路径信息。最后,运动控制模块根据识别的路径信息,调用直行或转弯功能模块使机器人做相应的移动。整个工作流程如图1所示。
1.1 视觉导航的图像预处理
目前图像采集设备都具有较高的空间和灰度分辨率,精度高、数据量大。
实验中的原始输入图像是USB摄像头采集320×240像素的RGB格式图像,最大帧数30帧/s。
图像预处理的效果对后续哈夫变换检测路径信息的速度和准确性有很大影响。对整幅图像进行抽取时计算量过大、也无必要,故先将彩色图像转换为灰度图像,再将图像的大小依据最近邻域插值法原理[9]进行缩小以节约后续计算时间。在实验室环境下,经测试,将原始图像缩小到30%仍然能满足需要,处理时间缩短了72%。
图1 视觉导航系统工作流程
由于图像传感器从时间和空间上对介质(光)采样,其图像质量对现场的非均匀光场和其他干扰因素非常敏感,二值化时,不同光照条件下阈值的确定是一件比较困难的工作。目前常用的阈值选取方法有双峰法、迭代法和 最大类间方差法[10]。从执行时间和处理效果2方面考虑,对3种方法比较后(结果如表1所示),在优先考虑实时性的前提下,选用双峰法来求取阈值。在实验室条件下,路径环境相对理想,黑色引导线与背景反差较大。在灰度直方图上,引导线和背景都形成高峰,对这2个峰值及谷底的求取也可简化,使用灰度级的最大值和最小值代替2个峰值,那么这2个峰值的中间值即可作为谷底用作图像的阈值。
ケ1 三种阈值选取方法执行时间比较
执行时间 /s阈值T
最大类间方差法31.534190
迭代法21.541145
双峰法0.006124
地面的反光和阴影,以及不均匀的光照都会导致同一幅图像的二值化效果表现出很大差别,图2和图3是对同一幅图像在不同光照条件下二值化的结果,可以看到在光照条件2下会出现大量的黑点,这些黑点将严重影响提取路径信息的速度并且可能导致错误的路径信息。然而,相对于灰度、颜色特征,边缘特征受光照影响较小[11]。为此,对缩小后的图像先进行引导线的边缘检测,边缘检测后图像中引导线边缘像素灰度的对比度得到增强,通过实验确定合适的阈值,然后对图像进行二值化以提取路径信息。
图2 光照条件1
图3 光照条件2
1.2 引导线角度检测
采用哈夫变换检测路径引导线的角度[12]。为了简单而又不失一般性,引导线分1条路径和2条相交的路径。当2条直线的夹角等于90°时即认为是两条相互垂直的路径。直线的哈夫变换利用如下直线的极坐标方程:
И
λ=xcos θ+ysin θ(1)
И
式(1)中,(x,y)表示图像空间xy中所有共线的点即图像中的黑点;θ表示直线法线和x轴的夹角,取值范围为0~180°;λ表示直线到原点的距离。И
2 视觉导航的机器人运动控制
机器人运动控制部分分为直行控制和转弯控制2部分。
2.1 直行控制
如果哈夫变换的检测结果表明是一条直线即机器人视野中只有1条主引导线时,则运行直行模块。实际中有2种情况需要考虑:一是机器人的初始位置不一定正对引导线,二是在机器人的机电配置中,左右轮子的马达运动不会绝对精确和对称。这些会使机器人在运动中出现侧偏。可采用下述方法进行直行控制:根据引导线在图像平面坐标中的位置来判断机器人的偏向。当引导线位于图像平面的左半边,说明摄像头的光轴与引导线不垂直且相对于引导线右偏,则命令机器人左转;当引导线位于图像平面的右半边,说明摄像头的光轴与引导线不垂直且相对于引导线左偏,则命令机器人右转;当引导线在图像平面两边均存在时,则命令机器人不偏转继续直行。机器人在前进过程中,根据图像平面中引导线位置不断调整方位,以一定的转动角度(转动角度尽量小,这样机器人的摆动幅度就会小)在直线路径上行走。
2.2 转弯控制
如果哈夫变换的检测结果表明是两条相互垂直的直线,即机器人的视野中出现转弯路口,则开始运行转弯模块。
机器人需要在距转角合适的距离处开始运行转弯模块,以保证机器人视野中始终具有引导线。如图4所示,AB段表示摄像头的纵向视野范围,C点为转角点,机器人需要知道自身在实际二维平面中相对于转角点C的距离即BC段距离。由图像信息获得现实世界坐标系中的参数,即所谓三维重建,这需要对基于计算机视觉的移动机器人导航系统进行摄像机标定。
鉴于移动机器人识别的引导线在地面上这一限制条件,并且摄像头固定在机器人上,可以选择机器人坐标系为世界坐标系,即世界坐标系与机器人同步移动。坐标原点为标定模板的左下角标定点的中心,Zw轴垂直地面,XwYw平面即为地面。在该坐标系下地面目标的坐标可以表示为(Xw,Yw,0),П甓模板由直径5 mm、相距10 mm共72个圆点构成,如图5所示。
图4 转变示意图
图5 标定模板
移动机器人的摄像机标定问题,如果忽略因物面与摄像机光轴不垂直造成的非线性,则可归结为在二维世界坐标系中求变换矩阵M[13]。
И[HT6”]
X1Y11000-u1X1-u1Y1
000X1Y11-v1X1-v1Y1
…………
…………
XnYn1000-unXn-unYn
000XnYn1-vnXn-vnYn•m11m12m14m21m22m24m31m32=u1v1u2v2ぁぁunvn(2)
И
世界坐标系(Xw,Yw,Zw ),Zw轴垂直地面,XwYw平面即为地面,在该坐标系下地面目标的坐标P可以表示为(Xw,Yw,0)。式(2)中Xi,Yj (其中i=1,2,…,n,j=1,2,…,n)即为地面目标的坐标(Xw,Yw)。只要有4个标定点就可以求解该线性方程组,分别测得其在地面上的坐标(Xw,Yw,0),再根据由图像处理的方法得到的图像坐标系中的像素坐标(ui,vj)(其中i=1,2,…,n,j=1,2,…,n),即可求得变换矩阵M,M = [m11,m12,m14,m21,m22,m24,m31,m32]T,其中m34=1。П浠痪卣M的元素取值受到摄像头俯仰角和架设高度的影响。在实验室条件下,本系统选取BC=13 cm时开始运行转弯模块。
在单目视觉的条件下,对于固定的俯仰角,为保证道路引导线不移出摄像头视野范围,必须控制机器人以一定的弧度转弯,即沿弧线路径执行转弯模块。要做到这一点,弧线的弧度必须选取合适。在转弯过程中需要根据机器人的位置不断调整机器人的运动速度和转动角度,具体过程如下:
(1) 找出图像中最后一行中点m的像素坐标(um,vm),即摄像头视野最下方的中点,通过变换矩阵M将其转换为世界坐标系xyz中的位置(xm,ym),z轴垂直于xy平面即地面。
(2) 找出图像中转角点t的像素坐标(ut,vt),通过变换矩阵M求出其在世界坐标系xyz中的位置(xt,yt)。
(3) 以地面上转角点为圆心的世界坐标系定义为XYZ,Z轴垂直于XY平面即地面,求出弧线在此坐标系中的方程,(x-a)2+(y-b)2=r2,(a,b)表示在坐标系XYZ下弧线所在圆的圆心,r表示圆的半径。И
(4) 将xyz坐标系下的坐标点(xm,ym)转换到XYZ坐标系下,用坐标(Xm,Ym)表示,如图6所示。X轴与x的夹角为θ,XOY坐标系的原点O即为转角点t,则:
И
Xm=(xm-xt)cos θ Ym=(ym-yt)cos θ(3)
图6 坐标系转换
(5) Щ∠叻匠讨械y=Ym时,求得X,比较x与Xm,若Xm-x>0,则命令机器人左转;若Xm-x
本系统确定转弯弧的半径为20 cm,弧度为90°的弧线即可使机器人顺利转弯,机器人视野中始终保持引导线。
3 实验结果及结论
实验中选用的LEGO移动机器人,其运动速度为8.57 cm/s(指令设定Power=25 RPM)。导航场地中画有宽1 cm的黑色引导线,实验要求中机器人完全根据引导线自主运动。实验中,识别1帧图像并且机器人根据识别的路径信息运行直行或转弯模块共需0.311 s,即机器人每处理1帧图像移动2.67 cm。实验室中的光照条件是机器人移动时的主要干扰,而锐利的引导线边缘受光照影响较小,对这些干扰有较好的滤除作用。经过在阴天白天、晴天白天以及开灯和不开灯的情况下、晚上开灯的情况下、遮盖物位于摄像头上方50 cm处形成阴影情况下,机器人能正确的沿引导线移动。同时,当摄像头视野范围内引导线消失即认为出现障碍物,机器人能发出前方有障碍物的报警信息。
可见上面所述方法有较好的实时性和鲁棒性有一定的通用性,使得该视觉导航方法具有一定的应用价值。只要光照条件变化不是非常剧烈,在工厂、医院、办公楼等环境中,机器人根据路径引导线可自主到达目的地。
当然,由于移动机器人活动场景的复杂性和动态特性,以及视觉处理的复杂性,视觉导航还有很多需要解决的问题,例如当导航场地出现较大面积的强烈反光、极暗的阴影时能否有效可靠的进行移动机器人的导航控制,这需要进一步研究。另外,如何将视觉系统与本系统机器人平台中的超声波传感器、光电传感器及声音传感器在空间、时间及数据上进行融合以提高系统的适应性和环境识别能力也是一个研究方向。
参 考 文 献
[1]方强,谢存禧.基于视觉的移动机器人自主定位导航[J].机床与液压,2004(7):4042.
[2]Siegwart Roland,Nourbakhsh Illah R.Introduction to Autonomous Mobile Robots[J].Massachusetts Institute of Technology,2004:111.
[3]Gérard Medioni,Alexandre Francois R J,Matheen Siddiqui.Robust Realtime Vision for a Personal Service Robot [J].Computer Vision and Image Understanding,2007:18.
[4],马旭东,戴先中.一种基于移动机器人视觉的实用数字识别方法[J].制造业自动化,2006,28(5):3943.
[5]陆新华,张桂林.室内服务机器人导航方法研究[J].机器人,2003,25(1):8087.
[6]张海波,原魁,周庆瑞.基于路径识别的移动机器人视觉导航[J].中国图像图形学报,2004,9(7):853857.
[7]吴玉斌,曹广忠,徐刚.基于虚拟仪器技术的机器人视觉伺服研究[J].机械科学与技术,2006,25(8):1 0051 008.
[8]董再励,郝颖明,朱枫.一种基于视觉的移动机器人定位系统[J].中国图像图形学报,2000,5(8):688692.
[9]江巨浪.基于改进CatmullRom 样条的图像缩放算法[J].计算机技术与发展,2007,17(4):211213.
[10]杨晖.图像分割的阈值法研究[J].辽宁大学学报:自然科学版,2006,33(2):135137.
[11]陈锻生,刘政凯.彩色图像边缘特征及其人脸检测性能评价[J].软件学报,2005,16(5):727732.
[12]陈震,高满屯,杨声云.基于Hough 变换的直线跟踪方法[J].计算机应用,2003,23(10):3032.
[13]康晶,邹北骥,刘相滨.一种改进的摄像机内外参数初值计算方法[J].计算机工程与科学,2007,29(1):5255.
作者简介
赵 瑜 女,1983年出生,陕西西安人,硕士研究生。主要研究方向为非接触测量与可视化计算。
种兰祥 男,1960年出生,陕西合阳人,西北大学信息科学与技术学院副教授,中国科学院西安光学精密仪器研究所博士研究生。主要从事非接触测量、光电子技术和可视化计算方面的研究。
篇8
先看看人类体的基本构成。人体主要由五个部分组成。一是框架支撑系统,主要是骨骼,它构成了人体的本体结构;二是动作执行系统,主要是各种肌肉,接受信息,执行动作;三是感觉系统,它感受外界刺激,也探测自身的内部信息;四是信息处理系统,主要是大脑和神经。对收集的信息进行处理、储存、发出指令等;五是能源系统,负责能源的吸收、储存、使用以及废物的排泄。在以上基础上,人还要有思想、意识,如此才能成为一个真正意义上的人。
机器人的发展使人们感觉到有某种可能性。机器人的发展经历了—个从低级向高级的发展阶段,并力求从五个方面模仿人类。先是遥控机器人,本身没有工作程序,需要人为实时操纵;后有程序机器人,按载人的程序控制,对外界无感知能力,环境改变时需要重新设计程序;自适应机器人可根据环境的变化改变自己的行动;最后是智能机器人,具有感知思维能力和行为能力。可见,机器人是一种可编程再编程的多功能操作机械,它牵涉到电子学、仿生学、心理学、系统论、控制论、人工智能、精密机械、信息传感等各种学科和技术。其中,人工智能扮演着核心角色。
人工智能领域包括机器学习、自然语言的理解、专家系统、模式识别、计算机视觉、人工神经网络。机器学习是机器具有智能的重要标志,同时也是机器获取知识的根本途径。它涉及认识科学、神经心理学、逻辑学等学科,并对人工智能的其他分支如专家系统、自然语言的理解、自动推理、计算机视觉起重要作用。人工神经网络模拟人脑神经元突触的弹性强度犹如大脑皮层一样,多层神经元能交叠分层并交互成网络。多纳尔·赫波的学习算法认为:一个曾经被传承且被储存的开关模式,其神经元突触的联合可以得到加强或削弱。人脑中包含1011-1012个神经元,一个神经元有103~104个突触。神经元通过突触形成网络,传递着彼此的兴奋与抑制。全部大脑神经元构成拓扑上极其复杂的网络群体,由这一网络群体实现记忆与思维。在神经中枢系统。上百亿的神经元组成了人类器官的通信网络。闪烁和不闪烁的神经产生了一种具有二进制的数据流,它们作为信息(如感觉、思想等)被大脑编辑。
数据网络并不只限于个别的组织和机体。社会生物学表明,动物有群体智能来组织其信息系统,而没有监督和指挥中枢系统。动物间彼此的交流信息在一个化学扩散场中,从分岔蚁街到复杂的蚁巢以及等翅目昆虫的复杂建筑都体现了这种超组织的集体行为能力。同样的单一神经元也不能感觉和思维,只是在集体交互作用中才能体现大脑的功能。在人工智能方面,按目前的集成电路水平,只可实现1000个神经元的互联网络。人工神经网络系统的结构及功能与人体比较差距很大,因此,单纯用电子网络计算机的硬件设施模拟人脑功能是不现实的。现在,常用编程技术以软件模拟研究人脑的处理模式。
在情感运算表达式中,神经网络被训练成对感情反应有认识,情感通过复杂的学习模式被特征化。人们通过触、看、听、说来感知自我,形成自我意识。相应的,人们需要对自然保护语言、视觉、会话、触觉等进行研究。对自然语言的理解包括口语理解和文字理解。运用专家系统对语言进行逻辑分析,结合生理学、心理学、计算机科学,使神经网络可以理解和生成自然语言,从而达到使机器人拥有交流信息能力的目的。
人工智能着重从思想方法上对人脑功能进行探索和研究,是一种偏于软件方面的模拟。同时,人们也在硬件方面进行不懈的努力。
传统意义上的机器人是一种钢铁构成的东西,其组成结构是没有生命活力的,而生命系统却有着不同特征——复杂和组织。即便是单细胞生物,虽然原始,却也显示出任何人工制品所无法比拟的复杂和精巧。一个低级的细菌身上也拥有复杂的功能和网络,它可以与环境相互作用,以一种可控制的方式交换物质和能量。其组织可以自我感觉、自我判断、自我诊断、自我修补,从而与环境相适应。
材料科学的发展使人们有可能找到更完善的代替钢铁的材料。光学材料可制造机器人的视觉系统,利用先进的纳米技术和生物基因技术,目前已制造出非常灵敏的义眼;超导材料可利用超导隧道效应制造灵敏的电磁信号探测元件,用来模拟高效传递信息的神经元;智能材料把高技术传感器敏感元件和传统材料相结合,使无机的材料变得有感觉和知觉。
生物体的最大特点就是对环境的适应,智能材料具有软件功能,类似于可条件反射的生物机械信息处理单元——神经元。信息材料如各种活性有机材料,可以在分子水平上实现信息的存储。分子计算机则利用DNA的四个碱基对,在分子上构造计算机,用以纳米机器或生物系统的信息处理器。生物医学材料则可以部分代替某种生物功能,如羟基磷灰石是脊椎动物和人体硬组织的主要无机质,不仅具备良好的生物相容性,而且可以诱导骨骼的生长,并和生物组织形成牢固的键和,可作为人体硬组织的替代材料。探索此类材料可找到具有全部生物活性的骨骼系统,使机器人更类人化。医用高分子材料广泛用于制造人工皮肤、角膜、肌腱、韧带、血管、人工脏器组织和器官的修复和制造。
篇9
关键词:图像处理;电力设备
中图分类号:V351.31文献标识码:A文章编号:
1、电力设备检测
电力设备是输配电网中的枢纽和通道,设备在使用的过程中会有老化、失修、故障隐患等情况出现。但是这些情况并不能都靠人眼、工作人员的经验一一排除,必须要专门的电力设备检测才能检查出这些电力安全隐患并组织人力及时排除。 在电力运行中,电力安全始终是电力人绷紧的一根弦。电力设备检测实际上是起到了预防、发现隐患的作用。因此电力设备检测(即电力设备预防性试验)至关重要。
2、电力设备的概述
电力设备预防性试验是指对已投入运行的设备按规定的试验条件(如规定的试验设备、环境条件、试验方法和试验电压等)、试验项目、试验周期所进行的定期检查或试验,以发现运行中电力设备的隐患、预防发生事故或电力设备损坏。它是判断电力设备能否继续投入运行并保证安全运行的重要措施。
3、图像处理的发展
随着计算机技术的迅猛发展和相关理论的不断完善,数字图像处理 技术在许多应用领域受到广泛重视并取得了重大的开拓性成就。 属于这些领域的有航空 航天、生物医学工程、工业检测、机器人视觉、公安司法、军事制导、文化艺术等。该 技术终将成为一门引人注目、前景远大的新型学科。
4、图像处理的意义
图像进行处理的主要目的有三个方面:
4.1图像的视感质量,如进行图像的亮度、彩色变换,增强、抑制某些成分,对图像进行几何变换等,以改善图像的质量。
4.2图像中所包含的某些特征或特殊信息,这些被提取的特征或信息往往为计算机分析图像提供便利。提取特征或信息的过程是图像处理的预处理。提取的特征可以包括很多方面,如频域特征、灰度或颜色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等。
4.3不管是何种目的的图像处理,都需要由计算机和图像专用设备组成的图像处理系统对图像数据进行输入、加工和输出。图像是人类获取和交换信息的主要来源,是视觉的基础,而视觉又是人类重要的感知手段,所以图像成为心理学,生理学,计算机科学等诸多方面学者研究示图感知的有效工具。图像处理是一门实用的科学,在军事,航空,航天,遥感,电力,通信,医学,教育等领域得到广泛应用。
5、电力系统概述
传统的视频监控系统需要人工监看录像,监控性能受到监控者本身的生理因素的制约。有研究表明: 人盯着屏幕看3 个小时后,注意力将降低70%。随着我国高压输电线路的规模迅速增长,线路运行部门承担了越来越多的线路巡视维护工作量,急需用先进的技术来帮助线路维护人员提高工作效率。图像处理技术借助计算机强大的数据处理功能,对视频画面中的海量数据进行高速分析,过滤掉用户不关心的信息,仅仅为监控者提供有用的关键信息。能够大大减轻视频监控中人工劳动强度,同时可以减少误报漏报,还可以提高报警处理的及时性。图像监控系统应用的范围非常广,最常见的是对民宅、停车场、公共场所、银行等的监控,以防止偷盗、破坏行为的发生,保障社会安全。近年来图像处理技术在电力设备系统监控上也有大量应用: 如赵书涛等人利用图像的形状不变矩特征作为特征矢量,采用SVM 分类器识别各类电力设备,取得了较满意的识别效果,实现了变电站的无人值守; 刘金春利用小波不变矩来提取图像的边缘特征,通过与无故障图像的小波不变矩比较,分析出图像的变化情况,实现了对变电站的自动监控。因此图像处理技术能在电力系统的安全监测中发挥重大作用。
6、图像检测
边缘检测是一种重要的区域处理方法。边缘是所要提取目标和背景的分界线, 提取出边缘才能将目标和背景区分开来。边缘检测是利用物体和背景在某种图像特性上的差异来实现的, 这些差异包括灰度、颜色或者纹理特征。实际上, 就是检测图像特性发生变化的位置。边缘检测包括两个基本内容: 一是抽取出反映灰度变化的边缘点; 二是剔除某些边界点或填补边界间断点, 并将这些边缘连接成完整的线。如果一个像素落在边界上, 那么它的邻域将成为一个灰度级变化地带。对这种变化最有用的两个特征是灰度的变化率和方向。边缘检测算子可以检查每个像素的邻域, 并对灰度变化率进行量化, 也包括对方向的确定, 其中大多数是基于方向导数掩模求卷积的方法。
6.1图像几何校正
图像的几何畸变表现为像元相对于地面目标实际位置发生挤压、扭曲、变形等。其基本环节有两个,即像素坐标变换和重采样。
6.2图像重采样
图像重采样的目的主要是保证图像像素的连续性,因为对图像空间分辨率进行提升时,需要利用插值的手段在空出的像素上补上对应的值,使整个图像平滑,有利于进一步处理。其最基本方法有三种:最近邻插值、双线性插值和双三次插值。
6.3 图像增强
图像增强就是采用一定的方法对图像的某些特征进行调整,以突出图像中的某些感兴趣信息,同时抑制或去除不需要的信息来提高图像质量。它的主要目的是改变图像的灰度等级,提高对比度;消除边缘噪声,平滑图像;突出边缘及图像主要信息,锐化图像、压缩数据量等。图像增强主要方法根据处理空间的不同,分为空间域方法和频率域方法两大类。空间域增强主要是通过改变像元及相邻像元的灰度值达到增强的目的。而频率域增强则是通过对图像进行傅里叶变换后改变频域图像的频谱来达到图像增强的目的。此外,根据图像处理的范围又可以将增强处理技术分为全局处理和局部处理两种。
7、结束语
我国电力行业的不断发展,和停电机会的不断减少。现代化的电力设备停电检修试验的机会越来越少。电力设备的检修试验也从原来的传统试验逐步的转型为现在的不停电检修试验。由于现在的状态监测与传统试验相比不具有破坏性或破坏性较小和不停电等优点。现在的电力设备状态监测试验也将逐步取代于传统的试验,为未来的电力发展和可靠的安全供电提供有力的技术保障。电力设备的状态监测也将必然成为未来电力电网试验发展的主导方向。社会经济的飞速发展,科学技术的突飞猛进,电力设备检测的范围,设备与技术也在与时俱进。一套设备的“健康指数”包括其电气特性和机械特性两部分内容组成;而无法得到电力设备在通电运行中的电气特性的“健康数值”这一难题,一直困扰电力用户多年。全新的状态监测技术的出现解决了这一难题。不仅扩展了电力设备检测的概念,而且填补了电力设备检测领域的盲点。常规停电检测技术和状态监测技术相辅相承,为电力设备的可靠运行提供全方位的数据支持。
参考文献:
[1] 龚超,罗毅,涂光瑜.计算机视觉技术及其在电力系统自动化中的应用[J]. 电力系统自动化. 2003。
篇10
关键词 增强现实;虚拟现实;实时交互;三维跟踪;人脑感知
中图分类号G206.2 文献标识码A 文章编号 1674-6708(2013)107-0149-04
增强虚拟现实技术(Augmented Reality,AR)通过计算机实时产生三维信息来增强人对真实世界的感知。虽然来源于虚拟现实技术(Virtual Reality,VR),但AR的伟大之处在于把计算机、网络和用户都带回了真实世界。它利用计算机系统产生现实环境中并不存在的虚拟信息,这些虚拟信息可被用户以视觉、听觉、触觉、嗅觉等各种方式感知,成为周围真实环境的组成部分。
1 简介
上世纪90年代初期,波音公司的Tom Caudell和同事最早提出了“增强现实(以下简称AR)”。在他们设计的系统中,把由简单线条绘制的布线路径和文字等提示信息,实时地叠加在机械师的头盔显示器上,而这些信息则可以帮助机械师一步一步地完成拆卸过程。AR系统的目标就是这样,借助光电显示技术、交互技术、计算机图形技术和可视化技术等,产生现实环境中不存在的虚拟对象,并通过注册技术将虚拟对象准确地“放置”在真实环境中,使用户处于一种融合的环境中,不能区分真实和虚拟,用户所感知到的只是一个真实和虚拟相融合的唯一存在的世界,并能与之交互。
AR是一个多学科交叉的新兴研究领域,该领域的权威学者北卡大学Ronald Azuma提出 AR系统包含三个内容:真实世界和虚拟世界的信息集成,即虚实融合;具有实时交互性;三维尺度空间中定位增添虚拟物体,即三维跟踪注册。其中,尤以实时的人机交互最为重要,因为沉浸感和感知的增强皆源于此。人机交互是一门包括计算机视觉、心理学、人工智能等多学科交叉的技术,随着传感器、力反馈等硬件设备的发展,以及对人的个体差异、感知研究以及认知科学的发展,人机交互已成为世界各国信息产业竞争的一项关键技术,并逐渐实现向“以用户为中心”的转变。
另一种定义是1994年保罗·米尔格拉姆(Paul Milgram)和岸野文郎(Fumio Kishino)提出的现实-虚拟连续统(Milgram's Reality-Virtuality Continuum)。他们将真实环境和虚拟环境分别作为连续统的两端,位于它们中间的被称为“混合实境(Mixed Reality)”。其中靠近真实环境的是增强现实(Augmented Reality),靠近虚拟环境的则是扩增虚境(Augmented Virtuality)。
2 技术原理
2.1显示技术
用于AR 的显示器有头盔显示器( Head-Mounted Displays, HMD) , 手持显示器( Hand-Held Displays) 和投影显示器( Pro jection Displa ys) 。
2.2跟踪和定位技术
为了交互, AR 需要进行定位, 因而准确地跟踪用户的位置和视域方向是十分重要的。 对于室内环境, 通常预先在已知的位置上放置基准的标记, 通过跟踪这些标记跟踪真实对象,从而扩大跟踪范围。 目前在准备好的室内环境中, 能够实现鲁棒性定位。 对于室外、移动的AR 应用, 一般使用GPS 或Dead Reckoning 技术跟踪计算对象在户外的实时位置。 但这也有很大的局限性, 如GPS 需要天空能见度很高。另外,还可以跟踪可见的自然特征( 如环境中已有的、不变对象)。 如果有环境数据库, 那么就可以根据跟踪可见的水平轮廓或已绘制的周围建筑物的预知视图, 与视频进行匹配。另外, 给定有限的一组已知特征点, 跟踪系统能够自动地选择和测量环境中新的特征点。但是, 目前这些方法还不支持实时运行, 而更适于特效和后期制作的应用。
完全控制定位错误比较困难, 因为应用需要的精确度越高, 引起错误的源就越多. 我们把这种源分成两类: 静态的和动态的。 静态源是指当用户的视点和环境中的物体保持静止时引发的错误, 主要有: 光学的变形, 跟踪系统误差, 机械误差和视觉参数误差。 动态源是指错误由用户的视点或环境中的物体移动引起的, 主要是延迟错误和预测位置错误。
2.3 界面和可视化
2.3.1错误估计的可视化
AR 系统定位错误很难避免, 解决的方法有两个: 一是根据预测的跟踪和测量错误, 在屏幕中可视化地显示一块区域,以绘制对象。 二是当绘制被真实对象遮挡的虚拟对象时, 沿着遮挡区域的边缘, 逐渐地淡出隐藏的虚拟对象, 使定位错误减少。
2.3.2数据密度
如果用大量的虚拟信息增强真实世界, 那么显示就会变得混乱和不易读。 Julier使用基于空间交互模型, 把所显示的信息量减少到最小, 只在视图中保留重要的信息。
2.3.3真实感绘制
在AR 应用中, 改善虚拟对象绘制质量的关键是能够自动获取环境的光照和反射信息。 目前有三个方法: 使用模型估计光照参数, 基于图像的绘制, 以及动态范围的光照获取。
2.3.4调节现实
为了删除真实对象系统必须能够分割场景中的单独对象Lepet it论述了一个半自动的方法, 通过轮廓区分对象和它们在场景中的位置, 在某些情况下, 无需对环境进行3D 重构, 就能够插入虚拟对象以及删除真实对象。
2.4标定技术
为了生成准确的定位, AR 系统需要进行大量的标定. 测量的值包括: 摄像机参数, 视域范围, 传感器的偏移, 对象定位以及变形等. 目前AR 标定使用摄像机标定原理, 以及许多手动AR 标定技术. 避免进行标定的一个方法是开发标定自由的绘制器. Kutulako s 和Vallino提出基于弱透视投影模型的标定自由AR 方法, Seo 和Hong把这个方法扩展到覆盖弱透视投影, 支持传统的光照技术。 另外, 为了减少标定需要,必须自动标定, 这需要使用冗余的传感器信息, 自动地测量和补偿变化的标定参数。
3特点及优点
3.1特点
3.1.1 Combines real and virtual(虚实结合)
虚拟现实技术依靠三维软件构建出虚拟世界,通过各种输出方式让人在软件所创建的世界里有非同寻常的体验,好的虚拟现实作品具备浸没感、交互性和构想性。而AR技术,将这种特性带回真实世界,让计算机创造出来的虚拟世界与真实世界合为一体,带来前所未有的感官冲击。
3.1.2 Interactive in real time(即时交互)
即时交互是虚拟现实的主要特点,源于虚拟现实的AR技术同样具备这一特点。实时的三维交互是构建优秀虚拟环境的基础。同时,AR系统的即时交互与现实环境结合在一起,效果要优于依靠硬件环境的虚拟现实。
3.1.3 Registered in 3-D(3D定位)
AR技术与真实环境相结合主要体现在所读出的3D模型可以由目标图片或物体来控制移动旋转,以及通过更多的方式来做更多的交互。AR技术区别于目前相当流行的二维码技术的重要一点,二维码对于手机、摄像头之类的读取设备有严格的角度和距离要求,而AR系统在同样的问题上则自由很多。
3.2优点
AR系统的优点主要包含两方面:
1)AR技术能够实现虚拟事物和真实环境的结合,让真实世界和虚拟物体共存;
2)AR实现虚拟世界和真实世界的实时同步,满足用户在现实世界中真实地感受虚拟空间中模拟的事物,增强用户体验效果。
4硬件
4.1显示设备
4.1.1头罩式装置HMD(Head-Mounted Display)
技术大概分成光学式(Optical)与影像(Video)两种,前者是一种透明装置,使用者可以直接透过这层看到真实世界的影像,然后会有一些另外的投影装置把虚拟影像投射在这层透明装置上。另外一种是不透明装置,使用者看到的是由电脑处理好、已虚实结合的影像。
4.1.2智能手机
最近几年开始流行起来的智能手机,改变了AR的样貌。头戴式的HMD还是太麻烦了,而智能手机同时具备电脑计算能力、录影、影像显示,还有GPS、网路连线、触控、倾斜度侦测等等的额外功能,价格也逐渐平民化,于是在智能手机为平台的AR研究越来越多。
4.2摄像头
Occipital联合创始人Vikas Reddy在邮件访谈中谈到,AR技术尚未发挥出它全部的潜力。这是由于目前追踪和测绘现实的技术水平有限。但Reddy预测,随着计算机视觉算法和硬件设备的发展,摄像头将成为最重要的传感器和输入设备,这不仅仅是AR实景技术方面的趋势,也是整个计算机产业的趋势。
4.3传感器
在AR系统中众多的传感器是实现交互的硬件基础。运用比较多的是红外传感器、压力传感器、温度传感器、光电传感器等,比较具有代表性的例子是微软开发的基于XBOX 360的Kinect。Kinect是微软在2009年6月2日的E3大展上正式公布的XBOX360体感周边外设,它彻底颠覆了游戏的单一操作,使人机互动的理念更加彻底的展现出来。
4.4存储传输
作为承载系统主体文件和承接输入设备及输出设备的重要中转站,AR系统对于计算机的硬件要求相对较高。
4.5操控设备
虚拟现实系统与AR系统基于展示内容的特点会有针对性的操控设备。目前运用比较多的是数据手套与头部跟踪设备,其中头部跟踪设备主要是眼镜和头盔。数据手套主要依靠在指关节处的传感器来识别各种手势,不同的手势分别代表各种指令会让系统作出相应的反应。头部跟踪设备主要依靠电磁感应技术或红外捕捉技术,都是通过识别头部运动来达到控制目的,其中红外捕捉技术的敏感度与刷新率要优于电磁感应技术,谷歌新推出的谷歌眼镜就运用了该技术。
5应用现状及展望
5.1谷歌眼镜
谷歌眼镜(Google Project Glass)是由谷歌公司于2012年4月的一款“拓展现实”眼镜,它具有和智能手机一样的功能,可以通过声音控制拍照,视频通话和辨明方向以及上网、处理文字信息和电子邮件等。
硅谷的未来可穿戴设备资深研究人员迈克尔·莱候德(Michael Liebhold)预计,下一步的技术突破将是模糊现实世界和虚拟世界的界限。Google眼镜所代表的可穿戴式设备将成为科技界的“下一件大事情”。用布林的话说,在沟通的终极形式里,技术应当是隐形的。Google眼镜展示了未来的一种形态,它可能是我们未来搜索的入口,革新互联网和现实中人际交流的方式。“当技术开始隐身时,我们将不再受技术的限制。可穿戴电脑技术可以让我们不再从4英寸屏幕中去窥探生活。我们再也不用时不时地看看手机,相反的,这些可穿戴设备会回望着我们。”
5.2 IPhone Apps
1) “纽约近在咫尺”:这款应用让你发现一个你从未发现的纽约。只要将镜头对准纽约街头的指路牌,相关街道的信息与真实画面叠加让你对每条街道都“一览无遗”,保证不会让你在“大苹果”中迷路。当然你换个城市就需要换一个当地版本。
2) “全景透视”:这是一款很有意思的AR应用,它用二维图形以具有透视感的画面为你提供关于你所在地的四周地理信息,例如告诉你周围有几座山峰以及他们的名字,让你在野外露营的时候不至于迷失。