对计算机视觉的理解范文

时间:2023-12-22 18:02:34

导语:如何才能写好一篇对计算机视觉的理解,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

对计算机视觉的理解

篇1

关键词:国库集中支付制度 高校 预算管理

在我国财政预算管理改革中,国库集中支付制度是一个非常重要的内容,它是我国在财政改革中的一项重大举措。所谓国库集中支付制度就是政府将所有财政性资金统一纳入国库单一账户体系管理中,所得的收入直接缴入国库或财政专户,支出时通过国库单一账户体系支付到商品和劳务供应者或用款单位。目前,国库集中支付制度逐渐进入到了高校中,并且开始全面实施,这给高校的预算管理产生了非常大的影响,新形势下怎样对预算管理工作进行完善与加强是高校面临的一个重要问题。

一、国库集中支付制度下对高校预算管理的影响

国库集中支付制度在高校全面实施以后,财政资金不再直接下拨到高校,而是由高校根据财政部门审核通过的部门预算编制用款计划,报经财政部门批复后,根据批复的计划,在这个计划之内以财政授权支付以及财政直接支付两种方式来对资金进行使用,而不是以前的将财政资金直接下拨到高校中。这就给高校预算编制提出了更高要求,对高校预算管理产生了重要影响。

(一)预算编制趋于科学与准确

我国实行国库集中支付制度以后,财政依照实际支付数反映支出,对于一些专项经费以及人头经费则是直接支付,高校不能随意把项目与用途进行改变,这就要求高校及其下属单位必须如实申报用款计划,建立科学合理的预算定额和指标体系,最大可能对预算予以细化,让学校所有的财政性资金的支付都能以明细预算为前提,对年度支出进行一个详细安排,从本质上让学校预算编制趋于科学和准确。

(二)预算执行趋于严肃与合理

在国库集中支付制度下,必须提出一个比较详尽的论证报告以及预期效益才能实施专项经费,预算执行与财政资金的实际支出在时间上一致,这样可以从源头上促使单位按预算规定执行,避免乱挪乱用财政资金的现象发生,预算单位所要支付的每一笔资金的具体使用情况都可以进行全过程监控,有效提升了财政资金运转的透明度,增强了监管力度,预算执行逐渐趋于严肃与合理。

(三)预算管理趋于规范与高效

在传统的预算管理中,多头开设账户普遍存在于各个高校中,造成预算内转预算外以及账外账等情况的发生,这不但使资金管理混乱不堪以及效率低下,还极容易引发腐败。在国库集中支付制度下,高校对现有的预算编制、银行清算制度、收付程序以及预算执行等进行了不同程度的修改,建立起了统一的预算资金申请和拨付体系,对预算资金的管理和使用进行了更进一步的监督约束,预算管理逐渐趋于规划与高效。

二、高校预算管理中存在的问题

(一)对预算管理不够重视

受长期以来预算管理不严格以及制度不健全的影响,一些高校部门负责人对国库集中制度下的预算管理不够重视。在实施预算编制时,只是被动接受下达的预算指标,不能把各个部门理财的积极性充分调动起来。许多高校在申报预算程序时不够明确,预算编制主要由财务部门个别人员参与,预算数据也只是在往年的开支基础上进行简单的加减,编制预算成为“数字游戏”,甚至有的高校在财务上仍实行“报账式”的管理模式,这就让学校的发展规划和资金供给严重不符。

(二)预算信息系统不够完善

在部门预算、国库单一以及政府采购账户实行以后,许多高校的预算软件没有和以往使用的会计账务管理软件进行联网,政府采购、国库支付以及部门预算三个软件比较单一,不能从根本上实现数据的共享。

(三)实行的编制方法不够科学

目前,许多高校的预算编制方法都采用传统的增量预算,也就是在确定年度预算的时候以上一年的实际支出为基础,在这个基础上考虑下一年度财政收支的各种因素变化。此方法简单而且易行,但是很容易形成一个刚性支出,对支出数额以及支出结构的调整与优化有着不良的影响。又由于基数中包含有许多不科学以及不合理的因素,用增量预算方法编制的预算只能是一年一年增加,资金的供需矛盾被加剧,预算中的平均主义会滋长出来。

(四)编制范围不够完整

当前,许多高校的资金逐渐呈现出多元化现象,学校中的各个院系以及各个部门通过多渠道创收的资金收入和有关的支出都没有全部纳入到预算当中,与预算管理相脱离,相关的主管部门对学校专项经费拨款不确定,不能很好的在年初部门预算中反映,只能实行在年中进行追加的方式,尤其是对项目的确立比较滞后,预算指标不能及时进行下达,导致预算内容不健全,预算不完整,收支的口径和核算的口径出现偏差,对预算执行的有效考核缺乏一个可比性。

三、加强高校预算管理的措施

(一)更新管理观念

在国库集中支付制度下,高校在预算中要积极更新管理观念,把各个部门参与预算管理的积极性给充分调动起来。其一,高校财务部门要改变过去的仅看重分配的旧观念,要积极将预算转变为过程管理,在实施过程中对学校中的每一项预算都要进行全过程管理,把预算的事前控制作用突显出来,让预算逐渐向微观管理层次递进。其二,要注重以人为本和广泛参与意识。在高等学校中,预算管理就似“一盘棋”,需要各个部门之间的相互协调、相互配合以及及时沟通,为预算管理的良好方法提出意见,避免因为主体和客体之间交流不足而出现预算管理的负面效应情况发生。

(二)健全管理系统

为了使高校预算编制更加准确与合理,就必须对预算编制基础数据的搜集以及整理工作进行加强,用现代科学技术为部门预算提供必要的信息保障,增强预算管理的信息化。各个高校要整合现有的应用系统,建立一个综合性的信息平台,将以往的预算系统单机版改为网络版,对预算指标管理、专项支出项目库、管理预算基础信息、预算执行检测分析以及预算编制审查等工作进行合理统筹,在网络上将各项预算数据与执行情况进行,控制人员可以随时进行调用,对预算的执行情况和财务状况进行查询,对各责任单位的业务活动实行全面控制,发现问题及时解决,对预算执行时出现的偏差进行纠正。

(三)严格编制程序

高校在预算管理中要做到公开、公平和公正,对于一些重大的项目要由专门的机构进行论证,杜绝那些“小头大尾”工程的出现,对教育资源造成很大浪费。在对预算进行编制时,各个高校可以把零基、滚动和弹性等预算法有效结合起来,把预算主体的活动和目标及趋势融合在一起,使编制的预算能够在以效益为中心的基础上具有现实性以及可行性。对年度为单位的预算要运用零基预算式的编制方式。对于那些比较长远的预算,则应用弹性预算式的编制方式。

(四)健全管理机制

在高校中,预算管理机制由评价、激励、控制以及决策组成。所谓预算管理的评价机制就是当预算活动结束以后,要对预算执行的结果进行评价,为以后的预算管理制定提供一个良好信息;对于激励机制就是运用不同的激励手段把管理主体的行为动机激发出来,调动他们的积极性与主动性;控制机制在预算管理中不可或缺,它是依照预算目标的要求来对预算绩效的标准进行确定和衡量,将实际的执行情况和预算标准进行比较,确定预算执行时出现的偏差,在这个基础上进行调节;预算管理决策机制是核心,它主要目的就是通过科学而又合理的决策,对预算目标做出正确合理的规划。

(五)提高综合素质

高校的财务人员要加强学习,掌握预算运作情况,提高发现问题、总结问题以及解决问题的能力,为良好的预算管理打好基础。要注重去社会上学习新的知识和好的经验,各个高校之间要互动交流,逐渐探求预算管理的有效方法,通过这种互动交流,不但开阔了认知视野,还可以学到优秀的管理经验。同时,高校的财务人员要重视观念的更新,把专业知识与财务管理结合起来,发挥自身的参谋作用,实现从传统的核算型会计到管理型会计的转变。

四、结语

我国实行国库集中支付制度,改变了过去传统的资金管理方式,是财政资金的全新模式,具有比较强的行业特征以及独立性,这就让具有自身行业特点的高校财政部门面临着很大挑战,会计业务更加繁多复杂,广大高校只有明确方向,积极沟通,在实践中进行探究,逐步完善校内的预算管理制度,才能真正适应国库集中支付制度的改革,也才能促进高等教育事业的健康、稳步发展。

参考文献:

[1] 孙惠娟.国库集中支付制度改革研究[J].行政事业资产与财务,2013(01)

[2] 姜亚萍.浅谈国库集中支付制度下教育系统内部审计的对策[J].财经界,2013(02)

[3 朱生明,张彩玲,王瑛.对推进国库集中支付制度改革的几点思考[J].财会研究,2012(23)

篇2

关键词:计算机视觉;案例推理;图像处理;图像描述

中图分类号:TP391.41 文献标识码:A文章编号:1009-3044(2007)04-11102-03

1 引言

基于案例推理(case-base reasoning)是人工智能中正不断发展的一项重要推理技术。基于案例推理与类比推理方法相似,案例推理将旧经验或教训转换为知识,出现新问题时,首先查找以前是否有相似的案例,并用相似案例解决新问题。如果没遇到相似案例的,经过推理后解决新问题的方法,又会成为新的案例或新经验,下一次再遇到相同问题时,就可以复用这些案例或经验。

这与人遇到问题时,首先会用经验思考解决问题的方式相似,这也是解决问题较好的方法。基于案例推理应用于工业产品检测或故障诊断时具有以下特点:

CBR智能化程度较高。利用案例中隐含的难以规则化的知识,以辅助规则推理的不足,提高故障诊断系统的智能化程度。

CBR较好解决“知识获取”的瓶颈。CBR知识表示以案例为基础,案例的获取比规则获取要容易,大大简化知识获取的过。

CBR求解效率较高。是对过去的求解结果进行复用,而不是再次从头开始推导,可以提高对新问题的求解效率。

CBR求解的质量较高。CBR以过去求解成功或失败的经历,可以指导当前求解时该怎样走向成功或避开失败。

CBR持续不断的学习能力,使得它可以适应于将来问题的解决。

所以基于案例推理方法正不断应用在产品质量检测和设备故障诊断方面,并取得较好的经济效益。为了产品检测和设备故障诊断中,更为智能化,更容易实现现场检测和诊断,计算机视觉技术起到很大的作用。

计算机视觉是研究用计算机来模拟人和生物的视觉系统功能的技术学科,使计算机具有感知周围视觉世界的能力。通过计算机视觉,进行图像的获取预处理、图像分割与特征抽取、识别与分类、三维信息理解、景物描述、图像解释,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力,从而达到识别、理解的目的。

计算机视觉随着科学技术发展,特别计算机技术、通信技术、图像采集技术、传感器技术等,以及神经网络理论、模糊数学理论、小波的分析理论等计算机视觉理论的不断发展和日趋成熟,使计算机视觉从上世纪60年代开始兴起发展到现在,取得快速发展,已经从简单图像质量处理发展到围绕着纹理分析、图像编码、图像分割和滤波等研究。图像的分析与处理,也由静止转向运动,由二维转向三维,并主要着眼于对图像的识别和理解上,也使计算机视觉的应用领域更为广泛,为案例推理中运用计算机视觉打下基础。

2 案例推理系统的主要关键技术

(1)案例的表示与组织

案例的表示与组织即是如何抽取案例的特征变量,并以一定的结构在计算机中组织存储。如何将信息抽取出特征变量,选择什么语言描述案例和选择什么内容存放在案例中,案例按什么组织结构存放在存储器中,这关系到基于案例推理方法的效率,而且对于案例数量越来越多,结构十分复杂的案例库,尤其重要。

(2)案例的索引与检索

案例的索引与检索即是为了查找最佳相似案例,如何建立案例索引和相似度算法,利用检索信息从案例库中检索并选择潜在可用相似案例。后面的工作能否发挥出应有的作用,很大程度上依赖于这一阶段得到的案例质量的高低,因此这一步非常关键。

(3)案例的复用和调整

案例的复用即是如何根据旧案例得出新解,涉及到找出案例与新问题之间的不同之处,案例中的哪些部分可以用于新问题,哪些部分不适合应用于新问题的解决。而复用还分案例的结果复用,案例的求解方法复用。

(4)案例的学习

案例的学习即是将新解添加到案例库中,扩充案例库的案例种类与数量,这过程也是知识获取。此过程涉及选取哪些信息保留,以及如何把新案例有机集成到案例库中,包括如何存储,如何建立索引等等。

针对案例推理的关键技术,根据检测和故障诊断系统的特点,计算机视觉主要解决如何将产品图像输入系统,如何将产品图像特征进行抽取和描述,如何区别产品不同之处。以便案例推理系统进行案例建模,确立案例的表示形成和案例相似度的计算。本文主要从计算机视觉如何运用在案例推理系统进行探讨。

3 产品输入系统

产品输入系统在不同产品类型和生产环境可能有不同之处,主要应有传感器单元和图像采集单元。如图1。

图1 产品输入系统结构

传感器单元主要判断是否有产品存在,是否需要进行图像采集,是否继续下一个产品图像的采集。这简单传感器可使用光电开关,配合光源,当产品经过时,产品遮挡住光源,使光电开关产生一个0值,而没有产品经过时,光电开关产生相反的1值,系统通过判断光电开关的值,从而判断是否有产品。

图像采集单元简单地说是将产品拍摄并形成数字化图像,主要包括光源、反射镜、CCD相机和图像采集卡等组成。光源和反射镜作用主要使图像中的物体和背景之间有较大灰度。CCD相机主要是拍摄设备。图像采集卡主要是将图像数字化。通过传感器判断有产品后,光源发出的光均匀地照在被测件上,CCD相机拍摄,拍摄图像经过图像采集卡数字化后输入存储设备。存储设备即为计算机硬盘。存放原始图像、数据、处理结果等。

这是案例推理系统的原始数据,是图像处理、图像特征抽取描述的基础。

4 图像处理

在案例推理系统中,需要对案例的组织和案例建模,案例的组织即案例的表示,相对计算机而言,即图像特征的抽取,即某图像具有与其它图像不同之处,用于区别其它图像,具有唯一性。同时,又能完整地表示该图像。所以案例的表示要体现案例的完整性、唯一性、操作容易性。

图像中有颜色区别、又有物体大小之分以及图像由不同的物体组成。如何表示图像,或说图像内部包含表示的本质,即图像的描述。根据图像特点,确立图像案例的表示,以图像的像素、图像的数字化外观、图像物体的数字组成等属性。这需要对产品输入的原始图像进行处理。

在计算机视觉技术中,对原始图像主要进行图像增强、平滑、边缘锐化、分割、特征抽取、图像识别与理解等内容。经过这些处理后,输出图像的质量得到相当程度的改善,既改善了图像的视觉效果,又便于计算机对图像进行分析、处理和识别。具体工作流程如图2所示:

图2 计算机视觉的任务与工作流程

图像预处理是将产品的数字图像输入计算机后,首先要进行图像的预处理,主要完成对图像噪声的消除以及零件的边缘提取。预处理的步骤为:图像二值化处理;图像的平滑处理;图像的边缘提取。

图像二值化处理主将灰度图形二值化的关键是阈值的选取,由于物体与背景有明显的灰度差,可以选取根据灰度直方图中两峰之间的谷值作为阈值来分割目标和背景。

图像的平滑处理技术即图像的去噪声处理,主要是为了去除实际成像过程中因成像设备和环境所造成的图像失真,提取有用信息。

图像边缘提取是为了将图像中有意义的对象与其背景分开,并使之具有某种指定的数学或符号表达形式,使计算机能够理解对象的具体含义,检测出边缘的图像就可以进行特征提取和形状分析了。可采用多种算法,如采用Sobel算子提取边缘。

图像预处理是为下一步的特征描述打基础,预处理的好坏直接影响案例推理的结果和检测诊断的效率。

特征提取是对图像进行描述,是案例建模关键,案例建模是根据案例组织要求抽取图像特征,是建立案例索引和检索的关键。如果图像没有特征,就谈不上进行检索。图像特征可通过图像边界、图像分割、图像的纹理等方法,确定图像特征,包括是什么产品、产品形状大小、产品颜色,产品有什么缺陷、产品缺陷在什么位置等特征,根据这些图像特征进行描述,形成计算机中属性值,并从数据库查找相应信息资料,从而确定产品之间的关系,相似度,也就是案例推理的方向。

5 系统的检索

根据案例推理原理和相应算法,建立案例推理系统模型,如图3所示。

图3 案例推理系统

对话系统:完成人机交互、问题描述、结果显示和系统总控制。

案例库系统:由案例库及案例库管理系统组成。

数据析取系统:对各种已有的源数据库的数据通过转换而形成所需的数据。

多库协同器:根据问题求解的需要,按照一定的数据抽取策略,完成问题求解过程中对模型库系统、方法库系统、知识库系统和数据库系统等资源的调度与协调。

知识库系统:由产生式规则组成,这些知识包括专家经验和以规则形式表示的有关知识,也可以是数据挖掘结论,支持案例检索、案例分析、案例调整等。 模型库系统:由模型库、算法库、模型库管理系统组成。完成模型识别和调用,并把结果综合,送入对话系统显示,作为补充信息供案例检索、调整使用。

数据库系统:存放待决策支持的所有问题,并完成其维护与查询等功能。

由于系统主要应用产品的现场实时检测监控或故障诊断,所以系统的检索时,也必须输入检索值,即输入现场产品的图像,在通过产品预处理、图像的二值化、分割和边界处理后,进行图像特征描述,根据图像描述进行分类识别。根据案例推理的算法检索案例库中,是否有相似的案例。即确定相似度。相似度确定主要由案例推理的算法确定,如贴近分析法。确定相似度最大作为结果,并将案例的解输出,给相关控制系统进行决策。如产品质量检测,确定产品质量是否合格,是否有不合格产品,不合格产品是什么原因造成,故障源是什么,如何解决和排除故障,等等。

6 结论

案例推理方法有效地解决计算机视觉技术中图像检索问题。对提高图像检索的效率和准确度提供了平台。

计算机视觉技术也为案例推理系统实现产品现场实时检测、监控、诊断提供技术支持。计算机视觉技术现场的数据采集、处理为案例推理打好基础。

两者的结合设计的系统适用范围很广,只要产品需要进行质量检测、监控,或设备需要进行故障诊断和维护,都可以适用。

系统提供的实时检测、监控和诊断功能,提高企业的生产效益,降低了生产成本。

参考文献:

[1](美)桑肯(Sonka,M).图像处理分析与机器视觉[M].人民邮电出版社.

[2]王宏等译.计算机视觉[M].电子工业出版社.

[3]蔡建荣.自然场景下成熟水果的计算机视觉识别[J].农业机械,36(2):61-64.

[4]王宇辉.基于计算机视觉的锥体零件尺寸在线检测算法[J].重型机械,2005,2:4-6

[5]骆志坚.基于计算机视觉检测技术自动计数系统的研究与应用[J].仪表技术与传感器,2005,3:41-43.

[6]左小德.贴近度分析法在案例库推理中的应用[J],南大学学报(自然科学版),1997,18(1):21-26.

[7]姜丽红.案例推理在智能化预测支持系统中的应用研究[J].决策与决策支持系统,1996,6(4):63-69.

篇3

关键词:计算机数字技术;虚拟现实;视觉文化;时代影像;观察模仿与建构

“计算机是形而上学的实验室”――哲学家海姆说。

大部分的知识与经验,我们都是从视觉经验中去获取。视觉,作为第一感官,让视觉文化的发展史成为人类文明史很重要的部分。所以视觉技术的发展和变化也必将对文化产生深刻的影响。

随着视觉技术的发展也相应改变了人们看的方式,看的方式的改变也将反过来作用于人们的认识。计算机视觉技术作为一种现代社会最重要的新媒介,必然也将影响和扩展无数的可能性。

一、技术革新与观察方式的变化

(一)原始的观察方式

视觉作为一种可以有效感知形体及色彩节奏变化、可以较为稳定保存与传播的感官形式,成为了人类文明的重要载体。但视觉也受到空间范围和错觉现象等因素的影响,划定了它所存在的局限性。于是人们不再仅仅满足于这种单纯的看,而希望和渴望视觉的无限延伸,“千里眼”的神话就是体现了人类这种希望拓展视觉能力很好的例子。

(二)技术革新下的观察方式

“千里眼”的神话不是遥不可及。望远镜的发明,极大的扩展了人类视觉空间范围,最终在这种外在视觉辅助工具的帮助下从新发现和认识了这个世界。除了这种拓展视觉空间的外在设备,还有对于视觉成像形式发生改变的视觉技术。从三菱镜对于不同可视光线的发现再到x射线,红外线夜视设备等都大大拓展了肉眼的可视领域,我们可以观察到红外线等特殊光线。

二、计算机视觉技术下建构虚拟现实

(一)什么是虚拟现实

英国的克里斯托弗.霍洛克斯在其《麦克卢汉与虚拟实在》一书中对于“虚拟性”这一概念作了比较明确的界定:虚拟性又两层涵义,一是虚拟作为科技的虚拟效果,一是虚拟文本所带来的虚拟实在。第一层含义是这篇文章重点讨论的,且计算机视觉技术是怎么实现这种虚拟效果的。一般我们所说的“虚拟现实”主要是指电脑虚拟环境,这和“虚拟性”是有概念上的差别的,不仅仅“虚拟实在”具有“虚拟性”,而我们由很多的形式据有“虚拟性”。而怎么界定什么就是“虚拟实在”,什么又不足以构成虚拟实在?兰尼尔认为这种“虚拟实在”得以体现需要“沉浸”(immersion)“交互作用”(interaction)和信息的“密集度”(intensity)三者对于“虚拟”的作用程度。“沉浸”的感觉“来自某些设备,他们将完全将人们的感官隔离开来,让人觉得从一个地方移到另一处”,信息的“密集度”的界定取决于虚拟性能给用户提供什么样的信息构建,尤其是关于自身处境是否真实程度的信息。所以对于“沉浸”“信息密集度”三者作用于人的程度就是衡量是否实现虚拟实在的重要标准。

(二)计算机视觉技术对“虚拟实在”实现的影响

1.计算机视觉技术对于“沉浸”现象的影响

首先对于“沉浸”兰尼尔提到“来自某种设备”“他们完全将人们的感官隔离开来”“让人感觉从一个地方移到另一个地方”。其实单纯的理解“沉浸”的这种状态,会发现在人们生活中就会经常有所体验。绘画可以实现沉浸对于视觉的要求,但是绘画所营造的视觉感受不管再写实也不如摄影影像来的真实,而我们更要注意到的是绘画也好摄影图片也好都是相对静止的画面,这样很容易随时让我们从沉浸的虚拟环境中看见不真实,从而破坏这种沉浸。而电影用时间帧将静止的画面实现了运动,而且因为视图像的可组合排列的特点,实现了对于情节视觉图像的编排的可能性,我们甚至就可以感觉时间就从我们身边穿过,完成了对于深度“沉浸”的实现。

2.“信息密集度”与计算机视觉技术的关系

计算机作为现代最伟大的发明,依靠“0”“1”的运算模式,从某种意义上来说突破了“形式”与“内容”的不完全一致性,比如计算机如果要想改变外在的图像元素,就必然要改变内在的程序模式,如果一旦改变了其内在的程序也必然导致外在图像元素的改变。计算机视觉技术正随着计算机处理能力的提升,飞速地发展着,这样处理信息的密度越大,计算机处理图像的质量就越高,所以可以达到的“沉浸”和“交互作用”就越强烈,视觉、听觉等感官所感知真实的可能性被大大减小,所以“信息的密集度”是前两者得以实现的保证和巨大推力。

(三)计算机视觉技术对于现实本身的超越性

更值得注意的是通过计算机视觉技术手段,虚拟世界可以穿过不完美的现实世界,建构一个比现实更美丽、更刺激、更富神奇的空间。这是一种技术浪漫主义。柯伊斯提出“如果计算机允许我们塑造,模仿和重现实在,那么计算机当然也该允许我们改变知觉领域,挑战并扭曲实在,并建造另外的实在,所以经验主义并非挑战浪漫主义,而是提供技术浪漫主义的叙事条件”。而这种对于现实的跨越与改变是可以在视觉虚拟与文本虚拟下实现的。于是人们可以在虚拟的游戏世界中感受到上天入地、吞云吐雾、时间穿梭、性别转换等超越现实的虚拟实现。再次,在这种虚拟实在构建的电脑游戏中,可以将虚拟的时间延长,减小人们“醒来”的机会,使人长时间地沉浸在这个虚拟的梦境中。比如在棋类游戏中会因为一局的结束而脱离棋局这个“弱虚拟”,但是在电脑游戏中可以通过“虚拟文本”的预先设计实现这个游戏的“无始无终”。而且在这种预设的“虚拟文本”中可以最大程度的降弱现实世界的残酷与复杂,比如,在现实中对于“死亡”的巨大恐惧,可以通过虚拟文本改变成为 “灵魂出窍”并通过找回“尸体”这一种形式而得到重生,在这个虚拟世界里死亡只是可能会带来一些虚拟的道具装备和虚拟货币的丢失,这样就大大降弱了现实世界的残酷性和复杂性,建立一个更易于掌握的极乐世界。

参考文献:

[1]周宪,视觉文化的转向[M],北京大学出版社,2008年1月第1版

[2]尼古拉斯・尔佐夫,视觉文化导论[M],江苏人民出版社,2006年11月第1版

篇4

关键词:OpenCV;手势识别;模式识别;图像处理

中图分类号:TP368 文献标识码:B 文章编号:2095-1302(2015)06-00-03

0 引 言

随着科技的日益进步,传统的、基于键盘鼠标的人机交互方式略显单调。各国的研究者们探索着一个又一个新的人机交互方式,而在这些方式中,基于图像理解的方式已经取得了很大的进展。我们的生活离不开肢体动作,而图像方式是计算机能够理解人类动作最直接的方式。图像处理的研究内容非常广泛,配合统计、模式识别等学科知识的应用,我们已经能够识别并理解常用的人类肢体动作。

在肢体动作中,手势动作又是其中的重点。如今很多新的交互方式都建立在手势识别理解的基础上,例如:Microsoft的kinect系统,primesense的生物识别系统等。很多公司已经将其应用到了医疗、教育教学、失语者手势理解等领域。因此,研究手势识别理解将会是未来计算机领域的一大热点。

运动识别系统的进步伴随着数字图像处理领域的进步,各国学者相继开发出了大量优秀的计算机视觉和图像处理软件包。大多数软件包基于计算速度的考虑采用C/C++ 编写[1]。虽然这些软件包对计算机图像处理和计算机视觉的研究提供了很大地便利,但也存在着不足之处[2]:

(1)现行的多数图像处理平台没有提供高级数学函数;

(2)Matlab 的运行速度需要提高并且对宿主机器的配置要求较高;

(3)绝大多数图像处理库不支持嵌入式程序开发。

开源计算机视觉库OpenCV(Open Source Computer Vision Library)的出现极大地弥补了这些不足,给开发者提供了强大的综合开发平台。

1 OpenCV简介

OpenCV(Open Source Computer Vision Library)诞生于Intel 研究中心,是一个开放源代码的、高质量的计算机视觉库。它轻量且高效,采用C/C++ 语言编写,可以运行在Linux/Windows/Mac等操作系统上。OpenCV 还提供了Python、Ruby、Matlab及其他语言的接口[3]。OpenCV中包含了大量经典的计算机视觉处理函数,这些函数涵盖了机器视觉领域的大多数应用。OpenCV提供的视觉处理算法非常丰富,利用其开源特性,只要开发者处理得当,不需要添加新的外部支持也可以支持完整的编译链接生成执行程序。

OpenCV 现行版本为2.4.11.0,已放出了3.0.0的Beta版本。现行版本的OpenCV分为18个模块,其中常用的有8个模块:

(1)Core:定义基本的数据结构,包括矩阵和被其他模块使用的公共函数;

(2)Imgproc:包含线性和非线性图像过滤器、几何图形变化、色彩空间变化等功能;

(3)Video:包含运动分析、背景剪切和对象追踪等功能;

(4)Calib3d:包含多视角集合算法、3D重建等功能;

(5)Features2d:包含特征匹配等功能;

(6)Objdetect:包含预定义对象距离探测等功能;

(7)Highui:包含一个简单易用的高层级接口,用以抽象不同操作系统对视频提取和图像操作的功能;

(8)GPU:包含GPU加速相关的算法,这些算法可以被其他模块使用以加速程序的运转。

2 手势识别简介

根据计算机系统检测手势姿态的传感器的不同,我们可以将手势识别理解系统分为两类:一是利用数据手套获相关技术;二是利用计算机视觉捕获和处理图像流。利用数据手套捕获技术实现的手势识别系统使用不方便,用户需要学习的内容多且使用场景受到限制,而且成本较高[4]。而基于计算机视觉的手势识别系统则具有使用场景广阔、使用习惯符合人体本能、传感器成本低、普及率高等优势。

基于图像的手势识别系统一般可分为手势姿态图像采集、手势姿态图像分割、手势姿态特征提取及手势姿态识别四个步骤[5]。

在大量手势识别系统的实际开发过程中,都牵扯到使用肤色过滤系统来分割获取手势的binary图像。手势姿态的binary图像的获取关系到后期手势姿态理解的稳定性和准确性,但是人体的手部颜色受到个体差异、光源颜色以及光照角度的影响,其中任何一个因素变化都将造成阴影、遮蔽等不良影响[6]。手势识别的方法主要有4种,具体见表1。

表1 手势识别方法静态识别[7] 动态识别[8]

模板匹配法(TM) 动态时间规整法(DTW)

神经网络法(NN) 隐马尔可夫模型法(HMM)

本文首先使用YCrCb肤色分割算法在使用者在线模式下提取使用者手势姿态30组,利用30组手势姿态的均值测量出使用者手部的色彩平均值;然后提取环境光照的平均值、极大值和极小值,利用环境关照的取值和手部均值做运算,特定区域内找点最少的环境光照值和手部均值,最后利用这两个值进行手势姿态图像binary处理。将得到的binary图像进行特征化处理,得到手部特征点,通过对特征点的运算,得到最终的手势姿态理解。

3 手势姿态的binary处理

手势姿态的binary处理核心代码如下:

主函数:

frame = cvQueryFrame(capture);

//读取一帧图像

//cvShowImage( “Main_cam” , frame);

if( !frame ) break;

assert( 0 ==

binary_image_process( frame , mask , high_threshold1 , high_threshold2 , high_threshold3 , &is_get_binary )

);

cvShowImage( “Binary_cam” , mask );

//binary_image_process函数,使用环境光和肤色在线测量均值得到的三个阈值:threshold1,threshold2,threshold3,分别对应YCrCb颜色空间的Y,CR,CB通道:

IplImage* ycrcb = cvCreateImage( cvGetSize(frame) , 8 , 3 );

cvCvtColor( frame , ycrcb , CV_BGR2YCrCb );

for(int i=0 ; i < ycrcb->height ; i++ ) //二值化

{

uchar *row = (uchar *)(ycrcb->imageData) + i * ycrcb->widthStep;

for(int j=0 ; j < ycrcb->width ; j++ )

{

uchar *p = row + 3*j ;

//if( *(p+1) > threshold2 && *(p+2) < threshold3 )//||

if( *(p) < threshold1 )

{

binary_image->imageData[ i * (binary_image->widthStep) + j ] = 255; // 白色

}

else

{

binary_image->imageData[ i * (binary_image->widthStep) + j ] = 0; // 黑色

}

}

}

IplConvKernel *element = cvCreateStructuringElementEx( 4 , 4 , 0 , 0 , CV_SHAPE_RECT );//创建用于腐蚀的核函数

cvErode( binary_image , binary_image , element , 1); // Erotion

cvDilate( binary_image , binary_image , NULL , 1); // Dilation

cvReleaseStructuringElement( &element );

cvReleaseImage( &ycrcb );

经过提取的手势识别binary图形如图1(a)~(e)所示。

可见此方法提取的binary图像清晰准确,具有利用价值,可以为后期的特征提取与识别创造有利条件。

(a) (b)

(c) (d)

(e)

图1 手势识别binary图形

4 手势姿态特征的识别与理解

首先,我们通过对最小包络圆和手腕的计算得出手掌心的位置,然后利用每个点与相邻点做向量外积计算是否为手指尖点和手缝点,最后即可得出手势姿态的全部特征点。

//计算整个轮廓的中心点

for( int i=0 ; i < real_contours_number ; i++ ){

contour_rectangle = cvMinAreaRect2( sort_contours[i] , 0 );

arm_center[i].x = cvRound( contour_rectangle.center.x );

arm_center[i].y = cvRound( contour_rectangle.center.y );

cvCircle( frame , arm_center[i] , 10 , CV_RGB(255,255,255) , -1 , 8 , 0 );

}

//取得凸包,画出指缝

for( int i=0 ; i < real_contours_number ; i++ ){ get_convex_hull( i );

finger_tip( i );

hand( i );

cvClearSeq( hull ); //清空凸包序列

cvClearSeq( defect );

}

最终,得到的含有全部手势特征点的图像如图2(a) 、图2(b)所示。

(a) (b)

图2 含有全部手势特征点的图像

5 结 语

新版本的OpenCV计算机视觉库给我们提供了很强大的计算机视觉处理能力,利用其提供的高级别函数和矩阵运算能力,开发者们可以开发出大量基于图像的应用。利用OpenCV强大的可移植能力,开发者可以使用相应的移植工具将PC平台上的成果转化到移动端,这将会为开发者创造新的机会。

参考文献

[1]喻擎苍, 翁秀娟, 赵匀,等.交互式开放结构计算机视觉平台[J]. 计算机工程与应用,2006,42(23):78-81.

[2]秦小文, 温志芳, 乔维维. 基于OpenCV的图像处理[J]. 电子测试, 2011(7):39-41.

[3]于仕琪, 刘瑞祯. 学习OpenCV( 中文版)[M]. 北京:清华大学出版社,2009.

[4] LEE C, XU Y. Online interactive learning of gestures for human /robot interfaces [C] Proceedings of the 1996 IEEE International Conference on Robotics and Automation. Washington,DC: IEEE Computer Society Press,1996,4: 2982-2987.

[5]赵健, 张冬泉. 基于OpenCV的数字手势识别算法[J]. 计算机应用, 2013, 33(z2):193-196.

[6] SURAL S,QIAN G,PRAMANIK S.Segmentation and histogram generation using the HSV color space for image retrieval[C] of the 2002 International Conference on Image Processing.Piscataway: IEEE,2002: 589 - 592.

篇5

多媒体技术是计算机技术和社会发展进程中人类总需求的结合。计算机技术发展的初期解决的是数值计算问题,诞生的缘由是美国为了研究军事技术,对攻击精度的计算。计算机硬件设备的发展,使计算机处理数据的能力越来越强,逐渐从处理数值发展到对复杂的多种形式媒体的处理。多媒体技术融合了对数据、多种媒体、复杂的智能化处理和交互,并在高速信息网的作用下实现了信息资源的共享。目前,计算机多媒体技术已经改变了人类的生活方式,促进了现代文明的进程,广泛应用于军事、工业、通信、教育、金融、娱乐等诸多领域。

2多媒体技术的特征

从计算机处理多媒体的种类和处理的效果、人类接受的方式来分析,计算机多媒体技术主要具有多样性、集成性、数字化、实时的交互性等特征。

2.1多样性

计算机多媒体技术面向的媒体种类众多(章惠,多媒体技术和教学的有机结合:洛阳大学学报,2003),从最初的数值处理发展到了人类感官能触及到的文字、图像、声音、动画、视频等多种形式媒体的处理。媒体的多样性,使媒体形式变得丰富多样,这必将使表达更为自然生动,表现更为灵活,解决问题更为便捷。

2.2集成性

为了获得更好的展示效果,各种媒体并不是各行其是的。计算机使用不同的媒体,共同展示相同的内容,媒体与媒体之间的融合集成、充分展示,让人们的不同感官得到充分刺激,使人们更易于接受(孙涛,计算机多媒体技术的应用:长春理工大学学报,2011)。为了多媒体后期的运用,各种媒体会被进行数字化处理,然后由多通道统一采集、编辑、存储、检索、显示、传输与合成。计算机领域内最新的硬件和软件技术也将促使多种媒体更好的处理效果和更快的处理速度。

2.3数字化

多媒体中的各种媒体,进入计算机后,已全部转化为了数字,以数字的形式展示和存储。图像经采样量化后,以BMP、RGB、CMYK、黑白灰度图等数字化形式显示、存储;声音是通过一定的采样频率和采样周期,实现模拟到数字的过程;而视频是在每帧图像和声音的采样、数字化基础上,形成的连续信息。

2.4实时的交互性

传统媒体是指报纸、广播、电视、杂志,这些媒体只能单向、被动地传播信息,不能称其为多媒体。多媒体技术与传统媒体最大的区别就是实现了人机交互,使用户能对多媒体信息进行主动选择、操纵和控制,使得获取和使用信息变被动为主动,同时被人的多种感官所感受、体验。不仅如此,因为多媒体的实时性,即是视频、声音等媒体是没有延迟的,随着时间的变化而变化。所以,多媒体的交互在高速网络的帮助下,能做到没有延迟的做出实时反馈。

3计算机创新技术在多媒体技术上的应用

多媒体技术涉及范围非常广泛,包括了计算机软硬件技术、数字信息处理技术、数据压缩、高性能大容量存储、网络通信技术等等。这些日新月异发展的新手段、新技术,推动多媒体系统逐步进入人类社会许多领域。多媒体新的技术不时涌现,带给人们新的惊喜。人工智能是一门新的科学技术,甚至有些大学将人工智能从计算机科学与技术专业剥离出来,独立成一个专业,在学生本科期间就进行相关研究。但事实上,人工智能是建立在数学和计算机科学与技术基础上的高层次学科,是一门近几年出现的最引领人类研究兴趣的技术。人工智能研究的最终结果就是机器人,而事实上,机器人集多种媒体表现于一生,通过机器人的触感模仿人类去理解和辨别外界。人工智能研究的图像识别、自然语言处理、语言识别融合在了机器人身上,与多媒体技术广泛结合,应用于人类生活。我们从机器人身上看到了人工智能对多媒体技术的影响。下面从涉及到的几个方面去分别探讨。

3.1计算机视觉

人们通过感官获取外界信息,仅视觉就能获得外界80%-90%的信息(王守佳,基于图像的人体检测跟踪和人脸识别的研究:吉林大学,2013)。计算机视觉是一门属于计算机智能的学科,采用了动物视觉原理,具有获取图像、分析图像到理解图像的工作过程。计算机视觉通过镜头等图像传感设备代替人类的眼睛来获取周围环境的图像,依靠计算机来代替人类大脑的工作,将采集到的图像进行分析和处理。人类处于一个三维的环境之中,计算机视觉技术可以帮助分析处理。处理的手段可分为三个层次,底层、中间层、高层。底层就是图像处理技术,将二维图像去噪、边缘检测后进行分割、根据图像特征进行提取、图像识别等。中间层是指对图像、视频外在特征的归纳判断,譬如形状、颜色、运动轨迹等。高层,即是对外界事物和环境的观察和理解。由以上三个层次可见,利用计算机视觉技术能对数字化图像改变形态、尺寸、色彩调整、文件格式转换等。目前,计算机视觉技术还能对图像进行高效的检测、高速的识别,对运动轨迹进行精准判断。而这些已被广泛地应用于多媒体产品中。

3.2音频技术

声音是多媒体技术经常采用的一种媒体形式,包括了语音和音乐等。多媒体通常需要通过声音去烘托主题气氛,彰显意境。特别是自学型多媒体系统和多媒体广告,没有人进行现场讲解,那么就需要加入声音进行解说,这样,数字音频信号显得更加重要。音频技术基于电声技术,主要包括:去噪、压缩、调整振幅等的数字化处理,以及语音处理和识别。长久以来,语音识别是人们的梦想,人们一直期盼计算机能够听懂人说话,根据人的语言做出相应动作,这也是设计智能计算机的目的之一。如今,具备多种语言识别功能已成为多媒体设备的标配,识变率也非常高。无论持哪种语言、地方口音的人们,都能通过语音转化为文字,甚至通过语音传送指令,得到回应、达到意图。

3.3虚拟现实技术

虚拟现实技术是利用计算机多媒体技术,运用3D场景、灯光、声音、动感创造模拟出真实氛围,为用户建立出一个虚拟环境。虚拟现实技术与计算机仿真技术相结合,将用户置身其中进行学习、工作与娱乐。这种技术已被广泛应用于教育教学、科普、军事、医疗、娱乐以及大型的网络游戏中。虚拟技术投入成本较高,成熟的设施主要运用于教学,比如多媒体航空飞行教学系统,通过该系统,可按100%比例局部展示表盘、操纵杆、舱外景物,通过配合空中场景、感知各种场景给身体带来的变化。使用这套系统进行模拟训练,可以有效的提高飞行员对飞机的操作水平。随着计算机技术的迅猛发展,虚拟现实技术成为目前的高新技术。在多媒体环境中,多种媒体的相互融合,使媒体的形式更加多样,多媒体技术在模式识别、语音识别和传感技术基础上,提取对象面部特征,模拟触觉、视觉、听觉等感官,使人处于逼真的三维世界,当人有反应或行动时,场景还会适时变化,即是让人如临其境的、自然的与计算机进行交互。虚拟现实技术具有非常广阔的发展前景,为人们的日常生活提供了很多乐趣和便捷。

3.4网络化

多媒体应用的数据通道是通信网络,网络给了多媒体更大的施展空间。多媒体技术的应用要想在网络上有所建树,必要受通信技术的影响。在网络通信技术的进步和整合下,网络带宽影响传输速率、通信协议影响传输可靠性、交换方式影响信道利用率,这些势必会影响多媒体的传输。计算机网络给用户提供了一个难以想象的庞大的信息网络平台,丰富的信息资源随手拈来,方便于人们的学习、工作和生活交流。而无线网络技术的发展,使资源变得随手可取(李晓静,计算机多媒体技术的应用现状与发展前景:科技情报开发与经济,2007),人们可随时随地通过访问全球网络和设备,便捷地实现对多媒体资源的共享,是未来发展的主题。计算机技术的不断创新和发展,促使了巨大的变革。CPU、内存、GPU等在内的计算机终端硬件设备性能越来越先进;而网络设备,例如服务器、路由器、网桥、交换机等也越来越强大。计算机计算的精度、速度、逻辑判断能力和充裕的带宽,让人们更加游刃有余的与网络虚拟世界互动。网络环境的高质、高速,消除了人与人空间和时间上的困扰,能全方位的为人类效劳。动态和交互式多媒体技术还能在网络环境中创建更形象的2D和3D场景。办公、教学和娱乐工具在视频、音频设备的协助下,集成在终端多媒体计算机中,新一代用户界面与人工智能等个性化、网络化的多媒体软件应用,可随时与身处世界任何角落的人们进行交流。

4结论

篇6

1引言

利用摄影测量和遥感为制图和GIS获取数据,传统方法的特点是人工有效地从影像__匕提取高精度的三维数据,在距离_匕这些影像从空间平台获取的图像到近景固定目标图像。一般来说,这些生产程序是费时并且很昂贵。在目前的制图和GIS预算基础上,传统的方法限制了能提取的地形信息的数量和分辨率。另外,山于数据获取当局采用了不合理的数据更新周期,在很多情况下,数据趋向于过时。数据获取系统总是技术驱动的,并且适应最新的方法和设备。将来,当数字系统成为现实时,这将毫无疑问会继续.在提高自动化水平的基础上,数字系统为提取制图和GIS所需信息提供新方法。新方法中也包括计算机视觉中的边缘裁剪技术,该技术利用了人工智能和机器学习等领域知识。凶此,摄影测量与遥感和计算机视觉与人工智能等领域的研究人员触合他们各自的技能来解决这个应用领域的一些具体的问题。在摄影测量与遥感领域自动提取地面地形信息需要过程的简洁表达和压缩影像范围的知识。这是一个很重要的工作,因为影像中储存着极其复杂的信息。摄影测量中获得的地表地形的影像的比例尺可从l:3000到l:90000,而遥感获得的影像的像素分辨率可从!米到30米不等。地形的影像特征的结构很复杂.它是由很多不同的亮度组合而成的,这些亮度可以表达例如,核物、地表、水文等这样的自然特征:也可以表达例如,房屋、道路等人工建筑,还能表达像阴影或亮度所造成影明的人造物体。另外,遥感影像中,一些特征之间的关系比一般照片上的特征之间的关系复杂。这些特征意味着航天和卫星影像的信息提取是很大的挑战。信息提取的研究首先得考虑数据的语义方面的问题。可是,提取的信息的几何性质也必须被考虑,以至于可以确保空间数据的相关规范性。计算机视觉是一门自动和集成广泛可用于可视处理和表达方法的科学,通过建立清晰、有意义的影像上的对象描述,应用方法和技术很广泛,其中包括数字影像处理,模式识别,几何建模,理解和认知处理.计算机视觉本身主要涉及影像解译和图像识别问题,并且试图通过目标和场景识别来解决这些问题。在这个过程中,使用从影像中提取属性和关系的技术、形状表达和描述技术,最后,利用提取和描述的特征进行基于模型的识别。由于影像获取的方法,在从数字遥感影像提取信息的过程中计算机视觉方法的应用是很复杂的,因而,当使用针对普通照片影像的提取方法时,要仔细考虑遥感影像的数据特征。在计算机视觉应用中很难处理的特征,在航空和卫星影像同样也是很难处理。普通的影响因素包括获取影像过程中的噪音,阴影的影响,由于照相机的角度和定位引起的几何变形的影响和光照的影响,由于封闭和部分目标等问题所引起的影响.解译航空(卫星)影像和其他的图像时采用的方法是不同的.三维物体几何形状是航空影像判读过程中的最基本的元素,这并不是因为要提取高程的原因,而且是因为在判读中三维对象可提供更多的信息。是三维还是二维信息更有利于特征的描述,这样的问题便被提出来了。在计算机科学领域里,对大多数研究而言,二维图像数据一般认为是足够的,尽管有研究小组正从事立体视觉和深度信息提取方面的研究。尽管有些例外,但大多数形状和位置描述决定了计算机视觉中的对象模型,对于中、低分辨率的航空影像,使用纂于形状的识别是令人质疑的。然而,上下文信息对遥感影像的解译有很大的作用。比如,桥作为穿过河流的道路的一部分可能很容易被识别。航空影像中的目标很密集,并有很多的组成部分,这一现象己被认识到了。这与计算机视觉最近的发展趋势是一致,计算机视觉识别图像上的目标,首先是分离不同目标的组成部分和它们之间的关系。这篇文章将回顾一些在计算机视觉中己使用的知识描述和建模的方法,并给出他们在研究遥感影像理解方面的例子。方法很多,要讨论这个领域中所有正在被研究者所使用的方法是不可能的。其他方法的讨论可能会涉及其他的领域,如Crevicr和LePage基于知识的影像理解的方法.Hancock和Kittler方法是两种松弛技术,sriniva犯n是人工智能技术在遥感方面的探索等。第二部分将介绍机器视觉领域中的知识的定义、知识表达的方法、控制问题、特征建模方法。第三部分介绍特征表达和特征识别的过程。第四部分介绍知识表达方法在航空测量和遥感中的应用实例.

2知识、表达和模型

2.1知识的定义•MerriamWebsterDictionary把知识定义为己知的事实和条件,知识是通过经验和联想获得,它的范围包括人所获得的信息和理解,是己知的总和。表达是描述的行为,状态和行为的描述.表达成与本质相应的具有特殊特征或品质的符号、副本或图像。模型是事物的仿真表达,是仿真的实例。在计算机视觉和人工智能中,这些术语的应用不是很严格.与它们的字典中的意思和技术定义相适应,很难确切定义。计算机视觉必须获取影像中场景的有用的描述,最初的描述就是图像强度值的阵列。在低层视觉阶段,进行图像的初步处理。中级阶段应用独立的邻域处理方法提取图像的特征和标识不同的部分。高级阶段归纳更多图像特征表达,在这个阶段进行初步识别.为了处理光线和视角的变化、形状和阴影的影响、图像处理如,相机角度和位置的变化和低层处理中的嗓声问题,我们需要现实世界有关图像获取和应用等方面的知识,这些知识是较高层的丰富的表达,这在计算机视觉中称为模型。这些模型解释、描述或抽象了图像信息。图像和模型之间的桥梁就是一定范围的表达,它联结着输入图像和输出解释。(l)生成图像,图像是输入数据的图像和模拟表达例如:二值图像和侧面影像。(2)分割图像,分割后的图像由与实际目标相应的一些像素组成,例如:分割算法的输出。(3)关系模型,它是经过编码后的知识,用于高层推理和解译.每种表达方法有它的应用范围的局限性。所以,在图像解译中,所有四种类型的表达方法都是重要的。我们应该重点放在第四种上,即关系模型,它包含了用于图像理解目的的知识表达和模型。2.2知识表达知识表达的目的是用计算机易于处理的形式表达知识。一个好的计算机表达语言应该易于表达、简洁、意义明了的、独立的。FOL(FirstOrderLoglc)语言是人工智能中表达方案的基础.FOL有规范的语法和语义,在这种语言里,一个句子的解译也就是上面谈及的。FOL的推断过程允许从旧语句中推断出新语句。这种规范的推断过程可以用于自动的从已知的事实中获取正确的结论.逻辑编程语言和产品系统二者都以FOL为基础.像Prolog这样的逻辑编程语言允许用FOL的严格模式描述知识,也能完成推断过程,可以从通用的知识里提取新的信息。逻辑编程语言通常使用“后向链”控制,用后向的逻辑推理法:为证明一些事物,他们发现数据库中的逻辑关系有助于结论的形成。因此,当一个目标确定后,“后向链”是推理中的最佳方式。产品系统由现存的事物的知识库、一组规则或“产品”组成,这些都是用逻辑关系表达的。下面是一个产品系统的例子。如果一个区域是一个长型的、性质相同的目标,那么他属于道路。产品系统以匹配,选择,产生结果这种方式永不停息地循环,应用数据库的知识,产生新的信息。在匹配阶段,系统寻找所有已有的、满足当前数据的法则。在选择阶段,系统运用第一阶段的匹配原则,选择一个规则来执行。选择的规则在结果产生阶段被执行,在这个阶段可能会牵涉知识库里知识的增加或侧除,和数据的输入、输出。在人工智能和航空侧里与遥感领域,框架和语义网络是最近最流行的值时表达结构。它应用隐喻,把对象表达为曲线图中的节点,这些节点用分类的结构组织,节点之间的关系表述为二进制的关系.在框架系统中,二进制的关系被认为是其他框架填充过来的空槽;在语义网络中,它们之间的关系被认作是节点中的有向线。这两个系统的意义和所要完成的任务是相同的.描述逻辑系统是从语义网络发展而来的,最基本的思想是利用目标和类别的复杂定义和它们之间来进行表达和推理。描述逻辑语言提供三种推理支持:(l)概念描述的分类,在特殊的层次中概念的自动整理。(2)对独立目标根据它们的属性分类。(3)知识库所有知识一致性维护。对于这些逻辑所支持的语言几乎无法表达,并且很难详细阐述复杂的制约条件.这些语言的优点是他们有依据推理服务的正式的语义和简单的逻辑操作.简言之,像Prolog这样的逻辑编程语言有一个执行模型,这种执行模型很简单,以至于一个程序设计员就可处理。近来,Pr。109编译器被推荐作为小型人工智能项目一c产品系统的首选开发工具,该产品系统是一个流行的人工建模推理系统;与Prolog不同的是,产品系统不是基于查询的,而是开放的、不间断的系统,它处于连续的操作中。语义系统提供一个比基于文本式的形式主义更容易理解的图形界面。它可以像FOL一样富有表现力,尽管大多数并不是这样,因为这种系统强加严厉的拘束于可以表达的对象之上.他的优点其中包括能表模块方法中的层次关系,并且相对比较简单。描述逻辑把清楚的语义与简单的逻辑操结合起来.所以,当所有的方案都依据FOL语言,就有这种或那种方法的折衷.2.3控制问题不管选择什么样的影像表达,影像数据的处理和影像数据的表达处理可以称为影像数据驱动,称为从下而上的控制,或可称为内部模型控制,叫做从上而下的控制。自下而上的数据驱动包括从影像处理、分割到描述,每一阶段为下阶段准备数据。如果邻域影像处理方法成本底,而且输入的数据是准确、可信的话,从下而上的控制是有用的.马尔(Marr)和Ullman致力于自下而上的方法研究.这种自下而上的方法是基于人类视觉数据不变的自下而上的处理基础上的。Marr认为这个系统导致一个中间描述叫做21/2维的结构,包括地表定位、参考视场中的距离和方位。另外,Ullman假设高水平的处理叫做可视化程序,它检测中间表达中的感兴趣特征。自上而下的模型驱动控制是被知识库里产生的可能性和先决条件驱动的。因而,模型驱动控制尝试用一种目标指向的行为去执行内部的模型证明.一个普通的自上而下的控制方法是假设和证明。这个一般可以控制低层次的操作.好像支持的人类可视化某些方面的关系并不是自上而下,这个发现促进了模型驱动方法的发展。降低低水平处理过程的设想亦如此。在实际操作中,计算机视觉系统趋向于混合使用自上而下和自下而上两中控制方法,系统的重点在方法效率和实用上.并行和串行计算可能在所有的设计中都用上了。自上而下和自下而上这两种控制隐含了一种层次处理关系.在层次控制中,控制程序看作是合作收集和竞争专家,在任何时候,“专家”帮助大多数选择。黑板结构是这种方法的一个例子,在黑板结构中模块化的知识源之间通过一个公共的黑板(存储器)进行通讯,它们可以通过这个公共的黑板进行输入和输出。2.4建模问题在计算机视觉中的基于模型的方法中,在一类图象中可按优先次序定义了一些模型,并利用这些模型来进行目标识别。这些模型对现实世界和应用中的一些外部知识进行编码二目标模型可能是外观模型,形状模型,物理模型等。在目标表达上,每一个模型应该适应一定的变化范围,这些变化可能是由于视角的变化、光照的变化、柔韧目标的形状变化等因素引起的.另外,影像获取本身的多变性、每组对象中单个对象的多变性,也要考虑进去.感兴趣的目标可能是二维的或三维的:这些目标可能是刚性的、有链接的或有韧性的。图像可能是距离图像或是强度图像.识别就是确定图像上不同的特征和在匹配阶段对比模型特征。模型(图像)的关联特征可以用前面己经讨论过的方法中的一种来表达。在一幅没有限制场景的强度图像识别一个三维目标是很困难的,航片和卫星影像就属于这类情况。深度信息的丢失、遮挡和混乱的细节信息产生了很多问题:另外,图像的强度间接与目标的形状相关.

3特征的自动提取

绝大多数影像解译系统的目的是在影像中提取/识别目标.在基于模型的方法中,它通过首先提取目标属性,然后再将他们与模型匹配。3.1特征属性的描述在计算机可视中,目标的属性、性质和可以从影像中提取的场景都叫做特征.这些属性有时被分类为全局属性和局部属性。然而,在摄影测量与遥感领域,“特征”这个术语是指图像上可识别的目标或者结构,如道路、建筑物,特征的分类依赖于具体应用:举个例子,对航空影像来说,全局性的描述可以包括航影像覆盖的地区例如:城区或郊区。避免过多的名字和定义,文章中的混淆就会减少。在这篇文章里,摄影测量中的术语“特征”即是影像中可识别的对象。若涉及对象的性质,我们就要用术语:“属性”了。目标的全局属性可以概括为目标完全可视化部分的信息,如面积、周长、长度等。理论上讲,为了处理多分辨率和多变的图像,这些全局性属性应是缩放和平移不变的。特征不应该重叠,这样可以避免混乱和遮挡:另外,目标每个不同视角需要独立的模型,这样可以处理多视角图像。例如,在摄影测量中,局部属性可能是联结和分割的边缘,这些可以看作特征的独立属性。然而,在计算机可视化中,局部属性大多数时候被看作属性之间的联系,或者是上下文。相关的属性在图表中构成。评价特征属性表达方案的标准是敏感度、范围、稳定性、有效性和独特性.根据这些标准,研究者总结出一个基于模型方法的好的表达,.其中包括局部属性和图像特定区域和目标的组合。这是因为局部属性可以根据输入数据的有限部分有效计算出来;这些属性很稳定,因为表象的一点变化仅仅影响某些属性,目标的局部遮挡仅仅影响局部特征。边缘连接就是边缘分析基础上的局部特征的一个例子.多尺度表达是可取的,因为在大尺度上,两个大体上相似的目标具有相似的描述,即使在小尺度上有一些不同。不管是从影像数据库还是从经过高分辨率重采样的影像上,对于航空影像和卫星影像而言,这种多尺度描述是比较容易获得的。这个选择项并不是对大多数计算机视觉应用都有用。唯一的模型判断标准在特征识别过程中并不重要,因为识别的方法能够允许由于噪音和遮挡等原因造成的错误匹配。比较航空影像、卫星影像和计算机视觉中的图像而言,前者局部特征的定位比较容易,因为前者的外方位元素和相机参数是己知的或者可以推倒出来。对于大多数航空影像计算机视觉研究而言二描述己经是足够的,但是三维模型和匹配经常应用于摄影测量中,例如建筑物形状提取。最后,什么属性对于特征提取或识别有用呢?属性要能表达不同的特征和图像不同的部分之间的区别。第二,属性要能反映外部世界的规律和结构。这样,属性的选择就是与应用无关的了.在遥感中,通过辐射校正、地物的光谱特征和地面的真实情况,所得到的多光谱影像的特征是众所周知的。一些属性的规律将可以从这些特征知识中提取:例如,不同类型的地面覆盖的光谱特性,如不同类型的植被、土壤、矿物质、水和一些人工建筑物经过多年广泛的实验和地面事实已经被确定了。在计算机视觉中,另外一些属性是基于形状和外形的;例如.道路是窄的条带,建筑物是封闭的多边型等。另外一些属性是基于上下文的,例如,建筑物通常位于道路旁,桥一般是跨越在河上的。特征可以一定的结构进行组织。一种方法是用层次的方法组织它们的部分或全部关系,例如基于系统的语义网络。第二种方法根据邻接关系来组织它们。后者对应于空间临近或上下文关系。二者都可以用图形表达。32特征识别计算机视觉中的目标识别与摄影测量中的特征提取相对应。为了从一幅图像上识别单个目标,自下至上的数据驱动控制通常是足够的,其中属性第一次被检测和表达成符号.通过聚集比较原始的属性来确定新的特征.利用这些属性从模型库中选择合适的模型,也称为索引。然后找到与影像属性最匹配的模型属性。最后,利用一些决策程序来校正模型属性.查找过程本质上包括归类、建立索引和匹配等步骤。然而,在包含多个目标,并且有遮挡和重叠的比较复杂的遥感影像中自下至上控制是不适用的,另外,在质量比较差的图像中噪声会产生假属性。对于遥感图像,这是一个非常合适的方案.在这种情况下,自上而下或者混和控制策略是比较有用的.在自上而下的方法中,假设阶段需要利用属性检索模型的组织,使得基于观测的属性和一小部分合适的目标可以被选择.在校正阶段应用选用的模型来识别目标.在混合方法上,两个阶段的联合提高了处理效率。当结果属性比单个属性更丰富时,就可以对属性进行组合.这个过程称为知觉组织.Lowe提出了目标识别中组合问题和属性组合标准。他寻找边缘分割的结构,它应该是在一定的投影方式下具有普遍性。例如同线性和平行边缘。Zerroug和Nevatia应用均匀投影方法把圆柱投影到二维空间。许多研究者己经研制了专业组合方法,例如:steger等的用于路道提取的方案,Hewricsson和Baltsavias等的用于建筑物的提取方案。显然局部上下文信息在属性组合中发挥着重要的作用,因为,为了定义局部上下文信息,人们希望把描述局部属性与其他属性之间的关系作一些特定安排。有关遮挡、透视、几何、物理方面的一般知识对识别来说是必要的.Brooks(1981)建立了一个名为^eRoNYM的目标识别几何推理系统.Matsuyama和H、ang(一985)研制的s一oMA系统,其中包括了几何推理专家模块。Mc引one和Shufelt(1994)在他们的系统中考虑了投影几何,以用于建筑物提取,而Lang和Forstner(1996)在建筑物提取中应用了多态特性.上下文信息在图像理解起着重要的作用。特别在松弛标记方法中,该方法用局部和全局上下文信息来进行图像区域或目标标记。经过分割阶段,场景标记应该与场景知识相对应,并且标记应该是一致的.这个问题用约束传播的方法来解决.局部约束导致局部一致,并且通过迭代的方法,局部一致性与整幅图像的一致性相协调。关于松弛标记方法的详细论述可以参考Hancock和Kittle:的文章。离散的松弛方法很简单,只能处理完整和精确的分割.概率松弛方法是建立在局部不一致性很可能全局解译比一致很有价值但不易于解释的基础上的,可参见早期Rosenfeld等人(1976)关于这种方法的一个例子.为了处理匹配阶段的不确定性,人们应用了多种基于证据的技术,例如:Dompstershafer理论,可靠性估计,模糊逻辑,最小错误原理,可信度估计,随机封闭集,贝叶斯网络等.

4建模和表达方法应用的一些例子

在计算机视觉和摄影测量与遥感领域中的知识表达和建模方法的应用就是前述一些方法的具体化。这些应用的领导者在理论上是机器械视觉的研究者。在摄影测量与遥感领域,所采用的方法紧随计算机视觉领域之后,这些方法己经改进成信息提取的方法了.这些应用表明摄影测量与遥感领域的研究者在人工智能技术上达到了专业水平。这些方法己经从基于规则的系统发展到语义网络,从框架发展到逻辑描述。在这一部分,计算机视觉和摄影测量与遥感领域中的一些应用的回顾就表明了这个趋势.4.1逻辑Reiter和Mackworth是第一批在计算机视觉系统中,应用逻辑作为一种表达方式的研究者.在他们的著作中,他们提议用一个逻辑框架结构来描述和解译图像和场景知识,并且提出二者之间的形式映射关系。他们陈述了影像原理,场景原理和描述原则,这些原理的逻辑模型形成了影像的解译。他们应用一个称为Mapse的简单地图理解系统来说明他们的方法。虽然这种应用具有相对的局限性,但是还没有新的系统被报道。一个原因是计算方法的复杂性。当逻辑提供一个一致的形式来说明约束,特定的研究使用逻辑的效率并不高。另外,FOL本身善长描述数据的不确定性和不完整性,这些存在于图像属性之中。影像元素与影像对象之间的对应并不是一对一的关系,另外的逻辑关系对这些模型是必要的。Matsuyama和Hwang采用了一个逻辑框架结构,在这种结构中,动态产生新的逻辑一致性和规则。4.2基于规则的产品系统Brooks研制了基于模型的影像理解系统一一ACRONYM系统用来检测三维目标,并用它进行了从航空影像上提取人工地物的实验。三维模型使用一个基于框架的表述来储存。对提供的影像进行了分析,ACRONYM系统提取了线段并获得二维圆柱。几何知识和图像条件经过编码,形成规则被用来产生场景的三维模型,然后这些与框架相匹配以便识别人工地物。sIGMA是一种用框架来描述知识,并且使用从上而下和从下而上两种控制方案来提取特征的航空影像理解系统。它包括三个子系统:几何推理专家系统(GRE)、模型选择专家系统(MSE)、低水平视觉专家系统(LIVE)。信息从GRE传至MSE,然后同LIVE进行通讯。SIGMA中的框架使用槽储存一个对象的属性和它与其他对象之间的关系。以框架中空间知识为基础,产生目标的假设并用于影像特征相匹配。与目标外形有关的推理,由MSE子系统来处理,并转换成图像术语传递给LIVE子系统。这种自上而下的影像属性的选择有利于检测到一些小属性,通过从航空影像中提取房屋和路段信息的实验对这个系统进行了测试。Mckeown等提出一个基于规则的系统,用来从航空图像上解译飞机场.这个系统以大约450条规则为基础,分为6组:初始化、用于原始图像片段解译的区域解译、一致性检查、组合图像片段对功能区域的规则和用于建立机场模型的目标生成规则.Mckeown和Harvey研制了称为•schemata一个航空影像解译系统,该系统中包括一个从标准知识集编汇的一些规则。它们从较高的层次模式中自动生成规则,这有利于更好地进行错误处理和更有效的操作。他们的系统包括大约100schemeta,其中每一个都会产生大约5个规则。start和Fischler提出了一个基于知识的系统,用上下文信息进行地形识别。在不同的层次上用规则对上下文进行定义。上下文信息并不一定可靠,结果导致很多冗余.这个解译系统是以三种规则为基础的:候选结果,候选结果评价,一致性确定。在评价过程中,候选结果的比较是基于可靠的候选结果评价的基础上的,在这个过程中评价相关相似性,候选结果是这类结果中的一个.作者认为这样划分知识是为了使其成为便于操作的大小单元。Stilla等描述了一个基于模型的系统,用来从航空影像中自动提取建筑物信息,目标既具有特殊性又具有一般性。该系统中用产品规则和产品描述集来对要识别的目标进行建模.特殊的模型用不变的拓扑逻辑结构来描述目标,而一般的模型更具有普通性.这些系统说明基于规则的系统不能保证知识的添加性和推理的一致性。如果打破单一规则基础而采用多尺度的多规则那么就会使程序模块化程度降低,而且不易于更改。Draper等人建议用黑板系统和基于schema的结构来处理之。4.3黑板系统Nagao和Matsuyama首先陈述了用黑板模型的影像理解的问题,并把它应用到郊区的航空影像中,用于识别汽车、房屋、道路等。他们的系统包括全局的数据库和一组知识源.黑板用层次方法记录由:基本区域、典型区域和目标等组成的数据.黑板还存储一个标记图,它连接原始影像的象素和数据库中的相应区域。基本区域是影像段分割的结果,并用灰度、尺寸、影像中的位置来标记。然后区域中的独特的特征被提取,识别的结果是具有下面的基本属性的区域。1.依据区域尺寸,大的、同类的区域;2.依据区域形状,长的区域:3.依据区域光照,有阴影的区域;4.依据临近区域的定位和太阳的定位,有阴影的区域;5.有植物和水的区域;6.根据纹理信息,高反差纹理区域。这些属性以单独的模式储存在黑板上,然后根据不同区域的特殊特征存在或不存在,知识源会识别出一个特殊的目标.每种知识源都是一个规则,这些规则是在目标识别的图像处理操作过程中的一个条件或是复杂操作的一部分。例如,利用知识源检洲庄稼地就是这样:“如果”是大的同类的区域、植被区域、没有水的区域、没有光照源的区域,“那么”可以证明这片区域是庄稼地。每种知识源单独识别一个目标,且这个可以导致同一个区域识别相互冲突(如庄稼地和草地)。为了解决这个问题,系统自动地计算一个可靠值.然后,取可靠值最高的识别结果奋舍弃其他的识别结果。Fuger等描述了一个基于黑板的数据驱动系统来分析航空影像中人工的目标.一般的目标模型在黑板中用符号表达,单个对象用几个属性描述.模型被许多参数所限制,这种参数被一个用“发展阶段”的封闭的循环系统所决定。stilla提出一个基于黑板影像理解的系统,这种系统适合于航空影像中复杂场景的结构分析。从一个原始对象开始,反复使用中间结果,目标对象就可以一步一步地组成。对象的组成用一个派生的图表来表达和记录.通过二维图像的分割和直线的近似计算来进行图像的分析识别。黑板系统一般趋向于具有一个集中控制的结构,所以效率就成了问题。另外,黑板系统假设所需要的知识源是有效的,所以在计算机视觉应用中应用该方法前提是图像已经被分析过了。4.4框架Hanson和Rieman把框架作为假设的产生的机器。关于目标分类的知识表达为框架。槽描述了目标类别之间二进制几何关系。槽还包括例示其他的对象描述的产品规则,这样,框架可用于控制又可用于表达.Ikeuchi和kanade用来表达三维对象.当明确了目标模型是有用的,处理过程是自上而下的。然后,如果模型比较弱并且有较准确的数据,那么处理过程是自下而上的。其他使用框架的系统包括^eRONYM、sxGMA、Nagao和Matsuyama等人的系统,这些己经在上面介绍过了。4.5语义网络Nicolin和Gabler描述了一个分析航空影像的系统,该系统用语义网络来表达和解译图像。系统由一个短期存储器(STM)、一个方法库(MB)、一个长期存储器(LTM)组成.5丁M的概念地等同于黑板,储存影像解译的部分结果.LTM存储场景的先验知识和特殊领域知识。系统匹配STM的内容和LTM的内容来产生解译结果.这个过程由MB中的推理机模块来完成.STM最墓本的内容是用一种自上而下的方式建立起来的,并且在一种模型驱动阶段状态产生,校验LTM中存储的目标属性的已有部分和缺少的部分。为了基于知识从数字地图中提取目标,Ma}’er已经发展了一个基于语义网络的系统。该系统是建立在语义网络和框架描述相结合的基础上的,在控制上采用模型驱动和数据驱动相结合。模型是由三个层次组成的,一般与自上而下的影像处理过程的各自的层相一致:(l)影像层,如数字地图;(2)影像图表和文本层:(3)语义对象语义网络以图形层的部分元素为基础构建语义对象,这些对象构成了图形对象和地形对象之间的一般或特殊的关系.例如,一个图表对象层中延长的区域特征化为“路的两边”、“人行道”、“道路网”等.虽然其他对象的描述没有给出,但是测试己证明了道路网的提取.用框架被设计来分析不同的概念和他们的属性.对象的提取以模型驱动和数据驱动实例为基础,初始的研究以用户确定的特定目标为基础的。虽然方法是以地图上明确定义的信息提取为基础,但是M叮er认为这个过程对影像信息的提取也是很有用的。Tonjes己使用语义网络从重叠的航空影像来建立影像模型。输出是具有适当植被表示的三维景观。Tonjes认为语义网络适用于表达结构化目标的知识.它的语义网络是用框架描述的,其中包括关系、属性和方法。语义网络有三个层:(l)传感器图层,该层从纹理,条带和图像细节为基础描述分割层。(2)几何和材料层,该层利用传感和地形解译结果来描述三维表面层。(3)影像层,它是要提取的对象。语义网络建立在三层之间。目标描述通过每层来重建,重建是基于数据驱动和模型驱动的。Lang和Forstner把他们的建筑物的提取方法建立在多态的中间层特征的基础上。该方法中应用了部分分层描述的语义模型。各部分之间的关系没有包括在其中。结合应用于顶点原始层的数据驱动模型和用于目标解译、验证假设层的模型驱动方法的基础上,建立了建筑物假设层,应用了四种建筑物类型:平屋顶、非直角平屋顶、人字形屋顶、曲线屋顶.sch川ing和vogtle开发了一个利用已知地图库辅助解译的数字地图史新系统。影像与地图相比较,检测出地图自编辑以来的变化。接着,语义网络分析新的特征。产生了两个网络,一个用场景,另一个用于图像,在其中网络中的典型关系建立在不同的层次上.DoGunst提出了一个数据驱动和模型驱动相结合的方法,用来识别数字地图更新所需的目标,这个方法是建立在用于道路描述的目标导向模型和用于特征识别的基于框架的语义网络基础上的。框架详细定义了目标之间的关系,目标的定义,可选的目标定义和预处理关系。道路的细节包括复杂道路的结合点,这些在知识库中己被描述。这是一个包括几个不同类型的道路特征的非常细节的研究。研究效果很明显,但同时也表明解译如此多细节存在着困难。Quint和sties在一996年,quint在1997年提出了一个叫MOSES的航空影像分析系统,该系统用语义网络作为建模工具,利用从地形图和GIS数据中获取的知识来自动精练。地图和图像中的一般模型的概念是相应的生成的模型概念的特例。对应于特定的场景的特定模型由系统自动产生:它是通过结合用图像的一般模型进行地图分析而产生场景的描述而产生的。一开始,数字化的有用的线段用来作为地图的结构分析,从而获取地图的结构分析结果。这样,结果图像一般模型来产生特殊模型,以用于图像分析,对于结构分析,原始影像用作输入部分。分析是模型驱动的,进行目标识别。在图像分析处理中用价值函数指导研究。总结之,己发现语义网络有很广泛的应用,并且己经应用于航空影像和数字地图的解译中.4.6描述逻辑逻辑描述的方法在摄影测量方面的应用微乎其微.其中一个是Lang和schroder(1994)研制的基于描述逻辑的方法,利用该方法结合从地图上提取的参考信息来解译航空影像的变化。用KL一one相似描述逻辑来描述不同类型的目标知识和可能的变化类型,它在必要和充足的条件下对概念进行描述。用描述逻辑的描述模块对有关场景和解译的实际信息进行描述。用目标概念和变化概念在逻辑上描述空间地物的几何关系和拓扑关系。目标被认为是经过图像处理和属性提取后的目标概念的一个实例。变化概念的概念被定义为识别变化.利用目标导向和许多启发式方法实现快速搜索。然而,这篇文章的例子似乎都以人工影像为基础的。

篇7

因为太多的交流是非语言性的,这就很容易理解为什么人与计算机交互会有障碍。我们经历了从打孔卡到键盘的发展,随着诸如Siri等APP的兴起,我们可以进行语音输入,但是仅仅通过语言,机器还是不能理解我们。

这就是为什么最近机器情绪识别的发展会如火如荼的原因。由于照相机技术和计算机视觉算法的发展,计算机通过面部表情、眼动方式、肢体语言、说话方式甚至抬头等理解我们的能力显著提高。

想象一下:一位虚拟心理医生在临床诊断时可以通过分析患者的面部表情来确诊抑郁症,甚至可以随着病情的变化来量化情绪变化。销售人员能更好地分析客户对其产品和广告的反应,老师们能知道课程计划是否适用于全体学生,智能手机如果感觉到我们不安或困惑,会改变方式并提出建议。

换句话说,冷静的设备会通过我们的面部表情来得知我们的情绪。

计算机视觉研究者已经致力于这项研究几十年了。在这几十年中发生了哪些改变?照相机技术是一个改变。为了理解面部表情,通常需要对表情的微妙变化进行检测,比如脸颊肌肉、嘴部的变化以及挑眉。然而,直到最近,在许多网络相机中人脸看起来还是像一大团粉红色的物质。但是现在即使最原始的智能手机都具有高质量的照相机,能捕捉到诸多显示面部情绪和意图的面部动作。

另一个变化是常规可用计算能力与内存的提高,从而可以运行更加复杂的情绪感知算法。由于有大量训练面部表情算法的视频数据库可用,计算机视觉算法变得越来越正确、有效,还能实时工作。

卡耐基梅隆大学机器人研究所的Fernando De la Torre发明了特别强大的面部识别软件,被称作IntraFace。他的团队采用机器学习的方法来教IntraFace如何以一种适用于大多数面孔的方式来识别和追踪面部表情。然后他们创建了个性化算法能够让软件对个人进行情感表达分析。不仅准确,而且高效,该软件甚至能在手机上运行。

De la Torre和匹兹堡大学心理学家Jeffrey Cohn已经在临床检测抑郁症上获得了令人鼓舞的结果。在自然环境下检测抑郁症要求能够捕捉微妙的面部表情,这就是他们正在做的事。

当然,这并不是万无一失的。演员可能会成功地伪造情感表达。但是,由于真假情绪在表达时间上的不一致,因此关注时间的算法不会轻易上当。此外,面部表情是嵌入到其他非语言行为中的。Cohn和其同事发现严重抑郁症和轻微抑郁症之间在声音的时间上有细微的差别。

另一位成员,语言技术研究所的Louis-Philipe Morency使用多模式机器学习来评估病人的非语言行为来帮助医生更好地评估抑郁症和焦虑。他设想这项技术不仅能帮助诊断疾病,还能在某种程度上量化情感反应,可以帮助医生追踪精神疾病,就像血液检测和X射线能够帮助医生监测身体疾病一样。

如果机器能理解我们的情绪,我们与机器的交互就会变得更加丰富。卡耐基梅隆大学的Justine Cassell研究虚拟同伴在教育行业的应用,她发现当虚拟同伴能对学生们的情绪状态做出适当反应,甚至在某些场合嘲笑他们时,学生们会更积极地参与也会学得更多。

篇8

关键词:数字图像技术;应用;发展趋势

中图分类号:TP391.41

计算机的特点在于能够处理各种数据,数字图像能够经过增强、复原、分割等处理,随着计算机技术的不断发展和进步,现在的数字图像技术具有图像处理多样性、精度高、图像的再现性好、处理量大的优点,本文主要研究数字图像处理技术的发展现状和发展趋势。

1 数字图像处理技术研究现状

所谓图像处理是指利用计算机来处理图像的过程,主要是实现改善图像的视觉效果,研究的内容主要包括图像数字化、图像增强、图像还原以及图像分割等。数字图像处理最早来源于20世纪20年代的报纸业,到20世纪50年代,随着计算机的发展,数字图像处理技术得到人们的普遍关注,数字图像处理技术随着太空计划得到很大的发展,最具有典型的例子,是对月球照片的处理。

进入到20世纪70年代后,数字图像处理技术随着计算机断层扫面(CT)的出现得到发展,在以后的时间里,数字图像处理技术不断有新的研究成果,1975年EWI公司研究的CT装置获得诺贝尔奖,目前数字图像技术已广泛应用在各行各业中。

2 数字图像处理技术的应用

数字图像处理技术目前在各行各业中都得到了很大的进展。在遥感航空航天方面,不少国家都派出了侦查飞机对目标地区进行空中摄影,进而通过图像处理技术来分析照片,节省了人力、物理,也能够从图片中得到其他的有用信息。在20世纪60年代以来,美国以及其他的一些国家发射了资源遥感卫星,由于成像条件非常差,因此图像本身的质量也不高,需要采取数字图像处理技术处理,如采用多波段扫描器进行扫描成像,图像分辨率为30m,这些图像转变为数字信号传送下来,再经过处理。数字图像处理技术在各国的应用中已非常广泛,如用在森林调查、灾害监测、资源勘查以及城市规划中。

数字图像处理技术最早来源于医药方面,因此在生物医学工程方面,数字图像处理技术也发挥出了巨大作用,除了上文所讲述的CT之外,还有一些显微图像处理技术,主要是识别红细胞、白细胞以及染色体分析等,在医学诊治方面X光肺图像增强、心电图分析以及超声波图像处理技术等发挥出了重要作用。

在通信工程方面,目前通信主要的发展趋势为综合性的多媒体通信,也就是将电视、计算机以及电话联合在一起在数字通信网上传输,在传输的过程中最为复杂和困难的地方集中在图像的处理中,比如说,彩色电视信号速率为100Mbit/s以上,想要传输出去就需要压缩信息的比特量,因此技术成败的关键就在于编码压缩。目前国家正在大力研发的新的编码方法,如小波变换图像压缩编码以及自适应图像网络编码等。

在工业和工程方面,主要的应用集中在自动装置配线中检测零件的质量、弹性力学照片的应力分析以及邮政信件的自动分检等,另外在智能机器人中也有应用。在军事、公安方面,数字图像处理技术的应用主要集中在导弹的精确制导、侦查照片以及图像的传输和显示方面,在公安方面,主要应用在鉴别人脸、识别指纹以及图片复原方面。数字图像处理技术除了以上所讲述的应用领域之外,在电视图像的编辑、服装设计、发型设计以及文物资料复原等方面也有广泛的使用。

3 数字图像处理技术的发展趋势

目前数字图像技术随着科技的进步得到了很大的发展,随着低成本硬件相关技术的发展可以想象数字图像技术将会得到更加广泛的应用,目前国内的研究成果主要集中在一些诊断、图像压缩编码以及目标识别等方面,但是还没有广泛应用在实际生活中。数字图像处理技术将会向着高分辨率、立体化、超高速以及智能化等方面发展,下面具体讲述数字图像处理技术的发展趋势。

随着计算机、人工智能以及思维科学研究的不断发展,数字图像处理技术在计算机视觉方面将会进一步的发展,智能机器人的重要感觉器官是视觉,目前研究的开放话题集中在理解和识别三维应力,将会应用在军事勘察、危险环境作业以及家庭服务等方面,目前人们对于自身的视觉了解的还非常少,因此在计算机视觉方面还需要进一步的探索。

数字图像处理技术还会向着虚拟现实发展,所谓虚拟现实就是使用计算机构成一个虚拟的三维空间,这项技术的发展是在计算机硬件技术的提高方面提出的,人们应用机器人身上的摄像机能够真实的感受到所在的环境,进而操纵机器人的行为,另外网上虚拟现实也是未来的一个发展方向。人们在完成社会生产中往往习惯使用自身的认识和工具,将这些掌握在自身手中,因此目前时代的发展趋势就是将原来二维的东西向着三维发展,如三维重建技术在地图方面的使用,在军事方面能够使用电子沙盘实现任意角度的转化和计算,也能够真实的直观的反应两点之间的障碍物等,还能够实现模拟飞行路线,为作战指挥带来极大的便利。在计算机中进行三维重建目前的热点和难点问题主要是计算机视觉研究领域。在图像压缩、识别以及分割方面,目前已取得很大的研究进展,目前图像处理面临的新的问题主要是图像专业压缩算法、图像识别算法等。

4 结束语

综上所述,本文先分析了数字图像处理技术研究现状和主要的应用领域,进而研究数字图像技术的发展趋势。目前数字图像处理技术已广泛的应用在生活中,如在网络、手机等中的应用,数字图像处理技术的发展与人们的生活息息相关,随着技术的不断发展,数字图像处理技术还会不断得到进步,这些还需要更多的人努力去研究。

参考文献:

[1]孔大力,崔洋.数字图像处理技术的研究现状与发展方向[J].山东水利职业学院院刊,2012(04):11-14.

[2]陈炳权,刘宏立,孟凡斌.数字图像处理技术的现状及其发展方向[J].吉首大学学报(自然科学版),2009(01):63-70.

[3]吕戈静.浅谈数字图像处理技术的现状及发展[J].电脑知识与技术,2012(33):8035-8036.

[4]丁可.数字图像处理技术研究与发展方向[J].经济研究导刊,2013(18):246+270.

篇9

一、数据融合

1.1概念的提出

1973年,数据融合技术在美国国防部资助开发的声纳信号理解系统中得到了最早的体现。

7年代末,在公开的技术文献中开始出现基于多系统的整合意义的融合技术。1984年美国国防部数据融合小组(dfs)定义数据融合为:“对多源的数据和信息进行多方的关联、相关和综合处理,以更好地进行定位与估计,并完全能对态势及带来的威胁进行实时评估”。

1998年1月,buchroithner和wald重新定义了数据融合:“数据融合是一种规范框架,这个框架里人们阐明如何使用特定的手段和工具来整合来自不同渠道的数据,以获得实际需要的信息”。

wald定义的数据融合的概念原理中,强调以质量作为数据融合的明确目标,这正是很多关于数据融合的文献中忽略但又是非常重要的方面。这里的“质量”指经过数据融合后获得的信息对用户而言较融合前具有更高的满意度,如可改善分类精度,获得更有效、更相关的信息,甚至可更好地用于开发项目的资金、人力资源等。

1.2基本内容

信息融合是系统所具备的一个基本功能,人类本能地将各感官获得的信息与先验知识进行综合,对周围环境和发生的事件做出估计和判断。当运用各种现代信息处理方法,通过计算机实现这一功能时,就形成了数据融合技术。

数据融合就是充分利用多传感器资源,通过对这些多传感器及观测信息的合理支配和使用,把多传感器在空间或时间上的冗余或互补信息依据某些准则进行组合,以获得被测对象的一致性解释或描述。数据融合的内容主要包括:

(1)数据关联。确定来自多传感器的数据反映的是否是同源目标。

(2)多传感器id/轨迹估计。假设多传感器的报告反映的是同源目标,对这些数据进行综合,改进对该目标的估计,或对整个当前或未来情况的估计。

(3)采集管理。给定传感器环境的一种认识状态,通过分配多个信息捕获和处理源,最大限度地发挥其性能,从而使其操作成本降到最低。传感器的数据融合功能主要包括多传感器的目标探测、数据关联、跟踪与识别、情况评估和预测。

根据融合系统所处理的信息层次,目前常将信息融合系统划分为3个层次:

(l)数据层融合。直接将各传感器的原始数据进行关联后,送入融合中心,完成对被测对象的综合评价。其优点是保持了尽可能多的原始信号信息,但是该种融合处理的信息量大、速度慢、实时性差,通常只用于数据之间配准精度较高的图像处理。

(2)特征层融合。从原始数据中提取特征,进行数据关联和归一化等处理后,送入融合中心进行分析与综合,完成对被测对象的综合评价。这种融合既保留了足够数量的原始信息,又实现了一定的数据压缩,有利于实时处理,而且由于在特征提取方面有许多成果可以借鉴,所以特征层融合是目前应用较多的一种技术。但是该技术在复杂环境中的稳健性和系统的容错性与可靠性有待进一步改善。

(3)决策层融合。首先

每一传感器分别独立地完成特征提取和决策等任务,然后进行关联,再送入融合中心处理。这种方法的实质是根据一定的准则和每个决策的可信度做出最优的决策。其优点是数据通讯量小、实时性好,可以处理非同步信息,能有效地融合不同类型的信息。而且在一个或几个传感器失效时,系统仍能继续工作,具有良好的容错性,系统可靠性高,因此是目前信息融合研究的一个热点。但是这种技术也有不足,如原始信息的损失、被测对象的时变特征、先验知识的获取困难,以及知识库的巨量特性等。

1.3处理模型

美国数据融合工作小组提出的数据融合处理模型,当时仅应用于军事方面,但该模型对人们理解数据融合的基本概念有重要意义。模型每个模块的基本功能如下:

数据源。包括传感器及其相关数据(数据库和人的先验知识等)。

源数据预处理。进行数据的预筛选和数据分配,以减轻融合中心的计算负担,有时需要为融合中心提供最重要的数据。目标评估。融合目标的位置、速度、身份等参数,以达到对这些参数的精确表达。主要包括数据配准、跟踪和数据关联、辨识。

态势评估。根据当前的环境推断出检测目标与事件之间的关系,以判断检测目标的意图。威胁评估。结合当前的态势判断对方的威胁程度和敌我双方的攻击能力等,这一过程应同时考虑当前的环境和对敌策略等因素,所以较为困难。

处理过程评估。监视系统的性能,辨识改善性能所需的数据,进行传感器资源的合理配置。人机接口。提供人与计算机间的交互功能,如人工操作员的指导和评价、多媒体功能等。

二、多传感器在林业中的应用

2.1在森林防火中的应用

在用modis(moderateresolutionimagingspectroradiometer)数据测定森林火点时的2、22、23波段的传感器辐射值已达饱和状态,用一般图像增强处理方法探测燃烧区火点的结果不理想。余启刚运用数据融合技术,在空间分辨率为1m的热辐射通道的数据外加入空间分辨率为25m的可见光通道的数据,较好地进行了不同空间分辨率信息的数据融合,大大提高了对火点位置的判断准确度。为进一步提高卫星光谱图像数据分析的准确性与可靠性,利用原有森林防火用的林区红外探测器网,将其与卫星光谱图像数据融合,可以使计算机获得gps接收机输出的有关信息通过与rs实现高效互补性融合,从而弥补卫星图谱不理想的缺失区数据信息,大大提高燃烧区火点信息准确度和敏感性。

2.2森林蓄积特征的估计

hampusholmstrom等在瑞典南部的试验区将spot-4×s卫星数据和carabas-iivhfsar传感器的雷达数据进行了融合,采用knn(knearestneighbor)方法对森林的蓄积特征(林分蓄积、树种组成与年龄)进行了估计。

knn方法就是采用目标样地邻近k个(k=1)最近样地的加权来估计目标样地的森林特征。研究者应用卫星光谱数据、雷达数据融合技术对试验区的不同林分的蓄积特征进行估计,并对三种不同的数据方法进行误差分析。试验表明,融合后的数据作出的估计比单一的卫星数据或雷达数据的精度高且稳定性好。

2.3用非垂直航空摄像数据融合gis信息更新调查数据

森林资源调查是掌握森林资源现状与变化的调查方法,一般以地面调查的方法为主,我国5年复查一次。由于森

林资源调查的工作量巨大,且要花费大量的人力、物力和资金。国内外许多学者都在探索航空、航天的遥感调查与估计方法。 trevorjdavis等22年提出采用非垂直的航空摄影数据融合对应的gis数据信息实现森林调查数据

的快速更新,认为对森林资源整体而言,仅某些特殊地区的资源数据需要更新。在直升飞机侧面装上可视的数字摄像装置,利用gps对测点进行定位,对特殊地区的摄像进行拍摄,同时与对应的gis数据进行融合,做出资源变化的估计或影像的修正。

试验表明,融合后的数据可以同高分辨率矫正图像相比,该方法花费少,精度高,能充分利用影像的可视性,应用于偏远、地形复杂、不易操作、成本高的区域,同时可避免遥感图像受云层遮盖。

三、数据融合在林业中的应用展望

3.1在木材检测中的应用

3.1.1木材缺陷及其影响

木材是天然生长的有机体,生长过程中不可避免地有尖削度、弯曲度、节子等生长缺陷,这些缺陷极大地影响了木材及其制品的优良特性,以及木材的使用率、强度、外观质量,并限制了其应用领域。在传统木制品生产过程中,主要依靠人的肉眼来识别木材缺陷,而木材板材表面缺陷在大小、形状和色泽上都有较大的差异,且受木材纹理的影响,识别起来非常困难,劳动强度大,效率低,同时由于熟练程度、标准掌握等人为因素,可能造成较大的误差。另外在集成材加工中,板材缺陷的非双面识别严重影响了生产线的生产节拍。因此必须开发一种能够对板材双面缺陷进行在线识别和自动剔除技术,以解决集成材加工中节子人工识别误差大、难以实现双面识别、剔除机械调整时间长等问题。

3.1.2单一传感器在木材检测中的应用

对木材及人造板进行无损检测的方法很多,如超声波、微波、射线、机械应力、震动、冲击应力波、快速傅立叶变换分析等检测方法。超声技术在木材工业中的应用研究主要集中在研究声波与木材种类、木材结构和性能之间的关系、木材结构及缺陷分析、胶的固化过程分析等。

随着计算机视觉技术的发展,人们也将视觉传感器应用于木材检测中。新西兰科学家用视频传感器研究和测量了纸浆中的纤维横切面的宽度、厚度、壁面积、壁厚度、腔比率、壁比率等,同时准确地测量单个纤维和全部纤维的几何尺寸及其变化趋势,能够区分不同纸浆类型,测定木材纤维材料加固结合力,并动态地观察木材纤维在材料中的结合机理。

新西兰的基于视觉传感器的板材缺陷识别的软件已经产业化,该软件利用数码相机或激光扫描仪采集板材的图像,自动识别板材节子和缺陷的位置,控制板材的加工。该软件还具有进行原木三维模型真实再现的计算机视觉识别功能,利用激光扫描仪自动采集原木的三维几何数据。

美国林产品实验室利用计算机视觉技术对木材刨花的尺寸大小进行分级,确定各种刨花在板中的比例和刨花的排列方向;日本京都大学基于视觉传感器进行了定向刨花板内刨花定向程度的检测,从而可以通过调整定向铺装设备优化刨花的排列方向来提高定向刨花板的强度。

在制材加工过程中,利用计算机视觉技术在线实时检测原木的形状及尺寸,选择最佳下锯方法,提高原木的出材率。同时可对锯材的质量进行分级,实现木材的优化使用;在胶合板的生产过程中,利用计算机视觉技术在线实时检测单板上的各种缺陷,实现单板的智能和自动剪切,并可测量在剪切过程中的单板破损率,对单板进行分等分级,实现自动化生产过程。wengert等在综合了大量的板材分类经验的基础上,建立了板材分级分类的计算机视觉专家系统。在国内这方面的研究较少,王金满等用计算机视觉技术对刨花板施胶效果进行了定量分析。

x射线对木材及木质复合材料的性能检测已得到了广泛的应用,目前该技术主要应用于对木材密度、含水率、纤维素相对结晶度和结晶区大小、纤维的结构和性质等进行检测,并对木材内部的各种缺陷进行检测。

3.1.3数据融合在木材检测中的应用展望

单一传感器在木材工业中已得到了一定程度的应用,但各种单项技术在应用上存在一定的局限性。如视觉传感器不能检测到有些与木材具有相同颜色的节子,有时会把木板上的脏物或油脂当成节子,

造成误判,有时也会受到木材的种类或粗糙度和湿度的影响,此外,这种技术只能检测部分表面缺陷,而无法检测到内部缺陷;超声、微波、核磁共振和x射线技术均能测量密度及内部特征,但是它们不能测定木材的颜色和瑕疵,因为这些缺陷的密度往往同木板相同。因此,一个理想的检测系统应该集成各种传感技术,才能准确、可靠地检测到木材的缺陷。

基于多传感器(机器视觉及x射线等)数据融合技术的木材及木制品表面缺陷检测,可以集成多个传统单项技术,更可靠、准确地实时检测出木材表面的各种缺陷,为实现木材分级自动化、智能化奠定基础,同时为集裁除锯、自动调整、自动裁除节子等为一身的新型视频识别集成材双面节子数控自动剔除成套设备提供技术支持。

3.2在精确林业中的应用

美国华盛顿大学研究人员开展了树形自动分析、林业作业规划等研究工作;auburn大学的生物系统工程系和usda南方林业实验站与有关公司合作开展用gps和其他传感器研究林业机器系统的性能和生产效率。

篇10

关键词:智能科学与技术专业;课程体系;教材建设

继2004年北京大学率先在国内建立“智能科学与技术”本科专业之后,2005年,北京邮电大学、南开大学和西安电子科技大学;2006年,首都师范大学、北京信息科技大学、武汉工程大学和西安邮电学院;2007年,北京科技大学、厦门大学和湖南大学;2008年,河北工业大学和桂林电子科技大学;2009年,重庆邮电大学和大连海事大学;2010年,中南大学和上海理工大学先后经教育部批准先后设立了“智能科学与技术”本科专业[1-2]。在中国人工智能学会教育工作委员会的指导下,自2002年起,各相关专业教师定期召开智能科学与技术教育学术研讨会,并出版教育论文专辑,大力推进了我国智能科学与技术教育的健康、快速发展,并对我国智能科学技术的人才培养和学科建设起到了极大的带动作用。

作为一个发展中的新兴专业,目前各高校仍主要结合自身基础和特点建设该专业。如南开大学以智能技术与智能工程为核心专业课程[3];北京科技大学从社会需求角度出发,以提高学生软件实践能力为切入点[4];河北工业大学根据相关专业的就业现状,以提高学生硬件实践能力为着力点[5]。为了解决南开大学、北京科技大学和河北工业大学3所高校共同面临的课程体系和教材建设等问题,三校教师分别于2010年6月16日和8月2日在南开大学、河北工业大学进行了两次研讨,现将研讨成果汇总于此。

1研讨背景

“智能科学与技术”专业自开办以来,不可避免地要回答如下3个方面的问题:

1) 来自用人单位的问题:“智能科学与技术”专业是做什么的?与其他专业相比优势何在?

2) 来自学生及家长的问题:“智能科学与技术”专业是学什么的?与其他专业相比优势何在?

3) 来自教师自身的问题:“智能科学与技术”专业应该教什么?与其他专业相比优势何在?

无论是做什么、学什么还是教什么,归根到底是课程体系和教材内容。无论是研究生课程下移(带来学生接受知识的困难),还是在其他专业教学体系基础上做简单的增、删、改(带来学生知识结构的凌乱),都是不行的,长此以往的后果将是没有优势,只有劣势。

南开大学、北京科技大学和河北工业大学3所高校的“智能科学与技术”专业建设都源于自动化专业基础,而且都具有典型的工科特色;同时3所高校分别是教育部直属“985”高校、教育部直属国家“优势学科创新平台”建设项目试点高校和河北省属“211”高校,3所高校的“智能科学与技术”专业分别于2006、2007和2008年招生。3所高校在“智能科学与技术”专业建设上的异同特点以及地域便利的条件,为优势互补、交流融合提供了机遇。

2课程体系

根据研究任务的不同,智能科学技术涵盖的内容可以划分为智能科学、智能技术、智能工程三个层次[6]。

1) 智能科学:主要任务是研究人的智慧,建立人机结合系统理论,并用其模拟人的智慧。

2) 智能技术:在智能科学的框架内创建人机结合智能系统所需要的方法、工具和技术。

3) 智能工程:利用智能科学的理念和思想,充分运用智能技术工具创建各种应用系统。它是当前新技术、新产品、新产业的重要发展方向、开发策略和显著标志。

根据上述智能科学技术的划分,智能科学与技术专业的课程体系同样划分为理论、技术与工程应用3个层次,具体框架如图1所示。

需要说明的是,由于课时、学时等因素的限制,有些课程需要包含未列入课程的部分内容。如智能科学与技术概论课程内含系统论的简要介绍;智能控制系统包含可编程序控制器、智能传感器、智能执行器等内容;智能工程包含若干典型智能系统实例。

3教材建设

经南开大学、北京科技大学和河北工业大学3所高校的讨论,一致认为工科专业应以技术和工程应用两个层次为核心,并将人工智能导论和智能信息处理两门课程的教材合并为智能技术。同时,根据南开大学侧重理论、北京科技大学侧重软件、河北工业大学侧重硬件的原则进行分工,编写对应课程的教学大纲和教材内容。

3.1智能技术

本课程包括智能计算和计算机视觉两部分,分别介绍以对人脑的物理结构进行模拟为主要特征的联接主义智能技术和以模拟人类视觉处理为主要特征的计算机视觉两部分。它是智能技术的主干内容;也是实现智能技术、组成智能系统的重要工具,属于本专业本科生的专业基础课。通过智能技术的学习,学生应能够掌握智能技术的基本原理和方法。通过课堂讲解、,并配合一定的作业练习、上机实验等环节,学生应初步具备运用智能技术和方法分析和解决问题的能力。本课程拟定90学时,其中授课54学时,实验36学时。

教材内容包括智能计算和计算机视觉两部分,智能计算部分包括神经网络、模糊理论和遗传算法/蚁群算法,计算机视觉包括计算机视觉导论、计算机视觉理论基础、图像预处理、图像分割、物体识别、图像理解、双目立体视觉、三维视觉技术、主动视觉。

神经网络讲授单个神经元(感知器)的动作原理,与实际生物神经元的对应关系;讲授BP神经网络的组成,网络的特性和对非线性函数的模拟功能;介绍BP算法的优、缺点;讲授H网络的组成结构,H网络在解决优化问题的优越性。模糊理论讲授模糊集合的概念,建立隶属度函数的概念;介绍模糊规则的建立原则,模糊规则与模糊系统收入输出量之间的关系;介绍模糊化以及模糊量精确化的几种常用方法。遗传算法和蚁群算法只作简要介绍,重点介绍这两种算法的特点和成功的应用实例,使学习者有一个感性认识,明确这种类型算法的“迭代”特点以及总体最优目标与个体行为之间的联系。

计算机视觉理论基础主要介绍Marr的视觉计算理论、图像的相关知识、傅立叶变换基础;图像预处理主要介绍像素亮度变换、几何变换、直方图修正、局部预处理、图像复原;图像分割主要介绍阈值处理方法、基于边界的分割方法、基于区域的分割方法;形状表示与描述主要介绍链码、使用片断序列描述边界、尺度空间方法、基于区域的形状表示与描述;物体识别主要介绍知识的表示、统计模式识别、神经元网络、遗传算法、模拟退火、模糊系统;图像理解主要介绍并行和串行处理控制、分层控制、非分层控制;双目立体视觉主要介绍双目立体视觉原理、精度分析、系统结构、立体成像、立体匹配、系统标定;三维视觉技术主要介绍结构光三维视觉原理、光模式投射系统、标定方法、光度立体视觉、由纹理恢复形状、激光测距法;主动视觉主要介绍从阴影恢复形状、从运动恢复结构、主动跟踪。

3.2智能控制理论与技术

本课程是“智能科学与技术”专业的一门重要专业课程,目的是使学生了解智能科学与控制理论结合所产生之智能控制理论的基本概念和应用价值;使学生熟知当前主流智能控制技术的种类,并掌握模糊控制、神经网络控制以及进化计算、群体智能的基础知识,了解智能技术与传统控制方法的结合点;加强MATLAB仿真实验的训练,以使学生更好地理解基础知识,培养学生使用高级智能控制方法解决实际控制问题的能力。本课程的学习将使学生加深对控制理论的理解,明晰智能技术在控制中的应用技巧,也为本科生继续深造打下基础。本课程拟定64学时,其中授课54学时,实验10学时。

教材内容包括智能控制概论,介绍智能控制的发展历程和应用领域,简介几种重要的智能控制方法;专家控制,简介专家系统的基本结构,讲授专家PID控制器的原理与设计方法;模糊控制,讲授模糊数学基础知识、传统的模糊控制原理和控制器设计与实现方法、模糊PID控制的两种形式,特别是PID控制参数的模糊整定技术;神经网络控制,讲授前馈神经网络和递归神经网络中几种典型的网络模型以及学习算法、基于神经网络的线性系统辨识技术、神经网络逆模控制等;进化计算与控制,讲授进化计算的概念、遗传算法的原理及其与其他智能方法的结合,介绍遗传机器人学;群体智能与控制,讲授蚁群算法的基本原理及其在控制问题中的应用,介绍群体机器人学。

3.3单片机原理与应用

本课程是“智能科学与技术”专业的一门专业课程,目的是使学生了解单片机的组成原理及常用控制算法的实现;掌握51系列单片机指令系统和一般汇编程序设计编写方法;熟悉常用的单片机硬件扩展技术;在此基础上,熟练掌握控制算法的单片机程序编写与调试。本课程拟定54学时,其中授课38学时,实验16学时。

教材内容包括单片机系统概述,介绍单片机定义、单片机发展过程及单片机硬件结构;单片机指令系统及程序设计,介绍指令系统和汇编语言程序设计;硬件资源及接口技术,介绍硬件资源和接口技术;单片机使用技术,介绍抗干扰技术、C语言应用程序设计;依次介绍PID控制器、状态反馈控制器、模糊控制器、系统辨识、卡尔曼滤波、滑模控制器、最优控制器、鲁棒控制器、自适应控制器、神经网络控制器的历史沿革、基本原理、常用形式和单片机具体实现方法。

3.4嵌入式系统

本课程以当前主流的嵌入式系统技术为背景,以嵌入式系统原理为基础,以嵌入式系统开发体系为骨架,以嵌入式控制系统开发为目标,较为全面地介绍嵌入式系统的基本概念、软硬件的基本体系结构、软硬件开发方法、相关开发工具、应用领域、热门领域的开发实例以及当前的一些前沿动态,为学生展示较为完整的嵌入式控制系统领域概况。本课程拟定64学时,其中授课48学时,实验16学时。

教材依据嵌入式控制系统的特征,将控制算法、嵌入式系统硬件、操作系统、应用程序设计及组态软件作为统一的技术平台介绍,突出嵌入式技术在控制系统中应用的特点,重点介绍嵌入式控制系统软硬件、电路、操作系统、实时性、可靠性等特性,从软件体系结构及开发的角度出发,强调实时调度、Bootloader、BSP、嵌入式实时多任务系统设计、交叉开发与仿真开发等关键技术,并特别引入了工业控制中需要的电磁兼容性设计和大量的典型嵌入式控制系统实例设计。通过本课程的学习,学生不但可以学会使用工具开发嵌入式软硬件,而且可以从总体角度选择适当的技术和方法,全面规划和设计嵌入式系统。

3.5智能工程

本课程是“智能科学与技术”专业的一门核心专业课程。面向智能技术的实际应用,着眼于解决工程应用中的技术问题,从典型系统设计案例分析出发,通过大量实验提高学生的工程实践能力。本课程拟定36学时,全部为授课学时。

教材内容包括智能工程概论,介绍智能工程现状、工程设计原则和工程实际流程;常用传感器原理,介绍传感器一般特性、光电式传感器和视觉传感器;典型智能系统设计案例,包括智能移动机器人、智能电梯群控电梯等系统。

3.6智能机器人

课程通过对一个具有代表性的仿人机器人的拆解,将知识点拆解成6个主要教学模块:1)机器人控制模块,介绍各类控制模块的原理与组成;2)机器人运动系统,介绍电机与舵机的原理与控制方法;3)机器人动作系统,介绍机器人各部件的协调控制;4)机器人视觉系统,介绍典型的超声波、影像传感器的原理与识别算法;5)机器人表现系统原理,介绍人与机器人的交互原理;6)机器人通信系统原理,介绍机器人之间的数据与信息传递方法。学生学习时,能够与基础知识相联系,并能掌握机器人这门技术,为从事机器人产品研发工作打下坚实的基础。本课程拟定54学时,其中授课44学时,实验10学时。

教材面向“智能科学与技术”专业,同时兼顾信息类专业学生编写,根据这类专业学生的知识结构和特点组织内容。从具体的机器人控制需求出发,将自动控制的基本理论和机器人控制特点相结合,讲授机器人控制系统的组成、规律、特点和设计方法。理论上反映当前的最新进展,内容上考虑初学者的需求,侧重普及性、实用性和新颖性,结构体系符合信息类和控制类专业学生的特点,力求简洁、清楚,对技术的叙述遵循目标、问题、理论依据、实现方法、实际情况、发展方向的方式。做到重点突出,符合实际,满足需要,指导性强。

3.7智能控制系统

本课程是“智能科学与技术”专业的一门专业课程,使学生了解智能控制系统的基础知识;掌握智能控制系统中最新的智能传感技术、智能控制器、智能执行能执行器及智能网络与接口技术;掌握智能控制系统中多个关键硬件装置的识别及其使用。通过学习多个智能控制系统的开发实例,学生应掌握智能控制系统的设计方法与技术,坚实地掌握最新智能控制系统知识,提高理论联系实际的能力,并为学习其他课程的打下坚实基础。本课程拟定64学时,其中授课48学时,实验16学时。

教材内容包括概述,介绍智能控制系统的基本概念、基本内容和机构及其发展趋势;智能传感系统,讲授智能数据采集技术、传感器智能化的数据处理方法、多传感器信息融合的方法、智能传感器实现方法与典型实例;智能控制器设计,讲授基于单片机的智能控制器设计及其应用、基于高性能嵌入式ARM的智能控制器设计及其应用、基于PLC的智能控制器设计及其应用;智能电动执行器,讲授智能电动执行器的硬件实现技术,软件设计技术以及典型的智能电动执行器实例及其应用;智能网络与接口技术,讲授无线传感器智能网络,工业现场总线网络以及智能传感器、智能控制器和智能执行器的网络接口实现技术;智能控制系统设计实例,综合利用前面的知识设计网络化智能压力传感器的系统设计、基于声音定位的智能机器人系统设计、基于微机电惯性传感器的汽车多路况智能防撞系统的设计、大型设备的PLC智能控制系统设计。

4结语

通过南开大学、北京科技大学和河北工业大学3所高校的研讨,我们凝练出较完整的“智能科学与技术”专业课程体系,体现出本专业的特色;提出可供3所高校共同使用的教学大纲和教材内容,体现出学生培养的工程实践导向。这些研究成果可以为开办“智能科学与技术”专业的兄弟院校进一步研讨提供蓝本,也可以为筹建该专业的高校所参考。

注:本文受到北京科技大学教学研究会第六批教学研究课题、北京科技大学教育教学研究基金青年教师教育教学研究立项项目、河北工业大学教改项目(2010-12)支持。

参考文献:

[1] 王万森,钟义信,韩力群,等. 我国智能科学技术教育的现状与思考[J]. 计算机教育,2009(11):10-14.

[2] 教育部关于公布2009年度高等学校专业设置备案或审批结果的通知[S]. 教高〔2010〕2号,2010.

[3] 方勇纯,刘景泰. 南开大学“智能科学与技术”专业教学体系与实验环境建设[J]. 计算机教育,2009(11):21-25.

[4] 石志国,刘冀伟,王志良.“智能科学与技术”本科专业软件实践类课程建设探讨[J]. 计算机教育,2009(11):93-97.

[5] 刘作军,张磊,杨鹏,等. 谈我校增设“智能科学与技术”专业的设想与措施[J]. 计算机教育,2009(11):53-56.

[6] 卢桂章. 无处不在的智能技术[J]. 计算机教育,2009(11):68-72.

A Study on the Course System and Textbook Construction for the Discipline of

Intelligence Science and Technology

YANG Peng1, ZHANG Jian-xun2, LIU Ji-wei3, ZHANG Lei1

(1. Hebei University of Technology, Tianjin 300130, China; 2.Nankai University, Tianjin 300071, China;

3. University of Science and Technology Beijing, Beijing 100083, China)