计算机视觉开发范文

时间:2023-10-18 17:39:37

导语:如何才能写好一篇计算机视觉开发,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

计算机视觉开发

篇1

【关键词】计算机软件 开发设计 措施

在计算机整体的系统中,最为关键的部位就是软件,计算机软件的质量将会直接关系到软件系统的开发水平,以及计算机运行的水平和性能。通常情况下,软件的生存期主要是可以分为分析、设计和测试以及后期的维护等阶段,对于软件的设计主要是以及客户的需求和软件设计的规范和要求对相应的系统成为同一层次的模块结构。同时,针对我国的存在的软件方法和支持的软件设计的工具,这样对我国的计算机系统造成很大的影响,尤其是在设计中的实时性和在线性和可靠性等方面有着深刻的影响。所以,就必须要加强计算机软件系统中的开发设计工作研究

1 计算机软件开发过程中的问题分析

1.1 软件设计中的需求分析不充分

在我国的计算机软件系统运用过程中,经常会忽视了对需要设计项目分析不够彻底,层次分析上不明确和不完整,有时会出现各种笼统的情况,这样就会造成软件系统在设计运用过程中出现很大问题。为此,这就需要相应完整和详细的分析,确定相应的设计内容。

1.2 软件设计没有遵循实际情况

在当前的计算机软件系统设计中,一般都会出现程序和过程上的问题,在软件开发设计中没有严格按照相应的科学规划来进行制定相应的计划,尤其是对庞大的系统工程难以进行完成,对软件系统的质量也就难以保证,必须要拿出足够的精力和时间来安排相应的设计工作,切实注重设计和测试以及后期维护等方面的运用。

1.3 软件系统的测试不够充分

通常情况下,软件系统在设计完成之后,往往都会忽视了对软件系统的测试工程,如果没有对相应的计算机软件系统进行测试,这就会在系统运营过程中出现各种问题,造成计算机系统的崩溃。

1.4 计算机软件开发系统新特性的增加

在软件开发运用过程中,运营过程都会增加一些新的需求和内容,这样就会使得软件运行程序变得更加复杂,在很大程度上将会影响软件的运行,为此,在软件系统的运行过程中,若没有严格的系统要求,就必须要添加相应的需求,若需要进行添加新的特性,这就必须要对计算机运行系统的计划进行修改。

2 计算机软件开发设计中的对策分析

2.1 模块式的设计方法

通常情况下,模块化的设计方法,这是当前计算机软件开发设计的最为常见的方法,通常此种方法,可以有效地降低软件设计程序的复杂性,还能够进一步使用基础上进行添加,或者是改变相应的程序。同样的,模块化的设计方法从本质上看,就是将每个软件程序分为几个小的程序,只有这样,才能更好地进行相应的设计和处理,同时保证每个程序都是独立设置的。在操作人员方面,模块化的设计方法需要多人进行协助,才能达到最优化的效果。通过对程序的不断修订和改进,才能更好地推动各个程序的稳定运行。从另外一个方面来看,由于不同系统分解设计中的程序设计思想和理念不同,对下属的程序设计也会有所不同,为此,就必须要对软件系统设计进行相应的调试,或者是可以增加新特性,对各级的程序必须要进行仔细地进行设计和调试,才能有效地确保模块设计的相应原则。

2.2 面向对象的设计方法

设计方法上,面向对象设计方法是当前计算机软件开发设计中的难点设计方式,并且,在现实的生活中, 计算机软件设计所要能面向大多数都是实体,例如,是功能开关,信号传输以及传感器等方面,在这种设计方法上,就是通过实体和模块等方面的程序进行相应的软件开发和设计,每个设计对象都是有所不同的,在相应的计算机软件设计过程中,能够对其进行相应的分解方式,之后就可以有效地面向对象进行设计,切实利用非形式化的方式将对象进行功能上的阐述出来,这样就可以确定相应的对象,确定相应的属性操作的,进而实现对象来表示相关的现实模型。之后就可以将模型进行映射,这样就能够有效地得到对象模型,解决计算机软件系统中所遇到的困难,从而可以有效地建立各个对象接口,以及相应的可见性,最后才能有效地实行对每个对象的属性进行科学设计。

2.3 设计中的数据流计算

在计算机软件系统开发过程中,很多都是面向有结构层次的设计,而且,在很多的领域应用当中,很多只是只有数据,没有相应的结构层次,如,科技领域和工程领域等方面,对于这些计算机领域设计中可能会技术上的困难,而对于软件开发过程中的数据流设计,可以针对数据流进行设计的全新方式,这样就能够有效地打破结构层次的设计,在很多程度上可以很好地解决各个领域重大软件的设计难题。

在数据流的设计环节过程中,主要是通过设计对象各个方面的信息进行收集和整理,之后就可以根据所搜集的信息进行软件设计。在这一过程中,必须要建立阶段使用的结构化的数据 流图特征,之后对这些信息进行详细分析和准确分析,判断相应的数据信息流是属于变换型还是事务型,之后就能够分别对变换型和事务型进行分析,从而可以很好地得出软件设计的相应结构。

同样的,在数据设计方式上,主要是注意耦合度以及内聚两个方面的影响因素,这是因为可以有效地通过两个方式进行确定软件设计是否具备独立的性质,这也是当前计算机软件系统开发过程中的难点。

3 结语

现阶段,软件是当前计算机系统中最为重要的组成部位,只有在软件的测试、设计和后期维护等方面加强设计,切实根据软件系统的设计规范和要求建立成为一个同一层次的模块,随着科学技术的不断发展,只有不断优化软件开发过程中的各个环节,针对以上的问题进行深入分析,并得到有效地的解决,才能更好地促进计算机软件开发设计共走的顺利进行。

参考文献

[1]夏雪飞,腾达,魏荣凯.基于计算机软件开发中影响软件质量的因素探讨[J].电子技术与软件工程,2013(23):1-17.

[2]王浩.探析计算机软件开发的规范化[J].计算机光盘软件与应用,2012(18):57-83.

[3]李大鹏.关于计算机软件开发语言的研究[J].计算机光盘软件与应用,2012(06):48-82.

作者简介

张静(1977-),女, 吉林省九台市人。山东大学工程硕士学位。现为德州职业技术学院讲师。研究方向为软件开发。

篇2

1计算机视觉的概述及基本体系结构

1.1计算机视觉概述

通过使用计算机和相关设备,对生物视觉进行模拟的方式,就是计算机视觉。对采集到的图片或视频进行相应的技术处理,从而获得相应的三维信息场景,是计算机视觉的主要任务。计算机视觉是一门学问,它就如何通过计算机和照相机的运用,使人们获得被拍摄对象的数据与信息所需等问题进行研究。简单的说,就是让计算机通过人们给其安装上的“大脑”和“眼睛”,对周围环境进行感知。计算机视觉是一门综合性学科,在各个领域都有所作为,已经吸引了各个领域的研究者对其研究。同时,计算机视觉也是科学领域中一个具有重要挑战性的研究。

1.2计算机视觉领域基本体系结构

提出第一个较为完善的视觉系统框架的是Marr,他从信息处理系统角度出发,结合图像处理、心理物理学等多领域的研究成果,提出被计算机视觉工作者基本接受的计算机视觉系统框架。在此基础上,研究者们针对视觉系统框架的各个角度、各个阶段、各个功能进行分析研究,得出了计算机视觉系统的基本体系结构,如图1。

2计算机视觉在交通领域的应用

2.1牌照识别

车辆的唯一身份是车辆牌照。在检测违规车辆、稽查被盗车辆和管理停车场工作中,车辆牌照的有效识别与检测具有重要的作用和应用价值。然而在实际应用工作中,虽然车牌识别技术相对成熟,但是由于受到拍摄角度、光照、天气等因素的影响,车牌识别技术仍需改善。车牌定位技术、车牌字符识别技术和车牌字符分割技术是组成车牌识别技术的重要部分。

2.2车辆检测

目前,城市交通路口处红绿灯的间隔时间是固定不变的,但是受交通路口的位置不同、时间不同的影响,每个交通路口的交通流量也是持续变化的。此外,对于某些交通区域来说,公共资源的配备,比如交通警察、交通车辆的数量是有限的。如果能根据计算机视觉技术,对交通路口的不同时间、不同位置的交通情况进行分析计算,并对交通流量进行预测,有利于为交通警察缩短出警时间、为交通路口的红绿灯根据实际情况设置动态变化等技术提供支持。

2.3统计公交乘客人数

城市公共交通的核心内容是城市公交调度问题,一个城市如何合理的解决公交调度问题,是缓解城市运力和运量矛盾,缓解城市交通紧张的有效措施。城市公交调度问题,为公交公司与乘客的平衡利益,为公交公司的经济利益和社会效益的提高做出了巨大的贡献。由于在不同的地域、不同的时间,公交客流会存在不均衡性,高峰时段的公交乘客过多,平峰时段的公交乘客过少,造成了公交调度不均衡问题,使有限资源浪费严重。在计算机视觉智能公交系统中,自动乘客计数技术是其关键技术。自动乘客计数技术,是对乘客上下车的时间和地点自动收集的最有效的技术之一。根据其收集到的数据,从时间和地点两方面对客流分析,为城市公交调度进行合理的安排。

2.4对车道偏离程度和驾驶员工作状态判断

交通事故的发生率随着车辆数量的增加而增加。引发交通事故的重要因素之一就是驾驶员疲劳驾驶。据相关数据显示,因车道偏离导致的交通事故在40%以上。其中,驾驶员的疲劳驾驶就是导致车道偏离的主要原因。针对此种现象,为减少交通事故的发生,计算机视觉中车道偏离预警系统被研究开发并被广泛应用。针对驾驶员眨眼频率,利用计算机视觉对驾驶员面部进行图像处理和分析,再根据疲劳驾驶关注度与眨眼频率的关系,对驾驶员的工作状态进行判断。此外,根据道路识别技术,对车辆行驶状态进行检测,也是判断驾驶员工作状态的方法之一。这两种方法,是目前基于计算机视觉的基础上,检测驾驶员疲劳状态的有效方法。

2.5路面破损检测

最常见的路面损坏方式就是裂缝。利用计算机视觉,及时发现路面破损情况,并在其裂缝程度严重之前进行修补,有利于节省维护成本,也避免出现路面坍塌,车辆凹陷的情况发生。利用计算机视觉进行路面检测,相较于之前人工视觉检测相比,有效提高了视觉检测的效率,增强了自动化程度,提高了安全性,为市民的出行安全带来了更高保障。

3结论

本文从计算机视觉的概述,及计算机视觉基本体系结构,和计算机视觉在交通领域中的应用三面进行分析,可见计算机视觉在交通领域中的广泛应用,在交通领域中应用的有效性、显著性,以此可得计算机视觉在现展过程中的重要性。随着计算机视觉技术的越来越成熟,交通领域的检测管理一定会加严格,更加安全。

作者:夏栋 单位:同济大学软件学院

参考文献:

[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2015(06).

[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2015(04).

[3]李钊称.主动测距技术在计算机数据分析中的作用探析[J].计算机应用,2015(08).

[4]马良红.三维物体影像的摄取与分析[J].中国公路学报,2014(05).

篇3

计算机视觉是一门研究如何使机器“看”的科学,更进一步地说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉包括集成的视觉系统与真实世界视觉的应用建设。创建三维模型的过程是相当困难的,需要机械测量摄像机的位置或手动对准一个场景的局部三维视图。通过使用相应的算法,它可以通过集合中一个场景的立体图像,然后自动生成一个逼真、几何精确的三维数字化模型。

全书分为三大部分,共14章:1.引言:立体图像和深度知觉、三维视觉系统、三维视觉应用的介绍;2.视觉的研究简史;3.二维和三维视觉的形成;4.图像匹配中低层次图像处理:包括卷积滤波、离散平均、离散分化、边缘检测、结构张量、角点检测等内容;5.尺度空间的视觉:包括图像尺度、高斯尺度空间、微分尺度空间、多分辨率金字塔等内容;6.图像匹配算法:包括各种匹配措施、计算方面的匹配、立体匹配方法的多样性、基于区域、弹性、梯度的匹配等内容;空间重构及多视图集成:一般的三维重建和多视图集成方面的内容;8.具体案例:临床和兽医应用、电影重构等具体实例的分析;9.射影几何基础;10.图像处理的张量微积分基础:包括线性算子和变坐标系统的基本概念、度量张量、简单的张量代数等内容;11.图像中的失真和噪声:包括噪声模型、产生噪声的测试图片、正态分布生成随机数;12.图像变换程序:包括结构的变形系统、坐标变换模块、像素值的插值、经典实力等内容;13.编程技术,图像处理和计算机视觉:包括其设计与实现、统一的建模语言、设计模式、处理平台等内容;14.图像处理库。

作者Bogusaw Cyganek于1993年获得电子计算机科学学位,于1996年获得了赫尔辛堡科技大学博士学位。近年来,他还与许多科学中心合作,在计算机视觉系统的发展方面做出了贡献。作为一个软件开发经理和高级软件工程师,他有着多年的实际工作经验。他目前在波兰克拉科夫AGH科技大学(AGH University of Scien and Technology)电子部任研究员和讲师,研究兴趣包括计算机视觉、模式识别、以及对可编程器件和嵌入式系统的开发。他还是电子电气工程师协会(IEEE,Institute of Electrical and Electronics Engineers)、国际模式识别学会(IAPR,International Association for Pattern Recognition)、工业和应用数学学会(SIAM,Society for Industrial and Applied Mathematics)成员。

本书提供了对三维计算机视觉方法,理论和算法的全面的介绍。几乎每一个理论问题都使用C++和Matlab的伪代码或完整代码进行实现,并且提供下载的软件网站、案例研究和练习。本书是相关学者、程序员的有益参考,也适合对计算机科学、临床摄影、机器人领域、图形和数学感兴趣的学生或研究人员阅读。

李亚宁,硕士研究生

篇4

【关键词】OpenCV视觉库 图像处理 Android平台

Opencv全称:Open Source Computer Vision Library,是一个可以移植到其他开发工具中的一个跨平台的图像处理视觉库,它由C++语言编写,主要有C++、C语言接口,为了能在手机等移动端更方便的进行图像处理,我们利用其JAVA接口将opencv视觉库添加到Android的开发工具中,实现了在移动端的图像处理功能。

1 opencv的特点

(1)跨平台,有很好的移植性。Opencv由跨平台的中高层API构成,可以运行在Linux、Windows和Mac OS操作系y上,该库有C++、C、Java接口,我们运用Java接口就可以将Opencv视觉库移植到Android studio开发工具中。

(2)免费、开源,与耗费很高的商业化工具(比如 MATLAB+Simulink)有很大的区别。

(3)高效、快速、使用方便。Opencv视觉库具有强大的图像运算功能,API中有比较完善的处理函数,能够明显提高开发效率。

2 Opencv在Android studio中的环境搭建流程

2.1 安装Java JDK

需要完成JDK的下载、安装和环境配置的流程,安装完成后,要运行资源管理器输入 Java Version来验证是否安装成功,若显示Java版本信息,则安装成功。

2.2 下载Android Studio开发工具并安装

在Android Studio的中文社区下载最新的Android Studio开发工具(要包含Java SDK),并运行Android Studio,根据安装提示进行安装,并运行开发工具。

2.3 配置Opencv Android SDK

在Opencv官网(http://)下载Opencv Android SDK并解压。在Android Studio中,新建一工程,点击File并import Module,并选中解压的Opencv SDK文件夹中的Java文件夹,这样就将Opencv视觉库移植到了Android Studio中。然后右键App project,打开open Module Settings中的Depencies,点击Module Dependency,添加OpencvLibrary,这样就完成了深层配置。最后把Opencv SDK文件夹中的native文件夹中的libs的4个文件夹复制到所建好的工作空间中的project中的libs中。

3 图像的灰度处理和像素取反处理的应用举例

本文中是用的移动端为魅族MX3,Android版本号为5.0.1。

3.1 灰度处理

使用OpenCv将一幅图像转换为灰度图像在实际应用中也不少,转换为灰度图像比较简单,关键函数: cvCvtColor:cvCvtColor(IplImage* src, IplImage* dst, CV_BRG2GRAY)。值得注意的是:最后一个参数为 CV_BRG2GRAY ,表示将BRG图片(彩色图片)转换为灰度图片(黑白),参数src、dst必须事先分配好内存空间,使用完之后必须要释放空间。

3.2 像素操作―取反

OpenCV中图像取反是将图像中的像素点变为原来像素点的反色。例如,如果一副灰度图像的每个像素值由2^8=256个,假设点i点像素值为brga[i] ,则取反后的像素值为 255- brga[i]&oxff。

关键代码为:

int cnum = src.channels();

byte[] bgra = new byte[cnum];

for (int i = 0;i

bgra[i] = (byte) (255 - bgra[i]&0xff);}

然后运用matToBitmap函数将Mat格式的图像转换成Bitmap的图像,并显示在android手机移动端。

经过编写代码并运行得到的处理结果如图1所示。

4 结束语

OpenCV视觉库是一套简单易用且完整的计算机视觉框架,帮助开发人员完成大量的底层工作,减少了工作量,更有效提高了设计出复杂计算机图形处理的能力。并且我们将OpenCV移植到Android操作系统中去,也是图像处理领域的一大进步。我们相信,在OpenCVForAndroid的应用不断拓展中,众多图像处理领域会有广泛的前景。

参考文献

[1]陈雪娇.基于Open CV的计算机视觉技术研究[J].电脑知识与技术,2015(30).

[2]张家怡.图像识别的技术现状和发展趋势[J].电脑知识与技术,2010(21).

[3]黎松,平西建,丁益洪.开放源代码的计算机视觉类库Open CV的应用[J].计算机应用与软件,2005.22(08).

[4]何鹏,王连鹏,楚艳红.基于Open CV 的机器视觉在智能手机中的应用[J].计算机工程与设计,2011(10).

[5]王福斌,李迎燕,刘杰,陈至坤.基于OpenCV的机器视觉图像处理技术实现[J].机械与电子,2010(06).

作者简介

刘贤辉(1992-),男,山东省青岛市人。现为青岛市山东科技大学在读研究生。主要研究方向为移动端的图像处理研究

篇5

电力系统是我国国名经济的基石。电力系统是由发电、变电、输电、配电和用电等环节组成的电能生产与消费系统。现代社会需要的是安全可靠经济的电能。电力系统主要由发电输电变电配电及用电等5部分组成。电力系统是一个具有复杂的大系统由于用户的不断增加的需求,电网对于技术的要求水平也提出了越来越高的要求。

1 电力系统自动化的发展趋势总的发展趋势的特点研究

1.1 电力系统自动化的图形化特点

因为电力系统联网工程的正式启动,电力系统的调度管理、数据计算分析呈现出传输路径的交叉性,信息更新越来越高速这样的几种特点。在计算机技术和通信技术的快速发展下,电力系统技术整合也在蓬勃发展着。电力系统信息数据处理上已经不再使用传统的处理方式,而是使用图形化处理这样的新技术,这样看到图形,电力系统管理者就能了解电力系统的变化发展趋势,也就能对未来电力系统软件开发带来丝丝先机。

1.2 电力系统自动化的远程化特点

过去电力系统的硬件平台大部分是计算机,外加使用扩展测控法对接口电路工作开展监测。此类的设计有很多的优势,这种类型的设计的周期很长,扩展性也很好。但是这样的设计方式也具有着高成本、大体积、大功耗以及灵动性差的多种缺点。现在,正是有着网络技术的不断更新和电子技术的不断进步,远动终端设备已经变为越来越接近最优化、智能化和小型化、协调化。因此,建立在此基础之上的电力系统也具备了远程化的特点,使电力系统自动化在控制系统方面的发展更加贴近智能化。

1.3 电力系统自动化的分布化特点

发电率范围在几十兆瓦至几千瓦之间并且模型较小的发电单元,它的地点处于用户周围还有有高效和可靠特点的称为电力系统自动化技术分布化。分布式发电主要包括以液体或气体为燃料的内燃机、太阳能发电、微型燃气轮机和风力发电等等的其他一些发电方式。这种发电技术具有很好的灵活性,能够给与用户各不相同的感受。还能为边远商业区域提供可靠的电力资源,让他们使用具有再生特点的资源进行多次发电,这样的电能还具有稳定度高的特点,是具有分度化的特色。极端及技术、新材料技术和电力电子技术都要作为支柱技术被在其中使用。

2 电力系统与新技术的结合

2.1 与智能计算机的结合

计算机视觉技术就是与智能计算机的结合之一。使用计算机视觉技术能够方便的获得多种图像信息。在电力系统中应用计算机视觉技术。目前,计算/!/机视觉技术使用在电力系统中的作用是修改遥控系统在此同时提高它的性能。这主要表现在使用在线监测和开展无人操作或者环境监视,红外图像监测是电力设备在线监测常用方法中效果最好的。它既有这使用方便,又有着精准度较高的特点。红外图像识别方面主要就是使用计算机视觉技术,这样能取得较好的效果。计算机视觉技术的工作原理是在科学获取电力设备实时红外图像和电力设备正常工作时图像后,将两者开展对比。如果出现不正常。也就因此能够证明电力设备出现问题。第开展无人操作或者环境监视是使用微波双鉴探测器进行协助,将差分图像以及流光法一起使用对移动物体开展监测。如果出现不正常现象,那么系统就可以识别出来,并且警告我们。因为计算机视觉技术还处于起步阶段,其存在一定的不足之处。虽然计算机视觉技术发展迅速,但计算机视觉技术发展的并不完善,因为图像识别自身的复杂性的原因,所以现阶段还不能实现完全的无人操作。正是因为有着这些原因,在大多数情况下,计算机视觉技术只能够作为一种辅助技术。

2.2 与微机保护系统的结合

在电力系统自动化技术发展速度过快并且伴随着相关微机设备应用范围越来越普遍的情况下。人们越来越严格的要求微机保护系统。更简单的说,也就是原有的电力系统自动化技术当中的微机保护系统已经无法满足社会发展的需要。人们需要的微机保护系统应该具备更加牢靠与稳定的可以对通信进行保护的能力。这样才能够达到人们希望人机互动的效果。这样的系统在对硬件提高出高要求的同时也对软件业产生了更加具体的要求。例如,我国在上世纪末将第一套微机线路保护设备投入使用,并且该设备因为性能占据极大的优势从而获得世界各国用户的普遍认可。

在继电保护设备中,我们更加需要完善的问题就是设备的实时性。设备的实时性直接关乎电网的安全稳定,它直接受到其影响。假如设备实时性出现缺陷,会给电力系统带来难以补救损失的可能性。现阶段在我国电力系统中应用的嵌入式系统通常来说主要为C/C++语言。这是因为该系统不仅灵活性高并且可移植性也很强。同时该系统还使用了能够随时改变的模块化,目的在于处理好各种存在可能性会产生的问题但是却又不能够进行更换的难题。在提供便利的同时也能够尽最大的努力满足用户各种要求。

篇6

国内人工智能产业链解构

基础技术、人工智能技术和人工智能应用构成了人工智能产业链的三个核心环节,我们将主要从这三个方面对国内人工智能产业进行梳理,并对其中的人工智能应用进行重点解构。

人工智能的基础技术主要依赖于大数据管理和云计算技术,经过近几年的发展,国内大数据管理和云计算技术已从一个崭新的领域逐步转变为大众化服务的基础平台。而依据服务性质的不同,这些平台主要集中于三个服务层面,即基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。基础技术提供平台为人工智能技术的实现和人工智能应用的落地提供基础的后台保障,也是一切人工智能技术和应用实现的前提。

对于许多中小型企业来说,SaaS 是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程序的需要;而 IaaS通过三种不同形态服务的提供(公有云、私有云和混合云)可以更快地开发应用程序和服务,缩短开发和测试周期;作为 SaaS 和 IaaS 中间服务的 PaaS 则为二者的实现提供了云环境中的应用基础设施服务。

人工智能技术平台

与基础技术提供平台不同,人工智能技术平台主要专注于机器学习、模式识别和人机交互三项与人工智能应用密切相关的技术,所涉及的领域包括机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、智能搜索、定理证明、博弈、自动程序设计、智能控制、机器人学习、语言和图像理解和遗传编程等。

机器学习:通俗的说就是让机器自己去学习,然后通过学习到的知识来指导进一步的判断。我们用大量的标签样本数据来让计算机进行运算并设计惩罚函数,通过不断的迭代,机器就学会了怎样进行分类,使得惩罚最小。这些学到的分类规则可以进行预测等活动,具体应用覆盖了从通用人工智能应用到专用人工智能应用的大多数领域,如:计算机视觉、自然语言处理、生物特征识别、证券市场分析和DNA 测序等。

模式识别:模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读,它偏重于对信号、图像、语音、文字、指纹等非直观数据方面的处理,如语音识别,人脸识别等,通过提取出相关的特征来实现一定的目标。文字识别、语音识别、指纹识别和图像识别等都属于模式识别的场景应用。

人机交互:人机交互是一门研究系统与用户之间交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。在应用层面,它既包括人与系统的语音交互,也包含了人与机器人实体的物理交互。

而在国内,人工智能技术平台在应用层面主要聚焦于计算机视觉、语音识别和语言技术处理领域,其中的代表企业包括科大讯飞、格灵深瞳、捷通华声(灵云)、地平线、SenseTime、永洪科技、旷视科技、云知声等。

人工智能应用

人工智能应用涉及到专用应用和通用应用两个方面,这也是机器学习、模式识别和人机交互这三项人工智能技术的落地实现形式。其中,专用领域的应用涵盖了目前国内人工智能应用的大多数应用,包括各领域的人脸和语音识别以及服务型机器人等方面;而通用型则侧重于金融、医疗、智能家居等领域的通用解决方案,目前国内人工智能应用正处于由专业应用向通用应用过度的发展阶段。

(1)计算机视觉在国内计算机视觉领域,动静态图像识别和人脸识别是主要研究方向

图像识别:是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。

人脸识别:是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。

目前,由于动态检测与识别的技术门槛限制,静态图像识别与人脸识别的研究暂时处于领先位置,其中既有腾讯、蚂蚁金服、百度和搜狗这样基于社交、搜索大数据整合的互联网公司,也有三星中国技术研究院、微软亚洲研究院、Intel中国研究院这类的传统硬件与技术服务商;同时,类似于 Face++ 和FaceID 这类的新兴技术公司也在各自专业技术和识别准确率上取得了不错的突破。

而在难度最大的动态视觉检测领域,格灵深瞳、东方网力和 Video++ 等企业的着力点主要在企业和家庭安防,在一些常见的应用场景也与人脸识别技术联动使用。

(2)语音/语义识别

语音识别的关键基于大量样本数据的识别处理,因此,国内大多数语音识别技术商都在平台化的方向上发力,希望通过不同平台以及软硬件方面的数据和技术积累不断提高识别准确率。

在通用识别率上,各企业的成绩基本维持在 95% 左右,真正的差异化在于对垂直领域的定制化开发。类似百度、科大讯飞这样的上市公司凭借着深厚的技术、数据积累占据在市场前列的位置,并且通过软硬件服务的开发不断进化着自身的服务能力;此外,在科大讯飞之后国内第二家语音识别公有云的云知声在各项通用语音服务技术的提供上也占据着不小的市场空间。值得注意的是,不少机器人和通用硬件制造商在语音、语义的识别上也取得了不错的进展,例如智臻智能推出的小 i 机器人的语义识别、图灵机器人的个性化语音助手机器人和服务、被 Google 投资的出门问问的软硬件服务。

(3)智能机器人

由于工业发展和智能化生活的需要,目前国内智能机器人行业的研发主要集中于家庭机器人、工业企业服务和智能助手三个方面其中,工业及企业服务类的机器人研发企业依托政策背景和市场需要处于较为发达的发展阶段,代表性企业包括依托中科院沈阳自动化研究所的新松机器人、聚焦智能医疗领域的博实股份,以及大疆、优爱宝机器人、Slamtec 这类专注工业生产和企业服务的智能机器人公司。在以上三个分类中,从事家庭机器人和智能助手的企业占据着绝大多数比例,涉及到的国内企业近 300 家。

(4)智能家居

与家庭机器人不同,智能家居和物联企业的主要着力点在于智能设备和智能中控两个方面。在这其中,以海尔和美的为代表的传统家电企业依托自身渠道、技术和配套产品优势建立起了实体化智能家居产品生态. 而以阿里、腾讯、京东、小米和乐视等互联网企业为代表的公司则通过各自平台内的数据和终端资源提供不同的软硬件服务。

值得关注的是,科沃斯、broadlink、感居物联、风向标科技、欧瑞博、物联传感和华为等技术解决方案商在通用硬件和技术、系统级解决方案上已成为诸多智能家居和物联企业的合作伙伴。综合来看,智能家居和物联企业由于市场分类、技术种类和数据积累的不同各自提供着差异化的解决方案。在既定市场中,没有绝对意义上的排斥竞争,各企业之间的合作融合度较强。

(5)智能医疗

目前国内智能医疗领域的研究主要集中于医疗机器人、医疗解决方案和生命科学领域。由于起步较晚和技术门槛的限制,目前国内医用机器人的研发水平和普及率相较于国际一线水平仍存在一定的差距,从事企业主要集中与手术机器人和康复机器人两大领域,以新松机器人、博实股份、妙手机器人、和技创等企业为代表。

在医疗解决方案方面,以腾讯、阿里巴巴、百度和科大讯飞为代表的公司通过和政府、医疗机构的合作,为脑科学、疾病防治与医疗信息数据等领域提供智能解决方案。而在生命科学领域,研究的着眼点在以基因和细胞检测为代表的前沿研究领域。

综合来看,国内人工智能产业链的基础技术链条已经构建成熟,人工智能技术和应用则集中在人脸和图像识别、语音助手、智能生活等专用领域的场景化解决方案上。就趋势来看,未来国内人工智能领域的差异化竞争和突破将主要集中在人工智能相关技术的突破和应用场景升级两个层面。

未来国内人工智能行业发展的五大趋势

(1)机器学习与场景应用将迎来下一轮爆发

根据 Venture Scanner 的统计,截至 2015 年 9 月,全球人工智能领域获得投资的公司中,按照平均融资额度排名的五大业务依次是:机器学习(应用类)、智能机器人、计算机视觉(研发类)、机器学习(研发类)和视频内容识别等。

自 2009 年以来,人工智能已经吸引了超过 170 亿美元的投资。过去四年间,人工智能领域的民间投资以平均每年 62% 的增长速率增加,这一速率预计还会持续下去。而在 2015 年,全球人工智能领域的投资占到了年度总投资的 5%,尽管高于 2013 年的2% ,但相比其他竞争领域仍处于落后位置。

目前中国地区人工智能领域获得投资最多的五大细分领域是计算机视觉(研发类)、自然语言处理、私人虚拟助理、智能机器人和语音识别。从投资领域和趋势来看,未来国内人工智能行业的资本将主要涌向机器学习与场景应用两大方向。

(2)专用领域的智能化仍是发展核心

基于 GPU(图形处理器)计算速度(每半年性能增加一倍)和基础技术平台的飞速发展,企业对于人工智能神经网络的构建取得了前所未有的突破。但是,由于人工智能各领域技术和算法的复杂性,未来 20 年内人工智能的应用仍将集中于人脸和图像识别、语音助手和智能家居等专用领域。

通过上述产业链环节构成和投资分类可以看出,优势企业的核心竞争力主要集中于特定领域的专用技术研发;其中,计算机视觉和语音识别领域的研发和应用已处于国际一流水平,专业应用机器人的研发也有望近 10 年内迎来突破性发展。可以预见的是,在由专业领域向通用领域过渡的过程中,自然语言处理与计算机视觉两个方向将会成为人工智能通用应用最大的两个突破口。

(3)产业分工日渐明晰,企业合作大于竞争

随着专用领域应用开发的成熟和差异化技术门槛的存在,国内人工智能产业将逐渐分化为底层基础构建、通用场景应用和专用应用研发三个方向。

在底层基础构建方面,腾讯、阿里巴巴、百度、华为等企业依托自身数据、算法、技术和服务器优势为行业链条的各公司提供基础资源支持的同时,也会将自身优势转化为通用和专业应用领域的研究,从而形成自身生态内的人工智能产业链闭环。

在通用场景应用方面,以科大讯飞、格灵深瞳和旷视科技为代表的企业将主要以计算机视觉和语音识别为方向,为安防、教育和金融等领域提供通用解决方案。而在专用应用研发方面则集中了大部分硬件和创业企业,这其中既包括以小米和 broadlink 为代表的智能家居解决方案商,也包含了出门问问、linkface 和优必选这类的差异化应用提供商。

总的来说,由通用领域向专业领域的进化离不开产业链条各核心环节企业的相互配合,专用领域的竞争尽管存在,但各分工层级间的协作互通已成为多数企业的共识。

(4)系统级开源将成为常态

任何一个人工智能研究分支都涉及到异常庞大的代码计算,加上漏洞排查与跨领域交叉,任何一家企业都无法做到在封闭环境内取得阶段性突破的可能。可以看到的趋势是,Google、微软、Facebook 和雅虎等视人工智能为未来核心竞争力的顶级企业都先后开放了自身的人工智能系统。

需要明确的一点是,开源并不代表核心技术和算法的完全出让,底层系统的开源将会让更多企业从不同维度参与到人工智能相关领域的研发,这为行业层面新产品的快速迭代和共同试错提供了一个良性且规范化的共生平台。于开放企业而言,这也确保了它们与行业最新前沿技术的同步。

(5)算法突破将拉开竞争差距

作为人工智能实现的核心,算法将成为未来国内人工智能行业最大的竞争门槛。以 Google 为例,Google 旗下的搜索算法实验室每天都要进行超过 200 次的改进,以完成由关键字匹配到知识图谱、语义搜索的算法创新。

在未来竞争的重点机器学习领域,监督学习、非监督学习和增强学习三个方面算法的竞争将进入白热化阶段。而正是算法层面的突破造就了腾讯优图、科大讯飞和格灵深瞳等企业在图像识别和计算机视觉领域取得了突破性进展和国际一线的技术水平。

但就目前国内人工智能算法的总体发展而言,工程学算法虽已取得阶段性突破,但基于认知层面的算法水平还亟待提高,这也是未来竞争的核心领域。

总的来看,虽然基础技术的成熟带来了存储容量和机器学习等人工智能技术的提升,但由于现阶段运算能力以及大规模 CPU 和GPU 并行解决方案的局限,目前国内人工智能的发展主要集中于计算机视觉、语音识别、智能生活等方向上。

虽然专用化领域的场景应用仍是目前研发和投资的核心,但随着技术、数据的积累演化以及超算平台的应用,由专用化领域的场景应用向语音、视觉等领域的通用化解决方案应该在未来 20 年内成为发展的主流。

篇7

【关键词】机器视觉;VisionPro;识别定位;

1.引言

自20世纪80年代以来,机器视觉技术开始高速发展,已经从实验室走向了人们生产生活的各个方面。机器视觉系统的特点是提高生产的柔性和自动化程度。在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉;同时在大批量工业生产过程中用机器视觉检测方法可以大大提高生产效率和生产的自动化程度。而且机器视觉易于实现信息集成,是实现计算机集成制造的基础技术。现今,在机器视觉领域已经有了一些成熟的视觉开发软件,其封装了很多可靠、高效的算法和工具。本文选用美国康耐视公司的VisionPro软件,这是一套基于PC架构的视觉系统软件开发包,主要应用于各种复杂的机器视觉领域。它集成了用于定位、检测、识别和通讯等任务的工具库,可用C#、VB和VC等语言进行二次开发。本文基于VisionPro利用语言进行视觉定位系统的软件开发[1]。

2.视觉定位系统

2.1 硬件组成

在图像处理前首先要得到清晰、有效的图像,这就需要有一套完整的硬件设备。一般主要包括照明用的光源、调节图像清晰度的镜头、将图像转换为数字信号的摄像机和进行图像处理的计算机。其中摄像机与计算机之间的接口也比很重要的,主要分为IEEE1394和采集卡,USB2.0或Gigabit Ethernet千兆网三种[2]。

本视觉系统采用的是日本FUJINON工业摄像头,德国BASLER工业像机ACA1600-20GM,GigE千兆网接口。

2.2 基于VisionPro的软件开发

本视觉定位系统利用编写适合实验需要的界面,界面中只包含需要的操作功能和数据,使整个界面看起来更加清楚简单,操作起来更方便。

(1)图像采集

本视觉系统通过GigE千兆网作为接口控制相机进行图像采集。打开软件并连接相机,设置好参数后,就可以通过可视化工具Image Source直接获取图像。

(2)相机的标定

机器视觉的基本任务之一是从摄像机获取的图像信息出发计算三维空间中物体的几何信息,并由此重建和识别物体。空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系是由摄像机成像的几何模型决定的,这些几何模型参数就是摄像机参数。在大多数条件下,这些参数必须通过实验与计算才能得到,这个过程被称为摄像机标定[3]。

本文利用VisionPro的CalibChecker-boardTool工具进行摄像机标定。首先需要一个棋盘板,棋盘板必须满足以下条件:必须由大小相同的黑白格子交替组成;格子最好是正方形,如果达不到的话,格子长宽比也要在0.9和1.0之间。本系统采用康耐视公司提供的标准棋盘板进行标定[4,5]。图1是标定的结果。

(3)目标识别与定位

视觉定位的目的就是找出目标物的坐标位置。本文利用VisionPro的PMAlignTool工具对目标物体进行识别定位。PMAlignTool工具是基于PatMax算法,该算法采用模板定位技术(pattern-location technology),先训练模板,然后根据模板对采集图像进行模板匹配,实现定位。在训练模板和定位过程中,PatMax不是基于像素栅格(Pixel grid)分析图像,而是采用基于几何外形(Features based)的定位方法,通过图像的几何特征信息和特征之间的空间位置关系进行模板训练和匹配,使其能够保证很高的精度和抗干扰性,而且可以高速定位发生旋转、缩放、甚至拉伸形变的物体[1]。PMAlignTool工具定位的流程如图2。

通过PMAlignTool工具对目标物体识别定位后,利用VB调用该工具下的Results.Item(i).GetPose().TranslationX和Results.Item(i).GetPose().Transl-ationY。这两个值就是序号为i的目标物在图像上的X、Y坐标值,其中i为识别的各个目标物的序号。

3.实验

3.1 PatMax识别定位

在对摄像机完成标定校正后,运用自己编写的人机交互界面完成对目标物体进行识别定位,并将所需要的目标位置坐标显示在界面上。同时又将识别到的所有目标物体的坐标信息保存到了文本文档中,方便调用。主要操作如下:

(1)模型训练。实验以一元硬币为目标物,图3为训练完成的模型。

(2)目标识别定位。图4是利用编写的界面,在图像上能够清楚的显示出所识别出的目标轮廓和形心位置,界面右方结果显示区内可以看到所识别的目标数量和所需要的目标物的坐标。

3.2 对比实验

视觉定位可以用的软件和工具包很多,其中应用最广泛的就是Opencv,它是一个基于(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。为了验证PatMax算法定位的准确性,本文利用Opencv对相同的图像进行目标识别定位,对得到的效果图和坐标进行对比[6]。如图5所示,其中蓝色为轮廓曲线,绿色十字为目标形心。

图6为VisionPro识别硬币的效果图,轮廓和形心均用绿色线标识。对比两图可以看出VisionPro对轮廓的识别效果要更好一些。由于形心坐标是由轮廓曲线上的点计算得到的,所以VisionPro获得的形心坐标值也会比Opencv的更加准确,而且精确度更高。下表是两种方法得到的形心坐标。

4.结束语

本文基于VisionPro采用对其进行开发,首先利用VisionPro中的工具进行图像的采集,摄像机的标定,运用PatMax算法进行目标物的识别与定位,然后运用编写人机交互界面,可以更加方便快捷的得到所需要的目标物坐标值。本文利用Opencv对相同的图像进行目标的识别定位,与VisionPro得到的结果进行实验对比。结果证明基于VisionPro的视觉定位系统对目标的识别效果更好,定位的数据更加准确。基于该软件使应用程序的开发更加快速方便,得到的数据结果误差较小,具有应用价值。

参考文献

[1]威洛斯,焦宗夏.基于VisionPro的焊膏印刷机视觉定位系统[C].第十二届中国体视学与图像分析学术年会论文集,2008.

[2]Carsten Steger,Markus Ulrich,Christean Wiedemann,著.机器视觉算法与应用[M].杨少荣,吴迪靖,段德山,译.北京:清华大学出版社,2008.

[3]邱茂林,马颂德,李毅.计算机视觉中摄像机定标综述[J].自动化学报,2000,26(1):47-59.

[4]Cognex,Cognex MVS-8100D and CDC Cameras Hardware Manual,2006.

[5]Cognex,VisionPro,Net Help,2006.

[6]Bradski G.,Kaehler A.著.学习OpenCV[M].于仁琪,刘瑞祯,译.北京:清华大学出版社,2009.

作者简介:

韩庆瑶(1953—),男,华北电力大学教授。

张志远(1986—),男,华北电力大学能源动力与机械工程学院硕士研究生。

篇8

摘要:针对集成芯片制造中对定位、校准的高精度、实时性要求,提出了用机器视觉技术解决芯片基板定位的方法,通过对几种模板匹配算法的研究,采用基于OpenCV的图像分析技术实现了对集成芯片基板的准确定位,解决了传统机械定位精度低、速度慢的问题。

关键词:机器视觉;开放源代码计算机视觉类库;集成芯片基板;模板匹配

中图分类号:TP39文献标识码:A

The Positioning Technology of Intergrated Chip Strip Based on OpenCV

LIU Hun-hai, HU Peng-hao,XIE Hu

(School of Instrument Science and Opto-electronics Engineering ,

HeFei University of Technology ,Hefei 230009 ,China)

Abstract: Because of the high requirement of position and speed in the process of integrated chips, A position method of integrated chip strip based on machine vision was proposed in this paper. By researching several template match algorithms, the accurate positioning of intergrated chip strip is implemented by using image processing technology based on OpenCV, and low precision and slow speed problem of traditional method is solved.

Keywords:machine vision; OpenCV; integrated chip strip; template match

引言

随着现代半导体器件向微型化、集成化和高可靠性方向的发展,芯片生产和制造设备也朝着高速、高精度、智能化的全自动化的方向发展。机器视觉在芯片生产过程中扮演着越来越重要的角色,其中最为广泛的应用是定位。

上海技美电子科技有限公司是一家生产集成芯片基板(如图1)贴膜机的厂家,贴膜工序主要是将芯片贴在一层特殊的膜上,为下一步打断芯片引线做好准备,而为了提高切割效率,通常将三块基板一起,但这样存在相对位置的偏差。针对传统的光电式传感器定位精度低、速度慢的缺点,开发了基于OpenCV的视觉定位系统,系统结构如图2所示。当机械手臂将基板搬运到薄膜上之前,通过该系统,对基板进行定位,然后将结果反馈到控制单元进行调整。

系统使用的CCD相机是型号为XC-ES50CE的SONY相机,有效像素为752×582,图像采集卡使用图1集成芯片基板

的是比利时Euresys公司的产品,型号为Picolo Pro2。在整个系统中,最为关键的问题就是模板匹配。

1 基于灰度的模板匹配方法

本文主要比较了几种基于灰度的图像匹配算法:SSDA算法,金字塔算法,NCC算法等。

模板匹配的基本原理是通过相关函数的计算来找到它和被搜索图的坐标位置[1-2]。如图3所示,设模板T(n×m像素点)叠放在搜索图S上移动,模板覆盖下的那块搜索图为子图 Sij,i,j为这块子图的左上角像点在S图中的坐标。比较T和Sij的内容,若两者一致,则T和S之差为零。测度方法:

1.1 SSDA算法

序贯相似性检测算法(即SSDA算法)是对传统模板匹配算法的改进。SSDA算法计算子图像和模板图像之间的差值,求和时不需要计算所有像素,而是随机抽取某几点像素,只要其和超过设定的阈值,则说明当前位置不匹配,进行下个位置的计算。

但是该算法本身没有抗干扰性,如果在外界有噪声的情况下,算法的精确度不高[3]。

1.2 金字塔算法

金字塔算法也叫分层算法,是直接基于人眼的视觉特点,先粗后细地观看事物,步骤如下:

(1) 预处理。首先对模板和搜索图进行分层预处理。通过每2×2=4个像素平均为一个像素构成二级图像,然后将此图像再用同样的方法处理后得到一个分辨率更低的图像。如此反复,我们可以得到K个处理后的图像。

(2) 先粗后细的匹配。先从低分辨率的图像Sk和TK开始进行匹配运算,找到粗匹配位置(xK,yK),然后在较高分辨率的图像Sk-1和Tk-1上的粗匹配位置进行搜索,如此下去,一直到最高分辨率的SO和TO上找到匹配位置为止。

1.3 NCC算法

NCC算法就是归一化互相关匹配算法,是一个经典的匹配算法,它是通过计算模板图像和待匹配图像的互相关值来决定匹配的程度,方法如下:

这种算法简单,适用于尺寸较小的图像匹配,且具有很强的抗白噪声能力,在灰度变化及几何畸变不大的情况下精度很高[3]。

2 基于OpenCV的模板匹配程序的 实现

2.1 程序流程及其实现

程序的流程如图4所示,实验采用的算法是NCC算法,函数完成比较后,通过使用cvMinMaxLoc找全局最大值,然后将匹配结果在原图的对应位置标记出来(如图5所示)。

程序实现主要利用OpenCV函数库中的cvMatchTemplate函数[4],通过滑动过整个待匹配图像,用指定的NCC算法比较模板图像与待匹配图像尺寸为 w×h 的重叠区域,并且将比较结果保存起来。

2.2 OpenCV简介

开放源代码的计算机视觉类库OpenCV(Intel Open Source Computer Vision Library)由英特尔公司位于俄罗斯的研究实验室所基于IPL(Intel Image Processing Library)开发,并与之兼容。具有良好的独立性、跨平台性、功能强大、处理速度快等特点[5]。

3 实验数据

采用的是一张640×484的原图,以及一张64×74的模板图,实验用电脑CPU为IntelCeleron

C PU420 1.6GHz ,内存为1G。经过实验得出,匹配的平均时间为100.128ms,且能找到准确位置,能够满足厂家提出的2,000个/小时的技术要求。

4 结 论

综上所述,利用OpenCV开发的模板匹配程序,拥有匹配准确、执行效率较高等特点,对于个别处理器还进行了优化,适用于对实时性要求不太高的场合,能够满足该企业芯片基板的定位要求,目前该系统已在企业运行。

参考文献

[1] 张广军,机器视觉[M],科技出版社,2005: 7-03-014717-0.

[2] Kenneth R.Castleman,Digital Image Processing,Prentice Hall,1995:0132114674.

[3] 刘锦峰,图像模板匹配快速算法研究[D].湖南长沙:中南大学,2007.

[4] IntelOpen Source Computer Vision Library Reference Manuals[EB/0L].2001.12.

[5] Intel Open Source Computer Vision Library HTML Reference.2003.2.

[6] 黎松,平西建,丁益洪.开放源代码的计算机视觉类库OpenCV的应用[J],计算机应用与软件. 2005,22(8):134-136.

[7] 吕学刚,于明,刘翠响.数字图像处理与计算机视觉编程的有力工具-IPL和OpenCV[J].现代计算机,2002,147:69-71.

篇9

关键词:计算机技术;视觉识别技术;交互技术;会议展示;智能办公环境

在日常的企业办公管理活动中,有很多时候需要可视化地展示企业市场计划、新产品设计、数据分析报告等。尽管这些活动所需要的材料在事前可以经由办公自动化软件处理,但处理结果却很大程度上只能由静态的PPT展示和说明。但很多时候,这些展示和说明往往是多个部门不同专业背景的人员参与,于是展示材料制作的水平和质量就很大程度上影响到了参与者对所展示内容的理解和吸收程度。很多复杂的问题或者设计的展示,如果能采用互动交互的方式展示,在很大程度上能够帮助问题讨论的参与者对所讨论问题更好的理解。这一点在常规的教育过程中已经获得了充分的证实,相关的数据和结果可以从多媒体教学的优势的相关研究中得到。同样,企业中很多方案的讨论,数据分析报告的说明其实对于企业而言也是一个方案设计者或数据研究分析者对相关人员类似教学的过程。采用现有企业常规会议设备诸如投影仪、普通笔记本电脑、电脑摄像头配合相应的计算机视觉识别程序,我们可以将交互的投影演示引入到企业日常的展示讨论活动中,增强沟通效果,提高工作效率,并且在技术上同样的识别交互的程序配合上相应的员工面部特征的数据库,还能扩展延伸到考勤或门禁系统中提供更加智能化的办公环境。对于以展示沟通为主的教育培训企业,通过配合一般人脸数据特征,可以通过摄像头捕捉现场视频并识别其中人脸识别,记录现场关注展示内容的人员的数量,作为日后教学效果的自然客观的评估参考。

1目前办公信息化中存在的问题

1.1会议演示文稿展示时多人交互型差

目前主流的演示文稿制作及展示软件主要大多都集成在套装的办公软件中,其中主要常见的种类分别是MicrosoftOffice系列中的PowerPoint、MacOS系统下的KeyNote、基于Linux操作系统的Openoffice中的Impress。它们主要的功能都是对输入的文字、图片声音等多媒体进行编辑制作最后生成电脑上播放的多媒体幻灯片,尽管它们都具有强大的多媒体数据的处理能力,但最终制作的多媒体幻灯片在演示时都是“单向交互”的,即由播放者播放,而其中的内容及动画按预先设计好的模式显示。如果使用Adobe公司的Captivate或Authware这样的多媒体交互制作软件则会需要有专人进行操作,浪费大量的时间和精力,但如果是配置专门的多点触摸屏幕,则一来屏幕尺寸有所限制,二来费用相对较高容易造成设备的浪费。

1.2传统办公考勤与门禁系统的弱势

目前企业常规的门禁系统与日常考勤系统往往是分离的,两个系统使用了各自独立的软硬件环境,其中门禁系统使用的是摄像监控设备采集信息并通过专人24小时值班,其主要职能仅仅是监控办公环境的人员进出并记录下相应的影像资料。而企业日常的考勤系统则要么采用人工签到的方式,要么采用人工打卡或者指纹打卡方式。如果采用打卡方式管理则需要添置专门的打卡机,这些打卡机多数是独立工作,对于员工的考勤则需要人工根据卡片记录情况统计。无论是员工自身打卡或者是统计考勤都是人工完成,有时还会出现错误和疏漏,同时主要的问题还在于容易出现代人打卡等作假的情况。所以,在传统的办公考勤与门禁系统独立的情况下,两个系统各自记录各自的相关数据,同时投入两套不同的软硬件环境,有时这样的办公环境的信息化反而没有给人员带来便利,而是增加一项打卡签到的日常任务。

2对存在的部分问题的分析和讨论

2.1传统演示设备缺乏交互型功能

由于很长一段时间硬件以及软件的条件约束,电脑的键盘、鼠标完成了95%以上的数据输入工作,单一显示功能的显示器投影仪也成了最主要的信息输出设备。所以常规软件设计和开发时都是把键盘、鼠标、显示器/投影仪的输入输出组合当做几乎所有使用情况下的模式。但随着触摸屏与多点触控硬件的出现,多点触控、屏幕的直接交互输入输出操作成了未来发展的一个趋势,并且相对普通鼠标和单一显示功能的显示器用户交互体验明显提升,人机交互界面更友好直观。但是对于普通办公中使用的投影仪,由于其投影的目标位置情况多样,如果一体化的设计制造具有交互功能的互动投影仪其成本要比普通投影仪更高,对于解决互动操作的问题经济上不是最优的。而大面积的多点触控屏幕由于设备体积和重量的因素无法在需要灵活移动的新产品推广谈判等活动中使用,如果只是企业自身办公环境中做普通会议展示的效果改进,其投入产出的效率也不理想。

2.2基于传统输入输出设备的开发

由于长期以来人机交互都是以鼠标键盘为主,所以绝大多数程序开发设计都只考虑这种单一的输入方式。但对于目前多媒体数据增多的趋势,这样传统的输入输出模式就存在着很多弊端,其中最明显的是对于多媒体数据的采集就需要单独使用设备,采集后再人工处理。而为了简化系统设计的复杂度,很多管理信息系统的数据采集和录入主要基于键盘鼠标的录入,如果出现非键盘鼠标录入的数据则被要求人工进行数据格式的转换,所以从一个侧面也反映出一些企业排斥信息化,因为原本带来效率提升与管理便利的信息系统,反而由于一些数据格式的录入要求增加了人工劳动。如果直接使用现实当中的多媒体类的数据则系统又缺少相应转换的功能。因为系统在考虑使用键盘鼠标录入采集数据时已经默认了操作者来完成数据录入前的标准化工作。但是实际上随着现代计算机视觉以及人工智能、模式识别技术的发展和完善,过去无法识别的原始多媒体数据现在也可以由计算机识别并进行标准化的处理。

3运用计算机视觉技术改善人机交互

3.1低分辨率识别情况下改善会议演示交互效果

采用现代的计算机影像处理技术和方法,可以用普通的图像采集设备配合程序识别影像当中的特定颜色区域的移动轨迹,并对轨迹做出判断实现与计算机的交互。由于该识别只是需要识别图像中的特定颜色的区域的运动,而非具体的形状与细节,所以识别的难度相对不大,可以运用在会议的展示环境下,通过定位确定普通投影区域与特定颜色区域的位置关系,并通过图形图像的投影与变形运算,实现人与普通投影的交互。在环境背景比较清晰,图像采集设备分辨率与色彩分辨比较灵敏的情况下还能更进一步对人体肤色和手的几何特征进行识别,实现更加自然良好的人机互动交互,并且还能引入人工智能的模式识别算法,实现多人的互动交互,从而大大改善互动展示效果,实现更加人性化有效的沟通。特别在教育培训行业,在现有普通硬件条件下能够实现更加生动的教学讲解演示,提高学生的课堂体验激发更多兴趣,改善教学效果。

3.2运用计算机视觉与模式识别技术整合企业门禁与考勤系统

应用计算机视觉技术配合相对高分辨率的识别与人像数据库,企业可以采用现有的门禁系统的硬件设备配合相应的软件实现门禁与考勤系统的整合,以此提高企业办公环境的智能化人性化的效果,并对员工进行更加精细化的管理。重要的是,通过人机接口的改进改变以往服务信息系统的面貌,让人在自然的环境下工作提高系统的人性化程度。同时整合门禁与考勤系统可以通过识别企业内部员工与外来人员加强办公环境的管理,而且在硬件上可以利用现有的设备,软件方面可以与前面提到的交互演示系统共用相同的图形图像处理内核,减少代码的冗余降低系统复杂度提高可靠性。就目前的人像识别技术而言,已经在个人电脑的安全保护上得到了应用,所以在技术上是可行的,并且也有了实际应用的例子。将该技术移植到普通的门禁管理系统与考勤系统中,只需要解决接口的数据交换就能实现,并且随着现代企业办公环境的要求,应用该技术能大大提高企业的办公环境的智能化程度,并且通过门禁系统提取的企业员工考勤信息更加自然和真实,能够更加准确地掌握和管理企业员工的日常工作情况提高管理精度。

3.3具体实现方法与原理

为了能充分利用企业现有的硬件设备,并使得附加的程序简单化,这里针对类似会议互动展示这样不需要细节识别的情况采用的是颜色识别的方法,即统计场景中的图像直方图,然后探测直方图上的变化,由于特定颜色的待识别区域的引入可以对整体直方图的特定区域产生峰值的变化,并且通过反向的直方图运算又可以确定特定区域的位置。而直方图的运算属于比较简单的图像运算处理所以能够在很多图像处理的开发工具中直接找到。并且对于细节识别要求比较高的人像的模式识别,采用以上的运算也能缩小待检测区域的大小,提高识别效率,并且人的面部特征采用色识别也能很快找到特征点(眼睛、鼻孔、嘴唇、头发以及头像边缘)。在前面通过色彩识别找到的检测区域中,识别出特征点,并测量特征点的位置关系比例,进而在和数据库中数据对比模式匹配找到最终结果。

4结语

在越南河内的机场,为了使乘客能在等待航班时有比较轻松的环境,在旅客的候机大厅专门安放了一台具有互动功能的投影仪,并将互动内容投影在地面,乘客可以在候机时与地面上的互动投影交互,缓解候机带来的单调乏味感。同样我们可以把它引入到日常企业办公会议或者是培训教育类企业的日常教学中,运用现有的投影屏幕和现有的设备实现多人的在投影屏幕上的互动交互讨论。而人像识别系统在单机上的应用也在很多商用笔记本电脑上得到了应用,在一些科研院所和高科技企业人像识别的门禁系统也被应用到了办公环境当中,提高了办公环境的智能化程度;将人像识别技术结合考勤系统则在教育行业能够实现更为方便的考勤管理防止目前比较严重的代签逃课等情况的发生。随着现在对数据挖掘技术的研究,从日常情况采集到的数据积累到一定程度还能为今后分析员工/学生行为做出数据的积累。这里所讨论和解决的问题主要只是集中在人机交互界面的一些改进,其实对于IT技术而言这只是一小部分,对于企业而言需要使用IT技术真正提高企业的工作效率还需要其他很多方面的配合和集成。

作者:赵磊 邓世翔 刘德飞 单位:云南机电职业技术学院

参考文献:

[1]黎松,平西建,丁益洪.开放源代码的计算机视觉类库OpenCv的应用[J].计算机应用与软件,2005,22(8).

[2]陈雪松.基于图像势能理论的特征提取方法研究[D].华中科技大学,2011.

[3]李超,许春耀,潘林,余轮.面向投影环境的计算机视觉交互信息获取[J].电视技术,2013,37(11).

篇10

在用常见的手势进行交流时,人们很容易就能互相理解,在经过学习之后,聋哑人或是正常人都可以运用手语进行交流。不过,想象一下,当你对计算机(或机器)做一个手势,它就能领会你的意图会是怎样的情景呢?如果计算机(或机器)看得懂手语,又意味着什么呢?姑且不管实现这样的人机交流有何深远的意义,还是先让我们来探究一下这样的可行性吧,想想看得懂手语的计算机(或机器)能有什么用途。

人机交互:从呆板到员活

人类之间的交流往往声情并茂,既采用自然语言(口语、书面语言),还广泛采用人体语言(表情、体势、手势)。与人类之间的交流相比,人机交互就显得呆板多了。以计算机的输入方式为例,人要向计算机下达指令,最常见的方式还是通过键盘输入。当然,手写输入也正为许多人所接受和喜爱,语音输入的研究也进行得热火朝天,最初单一而呆板的输入方式已经得到了扩展。然而,科学研究是永无止境的,人体语言这种简单快捷的信息交流方式得到了很多研究者的关注,他们想,能不能把这种灵活的信息交流方式也引进人机交互中呢?

于是研究人员展开了对人体语言理解的研究。人体语言的感知、人体语言与自然语言的信息融合对提高计算机的人类语言理解水平,加强人机接口的可实用性有着积极的意义。手语(手势)是人体语言的一个非常重要的组成部分,它是包含信息量最多的一种人体语言,它与语言、书面语等自然语言的表达能力相同。因而完全可以把手语作为人机交互的一种手段,它具有很强的视觉效果,生动、形象、直观。可见,将手势运用于计算机能够很好地改善人机交互的效率。

计算机怎样识别手势?

从不同的角度可以对手势进行不同的分类。分为交互性手势和操作性手势,前者手的运动表示特定的信息(如乐队指挥),靠视觉来感知,后者不表达任何信息(如弹琴);分为自主性手势和非自主性手势,后者需要与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息),分为离心手势和向心手势,前者直接针对说话人,有明确的交流意图,后者只是反应说话人的情绪和内心的愿望。

手势的各种组合、运动相当复杂,不过简单来看,手势主要有如下的特点:手是弹性物体,因此同一手势之间差别很大,手有大量冗余信息,由于人识别手势关键是识别手指特征,因此手掌特征是冗余的信息:手的位置是在三维空间,很难定位:手的表面是,非平滑的,容易产生阴影。

了解了手势的这些特点,就可以在手势研究中对手势做适当的分割、假设和约束。例如,可以给出如下约束:如果整个手处于运动状态,那么手指的运动和状态就不重要,如果手势主要由各手指之间的相对运动构成,那么手就应该处于静止状态。比如鼠标和笔式交互设备就是通过识别手的整体运动来完成人与计算机的交互,但它们不能识别手指的动作,其优点是仅利用软件算法就能实现,适合于一般桌面系统。只有当用鼠标或笔式交互设备的运动或方向变化来传达信息时,才可将鼠标或笔式交互设备看作手势表达工具。笔式交互设备发展很快,它提供了充分的交互信息,如压力、方向、旋转和位置信息,但现有交互主要是简单地替代鼠标。

计算机识别手势的手段主要有两种:

1.数据手套。数据手套是虚拟现实系统中广泛使用的传感设备,用户通过数据手套,能做出各种手势向系统发出命令,与虚拟世界进行各种交互操作:比如通过一只与数据手套对应的在计算机屏幕上显示的虚拟手,使用户成为虚拟世界中的一员:抓取物体,如果手套有力反馈,还能让用户感觉到物体的重量和材质等。美国在“洞穴”虚拟系统中就是利用数据手套来研制武器。数据手套的主要优点是可以测定手指的姿势和手势,但是相对而言代价较为昂贵,并且有时会给用户带来不便(如出汗)。

2.计算机视觉。即利用摄像机输人手势,其优点是不干扰用户,这是一种很有前途的技术,目前有许多研究者致力于此项工作。但在技术上存在很多困难,目前的计算机视觉技术还难以胜任手势识别和理解的任务。

目前较为实用的手势识别是基于数据手套的,因为数据手套不仅可以输入包括三维空间运动在内的较为全面的手势信息,而且比基于计算机视觉的手势在技术上要容易得多。

更好地为人服务

日本三菱电子研究实验室的研究人员已经使用低成本的视觉系统,通过手势就可以控制一台电视机。由计算机控制的美国航空航天局虚拟太空站也是采用美国Cybernet公司开发的手语识别软件,通过一部架设在顶部的摄像机来追踪指挥者的手势。当系统捕捉到挥手等手势时,就会做出相应的反应,让指挥者像航天员一样在计算机虚拟的阿尔法国际太空站上移动(确切地说是飘动)。

Cybemet公司的软件还能识别一系列的特定手势,就像工地上的工人或交通警察经常用的那种手语,通过这些手势你能够旋转在虚拟旅行中看到的三维图像,还可以向上或是向下改变你的视角。美国航空航天局正在考虑把这套系统用于真正的太空站,因为笨重的航天服和微重力环境使得鼠标和键盘都变得难以操纵。也许不久之后,航天员就能用简单的手语来控制机器人在太空中抓取物体。

手语(手势)识别系统的研究还有助于改善和提高聋哑人的生活学习和工作条件,为他们提供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外,手语识别系统的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此,手语识别系统的研究非常有意义。