计算机视觉与应用范文
时间:2023-12-25 17:51:06
导语:如何才能写好一篇计算机视觉与应用,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词: 计算机视觉;快速开发;框架;模块化;模块耦合;底层剥离
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)29-7084-04
在视觉分析实际应用项目中,如何通过建立计算机视觉分析快速开发框架,搭建一个分工明确,快捷有效的图像学应用处理平台,提高开发效率,缩短开发时间,已成为项目开发人员关注的重点内容之一。本框架从项目应用和实际需求出发,将计算机视觉技术的核心算法从底层研究工作中剥离,可极大的缩短开发时间,提高开发效率。
在本框架下,开发人员可各司其职,分工、构成和职能划分明确,框架开发人员只专注于框架接口的定义;算法开发人员只专注于图像处理与识别等算法的开发;上层应用开发人员只负责抽取出一般的处理流程,专注于项目的具体实现和功能模块的组合应用。
1 研究与应用
1.1背景
计算机视觉是用摄像机和电脑代替人眼对目标进行识别、跟踪和测量的机器视觉。系统将获取的视频或图像资料,通过计算机处理成为更适合人眼观察或传送给仪器检测的图像,其中包括图像处理、模式识别或图像识别、景物分析、图像理解等相关内容,它们之间既有差别,又有相互重叠。
在计算机视觉分析技术中,对于一些复杂的问题,往往不是某单一学科能够解决的,它需要一系列相关技术的支持。例如:对航道中船舶的识别,获取的视频流往往要经过平滑、去噪等图像处理操作后,便于下一步运用基于直方图分类器的图像识别算法来区分船舶和水面,通过图像分割技术来提取检测目标。而这些方案的实现中,同一个问题的解决又往往需要有一系列的算法来支持。还是以船舶识别为例,图像平滑有领域平均、低通滤波等算法;图像去噪有各种滤波器算法;基于直方图的分类器也存在决策树、贝叶斯、SVM等等算法。虽然上述的算法本身没有优劣之分,但在特定的环境下一定会有某个最佳算法。
因此,在实际应用项目中如何找出其最优路径,除了需要开发者拥有深厚的图像学功底,更需要的是通过大量的对比实验来找出该最优路径的解决方案。即便如此,也只能解决特定环境下的计算机视觉需求,换个应用场景,上述步骤又需要重新进行,此类过程的重复,既增加了开发成本,又延长了开发时间。
本框架从工程化的角度出发,在不同项目中的计算机视觉软件开发中,研究如何提高开发结果的复用性,尽量降低上述各条件间的相互依赖关系,将视觉技术的核心算法从底层研究中剥离,达到缩短开发时间,提高开发效率的目的。
1.2研究目标
1) 框架系统的扁平化、模块化;
2) 完成处理过程的任意组合,使图像处理模块单一化;
3) 理行为在处理模块内部完成,处理结果可通过接口方式进行输出;
4) 处理模块间的数据流动定义在框架之中,框架负责配置数据流;
5) 置好的数据流,通过指定图像处理模块实现对物体的识别、行为的识别。
1.3.5框架的效果演示
从右侧功能区中选取两个输入模块:MediaOpen00和MediaOpen01,分别打开视频文件“.\公司监控视频.avi”和图片“.\Lena.jpg”,任意添加一些图像处理模块或者图像识别模块,这里我们选取了行人检测算法、基本全局阈值二值算法、人脸检测算法、轮廓检测算法,加入输出展示模块用于显示处理结果。最后我们用曲线将模块间的输入输出点连起来,完成数据流向的配置过程。其中一个输出点可以连接多个输入点,但一个输入点只能接入一个输出点。
2 结论
随着计算机视觉技术发展的日新月异,算法的更新和积累将会越来越多。计算机视觉快速开发框架从实际应用工程的角度出发,在不同项目计算机视觉软件的开发过程中,将视觉技术的核心算法从底层研究中剥离,使视觉分析应用项目中的框架开发人员专注于框架接口定义的开发,而项目中的算法、上层应用等开发人员各司其职,分工明确,不但提高了开发结果的复用性,同时,也降低了项目开发中各条件间的相互依赖关系,缩短了开发时间,提高了开发效率。
参考文献:
[1] Gary bradski,Adrian Kaebler.《Learning OpenCV》[M].O’Reilly Media Inc,2008.
[2] 张广军.机器视觉[M].北京:科学出版社,2005.
[3] 张少辉,沈晓蓉,范耀祖.一种基于图像特征点提取及匹配的方法[J].北京航空航天大学学报,2008,34(5).
[4] 刘立,彭复员,赵坤,万亚平.采用简化SIFT算法实现快速图像匹配[J].红外与激光工程,2008,37(1).
[5] 戴斌,方宇强,孙振平,王亮.基于光流技术的运动目标检测和跟踪方法研究[D].国防科学技术大学机电工程与自动化学院.
[6] 陈胜勇,刘盛.基于OpenCV的计算机视觉技术实现[M].科学出版社.
篇2
【论文摘要】随着Internet的普及,尤其是宽带网的盛行,计算机病毒也在向网络化方向发展,这种病毒就是所谓的蠕虫病毒。本文利用数据挖掘技术,研究了如何在新的蠕虫病毒大规模爆发之前就将其检测到,并采取相应的措施。
一、网络病毒的特征分析
网络病毒(蠕虫病毒)自身就是一个可执行的二进制代码程序文件。它的传播途径、方式与传统的病毒不同,它具有主动性传播的特点。它主动扫描网络上主机操作系统和一些网络服务的漏洞(大多是利用操作系统的缓冲区溢出漏洞),利用这些漏洞侵入这些主机,将自身的副本植入其中,从而完成传播过程。被感染后的主机又会用同样的手法感染网络上其它的主机,如此反复下去,这样很快就会传遍整个网络,尤其是一个新的操作系统漏洞还没引起计算机用户足够重视的时候。蠕虫病毒感染主机后往往大量占用主机资源(如CPU资源、内存资源等),使机器运行速度越来越慢,或向网络上发送巨量的垃圾IP数据包,严重阻塞网络带宽,甚至造成整个网络瘫痪。更恶毒的还会盗取用户的敏感资料,如帐号和密码等。而且现在的蠕虫病毒有从以破坏为主要目的向以盗取资料为主要目的转换的趋势,因此危害更大。
通过分析蠕虫病毒的传播过程可知,蠕虫病毒要感染网络上的其它主机,首先必须对网络上的主机进行扫描。它的这一举动就暴露了目标,就为检测蠕虫病毒提供了途径,也使蠕虫病毒预防系统的实现成为可能。通过抓包分析,发现蠕虫病毒的扫描过程并不像黑客入侵前的扫描那样详细,它只是随机地生成目标主机的IP地址(通常优先生成本网段或相邻网段的IP地址),然后用攻击模块(通常是用缓冲区溢出程序)直接攻击目标IP地址的主机,而不管该主机是否存在。这个攻击过程首先要向目标主机的特定端口发起TCP连接请求。例如,冲击波蠕虫病毒会在几秒内两次向目标主机的135端口发起连接请求,而震荡波会在几秒内两次向目标主机的445端口发起连接请求。因此,通过捕获数据包,利用数据挖掘技术分析它们的特征,找出异常的数据,从而达到预防的目的。
二、基于数据挖掘的病毒预防系统
基于数据挖掘的蠕虫病毒预防系统主要由数据源模块、预处理模块、数据挖掘模块、规则库模块、决策模块、预防模块等组成。
(一)工作原理
1.数据源是由一个抓包程序将所有来自于网络的、发向本机的数据包截获下来,交给预处理模块处理。
2.数据预处理模块将截获的数据包进行分析,处理成连接请求记录的格式。因为蠕虫病毒传染网络上的主机时,会主动地向主机发起连接,这也是预防系统建立的理论依据。连接记录由时间、源IP地址、源端口、目的IP地址、目的端口组成。这些众多的连接请求记录组成了事件的集合。
3.规则库用于存储已知的蠕虫病毒的连接特征和新近数据挖掘形成的规则集。规则集是蠕虫病毒行为模式的反映,用于指导训练数据的收集和作为特征选择的依据。
4.数据挖掘模块利用数据挖掘算法分析由连接请求记录组成的事件库,分析结果交给决策模块处理。
5.决策模块将数据挖掘的结果与规则库中的已知规则进行模式匹配,若与规则库中的规则匹配,则由预防模块发出发现已知蠕虫病毒的警报;若不匹配,则由预防模块发出发现新蠕虫病毒的警报,同时将新规则加入到规则库中。
(二)基于数据挖掘的病毒预防系统
1.分类:把一个数据集映射成定义好的几个类。这类算法的输出结果就是分类器,常用决策树或规则集的形式来表示。
2.关联分析:决定数据库记录中各数据项之间的关系。利用审计数据中系统属性间的相关性作为构建正常使用模式的基础。
3.序列分析:获取序列模式模型。这类算法可以发现审计事件中频繁发生的时间序列。这些频繁事件模式为构建预防系统模型时选择统计特征提供了指导准则。其算法描述为:已知事件数据库D,其中每次交易T与时间戳关联,交易按照区间〔t1,t2〕顺序从时间戳t1开始到t2结束。对于D中项目集X,如果某区间包含X,而其真子区间不包含X时,称此区间为X的最小出现区间。X的支持度定义为包括X的最小出现区间数目占D中记录数目比例。其规则表示为X,Y->Z,[confidence,support,window],式中X,Y,Z为D中项目集,规则支持度为support(X∪Y∪Z),置信度为support(X∪Y∪Z)/support(X∪Y),每个出现的宽度必须小于窗口值。
3.系统中的数据挖掘模块
首先利用分类算法对连接请求事件库中的数据进行分类,本系统中分别按源IP地址与目的端口对事件进行分类。然后对这两类数据进行关联分析与序列分析,在对相同源IP地址的数据分析中可以发现该台主机是否感染已知的蠕虫病毒或异常的举动(可能是未知的蠕虫病毒所为);对同目的端口的数据分析中可以发现当前网络上蠕虫病毒疫情的严重程度。
【参考文献】
[1]杨玉锋,夏晓峰.上网用户安全防范[J].韶关学院学报:自然科学版
篇3
1计算机视觉的概述及基本体系结构
1.1计算机视觉概述
通过使用计算机和相关设备,对生物视觉进行模拟的方式,就是计算机视觉。对采集到的图片或视频进行相应的技术处理,从而获得相应的三维信息场景,是计算机视觉的主要任务。计算机视觉是一门学问,它就如何通过计算机和照相机的运用,使人们获得被拍摄对象的数据与信息所需等问题进行研究。简单的说,就是让计算机通过人们给其安装上的“大脑”和“眼睛”,对周围环境进行感知。计算机视觉是一门综合性学科,在各个领域都有所作为,已经吸引了各个领域的研究者对其研究。同时,计算机视觉也是科学领域中一个具有重要挑战性的研究。
1.2计算机视觉领域基本体系结构
提出第一个较为完善的视觉系统框架的是Marr,他从信息处理系统角度出发,结合图像处理、心理物理学等多领域的研究成果,提出被计算机视觉工作者基本接受的计算机视觉系统框架。在此基础上,研究者们针对视觉系统框架的各个角度、各个阶段、各个功能进行分析研究,得出了计算机视觉系统的基本体系结构,如图1。
2计算机视觉在交通领域的应用
2.1牌照识别
车辆的唯一身份是车辆牌照。在检测违规车辆、稽查被盗车辆和管理停车场工作中,车辆牌照的有效识别与检测具有重要的作用和应用价值。然而在实际应用工作中,虽然车牌识别技术相对成熟,但是由于受到拍摄角度、光照、天气等因素的影响,车牌识别技术仍需改善。车牌定位技术、车牌字符识别技术和车牌字符分割技术是组成车牌识别技术的重要部分。
2.2车辆检测
目前,城市交通路口处红绿灯的间隔时间是固定不变的,但是受交通路口的位置不同、时间不同的影响,每个交通路口的交通流量也是持续变化的。此外,对于某些交通区域来说,公共资源的配备,比如交通警察、交通车辆的数量是有限的。如果能根据计算机视觉技术,对交通路口的不同时间、不同位置的交通情况进行分析计算,并对交通流量进行预测,有利于为交通警察缩短出警时间、为交通路口的红绿灯根据实际情况设置动态变化等技术提供支持。
2.3统计公交乘客人数
城市公共交通的核心内容是城市公交调度问题,一个城市如何合理的解决公交调度问题,是缓解城市运力和运量矛盾,缓解城市交通紧张的有效措施。城市公交调度问题,为公交公司与乘客的平衡利益,为公交公司的经济利益和社会效益的提高做出了巨大的贡献。由于在不同的地域、不同的时间,公交客流会存在不均衡性,高峰时段的公交乘客过多,平峰时段的公交乘客过少,造成了公交调度不均衡问题,使有限资源浪费严重。在计算机视觉智能公交系统中,自动乘客计数技术是其关键技术。自动乘客计数技术,是对乘客上下车的时间和地点自动收集的最有效的技术之一。根据其收集到的数据,从时间和地点两方面对客流分析,为城市公交调度进行合理的安排。
2.4对车道偏离程度和驾驶员工作状态判断
交通事故的发生率随着车辆数量的增加而增加。引发交通事故的重要因素之一就是驾驶员疲劳驾驶。据相关数据显示,因车道偏离导致的交通事故在40%以上。其中,驾驶员的疲劳驾驶就是导致车道偏离的主要原因。针对此种现象,为减少交通事故的发生,计算机视觉中车道偏离预警系统被研究开发并被广泛应用。针对驾驶员眨眼频率,利用计算机视觉对驾驶员面部进行图像处理和分析,再根据疲劳驾驶关注度与眨眼频率的关系,对驾驶员的工作状态进行判断。此外,根据道路识别技术,对车辆行驶状态进行检测,也是判断驾驶员工作状态的方法之一。这两种方法,是目前基于计算机视觉的基础上,检测驾驶员疲劳状态的有效方法。
2.5路面破损检测
最常见的路面损坏方式就是裂缝。利用计算机视觉,及时发现路面破损情况,并在其裂缝程度严重之前进行修补,有利于节省维护成本,也避免出现路面坍塌,车辆凹陷的情况发生。利用计算机视觉进行路面检测,相较于之前人工视觉检测相比,有效提高了视觉检测的效率,增强了自动化程度,提高了安全性,为市民的出行安全带来了更高保障。
3结论
本文从计算机视觉的概述,及计算机视觉基本体系结构,和计算机视觉在交通领域中的应用三面进行分析,可见计算机视觉在交通领域中的广泛应用,在交通领域中应用的有效性、显著性,以此可得计算机视觉在现展过程中的重要性。随着计算机视觉技术的越来越成熟,交通领域的检测管理一定会加严格,更加安全。
作者:夏栋 单位:同济大学软件学院
参考文献:
[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2015(06).
[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2015(04).
[3]李钊称.主动测距技术在计算机数据分析中的作用探析[J].计算机应用,2015(08).
[4]马良红.三维物体影像的摄取与分析[J].中国公路学报,2014(05).
篇4
1 计算机视觉定义
人类天生具有五感,视觉便是其中之一,而计算机视觉,就是让计算机网络能够睁开眼看世界。让计算机有一定的视觉能力,可以从各个方面帮助人们进行监督、检验检测。利用计算机视觉科学可以使工作变得更加简便。计算机视觉主要应用于对二维码、条形码、照片、视频资料如片段等进行智能处理。
2 计算机视觉研究在医疗、交通中的作用
随着医学成像技术的发展与进步,图像处理在医学研究与临床医学中的应用越来越广泛。最常见的有癌细胞显微图像分割与识别、基于多特征融合的血红细胞识别和乳腺癌细胞计算机的自动识别等。计算机视觉技术的迅猛发展,为医疗诊断带来了很大的方便,同时促进了临床医学的发展。另外,在各大综合医院慢慢发展起的体检体系中,计算机视觉技术起到了决定性因素。随着体检的人数上升,对医院体检的管理、速度、准确性都提出了更高的要求。视觉识别轻而易举的解决了这个问题,只需要去识别体检人员的身份证,就可以将体检人员对号入座,检查过的项目,没有检查的项目一目了然。理化指标的检验,只需要在采血试管或采尿瓶上粘贴与体检者对应的条形码即可,利用视觉技术对号入座,方便而准确的确定每一位体检人员的血样及尿样。及提高了医院的工作效率,又将错误率降到最低。
计算机视觉在交通上同样得到了广泛的应用及发展。交通安全是交通运输中的重大问题,随着近年来机动汽车数量的迅猛增长,交通事故的发生也随之越来越频繁,给人类社会带来的危害也日趋严重,使很多的家庭失去亲人,甚至家破人亡。全国一线城市例如:北京、上海、广州、深圳等交通道路供需的矛盾日趋严重,交通安全、交通堵塞及环境污染已成为困扰我国交通领域的三大难题。基于图像处理的计算机视觉技术是通过摄像机获取场景图像,并借助于计算机软件构建一个自动化或半自动化的图像、视频理解和分析系统,并提供及时准确的图像、视频处理结果,以模仿人的视觉功能。主要功能如下:
一是基于计算机视觉技术的车辆牌照自动识别: 车辆牌照是车辆的唯一身份,对车辆牌照的有效检测与识别在车辆违章检测、停车场管理、不停车收费、被盗车辆稽查等方面有着重要的应用价值。尽管针对车牌识别技术的研究相对成熟,然而在实际的应用场景中,受到天气、光照、拍摄视角、车牌扭曲等因素的影响,车牌识别技术仍然有一定的改善空间。
二是基于计算机视觉技术的车辆检测与流量统计:目前城市交通路口的红路灯间隔时间是固定的,而不同路段、不同时间段交通流量是随机变化的。若能根据各个交通路口的交通状况辅以计算机进行自动分析,并判断与预测交通流量,无疑为交通警察出警,红绿灯时间间隔的动态设置等提供技术支持。
三是基于计算机视觉技术的公交专用道路非法占道抓拍:公共交通是每个城市交通的重中之重,城市的公共交通为老百姓提供了便捷的出行方式。公共交通的发展,有利于城市的节能减排,有利于降低城市的空气污染指数。由于城市公共交通具有运量大、相对投资少、人均占有道路少等优点,解决城市交通问题必须优先发展城市公共交通。然而目前拥挤、缓慢的公交出行方式已成诟病,因此发展“快速公交”将是未来公交的一种运行模式。道路畅通则是发展“快速公交”的前提,相应地,公交专用车道的设定必不可少。为防止其他社会车辆的驶入,并对违规驶入的其他社会违规车辆进行抓拍与惩罚是保证公交车道公交车专驶的一种重要手段。因此在公交车前部装置摄像头并辅以其他处理设备,从而可以使得每一辆公交车成为了一个流动的监控设备。
3 计算机视觉在条形码检测中的应用
条形码是将宽度不等的多个黑条和空白,按照一定的编码规则排列,用以表达一组信息的图形标识符。在中国,由中国物品编码中心赋予制造厂商代码。那么最常见的计算机视觉应用与条形码检测就是在超市中。超市中每样产品都有自己的条形码,当人们选择了自己需要的物品后,来到收银台进行结账,我们会看见收银人员会用扫码器对物品的条形码进行扫描,扫描后就会出现产品的信息及价钱。记录以及扫描条形码的技术就是计算机视觉技术。
4 计算机视觉重要技术——智能识别
近年来,基于生物特征的鉴别技术得到了广泛重视,主要集中在对人脸、虹膜、指纹、声音等特征上,这其中大多都与视觉信息有关。指纹、人脸功能已经大范围在生活中应用,其中很多单位的打卡制度就是依据面部识别、指纹识别来实现的。社会飞速发展的今天,很多的单位都实行了上下班打卡制度,这一制度已经被作为单位管理制度中的重要一条。购买的打卡机就是采用计算机视觉的重要技术——智能识别来实现的。利用打卡机的储存功能,记录每个职工的指纹或面部容貌,规定在某一个时间范围内对应识别指纹或面部容貌,视为打卡。在上下班打卡的过程中,员工将面部或指纹对应在打卡机的制定位置上,让打卡机进行识别,当识别的结果与存储结果相同时,打卡成功。这样看起来十分简单的打卡机可以使单位的工作有序化,制度化,而实现这个功能的技术就是计算机视觉技术中的重要技术之一:智能识别。
5 计算机视觉技术的发展过程及未来
计算机视觉技术研究经历了近40年的过程,20世纪50年代的统计模式识别、60年代的Roberts的三围积木世界、70年代的Marr为代表的计算理论、80年代的主动视觉,但是仍然面临许多的问题。主要由于计算机视觉是一个逆问题,视觉信息多种多样,视觉知识的表达很困难,图像数据量巨大,信息存储于检索困难,对生物学、神经生物学等的研究有待深入。
计算机视觉技术的未来必定会朝着高科技发展,航空遥感测控地形地貌、电影特效制作、工业生产自动化检测、医学影像检测,再到天文领域等,在这些科学领域中计算机视觉将无法取代,成为主流的技术之一。
作者简介
篇5
关键词:视觉原理;计算机视觉艺术;数字媒体;应用
利用计算机所具有的视觉艺术,大众仅仅利用需要实施身体动作来直接性的操作以及控制,根本就不需要学习就能够启动以及进行一定的操作,这样更加方便老年人以及儿童的实际操作。在数字媒体当中,应该对计算机视觉艺术进行充分利用,更加方便人们的实际操作,同时还能够保证其更好的感受艺术方面所具有的魅力,让群众在足够放松的时刻能够对创作者的实际思想以及意图进行充分的了解以及掌握,对艺术价值进行充分发挥,进而来有效提升艺术人文的实际价值。
1对计算机视觉原理进行分析
通常来讲,计算机视觉还称为机械视觉,属于是机械来对人类视觉进行一定的模仿的光学识别系统,利用光学系统、感应器、光源等来实现物体定位、动作的追踪以及视线的判断等相关的功能。一般情况下,工程技术所运用的基本都是计算机视觉,当有着一定的环境以及模式时,计算机视觉在进行持续性的工作时,能够有效保证持续工作有着非常高的正确性以及准确性,还能够对人工不可以完成的任务进行很好的完成。当计算机视觉在进行实际的工作过程中,最为基本的条件是先对映像进行处理,之后输入模拟讯号,对数字影像进行一定的处理以及分析。实际的工作流程是:影像在摄入之后,应该对其进行一定的强化,除去噪声,之后对图像特征进行一定的压缩以及获取。在对数据库样本进行一定的对比之后,对程序进行有效的分析以及判断,做出有效的指令。
2对数字媒体当中计算机视觉艺术的实际应用进行分析
2.1艺术与计算机进行一定的融合时,应该对动画、声音以及图像等因素进行有效结合,在对艺术语言表现形式进行丰富的同时,应该提高作品的感染力
在有些结合视觉艺术以及数字媒体时,应该保证在对画面进行观看时,应该有效的欣赏画面,还可以有效的感受到声色等。利用高度仿真的听觉、触觉以及视觉,保证大众在进行玩游戏时,可以对虚拟世界进行真实的感受,还能够利用动作以及肢体语言等来和计算机实现有效的交流。保证大众不是对电影单独的进行欣赏,还应该更好的参与到其中,体会艺术的表演。
2.2在数字媒体当中运用计算机视觉艺术能够对艺术的实际表达形式进行有效的丰富
随着交互技术的逐渐成熟以及发展,让该技术得到了有效的拓展以及广泛的运用。运用交互技术,应该让人们不受到被动的欣赏,应该积极的参与到视觉艺术当中,保证大众的积极参与以及做出判断,同能够利用各种选择来呈现出过程以及解决,对观众的兴趣进行充分的调动,进而来有效提高大众的参与积极性。
2.3在电子游戏当中,运用计算机视觉艺术,应该在相对比较大型的电子游戏当中进行计算机视觉技术的运用
在实际的游戏过程当中,大部分的玩家基本上不再是仅仅运用键盘以及鼠标来实施游戏,大部分都是利用身体行动来移动。通常情况下,机器利用摄像机部来对玩家的具体身体动作进行一定的捕捉,玩家能够与机器相连接的手枪进行有效的操作,射中屏幕当中的对象。同时,手机上的相对比较小型的电子游戏,仅仅需要手指来滑动屏幕,就能够实现实物的运动以及跳跃等,进而来躲避障碍。除此之外,仅仅需要稍微的倾斜一些收集,就能够实现人物两侧的奔跑,同时还能够保证声光效果,实现互动,具有非常大的震撼力,会在很大程度上促进大众参与的积极性。
2.4分析数字媒体中计算机视觉技术的应用,保证数字媒体技术有效表现艺术
同时在实用艺术以及纯艺术当中,也会运用到数字媒体,该技术能够让相对比较单纯的个人视觉实现有效的创造,同时还能够把艺术箱社会性视觉产品进行转化,并得到一定的经济效益。同时,大众能够通过剪切以及拷贝等相关的方式来有效获取视觉技术,之后有效的转化艺术资源,有效奠定了创作视觉艺术的基础。现阶段,大众对于个性化以及独特性有着逐渐提高的需求,在对相对比较独特的视觉技术进行追求时,在一定程度上提高了评价视觉作品的标准。在数字媒体当中运用计算机视觉技术,会在很大程度上提高大众对美的享受,保证大众能够充分感受到舒适以及愉快的感觉,同时还能够得到审美方面的评价,在该过程当中,不能够参杂任何的因素,应该让计算机视觉因素仅仅对视觉美感以及视觉形式进行充分的追求,可以有效体现艺术的本质。同时,数字媒体有着美方面的品格,有效结合计算机视觉艺术,保证数字媒体艺术的美以及真。这个实际的运用过程能够有效提升审美方面的机制,更好的领悟视觉艺术当中所存在的美。
3结语
综上所述,在数字媒体当中,计算机视觉技术的运用,应该有效结合图像、动画、声音以及文本等多个因素,在对语言表现的具体形式进行一定的丰富时,应该让作品具有更大的感染力。除此之外,还应该保证视觉技术有何足够的光声效果,利用一定的互动,会具有非常大的震撼能力,积极促进大众的参与程度。还可以在很大程度上满足大众对于美方面的追求,进而对其所具有的艺术价值进行充分发挥,有效提升艺术所具有的人文价值。
参考文献
[1]刘晓,王会霞.计算机视觉艺术在数字媒体领域的应用研究[J].互联网天地,2015,07:21-24.
[2]丛婧.浅谈计算机视觉艺术在数字媒体的应用[J].电子制作,2013,18:75.
篇6
关键词:图像处理 计算机视觉 立体视觉
在实际工程实践中,由于受现场条件和测试技术本身的限制,结构动位移的测试往往存在一定的困难和挑战,这也使动位移并未成为结构动力性能评估中一个常见的评估指标。结构动位移响应是直接反映结构在动力荷载作用下安全性和整体性的重要参考指标。随着工程结构或构件建造得越来越柔和复杂结构模型试验研究的发展,如大跨度桥梁、高层建筑、索结构等的现场测试以及结构振动台试验、风洞试验等,结构动位移的测试显得尤为重要。
计算机视觉是研究计算机模拟生物外显或宏观视觉功能的科学与技术,是一个发展十分迅速的研究领域,其研究手段涉及甚广,如图像处理、机器视觉、医学图像分析、模式识别、计算机图形学、人工智能等。当计算机通过视觉传感器(比如相机或摄像机等)试图分析三维空间的物体时通常只能给出二维图像,通过计算机分析和处理图像信息,可以重构实物的三维几何信息,包括其形状、位置、姿态、运动等。因此,通过计算机视觉技术实现结构动位移的测量是可行的。上世纪八十年代中期以来,随着计算机软、硬件技术的不断发展,在土木工程领域,国内外很多学者尝试将计算机视觉技术用于结构的几何测试,包括结构的位移(静、动位移)、裂缝、表观外形等。Aw和Koo采用数码照相机来进行预设目标的坐标测量,经过基于计算机视觉理论的光束法优化后,其测试精度为2.24mm。Nieder?st和Maas利用数码摄像机来测试混凝土梁在脱水收缩过程中的变形情况,其在相机视场为80cm时测试精度可达0.03mm。相类似地将计算机视觉技术用于结构特性的测量例子还有很多,比如混凝土管片变形检测,梁破坏试验中的变形测量,远距离桥梁变形测量,轨道梁破损状况的检测等。相比于结构静态几何特性的测试,结构动态特性的测试应用相对不多。Olaszek利用摄像机来摄录桥梁的振动情况,并以计算机视觉技术进行结构动位移重构分析,得出的动位移测试精度为1mm左右。Yoshida等采用立体视觉技术来测试一块薄板的三维振动特性。
一、单相机标定
二、基于立体视觉的两相机立体标定
三、图像点跟踪
图像点跟踪是基于立体视觉的结构位移测试手段中的重要环节。在图像(或视频)分析过程中,点跟踪的精度会直接影响位移测试的最终结果。在实际测试中,本文采用两个黑方格组成的目标模板粘贴在所测结构的表面,方格尺寸均为30×30mm,两方格的交叉角点作为图像分析的跟踪点。
四、三维点重构
篇7
【关键词】计算机视觉;构件;表面特征;检测
表面缺陷检测以及特征提取,所涉及的范围是非常广泛的,包括了铁轨表面缺陷、带钢表面缺陷以及织物表面缺陷等。因此加强对产品的表面缺陷提取以及质量检测显得尤为重要,目前基于计算机视觉的构件缺陷检测系统已经受到国内外研究人员的重视,如何更好地将计算机视觉技术引入到产品表面质量缺陷检测中去是未来发展的重点。笔者将在下文中就此展开详细的阐述。
1.计算机视觉的基本工作原理
1.1系统结构
计算机视觉是一项涉及范围广泛的技术,他通过图像采集装置将检测目标转化为图像信号,再经过专门性的额图像处理系统最终生成具体的表面特征。具体来讲在图像处理环节米旭涛根据图像的具体像素以及图像分布和颜色、亮度、饱和度等进行目标提取,再比照系统预设的参照值得出最终的检测结果,例如尺寸大小、颜色等师傅偶合格。计算机视觉处理系统包括了光源、镜头、计算机以及图像采集装置和处理系统等,这些系统综合组成共同推动了计算机视觉系统的正常稳定运行。
1.2计算机视觉硬件设计
计算机视觉系统的硬件平台包括了照明系统、镜头相机以及图像采集装置和工控机四个部分,这四个部分缺一不可,共同组成了整个计算机视觉系统。
1.2.1照明系统
照明系统是整个计算机视觉系统的关键,尤其是在光源和照明方案的配合上更是直接影响了整个系统运行的成败。因此在照明方案的制定以及光源的选择上应该尽可能的突出物体特征参量,综合考虑对比度以及亮度等因素,将计算机视觉系统的光源与照明方案相匹配,选择需要的几何形状以及均匀度等,同时还需要结合被检测物体的表面特征几何形状。针对构件表面缺陷的照明方案,笔者认为应该选择功率相对较大的LED光源,用低角度的方式进行照明。
1.2.2相机镜头
相机系统是成像的关键,因此在相机镜头的选择上应该适用于具体的构件。一般来说相机镜头包括了两方面内容,一是线扫,二是面扫。通过二者的综合运用实现更好地成像效果。
1.2.3图像采集卡
图像采集卡主要是指在计算机视觉系统中位于图像裁剪机设备和图像处理设备之间的重要接口。是成像的中间环节,发挥着不可或缺的作用。
2.基于计算机视觉的构件表面缺陷特征提取
基于计算机视觉的构件表面缺陷特征提取可以分为为三个重要部分,分别是图像预处理部分:主要是指针对构件进行区域的定位,将非构件的部分移出计算机视觉的缺陷提取技术中去,从而降低了后续工作的工作难度;其次是进行缺陷定位,主要是指通过特定的技术和算法将缺陷从结果当中直接分离出来。第三部分是缺陷特征的提取,也是系统处理的结果部分,是通过计算缺陷的程度以及缺陷大小,从而为后期的构件维护提供参考依据。具体来说,这三个部分的操作主要体现在以下几个方面:
2.1区域定位
区域定位是减少构件处理和选择时间的关键,能够大大提高构件缺陷提取的效率。构件的表面的基本特征和大致集合框架提取是区域定位和的第一步,要将计算机区域定位和缺陷提取结合起来,更好地实现缺陷分析。要做好构件的区域定位首先需要明确构件的基本种类和特征:一是根据构件的重用方式来说,可以分为白匣子、灰匣子、黑匣子从构件的使用范围来看又可以分为通用构件和专用构件;根据构件的粒度的大小可以分为小。中大三种不同粒度的构件;再次是从构件的功能上来看可以分为系统构件、支撑构件以及领域构件三个部分。四是从构件的基本结构特征来看可以分为原子构件以及组合构件。最后从构件的状态来说,又可以分为动态和静态构件。因此从不同种类的构件进行区域定位为视觉系统正常运行创造了优良的条件。
2.2缺陷提取
在进行缺陷提取的过程中,难免会受到客观的环境影响,比如噪声、温度以及湿度等对图像处理的结果产生影响,因此需要对区域定位中产生的区域进行滤波处理,然后再采用阈值分割的办法进行缺陷提取。具体操作步骤如下所示:
(1)计算出成像中的最小最大灰度值,并且设置初始阈值。
(2)根据阈值,结合图像的分割目标,将图像分割成为目标和背景两个部分,求导出平均灰度值。
(3)再根据新的平均灰度值计算出新的阈值。
(4)观察阈值的初始值与新阈值之间的关系,如歌二者相等则整个计算过程就结束,如果不相等,则就需要进一步计算。
通过阈值计算得出啊的最佳阈值分割效果图,能够进行初步的缺陷预判,但是初步预判当中还存在较多的不确定因素,主要包括两类,一是在边缘部分出现的细小毛刺,由于与缺陷的距离较近,因此在初步缺陷提取中容易形成误判、再次是在构件表面有一些非常细小的缺陷,这些缺陷的影响较小,不会对构件的性能造成影响,因此在进行缺陷提取的过程中需要将这两个因素排除在外,具体主要是指采用图像形态学中开运算和闭运算,从而达到对构件中的明了细节和暗色细节的过滤。具体来说缺陷的分割提取采用的是Sobel算子。主要是利用了图像像素点的上下左右灰度加权算法,对构件表面的缺陷进行检测。再采用二值图像边界跟踪法,将缺陷从构件图像中分离出来。
2.3缺陷特征提取
缺陷特征提取,又可以称之为缺陷的定量计算和定性过程,是将前期所得的数据结果以更加直观的形式展现出来,通过对比指标参数判断构件的表面质量是否合格,符合基本的生产标准。一般来说常用的表示缺陷特征的标准有以下几种:
(1)周长:周长是对缺陷的边界长度的描述,在图像特征上显示则是指构件成像上的缺陷区域的边界像素数量。
(2)面积:面积相对于周长能够更加直观地反映整体缺陷的大小,它是缺陷区域中的像素的总数,因此更高体现缺陷的影响规模。
(3)致密性:这是一个相对专业的缺陷指标概念主要是指每平方面积上的平方周仓,是一个双单位描述指标。
(4)区域的质心:区域质心是描述缺陷的影响关键也就是缺陷区域内的核心区域,是对整个区域的核心描述。
(5)最小外接矩形。
3.结语
综上所述,构件表面缺陷直接影响构件的最终使用效果,构件表面缺陷的检测应用领域也逐渐广泛,而计算机视觉技术在检测缺陷中的优越性更体现了基于计算机视觉的构件表面缺陷特征提取的研究价值。本文主要针对构件表面缺陷的检测,综合计算机视觉技术提出了具体的检测方法和检测工作原理,通过对表面缺陷的检测,力图提高构件的整体质量。
【参考文献】
[1]陈黎,黄心汉,王敏,何永辉,龚世强.带钢缺陷图像的自动阈值分割研究[J].计算机工程与应用,2002,(07).
[2]许豪,孔建益,汤勃,王兴东,刘源泂.基于数学形态学的带钢表面缺陷边缘提取[J].机械设计与制造,2012,(06).
篇8
关键词: 食品物流; 运作模式; 计算机视觉; 实时监控
中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2013)08-87-02
0 引言
为了加强食品安全的有效追踪和监控,山东省自2011年5月以来,建成了黄河三角洲高效生态冷链产业物联网管理运营中心,开通了“冷链产业物联网管理平台”。黄三角冷链产业物联网管理平台依托食品产销对接系统和食品品质安全管理系统,实现了食品全程监控和追溯。然而,目前这一管理平台只能实现食品运输流程的监控和出现安全问题之后的追溯,而不能实现食品质量的实时监管。对消费者健康的保障和对社会稳定、经济发展的需求日益增长,通过一个可视化的食品物流信息化监控体系运作模式来进行食品安全监控的重要性日益突出[1]。
1 监控体系运作模式
监控体系运作模式利用计算机视觉技术,通过图像分析,提取食品数字图像中的特征信息,实现食品品质安全信息的快速、客观、准确检测,能为食品生产、加工、物流和销售过程的自动化跟踪和监管提供信息支持,让食品行业彻底实施食品的源头追踪以及在食品供应链中提供完全透明度的能力[2]。
1.1 食品图像的分析
计算机图像处理步骤包括图像预处理、目标边缘、检测与图像分割、特征提取以及模式识别,为后续图像特征提取提供分析对象。食品图像质量检测流程如图1所示。
[进行食品边缘检测][图像处理和模式识别软件][获取食品颜色][食品图像][食品分析系统]
图1 食品质量检测流程
为了在食品物流中实时监控食品的品质,我们利用计算机视觉技术实现直观可视化的监控。通过计算机视觉技术可以对食品进行像素级的图像获取,并能根据食品的形状变化和表面颜色的识别实现对食品外观的初步检测。同时在物流运输过程中能够实时对检测不合格的食品进行筛选和处理,避免了消费者购买到腐烂变质和表面缺陷的食品。实现实时物流跟踪,建立信息追溯和信息共享机制,成为当前食品物流配送的关键。物流可视化运作模式可以大大加快数据的处理速度,使时刻都在产生的海量数据得到有效利用;可以在人与数据、人与人之间实现图像通信,从而使人们能够观察数据中隐含的现象,为发现和理解食品流动过程中出现的问题和及时解决问题提供了有力工具。
1.2 建立智能移动货仓
在本物流可视化运作模式中,设计了在移动货仓上安装摄像头并连接到信息管理平台,通过摄像头对货仓打开次数及货物的提取、装载情况等进行记录。当在运输过程中需要对食品进行提取、调换等其他操作时,只有工作人员向物流信息平台发送请求指令,主管人员确认身份后,指令下达到货仓,方可进行工作。这样可以有效避免在运输过程中遗漏、丢失或者更换货物,管理流程如图2所示。
为了在食品生产、加工、运输、销售过程中及时了解食品物流的情况,给食品原料中夹带了RFID标签;在RFID标签中对食品的仓储过程、入库、出库情况进行标示,物流信息管理平台可以根据计算机视觉处理系统得出的数据与RFID信息进行比对,避免了货物在物流过程中出现异常情况[3]。
2 可视化食品物流功能结构
在食品物流监控体系中,通过摄像头CCD获取食品图像,传送到计算机视觉系统。系统对图像进行处理和分析,然后将分析结果提交到物流信息管理平台。食品质量管理员可以根据信息系统给出的信息通知到货仓告知物流现有情况;同时,在顾客购买食品时可以通过RFID技术,采用系统提供的终端接口,对货物的生产、加工、运输、分发、销售等情况进行追溯查询。系统结构图如图3所示。
可视化食品物流运作系统基于B/S体系架构,并且利用软件自动采集图像信息,并将货物信息、条码信息、尺寸信息和重量信息合成到图片中,同时这些信息也记录在服务器的关系数据库中。通过服务器端的Web服务,可以实现用户在局域网/广域网内,查询相应的信息内容[4]。
3 结束语
利用计算机视觉技术可以获得食品品质的空间位置信息,能够减少传统人工检测带来的高强度劳动,减少检测主观性和人工成本,释放人力资源。通过获取食品的数字图像,可以传输给远距离的分析者或者分析系统,从而实现食品品质信息的区域分析和共享。利用计算机视觉技术无缝地实现对货物的全程可视化追溯,是今后食品物流方面研究的重点,为实现食品便捷的反向查询,进一步保证食品的安全奠定了基础。
参考文献:
[1] 全英华.我国现代食品物流发展现状和对策[J].物流科技, 2011.5:67-68
[2] 陈非.物流可视化信息平台探究[J].科技创新导报,2011.31:198-120
篇9
【关键词】计算机视觉 运动目标 跟踪算法
在计算机等现代科学技术尚未出现以前,人们在获取外界信息时往往主要依赖视觉,而在我国计算机技术水平不断发展提升的背景之下,计算机视觉技术的出现使得人类肉眼视觉得到了进一步的发展延伸,尤其是在各种传感器技术的帮助之下,使得人们能够对保持运动状态的目标进行实时跟踪,从而准确掌握目标的具体形态属性。在此背景之下,本文将运动目标设定为运动的人脸,通过探究基于计算机视觉的运动目标跟踪算法,希望能够为相关研究人员提供相关参考和帮助。
1 Kalman filter目标跟踪算法的简要概述
Kalman filter目标跟踪算法是当前众多跟踪算法当中使用范围较广、使用频率比较集中的一种跟踪算法,这一算法最早可以追溯至上个世纪六十年代,人们通过将滤波理论与状态空间模型相集合,从而得到的一种递推估计的算法也就是卡尔曼滤波理论。其通过利用上一时刻获取的预估值以及当下获取的实际观测值,在信号与噪声状态空间模型当中不断更新状态变量,进而顺利完成估计预测并获得当前时刻估计预测值。经过不断的发展,在计算机图像处理以及其他运动目标跟踪当中经常会使用Kalman filter算法。如果在k时刻系统下的状态向量用xk表示,那么在t0时刻下初始化的状态预测方程为;在tk时刻下更新系统状态的具体方程为
,其中Hk、Zk分别表示测量矩阵m×n维以及转移矩阵n×n维的状态向量。但在跟踪计算机视觉运动目标譬如说视频目标时,由于相邻的两帧视频图像本身时间间隔非常短,因此目标在这一时间内难以发生明显的运动状态变化,此时我们可以通过将此间隔时间设定为单位时间,同时目标在单位时间内一直保持匀速运动状态,这时我们可以得到一个状态转移矩阵且
,定义系统观测矩阵即为
,定义噪声Wk以及Vk协方差矩阵则可以分别用
和表示。
如果在滤波器在经过若干次卡尔曼滤波后仍然能够恢复至原始状态,则其具有较好的稳定性,但如果在进行运动目标跟踪实验的过程当中,对于处于运动状态的被跟踪目标,一旦出现遮挡行为则将在第一时间内暂停估计参数,并将这一参数估计值直接代入到状态方程当中,使得运动目标无论是否被遮挡均可以对其进行精确跟踪。
2 基于计算机视觉的运动目标跟踪算法
2.1 建立颜色概率模型
颜色囊括了诸多的信息量光柱点,尤其是在人类的视觉世界从本质上来说也是一种用过感知自然界色彩以及明暗变化的世界,因此人们可以通过使用三基色原理获得RGB颜色空间。考虑到颜色与计算机视觉场景当中各个场景和目标之间有着紧密的关系,同时不同于目标的大小、形态等其他视觉特征,颜色特征鲜少会受到包括观察视角等在内各因素的干扰影响,从某种角度上来说基于颜色特征的运动目标具有较好的稳定性。为了能够保障目标跟踪既稳定又迅速,需要选择合适的颜色特征,否则将极有可能导致出现跟踪失败。在这一环节当中人们通常使用的是RGB颜色空间以及HSI颜色空间,但由于二者均具有一定的局限性,因此本文在对人脸特征尤其是颜色特征进行选取时,选择了rgI颜色直方图的方法,在解决两N颜色空间自身缺陷的同时,尽量避免目标人脸运动位置以及尺寸等变化因素对目标追踪造成的干扰影响。在rgI颜色直方图当中
,,,L=r+g+I其中R、G、B就是RGB颜色空间当中的三原色,r、g、I有着相同的取值范围即在0到1之间。保持间隔相等的情况下划分L值即可得到rgI颜色直方图。虽然rgI颜色直方图与物体相对应,但如果目标只是位置以及尺寸等出现变化,rgI颜色直方图并不会受到任何实质性影响,因此在理想情况下,利用rgI颜色直方图能够对视频图像中不同运动位置以及不同尺寸的人脸进行目标追踪。
2.2 跟踪算法
运动目标的不断变化将会使得模板图像随之发生相应变化,因此需要不断更新模板图像才能够有效完成对运动目标的连续跟踪,本文在对运动目标的实际运动范围进行预测过程中选择使用卡尔曼滤波,之后利用rgI颜色直方图在预测运动范围之内搜索和匹配相应目标,从而通过此举获得与目标模板有着最小欧式距离的区域,在此过程当中存在一个特定阈值T,如果两者的欧氏距离在进行相减时差值没有超过这个特定阈值,那么此时该区域就是运动目标所在的实际位置,利用在这一区域当中的rgI颜色直方图并将其充当下一帧运动目标的匹配模板,在不断重复的过程中模板能够实现不间断地更新。由于相邻的两帧视频图像之间,时间间隔并不长,因此目标人脸在极短的时间间隔当中基本上不会出现突然变化,此时我们可以认为运动目标人脸的运动连续性比较强,此时利用公式
可以进行欧式距离的计算并用以衡量匹配的模板。其中匹配区域和模板的rgI颜色直方图分别用l和l'表示,而rgI颜色直方图中的维数则用n进行表示。根据相关视频图像显示,通过不断更新模板确实可以对目标运动人脸进行实时跟踪显示。
3 结束语
总而言之,本文通过选择当前比较常见的目标跟踪算法即Kalman filter算法,利用卡尔曼滤波以及rgI颜色直方图完成对运动人脸的跟踪。事实证明,Kalman filter算法确实能够在对各目标之间的干扰进行明确区分的基础之上,准确描述运动人脸目标,从而较好地跟踪运动目标,但由于人脸之间本身存在一定的相似性,因此本文只是对理想状态下的运动人脸进行跟踪实验,日后还需要对计算机视觉技术和Kalman filter算法进行进一步优化以妥善解决多人脸目标以及相似性问题。
参考文献
[1]郑薇.基于双目视觉的运动目标跟踪算法研究及应用[D].哈尔滨:哈尔滨工程大学,2014.
[2]李慧霞,李临生,闫庆森,周景文.基于Mean Shift算法的目标跟踪综述[J].计算机与现代化,2017(01):65-70.
[3]李寰宇,毕笃彦,杨源,查宇飞,覃兵,张立朝.基于计算机视觉的运动目标跟踪算法研究[J].电子与信息学报,2015(09):2033-2039.
[4]陈曦,殷华博.基于计算机视觉运动目标跟踪技术分析[J].无线电工程,2014(06):22-24+39.
篇10
生活中,每个人都问过别人“这件衣服是从哪买的?”“这双鞋是什么牌子的?”这一问题很快会被AI技术解决,只需要拿出手机对着物品拍照,就会得到商品的各种信息,并且能一键买买买。这就是美国著名图片社交网站Pinterest(拼趣)即将推出的应用图片识别购买业务。
Pinterest总裁Tim Kendall表示,“Pinterest可以即刻在存储750多亿张图片的巨大网络空间内进行搜索,从而为用户找到与所拍摄照片相似的配对图片,以及查找到哪些地方能够买到他们所需的商品。”
目前,Pinterest的估值已经达到了110亿美元,该公司的专注点正在向营收增长和创收方面转变。相比Facebook、Twiter等社交网站,Pinterest已经率先找到了一条清晰的创收道路。
从兴趣到产品
亚里士多德曾经说过,古往今来人们开始探索,都应起源于对自然万物的惊异。科技的进步也是如此,就像微软研发主管和项目负责人Mitch Goldberg所说:“我们想通过该应用向人们展示识别技术的无限魅力。”
今年2月,微软旗下的Garage实验室了一款名为“Fetch!”的应用,它可通过机器学习系统识别照片中宠物狗的品种并用文字对该品种进行简单的介绍。
随着计算机视觉领域开始利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习,识别的精确度实现了巨大飞跃。也就是说通过机器学习技术,Fetch!识别的准确度会越来越高,随着大量图片的涌入,Fetch! 可以自我修复错误,从而更加精确地识别每一只狗的样貌、形态、动作。除了测试狗类品种以外,你还可以把朋友的照片上传至平台,看看他们能够对应出哪种宠物。
微软的这款产品基于目前最为热门的一种图像识别技术――“深度神经网络”,同样基于这种技术,微软还有另一款有趣的产品:。去年5月,有超过5.75亿图片被提交到,超过8500万来自世界各地的使用者访问了这个网站,只为寻找一个简单问题的答案――颜龄机器人认为我看起来像几岁?如果是合照,并且颜龄机器人识别出的自己比周围人年龄小,则更能引发用户的兴趣,这种“损人利己”的识别应用着实在社交媒体上火了一把。
另一让计算机视觉研究技术人员特别感兴趣的领域是生物识别,当下最为火爆的莫过于人脸识别技术了。早期的人脸识别技术多为安防领域,如海关识别走私犯、商店识别小偷等。近年来,深度学习的研究与应用使得人脸识别和人工智能的核心技术得到了极大的提升,摄像头等图像硬件的发展为人脸识别提供了很好的图像基础,如今人脸识别技术应用更加广泛,比如公司可以使用刷脸打卡来杜绝代人打卡签到现象。
其实早在2012年,谷歌就开发出了安卓系统的“刷脸解锁”技术,但因安全问题未解决,该技术一直未能得到普及。
而今年3月,电商巨头亚马逊提交了一项针购物付费的专利技术,即消费者在亚马逊网站购物时可以通过自拍或者视频来进行付费,无须再输入账号密码。在消费时系统会提示用户表现出特定的行为、情绪或手势来证明消费者就是本人,而不是拿着照片的冒名顶替者。
亚马逊表示,这项技术能使消费者更加安全地进行网上购物,因为很多用户为了省事会把所有账户都用同一个密码,或者把密码记在手机里,一旦遭遇“撞库”或者手机被盗,后果不堪设想,而刷脸技术则没有这个风险。
除了识别人脸,在识别其他生物方面也有了突破性进展,比如识别寄生虫。疟疾,是一种由疟原虫造成的全球性急性寄生虫传染病,据统计,2015年有大约有2.14亿人受疟疾的影响。
一直以来,医疗工作者是通过肉眼观察采样玻片来确定采样对象是否被疟原虫感染,这不但是对医疗工作者经验的考验,而且工作效率也十分低下,而贫困地区一直都缺乏有经验的医疗工作者。
今年2月,根据MIT Technology Review报道,Intellectual Ventures Laboratory(智能事业实验室)开发出了能够检测和评估疟疾感染的便携式显微镜。这种显微镜采用的是一个名为“Autoscope”的系统,通过计算机视觉和深度神经网络技术,采用深度学习算法来鉴别疟原虫。这款便携式显微镜今年在泰国实地测试,成功鉴别出了 170块玻片中的疟原虫如果这项技术得到普及之后,只要诊所有一台Autoscope显微镜和一些载玻片,就可解决疟疾的诊断问题,这将使疟疾诊断不再依赖于有限的专业医疗人员。
技术转化为产品
新技术的出现,让计算机不但“看见”这个世界,更能“看懂”这个世界,可以代替人眼甚至超越人眼。
人的视野是有限的,并且会受到周边条件的影响,驾驶员在开车时会有视野盲区,还会受到光线的影响,并且大雾、暴雨等极端天气也会严重影响驾驶员的视线。而计算机视觉技术就不一样了,视野会更开阔,受限制更小。根据汽车媒体《Leftlane》报道,福特公司最新的无人驾驶汽车研究计划是由激光感应(LiDAR)和雷达、摄像头形成一张周围环境的高清3D地图,不但让无人驾驶汽车看到摄像头视野范围之外的物体,而且并不受光线限制。在夜间试驾后,福特工程师Wayne Williams说:“坐在汽车里,我能感到它在走,但是我往车外看,只能看到一片漆黑。结果令人惊喜,车辆准确地沿着蜿蜒的道路行驶。”
识别场景这一领域技术的发展,使得计算机不但能当机器的眼睛,还能变成人类的眼睛。
对于双目失明的人来说,能亲自感知这个世界是梦寐以求的事,而微软2016 Build开发者大会上Seeing AI项目正是要帮助盲人实现这一愿望。
Seeing AI项目是通过计算机视觉和自然语言去形容一个人的周围环境、朗读文本、回答问题以及识别人的面部表情,可以在手机上使用,也可以在Pivothead的智能眼镜上使用。如果投入使用,将有助于为视障人士营造更公平的环境,是一款能够真正改变人们生活的产品,就像此项目的高级项目经理Anne Taylor所说的,这是“为真正重要的场景寻求解决方案”。也许不久微软能开发出一种仿生眼,直接发送视觉信号到大脑,让盲人真正看到这个世界。