计算机视觉研究方向范文

导语：如何才能写好一篇计算机视觉研究方向，这就需要搜集整理更多的资料和文献，欢迎阅读由公务员之家整理的十篇范文，供你借鉴。

篇1

物体为什么会呈现出人们所看到的视觉效果?经过多重反射后，光线将怎样变化?如何让计算机把真实世界里的物理原理数字化表现出来?这些都是松下康之在微软亚洲研究院工作时要思考的问题，摄像机拍摄出的画面抖动看不清怎么办?松下康之也遇到过生活提出的小挑战。

松下康之用研究员的“专属语言”解释道，“低层视觉研究”和“满帧视频稳定技术”可以很好地回答和解决上面问题。“这也正是我所从事的两个研究方向：一个是光度学，另一个是视频分析，”微软亚洲研究院视觉计算组主管研究员松下康之说，“两者之间并没有十分紧密的联系，但这也正是有趣的地方。”

从东京大学的博士到微软亚洲研究院实习生、从日本东京到北京的希格玛大厦、从电气工程学专业到以物理学为基础的计算机视觉和视频分析与合成。事实上，这种“毫无关系”所带来的惊喜与巧合也贯穿于松下康之的经历之中。于是，松下康之给记者讲述了一个充满偶然与必然、选择与坚持的故事。言语间，流露出日本文化的严谨、美国式的活泼和与在微软亚洲研究院的中国研究员一样的亲切与随和。

邂逅未来

微软亚洲研究院院长洪小文曾说过：“创新更多的是意外”。而松下康之与微软亚洲研究院的缘分，正是充满着这种“必然的意外”。

在东京大学读书的时候，松下康之本科、硕士、博士的专业方向都是电气工程。那时，松下康之已经研究了智能交通系统。“但是，我意识到自己想做一些更加基础的研究，并且希望可以把这些研究应用到不同的事情上。”在博士毕业前两年，松下康之就发现了自己对计算机视觉领域的浓厚兴趣。而电气工程与计算机科学联系紧密，计算机系统结构和软件都有学习，所以对于松下康之来说，从电气工程转到计算机视觉并不是一个很大的跨越。

2002年，当时松下康之还在读博，在一次国际性的计算机视觉大会上，他见到了时任微软亚洲研究院副院长的沈向洋，“我之前就认识他，还知道他在计算机视觉领域非常有名。我希望能有机会与他一起工作，学到更多东西。”于是，松下康之向沈向洋毛遂自荐，“意外地”成了一名微软亚洲研究院的实习生，经过4个月的实习生活之后，松下康之发现自己已经喜欢上了这里的研究环境和生活，就这样，在微软亚洲研究院的工作开始了。

如何用科技来解决实际问题，从而改变更多人的生活，一直是微软亚洲研究院的初衷。生活也不断地给松下康之带来灵感和意外的收获。

其中，“满帧视频稳定技术”的“诞生”就源于松下康之的婚礼――用手持的摄像机拍摄的婚礼画面是摇晃的，看起来很不舒服，新婚妻子对婚礼录像效果很不满意，松下康之就想通过研究解决视频颤抖的问题。“现有的数字影像镶嵌技术可以对画面进行稳定性处理，但如果物体移动，这种在场景固定的情况下才能实现的方法就不可行了。而通过‘满帧视频稳定技术’，丢失掉的像素被自然的补充上了。”同理，还可以去除覆盖在视频上的文字、镜头上的污点，来补上丢失的像素。

科技的光影魔术

“视频分析在不久的将来将变得更加重要，因为图像和视频的界限已经越来越模糊，我相信最后一切都将变成视频。”松下康之对记者说。

微软亚洲研究院的计算机视觉包括：高层视觉(如人脸识别技术)和低层视觉(如光度学，即研究光线与物体的相互作用)，松下康之的研究方向属于后者。

“光度学也非常重要，因为如果我们不明白‘低层’上发生了什么，就无法在‘高层视觉’研究上取得突破，所以‘低层视觉’研究是非常基础的。如果“低层视觉”发展了，那么“高层视觉”也会随之发展。”

虽然是“肉眼”难以察觉的变化，但是松下康之却给记者描述了光度学形象的应用――3D复原和现实物体数字化。而要实现上面的两项应用，很明显需要比普通人更特别的“视力”。

“计算机视觉里有一个传统的方法，叫多视角立体视觉法(multi－view stereo)，通过不同视角拍摄的图片我们可以重现3D，但不能做细节的重现；还有另一种方法，叫立体光学法(photometric stereo)，摄像机和物体都是固定的，但是光线是变化的，如果移动光源就可以得到物体的不同观察值，通过观察值可以得到表面方向(surface orientation)。”

前者可以得到整体的形状，但却无法得到细节，而后者不能给你整体的形状，因为它只能给你表面方向。如何把两个技术的优点结合起来得到最真实的3D图像呢?

“我们考虑如果把一个持续光源固定在摄像机上，这样我们就可以同时移动光源和摄像机。”于是，松下康之和他来自东京大学的实习生一起做出了看起来与普通家用数码产品没有太大差别的“3D摄像机”。“这个3D摄像机的相关的配件在市场上很容易就能买到，手持永远是简单的，人们不会想要拿着一个庞然大物。”松下康之向记者介绍研发背后的原因。

文化熔炉

作为美国电气电子工程师协会2009年计算机视觉与模式识别国际会议(CVPR)和2009年计算机视觉国际会议(ICCV)的区域主席、著名期刊International Journal of Computer Vision(IJCV)和Computer Vision Applications(CVA)的编委，松下康之坦言，微软亚洲研究院对研究员在专业领域的自由交流的支持，使得研究员对自己的研究领域“看得更远、更透彻”。

“通过这些职务，我对研究方向有了更高的认识，这种视野能够帮助我决定今后什么样的研究更有价值。此外，我能够认识计算机视觉界的很多人，这是另一个收获。”松下康之笑着说。

篇2

关键词：机器学习；模式识别；计算机视觉；机场管制；民航安全

引言

安全管理是我们民用航空管理中的一个非常重要的问题，一直以来都受到整个行业的高度重视。机器学习作为人工智能技术的分支，已经在短短的几年时间内渗透到我们身边的各行各业，为之提供了大量的便利并极大的节省了人力及物力资源。由此我们推测，将机器学习及其相关技术应用到民航安全管理体系中，也将起到卓越的成效。本文便是对机器学习在民航安全管理的应用领域进行探索和分析。

1 机器学习介绍

1.1 定义

利用计算机对给定的数据进行分析并从中获取规律是机器学习的首要研究目标，这些数据我们称作观测样本，所学习到的规律我们称之为模型。通过这些规律模型，可以对未来将要出现的数据进行预测。

图1即机器学习的简单示例。机器学习的第一步即是选择一个规律模型，定义为决策函数f（x，？兹），该函数中的参数？兹并不确定。第二步则是通过机器学习的算法寻找出一个最适合的参数？兹？鄢，这个过程叫做训练过程。经过以上两个步骤，我们就可以使用f（x，？兹）模型对输入的x进行结果预测。

1.2 应用场景

我们所描述的机器学习，不仅仅是针对一些已经经过结构化处理的信息，还应当包含图像、音频在内的数字化数据。从范围上讲，它类似于模式识别、统计学习、数据挖掘，正是由于机器学习与这些不同领域的结合，从而形成了它在计算机视觉、自然语言处理、语音识别这些交叉学科中的研究优势。

2 民航安全管理

2.1 安全管理系统简介

民用航空中比较传统的思想认为没有危险就表示安全，然而现代的安全管理思想并不这样认为。现代的安全管理思想把安全当做一种状态，同时也是识别危险和管理风险的一个过程。由此可见，我们的安全管理系统（safety management system简称：SMS）必须是一个完整的、正规的、自顶向下的和有条不紊的综合安全管理系统。

2.2 我国的民航安全管理系统现状

分阶段发展的策略是在改革开放以来我国的民航业实施的总方针[1]，并且已取得显著成效：第一阶段，通过逐渐放松进入市场的时机，让民航走上企业化发展的道路；第二阶段，在民航业内部实施全面的制度改革，为进入市场化进行机制创造条件，同时大步跨入市场化经营时期；第三阶段，抓紧时机进行民航的行业重组，这一项改革已经取得了重大突破。虽然分阶段的策略成绩斐然，然而就目前来看，我国民航业的安全管理信息化进程依旧相对落后。

3 机器学习在安全管理体系中的应用

3.1 模式识别与机场管制

模式识别是工业业界提出的概念，而机器学习主要来自于计算机学术领域，在本质上二者没有区别。机场管制也称航空管制，航空流控航路流控等，指的是由于起降航班班次集中，飞机按关门先后顺序排队起飞，或者由于天气、军事、目的地机场问题等原因，塔台对飞机起飞时间进行管制。机场管制的目的是保证航空安全，以及保障飞机的飞行秩序。

通过机器学习的模式识别技术，安全管理系统可以对机场终端区域的所有飞行器进行实时监控，分析处理一次雷达、二次雷达及自动相关监视系统（ADS-B）等监视设备传回的包括飞行器高度、位置、运行状态以及气象信息在内的各种大规模数据，并在异常情况出现时，或者在异常情况即将出现之前（取决于机器学习算法的数据预测功能），向塔台管制员提供预警服务，避免各种特情的发生。

3.2 计算机视觉与机场安全

人脸识别[2]是计算机视觉领域的一个非常重要的研究方向。传统的人脸识别技术在实际应用中已经非常广泛，但是从性能的角度来看，依然存在诸多问题，最重要的是，从安全的角度考虑亦存在诸多漏洞。现在已经证明出现的针对传统人脸识别的黑客技术，已经屡见不鲜。而通过机器学习改进后的人脸识别技术[3]，不仅可以解决安全问题，并且十分有利于人脸识别精度的改善和人脸识别速度的提高。将优化后的人脸识别系统应用到机场的安检流程中，可以大大提高安检人员的工作效率，同样降低人工工作的强度。

同样的，计算机视觉及图像处理技术还可应用于机场场面安全管理。比如，随着通用航空的发展，无人机的数量快速增加，由于其制造成本低操作简单等特性，越来越多的单位和个人开始使用无人机从事私人的业务。这些没有规范管理的无人机，在缺乏地空空域管理的情况下，很容易就能够飞行进入机场的管制区，形成巨大的安全隐患。利用计算机视觉进行远距离摄像实时监控，有望很好的解决这个安全问题。

3.3 其他应用领域

除此之外，机器学习的各种算法模型，包括贝叶斯模型（Bayesian）、人工神经网络（Artificial Neural Networks）、深度学习（Deep Learning）、组合方法（Ensemble Methods）、回归（Regression）等等，均可根据各自的特性，应用于民航安全系统：数据预测特性可以应用于航空气象数据的分析与预测中，用以提前为管制人员提供尽可能准确的气象预报数据；语音识别及文本分析特性，可以应用于管制员与飞行员的陆空通话过程中，不仅可以监控陆空通话的内容，同时可以对参与人员的疲劳程度进行研判；大规模数据中的异常数据监测，可以应用行器设备及地面设备的维修与保障中。

4 结束语

近年来，以机器学习技术推动的人工智能已渗透到几乎所有的工业领域。而机器学习的应用场景，也就是它的应用领域，也恰好与我们信息化安全建设的方方面面都有诸多重合。对于我们民航，确切的说，对于我们民航的安全管理系统，尽早引入并应用机器学习相关技术，将会极大的改善系统的工作效率并提高安全保障的成效。

参考文献

[1]李洋.我国民航安全管理系统研究[D].中国海洋大学，2013.

篇3

关键词：印制电路板；图像处理；机器视觉；PCB裸板；自动光学检测；缺陷检测文献标识码：A

中图分类号：TP391 文章编号：1009-2374（2016）09-0010-05 DOI：10.13535/ki.11-4406/n.2016.09.005

我国是全球第一大PCB生产基地，作为电子产品承载体的电路板，其集成度和产量不断在提高。为了保证电子产品的性能，电路板缺陷检测技术已经成为电子行业中非常关键的技术。建立在图像处理算法基础上的机器视觉检测技术与传统的人工检测技术相比，提高了缺陷检测的效率和准确度。因此，设计一种高效精准的机器视觉检测电路板缺陷的系统，具有非常重要的现实意义。评估印刷电路板质量的一个重要因素就是表观检测，PCB的表观质量对产品性能及成品使用安全有着极大的重要性。而伴随着近年来在工业生产领域崛起的计算机视觉，当前表观缺陷检测和分类识别的研究方向已经转向了利用计算机视觉技术来实现。计算机图像处理识别技术这种基于计算机视觉的检测技术成功取代了传统的PCB缺陷检测方法，在自动光学检测系统众多应用中占据了相对重要的地位，一跃成为PCB生产业表观缺陷的主要检测方法。

图1 系统框图

因此本文通过设计AOI自动光学检测系统，搭建较为简单的PCB缺陷自动检测系统的实验平台，对PCB中四类较为关键、常见的缺陷进行检测、分析、识别、判定，为研究推广PCB缺陷自动检测系统开拓应用前景，如能实现工业上的产业化检测，将有高额的经济收益。本文侧重对PCB中的四类较为关键、常见的缺陷进行检测、分析、识别、判定，并且仅搭建了较为简单的PCB缺陷自动检测系统的实验平台，即通过复杂算法对采集到的图像进行处理、配准、对比，从而得出PCB缺陷类型及对其进行标识。如图1所示。

1 硬件设计方案

PCB缺陷检测的总体系统设计方案主要是基于自动光学检测技术来搭建PCB缺陷检测系统，硬件设计是使用CNC-T程控光源高精度影像测试系统操作台，对待测电路板进行图像采集，再通过VS2010软件所编写程序处理，得出待测电路板的缺陷种类。整个系统主要分为运动控制、光源、图像采集、图像处理四个模块，分模块简要阐述了实验过程、所需设备以及软件算法，搭建了一个相对完整的系统工作平台。

图2 CNC-T程控光源影像操作台

该设备具有测量元素种类齐全、手动测量、自动对焦等多种功能，使用该设备采集图像进行二维检测，测量软体为YR-CNC，将图像储存至电脑后便由VS软件进行图像处理。实验组成如图3所示：

图3 实验系统框图

1.1 运动控制模块

本系统运动流程为：被检测的PCB在检测台上，通过步进电机XY轴运动到摄像机拍摄区域，CCD摄像机固定在工作台上方（Z轴），通过Z轴的运动实现聚焦。如图4所示：

图4 平台运动示意图

设备工作台台面尺寸为746mm×506mm，承载玻璃面尺寸为452mm×354mm，有效测量行程为400×300×200。本装置既可通过软件驱动自动采集图像，也可以通过手动控制，移动并聚焦采集待测PCB的图像。

1.2 光源模块

辅助光照――采用的是正向和背向光源这两种辅助光照。其中正光源和摄像头同侧，均位于Z轴上，正光源主要用于检测待测物体的表面特征。背光源位于检测台面下方，与正光源处于同轴反向关系，背光源能突出待测物体的轮廓特征，常用于检测物体轮廓尺寸。

图像采集：分别利用正光源突出PCB表面如走线、过孔和焊盘等主要特征，而下光源主要使PCB的轮廓尺寸和过孔产生强烈的轮廓对比。

光源：使用的是高度集中照明光源中心的LDR系列，由于该光源的伞状结构紧密排列着LED且采用了CCS独创的柔性板，使之成为LED照明系统的标准模式。照明系统如图5所示：

图5 照明系统

1.3 图像采集模块

图像采集模块是由图像采集卡、相机和镜头组成的，该模块是图像配准阶段的硬件基础。计算机采集图像的媒介就是相机，而相机按照不同原理又分为多种，常见的有CCD（Charge Coupled Device）和CMOS（Complementary Metal Oxide Semiconductor）两类。本系统采用的是CCD 1/2英寸43万像素彩色摄像头和高清晰度0.7～4.5X变焦倍率镜头，显示分辨率为0.001mm。

1.4 图像处理模块

通常获得的图像将受到工业现场环境、光照等条件的干扰，计算机所获得的图像质量多数参差不齐，图像的清晰度不一致，大大增加了PCB缺陷检测的难度，所以在利用复杂算法检测、识别PCB缺陷前要先对图像进行预处理。

本图像处理模块主要通过VS软件在OpenCV计算机视觉库的基础上，通过一系列算法对图像进行处理对比。

2 系统软件设计

2.1 OpenCV

OpenCV（Open Source Computer Vision Library）是一个跨平台的可以运行在Linux、Windows和Mac OS操作系统上的基于（开源）发行的计算机视觉库。它重量轻而高效，开放了多种接口如MATLAB、Ruby和Python等，并且在计算机视觉和图像处理中大多数通用的算法都是被允许的。OpenCV可用于开发实时图像处理、计算机视觉和模式识别方案，它提供了多种函数，实现了大量的计算机视觉算法，算法涵盖了从最基础的滤波至以高级的物体检测。OpenCV实际上是一堆C和C++语言源代码文件，许多常见的计算机视觉算法由这些源代码文件实现。如C接口函数cvCanny（）实现Canny边缘检测算法。它可直接加入到我们自己的软件项目编程中，而无需去编写自己的Canny算子代码，就是没有必要重复“造轮子”。

根据OpenCV中源代码文件巨多的特点，以算法的功能为基准，将这些源文件分到多个模块中，如core、imgproc、highgui等。将每个模块中的源文件编译成一个库文件（如opencv_core.lib、opencv_imgproc.lib、opencv_highgui.lib等），用户在使用时，仅需在自己的项目中添加要用的库文件，与自己的源文件一起连接成可执行程序即可。

OpenCV计算机视觉库的出现，是为了使人们利用方便快捷的计算机视觉框架，在计算机视觉领域可以更加轻松地设计出更为复杂的应用程序。OpenCV涵盖了多种计算机视觉应用区域，如用户界面、信息安全、医学影像学、工厂产品检验、立体视觉、机器人和摄像机标定等，约有500多个函数。因为计算机视觉与机器学习是相辅相成的，所以OpenCV也开放了MLL（Machine Learning Library）机器学习库。MLL除了在视觉任务相关中使用，也可以很容易地应用到其他机器学习中。

2.2 Microsoft Visual Studio2010

Visual Studio是微软公司推出的开发环境，是同行业中目前最流行的Windows平台应用程序开发环境。Visual Studio 2010于2010年4月12日，其集成开发环境（IDE）已被重新设计和组织，变得更简单了。

Visual Studio 2010同时带来了NET Framework 4.0、Microsoft Visual Studio 2010 CTP（Community Technology Preview――CTP），并且支持开发面向Windows 7的应用程序。除了Microsoft SQL Server外，它还支持IBM DB2和Oracle数据库。目前有专业版、高级版、旗舰版、学习版和测试版五个版本。Visual Studio的用处十分广泛，不仅可被用来基于Windows平台创建Windows应用程序和Web应用程序，还可被用来创建智能设备、Office插件和Web服务等应用程序。微软的Visual Studio 2010将成为一个版本的经典，这是相当于6.0版本。该版本可以自定义开始页，新功能还包括：（1）C# 4.0中的动态类型和动态编程；（2）多显示器支持；（3）使用Visual Studio 2010的特性支持TDD；（4）支持Office；（5）Quick Search特性；（6）C++ 0x新特性；（7）IDE增强；（8）使用Visual C++ 2010创建Ribbon界面；（9）新增基于.NET平台的语言F#。本课题将基于OpenCV计算机视觉库使用Microsoft Visual Studio2010开发环境，通过编辑算法实现PCB缺陷检测。

3 图像预处理

要使用计算机对图像进行处理，所得到的连续图像就必须被转换为离散的数据集，这是因为计算机只能处理离散度数据，这一过程我们称之为图像采集。图像采集由图像采集系统实现，如图6所示。图像采集系统的三个主要模块是成像系统、采样系统和量化器。

图6

将整理出的字符图像交予识别模块来识别，被称为图像的预处理。PCB的图像预处理包括灰度化、增强、滤波、二值化、配准等，处理后的PCB输出的图像质量将得到改善，在很大程度上使得该图像特征更直观，方便计算机分析和处理。PCB的图像预处理为整个PCB缺陷检测系统的核心部件，很大程度上决定了检测的准确性。图像预处理流程如图7所示：

图7 图像预处理流程图

4 PCB缺陷检测

本文针对四种常见缺陷：断路、短路、毛刺（凸起）、缺损（凹陷）进行检测研究。在这四种缺陷中，最为严重的缺陷类型是断路和短路，它们将会使整块板子失去本来的功能；而凸起、凹陷也可能影响到PCB在使用过程中的稳定性能。如图8所示为几种常见的缺陷：

图8 常见电路板缺陷

4.1 PCB缺陷的检测方法

常用的PCB缺陷检测方法有参考法和非参考法两种。要是从概念理解和电路难易程度看，参考法明显更加具有概念直观、电路简单的优势；要是从检测所需要的条件来看，非参考法则在不需要待测PCB与标准PCB进行准确对准这一点上优于参考法。

本课题采用参考法进行PCB缺陷检测。

使用参考法对PCB缺陷进行检测的流程为：（1）确定标准的PCB图像并放入参考库；（2）通过成像设备采集待测PCB图像，进行图像预处理之后，再二值化PCB待测图像，并对其进行连通域提取；（3）然后将处理结果与标准图像进行对比，利用图像相减来判断PCB可能存在的缺陷；（4）进行分类，确定缺陷类型。

4.2 图像连通域

像素是图像中最小的单位，每个像素周围有8个邻接像素，常见的邻接关系有两种：4邻接与8邻接。4邻接一共4个点，即上下左右。包括对角线位置的点，8邻接的点一共有8个，如图9所示：

图9 领域示图

如果像素点A与B邻接，我们称A与B连通，即有如下的结论：

如果A与B连通、B与C连通，则A与C连通。在视觉上看来，点与点相互连通，形成一个区域，而不是连通的点形成不同的区域。这种相互立体的所有的点，我们称为连通区域。连通区域标记常用的方法有Two-Pass（两遍扫描法）和Seed Filling（种子填充法）两种方法，本课题主要介绍第二种。

Seed Filling来源于计算机图形学，通常应用在填充图形上。思路：以一个前景像素当作种子，而后在处于同一像素值且位置相邻的连通区域，把和种子相邻的前景像素融合到同一组像素中，结果将是获得一个像素集，即连通区域。接下来介绍使用种子填充法实现的连通区域分析法：

第一，重复扫描图像，当得到当前像素点B（x，y）=1时停止：（1）赋予B（x，y）一个label，并将像素位置作为种子，接着将所有位于该种子周围的前景像素都压入栈中；（2）将栈顶像素赋以相同的label值并弹出，接着将全部位于栈顶像素周边的前景像素都压入栈中；（3）重复（2）步骤，直到栈为空。此时，图像B中的一个像素值被标记为label的连通区域便被找到了。

第二，在扫描结束前，重复第一个步骤，由此可以获得图像B中所有的连通区域在扫描结束后。

扫描所得的连通域如图10所示：

图10 图像连通域提取

4.3 缺陷识别

缺陷识别具体特征如表1所示：

表1 缺陷特征

缺陷种类二值图像面积连通区域数

断路减少增加

短路增加减少

凸起增加不变

凹陷减少不变

第一，短路和断路。在出现短路缺陷时，待测图像与标准图像相比，其所包含的连通区域数将会减少。同理可得，在出现断路缺陷时，待测图像与标准图像相比，其所包含的连通区域数将会增多。因此，断路和短路缺陷便可利用比较连通区域数来判定和识别。

第二，凸起和凹陷。凸起缺陷将导致导线和导线、导线和其他导体间的间隙变小，而凹陷缺陷将导致导线和导线、导线和其他导体间的间隙变大，二者均会导致PCB使用过程中出现不稳定状态。而观察可知，这两种缺陷的连通区域相同，差别在于各自二值化面积的大小，所以可以通过计算该待测图像的连通区域面积来识别凸起、凹陷缺陷。

识别过程：将经过图像预处理的待测PCB图像与标准图像进行对比后，通过算法找出缺陷。比较二者的连通区域数，若前者大于后者，则标定该缺陷点为断路，反之则为短路；若二者连通区域数相同，则比较二值化图像面积，若前者大于后者，则标定该缺陷点为凸起，反之则为凹陷。检测流程如图11所示：

图11 PCB缺陷检测流程图

5 系统实验

本文使用CNC-T程控光源高精度影像测试系统操作台，结合VS2010软件基于OpenCV计算机视觉库的算法编程来实现PCB的缺陷检测。整体实验过程为：手动控制操作台捕捉、聚焦、采集待测PCB的图像，采集到的图像与标准图像进行对比、识别，得出缺陷种类并显示结果。

本课题一共就所研究缺陷类型，做了40组实验，通过实验结果计算正确率。如表2所示：

表2 实验结果统计

缺陷类型实验次数正确率

断路 10 100%

短路 10 100%

凸起 10 100%

凹陷 10 100%

针对不同电路板图中出现的同种断路类型进行检测，效果如图12a、图12b、图12c所示，可准确检测出缺陷存在。

图12

针对不同电路板图中出现的同种短路类型进行检测，效果如图13a、图13b、图13c所示，可准确检测出缺陷存在。

图13

针对不同电路板图中出现的同种凸起类型进行检测，效果如图14a、图14b、图14c所示，可准确检测出缺陷存在。

图14

针对不同电路板图中出现的同种凹陷类型进行检测，效果如图15a、图15b、图15c所示，可准确检测出缺陷存在。

图15

6 结语

PCB板面向体积越来越小、密度越来越高的方向发展。在检测产品价格方面，国外AOI检测产品价格普遍偏高，而由于经济原因，在国内PCB板生产制造商多数仍采用人工目测等传统检测方法检测。随着经济的发展，数字图像处理研究的深入，自动光学检测系统也开始频繁活跃在人们视线中，但在PCB缺陷检测方面的应用却还有待完善。因此，本论文建立在深入掌握工控系统结构并从PCB板的质量标准、图像特点、缺陷特征及检测要求的分析基础上，对以图像处理为基础的PCB缺陷检测技术进行了深入研究。由于PCB缺陷自动检测系统的研究涉及多个领域的知识，其研究过程十分耗时、繁琐，由此，本论文仅仅对PCB缺陷检测中较为常见的问题进行了较深入研究，并且仅搭建了较为简单的PCB缺陷自动检测系统的实验平台，对PCB中的四类较为关键、常见的缺陷进行检测、分析、识别、判定。虽然还未实现真正实现工业上产业化检测，但是在未来几十年中，研究推广的PCB缺陷自动检测系统将有十分良好的应用前景，也将有高额的经济收益。

参考文献

[1] 陈胜勇，刘盛，等.基于OpenCV的计算机视觉技术实现[M].北京：科学出版社，2008.

[2] Gary Bradski，Adrian Kaebler，于仕琪，等.学习OpenCV[M].北京：清华大学出版社，2009.

[3] 周长发.精通Visual C++图像处理编程（第3版）

[M].北京：电子工业出版社，2006.

[4] 党振.中国大陆PCB产业的现状与未来[J].印制电路信息，2006，32（1）.

[5] 胡跃明，谭颖.自动光学检测在中国的应用现状和发展[J].微计算机信息，2006，（4）.

[6] 李汉，何星，等.印刷电路板的自动光学检测系统

[J].无损检测，2004，26（6）.

[7] 张利，高永英，等.PCB板检测中的定位研究[J].中国图像图形学，1999，4（8）.

[8] 姚立新，张武学，等.AOI系统在PCB中的应用[J].电子工业专用备，2004，（5）.

[9] 范小涛，夏雨人.一种基于图像处理的PCB检测算法研究[J].计算机工程与应用，2004，（13）.

[10] 傅莉.印制电路板的发展及前景[J].电脑与电信，2010，（5）.

[11] 张明轩.基于视频序列的人脸检测与跟踪算法研究[D].中北大学，2011.

[12] 张驰.基于机器视觉的智能控制与图像识别问题研究[D].兰州理工大学，2009.

[13] 谢飞.基于计算机视觉的自动光学检测关键技术与应用研究[D].南京大学，2013.

[14] 张静.PCB表观缺陷的自动光学检测理论与技术

[D].电子科技大学，2013.

[15] 俞玮.AOI技术在PCB缺陷检测中的应用研究[D].电子科技大学，2007.

篇4

在用常见的手势进行交流时，人们很容易就能互相理解，在经过学习之后，聋哑人或是正常人都可以运用手语进行交流。不过，想象一下，当你对计算机(或机器)做一个手势，它就能领会你的意图会是怎样的情景呢?如果计算机(或机器)看得懂手语，又意味着什么呢?姑且不管实现这样的人机交流有何深远的意义，还是先让我们来探究一下这样的可行性吧，想想看得懂手语的计算机(或机器)能有什么用途。

人机交互：从呆板到员活

人类之间的交流往往声情并茂，既采用自然语言(口语、书面语言)，还广泛采用人体语言(表情、体势、手势)。与人类之间的交流相比，人机交互就显得呆板多了。以计算机的输入方式为例，人要向计算机下达指令，最常见的方式还是通过键盘输入。当然，手写输入也正为许多人所接受和喜爱，语音输入的研究也进行得热火朝天，最初单一而呆板的输入方式已经得到了扩展。然而，科学研究是永无止境的，人体语言这种简单快捷的信息交流方式得到了很多研究者的关注，他们想，能不能把这种灵活的信息交流方式也引进人机交互中呢?

于是研究人员展开了对人体语言理解的研究。人体语言的感知、人体语言与自然语言的信息融合对提高计算机的人类语言理解水平，加强人机接口的可实用性有着积极的意义。手语(手势)是人体语言的一个非常重要的组成部分，它是包含信息量最多的一种人体语言，它与语言、书面语等自然语言的表达能力相同。因而完全可以把手语作为人机交互的一种手段，它具有很强的视觉效果，生动、形象、直观。可见，将手势运用于计算机能够很好地改善人机交互的效率。

计算机怎样识别手势?

从不同的角度可以对手势进行不同的分类。分为交互性手势和操作性手势，前者手的运动表示特定的信息(如乐队指挥)，靠视觉来感知，后者不表达任何信息(如弹琴)；分为自主性手势和非自主性手势，后者需要与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息)，分为离心手势和向心手势，前者直接针对说话人，有明确的交流意图，后者只是反应说话人的情绪和内心的愿望。

手势的各种组合、运动相当复杂，不过简单来看，手势主要有如下的特点：手是弹性物体，因此同一手势之间差别很大，手有大量冗余信息，由于人识别手势关键是识别手指特征，因此手掌特征是冗余的信息：手的位置是在三维空间，很难定位：手的表面是，非平滑的，容易产生阴影。

了解了手势的这些特点，就可以在手势研究中对手势做适当的分割、假设和约束。例如，可以给出如下约束：如果整个手处于运动状态，那么手指的运动和状态就不重要，如果手势主要由各手指之间的相对运动构成，那么手就应该处于静止状态。比如鼠标和笔式交互设备就是通过识别手的整体运动来完成人与计算机的交互，但它们不能识别手指的动作，其优点是仅利用软件算法就能实现，适合于一般桌面系统。只有当用鼠标或笔式交互设备的运动或方向变化来传达信息时，才可将鼠标或笔式交互设备看作手势表达工具。笔式交互设备发展很快，它提供了充分的交互信息，如压力、方向、旋转和位置信息，但现有交互主要是简单地替代鼠标。

计算机识别手势的手段主要有两种：

1．数据手套。数据手套是虚拟现实系统中广泛使用的传感设备，用户通过数据手套，能做出各种手势向系统发出命令，与虚拟世界进行各种交互操作：比如通过一只与数据手套对应的在计算机屏幕上显示的虚拟手，使用户成为虚拟世界中的一员：抓取物体，如果手套有力反馈，还能让用户感觉到物体的重量和材质等。美国在“洞穴”虚拟系统中就是利用数据手套来研制武器。数据手套的主要优点是可以测定手指的姿势和手势，但是相对而言代价较为昂贵，并且有时会给用户带来不便(如出汗)。

2．计算机视觉。即利用摄像机输人手势，其优点是不干扰用户，这是一种很有前途的技术，目前有许多研究者致力于此项工作。但在技术上存在很多困难，目前的计算机视觉技术还难以胜任手势识别和理解的任务。

目前较为实用的手势识别是基于数据手套的，因为数据手套不仅可以输入包括三维空间运动在内的较为全面的手势信息，而且比基于计算机视觉的手势在技术上要容易得多。

更好地为人服务

日本三菱电子研究实验室的研究人员已经使用低成本的视觉系统，通过手势就可以控制一台电视机。由计算机控制的美国航空航天局虚拟太空站也是采用美国Cybernet公司开发的手语识别软件，通过一部架设在顶部的摄像机来追踪指挥者的手势。当系统捕捉到挥手等手势时，就会做出相应的反应，让指挥者像航天员一样在计算机虚拟的阿尔法国际太空站上移动(确切地说是飘动)。

Cybemet公司的软件还能识别一系列的特定手势，就像工地上的工人或交通警察经常用的那种手语，通过这些手势你能够旋转在虚拟旅行中看到的三维图像，还可以向上或是向下改变你的视角。美国航空航天局正在考虑把这套系统用于真正的太空站，因为笨重的航天服和微重力环境使得鼠标和键盘都变得难以操纵。也许不久之后，航天员就能用简单的手语来控制机器人在太空中抓取物体。

手语(手势)识别系统的研究还有助于改善和提高聋哑人的生活学习和工作条件，为他们提供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外，手语识别系统的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此，手语识别系统的研究非常有意义。

篇5

关键词：SIFT；特征点匹配；图像配准

中图分类号：TP391.41

图像匹配是数字图像处理和计算机视觉中的重要组成部分，被应用到许多实际领域，如航空摄影测量、目标识别、三维系统重建等。由于受到天气、遮挡、光线等的影响会导致图像出现平移、缩放、旋转等情况，这些均会为图像匹配带来一定的难度。

1999年Lowe提出了一种局部特征算法[1]，此算法以尺度空间极值作为图像的特征对图像进行匹配处理，但该算法提取的SIFT特征点数量大，匹配时间较长，针对这些结合Harris角点检测算法对SIFT算法进行改进，研究该方法在图像匹配中的对匹配速率的影响。

1 SIFT算法

SIFT算法是一种基于尺度空间的局部特征描述算子，其对于图像缩放、旋转，仿射变换能够保持不变性，2004年由David G.Lowe[2]总结提出。在某些情况下，对于任何视角拍摄的图像也能够保持较稳定的配准力。

算法步骤：（1）不同的尺度空间生成和尺度空间极值检测。（2）去除边缘点和不稳定极值点。（3）特征点主方向确定。（4）生成SIFT特征描述符。

图像金字塔的构建[3]如图1，利用尺度因子的高斯核对图像进行卷积，获得图像的不同尺度空间，作为金字塔图像的第1层；将该层2倍的尺度图像，作为金字塔图像第2层的第1幅图像，并对第2层第1幅图像采用不同尺度因子的高斯核进行卷积，从而得到金字塔图像第2层其他图像。重复以上步骤，即可得到高斯金字塔图像。每层相邻高斯图像相减，即可获得DoG图像[4]。

因为SIFT算法可扩展性好，能够与其他形式的特征向量较容易联合，因此，本文试图利用此特性改变SIFT算法的在应用中效用，并运用仿真实验进行验证。

2 Harris算法

1988年C.Harris和J.Stephens共同研究提出的，它是以Moravec算子为基础。利用泰勒级数展开思路，Moravec算子衍生到Harris算子，可用图直观表示，计算不止水平、垂直、对角线方向的灰度变化，而且可以计算任意方向的灰度变化，进而利用数学公式来确定特征点。

3 本文算法思路及实验

本算法主要是针对SIFT特征提取过程中，金字塔的构建占用了整个SIFT特征提取时间大半以上的问题，采用阶层合理约束的方法来获得特征点数目和时间消耗的折中。然后结合Harris角点检测方法进行SIFT特征点数目控制的策略，减少匹配计算量，进而提高配准的效率。

分别采用传统SIFT算法和本文改进算法进行实验。原始图像数据如图2。

4 结束语

本文讲述了SIFT特征检测算法、Harris角点检测算法，通过改变SIFT特征点检测中金字塔图像的不放大2倍的方法，减少特征点提取的耗时，结合Harris角点检测减少待匹配特征点数量，提高图像匹配的速率，实验结果显示，针对平移和微小视角变化的图像匹配速率有所提高，但是对于图像的配准率有微小的降低，这点有待进一步的研究。

参考文献：

[1]陈志雄.基于图像配准的SIFT算法研究与实现[J].计算机应用技术，2008（05）.

[2]David G.Lowe”Distinctive image features from scale-invariant key points”，International Journal of Computer Vision，2004，91-110.

[3]邱建国，张建国，李凯.基于Harris与SIFT算法的图像匹配算法[J].测试技术学报，2009（03）：271-274.

[4]杨占龙.基于特征点的图像配准与拼接技术研究[J].电路与系统，2008（04）.

篇6

【关键词】人脸识别视频 JavaCV

1 引言

人脸识别技术是基于人的脸部特征，对输入的人脸图像或者视频流。首先判断其是否存在人脸，如果存在人脸，则进一步给出每个脸的位置、大小和各个主要面部器官的位置信息。并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份。

JavaCV 是一款开源的视觉处理库，基于GPLv2协议。JavaCV是对各种常用计算机视觉库的封装后的一组jar包，其中封装了OpenCV、libdc1394、OpenKinect、videoInput和ARToolKitPlus等计算机视觉编程人员常用库的接口，可以通过其中的utility类方便的在包括Android在内的Java平台上调用这些接口。

2 视频人脸识别的实现原理

视频识别根据视频的长度截取期中若干帧图片，对每副图片进行人脸识别、预处理、图片学习。用目标人脸图片跟视频中的人脸进行比对，找到目标人物。

人脸识别主要采用主成分分析（PCA）方法，将人脸图像区域处理成一种随机向量，利用K-L变换得到正交变换基，对应较大特征值的基底具有与人脸相似的形状。利用基底的线性组合来实现人脸图像的特征提取和特征选择。

将视频中每N张人脸进行预处理和特征值计算，通过变换矩阵，投射到子空间，实现数据降维；学习文件输出。再将目标图片进行预处理后和学习文件进行对比，选出均方差之和最小的一个计算置信度，置信度高于判决门限则认定找到，返回原图片和出现时间，否则认为找不到。

3 视频人脸识别的实现过程

3.1 图片预处理

程序首先对目标图片中的人脸进行识别，如果存在多个人脸，保留最大的那个。截取到人脸后，对该图片进行灰度化处理，将其大小调整成150*150，然后对图片进行高斯平滑处理。

// 设置源图像ROI

// 创建目标图像，单通道8位

3.2 视频加载

用户选择一个视频文件，然后设置3个参数：

（1）视频识别间隔：该参数用来决定多少毫秒对视频进行一次采样。

（2）置信度：该参数在0-1.0之间，如果该值设置的比较低，误识率会比较高。如果值比较大，某些匹配的结果会被丢弃。

（3）人脸尺寸：视频中小于该尺寸的脸将被忽略，不进行比对。

3.3 视频识别

如图1所示，从视频开始的位置，每隔指定时间取一张视频截图，对这张图进行人脸识别，截出每个人脸，对人脸进行灰度化、统一大小、高斯平滑等预处理。每到100个人脸进行一次学习和特征值计算，将处理后的目标图片跟学习文件进行比对，找出置信度大于阈值的人脸，取最高置信度的人脸返回，作为备选图片显示在界面上，同时显示其在视频中出现的时间。如果没有大于阈值的人脸，继续从视频中截取下100张人脸，重复上述动作，直至视频扫描完毕。当找到了大于阈值的人脸后，用户可以选择继续在视频中寻找，或者停止寻找。

3.4 结果展示

如图2所示，用户可以查看识别的结果，即该人脸出现在视频中的原图和时间。如果有多个结果，用户可以使用按钮前后预览。

4 总结

本文介绍了一种基于JavaCV的视频人脸识别系统的设计与实现，重点介绍了视频识别的流程，展示了系统运行结果。

作者简介

王（1981-），女，硕士研究生学历。现为南京信息职业技术学院计算机与软件学院讲师。研究方向为数据交换。

篇7

关键词：图像融合；图像拼接

一、引言

图像拼接(Image Stitching)技术是由于摄像设备的视角限制，不可能一次拍出很大图片而产生的。图像拼接技术可以解决由于相机等成像仪器的视角和大小的局限，不可能一次拍出很大图片而产生的问题。它利用计算机进行自动匹配，合成一幅宽角度图片，因而在实际使用中具有很广泛的用途，同时对它的研究也推动了图像处理有关的算法研究。

图1 图像拼接流程图

图像拼接技术的基本流程如图1-1所示，首先获取待拼接的图像，然后是图像配准和图像融合，最终得到拼接图。图像拼接技术主要包括两个关键环节，即图像配准和图像融合。

图像配准主要指对参考图像和待拼接图像中的匹配信息进行提取，在提取出的信息后寻找图像间的变换模型，然后由待拼接图像经变换模型向参考图像进行对齐，变换后图像的坐标将不再是整数，这就涉及到重采样与插值的技术。图像拼接的成功与否主要是图像的配准。

篇8

3月17日，阿里巴巴宣布成立VR实验室，瞄准的是VR购物。同时，它会联合旗下的阿里影业、阿里音乐、优酷土豆，制作VR内容。而今年下半年，腾讯将基于PC端和移动端的两款VR头部显示器。

根据美国风险投资数据公司CB Insights的数据，2017年第一季度，AR/VR领域的投资项目超过80个，同比增长60%。报告还披露了Facebook和苹果分别为其A/VR工作招聘了一千多名员工。

所谓VR，就是通过计算机技术为用户模拟出逼近现实的虚拟环境。其沉浸式体验和交互方式带来的新的娱乐方式，吸引了从硬件技术到内容生产和分发的多个公司。除了阿里巴巴、腾讯、Facebook和苹果，HTC、三星、索尼等公司都在这个领域展开业务。

目前，这个行业的人才供应远低于需求。人力资源平台领英去年的一份针对全球范围内VR人才的报告显示，在领英的人才库里，有18%的人才需求来自VR行业，仅次于美国，但合适的VR人才只有2%。

熬过资本的冬天并存活下来的公司变得更加务实，而且开发了更多样化的应用场景―除了去年的影视、游戏产业，今年它们还进入到了医疗行业、制造业、零售业等新领域。

如果你对VR行业感兴趣或者看好它的前景，我们将告诉你这个领域正在找哪些人、薪水怎么样，以及怎样可以加入。

AVRO备的核心职位主要有3种

VR硬件的核心技术很复杂，涉及算法、光学、系统开发、交互、图形图像等多个领域，核心职位围绕的都是这些方向。它们也多是HTC、三星等硬件公司的VR业务范围。

算法工程师

这是VR领域最基础的职位。VR的功能是通过一副眼镜，让人既看到人眼看不到的东西，又能在虚拟空间中移动，还能对虚拟景象形成真实感，因此需要一套算法把这些感官上的功能都实现。通常，算法工程师关注的是如何解决某一类特定问题或实现某一特定功能。在VR领域，这一职位主要需要懂计算机视觉、空间定位、交互技术、图形图像等算法。

计算机视觉主要是指以摄像头代替人眼识别目标和提取特征，工程师需要探索最新的算法以及技术的可行性，负责视觉和图像的处理；空间定位指的是通过VR设备使用者能确定自己在空间中的位置，高精度的空间定位可以为用户带来更好的沉浸感并降低眩晕程度；接下来，交互算法工程师负责手势识别、视线估计、动作捕捉、追踪等相关计算机视觉算法的研发，研究实际空间中的动作如何延伸到虚拟空间中；然后是图形图像的处理，它要求在满足性能的前提下提高画质，用更快的速度和更少的资源去画像。

光学和人体工学工程师

光学要解决的是让VR设备的镜片在保证沉浸感和清晰度的同时，尽可能加大视场角，让人在佩戴VR设备时看得更清晰；人体工学关注的则是人在佩戴VR眼镜时的舒适度，设备是否透气、不漏光、足够轻盈等。目前消费级的VR产品在这方面仍处于初级阶段，如何让人更舒适持久地使用VR设备，是行业发展的瓶颈之一。系统架构师

与成熟的智能手机、智能手表的开发系统不同，VR的系统架构到目前为止并没有行业标准，面对陌生的领域，系统架构师需要驾驭和设计整个系统，负责VR头部显示器及整个主机设备的集成。

BVR产业链上的工作还有这些

要实现VR体验，只有一部VR硬件设备可不够，可以观看的内容、节目效果，以及应用场景的开发，这些需要硬件公司以外的公司参与，Facebook等公司涉及的主要是这部分内容。

3D引擎开发和3D美术

3D引擎开发人员主要负责VR场景的搭建―戴上VR眼镜后你看到的“新世界”，就是所谓的VR场景。市场上主流的开发引擎有两种，一种是可以快速开发的Unity3D引擎，一种是可以制作恢弘场景和细致光效的虚幻4引擎，这种引擎在游戏开发中常使用。

3D美术人员则需要制作3D美术素材，将素材置入场景后，再配合引擎程序员优化游戏的性能。

内容制作

你知道，无论电影还是游戏，当你想要通过VR眼镜获得这些娱乐的时候，它们除了像一般的电影和游戏产品那样需要脚本，还需要影视制作人员使用360度全景视频的拍摄技术去拍摄和剪辑，这是二者在内容制作方法上的不同之处。

销售运营、产品经理

不同于刚起步的人工智能，VR已经迈入产业化阶段，公司除了需要尖端技术人员，对市场销售、平台运营方面的人才同样有需求。要求与其他领域大同小异，都是负责开拓市场和客户，增加产品的销售范围等。因VR企业希望快速打开市场，销售人才目前高居中国VR领域人才需求的第二位，高于全球水平。

产品经理的职责也很共通，负责其他VR公司与本公司部门的配合，制定和推进合作项目，把控整体合作项目的时间，并对最终合作质量负责。

常规开发

和任何智能硬件一样，VR也需要内置一套系统，其中包括App Store一样的平台以及应用软件，这部分工作与传统互联网、手机行业的开发工作相似，即在实现VR设备的智能化的同时，保证软件在不同平台间能流畅交互。

C要进入这个行业，需要你有这些能力和资历

技术岗位硕博优先

VR行业的岗位主要指向三个方面：硬件、软件和内容制作。

硬件领域涉及到计算机、光学、电子、机械、生物学、自动化等方向。软件需要计算机图形学、程序设计、数据结构、操作系统、算法设计与分析等相关背景。这两个方面对工科背景的人才需求更大。VR内容包括游戏、影视等，需要3D美术、拍摄方面的学术背景。

由于VR产业相对细分，产业上游硬件、软件开发的岗位会以硕士、博士学历优先，因为硕士和博士在学术领域的研究方向更为明确，企业在筛选简历时更容易适配岗位。

“如果毕业论文方向是图形图像、计算机视觉，就会非常抢手，不仅是VR行业，在人工智能领域也会受到欢迎。”科锐国际高科技行业总监田丹说。

VR行业的核心技术岗位中，招人要求最高的是算法工程师，这也是最难招聘的岗位。学历必须是硕士以上，同时是模式识别、信号处理等科班出身。另外，对深度学习和机器学习有了解是加分项。

至于市场销售、平台运营甚至内容领域的人才，这个行业对学历背景要求不高，更看中经验、人脉以及办事的灵活度。毕竟，新兴行业最需要资源嫁接能力。

应届生也有机会，尤其是海归

打开招聘网站，VR技术岗位的招聘一般以最少一年工作经验起步，往上的话，有的职位要求3到5年的工作经验，有的甚至要求10年以上的经验。这个门槛主要是因为VR技术虽然还不怎么成熟，但它是高集成性产品，需要在算法、架构、光学和人体工学等成熟技能的基础上再提出应用上的高要求。

但应届毕业生并非完全没有机会。对国内的VR公司来说，开放应届毕业生招募主要有两种情况。一是已经在行业里挖到技术领域的大牛，需要为其配备团队，因此会招聘一定比例的应届毕业生。二是产品经理这类岗位入门门槛不高，公司也愿意花时间培养。

相较而言，海归会比较受到这个行业的欢迎。微鲸VR人力资源总监Tony在为3D场景交互岗位招聘时发现，国内很少有这方面的专业人才，但德国的3D场景交互领域向硅谷输送了不少人。他后来意识到，这是因为德国的高校有对口专业，所以即使是刚毕业的应届生，Tony也会第一时间把对方请到公司来。

再说到内容领域，VR内容领域要制作哪些内容并没有明确标准。毕竟，还没有人敢下结论说：VR只能用来做什么、不能做什么。这个行业眼下正是需要创意和研究拍摄方式的时候。

D这些领域，跨行到VR更容易

游戏

游戏是VR最早被应用的场景之一。虽然VR游戏一度遇冷，但从长远角度看，从游戏行业跳到VR行业尝试新的游戏形态未尝不可。擅长技术的话，可以继续走Unity3D开发、3D建模和3D美术的路。即使有大量游戏公司仍在观望，但VR游戏带来的体验感确实是电脑、手机无法取代的。这也是HTC Vive、PS VR、Oculus等公司目前大量需求的产品。

互联网和半导体

互联网和半导体是VR行业人才来源的两大核心区域。VR行业缺少的系统架构人才在微软、IBM、AMD、英特尔或者高通都能找到。

工业设计

截至目前，用户对于VR硬件设施的体验普遍是抱怨“长久佩戴时头显过重，舒适感不够”。这就需要人体工程学领域的人才来改进产品，他们一般会从设计领域找人，尤其是工业设计。

影视

影视行业从业者主动跳到VR行业的比例相对更高。“他们对整个行业的理解和感知更多，当他们意识到有新的拍摄方式可以尝试，主动投身的人就会更多。”Tony说。他以微鲸一位制片人为例，对方在电视台累积了多年经验，有自己的工作室，同时还在高校任教，最终选择进入VR领域就是想尝试不一样的东西。

E哪些公司在寻找人才？

初创公司

新技术面前，全球企业处于同一起跑线。以技术为核心的初创公司为了站稳脚跟，同样在该领域争夺人才。暴风魔镜、蚁视、大朋、微鲸等国内VR厂商熬过资本严冬，对招聘也有了更高需求。“初级岗位不难招，要招就招核心算法，特别是如果我们想超越海外同行，招人就更重要。”大朋VR合伙人兼首席战略官章立说。

大公司

虽然无论是Facebook，还是HTC、索尼，都没有将技术研发落地中国，但巨头们为了造势，频频联合产业链上下游合作，发起各类联盟，为开发者提供诸多便利，这从另一个角度为从业者带来了更多机会。

Fa c e b o o k今年4月宣布建立首个增强现实（Augmented Reality，AR）平台，同时VR社交平台Facebook Spaces的Beta版；微软于5月10日宣布将开放Windows Mixed Reality开发者套件预购。5月18日，Google也宣布要在今年年底推出Daydream VR一体机，其首批合作伙伴是HTC和联想。

还有苹果，在6月6日的WWDC大会上，苹果宣布Mac将支持HTC Vive，开发者可在MacBook上使用SteamVR平台。同时，AR方面推出开发套件ARKit。

从这些大公司的策略中也能看出，VR已经不仅是它们手中的一张牌，混合现实（Mixed Reality，MR）、AR以及人工智能日后都将联合起来。

F这行的薪水到底怎么样？

去年5月，拉勾网了一份《VR/AR行业薪酬报告》，报告显示，技术职位在过去几年始终是核心诉求职位，即使岗位需求在2016年有所下降，也在总体岗位中占比50.5%。同时，市场方面的人才需求明显提高，2016年占比12.3%，两年间增长了一倍。

根据报告，在VR行业，无论是技术、产品还是市场、运营等岗位，薪酬水平皆高于互联网领域。去年5月，全行业技术岗位月平均薪资为1.35万元，而VR/AR行业技术岗位的月平均薪资达到了1.85万元。即使是最弱势的职能部门，薪资也高于行业平均值7100元，达到8300元/月。

Tony证实了这一现象。物以稀为贵，VR行业里技术岗薪水最高，而在技术岗里，算法工程师的薪酬排名第一。算法工程师如具备硕博学历，年薪一般在30万元至60万元，3D引擎开发人才的年薪也在30万元至40万元。这还不包括公司为留住人才发放的期权和奖金。非技术职位的薪水也会比原行业略高，但总体上相差不大。

科锐国际在《2017年薪酬指南》中也指出，在新技术领域里，计算机视觉、深度学习方向薪酬涨幅最快。人才储备主要在几家跨国公司和顶级高校，VR行业的人才薪酬已经在高点，人才流动的吸引力更多来自职位前景。不过若遇到急缺位，跳槽涨幅可能高达50%以上甚至100%，比如算法类的岗位就是如此。

G进这行前，你得有点心理准备

如果你有兴趣进入这个新兴行业试一试，章立和Tony提醒你：

篇9

关键词：ABB；视觉识别

中图分类号：TP242.2 文献标识码：A 文章编号：1674-7712 （2014） 12-0000-01

目前，全自动机器人解包系统在烟草行业内应用广泛，以其设备先进性、系统稳定性、操作简便性、超高的行业适应性以及灵活的可扩展性和兼容性得到了各烟草工业企业的认可。为了适应烟草行业全自动控制、现代化的生产要求，我厂制丝解包线选用了FT533全自动机器人解包系统，集合了当前最先进的自控、机器人、信息管理和机器人视觉技术，是一条全自动、高效率的机器人解包上料物流系统[1]。该系统设备先进、自动化程度高，是我厂制丝线生产的首道工序，也是我厂自动化生产的亮点工序。

该系统中所运用的机器人视觉检测技术，是当今最新的检测技术。计算机视觉检测就是由各种成像系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。我厂采用的CCD检测技术光谱响应宽、动态范围大、灵敏度和几何精度高、噪声低，在检测系统的智能化、柔性、快速性等方面较接触式检测方法具有更大的优越性。因此，计算机视觉检测技术在我厂解包线的适应性应用是决定解包线能否高精度、高效率工作的关键。

一、现状分析

在实际生产过程中，我们发现解包线机器视觉检测还存在以下几个问题：

（一）外部光照不稳定

我厂解包线机器人安装位置紧靠一整面玻璃墙，CCD相机照相取样极易被外部自然光照所干扰，尤其在阳光最强烈的正午和阴暗天气时干扰最为明显，相机照相或曝光过度，或阴暗不明，成像质量较差，严重干扰了计算机对图像的分析和处理，导致机器人不能准确动作。

（二）视觉处理系统对烟包图像分析不准确

目前采用的图像分析方法不能够精确分析图像，对一些潜在问题未能做出相应判断和处理，导致机器人在实际生产过程中出现误动作，影响解包线效率。失误率平均达到5包/批次（20包）。

二、具体思路与方法

（一）成像系统曝光度适应性差的问题

一天中随着太阳的移动，车间中的光照强度也随之变化。根据这一实际情况，项目小组将针对各时段不同光照下，解带工段成像系统PV带识别程度，寻求成像系统曝光增益的最优值。根据剪带机器人工段对成像系统图像的要求，课题小组采用分段逐一测试的方法，对各时间段曝光增益值进行了实验测试，找到最佳的参数值。

（二）规划时间段

根据从气象网站统计，绵阳9月-12月的日出时间在6：00-7：00之间，日落时间在18：00-19：00之间，同时日出日落后半个小时光照强度变化幅度较大以及11：00-14：00光照强度最强，将一天划分出8个时间段。

（三）确定曝光增益

曝光增益是曝光的一种补偿方式。如果图像明显偏亮或偏暗，说明相机的曝光基准值设定较大偏差，这时要强制进行曝光补偿。在解包线成像系统中，最终经过补偿后的图像一定要到达这样的要求：图像轮廓清晰，处理算法能识别到所有编织带。课题小组将根据划分出的时间段逐一对曝光增益值进行设定。

（四）烟包检测识别能力较差

鉴于二值化处理的目标图像失真较大，在新的算法过程中课题小组决定放弃在边缘检测前使用二值化处理，通过使用烟包四边边缘检测和中缝检测相结合的方法来计算烟包中心点。影响开包工段烟包识别的准确度的关键点是找准图像中烟包的中心点，如果图像中心点与实际烟包中心点偏差过大，就会导致机械手爪臂将烟包损坏，影响后续开包动作的完成效果。原处理方式采用二值化处理。但二值化自适应性较差，在处理过程中极易将目标边缘周围像素点与目标本身混淆，导致二值化后目标轮廓失真，影响后续边缘检测准确性。

根据观察分析，每个烟包都有一个共同的特性：烟包的最上的两个合页闭合时，在烟包中间都会形成一条中缝，而且这个中缝的像素点灰度值与周边的像素点灰度值差异明显，噪声小，容易清楚识别。因此，考虑将中缝检测加入到烟包的中心点的计算中，提高中心点的准确性[2]。

（五）建立成像系统与PLC数据通讯通道

首先在PLC编写程序获取系统时间，并将时分秒分割出用于传递到成像系统。其次，成像系统中创建数据缓冲区，用于读取PLC传递的时间数据。为方便数据比较将时间格式处理为小数格式，如11时15分转换为11.15，这样方便进行大小对比，公式为时+分/100。

三、结束语

通过确定时间段曝光增益值、烟包四边边缘检测和中缝检测相结合的方法来计算烟包中心点等方法的使用。增强了机器视觉检测的环境适应性和抗干扰能力，降低片烟预处理工段断料次数、减少人力劳动。改善后识别效果如图1所示。分时段曝光增益方法以及中线和边缘检测相结合的图像分析方法不仅适用于我厂解包线机器人视觉系统，同样适用于其他工业领域的机器视觉图像检测分析系统。特别是为外部光照条件不稳定的机器视觉处理提供了一种新的思路和方法，增强了机器视觉检测的环境适应性和抗干扰能力。

图1 PV带完全识别示意图

参考文献：

[1]ABB机器人全套手册Nov2008[M]，2008.

篇10

关键词：图像预处理；图像增强；图像锐化

中图分类号：TP391文献标识码：A文章编号：1009-3044(2011)27-6727-03

Image Pre-processing Technology in Tracking System

CHEN Qian-hui1, WANG Xiao-fen2

(1.School of Mechanical and Electrical Engineering, Shangqiu Institute of Technology, Shangqiu 476000, China; 2.School of Computer Science, Shangqiu Institute of Technology, Shangqiu 476000, China)

Abstract: To get precise three attitude for space goals to achieve the purpose of tracking real-time stability, it is necessary for using an effective method to process the resulting image. In this paper, based on the theory of image processing, we introduce several methods of pretreatment to achieve the enhancement of edge information, it is also significant for edge detection, feature extraction, matching and 3D reconstruction.

Key words: image preprocessing; image enhancement; image sharpening

目标跟踪研究属于计算机视觉的范畴，也是如今比较热点的研究方向之一。在日常生活、交通、国防等方面有着非常广泛的应用。随着计算机技术、数字图像处理技术的不断发展，目标跟踪的方法也得到进一步的改进。根据计算机视觉的原理，如果能精确的模拟空中目标的飞行情况，对我国的航天以及军事事业都将有很大的益处。要想使空间目标实现可视化，必须对跟踪获得的二维图像信息进行图像的预处理，通过基于边缘的特征提取的方法来实现跟踪空间运动目标。

1 图像预处理方法

一般对图像的预处理包括：图像的增强、图像的滤波、图像的锐化。

1.1 图像增强

图像增强是应用计算机或光学设备通过对图像灰度等级的变换以达到改善图像视觉效果的处理技术。由于CCD摄像机的影响，或者是摄像机周围环境的影响等因素，使得摄像系统摄取的图像存在一些问题，为得到目标的精确信息达到研究目的，必须对图像进行预处理。

1) 直方图

灰度直方图是图像最基本的统计特性。其横坐标是灰度级，纵坐标是该灰度级出现的频度。用Pr(rk)=nk/n0≤rk≤1k=0,1,2,…,l-1，表示。式中：nk为图像中出现rk级灰度的像素数，n是图像像素数，而nk/n即为频数。

由直方图分析，有助于我们确定图像阈值处理。其中最常用、重要方法是直方图修正，特别是直方图均衡。用图像f(x,y)的直方图代替灰度的分布密度函数pf(f)，则直方图均化后图像g为：。若原图像f(x,y)在像素点(x,y)处的灰度为rk，则直方图均化后的图像g(x,y)处的灰度sk为：，T[rk]是灰度变换函数。由于ni/N只是图像灰度级概率密度函数的近似，因此经过直方图均衡后，得到坦直方图。

2) 灰度变换

灰度变换法分3种：线性、分段线性及非线性变换。

A 线性变换

假定原图像f(x,y)的灰度范围为[a,b],希望变换后图像g(x,y)的灰度范围扩至[c,d]，则线性变换可表示为，若图像灰度在[0,Mf]范围保持f(x,y)灰度低端和高端值，表达式分别为：

B 分段线性变换

对灰度区间[0,a]和[b,Mf]加以压缩，对灰度区间[a,b]进行扩展。可采用分段线性变换，其表达式为：

C 非线性变换

非线性点运算对应于非线性映射函数，典型的映射包括平方函数、对数函数。截取函数、阈值函数、多值量化函数等。如对数及指数函数表达式分别为，g(i,j)=bc[f(i,j)-1]-1。

1.2 图像噪声及平滑滤波

1) 模板操作和卷积运算

模板操作是数字图像处理中常用的一种运算方式，图像平滑、锐化及后讨论的细化、边缘检测等都要用到模板（如表1）。

2) 邻域平均法

邻域平均法是一种利用Box模块（如表1）对图像进行模块操作（卷积运算）的图像平滑方法，其主要优点是算法简单，计算速度快，但会造成图像一定程度上的模糊。其数学含义是：，式中：(x,y)=0,1,...,N-1;S是以(x,y)为中心的邻域集合，M是S内的点数。

3) 中值滤波

中值滤波是一张非线性信号处理方法，与其对应的中值滤波器即是一种非线性滤波器。一维fi序列公式表示为：

。

而二维中值滤波表示为：yij=Med A{fij}，其中：A为窗口；{fij}为二维数据序列。

复合型中值滤波：中值滤波线性组合、高阶中值滤波组合、加权中值滤波及迭代中值滤波等。其中线性组合方程为：

，

高阶中值滤波组合为：，式中ak为不同中值滤波的系数。

4) 空间域低通滤波

从信号频谱看，信号缓慢变化部分在频率域属低频部分，而信号迅速变化部分属频谱域高频部分。由于图像边缘及噪声干扰频率分量都处于频率域较高部分。故可采用低通滤波方法去除噪声（如表1）。

5) 频率域低通滤波

利用卷积定理得表达式G(u,v)=H(u,v)F(u,v)，其中F(u,v)是含噪声图像傅里叶变换，G(u,v)是平滑后图像傅里叶变换，H(u,v)是低通滤波器传递函数（系统框图如图1）。

常用的频率域低通滤波器有：理想低通滤波器、巴特沃思低通滤波器、指数低通滤波器、梯形低通滤波器。

6) 多幅图像平均法

一幅有噪声图像f(x,y)，可看作由原始无噪声图像g(x,y)和噪声n(x,y)叠加而成，即f(x,y)= g(x,y)+ n(x,y)，若叠加在图像上的噪声n(x,y)是非相关、具有零均值的随机噪声时，可针对一目标物在相同条件下作M次重复摄取的图像相加，取平均值作为输出图像，便可对图像中噪声进行平滑。

1.3 图像锐化

图像平滑往往使图像边界、轮廓变得模糊，而图像锐化是一种使原有图像信息变得有利于人们观看的质量，目的是为了改善图像视觉效果，消f(x,y)图像应有对象边缘变得轮廓分明。

1) 梯度法

图像锐化常用方法是对图像微分处理。其最常用处理方法是梯度法。设f(x,y)方向导数为?鄣f/?鄣x，表示其在某一方向α上变化率，且，其中，称为飞f(x,y)的梯度，可知当时，方向导数取最大值。

2) Sobel 算子

索贝尔算子是一组方向算子，从不同方向检测边缘。它通常对灰度渐变和噪声较多图像处理较好。常用的梯度锐化算法有Roberts、Isotropic Sobel、Prewitt 和Krisch算子（如表2所示），且都是用差分方法对梯度运算近似处理。

3) 拉普拉斯算子

Laplacian 算子是二阶导数算子，它既能增强图像高频分量，又能保持低频分量，是图像增强的有效方法。常用于基于偏导数运算的一种各向同性的线性组合运算的边缘增强算子（如表1）。

4) 高通滤波锐化

图像中边缘部分与其频谱的高频分量相对应，因此采用高通滤波让高频分量通过，实现图像锐化（如表2），算子为：。

2 总结

为获取序列二维图像特征点、线、面，实现空间三维目标重建及动态轨迹模拟，以实现空间运动目标的实时跟踪，对图像信息进行预处理是必要的。本文通过图像增强、图像噪声与滤波、图像平滑与锐化等一系列图像处理方法的介绍，通过模拟仿真就可得到边缘被加强的处理图像，进而实现目标的实时稳定跟踪。

参考文献：

[1] 何东健,数字图像处理[D].西安:西安电子科技大学,2003.

[2] 闫娟.数字图像的平滑处理方法研究[J].软件导刊,2009,8(1):182-184.

[3] 冈萨雷斯,数字图像处理[M].3版.北京:电子工业出版社,2011.

[4] 陈娟,陈乾辉.图像跟踪中的边缘检测技术[J].中国光学与应用光学,2009,2(1):46-53.

[5] 荣莹.用C++ Builder 实现数字图像的平滑处理[J].电脑与信息技术,2002,5:50-52.

[6] 王宪辉.视频图像中的目标跟踪技术研究[D].合肥:中国科学技术大学,2010.

计算机视觉研究方向范文

篇1

篇2

篇3

篇4

篇5

篇6

篇7

篇8

篇9

篇10

免责声明

AI创作文章

热门标签

相关文章

相关期刊

计算机

计算物理

航空计算技术

航空计算技术

精品范文

学术顾问