计算机视觉分析技术范文

导语：如何才能写好一篇计算机视觉分析技术，这就需要搜集整理更多的资料和文献，欢迎阅读由公务员之家整理的十篇范文，供你借鉴。

计算机视觉分析技术

篇1

关键词：分布式拒绝服务攻击；网络安全；入侵检测

收稿日期：2011-07-04

作者简介：徐强（1987―），男，湖北武汉人,武汉纺织大学环境学院建筑环境与设备工程学生。

中图分类号：TP311文献标识码：A文章编号：1674-9944（2011）07-0230-02

1引言

Internet/Intranet的迅速发展,实现了资源共享和快速通信,但网络的安全问题也变得日益突出。网络安全的最大威胁就是黑客的攻击。分布式拒绝服务攻击是一种目前黑客经常使用且难以防范的攻击手段。其英文全称是Distribute Denial of Service（DDoS）。它的目的就是拒绝服务访问,破坏组织的正常运行,最终会使部分Internet连接和网络系统失效［1］。

从20世纪90年代到现在,拒绝服务攻击外部请求,或无法及时回应请求,使得很多因特网服务提供商无法得到响应,造成“拒绝服务”,带来了巨大的麻烦和经济损失,如2003年8月发生的著名的微软公司windowsupdate.cam更新网站的拒绝服服务攻击。2006年2月发生的一系列大规模攻击事件:在短短几天,包括Yahoo,,CNN等国际知名网站先后遭受攻击,导致这些网站长时间中断服务,其经济损失高达几百万美元［2］。

2分布式拒绝服务攻击的技术分析

基于传统的拒绝服务攻击（Denial of Service,DoS）攻击,产生新一类攻击方式是分布式拒绝服务攻击（Distributed Denial of Service,DDoS）手段。其产生背景是,随着计算机与网络技术的发展,计算机的处理能力迅速增长,内存大大增加,同时也出现了千兆级别的网络,这使得DoS攻击的困难程度加大［3］。这是因为以往单一的DoS攻击的特点是,一般是采用一对一方式,通过欺骗伪装及其它手段以使得提供服务资源的主机出现错误响应或资源耗尽从而使其停止提供服务或资源访问的一种攻击手段。当攻击目标CPU速度低、内存小或者网络带宽小等等情况下,它的效果是明显的。被攻击的高性能主机对恶意攻击包的“消化能力”加强了不少,例如攻击软件每秒钟可以发送3 000个攻击包,但被攻击主机与网络带宽每秒钟可以处理10 000个攻击包,这样一来攻击就不会产生什么效果。这时分布式的拒绝服务攻击手段DDoS就应运而生了。

DDoS采用了一种比较特别的3层客户机/服务器（C/S）体系结构,从许多分布的主机同时攻击一个目标,数量非常大以至于服务器无法为合法用户提供正常服务［2］。分布式拒绝服务攻击从本质上说与DOS攻击使用的技术方法类似,但由于其在形式上具有分布式的特点,因此更具有危害性。DDoS一般使用攻击工具进行,常用的工具有:Trinoo,TFNT,FN2K等。一般DDoS攻击的流程包括以下几点。

（1）黑客首先需要控制3种类型的计算机。攻击者即黑客本人的主机,黑客通过它实施DDoS的指令。控制机即直接受黑客控制的主机,但一般不属黑客所有,数目通常为3～4台,并且在这些计算机上安装上特定的主控制软件（称为master）。这类主机将忠实地执行黑客发出的命令。肉鸡即它们是被黑客控制但一般并不为黑客所拥有的计算机群。这样的计算机数以百计,它们是攻击的先头部队。黑客在这些计算机上安装了守护程序（称为daemon）,运行并产生DDoS攻击代码。

（2）DDoS操作过程。攻击过程如图1所示，在组织攻击之前,黑客首先在互联网上找到并完全获得某些安全性脆弱的计算机的控制权限,如ROOT权限,并让这些受到侵害的主机充当黑客的Master和Daemon。接着,黑客在这些称为Master的受控计算机上安装主控制软件;在称为Daemon的计算机上安装守护程序。Daemon主机的守护程序在指定端口上监听来自Master主机发送的攻击命令,而Master主机接受从黑客计算机发送的指令［3］。最后,黑客只需向Master主机发出命令就可以发动大规模的DDoS攻击。攻击发动时,Target主机会受到来自许多机器上大量等待响应的信息,从而使得来自于正常用户的请求不能得到及时相应,这时就出现了DDoS攻击（图1）。

3应对拒绝服务攻击的技术与策略

应对拒绝服务攻击需要做好基础的防御措施,从计算机系统和网络设备等方面运用技术手段来检测和预防攻击的发生,但更重要的是要制定和实施完善的安全防御策略,提高计算机和网络系统的整体安全性,将安全风险降到最低［4］。

首先从技术角度,当前没有很好的彻底解决DDoS攻击的方案。国外一些专家甚至断言,除非改变TCP/IP内核,否则没有办法解决DDoS攻击问题。但只要加强安全防范意识,提高网络系统的安全性,仍可以有效地防御DDoS攻击［4］。

3.1设置防火墙

防火墙是抵御DDoS攻击的有力工具,位于内部网络与外部网络之间,具有网络监视、数据过滤、部署、NAT服务及审记等功能。随着防火墙技术的不断发展,防火墙的分类和功能也在不断细化,但总的来说,可以分为包过滤防火墙,应用级防火墙。包过滤防火墙又叫网络级防火墙,因为它是工作在网络层。它一般是通过检查单个包的地址、协议、端口等信息来决定是否允许此数据包通过。它可以很好地解决Ping Flood这样的攻击。

3.2调整主机的设置

将所有公开服务器与DMZ隔离;使用SRP（Secure Remote Password安全远程口令）代替SSH;限制只有内部地址才能访问支持SRP的telnet和FTP守护程序。如果必须为公开访问运行常规的FTP（比如匿名FTP）,可以的在另一个端口运行SRPFTP;设置可信任的路径;使用Trip write和相同作用的软件来帮助发觉对重要文件的修改。

3.3路由器设置

应用包过滤的技术,主要是过滤对外开放的端口。这些手段主要是防止假冒地址的攻击,使得外部机器无法假冒内部机器的地址来对内部机器发动攻击。

4结语

对分布式拒绝服务攻击（DDoS）的工作原理、各种手段进行了深入的分析,并给出了检测及防御的一些措施。随着电子商业的发展,DDoS攻击将对我们的电子化社会产生更大的冲击。新的攻击方法必然还会出现,危害可能更大,需要我们进一步地研究。应对DDoS攻击将是一个系统化、长期的安全问题。

参考文献：

［1］ Mc Clure,Secmbray Kurtz.网络安全机密与解决方案［M］.北京：清华大学出版社,2000.

［2］于冷,陈波,宋如顺.两种典型拒绝服务攻击手法的分析与对策［J］.计算机应用研究,2001（6）：35～36.

篇2

【关键词】云计算；物联网；数据挖掘模式

随着现代化科技的快速发展，信息的通信以进入大容量快传输的阶段，基于云计算的物联网也开始备受科技人士的关注。物联网就是一个物与物相连的网络，简单的说是互联网从人向物的一种延伸。物联网中产生的大量数据是和时间与空间相关联的，有着动态、异构和分布的特性，这些对于物联网的数据挖掘工作来说是很困难的，因此下面我们就给大家介绍：基于云计算的物联网数据挖掘模式，这将对其数据的挖掘工作带来很大的便利[1]。

一、基于云计算的物联网特性

社会的发展必将挑战科技的最大进步，近几年物联网产业就在高科技的带动下迅猛发展。物联网其实就是一个分布广泛而且巨大的物与物相连的网络，可以用来监控我们现实世界中的各种对象，许许多多的应用终端也被接入物联网中，包括交通设施和建筑物还有湖泊等等。但是随着各种各样的异构终端设备的接入，我们的物联网采集的数据量也就会越来越大，其数据类型和数据格式也会越来越复杂，运用传统的数据挖掘方法已经无法直接应用于物联网之中了，因此为了解决以上这些问题，我们提出了一种关于物联网数据挖掘的基于云计算的系统。

其实在现实网络中，在物联网中的数据有着高度的动态性和异构性，物联网的数据还和时间与空间有密切的联系，而这些恰恰会给物联网的数据挖掘带来了很大的困扰，要知道物联网数据的挖掘很耗费时间和内存，且还效率低下。于是，云计算的物联网数据挖掘模式就被提出来了[2]。基于云计算的物联网数据挖掘方法，就是在用云计算来作为支持的技术平台上，再构建可以面向物联网的分布式时空数据库，再在这个数据库的基础上搭建可以面向拥有海量数据物联网系统的数据挖掘模型。基于云计算的数据挖掘就是通过分析，表明该数据挖掘模型可以很有效的实现物联网中的数据挖掘任务。

在物联网的数据量大而且高度动态性与异构性，还有数据类型复杂和复杂时空特性等特点的基础上，都将会为以后数据挖掘带来新的挑战，有了基于云计算的物联网技术，这些问题就可以破刃而解了[3]。

二、基于云计算的数据挖掘模型

基于云计算的数据挖掘的平台就是能够提供动态资源池和虚拟化跟高可用性的计算平台。云计算的数据挖掘平台可被用来开发高性能的应用程序，可以利用云计算来进行数据挖掘。

物联网中在基于云计算的数据挖掘系统设计的过程力，先由软件的分层设计思想，将基于云计算的数据挖掘系统的层次自顶向下划分为：用户层、任务层和算法层。在这个平台当中，软件的底层可以透明的为它的上层提供服务，上层就可以通过其层间的开放接口来调用下层的服务，这样就使得层与层之间的功能相对的做到独立，这样设计是易于对数据挖掘系统的二次开发，还在设计算法层的过程中设计了多层插件的框架结构，这样增加了算法的实现和维护的灵活性[4]。基于云计算的物联网数据挖掘既要满足物联网数据的复杂类型还要满足物联网数据的高动态性，故此，这样设计的基于云计算的物联网数据挖掘模式最合适。

图1 物联网（IOT）多层数据挖掘模型

三、基于云计算的物联网数据挖掘模式分析

物联网的数据挖掘模式要依据物联网环境而定，由于物联网数据的复杂性和物物关联等特性不同，这些都将导致物联网的建模方式会和传统方式有很大得差异。基于云计算的物联网数据挖掘模式就是先分析物联网的数据特性，然后再提出适合的解决方案跟正确的思路，再总结出合适的数学模型。物联网的数据的特点如下：关联性、信息量大（海量）、质量差、时空性还有非结构性，这和传统的数据挖掘领域完全不同。

图2 和时空相关的物联网

物联网数据的时空性，原始数据通常就是从一个四维空间中的时空网络里收集出来的，其抽象示意图如上所示，其中的每个点就可以代表物联网中的一个个体，每一条边就可以代表物联网的物物相联关系。

在物联网的应用中，物联网的数据会发生成批成片的丢失和错误，对于这种物联网的数据出错与丢失的可能是随机的也可能是系统的，基于云计算的物联网数据挖掘模式应考虑到数据的丢失和错误的问题，我们给出的解决方案应该能够容忍数据的错误和丢失。在基于物联网的数据挖掘应用建模时，我们还应当充分考虑如何表达物理的个体之间的关系，物理个体如果是间接的关系我们就可以通过拉普拉斯变换模型或SVD模型推导出来。其中直接的关系很重要，物联网数据挖掘模式本身应该有能力来充分表达出直接关系，这将会方便推理出间接关系[5]。

基于超图的物联网数据模型。超图中一个边可以和任意多的点联结，使用超边可以来表示在物联网中的错综复杂的关联关系。点集合X={v1，v2，v3，v4，v5，v6，v7}超边集合E={e1，e2，e3，e4}={{v1，v2，v3}，{v2，v3}。

基于马尔可夫链的模型。就是在马尔可夫链模型下，想要预测将来要发生的事情的几率，只需要根据当前的知识或信息，过去的知识或信息对于预测将来是无关的。在物联网的数据应用中很多都属于这一类问题。

稳定的可外推非参数模型。在物联网数据的应用中，物理建模需要先了解事物间的关系，再建立数学模型老描述数量上的关系，但是物联网的数据丢失或出错、数据复杂度高的问题，使用传统的物理建模方法会有很大局限性。

四、隐马尔科夫链的数据挖掘模式构建

图3 诊断系统的结构图

基于云计算的物联网数据挖掘中，隐马尔可夫模型（HMM）就是马尔可夫链的一种，是一个双重随机过程，有一定状态数的隐马尔可夫链和显示随机函数集，它的状态能通过观测向量序列观察到，其每一个观测向量都是由一个具有相应概率密度分布的状态序列产生的。一个完整的隐马尔可夫模型（HMM）包括先隐藏状态集，再状态转移概率分布，然后观察量集合和观察量概率分布，最后初始状态概率分布。

物联网的数据在马尔可夫链模型下，想要预测将来可以通过当前的知识或信息来获取。对于物联网中的数据在理想的情况下，当设备的所有动力学特征跟测量过程中都可以建立准确的模型描述，那么我们就可以根据系统的状态估计和残差信号的统计分析，采用各种方案实现故障分类。对于大型的复杂系统，系统面对的大部分分类观察量都会有随机的因素，因此很难找到这样一个可靠的系统模型，可以使用隐马尔可夫链模型检测。隐马尔可夫模型是一种基于当前信息和知识的预测，它的结果对物联网来说有很重要的统计学意义，是一种实现数据挖掘的重要模式。

五、结论

物联网的数据挖掘模式大大改观了计算机中信息传输的方式，物联网具有有改变世界的潜能。由上可知，随着物联网技术的发展，基于云计算的物联网数据挖掘模式，可以解决物联网在数据挖掘方面的问题，不仅可以解决数据存储中节点失效，还降低了数据传输的时间，大大的提高了挖掘的效率，使物联网系统能够真正的面向商业运用，为企业的商业决策服务。

参考文献：

[1]蒋智毅.基于管理学基础理论的云计算应用[J].中国管理信息化，2011（21）：216-217.

[2]张海江，赵建民，朱信忠，等.基于云计算的物联网数据挖掘[J].微型电脑应用，2012（6）：842-843.

[3]金龙.云计算环境中的数据挖掘存储管理设计[J].软件工程师，2012（12）：183-184.

[4]李志宇.物联网技术研究进展[J].计算机测量与控制，2012（06）：349-350.

篇3

关键词：三维视觉；篮球投篮；角度矫正；图像分析

中图分类号： TN911.73?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）05?0045?04

Abstract： Since the manual correction for the basketball shooting angle has poor reference， a 3D vision based correction method for basketball shooting angle is proposed. The 3D visual image information of the basketball shooting is acquired. The wavelet multi?scale decomposition method is used to preprocess the acquired image for noise reduction. The edge contour feature extraction method is adopted to extract the body contour feature of the basketball shooting action in the image， and then the extracted feature is input into the body correction expert system for visual analysis and correction. The method was performed with simulation test and analysis. The simulation and analysis results show that the method has good image analysis performance for the basketball shooting action， can accurately correct the shooting angle in real time and guide the basketball training.

Keywords： 3D vision； basketball shooting； angle correction； image analysis

0 引言

篮球的投篮是实现篮球得分的重要一环，篮球投篮如果出现角度和动作偏差，就会导致丢分失球。随着计算机视觉分析技术和图像处理技术的发展，采用计算机三维视觉分析进行篮球投篮训练和动作矫正，实现科学训练，提高篮球运动的投篮准确性[1?2]。

针对篮球投篮角度人工矫正可参考性较差的问题，提出基于三维视觉的篮球投篮角度矫正方法。首先采集篮球投篮的三维视觉图像信息，采用小波多尺度分解方法对采集的图像进行降噪预处理，然后采用边缘轮廓特征提取方法提取图像中篮球投篮动作的形体轮廓特征，输入到形体矫正专家系统中进行视觉分析和矫正，最后进行仿真测试分析验证其有效性。

1 图像信息采集与处理

1.1 篮球投篮三维视觉信息采集

为了实现对篮球投篮动作的矫正分析，采用计算机三维视觉分析方法进行图像分析和特征提取，首先构建篮球视觉采集系统。采用实时动态视频帧监控方法，利用A/D转换器进行视觉特征的数模转换，用MUX101程控开关传输篮球投篮三维视觉信息视频图像，通过DSP模块进行图像处理，在数据帧内进行编码，依照输入的篮球投篮动作视频帧的编码分析信息并调制数据。

篮球投篮三维视觉信息采集模块包括信息采集记录和数据分析处理两大模块。参数设定包括篮球投篮三维视觉信息采样输入通道设计、采样率设置、耦合方式的设计[3?4]。通过RS 485网络或以太网获取控制端的命令，采集参数配置成功后读取RISC微处理器中的主控模块信息，将各个组件和模块连接成一个整体，最后在液晶显示器模块实现篮球投篮动作形体的三维视觉输出，得到篮球投篮三维视觉信息采集系统的结构模型如图1所示。

利用图1中模型采集投篮过程中的图像信息，定义[σi]表示篮球投篮三维视觉信息擦剂节点数据的不确定时间序列编码；[σx，σθ，][ei]代表投篮动作形体变化的融合参量，令：

式中：[μ>0，][μ]表示形体边缘轮廓特征点的特征参数值。

采用立体分割方法得到篮球投篮过程中的形体特征三分量转移概率分别为：

以式（4）为基础，将训练集转变为动作向量库，在计算机视觉条件下，篮球投篮的图像信息采集输出为： [S（t）=λsx+sθ=λ（λxex+ex+αxex）+（λθeθ+eθ+βθeθ）=δ（X，t）-mS（t）] （5）

当[t∞]，单帧角点分块信息素的误差将趋于0，实现对篮球投篮区域表面网格面的像素特征采集：

在篮球投篮空间中，采集视频和图像信息后，运用图像处理算法进行投篮角度矫正分析。

1.2 图像降噪预处理

上述采集的篮球投篮三维视觉信息受到动态视觉信息的干扰产生采集误差和噪点，采用小波多尺度分解方法进行降噪预处理[5?6]，定义小波函数为：

3 仿真测试

对篮球投篮角度三维视觉矫正实验采用3.40 GHz CPU，4 GB RAM的算机进行仿真实验分析，采用CCD成像仪采集篮球投篮三维视觉图像，选择5×5，7×7分块方式进行篮球投篮区域的空间位置网格分区标定，三维视觉图像采样的频率为15 kHz，采样的帧长为1 024帧，图像采集的样本测试集包括6 000幅图像，取其中两帧图像作为测试集，进行图像分析，得到原始图像、降噪处理后的图像如图2，图3所示。

采用边缘轮廓特征提取方法提取图像中篮球投篮动作的形体轮廓特征，输入到形体矫正专家系统中进行视觉分析和矫正，实现篮球投篮角度矫正，对6 000幅图像进行篮球投篮动作矫正分析，对输出的峰值信噪比和矫正前后的命中率取平均，得到的结果见表1。

分析上述实验结果可以得到如下结论：

（1）采用本文方法进行篮球投篮动作矫正，可以提高输出视觉图像的峰值信噪比，具有较好的图像处理能力；

（2）本文方法在投篮矫正后命中率高于传统方法。

（3）采用计算机三维视觉分析方法进行投篮角度矫正的完成时间要低于传统方法，提高了训练效率。

4 结语

针对篮球投篮角度人工矫正可参考性较差的问题，进行篮球投篮角度计算机辅助矫正设计，提出基于三维视觉的篮球投篮角度矫正方法。仿真测试结果表明，采用本文方法进行篮球投篮动作图像处理的效果较好，实现投篮角度准确实时矫正，效率较高，提高了投篮命中率，改善了训练质量和水平。

参考文献

[1] 邓刚锋，黄先祥，高钦和，等.基于改进型遗传算法的虚拟人上肢运动链逆运动学求解方法[J].计算机应用，2014，34（1）：129?134.

[2] 胡棚，施惠娟.基于视觉掩蔽模型的视频水印算法[J].电子测量技术，2014，37（12）：36?40.

[3] 王小玉，张亚洲，陈德运.基于多块局部二值模式特征和人眼定位的人脸检测[J].仪器仪表学报，2014，35（12）：2739?2745.

[4] 刘永春，王广学，栗苹，等.基于二维概率密度函数比较的SAR图像变化检测方法[J].电子与信息学报，2015，37（5）：1122?1127.

[5] 黄伟国，顾超，尚丽，等.基于轮廓分层描述的目标识别算法研究[J].电子学报，2015，43（5）：854?861.

[6] 禹润田，方跃法，郭盛.绳驱动并联踝关节康复机构设计及运动性能分析[J].机器人，2015，37（1）：53?62.

篇4

（南京林业大学信息科学技术学院江苏南京 210000）

摘要：智能交通系统（Intelligent Transport System，ITS）是一种旨在提供更优质高效的交通管理模式的先进系统，致力于运用较为科学的算法，结合强大的OpenCV库，实现对道路通过的车流量较为准确的实时检测，从而实时掌握城市的交通状况，助力智慧城市的建设。

关键词：车辆识别；视频处理；智慧交通

中图分类号：T27 文献标识码：A doi：10．3969／j．issn．1665－2272．2015．14．047

智能视频分析技术是解决上述交通问题的一项新兴技术。它利用机器视觉，对视频画面监控判断，并进行数据分析，将提炼的特征形成算法植入机器，形成“机器脑”对视频画面自动检测分析，并做出相应动作，从而使摄像机不但成为人的眼睛，也使计算机成为人的大脑，在很大程度上节省了人力物力，高效地对道路信息进行有效分析及对道路环境进行管理。

1 相关研究

从20世纪50年代开始，美国等一些发达国家就开始了对智能交通系统的探索。1990年，美国开发出了智能车辆公路系统（IVHS），以提高交通运输效率，促进国家经济。2005年11月，美国运输部与密歇根州运输研究所（UMTRI）合作建成防追尾车辆安全系统，功能包括前方碰撞预警（FCW），车道偏离警告（LDW），车道变更警示（LCW）和曲线测速预警（CSW）。

欧洲和日本对这一领域的研究起步也较早，政府在早期斥巨资研究和开发智能交通系统，现在技术已经比较成熟。

我国在这一领域的发展起步较晚，尽管在智能监控领域已经取得了一定的进展，但是还是过去的研究还是存在运动分割、遮挡处理、多摄像机的综合与运用等难点问题。

2 架构与布局

智慧交通系统包括前段设备、传输部件和联网平台。前段设备包括摄像头、红外接收器、传感器网络等，中间部件通常为电缆等进行数据传输。联网平台通常为公安系统的监控管理系统。监控摄像头采集到视频后，会实时传输回数据中心，进行运算与分析（见图1）。通过计算机视觉和视频分析技术，可以实时监测城市的交通状况，及时发现并解决潜在的问题。同时这些信息可以有针对性得商业化和提供给民众，为生活带来便利。

通常，在一条道路上会架设两个摄像头，将这两个摄像头的数据汇总在一起，就能了解这条路上的交通状况。将城市中所有道路的数据汇总到一起就可以反应城市实时的交通状况（见图2）。

3 技术及其实现

3．1 视频文件的提取

视频预处理是采用等间隔的方法抓取视频，使之成为静态图像，帧率为每秒钟24帧，与原视频相同，不会造成信息缺失。

3．2 灰度化处理

彩色图像一个像素点有1 600多万个（255×255×255）取值，而一个灰度图像的取值只有255个。处理彩所用的时间和空间成本比灰度图像高很多，对于车辆识别来说灰度化图片像素已经足够。我们将监控视频进行灰度转换，运用如下公式：

Gray＝0．299R＋0．587G＋0．114B（1）

R＝G＝B＝Gray（Gray－灰度值、R－红色分量、G－绿色分量、B－蓝色分量）

3．3 利用haar算法提取样本特征

计算机可以通过学习和归纳，模拟或实现人类的行为，代替人们进行高效的劳动。通过充分训练的机器可以识别监控视频中的车流量。训练过程是从Haar特征中选取出一些，并对AdaBoost分类器进行训练。

Haar－like features，即Haar特征，它是计算机视觉领域一种常用的特征算子。最早用于人脸描述，通常分为四类：线性特征、边缘特征、点特征（即中心特征）、对角线特征（见图3）。

（1）矩形特征的计算。在m×m大小的子窗口（见图4）中，可以计算其中存在多少个矩形特征。

以像素分辨率为m×m的检测器为例，在m×m的子窗口中，只要确定左上顶点A（x1，y1）和右下顶点B（x2，y2），这个矩形便可以确定；如果矩形的大小是w×h的话，矩形特征的数量为：

把W／w、H／h称为条件矩形（相当于缩放）。

矩形特征的通式为：

（2）用积分计算Haar－like特征。由于计算一个60×60的图像就能算出远远大于像素数的矩形特征数，同时在计算特征值时要计算矩形内的像素和，所以计算一个矩形特征就要计算一遍像素和，会造成运算量相当大。Viola等提出的利用积分图求特征值的是解决这个问题的突破，这种方法简化了特征值的计算。

图5中，坐标A（x1，y1）的积分图是其左上角的所有像素之和（图5中的阴影部分）。定义为：

式（4）中，i（x，y）表示原始图像，ii（x，y）表示积分图，如果是彩色图像，得出的结果表示这个点的彩色值；如果是灰度图像，得出的结果是其灰度值，范围为0～255。

图5中，点（x，y）的积分图可以用A（x，y）表示；点（x，y）的y方向的所有原始图像之和用s（x，y）表示。积分图也可以用公式（5）和公式（6）得出：

根据积分图像算出特征值。

（3）样本的选取。手动截取了7 000张正样本——汽车的图片，还有5 000张负样本（即与车辆无关的物体），包括行人、骑摩托车者、骑自行车者、路灯、建筑物、树等的图片，然后开始训练分类器。

3．4 AdaBoost分类器的构成

1995年，Freund和Schapire提出了Adaboost算法，是对Boosting算法的一大提升。Adaboost是Boosting家族的代表算法之一，全称为Adaptive Boosting Adaptively，即适应地，该方法根据弱学习的结果反馈适应地调整假设的错误率，所以Adaboost不需要预先知道假设的错误率下限。也正因为如此，它不需要任何关于弱学习器性能的先验知识，而且和Boosting算法具有同样的效率，所以在提出之后得到了广泛的应用。

算法如下：

训练后得到一个弱分类器，之后Adaboost是一种迭代算法，之后通过更新样本权值来评估当前分类器的分类性能。当误识率控制在一定范围内后，即可得到强分类器。

3．5 监控视频目标检测

Haar特征的分类器训练完成后，可以通过加载这个文件而省去自己建立联表的过程。有了级联表，只需要将待检测图片和级联表一同传递给OpenCV的目标检测算法即可得到一个车辆的集合。

4 实验结果

为了验证以上的算法及，在windows环境下实现了软件的开发（见图6、图7），在导入城市道路监控摄像头拍摄的视频（时长：15min）后，可以自动识别出机动车，以矩形框出，并自动计算出车流量，交通部门可以根据其结果实时了解各道路交通状况。同时市民可以根据其显示较为直观得选择出行路线（见表1）。

参考文献

1 N．Vapnik，Statistical Learning Theory［J］．John Wiley ＆ Sons Inc，1998（3）

2 王亮，胡卫明，谭铁牛．人运动的视觉分析综述［J］．计算机学报，2002（3）

篇5

摘要：基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一，而人行为理解由于在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题一般遵从如下基本过程：特征提取与运动表征；行为识别；高层行为与场景理解。着重从这三个方面逐一回顾了近年来人行为理解研究的发展现状和常用方法，并对当前该研究方向上亟待解决的问题和未来趋势作了较为详细的分析。

关键词：特征选择；运动表征；行为识别；高层行为与场景理解

Abstract:Human movement analysis from video sequences is an active research area in computer vision and human motion understanding is a future direction of prospective study as it has many potential application domains such as smart surveillance， human computer interface， virtual reality contendbased video indexing， etc. Human action understanding is generally pidedintothreefundamental subprocesses:feature extraction and motion representation，activity recognition and higher level activity and scene understanding.This paper analyzed the state of the art in human action understanding in detail from three fundamental processes. At the end，provided and analyzed some detailed discussions on vital problems and future directions in human action understanding. 

Key words:feature extraction；motion representation；activity recognition；high level activity and scene understanding

0 引言

近年来，人运动视觉分析由于在智能监控[1]、高级人机交互[2]、虚拟现实[3]和基于内容的视频检索与解说[4，5]等方面有着广泛的应用前景和潜在的经济价值，激发了广大科研工作者及相关商家的浓厚兴趣，并成为了计算机领域中备受关注的前沿方向之一。目前，在世界范围内已经开展了大量的视觉分析研究项目。例如1997年美国国防高级研究项目署（Defense Advanced Research Projects Agency，DARPA）设立了视觉监控重大项目VSAM（visual surveillance and monitoring）[6]，主要研究用于战场及普通民用场景监控的自动视频理解技术；实时视觉监控系统W4[7]不仅能够定位和分割出人的身体部分以及实现多人跟踪，而且能检测人是否携带物体等简单行为；1999年欧盟Framework5程序委员会设立重大项目ADVISOR系统[8]，旨在开发一个公共交通（如地铁、机场）的安全管理系统，它覆盖了人群和个人的行为模式分析、人机交互等研究；2000年，DARPA又资助了HID（human identification at a distance）计划[9]，其任务是开发多模式监控技术以实现远距离情况下人的检测、分类和识别，从而增强国防、民用等场所抵御恐怖袭击的能力；英国雷丁大学（University of Reading）[10]先后开展了REASON（robust methods for monitoring and understanding people in public spaces）、ETISE(evaluation of video scene understanding)、ISCAPS(integrated surveillance of crowded areas for public security)等项目以研究基于视觉的单人行为以及人与人之间的交互行为识别和场景理解等；此外还有能够对人进行跟踪与行为理解的实时系统Pfinder(person finder)[11]，由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项目AVITRACK(aircraft surroundings， categorized vehicles & inpiduals tracking for apron’s activity model interpretation & check）[12]等。国内在该领域的研究起步相对要晚，但也有许多大学和研究机构如中国科学院自动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了深入的研究。在学术方面，一些国际权威期刊如PAMI、IP、IJCV、CVIU、IVC和重要的学术会议如CVPR、ICCV和ICPR等将智能化视频监控技术研究，尤其是人运动视觉分析作为主题内容之一。这些期刊为该领域的研究人员提供了更多的交流机会[1]。

人运动视觉分析是利用计算机技术从包含人的图像序列中检测、分类、跟踪人，并对其行为进行理解与描述。其中运动检测[16~18]、目标分类[19]、跟踪[20~23]属于视觉分析中的底层和中层处理部分（有兴趣的读者可参考文献[24~28]）；而行为理解和描述是经过对运动对象的连续跟踪观察，分析识别目标当前处于哪种行为模式，并利用语言进行描述，以及判断该行为是否属于异常行为，其属于高层处理部分。当前，人行为理解与描述受到了广泛关注，发表在上述权威期刊和重要学术会议上的关于行为理解研究的论文正逐年增加。由图1可见，关于人行为理解研究的会议文章从2002年起急剧增加，并且到2005和2006年每年发表的会议论文均保持在70篇以上；期刊文章从2003年也开始大幅增加，尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因为人运动视觉分析研究的最终目标就是要让计算机能像人那样通过视觉观察和理解世界[29]，也就是通过视觉观察来分析和理解人类活动及场景信息等。行为理解是跟踪器中像素测度与行为描述之间的桥梁，是使计算机向更加人性化（从“looking at people”向“understanding people”）转变的关键所在。

通过对大量行为理解研究文献的整理发现：人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程[30~33]（图2）。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上，从目标的运动信息中提取目标图像特征并用来表征目标运动状态；行为识别则是将输入序列中提取的运动特征与参考序列进行匹配，判断当前的动作处于哪种行为模型；高层行为与场景理解是结合行为发生的场景信息和相关领域知识，识别复杂行为，实现对事件和场景的理解。

随着人行为理解研究的不断发展和深入，对该领域的工作及进展作详细的回顾和分析显得很有必要。尽管Aggarwal[24]、Gavrila[25]、Moeslund[26]和Hu[27]等人对行为理解的方法有所阐述，但他们都是简单性地总结分析其方法，并没有对当前行为理解的研究现状进行系统分析。为了使广大相关科研人员能更好地了解和掌握行为理解技术发展的新动向，促进行为理解技术的发展，本文从行为理解的一般性处理框架出发，对目前人行为理解的算法研究现状、存在问题及发展趋势等进行详细介绍。

1 特征选择与运动表征

在人运动视觉分析中，由于视角的影响，同一种行为可能有不同的投影轨迹，而不同的行为可能有相同的投影轨迹。此外，光照变化、遮挡等现实环境因素也都给行为理解带来了很大困难。所以从原始视频数据中提取何种底层特征（如形状信息包括侧影、轮廓，运动信息包括位置、速度、方向等）描述人运动，以及如何选择充分有效的描述方法表征人运动状态并且能够在时间分辨率和维数上减少计算量成为行为理解的关键问题之一。

1.1 特征选择 

表1为2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会议文章中使用特征的统计分析表。由表1可见，目前行为理解研究所采用的特征主要有如下四种：外观形状特征、运动特征、时空特征、形状特征与运动特征两者的混合特征。其中，形状特征和运动特征是两种最常用、也是最主要的特征，其比例均保持在30%以上。另外，时空特征在行为理解研究中开始得到越来越广泛的使用。

基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区域颜色等信息来估计运动目标每时刻的静止姿态，然后用这些静止姿态序列来描述人体运动。外观形状特征容易获得且比较稳定，对纹理变化不敏感。基于运动特征方法[43~47]则没有利用有关人体结构的任何形状信息，而是直接从图像序列中提取出目标运动特性（时分）信息(如光流信息、运动方向、轨迹、位置、速度等)来表征运动状态。心理学研究表明，运动特征具有静态形状特征无法比拟的优势，即使是在远距离或恶劣的能见度情况下和最小运动系统——MLD（moving light display）[48]，人能够根据运动模式轻松地区别和识别目标的运动类型，而形状特征在此种情况下往往变得模糊不清。但目前的计算机视觉方法很难准确地提取运动特征，所以，为了充分利用形状特征和运动特征各自的优势，研究人员采用两者的混合特征[49~51]识别人的行为。此外，时空特征[52~57]是近年来行为理解研究中使用比较多的特征。时空特征通过采用二维形状在一段时间内形成的空时立体或差分图像来描述行为，集合了形状和运动特征两者的优点。由于时空特征考虑了运动信息，也有学者将其归类于运动特征。

1.2 运动表征

人运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态，这是人行为理解中至关重要的一步。依据所用的特征，运动表征方法可分成基于外观形状特征的和基于运动特征的。

1.2.1 基于外观形状特征的运动表征方法

依据是否利用人体形状模型的先验知识，基于外观形状的运动表征方法又可分成基于模型和基于外观特征（或基于视觉特征方法）两类。

基于模型方法的核心思想是首先建立描述空间中人体形状模型；然后利用目标的形态特征和关节位置等信息，将模型与输入图像序列在首帧匹配，在后续帧的跟踪过程中，定义损失函数描述输入图像数据与模型之间的近似关系，并采用人体运动参数限制条件和最优策略如最小平方[58]或随机采样策略如粒子滤波[59，60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以分为矩形框、棍棒形状[61]、二维轮廓[38]和3D立体模型[58]。基于模型方法集合了先验模型知识和当前输入，能够适合复杂行为的行为理解；但通常要求首先选择模型，初始化较难、计算量大，而且由于人运动的高自由度，容易产生局部最小值，很难找到全局最优且鲁棒的模型参数，此外由于在后续的跟踪中存在累计误差，不能分析、跟踪长序列运动。

基于外观方法并不试图恢复人体运动的结构模型，而是直接从图像中提取物体的二维空间信息，如高度、宽度、侧影轮廓和颜色等，并用这些特征直接或通过与已经训练好的模型进行匹配来获得对当前运动的描述。在这类方法中，形状分析理论常用来描述运动目标的形状变化特征（有关形状分析请参考文献[62]）。常用的形状分析方法有质心—边界距离[34，36]、傅里叶描述符[41]、形状上下文[42]和统计形状分析[32，35，63，64]等。其中，质心—边界距离方法使用一维函数编码从形状的质心到形状边界点的距离，这种描述符简单但不能精确地对非凸起形状进行编码，如质心与一个边界点之间的距离连线可能与另一个边界点相交，造成细节的丢失。Poppe等人[41]提出用傅里叶描述算子恢复人姿态；其思想是用固定的边界采样点对人体二维侧影轮廓进行采样，并对采样点进行傅里叶变换，利用变换后傅里叶系数的低频部分描述形状的大体特征，用高频部分来反映形状的微观特征即详细特征。由于傅里叶描述算子只能描述单个闭环曲线，这种方法一般用于描述外部边界点；在噪声环境下，傅里叶转换性能不是很好。Mori和Malik[42]则提出用形状上下文[65]描述算子表征人体侧影形状来恢复人体运动的三维姿态。一个点的形状上下文算子就是试图捕捉点集中其他点相对于该点的分布，它是一种基于内部或外部边界采样点的局部描述算子。傅里叶描述算子和形状上下文算子具有平移、旋转和尺度不变性。与傅里叶算子和形状上下文描述算子不同的是，Hu[66]提出一种基于区域的不变矩理论，并构造出共七个不变矩，它们具有平移、旋转和缩放不变性，目前已经广泛应用于图像的模式识别中。Poppe和Poel[67]对傅里叶描述算子、形状上下文和不变矩三种算子在侧影轮廓描述上的性能进行了比较，并且实验结果表明傅里叶描述算子和形状上下文直方图在形变侧影描述上比Hu更具有优势。20 世纪70年代后期，Dryden等人[63]提出的统计形状理论发展成一种用形状概率分布分析物体形状的实用统计方法，并且在图像分析、目标识别等领域得到广泛应用。文献[64]进一步讨论了投影形状和不变量，以及形状模型、特征和它们各自在高层视觉中的作用。Jin等人[32]用统计形方法描述每帧中的目标轮廓，并用完全Procrustes均值形状作为极点，构造一个与数据集近似的线性空间——切空间；然后用这个线性化的轮廓作为训练数据去学习动态系统、估计系统参数，从而识别人行为。

此外，目标形状变化的动态特性也为目标识别和动作分类提供了重要信息。N.Vaswani等人[68]提出用形状变化的动态特性来建模和分类动作；Liu等人[69]提出在傅里叶描述算子的基础上建立自回归模型学习形状变化的动态信息；基于统计形状理论，Veeraraghavan等人[35]提出用自回归模型（AR）和平稳自回归模型（ARMA）学习形状变化的动态特性，并用模型之间的距离量测作为两个形状序列之间的相似性测量，取得了较好的分类效果。

基于外观特征方法不要求特定的模型，比较简单，能够适用于大量的环境条件下。但外观特征方法由于没有模型先验信息限制，很难建立连续帧之间的特征对应关系，并且很难区别信号和噪声，一般对噪声敏感。此外，外观特征受视角影响大，所以许多学者[58，70~72]研究基于多视角环境中人的行为分析和识别。

1.2.2 基于运动特征的运动表征方法

基于运动特征的表征方法可以细分为：

a）基于预先确定区域（如腿、头）跟踪的运动轨迹分析方法。其关键是运动匹配[43，45，73]，思想是在一帧图像中提取出兴趣点或区域、典型特征，并且在随后图像帧中进行跟踪，多帧之间的这些特定点或区域位置匹配就会产生一条运动轨迹；然后对轨迹进行参数化处理，如将轨迹转换成水平、垂直方向的速度以及时空曲率等来描述运动特性。

b）基于非预先确定的目标区域运动分析方法。其最典型的代表是光流法[44，46，47，74]。与运动轨迹不同的是，光流法是计算空间运动物体表面上像素点运动产生的瞬时速度场。它通过计算图像序列中连续两帧亮度信息来得到，指的是图像亮度模式的表观（或视在）运动(apparent motion)。例如Zhu等人[47]提出用光流直方图来描述动作的运动信息，然后用支持向量机作分类器识别运动员的击球动作。光流法在无须背景区域的任何先验知识条件下就能够实现对运动目标的检测和跟踪。光流计算的基本等式是假设相邻两幅图像中对应两点的灰度不变得到的。在这个假设条件下首先要求两幅图像相邻时刻之间的间隔是很小的(几十毫秒之内)，并且要求场景光照均匀。此外光流法的计算量较大。

时空特征不仅包含人动作姿态的空间信息（人体躯干和肢体的位置、方向等），而且还包含运动的动态信息（人体的全局运动和肢体的相对运动），从而避免了光流场计算可能遇到的问题（包括孔径、全局平滑性约束、奇异性等）和外观形状特征跟踪问题[75，76]（自遮挡、重新初始化、外观改变、运动信息缺乏等）等。所以近年来时空特征在行为识别中得到了大量的使用[52~57]。Bobick和Davis[52]集合时空运动特征，提出了用运动历史图（MHIs）和运动能量图（MEIs）来描述运动。其中运动历史图反映运动是怎么产生的，而运动能量图反映运动发生的位置。文献[53，54]则提出用迭代滤波（recursive filtering）和帧分组（frame grouping）来描述运动信息。用迭代滤波方法对视频序列中的每帧图像进行滤波处理得到一幅滤波图像，其反映当前帧的场景空间分布信息、相邻帧之间的时分关系以及短时间内的运动速度；帧分组方法思想是单独分类视频切片中的每个滤波图像，然后用多数投票方法分类这些已标志的滤波图像的运动类型。

基于运动特征和外观形状特征表征的方法都有各自的缺点，基于运动特征能够描述人的近似运动方向和轨迹等，但很难准确、稳定地捕捉目标运动特性；另一方面，外观形状特征能够描述人的姿态信息，但由于没有运动信息，描述行为动作的能力有限。所以研究人员[56~58]通过采用融合两种特征的方法来对人行为进行建模和识别。

2 行为识别

行为识别问题可以简单地看做是时变特征数据的分类问题，即将测试序列与预先标定的代表典型行为的参考序列进行匹配，那么其关键问题是如何从学习样本中获取参考行为序列以及如何度量参考序列与测试序列之间的相似性。由于人动作执行的速度不一样，学习和匹配行为序列时还必须能够处理相似运动模式在空间和时间尺度上轻微的特征变化。目前，行为识别方法一般可以分成静态识别和动态识别。静态识别方法是把行为看做由一组按时间顺序串连起来的静态图像序列，其常用的方法有模板匹配方法；动态识别方法是定义每个静态姿势作为图模型上的一个节点或状态，这些节点或状态之间通过某种关系如概率联系起来。任何运动序列可以看做这些静态姿势的不同状态之间的一次遍历过程。常用的识别方法有隐马尔可夫模型(hidden Markov models，HMMs)、动态贝叶斯网络(dynamic Bayesian network，DBN)等。这些方法可以总归为基于状态转移的图模型方法。

2.1 基于模板匹配方法

基于模板匹配方法是用从输入图像序列提取的特征与在训练阶段预先保存好的模板进行相似度比较，选择与测试序列距离最小的已知模板的所属类别作为被测试序列的识别结果。Bobick和Davis[52]将图像序列目标运动信息转换成运动能量图像(MEI)和运动历史图像(MHI)，采用马氏距离度量测试序列与模板之间的相似性；Masoud等人[53]则采用无限冲击响应滤波器来描述运动，并将其投影到特征空间，然后用Hausdorff距离度量测试序列与参考序列之间的相似性。此外，还有学者采用Procrustes距离[50]来度量测试序列与模板之间的相似性。这些最近邻方法尽管在一定程度上反映了运动的时分关系，计算量小，但并没有对运动的时分限制条件进行建模，鲁棒性较差。为此，Veeraraghavan等人[35]用动态时间规整（dynamic time warping，DTW）来匹配运动序列。DTW是一种时变数据序列匹配方法，常用于微生物学的DNA匹配、字符串和符号的比较以及语音分析[77]。DTW算法的思想是给定参考模板特征矢量序列与输入特征矢量序列，寻找一个最佳的时间规整函数，使得输入序列的时间轴映射到参考模板的时间轴上总的累计失真最小。对DTW而言，即使测试序列模式与参考序列模式的时间尺度不能完全一致，只要时间次序约束存在，它仍能较好地完成测试序列与参考序列之间的模式匹配。DTW具有概念简单、算法鲁棒的优点，能够对图像序列进行分类。文献[35]在形状空间中用动态时间规整方法计算两个形状序列之间的距离来识别动作和步态，取得了很好的分类结果。然而，DTW算法计算量较大，缺乏考虑相邻时序之间的动态特性，而在实际中，运动序列中相邻序列在时间和空间上有高度的相关性。

基于模板匹配方法计算复杂度低、实现简单，但缺乏考虑运动序列中相邻时序之间的动态特性，对于噪声和运动时间间隔变化敏感。

2.2 基于状态转移图模型方法

基于状态转移图模型方法[78，79]是将每个静态姿势或运动状态作为图中的一个节点或状态，对应于各个姿势或运动状态节点之间的依存关系通过某种概率联系起来，这样任何运动序列可以看做在图中不同节点或状态之间的一次遍历过程。常用于行为理解的图模型方法有隐马尔可夫及其改进模型[80~95]、动态贝叶斯网络[96~102]、人工神经网络[45，103]、有限状态机[104，105]和置信网络[106]等。本文对前三种常用方法进行总结分析。

2.2.1 隐马尔可夫及改进模型

与DTW相比，隐马尔可夫模型是一种更加成熟的匹配时变数据的技术。HMMs用马尔可夫过程建立相邻实例之间的相互关系，并假设观察序列由固定个数的隐状态构成的隐过程决定，是一种随机状态机。HMMs的使用涉及到训练和分类两个阶段。训练阶段包括指定一个隐马尔可夫模型的隐藏状态数，并且优化相应的状态转换和输出概率，以便于产生的输出符号与对特定运动类别之内所观察到的图像特征相匹配。受HMMs在语音数据分析[80]成功应用的影响，研究人员将HMMs用于视觉识别[73，81~83]。Bregler[81]基于人体动力学在不同抽象等级的统计分析，提出了用一个综合性的网络来识别人的运动：在底层处理阶段，以混合高斯模型来估计基于运动、彩色相似度和空间接近程度等小区域块，不同的身体部分区域在图像序列中被跟踪；在中层处理阶段，具有一致运动特性的区域被匹配为动力学系统中的简单运动（如行走被认为是两个简单运动的组成：一个是腿的支撑，一个是腿在空中的摆动）；在高层处理阶段，HMMs被用来作为这些中级动力系统的混合模型以表达复杂的运动，识别过程通过最大化HMMs的后验概率来完成。实验表明，在学习能力和处理未分割的连续数据流方面，HMMs比DTW有更好的优越性。

HMMs有很强的输出独立性假设限制，其信号处理过程是一个单路马尔可夫过程，不能处理多个且相互依存的序列，导致其不能考虑上下文的特征，限制了特征的选择；而且其拓扑结构是事先给定的，它的模型参数需要用EM算法来估计（BaumWelch 算法）；对观测矩阵的初始值比较敏感，如果初始值选择不当，会造成概率函数的局部最大值。另外，分类模型不灵活，不能处理运动中分层与共享结构。为了识别复杂动作与人们之间的交互行为，Brand等人[84]提出一种耦合隐马尔可夫模型(coupled hidden Markov models， CHMM)[84~86]来建模行为中两个相互关联的随机过程，并用CHMM对手势进行识别。结果表明，与传统HMMs相比，CHMM具有更好的分类效果，计算速度快，而且对初始条件不敏感。Fine等人[87]为处理自然序列中复杂的多尺度结构，提出了层级隐马尔可夫模型(hierarchical hidden Markov model，HHMM)。HHMM具有多层隐马尔可夫模型的结构，所以能够更为清楚地表达出人运动中不同层次的行为细节。Nguyen等人[88，89]采用HHMM识别人的行为，并取得了很好的分类效果。此外还有抽象隐马尔可夫模型(abstract hidden Markov model， AHMM）[90]、可变长马尔可夫模型(variable length Markov model，VLMM)[91]、熵隐马尔可夫模型[92，93]和分层隐马尔可夫模型（layered hidden Markov model，LHMM）[94，95]等也被用于复杂行为识别。

2.2.2 动态贝叶斯网络

由于HMMs不能有效处理三个或三个以上独立的过程[86]，学者提出了HMMs的推广方法——动态贝叶斯网络（dynamic Bayesian networks，DBNs）[96]。动态贝叶斯网络是一种对随机过程描述的有向图解，通过网络拓扑结构反映变量间的概率依存关系及其随时间变化的情况，不受马尔可夫链的链状结构约束，因此不但能够在每个时刻上对多个随机变量所对应的不同特征之间的依存关系进行概率建模而不仅仅是一个隐藏状态变量，而且考虑了各个时刻间的转移概率，能够很好地反映特征之间的时序关系，适用于不确定性和概率性事物。所以动态贝叶斯网络逐渐成为人行为理解研究中一个有力的数学工具[97~102]。Park和Aggarwal[97]提出用层级贝叶斯网络方法识别两个人之间的动作。该方法在贝叶斯网络的低层估计被跟踪身体部分的姿态；然后在贝叶斯网络高层估计整个身体的姿态；最后用动态贝叶斯网络处理综合多个身体部分组成的状态。Muncaster等人[102]提出一个一般的d-层动态贝叶斯网络识别复杂的事件，在每一层用确定性的退火聚类算法自动检测观测层的状态。文献[98，99]则用贝叶斯网络识别停车场和地铁监控环境下的复杂行为。

贝叶斯网络的主要优点是利用先验知识建立视觉特征之间的因果关系来处理视频处理中固有的不确定性问题。动态贝叶斯网络还可以任意改变拓扑结果或增删变量以反映变量间各种不同的关联关系，而不影响训练算法本身，因此具有良好的可解释性，其拓扑结构具有精确及易于理解的概率语义。相比马尔可夫链，贝叶斯网络训练比较复杂。

2.2.3 神经网络

人工神经网络是由人工建立的以有向图为拓扑结构的动态系统，它通过对连续或断续的输入作状态响应而进行信息处理，在分析时变数据时具有很大的优势。Buccolieri等人[103]用神经网络对轮廓进行分析来识别人的姿态。由于神经网络通常需要用大量的数据来训练网络，研究学者在神经网络的基础上提出了时延神经网络（timedelay neural network，TDNN）。时延神经网络是在多层前馈感知器神经网络模型中引入时延单元使得神经网络增加记忆功能；同时，时变序列的前述值被用来预测下一个值。由于大量数据集成为可能，时延神经网络的重点就可以放在时分信息的表达，这样由此导出的神经网络模型适合应用于处理序列数据。Yang和Ahuja[45]应用时延神经网络于手势识别，并取得了较高的识别率。

除了上述两类方法，支持向量机（support vector machine，SVM）由于能够较好地解决常见的非线性分类问题中的小样本、非线性、高维数和局部极小点等实际问题，同时可以避免神经网络结构选择和局部极小点问题，成为20世纪90年代末发展最快的研究方向之一，并且在行为理解中也得到了充分的应用[47，54，107~109]。Cao等人[54]用SVM建立滤波图像分类器来对运动分类。文献[109]提出一种基于光流直方图运动描述算子，并用SVM训练分类器识别运动员的动作。

3 高层行为与场景理解

尽管用上述行为识别方法能够识别较复杂的动作，但要理解“场景中在发生什么事情”等复杂行为与事件，不仅需要解释和理解视觉输入，还需要场景中相关信息与背景知识，尤其是对涉及人活动的场景理解更需要抽象且有代表意义的策略。高层行为事件与场景理解是在对场景图像信息的各种处理和分析的基础上，解释和描述场景图像的内容，包括场景中人与人、人与物体的行为以及它们之间的时空关系，这也称为高层视觉。目前研究较多的事件检测是对整个视频序列内容以及真实场景的总结分析过程。其核心思想是利用物体或环境知识去理解场景中发生的动作或将要发生的动作，广泛应用于停车场、超市、地铁以及机场等公共场所的智能监控中检测是否有异常行为发生并告警。VSAM、Pfinder和AVITRACK等系统都具有场景理解与事件检测的功能。目前高层行为与场景理解的方法包括基于规则推理网络[33，105，106，110~113]、随机文法(包括随机上下文无关文法：stochastic context free grammar，SCFG)[114~116]、概率状态依存语法（probabilistic state dependent grammars，PSDG)[117]、因果分析[118]等。

Badler[105]提出一种基于运动动词的分层框架来分析运动。一个运动动词就是一种行为，而这些动词是预先定义在静态图像的规则基础上，用自动状态机建立起行为之间的联系。这种系统理论上可以解释人行为中的复杂事件，但系统仅仅在人工环境中进行测试。Kojima和Tamura[111]则提出一种事件框架来识别单个人的动作。首先提取出人体头、身体和手的运动，定义事件帧(case frame)来描述动作规则，从而建立起人运动姿态、位置信息与运动概念之间的对应关系。Hongeng等人[112]则提出事件是由动作线程构成，而且每个线程有单个角色执行，每个单一动作线程通过贝叶斯方法，利用角色的轨迹和运动块特性来识别，这样事件可以通过许多在时分限制上相关的动作线程来表达。Robertson等人[113]组合运动轨迹信息与局部运动描述算子，借助图像特征数据概率搜索方法来描述和识别动作，并用编码场景规则的HMM平滑动作序列，这样通过计算当前动作序列下的HMM概率来识别高层行为。基于规则的方法在动作分析中显示了其优点，但由于某些行为的模糊性，基于规则推理方法很难给每个行为定义准确的规则，而且不同的应用领域定义的规则也不相同。

随机文法由于能够从包括HMM不能同时处理的多个过程中提取出有意思的行为，被用来有效地描述真实场景。Ivanov和Bobick[115]提出两步策略来理解自动监控系统中的高层行为和事件。在低层处理部分用HMM检测和识别简单的行为模式，并将输出向量映射为离散语法字母表；在高层部分则采用随机上下文无关文法模型分析、理解低层输出，最终实现行为理解。但这种方法受其语法的上下文无关约束的限制。复杂的行为，尤其是有目的的行为，其状态通常是前后相关的，也就是下面的行为依赖于当前的状态，这样使得行为并不是上下文无关的。此外，两步识别策略不支持从低层数据到高层理解的在线无缝概率推理。基于这样的缺点，Nguyen等人[119]提出用抽象隐马尔可夫记忆模型（abtract hidden Markov memory model，AHMEM)识别复杂室内环境中人的高层行为。Park和Aggarwal[118]提出一种事件语义学来表达和识别人之间的交互行为，并用语言学中的动词元结构按每三个运动目标一组的结构形式来描述运动。时空限制用于决策树来识别特殊的交互行为。在这个框架下，人的动作以“主语+动词+宾语”结构来自动表达，同时人的交互行为根据人动作之间的因果语义关系来描述。

当前对高层行为与场景理解的研究还很不完善，高层行为与场景理解研究受一些视觉基础问题的束缚，如像素级的分割、遮挡以及处理可变性的能力。目前的研究都是针对特定领域应用的研究，有些只是提取场景信息高层的语义，不可能在任意图像中确定不同的景物。

4 行为理解存在的问题与发展趋势

尽管近年来利用机器学习工具构建人行为的统计模型、理解人行为的研究有了一定的进展，但由于动态场景中运动的快速分割、宽松的着装、遮挡、阴影和光照变化、运动的非刚性和高自由度[24，120]、行为发生的场景和人运动的模糊性（关于行为、事件、状态有着不同的概念）等因素的影响，使得人视觉行为理解成为一个复杂且极具挑战性的任务。相对于检测、跟踪等技术的显著发展，其行为理解的研究进展比较缓慢。目前行为理解的研究仍处于初级阶段，即原子动作[29]分析，也就是简单日常标准动作如行走、跳、站起、坐等[30~37]和以人行为为目标的简单事件检测等[97，102，121~123]。其亟待解决的问题和未来的发展趋势有以下几个方面：

a）运动特征选择与表达。如何选择特征来充分表达运动成为行为理解的关键问题之一。一般是尽可能选择较多的特征或者是在连续特征的典型匹配过程中引入人运动模型的简化约束条件来减少、消除歧义性。但如果选取的特征过多、特征向量维数过大，则会增加计算的复杂度；而选择特征过少，又可能不足以识别与理解人行为，而引入人运动模型的简化约束条件与一般的图像条件却又是不吻合的[28]。因此，能否借鉴人类的学习、识别与理解机理，定义一个动态特征模型，首先提取有关行为的主要特征，当这些特征不足以完成识别与理解时，系统逐步提取候选的细节特征；另外一种更好的办法是使用行为的二维表达捕捉行为的视觉不变特征[49，124]，那样对行为理解不会引起歧义。但是如何选择视觉不变特征却又是一项很困难的任务。此外，提取特征的不稳定性也为行为理解带来很大的困难，但多模特征融合将为行为理解提供一种很好的解决办法。例如在某些环境中，可视信息受干扰，变得敏感不可靠时，声音特征将为基于视频的行为理解提供一个很好的补充[125，126]；在遮挡的情况下，基于多摄像机信息融合方法由于能够很好地解决遮挡问题，在行为理解研究[70~72]也将会得到快速的发展。

对于运动特征表征来说，不同复杂程度的运动通常会采用不同的运动表达方法，即使是同一种动作在不同的场合，由于快慢速度不一致等都会产生不同的时空关系。如何表征这些细微的时空变化并没有一个很好的办法。一个可行的办法是采用多分辨率的方法[127]来表征和分析运动，但计算量较大。

b）行为识别。目前人行为理解虽然取得一定的进展，但行为理解研究还只局限于简单、固定视角且已切分好后的动作，对不同动作连续变化的长运动序列的研究比较少[54]，而且鲁棒差，在噪声、亮度和光照变化强烈以及视角变化的复杂环境中正确识别率大大降低。目前的行为识别方法如状态转移的图模型方法和模板匹配方法通常在计算代价和运动识别的准确度之间进行折中，而且都是先训练后使用，只能识别训练中预先定义好的动作，没有自动学习新行为的能力，缺乏考虑场景等背景知识，很难根据目标行为和场景的先验知识进行自动机器学习。例如HMMs等方法被看成一个黑盒，它不解释某种行为是什么，只输出一种未知行为与认知的模式行为之间的概率。所以仍需要寻找和开发新技术，以利于在提高行为识别性能的同时，又能有效地降低计算的复杂度。

c）高层行为与场景理解。行为本身具有很强的模糊性，同一行为、事件、状态在不同的场景有着不同的概念，当同一场景中有多个目标出现时其行为模糊性更加明显。所以，如何借助于先进的视觉算法和人工智能等领域的成果，将现有的简单行为识别与理解推广到更为复杂场景下的事件与场景理解，是将计算机视觉低、中层次的处理推向高层抽象思维的关键问题。

d）行为理解与生物特征识别相结合。在智能安全监控、智能人机交互中，行为理解与生物特征相结合显得更加重要，不但要求系统能够识别被监控对象的当前行为状态，而且能够识别当前被监控的对象身份。生物特征技术识别如步态识别[50]、人脸识别等[128，129]给对象身份识别提供了一个很好的解决办法。所以与生物特征识别相结合的行为理解将会是未来的研究方向之一。

e）算法评价。一般而言，鲁棒性、准确度、速度是人行为识别的三个基本要求，要求能够快速准确地识别运动且连续地工作，对于如噪声、光照、天气等因素的影响不能太敏感。但目前的识别方法更多关注的是识别率，对鲁棒性和速度两个指标研究要求很少。另外，对行为识别方法没有统一的视频测试序列，大部分研究方法都是具体问题具体分析，是用各自选择的视频序列进行实验分析，无法对提出的算法进行统一评价。

5 结束语 

人行为理解已经成为计算机视觉领域一个重要的研究方向之一，在智能监控、人机交互等方面的应用前景引起了广大科研人员的浓厚兴趣。本文从特征选择与运动表征、行为识别方法以及高层行为与场景理解三个方面总结了近年来人行为理解研究现状和进展。其征提取和运动表征可以归结为行为建模，即如何描述行为动作。目前的方法需要根据具体实际应用情况，在动作模型描述精确度和计算复杂度中折中，选择适当的方法来对行为建模。本文将行为识别算法细分成模板匹配方法、基于图模型的方法等，同时对各种常用的数据匹配方法进行逐一分析，并且讨论了目前的高层行为与场景理解的研究发展与现状。最后提出了目前行为理解存在的问题和未来的发展趋势。尽管当前行为理解研究取得了一定的进展，但依然处于萌芽阶段，需要提出新的方法来解决相关问题，提高行为理解的性能。

参考文献：

［[1]王亮，胡卫明，谭铁牛.人运动的视觉分析综述[J].计算机学报，2002，25(3):225-237.

[2]JAIMES A，SEBE N.Multimodal human computer interaction:a survey[C]//Proc ofIEEE International Workshop on Human Computer Interaction in Conjunction with ICCV2005.Beijing：[s.n.]，2005.

[3]NIJHOLT A.Meetings， gatherings， and events in smart environments[C]//Proc of ACM SIGGRAPH International Conference on Virtual Reality Continuum and Its Applications in Industry.2004:229-232.

[4]KITTLER J，BALLETTE M，CHRISTMAS W J，et al. Fusion of multiple cue detectors for automatic sports video annotation[C]//Proc of Workshop on Structural， Syntactic and Statistical Pattern Recognition.2002:597-606.

[5]TJONDRONEGORO D，CHEN Y P P，PHAM B.Content ased video indexing for sports applications using integrated multimodal approach[C]//Proc of the 13th Annual ACM International Conference on Multimedia.2005:1035-036.

[6]COLLINS R，LIPTON A，KANADE T， et-al.A system for video surveillance and monitoring: VSAM final report，CMU-RI-TR-00-12[R].[S.l.]:Carnegie Mellon University，2000.

[7]HARITAOGLU I，HARWOOD D，DAVIS L S.W4: realtime surveillance of people and their activities[J].IEEE Trans on PatternAnalysis and Machine Intelligence，2000，22(8):809-830.

[8]NAYLOR M，ATTWOOD C I.Annotated digital video for intelligent surveillance and optimized retrieval:final report[R].[S.l.]:ADVISOR Conortium，2003.

[9]HID[EB/OL].www-static.cc.gatech.edu/gvu/perception//projects/hid.

[10]REASON[EB/OL].cvg.cs.reading.ac.uk/.

[11]WREN C R，AZARBAYEJANI A，DARRELL T， et-al . Pfinder:real time tracking of the human body[J].IEEE Trans on Pattern Analysis and Machine Intelligence，1997，19(7):780-785.

[12]BLAUENSTEINER P，KAMPEL M.Visual surveillance of an airport’s apron:an overview of the AVITRACK project[EB/OL].prip.tuwien.ac.at/~kampel/ papers/blauoeagm04.pdf.

[13][EB/OL].nlpr-web.ia.ac.cn/.

[14][EB/OL].research.microsoft.com/asia/group/vc/.

[15][EB/OL].cis.pku.edu.cn/introduction.htm.

[16]SHEIKH Y，SHAH M.Bayesian modeling of dynamic scenes for object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2005，27(11):1778-792.

[17]ELGAMMAL A，HARWOOD D，DAVIS L.Non arametric model for background subtraction[C]//Proc of the 6th European Conference on Computer Vision. Dublin，Ireland:[s.n.]， 2000:751-67.

[18]左军毅，潘泉，梁彦，等.基于模型切换的自适应背景建模方法[J].自动化学报，2007，33(5):467-473.

[19]JAVED O，SHAH M.Tracking and object classification for automated surveillance[C]//Proc of the 7th European Conference on Computer Vision.Copenhagen:[s.n.]，2002.

[20]CHEN Yun-qiang，RUI Yong，HUANG T S.Multicue HMMUKF for realtime contour tracking[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2006，28(9):1525-529.

[21]YANG Tao，LI S Z，PAN Quan， et-al . Real time multiple objects tracking with occlusion handling in dynamic scenes[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.San Diego，CA:[s.n.]，2005.

[22]WANG Yong zhong，LIANG Yan，ZHAO Chun hui， et-al. Adaptive multi cue kernel tracking[C]//Proc of IEEE International Conference on Multimedia & Expo.2007:1814-1817.

[23]李培华.一种改进的Mean Shift跟踪算法[J].自动化学报，2007，33(4):347-354.

[24]AGGARWAL J K，CAI Q.Human motion analysis: a review[C]//Proc of IEEE Nonrigid and Articulated Motion Workshop.Piscataway:IEEE Computer Society，1997:90-102.

[25]GAVRILA D M.The visual analysis of human movement: a survey[J].Computer Vision and Image Understanding，1999，73(1): 82-98.

[26]MOESLUND T B，GRANUM E.A survey of computer visionbased human motion capture[J].Computer Vision and Image Understanding，2001，81(3):231-268.

[27]HU Wei ming，TAN Tie niu，WANG Liang， et-al. A survey on visual surveillance of object motion and behaviors[J].IEEE Trans on Systems， Man， and CyberneticsPart C: Application and Reviews，2004，34(3):334-352.

[28]刘相滨，向坚持，王胜春.人行为识别与理解研究探讨[J].计算机与现代化，2004(12):1-5，27.

[29]BUXTONH，GONG Shao gang.Advanced visual surveillance using Bayesian networks[C]//Proc of the 5th IEEE International Confe rence on Computer Vision.Massachusetts:[s.n.]，1995.

[30]BREMOND F，THONNAT M，ZUNIGA M.Video understanding framework for automatic behavior recognition[J].Behavior Research Methods Journal，2006，38(3):416-426.

[31]AMER A，DUBOIS E，MITICHE A.A realtime system for high level video representation:application to video surveillance[C]//Proc of SPIE International Symposium on Electronic Imaging， Conference on Visual Communication and Image Processing.Santa Clara:[s.n.]，2003:530-541.

[32]JIN Ning，MOKHTARIAN F.Human motion recognition based on statistical shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2005.

[33]ELBASI E，ZUO Long，MEHROTRA K， et-al. Control charts approach for scenario recognition in video sequences[J].Turk J Elec Engin，2005，13:303-310.

[34]FUJIYOSHI H，LIPTON A J.Real time human motion analysis by image skeletonization[C]//Proc of the 4th IEEE Workshop on Applications of Computer Vision.1998:15-21.

[35]VEERARAGHAVAN A，ROYCHOWDHURY A K，CHELLAPPA R.Matching shape sequences in video with applications in human movement analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2005，27(12):1896-1909.

[36]CHEN H S，CHEN H T，CHEN Yiwen，et al.Human action recognition using star skeleton[C]//Proc of the 4th ACM International Workshop on Video Surveillance and Sensor Networks.2006.

[37]WANG Liang，SUTER D.Learning and matching of dynamic shape manifolds for human action recognition[J].IEEE Trans on Image Processing，2007，16(6):1646-1661.

[38]JU S X，BLACKY M J，YACOOBZ Y.Cardboard people:a paramete rized model of articulated image motion[C]//Proc of International Conference on Automatic Face and Gesture Recognition.1996:38-44.

[39]MITTAL A，ZHAO Liang，DAVIS L S.Human body pose estimation using silhouette shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2003:263-270.

[40]CORREAL P，CZYZ J，MARQUEST， et-al. Silhouette based probabilistic 2D human motion estimation for realtime applications[C]//Proc of International IEEE International Conference on Image Proce ssing.2005.

[41]POPPER，POEL M.Example based pose estimation in monocular images using compact Fourier descriptors，TRCTIT-05-49[R].Enschede:University of Twente， 2005.转贴于

[42]MORI G，MALIK J.Recovering 3D human body configurations using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2006，28(7):1052-1062.

[43]CEDRASC，SHAH M.Motion based recognition:a survey[J].Image and Vision Computing，1995，13(2):129-155.

[44]BLACK M J，YACOOB Y，JU S X.Recognizing human motion using parameterized models of optical flow[M]//Motion based recognition.[S.l.]:Kluwer Academic Publishers，1997:245-269.

[45]YANG M H，AHUJA N.Recognizing hand gesture using motion trajectories[C]//Proc of IEEE International Conference on Computer Vision and Image Understanding.1999.

[46]EFROS A，BERG A，MORIG， et-al . Recognizing actions at a distance[C]//Proc of IEEE International Conference on Computer Vision.Nice，France:[s.n.]，2003.

[47]ZHU Guangyu，XU Changsheng.Action recognition in broadcast tennis video[C]//Proc of the 18th International Conference on Pattern Recognition.2006.

[48]JOHANSSONG.Visual perception of biological motion and a model for its analysis[J].Perception and Psychophysics，1973，14(2):201-211.

[49]NIU Feng，ABDELMOTTALEB M.View invariant human activity recognition based on shape and motion features[C]//Proc of the 6th IEEE International Symposium on Multimedia Software Engineering.2004.

[50]WANG Liang，NING Hua zhong，TAN Tie niu， et-al. Fusion of static and dynamic body biometrics for gait recognition[J].IEEE Trans on Circuits and Systems for Video Technology，2004，14(2):149-158.

[51]FANTIC，ZWLNIKMANORL，PERONAP.Hybrid models for human motion recognition[C]//Proc of IEEE Conference Computer and Pattern Recognition.2005:1166-1173.

[52]BOBICKAF，DAVISJW.The recognition of human movement using temporal templates[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2001，23(3):257-267.

[53]MASOUDO，PAPANIKOLOPOULOS N.A method for human action recognition[J].Image and Vision Computing，2003，21:729-743.

[54]CAO Dongwei，MASOUDOT，BOLEY D.On line motion classification using support vector machines[C]//Proc of IEEE International Conference on Robotics and Automation.New Orleans:[s.n.]，2004.

[55]LAPTEV I，LINDEBERG T.Local descriptors for spatio temporal recognition[C]//Proc of International Workshop on Spatial Coherence for Visual Motion Analysis.Prague:[s.n.]，2004.

[56]DOLL’AR P，RABAUD V，COTTRELL G， et-al. Behavior recognition via sparse spatiotemporal features[C]//Proc of the 2nd Joint IEEE International Workshop on Visual Surveillance and Performance Eva luation of Tracking and Surveillance.2005.

[57]BLANKM，GORELICKL，SHECHTMANE， et-al. Actions as space time shapes[C]//Proc of IEEE International Conference on Computer Vision.Beijing:[s.n.]，2005.

[58]GAVRILA D，DAVIS L.3D modelbased tracking of human upper body movement: a multiview approach[ C]//Proc of International Symposium on Computer Vision.1995:253-258.

[59]ISARDM，BLAKEA.Condensation-conditional density propagation for visual tracking[J].International Journal of Computer Vision，1998，29(1):5-28.

[60]DEUTSCHER J，BLAKE A，REID I.Articulated body motion capture by annealed particle filtering[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.1998.

[61]NIYOGI S，ADELSON E.Analyzing and recognizing walking figures in xyt[C]//Proc of Computer Vision and Pattern Recognition.1994:469-474.

[62]LONCARICS.A survey of shape analysis techniques[J].Pattern Recognition，1998，32(8):983-1001.

[63]DRYDENI L，MARDIA K V.Statistical shape analysis[M].[S.l.]:Wiley，1998.

[64]DRYEN I.Statistical shape analysis in high level vision[C]//Proc of IMA Workshop on Image Analysis and High Level Vision.2000.

[65]BELONGIE S，MALIK J，PUZICHA J.Shape matching and objects recognition using shape contexts[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2002，24(4):509-522.

[66]HU M K.Visual pattern recognition by moment invariants[J].IEEE Trans on Information Theory，1962，8(2):179-187.

[67]POPPE R，POEL M.Comparison of silhouette shape descriptors for example based human pose recovery[C]//Proc of the 7th IEEE International Conference on Automatic Face and Gesture Recognition.Southampton:[s.n.]， 2006.

[68]VASWANI N，CHOWDHURY A R，CHELLAPPA R.Activity recognition using the dynamics of the configuration of interacting objects[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition .2003.

[69]LIU Che bin，AHUJA N.A model for dynamic shape and its applications[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2004.

[70]PARK S，TRIVEDI M M.A two stage multi view analysis framework for human activity and interactions[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.

[71]TYAGI A，POTAMIANOS G，DAVIS J W， et-al. Fusion of multiple camera views for kernel based 3D tracking[C]//Proc of IEEE Workshop on Motion and Video Computing.2007.

[72]ZOUBA N，BREMOND F，THONNAT M， et-al. Multisensors analysis for everyday activity monitoring[C]//Proc of the 4th International Conference on Sciences of Electronic， Technologies of Information and Telecommunications.2007.

[73]BASHIRFI，KHOKHARA A， SCHONFELDD.Object trajectory based activity classification and recognition using hidden Markov models [J].IEEE Trans on Image Processing，2007，16(7):1912-1919.

[74]ROBERTSON N，REID I.A general method for human activity recognition in video[J].Computer Vision and Image Understanding，2006，104:232-248.

[75]YACOOB Y，BLACK M J.Parameterized modeling and recognition of activities[J].Computer Vision and Image Understanding，1999，73(2):232-247.

[76]CARLSSON S，SULLIVAN J.Action recognition by shape matching to key frames[C]//Proc ofWorkshop on Models Versus Exemplars in Computer Vision.2001.

[77]RABINER L，JUANG B.Fundamentals of speech recognition[M].[S.l.]:Prentice Hall，1993.

[78]MURPHY K P.An introduction to graphical models[R].2001.

[79]STENGEL M.Introduction to graphical Models，hidden Markov models and Bayesian networks[EB/OL].(2003-02-07).http:markusstengel.de/varions/uni/speech/tutorial.pdf.

[80]RABINER L R.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proc of the IEEE，1989，77(2):257-286.

[81]BREGLER C.Learning and recognizing human dynamics in video sequences[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Puerto Rico:[s.n.]，1997:568-574.

[82]YAMATO J，OHYA J，ISHII K.Recognizing human action in timesequential images using hidden Markov model[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Champaign， Illinois:[s.n.]，1992:379-385.

[83]TOREYIN B U，DEDEOGLU Y，CETIN A E.HMM based falling person detection using both audio and video[C]//Proc of IEEE International Workshop on HumanComputer Interaction.Beijing:[s.n.]，2005.

[84]BRAND M，OLIVER N，PENTLAND A.Coupled hidden Markov models for complex action recognition[C]//Proc of IEEE Internatio nal Conference on Computer Vision and Pattern Recognition.1997:994-999.

[85]KRISTJANSSON T T，FREY B J，HUANGTS， et-al. Event coupled hidden Markov models[C]//Proc of IEEE International Conference on Multimedia and Expo.2000:385-388.

[86]OLIVER N，ROSARIO B，PENTLAND A.A Bayesian computer vision system for modeling human interactions[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2000，22(8):831-843.

[87]FINES，SINGERY，TISHBYN.The hierarchical hidden Markov model: analysis and applications[J].Machine Learning，1998，32(1):41-62.

[88]NGUYEN N T，PHUNG D Q，VENKATESH S， et-al. Learning and detecting activities from movement trajectories using the hierachical hi dden Markov model[C]//Proc of Computer Vision and Pattern Re cognition. San Diego:[s.n.]，2005:955-960.

[89]KAWANAKA D，OKATANI T，DEGUCHI K， et-al. Hierarchical HMM based recognition of human activity[C]//Proc of MVA.2005.

[90]BUI H H，VENKATESH S，WESTGA， et-al. Tracking and surveillance in widearea spatial environments using the abstract hidden Markov model[J].International Journal of Pattern Recognition and Artificial Intelligence，2001，15(1):177-195.

[91]GALATA A，JOHNSON N，HOGG D.Learning variable length Markov models of behavior[J].Computer Vision and Image Understan ding，2001，81(3):398-413.

[92]SMINCHISESCUC，KANAUJIA A，LI Zhiguo， et-al. Conditional models for contextual human motion recognition[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005.

[93]BRAND M，KETTNAKER V.Discovery and segmentation of activities in video[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2000，22(8):844-851.

[94]OLIVER N，HORVITZ E，GARG A.Layered representations for human activity recognition[C]//Proc of the 4th IEEE International Conference on Multimodal Interfaces.2002:3-8.

[95]ZHANG Dong，GATICAPEREZ D，BENGIOS， et-al. Modeling inpidual and group actions in meetings with layered HMMs[J].IEEE Trans on Multimedia，2006，8(3):509-520.

[96]MURPHYK.DynamicBayesiannet works:representation，inference and learning[D].Berkeley:University of California，2002.

[97]PARK S，AGGARWAL J K.Recognition of twoperson interactions using a hierarchical Bayesian network[C]//Proc of ACM SIGMM International Workshop on Video Surveillance.Berkeley:[s.n.]，2003:65-76.

[98]DU You tian，CHEN Feng，XU Wenli， et-al. Interacting activity recognition using hierarchical durational state dynamic Bayesian network[C]//Proc of Pacific Rim Conference on Multimedia.2006:185-192.

[99]MOENNELOCCOZN，BREMONDF，THONNAT M.Recurrent Bayesian network for the recognition of human behaviours video[C]//Proc of ICVS. Graz:IEEE Computer Society Press，2003:68-77.

[100]GONG Shao gang，XIANG Tao.Recognition of group activities using dynamic probabilistic networks[C]//Proc of International Conference on Computer Vision.2003:742-749.

[101]LUO Ying，WU T D，HWANG J N.Object based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J].Computer Vision and Image Understanding，2003，92(2):196-216.

[102]MUNCASTER J，MA Yunqian.Activity recognition using dynamic Bayesian networks with automatic state selection[C]/Proc of IEEE Workshop on Motion and Video Computing.2007.

[103]BUCCOLIERI F，DISTANTE C，LEONE A.Human posture recognition using active contours and radial basis function neural network[C]//Proc of Conference on Advanced Video and Signal Based Surveillance.2005.

[104]HONG Pengyu，TURK M，HUANG T S.Gesture modeling and recognition using finite state machines[C]//Proc of IEEE Conference on Face and Gesture Recognition.2000.

[105]BADLER N.Temporal scene analysis:conceptual description of object movements，No.80[R].Toronto:University of Toronto，1975.

[106]INTILLE S，BOBICK A.Representation and visual recognition of complex， multiagent actions using belief networks，No.454[R].[S.l.]:MIT，1998.

[107]MORI T，SHIMOSAKA M，SATO T.SVMbased human action recognition and its remarkable motion features discovery algorithm[C]//Proc of International Symposium on Experimental Robotics.2003.

[108]LAPTEV S I，CAPUTO B.Recognizing human actions: a local SVM approach[C]//Proc ofInternational Conference on Pattern Recognition.2004.

[109]ZHU Guang yu，XU Chang sheng，GAO Wen， et-al. Action recognition in broadcast tennis video using optical flow and support vector machine[C]//Proc of ECCV.2006.

[110]CUTLER R，TURK M.Viewbased interpretation of real time optical flow for gesture recognition[C]//Proc of the 3rd International Confe rence on Face Gesture Recognition.1998.

[111]KOJIMA A，TAMURA T.Natural language description of human activities from video images based on concept hierarchy actions[J].International Journal of Computer Vision，2001，50:171184.

[112]HONGENGS，NEVATIA R.Multi agent event recognition[C]//Proc of International Conference on Computer Vision.2001:84-91.

[113]ROBERTSON N，REID I.Behavior understanding in video: a combined method[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:808-815.

[114]PYNADATHD V，WELLMAN M P.Generalized queries on probabilistic context free grammars[J].IEEE Trans on Pattern Analysis and Machine Intelligence，1998，20(1):65-77.

[115]IVANOV Y，BOBICK A.Recognition of visual activities and interactions by stochastic parsing[J].IEEE Trans on Pattern Recognition and Machine Intelligence，2000，2(8):852-872.

[116]RYOOM S，AGGARWAL J K.Recognition of composite human activities through contextfree grammar based representation[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2006. 

[117]PYNADATHDV，WELLMANMP.Probabilistic state dependent grammars for plan recognition[C]//Proc of the 16th Conference on Uncertainty in Artificial Intelligence.San Francisco， CA:[s.n.]， 2000:507-514.

[118]PARKS，AGGARWAL J K.Event semantics in twoperson interactions[C]//Proc of International Conference on Pattern Recognition.Cambridge:[s.n.]，2004.

[119]NGUYEN N T，BUI H H，VENKATESHS， et-al. Recognising and monitoring highlevel behaviours in complex spatial environments[C]//Proc of IEEE Computer Vision and Pattern Recognition Canference.2003.

[120]KAMBHAMETTUC，GOLDGOFDB，TERZOPOULOSD，et-al.Nonrigid motion analysis[M]//Handbook of PRIP:computer vision.Orlando:Academic Press，1994.

[121]FERRYMAN J，BORGM，THIRDED， et-al. Automated scene understanding for airport aprons[C]//Proc of the 18th Australian Joint Conference on Artificial Intelligence.Sidney:SpringerVerlag，2005.

[122]BIRD N D，MASOUD O，PAPANIKOLOPOULOSNP， et-al. Detection of loitering inpiduals in public transportation areas[J].IEEE Trans on Intelligent Transportation Systems，2005，6(2):167-177.

[123]LUSi jun，ZHANG Jian，FENGDD.Detecting unattended packages through human activity recognition and object association[J].Journal of the Pattern Recognition，2007，40(8):2173-2184. [124]OGALEA S，KARAPURKAR A，ALOMONOS Y.Viewinvariant modeling and recognition of human actions using grammars[C]//Proc of International Conference on Computer Vision.Beijing:[s.n.]，2005.

[125]GATICAPEREZD，LATHOUDG，ODOBEZJM， et-al. Audio visual probabilistic tracking of multiple speakers in meetings[J]. IEEE Trans on Audio， Speech， and Language Processing，2007，15(2):601-616.

[126]CRISTANI M，BICEGOM，MURINOV.Audio visual event recognition in surveillance video sequences[J].IEEE Trans on Multime dia，2007，9(2):257-267.

[127]LI Hong，GREENSPAN M.Multi scale gesture recognition from time varying contours[C]//Proc of the 10th IEEE International Conference on Computer Vision.2005:236-243.

篇6

关键词：蓄电池；智能视频；分析

1 概述

在当前的生产生活中，为保证重要设备和应急使用时的不间断供电和可靠安全运行，蓄电池组作为交流失电或事故应急时的唯一能量供给设备已广泛应用在各行各业的大型计算机网络系统中，承担了越来越重要的紧急电力备份任务。蓄电池组作为整个直流系统的后备电源，是整个电源系统的最后一道供电保障，当交流电失电时蓄电池组一旦不能正常工作，整个直流系统将停运，会造成比较大的运行事故。

当前对于蓄电池管理和运维的技术手段比较有限，变电站多分布于比较便远的地区，且数量较多，现场巡检人员成本较高。对于蓄电池的维护，如在线核容实验要求步骤较多，一担工作人员操作失败，就会造成不可挽回的灾难。

现如今，模式识别和计算机视频为基础的视频分析技术是比较成熟的，能够做到在非人工分析的情况下准确分辨、识别以及获取重要目标的有价值信息，并且这一技术在复杂繁多的视频图像中也能够有效的运用。根据目前视频分析技术的优点，把这一技术应用于蓄电池在线监测系统。使其可以连续不断的非人工分析监控画面，及时的向监控人员反馈有价值的信息。对于现有监控系统的作用与能力，不但可以更加有效的发挥而且极容易拓展，使得智能化无人值守变电站蓄电池远程巡检变为现实。

2 相关背景研究

智能视频分析技术：智能视频分析是以计算机视觉技术为基础的，是人工智能研究领域的重要分支。这一技术可以有效的建立图像和图像描述之间的一一对应关系，故其数学映射关系能够使计算机简单有效地把复杂视频画面翻译成数字图像，然后进行处理和分析。基于计算机图像视觉分析技术的智能视频分析技术，可以将场景中背景和目标分离进而分析并追踪在摄像机场景内出现的目标。根据智能视频分析技术的原理，用户想要充分利用视频的内容分析功能，就可以在每个摄像机的场景中预先设定一种报警规则，当摄像机场景内出现的目标违反了预定义规则，系统会机械地发出报警，监控工作站自动收到报警信息并且发出警示信号，反馈给监控人员。用户可以通过查看报警信息，实现报警的场景重组并采取相关措施。

视频监控中所提到的智能视频内容分析主要指的是非人工的分析和抽取视频源中的有价值信息。假如把摄像机比喻为人的眼睛，而人的大脑就是智能视频系统或设备。智能视频技术有效的利用计算机可以高效处理数据，高速分析视频画面中的海量数据，把用户不关心的信息剪裁掉，只把监控人员所需要的有价值的信息反馈给监控人员。

智能视频分析主要目的是主动监控而不是被动监控――事前预警；实时监视的任务交给计算机完成而不是人工――事中处理；目标与事件可以在大量的视频数据中实现快速搜索――事后取证。

3 技术要求及设计

3.1 技术要求

站端硬件部署主要实现以视频智能算法的任务计算负荷，承担系统整体运行的稳定性和实时传输性。因变电站现场环境复杂，为防止事故发生需要站端系统硬件处理能力和计算能力满足视频智能算法的所需资源负荷，针对智能算法的几种数学模型类型如下。

3.1.1 单高斯背景模型法

对于室内环境和没有复杂背景的室外环境可以使用单高斯背景法。该模型的使用主要由两大步骤组成：初始化背景图像；更新背景图像。

初始化背景图像。读取一段时间内视频序列图像中每一像素的灰度值，计算其平均灰度值以及平均灰度值及像素灰度值的方差，然后构成初始背景图像的高斯分布图，如式（1）所示：

（1）

简化如下：

（2）

（3）

更新背景图像。如果场景变化的情况发生，则背景模型需要根据背景图像的变化而发生相应的变化。实时信息是由视频序列提供的，而背景模型进行更新的算法就是利用这一实时信息，如式（4）所示。可以表示时刻的背景图像和实时图像，背景更新率是固定值，可以看出当前对象对背景图像的更新速率。

Bt（x，y）=？籽Bt-1（x，y）+？籽F（x，y）（4）

3.1.2 基于区域法跟踪

模板匹配的目标跟踪算法，通过距离加权、模板更新及局部匹配的方法来提高不同光照条件及变形情况下的鲁棒性，不再采用简单的平方差度量、相关匹配度量和相关系数度量，而是采用如式（5）所示的相似性度量函数：

硬件平台的技术与设备都应当使用目前国际上比较前沿而且成熟的技术和设备，这是考虑到了网络的发展日新月异，所以硬件平台技术与设备应当使得网络环境非常开放，网络服务非常丰富，升级潜力大，扩展性好。采用主干1000Mbps的以太网作为信息传递和数据传输的媒体以及相应的网络设备、接口设备、应用服务器、工作站和计算机终端设备等。

3.2 系统设计

本系统基于原有蓄电池在线监测装置总站系统，把智能视频图像分析服务器添加在前端变电站，把报警管理平台添加在中心运行管理所。智能视频图像分析服务器不间断的检测前端变电站的视频，报警管理平台反馈报警信息给运行管理所监控人员，然后由监控人员处理报警信息和现场证据收集。这样组成的系统主要功能和实现方式如下：

变电站蓄电池室内蓄电池运行状况检测。一旦确认蓄电池出现运行故障时，如冒烟、着火、爆炸，及时报警并上传到监控中心。

在变电站现场对蓄电池进行在线实验时，一旦确认操作人员操作有误，变电站现场报警灯亮起，并触发警铃，并上传到监控中心。

远程进行蓄电池在线实验时，实验过程中一旦确认蓄电池出现运行故障，会及时报警并上传到监控中心，且将视频信息进行存储，以备事后的故障追忆和事故分析。

本系统是建立在原有的电力变电站监控系统基础上的，只需要把原有的监控摄像机信号源分出2路，智能视频分析服务器接受其中一路视频，就是以现有监控系统为基础实现迅速、平滑的升级为智能视频监控系统。

在前端变电站，摄像机把视频图像输入智能视频分析服务器，使其可以根据人工设定的规则处理视频图像，并且对设定目标完成非人工跟踪和预告报警，当发现目标违反了预先设定的规则，立刻通过电力专网发出告警信息到运行管理所。在管理所监控人员收到报警信息的方式为：视频弹出，声音提示+文字提示。在原有平台基础上，新系统可以实现实时视频浏览，同时实现了人员入侵实时报警及抓拍，使得现有系统报警的误报率和准确率较高的问题得到有效的解决，并且由于报警发生时的实时抓图所需要的存储资源较小，从而使得监控管理效率有了很大的提高。

本方案主要目的是提高变电站监控系统的智能化水平，为蓄电池在线监测提供准确可靠的报警并尽量减少漏报，并及时提供和保留报警现场证据。

3.3 系统实现

系统主要实现了以下业务功能：

前端检测规则设置：主要为报警区域、触发方式。

系统管理：设备管理、用户管理、地图管理、系统设置、布防设置。

报警视图：电子地图、报警视频、报警图片、报警类型。

报警历史信息查询：报警图片、报警视频、报警类型、报警时间。

地图查看：查看布置点位、点位报警状态。

计算机视觉分析技术范文

篇1

篇2

篇3

篇4

篇5

篇6

热门标签

相关文章

相关期刊

计算物理

航空计算技术

航空计算技术

现代计算机

精品范文