卷积神经网络的优化范文
时间:2024-04-08 18:05:46
导语:如何才能写好一篇卷积神经网络的优化,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
1概述
深度学习(Deep Learning)是人工智能、图像建模、模式识别、神经网络、最优化理论和信号处理等领域的交叉学科,主要构建和模拟人脑进行分析学习,它属于机器学习的新兴领域。
2大数据与深度学习
目前,光学检测、互联网、用户数据、互联网、金融公司等许多领域都出现了海量数据,采用BP算法对于训练神经网络出现了梯度越来越稀疏、收敛到局部最小值只能用有标签的数据来训练等缺点。Hinton于2006年提出了深度学习的概念,Lecun等人提出了卷积神经网络,卷积神经网络利用空间关系减少参数数目以提高训练性能。
CPU和GPU计算能力大幅提升,为深度学习提供了硬件平台和技术手段,在海量大数据处理技术上解决了早期神经网络训练不足出现的过拟合、泛化能力差等问题。
大数据和深度学习必将互相支撑,推动科技发展。
3深度学习模型
深度学习模型实际上是一个包含多个隐藏层的神经网络,目前主要有卷积神经网络,深深度置信神经网络,循环神经网络。
1)卷积神经网络
在机器学习领域,卷积神经网络属于前馈神经网络的一种,神经元不再是全连接的模式,而是应用了局部感受区域的策略。然而传统的神经网络使用神经元间全连接的网络结构来处理图像任务,因此,出现了很多缺陷,导致模型⑹急剧增加,及其容易过拟合。
在卷积神经网络中,网络中的神经元只与前一层的部分神经元连接,利用图像数据的空间结构,邻近像素间具有更强的相关性,单个神经元仅对局部信息进行响应,相邻神经元感受区域存在重叠,因此,综合所有神经元可以得到全局信息的感知。
另外,一个卷积层中的所有神经元均由同一个卷积核对不同区域数据响应而得到,即共享同一个卷积核,使得卷积层训练参数的数量急剧减少,提高了网络的泛化能力。
一般在卷积层后面会进行降采样操作,对卷积层提取的特征进行聚合统计。降采样区域一般不存在重叠现象。降采样简化了卷积层的输出信息,进一步减少了训练参数的数量,增强了网络的泛化能力。
卷积神经网络实现了局部特征的自动提取,使得特征提取与模式分类同步进行,适用于处理高分辨率的图像数据。目前,卷积神经网络在图像分类、自然语言处理等领域得到广泛应用。
2)深度置信网络
深度置信网络是一种生成模型,网络中有若干隐藏层,同一隐藏层内的神经元没有连接,隐藏层间的神经元全连接。神经网络经过“反向运行”得到输入数据。
深度置信网络可以用做生成模型,通过前期的逐层无监督学习,神经网络可以较好的对输入数据进行描述,然后把训练好的神经网络看作深度神经网络,最后得到分类任务的深度神经网络。
深度置信网络可以用于图像识别、图像生成等领域,深度置信网络可以进行无监督或半监督的学习,利用无标记数据进行预训练,提高神经网络性能。但近几年由于卷积神经网络的飞速发展,深度置信网络已经很少被提及。
3)循环神经网络
循环神经网络是一种专门用于处理时序数据的神经网络,它与典型的前馈型神经网络最大区别在于网络中存在环形结构,隐藏层内部的神经元是互相连接的,可以存储网络的内部状态,其中包含序列输入的历史信息,实现了对时序动态行为的描述。这里的时序并非仅仅指代时间概念上的顺序,也可以理解为序列化数据间的相对位置。如语音中的发音顺序,某个英语单词的拼写顺序等。序列化输入的任务都可以用循环神经网络来处理。如语音、视频、文本等。对于序列化数据,每次处理时输入为序列中的一个元素,比如单个字符、单词、音节,期望输出为该输入在序列数据中的后续元素。循环神经网络可以处理任意长度的序列化数据。
循环神经网络可以用于机器翻译、连写字识别、语音识别等。循环神经网络和卷积网络结合,将卷积神经网络用于检测并识别图像中的物体,循环神经网络用于识别出物体的名称为输入,生成合理的语句,从而实现对图像内容的描述。
4深度学习应用
1)语音识别
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。其应用领域主要有语音输入系统、语音控制系统和智能对话查询系统,语音识别极大地推动了人工智能的快速发展。1952年Davis等人研究了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在20世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。2012年,微软研究院使用深度神经网络应用在语音识别上将识别错误率降低了20%,取得了突破性的进展。2015年11月17日,浪潮集团联合全球可编程芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同了一套DNN语音识别方案。
2)图像分析
图像是深度学习最早尝试的应用领域。1989年,LeCun和他的同事们就发表了卷积神经网络的工作。2012年10月,Hinton和他的两个学生用更深的CNN在ImageNet挑战上获得了第一名,使图像识别向前跃进了一大步。
自2012年以来,深度学习应用于图像识别使得准确率大大上升,避免了消耗人工特征抽取的时间,极大地提升了效率,目前逐渐成为主流的图像识别与检测方法。
篇2
关键词:智能消防;火焰识别;卷积神经网络
一、智能装备简介
若想提高消防救援队伍的灭火救援效能,提高装备的智能化水平是必不可少的一步。消防装备的配备情况影响着战术和战术效果,甚至是直接影响救援成功率的重要因素。因此,提升装备的智能化水平、改善装备结构从而提升消防救援队伍的作战能力是关系广大人民群众生命以及财产安全的重要手段。消防装备智能化的研究工作任重而道远。本文着眼于图像法火焰识别技术,通过研究新技术,探讨将其应用于智能消防装备之中的可行性。
二、卷积神经网络的简介
(一)网络结构。卷积神经网络功能繁多,其中多层检测学习神经网是一种多层次的神经监测网络。其中心模块为卷积层,主要由隐藏层与最大池采样层组成,主要功能是特征提取。其中,连接层与传统多层感应器的隐藏层、逻辑归类器相对应。卷积神经网络的输入特征来源使卷积滤波器,而该神经网络的每一层都有多个理论上的神经元以及特征图。在给一个来自卷积和子采样层的输入统计滤波后,系统就提取了图像局部的特征,就可以确定它与其他特征之间的相对方位,上一层的输出值直接输入至下一层。通常情况下,我们可以通过特征层来得到卷积层(特征层是指:输入到隐藏层之间的映射)。(二)局部感受野与权值共享。局部感受野:由于图像空间的连接是局部性的,因此每个神经元都不需要感测全部图像,而只需感觉到局部的特征。然后,通过对较高级别感测量的局部神经元进行集成,可以得到整体的信息,并且减少了连接数量。权重分享:不同神经元之间的参数分享可通过降低求解参数,并通过放大器对图像的放大积获得多种特征图。实际上,权重共享图像上的第一隐藏层的所有神经元由于是在同一卷积上确认的,所以均能在图像的任意一个位置检测到毫无差别的特性。他的最主要的功能是能够通过适应小范围的图像和平移从而达到检测不同位置的目的,也就是良好的不变性平移。(三)卷积层、下采样层。卷积层:通过去卷积来提取图像特征,用来强化初始信号原属性,从而减少噪音。下采样层:由于研究人员发现图像下采样过程中,它能在保留信息的同时降低数据处理量,因此在发现某一特定的特征后,由于这个位置并不重要,所以样本会扰乱特定的位置。我们只需要知道这个特征与其他特点之间的空间相对方位,就可以处理类似的物体由变形和变型而产生的变化。(四)卷积神经网络的不足。如果网络层需要加深,每一个网络层增加的神经元数量会大幅增加,从而使模型复杂化,增大了调整参数的难度,也增大了过度拟合的风险。此外,在反向传播过程中,连续迭代会使梯度不断减小,而梯度一旦归零,权值便无法更新,导致神经元失效。(五)展望与总结随着研究人员对卷积神经网络相关的研究不断推进,其性能日益强大,复杂度也日益提升。目前,卷积神经网络的相关研究已经取得了显著成效。然而,一些人工扰动(如向原图片中键入噪点)仍然会导致图像的错误分类。如何解决这一问题,是今后研究的重点。此外,卷积神经网络的结构升级仍有很大空间,通过提升网络结构设计的合理性,可以完善量化分析能力。
三、图像分割
图像中包含很多数据,需要分割图像。然而,精确区分干扰是对整个系统亮度的精确分类和准确划类的前提。图像的分析技术是计算机视觉技术的基础。通过图像分割、提取特征参量等方法可以将原本的图像抽象化,从而便于分析和处理。多年以来,图像的分割技术研究一直是重中之重,研究人员给出了多种分割方法。一般而言,图像分割是将图像划分为不同的区域,给不同的区域赋予不同的权重,从而获取重要对象的一种技术。特征可能是灰度、颜色、纹理等,目标可能对应一个区或多个地方,这与特殊目的应用程序和特殊目的服务请求程序有关。一般而言,图像取值分割分析算法大致来说可以再细分为图形图像取值分割、边缘图像分割、区域分割和重复图像分析四大个门类。
四、火焰色彩虚拟模型的特征
(一)火焰色彩颜色类型特征。火焰色彩模型一般来说是基于某种火焰色彩类型模式,通过在图像阈值控制范围内通过设置某种色彩模型图像阈值来降噪提取火焰颜色特征图像。可以用任何提取静态火焰的特殊像素或者图案方式来精确描述一个静态火焰特征。然而,单纯地依靠颜色模型来进行火焰识别会导致严重的误判。火焰的颜色范围是非常大的,所以它很可能与其他物体颜色相近,导致模型将其混为一谈。(二)降噪在。火焰发展的初期过程中,是不断处于移动变化的。又一方面,火焰的全部运动都不会跳跃,也就是火焰满足相对稳定性。所谓燃烧火灾的相对稳定性,是指在火灾发生后,燃烧范围的空间会成一个相对稳定的扩增趋势扩增。通过分析火灾的相对稳定性,可以消灭许多虚假信号。(三)静态模型。在基于单帧图像识别的算法中,由于只使用了几个以火焰为基准的单一形状特征,因此算法复杂、误判率很高。因此,一个能够自主优化识别的模型就显得十分重要,图像静态特征提取的方法如下:由于曲率在人的视觉系统中往往是观测场景的重要参数,因此提取几何图像曲率等参数,并以此描绘火焰图像;根据测得的数据,描绘连续零曲率以及局部最大曲率、最高曲率正负值等集合特点。(四)动态模型在动态燃烧过程中,产生的火焰具有持续性。此外,根据火焰自身的特性和各种原因,火焰还会不断发生变化。然而,这种变化并不在单个帧图像中反映出来,而是在连续的多帧图像中只反映。因此,提取火焰的动态特征就是分析处理连续多帧图像。近年来,随着火灾科学的发展,从火焰的随机状态中发现了其规则性:1.火焰的面积增长性;2.火焰的形状相似性;3.火焰的整体移动。基于图像的火焰识别算法可划分为动态识别和静态识别。若将这两种算法同步进行应用,则定能增加工作效率。火焰形成的重要特点之一便是火焰形状。对于采集到的ccd火焰图像,首先进行两个连续的图像差分操作,然后通过分割方法获得连续帧的变化区域,使用扫描窗口得到的像素点数来记述连续帧变化区域。变化区域是指:图像处理中,在获得阈值之后,通过对高光度进行科学计算、实验分析,最终得到的区域。当其他高温物体移动到相机或离开视野时,所检测到的目标区域会逐渐扩大,并容易引起干扰,从而造成系统错误的报告。因此,需要将数据和其他图像的关键性特征进行一个高强度的结合,再深度进行挖掘。火焰的形状相似性:图像之间的类似性通常依赖于已知描述特点之间的差异度。该方法能够在任意复杂程度上建立相应的类似性量。我们可以对两个相似的元素进行比较,也可以对两个相似的场面进行比较,图像之间的相似性通常意义上是指场景以及结构上的相似性。在一般情况下,图像的结构相似度往往并不高,因此,我们倾向于选择更加典型的结构特点进行描述,如区域面积、区域亮度、线段长度等参数。虽然火焰的图像序列中火焰的边缘往往是很不稳定的,但图像的总体变化会被限制在一定范围内,而且一般的干扰信号模式包含了固定点或者光照变化,因此,在火焰识别的过程中,可以用初始火焰形状的变化规则与其进行对照。尽管火焰的变化通常呈现出不规则的特性,然而这种不规则在形态、空间分布等方面往往具有某种相似之处,因此,我们可以用连续图像的结构相似性来进行解析。
五、结语
各种高新技术不断飞跃式发展,这为我国消防智能化技术的开发以及与外国新型消防设备之间的碰撞提供了一个良好的契机,而消防装备的智能化已成为一个必然的趋势。自改革开放至今,我国所研究的有关装备智能化领域内取得的成果,已经为我们打下了坚实的发展基础,因此我们更应该加快消防智能化的进程,综合现有所具备的技术,取其精华去其糟粕,适而用之。由于研究条件和专业方向的局限,本文对智能消防装备中的火焰识别技术仍然存在不足。此次智能消防装备的研究方向主要是火焰识别领域,以建立模型的方法进行测算与研究,而对于理论性知识方面的探讨仍存在很大的不足。之后的研究可以从其他方面进行深入的探讨,探究其对系统化建模会产生哪些方面的影响。
参考文献:
[1]喻丽春,刘金清.基于改进MaskR-CNN的火焰图像识别算法[J].计算机工程与应用,2020,964(21):200-204.
[2]肖堃.多层卷积神经网络深度学习算法可移植性分析[J].哈尔滨工程大学学报,2020,41(03):420-424.
[3]郭昆.基于卷积神经网络的建筑风格图像分类的研究[D].武汉理工大学,2017.
[4]徐晓煜.极化合成孔径雷达舰船检测方法研究[D].西安电子科技大学,2017.
[5]黄忆旻.基于图像检索的导游系统的设计与实现[D].苏州大学,2016.
[6]宋戈.火灾自动检测技术在无人值守变电站中的应用[D].沈阳理工大学,2010.
[7]葛勇.基于视频的火灾检测方法研究及实现[D].湖南大学,2009.
篇3
关键词:ROS;表面缺陷;图像采集;神经网络;模型训练
飞机蒙皮是包围在飞机骨架结构外且用粘接剂或铆钉固定于骨架上,形成飞机气动力外形的维形构件,在飞机正常工作状态下扮演着重要的角色,一旦飞机蒙皮出现缺陷等问题,需要及时的反馈出来并且维修。传统的飞机表面缺陷检测方式大多数是由人工来完成,会存在效率低、成本高等缺点,甚至会出现检测失误的情况。本文就针对铝合金表面缺陷检测方面,提出一种基于ROS的飞机表面缺陷检测系统,采用移动机器人底盘定位和导航技术,结合深度学习、图像处理等技术检测出存在缺陷的位置并标记出来,通过机器代替传统人工的方式,旨在提高检测效率和检测精度,为飞机表面缺陷检测提供一种方式。
1系统的总体设计
飞机表面缺陷检测系统主要由检测模块、ROS机器人模块、图像处理模块三大部分组成,系统的总体结构框图如图1所示。系统的具体工作原理为:在某一区域范围内,检测模块以树莓派为核心控制器,通过检测模块中的图像采集系统对铝合金材料表面进行图像采集,将采集到的图像通过TCP通信传输到图像处理模块上[4]。图像处理模块利用深度学习中设计的卷积神经网络进行数据训练,得到检测模型,将检测模型应用到图像预处理上。此时,OpenCV对检测模块得到的图像进行图像处理[5],最终得到缺陷出现的位置。当前区域检测完毕后,通过ROS机器人模块的定位和导航功能,驱动运动执行机构工作,并移动到相邻下一块检测区域,直到所有位置都检测完毕。上述工作原理可实现飞机表面缺陷检测系统,下文将对其包括的三大模块进行说明介绍。
2检测模块设计
如图2所示,系统的检测模块主要是包括树莓派和摄像头,其中树莓派作为检测模块的处理器,搭建的有Ubuntu系统,是系统实现的重要组成部分。树莓派可以提供普通计算机的功能,并且功耗低。可直接在树莓派上安装Keil进行开发,具有很好的开发效果,运行稳定。本次飞机表面缺陷检测系统实现了树莓派将摄像头拍摄的图片发送到图像处理模块上,同时也搭载ROS系统实现了移动底盘的定位和导航功能。
3ROS机器人模块设计
ROS随着机器人技术发展愈发受到关注,采用分布式框架结构来处理文件,这种方式允许开发者单独设计和开发可执行文件。ROS还以功能包的形式封装功能模块,方便移植和用户之间的共享。下面将介绍其建图和导航功能的实现。
3.1建图设计
本文在ROS系统中使用Gmapping算法软件包实现建图[7],在ROS系统中设计了建图过程中各节点及节点间的话题订阅/的关系如图3所示。在图3建图节点话题关系图上,其中椭圆形里代表节点,矩形基于ROS的飞机表面缺陷检测系统胡浩鹏(纽约大学NewYorkUniversity纽约10003)框里代表的是主题,节点指向主题代表着该节点了主题消息,主题指向节点代表着该节点订阅了主题消息。在建图过程中,主要涉及激光雷达节点、键盘控制节点、底盘节点、Gmapping节点和地图服务节点。
3.2导航设计
ROS提供的Navigation导航框架结构如图4所示,显然MOVE_BASE导航功能包中包括全局路径规划和局部路径规划两部分,即在已构建好的地图的基础上,通过配置全局和局部代价地图,从而支持和引导路径规划的实施。为了保证导航效果的准确,通过AMCL定位功能包进行护理床的位置定位[8]。获取目标点的位置后,MOVE_BASE功能包结合传感器信息,在路径规划的作用下,控制指令,控制护理床完成相应的运动。
4图像处理模块设计
图像处理模块设计主要分为图像预处理、模型训练和卷积神经网络三大部分,通过TCP通信协议进行通信,TCP通信是一种面向连接的通信,可完成客户端(树莓派)和服务端(PC)的信息传递[9]。下面主要对卷积神经网络部分进行介绍。
4.1卷积神经网络训练流程
通过相机采集到的缺陷和问题图像作为训练样本,这部分是检测飞机表面缺陷的关键一步,然后对训练样本进行训练,具体步骤如下所示。(1)训练标记数据:首先使用图像预处理中标记好的道路故障提取出来,通过卷积神经网络对标记框内的目标数据进行训练;(2)提取特征数据:将道路故障的类型统计并归纳;(3)误差反馈学习:对测试样本进行误差反馈学习,并进行测试;(4)优化训练数据:将得到的测试结果与设定的故障分类结果进行误差对比,不断优化训练集,最终得到理想的训练数据。
4.2缺陷检测流程
缺陷检测流程如图5所示,首先输入缺陷原始图像,通过特征提取网络,将处理后的图像使用检测器进行检测,其中检测器里为卷积神经网络训练后得到的模型,最终缺陷检测后得到的识别后的图像,并反馈出来。
4.3实验测试
铝合金表面缺陷主要有碰伤、刮花、凸粉、脏点等常见的缺陷,下面将以这四种为主要对象进行检测训练,各自训练集数量为1000张。通过卷积神经网络对缺陷的特征进行提取和分类,最终实现了缺陷的检测。本次实验测试的样本为200张,每种缺陷50张,均采集自铝合金材料表面且与训练样本一致,实验结果如表1所示。由表1可知,检测脏点的准确率高达98%,刮花和凸粉的准确率也达到94%,但碰伤的准确率相对较低,只有88%。可能造成的原因是:①硬件原因导致采集的图像清晰度比较低;②碰伤缺陷不明显,无人机难以识别;③训练的数据集较少,特征学习误差大;但最后结果是满足了设计需求,还需进一步改进。
5总结与展望
篇4
关键词:人机大战;人工智能;发展前景
中图分类号:TP391 文献标识码:A
0.引言
2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。
这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:
(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。
(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。
简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。
1.人工智能的发展历程
AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。
孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。
形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。
暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。
知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。
集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。
人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。
2.人工智能l展现状与前景
人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。
自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。
自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。
当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。
机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。
机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。
无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。
机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。
人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。
在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。
3.人工智能的发展前景
总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。
人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。
人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。
参考文献
[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.
篇5
计算机视觉的第一步是特征提取,即检测图像中的关键点并获取有关这些关键点的有意义信息。特征提取过程本身包含4个基本阶段:图像准备、关键点检测、描述符生成和分类。实际上,这个过程会检查每个像素,以查看是否有特征存在干该像素中。
特征提取算法将图像描述为指向图像中的关键元素的一组特征向量。本文将回顾一系列的特征检测算法,在这个过程中,看看一般目标识别和具体特征识别在这些年经历了怎样的发展。
早期特征检测器
Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技术的早期实现。但这些属于计算密集型算法,涉及到大量的浮点运算,所以它们不适合实时嵌入式平台。
以SIFT为例,这种高精度的算法,在许多情况下都能产生不错的结果。它会查找具有子像素精度的特征,但只保留类似于角落的特征。而且,尽管SIFT非常准确,但要实时实现也很复杂,并且通常使用较低的输入图像分辨率。
因此,SIFT在目前并不常用,它主要是用作一个参考基准来衡量新算法的质量。因为需要降低计算复杂度,所以最终导致要开发一套更容易实现的新型特征提取算法。
二代算法
Speeded Up Robust Features(SURF)是最早考虑实现效率的特征检测器之一。它使用不同矩形尺寸中的一系列加法和减法取代了SIFT中浩繁的运算。而且,这些运算容易矢量化,需要的内存较少。
接下来,HOG(Histograms ofOriented Gradients)这种在汽车行业中常用的热门行人检测算法可以变动,采用不同的尺度来检测不同大小的对象,并使用块之间的重叠量来提高检测质量,而不增加计算量。它可以利用并行存储器访问,而不像传统存储系统那样每次只处理一个查找表,因此根据内存的并行程度加快了查找速度。
然后,ORB(Oriented FASTand Rotated BRIEF)这种用来替代SIFT的高效算法将使用二进制描述符来提取特征。ORB将方向的增加与FAST角点检测器相结合,并旋转BRIEF描述符,使其与角方向对齐。二进制描述符与FAST和HarrisCorner等轻量级函数相结合产生了一个计算效率非常高而且相当准确的描述图。
CNN:嵌入式平台目标识别的下一个前沿领域
配有摄像头的智能手机、平板电脑、可穿戴设备、监控系统和汽车系统采用智能视觉功能将这个行业带到了一个十字路口,需要更先进的算法来实现计算密集型应用,从而提供更能根据周边环境智能调整的用户体验。因此,需要再一次降低计算复杂度来适应这些移动和嵌入式设备中使用的强大算法的严苛要求。
不可避免地,对更高精度和更灵活算法的需求会催生出矢量加速深度学习算法,如卷积神经网络(CNN),用于分类、定位和检测图像中的目标。例如,在使用交通标志识别的情况下,基于CNN的算法在识别准确度上胜过目前所有的目标检测算法。除了质量高之外,CNN与传统目标检测算法相比的主要优点是,CNN的自适应能力非常强。它可以在不改变算法代码的情况下快速地被重新“训练(tuning)”以适应新的目标。因此,CNN和其他深度学习算法在不久的将来就会成为主流目标检测方法。
CNN对移动和嵌入式设备有非常苛刻的计算要求。卷积是CNN计算的主要部分。CNN的二维卷积层允许用户利用重叠卷积,通过对同一输入同时执行一个或多个过滤器来提高处理效率。所以,对于嵌入式平台,设计师应该能够非常高效地执行卷积,以充分利用CNN流。
事实上,CNN严格来说并不是一种算法,而是一种实现框架。它允许用户优化基本构件块,并建立一个高效的神经网络检测应用,因为CNN框架是对每个像素逐一计算,而且逐像素计算是一种要求非常苛刻的运算,所以它需要更多的计算量。
不懈改进视觉处理器
篇6
【关键词】神经网络;故障测距;小波包;相对误差
0 引言
我国矿井配电网多为6kV单侧电源供电系统,采取中性点非有效接地方式,属于小电流接地系统(NUGS)。馈电回路选用多段短电缆径向延伸为各种井下高低压电机、电气设备、照明及各种通信、自动化装置和仪表、仪器提供电能。由于井下工作环境恶劣,供电电缆经常发生接地、断线、短路等故障,据电力部门统计,其中单相接地故障的发生率最高。尽管发生单相接地故障时,线电压仍然对称,暂时不影响对负荷的连续供电,但就矿井这类危险易爆场所而言,当发生单相接地故障时,应尽快跳闸断电以确保安全。为此,必须及时对故障点进行定位、排除故障、加快恢复线路供电。
NUGS馈线的故障定位问题一直以来未得到满意的解决,这与其自身的特点有关。由于电网变压器中性点不直接接地,造成单相接地电流无法形成小阻抗回路,故障电流主要由线路对地电容电流提供,其数值较小,且基波分量幅值故障前后变化不大,使得定位保护装置很难准确进行故障选线和定位。考虑到井下环境条件和负荷的特殊性,矿井配电网与传统意义上的NUGS存在一定的差异:单相接地产生的暂态分量较稳态分量大得多,暂态波形畸变严重,应研究利用暂态电气量进行故障测距的可行性;馈电线路分支少、长度短,对测距精度要求高[1]。
鉴于上述原因,本文就井下配电网故障测距问题进行研究,以期提高故障测距的精度和可靠性。
1 BP网络的结构和算法
BP网络结构上类似于多层感知器,是一种多层前馈神经网络,网络权值的训练算法为误差反向传播(BP)学习算法。如图1所示为一典型3层BP网络模型。
图1 3层BP网络模型
以图示BP网络模型为例说明网络的学习过程:
(1)初始化。为每个连接权值wij、wjt、阀值θj、θt赋予(-1,1)区间的随机值。
(2)给定输入输出目标样本。给定输入向量Xp=(x1,x2,...,xn)和期望目标向量Tp=(t1,t2,...,tm),p∈1,2,...,P。
(3)计算网络各层的输出。由输入样本、连接权值、阀值及各层神经元传递函数计算隐含层和输出层的输出。
(4)计算网络实际输出与期望输出的一般化误差。系统的目标函数为:
E=■■■(t■-y■)2=■E■(1)
网络通过调整权值和阀值使满足预先设定的一个极小值。
(5) 利用目标函数调整网络的权值和阀值。BP算法按照目标函数梯度的反方向对网络参数进行调整,使目标函数收敛,即实际输出接近目标输出。对于第p个输入样本的权值、阀值,按下式修正,式中?浊为学习速率。
?驻w=-?浊■, ?驻θ=-?浊■(2)
对应的权值、阀值按下式调整,式中为迭代步数。
w(k+1)=w(k)+?驻wθ(k+1)=θ(k)+?驻θ(3)
(6)随机选择下一组学习样本向量进行训练,直到P个样本对训练完毕。
(7)重新从P个学习样本中随机选取一组输入、目标样本对,返回步骤(3),直到目标函数E收敛于给定值,若训练次数大于设定的最大训练次数,则网络不收敛。
由于BP算法学习速率为固定值,收敛速度较慢,且可能会产生多个局部极小值,另外网络的隐含层层数和神经元数目的选择尚无理论指导,因此网络具有较大的冗余性。为了克服以上不足,提出了许多改进算法,从改进途径上分为两类:
一类为启发式学习算法,如动量BP算法、弹性算法、学习率可变的BP算法等;另一类为快速优化算法,如拟牛顿算法、LM算法等。
2 基于BP小波神经网络的故障测距
小波包具有正交特性、信号分解后的信息量是完整的,因此利用小波包算法分析信号频率的分布情况,能够有效提取信号的暂态特征。对于电缆线路而言,其暂态零序电流的自由振荡频率一般在1500~3000Hz之间[2-3]。本文利用小波包提取该频段的暂态零序电流信号模极大值作为神经网络模型的输入,以期实现高精度的故障测距。
2.1 小波基的选择
在利用小波包提取模极大值时,小波基的选择十分重要,选择不同的小波基对信号进行分解,可以突出不同特点的信号特征。Daubechies小波系是信号分析处理中常用的一类小波,具有紧支性、正交性,满足精确重构条件,但由于其不具有对称性,因而其边界效应会随尺度的增加而扩大,引起分解误差;Morlet小波常用于信号表示、图像特征的提取和识别;Mexican hat小波则用于系统辨识。
3次B样条小波是一种具有线性相位的紧支对称小波,分频能力强,频带相干小,由于具有对称性,只要采取合理的延拓方式,其边界效应引起的误差可忽略不计。
B样条基函数的递推公式如下:
N■(x)=1,x■≤x≤x■0,x?埸x■,x■N■(x)=■N■(x)+■N■(x)(4)
3次B样条基函数N■(x)在xi,xi+4上具有局部支集性,表达式如(5)所示。
(5)若取参数x■=i(i=0,1,...,n)为节点即为均匀B样条基,再对均匀B样条基作参数变换,在每个子区间内以参数代换,在每个子区间的值均为u0,1。3次B样条基函数的表达式如式6所示。
由于二进小波包变换具有平移不变性,不会引起正交小波包变换在所分析信号不连续处产生的伪吉布斯现象[4]。故本文利用3次B样条小波包对短路故障电流进行卷积型二进小波包分解,以期获得更显著的故障特征信息。
N■(x)=■,x■≤x≤x■■+■,x■≤x≤x■■+■,x■≤x≤x■■,x■≤x≤x■0,x?埸x,x■
(5)
N■(u)=■u3■(-3u3+3u2+3u+1)■(3u3-6u2+4)■(-u3+3u2-3u+1) 0≤u≤1(6)
2.2 分解尺度的选择
如何选择分解尺度对于零序电流暂态分量的模极大值提取至关重要,尺度取得越大,信号与噪声的表现差异越明显,越有利于两者的分离。但分解尺度取得越大,则对应的频带宽度越窄,采样点数过小,不利于下一步的信号分析[5-7]。
由于本文仿真的采样频率取1MHz,则Nyquist频率为5kHz,为提取暂态零序电流1500~3000Hz频率段分量,小波包分解层数为3,考虑小波包频带划分规则,取(3,3)、(3,7)频带的零序电流暂态分量即可满足要求。
2.3 BP网络结构参数的选择
欲利用BP小波神经网络计算井下配电网故障测距,必须首先确定BP网络的结构和参数,如各层的初始权值、阀值,学习速率,各层节点数、传递函数等,只有确定了网络的最佳配置,才能有效解决所提出的问题[8]。
(1)网络层数的确定。Hecht-Nielsen已经证明,在不限制隐层节点数的情况下,含有一个隐层的BP网络能够实现任意非线性映射。Cybenko指出,当隐层传递函数选用S型传递函数时,单隐层足以满足解决任意判决分类问题的需要,两个隐层则能够实现输入图形的映射。增加隐层数可以进一步提高精度,但同时会增加网络权值的训练时间。另外,增加隐层神经元个数也能降低误差,训练效果也更易观察,因此,应优先考虑增加隐含层神经元的个数。对于本文研究的故障测距问题,网络需要较快的收敛速度,因此采用单隐层网络。
(2)各层节点数目的确定。网络输入层节点数等于输入向量的维数。由于井下电网大多数实时运行参数如负荷、系统等效阻抗可由监控终端获得,其它随机性因素如发生故障线路、故障时刻可由故障后可测信息准确识别,不可知变化因素仅包括接地过渡电阻及故障点位置,并且神经网络的内插性能优于外推性能,故输入向量维数等于3,分别为(3,3)、(3,7)频带零序电流暂态分量的模极大值和故障点过渡电阻值。输出层节点数为1,表示故障点位置。隐含层节点数的选择比较复杂,需要依据经验和经过多次实验确定,选取过多将导致学习时间过长,过少将引起容错性差,对未经学习的样本识别能力低。根据Hebe准则可以确定最佳隐含层节点数的参考值。另外,也可先令隐含层节点数可变,开始时给以较小数值,学习到给定训练次数最大值,若未达到收敛精度则再增加节点数,直至达到合理数值为止。经过多次仿真训练,隐层节点数为11时,网络的训练误差最小。
(3)初始权值的选取。初始权值的选择对于网络能否收敛和训练的速度关系密切。若权值选择过大,会使加权输入处于激励函数的饱和区,导致无法进行权值的调整。威得罗等人提出一种权值初定策略,选择权值的量级为S1的r次方,其中S1为第一层神经元数目,利用此方法可以在较少的训练次数下获得满意的训练结果。本文选择的输入层及隐含层至输出层的初始权值均为0.25。
(4)训练算法的选择。给定一个具体问题,采用何种训练算法对于是否能够达到目标误差及网络收敛速度的影响很大。就中等规模的前馈神经网络而言,LM算法的训练函数trainlm可以获得比其它任何一种算法更小的均方误差,且收敛速度最快,在精度要求较高时,该算法的优点尤其突出。本文选择LM算法对BP网络进行训练。
(5)学习速率的选择。一般情况下倾向于选择较小的学习速率以保证训练过程的稳定性,但是过小的学习速率会导致训练时间过长,收敛速度很慢,无法保证网络的误差值跳出误差曲面的低谷而最终趋于最小误差,一般选择范围在0.01~0.9之间。
3 系统仿真及测距结果
深井供电系统仿真模型如图2所示。各模块参数如下:进线电缆(In line)采用YJV42,线路正序参数为:R1=0.078/km,L1=0.27mH/km,C1=0.695F/km,零序参数为:R0=0.106/km,L0=1.223mH/km,C0=0.358F/km;配电电缆(Line)采用YJV32;采区电缆(Mine line)、负荷电缆(Load line)采用UPQ,正序参数为:R1=0.024/km,L1=0.516mH/km,C1=0.308F/km,零序参数为:R0=0.196/km,L0=3.98mH/km,C0=0.203F/km;采区变压器(MineT1)型号为KBSG-200/6/0.69kV,Ud%=4%,I0%=2.5%;隔爆移动变电站(MineT2)选用KBSGZY-315/6/1.2kV,P0=1400W,Pd=2200W。负荷变压器采用SL7-100/6/0.4kV。线路长度分别为:进线电缆取1km;
配电电缆1、3、4取0.5km;配电电缆2取0.4km;采区电缆长度均取0.3km;负荷电缆取0.2km。电源线电压有效值6.3kV,X/R ratio=7。
考虑配电线路1在不同故障点位置和过渡电阻下发生单相接地故障(数据窗取故障前1ms至故障后4ms共5ms)得到的暂态零序电流经小波包分析后(3,3)、(3,7)频带的模极大值(为防止边界效应引起的信号值突变,取前2000个采样值进行模极大值分析)经归一化处理后所形成的训练和测试样本集,对BP网络进行训练,并测试网络的测距性能。
选取的训练样本集如下:
(1)过渡电阻值分别为0.01、5、50、100、150、200、250、300、350、400、450、500;
(2)在靠近线路两端发生故障时,应适当减小故障距离以提高测距精度。故障点位置分别为:0.01km、0.02km、0.025km、0.075km、0.125km、0.175km、0.225km、0.25km、0.3km、0.325km、0.375km、0.425km、0.475km、0.48km、0.49km。
组合两因素可形成12×15=180个训练样本集。
训练误差曲线如图3所示,经2794次迭代后误差收敛于0.00099829,基本达到了设定的目标误差0.001。
为检验训练后BP网络的推广能力即测距效果,采用非训练样本集进行测试,选取的测试样本集如下图3:
图3 BP网络训练误差性能曲线
(1)过渡电阻值分别为25、75、125、175、225、275、325、375、425、475;
(2)故障点位置分别为0.015km、0.05km、0.1km、0.15km、0.2km、0.275km、0.35km、0.4km、0.45km、0.485km。
组合两因素形成10×10=100个测试样本集。
对于给定的测试样本集,经BP网络前馈运算得到的实际测距结果及相对误差分别如表1、表2所示。
其中,L表示实际故障距离,l表示测量距离。
相对误差e=(实际故障距离-测量距离)线路总长×100%。
由表2可知,对于测试样本集,训练后的BP网络测距相对误差随过渡电阻值的增加有增大的趋势,最大误差达到了-16.56%,且出现在过渡电阻为475时,同时注意到在故障点接近线路两端时,由于适当增加了训练样本,测距相对误差明显减小,因此,通过增加训练样本数量有望进一步提高测距精度。
4 结论
通过研究得出以下结论:
1)采用小波包提取故障暂态零序电流的模极大值能有效表征故障时所蕴含的物理现象,为准确进行故障测距提供了有效的数据。
2)BP神经网络具有良好的分类及拟合功能,能在获得大量样本数据的基础上,训练出符合要求的前馈型网络,为煤矿井下电网故障测距提供强有力的手段。从测距相对误差结果来看,基于小波分析与BP神经网络的故障测距方法能基本满足测距要求。另外,本文下一步的工作将在样本集数量、网络结构等方面进行更为深入的研究。
【参考文献】
[1]丁恩杰,王超楠,崔连成.矿井配电网输电线路故障测距方法的研究[J].中国矿业大学学报,2006,35(3):311-316.
[2]窦新宇,李春明.小电流接地系统行波测距方法研究[J].电力科学与工程,2010,26(2):51-53.
[3]季涛.基于暂态行波的配电线路故障测距研究[D].济南:山东大学,2006.
[4]姚李孝,赵化时,柯丽芳,等.基于小波相关性的配电网单相接地故障测距[J].电力自动化设备,2010,30(1):71-74.
篇7
关键词:人工智能 心血管 超声
大数据是现代医学模式的重要特征。在这种医疗模式下,要求医疗人员在确保患者安全和健康的同时追求效率的最大化[1]。对于高分辨率的医学影像成像,集中体现在医务人员快速、准确、有效地解释影像数据(包括肉眼可见和不可见),挖掘利于诊断和治疗的有用信息。在此背景下,人工智能(artificial intelligence,AI)应运而生,它为促进图像采集、测量、报告和随后的临床路径以及影像和临床数据的整合提供了有效手段[2]。心血管影像的精确性成为AI临床应用中的主要领域之一,本文对此作一综述。
1 人工智能及其在医学上的应用
AI是一个广义的术语,指的是机器或计算程序执行具有人类智能特征的任务的能力,如模式识别和解决问题的能力等。AI可以通过弥补人类智能,使现有医疗诊断和预后价值最大化,同时使医师负担最小化,从而显着改善健康诊疗过程和结果。AI在临床实践中的应用预示着医学领域一个更为剧烈变化时代的到来,在影像学方面尤其如此。一项通过分析科学网数据库的研究[3]发现,目前AI在医学的研究领域主要集中在大数据分析、脑卒中康复、心脏手术和医疗诊断和预后预测等方面。其中,用于医学诊断、预后预测和分类的神经网络和支持向量机是主要热点,占所有文献的26%;而未来最引人关注的研究主题是基于AI的微创手术。然而,关于AI数据管理、模型可靠性、模型临床效用验证等问题尚未进行广泛研究。
2 人工智能的机器学习法
大数据是一个经常用来描述大量收集数据的术语,如来自大型生物信息库的基因组数据、电子健康记录档案和大型研究队列数据以及影像学扫描数据等。AI系统通过识别和提取一组观测数据(数据集)的模式来自主获取知识的过程称为机器学习(machine learning,ML)。ML是人工智能的一个组成部分,描述为计算机从经验中学习的过程,并在没有事先知识的情况下执行预定的任务[4]。机器学习可以进一步分为监督学习、半监督学习和无监督学习,这取决于用于学习的样本是否完全标记、部分标记或未标记。ML的典型例子是人工神经网络,后者基于人类大脑的神经元及其连接,神经元之间的相互依赖关系反映出不同的权重,每个神经元接受多个输入,所有的输入一起决定了神经元的激活。通过样本训练找到这些合适权重的过程就是学习。学习过程的复杂性和所需的样本量随着神经元数量的增加而增加。由于计算能力和样本大小的限制,机器学习应用程序的成功依赖于从原始样本中手工提取特征来减少神经元的数量。为了解决这一问题,人们提出了深度学习的方法,即自动学习代表性的样本。深度学习是指一种特别强大的ML方法,它利用卷积神经网络模拟人类的认知,常用于影像模式识别和分类。
模型训练是所有ML类型的共同过程,它是利用模型分析所提供的数据中的各种特性来学习如何生成输出标签的过程[5]。如在超声心动图中,一个模型可以分析各种特征,如左心室壁厚度和左心室射血分数,以确定患者是否具有特定的条件。然而,在分析中包含不相关的特征可能会导致模型过度拟合,从而在呈现新数据集时降低其准确性。这强调了拥有一个能够代表总体的训练数据集的重要性。数据集的质量对于最终ML模型的质量至关重要。尽管ML算法可以使用小数据集或大数据集进行训练,但大数据集可以最大限度地提高训练算法的内部和外部有效性,降低过度拟合的风险。正确模型的选择通常取决于操作员的专业知识、数据集的性质和最终人工智能系统的目的。
3 人工智能在心血管超声的应用
心血管成像领域,包括超声心动图、心脏计算机断层扫描、心脏磁共振成像和核成像,具有复杂的成像技术和高容量的成像数据,处于精准心脏病学革命的前沿。然而,在基于AI的临床转化方法中,心血管成像一直落后于肿瘤学等其他领域。人工智能在超声心动图中的应用包括自动心室定量和射血分数计算、应变测量和瓣膜形态及功能评估以及ML在心脏疾病自动诊断中的应用。
3.1 心室定量和EF自动化。
自动心室量化和EF计算的算法旨在提供准确、快速和可重复的心尖视图分类、解剖标志检测、心室壁分割和心内膜跟踪。有研究[6]比较了AI软件自动测量(AutoEF)和手工追踪双平面Simpson法测量左室EF的准确性,并与心脏MRI进行了比较。结果表明AutoEF与手动双平面Simpson法测得的EF相关性较好,且与MRI相关性良好,但AutoEF低估了左室舒张末期容积(EDV)和收缩期末期容积(ESV)。此外,在不同切面,测量的准确性存在差异,以胸骨旁长轴切面的准确性最高,达96%,而在心尖切面时整体精度降低(84%)。腔室定量和左室EF测量的中位数绝对偏差在15%~17%,其中ESV的绝对偏差最小;左房容积和左室EDV被高估。
3.2 心肌运动和应变测量。
Kusunose等[7]研究发现与传统二维超声心动图相比,利用深度卷积神经网络可更好的检测区域壁运动异常并区分冠状动脉梗死区域。Cikes等[8]利用复杂超声心动图数据(整个心动周期的左室容积和变形数据,而不是单个数据点)和临床参数的ML算法识别心衰并对心脏再同步化治疗的反应进行评估,证实通过整合临床参数和全心周期成像数据,无监督的ML可以为表型异质性心力衰竭队列提供一个有临床意义的分类,并可能有助于优化特定治疗的反应率。另有研究证实[9-10],ML算法有助于区分缩窄性心包炎、限制性心肌病以及肥厚性心肌的重塑。Zhang等[11]采用AI软件和手工勾画对左室心肌的纵向应变进行了比较研究。发现AI自动测量的心肌全局纵向应变与手动应变变化最小(绝对值为1.4%~1.6%)。
3.3 心脏瓣膜评估。
有学者[12]采用AI软件对二尖瓣几何形状进行测量,测量参数包括二尖瓣环面积、瓣环高度和宽度、瓣叶连合间距、前后叶长度等。发现相对于常规超声心动图,所有评估的成像参数均获得了更好的观察者间一致性,而且所花费的时间明显较少。Prihadi等[13]研究证实,经食管超声心动图AI软件能够精确地对主动脉瓣结构以及冠状动脉开口进行测量和定位,且与多层螺旋CT的测量结果具有良好的相关性。
4 展望
在海量医学信息和影像数字化日益积累的现代医学时代,AI和ML为疾病诊断和风险预测等问题提供了新的解决方案。通过AI对超声心动图数据进行预测、建模和精确分析,可以帮助超声医师快速、准确地处理大量心脏超声影像学数据,既有利于应对当前医疗信息数量的急剧增长,又有利于提高处理数据信息的能力。未来,针对AI的研究应关注超声图像数据特征定义及其提取方法的标准化,以确保可推广性和可再现性,促进AI向更加个性化的医疗模式转变。此外,AI系统与远程医疗等软件的集成,将使智能心脏超声诊断系统渗透到资源消耗负担最繁重的地区,提高经济效益。
参考文献
[1]Oikonomou EK,Siddique M,Antoniades C.Artificial intelligence in medical imaging:A radiomic guide to precision phenotyping of cardiovascular disease[J].Cardiovasc Res,2020,Feb 24;cvaa021.
[2]Dey D,Slomka PJ,Leeson P,et al.Artificial Intelligence in Cardiovascular Imaging:JACC State-of-the-Art Review[J].J Am Coll Cardiol,2019,73(11):1317-1335.
[3]Tran BX,Latkin CA,Vu GT,et al.The Current Research Landscape of the Application of Artificial Intelligence in Managing Cerebrovascular and Heart Diseases:A Bibliometric and Content Analysis[J].Int J Environ Res Public Health,2019,16(15):2699.
[4]Gandhi S,Mosleh W,Shen J,et al.Automation,machine learning,and artificial intelligence in echocardiography:A brave new world[J].Echocardiography,2018,35(9):1402-1418.
[5]Alsharqi M,Woodward WJ,Mumith JA,et al.Artificial intelligence and echocardiography[J].Echo Res Pract,2018,5(4):R115-R125.
[6]Xu B,KocyigitD,Grimm R,et al.Applications of artificial intelligence in multimodality cardiovascular imaging:A state-of-theart review[J].Prog Cardiovasc Dis,2020,19;S0033-0620(20)30060-8.
[7]Kusunose K,Abe T,Haga A,et al.A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images[J].JACC Cardiovasc Imaging,2020,13(2 Pt 1):374-381.
[8]Cikes M,Sanchez-Martinez S,Claggett B,et al.Machine learningbased phenogrouping in heart failure to identify responders to cardiac resynchronization therapy[J].Eur J Heart Fail,2019,21(1):74-85.
[9]Narula S,Shameer K,Salem Omar AM,et al.Machine-Learning Algorithms to Automate Morphological and Functional Assessments in 2D Echocardiography[J].J Am Coll Cardiol,2016,68(21):2287-2295.
[10]Sengupta PP,Huang YM,Bansal M,et al.Cognitive machine-learning algorithm for cardiac imaging:a pilot study for differentiating constrictive pericarditis from restrictive cardiomyopathy[J].Circ Cardiovasc Imaging 2016,9(6):e004330.
[11]Zhang J,Gajjala S,Agrawal P,et al.Fully automated echocardiogram interpretation in clinical practice[J].Circulation,2018,138(16):1623-1635.
篇8
该如何审视越来越快速迭代的一个个热点?
星瀚资本创始合伙人杨歌被业内赞誉为最懂技术的投资人之一。从清华大学物理系毕业的杨歌经历了7次创业,在创业中磨练了多方能力,会写代码的同时又懂金融,善于从基础理论上推演商业发展规律。
转型投资人后,星瀚资本的成绩单上有了鲲云科技这样明星级的人工智能芯片企业、国内领先的农业规划种植平台企业甲加由,以及不久前与豆瓣音乐完成合并的流媒体原创音乐平台V.Fine等明星项目。
面对市场热点不断地快速切换,杨歌认为要从底层逻辑来冷静审视,方能不错失真正的价值,不盲目追逐资本泡沫。
一、AI大浪潮是一条上扬价值线
“AI是个大浪潮,跟互联网是一个级别的大趋势。虚拟现实、智能硬件、机器人属于其二级子行业。这个大赛道的发展一定会是长期可持续发展的。”
杨歌认为,不能把AI简单的等同于区块链、小程序或是共享单车这样的行业热点来放在一起看待。相对于其他热点,AI是真正意义上继互联网之后的一个大趋势,其影响的领域将层层渗透,就如互联网对信息、游戏、购物、出行等领域的改造一样,这是一个长期昂扬向上的价值增长趋势。
而去年的图像识别、语音识别,包括自动驾驶等等都是围绕AI价值增长曲线波动的一个个热点。自动驾驶虽然很火,但还需要在数据、场景上完成优化并找到更优解决方案,才能在市场中应用,图像识别、语音识别则在商业化应用的初级阶段,还并未找到真正突破的应用爆发场景。
今年,AI似乎被区块链、小程序等热点抢了风头,主要源自于大众对AI的认知还需进一步深化,在AI方向有所布局的企业预期AI的话题性和功能性能为其产生价值。结果实际应用落地并没有市场期待的那么快。
“AI是你拿任何一个既成的模块都没法直接用的,需要根据场景一个个算法去运算,CNN、遗传算法、LSTM、优化算法等你可能都要试一遍,再进行算法简化、调优,才能有一点点效果。这个周期非常长,不像互联网网站的建设,无论是旅游的还是卖东西的,都是前端、后端的框架搭建起来就能看到效果。”
二、不要盲目低估AI的复杂性
杨歌认为,目前市场对AI的认知相对简单化了,好像自动驾驶的实现指日可待,期待指数过高。而实际上AI的算法变化、搭建框架、落地方向等都是非常难的。
“我认为人工智能目前所需要解决的难点有以下几点:第一点是算法的变化特别快,组合越来越复杂。神经网络之后有对抗神经网络,基于神经元的卷积神经网络之后又提出了最新的胶囊神经网络(CapsNets),不断有新的算法产生,有些算法甚至连TensorFlow(谷歌第二代AI学习系统)都不支持。
第二个问题是人工智能与商业需要强耦合性。即必须要非常深度地了解关于算法的特性,同时还要了解商业场景,只有把对商业场景的理解转成算法语言,才能实现。而这并不是找到一个算法工程师就可以实现的简单过程。
例如,用CNN来做人脸识别、图像识别有效,但对自然语义理解就未必,实际自然语言理解中有很多上下文远距离相关的信息,需要LSTM来训练就更有效。”
三、AI距离C端应用还很远,TO B的商业化才刚刚开始
鉴于AI本身的复杂性,杨歌认为AI正在处在摸索成长期,底层技术基本上已经成熟,但是商业化过程还不是非常明确。
“五年之内,我认为AI的爆发点是在To B的应用上,就是基础层结构化数据的优化处理。”
杨歌将AI分层三层结构:底层是算法、芯片等;中间层是图像识别、语音识别、自然语义的识别、运动机能识别等;最上面的应用层则涵盖了自动驾驶、机器人、智能音箱、量化金融、AI教育等等。
目前,应用最广泛的图像识别、语音识别公司如科大讯飞、商汤科技、旷视科技、思必驰等业内领先企业,杨歌认为这些公司研发的中间层模块,很难独立形成商业场景,必须和应用层结合才可以。
据了解,目前这些公司在车载、音箱、安防、翻译机等方面进行了初步的商业化落地尝试。例如,智能音箱大多只能实现简单的对话和语音识别调用,远未达到无障碍的人机交互程度。
“这些场景的入口模块都需要完整的、完全标准的算法模块层,中间模块层,就是说语音识别、语义识别都需要非常精准,无论是器械,还是一个机器人,都需要中间算法模块层要非常成熟,同时需要底层芯片层也需要很成熟。
我预计大概五年之内,中间的模块层就能基本上成熟,在这个层面上一旦技术成熟,就会促成应用层的大爆发。应用层首先爆发的就是机器人,工业机器人会形成大范围的改造,家用机器人会高度的智能机械化。”
杨歌认为,AI的使用最重要的在于两点,一方面是要有成熟的海量数据,另一方面是要对场景问题进行精准的模型化设计。
智能驾驶虽然具备明确的使用场景,但场景模型化的算法方案却很复杂,另外也不具备已成型的可供训练数据集,需要模拟真实场景长期积累数据,目前在上述的两个必要方面都不具备优势。
“在未来的几年中,AI势必会爆发在量化金融、物流仓储大数据、有数据积累和标准的传统产业升级、以及机器人运动行为学习等方向中。”杨歌称,对于数据积累成熟,模型化场景清晰明确的行业,人工智能将会带来更多创新性的颠覆,这也是星瀚资本投资的主要方向之一。
“量化金融方向已经在爆发前夕,就差临门一脚。但这个行业大型公司主要在国外,中国在做量化金融的公司还有待壮大。”
四、如何正确看待小程序热点?
随着腾讯对小程序的开放进程加快,小程序近期形成了一个市场热点,多家依托小程序生态的创业公司都先后拿到了融资。
但杨歌认为,小程序只是微信生态的一个小模块,很难像互联网一样孕育百亿级别的商业模式,也很难形成一个大风口。
“小程序是微信缩短流量分发步骤的尝试。从PC互联网到移动互联网的经验都是,只要缩短了流量分发的中间步骤,就会带来流量的红利爆发。典型是微信支付对支付宝的超越,微信支付之所以后进入,但快速爆发超越支付宝,就在于微信支付无需跳出微信就可以直接使用,缩短了用户使用的路径,省去了切换的步骤。
但实际上,用户对这种通过缩短使用路径获取流量的逻辑已经有些疲劳了。今天很难说在微信中下拉菜单找到一个小程序定外卖与直接打开外卖软件,哪个让用户觉得更方便。”
杨歌认为,旧日那套通过缩减用户使用步骤就能获取流量红利赢得商业变现的逻辑已经达到顶峰,互联网已在一个潮流褪去的通道里,区块链可能是互联网后半程最后的一次小浪潮。但目前市场上运用区块链的投机行为过多,真正的商业价值还未展现。区块链也将成为AI爆发前的基础,承前启后。
五、无人店的商业形态需要打造合理的成本模型
无人货架、无人便利店风风火火热闹了一年,但随着行业内得到资本助力的几家企业相继爆出裁员、业务缩水等负面消息,市场似乎对无人零售这种商业形态陷入了一种迷茫,很难看清其真实价值。
杨歌观察了一年则明确表示无人店的商业形态需要打造更为合理的成本模型,其逻辑有两点:
第一, 杨歌认为末端最后一公里的配送和分拣成本太高,太复杂,还是完全依赖人力。目前市场上几乎很难看到在这一块做到成本可以覆盖的团队。
篇9
Master的“过人之处”
2016年年末,围棋界对阿尔法狗留下的心理阴影正在消散,这不单是因为在线围棋网站上冒出了更多AI棋手―如日本的DEEPZEN、中国的“绝艺”――更重要的是,人类棋手在与之较量时互有胜负。特别是当中国第一高手柯洁曾完胜“绝艺”的升级版“刑天”(被认为棋力相当于阿尔法狗)一局并宣称可以找到AI漏洞后,人类棋手欢欣鼓舞。
可是,Master就是在这样的背景下登场并毫无悬念地收割胜利的。赛后,棋圣聂卫平感喟“我们无法像电脑那样从不犯错”,而柯洁则连连慨叹,“人类数千年的实战演练进化,计算机却告诉我们全都是错的……”那么,Master究竟强在哪里呢?阿尔法狗研发团队的黄士杰博士表示,其“过人之处”即在于背靠多组超级计算机组成的卷积神经网络,这使得Master不仅具备类似人脑的“策略网络”(选择某一手棋的最优下法),更拥有人类难以企及的“价值网络”(判断每一步静态棋局的精准胜率)。与此同时,Master还可以通过每天自我对弈数十万局来增长棋力――人类棋手一年最多下1000局。由此,Master得以抛开事倍功半的穷举分析,并以闪电般的高效应对使人类棋手难以招架。
电脑将“学会”文化创意
对计算机而言,一切任务都是逻辑运算,而算法和算力是提升效率的主要指标。优化算法可以更轻易地解决问题,提升算力则能在单位时间内获得更多成果。当一项活动具备逻辑运行特征时,即可交由计算机执行;其中的变化规则越多地被掌握,计算机越是容易立于不败之地。国际象棋就是一个例子,由于棋路变化相对简单,今天安装在手机上的对弈程序都已经有了国际特级大师的棋力。专业级弈棋程序(如Rybka)几乎已经算尽棋路,在与人类棋手对决时稳居上风。
常人的直觉是,计算方面输给电脑是正常的,文化创意方面人类则是永远的赢家。而事实上,文艺创作活动也可以通过算法转化为逻辑运算。著名科幻作家刘慈欣就曾开发过一款写诗软件,设定创作一首三行诗,韵脚为a,按下“生成”就跳出结果:“伏特加,请雾化吧!悬崖,请磁化吧!我们都是哗哗啦啦的筹码,我们要挣扎!”而如果在这一领域树立一尊“圣杯”,那无疑是尝试创造博尔赫斯笔下的“通天塔图书馆”。这座由小说家臆想出来的图书馆中,收藏着以不同字符、数字、标点符号组合而成的所有文本――既包括我们读过的书,也包括消逝在历史尘埃中的书,更包括尚未被写出的书……计算机通过罗列全部组合的方式来缔造这个图书馆,不断优化的算法会通过剔除大量无意义结果来为算力减压。
当代的计算机尚无法构建这个图书馆,正如它们还无法穷尽围棋套路的变化那样。但处理器性能是以指数级速度发展的,1946年人类第一台电子计算机“埃尼阿克”的算力在今天连手持计算器都不如,我们又怎能设想一个世纪后的电脑将强大到何种程度呢?可以确定的是,一旦计算机可以“创作”,那么它也必然会攻克音乐、绘画等人文艺术领域,人类灵感创意的专属领地将遭遇机器逻辑的入侵。
与AI共生的未来
AI(人工智能)有强、弱之分。弱人工智能只擅长某个特定领域,比如驾驶、装配或扫地吸尘。阿尔法狗亦属于此,但它的本质是一种深度学习引擎,而不是只会下围棋。按照谷歌公司的蓝图,它将被运用在协助判断早期病症等领域。强人工智能将拥有类似人类的语言、情感以及思维能力,它们在很多方面会超越人类本身,因此研发的意义不是为解决某种具体问题,而是用它们来开创出更多视界。
篇10
关键词: 边缘检测; 脉冲噪声; 均值梯度; 非极大值抑制
中图分类号: TN91919?34; TP391.41 文献标识码: A 文章编号: 1004?373X(2015)06?0119?03
Mean gradient based edge detection algorithm for image with impulse noise
SHEN De?hai, HOU Jian, E Xu, ZHANG Long?chang
(College of Information Science and Technology, Bohai University, Jinzhou 121013, China)
Abstract: In order to detect the edge of image polluted by impulse noise, an image edge detection algorithm based on mean gradient is proposed. The algorithm divided the detection window into up, down, left and right areas according to the horizontal and vertical directions, which calculates the average gray value of non noise pixels in every area first, and then calculates the image gradient according to the mean difference of these values to get the gradient image. Finally, the improve non?maximum suppression method is adopted to refine the gradient image and extract the image edge. The experiment results show that the algorithm can detect the edge of image polluted by higher density impulse noise, and the edge is thinning, and the effect of the algorithm is better than the traditional Sobel algorithm.
Keywords: edge detection; impulse noise; mean gradient; non?maximum suppression
0 引 言
边缘是图像中目标与背景的分界线,灰度值变化最为显著。图像边缘是图像的最基本特征之一,包含了许多重要的信息,是图像识别、图像分割和图像理解的重要依据[1]。边缘检测就是将图像不同区域的边界进行确定并提取出来,其效果直接影响后续图像处理的精度和性能。由于数字图像在获取和传输过程中可能受到各种因素的影响而产生噪声,进而影响到图像边缘检测的效果,直接影响到图像的后续处理工作。因此,在检测图像边缘的同时如何有效地抑制噪声一直是图像处理领域研究的热点之一。传统的边缘检测算法如Roberts算子[2]、Sobel算子[3]、Prewitt算子[4]、LoG算子[5]、Canny算子[6]及Kirsch算子等,它们主要是基于图像强度的一阶或二阶导数的计算,算法简单,但对噪声比较敏感。近年来,一些基于新理论的算法被提了出来,如数学形态学算法[7]、小波算法[8]、神经网络算法[9]及遗传算法[10]等,这些边缘检测算法在噪声抑制性能上有了一定的提高,但也各自的存在着算法复杂、普适性差及实时性差等问题。本文借鉴传统边缘检测算法的梯度计算原理,提出了一种基于均值梯度的边缘检测算法,并采用改进的非极大值抑制方法对梯度图像进行细化,算法对不同程度污染的脉冲噪声干扰图像具有良好的抑噪性能,并能较好地检测出图像的边缘。
1 基于梯度的边缘检测原理
传统边缘检测算法都是基于梯度算子的,梯度算子就是一阶导数算子。图像的边缘具有方向和幅度两个基本属性,沿着边缘方向,像素灰度值变化平缓,而沿着垂直边缘的方向,像素灰度值变化剧烈,在此方向上,像素点的一阶导数具有最大值。当图像噪声污染较小时,梯度算子检测的图像边缘效果良好。设f(x,y) 为连续数字图像函数,则其梯度可以表示为如下的一个矢量。
[?fx,y=Gx GyT=?f?x ?f?yT] (1)
式中:Gx和Gy分别为x和y的一阶导数,表示点(x,y)水平和垂直方向的梯度,其梯度幅值和方向分别可以通过式(2)和式(3)来计算。
[?fx,y=Gx2+Gy212=?f2?x+?f2?y12] (2)
[?x,y=arctanGxGy=arctan?f?x?f?y] (3)
为了使计算简洁,常采用近似梯度幅值的计算方法,如式(4)所示。[?fx,y=maxfx′,fy′或?fx,y=fx′+fy′] (4)
式中[fx′=fx+1,y-fx,y,f′y=fx,y+1-fx,y]。
一阶导数Gx和Gy需要针对图像中每个像素的位置计算,实际中经常采用小窗口具有权值的模板与图像进行卷积近似求得。Gx和Gy分别使用一个模板,它们的组合便是一个梯度算子。传统的梯度算子有Roberts算子、Sobel算子和Prewitt算子等,它们的大小和权值都不尽相同,如图1所示。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\07T1.tif>
图1 几种梯度算子模板
传统的基于梯度算子边缘检测算法利用算子模板与图像做卷积运算,将最大值输出得到梯度图像,然后再设定门限值TH,将大于等于TH的点视为图像边缘。梯度算子由于采用相邻像素灰度差计算梯度,对噪声较为敏感,当图像受噪声影响较为严重时,检测出的边缘图像包括许多的噪声边缘,使得后续处理无法进行。
2 本文算法
针对传统算法在边缘检测时对噪声敏感问题,提出了一种基于均值梯度的边缘检测算法,算法采用5×5检测窗口,将窗口按照水平方向和垂直方向分为4个区域,按照区域非噪声点的均值差计算窗口中心点的梯度,求得梯度图像,然后采用改进的非极大值抑制方法对梯度图像进行细化,实验证明,算法对脉冲噪声抑制能力较强,边缘细化效果较好,算法原理如下。
2.1 抑噪原理
图像受脉冲噪声干扰,主要表现为受污染点像素值发生突变,远大于或远小于周围正常像素点,使得其与边缘点一样具有较大的梯度值,因此采用梯度算子进行边缘检测,将会使噪声边缘同真实边缘一样被检测出来。本文算法在进行边缘检测时,针对脉冲噪声的特点,采用阈值法先将检测窗口中噪声点检测出来,判断噪声点按照式(5)方法进行。然后通过非噪声点计算图像梯度,不仅消除了噪声点的边缘,也消除了噪声对图像梯度计算的影响。
[fx,y=0, 0+δ≤fx,y≤255-δfx,y,others ] (5)
式(5)是对检测窗口对噪声点进行判断,由于脉冲噪声点像素值接近0或255,因此引用了调解因子δ,δ的范围可根据具体图像来调解。式(5)表明,如果检测窗口内像素点为脉冲噪声点,则将噪声点置为零,否则保持原值不变。
2.2 分区均值计算梯度
算法采用分区均值计算图像梯度,将5×5检测窗口按照水平方向和垂直方向分为4个区域,如图2所示。每个区域大小一样,均为长方形,分布在中心点边缘方向的上下或左右。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\07T2.tif>
图2 检测窗口四个分区
图2中的(a)是检测窗口沿中心点水平方向的上下两个区域,用来计算中心点对应像素的垂直方向梯度;(b)是检测窗口沿中心点垂直方向的左右两个区域,用来计算中心点对应像素的垂直方向梯度,(x,y)为窗口中心点坐标,各区域内的灰色圆圈表示落在窗口区域内图像的像素点。算法水平方向梯度和垂直方向梯度的计算如式(6)和式(7)所示。
[?fxx,y=1βavgAux,y-avgAdx,y] (6)
[?fyx,y=1βavgAlx,y-avgArx,y] (7)
式(6)表示采用中心点的上下两个区域内的非噪声像素平均值之差计算水平方向梯度,式(7)表示采用中心点的左右两个区域内的非噪声像素平均值之差计算垂直方向梯度,根据前面所述,区域内的噪声点像素值均被赋0值,在计算区域均值时,不参与计算。式中的β为衰减因子,主要是防止梯度值的溢出,算法中取值为10。由于区域均值的计算去除了脉冲噪声的干扰,采用区域均值充分利用了邻域相关性原理,如果方向区域为边缘方向,则该区域内的像素灰度值变化平缓,虽然缺少了一些像素点对区域均值的影响较小,利用均值差分可以较准确的表示边缘梯度。最后将两个方向梯度值的最大值作为输出,即得到梯度图像G,如式(8)所示。
[Gx,y=maxΔfxx,y,Δfyx,y] (8)
2.3 梯度边缘细化及提取
图像边缘的细化是指在保持原图像边缘轮廓不变的情况下,尽可能地提取出单像素宽的骨架的过程。细化过程是数字图像处理中的一个重要处理步骤,其效果直接影响图像后续的相关处理。由于梯度图像是通过一阶微分或近似方法计算得出的,其边缘较粗,为了只保留边缘处梯度幅值局部变化最大的点,常采用非极大值抑制方法来细化边缘。所谓非极大值抑制过程,就是沿着图像边缘的梯度方向进行检测,将检测方向上不具备局部极大值的像素值置为0,否则保持原像素值。
经过非极大值抑制方法处理后的梯度图像,边缘得到了细化,但也会产生新的非边缘点或丢失一些边缘点,不适合后续处理的要求。本文采用改进的非极大值抑制算法,如式(9)所示。算法采用3×3窗口,从水平和垂直两个方向对梯度图像G进行非极大值处理,G′为处理后的梯度图像。
[G'(x,y)=G(x,y), if(G(x,y)≥γ.max(G(x-1,y),G(x+1,y))) 或if(G(x,y)≥γ.max(G(x,y-1),G(x,y+1)))0, others] (9)
式中:γ为细化度调解因子,根据γ可以根据需要调解细化强度。γ值减小,将减少边缘点的丢失,γ值增大,额外的边缘点会减少,当然边缘点的丢失和额外边缘点的增加是一对矛盾,可根据需要适当调解。经过多次实验验证,γ值在0.98~1.02之间调整,可保证边缘宽度较细,且连续性较好。最后,选取合适阈值TH,将细化后的梯度图像G′进行二值化处理,得到边缘图像。
3 验证实验
将标准灰度图像cell作为实验对象,在Matlab 实验平台下进行编程实验。第一次实验中,将cell图像就加入密度为5%的脉冲噪声,第二次将cell图像加入密度为50%的脉冲噪声,分别采用传统Sobel 算法和本文算法对噪声图像进行边缘检测试验。实验结果如图3和图4所示。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\07T3.tif>
图3 较低密度噪声图像检测结果
从图3可以看出,在噪声密度较低时,传统Sobel算法虽然能够将真正的图像边缘检测出来,但图中同时含有许多噪声边缘,对于后续的工作将产生重大的误差。本文算法 提取的边缘图像中不存在噪声边缘,图像轮廓清晰,连续性较好,而且边缘较细。从图4可以看出,在噪声密度达到50时,传统Sobel算法检测出的边缘图像受噪声影响严重,已经模糊不清,几乎用肉眼都无法识别出图像轮廓;而本文算法依然能够检测出清晰的图像边缘,存在非常少的噪声边缘,同时边缘较细,连续性较好。
<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\07T4.tif>
图4 较高密度噪声图像检测结果
4 结 论
针对含噪图像提出一种基于均值梯度的边缘检测算法,算法采用分区域均值的方法计算图像梯度,在较好地检测出图像边缘的同时,对脉冲噪声起到了良好的抑制作用。采用改进的非极大值抑制方法使得检测出的图像边缘较细,而且连续性较好,具有良好的适应性和较高的应用价值。
参考文献
[1] 邓彩霞,王贵彬,杨鑫蕊.改进的抗噪形态学边缘检测[J].数据采集与处理,2013,28(6):740?744.
[2] 赵月云,王波.基于Roberts 边缘检测的面向对象建筑物信息提取[J].城市勘测,2012(2):120?122.
[3] 郑英娟,张有会,王志巍,等.基于八方向Sobel算子的边缘检测算法[J].计算机科学,2013,40(11):354?356.
[4] 邹柏贤,张然,苗军.Prewitt图像边缘检测方法的改进[J].微电子学与计算机,2013,30(5):23?26.
[5] 马娅丽,熊淑华,黑建业.一种改进的LOG 边缘算法研究[J].计算机技术与发展,2013,23(9):6?9.
[6] 许宏科,秦严严,陈会茹.一种基于改进Canny 的边缘检测算法[J].红外技术,2014,36(3):210?214.
[7] 师文,朱学芳,朱光.基于形态学的MRI图像自适应边缘检测算法术[J].仪器仪表学报,2013,34(2):408?413.
[8] 韩慧妍,韩燮.基于方向小波变换的边缘检测算法[J].微电子学与计算机,2007,29(7):55?57.
- 上一篇:集团化办学德育工作计划
- 下一篇:消防基础理论知识