卷积神经网络的优势范文

时间:2024-04-01 18:16:47

导语:如何才能写好一篇卷积神经网络的优势,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

卷积神经网络的优势

篇1

关键词:图像分类;深度学习;Caffe框架;卷积神经网络

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)35-0209-03

Research and Implementation of Image Classification Based on Convolution Neural Network

WANG Chao

(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)

Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.

Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network

S着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。但是面临有海量图像信息却找不到所需要的数据的困境,因而图像分类技术应运而生。通过各种机器学习算法使计算机自动将各类图像进行有效管理和分类,但是由于图像内容包含着大量复杂且难以描述的信息,图像特征提取和相识度匹配技术也存在一定的难题,要使得计算机能够像人类一样进行分类还是有很大的困难。

深度学习是近十年来人工智能领域取得的重要突破,在图像识别中的应用取得了巨大的进步,传统的机器学习模型属于神经网络模型,神经网络有大量的参数,经常会出现过拟合问题,因而对目标检测准确率上比较低。本文采用卷积神经网络框架,图像特征是从大数据中自动学习得到,而且神经网络的结构深由很多层组成,通过重复利用中间层的计算单元来减少参数,在特征汇聚阶段引入图像中目标的显著信信息,增强了图像的特征表达能力。通过在图像层次稀疏表示中引入图像显著信息,加强了图像特征的语义信息,得到图像显著特征表示,通过实验测试,效果比传统的图像分类算法预测的准确度有明显的提升。

1 基于卷积神经网络的图像分类方法

1.1 人工神经网络

人工神经网络(Artificial Neural Network, ANN)是描述生物神经网络运行机理和工作过程的抽象和简化了的数学物理模型,使用路径权值的有向图来表示模型中的人工神经元节点和神经元之间的连接关系,之后通过硬件或软件程序实现上述有向图的运行[1]。目前最典型的人工神经网络算法包括:目前最典型的人工神经网络有BP网络 [2]Hopfield网络[3]Boltzmann机[4]SOFM网络[5]以及ART网络人工神经网络[6],算法流程图如图1所示[7]。

1.2 卷积神经网络框架的架构

Caffe是Convolutional Architecture for Fast Feature Embedding的缩写[8],意为快速特征嵌入的卷积结构,包含最先进的深度学习算法以及一系列的参考模型,图2表示的是卷积神经网络结构图。Caffe深度学习框架主要依赖CUDA,IntelMKL,OpenCV,glog软件以及caffe文件。本文使用的各个软件版本说明,如表1所示。

Caffe深度学习框架提供了多个经典的卷积神经网络模型,卷积神经网络是一种多层的监督学习神经网络,利用隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能,卷积神经网络模型通过采取梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练来提高网络的精度。卷积神经网络使用权值共享,这一结构类似于生物神经网络,从而使网络的复杂程度明显降低,并且权值的数量也有大幅度的减少,本文使用这些模型直接进行训练,和传统的图像分类算法对比,性能有很大的提升,框架系统训练识别基本流程如图3表示。

1.3 图像分类特征提取

卷积神经网络的结构层次相比传统的浅层的神经网络来说,要复杂得多,每两层的神经元使用了局部连接的方式进行连接、神经元共享连接权重以及时间或空间上使用降采样充分利用数据本身的特征,因此决定了卷积神经网络与传统神经网络相比维度大幅度降低,从而降低计算时间的复杂度。卷积神经网络主要分为两个过程,分为卷积和采样,分别的对上层数据进行提取抽象和对数据进行降维的作用。

本文以Caffe深度学习框架中的 CIFAR-10数据集的猫的网络模型为例,如图4所示,对卷积神经网络模型进行训练。CIFAR-10是一个标准图像图像训练集,由六万张图像组成,共有10类(分为飞机,小汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车),每个图片都是32×32像素的RGB彩色图像。通过对数据进行提取和降维的方法来提取图像数据的特征。

2 实验分析

将猫的图像训练集放在train的文件夹下,并统一修改成256×256像素大小,并对猫的图像训练集进行标记,标签为1,运行选择cpu进行训练,每进行10次迭代进行一次测试,测试间隔为10次,初始化学习率为0.001,每20次迭代显示一次信息,最大迭代次数为200次,网络训练的动量为0.9,权重衰退为0.0005,5000次进行一次当前状态的记录,记录显示如下图5所示,预测的准度在98%以上。而相比传统的图像分类算法BP神经网络网络的收敛性慢,训练时间长的,网络的学习和记忆具有不稳定性,因而卷e神经网络框架在训练时间和预测准度上具有非常大的优势

3 结束语

本文使用Caffe深度学习框架,以CIFAR-10数据集中猫的网络模型为例,构建小型猫的数据集,提取猫的图象特征信息,最后和目标猫图像进行预测,并和传统的图像分类算法进行对比,预测的准确率有很大的提升。

参考文献:

[1] 杨铮, 吴陈沭, 刘云浩. 位置计算: 无线网络定位与可定位性[M]. 北京: 清华大学出版社, 2014.

[2] 丁士折. 人工神经网络基础[M]. 哈尔滨: 哈尔滨工程大学出版社, 2008.

[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.

[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.

[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.

[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.

篇2

【关键词】人工智能 图像识别 深度学习

1 概述

图像识别技术是人工智能研究的一个重要分支,其是以图像为基础,利用计算机对图像进行处理、分析和理解,以识别不同模式的对象的技术。目前图像识别技术的应用十分广泛,在安全领域,有人脸识别,指纹识别等;在军事领域,有地形勘察,飞行物识别等;在交通领域,有交通标志识别、车牌号识别等。图像识别技术的研究是更高级的图像理解、机器人、无人驾驶等技术的重要基础。

传统图像识别技术主要由图像处理、特征提取、分类器设计等步骤构成。通过专家设计、提取出图像特征,对图像M行识别、分类。近年来深度学习的发展,大大提高了图像识别的准确率。深度学习从大量数据中学习知识(特征),自动完成特征提取与分类任务。但是目前的深度学习技术过于依赖大数据,只有在拥有大量标记训练样本的情况下才能够取得较好的识别效果。本文认为研究如何在标记数据有限的情况下继续利用深度学习完成物体识别任务具有重要意义。这也是未来人工智能研究的重要方向之一。

2 传统图像识别技术

传统的图像识别技术包括:图像获取、预处理、特征提取、分类。在图像输入后,需要先对图像进行预处理。一幅标准灰度图像,如果每个像素的像素值用一个字节表示,灰度值级数就等于256级,每个像素可以是0~255之间的任何一个整数值。一幅没有经过压缩处理的640×480分辨率的灰度图像就需要占据300KB的存储空间。通常我们需要将图片的亮度及对比度调整合适,才能使图片更加清晰、便于观察。

许多采集到的图片带有或多或少的噪声,需要对图片的噪声进行消除。对图片噪声的消除可以使用不同的去噪方法,如中值滤波、算数平均滤波、平滑线性滤波和高斯滤波等。不同滤波器分别适用于不同情况的噪声。如椒盐噪声便适合使用中值滤波器,高斯噪声便适合使用平滑线性滤波和高斯滤波。有时候,我们需要对图像细化处理(如指纹细化,字符细化等),以便获取主要信息,减少无关信息。细化操作,可以得到由单像素点组成的图像轮廓,便于后续特征提取操作。

基本的图像特征提取包括边缘、角点等提取。一般使用不同的特征提取算子结合相应的阈值得到这些关键点。另一类在频域中进行特征提取的方法主要是通过傅里叶变换,将图像基于频率分为不同的部分,从而可以在频谱中反映出原始图像的灰度级变化,便可得到图像的轮廓、边缘。

在完成图像的预处理和特征提取之后,我们便能够对图像进行识别、分类。常用的分类器有K-近邻(KNN),支持向量机(SVM),人工神经网络(ANN)等等。K-近邻算法原理是,当一个样本的k个最相邻的样本中大部分属于某一类别时,该样本也应当属于同一类别。支持向量机是通过寻找支持向量,在特征空间确定最优分类超平面,将两类样本分开。人工神经网络模仿生物大脑中的神经网络结构,通过误差反向传播不断优化参数,从而得到较好的分类效果。

3 基于深度学习的图像识别技术

一般认为深度学习技术是由Hinton及其学生于2006年提出的,其属于人工神经网络分支。深度神经网络模仿人脑的神经机制来分析样本,并尽可能地对样本的特征进行更深度的学习。以图片为例,利用深度学习技术对样本的特征进行学习时,由低层特征到高层特征越来越抽象,越来越能表达语义概念。当样本输入后,首先对图像进行卷积与下采样操作,卷积和下采样操作是为了进行特征提取和选择。以原始像素作为输入,深度学习技术可以自动学习得到较好的特征提取器(卷积参数)。深度学习的训练过程,首先将当前层的输出作为下一层的输入,进行逐层分析,使得每一层的输入与输出差别尽可能小。其后,再联合优化,即同时优化所有层,目标是分类误差最小化。

传统的深度神经网络往往网络中的节点数太过庞大,难以训练。人们构造出卷积神经网络,以权值共享的方式减少了节点数量,从而能够加深学习的深度,使系统能学习到更抽象、更深层的特征,从而提高识别正确率。目前较成功的深度学习网络结构有AlexNet、GoogLeNet、ResNet等。

与传统识别技术相比,深度学习技术具有以下优势:

(1)无需人工设计特征,系统可以自行学习归纳出特征。

(2)识别准确度高,深度学习在图像识别方面的错误率已经低于人类平均水平,在可预见的将来,计算机将大量代替人力进行与图像识别技术有关的活动。

(3)使用简单,易于工业化,深度学习由于不需要领域的专家知识,能够快速实现并商业化,国内较知名的深度学习创业公司有专注人脸识别的Face++、研究无人车的驭势科技等。

4 存在问题与未来展望

虽然深度学习具备诸多优点,但目前来看深度学习仍有许多不足之处。首先,由于深度学习模型为非凸函数,对其的理论研究十分困难,缺乏理论保证。在对数据进行调整时,仍是简单的“试错”,缺少理论支撑。

同时,由于深度学习过于依赖数据量和计算资源。对一个新概念的学习,往往需要数百个甚至更多有标记的样本。当遇到有标记的样本难以获取或者代价太大时,深度学习就无法取得好的学习效果。并且深度学习需要十分昂贵的高性能GPU,这使得深度学习难以平民化。目前深度学习训练速度较慢,往往需要几天甚至一个月。其模型扩展性差,缺少“举一反三”的能力,样本稍加变化,系统性能便会迅速下降。目前的深度学习属于静态过程,与环境缺乏交互。

对其的解决方案目前主要有两点:

(1)针对于模型扩展性差的问题,通过引入迁移学习,研究不同任务或数据之间的知识迁移,提高模型的扩展能力、学习速度,同时降低学习成本,便于冷启动。

(2)与强化学习结合,研究在动态环境下进行深度学习,提高深度学习与环境交互的能力。

参考文献

[1]蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016:113-122.

[2]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000:885-894.

[3]梅园,赵波,朱之丹.基于直线曲线混合Gabor滤波器的指纹增强算法[J].计算机科学,2016.

[4]孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012:2806-2810.

[5]庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015:26-39.

[6]高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004:86-100.

篇3

P键词关键词:视网膜;PCNN;血管分割;MATLAB;GUIDE

DOIDOI:10.11907/rjdk.161883

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2016)008-0068-03

0 引言

眼睛是人体接受外界信息最主要的器官,约75%左右的信息来源于视觉信息。因此,眼睛健康与否对人的学习、生活和工作的影响非常大。而眼底则是这个器官的重要组成部分,主要包括视网膜、脉络膜、黄斑和视盘等。眼底视网膜中的血管是人体内唯一可以非创伤的方式直接观察到的较深层微血管,其颜色、亮度、位置分布、形状以及曲率等变化可以直接反映出疾病对血管网络形态结构的影响,是心脑血管疾病对血管微循环检查的重要部位。因此,视网膜图像中血管网络的检测与分割对心脑血管疾病的诊断及治疗具有重要意义[1]。

由于该方法计算公式复杂,涉及参数较多,且目前主要使用编写脚本程序的方式进行视网膜眼底图像中的血管分割,各个参数的调整都要在脚本程序中进行,非常复杂,不便于可视化地观察实验结果变化。因此,设计开发一款界面友好、操作简单的视网膜血管分割系统是非常必要的。

MATLAB是一款由Mathworks公司推出的数学软件,它在数值分析、矩阵运算、数值拟合以及图形绘制等方面均有极其强大的功能,已被广泛应用于数字图像处理、信号处理和系统仿真等各个领域。同时,MATLAB 软件具有界面友好、操作简单的图形可视化界面设计工具,其集成图形用户界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜单、对话框、按钮和文本等各种控件[2]。用户通过对控件进行布局,编写控件的回调函数即可实现GUI 与用户之间的交互,操作十分方便。

本系统在对视网膜眼底图像中的血管进行预处理并运用脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)迭代原理分割的基础上,利用MATLAB 的图形用户界面开发环境(GUIDE)实现了视网膜血管分割系统。该系统为医学图像研究提供了一种有效的视网膜血管分割方法,也为医学图像处理提供了一个操作方便的实验平台。

1 研究方法

首先是对视网膜眼底图像中的血管进行预处理,然后利用PCNN方法对视网膜图像中的血管进行分割。

1.1 视网膜血管图像预处理

所处理的视网膜图像为眼底视网膜RGB彩色图像,通过将RGB 彩色图像分解成红、绿、蓝三通道单色图像可以发现,绿色通道的视网膜图像中血管和背景对比度最高, 而红、蓝色通道的单色图像中噪声较多、对比度较低, 因此采用绿色通道的视网膜图像进行处理。

由于视网膜眼底图像是由专门的医学设备采集的,血管周围区域难免会对后续处理产生干扰,因此需要对视网膜图像进行有效区域的选取。将RGB图像进行二值化处理,使其归一化到[0,1]之间,再依次应用形态学中的开运算、闭运算和腐蚀操作,生成二值掩膜图像。

由于血管直径大小不一、背景干扰以及成像时光照不均等因素影响,使得血管与背景的对比度较低。为获得理想的分割效果,要对眼底图像进行预处理,以增强血管和背景的对比度。本系统主要采用对比度受限制的自适应直方图均衡化(CLAHE)[3]与二维高斯匹配滤波[4]方法对视网膜血管进行对比度的增强。

直方图均衡化(HE)的基本思想是通过图像的灰度分布直方图确定一条映射曲线,用来对图像进行灰度变换,以达到提高图像对比度的目的。然而HE是对图像全局进行调整的方法,不能有效提高局部对比度。为了提高图像的局部对比度,有研究者提出自适应直方图均衡化(AHE)方法,将图像分成若干子块,对子块进行HE处理。但是AHE 对局部对比度提高过大,将导致图像失真。为了解决这个问题,必须对局部对比度进行限制,这便是CLAHE方法。CLAHE处理后的图像既能体现不同位置灰度分布之间的差异,又能使全局灰度较为协调。

二维高斯匹配滤波的原理主要是根据血管曲率较小且宽度渐进改变这一特点,将血管近似分段为等宽度的线段,然后用高斯曲线模拟其横截面的灰度轮廓。由于血管方向具有任意性,因此需要旋转高斯曲线来匹配不同方向的血管。每30°旋转一次,得到从0°~180°的6个匹配滤波器,再分别与经过CLAHE处理后的图像进行卷积,选择其中最大的卷积值作为增强图像的像素值。

最后,将经过CLAHE处理之后的图像减去经过CLAHE、二维高斯匹配滤波后的图像,即可得到最终的预处理结果。

1.2 基于PCNN的视网膜血管分割

脉冲耦合神经网络 (PCNN ,Pulse Coupled Neutral Network)[5]是20世纪90年代形成和发展的与传统人工神经网络有着根本不同的新型神经网络,其模型直接来源于高级哺乳动物的视觉神经系统,具有现实的生物学依据,在图像处理与分析及计算机视觉领域中有着广泛应用。它不仅能够克服微小变化造成的影响,而且能够较完整地保留图像的区域信息。因此,使用PCNN进行视网膜血管图像分割具有一定优势。

本系统采用PCNN简化模型对视网膜图像血管自动分割,该模型不仅保持了原始模型的重要特性,而且减少了部分参数。用迭代公式可以描述为:

式中,Sij是外部刺激,即点(i,j)对应像素的灰度值,Fij是神经元的输入项,Lij、Uij、Yij、Eij分别是神经元的耦合连接输入、内部活动项、脉冲输出和动态阈值。VL为连接输入域的放大系数,β为神经元之间的连接强度系数,VE和αE分别为动态阈值的放大系数和衰减常数因子,W为连接加权系数矩阵。PCNN应用于眼底图像处理时,其神经元数目与图像像素数目一致,各神元与像素一一对应,像素的灰度值作为对应神经元的输入Sij。当连接加权系数矩阵W所在邻域内有相似灰度值像素时,若其中某个神经元点火产生脉冲输出,会引起邻域内相近灰度值像素对应的神经元点火,产生脉冲序列输出,这些输出脉冲序列构成的二值图像Y即为输出的分割图像。

2 系统设计思路及方法

根据上述分割过程,将系统设计成两大模块,分别对应于两个界面,主界面为视网膜图像预处理模块,子界面为视网膜血管分割模块。通过使用MATLAB GUIDE中的控件进行布局和编写相应的回调函数来实现各模块功能。

利用MATLAB GUI实现视网膜血管分割系统的过程可以分为GUI 图形界面布局和GUI 程序实现两部分[6]。对于界面布局,首先要考虑窗口大小、控件位置以及界面所要实现的功能及各控件需要完成的任务。完成控件的布局之后,接着应对控件属性进行设置,通过在相应的控件上双击鼠标左键,打开属性查看器,设置该控件属性。最后需要对各个控件进行回调函数的编写,这是界面设计的关键一步,直接影响界面各个功能的实现。

3 系统功能实现

3.1 视网膜图像预处理模块

视网膜图像预处理模块包括选择图片、选择RGB通道、CLAHE增强处理、二维高斯匹配滤波处理以及最终预处理结果5个子模块,如图1所示。

具体操作如下:界面初始化后自动加载一幅默认图片,也可以由用户选择其它图片;单击“选择图片”按钮,之后会弹出一个对话框,选择要载入的图片,可以看到图片显示在界面的左上角,文件名显示在图片正下方;然后选择彩色通道,默认为绿色通道,选择的通道图像显示在右边区域左上角。如果勾选 “生成掩膜”选项,则后面的运行结果均会显示出单击“生成掩膜”之后的图像,默认状态为未勾选;接下来需要进行CLAHE处理,以增强图像对比度。在这里,主要是对adapthisteq函数中的参数进行设置;最后单击“运行”按钮,结果显示在右边区域的右上角。在进行CLAHE处理之后,需要进行二维高斯匹配滤波处理,主要是对滤波核个数、血管半径及血管段长度进行设置,以进一步增强血管与背景的对比度;然后单击“运行”按钮,结果显示在右边区域的左下角;单击“最终预处理结果”按钮,结果显示在右边区域的右下角。

3.2 视网膜血管分割模块

视网膜血管图像分割模块主要是根据PCNN算法迭代原理,调节PCNN各个参数,对视网膜血管图像进行分割,如图2所示。

具体操作如下:单击主界面中的“PCNN分割”按钮,即可进入视网膜血管分割模块的界面;接着选择所需PCNN模型和核,并设置核的半径大小。若选择“原始模型”,则需要设置PCNN的6个参数,若选择“改进模型”,则只需设置PCNN的4个参数;之后设置迭代次数和beta的值,单击“运行”按钮,在弹出的对话框中,选择一幅迭代图片,将自动生成分割结果;对于分割后的结果,单击“保存”按钮,可以保存图片;最后单击“返回”按钮,可以返回主界面。

4 结语

基于MATLAB 软件在图形绘制、数值运算及可视化界面开发等方面的优势,在对视网膜眼底图像中的血管预处理并运用PCNN算法迭代原理进行分割的基础上,通过MATLAB GUI 设计完成了视网膜血管分割系统,可以实现视网膜血管图像的增强处理,进而利用脉冲耦合神经网络方法对视网膜血管图像进行分割。本系统提供了一种有效的视网膜血管分割方法,在医学图像研究方面具有一定参考价值。同时,系统具有界面友好、操作简单等特点,为医学图像处理提供了一个操作方便的实验平台。

参考文献:

[1] 姚畅,陈后金,李居朋. 基于过渡区提取的视网膜血管分割方法[J].电子学报,2008,36(5):974-978.

[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序设计[J]. 电脑知识与技术,2009,27(5):7767-7768.

[3] 陈萌梦,熊兴良,张琰,等. 1种视网膜眼底图像增强的新方法[J]. 重庆医科大学学报,2014,39(8):1087-1090.

[4] 姚畅,陈后金. 一种新的视网膜血管网络自动分割方法[J].光电子・激光,2009,20(2):274-278.

篇4

关键词:化学计量学 分析化学 人工神经网络

化学计算学作为化学的分支学科,起步较晚,在涉及内容上又比较广阔,涉及到数学、统计学及计算机应用技术等相关学科,可以说是一门交叉性的学科。正是因为科学技术的发展及多学科相互渗透的作用才诞生了化学计量学这门独特的学科。涵盖于化学测量的整个过程,采样理论、实验设计、选择与优化、变量处理及数据分析斗属于化学计量学。化学计量学担负的主要任务是进行化学测量数据的分析与处理,进行测量程序与实验方法的最佳选择,最早由瑞典化学家提出,一直沿用至今。正是因为化学计量学的巨大作用,解决了传统化学研究中不能攻破的难题,成为化学研究的新方向与关注点。

一、化学计量学对于化学测量的应用分析

在化学研究中,需要将化学计量学渗透于化学测量的全过程。在上世纪五十年代以来,新的化学仪器分析方法已经被充分的引入到分析化学中,分析测试工作已经逐步实现了仪器化、自动化与初步的计算机化,这些技术的深入应用,为化学分析提供了可靠的测量数据,但是将这些分析仪器的优点结合起来,将杂乱无章的数据信息进行重新排列组合,最大限度的解决信息的筛选,成为化学研究工作者当前面临的最大难题。

化学计量学在解决这一问题中发挥了重大作用。将分析分离技术集于一体,通过特定的高维仪器产生分析信号,利用新型的分析信号多元校正及有效分辨方法进行复杂多组分的体系定性,进行定量解析。利用这种化学计量学的方法可以对巨大的数据信息进行有效的筛选,从而提取最有用的信息,对这些有用信息进行分析,实现了单纯的“数据提供者”到“问题解决者”的角色转变。化学计量法对于化学测量产生的影响是深远且巨大的。化学计量法应该贯穿于化学测量的全过程。

二、当前化学计量学在分析化学中的应用分析

(一)化学计量学在化学定量构效关系中的应用分析

化学定量构效关系研究是化学学科的根本性研究问题,结合物质的化学成分与基本的结构进行化学性质的测定,是我国目前化学理论研究中的重要目标。在进行研究时一般采用图论与数值的方法进行各种化合物的表征,将所获取的计算结果与实际的被测量化学物的物理、化学及生物特性结合起来,用比较明确的定量关系来代替含糊的定性描述。目前化学计量学在进行分析化学研究时引入了全局最优算法,在利用误差反向传播的多层次感知模型进行苯酚衍生物的活性测验时取得了明显的研究效果,较之先前的研究方法,改进是十分明显的。

(二)化学计量学中模式识别方法在分析化学中的应用

化学计量学中的模式识别法是根据化学测量数据矩阵,对样本集通过样本性质进行分类进行选取的方法。根据测量在多维模式空间中的相对位置不同,用线性判断识别分析法、最邻近法等进行模式的识别。模式识别法的研究能够为决策及过程优化提供最有实用价值的信息资料。我国石油化工行业、材料化学研究领域都基于该思想破解了很多研发难题。其中K―最邻近法从伏安波汇总对重叠的伏安响应信号进行区分,将K―最邻近法用于电位阶伏安波及毛细管曲线分类中,实现了对有机化合物构效关系的有效表征。二SMCA法最广泛的应用就是食品的鉴定。

(三)化学计量学的人工神经网络应用分析

除了我们上面提到的应用,化学计量学在神经网络应用方面也发挥了积极的作用。所谓的人工神经网络是基于现代生物学的对人脑组织进行研究而提出的,利用大量的简单的处理单元进行充分连接,从而形成的巨大的复杂的网络体系,主要是用来模拟人的大脑神经网络结构域的一定神经行为。人工神经网络可以对数据模式进行合理的解析与分类,对于原因与结果关系不确定的非线性测量数据有着独特的应用。分析化学的不确定性很多,借助于化学计量学的人工神经网络得到了有效的应用解决。从目前神经网络的应用情况来看,在谱图分析、药物分子药效的预测及蛋白质结构的预测方面都取得了不错的成绩。此外,在分析化学中应用比较广泛的还有遗传算法,遗传算法可以进行多组分分析波长选择、数据校正优化、核磁共振脉冲波形选择等。人工神经网络还进一步促进了仪器联机与实验的自动化。在生产方面起到了重要的指导作用。

(四)化学计量法波普化学的应用分析

目前在化学研究中,化学家们一直努力的目标主要是波普数据库的有效利用。波普数据库的质谱、核磁共振谱、色谱等复杂分析体系的快速定性定量分析都是当前研究的重点。化学计量学为这方面的研究提供了新的突破口。各种滤波、平滑、交换、卷积技术的应用,促进了分析化学的发展。可以直接提供不可分离的直接地测定相互干扰的共存性物种,对于完全未知的混合物也可以实现准确的测定。

(五)化学计量法的多元校正分析应用

我国化学的多元化分析成为今后化学研究的大趋势,不仅在研究目标上体现出多元化,对于研究对象也呈现出多元化的特性。这对于化学研究工作者是不小的挑战。要求化学工作者能够快速、准确的定位与定量,从而得出分析结果。在这样的背景下,多元校正法应用而生,其产生为现代分析仪器提供了大量的测量数据,并对这些数据进行了解析,可以说多元校正法是新型的数学统计方法。多元校正法在多个方面进行了研究优化,灵敏度、检测度、精密度等都对指标进行了优化,在对这些指标优化后,大大扩展了分析仪器的功能与方法的有效及实用性。正是因为正交设计、均匀性设计分析、板因式设计分析等多种实验设计优化方法的相互协调,对分析选择性进行了改善,在一定程度上拓宽了其化学计量法多元校正的应用领域。

三、结束语:

化学计量学从产生到现在大约只有30多年的历史,但是在短短的几十年内,其应用不断得到普及,其应用效果不断得到化学行业的肯定。将来,化学计量学将依然是令人关注的问题,有着广阔而光明的前景。化学计量学不断发展,将对仪器的智能化分析提供新的研究理论与方法途径,为高维联用仪器的发展提供新的突破口与改进点。通过本文对化学计量学在分析化学中的应用分析,我们在看到化学计量学优势作用的同时,更应该看到其发展中的不足,针对这些不足进行研究分析,在进行多次验证的基础上寻找新的解决途径,完善这些不足,为化学计量学的发展提供更加广阔的发展空间。在分析化学发展领域,增强对化学计量学的引入是今后化学研究发展的一个大方向。

参考文献

[1]黄丹.浅谈化学计量学在分析化学中的应用及发展前景[J].今日科苑.2009(08).

[2]周统武,蔡娟.化学计量学的学科现状与发展方向[J].中国科技信息,2009(03).

[3]周南.关于“分析化学中的计量学与质量保证”的国际研讨会[J].理化检验(化学分册),2007(03).

篇5

人工神经网络作为一种智能化的方法近年来在图像数据压缩领域得到了一定的研究与应用[6]。基于人工神经网络的数据压缩主要有2个步骤:①学习训练,将数据送入输入层作为训练样本,不断调整各层间的连接权值,从而使得网络的输出均方差达到最小;②压缩编码,将数据输入到训练好的网络,压缩后的数据通过隐含层输出。DEM数据具有相关性和连续性的特点,即DEM数据反映的是地形连续变化的特征,高程剧烈变化的部分是少有的并且DEM网格中某一点的高程值可以通过邻域值用非线性函数表示,这实质上非线性函数逼近或地形曲面拟合的过程。基于以上特点,学者们将人工神经网络引入到DEM数据压缩领域,冯琦等[7]采用BP神经网络实现DEM数据压缩,该研究特色在于:①采用L-M训练算法提高单隐层网络(SHLN)运算速率[8-9];②基于DEM数据相关性特点设置相对误差精度指标实现对最优BP训练网络的选取,在减少结点数的同时获得较高的压缩比;③该方法解压过程对于计算机硬件依赖性不高,能够进行数据的离线压缩处理。根据DEM数据的连续性特征,赵鸿森等[10]提出了一种基于RBF神经网络的压缩方法,该方法将山脊线、山谷线等地形特征作为样本点训练集,能够根据地形特征自适应确定网络结构,神经网络权值是通过网格点高程值获得,可获得较高的压缩比。

基于小波变换的DEM数据压缩

1.基于DWT的DEM数据压缩

DWT(DiscreteWaveletTransform)适合于处理各种冗余度低、相关性低的非平稳信号的压缩处理,对于不稳定、相关性差的DEM数据压缩具有较好的效果。DWT对于信号的压缩是基于其他具有多分辨率分析(MRA)这一特性,即根据Mallat算法[11]原始信号能够被逐级分解为高频和低频信号,由于高频分解信号含有绝大都数信息并且幅值小,通过设定一定的比例将最小幅值的分解系数置为0,再通过小波系数重构达到信号压缩的目的。经过理论分析,原始信号经过DWT,重构信号与原始信号具有高度的一致性。事实上重构信号与原始信号的差别往往不可忽略,特别是对于DME数据的压缩,压缩后数据相对于原始数据而言存在着严重的边界畸变、失真等问题,必须加以解决。针对这一问题,CHANG[12]等将二维离散小波变换的边界问题转变为一维离散小波变换来进行处理,研究结果表明该方法大大减小了边界失真区域,在提高压缩比的同时DEM重建数据精度也得以提高。

2.基于IWT的DEM数据压缩

DWT是通过将信号分解系数直接置0的方式来进行压缩处理,重构信号与原始信号不可避免地出现误差,而基于IWT(IntegerWaveletTransform)信号压缩,由于小波分解系数通过有限精度数(FinitePrecisionNumber)来进行精确描述,因而适合于对信号进行无损压缩处理[13]。基于IWT的数据压缩具有以下特点:①压缩处理很大程度上依赖于多相矩阵因式分解的选择,而因式分解能否对压缩后图像给定一个适当的误差尺度,取决于图形迭代函数;②IWT采用提升方案,并且均为整数运算,数据处理的速率得以提高;③IWT完全可逆,既可以实现有损编码也可以实现无损编码。陈仁喜等[14]将整形小波变换用于DEM数据压缩处理,该方法首先将经过预处理的DEM数据进行整形小波变换,然后对变换系数进行阈值化处理,最后进行量化编码。该方法最大特点是实现了数据压缩比和质量以及数据质量和传输速度的很好折中,具体为:①量化方法基于SPIHT算法平面传送思想,重要信息主要集中于高位,将小波变换后的系数直接去掉后面的n个平面位,该方法在保证数据压缩质量的同时提高了压缩比;②采用基于位平面扫描的算法对量化后的数据进行压缩编码,这使得压缩后的数据具有质量渐进传输特性;③小波变换后各子带分别进行编码,在解码过程中可以不对高频子带解码,得到的恢复数据分辨率较低,这有利于对大型DEM数据进行快速检索和浏览。

3.基于SPIHT小波编码算法

EMZ(EmbeddedZerotreeWavelet)算法由Shaprio[15]于1993年提出,该算法包括嵌入式和零树,在零树结构与逐次逼近量化方法(SAQ)相结合的基础上实现嵌入式编码。该算法能充分利用小波系数特点使得输出的码流具有嵌入的优点,因而在图像处理[16-17]、生物医学[18]等领域得到广泛的应用研究。但该算法也存在着如在相互独立的零树进行编码时浪费大量字节等缺陷,研究者们也做了一些改进[19]。在EMZ算法基础上发展而来的SPIHT(SetPartitioninginHierarchicalTrees)[20]算法具有能够在保证数据压缩质量的前提下提高压缩比,能够进行优化嵌入式编码,均方根误差和计算复杂度低等优点,并且数据压缩后具有很好的渐进传输特性,目前该算法在图像压缩领域得到广泛应用。地形特征是影响DEM压缩质量的一个重要因素,平坦地区数据冗余量大而山地地势高低起伏,数据冗余则较小,但就现有的研究方法而言将这两种地形采用同样地压缩比,压缩结果不尽如人意,李毅等[21]提出了一种基于SPIHT小波的DEM自适应压缩方法,该方法特点在于:①考虑地形特征,根据地形的复杂度进行分析以确定数据压缩比,从而确保数据可视化质量;②自适应性编码,通过才用表征不同尺度的小波高频系数和地形尺度特征向量对地形复杂度进行评估,根据评估结果自适应调节编码算法。但该研究中数据压缩比是根据地形视觉效果选择,存在一定的经验性,在实际应用中很难得到较为理想的压缩比。

4.基于M进制小波的DEM数据压缩

多分辨率分析是传统二进制小波变换的基本特性,即能够获得信号在时间域和频率域局部化特征,这有利于对图像局部信息进行有效地识别和分析。当图像经过多层小波分解时,随着分解层数的增加,图像信息会出现不同程度的丢失,这成为二进制小波变换的主要缺陷。在二进制小波变换基础上发展的M进制小波变换具有如下特点:①能够对图像信号进行更加细致地分解,分解次数不受限制;②图像信息更加集中,并能够精确描述图像的频率分布;③图像重构具备较高的精度;④具有对图像信号相对狭窄的高频部分进行放大处理和对图像信号压缩的特性,这克服了正交小波分解所存在的缺陷.DME由于具有海量化数据,以及复杂的地形信息等特点一直是DEM数据压缩的难点,近年来研究者们将M进制小波变换引入DME数据压缩领域,王宇宙等[22]提出了一种基于多进制小波变换的DEM数据压缩方法,顾及DEM地形因素,将高频和低频信息分别进行编码处理是其主要特色,具体化为:①低频系数采用差分映射编码,这充分顾及地面变化的连续性以及大量数据冗余的情形,能够对低频信息进行无损的压缩编码;②并未直接舍弃系数值较小的高频小波系数,而是通过自适应对数量化表,对各个高频小波系数子块分别加以量化处理,能够获得较好的压缩效果。但该方法不足之处在于:对数量化位数是根据压缩率来进行确定,而事实上压缩率不能预先得知,从而量化位数也就无法精确得获得,基于具体地形信息的DEM数据精确压缩也就难以实现。多进制小波函数和尺度函数的构造是基于多进制小波DEM数据压缩的难点之一,对此吕希奎等[23]构造了一种具有插值性质的多进制小波函数和尺度函数,将DEM数据转变为二维图像压缩问题,能够在保持地形特征基本不变的前提下提高压缩比。但基于多进制DEM数据压缩本质上是有损压缩,细节信息的损失不可避免。#p#分页标题#e#

基于组合算法的DEM数据压缩

1.SPHIT算法与小波变换相结合的DEM数据压缩

整形小波变换(IWT)采用了提升方案(LS),避免了传统小波的卷积运算,并且计算过程完全在空间域进行,计算复杂度明显降低,便于硬件实现。因此,IWT能够对于冗余度较大的DEM数据进行有效地去相关性处理,实现对DEM数据的无损或近似无损的压缩。将IWT与新型编码方法的代表——SPIHT算法有机结合,为DEM数据压缩提供了一种有效方法。田继辉等[24]提出一种能够用于应急三维GIS的DEM数据压缩方法,该方法特点在于:①根据压缩精度要求,实现DEM数据单位转换;②对于每块DEM数据均减去其最小值,在降低了小波变换级数的同时使得SPIHT编码级数也得到降低;③通过设定一个小波系数阈值,将高于和低于该阈值的小波系数,分别进行SevenZip和SPIHT算法进行处理;④选用Int5/3实现对DEM数据压缩处理。该方法充分发挥IWT和SPIHT算法的优势,能够顾及到地形平坦和起伏较大情形下的压缩编码,研究表明该方法取得了较好的压缩效果,但对于DEM数据的边界问题并未提及,仍需要进一步加以研究。

2.基于小波变换与熵编码相结合的DEM压缩算法

该算法实现主要有3个步骤:①小波变换,即选择恰当的小波基函数对DEM数据进行小波变换;②量化,经过小波变换后数据相比原始数据而言更加集中,但其数量大小并未改变,必须采用一定的量化方法进行数据量化;量化通常有矢量和标量量化两种方法;③编码,通过将小波变换后的量化数据进行编码,将其转化为字符流。就整个小波压缩流程而言,数据经过压缩后边界失真现象的克服,数据压缩比的提高,以及在于量化和编码方法的选择是该压缩算法的难点所在。DEM数据具有不稳定、相关性差、信息熵高,并且DEM在平原地区具有较大的冗余,而在山区则冗余度较低等特点,这使得数据压缩比难以得到提高,常占强等[25]利用具有线性相位的双正交小波变换与混合熵编码相结合的方法对山区DEM数据进行压缩处理,具体来说:首先对DEM数据进行小波变换,通过选取最大分解系数的1/6作为自适应阈值并与硬阈值函数相结合,对小波分解后的高频系数进行处理,能够使得大约95﹪小波系数为0;然后将高频和低频分解系数分别采用游程编码和Huffman编码;最后再次通过游程解码和Huffman解码进行数据解压。该研究充分发挥了小波变换与编码方法各自的优势,在提高数据重建精度的同时获得了较高的压缩比,但小波阈值的选取局限于单一的情形,对多种情形的小波阈值的自适应确定规则的研究仍有待于进一步深入。

3.纹理优化技术与其他方法相结合的DEM数据压缩

纹理数据作为一种重要的场景数据,在对三维DEM数据进行渲染时一般存在两个问题:①由于采用分辨率高而且颜色丰富的纹理,从而存消耗急剧增加;②无法有处理决纹理分辨率与视距之间的关系,即相机与图的距离较近时,图形分辨率较大,相机与图形距离较大时,图形分辨率较小。Mipmap(Multi-imagepyramidmap)技术能够很好解决以上问题,该技术由Willams提出,并很快得到了广泛的研究和应用。从广义角度上分析,DME数据压缩、传输与显示是一个有机整体,同属于DEM数据压缩范畴,即广义DEM数据压缩。杨晓东等[26]结合Mipmap纹理优化技术与顶点法向量编码方法对DEM数据进行压缩处理,该研究主要实现如下功能:①数据的渐进传输和显示:通过对DEM数据进行小波变换,分别采用标量量化器和EZW对小波系数进行量化和编码;②DEM数据优化显示,采用顶点法向量的计算和编码方法并结合Mipmap纹理优化技术,能够对模型数据进行光照效果的计算。该研究突破了将DEM数据的压缩、传输以及优化显示有机结合,突破了现有的DEM数据压缩的固有模式,为该领域提供了一个较好的研究思路。

4.基于判别规则(指标)的DEM数据压缩

TIN由于采用不规则的空间分布高程采样点描述地形,在数据结构、三角网生成算法等方面相对于排列规则且结构简单的Grid数据而言,数据压缩方面难度较大。通过预先定义某一判别规则(指标)来对数据量进行适当的取舍,从而实现对DEM数据的压缩,是实现DEM数据压缩处理的一种有效方法。蔡先华等[27]提出DEM数据压缩地形描述误差(Ep)这一判别指标来实现对DEM数据压缩,该方法首先在充分考虑DEM高程采用点、地形描述以及数据压缩等误差相互影响的基础上,确定数据压缩误差限值EP0;然后对不是TIN边界的高程点产生的地形误差Ep与所给限值进行比较,剔除小于该值的高程点,从而实现DEM数据的压缩。三角网在地形起伏较大的情况下,相邻法线向量之间夹角较大,而当地形平坦时,相邻法线向量近乎平行。刘春[28]等提出一种基于TIN的DEM数据压缩方法,该方法将相邻三角形法线间的夹角作为判别依据,判别阈值步骤如下:①确定大概阈值T,采用该阈值进行TIN压缩;②计算DEM采样点高程差的方差S;③将S与压缩误差允许值进行比较,如果大于该值则适当减少阈值T,并重新计算;反之则增大阈值T并重新计算直到满足要求为止。该方法间接地顾及地形特征,并且阈值的选择是根据所给点的压缩误差指标进行迭代选择的,研究表明该方法对TIN数据压缩较为有效,但对于特殊地面模型的压缩处理仍有待于进一步研究。

结束语

篇6

关键词:深度学习;目标视觉检测;应用分析

随着计算机的普及,目标视觉检测也在计算机的发展中逐渐被应用。人们的生活越来越离不开计算机和电子设备,数据信息充斥着当代人的生活。随着人们生活质量的提高对电子设备要求越来越高,越来越精准。目标检测技术在人们的生活中,也发挥着很大的作用和价值。智能监控、机器人、自动定位、人脸聚焦、航拍、卫星等方面都应用了目标视觉检测的技术。在高层视觉处理和任务分析中,目标视觉检测技术也是基础。无论是分析行为、事件还是场景语义的理解都需要运用到目标视觉检测技术。因此目标视觉检测在各个方面都发挥着重大的作用,本文就深度学习在目标视觉检测中的应用和展望进行探讨。

一、深度学习在目标视觉检测中的进展

深度学习最早出自于人工神经网络。深度学习把多层感知器作为学习结构,组合底层特征进行高层的学习。作为机器研究的一个新领域,模仿人脑组建学习的神经网络。深度学习可以逐步自主的学习。而目标视觉检测在近几年出现了很多的问题,例如,类内和类间存在差异。即使通过训练也很难包含所有类内的特征描述模型。而且类内和类间的差异大小不一样这就给目标视觉检测的发展带来很大的阻碍。在图像采集的过程中,由于种种因素会导致目标物体被遮挡,因此,视觉算法的鲁棒性也需要进行整改。语义理解也存在着差异,对仿生和类脑角算法有一定的难度。而计算机的复杂和自适应性也比较高,需要设计高效的目标视觉检测技术,为了确保目标视觉检测的精准程度,还需要设计出自动更新视觉模型来提高模型在不同环境下的适应能力。随着深度学习的发展,深度学习对于目标视觉检测有很大的用处,可以极大地解决目前目标视觉检测技术出现的问题。因此很多专家开始把深度学习融入到目标视觉检测的发展当中,并进行研究。

二、目标视觉检测的流程和顺序

估计特定类型目标是目标视觉检测的关键,目标视觉检测的流程大致分为三步,区域建议、特征表示和区域分类。根据图一,第一步区域建议。目标检测需要获得目标的准确位置和大小尺度,在输入图像的时候找到指定的类型目标是其中一种区域建议。还可以通过滑动窗进行区域建议,投票、图像分割的区域建议也可以使用。滑动窗需要在输入图像的时候在子窗口执行目标来检测目标所处的位置。投票机制则通过部件的模型找到输入图像和模型在局部区域内的最佳位置,并最大限度地让所有局部区域匹配,利用拓扑的方式来得到最佳匹配。但是投票机制的区域建议计算代价会比较高。图像分割的区域建议则建立在图像分割的基础上面,是一个消耗时间和精力的过程,而且很复杂很难把整个目标分割出来。而深度学习在图像分类和目标检测中都有一定得进展,通过深度学习的表征和建模能力可以生成抽象的表示[1]。

图一,目标视觉检测流程

三、深度学习在目标视觉检测当中的作用

深度学习融入目标视觉检测推动了目标视觉检测的发展和研究。目标视觉检测和图像分类有一定的区分,目标视觉检测主要关注图像的局部信息,图像分类在意图像的全局表达。但是它们也有一定的互通性。首先从区域建议的方法来探讨深度学习在目标视觉检测中的作用。深度学习在目标视觉检测中的基本参考方法是Girshick等人提出来的R-CNN方法。R-CNN和CNN相联系,检测的精准度达到了53.3%,对比传统的方法有很大的飞跃。如图二所示,输入相关图像的同时进行选择性的搜索提取候选区,通过CNN网络来提取固定长度的向量,图像经过两个全连接层和五个积卷层得出一个4096的向量,最后把提取到的向量数据在向量机中进行分配。但是这样的方式还是存在很多的不足和弊端,因此Girshick对R-CNN和SPP-net进行了进一步的改进,图像进行一次卷积在特征图上进行映射送入Rol池化层,最后通过全连接层输出。同一幅画像的Rol共同相同计算机的内存效率更加高。通过softmax 的分类不仅省去特征的存储还提高了利用率。近年来,kin等人又提出了PVANET网络,数据的检测精准度达到了82.5%,在确保精准度的情况下还能使通道数减少,可以增加对细节的提取。

图二,R-NN的计算流程

早期还提出过无区域建议的方式,例如,DPM模型可以在目标的内部进行结构化的建模,不仅提高了检测的性能,也能很好地适应非刚体的形变。但是DPM模型的构建条件复杂,模型训练也比较繁琐,所以sermanet又进行研究提出了Overfeat的模型,避免图像块的操作出错,也能提高算法的效率。但是关于尺寸的识别还是存在着一定的问题,因此无区域建议还在不断的探索过程中。redmom提出了关于改进yolo模型的方法,成为yolov2,可以确保精准度和定位,提升了检测率。专家们还研制出一种新的训练算法,用数据来找到物体的准确定位,yolo模型通过这样的方式课题检测超过九千种物体[2]。

四、结束语

未来深度学习在目标视觉检测中都会得到继续的应用和进展,深度学习在目标视觉测试中依旧是主流的方向。深度学习通过它的优势可以获得高层次抽象的表达。但是深度学习的理论还不是特别的完善,模型的可解释性还不够强。因此深度学习模式还需要得到进一步的改进和完善,对模型的结构,训练等多加指导。大规模多样性数据集也比较匮乏,现在很多的目标视觉检测都在imagenet上进行训练,但是目标检测技术还需要进一步的完善和提高,达到最好的效果。深度学习在目标视觉检测技术中的应用还不够完善,任重而道远,还需要进一步的完善理论提高精准度。在未来,深度学习和目标视觉检测一定能够得到极大的进展。

参考文献

篇7

关键词:人工智能;引擎;大数据;CPU;FPGA

DOI:10.3969/j.jssn.1005-5517-2017-2.006

1 2016年人工智能迎来了春天

2016年人工智能(A1)进入了第三个。2016年3月9-15日,谷歌AlphaGo(阿尔法狗)以4:1的成绩击败世界围棋冠军李世石职业九段,意义非常重大。因为过去机器主要做感知,现在出现了认知,这是人工智能的关键所在。

8个月后,2016年12月29日~2017年1月4日,AlphaGo的升级版――谷歌Master(大师)在30秒快棋网测中,以60胜0负1和的成绩,横扫柯洁、古力、聂卫平、朴廷桓、井山裕太等数十位中日韩世界冠军与顶级高手。从此以后,也许人类以后就没有和Master进行围棋比赛的机会了!除了围棋,人工智能下一步将在国际象棋、中国象棋等棋类方面发展。

扑克牌方面,专家水平的人工智能首次战胜一对一无限注德州扑克人类职业玩家,而且DeepStack让机器拥有知觉。

人工智能还能玩游戏。其意义很重大,平时环境中很难得到一些数据,因为游戏相当于虚拟社会,例如“星际争霸2”是复杂的虚拟社会,如果人工智能在这个虚拟社会中能战胜人,这将是非常了不起的,未来可涉及到高级决策,在军事上很有用处。2016年11月5日,谷歌DeepMind宣布与暴雪合作开发人工智能,挑战实时战略视频游戏“星际争霸2”。这件事情的意义非常重大。下一步可以用于军事上的高级战略决策。

无人驾驶方面,2016年11月15日,“在第三届世界互联网大会”期间,18辆百度“云骁”亮相乌镇子夜路,在3.16公里的开放城区道路上自主行驶。2016年特斯拉Autopilot 2.0问世,该软件只需要八千美元,就可让软件驾驶汽车。所有特斯拉新车将安装“具有完全自动驾驶功能”的该硬件系统,并可通过OTA(空中下载技术)进行软件升级;自动驾驶功能从L2(二级,半无人驾驶)直接跳跃到L4/L5();2017年底之前,特斯拉车将以完全自动驾驶模式从洛杉矶开往纽约。Uber提出在城区大范围无人驾驶出租车试运行,Uber 2016年9月14日在美国匹兹堡市推出城区大范围无人驾驶出租车免费载客服务并试运行,先期已测试近2年,说明无人驾驶真正落地了。

为何无人驾驶很重要?因为人工智能是无人驾驶的核心。除了百度、特斯拉、Uber,谷歌Waymo也在做自动驾驶测试。此外,沃尔沃、福特、宝马、百度、英特尔等全球约20多家企业公开宣布,4年以后的2021年将会是无人驾驶/自动驾驶元年,部分5AE L4车将会实现量产。

计算机视觉

针对ImageNet ILSVRC测试比赛的1 000种物体识别,Deep CNN超过了人类的识别能力。人是5.1%(如图1),2016年2月23日谷歌人工识别的评测是3.08%。ImageNetILSVRC中有1000种物体,例如猴子、马、飞机、坦克等约1500万张照片、包含2.2万类种不同物体。深度学习一般能做到52层,极深度学习(very deep lea rning)现在已经做到1000层。

在ILSVRC 2016国际评测中,包括视觉物体检测、视觉物体定位、视频物体检测、场景分类、场景解析等性能均有提高。值得一提的是,在此次大会上,中国团队大放异彩,几乎包揽了各个项目的冠军(图2)。

人工智能语义分割

基于全卷积神经网络FCN的路面/场景像素级语义分割取得重要进展。为此,我们可以分割大部分道路。

人工智能唇语专家

看电视时把声音关掉,靠嘴唇说话的变化来识别谈话内容,这种能力机器识别率已经超过人类。例如2016年12月,英国牛津大学与谷歌DeepMind等研发的自动唇读系统LipNet,对GRID语料库实现了95.2%的准确率;对BBC电视节目嘉宾进行唇语解读,准确率为46.8%,远远超过专业的人类唇语专家(仅为12.4%)。

人工智能人脸识别

人脸识别可以达到产品级别,例如支付宝的刷脸成功率超过了人类。如图3,人的水平为97.40,百度为99.77。因此可以进行产品体验。2017年1月6日,百度人工智能机器人“小度”利用其超强人类识别能力,以3:2险胜人类最强大脑代表王峰。

语音识别

目前的社交新媒体和互动平台中,Al虚拟助手和Al聊天机器人正在崛起。一天,美国GIT(佐治亚理工大学)的一个课堂上来了一位助教,教师讲完课后说:“大家有问题就问助教吧”。这位助教原来是个会眨眼睛的机器人!这时学生们才知道每天网上给他们答疑解惑的是人工智能,此前学生们也感到很吃惊,这位助教非常敬业,晚上还在发Email。

人工智能语音合成

指从文本声音到真实声音,可以自动翻译成英文。2016年9月19日,谷歌DeepMind推出WaveNet,实现文本到美式英语或中国普通话的真实感语音合成。

人工智能速记员

包括语音识别和NLP(自然语言处理)。2016年10月17日,微软的语音识别系统实现了5.9%的词错率(WER),媲美人类专业速记员,且错误率更低;中国科大讯飞也有语音输入法。

人工智能翻译

中国人往往从小学到读博士都在学英语。现在,谷歌、微软和百度等公司在做人工智能翻译。以谷歌为例,2016年9月27日,谷歌的神经机器翻译系统(GNMT)实现了多语种翻译,较之传统方法,英译西班牙翻译错误率下降了87%,英译汉下降了58%,汉译英下降了60%,已接近人工翻译的水平。也许今后学外语没那么重要了,人们可戴着耳机,耳机能直接翻译成各语言。

人工智能对抗训练

Goodfellow(2014)提出的生成式对抗网络(GAN),为半监督学习/举一反三式的学习发展提供新思路,2016年发展迅速。目前是监督式学习,需要依靠大数据,因此大数据需要非常完备。而人是举一反三式的学习。例如人没有见过飞机,看过几张照片就可以把世界上所有飞机都认出;目前的大数据驱动的深度学习方式,是把世界上所有飞机照片都看过才行。现在进行举一反三的半监督或无监督式学习,思路是采用对抗的方法,一个网络造假,另一网络鉴别照片是真是假,通过对抗式的学习来共同进步(如图4)。

人工智能引擎

芯片三巨头

英特尔、英伟达和高通全部转到了人工智能上。为此英伟达的股票涨了几倍。英特尔也在大搞人工智能。高通为了进入人工智能领域,收购了恩智浦,恩智浦此前收购了飞思卡尔。

现在出现了基于超级GPU/TPU集群的离线训练,采用超级GPU/TPu集群服务器,例如英伟达的深度学习芯片Tesla P100及DGX-1深度学习计算机,谷歌数据中心的TPU。

终端应用采用GPU/FPGA-based DPU,例如英特尔Apollo Lake A3900的“智能互联驾驶舱平台”,高通骁龙的820A处理器。

通用人工智能与认知智能

1997年,lBM的超级电脑程序“深蓝”击败国际象棋大师加里・卡斯帕罗夫;2011年2月,IBM的自动问答系统在美国最受欢迎的智力竞答电视节目“危险边缘”中战胜了人类冠军:IBM的沃森医生在某些细分疾病领域已能提供顶级医生的医疗诊断水平,例如胃癌诊断。

可见,1.AlphaGo和Master等已可横扫人类围棋职业顶尖高手,下一步,将能下中国象棋等所有棋类,此外还可以打牌、炒股等,即什么都可以干,是强人工智能。2.人工智能已成为无人驾驶汽车商业落地的关键。3.视觉物体识别、人脸识别、唇语识别等在许多国际公开评测中,达到或超过人类的水平;4.速记等语音识别已可媲美人类;5.包括神经机器翻译在内的自然语言处理,性能也大幅度提升;6.生成式对抗网络得到极大关注。

目前,发展通用人工智能成为普遍共识。

2 社会极大关注

未来,可能很多工作就会消失了。

人工智能引起社会的极大关注和热议,人工智能发展很快;而且人工智能的学习速度快,很勤奋,未来可以达到人类所有的智能,这时到达了从强人工智能到超越人工智能的奇点;人工智能有超越人类智能的可能;理论上,人工智能还可以永生。

这也引起了很多人们的担忧。奇点到来、强人工智能、超人工智能、意识永生、人类灭绝等耸人听闻的观点出现,引起包括霍金、盖茨和马斯克等在内的世界名人对人工智能发展的担忧。在每年的世界人工智能大会上,专门有一个论坛探讨人工智能与法律、伦理及人类未来的会场。

现在,人工智能工业的OpenAI成立。

2016年全社会对人工智能的极大关注,可能是2016年AI的最大进展!

在半监督/无监督学习、通用人工智能方面,人工智能具有举一反三,并有常识、经验、记忆、知识学习、推理、规划、决策,甚至还有动机。这最后一点有点恐怖,人是有意识和动机的,机器做事也有动机,太可怕了。

智能学习进步很快,AIpha Go八个月后就可以战胜所有围棋手,因为它能每天24小时学习、不吃不喝地学习,比人强多了。

因此,在经历了60年“三起两落”的发展后,以深度学习为主要标志的人工智能正迎来第3次伟大复兴,这次引起社会尤其是产业界高强度的关注。因为上世纪60年代和80年代,人工智能没有达到这样的水平。

硅谷精神教父、预言家凯文・凯利说,未来人工智能会成为一种如同电力一样的基础服务。斯坦福大学推出了“人工智能百年研究”首份报告――《2030年的人工智能与生活》。

3人工智能上升为国家发展战略

有人认为第四次工业革命即将由人工智能与机器人等引爆。英国政府认为,人工智能有望像19世纪的蒸汽机革命那样彻底改变我们的生活,甚至人工智能给人类社会带来的变革与影响,有可能远远超过蒸汽机、电力和互联网带来的前三次工业革命。

智能制造、无人驾驶汽车、消费类智能机器人、虚拟助手、聊天机器人、智能金融、智能医疗、智能新闻写作、智能律师、智慧城市等可能被人工智能代替。人工智能将无处不在,可望替换人类的部分脑力劳动,一些职业会被取代或补充,一些新的行业又会诞生,例如18世纪出现了纺织工人,之后汽车代替了马车等。因此,我们将经历从“互联网+”到“人工智能+”。

中国“互联网+”与“中国制造2025”国家发展战略的实施,对人工智能的巨大需求在迅速增长。未来2-5年,人工智能应用与产业发展将迎来爆发期。

中国政府在《“互联网+”人工智能3年行动实施方案》提出:计划在2018年形成千亿级人工智能产业应用规模。201 7年1月10日,科技部部长万钢称,将编制完成人工智能专项规划,加快推进人工智能等重大项目的立项论证。

美国政府在2016年10月13日出台了《为人工智能的未来做好准备》的报告,提出了23条建议措施。同一天,美国政府又出台了《国家人工智能研发战略规划》,提出了7大重点战略方向。美国参议院于2016年11月30日召开了关于人工智能的首次国会听证会,主题是“人工智能的黎明”,认为中国是对美国人工智能全球领导地位的一个真正威胁。在2016年12月20日美国白宫了《人工智能、自动化与经济》报告,考察了人工智能驱动的自动化将会给经济带来的影响,并提出了国家的三大应对策略方向。可见,奥巴马把人工智能看作其政治遗产之一(注:另一个是Cyber空间)。

英国政府2016年12月了《人工智能:未来决策的机遇与影响》的报告,关注人工智能对社会创新与生产力的促进作用,论述如何利用英国人工智能的独特优势,增强英国国力。

日本政府2017年开始,要让人工智能与机器人推动第四次工业革命。

4 我国对策

应以深度卷积神经网络为核心,全面开展计算机视觉、语音识别和自然语言等人工智能产品的开发与大规模产业化应用。这需要大数据、计算平台/计算引擎、人工智能算法、应用场景等飞速发展,另外还需要资源、资金、人才。在方法上,选定垂直细分领域最重要。

面向若干细分垂直领域,建立大数据中心。实现大数据采集、清洗、标签、存储、管理与交易,建立大数据源公共基础设施与垂直领域知识库。专有大数据是人工智能产业制胜的关键和法宝。中国企业必须开始特别关注大数据的采集与利用。其重要性如同原油―样,跨国企业视之为战略资源!

强力开展人工智能芯片与硬件平台的研发。包括基于FPGA的深度学习芯片;类脑芯片与忆阻器件;建立国家级人工智能超算中心。

篇8

本文结合计算机行业的发展,对计算机网络云计算技术进行了分析研究,希望能为计算机技术的进步提供一定的理论支持。

一、计算机网络的云计算技术概念

美国的网络公司最早提出计算机网络云计算技术的概念,随着科学的进步与发展已经逐渐成为了一门成熟的技术,有着丰富的理论基础与实践经验。现在的“云计算”技术是指能将网络、硬件、设备相融合,同时实现规模性、安全性、虚拟性的技术。目前来看,对计算机网络云计算的定义还没有统一的趋势,每一名研究人员都有自己的研究与看法,通过研究与分析,本文对云计算的观点是:首先,每一个“云”都是独立的计算机分布体系,基于网络化、虚拟化的计算机服务层,与计算机中的资源保持一定的节奏,实现计算机资源的同步。其次,计算机网络云是一个综合体,并非是独立的,计算机软件的开发中离不开云计算的环节,其重点就是网络云计算特征的研究。对于计算机网络的使用者来说,计算机集成软件层面,能被接受与理解的就是云计算,在本文重点突出的就是云计算的属性。最后,计算机网络的使用者没有进行长期的规划后使用,很容易出现浪费现象,目前的云计算技术可以实现分或秒内的数据计算,可以很好地避免资源过载或资源浪费现象。

通过研究可以看出,计算机网络云计算技术可以定义成计算机网络中进行的某种服务形式,其中相关的硬件设施与软件系统统称为计算机网络云计算。定义中包括网络计算机、超级计算机、集成技术等,相关的技术既有区别又有联系。计算机网络云计算技术的原理是:大量的数据分布于分布式计算机中,同时保证用户的数据系统与计算机同步运行,进而实现及时将需要的资源切换到相应的应用中,根据使用者的访问需求进行存储系统与计算机系统的定位。计算机网络云计算技术可以基于用户服务需求及时提供所需的网络信息资源。计算机网络云计算技术适应性强,弹性好,专业技术性高,发展前景十分好,应用越来越广泛。

二、计算机网络云计算技术的分类

基于多样化的标准,计算机云计算的分类也有多种方式。比较常见的是:根据服务方式的不同,云计算可以分为私有云和公有云。私有云是根据用户的自身情况进行独立使用,同时建立平台,操作性与实用性十分好。公有云是ζ渌用户的资源进行开发利用。在选择私有云与公有云时,应该考虑的主要因素是:

1.服务的延续性

大部分情况下,公有云提供的服务容易受外界影响,如网络故障等情况,而私有云则不会出现这种问题。

2.数据安全性

如果对于稳定性与安全性不存在过高要求,则比较适合使用公有云。

3.综合使用成本

通常状况下,如果对于计算资源要求不高可以选用公有云,如果对于计算资源要求较高则比较适合建立自己的私有云平台。

4.监控能力

公有云可以将使用用户对系统的监控能力屏蔽起来,这对于金融保险投资行业是十分有必要的。

三、计算机网络云计算技术的实现

为了将计算机系统的系统处理过程进行简化,通常将该过程划分为预处理过程与功能实现过程两大部分。对系统的各项功能进行分解,得到一些不需要进行功能实现过程与预处理过程的功能。对于可以进行预先处理过程的功能通常是一次性处理,在执行过程中,可以将预处理过程得到的结果直接使用,以此完成特点的系统功能。该方法与原则的采用,极大地简化了系统,大幅度提高了系统运行效率。计算的云化中的系统就是计算云化系统,它的计算量十分巨大,系统计算运行效率极高。但因为计算云化系统为一次处理系统,只要计算云规则生成,计算云化系统的使命与任务也就完成,而不是在对计算机加以应用时需要该系统。通常在计算机网络云计算中形成的系统就是云计算系统,是一个十分简单的系统,对计算机的处理能力没有过高要求,同时应用于各类计算机系统计算中。

四、计算机网络云计算的计算与优势

建立计算机网络云计算过程的第一步是服务器架构的建立,其对计算机网络云计算技术中的IAAS部分进行充当。目前来看,仍没有关于网络云计算服务器架构的专门、统一的标准出现,这需要一定的相关技术进行支持,例如计算区域网SAN和附网NAS等,这都是应用比较多的服务器架构技术。NAS文件计算系统是松散结构型的集群,它的架构有很明显的分布式特征。NAS文件系统集群中的各个节点具有互补与相互影响的特点,文件是最小的单位,因为只要在集群存储文件就可以计算出文件的数据信息,直接减少了很多计算的冗余性。它的拓展性很高,同时成本较低,安全控制系统安全稳定。如果客户发出过多的请求,NAS系统的限制就表现出来,二级计算就可以通过NAS的云服务完成。

SAN是一种紧密结合类型的集群,在集群中存储文件之后,可以分解成很多个数据块。相比于集群之中的节点,各数据块之间能够进行相互访问。节点可以借助于访问文件间的数据块针对客户的请求进行处理。SAN系统之中可以通过节点数量增减来响应请求,同时提升界定本身的性能。为了能够将以SAN为基础的OBS发展起来,就需要更好的性能与更低的成本。而SAN计算建构的硬件价格十分高,同时依托于SAN的服务价格,因此可以适当地降低一下性能,保证更好的性能与更低的成本。

五、实例――基于谷歌云计算技术的AlphaGo亮点分析

AlphaGo通过谷歌云计算技术,拥有与人类棋手类似的“棋感”,其技术远胜于1997年IBM公司研制的超级电脑“深蓝”。“深蓝”面对的是相对围棋简单多的国际象棋,设计理念为根据棋局情况不断演算各种可能的步骤,最终从各种步骤中选定走棋方案。AlphaGo背后的云计算技术,可以让AlphaGo无需“暴力”分析演算所有步骤,只需要把运算能力都集中在“棋感策略”网络中最有可能的情况上。其背后的深层算法,具备三大亮点:(1)深度卷积神经网络学习技术:“棋感策略”网络的本质学习人类围棋大师走法思维。AlphaGo藉此拥有强大的盘面评估能力。(2)增强学习算法技术:此算法可通过自我对弈来持续提升AlhpaGo的棋感策略和盘面评估能力,并且给出落子选择。(3)蒙特卡洛搜索技术:“评价网络”的核心,可以融合棋感策略和盘面评估能力,修正落子选择而最终给出落子方案。

六、计算机网络云计算技术发展遇到的问题

在目前计算机网络云计算技术广泛地运用到各个领域的过程中,云计算技术也存在一些缺陷与不足还需要引起我们的重视,同时在云计算的应用过程中应采用足够的措施来对数据信息的安全性进行可靠的保障,这是计算机网络云计算技术发展过程中十分重要的一项课题。现在的大部分云端是通过浏览器进行接入的,浏览器是计算机系统中非常薄弱的地方,存在着很多的缺陷与漏洞,因此用户的云端接入浏览器时,用户证书与认证密钥特别容易因为浏览器漏洞而产生泄密。同时由于不同的应用都需要在云端中进行认证,这就需要保证认证机制的高效性与安全性。在应用服务层之中,应该采取安全有效的措施来保护用书的隐私安全,在基础设施层中要采取安全可靠的方法保C数据的安全性。

七、采取措施保障网民数据安全

如果数据的安全不能得到保障,就会对云计算的发展产生不利影响,所以为了能够保障网民数据的安全。就需要采取切实可行的手段来保证数据的安全性。

1.隔离操作系统与数据

为了能够切实有效地保障网民信息的安全,就需要充分使用Hypervisor,从而将网民的操作系统与数据资源隔离起来,从而有效地保证了计算资源的安全性,避免了网民操作系统所带来的可能的不利影响。

2.重置API保护层

服务商提供给用户API,用户根据需要进行应用。但同时第三方也有可能对这些API进行使用。为了保证数据的安全性,就需要你安装API保护层,重叠保护API。

3.严格身份认证

服务商应严格的执行身份认证,防范冒充网民身份的行为,加强对账号与密码的管理控制,确保网民只访问自己的程序与数据,从而保证数据资源的安全性。

篇9

【摘要】 为了实现人体器官的三维重建,如何准确、有效地提取二维医学图像的边缘成了首要解决的问题。我们提出一种新的图像边缘提取方法,该方法先将原始CT图像二值化,然后利用数学形态运算对二值化图像进行预处理,最后利用Canny算子提取图像边缘。通过肾脏CT图像边缘提取结果表明,该方法简单、高效、性能优越。

【关键词】 CT图像;边缘提取;数学形态学;Canny算子

Research on the Edge Extraction of CT ImageZHANG Xiaoping,ZHU Zhisong,WANG Junze

(Nantong Univirsity, Nantong 226019, China)

Abstract:To reconstruct the body organs in 3-D, how to extract the edges from 2-D medical images accurately and effectively has benen the primarily problem. Therefore, a new method of edge extraction was introduced in this paper. The original CT image was binarized firstly and then preprocessed by mathematical morphology operating. Finally, the image edge was extracted by the Canny algorithm. The results of kidney CT image edge extraction show that the method is simple, efficient and superior performance.

Key words:CT image;Edge extraction;Mathematical morphology;Canny algorithm

1 引 言

随着计算机技术、CT(计算机断层扫描)、MRI(核磁共振)等医学影像技术的不断发展,虚拟现实技术也越来越多地应用到现代医疗领域。利用计算机图像处理和数据可视化技术,根据医学影像设备提供的二维断层图像,进行人体器官的三维重建已是现代医学重要发展方向之一。肾脏疾病的外科手术是泌尿外科中的一个重点和难点,因此,根据CT二维图像重构肾脏及其周围结构的三维模型,有助于医生选择最佳手术路线、减少手术损伤、提高手术成功率[1]。CT二维图像的边缘提取作为器官三维重构的第一步,一直受到国内外学者的关注,提出了众多的边缘检测算法,如小波变换法、神经网络法、模糊技术法等[2]。近几年,随着数学形态学理论的不断完善与发展,数学形态学在图像边缘检测中得到了广泛的应用[3-5]。本研究正是在数学形态学的基础上,结合Canny算子,以肾脏为例,进行了CT图像的边缘提取。

2 数学形态学在图像预处理中的运用

数学形态学是一门新兴的、以形态为基础对图像进行分析的学科。它利用具有一定结构和特征的结构元素对图像进行匹配,以实现对图像的分析和识别,在去除噪声、边缘检测等图像预处理问题中有着明显的优势[6]。数学形态学定义了两种基本变换,即膨胀(Dilation)和腐蚀(Erision)。首先介绍其定义[7]:设F是原始图像,B是结构元素,膨胀运算定义为:

D(F)=FB={(x,y)/Bxy∩F≠Φ}(1)

即B对F膨胀产生的二值图像D(F)是由这样的点(x,y)组成的集合,若图B的原点位移至(x,y),那么它与F的交集非空。

腐蚀运算定义为:

E(F)=FΘB={(x,y)/BxyF}(2)

即B对F腐蚀产生的二值图像E(F)是由这样的点(x,y)组成的集合,若图B的原点位移至(x,y),那么B将完全包含于F。

由上述两种基本运算可以复合得到开启、闭合变换。

开启是对图像先腐蚀后膨胀的过程,F用B来开启,其数学表达式可记为:

F·B=(FΘB)B(3)

闭合是对图像先膨胀后腐蚀的过程,F用B来闭合,其数学表达式可记为:

F·B=(FB)ΘB(4)

上述4种运算中,膨胀可以填充图像中的小孔及图像边缘上小的凹陷部分;腐蚀可以消除图像中细小的成分;开启则具有消除细小物体、在纤细处分离物体和平滑较大物体边界的作用;闭合则具有填充物体内细小孔洞、连接临近物体和平滑边界的作用。

利用数学形态学进行图像预处理时,选择简单、表现力强的结构元素是关键,是形态变换中最重要的参数;其次,还要综合考虑目标体的清晰度和噪声的大小来选取结构元素的大小[8]。一般目标体轮廓不清晰时,选择较小的结构元素;噪声颗粒较大时,选择较大的结构元素。

3 Canny算子的边缘检测原理

经过数学形态变换之后,图像的边缘将变得清晰、突出,此时,图像的边界信息可以被方便地提取出来。传统的算法有Sobel、 Prowitt 、Robert、Canny算子等[9]。在众多的算子中,Canny算子因其具有高信噪比、高定位精度及单边缘响应等优良性能[10],在许多图像处理领域得到应用。本研究也正是采用该算法提取肾脏CT图像边缘。

Canny算子的基本思想是采用二维高斯函数的任意方向上的一阶方向导数为噪声滤波器,通过与图像卷积进行滤波,然后对滤波后的图像寻找局部梯度最大值,以此来确定图像边缘[11]。其数学描述如下:

3.1 用高斯滤波器平滑图像

二维高斯滤波函数为:

G(x,y)=12πσ2exp(-x2+y2〖〗2σ2)(5)

在某一方向n上G(x, y)的一阶导数为:

Gn=Gn=nG(6)

式6中n是方向矢量,n=cosθ

sinθ,

G是梯度矢量,G=Gx

Gy。

将图像{F|f(x,y)}与Gn 作卷积,改变n的方向,Gn×f(x,y)取得最大值时的n,就是正交于检测边缘的方向。

3.2 梯度的幅值和方向计算

用一阶偏导的有限差分来计算梯度的幅值和方向。

Ex=Gx×f(x,y) Ey=Gy×f(x,y)

A(x,y)=Ex2+Ey2 Φ=Arctan(ExEy)(7)

A(x,y)反映了图像(x,y)点处的边缘强度,Φ是图像(x,y)点处的法向矢量。

3.3 对梯度幅值进行非极大值抑制

为确定图像边缘,必须保留局部梯度最大的点,而抑制非极大值。若图像F上(x,y)点处的梯度幅值A(x,y)小于沿着梯度线方向上的相邻像素点的边缘强度,则认为该点为非边缘点,将A(x,y)置为0。

3.4 用双阈值法检测和连接边缘

设定两个阈值t1和t2(t2>t1)。凡边缘强度>t2者,则一定是边缘点;凡边缘强度t2的点,若有,则补为边缘点,若没有,则不是边缘点。用t1、t2两个阈值对非极大值抑制图像进行双阈值化,可得两个检测结果,分别记为T1和T2。图像T2阈值较高,所以噪声较少,但会造成边缘信息的损失;图像T1阈值较低,则保留了较多信息。于是以图像T2为基础,以图像T1为补充,连接图像的边缘。

由此可见,Canny算子是既能去除噪声又能保留边缘特性的边缘检测一阶微分算法的最佳方法。

4 应用实例

本研究在Matlab6.5软件平台上,以某医院一患者的肾脏CT断层图像为例,提取了其中右肾的边缘轮廓,具体实施步骤如下:

4.1 图像二值化

CT图像是灰度图像,为了更好的形态运算和边缘检测,首先进行二值化处理,即把灰度图像转变成由0、1 组成的矩阵所表示的图像。图1为原始CT图像,图2是二值化图像。在本次实验中,二值化阈值为0.8。实验过程中发现,该方法简单、高效,且丢失的信息也很少。

4.2 数学形态学处理

由图2可见,图像存在着一些空腔、毛刺、边缘凹陷等现象,要进行边缘检测,还需经过进一步处理,通过本研究介绍的数学形态运算即可完成。

所求边缘是肾脏外围轮廓,首先需要填充图像中的空腔和边缘凹陷。对此,可采用imclose函数进行闭合运算,即进行先膨胀后腐蚀,其中结构元素为5×5圆形结构元素,结果见图3。由图3可见,经过闭合运算后,图像中还存在一些小短枝和孤立斑点,这些也必须剔除,否则,将影响边缘提取效果。对此,可采用imopen函数进行开启变换实现,即先腐蚀后膨胀。针对小短枝和孤立斑点,无法用同一种结构元素去剔除,所以必须分两步:首先选用3×3矩形结构元素执行开启变换,去除小短枝像素,结果见图4;然后用3×3菱形结构元素再次执行开启变换,去除孤立斑点,结果见图5。

4.3 Canny算子提取边缘

经过上述处理,肾脏图像边缘已经逐渐清晰、突出,此时利用Canny算子即可提取其边界信息,如图6所示,本次实验中,边缘强度阈值t1为0.0063,t2为0.0156 。图6基本无失真地描述了边界信息。提取图6中各边界点的坐标,即可获得重构的边界图形,见图7。对肾脏各层CT图像进行上述运算后,经过插值处理,即可进行该器官的三维重构。

5 结束语

本研究从实用性的角度出发,阐述了利用数学形态学和Canny算子进行肾脏CT断层图像边缘提取的方法和步骤。实验证明该方法简单、快速、精度高、适用性强,为医学图像的三维重建和虚拟手术技术的研究奠定了良好的基础。

参考文献

[1]王洛夫, 张绍祥,江军,等.肾脏及其周围结构的三维可视化研究[J].第三军医大学学报,2004,26 ( 6 ): 537-539.

[2]张小琳.图像边缘检测技术综述[J].高能量密度物理,2007,(1):37-40.

[3]Bai X Z, Zhou F. Edge detection based on mathematicalmorphology and iterative thresholding[A].International conference on computational intelligence and Security[C]. NY: IEEE, 2006.1849-1852.

[4]Serra J. Image analysis and mathematical morphology[M].New York: Academic Press,1982.

[5]Huang C-P,Wang R-Z.An intergrated edge detection method using mathematical morphology[J].Pattern Recgnition and Image Analysis,2006,16(3):406-412.

[6]陈虎,王守尊,周朝辉.基于数学形态学的图像边缘检测方法研究[J].工程图学学报,2004,(2):112-115.

[7]崔屹.图像处理与分析-数学形态学方法及应用 [M].北京:科学出版社,2000.

[8]Li Z H,Yang Y P,Jiang W.Multi-scale morphologictracking approach for edge detection[A].The 4th International conference on image and graphics[C]. NY: IEEE,2007.358-362.

[9]马艳, 张治辉.几种边缘检测算子的比较[J].工矿自动化,2004(2): 54-56.

篇10

关键词:文本生成图像;对抗生成网络(GAN);美观度评判;StackGAN++;美学损失

基于给定文本生成对应图像是计算机视觉领域一项经典且富有挑战性的任务,顾名思义,即给出一句描述确定内容的文本(可描述某件物体或某个场景环境),通过一定架构的模型生成与文本内容相对应的图像,使其尽可能做到逼近现实,能够迷惑人眼的识别或一些模型的判断。该任务需要在理解文本含义的基础上,根据文本的内容构建出合理的像素分布,形成一幅完整的、真实的图片。因为给出的文本所包含的信息量在通常情况下都远少于其所对应生成的图像(文本通常只对图像中主体部分大致进行了描述,图像则还包含主体所处背景、图像全局特征等额外信息),所以一句给定的文本可能会对应许多符合其描述的图像结果,这是文本生成图像任务的难点所在[1]。在如今生活、制造等多方面迈向智能化发展的时期,文本生成图像这一任务在实际生产生活当中具有非常广的应用价值和潜力,比如应用于平面广告设计领域,可以为广告制作团队生成广告用的配图,从而不必再专门雇用插画制作人员;家具、日用品生产领域,可以通过给出一段产品描述,利用模型批量生成大量的产品概念图,从而给设计者提供了可供选择的样例空间,降低设计环节的工作量。

如今,基于给定文本生成图像任务的实现都是基于从大量的图像数据中学习并模拟其数据的分布形式来生成尽可能接近真实的图像,尤其在对抗生成网络(GenerativeAdversarialNetworks,GAN)[2]的火热发展下,借助其来实现文本生成图像的任务已经成为了主流选择,目前也有许多生成效果优秀的模型被提出。在这一研究方面,研究者所关注的重点是如何能够提高生成模型生成图片的真实性、清晰度、多样性、解析度等问题,这些将直接影响生成模型的质量和性能,并关系到生成模型能否有效投入到实际应用当中。

然而如果考虑到实际应用,图像好看,或者有足够的美观度也是一项重要的需求。比如为平面广告设计配图,对图像的要求不仅是清晰、真实,还应该拥有较高的美观度,从而能够吸引人的眼球,提高广告的关注度。可以说,如果能够实现提高此类模型生成图片的美观度,则在实际应用场景中将会给用户带来更加良好的使用体验,从而提高此类应用的质量。遗憾的是,现在对文本生成图像GAN的研究很少关注生成图像的美观质量,现有文献中也并未发现有将美学评判与图像生成相结合的研究,这成为了本文研究的动机。

由此引出另一个问题:如何评判一幅图像的美观度。图像的美观度评判实际上是一项带有主观性质的任务,每个人因不同的阅历、审美观甚至所处环境、情感状态等多方面因素的影响,对同一幅图像有可能会给出完全不同的评价。然而,面对互联网空间与日俱增的图片数量,借助人力对其进行美观度的评价是不切实际的。因此,研究借助计算机进行自动化图像美观度评判成为了计算机视觉领域另一项研究课题,至今也有许多研究者提出了实现原理各异且效果优良的美观度评判模型。借助这些模型,可以对目标图像进行分类或评分,给出尽可能接近符合多数人评价标准的评判结果。

借此,本文致力于研究从美观度的角度对文本生成图像GAN的生成结果进行优化的方法。本文的贡献和创新点如下:

1)从实际应用的角度出发,将生成结果美观度加入评价文本生成图像GAN模型生成结果的评价指标,以目前受到较高认可度的文本生成图像GAN模型——StackGAN++[3]为基础,从美观度的角度对其生成结果进行评估,以观察其生成结果的美观度质量。

2)将美观度评判模型融入该GAN的生成模型当中,通过增添美学损失的方式改造生成模型,从而在模型训练过程中加入美学控制因素,引导模型生成美观度更高的结果。本文提出的改进方法使得模型生成图像的总体美学质量(以IS(InceptionScore)为评价指标[4])提高了2.68%,其生成图像结果整体的美观度指标提高了3.17%。

1相关工作

1.1美观度评判模型

随着网络空间中图片数量的急速增长,在图片检索领域为了能够更好地为用户甄选返回图像的质量、给用户返回更高质量的搜索结果,对图片按美学质量进行分类的需求逐渐增加。图片所附带的数据标签(如喜欢该图的人的数量、图片内容等)可以作为美观度评价的一类较为有效的标准,但大部分的图片并不存在类似这样的标签,虽然如今有许多研究已能够做到给图片准确高效地进行标签标注[5],然而即使每幅图片均被标注了足够用以进行评判的标签,图片庞大的数量又使得人工评判工作量巨大,因此需要能够对图片进行美观度评判的模型,由计算机来完成这一任务。

受到心理学、神经科学等领域中对人类美学感知的研究成果启发,计算机视觉领域的研究者们通过模拟、复现人类处理接收到的图像视觉信息的过程,设计实现了一系列自动评判图片美学质量的模型[6]。图像美观度评判模型一般遵循一个固定的流程:首先对输入图像进行特征提取,然后借助提取的特征,利用训练好的分类或回归算法获得相应的结果。

特征提取则是其中非常重要的一环,因为特征信息是对图像美学质量的概括,其决定了美观度评判模型的精确度。选取得当的特征既能提高模型评判的精确度,又能减少不必要的计算量,因为不同特征对于图像美学质量的贡献度是不同的[7]。早期的研究中,研究者们通常选择以绘画、摄影所用的美学规则理论和人的直观感受为依据,自主设计所要提取的特征,比如清晰度、色调、三分规则等。这类方法的好处是直观、易于理解,但缺点在于所设计的特征通常不能很全面地描述图像美学信息,而且设计特征对于研究者的工程能力和相关领域知识了解程度都有较高的要求。而随着深度学习领域的不断发展,将卷积神经网络(ConvolitionalNeuralNetworks,CNN)应用于图像处理这一方式展现出了卓越的效果。借助CNN能够从大量的图像数据中学习到有力的图像特征表示,其所包含的信息量远超人工特征设计所设定的特征[8],从而使得CNN处理图像的方式在图像处理领域得到广泛应用,并逐渐成为主流选择的方法。深度学习方法应用于图像美观度评判的特征提取环节,主要有2种方式:第1种是借助已有的深度学习图像处理模型,利用其中间层特征作为评判依据,采用传统的分类或回归方法进行美观度评判;第2种是对已有的模型进行改造,使得其能够从图像数据中学习到新的隐藏的美学特征,并借此对图像的美观度作出评判。

本文采用的是Kong等[9]设计的美观度评判模型。该模型随AADB(AestheticsandAttributesDatabase)数据集一同提出,其基于AlexNet[8]改造得来,通过提取图片的内容特征以及自定义的属性标签特征来帮助判断图像的美观度。此外,该模型吸收了Siamese网络[10]的结构,实现了接收两幅一组的图像作为输入并给出它们之间相对评分的功能,同时提出了2种对图像进行成对采样的训练方式来辅助增加结果的精确度。实验结果表明该模型在AVA(AestheticVisualAnalysis)数据集上的判别准确率达到77.33%,超过了当时已有的许多模型的表现。作者并未对该模型进行命名,为方便说明,下文中统一用“AADB模型”对其进行代指。

1.2文本生成图像GAN

GAN的提出是机器学习领域一项重大的突破,其为生成模型的训练提供了一种对抗训练的思路。相比于传统的生成模型如变分自编码器、玻尔兹曼机,GAN优势有:其训练只需借助反向传播而不需要马尔可夫链、能够产生全新的样本以及更加真实清晰的结果、简化任务设计思路等,因此,其成为了现今机器学习领域十分火热的研究课题。

GAN的结构一般可分为两部分:生成器部分,负责接收一段随机噪声作为输入来生成一定的结果;判别器部分,负责接收训练数据或生成器生成的数据作为输入,判断输入是来自哪一方。生成器的最终目标是生成能够彻底欺骗判别器的数据,即判别器无法区分输入数据来自真实数据分布还是生成器拟合的数据分布;而判别器的最终目标是有效区分其输入来源,识别出来自生成器的输入。GAN的训练正是基于这种博弈的过程,令生成器和判别器二者之间进行对抗,交替更新参数,当模型最终达到纳什均衡时,生成器即学习到了训练数据的数据分布,产生相应的结果。

虽然GAN拥有良好的表现力和极大的发展潜力,但其本身还存在一些缺点,比如训练困难、无监督使得生成结果缺少限制、模式崩溃、梯度消失等问题。后续许多研究者对GAN从结构[11]、训练方法[12]或实现方法[13]上进行了改进,逐渐提高了GAN训练的稳定性和生成效果。此外,CGAN(ConditionalGAN)[14]将条件信息与生成器和判别器的原始输入拼接形成新的输入,用以限制GAN生成和判别的表现,使得GAN生成结果的稳定性得到提高。

利用GAN来实现文本生成图像任务也是基于CGAN的思想,以文本-图像组合为训练数据,文本作为输入数据的一部分,在生成器中与随机噪声拼接作为生成器的整体输入,在判别器中则用于形成不同的判断组合——真实图片与对应文本、真实图片与不匹配文本、生成器生成图片与任意文本并进行鉴别。文本数据通常会借助其他编码模型将纯文字信息转化为一定维数的文本嵌入向量,用以投入模型的训练计算当中。最先利用GAN实现文本生成图像任务的是Reed等[15]提出的GAN-INT-CLS模型,其吸收了CGAN和DCGAN(DeepConvolutionalGAN)[11]的思想,同时提出改进判别器接收的文本-图像组合输入(新增真实图像与不匹配文本的组合)以及通过插值的方式创造新的文本编码向量两种方法来提高生成结果的质量和丰富度,生成了64×64大小的图像。随后该领域的一项重要突破是Zhang等[16]提出的StackGAN模型,该模型通过使用2个生成器的方式生成图像,首次实现了只借助给定文本的条件下生成256×256大小的图像。该模型中,第1个生成器接收随机噪声与文本向量的拼接来生成64×64大小的中间结果,第2个生成器则使用该中间结果与文本向量作为输入,这种方式可以实现利用文本信息对中间结果进行修正和细节补充,来获得质量更高的256×256大小图像的结果。

在StackGAN的理论基础上,Zhang等[3]提出了StackGAN++模型。该模型使用3个生成器-判别器组以类似树状的方式连接,其中3个生成器分别对应生成64×64、128×128、256×256大小的图像,第1个生成器以文本向量和随机噪声的拼接为输出,之后每一个生成器接收前一个生成器生成的图像结果与文本向量作为输入,生成下一阶段的图像结果;每一个判别器接收对应阶段的生成器的输出与文本向量进行判别,计算条件生成损失。此外,Zhang等[3]引入了无条件生成损失,即计算在不使用文本信息的情况下生成图片的损失,与条件生成损失相结合,引导模型的训练,最终进一步提高了生成图片的质量。本文即选用了该模型进行基于美学评判的优化改进研究。

此后文本生成图像GAN的研究多在类似StackGAN++的多阶段生成模式基础上,通过加入各种辅助信息来帮助生成器生成更好的结果,如AttnGAN(AttentionalGAN)[17]引入了注意力机制,分析对比生成图像与对应文本之间的特征相似度,并利用对比结果辅助生成器的训练;Cha等[18]则通过引入感知损失的方式,从图像特征层面进行对比来辅助生成器更好地学习到训练数据的分布。

2StackGAN++的美学质量分析

在提出基于美学评估的对StackGAN++模型的优化方法之前,需要了解该模型目前生成结果的美学质量如何。本节将利用AADB模型对其进行初步测量。

本节实验使用的StackGAN++模型是基于Caltech-UCSDBirds200鸟类图像数据库2011版训练的鸟类图像生成模型,其测试数据集中包含2933张图像,每张图像对应10条文本说明,其中文本数据需经过char-CNN-RNN模型编码。Zhang等[3]给出了其模型源码的github地址(https://github.com/hanzhanggit/StackGAN-v2)。

本文实验运行于Ubuntu16.04操作系统,使用GeForceGTX1080Ti显卡进行训练。软件环境方面,本实验利用Adaconda2搭建python2.7虚拟环境,并需要安装Pytorch1.0以及caffe1.0(分别对应StackGAN++以及AADB模型运行所需)。

2.1测试数据集生成结果的美观度分布

首先针对测试数据集所产生的样本进行美观度评判,观察其分布状况。理论情况下,训练数据集中包含了29330条语句对应的嵌入向量,经由生成模型后获得29330张图像结果,实际运行中由于StackGAN++模型所采用的批处理训练策略,最终生成图像数量为29280张,但从整体数量的规模来看并不影响对于其整体美观度评价的判断。利用AADB模型获得生成图像的美学分数,其分布如图1所示。

由AADB模型计算得出的美学分数集中于[0,1]区间,在特殊情况下会超过1。为了便于标注美学分数的分布区间,在绘制区间分布柱状图时,将由AADB模型获取的美学分数(超过1的截断至0.9999)乘以10,这种表示方法也符合实际生活中人工评判时的常用取值范围选择;在展示降序分布时则直接采用模型输出的结果范围来标注分数坐标轴。图1(a)表明,原始StackGAN++在测试数据集上生成图像的美学分数集中在5~8的区间段内,占总体的78.6%,其中6~7区间段内的图像数量最多,占整体结果数量的33.9%。而图1(b)表明,在5~8区间段内,图像的美学分数变化呈现出均匀平缓的变化趋势,并没有出现在某一节点大幅变动的情况。

29280张生成结果的平均美学分数为0.62828。根据AADB模型作者给出的评判标准,一张图片的分数超过0.6则可以认为是一张好图片,低于0.4则认为是一张差图片,在两者之间认为是一张一般性质图片,而本文出于后续实验样本划分的考虑,将好图片的下限标准提高至0.65,差图片的上限标准提高至0.5。由此来看,模型的平均结果处于一般质量的区间,说明原模型的整体生成结果从美观度的角度来讲仍然存在可以提升的空间。本文从全部生成结果中选择美学分数最高以及最低的图片各10张的结果,交由真人进行主观评判,其结果均与美学分数表现出对应关系,即认为最高分数的10张图片拥有较高的美观度,而最低分数的10张图片则评价一般或交叉表明AADB模型给出的美学分数对图像美观度的评价能较好地符合人的直观感受。

2.2固定文本批量生成图像结果的美观度分布

如果想要达成提高生成模型美观度质量的目标,一个简单的想法是,可以对同一条语句,一次性批量生成大量的图片,按美观度模型给出的分数进行降序排序,从中选出分数最高图像作为输出结果,或以分数排序最靠前(分数最高)的一定数量的图像作为输出结果,再交由模型使用者自行判断选择最终的结果。这种方法虽然存在严重的效率问题,但易于实现且非常直观。其中的问题在于确定生成图像的数量,因为随着生成图像数量的增加,其多样性也会随之增加。也更容易出现更多美观度高的图像结果,但进行美观度评判以及排序选择的时间消耗也会随之增加,因此若选择此种做法作为优化方法,需要在生成结果质量以及模型运行效率之间寻求一个平衡点。

基于以上考虑,除对测试集整体进行美观度评判以外,还从中选择一批(实验设定为24)数量的文本输入数据,针对每一条文本数据生成不同数量的图片来观察其美学分数的分布。选择100、200、350、500、750、1000共6种生成数量,针对选定的文本数据生成对应数量的图像,利用AADB模型计算生成结果的美学分数。图2展示了其中一条文本的结果。结果表明,美学分数在各个区间的分布状况是相近的,基本不受一次性生成数量的影响。6组结果都表现出生成图像的美学分数集中于5~7的区间内的分布状况,且随着生成数量的增加,高分图像的出现频率也越来越高。表1展示了6组分布结果中最高分数图像的分数与分数前10高图像的平均分数,表明了一次性生成数量越多,即使是处于高分分段的图像其整体的质量也会得到提高,也验证了本节第一段所述的情况。但面对最高分数的情况,因生成模型会以随机噪声作为输入来生成图像,这导致了其对生成结果的不可控性,所以生成结果会出现一定的扰动,使得最高分图像的分数与生成数量之间并不存在确定的正相关关联性。

3基于美学评判的图像生成优化

原始的StackGAN++模型采用了3组生成器-判别器组合,以类似树状的方式进行连接,每一个生成器生成不同尺寸的图像,并作为下一个生成器输入数据的一部分。其中每一个生成器的损失LGi(i=1,2,3)计算式为

pagenumber_ebook=102,pagenumber_book=2443

式中:pGi为生成器Gi学习到的数据分布;si为生成器Gi生成的结果;c为文本向量;Di为与生成器Gi对应的判别器,其接收单个输入si或双输入si和c,输出相应的判别结果;E[·]表示期望函数。

该损失计算方式由两部分组成,前一部分计算生成器不利用文本向量生成图像的损失,即无条件损失,该部分用以监督生成器生成更加真实的、使判别器认为来自于真实数据分布的数据;后一部分计算生成器利用了文本向量生成图像的损失,即条件损失,该部分用来监督生成器生成符合输入文本描述的图像,即保证文本与图像之间的一致性。在StackGAN++的理论描述中,Zhang等[3]认为每一个生成器生成的图像虽然大小不同,但都是基于同一条文本生成的,所以它们彼此之间应该保持相似的色彩和基本结构,并提出了色彩一致性损失用来保证3个生成器生成图像之间拥有较高的色彩一致性。但经过实验作者发现在基于文本生成的模式下,色彩一致性所起到的作用十分微弱,因为其对生成结果的约束力要远远小于文本-图像一致性的约束,即式(1)中的Esi~pGi[lnDi(si,c)]。式(2)为生成器的总体损失(下文称为对抗损失)计算公式,用于训练过程中的梯度计算。

受到Johnson等[19]提出的感知损失的启发,本文将AADB模型与StackGAN++的生成器结合,用于在生成模型训练过程中提供辅助训练信息,达成从美学角度来优化生成模型的目的。具体地,在式(2)的基础上,加入一项新定义的损失——美学损失Laes,其计算式为

式中:Aes函数表示使用AADB模型计算生成结果s3的美学分数。2.1节中,AADB模型计算得出的美学分数存在超过1的情况,因此在计算美学损失时,会对模型返回的美学分数进行判断,如果其超过了1,则将其截断至0.9999。该损失实际计算了最后一阶段生成器G3生成结果的美学分数与1之间的欧几里得距离,最小化该损失即最小化生成结果美学分数与1之间的差距,代表了生成结果美学质量的提升。最后,加入了美学损失后新的生成器损失计算公式为

式中:β为美学损失的权重,用来控制其在总体损失中所占的比例,β越大则美学损失所占的比例越大。β为0时,模型即还原为StackGAN++。

由于美学损失的作用是引导生成器生成美观度更高的图像,而对抗损失则是控制整个训练过程以及生成结果的关键,保证了生成器能够生成符合文本描述的真实图像,这是文本生成图像模型最基本的目的,因此β值的选择应当在保证在训练过程中美学损失起到的调控作用不会压过对抗损失的前提下对生成结果的美观度产生影响。

4实验与性能评估

选取不同的美学损失权重β进行训练,以IS作为训练获得模型的质量的衡量指标,在保证IS与原模型相比不降低的前提下,观察其生成结果的美观度分布情况。IS是借助InceptionModel[20]计算得出的用来衡量GAN图像生成效果的最常用指标之一,通常情况下其数值越大代表GAN生成的图像具有更高的多样性和真实性,进而代表生成图像的总体质量更好。在文本生成图像GAN领域,IS被广泛用来进行不同GAN之间的效果对比。

本节所使用的环境与第2节对StackGAN++本身进行美学质量分析的实验环境相同,故此处不再赘述。模型训练过程采用批训练策略,每个批包含24条文本嵌入向量,每一个时期(epoch)中包含368个批的训练过程,下文将一个批完成一次训练的过程称为一步(step)。训练过程包含600个时期,并于每2000步的时间节点保存一次模型参数,以便于训练完成后根据保存时模型的表现选取效果最好的模型。本文提出的优化方法的实现流程如图3所示。

本文选取β=45,0,0.0001,分别进行了训练。选择45是因为,观察StackGAN++训练时生成器的对抗损失发现对抗损失与美学损失的比值在50左右。因此,当β=45时,对抗损失与经权重放大的美学损失在数值上比较接近;1与0.0001是基于经验的选择,取β=1时美学损失与对抗损失平权,而β=0.0001则是参考了Cha等[18]提出的感知损失的权重选取。训练完成后,对应每个β取值各形成了一组于不同时间节点保存的模型,分别从中选取IS分数最高的模型作为对应取值下的结果模型。在对选定的模型进行美学质量评判之前,需要先考察它们所生成的图片的总体质量,以确保在引入了美学损失后没有出现模型生成图像质量下降的情况。表2展示了3种取值对应模型与原模型的IS数据,其中β为0即代表未引入美学损失的原始StackGAN++模型。

通过对比,当β=0.0001时,模型在IS上取得最高的数值,并且超过了原始模型的IS,表明美学损失的引入还起到了提高模型生成效果的正面效应。这是可以理解的,因为当生成器生成了一幅效果很差的图像,例如模糊不清或主体扭曲变形,此时美观度评判模型将会给出较低的分数,使得美学损失增大并导致生成器总损失增大。此外,当β=45时,模型的IS分数降低,表现为生成器生成图像的质量有所下降。对β=45时获得的模型所生成的图像进行人工评判的结果也反映出这时生成图像出现了更多的模糊、失真等不良结果。因此,β=45的情况已无继续讨论的价值,此后美学层面的实验和数据统计也不再考虑此种情况。当β=1时,模型的IS与原模型相比十分接近,还需通过美学分数的分布对比来确定在此情况下美学损失是否起到了优化的作用。

为了验证美学损失是否对生成模型结果的美学质量起到了优化作用,接下来计算了使用β=1,0.0001这2种情况的模型在测试数据集上生成的29280张图像的美学分数分布情况;同时针对一个批的24条文本嵌入向量,每条文本生成1000张图像,计算其美学分数的分布,数据结果如图4所示(这里选出一条文本生成的1000张图像的美学分数分布进行展示)。表3展示了2种β取值下模型在测试数据集上的生成结果的美学分数,同时一并列出了原模型在测试数据集上生成结果的美学分数作为对比。从表中可知,当β=0.0001时,由测试数据集生成的图像其平均美学分数与原模型相比提高了3.17%;表4给出了原模型与β=0.0001优化模型分别生成的24组针对同一条文本的1000幅图像平均美学分数对比情况,也可以发现大部分文本生成结果的美学分数与原模型的生成结果相比有所提高。同时由图4所示的美学分数分布情况也能看出,此时高分段图像的数量增加,较低分段图像的数量减少,表明美学损失起到了调控生成结果美观度的作用。图5展示了原模型与β=0.0001的优化模型使用4条文本对应生成的1000张图像中等距抽取10张图像的结果(每个分图第1行为原模型,第2行为优化模型,每个模型对每条文本均生成1000张图像),每行图像从左到右按美学分数从高到低的顺序排列,从中可以直观感受到,经过美学优化的生成模型所生成的图像结果在色彩对比度、整体色调、背景虚化简单化等方面均有一定优势,反映了其美观评价相比原模型有所提升。

5结论

本文提出了一种基于美学评判的文本生成图像GAN的优化方法,利用美观度评判模型获得生成器生成图像的美学分数,计算该生成图像的美学损失,与模型本身的对抗损失以适当的权重关系相结合,作为该生成器新的损失并重新训练模型,最后对获得的新模型生成的图像进行了美学质量的统计与和原模型的对比。实验所得结论如下:

1)经过本文方法获得的生成模型,其生成结果的美观度与原模型相比得到了提升,同时IS分数也有所提高,表明美学损失能够起到提高生成模型质量的作用。