卷积神经网络的深度范文
时间:2024-04-17 18:09:30
导语:如何才能写好一篇卷积神经网络的深度,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:卷积神经网络;自动编码器;非监督训练;多尺度分块;目标识别
中图分类号:TP391.41文献标志码:A英文标题
0引言
对图像中目标的精确和鲁棒识别是模式识别及人工智能领域的核心内容,在道路监控、战场侦察、精确打击等领域中有着重要的作用和广泛的前景。近年来,随着深度神经网络成为机器学习新的热点,基于卷积神经网络(Convolutional Neural Network,CNN)的图像识别算法因其较强的鲁棒性和突出的识别率被学术界和工业界所重视。
Alex等[1]提出基于大型深层CNN的自然图像识别算法,在ImageNet数据集上取得了很高的识别率;Dan等[2]提出了基于多核的CNN,并采用GPU并行运算的方法在三维NORB数据集上取得了很好的识别效果。以上算法虽然都取得了较高的目标识别率,但是由于算法采用有监督的训练方式,需要大量标签数据对网络权重进行调整,当数据量较小时会导致模型前几层网络无法得到充分训练,故只能针对含标签数据较多的大型数据集。针对此问题,目前主流的解决方法是采用特征提取算法对CNN的滤波器集进行非监督的预训练。文献[3]采用稀疏编码提取训练图像的基函数作为CNN的初始滤波器;文献[4]将独立成分分析(Independent Component Analysis,ICA)应用于CNN的预训练阶段,利用ICA训练滤波器集合,使识别率得到了一定提高。然而无论是稀疏编码还是ICA,其特征提取的效果都比较一般,应用于预训练阶段对算法识别率的提升也比较有限。所以如何更好地选择滤波器的预训练算法仍是十分困难的问题。
除了预训练外,影响CNN识别率和鲁棒性的关键参数还有滤波器的尺寸和下采样层的采样间隔。滤波器尺寸反映了CNN对输入图像局部特征的提取情况,文献[5]证明滤波器尺寸对最终识别结果有很大影响,并给出了单层条件下相对最优的滤波器尺寸。下采样层主要负责对特征进行模糊,从而获得平移、尺度等不变性。采样间隔反映了模糊的程度,间隔越大模糊越严重,模糊后的特征保持的全局空间信息就越少。文献[6]证明当采样间隔较小时,即使经过2次卷积和2次最大下采样(maxpooling),网络输出的激活值仍能重构出与原始输入看似相同的图案。然而下采样间隔过小会导致不变性丧失,过大则会损失大量细节信息,两者均会导致识别率的下降。
针对以上问题,本文提出基于多尺度分块卷积神经网络(MultiScale Convolutional Neural Network, MSCNN)的图像目标识别算法。首先利用稀疏自动编码器(Sparse AutoEncoder,SAE)对卷积神经网络的滤波器进行非监督预训练,通过最小化重构误差获得待识别图像的隐层表示,进而学习得到含有训练数据统计特性的滤波器集合,预训练效果相比ICA更好。其次提出多尺度分块的方法构建卷积神经网络,为了增加鲁棒性并减小下采样对特征表示的影响,对输入图像进行多尺度分块形成多个通路,并设计相应尺寸的滤波器进行卷积运算,将不同通路下采样后的输出进行融合从而形成新的特征,输入softmax分类器完成图像目标的识别。最后通过大量实验对比MSCNN算法与经典算法在通用图像识别任务中的识别率和鲁棒性差异,从而验证算法的有效性。
4仿真实验及分析
本文使用STL10公开数据集以及从全色波段的QuiekBird遥感卫星和GoogleEarth软件中截取的遥感飞机图像数据集进行测试实验,将所有图片变为64×64像素的RGB图。选择STL10数据集的原因是因为其含有不包含标签的训练集,可用于本文的非监督预训练算法,且图像中包含更多类内变化。STL10共10类目标,本文选用其中的4类目标进行实验。选择遥感飞机图像数据则是为了验证本文算法在遥感图像解译方面的可用性。该数据集包含5类遥感飞机,共400幅。实验时随机选取遥感飞机图像库中50%的图像作为训练样本,其余作为测试样本。本文的实验环境为CPU2.8GHz、内存3GB的计算机,实现算法的软件为Matlab(2011a)。
4.1算法识别率对比测试
MSCNN的各通路尺寸参数设置如图4所示,每个通道使用300个滤波器,滤波器初始值按照不同通道感受野大小利用稀疏自动编码器预训练得到。编码器设定为3层,稀疏参数ρ设定为0.05,训练周期为400。卷积神经网络的下采样方式采用最大下采样(max pooling)。
按照上述参数设置,通路1输出特征维度为2700,通路2输出特征维度为4800,通路3输出特征维度为4800,MSCNN输出特征维度总共为12300。所有算法的训练周期均为50。传统CNN参数设定与通路1参数设定相同,同样使用300个滤波器,滤波器初始值通过随机初始化得到。输出特征维度为2700。实验结果如表1所示。
从表1可看出,加入LCN的CNN较未加入的CNN对两种数据集的识别率有一定的提高,说明了加入LCN对目标识别率是有一定的贡献的;在两种数据集上MSCNN相比原始CNN都拥有更高的识别率。MSCNN通路1虽然参数设置与CNN相同,但在相同训练周期下识别率较加入LCN的CNN又有一定提高,说明了非监督预训练对识别率提高的有效性。对于STL10数据集,可看出通路2的识别率在3个通路中最高,通路3则最低,这是因为通路3输入的图像尺寸最小,而STL10类内变化很大且目标不全在图像中心,故识别率有所下降。通路之间进行两两累加后识别率都有所提高,在3个通路共同作用时识别率最高,达到83.5%。对于遥感飞机图像集而言,可看出3个通路中通路2的识别率最高,这是因为遥感飞机图像集均为飞机图像,不同类别之间的全局特征差异并不明显,而局部特征更能表示不同的飞机类别。通路3由于输入尺寸较小,识别率稍有下降。同样的,不同通路之间的叠加都让识别率有所提升,最终MSCNN三通路特征融合后的识别率达到了96.5%,完全满足对于可见光遥感图像目标识别的需求。
从表1还可看出,本文算法在3个通路CNN的情况下的识别率较1个通路或2个通路的CNN的识别率高,由此可以推断3个通路CNN所提取的特征具有较强的泛化能力和鲁棒性。此外3个通道能够兼顾不同的尺度,使模型能提取到尺度不同的特征。
4.2算法鲁棒性实验
为验证MSCNN的鲁棒性,在数据集中选取不同类别的图像对其进行平移、尺度、旋转变换,然后计算MSCNN输出的第一层全连接特征与图像变换后输出特征之间的欧氏距离,根据距离的大小可以衡量输出特征对于目标变化的鲁棒性,欧氏距离越小就说明特征对于目标变化越不敏感,鲁棒性就越好。对于STL10选取四类目标进行实验,对比算法为CNN;对于遥感飞机图像集随机选取10幅进行实验,并取距离的平均值,对比算法为ICA和CNN。测试结果如图6~7所示。
图6中虚线表示传统CNN算法得到的结果,实线则表示MSCNN得到的结果,从图6可看出:无论是面对平移、尺度还是旋转变换,MSCNN算法最终输出的特征向量变化率均小于CNN算法,证明其鲁棒性要好于CNN。
从图7也可看出:本文算法对于遥感飞机图像集的平移、尺度、旋转均表现出良好的鲁棒性,相比而言ICA提取的特征鲁棒性较差,目标图像微小的变化就导致了特征较大的改变。本文算法鲁棒性较好首先是因为MSCNN采用非监督的预训练方式,训练得到的滤波器含有更多图像不变性特征;其次是因为MSCNN采用多尺度输入,小块图像输入在一定程度上相当于另一种局部特征,这些特征相比全尺寸输入拥有更好的不变性;最后是MSCNN采用了局部对比度标准化,对于亮度变化较大和存在噪声的目标图像鲁棒性明显增强。
另外,本文算法采用了多通路多尺度分块的方法,必然会使网络参数增加,从而会使训练时间比较耗时;但在测试阶段,输入样本的计算仅包含一些简单的卷积和下采样,算法复杂度并没有因为通道的增加而增加,因此在测试阶段的实时性较传统的CNN并没有太大变化。
5结语
本文提出了MSCNN算法在卷积神经网络的基础上通过非监督预训练滤波器的方法解决传统卷积神经网络前几层无法得到有效训练的问题。针对传统神经网络对于复杂背景图像识别率不高的问题,利用多尺度输入图像增加局部不变信息,利用不同尺寸滤波器卷积搭配不同下采样间隔的方法在获得特征不变性的同时不至于丧失目标的细节信息,有效提升了识别率和鲁棒性。与经典算法的对比实验结果表明:该方法能够有效识别可见光自然图像和遥感图像,并对平移、尺度和旋转变换具有较强的鲁棒性。
参考文献:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神经网络与机器学习[M].3版.申富饶, 徐烨, 郑俊, 译. 北京: 机械工业出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
篇2
【关键词】深度神经网络 序列到序列网络 卷积网络 对抗式生成网路
1 深度神经网络起源
人工神经网络(ArtificialNeuralNetworks,ANN)研究是人工智能领域的一个重要分支,在对生物神经网络结构及其机制研究的基础上,构建类似的人工神经网络,使得机器能直接从大量训练数据中学习规律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知机模型,他在《The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一个人工神经网络数学模型,19世纪80年代末期反向传播(Back Propagation)算法的发明更是带来了ANN的学习热潮,但由于理论分析难度较大,训练方法及技巧尚不成熟,计算机运算能力还不够强大,这个时期ANN结构较为简单,大部分都可等价为单隐层神经网络,主要是进行浅层学习(Shallow Learning)研究。
2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐层贪婪预训练(layerwise greedy pretraining),显著提高了MNIST手写数字识别的准确率,开创了深度学习的新方向;随后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder结构,在图像和文本降维实验上明显优于传统算法,证明了深度学习的正确性。以这两篇论文为开端,整个学术界掀起了对深度学习的研究热潮,由于更多的网络层数和参数个数,能够提取更多的数据特征,获取更好的学习效果,ANN模型的层数和规模相比之前都有了很大的提升,被称之为深度神经网络(Deep Neural Networks,DNN)。
2 深度神经网络的现代应用
2010年以来,随着理论不断创新和运算能力的增长,DNN被应用到许多领域并取得了巨大的成功。2011年微软和谷歌的研究员利用DNN将语音识别的错误率降低了20%~30%;2012年在ImageNet图像识别挑战赛(ILSVRC2012)中DNN更是将识别错误率从26%降到了15%;2016年3月DeepMind团队研发的围棋软件AlphaGO以4:1的巨大优势战胜了世界围棋冠军李世石,2017年1月初AlphaGO的升级版Master以60:0的战绩击败了数十位中日韩围棋高手。当前对DNN的研究主要集中在以下领域:
2.1 语音识别领域
微软研究院语音识别专家邓立和俞栋从2009年开始和深度学习专家Geoffery Hinton合作,并于2011年宣布推出基于DNN的识别系统,彻底改变了语音识别的原有技术框架;2012年11月,百度上线了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一;2016年微软使用循环神经网络语言模型(Recurrent Neural Network based Language Modeling,RNN-LM)将switchboard的词识别错误率降低到了6.3%。
2.2 图像识别领域
早在1989年,YannLeCun和他的同事们就提出了卷积神经网络(Convolution Neural Networks,CNN)结构。在之后的很长一段时间里,CNN虽然在诸如手写数字问题上取得过世界最好的成功率,但一直没有被广泛应用。直到2012年10月,Geoffrey Hinton在ILSVRC2012中使用更深的CNN将错误率从26%降到15%,业界才重新认识到CNN在图像识别领域上的巨大潜力;2012年谷歌宣布基于CNN使得电脑直接从一千万张图片中自发学会猫脸识别;2013年DNN被成功应用于一般图片的识别和理解;2016年DeepMind团队基于CNN研发了围棋AI,并取得了巨大成功。
2.3 自然语言处理领域
2003年YoshuaBengio等人提出单词嵌入(word embedding)方法将单词映射到一个矢量空间,然后用ANN来表示N-Gram模型;2014年10月NEC美国研究院将DNN用于自然语言处理(Natural language processing,NLP)的研究工作,其研究员Ronan Collobert和Jason Weston从2008年开始采用单词嵌入技术和多层一维卷积的结构,用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四典型NLP问题;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequence to sequence,seq2seq)网络模型,突破了传统网络的定长输入向量问题,开创了语言翻译领域的新方向;2016年谷歌宣布推出基于DNN的翻译系统GNMT(Google Neural Machine Translation),大幅提高了翻译的精确度与流畅度。
3 深度神经网络常见结构
DNN能够在各领域取得巨大成功,与其模型结构是密不可分的,现代DNN大都可归纳为三种基本结构:序列到序列网络、卷积网络、对抗式生成网络,或由这三种基本网络结构相互组合而成。
3.1 序列到序列网络
序列到序列网络的最显著特征在于,它的输入张量和输出张量长度都是动态的,可视为一串不定长序列,相比传统结构极大地扩展了模型的适应范围,能够对序列转换问题直接建模,并以端到端的方式训练模型。典型应用领域有:自动翻译机(将一种语言的单词序列转换为另一种语言的单词序列),语音识别(将声波采样序列转换为文本单词序列),自动编程机研究(将自然语言序列转换为语法树结构),此类问题的特点在于:
(1)输入和输出数据都是序列(如连续值语音信号/特征、离散值的字符);
(2)输入和输出序列长度都不固定;
(3)输入输出序列长度没有对应关系。
其典型如图1所示。
网络由编码器(encoder)网络和解码器网络(decoder)两部分连接构成:
3.1.1 编码器网络
编码器网络通常是一个递归神经网络(Recurrent Neural Networks,RNN),网络节点一般使用长短期记忆模型(Long Short Term Memory,LSTM)实现,序列中里第t个张量xt的输出yt依赖于之前的输出序列(y0、y1…yt-1),输入序列(x0、x1、x2…)那爸梁笠来问淙胪络,整个序列处理完后得到最终的输出Y以及各层的隐藏状态H。
3.1.2 解码器网络
解码器网络是一个与编码器网络结构相同的RNN网络,以解码器的最终输出(Y,H)为初始输入,使用固定的开始标记S及目标序列G当作输入数据进行学习,目标是使得在X输入下Y和G尽量接近,即损失度函数f(X)取得最小值。
解码器网络属于典型的监督学习结构,可以用BP算法进行训练,而编码器网络的输出传递给了解码器网络,因此也能同时进行训练。网络模型学习完毕后,将序列X输入编码器,并将起始标记S输入解码器,网络就会给出正确的对应序列。
3.2 卷积神经网络
卷积神经网络将传统图像处理的卷积运算和DNN相结合,属于前馈神经网络,是在生物视觉皮层的研究基础上发展而来的,在大型图像处理上有出色表现。CNN一般由多个结构相似的单元组成,每个单元包含卷积层(convolution layer)和池化层(poolinglayer),通常网络末端还连接全联通层(fully-connected layer,FC)及Softmax分类器。这种结构使得CNN非常适合处理二维结构数据,相比其它DNN在图像处理领域上具有天然优势,CNN的另一优势还在于,由于卷积层共享参数的特点,使得它所需的参数数量大为减少,提高了训练速度。其典型结构如图2所示:
3.2.1 卷积层(Convolutional layer)
卷积层由若干卷积核构成,每个卷积核在整个图像的所有通道上同时做卷积运算,卷积核的参数通过BP算法从训练数据中自动获取。卷积核是对生物视觉神经元的建模,在图像局部区域进行的卷积运算实质上是提取了输入数据的特征,越深层的卷积层所能提取到的特征也越复杂。例如前几个卷积层可能提取到一些边缘、梯度、线条、角度等低级特征,后续的卷积层则能认识圆、三角形、长方形等稍微复杂的几何概念,末尾的卷积层则能识别到轮子、旗帜、足球等现实物体。
3.2.2 池化层(Poolinglayer)
池化层是卷积网络的另一重要部分,用于缩减卷积层提取的特征图的尺寸,它实质上是某种形式的下采样:将图像划分为若干矩形区块,在每个区块上运算池化函数得到输出。有许多不同形式的池化函数,常用的有“最大池化”(maxpooling,取区块中数据的最大值)和“平均池化”(averagepooling,取区块中数据的平均值)。池化层带来的好处在于:
(1)减小了数据尺寸,降低参数的数量和计算量;
(2)模糊了各“像素”相对位置关系,泛化了网络识别模式。
但由于池化层过快减少了数据的大小,导致,目前文献中的趋势是在池化运算时使用较小的区块,甚至不再使用池化层。
3.3 生成式对抗网络(Generative Adversarial Network,GAN)
生成式对抗网络最初由Goodfellow等人在NIPS2014年提出,是当前深度学习研究的重要课题之一。它的目的是收集大量真实世界中的数据(例如图像、声音、文本等),从中学习数据的分布模式,然后产生尽可能逼真的内容。GAN在图像去噪,修复,超分辨率,结构化预测,强化学习中等任务中非常有效;另一重要应用则是能够在训练集数据过少的情况下,生成模拟数据来协助神经网络完成训练。
3.3.1 模型结构
GAN网络典型结构如图3所示,一般由两部分组成,即生成器网络(Generator)和识别器网络(Discriminator):
(1)生成器网络的目标是模拟真实数据的分布模式,使用随机噪声生成尽量逼真的数据。
(2)识别器的目标是学习真实数据的有效特征,从而判别生成数据和真实数据的差异度。
3.3.2 训练方法
GAN采用无监督学习进行训练,输入向量z一般由先验概率概率pz(z)生成,通过生成器网络产生数据G(z)。来自训练集的真实数据的分布为pdata (x),GAN网络的实质是学习该特征分布,因此生成的数据G(z)必然也存在对应的分布pg (z),而识别器网络则给出数据来自于真实数据的概率D(x)以及D(G(z) )。整个训练过程的实质就是生成器网络和识别器网络的博弈过程,即找到
4 深度神经网络研究展望
DNN虽然在各大领域都取得了重大的成功,甚至宣告了“智能时代”的来临,但是与人类大脑相比,DNN在许多方面仍有显著差距:
4.1 识别对抗样本的挑战
对抗样本是指在数据集中添加微小的扰动所形成的数据,这些数据能使网络以极高的置信度做出错误的判别。在网络实际使用过程中会带来非常大的问题,比如病毒制造者可能刻意构造样本来绕过基于DNN的安全检查网络。部分研究指出问题的根因可能在于DNN本身的高度非线性,微小的扰动可能在输出时产生巨大的差异。
4.2 构造统一模型的挑战
DNN虽然在很多领域都取得了巨大的成功,但无论是序列到序列网络、卷积网络、还是对抗式生成网络都只适应于特定领域,与此相对的则是,人类只用一个大脑就能完成语音、文本、图像等各类任务,如何构建类似的统一模型,对整个领域都是极大的挑战。
4.3 提高训练效率的挑战
DNN的成功依赖于大量训练数据,据统计要使得网络学会某一特征,平均需要50000例以上的样本,相比而言人类只需要少量的指导即可学会复杂问题,这说明我们的模型和训练方法都还有极大的提高空间。
参考文献
[1]ROSENBLATT F.The perceptron:a probabilistic model for information storage and organization in the brain [M].MIT Press,1988.
[2]HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation,1989, 18(07):1527-54.
[3]HINTON G E,SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science, 2006,313(5786):504.
[4]SEIDE F,LI G,YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks; proceedings of the INTERSPEECH 2011, Conference of the International Speech Communication Association, Florence,Italy,August,F,2011 [C].
[5]OQUAB M,BOTTOU L,LAPTEV I,et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks; proceedings of the Computer Vision and Pattern Recognition,F,2014 [C].
[6]SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search [J].Nature,2016,529(7587):484.
[7]XIONG W,DROPPO J,HUANG X,et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.
[8]LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-324.
[9]BENGIO Y,DELALLEAU O, LE R N,et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation,2004,16(10):2197-219.
[10]LEGRAND J,COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science,2014,8725(130-44.
[11]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems,2014,4(3104-12.
[12]WU Y,SCHUSTER M,CHEN Z,et al. Google's Neural Machine Translation System:Bridging the Gap between Human and Machine Translation [J]. 2016.
[13]GOODFELLOW I J,POUGETABADIE J,MIRZA M,et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems,2014,3(2672-80.
作者挝
篇3
P键词:深度学习;文本分类;多类型池化
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)35-0187-03
1 引言
为了进行分类,我们建立句子模型来分析和表示句子的语义内容。句子模型问题的关键在于一定程度上的自然语言理解。很多类型的任务需要采用句子模型,包括情感分析、语义检测、对话分析、机器翻译等。既然单独的句子很少或基本不被采用,所以我们必须采用特征的方式来表述一个句子,而特征依赖于单词和词组。句子模型的核心是特征方程,特征方程定义了依据单词和词组提取特征的过程。求最大值的池化操作是一种非线性的二次抽样方法,它返回集合元素中的最大值。
各种类型的模型已经被提出。基于成分构成的方法被应用于向量表示,通过统计同时单词同时出现的概率来获取更长的词组。在有些情况下,通过对词向量进行代数操作生成句子层面的向量,从而构成成分。在另外一些情况下,特征方程和特定的句法或者单词类型相关。
一种核心模型是建立在神经网络的基础上。这种模型包含了单词包或者词组包的模型、更结构化的递归神经网络、延迟的基于卷积操作的神经网络。神经网络模型有很多优点。通过训练可以获得通用的词向量来预测一段上下文中单词是否会出现。通过有监督的训练,神经网络能够根据具体的任务进行良好的调节。除了作为强大的分类器,神经网络模型还能够被用来生成句子[6]。
我们定义了一种卷积神经网络结构并将它应用到句子语义模型中。这个网络可以处理长度不同的句子。网络中的一维卷积层和多类型动态池化层是相互交错的。多类型动态池化是一种对求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化体现在两个方面。第一,多类型池化操作对一个线性的值序列进行操作,返回序列中的多个数值而不是单个最大的数值。第二,池化参数k可以被动态的选择,通过网络的其他参数来动态调整k的值。
卷积层的一维卷积窗口对句子特征矩阵的每一行进行卷积操作。相同的n-gram的卷积窗口在句子的每个位置进行卷积操作,这样可以根据位置独立地提取特征。一个卷积层后面是一个多类型动态池化层和一个非线性的特征映射表。和卷积神经网络在图像识别中的使用一样,为丰富第一层的表述,通过不同的卷积窗口应用到句子上计算出多重特征映射表。后续的层也通过下一层的卷积窗口的卷积操作计算出多重特征映射表。最终的结构我们叫它多类型池化的卷积神经网络。
在输入句子上的多层的卷积和动态池化操作产生一张结构化的特征图。高层的卷积窗口可以获取非连续的相距较远的词组的句法和语义关系。特征图会引导出一种层级结构,某种程度上类似于句法解析树。这种结构不仅仅是和句法相关,它是神经网络内部所有的。
我们将此网络在四种场景下进行了尝试。前两组实验是电影评论的情感预测[2],此网络在二分和多种类别的分类实验中的表现都优于其他方法。第三组实验在TREC数据集(Li and Roth, 2002)上的6类问题的分类问题。此网络的正确率和目前最好的方法的正确率持平。第四组实验是推特的情感预测,此网络将160万条微博根据表情符号自动打标来进行训练。在手工打标的测试数据集上,此网络将预测错误率降低了25%。
本文的概要如下。第二段主要阐述MCNN的背景知识,包括核心概念和相关的神将网络句子模型。第三章定义了相关的操作符和网络的层。第四章阐述生成的特征图的处理和网络的其他特点。第五章讨论实验和回顾特征学习探测器。
2 背景
MCNN的每一层的卷积操作之后都伴随一个池化操作。我们先回顾一下相关的神经网络句子模型。然后我们来阐述一维的卷积操作和经典的延迟的神经网络(TDNN)[3]。在加了一个最大池化层到网络后,TDNN也是一种句子模型[5]。
2.1 相关的神经网络句子模型
已经有很多的神经网络句子模型被描述过了。 一种比较通用基本的模型是神经网络词包模型(NBoW)。其中包含了一个映射层将单词、词组等映射到更高的维度;然后会有一个比如求和之类的操作。结果向量通过一个或多个全连接层来进行分类。
有以外部的解析树为基础的递归神经网络,还有在此基础上更进一步的RNN网络。
最后一种是以卷积操作和TDNN结构为基础的神经网络句子模型。相关的概念是动态卷积神经网络的基础,我们接下来介绍的就是它。
2.2 卷积
一维卷积操作便是将权重向量[m∈Rm]和输入向量[s∈Rs]进行操作。向量m是卷积操作的过滤器。具体来说,我们将s作为输入句子,[si∈R]是与句子中第i个单词相关联的单独的特征值。一维卷积操作背后的思想是通过向量m和句子中的每个m-gram的点积来获得另一个序列c:
[ci=mTsi-m+1:i (1)]
根据下标i的范围的不同,等式1产生两种不同类型的卷积。窄类型的卷积中s >= m并且会生成序列[c∈Rs-m+1],下标i的范围从m到s。宽类型的卷积对m和s的大小没有限制,生成的序列[c∈Rs+m-1],下标i的范围从1到s+m-1。超出下标范围的si窄(i < 1或者i > s)置为0。窄类型的卷积结果是宽类型的卷积结果的子序列。
宽类型的卷积相比于窄类型的卷积有一些优点。宽类型的卷积可以确保所有的权重应用到整个句子,包括句子收尾的单词。当m被设为一个相对较大的值时,如8或者10,这一点尤其重要。另外,宽类型的卷积可以确保过滤器m应用于输入句子s始终会生成一个有效的非空结果集c,与m的宽度和s句子的长度无关。接下来我们来阐述TDNN的卷积层。
4 验与结果分析
我们对此网络进行了4组不同的实验。
4.1 电影评论的情感预测
前两组实验是关于电影评论的情感预测的,数据集是Stanford Sentiment Treebank.实验输出的结果在一个实验中是分为2类,在另一种试验中分为5类:消极、略微消极、中性、略微积极、积极。而实验总的词汇量为15448。
表示的是电影评论数据集情感预测准确率。NB和BINB分别表示一元和二元朴素贝叶斯分类器。SVM是一元和二元特征的支撑向量机。在三种神经网络模型里――Max-TDNN、NBoW和DCNN――模型中的词向量是随机初始化的;它们的维度d被设为48。Max-TDNN在第一层中滤波窗口的大小为6。卷积层后面紧跟一个非线性化层、最大池化层和softmax分类层。NBoW会将词向量相加,并对词向量进行非线性化操作,最后用softmax进行分类。2类分类的MCNN的参数如下,卷积层之后折叠层、动态多类型池化层、非线性化层。滤波窗口的大小分别7和5。最顶层动态多类型池化层的k的值为4。网络的最顶层是softmax层。5类分类的MCNN有相同的结构,但是滤波窗口的大小分别为10和7,k的值为5。
我们可以看到MCNN的分类效果远超其他算法。NBoW的分类效果和非神经网络算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因为过度池化的原因,丢弃了句子太多重要的特征。除了RecNN需要依赖外部的解析树来生成结构化特征,其他模型都不需要依赖外部资源。
4.2 问题分类
问题分类在问答系统中应用非常广泛,一个问题可能属于一个或者多个问题类别。所用的数据集是TREC数据集,TREC数据集包含6种不同类别的问题,比如一个问题是否关于地点、人或者数字信息。训练集包含5452个打标的问题和500个测试集。
4.3 Twitter情感预测
在我们最后的实验里,我们用tweets的大数据集进行训练,我们根据tweet中出现的表情符号自动地给文本进行打标签,积极的或是消极的。整个数据集包含160万条根据表情符号打标的tweet以及400条手工标注的测试集。整个数据集包含76643个单词。MCNN的结构和4.1节中结构相同。随机初始化词向量且维度d设为60。
我们发现MCNN的分类效果和其他非神经网络的算法相比有极大的提高。MCNN和NBoW在分类效果上的差别显示了MCNN有极强的特征提取能力。
5 结语
在本文中我们阐述了一种动态的卷积神经网络,它使用动态的多类型池化操作作为非线性化取样函数。此网络在问题分类和情感预测方面取得了很好的效果,并且不依赖于外部特征如解析树或其他外部资源。
参考文献
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
篇4
【关键词】图像识别;数学建模;分类算法;深度学习
引言
随着微电子技术及计算机技术的蓬勃发展,图像识别应运而生,图像识别是研究用计算机代替人们自动地去处理大量的物理信息,从而代替人的脑力劳动。随着计算机处理能力的不断强大,图像识别从最早的文字识别、数字识别逐渐发展到人脸识别、物体识别、场景识别、精细目标识别等,所采用的技术也从最早的模板匹配、线性分类到广泛使用的深层神经网络与支持向量机分类等方法。
1.图像识别中的数学问题建模
1.1飞行器降落图像智能识别建模
在复杂地形环境下,飞行器进行下降过程,需要采集图像并且判断是否符合降落要求。在对飞行器进行最终落地点的选择时,如果降落点复杂程度较高,采集的图像中将会产生大量的训练样本数目,图像配准过程中,极大地增加了运算量,造成最佳降落点选择的准确率降低。提出了利用图像智能识别进行最佳降落点的建模。利用伪Zemike矩能够对降落点的图像形状进行准确的描述,利用Procrustes形状分析法提取最佳降落点的特征,利用Rank的融合决策法最终实现最佳降落点选择的目的。
1.2人脸面部表情图像识别的隐马尔科夫建模
人有喜怒哀乐,目前有一种利用隐马尔科夫模型的建模方法,可以实现对人脸表情中的情感进行识别。具体的是:首先,采用子窗口对人脸面部表情图像进行采样,然后利用离散余弦变换提取所需要的特征向量,通过对人脸面部图像进行隐马尔科夫建模,使用获得的特征向量作为观测向量对人脸面部图像的隐马尔科夫模型进行训练,再使用训练后的隐马尔科夫模型对JAFFE人脸图像测试集中地人脸表情图像进行情感识别。
2.典型的图像识别算法
2.1 基于Gabor变换和极限学习机的贝类图像种类识别
对贝类图像进行Gabor变换,提取其图像特征,确定了图像特征维数;采用2DPCA方法,对变换后的特征进行降维,并利用极限学习机(ELM)进行贝类图像的分类识别。与BP神经网络和支持向量机(SVM)实验对比发现,极限学习机分类器用于贝类识别不仅速度极快而且泛化性良好,算法具有较高的精度。其特点对高维图像识别精确度高,但算法的复杂度和设计一个精确的分类器都显得难以把握。因此该类图像识别算法很难普遍推广使用,识别对象必须是贝类图像。
2.2 利用公开的全极化SAR数据,研究基于SAR图像的检测、极化分解和识别算法
首先根据四个线极化通道合成伪彩色图像,从而对场景进行初步认知。利用一维距离像分析全极化各通道的信噪比强度,通过对目标进行Pauli分解得到目标的奇次散射分量和偶次散射分量,从而完成对海杂波、建筑物和舰船的相干分量的研究。其特点过程简单易掌握,但识别对象有限。
2.3 基于SVM的离线图像目标分类算法
基于SVM的离线图像目标分类算法,先对训练集预处理,然后将处理后的图像进行梯度直方图提取最后对图像目标的分离器进行检测,但是这种图像识别算法只是有效,实用性不强。
3.深度学习在图像识别的应用
3.1 Deep learning的原理
深度学习是一种模拟人脑的思考方式,通过建立类似人脑的神经网络,实现对数据的分析,即按照人类的思维做出先关解释,形成方便人们理解的图像、文字或者声音。深度学习的重点是对模型的运用,模型中需要的参数是通过对大量数据的学习和分析中得到的。
深度学习有两种类型:有监督学习和无监督学习。学习模型根据学习框架的类型来确定。比如,卷积神经网络就是一种深度的监督学习下的机器学习模型,而深度置信网就是一种无监督学习下的机器学习模型。
3.2 深度学习的典型应用
深度学习是如今计算机领域中的一个夺人眼球的技术。而在深度学习的模型中研究热度最高的是卷积神经网络,它是一种能够实现大量图像识别任务的技术。卷积神经网络的核心思想是局部感受野、权值共享以及时间或空间亚采集。通常卷及神经网络使用最后一层全连接隐层的值作为对输入样本所提出的特征,通过外部数据进行的有监督学习,从而可以保证所得的特征具有较好的对类内变化的不变性。
3.2.1基于深度学习特征的人脸识别方法。
卷积神经网络在人脸识别领域取得了较大突破,为了更加有效的解决复杂类内变化条件下的小样本人脸识别问题,使用深度学习的方法来提取特征,与基于稀疏表示的方法结合起来,实验证明了深度学习所得的人脸特征具有很好的子空间特性,而且具有可迁移性以及对类内变化的不变性。
3.2.2基于深度学习的盲文识别方法。
目前盲文识别系统存在识别率不高、图片预处理较为复杂等问题。针对这些问题,利用深度模型堆叠去噪编码器自动、全面学习样本深层次特征,避免人为手工选取特征存在的多种弊端,并用学习的特征作为神经网络的输入,更大程度地避免了传统神经网络由于随机选取初值而导致结果陷入局部极值的问题。
3.2.3基于深度学习的手绘草图识别。
目前的手绘草图识别方法存在费时费力,较依赖于手工特征提取等问题。基于深度学习的手绘草图识别方法根据手绘草图时缺失颜色、纹理信息等特点,使用大尺寸的首层卷积核获得更多的空间结构信息,利用训练浅层模型获得的模型参数来初始化深度模型对应层的模型参数,以加快收敛,减少训练时长,加入不改变特征大小的卷基层来加深网络深度等方法实现减小错误率。
4.结论
图像识别是当代人工智能的热门研究方向,其应用领域也是超乎人类想象的,相信通过技术的不断创新,图像识别技术会给人们的生活带来智能化、个性化、全面化的服务。
参考文献:
[1]穆静,陈芳,王长元.人脸面部表情图像的隐马尔科夫建模及情感识别[J].西安:西安工业大学学报,2015(09).
[2]杨靖尧,里红杰,陶学恒.基于Gabor变换和极限学习机的贝类图像种类识别[J].大连工业大学学报,2013(04).
[3]马晓,张番栋,封举富.基于深度学习特征的稀疏表示的人脸识别方法[J].智能系统学报,2016(11).
篇5
黑科技?神经网络是个什么鬼
说到神经网络,很多朋友都会认为这是一个高大上的概念。从生物学角度来说,人类复杂的神经系统是由数目繁多的神经元组合而成,它们互相联结形成神经网络,经过对信息的分析和综合,再通过运动神经发出控制信息,从而实现各种精密活动,如识别各种物体、学习各种知识、完成各种逻辑判断等。
随着人工智能技术的发展,科学家开发出人工神经网络,它的构成原理和功能特点等方面更加接近人脑。它不是按给定的程序一步一步地执行运算,而是能够自身适应环境、总结规律、完成某种运算、识别或过程控制。比如多伦多大学的Krizhevsky等人构造了一个超大型卷积神经网络,有9层,共65万个神经。第一层神经元只能识别颜色和简单纹理,但是第五层的一些神经元可以识别出花、圆形屋顶、键盘、乌、黑眼圈等更为抽象丰富的物体(图1)。因此神经网络实际上是基于人工智能技术而形成的一种和人类神经网络相似的网络系统。
媲美Photoshop 神经网络磨皮技术背后
如上所述,现在神经网络技术发展已经非常迅猛,而且运用在各个领域。神经网络磨皮则是指该技术在照片识别和美化方面的运用。那么它是怎样实现对照片的美化?在Photoshop中磨皮操作是用户先选中人脸区域,然后再使用Photoshop内置的方法实现磨皮。神经网络磨皮原理类似,只不过这些操作是自动完成的。
首先是对照片人脸识别。要实现对照片的美容就必须先精确识别人脸,由于人脸有五官这个显著特征,因此神经网络磨皮技术只要通过机器对一定数量的人脸照片进行识别、读取,然后就可以精确识别人脸。它的原理和常见的人脸识别技术类似(图2)。
其次则是美化。在完成人脸识别后就需要对美化操作进行机器学习,以磨皮为例。因为人脸的每个年龄阶段皮肤性质是不同的,为了达到更真实的磨皮效果,神经网络磨皮是实现用户“回到”幼年或者“穿越”到老年脸部皮肤的效果。研究人员将年龄段分类为0~18岁、19~29岁、30~39岁、40~49岁、50~59岁和60岁以上这几个阶段(图3)。
然后准备两个深度学习机器同时工作。两个机器一个用来生成人脸,一个用来鉴别人脸。而且两个机器会通过分析人脸图像,提前学习到各年龄段人脸大概是什么样子的。在每个年龄分组里,研究人员让机器学习超过5000张标记过年龄的人脸图像。通过大量的照片学习后,机器就可以学会每个年龄分组内的标签,它可以准确知道每个人不同年龄阶段的脸部特征。这样无论你是要磨皮为年轻时的皮肤光滑、圆润状态,还是要变为50岁以后皱褶、粗糙的皮肤,神经磨皮都可以轻松帮助你实现。
当然学习有个通病,就是在合成过程中,机器可能会丧失掉图片原有的识别资料(1D)。为了解决这个问题,上述介绍中的人脸鉴别机器就发挥功效了。它通过查看这个照片的识别资料是不是唯一的,如果不是的话照片则会被拒绝输出。研究人员让机器合成10000张从数据库中抽取出来的人像,这些照片之前从未用来训练机器。然后他们用开发的软件程序来检测训练前后的两张照片是否为同一个人,测试结果显示有80%经训练的照片都被认为和原照片是同一个人(而作为对比,用其他方法加工照片,平均测试结果只有50%)。举个简单例子,如果40岁的用户将自己磨皮为20岁的样子,如果软件程序来检测训练前后的两张照片为同一个人,那么就输出磨皮效果,从而让用户可以轻松磨皮到20岁的状态。这样经过训练的神经磨皮算法可以很真实地实现人脸的磨皮。
神经网络 不H仅是磨皮
篇6
关键词:人脸识别技术;病毒管控;人工智能;神经网络
互联网在今天的社会中发挥着举足轻重的作用。如今社会,随着许多人工智能技术、网络技术、云计算等互联网技术不断发展,像人脸识别等技术的应用越来越广泛,在控制病毒传播途径等场合发挥了巨大作用,不断地提高着社会的安全性和便利性,不仅提高了防控中病毒检测效率,也为病毒的控制提供了可靠的技术方法,能够及时发现和控制公共场所的安全隐患因素,避免对社会经济、居民生活造成破坏,。但目前的人脸识别等技术还存在许多缺陷,需要完善和革新,充满着巨大的潜力和进步空间。
1人脸识别技术研究意义
人脸识别技术是一种生物特征识别技术,最早产生于上世纪60年代,基于生理学、图像处理、人机交互及认知学等方面的一种识别技术。相比于其他人类特征像指纹识别、声纹识别、虹膜识别等技术,人脸识别虽然存在人脸识别单一性低,且区分度难度高、易受环境影响等不足。但是人脸识别技术拥有速度快、大范围群体识别及非接触、远距离可识别等优势,都是其他生物识别识别技术所不具备的,而在传播性强、感染风险大的病毒传播过程中,这些显然是必须要考虑的重要影响因素。通过将人脸识别等人工智能技术引入信息管理系统,综合集成视频监控、图像处理、深度学习和大数据等技术,结合非接触测温、定位等技术,助力病情防控,在一定程度上推动病毒病情防控信息化、智能化发展进程。可作为加强公共场所的人员的体温实时监测、地址信息定位的监控管理,规范公共场所针对病毒传播的预防行为。
2人脸识别技术
2.1人脸检测技术
人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象(如无背景的图象),往往假设人脸位置静止或者容易获取。人脸检测分为前深度学习时期,AdaBoost框架时期以及深度学习时期。前深度学习时期,人们将传统的计算机视觉算法运用于人脸检测,使用了模板匹配技术,依赖于人工提取特征,然后用这些人工特征训练一个检测器;后来技术发展,在2001年Viola和Jones设计了一种人脸检测算法,它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器,检测速度较之前的方法有2个数量级的提高,并且保持了很好的精度,称这种方法为VJ框架。VJ框架是人脸检测历史上第一个最具有里程碑意义的一个成果,奠定了基于AdaBoost目标检测框架的基础,使用级联AdaBoost分类器进行目标检测的思想是:用多个AdaBoost分类器合作实现对候选框的分类,这些分类器组成一个流水线,对滑动窗口中的候选框图像进行判定,确定检测目标是人脸还是非人脸。Adaboost框架技术的精髓在于用简单的强分类器在初期快速排除掉大量的非人脸窗口,同时保证高的召回率,使得最终能通过所有级强分类器的样本数数量较少。在深度学习时期,开始将卷积神经网络应用于人脸检测领域。研究方向有两种:一是将适用于多任务的目标检测网络应用于人脸检测中;另一种是研究特定的的人脸检测网络。人脸检测技术具有特殊唯一性和稳定性,在现今社会对于构建居民身份识别系统,病毒传播防控系统,以及计算机视觉交互模型的构建具有广泛的应用。人脸检测技术不仅作为人脸识别的首要步骤,也在许多其他领域发挥巨大影响,如人脸关键点提取、人脸追踪、基于内容的检索、数字视频处理、视频检测、安防监控、人证比对、社交等领域都有重要的应用价值。数码相机、手机等移动端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能,各种虚拟美颜相机也需要人脸检测技术定位人脸。评价一个人脸检测算法好坏的指标是检测率和误报率,我们定义检测率为:算法要求在检测率和误报率之间尽量平衡,理想的情况是达到高检测率,低误报率。
2.2人脸识别技术
目前主要流行的人脸识别技术包括几何特征识别,模型识别,特征脸识别和基于深度学习/神经网络的的人脸识别技术等。人脸特征识别主要通过对人脸面部结构特征如眼睛、鼻子等五官几何特点及其相对位置分布等,生成图像,并计算各个面部特征之间的欧式距离、分布、大小等关系该方法比较简单,反应速度快,并且具有鲁棒性强等优点,但是在实际环境下使用容易受检测的环境的变化、人脸部表情变化等影响,精度通常不高,细节处理上不够完善。模型识别技术主要包括隐马尔可夫模型、主动表象模型、主动形状模型等,识别率较高,并且对表情等变化影响较小。特征脸识别来源于主成分描述人脸照片技术(PCA技术),从数学上来讲,特征脸就是人脸的图像集协方差矩阵的特征向量。该技术能有效的显示人脸信息,效率较高。基于深度学习的人脸识别是获取人脸图像特征,并将包含人脸信息的特征进行线性组合等,提取人脸图像的特征,学习人脸样本数据的内在规律和表示层次。可以采用如三层前馈BP神经网络。BP神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一。BP网络本质上是一种能够学量的输入与输出之间的映射关系的输入到输出的映射,从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。BP神经网路输入层有n个神经元节点,输出层具有m个神经元,隐含层具有k个神经元,采用BP学习算法训练神经网络。BP算法主要包括两个阶段:向前传播阶段和向后传播阶段。在向前传播阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是在网络完成训练后正常运行时执行。将Xp作为输入向量,Yp为期望输出向量则BP神经网络向前传播阶段的运算,得到实际输出表达式为向后传播阶段主要包括两大步骤:①计算实际输出Op与对应理想输出Yp之差;②按极小化误差方法调整带权矩阵。之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的,因为该阶段都需要收到精度要求进行误差处理,所以也可以称之为误差传播阶段。(1)确定训练集。由训练策略选择样本图像作为训练集。(2)规定各权值Vij,Wjk和阈值Φj,θk参数,并初始化学习率α及精度控制参数ε。(3)从训练集中取输入向量X到神经网络,并确定其目标输出向量D。(4)利用上式计算出一个中间层输出H,再用本式计算出网络的实际输出Y。(5)将输出矢量中yk与目标矢量中dk进行比较,计算输出误差项,对中间层的隐单元计算出L个误差项。(6)最后计算出各权值和阈值的调整量。所以,卷积神经网络算法是通过训练人脸特征库的方式进行学习生成,对不同环境下不同表现情况的人脸图像识别有更高的精确性。
2.3人脸识别软件实现方式
(1)采集人脸数据集,然后对数据集进行标注,对数据进行预处理变成训练格式。(2)部署训练模型,根据训练算法所需依赖部署电脑环境。(3)训练过程,下载预训练模型,将人脸数据集分批次作为输入开始训练,最终输出为训练好的模型。(4)部署训练好的模型,捕获画面即可对画面中的人脸进行实时检测。
3人脸识别在病毒传播防控中的应用
通过人脸识别技术,可以实现无接触、高效率的对流动人员进行信息的收集、身份识别、定位地址信息等操作,大大减少了传染的可能性,切断了病毒传播途径,大大提高了工作效率。通过提前收录人脸信息,采用深度学习对人脸特征模型的训练学习,即可获取人脸识别特征模型,再次验证时即可实现人脸识别和个人信息快速匹配。AI人工智能帮助人们更好的解放双手,为人们的生活和工作提供了重要的帮助。本文还提出了在人脸识别的系统基础上,可以加入定位系统、测温系统等,依托物联网技术和云计算大数据,更加优化管控系统的效率。病毒传播防控中人脸识别系统流程可以概括为图2。
4结语
本文研究了一种人脸识别技术在病毒传播管控系统中的应用,并分析设计了人脸识别实时监测及病毒管控系统的流程,大大提高了信息管理的效率,减弱了传播风险。作为一门新兴技术,目前的人脸识别技术还存在着诸多不足之处,像存在环境光的影响、人脸表情变化、妆容变化、佩戴口罩等都会影响到系统识别精度;另外安全问题也引人深思:现今人脸支付方式迅猛发展,录入的人脸模型信息数据库存在有一定的安全风险,一旦被不法分子盗取信息后果不堪设想,所以模型数据库安全、网络安全,也是系统开发中必须重视的问题。人脸识别为代表的人工智能技术的研究,在病毒传播管控作出重大贡献,依托我国领先的计算机网络技术和5G等技术,加强人工智能技术与5G通信技术的结合,优势互补,以此来加快大数据、人工智能和物联网技术发展进程,对我国社会进步,促进城市建设和管理朝着高效、秩序、和谐稳定的方向不断发展,增强我国的经济实力有着重大价值和研究意义。
参考文献
[1]王彦秋,冯英伟.基于大数据的人脸识别方法[J].现代电子技术,2021,44(7):87-90.
[2]李刚,高政.人脸自动识别方法综述[J].计算机应用研究,2003,20(8):4-9,40.
[3]马玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].计算机科学与探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度学习的人脸识别方法综述[J].工程数学学报,2021,38.
[5]王红星,胡永阳,邓超.基于LBP和ELM的人脸识别算法研究与实现[J].河南理工大学学报(自然科学版),2005.
[6]钟陈,王思翔,王文峰.面向疫情防控的人脸识别系统与标准研究[J].信息技术与标准化,2020,6,11-13,1671-539X.
[6]彭骏,吉纲,张艳红,占涛.精准人脸识别及测温技术在疫情防控中的应用[J].软件导刊,2020,10,1672-7800.
篇7
计算机视觉的第一步是特征提取,即检测图像中的关键点并获取有关这些关键点的有意义信息。特征提取过程本身包含4个基本阶段:图像准备、关键点检测、描述符生成和分类。实际上,这个过程会检查每个像素,以查看是否有特征存在干该像素中。
特征提取算法将图像描述为指向图像中的关键元素的一组特征向量。本文将回顾一系列的特征检测算法,在这个过程中,看看一般目标识别和具体特征识别在这些年经历了怎样的发展。
早期特征检测器
Scale Invariant Feature Transform(SIFT)及Good Features To Track(GFTT)是特征提取技术的早期实现。但这些属于计算密集型算法,涉及到大量的浮点运算,所以它们不适合实时嵌入式平台。
以SIFT为例,这种高精度的算法,在许多情况下都能产生不错的结果。它会查找具有子像素精度的特征,但只保留类似于角落的特征。而且,尽管SIFT非常准确,但要实时实现也很复杂,并且通常使用较低的输入图像分辨率。
因此,SIFT在目前并不常用,它主要是用作一个参考基准来衡量新算法的质量。因为需要降低计算复杂度,所以最终导致要开发一套更容易实现的新型特征提取算法。
二代算法
Speeded Up Robust Features(SURF)是最早考虑实现效率的特征检测器之一。它使用不同矩形尺寸中的一系列加法和减法取代了SIFT中浩繁的运算。而且,这些运算容易矢量化,需要的内存较少。
接下来,HOG(Histograms ofOriented Gradients)这种在汽车行业中常用的热门行人检测算法可以变动,采用不同的尺度来检测不同大小的对象,并使用块之间的重叠量来提高检测质量,而不增加计算量。它可以利用并行存储器访问,而不像传统存储系统那样每次只处理一个查找表,因此根据内存的并行程度加快了查找速度。
然后,ORB(Oriented FASTand Rotated BRIEF)这种用来替代SIFT的高效算法将使用二进制描述符来提取特征。ORB将方向的增加与FAST角点检测器相结合,并旋转BRIEF描述符,使其与角方向对齐。二进制描述符与FAST和HarrisCorner等轻量级函数相结合产生了一个计算效率非常高而且相当准确的描述图。
CNN:嵌入式平台目标识别的下一个前沿领域
配有摄像头的智能手机、平板电脑、可穿戴设备、监控系统和汽车系统采用智能视觉功能将这个行业带到了一个十字路口,需要更先进的算法来实现计算密集型应用,从而提供更能根据周边环境智能调整的用户体验。因此,需要再一次降低计算复杂度来适应这些移动和嵌入式设备中使用的强大算法的严苛要求。
不可避免地,对更高精度和更灵活算法的需求会催生出矢量加速深度学习算法,如卷积神经网络(CNN),用于分类、定位和检测图像中的目标。例如,在使用交通标志识别的情况下,基于CNN的算法在识别准确度上胜过目前所有的目标检测算法。除了质量高之外,CNN与传统目标检测算法相比的主要优点是,CNN的自适应能力非常强。它可以在不改变算法代码的情况下快速地被重新“训练(tuning)”以适应新的目标。因此,CNN和其他深度学习算法在不久的将来就会成为主流目标检测方法。
CNN对移动和嵌入式设备有非常苛刻的计算要求。卷积是CNN计算的主要部分。CNN的二维卷积层允许用户利用重叠卷积,通过对同一输入同时执行一个或多个过滤器来提高处理效率。所以,对于嵌入式平台,设计师应该能够非常高效地执行卷积,以充分利用CNN流。
事实上,CNN严格来说并不是一种算法,而是一种实现框架。它允许用户优化基本构件块,并建立一个高效的神经网络检测应用,因为CNN框架是对每个像素逐一计算,而且逐像素计算是一种要求非常苛刻的运算,所以它需要更多的计算量。
不懈改进视觉处理器
篇8
关键词 车辆自动驾驶;人工智能;应用实践;智能汽车
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2017)182-0080-02
车辆自动驾驶系统是改变传统驾驶方式的重要技术类型,但仍旧处于研发测试阶段,并未展开全面应用。车辆自动驾驶系统主要是由感知部分和控制部分构成,控制部分主要完成对车辆的控制,促使车辆按照设计的线路展开行驶,而感知部分则是对路线中障碍进行识别,促使车辆进行规避,保障车辆安全。然而现阶段,车辆自动驾驶的感知部分却存在一定的瓶颈,制约车辆自动驾驶系统的功能。基于此,本文对车辆自动驾驶中人工智能的应用展开分析,具体内容如下。
1 车辆自动驾驶现状分析
车辆自动驾驶是借助网络技术相关算法、高敏感度的传感器和相关信息采集设备,综合的对车辆行驶过程中路况信息进行采集,由信息处理部分完成对车辆行驶过程中采集数据的分析,再由控制系统完成对车辆前进、后退和停止等动作进行实施,可有效改变传统车辆的驾驶方式,在提高车辆驾驶有效性的基础上,可以解放驾驶人员的双手,并达到降低交通事故发生几率,达到智能化汽车的构建。
近年来,以百度、谷歌为首的行业,致力于人工智能技术应用车辆自动驾驶系统中,于2016年谷歌将无人驾驶的汽车测试到城市,并于2016年12月无人驾驶汽车项目剥离为独立的公司waymo,完成对车辆自动驾驶的研究,该公司的基于自动驾驶的车辆的自动行驶的距离>1.61×106km,并获得大量的数据。
较比国外的车辆自动驾驶的自主研究形式,国内主要选择汽车厂商与科研所高校等联合研究的方式,主要有一汽、上汽、奇瑞等,均投入一定资金和研究力度,致力于研发可无人驾驶的智能汽车。同时,网络技术和算法技术、硬件技术的不断成熟,为车辆自动驾驶提供了基础,对智能汽车的构建具有十分积极的意义。
随着世界各类尖端行业重视到汽车自动驾驶大有可为,逐渐加大对车辆自动驾驶的研究,并将具备车辆自动驾驶能力的汽车作为未来汽车市场的主要方向,促使汽车可以在自动驾驶的状态下,完成对复杂环境的驾驶,达到高度自动化驾驶的效果。
2 人工智能在车辆自动驾驶中的应用
人工智能是计算机科学的分支之一,所包含的领域较多,涵盖机器人、语言识别、图像识别等,随着人工智能研究的不断深入,人工智能逐渐应用到各个领域中。将人工智能应用到车辆自动驾驶中,可以对车辆自动驾驶的瓶颈进行突破,推动车辆自动驾驶的早日实现。
2.1 基于深度思考的人工智能
车辆自动驾驶系统对基于深度思考的人工智能进行应用,深度思考是一种机器学习的算法,可完成多元非线性数据转换、高级数据概念模型的构建,促使车辆自动驾驶系统的感知部分发生转变。具体的基于深度思考的人工智能学习结构,有深度神经网络(DNNs)、卷积神经网络(CNNs)、深度信念网络等,在具体的车辆自动驾驶系统中,完成对车辆的视觉、语言等信息的识别。苹果手机编制程序专家George?Hotz创建的企业,构建的基于卷积神经网络的自动驾驶车辆,并借助人工智能实现车辆训练。在具体的车辆训练过程中,选择激光雷达作为主要视觉装置,完成周边环境的精准三维扫描,进而实现对周边环境的识别,且可以完成对车位置信息的报告。
2.2 基于人工智能解读的仪表板摄像头
选择以帕洛阿尔托为基地的NAUTO使用的prosumer相机中发现的各类图像传感器,并运用运动感应器、GPS等,转变激光雷达传感器昂贵的情况,达到降低车辆自动驾驶的感知成本,并有效完成对周边地形的识别。借助NAUTO系统,不但能够完成对道路前方情况的识别,还能对车辆内部的情况信息进行采集,车辆乘坐人员可以根据面部表情、手势和语言完成对车辆的控制,达到改善人机交互界面。
2.3 基于人工智能的尾刹
现阶段,汽车辅助系统不断发展和完善,切实应用到车辆中,基于人工智能的ADAS技术,配合ACC(自适应循环)、LDWS(车道偏移报警系统)、自动泊车等系统的应用,使得目前车辆具备良好的自动能力。而ADAS技术的应用,可以使得汽车在具体运行中如果前方存在车辆或是前方存在障碍物不能绕过的情况,借助ADAS技术的应用,可以实现自动刹车,进而保障车辆的行驶安全。
2.4 感知、计划、动作的agent结构应用
车辆自动驾驶系统中对人工智能进行应用,对改善自动车辆驾驶的效果显著,改善车辆自动驾驶的效果。
借助知识库的十二构建,可以给予自动驾驶行驶过程中的地理信息、电子地图、交通信息和相关法律法规这些内容。且这些知识主要是以知识的形式展示,并借助知R推理中的A算法,可以有效完成对下一个被检查的结点时引入已知的全局信息进行解读,达到对最优路线的选择,获得可能性最大的结点,继而保障知识所搜的效率。借助感知―计划―动作agent结构的人工职能,可以将车辆自动行驶的速度分为3个档次:High、Middle、Fast,转向角度为7等,分别为0°,±10°,±20°,±30°。且可以完成对各类障碍的规避。
3 车辆自动驾驶中人工智能应用的相关问题
1)车辆自动驾驶具有良好的发展前景,而人工智能的应用,进一步优化了车辆自动驾驶系统的功能,达到减少错误的情况,借助人工智能尽可能降低各类错误的存在,规避自动驾驶风险的存在。需不断加强对人工智能的研究和分析,促使人工智能和车辆自动驾驶有机的结合,为智能汽车的构建奠定基础。
2)人工智能应用时,需要对车辆电脑程序和信息网络的安全系数进行控制,避免非法入侵对车辆造成不利影响,进而导致安全隐患的发生。
3)人工智能在具体的应用中,需要对预测和回应人类行为的问题进行处理,进而增加自动驾驶车辆与人的互动。
4)基于人工智能的智能汽车定责的法律问题,国家需要建立相关的法律法规,不断完善车辆自动驾驶的相关立法,完成对各类问题的处理,提升法律的适应性。
4 结论
分析车辆自动驾驶的现状,再详细的对人工智能在车辆自动驾驶的应用,再解读基于感知―计划―动作agent结构的人工智能的具体应用,并分析人工智能在车辆自动驾驶中应用的相关问题,为推动车辆自动驾驶的水平和智能化水平提供基础,达到改善人们生活的效果。
参考文献
[1]黄健.车辆自动驾驶中的仿人控制策略研究[D].合肥:合肥工业大学,2013.
[2]谢基雄.探析人工智能技术对电气自动化的实践运用[J].电源技术应用,2013(9).
[3]禹昕.人工智能在电气工程自动化中的运用实践研究[J].工程技术:全文版,2016(12):00247.
[4]余阿东,陈睿炜.汽车自动驾驶技术研究[J].汽车实用技术,2017(2):124-125.
篇9
如果时光倒流500年,你会如何对当时的人们述说今日的世界?在那个时代,哥白尼刚刚发表日心论,伽利略还在比萨斜塔抛掷铁球,吴承恩还在用毛笔写着《西游记》。如果你对他们说:“嘿,老兄,我对着手上的这个‘黑色方块’说句话,它不仅能让你看到太阳系长什么样,告诉你什么是重力加速度,还能直接把唐僧要去西天取的经下载给你看。”他们可能会觉得你要么是神仙,要么是神经。
AI从诞生到现在已经有60年的时间,期间经历两轮起落,呈阶梯式进化,走到今天进入第三个黄金期。如果按照其智能水平划分,今天的人工智能尚处在狭义智能向广义智能进阶的阶段,还是一名不折不扣的“少年”,未来拥有无限的可能和巨大的上升空间。
AI是一门交叉的学科:人工智能由不同的技术领域组成,如机器学习、语言识别、图像识别、自然语言处理等。而同时,它也是一门交叉学科,属于自然科学和社会科学的交叉,涉及到哲学和认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论、不定性论等学科。因此人工智能领域的技术壁垒是比较高的,并且会涉及到多学科协作的问题,对任何公司来说,想做好人工智能将是一门大工程。未来不大可能出现一个公司能包揽整个人工智能产业每一个部分的工作,更可能的模式将是一个公司专注于一个相对细分的领域,通过模块化协作的形式实现人工智能领域的不同应用。
进化史呈阶梯状,以阶段突破式为成长模式:人工智能的发展经历了两次黄金和低谷期,
现在正经历着第三个黄金期。1956年,麦卡赛、明斯基、罗切斯特和申农等年轻科学家在达特茅斯一起聚会,并首次提出了“人工智能”这一术语,标志着人工智能的诞生。第二年,由 Rosenblatt 提出 Perceptron 感知机,标志着第一款神经网络诞生。1970年,因为计算能力没能突破完成大规模数据训练,人工智能的第一个黄金期到此结束。
后直到1982年德普霍尔德神经网络的提出,人工智能进入第二个黄金期,之后BP算法的出现使大规模神经网络训练成为可能,人工智能的发展又一次进入。1990年,因为人工智能计算机和DARPA没能实现,政府撤资,人工智能又一次进入低估。2006年,随着“深度学习”神经网络取得突破性进展,人工智能又一次进入黄金时期。
AI将由狭义智能向广义智能进化,虽然人工智能的诞生已经有60年的时间但如果把它比喻成一个人的话,当前的他应该还未成年。按照人工智能的“智能”程度,可以将其分成狭义智能、广义智能、超级智能三个大的发展阶段,现阶段的图像与语音识别水平标志着人类已经基本实现狭义智能,正在向广义智能的阶段迈进。
狭义智能:即当前的技术已经实现的智能水平,包括计算智能与感知智能两个子阶段,计算智能指的机器开始具备计算与传递信息的功能,感知智能指机器开始具备“眼睛”和“耳朵”,即具备图像识别与语音识别的能力,并能以此为判断采取一些行动。
广义智能:指的是机器开始具备认知能力,能像人类一样获取信息后主动思考并主动采取行动。在这个阶段,机器可以全面辅助或代替人类工作。
超级智能:这个阶段的机器几乎在所有领域都比人类聪明,包括科学创新、通识和社交技能等。这个阶段目前离我们还比较遥远,到时候人类的文明进步和跨越或许将有赖于机器,而机器人意识的伦理问题也许将在这个阶段成为主要问题。
推荐引擎及协同过滤可以分析更多的数据
智能助手并不只局限于Siri等手机语音助手。微软率先在win10 系统中加入个人智能助理Cortana,标志着个人PC端智能助理的出现;图灵机器人以云服务的方式进入海尔智能家居、博世mySPIN车载系统,预示着多场景人工智能解决方案的潮流。初步实现人机交互的智能助手系统,已经被应用于智能客服、聊天机器人、家用机器人、微信管理平台、车载系统、智能家居系统、智能手机助理等多个软硬件领域。
垂直类网站及社交平台可以借助智能助手系统打造高专业度的“在线专家”以提升平台价值;企业可以借助以“语义识别”为基础的智能助手系统,打造智能客服,效率远高于传统的以“关键词对应”为技术支持的客服系统。
推荐引擎,是主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。传统推荐引擎通常利用用户在平台上的历史记录进行推荐,效率低、匹配度不高。目前随着大数据和深度学习技术的推进,推荐引擎及协同过滤可以分析更多的数据,乃至全网数据,并模拟用户的需求,真正达到按需推荐。全球最大的正版流媒体音乐服务平台Spotify也利用卷积神经网络参与建设其音乐推荐引擎;谷歌也提出利用深度学习方法来学习标签进行推荐建设。出品纸牌屋的全球最大在线影片租赁公司Netflix 也利用深度学习网络分析客户消费的大数据,还计划构建一个在AWS云上的以GPU为基础的神经网络。
“餐厅推荐引擎”Nara,便是一个利用AI技术的推荐引擎。在上线之初,Nara 就取得了400万美元的投资。Nara 的数据库中有超过100000家餐厅的信息,并利用特有的“Nara神经网络”,学习使用者的偏好,最终达到“电脑帮你点餐”的目的。
而今年3月22日,国内AI领军企业阿里巴巴旗下的阿里云数加启动“个性化推荐”引擎对外公测,该引擎用于帮助创业者可以快速获得媲美淘宝天猫的个性化服务能力。阿里云数加上的推荐引擎能够以更低的成本完成开发,节省程序量达到90%,推荐引擎的搭建时间将由几个月缩短到几天。
对于不了解算法的人,只能实现标签规则类的推荐,但如果要做成机械化、类似协同过滤的算法,创业公司需要配置大量的算法工程师,人力成本很高。现在用了数加的推荐引擎,商家只需要做数据的ETL加工,推荐的结果集、训练集都不用处理,只需要调整参加即可得到推荐结果。
AI带给人们新的视觉???
医疗:为健康诊断和药品研发插上高飞的翅膀
健康诊断有望迎来新纪元,海量的病历数据和医学界的新研究成果,单靠人工很难及时筛选并利用,而引入人工智能技术将充分发挥这些信息的价值。例如著名的个人健康管理产品公司Welltok将 IBM的Watson功能融入旗下产品 CafeWell Concierge APP中,借助 Watson 的认知计算能力理解人类语言,实现与用户沟通的能力,从大量数据中进行分析并为用户提供健康管理相关的答案和建议,实现健康管理、慢病恢复训练、健康食谱等功能,这一领域的良好前景使 Wellltok公司近年的融资额连创新高。另外,2015年IBM斥资10亿美元收购医疗影像与临床系统提供商Merge,将研究如何实现 Watson的“辨读”医学影像功能。此外,AI 还可以从医疗中心获得的健康数据,通过大数据分析,实现根据分析患者行为来制定个性化治疗方案的功能。
智能家居:天花板尚远,AI有望成为核心
行业天花板尚远,增速有望保持在 50%左右, 《钢铁侠》中的“Jarvis”作为智能管家,除了起到钢铁侠的小秘书的作用,还帮主人打理着日常生活,向我们展示了一个理想中的智能家居系统。虽然我们目前可能离那个无所不能的智能管家还很遥远,但智能家居对我们生活的变革确实已经开始了。根据《2012-2020 年中国智能家居市场发展趋势及投资机会分析报告》的预测,我国智能家居市场在 2016年将达到605.7亿的规模,同比增长50.15%,到2020年市场规模将达到3294亿,年均增速将保持在50%左右,具备充足的向上延伸空间。而智能家居想达到“Jarvis”般的终极效果,必然需要引入AI技术,实现家居的感应式控制甚至自我学习能力。
AI有望成为智能家居的核心,实现家居自我学习与控制。按照智能家居的发展进度,大致可以分为四个阶段:手机控制、多控制结合、感应式控制、系统自我学习。当前的发展水平还处在手机控制向多控制结合的过度阶段。而从多控制结合向感应式控制甚至自我学习阶段进化时,AI将发挥主要功能。到今天为止,家居的实体功能已经较为全面,未来的发展重点可能在于如何使之升级改造,实现家居的自我行为及协作,因此未来AI在智能家居领域的应用有望成为其核心价值。AI对智能家居的重构可以深入到方方面面,包括:控制主机、照明系统、影音系统、环境监控、防盗监控、门窗控制、能源管理、空调系统、花草浇灌、宠物看管等等。
无人驾驶:政策渐萌芽,AI决定可靠性
优点多、动机足、政策渐萌芽。据麦肯锡的调查显示,如果能解放驾驶员的双手,一辆无人驾驶汽车内的乘客通过移动互联网使用数字媒体服务的时间多一分钟,每年全球数字媒体业务产生的利润将增加 50亿欧元。此外,由于自动泊车无须为乘客下车预留开门空间,使得停车位空间可缩减至少15%。
如果无人驾驶汽车以及ADAS系统能够将事故发生率降低90%,即可挽回全美每年的损失约1千900亿美金。可以说诸多的优点使得无人驾驶技术的研发动机还是相当充分的,因此未来无人驾驶推行的力度应该还会保持在一个比较高的水平。美国勒克斯研究公司曾预计无人驾驶汽车的市场规模在2030年将达到870亿美元。
到目前为止,各国政府对于无人驾驶技术在政策上的支持正逐步放开,美国政府在年初刚刚宣布了40亿美元的资助计划;英国目前已经不需要获得额外批准和履约保证即可进行实际道路的无人驾驶汽车测试;而德国也在去年宣布将计划设立无人驾驶汽车测试路段,供安装有驾驶辅助系统或全自动驾驶系统车辆行驶;欧盟总部正在就如何修改现行有关驾驶的法律法规从而支持自动驾驶的发展展开讨论和研究工作;日本也提出要在2020年之前实现自动驾驶汽车方面的立法,并将自动驾驶作为 2016年9月七国集团交通部长会议的议题。
“无人汽车大脑”AI的智能程度决定了无人驾驶的可靠性。由于无人驾驶完全交由汽车的内置程序负责,因此AI就是无人汽车的大脑,而测距仪、雷达、传感器、GPS等。设备都是AI的“眼睛”。AI的智能程度直接决定了无人驾驶汽车在不同的路况、不同的天气、甚至一些探测设备出现故障的突况下能否及时做出正确的判断并灵活调整行驶策略,最终决定了无人驾驶汽车当前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大会上了“Drive PX 2”车载计算机,以及一套与之搭配的具有学习功能的自动驾驶系统。该系统的亮点在于“自我学习”,通过让车辆自行分析路面状况,而不是在数据库中寻找预先储存的策略实现自动驾驶,系统背后连接着名为NVIDIA DIGITS的深度学习训练平台,最终连接到NVIDIA DRIVENET神经网络,为车辆的自我学习和完善提供支持。并且由于它是通过判断物体的行进轨迹而不是物体本身去计算路径,因此在驾驶时受天气影响较小。
AI 成必争之地
目前全球AI主战场依旧在欧美。Venture Scanner的统计显示,根据从事 AI相关业务的公司数量来看,目前全球 AI的主战场还是集中在北美和西欧地区。美国数量最多,达到450家左右的水平。而中国从事相关业务的公司数量还比较少,和俄罗斯、澳洲、部分欧洲国家及非洲南部国家水平接近,相比起欧美国家的AI公司数量,还有很大的提高空间。
Google:投资未来的人工智能帝国
建立Alphabet帝国,具备品牌背书效应。2015年,谷歌成立母公司 Alphabet, 搜索、广告、地图、App、Youtube、安卓以及与之相关的技术基础部门”仍属于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都将独立出来,成为 Alphabet 旗下的独立公司。通过建立 Alphabet集团,谷歌将不同业务的研发独立出来,以子公司的形式进行业务开展,保留在Google这个品牌下的基本都是原有的传统强势业务。
而其它公司负责在各自的领域“打头阵”,一旦业务研发成功,母公司连带着google这个品牌都可以受益,而如果研发失败,也不会公司的品牌造成多大的不良影响,建立了良好的品牌背书效应。将机器学习技术应用到所有产品之中,我们不难发现,谷歌近年几乎将人工智能渗透到了旗下的各类产品中,可谓是全线铺开。正应了谷歌 CEO的那句话:“我们将小心谨慎地将机器学习技术应用到我们所有的产品之中。”根据当前Alphabet 的集团架构,我们将涉及到AI应用的子公司情况以及相应的业务开展情况罗列如下:
Nest:从事智能家居生态系统建设。2014 年谷歌以32亿美元收购 Nest。Nest 生产智能恒温器,它能够学习用户的行为习惯,并且根据他们的喜好去调节温度。同时,Nest 也提供火警探测器和家庭安全摄像头等智能家居。
Google X:谷歌各类创新技术的“孵化池”。Google X开展的与AI有关的项目有:无人驾驶汽车、Project Wing 无人机送货项目、对抗帕金森氏症的 Liftware“反抖”汤匙、用于疾病预警和健康监控的可穿戴设备、Project Titan 太阳能无人机项目、以及 Replicant 团队负责的机器人项目等。
Verily:从事生命科学业务,即原来的 Google Life Science。代表产品有可以收集佩戴者体温和血液酒精含量等生物数据的智能隐形眼镜,以及监控血液中纳米粒子的智能腕表。
DeepMind:深度学习算法公司。2014年谷歌以4亿美元收购了DeepMind。
篇10
关键词:深度学习;目标视觉检测;应用分析
随着计算机的普及,目标视觉检测也在计算机的发展中逐渐被应用。人们的生活越来越离不开计算机和电子设备,数据信息充斥着当代人的生活。随着人们生活质量的提高对电子设备要求越来越高,越来越精准。目标检测技术在人们的生活中,也发挥着很大的作用和价值。智能监控、机器人、自动定位、人脸聚焦、航拍、卫星等方面都应用了目标视觉检测的技术。在高层视觉处理和任务分析中,目标视觉检测技术也是基础。无论是分析行为、事件还是场景语义的理解都需要运用到目标视觉检测技术。因此目标视觉检测在各个方面都发挥着重大的作用,本文就深度学习在目标视觉检测中的应用和展望进行探讨。
一、深度学习在目标视觉检测中的进展
深度学习最早出自于人工神经网络。深度学习把多层感知器作为学习结构,组合底层特征进行高层的学习。作为机器研究的一个新领域,模仿人脑组建学习的神经网络。深度学习可以逐步自主的学习。而目标视觉检测在近几年出现了很多的问题,例如,类内和类间存在差异。即使通过训练也很难包含所有类内的特征描述模型。而且类内和类间的差异大小不一样这就给目标视觉检测的发展带来很大的阻碍。在图像采集的过程中,由于种种因素会导致目标物体被遮挡,因此,视觉算法的鲁棒性也需要进行整改。语义理解也存在着差异,对仿生和类脑角算法有一定的难度。而计算机的复杂和自适应性也比较高,需要设计高效的目标视觉检测技术,为了确保目标视觉检测的精准程度,还需要设计出自动更新视觉模型来提高模型在不同环境下的适应能力。随着深度学习的发展,深度学习对于目标视觉检测有很大的用处,可以极大地解决目前目标视觉检测技术出现的问题。因此很多专家开始把深度学习融入到目标视觉检测的发展当中,并进行研究。
二、目标视觉检测的流程和顺序
估计特定类型目标是目标视觉检测的关键,目标视觉检测的流程大致分为三步,区域建议、特征表示和区域分类。根据图一,第一步区域建议。目标检测需要获得目标的准确位置和大小尺度,在输入图像的时候找到指定的类型目标是其中一种区域建议。还可以通过滑动窗进行区域建议,投票、图像分割的区域建议也可以使用。滑动窗需要在输入图像的时候在子窗口执行目标来检测目标所处的位置。投票机制则通过部件的模型找到输入图像和模型在局部区域内的最佳位置,并最大限度地让所有局部区域匹配,利用拓扑的方式来得到最佳匹配。但是投票机制的区域建议计算代价会比较高。图像分割的区域建议则建立在图像分割的基础上面,是一个消耗时间和精力的过程,而且很复杂很难把整个目标分割出来。而深度学习在图像分类和目标检测中都有一定得进展,通过深度学习的表征和建模能力可以生成抽象的表示[1]。
图一,目标视觉检测流程
三、深度学习在目标视觉检测当中的作用
深度学习融入目标视觉检测推动了目标视觉检测的发展和研究。目标视觉检测和图像分类有一定的区分,目标视觉检测主要关注图像的局部信息,图像分类在意图像的全局表达。但是它们也有一定的互通性。首先从区域建议的方法来探讨深度学习在目标视觉检测中的作用。深度学习在目标视觉检测中的基本参考方法是Girshick等人提出来的R-CNN方法。R-CNN和CNN相联系,检测的精准度达到了53.3%,对比传统的方法有很大的飞跃。如图二所示,输入相关图像的同时进行选择性的搜索提取候选区,通过CNN网络来提取固定长度的向量,图像经过两个全连接层和五个积卷层得出一个4096的向量,最后把提取到的向量数据在向量机中进行分配。但是这样的方式还是存在很多的不足和弊端,因此Girshick对R-CNN和SPP-net进行了进一步的改进,图像进行一次卷积在特征图上进行映射送入Rol池化层,最后通过全连接层输出。同一幅画像的Rol共同相同计算机的内存效率更加高。通过softmax 的分类不仅省去特征的存储还提高了利用率。近年来,kin等人又提出了PVANET网络,数据的检测精准度达到了82.5%,在确保精准度的情况下还能使通道数减少,可以增加对细节的提取。
图二,R-NN的计算流程
早期还提出过无区域建议的方式,例如,DPM模型可以在目标的内部进行结构化的建模,不仅提高了检测的性能,也能很好地适应非刚体的形变。但是DPM模型的构建条件复杂,模型训练也比较繁琐,所以sermanet又进行研究提出了Overfeat的模型,避免图像块的操作出错,也能提高算法的效率。但是关于尺寸的识别还是存在着一定的问题,因此无区域建议还在不断的探索过程中。redmom提出了关于改进yolo模型的方法,成为yolov2,可以确保精准度和定位,提升了检测率。专家们还研制出一种新的训练算法,用数据来找到物体的准确定位,yolo模型通过这样的方式课题检测超过九千种物体[2]。
四、结束语
未来深度学习在目标视觉检测中都会得到继续的应用和进展,深度学习在目标视觉测试中依旧是主流的方向。深度学习通过它的优势可以获得高层次抽象的表达。但是深度学习的理论还不是特别的完善,模型的可解释性还不够强。因此深度学习模式还需要得到进一步的改进和完善,对模型的结构,训练等多加指导。大规模多样性数据集也比较匮乏,现在很多的目标视觉检测都在imagenet上进行训练,但是目标检测技术还需要进一步的完善和提高,达到最好的效果。深度学习在目标视觉检测技术中的应用还不够完善,任重而道远,还需要进一步的完善理论提高精准度。在未来,深度学习和目标视觉检测一定能够得到极大的进展。
参考文献
免责声明
公务员之家所有资料均来源于本站老师原创写作和网友上传,仅供会员学习和参考。本站非任何杂志的官方网站,直投稿件和出版请联系杂志社。