卷积神经网络的发展范文

时间:2024-04-02 18:03:34

导语:如何才能写好一篇卷积神经网络的发展,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

卷积神经网络的发展

篇1

关键词:深度学习;机器学习;卷积神经网络

1概述

深度学习(Deep Learning)是人工智能、图像建模、模式识别、神经网络、最优化理论和信号处理等领域的交叉学科,主要构建和模拟人脑进行分析学习,它属于机器学习的新兴领域。

2大数据与深度学习

目前,光学检测、互联网、用户数据、互联网、金融公司等许多领域都出现了海量数据,采用BP算法对于训练神经网络出现了梯度越来越稀疏、收敛到局部最小值只能用有标签的数据来训练等缺点。Hinton于2006年提出了深度学习的概念,Lecun等人提出了卷积神经网络,卷积神经网络利用空间关系减少参数数目以提高训练性能。

CPU和GPU计算能力大幅提升,为深度学习提供了硬件平台和技术手段,在海量大数据处理技术上解决了早期神经网络训练不足出现的过拟合、泛化能力差等问题。

大数据和深度学习必将互相支撑,推动科技发展

3深度学习模型

深度学习模型实际上是一个包含多个隐藏层的神经网络,目前主要有卷积神经网络,深深度置信神经网络,循环神经网络。

1)卷积神经网络

在机器学习领域,卷积神经网络属于前馈神经网络的一种,神经元不再是全连接的模式,而是应用了局部感受区域的策略。然而传统的神经网络使用神经元间全连接的网络结构来处理图像任务,因此,出现了很多缺陷,导致模型⑹急剧增加,及其容易过拟合。

在卷积神经网络中,网络中的神经元只与前一层的部分神经元连接,利用图像数据的空间结构,邻近像素间具有更强的相关性,单个神经元仅对局部信息进行响应,相邻神经元感受区域存在重叠,因此,综合所有神经元可以得到全局信息的感知。

另外,一个卷积层中的所有神经元均由同一个卷积核对不同区域数据响应而得到,即共享同一个卷积核,使得卷积层训练参数的数量急剧减少,提高了网络的泛化能力。

一般在卷积层后面会进行降采样操作,对卷积层提取的特征进行聚合统计。降采样区域一般不存在重叠现象。降采样简化了卷积层的输出信息,进一步减少了训练参数的数量,增强了网络的泛化能力。

卷积神经网络实现了局部特征的自动提取,使得特征提取与模式分类同步进行,适用于处理高分辨率的图像数据。目前,卷积神经网络在图像分类、自然语言处理等领域得到广泛应用。

2)深度置信网络

深度置信网络是一种生成模型,网络中有若干隐藏层,同一隐藏层内的神经元没有连接,隐藏层间的神经元全连接。神经网络经过“反向运行”得到输入数据。

深度置信网络可以用做生成模型,通过前期的逐层无监督学习,神经网络可以较好的对输入数据进行描述,然后把训练好的神经网络看作深度神经网络,最后得到分类任务的深度神经网络。

深度置信网络可以用于图像识别、图像生成等领域,深度置信网络可以进行无监督或半监督的学习,利用无标记数据进行预训练,提高神经网络性能。但近几年由于卷积神经网络的飞速发展,深度置信网络已经很少被提及。

3)循环神经网络

循环神经网络是一种专门用于处理时序数据的神经网络,它与典型的前馈型神经网络最大区别在于网络中存在环形结构,隐藏层内部的神经元是互相连接的,可以存储网络的内部状态,其中包含序列输入的历史信息,实现了对时序动态行为的描述。这里的时序并非仅仅指代时间概念上的顺序,也可以理解为序列化数据间的相对位置。如语音中的发音顺序,某个英语单词的拼写顺序等。序列化输入的任务都可以用循环神经网络来处理。如语音、视频、文本等。对于序列化数据,每次处理时输入为序列中的一个元素,比如单个字符、单词、音节,期望输出为该输入在序列数据中的后续元素。循环神经网络可以处理任意长度的序列化数据。

循环神经网络可以用于机器翻译、连写字识别、语音识别等。循环神经网络和卷积网络结合,将卷积神经网络用于检测并识别图像中的物体,循环神经网络用于识别出物体的名称为输入,生成合理的语句,从而实现对图像内容的描述。

4深度学习应用

1)语音识别

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。其应用领域主要有语音输入系统、语音控制系统和智能对话查询系统,语音识别极大地推动了人工智能的快速发展。1952年Davis等人研究了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在20世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。2012年,微软研究院使用深度神经网络应用在语音识别上将识别错误率降低了20%,取得了突破性的进展。2015年11月17日,浪潮集团联合全球可编程芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同了一套DNN语音识别方案。

2)图像分析

图像是深度学习最早尝试的应用领域。1989年,LeCun和他的同事们就发表了卷积神经网络的工作。2012年10月,Hinton和他的两个学生用更深的CNN在ImageNet挑战上获得了第一名,使图像识别向前跃进了一大步。

自2012年以来,深度学习应用于图像识别使得准确率大大上升,避免了消耗人工特征抽取的时间,极大地提升了效率,目前逐渐成为主流的图像识别与检测方法。

篇2

关键词:机器学习;深度学习;推荐算法;远程教育

深度学习(DeepLearning),也叫阶层学习,是机器学习领域研究的分支,它是学习样本数据的表示层次和内在规律,在学习的过程中获取某些信息,对于数据的解释有巨大帮助。比如对文字数据的学习,在网络上获取关键字,对图像数据的学习,进行人脸识别等等。

一、深度学习发展概述

深度学习是机器学习领域里一种对数据进行表征学习的方法。一句话总结三者之间的关系就是:“机器学习,实现人工智能的方法;深度学习,实现机器学习的技术。深度学习目前是机器学习和人工智能领域研究的主要方向,为计算机图形学、计算机视觉等领域带来了革命性的进步。机器学习最早在1980年被提出,1984年分类与回归树出现,直到1986年,Rumelhart等人反向传播(BackPropaga-tion,BP)算法的提出,解决了感知模型只能处理线性分类的问题,1989年出现的卷积神经网络(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的发展。在1990年至2012年,机器学习逐渐成熟并施以应用,GeoffreyHinton在2006年设计出了深度信念网络,解决了反向传播算法神经网络中梯度消失的问题,正式提出了深度学习的概念,逐渐走向深度学习飞速发展的时期。随后,各种具有独特神经处理单元和复杂层次结构的神经网络不断涌现,深度学习技术不断提高人工智能领域应用方面的极限。

二、深度学习主要模型

1、卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是指有着深度结构又包含着卷积计算的前馈神经网络。卷积物理上理解为系统某一时刻的输出是有多个输入共同叠加的结果,就是相当于对一个原图像的二次转化,提取特点的过程。卷积神经网络实际上就是一个不断提取特征,进行特征选择,然后进行分类的过程,卷积在CNN里,首先对原始图像进行特征提取。所以卷积神经网络能够得到数据的特征,在模式识别、图像处理等方面应用广泛。一个卷积神经网络主要由三层组成,即卷积层(convolutionlayer)、池化层(poolinglayer)、全连接层(fullyconnectedlayer)。卷积层是卷积神经网络的核心部分,通过一系列对图像像素值进行的卷积运算,得到图像的特征信息,同时不断地加深节点矩阵的深度,从而获得图像的深层特征;池化层的本质是对特征图像进行采样,除去冗杂信息,增加运算效率,不改变特征矩阵的深度;全连接将层间所有神经元两两连接在一起,对之前两层的数据进行分类处理。CNN的训练过程是有监督的,各种参数在训练的过程中不断优化,直到得到最好的结果。目前,卷积神经网络的改进模型也被广泛研究,如全卷积神经网络(FullyConvolutionalNeuralNetworks,FCN)和深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循环神经网络区别于卷积神经网络在图片处理领域的应用,循环神经网络(RecurrentNeuralNetwork,RNN)主要应用在自然语言处理领域。RNN最大的特点就是神经元的输出可以继续作为输入,再次利用到神经元中循环使用。RNN是以序列的方式对数据进行读取,这也是RNN最为独特的特征。RNN的串联式结构适用于时间序列的数据,可以完好保持数据中的依赖关系。循环神经网络主要有三层结构,输入层,隐藏层和输出层。隐藏层的作用是对输入层传递进来的数据进行一系列的运算,并将结果传递给输出层进行输出。RNN可用于许多不同的地方。下面是RNN应用最多的领域:1.语言建模和文本生成,给出一个词语序列,试着预测下一个词语的可能性。这在翻译任务中是很有用的,因为最有可能的句子将是可能性最高的单词组成的句子;2.语音识别;3.生成图像描述,RNN一个非常广泛的应用是理解图像中发生了什么,从而做出合理的描述。这是CNN和RNN相结合的作用。CNN做图像分割,RNN用分割后的数据重建描述。这种应用虽然基本,但可能性是无穷的;4.视频标记,可以通过一帧一帧地标记视频进行视频搜索。3、深度神经网络深度神经网络(deepneuralnetworks,DNN)可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(Mul-ti-Layerperceptron,MLP)。DNN内部的神经网络层也是分为三类,输入层,隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。深度神经网络(DNN)目前作为许多人工智能应用的基础,并且在语音识别和图像识别上有突破性应用。DNN的发展也非常迅猛,被应用到工业自动驾驶汽车、医疗癌症检测等领域。在这许多领域中,深度神经网络技术能够超越人类的准确率,但同时也存在着计算复杂度高的问题。因此,那些能够解决深度神经网络表现准确度或不会增加硬件成本高效处理的同时,又能提升效率和吞吐量的技术是现在人工智能领域能够广泛应用DNN技术的关键。

三、深度学习在教育领域的影响

1、学生学习方面通过网上学习的实时反馈数据对学生的学习模式进行研究,并修正现有教学模式存在的不足。分析网络大数据,相对于传统在线学习本质区别在于捕捉学生学习过程,有针对性,实现学生个性化学习。举个例子,在学习过程中,可以通过学习平台对学生学习课程所花费的时间,参与的程度,知识的偏好等等数据加以分析。也可以通过学生学习某门课程的次数,鼠标点击次数、停留的时间等,来推断学生学习情况。通过以上或类似数据汇总分析,可以正向引导学生学习,并给予积极的学习评价。这种利用计算机收集分析出来的客观数据,很好展示了学生学习行为的结果,总结学习规律,而不需要教师多年的教学经验来判断。对于教育研究者而言,利用深度学习技术可以更客观准确地了解学生,使教学工作良好发展更进一步。2、教学方面学习平台的数据能够对教学模式的适应度进行预测,通过学生的考试成绩和对教师的线上评价等加以分析,能够预测出某一阶段的教学方式发发是否可行,影响如何。通过学生与教师的在线互动,学生测验时完成的时间与完成的结果,都会产生大量的有效的数据,都可以为教师教学支持服务的更好开展提供帮助,从而避免低效率的教学模式造成教学资源的浪费。

四、成人远程教育中深度学习技术的可应用性

深度学习方面的应用在众多领域都取得了成功,比如电商商品推荐、图像识别、自然语言处理、棋类博弈等等。在远程教育方面,深度学习的技术还有很大的发挥空间,智能网络教育的实现是人们的众望所盼。若要将深度学习技术应用到远程教育平台,首先要清楚学生的需求和教学资源如何分配。1、针对学生的学习需求与学习特征进行分析美国斯坦福大学克里斯皮希研究团队的研究成果显示,通过对学生知识学习进行时间建模,可以精确预测出学生对知识点的掌握情况,以及学生在下一次学习中的表现。深度学习的应用可以帮助教师推测出学生的学习能力发展水平。通过学生与教学环境的交互行为,分析其学习风格,避免教师用经验进行推断而产生的误差。2、教学资源的利用与分配深度学习技术能够形成智能的分析结论。计算机实时采集数据集,对学生的学习情况加以分析,使教师对学生的学习状态、情绪状态等有更加清晰、准确的了解。有了上面良好的教学模式,教师对学生的学习状态有了更准确的掌握,对学生的学习结果就有了更科学的教学评价。基于深度学习的人工智能技术,还可以辅助教师实现智能阅卷,通过智能阅卷自动总结出学习中出现的问题,帮助教师减少重复性劳动,减轻教师负担。作为成人高校,远程教育是我们的主要教学手段,也是核心教学方式,学校的教学必定是在学生方便学习的同时,以学生的学习效果为重。通过深度学习技术,可以科学地分析出学生的学习效果,对后续教与学给予科学、可靠的数据支撑。我们可以在平台上为每位同学建立学习模型,根据学生的学习习惯为其定制个性化方案,按他们的兴趣进行培养,发挥他们专业的潜能。同时,可以将学生正式在线参加学习和考试的学习行为和非学习时间浏览网站的行为结合到一起,更加科学地分析出学生在学习网站上感兴趣的地方。采用深度学习算法,根据学生学习行为产生的海量数据推算出学生当前状态与目标状态之间的差距,做到精准及时的学习需求反馈。有助于帮助学生明确学习目标,教师确立教学目标,真正做好因材施教。基于深度学习各种智能识别技术,可以为教师的线上教学活动增光添彩,在反馈学生学习状态的同时,采用多种形式的教学方法吸引学生的注意力,增强教学活动的互动性,达到良好的教学效果。

篇3

关键词:卷积神经网络;语言模型;分析

1 卷积神经网络语言模型

CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。

然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。

最后,将得到的高级特征输入softmax分类层进行分类操作。在softmax层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及softmax函数的权重向量。

2 卷积神经网络语言模型应用分析

CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。

2.1 CNN在文本分类中的应用分析

kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。

2.2 CNN在关系挖掘中的应用分析

Shen等人提出了一种新的潜在语义模型,以词序列作为输入,利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。

2.3 CNN在个性化推荐中的应用分析

Weston等人提出了一种能够利用标签(hashtag)有监督的学习网络帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。

其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。

3 结束语

卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。

篇4

【关键词】图像识别;数学建模;分类算法;深度学习

引言

随着微电子技术及计算机技术的蓬勃发展,图像识别应运而生,图像识别是研究用计算机代替人们自动地去处理大量的物理信息,从而代替人的脑力劳动。随着计算机处理能力的不断强大,图像识别从最早的文字识别、数字识别逐渐发展到人脸识别、物体识别、场景识别、精细目标识别等,所采用的技术也从最早的模板匹配、线性分类到广泛使用的深层神经网络与支持向量机分类等方法。

1.图像识别中的数学问题建模

1.1飞行器降落图像智能识别建模

在复杂地形环境下,飞行器进行下降过程,需要采集图像并且判断是否符合降落要求。在对飞行器进行最终落地点的选择时,如果降落点复杂程度较高,采集的图像中将会产生大量的训练样本数目,图像配准过程中,极大地增加了运算量,造成最佳降落点选择的准确率降低。提出了利用图像智能识别进行最佳降落点的建模。利用伪Zemike矩能够对降落点的图像形状进行准确的描述,利用Procrustes形状分析法提取最佳降落点的特征,利用Rank的融合决策法最终实现最佳降落点选择的目的。

1.2人脸面部表情图像识别的隐马尔科夫建模

人有喜怒哀乐,目前有一种利用隐马尔科夫模型的建模方法,可以实现对人脸表情中的情感进行识别。具体的是:首先,采用子窗口对人脸面部表情图像进行采样,然后利用离散余弦变换提取所需要的特征向量,通过对人脸面部图像进行隐马尔科夫建模,使用获得的特征向量作为观测向量对人脸面部图像的隐马尔科夫模型进行训练,再使用训练后的隐马尔科夫模型对JAFFE人脸图像测试集中地人脸表情图像进行情感识别。

2.典型的图像识别算法

2.1 基于Gabor变换和极限学习机的贝类图像种类识别

对贝类图像进行Gabor变换,提取其图像特征,确定了图像特征维数;采用2DPCA方法,对变换后的特征进行降维,并利用极限学习机(ELM)进行贝类图像的分类识别。与BP神经网络和支持向量机(SVM)实验对比发现,极限学习机分类器用于贝类识别不仅速度极快而且泛化性良好,算法具有较高的精度。其特点对高维图像识别精确度高,但算法的复杂度和设计一个精确的分类器都显得难以把握。因此该类图像识别算法很难普遍推广使用,识别对象必须是贝类图像。

2.2 利用公开的全极化SAR数据,研究基于SAR图像的检测、极化分解和识别算法

首先根据四个线极化通道合成伪彩色图像,从而对场景进行初步认知。利用一维距离像分析全极化各通道的信噪比强度,通过对目标进行Pauli分解得到目标的奇次散射分量和偶次散射分量,从而完成对海杂波、建筑物和舰船的相干分量的研究。其特点过程简单易掌握,但识别对象有限。

2.3 基于SVM的离线图像目标分类算法

基于SVM的离线图像目标分类算法,先对训练集预处理,然后将处理后的图像进行梯度直方图提取最后对图像目标的分离器进行检测,但是这种图像识别算法只是有效,实用性不强。

3.深度学习在图像识别的应用

3.1 Deep learning的原理

深度学习是一种模拟人脑的思考方式,通过建立类似人脑的神经网络,实现对数据的分析,即按照人类的思维做出先关解释,形成方便人们理解的图像、文字或者声音。深度学习的重点是对模型的运用,模型中需要的参数是通过对大量数据的学习和分析中得到的。

深度学习有两种类型:有监督学习和无监督学习。学习模型根据学习框架的类型来确定。比如,卷积神经网络就是一种深度的监督学习下的机器学习模型,而深度置信网就是一种无监督学习下的机器学习模型。

3.2 深度学习的典型应用

深度学习是如今计算机领域中的一个夺人眼球的技术。而在深度学习的模型中研究热度最高的是卷积神经网络,它是一种能够实现大量图像识别任务的技术。卷积神经网络的核心思想是局部感受野、权值共享以及时间或空间亚采集。通常卷及神经网络使用最后一层全连接隐层的值作为对输入样本所提出的特征,通过外部数据进行的有监督学习,从而可以保证所得的特征具有较好的对类内变化的不变性。

3.2.1基于深度学习特征的人脸识别方法。

卷积神经网络在人脸识别领域取得了较大突破,为了更加有效的解决复杂类内变化条件下的小样本人脸识别问题,使用深度学习的方法来提取特征,与基于稀疏表示的方法结合起来,实验证明了深度学习所得的人脸特征具有很好的子空间特性,而且具有可迁移性以及对类内变化的不变性。

3.2.2基于深度学习的盲文识别方法。

目前盲文识别系统存在识别率不高、图片预处理较为复杂等问题。针对这些问题,利用深度模型堆叠去噪编码器自动、全面学习样本深层次特征,避免人为手工选取特征存在的多种弊端,并用学习的特征作为神经网络的输入,更大程度地避免了传统神经网络由于随机选取初值而导致结果陷入局部极值的问题。

3.2.3基于深度学习的手绘草图识别。

目前的手绘草图识别方法存在费时费力,较依赖于手工特征提取等问题。基于深度学习的手绘草图识别方法根据手绘草图时缺失颜色、纹理信息等特点,使用大尺寸的首层卷积核获得更多的空间结构信息,利用训练浅层模型获得的模型参数来初始化深度模型对应层的模型参数,以加快收敛,减少训练时长,加入不改变特征大小的卷基层来加深网络深度等方法实现减小错误率。

4.结论

图像识别是当代人工智能的热门研究方向,其应用领域也是超乎人类想象的,相信通过技术的不断创新,图像识别技术会给人们的生活带来智能化、个性化、全面化的服务。

参考文献:

[1]穆静,陈芳,王长元.人脸面部表情图像的隐马尔科夫建模及情感识别[J].西安:西安工业大学学报,2015(09).

[2]杨靖尧,里红杰,陶学恒.基于Gabor变换和极限学习机的贝类图像种类识别[J].大连工业大学学报,2013(04).

[3]马晓,张番栋,封举富.基于深度学习特征的稀疏表示的人脸识别方法[J].智能系统学报,2016(11).

篇5

关键词:人机大战;人工智能;发展前景

中图分类号:TP391 文献标识码:A

0.引言

2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。

这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:

(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。

(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。

简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。

1.人工智能的发展历程

AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。

孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。

形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。

暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。

知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。

集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。

人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。

2.人工智能l展现状与前景

人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。

自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。

自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。

当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。

机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。

机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。

无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。

机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。

人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。

在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。

3.人工智能的发展前景

总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。

人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。

人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。

参考文献

[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.

篇6

关键词:人脸识别技术;病毒管控;人工智能;神经网络

互联网在今天的社会中发挥着举足轻重的作用。如今社会,随着许多人工智能技术、网络技术、云计算等互联网技术不断发展,像人脸识别等技术的应用越来越广泛,在控制病毒传播途径等场合发挥了巨大作用,不断地提高着社会的安全性和便利性,不仅提高了防控中病毒检测效率,也为病毒的控制提供了可靠的技术方法,能够及时发现和控制公共场所的安全隐患因素,避免对社会经济、居民生活造成破坏,。但目前的人脸识别等技术还存在许多缺陷,需要完善和革新,充满着巨大的潜力和进步空间。

1人脸识别技术研究意义

人脸识别技术是一种生物特征识别技术,最早产生于上世纪60年代,基于生理学、图像处理、人机交互及认知学等方面的一种识别技术。相比于其他人类特征像指纹识别、声纹识别、虹膜识别等技术,人脸识别虽然存在人脸识别单一性低,且区分度难度高、易受环境影响等不足。但是人脸识别技术拥有速度快、大范围群体识别及非接触、远距离可识别等优势,都是其他生物识别识别技术所不具备的,而在传播性强、感染风险大的病毒传播过程中,这些显然是必须要考虑的重要影响因素。通过将人脸识别等人工智能技术引入信息管理系统,综合集成视频监控、图像处理、深度学习和大数据等技术,结合非接触测温、定位等技术,助力病情防控,在一定程度上推动病毒病情防控信息化、智能化发展进程。可作为加强公共场所的人员的体温实时监测、地址信息定位的监控管理,规范公共场所针对病毒传播的预防行为。

2人脸识别技术

2.1人脸检测技术

人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象(如无背景的图象),往往假设人脸位置静止或者容易获取。人脸检测分为前深度学习时期,AdaBoost框架时期以及深度学习时期。前深度学习时期,人们将传统的计算机视觉算法运用于人脸检测,使用了模板匹配技术,依赖于人工提取特征,然后用这些人工特征训练一个检测器;后来技术发展,在2001年Viola和Jones设计了一种人脸检测算法,它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器,检测速度较之前的方法有2个数量级的提高,并且保持了很好的精度,称这种方法为VJ框架。VJ框架是人脸检测历史上第一个最具有里程碑意义的一个成果,奠定了基于AdaBoost目标检测框架的基础,使用级联AdaBoost分类器进行目标检测的思想是:用多个AdaBoost分类器合作实现对候选框的分类,这些分类器组成一个流水线,对滑动窗口中的候选框图像进行判定,确定检测目标是人脸还是非人脸。Adaboost框架技术的精髓在于用简单的强分类器在初期快速排除掉大量的非人脸窗口,同时保证高的召回率,使得最终能通过所有级强分类器的样本数数量较少。在深度学习时期,开始将卷积神经网络应用于人脸检测领域。研究方向有两种:一是将适用于多任务的目标检测网络应用于人脸检测中;另一种是研究特定的的人脸检测网络。人脸检测技术具有特殊唯一性和稳定性,在现今社会对于构建居民身份识别系统,病毒传播防控系统,以及计算机视觉交互模型的构建具有广泛的应用。人脸检测技术不仅作为人脸识别的首要步骤,也在许多其他领域发挥巨大影响,如人脸关键点提取、人脸追踪、基于内容的检索、数字视频处理、视频检测、安防监控、人证比对、社交等领域都有重要的应用价值。数码相机、手机等移动端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能,各种虚拟美颜相机也需要人脸检测技术定位人脸。评价一个人脸检测算法好坏的指标是检测率和误报率,我们定义检测率为:算法要求在检测率和误报率之间尽量平衡,理想的情况是达到高检测率,低误报率。

2.2人脸识别技术

目前主要流行的人脸识别技术包括几何特征识别,模型识别,特征脸识别和基于深度学习/神经网络的的人脸识别技术等。人脸特征识别主要通过对人脸面部结构特征如眼睛、鼻子等五官几何特点及其相对位置分布等,生成图像,并计算各个面部特征之间的欧式距离、分布、大小等关系该方法比较简单,反应速度快,并且具有鲁棒性强等优点,但是在实际环境下使用容易受检测的环境的变化、人脸部表情变化等影响,精度通常不高,细节处理上不够完善。模型识别技术主要包括隐马尔可夫模型、主动表象模型、主动形状模型等,识别率较高,并且对表情等变化影响较小。特征脸识别来源于主成分描述人脸照片技术(PCA技术),从数学上来讲,特征脸就是人脸的图像集协方差矩阵的特征向量。该技术能有效的显示人脸信息,效率较高。基于深度学习的人脸识别是获取人脸图像特征,并将包含人脸信息的特征进行线性组合等,提取人脸图像的特征,学习人脸样本数据的内在规律和表示层次。可以采用如三层前馈BP神经网络。BP神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一。BP网络本质上是一种能够学量的输入与输出之间的映射关系的输入到输出的映射,从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。BP神经网路输入层有n个神经元节点,输出层具有m个神经元,隐含层具有k个神经元,采用BP学习算法训练神经网络。BP算法主要包括两个阶段:向前传播阶段和向后传播阶段。在向前传播阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是在网络完成训练后正常运行时执行。将Xp作为输入向量,Yp为期望输出向量则BP神经网络向前传播阶段的运算,得到实际输出表达式为向后传播阶段主要包括两大步骤:①计算实际输出Op与对应理想输出Yp之差;②按极小化误差方法调整带权矩阵。之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的,因为该阶段都需要收到精度要求进行误差处理,所以也可以称之为误差传播阶段。(1)确定训练集。由训练策略选择样本图像作为训练集。(2)规定各权值Vij,Wjk和阈值Φj,θk参数,并初始化学习率α及精度控制参数ε。(3)从训练集中取输入向量X到神经网络,并确定其目标输出向量D。(4)利用上式计算出一个中间层输出H,再用本式计算出网络的实际输出Y。(5)将输出矢量中yk与目标矢量中dk进行比较,计算输出误差项,对中间层的隐单元计算出L个误差项。(6)最后计算出各权值和阈值的调整量。所以,卷积神经网络算法是通过训练人脸特征库的方式进行学习生成,对不同环境下不同表现情况的人脸图像识别有更高的精确性。

2.3人脸识别软件实现方式

(1)采集人脸数据集,然后对数据集进行标注,对数据进行预处理变成训练格式。(2)部署训练模型,根据训练算法所需依赖部署电脑环境。(3)训练过程,下载预训练模型,将人脸数据集分批次作为输入开始训练,最终输出为训练好的模型。(4)部署训练好的模型,捕获画面即可对画面中的人脸进行实时检测。

3人脸识别在病毒传播防控中的应用

通过人脸识别技术,可以实现无接触、高效率的对流动人员进行信息的收集、身份识别、定位地址信息等操作,大大减少了传染的可能性,切断了病毒传播途径,大大提高了工作效率。通过提前收录人脸信息,采用深度学习对人脸特征模型的训练学习,即可获取人脸识别特征模型,再次验证时即可实现人脸识别和个人信息快速匹配。AI人工智能帮助人们更好的解放双手,为人们的生活和工作提供了重要的帮助。本文还提出了在人脸识别的系统基础上,可以加入定位系统、测温系统等,依托物联网技术和云计算大数据,更加优化管控系统的效率。病毒传播防控中人脸识别系统流程可以概括为图2。

4结语

本文研究了一种人脸识别技术在病毒传播管控系统中的应用,并分析设计了人脸识别实时监测及病毒管控系统的流程,大大提高了信息管理的效率,减弱了传播风险。作为一门新兴技术,目前的人脸识别技术还存在着诸多不足之处,像存在环境光的影响、人脸表情变化、妆容变化、佩戴口罩等都会影响到系统识别精度;另外安全问题也引人深思:现今人脸支付方式迅猛发展,录入的人脸模型信息数据库存在有一定的安全风险,一旦被不法分子盗取信息后果不堪设想,所以模型数据库安全、网络安全,也是系统开发中必须重视的问题。人脸识别为代表的人工智能技术的研究,在病毒传播管控作出重大贡献,依托我国领先的计算机网络技术和5G等技术,加强人工智能技术与5G通信技术的结合,优势互补,以此来加快大数据、人工智能和物联网技术发展进程,对我国社会进步,促进城市建设和管理朝着高效、秩序、和谐稳定的方向不断发展,增强我国的经济实力有着重大价值和研究意义。

参考文献

[1]王彦秋,冯英伟.基于大数据的人脸识别方法[J].现代电子技术,2021,44(7):87-90.

[2]李刚,高政.人脸自动识别方法综述[J].计算机应用研究,2003,20(8):4-9,40.

[3]马玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].计算机科学与探索,2021,7(15):1195-1206.

[4]余璀璨,李慧斌.基于深度学习的人脸识别方法综述[J].工程数学学报,2021,38.

[5]王红星,胡永阳,邓超.基于LBP和ELM的人脸识别算法研究与实现[J].河南理工大学学报(自然科学版),2005.

[6]钟陈,王思翔,王文峰.面向疫情防控的人脸识别系统与标准研究[J].信息技术与标准化,2020,6,11-13,1671-539X.

[6]彭骏,吉纲,张艳红,占涛.精准人脸识别及测温技术在疫情防控中的应用[J].软件导刊,2020,10,1672-7800.

篇7

关键词:智能科学与技术;兴趣导向;逆向教学

0引言

智能科学与技术是信息科学与技术的核心、前沿与制高点,也是整个现代科学技术体系的头脑中枢,是现代科学技术创新的引领和示范,是现代社会(包括经济、社会、文化、民生、国防等)走向智能化的主导技术支柱。在越来越激烈尖锐的国际竞争环境中,智能科学与技术水平已经成为一个国家综合国力与科技实力的标志。智能科学与技术的发展和智能科学与技术学科的人才培养,不仅仅是智能科学与技术研究与教育本身的事情,更是关系到整个社会智能化发展优劣的大事情,也是关系到整个国家强弱兴衰的大事情。

科技发展,关键在于人才。在新的发展机遇下,国家对智能科学与技术专门人才的需求更加旺盛。因此,如何促进智能科学与技术教学方式的改革是培养厚基础、高层次的智能科学与技术人才的基本途径。智能科学与技术教学方式的改革,不仅发展智能科学与技术本身,而且对受教育者创新能力的提高也至关重要。

目前,网络的普及与全社会信息化程度的提高,对我国人才培养提出了更高的要求,特别是高校在课堂教学方面,部分原有教材及培养模式亟待调整。以智能科学与技术为代表的前沿新兴学科,在学科发展途径、应用技术转化及从业人员年龄、成长环境等方面,均与很多传统学科存在较大的差异,而使用传统教学方式进行人才培养,也出现了一些水土不服的现象。

1教学理念的改变

相对于传统学科,智能科学与技术从业人员平均年龄显现出年轻化的特点,且由于从业人员及学生普遍年龄较轻,在他们的成长过程中,外在环境相对宽松,自由、平等的理念在他们的成长过程中不断被提及和强化。传统“教师讲、学生听”的演讲式讲授方式虽然能够在一定时间内让学生了解大量信息,但学生接收到的大部分信息只停留在记忆层面,很难上升到理解层面,导致学生只是被动的“填鸭式”接受。

在科技发达、网络互联的今天,人们不是自投罗网就是被网罗其中,知识获取的渠道不再局限于纸质媒介和言传身教,更多来自于电子资源及网络媒介,教师和学生获取知识的途径及资源差异越来越小,在知识量、阅历等方面缩小了师生间的差距,师生之间传统的信息不对称差距逐步缩小,导致教师在知识积淀上没有了绝对优势。

与此同时,逐步深入青年学生内心的自由、平等观念对中国传统的尊师重道思想带来了不小的冲击。在当今开放的网络环境下,针对新兴时代的学生,传统习俗中的师长观念由于知识获取渠道的平等化而缺乏强有力的现实支撑,教师的身份权威性和知识权威性都受到了不同程度的质疑,继续使用“填鸭式”“训导式”教学方式,将会事倍功半。

因此,针对新兴学科,一线教师需要进行教学理念上的修正,特别是教师应顺应培养对象的整体特点,基于自由和平等的观念进行自我定位,以交流讨论式代替居高临下布施式的教学观念,充分与学生打成一片,以便更好地调动学生的思维,引导学生进行主动思考和主动学习。

2教学素材的改进与提高

当今时代是知识爆炸的时代,科学技术日新月异,新知识、新成果层出不穷,特别是智能科学与技术这一前沿学科,正在向理论创新和大规模实际应用发展,新理论、新方法不断被提出并验证,新模型、新实例、新应用不断产出。

“教学素材对教育理念的渗透发挥着重要作用,它已经成为促进或阻碍教学模式转变的活跃而关键的要素。随着新时代知识的快速更新换代和知识面的不断拓宽,教学素材是否优秀的标准不仅仅是包含多少知识,更重要的是包含多少最新的知识;不仅仅是传递解决问题的方法,更重要的是传递超前、新颖的解决问题的方法。

当今学生知识涉猎面广,现有的网络环境也为他们提供了很好的平台,如果他们已经获取的知识及应用的先进程度远远超过课本素材罗列的知识,将会极大地削弱他们对本学科的兴趣,进而影响课堂教学效果。

此外,作为智能科学与技术这一前沿学科的教学素材,必须体现出时代性、开放性、多元性与全面性。因此,教学过程中所采用素材的改进和提高,应该向着不断更新、与时俱进的方向靠拢,教师应该不断将最新理论、最新方法、最新应用融合于一线基础教学过程中,使学生在学习过程中始终紧跟前沿技术的发展,在未来工作中能更快、更好地融入行业中。

3教学方式的转变

目前,学生群体主要为90后,高校即将迎来00后,他们成长过程中的家庭环境和社会环境与早期学生相比更为平等和宽松,他们的学习需求也由目标导向型逐步演化为兴趣导向型。因此,如何激发学生的兴趣,进而以兴趣为基础激发学生自主学习的动力,将是教学效果事半功倍的途径。

青年学生正处于思维高度活跃的阶段,他们往往对新兴成果和前沿热点有着超过常人的关注,如何巧妙而有效地将这种关注转化为针对本学科的兴趣,进而反向推导出基础理论并让学生消化、吸收,就成为一线教师面临的重要问题。

从1997年国际象棋大师卡斯帕罗夫和电脑“深蓝”第一次人机大战开始,智能科学与技术迅速跻身科技前沿热点,且经久不衰。2016年3月,Alpha Go再次燃起人工智能之火,经过媒体的推波助澜,成为社会关注的焦点,大大增强了智能科学与技术的关注度。而青年学生作为最容易追赶潮流的群体,自然对此类热点趋之若鹜。

作为智能科学与技术学科的一线教师,应把握和利用社会舆论的潮流以及学生心理的律动,及时以此热点为突破口,吸引学生的兴趣,引起共鸣,进而进行反向推导相关基础理论并加以详解。

例如,教师以Alpha Go为课堂开篇讨论,引导学生思考,并说明Alpha Go的核心原理是深度学习。在这个实例中,Alpha Go模拟人类下棋的推理与思考过程,其中推理过程通过搜索树来搜索可能的棋局,思考过程通过两个深度神经网络确定可能的搜索方向和评估棋局,这两个神经网络包括:

(1)落子选择器(policy network),这是一种深度卷积神经网络,主要通过当前棋盘布局预测下一步走棋位置的概率。

(2)棋局评估器(value network),与落子选择器具有相似的结构,主要在给定棋子位置的情况下,输出双方棋手获胜的可能性,从而对棋局进行评估。

如此,教师可以带领学生了解搜索树及搜索算法,也可以从深度卷积神经网络到普通神经网络,讲解神经网络的基础知识,分析神经网络到深度学习的发展过程。这样就可以将学生对Alpha Go本身的兴趣,巧妙地引导到对神经网络等基础概念和原理方面,以此强化学生对基础知识的掌握。

同时,开放式的考核方式也是促进学生创新、使教学方法适应新时代的一种有效途径。对于本学科感兴趣的话题,教师应鼓励学生多谈自己的思路和想法;对于开放式课题,应给学生提供展示的舞台,鼓励学生分享自己在查找资料、解决难点、编程过程中的心得体会,充分调动学生的积极性和主动性;将这些考核成绩按比例计入学生课业总成绩中,充分肯定学生的创新能力。

4结语

教学成效是设计和构建教学方式的基本出发点,教师应该结合学生需求从学习成效、教学技巧、教学内容上总体把握教学方式阁,采用不同于传统讲授方式的逆向教学(如图1所示),使其满足和顺应新一代青年学生的心理认同需求和学习需求,将新理论、新应用不断融入基础教学中,达到更好的教学效果。

篇8

关键词:车牌;识别;专利;分析

引言

车牌识别技术[1-2]是指自动提取受监控区域车辆的车牌信息并进行处理的技术,其通过运用图像处理、计算机视觉、模式识别等技术,对摄像头捕获的车辆照片或视频进行分析,进而自动识别车辆的车牌号码。车牌识别技术可应用于停车场自动收费管理、道路监控等领域,在城市交通管理中发挥了重要作用。

1 中国专利申请情况分析

以CNABS专利数据库中的检索结果为分析样本,介绍车牌识别技术的中国专利申请量趋势以及重要申请人的状况。

1.1 第一阶段(2005年及之前)

在这阶段,申请量极少且申请人也极少,且针对的环境较为简单,处于技术的萌芽阶段,其中,专利CN1529276,通过车牌定位、字符分割和分类识别完成机动车牌号自动识别,其实现过程较为简单,具体细节描述较少。

1.2 第二阶段(2006年-2010年)

在这阶段的申请量比上一阶段有所增加,而且申请人数量相较之前也有增长,其中来自高校的申请量明显增加,反映出了高校研究者开始更加注重对研究成果的保护,这一阶段的专利所针对的环境场景更为复杂,识别准确率得到提高,对车牌定位、字符分割、字符识别等关键技术的研究更为深入。

1.3 第三阶段(2011年及以后)

在2011年之后车牌识别技术的专利申请量呈现快速增长,这一阶段车牌识别技术得到了更进一步的丰富,涉及的关键技术的解决途径也呈现出多样性,检测效率和精度也得到进一步提高,其中,专利CN104035954A,涉及一种基于Hadoop的套牌车识别方法,将云计算应用于车牌识别,使得与传统环境下不经过优化的方法相比具有^高的运行效率和加速比,可以有效地识别套牌车。

图2示出了中国重要申请人分布情况,申请量分布前十的申请人包括:电子科技大学、深圳市捷顺科技实业股份有限公司(捷顺科技)、浙江宇视科技有限公司(宇视科技)、信帧电子技术(北京)有限公司(信帧电子)、中国科学院自动化研究所(自动化研究所)、安徽清新互联信息科技有限公司(清新互联)、青岛海信网络科技股份有限公司(海信网络)、浙江工业大学、四川川大智胜软件股份有限公司(川大智胜)、上海高德威智能交通系统有限公司(高德威智能交通),从图2中可以看出,不同申请人的申请量差距不是很大,几乎保持在一个比较持平的状态。

电子科技大学在车牌识别技术的专利申请中,CN 101064011A提出一种基于小波变换的复杂背景中的车牌提取方法,可大大提高对晴天、雨天、雾天、白天及夜晚等环境的通用性和适用性,实现车牌的精确定位并提高车牌提取的准确度;CN 103455815A提出一种复杂场景下的自适应车牌字符分割方法,能快速、准确地搜索2、3字符间隔位置,实现自适应调整分割参数,使车牌字符分割稳定可靠,在复杂的环境中鲁棒性强,防止噪声干扰;CN 105005757A提出一种基于Grassmann流行的车牌字符识别方法,最大限度地利用了已获得的车牌字符信息以及同类字符之间的相互关系,对于车牌字符的成像质量要求更低,应用于复杂的环境中具有很好的鲁棒性和准确性。

2 关键技术分析

一个完整的车牌定位与识别系统,其前端包括图像采集和传输系统,末端还需要与数据库相连接。从定位到识别的核心算法上,主要包括图像预处理、车牌定位、字符分割和字符识别四大部分[3]。

图像预处理,是指通过对摄像头捕获的彩色图像进行预处理。常用的预处理方法包括图像灰度化、图像二值化、边缘检测等。

车牌定位,是指在经预处理后的车辆图像中,定位出车辆的车牌所在位置。常用的车牌定位方法包括基于纹理分析的方法、基于数学形态学的方法、基于边缘检测的方法、基于小波变换的方法和基于神经网络的方法等。CN 104298976A提出一种基于卷积神经网络的车牌检测方法,利用卷积神经网络完整车牌识别模型对车牌粗选区域进行筛选,获取车牌最终候选区域。

字符分割,是指将定位出的车牌区域图像分割成单个的字符图像。常用的字符分割方法包括基于轮廓的方法、基于投影的方法、基于模板匹配的方法和基于连通区域的方法等。CN 104408454A提出一种基于弹性模板匹配算法的车牌字符分割方法,基于弹性模板,通过插空进行模板序列形状的弹性调整,将车牌图片与理想模板进行匹配,获得全局最优匹配,确定字符位置,将分割算法作用于投影序列,实现对车牌字符的分割。

字符识别,是指对字符分割之后的单个字符图像进行识别,进而得到车辆的车牌号码。常用的车牌字符识别方法包括基于字符结构特征的识别方法、基于模板匹配的识别方法、基于神经网络的识别方法、基于模糊理论的模式识别方法和基于支持向量机分类识别方法等。CN 105975968A提出一种基于Caffe框架的深度学习车牌字符识别方法,以基于Caffe架构的深度学习为基础,解决了现有的车牌字符识别方法中对倾斜、断裂、相近字符识别精度不高的问题,大大提高了对于车牌字符的识别精度。

3 结束语

本文以车牌识别相关专利文献为样本,分析统计了该技术中国专利申请现状,并对车牌识别技术的关键技术进行简单分析。在经历了从无到有、从萌芽到飞速发展的阶段之后,车牌识别技术慢慢走向成熟,越来越多的企业和高校在车牌识别的研究上投入了大量的精力,也获得了丰硕的研究成果。

参考文献

[1]尹旭.汽车牌照定位研究综述[J].电脑知识与技术,2010,6(14):3729-3730.

篇9

    虽然目前公众媒体将无线通信炒的很热,但这个领域从1897年马可尼成功演示无线电波开始,已经有超过一百年的。到1901年就实现了跨大西洋的无线接收,表明无线通信技术曾经有过一段快速发展时期。在之后的几十年中,众多的无线通信系统生生灭灭。

    20世纪80年代以来,全球范围内移动无线通信得到了前所未有的发展,与第三代移动通信系统(3g)相比,未来移动通信系统的目标是,能在任何时间、任何地点、向任何人提供快速可靠的通信服务。因此,未来无线移动通信系统应具有高的数据传输速度、高的频谱利用率、低功耗、灵活的业务支撑能力等。但无线通信是基于电磁波在自由空间的传播来实现传输的。信号在无线信道中传输时,无线频率资源受限、传输衰减、多径传播引起的频域选择性衰落、多普勒频移引起的时间选择性衰落以及角度扩展引起的空间选择性衰落等都使得无线链路的传输性能差。和有线通信相比,无线通信主要由两个新的问题。一是通信行道经常是随时间变化的,二是多个用户之间常常存在干扰。无线通信技术还需要克服时变性和干扰。由于这个原因,无线通信中的信道建模以及调制编码方式都有所不同。

    1.无线数字通信中盲源分离技术分析

    盲源分离(bss:blind source separation),是信号处理中一个传统而又极具挑战性的问题,bss指仅从若干观测到的混合信号中恢复出无法直接观测的各个原始信号的过程,这里的“盲”,指源信号不可测,混合系统特性事先未知这两个方面。在研究和工程应用中,很多观测信号都可以看成是多个源信号的混合,所谓“鸡尾酒会”问题就是个典型的例子。其中独立分量分析ica(independent component analysis)是一种盲源信号分离方法,它已成为阵列信号处理和数据分析的有力工具,而bss比ica适用范围更宽。目前国内对盲信号分离问题的研究,在理论和应用方面取得了很大的进步,但是还有很多的问题有待进一步研究和解决。盲源分离是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道混合矩阵。盲源信号分离是一种功能强大的信号处理方法,在医学信号处理,阵列信号处理,语音信号识别,图像处理及移动通信等领域得到了广泛的应用。

    根据源信号在传输信道中的混合方式不同,盲源分离算法分为以下三种模型:线性瞬时混合模型、线性卷积混合模型以及非线性混合模型。

    1.1 线性瞬时混合盲源分离

    线性瞬时混合盲源分离技术是一项产生、研究最早,最为简单,理论较为完善,算法种类多的一种盲源分离技术,该技术的分离效果、分离性能会受到信噪比的影响。盲源分离理论是由鸡尾酒会效应而被人们提出的,鸡尾酒会效应指的是鸡尾酒会上,有声、谈话声、脚步 声、酒杯餐具的碰撞声等,当某人的注意集中于欣赏音乐或别人的谈话,对周围的嘈杂声音充耳不闻时,若在另一处有人提到他的名字,他会立即有所反应,或者朝 说话人望去,或者注意说话人下面说的话等。该效应实际上是听觉系统的一种适应能力。当盲源分离理论提出后很快就形成了线性瞬时混合模型。线性瞬时混合盲源分离技术是对线性无记忆系统的反应,它是将n个源信号在线性瞬时取值混合后,由多个传感器进行接收的分离模型。

    20世纪八、九十年代是盲源技术迅猛发展的时期,在1986年由法国和美国学者共同完了将两个相互独立的源信号进行混合后实现盲源分离的工作,这一工作的成功开启了盲源分离技术的发展和完善。在随后的数十年里对盲源技术的研究和创新不断加深,在基础理论的下不断有新的算法被提出和运用,但先前的算法不能够完成对两个以上源信号的分离;之后在1991年,法国学者首次将神经网络技术应用到盲源分离问题当中,为盲源分离提出了一个比较完整的框架。到了1995年在神经网络技术基础上盲源分离技术有了突破性的进展,一种最大化的随机梯度学习算法可以做到同时分辨出10人的语音,大大推动了盲源分离技术的发展进程。

    1.2 线性卷积混合盲源分离

    相比瞬时混合盲源分离模型来说,卷积混合盲源分离模型更加复杂。在线性瞬时混合盲源分离技术不断发展应用的同时,应用中也有无法准确估计源信号的问题出现。常见的是在通信系统中的问题,通信系统中由于移动客户在使用过程中具有移动性,移动用户周围散射体会发生相对运动,或是交通工具发生的运动都会使得源信号在通信环境中出现时间延迟的现象,同时还造成信号叠加,产生多径传输。正是因为这样问题的出现,使得观测信号成为源信号与系统冲激响应的卷积,所以研究学者将信道环境抽象成为线性卷积混合盲源分离模型。线性卷积混合盲源分离模型按照其信号处理空间域的不同可分为时域、频域和子空间方法。

    1.3 非线性混合盲源分离

    非线性混合盲源分离技术是盲源分离技术中发展、研究最晚的一项,许多理论和算法都还不算成熟和完善。在卫星移动通信系统中或是麦克风录音时,都会由于乘性噪声、放大器饱和等因素的影响造成非线性失真。为此,就要考虑非线性混合盲源分离模型。非线性混合模型按照混合形式的不同可分为交叉非线性混合、卷积后非线性混合和线性后非线性混合模型三种类型。在最近几年里非线性混合盲源分离技术受到社会各界的广泛关注,特别是后非线性混合模型。目前后非线性混合盲源分离算法中主要有参数化方法、非参数化方法、高斯化方法来抵消和补偿非线性特征。

    2.无线通信技术中的盲源分离技术

    在无线通信系统中通信信号的信号特性参数复杂多变,实现盲源分离算法主要要依据高阶累积量和峭度两类参数。如图一所示,这是几个常见的通信信号高阶累积量。

    在所有的通信系统中,接收设备处总是会出现白色或是有色的高斯噪声,以高阶累积量为准则的盲源分离技术在处理这一问题时稳定性较强,更重要的是对不可忽略的加性高斯白噪声分离算法同时适用。因此,由高阶累积量为准则的盲源分离算法在通信系统中优势明显。

    分离的另一个判据就是峭度,它是反映某个信号概率密度函数分布情况与高斯分布的偏离程度的函数。峭度是由信号的高阶累积量定义而来的,是度量信号概率密度分布非高斯性大小的量值。

篇10

【关键词】照相软件 人脸识别技术 计算机

人脸识别作为一项现代化科技技术,具有极大的发展空间。1964年,人脸识别(AFR)这一领域逐渐出现在人们的视野里,至于1991年至1997年,若干具有代表性的人脸识别算法诞生于世,到如今,以支持向量机为代表的统计学习理论被应用到了人脸识别中来。前人的侧重点在于对其算法的延伸探究,但就笔者而言,存在一定程度上专业知识的限制,因而根据自身的知识储备与探究能力,将人脸识别技术这一宽泛概念的探讨缩小至相对更贴近生活,且较为容易理解与研究的一个主题――对于照相机软件中人脸识别技术的探究,并由此展开对计算机人脸识别的部分性探究。

1 对于人脸识别技术的初步了解

科幻性质的故事往往以其并不符合实际的奇幻情节,模糊得描绘了现实世界未来的发展蓝图。这里不得不提及一部具有启发意义的电影――《生化危机》,电影中追踪主角行踪的卫星定位人脸识别技术,是否未来也将存在于我们的现实社会当中?由此,便联想到生活中照相软件的人脸识别是否也是通过相似的原理而执行的。

关于人脸识别,其本质上隶属于生物特征识别的一支。其余包含指纹识别,虹膜识别,DNA识别等技术。当今最为广泛运用的是指纹识别,但随之而来产生的是一定的安全性问题。例如去年热门的高考替考话题,指纹贴的出现使指纹识别的安全性受到质疑。而人脸识别仍处于一个不完全成熟的发展阶段,就目前现状来说,其所具有的不可复制性、自然性、不可察觉性,使其安全性与实用性都处于相对较高的水平。但同样,其技术难度也呈正比例增长。

通过对与计算机信息科技的学习,能够得出这样一个总结性结论:“人脸识别是通过计算机视觉的一些算法所实现的。”

前人对从不断更新的研究中得出,人脸识别的基本算法有四种:

(1)基于人脸特征点的识别算法(Feature-based recognition algorithms)。

(2)基于整幅人脸图像的识别算法(Appearance-based recognition algorithms)。

(3)基于模板的识别算法(Template-based recognition algorithms)。

(4)利用神经网络进行识别的算法(Recognition algorithms using neural network)。

当然,如今也早已存在许多其他的的算法能够支持人脸识别技术的实现。而对于该项技术的应用的范围也在逐渐扩大,门禁考勤系统、住宅安全管理、电子身份等等,都将在很大程度上的得益于其的不断发展。

让我们回到主题:照相机的人脸跟踪究竟是如何实现的呢?围绕这一问题,由浅及深,笔者将本文中的探究内容主要分为以下三个部分:

(1)图像在计算机内部的存储方式。

(2)计算机如何区分出物体与其所在背景。

(3)计算机如何定位人脸并从而实现识别功能。(注:由于照相软件只是作为一个对于人脸识别问题的切入点,单单深究照相软件会带来一定的局限性,因此二、三两点将跳过作为载体的照相软件,直接对于照相机功能背后的原理作进一步探究。)

1.1 图像在计算机内部的储存方式

计算机通过往往通过bitmap的形式来储存图像,也就是像素矩阵。

从结构上讲,计算机中储存的图像一把可以分为两大类,即矢量图和位图。矢量图通过数学公式计算获得,优点在于不会失真,但其最大的缺点是难以表现色彩层次丰富的逼真图像效果。而位图的基本思想,则是把一幅图像按照行列进行分割,所获得的点成为像素。相机所拍摄获得的照片便是以位图的形式储存的。每一幅图像均是由无数像素组成,而每一个像素对应显存中1、8、16或24位二进制数来表示颜色信息。位数决定了图像所含的最大颜色数,位数越多,图像的色彩就越丰富。

1.2 计算机如何区分出物体与其所在背景

大致的过程可以由图1所知,用相对容易理解的话来解释,计算机对于区分物体与其所在背景,首先是通过对要是别的物体提取表面特征,然后再对真实的照片提取表面特征,最终在进行匹配,配合相应的算法,这样,计算机便可以区分出物体与其所在背景。

由此所延伸的科目是计算机视觉。

正如定义所提到:计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。

通过这门科目,我们能够做到使用计算机来处理图像,并区分出目的对象。形象地说,在这门科目的辅助之下,计算机能够成为人类的第二双眼睛,对目标进行识别、跟踪和测量。

“One picture is worth ten thousand words.”图像的处理,将为人类提供巨大的便捷。

大致罗列出其处理所进行的步骤,分别是:图像获取、特征提取、检测分割、高级处理。

1.3 计算机如何定位人脸并从而实现识别功能

关于人脸的定位与识别,在很大一定程度上与区别物体与背景的技术存在着相似之处。但是人脸的定位与识别,又是更高于目标对象的识别的。这正是算法的不停更新与发展所带来的科技发展的结果。

目前比较流行的Cascade Classifier(Opencv中做人脸检测的时候的一个级联分类器)效果还是比较好的,正脸检测到的成功率能达到90%以上。

此外,在人脸局部区域特征提取时,一种叫做CNN(Convolutional Neural Network)卷积神经网络技术的运用――使用提取特征的filter对像素点进行几层处理,也为识别带来一定的便利。CNN运用到了深度学习,因此这里将拓展以下有关deep learning的概念:

deep learning的概念源于人工神经网络的研究。其三大框架为:CNN(Convolutional Neural Network,卷积神经网络),DBN(Deep Belief Network,深度置信网络),AE(AutoEncoder,自动编码机)。而目前在CV(Computer Vision的缩写,指计算机视觉)领域应用最广的是CNN。到近来也有很多人尝试用deep learning的方法来实现人脸识别,其与先前所提到的计算机区分物体和背景的原理也是相似的。

2 结论

回到最初的问题:照相机的人脸跟踪是如何实现的?综上所述,可以获得的结论是:照相机的人脸跟踪是通过计算机视觉的一些算法实现的。但这些算法在技术方面人仍然面临着一些难点,例如,在特征识别时,外界客观因素,有如,光线、着装遮挡、目标对象的姿态、脸型、样本缺乏等等尚未解决的问题。这些都使人脸识别技术尚有巨大的可发展空间。就像前段时间由推出的How Old do I Look线上脸部侦测服务,曾一度掀起热潮,可见,人们对于人脸识别技术的期望也是很高的。

那么,未来的人脸识别技术到底能够发展到何种程度呢?香港中文大学教授汤晓鸥、王晓刚及其研究团队曾在2014年6月宣布,他们研发的DeepID人脸识别技术的准确率超过99%,比肉眼识别更加精准。相信未来,计算机人脸识别技术将与我们共同成长,逐渐成熟与完善。毕业于UC Berkeley的博士贾扬清,创造了Caffe――全称Convolutional Architecture for Fast Feature Embedding,一个清晰而高效的深度学习框架,具有上手快、速度快、模块化、开放性、社区好等优点。如此不断迅捷发展的计算机技术,在这个数字化的时代,正是对未来发展很好的导向。

参考文献

[1]韦凤年.怎样写科技论文[J].河南水利,2006(09).

[2]董琳,赵怀勋.人脸识别技术的研究现状与展望[J].China Academic Journal Electronic Publishing House,2011,10.

作者简介

孙文倩(1998-),上海市人。现在上海市洋泾中学高中在读。