神经网络的正则化方法范文

时间:2024-03-29 18:16:40

导语:如何才能写好一篇神经网络的正则化方法,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

神经网络的正则化方法

篇1

[关键词]:贝叶斯BP神经网络 预测流程 预测模型 仿真分析

一、贝叶斯正则化BP神经网络算法

为了解决在工程中遇到的一些基于BP神经网络的问题,可通过减少神经网络的参数数量,降低网络规模,这样就不会出现过拟合的现象,这就是正则化(regularization)方法。为保证用此方法设置的参数能够自适应神经网络并且能够优化,通常采用贝叶斯理论,即通过LevenbergMarquardt(LM)算法实现这一目的,这也就是我们熟知的贝叶斯正则化BP神经网络(Bayesian Regularization BP neural network, BRBPNN )。

二、基于贝叶斯正则化BP神经网络的性能预测流程

在利用贝叶斯正则化BP神经网络算法来实现对离心泵性能预测时。可按照图所示的流程图进行:

三、构建基于贝叶斯正则化BP神经网络性能预测模型

在贝叶斯正则化BP神经网络中,输入模式对于离心泵性能预测预测结果有比较大影响,选取对离心泵能量性能影响较大的离心泵几何参数(叶轮出口直径( )、叶片出口宽度( )、叶片出口安放角( )、涡壳的基圆直径( )、涡壳进口宽度( )、蜗壳第八断面面积( )、叶片包角( )以及叶片数( ))和设计流量( )作为贝叶斯正则化BP神经网络的输入变量。根据输入模式可以确定输入层神经元数目为9。考虑到BF神经网络的隐含层神经元是径向基函数,该特性使BF神经网络的拟合特性为局部性,于是本文将泵的扬程和效率预测设计为2个相类似结构的贝叶斯正则化BP神经网络预测模型,即离心泵扬程和效率贝叶斯正则化BP神经网络预测模型,如图2所示。

四、仿真实验

为了考察建立的离心泵性能贝叶斯正则化BP神经网络预测模型的有效性,我们采用从沈阳水泵研究所编撰的《全国优秀水力模型汇编》和江苏大学关醒凡教授编撰的《现代泵技术手册》选取57组单级单吸离心泵的设计参数和试验参数作为训练样本数据和目标数据。得到训练样本数据和目标数据输入的离心泵性能贝叶斯正则化BP神经网络预测模型进行训练学习曲线如图3所示:

为了考察建立的离心泵性能的贝叶斯正则化BP神经网络预测模型的效果,我们从沈阳水泵研究所编撰的《全国优秀水力模型汇编》和江苏大学关醒凡教授编撰的《现代泵技术手册》选取6组单级单吸离心泵的设计参数和试验参数数据作为检验样本,其具体数据如表1所示。

采用表1的数据和利用已经建立的离心泵性能的贝叶斯正则化BP神经网络预测模型进行预测离心泵的扬程、效率等性能指标,与谭明高、刘厚林、袁寿其等人所做实验和撰写的文献参数进行对比,其结果如表2所示。

分析表2的离心泵性能的2种改进型BP神经网络预测模型检验样本预测结果发现:BRBP神经网络预测的扬程 最大相对误差的绝对值为6.98% 、最小相对误差的绝对值为0.41%、均方根相对误差为5.20%; 效率误差最大相对误差的绝对值为5.30% 、最小相对误差的绝对值为1.67%、均方根误差为2.98% 。LMBP神经网络预测的扬程 最大相对误差的绝对值为14.0% 、最小相对误差的绝对值为0.06%、均方根相对误差为7.81%;效率误差 最大相对误差的绝对值为3.21% 、最小相对误差的绝对值为0.17%、均方根误差为1.85%。

通过对上面的结构分析,效率预测精度高一些,扬程预测精度低一些,我们可以推断,这可能与离心泵的影响因素有关。BRBP神经网络预测离心泵扬程精度最高,LMBP神经网络预测离心泵效率精度最高。

需指出的是,虽然贝叶斯正则化BP神经网络预测离心泵效率精度比LMBP神经网络差一些,但在预测离心泵扬程方面BRBP神经网络预测模型比LMBP神经网络预测模型明显精度更好一些。这是因为贝叶斯正则化BP神经网络靠贝叶斯统计理论进行确定和训练,由程序自动确定,相对而言更稳定。

五、总结

本章采用贝叶斯正则化BP神经网络算法,建立了离心泵性能预测模型,最后在沈阳水泵研究所编撰的《全国优秀水力模型汇编》和江苏大学关醒凡教授编撰的《现代泵技术手册》选取57组单级单吸离心泵的设计参数和试验参数进行建模和验证,结果表明离心泵性能贝叶斯正则化BP神经网络预测模型与原有的离心泵性能LMBP神经网络预测模型一样有效,并且设置参数更简单、更方便,是一种比较有前途的离心泵性能预测方法。

参考文献:

[1]关醒凡.现代泵技术手册[M].宇航出版社,1995.

篇2

【关键词】短期负荷预测;参数优化;量子差分进化;最小二乘支持向量机

引言

“十三五”规划期间,随着电力市场化改革的进一步深化与智能电网的大规模试点,精度较高的负荷预测对保障智能电网的安全稳定运行与电能资源的优化配置至关重要。故不断改进负荷预测方法,提高预测的精度,对于制定经济优化的发电计划、降低旋转储备容量、进行电力市场需求分析等方面均有十分重要的意义。

目前,用于负荷预测的方法大体可以分为经典的数学统计方法和基于人工智能的方法,其中,大多数负荷预测理论都基于时间序列分析,包括自回归模型(VAR)[1],自回归滑动平均模型(ARMA)模型[2]等,时间序列平滑预测法的模型识别与参数估计都是根据有限序列去推断原序列式的性质来完成,这种推断误差较大,不能满足短期负荷预测精度需要。随着世界各国电力市场的发展,负荷预测受到了更加广泛的重视,神经网络预测技术[3],混沌预测技术[4]以及粒子群优化[5],LSSVM[6]等自学能力较强的预测方法都在负荷预测中应用广泛。负荷预测是ANN在电力系统应用中最合适的领域,但由于神经网络模型输入的原始数据必须以精准为前提,而实际预测时,因统计存在差异,使得数据同实际值有一定差别,导致预测精度不理想。并且针对不同地区的特点,应根据其负荷变化的规律及气象变化规律选取不同的特征参数,不同的ANN模型与结构,这就增加了推广的难度。

与神经网络算法采用经验风险最小化原则不同,支持向量机(SVM)采用的是结构风险最小化原则,将求解过程转化为凸二次规划问题。这就很好地克服了神经网络的一些不足,且在负荷预测的实际应用中取得了很好地性能表现。但是正则化参数与核参数的选择极大影响着LSSVM的性能。量子差分进化算法有效的克服了群智能算法中比较普遍的早熟现象,提高了全局的搜索能力。本文通过量子差分进化算法优化最小二乘支持向量机模型的正则化参数与核函数参数,实现参数的自动调整。

一、基于量子差分进化的LSSVM建模过程

在基于量子差分进化的LSSVM建模中,LSSVM输出值为带有和的因变量,而正则参数与核函数由量子差分进化算法进行优化选取,优化的目标函数为输出值与实际值的误差平方和。

优化目标函数定义为:

其中,yi为第个已知样本的输入值,yi'为第个样本对应的模型预测输出值,为样本总体个数。

则基于QDE的LSSVM模型参数的组合寻优步骤如下:

1)参数初始化

QDE算法的主要参数为种群规模N,染色体长度D,变异因子F,交叉因子C和最大世代数g,其中,g初始化为0。

2)种群初始化

产生一个N*D规模均匀分布的随机数矩阵,按照以下方式:

其中,i=1,2,……,N,j=1,2,……,D,与分别表示第j列的上界和下界。

3) 量子编码

对初始种群进行量子编码

4) 变异操作

变异操作使用两个随机向量,按照公产生变异向量

5)交叉操作

交叉操作可以增加种群多样性

6)选择操作

选择操作保证更优的后代生存到下一个世代,选择操作的原则是按照最优适应度进行。

综上,基于QDE改进的LSSVM算法流程图如图1所示。

二、算例分析

本文选取山西阳泉2013-5-01至2013-5-31全天24个小时的历史预测数据,影响因素包括:日分类,0表示样本日为工作日(周一―周五),0.8表示一般休息日(周六、周天),1表示节假日(法定节假日与民间节日);日温度(日最高温度,日最低温度);日降水量。选取2013-5-01至2013-5-30的720个数据作为训练样本,2013-5-31作为测试样本。同时,为了反映不同的负荷情况,31号得到了24个小时的测试结果。

为了准确评估预测模型,采用平均绝对百分比误差与最大相对误差来衡量模型预测结果的可行性。

其中,与分别为测试样本的输出值与实际数值。

设定种群规模,变异概率Pm=0.05,交叉因子Cr=0.5,收缩因子且随机生成种群数。根据图1所示流程,对2013-5-31进行24点负荷预测。

从图2中可以看到,短期负荷量与时间成非线性相关。因此,将LSSVM预测及BPNN的预测结果作为对比。LSSVM的预测步骤与QDE_LSSVM的预测步骤相似,未经过QDE优化的LSSVM的参数为(?酌,?滓2)=(0.4641.725),BPNN网络的网络结构为2-5-1, BPNN网络的迭代次数设定为1000,学习率为0.5,目标为0.00004。

图2给出了QDE_LSSVM,LSSVM与BPNN的短期负荷预测结果。其中BPNN的预测值波动性较大,不能满足短期负荷预测要求的稳定性原则。而经过改进的LSSVM模型更加接近原始曲线,能够满足实际电力系统负荷预测的要求。

表1给出了三种预测方法的平均相对误差与最大相对误差,其中QDE_LSSVM的平均相对误差最低,为1.06%,比BPNN低0.74%。这表明,与BPNN相比,QDE_LSSVM的小样本集合回归问题上具有显著优势。原因是LSSVM满足结构风险最小化原则,具有较强的推广能力,可以避免ANN法对训练样本数量和质量要求的较高不足。QDE-LSSVM的平均相对误差比LSSVM低0.55%,这表明QDE-LSSVM的预测效率要优于LSSVM。

结论

考虑电力负荷的历史数据,日期类型以及气象因素,本文利用QDE_LSSVM法进行短期负荷预测。从实验效果来看,可以得到以下结论:

1)根据确定LSSVM参数存在的问题,引入QDE对参数进行优化。实验结果表明提出的方法能够自动提取识别率高且收敛速度较快的参数。

2)提出了应用QDE-LSSVM法进行短期负荷预测。实验结果表明,与BPNN和LSSVM法相比,QDE-LSSVM算法能够实现较高的预测精度,验证了所构建模型的正确性和有效性。作为一种启发式混合算法,本文所提出的方法能够为智能电网制定科学合理的发电计划提供一定的依据。

参考文献:

[1]万昆,柳瑞禹.区间时间序列向量自回归模型在短期电力负荷预测中的应用[J].电网技术,2012,11:77-81.

[2]黄元生,邓佳佳,苑珍珍.基于ARMA误差修正和自适应粒子群优化的SVM短期负荷预测[J].电力系统保护与控制,2011,14:26-32.

篇3

关键词 深度神经网络 图像分类 车型识别 预测

中图分类号:TP317.4 文献标识码:A

0 引言

所谓的深度学习是根据具有多层结构的人工神经网络所提出。在具体的深度学习中,主要借助模拟神经系统中的层次结构,来进行数据结构特征的反映,一般来说,细节用低层次进行表示,抽象数据结构则用高层次来表示,利用这种方式,能够进行数据挖掘学习,满足学习要求。在传统的车型识别发展中,主要涉及到的技术包括模式识别、特征选择和提取以及检测分割等方面内容,在技术发展中,存在的难点主要涉及到如何将完整的目标车辆区域进行分割,这是项基础工作,也是难点所在。这结合实际需求,对于不同拍摄角度下的汽车图片,包括皮卡车、SUV、面包车以及小轿车进行车型识别,其目标质量分割质量则是最为关键的技术,直接影响到最后的判断效果。所以,应该重视进行具有代表性特征的选择处理,并相应转化成有效的参数过程。在获取特征参数后,则应该结合项目要求来选择合理的分类器,这样才能保障识别的准确率。结合汽车车型识别问题的要求,这里网络输入则是原始图像,利用神经网络优势,原始数据经过卷积层、完全连接层以及Softmax 层的培训学习,通过这种深度神经网络来进行分析处理,免于上述存在难度的图像分割、手工提取等过程。

1数据集

这里的车型识别目标的数据集主要包括皮卡车、SUV、面包车以及小轿车等四种类型。其中,训练集和测试集分别包括1025张和368张原始图片。此数据集中,包括不同摄像角度中的汽车图像照片,具有背景复杂、图像大小不统一,车辆在图片中所占比例具有较大差异性等方面问题,这些都在一定程度上造成车型识别的难度上升。

在预处理中,为了保证网络输入的一致性,对于原始图像进行调整处理为256?56?尺寸。在此基础上,对于图像RGB三个通道的均值进行计算,并进行均值标准化的处理。在具体的网络训练测试的过程中,主要则是选取224?24? 的样本作为输入。

2网络结构探讨

结合文献所提出的深度神经网络VGG16的优势,我们将其应用在汽车车型识别问题中。VGG16网络具有较强的优势,主要包括5个堆栈式的卷积神经网络ConvNet,以及3个完全连接层以及1个Softmax层,由此可见,其属于“网络中的网络”架构。在每个每个ConvNet中,还有多个卷积层所构成,然后紧跟随着Max-Pooling层。在进行卷积以及池化处理的基础上,进行三层完全连接处理,同时,Softmax层的输入则是最后一个完全连接曾的输出,在这基础上,实现车型分类的要求。结合实际需求,将非线性的ReLU层加入该网络中,这样就会让ReLU来处理卷积层和完全连接层的输出,保证训练时间有效降低。另外,还将一种正则化Dropout方式应用在网络中,避免出现完全连接层中的过拟合问题。

另一个神经网络Alexnet,结构稍微简单一些,主要包括5卷积层、3个完全连接层、Softmax层等几部分,在进行部分卷积层处理后,在进行Max- Pooling层处理。在此网络中,同样采用非线性的ReLU层,所采用难度重叠池化方式,也能有效保证尽量降低过拟合的问题。

3实验结果分析

结合上述分析的深度神经网络VGG16和AlexNet的基础上,进行Gaffe框架的搭设,为了保证运算效率,建立在GeForce GTX TITAN X CPU的工作站中。经过统计,单一网路训练大约为2小时,一张图片测试大约为0.2秒。在应用上述网络测试、训练之外,在分类过程中,还应用了经典的分类算法KNN。经过实验分析,可以看出,VGG16网络能够具有比较好的分类结果,能够实现准确率为97.3%,而AlexNet网络准确率达到为93.0%,KNN算法不能有效处理较为复杂背景的图片,分类准确率仅为52.3%。在具体的案例中,分析VGG16网络错误分类的情况,面包车具有完全正确的分类效果。在错误分类的SUV车型中,究其原因,主要包括:车颜色有两部分组成,红色部分则和皮卡车车型相同;车型结构太类似于皮卡车;背景中加入其他车型,这样会造成分类结果不准确。如果图片中仅仅包括车头的情况,在进行车型识别中也存在较大的难度,不同车型从前面角度进行观察,并没有太大的差异化,这点应该明确指出。

4结语

这里采用深度学习方法,结合先进的深度神经网络,以及功能强大的计算机工作站,对于四类汽车进行识别实验研究。经过试验表明,VGG16网络具有最好的分类效果,传统的经典分类算法往往仅为其准确率的一半左右。所以,可以看出深度神经网络具有强大的学习能力,能够在图像分类问题中表现出很大优势,应该不断优化深度神经网络的结构,以便其适用于更多的图像分类要求。

参考文献

[1] Hinton G E, Osindero S, Teh Y W.A Fast Learning Algorithm For Deep Belief Nets[J]. Neural Computation, 2006, 18(7):1527-1554.

篇4

关键词:矩形混凝土柱;屈服位移;人工神经网络;预测模型

中图分类号:TU375.3 文献标识码:A

文章编号:1674-2974(2015)11-0017-08

随着社会经济的发展,以及对近些年大地震的不断反思,基于性能的结构抗震设计已成为地震工程领域研究的热点问题和前沿发展方向,为众多国家的规程所提及或者采用(如FEMA273[1],FEMA356[2],ASCE41[3]和Eurocode8[4]).柱子作为实际结构中承受竖向荷载和抵抗水平荷载的关键构件,其屈服位移的合理评估对于性能化结构抗震设计中结构的动力响应、结构性能水准的评估和抗震延性设计有很大影响.综合以往对柱子屈服位移的研究,其定义不明确,经验理论模型预测结果离散度较大的特点,使柱屈服位移的合理取值成为一个亟待解决的问题.

对于柱屈服位移的定义,国内外研究者提出了不同的看法,如Park在文献\[5\]中总结了4种不同的定义方法,并推荐使用割线刚度的方法定义屈服位移.Panagiakos[6]认为判定柱屈服的条件是柱中纵向钢筋屈服或者混凝土发生严重的非线,并在此基础上给出了对应的经验公式.Montes[7]基于柱中钢筋屈服,提出了对应不同强度等级钢筋的柱有效屈服曲率计算公式.Berry[8]等模拟了PEER[9]柱性能数据库中255根矩形截面混凝土柱的屈服位移.钱稼茹[10]亦对该数据库中144根剪跨比大于2的矩形柱考虑轴压比的影响进行回归分析,提出了修正的柱屈服转角表达式.蒋欢军[11]综合Berry[8]关于屈服位移以及Priestley[12]对于屈服曲率的定义,在计算屈服位移的公式中加入了考虑柱端钢筋滑移和柱子剪切变形影响的修正项.Peru[13]基于Eurocode8[14]中柱屈服位移的定义,利用CAE方法对PEER柱性能数据库的柱屈服位移进行了预测.

柱屈服过程中钢筋和混凝土都发生了复杂的非线,加之影响屈服性能的因素也非常多,上述基于经验理论的非线性拟合公式预测柱屈服性能时存在预测结果离散度非常大的问题.人工神经网络作为一种在数据稀少的情况下能够有效预测数据输入和输出关系的手段而进入研究者的视野.人工神经网络是以人类神经活动为基础而发展起来的一项新颖的计算手段,适合处理复杂线性及非线性映射问题.由于其强大的非线性映射能力,神经网络在工程领域被用于预测圆柱形混凝土柱约束状态的极限压应力和对应的压应变[15],模拟金属疲劳裂纹开展速率[16].神经网络的其它工程应用还有如混凝土柱在弯曲失效模式下的极限变形预测[17],边坡稳定性分析[18],修正结构有限元模型[19]等.

本文基于经验理论模型对弯曲型混凝土柱屈服性能影响因素的研究,利用神经网络预测PEER柱性能库210组矩形混凝土柱的屈服性能,并以此来探讨神经网络对柱性能预测的可行性和有效性.通过对比神经网络的预测结果与实验结果以及经验理论模型估算结果,评价神经网络预测模型的效果.最后基于Carson敏感性分析方法验证所选神经网络输入参数的合理性并得到输入各参数对混凝土柱屈服位移的贡献程度.

1 经验模型预测实验数据库柱屈服转角

1.1 实验数据库

本文对弯曲型失效为主的柱屈服转角进行预测,在PEER[9]柱性能数据库中通过以下标准:1)柱子截面形状为矩形;2)柱子受往复荷载作用直至失效;3)柱子的实验失效模式为弯曲失效.选择210组实验数据,作为神经网络预测数据库.该预测数据库的主要属性参数范围如图1所示.

从图1中可看出本文所选数据库主要参数分布覆盖了常规设计的参数取值范围,具有广泛的代表性.

从图2和表1中可以看出,利用4种经验模型估算构件的屈服转角时,预测值与实验值的比值分布相当离散,ASCE41模型计算结果变异系数相对较小为0.443,而利用ACI318-08(b)变异系数则达到0.65.针对上述预测结果离散的问题,本文采用BP神经网络预测PEER数据库柱的屈服转角.

2 神经网络预测柱屈服转角方法

2.1 BP神经网络

BP神经网络作为前向型多层神经网络的一种,其实质是利用误差反向传播算法(Back-Propagation)对神经网络进行训练.BP神经网络结构由输入层、隐含层和输出层三个部分组成,Hornik[22]已经证明单隐层的神经网络可以实现任意精度的非线性映射关系.BP神经网络训练分为信息的正向输入和误差的反向传播两个阶段.在信息正向输入阶段,输入参数通过阀值和权值的调节,再经激活函数传递对计算结果进行输出;而在误差反向传播阶段则是通过计算输出层的结果和目标值之间的误差来反向调节各神经元的权值和阀值;在实际训练中这两个阶段交替进行,直至达到训练的性能目标为止.

但由于BP学习算法其本质是梯度下降学习算法,权值的修正是沿性能函数梯度的反向进行,使普通的BP神经网络在训练时有以下不足:1)作为一种局部搜索的方法,容易陷入局部极小值而不能得到全局最优的结果;2)由于BP算法本身反向传播的特点,使其在求解矩阵时耗费大量的计算时间,致使神经网络收敛速度很慢.针对上述不足,众多学者对其进行修正,其中L-M(Levenberg-Marquardt)[23] 算法因其能够进行快速迭代,又具有全局优化的特点而在小型神经网络中得以广泛应用.L-M算法中迭代项如式(3)所示:

综合以上讨论,可以确定影响柱屈服转角的主要参数有:混凝土的抗压强度、轴压比、剪跨比、纵向钢筋的屈服强度、配筋率以及纵向钢筋直径,并将作为神经网络预测模型的输入参数.

2.3 构建BP网络预测模型

根据前述从PEER数据库中遴选出的210组数据,180组作为BP神经网络的训练集,30组作为测试集.将2.2节讨论的6个主要参数作为神经网络输入参数,柱的屈服转角为输出结果,在MATLAB中建立如图3所示的3层BP神经网络N 6-H-1(其中输入层节点数为6,H为隐含层的节点数,输出层节点数为1).

利用MATLAB神经网络工具箱建立神经网络模型需要确定以下参数:学习函数、学习速率、激活函数、训练函数、学习周期、性能目标和隐含层节点数.神经网络参数选择如下:

利用BP网络进行预测分析,为避免因输入因子数量级差别而引起较大的网络误差,一般先将输入因子进行归一化处理.为避免激活函数其极值0和1附近饱和而伴随出现“麻痹现象”,这里采用如式(12)所示方法将神经网络的输入和输出规格化:

2.4 BP网络预测结果

根据以上讨论对图3中BP神经网络进行训练、测试,得到如表2所示的预测结果.

从表2中可以看出当隐含层节点数为13和15时,其测试集和训练集的性能函数值分别达到最小;而当隐含层节点数为17和21时,神经网络训练集和测试集的性能函数均有相对较好的取值.限于篇幅,本文只以13和15节点神经网络为例,讨论其对混凝土柱屈服性能预测的适用性.

图4和表3列出了对应节点数目为13和15的BP神经网络模型预测结果.为了进一步检验神经网络的预测能力,将这两组预测结果与实验结果进行线性回归分析,结果如图5所示.

根据表2和图5给出的预测结果以及对应的线性回归结果,其对应较小的性能函数MSE的值和较高的相关系数R的值,可以看出神经网络能够准确预测混凝土柱的屈服转角.

在表3和图4中可以看出,2种不同节点数的神经网络均能取得较好的预测结果,表3中训练集和测试集的最大变异系数仅为0.164和0.179.从图4~图5以及表2~表3分析可以看到,利用BP网络预测柱的屈服位移可以得到相当满意的结果.

2.5 BP网络预测结果与经验模型比较

为了对比说明神经网络预测结果的准确性,本文也将Elwood在文献\[20\]基于理论推导的有效刚度模型带入式(2),计算结果列于图6(a)中.同时对应式(1)中屈服位移的定义,计算对比文献\[11\]所提出的经验模型屈服转角:

从图6和表4中可以看出:在利用Elwood计算模型估算构件的屈服转角时,估算精度高于前述4种规范模型,但是也看出Elwood模型和Jiang经验模型估算结果依旧相当离散,其中Elwood模型计算结果变异系数较小为0.365,而Jiang模型的计算结果则为0.477.相对于上述6种经验理论模型,本文所提的13和15节点神经网络模型,其预测结果与实验值的比值均值为1;变异系数仅为0.16和0.13.

相对于前述6种经验理论模型中仅考虑其中一部分因素的影响或者用一个数学表达式描述输入参数和柱子屈服位移之间的关系,神经网络综合考虑输入参数之间的相互影响,通过权值和阀值矩阵的调节得到更为准确的预测结果.

2.6 BP网络敏感性分析

为得到输入参数对混凝土柱屈服位移的影响程度以及验证2.2节通过经验模型选用神经网络输入参数方法的合理性,本文采用基于Garson算法[28]的神经网络敏感性分析.作为基于连接权神经网络敏感性分析方法的代表,该方法通过连接权的乘积计算输入变量对输出变量的贡献程度.对于一个N X-H-1的神经网络,其计算表述如式(14)所示:

3 结 论

为了能够准确地预测混凝土柱构件的屈服性能,建立一种基于BP神经网络预测混凝土柱的屈服性能的方法.本文首先利用以往的经验理论模型详细解构了影响混凝土柱屈服性能的因素,并将混凝土强度、轴压比、剪跨比、纵向钢筋配筋率、纵向钢筋直径及纵向钢筋屈服强度作为BP神经网络的输入参数预测混凝土柱的屈服性能.通过与已有估算模型结果的对比,显示出利用BP神经网络预测模型的高效性.最后通过利用Garson敏感性分析方法证明了本文选择预测模型输入参数合理性,并评估了各个输入因素对混凝土柱屈服位移影响的程度.本文通过利用神经网络预测矩形混凝土柱的屈服性能,说明在数据不充分的情况下神经网络对于预测工程结果是一种很有潜力的手段.

参考文献

[1] FEMA 273 Guidelines for the seismic rehabilitation of buildings[S]. Washington: Federal Emergency Management Agency, 1997:13-14.

[2] FEMA 356 Prestandard and commentary for the seismic rehabilitation of buildings \[S\]. Washington: Federal Emergency Management Agency, 2000:218-218.

[3] ASCE/SEI41 Seismic rehabilitation of existing buildings \[S\]. American Society of Civil Engineers, Reston, VA. 2007:354-354.

[4] Eurocode 8:Design of Structures for earthquake resistance Part 1: General rules, seismic actions and rules for buildings\[S\]. Brussels European Committee for Standardization,1998:219-219.

[5] PARK R. Ductility evaluation from laboratory and analytical testing \[C\]// Proceedings 9th World Conference on Earthquake Engineering.Tokyo-Kyoto, Japan. 1988:VIII,605-616.

[6] PANAGIOKOS T B, FARDIS M N. Deformations of reinforced concrete members at yielding and ultimate \[J\]. ACI Structural Journal, 2001, 98(2): 135-148.

[7] MONTES H E, ASCHLEIM M. Estimates of the yield curvature for design of reinforced concrete columns \[J\]. Magazine of Concrete Research, 2003, 55(4): 373-383.

[8] BERRY M, EBERHARD M O. Performance models for flexural damage in reinforced concrete columns \[R\]. Pacific Earthquake Engineering Research Center, College of Engineering, University of California, 2004:158-158.

[9] PEER. Peer structural performance database \[DB/OL\]. \[2003-12-29\]. http: // nisee. berkeley. edu / spd.

[10]钱稼茹,徐福江.钢筋混凝土柱基于位移的变形能力设计方法\[J\]. 建筑结构, 2007(12): 30-32.

QIAN Jia-ru, XU Fu-jiang. Displacement-based deformation capacity design of RC columns \[J\]. Building Structure, 2007(12): 30-32.(In Chinese)

[11]JIANG Huan-jun, LU Xi-lin, KUBO T. Damage displacement estimation of flexure-dominant RC columns[J]. Advances in Structural Engineering, 2010, 13(2): 357-368.

[12]PRIESTLEY M. Brief comments on elastic flexibility of reinforced concrete frames and significance to seismic design \[J\]. Bulletin of the New Zealand National Society for Earthquake Engineering, 1998,31(4): 246-259.

[13]PERU I, FAJFAR P. Prediction of the forceCdrift envelope for RC columns in flexure by the CAE method \[J\]. Earthquake Engineering & Structural Dynamics, 2007,36(15): 2345-2363.

[14]Eurocode 8: design of structures for earthquake resistance CPart 2: Bridge\[S\]. Brussels European Committee for Standardization, 2005:133-133.

[15]ORETA A W, KAWASHIMA K. Neural network modeling of confined compressive strength and strain of circular concrete columns \[J\]. Journal of Structural Engineering, 2003, 129(4): 554-561.

[16]罗广恩,崔维成. 金属疲劳裂纹扩展速率的贝叶斯正则化BP神经网络预测\[J\]. 船舶力学, 2012, 16(4): 433-441.

LUO Guang-en, CUI Wei-cheng. Prediction of fatigue crack growth rate of metal based on Bayesian regularized BP neural network \[J\]. Journal of Ship Mechanics, 2012, 16(4): 433-441. (In Chinese)

[17]INEL M. Modeling ultimate deformation capacity of RC columns using artificial neural networks \[J\]. Engineering Structures, 2007, 29(3): 329-335.

[18]刘思思,赵明华,杨明辉,等. 基于自组织神经网络与遗传算法的边坡稳定性分析方法\[J\]. 湖南大学学报:自然科学版,2008,35(12): 7-12.

LIU Si-si, ZHAO Ming-hua, YANG Ming-hui, et al. Slope stability analysis method based on self-organizing neural network and genetic algorithm\[J\]. Journal of Hunan University: Natural Sciences, 2008, 35(12): 7-12. (In Chinese)

[19]王蕾,郁胜,李宾宾,等. 基于径向基神经网络的桥梁有限元模型修正\[J\]. 土木工程学报, 2012,45(S2): 11-15.

WANG Lei, YU Shen, LI Bin-bin, et al. Bridge model updating based on radial basis function neural network \[J\]. China Civil Engineering Journal, 2012,45(S2): 11-15. (In Chinese)

[20]ELWOOD K J, EBERHARD M O. Effective stiffness of reinforced concrete columns \[J\]. ACI Structural Journal, 2009, 106(4):483-483.

[21]ACI 318-2008 Building Code requirements for structural concrete and commentary \[S\]. Farmington Hills: 2008, American Concrete Institute, 2008:143-143.

[22]HORNIK K, STINCHCOMBE M, WHITE H. Multilayer feedforward networks are universal approximators \[J\]. Neural Networks, IEEE Transactions on, 1989, 2(5): 359-366.

[23]HAGAN M T, MENHAJ M B. Training feedforward networks with the Marquardt algorithm \[J\]. Neural Networks, IEEE Transactions on, 1994, 5(6): 989-993.

[24]郑罡,李贵乾. 钢筋混凝土桥墩有效刚度\[J\]. 土木工程学报, 2013,46(6):44-52.

ZHENG Gang, LI Gui-qian. Effective stiffness of reinforced concrete bridges piers \[J\]. China Civil Engineering Journal, 2013,46(6):44-52. (In Chinese)

[25]SEZEN H, MOEHLE J P. Bond-slip behavior of reinforced concrete members \[C\]//Proceedings of fib symposium on concrete structures in seismic regions. Athens, Greece. CEB-FIP. 2003.

[26]BERRY M J, LINOFF G. Data mining techniques: for marketing, sales, and customer support \[M\].New York: John Wiley & Sons Inc,1997:444-444.

篇5

关键词: 结构损伤;损伤识别;悬臂版;小波概率神经网络(WPNN);数据融合

Abstract: through the analysis of wavelet probabilistic neural network (WPNN) and data fusion technology in structural damage identification of the application of the principle, based on wavelet probabilistic neural network and data fusion technology model. To cantilever plate structure of numerical simulation test, the use of damage elements as input vector data training WPNN and data fusion of damage identification model, and selected four unit as a valid sample for inspection, testing results and a good agreement with the numerical test analysis, show that this method in engineering structure damage identification has good application.

Keywords: structural damage; Damage identification; Cantilever version; The probability of wavelet neural network (WPNN); Data fusion

中图分类号:TU973+.1 文献标识码:A文章编号:

1引言

当前,世界范围内建筑工业的重心正在从大规模新建转向新建与维修加固并举[1]。土木工程结构如房屋建筑、桥梁、海洋平台等在投入使用之后,由于地震、火灾、咫风等自然灾害或一长期作用的疲劳、腐蚀等原因而产生不同程度的损伤,结构损伤经过长期的累积必然会导致结构发生破坏或使用性能降低[2]。结构的损伤检测、诊断是土木工程结构经历自然灾害、长期作用后进行维修、加固的基础,是一项复杂的系统工程,其核心的问题是基于什么理论进行损伤的检测[3]。

在损伤识别以及其它的信息获取及处理过程中,信息的确定程度主要取决于选用传感器的种类、所选择的方法以及信息源本身[4]。进一步说,单一传感器获得的信息通常是不完整、不精确的。多传感器数据融合技术从多源信号中获取信息,减小了信息的不确定度,助于帮助制定决策。无损检测数据融合近几年发展很快。来自不同国家的很多人对它表现出极大的兴趣,他们已经提出了多种适用于无损检测数据融合的模型[5]。本文给出了一种新的基于小波概率神经网络(wavelet probabilistic neural network , WPNN)和数据融合的结构损伤检测方法模型,并给出了该模型在结构损伤识别中的应用。

2基于频率的结构损伤识别原理

运用试验测试的数据来确定结构系统运动方程中的参数叫做参数识别。参数识别的典型过程包括在结构系统的模态试验中测量由于外部激励作用下的结构响应;从响应的数据中直接地或通过数据处理技术确定系统的动力特性,诸如自振动频率和振型。结构的频率相对振型来说更容易较准确测量,而且能够反映结构整体特征,使其成为结构损伤识别中的重要特征参数。由于系统的自振动频率和振型是系统参数如质量和刚度的函数,所以可以将实验得到的结构动力特性与数学模型预测的结构动力特性进行比较从而确定系统参数[6]。结构损伤探测的基本方法正是基于以上的基本概念而产生的。

当不考虑阻尼时,结构振动的特征值方程为

(1)

其中矩阵 、 分别表示离散的质量矩阵、刚度分布, 与 分别是结构第i阶固有频率和正则化振型向量。设损伤使结构刚度矩阵、质量矩阵、频率及振型向量的变化分别为 、 、 和 则有

(2)

由于结构定部分的质量和刚度损失而引起的 、 的任何变化,都将在自振频率和振型的测量值中有所反应。当系统自振频率和振型的测量与原始未损伤系统自振频率和振型之间出现了差异时,就是表示系统中出现了损伤。一般来说,建筑结构的损伤对结构质量的影响很小,即可取 。将上式左乘 然后展开并忽略二阶项,则有

(3)

P.Cawley研究表明两阶频率的变化比值只与损伤位置有关,而与损伤程度无关。通常采用归一化的频率变化率,设第i频率的变化率为:

(4)

式中fui和fdi分别是结构损伤前后的第i阶频率。FCRi与损伤程度和损伤程度有关,假定损伤不引起质量变化,则有

(5)

将(9)式关于 级数展开并忽略高阶项,可得:

(6)

将频率变化按下式归一化,得

(7)

可见,归一化的频率变化也只与损伤位置有关。

3小波概率神经网络与多传感数据融合技术原理

目前,基于动力响应的各种智能损伤诊断技术得到研究,但这些技术存在着识别精度不高或适用条件等缺陷。迅速发展的数据融合技术具有充分利用各个数据源包含的冗余和互补信息的优点,可以提高系统决策的准确性和鲁棒性。基于小波概率神经网络(wavelet probabilistic neural network , WPNN)和数据融合的结构损伤检测方法将两者有机结合,扬长避短在损伤识别中显示出独有的优越性。

为了充分发挥数据融合与 WPNN 的优点,提出了基于 WPNN 与数据融合的损伤检测模型见图1,它首先将来自传感器 1 的结构响应进行数据预处理、特征提取,采用小波理论,获得该传感器的小波能量特征向量;依次类推,获得其他传感器的小波能量特征向量;然后将这些小波能量特征向量放入WPNN中,进行神经网络训练及融合计算;最后根据最大的概率密度函数值得到融合损伤识别结果及损伤类型。

图1基于WPNN与数据融合技术的损伤识别模型

可见,基于 WPNN 与数据融合技术的损伤识别与诊断过程是根据从目标的检测量得到损伤特征向量(模式),经过数据融合分析计算与处理,进行损伤识别及损伤定位的过程。

4结构损伤在线检测原理

结构损伤检测的核心技术是模式识别,而模式识别就是将理论分析得到的损伤模式特征库与实测的模式进行匹配。一般先通过分析各种不同的损伤序列或破坏模态来建立模式库,然后观察实测振动信号的变化,并将它与可能发生损伤的模式数据库进行比较,选择最相似的模式。神经网络本身具有模式匹配与记忆的能力,而且对于具有一定噪声的模式,识别效果更好。运用模式识别进行损伤检测与用神经网络进行损伤检测是两种不同的诊断方法,但二者密切相关,可以用神经网络来实现模式识别的损伤检测。结构损伤的在线检测原理如图2所示。

5数值模拟实验分析

为了验证神经网络技术在结构损伤检测中的有效性,利用ANSYS有限元程序模拟钢筋混凝土悬臂板,物理参数为:板长lm,宽度0.5 m,密度为7.85 ×103 kg/m3,杨氏模量2.02 ×105 MPa,泊松比0.3。数值模拟试验模型图如图3所示。以单元刚度折减15%来模拟结构的损伤,并忽略结构损伤引起的结构质量的改变。

悬臂板无损伤时前三阶频率为: =8.3206Hz,=35.6900Hz,=51.7780Hz。(理论值为 =8.5620Hz,=36.8200 Hz,=53.2900Hz),用16个位置刚度分别降低5%来模拟单元的损伤情况。

图2 结构损伤在线检测原理

图3 数值试验单元网格划分图

由于结构中某类损伤的发生可能只与几个监测参数相关联,即只跟损伤状态样本中与该损伤状态模式对应的非零特征量相关;同样,某一传感器的输出数据也可能与几类损伤状态模式有关。为了充分利用各传感器的输出数据进行损伤检测,采用1、3、4、5、6、8、9、10、12、13、14、15、16单元所得到的训练样本进行损伤检测与识别模型的训练,基于 WPNN 与数据融合的损伤识别模型的训练样本数可以确定出来,检验样本数为2、7、10、11单元的数据。WPNN模型的拓扑结构为20-165-5-5,即输入层神经元个数为 20,模式层神经元个数为 165,求和层和决策层中的神经元均为5 个。模型配置训练好后,用另外2、7、10、11这4个检验样本进行检验,基于 WPNN 与数据融合损伤检测方法的识别正确率较好。

6结论

多传感器数据融合损伤识别性能较好,使用基于 WPNN 与数据融合的损伤识别方法能够提高损伤识别与诊断的准确性与可靠性。多传感器所采集的信息具有冗余性,当其中有一个甚至几个传感器信息不可靠时,经过数据融合处理后会使基于 WPNN 与数据融合的损伤识别方法在利用这些信息时具有良好的容错性。总之,利用神经网络进行特征级数据融合对结构损伤进行诊断与识别,具有很大的潜力,值得进一步在理论与实际应用上开展深入研究,这种方法也必定将成为结构损伤诊断研究领域的新方法。

参考文献

[1] 李国强,李杰.工程结构动力检测理论与应用[M].北京:科学出版社, 2-4

[2] Tsou P., Shen M. H. Structural damage detection and identification using neural networks [J]. AIAA Journal, 1994,32: 176-183

[3] 杨英杰,虞和济.结构损伤状态识别的神经网络方法[J].东北大学学报,1994,15 (2):210-214.

[4] 周先雁,刘希,沈蒲生.用含裂纹的梁单元识别混凝土框架结构损伤[J].振动工程学报,1999,12(1):115-119

篇6

关键词:卷积神经网络;点击率预测;搜索广告

中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-

Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network

LI Siqin, LIN Lei, SUN Chengjie

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.

Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising

0 引 言

随着Web搜索技术的成熟,搜索广告已经成为互联网行业的主要收入来源之一,其根据用户输入的查询词,在搜索的结果页面呈现出相应的广告信息。广告媒介的收益通过每次点击费用(CostPerClick,CPC)与广告点击率(Click-Through Rate,CTR)预测共同影响而得到,即CPC*CTR。由于用户点击广告的概率随着广告位的排放顺序呈递减趋势,因此对CTR进行准确高效的预测,并将CTR高的广告投放在搜索结果页面靠前的位置,不仅能增加广告媒介的收益,还能提高用户对搜索结果的满意程度。

广告点击率预测是广告算法中最核心的技术,近年来被学术界广泛关注。部分学者使用基于推荐方法的模型来解决CTR预测问题。霍晓骏等人[1]采用协同过滤算法,为页面找到与其相似的其他邻居页面,实现CTR的预测,以此作为基础进行广告推荐,但当相似页面的数量增加时,该方法的结果质量会严重下滑。Kanagal等人[2]提出了一种聚焦矩阵分解模型,针对用户对具体的产品的喜好以及相关产品的信息进行学习,解决因用户-产品交互活动少而造成的数据稀疏问题。在文献[2]的基础上,Shan等人[3]提出了一种立方矩阵分解模型,通过对用户、广告和网页三者之间关系的立方矩阵进行分解,利用拟合矩阵的值来预测CTR,虽然立方矩阵分解模型增加了一维交互关系,但所刻画的交互关系仍然十分局限,不能在CTR预测中充分挖掘广告所有特征之间的联系。

作为典型的预测问题,很多研究中通过将CTR预测问题看作分类或者回归问题来解决,其中最常见的是应用线性模型来预测CTR。Chapelle等人[4]使用动态贝叶斯网络,通过对用户产生的点击过程建立模型,考虑级联位置的信息模拟出特定位置与相近位置的相关性,以判断该位置上的广告是否满足用户搜索要求。Chakrabarti等人[5]利用点击反馈的相关性,通过在网页和广告词等特征上使用逻辑回归模型提高广告检索和预测的效果。Wu等人[6]基于融合的思想,将不同线性模型的实验效果相结合,来提高搜索广告CTR预测的结果。真实的场景中CTR的预测并非简单的线性问题,因此,一些学者开始使用非线性模型来解决CTR的预测。Dave等人[7]在搜索广告点击信息以及广告商账户信息上提取语义特征,使用基于投票思想的梯度提升决策树模型,提高了CTR预测的效果。Zhang等人[8]利用神经网络模型对影响搜索广告点击率的因素进行的探索,从特征因素方面提高CTR预测的结果,但是资源单一,数据交互的关系没有获得良好的利用。

本文对基于卷积神经网络(Convolution Neural Network,CNN)的CTR预测进行研究,通过卷积与亚采样操作的结合,能更好地学习出数据特征之间的关系,不仅解决了线性模型无法模拟真实广告数据场景的问题,也解决了浅层学习模型无法深入挖掘特征间相互关系的问题,并且较之于传统的神经网络,CNN能更好地理解特征之间的关系。在真实的数据集上的实验验证了本文的方法能够提高搜索广告中CTR预测的AUC值。

1卷积神经网络模型

1.1 卷积神经网络基本模型

卷积神经网络作为人工神经网络之一,目前已成为深度学习领域中研究的热点,权值共享以及局部窗口滑动的特点使之能更好地模拟出生物神经网络。卷积神经网络在结构上有两个重要的组成部分:卷积层和亚采样层。如图1所示。

图1 卷积层与亚采样层结构

Fig.1 Convolution layer and sub-sampling layer structure

在卷积层中,原始特征通过卷积核进行卷积得到输出的特征,使用不同的卷积核就可以得到一系列不同的输出特征。对卷积层的计算,有如下公式:

(1)

这里, 是sigmoid 函数, , ; 代表输入特征上选定的窗口,即在卷积过程中当前卷积核在计算时所对应在输入特征上的位置; 和 分别是第 层输入特征和第 层输出特征上相应的值; 是卷积核的权重值; 是特征的偏置,每一层对应一个。

卷积过程,一个卷积核通过滑动会重复作用在整个输入特征上,构建出新的特征。同一个卷积核进行卷积时,共享相同的参数,包括同样的权重和偏置,这也使要学习的卷积神经网络参数数量大大降低了。而当我们使用不同的卷积核进行卷积时,可以得到相应的不同的输出特征,这些输出特征组合到一起,构成卷积层的输出。

在亚采样层,前一个卷积层的输出将作为该层的输入特征,首先设定大小的窗口,然后通过滑动,用窗口区域中最大(或平均)的特征值来表示该窗口中的特征值,最后组合这些特征值得到降维后的特征。亚采样过程可表示如下:

(2)

这里,类似于卷积层, 和 分别是第 层输入特征和第 层输出特征上相应的值, 是特征的偏置; 表示取最大值 或者平均值 的函数。

典型的卷积神经网络通常由n(n>=1)个卷积层和亚采样层以及最末尾的m(m>=1)全连接层组合而成。一个亚采样层跟随在一个卷积层后出现,通过这若干卷积层和亚采样层后得到的特征,将经过全连接层与输出层相连。全连接层公式如下:

(3)

这里, 是sigmoid函数, 是计算第 层到第 层时的权重值。

1.2基于卷积神经网络的CTR预测模型

研究中使用卷积神经网络对搜索广告的CTR进行预测,网络结构如图2所示。

图2 卷积神经网络在搜索广告点击率预估中的应用

Fig.2 Convolution neural network in search ad click rate through prediction

实验中一共设置了两个卷积层、两个亚采样层以及一个全连接层。首先从历史日志中提取相应的特征构建出输入(Feature_Input),设置好卷积的窗口大小后根据公式(1)对输入特征进行卷积,每一次卷积是对窗口内所有值的组合,因此卷积过程相当于特征融合过程。对卷积后得到的特征,设置亚采样的窗口并根据公式(2)进行最大值-采样,选取出窗口中的最有表达能力的特征值(最大特征值)表示整个窗口的特征,因此亚采样过程相当于特征的萃取过程。整个卷积和亚采样过程的结合,模拟出了人对事物的理解和总结的过程。最后将特征经过一层全连接后连接到输出,得到最终的预测结果。

在一次特定的卷积(或亚采样)全过程中即训练的一次迭代过程中,权值并不会随着窗口的滑动而改变,即在计算中,所有窗口滑过的特征享受同样的权值。这也是CNN区别于其他神经网络的特点――权值共享。如此即使得CNN更方便训练,更能多角度地对特征进行学习。

2特征构建

本文所采用的实验数据集为KDD Cup 2012中Track 2提供的数据集。该数据由腾讯公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因为涉及公司商业信息,数据经过哈希处理。实验数据集中,每条记录包含12个属性,各属性详解如表1所示。

研究按照实际含义将这12个属性构造了四大类特征:历史点击率特征、相似度特征、位置特征和高影响力特征。

2.1基于卷积神经网络的CTR预测模型

历史点击率特征是不同类别ID在历史数据中的点击率,虽然比较简单但十分有效,因为历史点击率在一定程度上代表了类别ID对某个广告感兴趣程度的高低,当一个ID对某个广告的历史点击率高时,意味着其对这个广告更感兴趣,后续点击的概率也更大。

历史点击率( )是点击数( )与展示数( )之比,在统计计算过程发现有很多情况下有些类别信息没有点击实例,因此研究采用了平滑方法解决零值问题,根据公式(4)来计算平均点击率。计算公式如下:

(4)

公式中的 和 是调节参数,根据公式(4)计算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的历史点击率。

2.2相似度特征

相似度特征用来刻画属性两两之间的相似程度,用户搜索的内容与被投放的广告属性相似度高时,广告被点击的概率更大。例如当搜索内容Query与广告关键字属性Keyword相似度高时,意味着网页投放的广告与用户期望搜索的广告结果相似度高,更符合用户点击广告的动作。

通过对Query、Keyword、Title、Description的属性描述文件构造出相关的TF-IDF向量,Query为用户搜索内容,Keyword,Title,Description是广告的相关属性,数据集提供的属性信息都是经过哈希后的数字形式,但是属性之间的相对含义不变,然后计算相互之间的余弦相似度作为特征。

2.3位置特征

该特征描述的是指定广告在搜索结果页面中的位置信息。用户搜索时需求的多样化要求在对广告进行排序和投放时,在结果页面靠前的位置中尽可能地投放满足用户需求的广告,从而最大化用户的满意度、提高用户点击的兴趣[9]。因此,研究即用当前预测广告的相对位置Pos来刻画该广告在结果页面中排序靠前的程度,其定义如下:

(5)

这里, 指页面投放的广告总数, 指当前所预测广告的位置。

2.4位置特征

在预测模型中,ID属性信息通常采用one-hot形式的特征编码方式,在将不同的属性经过one-hot编码后的特征向量组合在一起,这样方式简单直观,却使得特征的维度巨大并且非常稀疏。然而在这庞大且稀疏的特征中,绝大部分维度上的特征值对整个模型的预测结果贡献非常小甚至为零,只有少数维度上的特征值对预测结果有较高的影响力。因此研究采用L1范数正则化的方式,在逻辑回归模型的代价函数中加入L1范数[10],使得模型学习得到的结果满足稀疏化,在学习参数中按大小顺序取出前N维权重较大的,将这N维权重对应位置上的特征值构建新的特征,称为高影响力特征,考虑到实验硬件,取N=180。

3 实验结果与结论分析

3.1数据准备

实验目标是通过给定的信息预测搜索网页的广告点击率,由于数据量过大并且正负样本不平衡,实验中从训练集随机采样10%作为本文实验中模型训练的训练集,既缩小了样本空间,同时随机采样也保持了原始数据的分布信息。实验中随机抽取部分样本作为验证集用于参数的调节。本文所用测试集为 KDD Cup 2012中track 2的全部测试数据,因此本文的结果与KDD Cup 2012中track 2比赛的结果具有可比性。数据的统计信息如表2所示。

这里, 、 分别表示结果中预测对的正样本数和负样本数, 、 分别表示结果中预测错的正样本数和负样本数。对于广告点击率预测问题,较大的AUC值代表了较好的性能。

3.2实验设置和结果分析

实验的操作系统为Ubuntu 12.04 LTS OS,卷积神经网络在4G RAM 的NVIDIA GeForce GT 610 GPU条件下运行。过程中选用了Dense Gaussian对卷积层、亚采样层的边和节点进行初始化,用常数初始化输出层,学习卷积神经网络各边权值时的优化函数使用梯度下降算法,其中学习率为0.01、动量项为0.9,训练步数为100,设置公式(4)中参数α=0.05,β=75。实验时使用逻辑回归模型(LR)、支持向量回归模型(SVR)和深度神经网络(DNN)作为对比方法,所有方法都使用相同的特征,其中DNN的层数以及每层的节点数与卷积神经网络相同。

具体地,首先探究了卷积神经网络中节点的设置,因为在CNN中后续层的节点数根据第一个卷积层和每层卷积(或亚采样)滑动窗口的大小计算得到,并以第一个卷积层节点的设置为实验变量,同时控制DNN中每层的节点数均与CNN相同,在验证集上的实验结果如图3所示。

从图3可以看出,随着节点的增加,AUC的值也在不断增长,在一定范围内,节点数越多,实验的结果越好。但随着节点数的增大,模型的训练时间也在延长,对设备的开销需求也在升高,综合上述因素,最终将第一层的节点数设为9 216。

CNN与各对比实验的实验结果如表3所示,可以看出CNN的效果最佳,此外在表中还列出了KDD Cup 2012 track 2比赛中第一名的结果。DNN的AUC值优于LR和SVR,验证了深度学习模型比浅层学习模型更适合解决CTR预估问题,同时CNN的结果高于DNN,说明CNN中卷积层的特征融合和亚采样层的特征萃取过程是有效的。本文中CNN目前的实验结果略低于KDD Cup 2012 track 2中第一名的结果,原因是比赛队伍使用了多模型融合并提取了庞大的(千万维)输入特征。

进一步地,实验探索了每一类特征对搜索广告点击率预测的贡献。在所有特征的情况下,去掉某一类特征来进行预测,实验结果如表4所示。实验结果表明,去掉任意一类特征都将使得实验效果有所下降。其中去掉历史点击率特征效果下降得最明显,说明用户是否点击广告,与其之前的点击行为非常相关。而去掉位置特征时,效果下降得最为不明显,因为在实验使用的数据集中,每个页面最多仅呈现三个广告,页面中的广告数少时,位置对用户点击的影响小。

4 结束语

对搜索广告点击率的有效预测不但能够更好的提高在线广告投放的性能,增加广告商的收益,还能增强用户的体验。研究使用卷积神经网络CNN对搜索广告点击率进行预测,对特征因素的分析之后,在真实数据的环境下对搜索广告点击率进行预测的实验本文的方法的效果相对于其他方法有明显的提高。本文的主要贡献有:(1)本文提出了基于卷积神经网络的搜索广告点击率预测的方法。(2)针对高维特征,提出了一种特征选择策略,可以在计算能力受限的情况下使用CNN模型来解决广告点击预测问题,并取得较好效果。在未来的工作中,一方面要继续研究更有效的特征来提高对点击率的预测效果,另一方面也将尝试对CNN模型的内部细节进行改进,使之更适合我们的预测场景。

参考文献:

[1] 霍晓骏,贺牛杨燕. 一种无位置偏见的广告协同推荐算法[J]. 计算机工程, 2014, 40(12): 39-44.

[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.

[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.

[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.

[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.

[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.

[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.

[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.

[9] 林古立.互联网信息检索中的多样化排序研究及应用[D].华南理工大学,2011.

篇7

关键词:稀疏系数;超分辨率重建;在线字典学习;单图

中图分类号:TP391.9 文献标志码:A

0引言

单幅图像的超分辨率重建可以定义为在原始低分辨率单幅输入图像的基础上增加更多细节和分辨能力从而生成一幅相应高分辨率图像的过程,总体上看可以按其任务归为四类:1)预测模型法。通过预定的数学模型从低分输入图像生成高分图像。加权平均等插值方法得到的像素强度值和相邻像素局部相似,能生成较好的平滑区域,但边缘等高频区域产生大梯度时表现不佳。2)边缘先验法。利用从边缘特征所学习到的图像先验信息重建高分图像。边缘是重要的原始图像结构,在视觉感知上起着决定性的作用。由于先验信息都由边缘学习得来,重建图像边缘质量高,锐度适当且伪影较少;但边缘先验对其他高频结构(如纹理)建模的有效性较差[1]。3)图像统计法。利用各种图像属性作为先验信息重建高分图像。重尾梯度分布、大量梯度的稀疏特性和全变分等方法用来减少运算量或对低分输入图像进行正则化,算法较复杂。4)图像块法。利用学习到的高分、低分图像的映射函数恢复较好的图像细节,效果较好但耗时较长。映射函数的学习方法有多种,如马尔可夫随机场、支持向量回归、稀疏字典表示等[2]。

随着机器学习和压缩感知理论的引入,基于学习的超分算法在单图超分应用中越来越多。Yang等[3-4]提出了基于稀疏编码和字典学习的稀疏编码超分(Sparse Coding SuperResolution,SCSR)法,超分图像边缘锐度较好但伪影较明显。Yang等[4-5]都用联合字典训练生成过完备字典。Glasner等[6]提出了一种基于图像自身冗余信息的样本库建立方法,插值产生样本库,但自适应能力较差。Zeyde等[7]将高分字典和低分字典的训练分开进行,对图像块进行降维处理,引入神经网络近似并用伪逆式简化高分字典的训练,提高了超分速度。Marial等[8]提出的在线字典学习(Online Dictionary Learning,ODL)法,使字典学习不再局限于小规模、确定的训练样本,提高了字典训练的精度,图像复原应用效果较好。Yeganli等[9]将基于ODL的超分辨率重建与其他算法作了比较,但提升效果有限。杨波等[10]在小波域中进行双稀疏编码,重建效果较好。另外,许多学者[11]将重建和学习方法的优点结合,提出了基于图像金字塔的多级字典超分辨率重建算法。以SCSR法为代表的基于学习的超分算法能够取得较好的单图超分效果,若能有效抑制其边缘伪影,增加纹理细节,超分效果将有较大幅度的提高。

4结语

利用稀疏编码进行超分辨率重建生成的目标高分图像边缘锐度较好,但沿着边缘区域同时会生成较明显的伪影,且图像纹理细节会产生轻微的扭曲。针对这些问题,本文算法合理地处理训练和重建两个阶段中稀疏系数的关系,通过设置不同的正则化参数,独立地调整两阶段的稀疏系数,分开训练得到较好的高分字典和低分字典。此外,还在训练阶段引入在线字典学习算法,通过外部训练图像分开生成更精确的高分字典和低分字典,在消除伪影的同时,不仅能保持图像边缘的锐度,还能较好地恢复图像的纹理细节。本文算法主要关注训练阶段,后续研究中可以设计适合本文算法的重建模型,进一步提高单幅图像的超分辨率重建效果。

参考文献:

[1]

YANG C Y, MA C, YANG M H, et al. Singleimage superresolution: a benchmark[C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin: Springer, 2014:372-386.

[2]

FREEMAN W T, PASZTOR E C, JONES T R. Examplebased superresolution [J]. IEEE Computer Graphics and Applications, 2002, 22(2): 56-65.

[3]

YANG J C, WRIGHT J, MA Y, et al. Image superresolution as sparse representation of raw image patches[C]// Proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.

[4]

YANG J C, WRIGHT J, MA Y. Image superresolution via sparse representation [J]. IEEE Transactions on Image Processing, 2010, 19(11):2861-2873.

[5]

HE L, QI H U, ZARETZKI R. Beta process joint dictionary learning for coupled feature spaces with application to single image superresolution [C]// Proceedings of the 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 345-352.

[6]

GLASNER D, BAGON S, IRANI M. Superresolution from a single image [C]// Proceedings of the IEEE 2009 International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 349-356.

[7]

ZEYDE R, ELAD M, PROTTER M. On single image scaleup using sparserepresentations[C]// Proceedings of the 7th International Conference on Curves and Surfaces, LNCS 6920. Berlin: Springer, 2010:711-730.

[8]

MAIRAL J, BACH F, PONCE J, et al. Online learning for matrix factorization and sparse coding [J]. Journal of Machine Learning Research, 2010, 11(10): 19-60.

[9]

YEGANLI F, OZKARAMANLI H. Improved online dictionary learning for sparse signal representation[C]// Proceedings of the 22nd Signal Processing and Communications Applications Conference. Piscataway, NJ: IEEE, 2014:1702-1705.

[10]

杨波, 吴纪桃, 谢晓振.小波域中双稀疏的单幅图像超分辨[J].中国图象图形学报, 2014, 19(11):1570-1576.(YANG B, WU J T, XIE X Z. Single image superresolution in wavelet domain with double sparse [J]. Journal of Image and Graphics, 2014, 19(11):1570-1576.)

[11]

ZHANG K, GAO X, TAO D, et al. Multiscale dictionary for single image superresolution[C]// Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1114-1121.

[12]

YANG J, LIN Z, COHEN S. Fast image superresolution based on inplace example regression[C]// Proceedings of the 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 1059-1066.

[13]

SADEGHI M, BABAIEZADEH M, JUTTEN C. Dictionary learning for sparse representation: a novel approach [J]. IEEE Signal Processing Letters, 2013: 20(12):1195-1198.

[14]

LEE H, BATTLE A, RAINA R, et al. Efficient sparse coding algorithms[EB/OL]. [20150510]. http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2006_878.pdf.

[15]

EFRON B, TIBSHIRANI R. Least angle regression [J]. The Annals of Statistics, 2004, 32(2):2004:407-451.

Background

This work is partially supported by the National Natural Science Foundation of China (61271256), the Team Plan Program of the Outstanding Young Science and Technology Innovation of Colleges and Universities in Hubei Province (T201513), the Natural Science Foundation of Hubei Province (2015CFB452), the Research Project of Education Department in Hubei Province (B2015080).

NI Hao, born in 1981, M. S., lecturer. His research interests include machine learning, computer vision.

RUAN Ruolin, born in 1974, Ph. D., professor. His research interests include video and audio coding, image processing.

篇8

2.基于混合高斯和均值滤波法的运动检测方法钟珞,刘剑,ZHONGLuo,LIUJian

3.电源监控系统中的远程采集终端设计夏泽中,苏宏良,朱玉璟,XIAZezhong,SUHongliang,ZHUYujing

4.一种面向服务的异构系统间数据交换平台设计孙璐,SUNLu

5.基于CAN总线的接触网隔离开关监控系统设计王小伟,余先涛,戴延浩,WANGXiaowei,YUXiantao,DAIYanhao

6.基于SQL*Loader的海量数据装载方案优化秦峰巍,胡家宝,崔龙卫,QINFengwei,HUJiabao,CUILongwei

7.基于Netfilter的网络地址转换研究与实现郑培群,苏扬,郭倩,ZHENGPeiqun,SUYang,GUOQian

8.采用ADuC7026的网络分布式数据采集系统赵京,ZHAOJing

9.纺织厂生产监控系统的数据采集和拟合方法邵景峰,李永刚,王进富,任克俭,党金房,李敏,SHAOJingfeng,LIYonggang,WANGJinfu,RENKejian,DANGJinfang,LIMin

10.夫琅和费衍射实验仿真平台的构建杨应平,赵盾,胡昌奎,陈文杰,YANGYingping,ZHAODun,HUChangkui,CHENWenjie

11.一种周期材料电磁波特性实验研究郑钧宜,余昌文,章桥新,ZHENGJunyi,YUChangwen,ZHANGQiaoxin

12.小型低风速风力发电机叶片设计钱杰,张锦光,吴俊,QIANJie,ZHANGJinguang,WUJun

13.低温环境下光纤光栅啁啾异常现象研究周建华,张东生,付荣,ZHOUJianhua,ZHANGDongsheng,FURong

14.水库冰冻期冰内温度的模拟闫慧荣,刘文涛,冯民权,闵涛,YANHuirong,LIUWentao,FENGMinquan,MINTao

15.基于小波的浮筏振动信号特征提取方法李萍,王春麟,LIPing,WANGChunlin

16.磁悬浮主动隔振器漏磁分析与优化黄海,宋春生,刘明尧,HUANGHai,SONGChunsheng,LIUMingyao

17.变刚度双层隔振系统仿真分析姚俊辉,宋春生,YAOJunhui,SONGChunsheng

18.基于ANSYS层单元的翻新轮胎有限元仿真分析齐晓杰,于建国,QIXiaojie,YUJianguo

19.双质量飞轮传动轴系扭振模拟试验台研究吴飞,毛恒,WUFei,MAOHeng

20.一类Liénard方程Poincaré分岔极限环的不存在性吕宝红,L(U)Baohong

21.中国非金属矿物材料信息资源库系统设计杨琦峰,王俊,聂规划,宋平,YANGQifeng,WANGJun,NIEGuihua,SONGPing

22.射频感应认证技术在服务行业中的应用王思捷,WANGSijie

23.企业协同知识创新系统的多级可拓评价研究李朝明,杜宝苍,黄利萍,LIChaoming,DUBaocang,HUANGLiping

24.产业链视角下汽车产业创新服务平台研究汪秀婷,陈天笑,WANGXiuting,CHENTianxiao

25.我国航运企业信息化发展趋势及战略选择何山,马云涌,HEShan,MAYunyong

26.我国两化融合水平区域差异分析黄体鸿,侯仁勇,陈天笑,HUANGTihong,HOURenyong,CHENTianxiao

27.云南省循环经济发展的生态效率测度研究苏芳,闫曦,SUFang,YANXi

28.我国就业的影响因素及其效应的动态分析张应碧,赵韫,ZHANGYingbi,ZHAOYun

29.我国服务贸易发展的现状分析与对策研究胡琴,HUQin

30.奇点分离法在美式期权定价中的应用王建华,董志华,WANGJianhua,DONGZhihua

31.基于强化缓冲算子的装备修理价格预测谢力,魏汝祥,陆霞,王雷,XIELi,WEIRuxiang,LUXia,WANGLei

32.基于GARCH模型的WTI原油价格波动性分析杨云飞,鲍玉昆,张金隆,YANGYunfei,BAOYukun,ZHANGJinlong

33.基于RNN模型的高科技企业经营困境预测尹鹏,王宗军,肖德云,薄纯林,YINPeng,WANGZongjun,XIAODeyun,BOChunlin

34.创业者与管理者决策方式的比较陈震红,董俊武,CHENZhenhong,DONGJunwu

35.金融产品创新链研究姚良,YAOLiang

36.基于复杂网络的股票社团化分析王娟,王卫华,WANGJuan,WANGWeihua

37.中美上市公司内部控制信息披露比较研究胡蕾,祝焰,HULei,ZHUYan

38.业主支付担保的博弈论分析郑梅华,张云波,ZHENGMeihua,ZHANGYunbo

39.汽车制造企业生产成本管理研究王秀梅,李明,WANGXiumei,LIMing

40.面向供应链的ERP研究综述徐俊,徐学军,王旭阳,XUJun,XUXuejun,WANGXuyang

41.FMEA和价值工程方法在生产流程中的应用计三有,王勇,JISanyou,WANGYong

42.服务供应链中核心价值内部客户评价方法喻立,YULi

43.基于模糊神经网络的第三方物流项目风险预测王慧萍,WANGHuiping

1.基于ANSYS的储热室隔热性能数值模拟程晓敏,梅丽君,吴兴文,熊文,CHENGXiaomin,MEILijun,WUXingwen,XIONGWen

2.一种基于G.723.1的大容量自适应信息隐藏算法王春辉,黄永峰,王卫华,邓北星,WANGChunhui,HUANGYongfeng,WANGWeihua,DENGBeixing

3.基于线阵CCD的在线亚像素边缘测量系统雷波,卢红,LEIBo,LUHong

4.基于S7-400PLC的水泥破碎控制系统设计肖峻,刘冰,刘艾明,XIAOJun,LIUBing,LIUAiming

5.基于Labview的缓冲材料动态压缩测试系统设计卢杰,焦丽娟,周廷美,LUJie,JIAOLijuan,ZHOUTingmei

6.一种新的无线传感器网络分布式节点定位方法贺远华,黎洪生,HEYuanhua,LIHongsheng

7.几种应用于人脸识别的光照预处理方法对比孟芳兵,吴雷,MENGFangbing,WULei

8.一种变步长LMS自适应噪声抵消算法研究李晓艳,聂明新,余文芳,LIXiaoyan,NIEMingxin,YUWenfang

9.一种改进的协同过滤推荐算法刘旭东,陈德人,王惠敏,LIUXudong,CHENDeren,WANGHuimin

10.总变差正则化方法在条形码信号复原中的应用郭永琪,吴传生,何进荣,GUOYongqi,WUChuansheng,HEJinrong

11.基于同步模式的EXCEL与.NET数据交互金勇,兰放,JINYong,LANFang

12.C语言可视化编程环境的设计与实现陈雪梅,韩洁琼,CHENXuemei,HANJieqiong

13.基于均值平移的输液可见异物检测方法杨伟强,刘佐民,YANGWeiqiang,LIUZuomin

14.基于电机主动同步原理的AMT设计吴森,周炳峰,樊荣,WUSen,ZHOUBingfeng,FANRong

15.汽车制动管路压力波动响应特性仿真邓红星,王宪彬,DENGHongxing,WANGXianbin

16.一种低功耗一体化TPMS方案设计刘盛强,王善坡,LIUShengqiang,WANGShanpo

17.基于迂回方式的继电保护信道重构技术鲍晓慧,BAOXiaohui

18.基于FBG分布式传感的简支板动态应变测量匡维,宋春生,KUANGWei,SONGChunsheng

19.不同型钢截面定尺切断设备的优化选择于彩敏,YUCaimin

20.二维离散数据的数值微分问题的积分算子方法朱华平,吴传生,吕小红,ZHUHuaping,WUChuansheng,LVXiaohong

21.铁矿石生产运输管理系统的研究韩少军,白俊江,王龙,HANShaojun,BAIJunjiang,WANGLong

22.文峪河水库溃坝洪灾损失预测研究杨建明,冯民权,芦绮玲,韩巧欠,YANGJianming,FENGMinquan,LUQiling,HANQiaoqian

23.网络信息资源管理杨琼,YANGQiong

24.冲压厂生产计划编排系统研究王秀梅,杜巧红,WANGXiumei,DUQiaohong

25.基于RFID的供应链管理信息系统集成廖燕,LIAOYan

26.移动商务价值形成机制的多智能体模拟曾庆群,胡斌,ZENGQingqun,HUBin

27.基于技术的绩效管理信息系统研究林慧,LINHui

28.长江浅险航段通航环境危险度分析杨亚东,YANGYadong

29.应用模糊综合评价法进行城市布局的评判研究蓝悦明,刘会会,王楠,LANYueming,LIUHuihui,WANGNan

30.竞争与合作设施并存的最大覆盖选址问题,马云峰,WANGDan,MAYunfeng

31.我国交叉型乘用车市场研究邹蔚,莫易敏,姚佐平,ZOUWei,MOYimin,YAOZuoping

32.构建中国海外投资促进体系研究综述刘思施,马丽娜,LIUSishi,MALina

33.新股询价区间、价格调整与上市首日收益邹斌,夏新平,ZOUBin,XIAXinping

34.美联储货币政策与房地产泡沫关系实证分析刘星,LIUXing

35.美国反倾销问题的新进展马红,张函,MAHong,ZHANGHan

36.基于最高限价的武器装备价格规制模型研究黄煜,孙胜祥,任开成,HUANGYu,SUNShengxiang,RENKaicheng

37.基于定制成本的厂商生产战略研究张子慧,张隐,张荣耀,ZHANGZihui,ZHANGYin,ZHANGRongyao

38.周期性补货系统中多类顾客的库存分配策略汪小京,刘志学,郑,WANGXiaojing,LIUZhixue,ZHENGChangzheng

39.基于C2C模式下顾客忠诚影响因素的研究刘雁妮,周志民,任思颖,LIUYanni,ZHOUZhimin,RENSiyin

40.基于熵权的装备研制技术成熟度评估方法谢梅芳,杨建军,XIEMeifang,YANGJianjun

41.海事局人力资源结构合理性度量研究罗帆,王慰,赵玉玮,吴木林,LUOFan,WANGWei,ZHAOYuwei,WUMulin

42.基于委托关系的软件企业经营者精神激励付文锋,张金隆,李顺国,FUWenfeng,ZHANGJinlong,LIShunguo

6.用于VR网上祭祀的智能虚拟化身Agent模型魏洪涛,陈煜

7.分布式煤矿水文监测系统的数据集成研究李存荣,熊萍

8.基于形态学的嵌入式零树小波图像编码算法石云,曾中伟,汪丽丽,张素文

9.一类具有随机远程感染机制的SEIRS传播模型李常菊,黄樟灿

10.面向BACnet协议的工控OPC服务器设计李春洋,周宁

11.基于还原保护的分布式病毒防御机制研究黄小龙,黄艾卿

12.遗传算法求解巡回旅行商问题的最优参数组合罗旭,肖俊,李辉鹏

13.甚高频数据传输电台的混频电路设计姜凤娇,赵树平,高艳萍,祝开艳,曹立杰

14.超磁致伸缩材料特性测量的实验设计高峰

15.一类非线性微分方程极限环的不存在性吕宝红,龙品红

16.BP神经网络在发动机万有特性中的应用颜伏伍,王洪建,田韶鹏,袁智军

17.基于OpenGL的虚拟铺放机建模及参数化驱动徐东亮,李东海

18.路面不平度的测量石锋,段虎明,杨殿阁,张开斌,谢飞

19.液压模块式组合挂车转向机构的矩阵变换算法邓小禾,马力,乔媛媛

20.客车气动ABS控制电磁阀的性能分析与仿真涂鸣,李刚炎

21.含间隙的平面四杆机构运动特性分析吴焕芹,程强,钟诗清

22.一种新的齿轮失效数控演示台及其应用研究胡瑞,刘佐民,张一兵,王斌球

篇9

    论文摘要: 当点扩展函数未知或不确知的情况下, 从观察到的退化图像中恢复原始图像的过程称为图像盲复原。近年来, 图像盲复原算法得到了广泛的研究。本文在介绍了盲图像恢复算法的现状的基础上进一步研究其的发展方向。

    一、引言

    图像恢复是图像处理中的一大领域,有着广泛的应用,正成为当前研究的热点。图像恢复的主要目的是使退化图像经过一定的加工处理,去掉退化因素,以最大的保真度恢复成原来的图像。传统的图像恢复假设图像的降质模型是己知的。而许多情况下,图像的降质模型未知或具有较少的先验知识,必须进行所谓的盲恢复。其重要性和艰巨性而成为一个研究热点。目前所能获取的观测图像是真实图像经过观测系统成像的结果。由于观测系统本身物理特性的限制,同时受观测环境的影响,观测图像和真实图像之间不可避免地存在着偏差和失真,称观测系统对真实图像产生了降质。图像恢复的目的就是根据降质的观测图像分析和计算得出真实图像。

    二、图像盲恢复算法的现状

    总体来说, 图像盲复原方法主要分为以下两类: 一是首先利用真实图像的特别特征估计PSF,然后借助估计得到的PSF,采用经典的图像复原方法进行图像的复原。这类方法将PSF的估计与图像的复原过程分为2个不同的过程,因而具有较少计算量的特点;二是PSF辨识和真实图像估计相结合,同时辨识PSF和真实图像。这类算法较为复杂,计算量较大。另外,对于点扩展函数也考虑了空间变化的复杂情况。针对目前的盲复原算法的现状,根据退化模型的特点, 重新将算法分为空间不变的单通道盲复原算法、空间不变多通道盲复原算法和空间变化图像盲复原算法3类。

    (一)单通道空间不变图像盲复原算法

    在这类算法中, 最为常用的是参数法和迭代法。

    1)参数法。所谓参数法, 即模型参数法, 就是将PSF和真实图像用某一类模型加以描述, 但模型的参数需要进行辨识。在参数法中, 典型的有先验模糊辨识法和ARMA 参数估计法, 前者先辨识PSF的模型参数,后辨识真实图像, 属于第1 种类型的图像盲复原算法, 因而计算量较小;后者同时辨识PSF和真实图像模型参数, 属于第2种类型图像盲复原算法。

    2)迭代法。所谓的迭代法, 不是通过建立模型而是通过算法的迭代过程, 加上有关真实图像和PSF的约束来同时辨识PSF和真实图像的方法。迭代法是单通道

    图像盲复原算法中应用最广泛的一类算法, 它不需建立模型, 也不要求PSF 为最小相位系统, 因而跟实际更为接近。在这类算法中, 迭代盲复原算法(IBD), 基于非负性和决策域的递归逆滤波器算法(NAR2R IF) ,基于高阶统计特性的最小

    熵算法等最为典型。

    (二)多通道二维图像盲复原

    多通道二维图像盲复原, 这类方法将数字通讯领域应用的一维多通道盲原分离算法扩展到二维情况并用于图像的盲恢复。这类算法中有两种代数方法, 一种是先辨识模糊函数, 再采用常规的恢复算法进行复原;另一种是直接对逆滤波器进行估计。此类算法的优点在于不需对初始图像进行估计, 也不存在稳定性和收敛性问题,对图像以及模糊函数的约束是松弛的,算法具有一般性。但是第1种算法要求采用复原算法具有收敛性;第2种算法对噪声敏感。

    (三)空间改变的图像盲复原方法

    在许多实际的应用中, 模糊往往是空间变化的,但由于处理工作的难度, 目前的研究较少,基本有相关转换恢复和直接法两类。

    相关转换恢复的基本思想是区域分割, 即将整幅图像分为若干局部区域, 然后假设在各个局部区域模糊是空间不变的, 利用空间不变的图像复原有关算法进行复原。这类方法都是基于窗口的模糊辨识技术, 图像的估计取决于窗口的大小, 由于模糊参数是连续变化的, 在范围较大时空间不变的假设是不成立的, 因而模糊的估计精度较差, 而且这种方法只能针对部分空间变化的模糊进行处理, 缺乏通用性; 其次在区域的边上存在振铃现象。

    直接法的基本思想是直接对图像进行处理。如采用简化的二维递推卡尔曼滤波器进行图像模型和模糊模型的直接转换方法, 其缺点是只能针对有限的模型, 而且模型数增加, 计算量会显着增大;采用共轭梯度迭代算法, 但只见到一个31×31 的文本图像处理的结果报道,对于大图像处理效果尚需进一步的研究;将空间变化图像系统建立成马尔苛夫随机模型,对复原过程,采用模拟退火算法进行最大后验估计的方法,这种方法避免了图像的窗口化, 并能克服模糊参数不连续性造成的影响,但这种方法只能局限于将模糊过程建立成单参数的马尔苛夫随机模型的情况,而且计算量也较大。

    三、图像盲恢复的应用前景

    (1)现有算法的改进以及新的算法研究。现有各种算法还存在许多不足,有必要对算法进一步改进。如IBD算法中, 如何选择初始条件才能保证算法的收敛;如何选择算法终止条件才能保证恢复的质量; 如何选择滤波器中的噪声参数才能减少噪声的影响。又如NAR2R IF算法中, 如何进一步解决噪声敏感问题,支持域的确定以及如何将算法扩展到非均匀背景的情况等。提出新的算法更好地解决图像盲复原问题, 也是今后研究的热点。

    (2)基于非线性退化模型的图像盲复原算法。在实际应用中,严格来讲,所有的退化模型都是非线性的。对模型采用线性化的方法进行近似处理,虽然算法简单,但对非线性严重的情况处理效果并不理想。基于多项式以及神经网络两种参数模型处理非线性信号盲分离算法,算法扩展到二维图像情况需要进一步研究。研究基于非线性退化模型的图像盲复原算法也是下一步研究方向之一。

    (3)去噪处理算法研究。加性噪声的存在,使图像的复原问题变成了一个病态问题,而且由于一般假设只知道噪声的统计特性,因此要从退化图像中完全去除噪声是不可能的。另外,由于噪声的存在,恢复的效果并不理想,结合降噪的图像盲恢复的算法研究有很现实的意义,这方面也进行了部分工作。为克服噪声的影响,一般采用先进行降噪,后进行复原;二是将降噪和复原同时进行这两类方法。目前,大多数算法中将噪声描述成高斯噪声进行研究, 在实际应用时有较大局限性。对于非高斯情况的研究采用基于噪声的高阶统计特性的去噪算法研究也是很重要的研究方向,也可采用其他类型的方法进行降噪,利用自组织映射的非线性独立组件分析方法进行图像降噪处理算法。

    (4)实时处理算法。算法的的复杂性是制约算法应用的一个重要方面。可采用正则化的离散周期Radon变换的方法将二维的卷积转化为一维进行处理,以提高算法的速度;也可采用神经网络的实时处理算法。算法的实时性是算法实际应用的先决条件。

    (5)应用研究。算法的应用是推动算法研究的动力。虽然图像盲复原算法在天文学、医学、遥感等方面获得了较大的应用, 但将算法应用到一般的工业图像实时检测、机器视觉、网络环境下的图像传输恢复、刑事侦破等方面还有大量的工作要做。

    参考文献:

    [1] 薛梅,杨绿溪.用于含噪二值图像的改进NAS-RIF图像盲复原算[J].数据处理.2006.17.(2).

篇10

关键词: 多机器人系统; 协同定位; 扩展卡尔曼滤波; 粒子滤波

中图分类号: TN710?34; TP332.3 文献标识码: A 文章编号: 1004?373X(2013)23?0095?04

Multi?robots co?localization technique based on EKF and PF

TIAN Hong?bing1, FAN Guang?nan2, SONG Long2

(1. College of Computer and Communication, Lanzhou University of Technology, Lanzhou 730050, China;

2. College of Electrical and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China)

Abstract: The positioning capacity is a prerequisite to complete the tasks, no matter for single?robot or multi?robots systems. It is difficult for common location technique to meet the requirements of mobile robot groups in high co?localization accuracy and strong real?time. A hybrid location technique based on Extended Kalman Filter (EKF) and Particle Filter (PF) is proposed. The multi?robots are motion modeling, then the basic principle of robot co?localization based on EKF or PF and their advantages and disadvantages are discussed respectively. On this basis, another co?localization based on the combination of EKF and PF is proposed. The experiment result shows that this method is effectively in solving the contradiction between positioning accuracy and calculation under some condition. And when the initial condition is unknown or the errors is large, the multi?robots co?localization can also be rapidly and precisely.

Keywords: multi?robot system; co?operative localization; EKF; PF

0 引 言

随着人工智能、计算机、传感器等技术的不断发展,移动机器人的研究及应用得到了前所未有的进步。多机器人的群体协作由于具有比单一机器人系统更高的工作效率、鲁棒性、定位精度等优点而得到了广泛的关注,其中多机器人的协同定位问题成为近年来机器人研究领域的一大热点及难点。目前,机器人协同定位技术主要有:卡尔曼滤波、粒子滤波、最大似然估计、模糊逻辑、人工神经网络[1]。这些定位方法的基本思想是:如何融合内部传感器的测量信息和外部传感器的观测信息以减少过程误差和传感器的测量误差,得到更精确的机器人位置信息[2]。它们都有一定的适应范围,单一方法很难满足多机器人系统的复杂工作环境。针对初始状态未知或存在较大测量误差的情况,本文提出EKF和PF相结合的定位方法,即先用PF使初始条件收敛到EKF的初始误差允许范围,再用EKF进行迭代滤波,以达到快速、精确协同定位的目的。

1 多机器人系统协同定位技术框架

多机器人系统的协同定位是指多机器人群体利用相互之间的观测信息,在未知环境中互为路标,并通过信息交换,共享各个机器人获得的自身和环境测量信息,得到比单个机器人自身定位更精确的位姿估计[3],其技术框架如图1所示。

单个机器人通常会配备多个内部和外部传感器以获取自身参数信息和周围环境信息。从图1可以看出,机器人的传感器信息经过滤波等预处理后,得到两种不同性质的定位信息:自身位姿信息和相对观测信息。然后运用EKF、PF等技术进行第二级的融合,最终实现协同定位。

图1 多机器人系统协同定位技术框架

2 机器人系统运动模型和观测模型

为进行机器人协同定位,首先需要建立机器人的运动模型和传感器的观测模型[3]。机器人的运动模型因其机动性设计的变化而有所不同。不失一般性,下面以二维平面内两轮机器人为例,介绍机器人运动模型和观测模型,并利用该模型进行各算法分析。

2.1 运动模型

如图2,图3所示,假设机器人在图中[A]点的位姿[(xk,yk,φk)],运动到[B]点后的位姿变为[(xk+1,yk+1,φk+1),][φ]是机器人前进方向与[X]轴的夹角,[s1k,][s2k]是本次采样期间机器人左右轮运动的距离,[d]为两轮间距。移动机器人的运动模型建立过程如下:

图2 机器人运动的几何模型

图3 单个采样周期内机器人的运动形式

Step 1:以[A]点建立坐标系,求[B]点位姿[(Δx,Δy,Δφ)],有:

[Δx=-0.5(s1k+s2k)sin(Δφ2)Δy=0.5(s1k+s2k)cos(Δφ2)Δφ=2arcsin[(s1k-s2k)4d]] (1)

Step 2:将上一步得到的位姿变换到图3坐标系中,有:

[xk+1yk+1=xkyk+sinφksinφk-cosφksinφkΔxΔyφk+1=φk+Δφ≈φk+(s2k-s1k)2d] (2)

Step 3:将式(1)代入式(2),可得到机器人的运动方程如下:

[xk+1=xk+0.5(s1k+s2k)cos(φk+(s2k-s1k)4d)yk+1=yk+0.5(s1k+s2k)sin(φk+(s2k-s1k)4d)φk+1=φk+(s2k-s1k)2d] (3)

Step 4:令状态变量[Xk=(xk,yk,φk)T,][Uk=(s1k,s2k)T,]则上述式(3)方程组可化为如下非线性函数形式:

[Xk+1=f(Xk,Uk)] (4)

2.2 观测模型

图4所示为某时刻机器人[i,j]进行相对观测的结果。其中[Dij]是相对距离,[α]是机器人[j]相对[i]的方向角,[β]是[i]相对[j]的方位角,统称为观测信息。相对观测信息与机器人自身位姿信息的数量关系称为观测模型,其具体关系如下:

[Zi=h(Xi,Yj)?Dij=(xj-xi)2+(yj-yi)2α=arctan(yj-yi)(xj-xi)-φi] (5)

其中观测变量[Zi]=[(Dij,α)T,]同理可得[Zj。]

图4 相对观测模型

3 扩展卡尔曼滤波

3.1 基本原理

对于线性系统而言, 卡尔曼滤波器是一个统计意义上最优的状态估计。机器人的运动和观测形式都是非线性的,所以可用扩展卡尔曼滤波[4?5]进行自身位姿信息和观测信息的融合。EKF求解过程如下:

Step 1:线性化即求解各方程的雅克比矩阵。

[Φk=?f(Xk,Uk)?Xk] (6)

[Rk=?f(Xk,Uk)?Uk] (7)

[Hik=?h(Xik,Xjk)?Xik] (8)

Step 2:预测。

状态预测:

[Xk+1=f(Xk|k,Uk)] (9)

方差预测:

[Pk+1|k=Φk?Pk|k?ΦTk+Rk?Q?ΦTk] (10)

观测量预测:

[Z=h(X(i)k+1|k,X(j)k+1|k)] (11)

Step 3:更新滤波参数。

卡尔曼增益:

[K=Pk+1|k?Hik?(HTik?Pk+1|k?Hik+ρ)-1] (12)

状态更新:

[Xk+1|k+1=Xk+1|k+K?(Z-Z)] (13)

方差更新:

[Pk+1|k+1=(1-K?HTik)?Pk+1|k] (14)

重复Step 2和Step 3直至估计值与真实值十分接近或相等。其中,[Q]和[ρ]分别为码盘误差和观测误差的方差,且初始状态和协方差已知。

3.2 算法的优缺点

扩展卡尔曼滤波是一个不断预测、修正的递推过程,其在求解时不需存储大量的观测数据,只是利用新的观测数据随时更新滤波参数,因此其便于实时处理观测结果。

由式(5)所示的观测模型方程知,当[ΔyΔx=][(yj-yi)(xj-xi)±∞]时,对应[arctan(yj-yi)(xj-xi)][±π2。]这意味着尽管两个机器人之间距离[Δx]非常小,由于定位误差的影响,当前时刻的[Δx]与前一时刻的[Δx]可能会发生符号的改变, 而[Δy]则较大或保持在一定的范围,其符号不变,从而导致了相对方向角[α]的跳变, 使相对方位的预测出现较大的误差,滤波出现发散情况,影响了定位的鲁棒性和可靠性。

4 粒子滤波

4.1 基本原理

粒子滤波器[6?8]的主要思想是利用一组带有权重的采样来表示系统状态的后验概率分布。粒子滤波器的结构示意图如图5所示。

图5 粒子滤波器PF的结构示意图

图5中的重采样是为了解决标准粒子滤波出现的粒子退化问题。重要性采样所需重要性密度函数的选择对粒子滤波至关重要。选取不同的重要性密度函数会产生不同的粒子滤波器如标准粒子滤波,高斯?斯密特、辅助、正则化等改进粒子滤波算法。

4.2 算法的优缺点

PF可以很好地表示非线性、非高斯模型,是解决及时定位和地图构建的有效手段,被认为是实现真正全自主移动机器人的关键 。

但是该算法仍然存在着一些问题,其中最主要的问题是依赖大量的样本数据才能很好地近似系统的后验概率密度,计算量大、效率不高。

5 EKF?PF混合定位

5.1 理论准备

综上可知,基于EKF和PF的协同定位方法有各自优势,但也各有不足。因此提出了基于EKF和PF相结合的协同定位方法。该混合定位方法步骤如下:

Step 1:初始化及预处理。初始化工作主要有完成PF、EKF所需的参数设置,然后作滤波去噪、放缩、限幅等预处理操作。

Step 2:使用PF算法直至初始条件收敛到满足EKF算法的初始误差范围。其中PF算法可根据情况选择一定的改进型粒子滤波算法。

Step 3:当初始误差满足EKF要求后,启用EKF滤波进行状态估计及更新,调整各机器人位姿,最终实现多机器人系统的协同定位。其中,EKF和PF的具体设计参照第3、4节。

理论上,上述混合定位方法可获得EKF和PF两者的优势,同时克服了两者的不足,在精确定位的同时使运算量减少,从而提高定位效率。

5.2 仿真结果与分析

为验证上述混合定位方法的优越性,进行以下仿真实验。选用了两个双轮机器人小车模型,其内外部传感器的数据采样频率为10 Hz和1 Hz,机器人小车宽0.7 m,以1 m/s的速度分别向东和向北运动,初始位姿分别为(5,0,0)、(0,5,[π2])。分别采用上述三种算法进行协同定位状态估计。以单次实验数据为例,运用Matlab软件作出不同情况下两机器人小车的运动轨迹及协同定位误差[ρ](偏离真实位置的距离)如图6,图7所示。

由仿真结果可以看出,这三种协同定位方法均能在一定程度上改善定位性能。单独EKF算法在某些情况下会产生滤波发散;单独PF算法虽最终能使估计值收敛到真实值,但所花时间较长,计算量较大;而基于EKF和PF的混合定位算法能更快、更接近机器人的真实运动,更好地实现协同定位。

图6 两个机器人的运动轨迹估计

图7 机器人定位误差对比

6 结 论

实验结果表明,基于EKF和PF的混合协同定位能得到比常用定位方法更精确的机器人定位信息,且速度更快。下一步将把上述算法运用到实体机器人上,以测试其在多机器人协同定位中的实际效果。该技术对未来的多机器人环境检测、编队协作等研究有重要参考价值。

参考文献

[1] 郭戈,胡征峰,董江辉.移动机器人导航与定位技术[J].微计算机信息,2003(8):10?11.

[2] 邵金鑫.基于多传感器信息融合的多机器人协同定位技术研究[D].长沙:国防科技大学,2006.

[3] 刘显荣.传感器融合在多机器人合作定位中的应用[J].科技通报,2005(2):277?281.

[4] 付梦印,邓志红,张继伟.Kalman滤波理论及其在导航系统中的应用[M].北京:科学出版社,2003.

[5] TESLI? L, ?KRJANC I, KLAN?AR G. EKF?based localization of a wheeled mobile robot in structured environment [J]. Journal of Intelligent and Robotic Systems, 2011, 62(2): 187?203.

[6] 周翟和,刘建业,赖际舟.粒子滤波的改进优化算法在组合导航系统中的应用[J].中国惯性技术学报,2010(6):711?715.

[7] 张淼,胡建旺,周云峰,等.改进粒子滤波算法的比较[J].电光与控制,2009(2):30?32.

[8] 张弦.基于改进粒子滤波算法的移动机器人定位[D].北京:北京邮电大学,2010.

[9] 张诗桂,朱立新,赵义正.粒子滤波算法研究进展与展望[J].自动化技术与应用,2010(6):1?9.

[10] 王炎庆.基于卡尔曼滤波器的神经元干细胞序列图像中活跃细胞的追踪[D].哈尔滨:哈尔滨工程大学,2010.

作者简介:田红兵 男,1976年出生,湖北孝感人,硕士,工程师。主要研究方向为嵌入式系统及计算机软件应用。