数学建模聚类算法范文
时间:2024-01-02 17:43:02
导语:如何才能写好一篇数学建模聚类算法,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
【关键词】物流配送;双向物流;物流路径优化;蚁群算法;减法聚类
Two-way Logistics Path Optimization Problems Based on Clustering Analysis Research
LIU Yan-qiu YANG Yong
(Shenyang University of Technology, Shenyang Liaoning 110000, China)
【Abstract】According to the characteristics of two-way logistics, this paper focus on analysis and research the vehicles distribution. In order to better coordinate the vehicle path selection and the relationship between transport costs, and better conditions for considering comprehensive factors and the choice between nodes, study of two-way logistics path problem method, established the mathematical model of optimal path minimization. Finally based on path optimization method and the research situation, adopted the cluster analysis and the ant colony algorithm, and it has been verified by the simulation, the results reasonable and effective.
【Key words】Logistics distribution; Two-way logistics; Logistics path optimization; Ant colony algorithm; Subtraction clustering
0 引言
物流配送在物流管理中占有重要地位,它是指按照客户的订货需求,在配送中心进行分货、配货,并调度车辆及时为客户配送货物[1]。车辆路径问题(vehicle routing problem,VRP)是车辆配送研究中最核心的问题,一直是组合优化领域的热点和前沿问题[2],而双向物流路径优化问题(vehicle routing problem with simultaneous delivery and pickup,VRPSDP)是VRP问题中的一个典型,它是指同时带送货取货的物流车辆路径优化问题,既考虑了客户需要的货物从配送中心送到各个客户,又需要把客户需要回送的货物运回到配送中心,要求取货送货同时进行,因此比单向物流问题还要复杂,也是一种NP-hard难题,所以求解复杂度较高,计算量较大。本文在前人研究的基础上通过聚类分析方法和蚁群算法对双向物流路径优化问题进行了求解。
1 双向物流配送的数学模型
1.1 问题描述
双向物流路径优化问题可以这样描述:
已知有C个客户点,给定每个客户的坐标点和需求量,货车从配送中心出发,将货物送到各个客户,并同时把客户供应的货物带回到配送中心。车辆应在条件允许下进行服务,当完成任务或者不存在能满足约束条件的情况下,返回配送中心,直到所有的客户的送取货任务完成,整个流程结束。物流路径优化要求在满足约束的条件下,合理安排货车的配送路线,使得运输成本最小。由于运输成本很大程度上是由货车的路径长度决定的,因此本文求解VRPSDP问题的目标函数的最优解就是要求路径最短。
1.2 数学模型的建立
1.2.1 参数说明
1.2.2 数学模型
根据上面对VRPSDP问题的描述和已设定的数学参数,加之针对该问题所需要考虑的约束条件,对此问题进行了建模,将服务完所有客户点后所有车辆的行驶总路程定义为目标函
2 VRPSDP模型的求解
本文中求解模型的方法,首先是通过FCM聚类,把需要提供服务的城市进行分类,然后再用蚁群算法在满足约束的情况下对每个分类进行求解最优路径,具体做法如图1所示。
图1 求解流程图
3 实例仿真
为了检验上述双向物流路径优化方法的有效性,本文采用实例数据对其进行性能分析。设车辆从配送中心出发,为各个客户提供服务,配送中心坐标位置是(0km,0km),车辆在满足约束的情况下向 30 个客户配送货物。
首先经matlab仿真得到的30个城市的聚类图如图2所示。
图2 经FCM聚类的城市坐标图
然后经过蚁群算法对每个聚类进行路径优化,得到的车辆配送路径图如图3所示。
图3 车辆配送路线图
4 结论
本文针对双向物流的特点,首先给出了问题的相关描述,然后通过抽象建模,给出了带路程和负载量约束的双向物流路径优化模型。根据给出的VRPSDP问题模型,用基于FCM聚类和蚁群算法的混合算法对模型进行求解。最后通过仿真实验,证明了本文混合算法求解双向物流路径优化问题的的正确性和有效性。
【参考文献】
[1]杨燕霞,伍岳庆,姚宇,等.带时间窗车辆调度问题的启发式算法研究与应用[J].计算机应用,2013,33(S1):59-61.
篇2
锂离子宽的电压平台和严重的两端极化不利于SOH的估算,但电池的健康状态对电池寿命有着重要的影响。为了解决锂离子电池寿命预测困难的问题,通过对锂离子电池外特性进行的分析,在安时积分法的基础上,采用BP神经网络算法对锂离子电池进行建模,并将此模型带入K-均值算法中。系统的实现功能是对电池健康状况进行准确的评估。经过实验数据的验证,证明了这种算法的准确度,为电池管理系统稳定工作提供保证。
关键词:
电动汽车;锂离子电池;健康状态;K-均值算法
随着世界汽车人均持有量的不断攀升,能源危机越来越威胁着人类,巨大的环境问题和能源问题已成为世界关注的焦点。为了解决这些问题,世界各国特别是汽车工业发达的国家,正致力于“零污染交通工具”的开发,最终电动汽车被推向了历史的舞台。然而电动汽车能否得到大力的推广,很大程度上受到了动力电池的限制[1]。SOH(state-of-health)是用来描述电池寿命的重要参数之一,进而,电池健康状态的预测则是其中一个非常重要的部分。为了在使用安全性的基础上,充分发挥出动力电池的动力性能[2],因此研究锂离子电池的健康状态具有十分重要的意义。近年来,我国也在积极开展汽车锂离子电池的研究,且在电池研制和电池评估方面取得了一定的成果。本文将分为5个章节来阐述对电池健康状态的预测。
1K-均值算法
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类生成的一组数据对象的结合被称为簇[3]。这些对象不同于其他簇中的对象,但是和同一个簇中的对象彼此相似。K-均值(K-Means)聚类算法是著名的划分聚类分割方法[4]。划分的原理是:随机从数据集中选取K个点,每个点初始的代表每个簇的中心,然后计算剩余各个样本到聚类中心的距离,将它赋给最近的簇,随后重新计算每一个簇的平均值,不断重复,直到相邻两次调整没有明显变化,此时聚类形成的簇已经收敛。算法终止条件:①没有对象被重新分配给不同的聚类。②聚类中心不在变化。③误差平方和局部最小如式。
2建立电池的BP人工神经网络模型
国内外对锂离子电池的阻抗状态也有相关研究。电池的老化过程伴随着电池内阻的变化,一般认为电池由于在充放电的过程中发生不可逆的化学变化导致反应的锂离子损失,再加上内部结构的钝化,比如说SEI膜的形成并且增厚,正极和负极的变换等等。因此本文可以通过预测内阻来估算电池的健康状况如式。
2.1神经网络模型的建立人脑中有1000亿个神经元,结构异常复杂。正因为人脑结构错综复杂才使得被抽象出来的人工神经网络具有信息并行处理的能力,自学能力和推理能力。人工神经网络由大量的神经元连接而成,通过模拟人的大脑神经处理信息的方式,进行信息平行处理和非线性转换的网络系统。在其多重分类当中,BP人工神经网络(BPArtificialNeuralNetworkAlgorithm)是一种多层前馈神经网络,它的名字源于网络训练中,通过调整网络训练权值的训练算法是反向传播算法(BP神经网络学习算法)。神经网络模型的结构一般分为输入层(输出实验数据)、输出层(输出预测数据)以及隐含层(对实验数据的加权处理)。上下层之间实现全连接,在相同层直接无连接,介于输入层于隐含层神经元之间为网络的权值,表现为两个神经元的链接强度。通常还在整合信息的过程中添加一个阀值,主要模仿生物必须达到一定的阀值才能被触发的原理,然后将整合过的信息作为该神经元的输入。当样本被提供给神经元后,神经元的输出值从输入层经过中间层(隐含层)向输出层传播,在输出层各个神经元获得输入响应,遵照减少网络输出与实际输出样本之间的误差的方向,从输出层反向经过各个中间层回到输入层,逐步修正各个链接权值,这种算法被称为“误差反向传播算法”,也叫做BP神经网络算法[7]。通过以上介绍,本文建立一个典型的3输入2输出的人工神经网络。如果利用电池的外特性参数来充当输入层,则可以得到基于人工神经网络的锂离子电池BP神经网络模型。如图1所示为建立的BP神经网络拓扑结构[8]。
2.2BP人工神经网络模型的特点BP人工神经网络充分利用了神经网络的非线性,自学习性等特点,结合实验数据来建立各种参数之间的关系。BP神经网络的训练机制,不仅适用于机器学习的算法方面,在众多其他领域也有重要应用,比如用BP网络解析个人成才历程,有利于多角度思考问题,避免思维狭隘和定势,在知识点交叉的十字路口,甚至有意想不到的收获。
3锂离子电池的健康评估
根据对锂离子电池所做的实验数据,再根据安时积分法算出SOC值,导入到算法中去得到输出值。然而任何方法得到的结果都会与实际健康状态结果存在的差距就是预测误差,预测误差应该反应出结果的准确性。
3.1锂离子电池输入参数的确定对锂离子电池进行如图2放电实验,以5A左右的电流进行放电试验。利用安时积分法如式(3),算出电池的SOC如图3。得到电池外特性数据后进行建模。其中,SOC0为充放电起始状态;CN为电池的额定容量;I为电池电流;η为充放电效率,根据经验公式,此处取1。
3.2BP人工神经网络建模结果将电流(I)、SOC、放电深度(DOD)输入建好的神经网络模型中预测出开路电压(OCV)和电池电阻r如图5-图10所示。可以观测到预测输出和期望输出的开路电压(OCV)和内阻误差都很小。当电池老化以后,安时积分法的试用范围没有变化,但是对于BP神经网络算法的影响较大,因为所建立的电池模型参数随着电池老化的改变而改变,尤其是成组的实验电池模型产生的累积误差会使得实验准确性下降。
3.3利用K-均值算法进行预测将建模以后的输出开路电压值和内阻阻值带进已经编好的K-均值算法里得到如图11。得到两个聚类点ctrs1(0.006246,3.2293)和ctrs2(0.006278,3.2343)。
4检验预测精度
取100组实验获得的内阻数据,利用得到的聚类点放入实验数据中。观察聚类的准确度,结果如图12所示。通过放入的实验数据和预测的聚类点的组合,发现聚类点可以精确聚类出所要得到的两个簇。
5结论
针对电池的健康状态难以评估这个问题,本文设计开发了电动汽车健康评估系统。运用神经网络建立电池模型,K-均值进行预测。可为目前电动汽车基于外特性来评估健康状况提供更为准确的条件,从而有效的解决了健康状态难以评估的问题,同时提供了准确快速的预测方法。①随着电池不断地放电实验,内阻不断的增大,SOH不断增大。为了得到准确的SOH值,可以通过预测内阻的变化来预测SOH。②我们观察到神经网络建立电池模型误差能达到0.2%,所以运用神经网络可以很准确的建立电池模型。③通过实验数据对得出聚类值的检验可以得出,运用K-均值算法可以对电池SOH进行准确预测。
参考文献:
[1]陈三省.基于动态贝叶斯网络的锂离子电池SOH估计[D].杭州电子科技大学,2014.
[2]Zou,Zhongyue,Xu,Jun,Mi,Chris,Cao,Binggang,Chen,Zheng,“EvaluationofModelBasedStateofChargeEstimationMethodsforLithium-IonBatteries”,ENERGIES,5065-5082,Aug2014.
[3]陶新民,徐晶,杨立标,刘玉.一种改进的粒子群和K均值混合聚类算法[J].电子与信息学报,2010,01:92-97.
[4]刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,06:54-58.
[5]卓金武MATLAB在数学建模中的应用[M].二版.北京:北京航天航空大学出版社,2014.
[6]ZhengChen,BingXia,ChrisMi,andRuiXiong,“LossMinimizationBasedChargingStrategyResearchforLithium-ionBattery”,IEEETransactionsonIndustryApplications,Mar.2015.
[7]谭晓军电动汽车动力电池管理系统设计[M].广州:中山大学出版社,2011.
篇3
关键词:灰色理论;灰色预测;灰色建模
中图分类号: O369 文献标识码:A
1 灰色理论及实现方法
1.1 灰关联度分析
关联度分析是灰色系统最主要也是目前在地球物理勘探开发领域应用最广泛的方法之一。它主要用于分析不同数据项之间相互影响、相互依赖的关系,根据事物序列(母序列和子序列)曲线几何形状的相似程度,定量的评判事物(因素)间的关联程度.两条曲线的形状彼此越相似,关联度就越大,反之,则关联度越小。其中的关键是对灰关联矩阵进行分析,找出其中起主导作用的因素.
1.2灰色聚类
灰色聚类是以灰色关联度为基础的聚类方法,实质上是将聚类对象归纳成若干个灰色系统类型,以判断该聚类对象属于哪一类灰色类型.它能给出定量的评价,比定性的地质分析更具客观性。
1.3灰色预测和灰色建模
灰色预测通过原始数据的处理和灰色模型的建立,发现和掌握系统发展的规律,对系统的未来状态做出科学的定量预测.灰色理论认为,原始地震数据本身就是一种多因素的组合作用的结果。与其进行因素的多层剖析,不如就以原始依据进行预测.在地震资料的预测处理中这是一种新的思想、新的角度。
2灰色理论的发展历程及研究现状
灰色理论把一般系统论、信息论、控制论的观点和方法延伸到社会、经济、生态等抽象系统,结合运用数学方法形成了一套解决信息不完备系统的理论和方法。从思维逻辑的发展来看,灰色理论是从“黑箱”、“灰箱”概念演进而来的。1953年英国科学家艾什比首先使用黑箱一词,用来定义那些内部结构、特性、参数全部未知,只好从对象外部信息来研究的一类事物.然而在现实中,面对的常常是对其有了部分了解的“系统”,艾什比称之为“部分可察黑箱”或“灰箱”。1982年邓聚龙在灰箱概念的基础上首次提出了灰色系统的概念,主张从事物内部去研究系统。邓聚龙在提出灰色系统概念以后,对其经过逐步的完善和发展,渐渐形成了灰色系统理论。1992年召开的灰色系统学术会议引起了广大学者重视,由此将灰色理论和实际应用推向了一个。灰色理论从上世纪80年代问世,经90年代的迅速发展,到21世纪的广泛应用,虽然只有20多年的发展历程,但却引起了人们的高度重视和极大关注。目前灰色理论已基本建立起灰色朦胧集为基础的理论体系,灰色关联空间为依托的分析体系,灰色序列生成为基础的方法体系,灰色模型(GM)为核心的模型体系。它作为一门新兴学科广泛的应用于地球物理勘探开发的各个方面。
3灰色理论在地球物理勘探开发中的应用
3.1地震解释
灰色理论在地震资料解释中的应用主要包括层位标定、岩性分析以及地震剖面的异常值提取等。其中层位标定和岩性分析作为地震解释的基础环节和描述地层地质情况的重要信息,一直倍受关注。当然也是灰色理论在地震资料解释中应用的重点.其典型的方法是从测井资料中提取与层位、岩相有关的信息,将地层剖面、岩性分成若干个测井评价参数范围,然后采用这些测井地质评价参数与岩心录井剖面进行详细对比,统计确定出地质评价参数的标准,最后用参数特征值白化灰色系统,以达到精细划分地层层位和岩性的目的。这种做法最大优点就是使测井资料得到了充分的利用,同时这也是灰色理论在地震资料解释中应用的最显著的一个特点。
3.2储层评价
储层评价所涉及的内容很多,应用范围也相当广泛,但目前储层评价还没有一套公认的评价标准和工作规范,各家的评价方法都不尽一致如模糊判别法和专家打分法等。这些方法往往要求数据量较大,而且还要求数据间存在典型的统计规律,实际计算是很困难的。灰色理论在储层评价中的应用则有效的克服了上述方法的不足。它的基本思路是通过选取储层的各评价参数特征值,利用灰色理论的基本方法去白化储层系统发展的态势,确定评价指标和实际数据之间的关联度,据此定量描述储层的特征,具有数据量小、模型简单等优点,很好地满足了实际生产的需要.另外,灰色理论是一个动态的预测过程,对于油气井的储量、储层产能等这样每时每刻都在发生变化的预测目标,不仅能够很好的预测出油气井以及储层储量长期的情况,而且还能进行时时的监控预测。
4灰色理论的发展方向
4.1加强基础理论的研究
灰色理论基本方法的研究深度不足,数学证明不够完善。比如灰关联分析不适用于负相关序列的分析和计算;由灰色关联系数构成的灰色关联度不满足灰色关联公理中的整体性和偶对对称性原则;灰色建模方法的累加生成不能减弱原始数列的随机性时,用一阶微分方程作为预测模型必然存在原理性误差等问题,都是灰色理论基本方法中存在的问题,都直接间接地影响了最终的预测结果.特别是灰色理论的一些核心内容,如累加生成数列能够提高预测精度等结论,在现有的灰理论专著中均末经予严格的数学证明.而这些结论作为灰色理论的核心内容正广泛地应用于地球物理勘探开发的各个方面,对最终的预测结果和精度的影响很大。
4.2拓宽应用范围
从目前的研究成果来看,灰色理论在地球物理勘探开发中的应用主要集中在地震资料解释、地质评价和测井解释三个方面,归根到底还是主要应用在解释方面,应用领域过于单一,解决实际问题的能力还不足,且灰色理论在储层预测中的应用目前尚限于单系列预测,存在着一定的风险。另外,灰色理论主要研究方法的应用范围也还十分有限。如:利用灰色建模、灰色关联分析作为研究工具的例子较为普遍,其它方法的应用则相对较少。
4.3与其它方法相结合
由于灰色理论自身的理论基础这不够完善,解决勘探开发中出现的各种问题的能力稍显不足。近年来虽然出现了将灰色理论与分形、神经网络、模糊理论等方法联合应用的实例,但应用的范围和深度都还远不能满足实际需要。可以尝试将其与其他优化、仿真方法相结合,如遗传算法、混合离散变量多目标寻优算法以及小波变换、最小二乘方法等。
参考文献
[1]刘思峰,郭天榜.党耀国等.灰色系统理论及其应用[M].北京:科学出版社,2000.
篇4
关键词: 公共自行车;聚类分析;综合评价
0 引言
随着城市汽车数量的迅猛发展,许多城市出现了交通拥堵、汽车尾气排放、雾霾等一系列的“城市病”。在国家提倡“低碳”、“环保”可持续的发展理念下,公共自行车在解决城市交通“两难”,公交“最后一公里”和缓解大气污染和全民健身方面起着不可或缺的作用。
而在我国,越来越多的城市开始重视自行车在城市交通中的作用,积极发展城市公共自行车租赁系统。公共自行车租赁系统的发展对减轻交通拥堵、减少尾气排放有着重要意义。
公共自行车服务系统在车辆数量、锁桩数量、借还时间等方面的设置上是否还存在问题,本文通过对某城市公共自行车服务系统所产生的具体数据进行收集整理分析来评价该系统并提出合理化建议。
1 聚类分析
我们首先对原始数据中相同借车站不同还车站的数据进行聚类,将相同借出车站归为一类。
1.1 定义站点间距离模型 首先,用平均时间来进行度量距离。平均时间越小,则说明两个站点距离越小;平均时间越大,则说明两站点的距离越大。在算平均时间时,时长里几个数据,会有一个与其它几个数据有很大的差别。从实际情况来看,从a办事处到b住宅区的距离是1.2公里,一般借车者使用的时间是3-4分钟,但数据里出现了40分钟,因此与实际情况不符,便把它们进行了剔除。并且算出时长的极差和方差,极差越大,则就会有一个较大的与实际情况不相符的数据。说明这两个站点之间距离数据越不可靠,而方差越小,数据越稳定,则说明两站点的距离也就越小。
根据公式,可以求出从第i个借车站点到第j个还车站点的均方差。
可以求出从a街道办事处到c大厦和b住宅区的时长平均、方差、平均数、众数(表1)。
从这些数据中进行比较,这样可以得到一个从不同的借车站到不同的归还车站的最短距离比较表和最长距离比较表。
经过分析比较,我们得到从不同的借车站到不同的还车站的最短距离和最长距离。
2 综合评价模型
2.2 借还平衡度模型 用借车数量减去还车数量得出一个数值,把平衡度分为-20%,-40%,-60%,-80%,90%,80%,60%,40%,20%,9个级别(正负号在平衡度中不表示大小)。用数据中借自行车次数最多的的一天,进行处理规定出“借还平衡度的范围表”(表2)。
由表2我们可以看出当度数为负数时,借车的数量小于还车的数量,说明锁桩数不足;当度数为正数时,借车数量大于还车的数量,说明站点的车数太少。而且度数越小这种情况越严重。
对自行车服务系统的评价需要看使用者对该系统的使用态度。把数据进行进一步的满意度分析,即用后一天的不同借车卡数(借车人数)ci比上前一天的不同借车卡数(借车人数)ci-1来表示前一天的满意度,表示如果借车人对该系统满意下次还会借车否则不会借车,然后把满意度累加,最后再比上总天数i+1来表示总满意度C,因此得到借车人满意度模型C:C=×100%。
2.3 站点分布与锁桩数量平衡度模型 站点的分布和锁桩的数量是否合理,建立平衡度模型进行分析。当各站点的使用度与借车人的满意度相近时,站点的分布和锁桩的数量越合理,否则就不合理。以此用站点的使用度C比上借车人的满意度A得到合理度D:C=×100%。
2.4 综合评价指数模型 根据以上定义,对自行车服务系统站点设置和锁桩的数量的配置重要程度的不同,通过给ω进行赋值如表3。
最后根据总公式得出对自行车服务系统站点设置的综合评价指数:W=AωA+BωB+CωC+DωD,得出W=83.037%。
3 模型的分析与结论
对城市公共自行车模型的建立与求解,其实就是进行大量数据处理的过程,并把海量的数据进行聚类分析。时间在很大程度上决定了借还两个站点的距离,时间越长,借还站点距离越远。而综合评价模型需要对四项指标进行计算,每一项指标都对综合评价指数起着至关重要的作用。模型建立充分利用自行车租赁系统的数据,并结合当地实际交通情况进行分析,为发展公共租赁交通提供了实际意义。
参考文献:
[1]韩中庚.数学建模竞赛-获奖论文精选与点评[M].科学出版社,2008.
[2]韩中庚.数学建模竞赛方法及其应用[M].二版.高等教育出版社,2009.
[3]温州市鹿城公共自行车[DB/OL].温州市鹿城区公共自行车管理中心网站:http:// 2013-9-15.
[4]刘登涛,方文道,章坚民,郭明泽.公共自行车交通系统调度算法[J].计算机应用系统,2011(9).
篇5
【关键词】 数据挖掘;数据库;中医学
数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取有用的信息已经成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据分析工具和技术处理它们。有时,即使数据集相对较小,由于数据本身的非传统特点,例如像中医的证候信息,也不能使用传统的方法处理。在另外一些情况下,需要回答的问题不能使用已有的数据分析技术来解决。因此,就需要开发新的方法。数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧的数据类型提供了令人振奋的机会[1]。中医学界的研究者正在快速积累大量数据,这些数据对获得有价值的新发现至关重要。然而,由于这些数据的规模、噪声和高维性,传统的方法常常不适合分析这些数据集,需要新的数据分析方法。数据挖掘开发的技术可以帮助中医研究人员解决这些问题。
1 数据挖掘概念
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还具有预测未来贯彻结果的能力,例如,预测一位向心性肥胖的人出现乏力、多饮,但目前测量血糖、血脂、血压都正常,在未来半年内是否发生2型糖尿病。数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程,如图1所示[2]。该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。
图1 数据库知识发展(KDD)过程(略)
数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验。(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算,信息论、信号处理、可视化和信息检索[2]。通常,数据挖掘任务分为两大类:一类是预测任务,这些任务的目标是根据其他属性的值,预测特定属性的值;另一类是描述任务,这类任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。
2 在中医研究中的探索
(1)预测建模,涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。预测建模可以用来解决中医脉诊的客观化指标确定问题。为进行这一任务,我们需要一个数据集(脉名,相对客观指标1,相对客观指标2,……)。客观指标相对化是指因测量者的体质不同而进行的修正,脉名的确定应该有权威的中医专家确定。由此可以确定不同脉的客观化指标的范围,但需要后处理技术检验。(2)关联分析,用来发现描述数据中强关联特征的模式。关联分析在中医中的应用包括找出某一疾病患者出现的各种症状和体征之间的联系,方剂的配伍规则。对中医古代文献中复杂的定性描述进行关联分析,揭示其规律实现标准化[3]。(3)聚类分析,旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。中医标准化诊断和治疗是现今研究的热点,而标准化要解决的第一个问题就是经西医确诊后的疾病的中医证候分类问题[4]。例如,代谢综合征到底有哪些证型,要解决这个问题需要的观测值特别多,而且具有高维性,聚类分析可以进行初步的筛选和分类。(4)异常检测的任务是识别其特征显著不同于其他数据的观测值,目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括疾病的不寻常模式,药物的不典型副作用。由此可见,对中医观测数据的挖掘应采用多种方法分批、多层次的挖掘,对结果应该综合分析,并且得到专家的一致共识,才有参照意义。
3 适合中医的数据挖掘算法的研究设想
以上所论及的挖掘算法都并非专为中医开发的,它们的适应范围广,中医研究是可以借鉴的[5]。如果根据中医自身特点而研发的挖掘算法,则可以更好解决中医研究中遇到的问题。笔者认为在这方面医圣张仲景已经树立了榜样,他的《伤寒论》就应用了数据挖掘技术。他分析的数据就是大量临床病例,分析数据所使用的方法来源有三,其一是他精通中国古代数学;其二是他钻研《素问》、《九卷》、《八十一难》、《阴阳大论》、《胎胪药录》等典籍,从中得出的术数模型;其三是一些统计学方法。他得出的模式是六经辨证模式,此模式成为中医临床最重要的辨证模式。六经辨证模式解决了中医外感病的分类与治疗问题,外感病传变、转属等诸多问题。以上虽有杜撰之嫌,但也的确能给研究者一些启示。
参考文献
[1]ZhangHui Tang,著.高 升,译.数据挖掘原理与应用[M].北京:清华大学出版社,2007:24.
[2]PangNing Tan,著.范 明,译.数据挖掘导论[M].北京:人民邮电出版社,2006:14.
[3]秦雪君,施 诚.数据挖掘技术在中医药领域的应用[J].医学信息,2006,19(5):945947.
[4]张 琴,刘 平,张文彤.数据挖掘技术在中医证候学研究中的应用[J].上海中医药杂志,2006,40(3):35.
篇6
关键词:数据挖掘;数据库;遗传算法;神经网络
中图分类号:TP392文献标识码:A文章编号文章编号:1672-7800(2013)012-0129-02
基金项目:佛山科学技术学院重点项目(2010)
作者简介:刘晓莉(1961-),女,佛山科学技术学院副教授,研究方向为应用数学。
1遗传算法基本特征
遗传算法是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,是一种具有广泛适用性的通用优化搜索方法。遗传算法主要借用了生物遗传学的观点,通过自然选择、遗传和变异等作用机制来产生下一代种群,如此逐代进化,直至得到满足要求的后代即问题的解,是一种公认的全局搜索能力较强的算法。
遗传算法有良好智能性,易于并行,减少了陷于局部最优解的风险。遗传算法的处理对象不是参数本身,而是对参数集进行了编码的个体,可以直接对集合、队列、矩阵、图表等结构进行操作。同时,在标准的遗传算法中,基本上不用搜索空间的知识或其它辅助信息,而仅用适应度函数值来评估个体,并在此基础上进行遗传操作; 遗传算法不是采用确定性规则,而是采用概率的变迁规则来指导它的搜寻方向。正是这些特征和优点,使得遗传算法在数据挖掘技术中占有很重要的地位,既可以用来挖掘分类模式、聚类模式、依赖模式、层次模式,也可用于评估其它算法的适合度。
2神经网络基本特征
神经网络是人脑或自然神经网络若干基本特征的抽象和模拟,是以大量的、同时也是很简单的处理单元(神经元)广泛地互相连接形成的复杂非线性系统。人工神经网络本质上是一个分布式矩阵结构,它根据样本的输入输出对加权法进行自我调整,从而近似模拟出输入、输出内在隐含的映射关系。建模时,不必考虑各个因素之间的相互作用及各个因素对输出结果的影响机制,这恰好弥补了人们对各个因素及对输出结果的机制不清楚的缺陷,从而解决众多用以往方法很难解决的问题。
神经网络具有大规模的并行处理和分布式的信息存储,有良好的自适应、自组织性,学习能力很强,有较强的联想功能和容错功能,在解决机理比较复杂、无法用数学模型来刻画的问题,甚至对其机理一无所知的问题等,神经网络方法特别适用,是一种用于预测、评价、分类、模式识别、过程控制等各种数据处理场合的计算方法,其应用已经渗透到多个领域,在计算机视觉、模式识别、智能控制、非线性优化、信号处理、经济和机器人等方面取得了可喜的进展。
3遗传算法与神经网络混合算法在数据挖掘中的应用
作为一种有效的优化方法,遗传算法可以应用于规则挖掘,可以单独用于数据仓库中关联规则的挖掘,还可以和神经网络技术相结合,建立基于神经网络与遗传算法的数据挖掘体系,用于数据挖掘中的分类问题。
学习能力是神经网络中最引人瞩目的特征,学习算法的研究一直占据重要地位。可以将遗传算法应用于神经网络的学习过程中,这样可以避免传统的神经网络算法容易陷入局部极小的问题。有研究者提出了一种基于遗传算法的神经网络二次训练方法,可以提高神经网络的模糊处理能力,有效解决神经网络陷入局部极小的缺点,加快收敛速率,提高学习效率。也有研究者探究了基于基因重组的遗传算法优化神经网络的方法,通过训练权值来实现分类,可以提高神经网络数据分类的准确性。因此,采用遗传算法与神经网络模型相结合方法,可以解决多维非线性系统及模型未知系统的预测、评价与优化等问题,其成功案例有很多,下面是其中的几例。
一些研究者针对当前专家系统知识获取瓶颈的难题,提出了基于神经网络与遗传算法的汽轮机组数据挖掘方法。该方法首先将汽轮机组历史故障数据进行模糊化及离散化处理后,建立神经网络模型,然后再利用遗传算法对神经网络进行优化,实现了基于神经网络与遗传算法相结合的汽轮机组数据挖掘和故障诊断仿真系统,其诊断正确率达到了84%。
综合运用人工智能、计算智能(人工神经网、遗传算法) 、模式识别、数理统计等先进技术作为数据挖掘工具,可以建立可靠、高效的数据挖掘软件平台,已在很多工业控制和优化中得到应用和实验验证,并取得了满意的应用效果。例如,某铝厂根据以往不同原料成分和原料的不同配比与产品质量关系记录的数据库,应用数据挖掘软件平台,可以挖掘出适应不同原料成分的最佳配比规律,从而提高产品质量的稳定性。又如,以往在化工产品优化配方、催化剂配方优化或材料工艺优化等研究中,基本上都是采用试验改进的方式,需经过多次试验才能达到预期目的,但也有可能失败。为降低消耗, 少做试验就能达到预期目的,可采用神经网络对产品配方实验数据建模,在此基础上,再应用遗传算法对配方模型进行优化,得到优化配方。
正是遗传算法与神经网络等算法的支撑以及计算机技术的发展,目前,数据挖掘广泛地应用于天文、地理、生物信息学、金融、保险、商业、电信、网络、交通等众多领域。例如,应用在地理数据库上,主要挖掘地质、地貌特征,为寻找矿产或进行城市规划等提供参考依据;在电信Web服务器方面,可以挖掘Web日志,根据用户兴趣动态链接Web页面,统计页面链接及权威主页等,对检索页面进行聚类,方便用户找到需要的信息;在生物医学信息和DNA数据分析方面,进行遗传、疾病等数据特征的挖掘,为疾病诊断、治疗和预防研究提供科学依据;对金融数据进行挖掘,可以分析客户信用度;在CRM(客户关系模型)上使用数据挖掘,获得客户群体分类信息、交叉销售安排及开发新客户和保留老客户的策略;在电信业中使用挖掘技术,以预防网络欺诈等;应用在商业问题的研究包括:进行客户群体划分、背景分析、交叉销售等市场行为分析,以及客户流失性、信用度分析与欺诈发现;在电子商务方面,从服务器以及浏览器端的日志记录中发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,作出预测性分析等等。
4结语
神经网络和遗传算法作为数据挖掘技术,也有一些不足和缺陷。遗传算法除了要进一步改进基本理论和方法外,还要采用和神经网络、模拟退火、最近临规则等其它方法相结合的策略,提高遗传算法的局部搜索能力,从而进一步改善其收敛速度和解的品质,提高数据挖掘技术。特别是对于单调函数或单峰函数,遗传算法在初始时很快向最优值逼近,但是在最优值附近收敛较慢;而对于多峰函数的优化问题,它往往会出现“早熟”,即收敛于局部极值。因此,研究如何改进遗传算法,采用合适的算法加快寻优速度和改善寻优质量,无论在理论上还是在实践上都有重要意义。神经网络的神经计算基础理论框架以及生理层面的研究仍需深入与加强,如何提高神经网络的可理解性问题,以及研究遗传算法、神经网络技术与其它人工智能技术更好地结合,从而获得比单一方法更好的效果等问题,值得进一步探索。
虽然数据挖掘技术已得到了广泛应用,但现有的数据挖掘方法并不能完全适应所面临的具有多样性的海量数据分析的现实,急需解决的问题是:如何研究并行处理和抽样的方法,来处理大规模的数据以获得较高的计算效率;如何利用统计、模糊数学来确定隐含变量及依赖关系,开发容噪的挖掘方法,以解决异质数据集的数据挖掘问题;如何更好地进行文本数据挖掘、Web数据挖掘、分类系统、可视化系统、空间数据系统和分布式数据挖掘等新技术的应用。因此,未来数据挖掘的研究表现在数据挖掘功能、工具、方法(算法) 的拓展与理论创新,其应用的范围和深度会进一步加强。
参考文献参考文献:
[1]孟晓明.浅谈数据挖掘技术[J].计算机应用与软件,2004 (8).
[2]李慧芳,姚跃华,陈一栋.改进的遗传算法对神经网络优化的分类[J].微计算机信息,2008(15).
[3]王东龙,李茂青.基于遗传算法的数据挖掘技术应用[J].南昌大学学报, 2005(1).
[4]宋仁国.铝合金工艺优化的遗传算法[J].材料科学与工程,1998(1).
[5]韩力群.催化剂配方的神经网络建模与遗传算法优化[J].化工学报,1999(4).
[6]郭崇慧,陆玉昌.预测型数据挖掘中的优化方法[J].工程数学学报,2005(1).
[7]杨杰.用于建模、优化、故障诊断的数据挖掘技术[J].计算机集成制造系统,2000(10).
篇7
关键词: 数据挖掘;建模;SQL Server2008;朴素贝叶斯
0 引言
图书馆作为高校的一个重要组成部分,其管理方式的信息化亦是高校管理信息化的重要体现。图书馆图书借阅资料繁多,很多的数据需要管理。若采取手工方式对图书资料和图书借阅情况进行管理,由于资料繁多,手工处理的工作量大,整体管理效率低下,也不方便读者对图书资料的查阅。如今,虽然大多数的图书馆都采用了数据库管理系统,但是数据挖掘功能还没有被充分利用。SQL Server2008是一款非常重要数据库管理系统,其中的数据挖掘功能,可以挖掘出图书管理系统中大量有价值的信息,为管理者提供参考,为读者提供更加个性化的服务。
1 数据挖掘的概念
简单地说,数据挖掘就是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。数据挖掘通过对查询内容进行模式的总结和内在规律的搜索,帮助管理者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持。数据挖掘技术还能够用于信息管理、查询处理和过程控制等。它与传统的数据分析(查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
2 数据挖掘的方法[1]
数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法)等;机器学习方法中包括归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法、粗糙集等。
3 数据挖掘建模应用图书构建中
3.1 挖掘工具的选择
SQL Server2008中的数据挖掘组件是数据挖掘工具的典型代表,系统中引入了多个新的数据挖掘算法,与传统的数据挖掘工具相比,SQL Server2008数据挖掘功能具备很多优势,因为它与所有SQL Server产品实现了集成,包括SQL Server、SQL Server Integration Services和Analysis Services。SQL Server2008数据挖掘功能具有实用性、可伸缩性和可扩展性等特点,同时它包含简单而丰富的API。基于SQL Server2008有着非常实用的数据挖掘功能,所以选择完整表达出图书类别的信息作为数据挖掘的工具。[2]
3.2 数据的收集及整理
本学校采用计算机管理图书的时间还不长,系统功能还较简单,相关数据整理起来也相对比较杂:
1)在服务器端导出Excel格式的图书信息表、借书记录表。因为系统功能比较简单,图书信息表格中只有类别编号,没有类别名称,不能完整表达出图书类别的信息,所以需要人工将数据导出来之后,进行数据汇总。
2)启动SQL Server2008 Management Studio,在对象资源管理器中新建一个数据库“library”数据库,然后建立“lib”表,将数据填写在表中,如图1。ID:编号,yxzy:是否是医学专业,sjlx:书籍类型,js:借书情况,xj:是否续借,jdrs:接待人数。
3.3 对library数据库进行数据挖掘,建立模型
1)启动SQL Server Business Intelligence Development
Studio,新建一个商业智能项目。
2)新建数据源(DS),把library数据库添加进来。
3)新建一个数据库数据源视图(DSV)。
4)使用数据挖掘向导建立数据挖掘结构和挖掘模型。
5)处理挖掘模型。
6)使用挖掘模型进行分析、预测。
3.4 对挖掘的信息进行分析汇总
1)该表通过数据汇总之后,摘录了18条有代表性的记录,进行分析。按是否是医学专业类别分书籍,共为两类:是和否;借书情况分为三类:好、一般、差。是否续借,分为两类:是和否;接待人数分为三类:200。以100和200为基准的原则是按照各个系别的人数划分,有些医学专业的人数比较多,例如临床医学,有些则适中如解剖,有些则是非医学专业的人数比较少,如:计算机。
2)采用Microsoft Naive Bayes数据挖掘技术继续分析。Naive Bayes是数据挖掘十大经典算法之一,在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)。本表分析则采用的是朴素贝叶斯,朴素贝叶斯分类器(Naive Bayes Classifier,后NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。Microsoft Naive Bayes算法对dbo.lib,得出如下结果,如图2和图3。
图2和图3直接给图书馆管理人员提供了决策依据,为以后的工作提供了理论依据。比如根据图2依懒关系网络图,可以发现,书籍的是否续借直接和该书籍接待人数和是否借书的情况有关系。根据图3发现,接待人数多的则是医学专业的人比较多,而非医学专业的人则少,可能是因为这方面的图书太少,相关书目更新速度太慢,没有新的书籍,还有就是这些专业是学校新兴的学科,没有及时的购买书籍。但是非医学专业的书籍,如文学类的图书被借阅的次数最多,这也是让非医学专业接待人数在其中占一个大比例的原因,应该把该类图书置于易于存放的位置,以便为读者提供更人性化的服务等。同时也应该增加一些图书馆中,书籍的种类。
4 结语
图书馆管理引进数据库系统以后,节约了大量的人力、物力,提高了图书管理员的办事效率,使用数据挖掘技术可以挖掘出大量读者借阅记录中存在的隐含的信息,通过这些信息可以为管理者提供更直观的决策依据,采取更及时有效的措施,为读者提供更加人性化的服务。
参考文献:
篇8
其次使用编网法[23],如下图所示,可将输入变量分为两类,从而可以确定模糊规则数。 图1 编网法 模糊规则如下: 规则1:if x高 and x低, 则y1=c10+c11x高+c12x低 规则2: if x中, 则y2=c20+c21x中 ①前件参数辨识 模型前件参数辨识即是确定前件中隶属度函数,这里使用高斯函数,即令 (5)
这里ρ为均值,σ为方差 可分别获得x高、x中、x低的隶属度函数:
由这些隶属度函数可以根据公式(3)得到各条规则的权重,分别为: ②后件参数辨识 模型的后件参数辨识使用最小二乘法,我们知道最小二乘法可以用来处理一组数据, 可以从一组测定的数据中寻求变量之间的依赖关系, 这种函数关系称为经验公式。这里我们假定在正常情况下的输出曲线为抛物线型。假定为y=x2。利用最小二乘法,每次只计算一条规则后件参数。最后使用极值原理令总偏差最小获得方程组,解得各规则的系数,得到各规则后件的线性表达式: y1=-0.4491+1.3561x高+3.2343x低 y2=0.0322+0.025x中 则最终根据公式(2)得出轴承故障的t-s模型的总输出: 3.2 基于故障模型的计算机仿真 matlab软件maths works公司1984年推出的一套高性能的数值计算和可视化软件,它集数学计算、图形计算、语言设计和模糊逻辑等30多个工具为一体,具有极高的编程效率,由于它是一个开放环境,已经成为国际控制界广泛使用的语言之一。本文采用t-s模型动态逼近非线性系统,利用matlab软件中的模糊控制工具箱,以异步电机轴承的故障模型的仿真实验,验证了该方法的有效性。
(a)正常数据仿真对比曲线
篇9
Abstract: Exchange rate forecasting is an important subject in financial market. This article applies both parametric (group method of data handling, GMDH) and nonparametric (analog complexing, AC) self-organising modelling methods for exchange rate forecasting. The AC method used the data themselves to identify patterns with similar characteristics. The GMDH algorithm is used to combine the analog patterns and identify an optimum ensemble which has similar characteristics with the modelling object. The empirical results show that the combined method can well forecast exchange rate.
关键词: 自组织建模;相似体合成算法;分组数据处理;预测
Key words: self-organising modelling;analog complexing;GMDH;forecasting
中图分类号:F830.91 文献标识码:A 文章编号:1006-4311(2013)23-0148-02
0 引言
20世纪70年代布雷顿森林体系解体后,国际货币体制发生了根本改变,浮动汇率制取代固定汇率制成为了世界上主要的汇率制度,汇率变化显现出了复杂化和动态化的特征。汇率的波动使国际经济秩序和金融市场的稳定性受到影响,国际经济交易中的不确定性和风险大大增加。2005年中国人民银行宣布人民币实行有管理的浮动汇率制度,这使得人民币汇率更能有效的反映市场供求状况,但同时也导致人民币汇率的波动。因此汇率研究日益成为经济学的一个重要课题。
传统的汇率预测方法以现有的汇率决定理论(如购买力平价假说、国际收支学说、利率平价假说、资产市场假说等)为基础,在汇率与影响汇率的各种经济变量之间建立线性模型[1]-[3]。但是基于线性研究模式的传统汇率决定模型无法解释现实中的很多异像,如统计分布的“尖峰厚尾”性、波动的集群性等[4]-[5]。越来越多的研究表明汇率系统具有复杂的非线性特征,因此,近年来越来越多的非参数、非线性方法被应用到汇率预测的研究中,比如神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)、最小二乘支持向量机(Least squares support vector machine,LSSVM)、分组数据处理(Group Method of Data Handling,GMDH)、小波分析、遗传算法、混沌时序预测方法等等[6]-[9]。
本文提出一种结合参数自组织建模与非参数自组织建模的混合模型来预测汇率。参数自组织建模即多层迭代的GMDH算法,非参数自组织建模即相似体合成算法(Analog complexing,AC),用AC算法选择与当前时期有相同特征的相似体,再用GMDH算法将相似体进行加权组合,选择最优模式,用于预测当前时期的发展趋势。以上两种算法按照顺序组合起来,利用各自的优势,可以提高预测的精度,优于单一模式。将该混合模型用于实证分析外汇市场上的人民币(RMB)兑美元(USD)、人民币兑港币(HKD)两种汇率,并与单一的ANN模型和GMDH模型对比,结果表明该模型较具有较好的预测效果。
1 预测模型
1.1 GMDH算法原理
GMDH算法由Ivakhnenko于1967年提出,利用多层神经网络,借助自组织原理,由计算机利用数据相对客观地选择变量之间的关系,用外准则选取最优模型,实现对研究对象内部结构的模拟[10]-[12]。GMDH算法是神经网络的一种改进,将黑箱思想、生物神经元方法、归纳法、概率论等方法有机地结合起来,实现了自动控制与模式识别理论的统一,减少了认识过程中的人为参与行为,更具有客观性与公正性。GMDH算法对有噪声的小数据样本有较强的预测能力,可以避免神经网络过拟合的缺点,同时神经网络不能给出显示模型,而GMDH算法则可以建立显示模型,便于结构分析。
GMDH算法首先将样本集 W 分为学习集 A(training set) 和检测集 B(testing set)(W=A+B)。建立参考函数表示输入变量和输出变量之间的一般函数关系y=f(xi,xj),通常采用二元二次Kolmogorov-Gabor(简称K-G多项式)作为参考函数,建立初始模型,其表达式为
y=a0+a1xi+a2xj+a3xixj+a4x■■+a5x■■ (1)
其中,y为输出向量,x1,x2,…,xn为输入向量,a是系数。选择一个外准则(如最小偏差准则)作为中间模型的判断标准。
具体步骤如下:
将自变量x1,x2,…,xn作为输入变量,两两组合,根据参考函数(1),在第一层产生C■■个输出变量,经外准则判断,选择n1?燮C■■个变量再两两组合进入第二层……重复以上步骤,直到最后外准则值达到最优,模型结构不能再改善,此时沿最后一层的输出变量逐层回推就可以得到最优模型的参数及模型结构。
1.2 AC算法原理
AC算法是对复杂对象的预测、聚类和分类的一种序列模式识别方法,该方法假定时间序列在一段时期的情形会以某种形式重复,即当前的发展状态在历史上存在一个或多个相似时期。这样就可以将历史上相似时期的发展趋势通过变换组合,用来推断和预测当前状态的发展趋势。AC算法假设被研究的对象满足以下四个假设:①系统是多维过程;②过程的长期观测值是有效的;③多维过程的数据集由系统的基本变量生成;④过程的行为一般将在一段时间内相似地重复。
具体的算法步骤为:
①产生待选模式;
②转换相似体;
③根据模式的相似度选择最相似的模式;
④将相似模式的延拓进行组合用于预测。
1.3 结合AC算法与GMDH算法的混合模型
在AC算法中,GMDH算法通过数据挖掘发现,在历史上与建模的当前状态具有相同特征的相似体一定存在,并识别出最佳的相似体。尽管金融市场存在进化现象,但仍然认为相似体的延拓与建模对象的延拓有类似的特征。另外,在预测时,训练集的质量会影响神经网络的泛化能力,而GMDH算法在系统的输入维数和历史数据的长度之间的比例是相对较小的,因此是待定系统建模最好的算法。使用GMDH算法,将已经选出来的相似模式的延拓加权组合起来,同时给出组合时的最优权重,用线性的输入输出GMDH模型,可求出当前状态的发展趋势。AC算法不需要预先对输入变量的发展趋势进行估价或作假设,完全由已知的数据给出预测,是真正意义上的预测。GMDH算法则由数据根据最优复杂度原则客观地选择最优模式,避免人为干预,符合数据特征。这样,将非参数的自组织方法AC算法和参数的自组织方法GMDH算法结合起来,使各个方法的优点充分利用,提高预测精度。
2 实证分析
本文实证分析外汇市场上的人民币(RMB)兑美元(USD)、人民币兑日元(JPY)两种汇率,取当日收盘价,数据来自CCER中国经济金融数据库。考虑到中国于2005年7月21日才开始实行浮动汇率,选择2005年7月25日至2011年12月30日汇率数据,剔除无效数据,共1590个数据。其中2005年7月21日到2010年6月18日共1200个样本作为训练集,其余作测试集。
将混合参数与非参数的自组织方法与单一的GMDH算法和神经网络ANN模型作一比较,用均方误差MSE作为评判标准,MSE=■,预测结果如表1。
由上述结果可见,根据MSE的值,结合参数与非参数的自组织方法预测效果最好,GMDH算法的预测效果次之,神经网络ANN的效果最差。
3 结论
由于金融模型能够较准确地进行预测,因而吸引了众多投资者的注意,但是汇率市场的多变性和复杂性使得预测工作变得非常困难。由于金融市场的快速发展和其具有的非参数的特性,非参数建模方法逐步替代参数方法成为一个更好的预测方法。因此,非参数自组织方法如AC算法被用于汇率预测。进一步的工作表明,非参数和参数方法结合使用时,预测的结果相比单一的方法更有效更一致,能使模型的预测性能显著改善。因此,结合参数与非参数的自组织方法可以作为汇率预测的一个有效工具。
参考文献:
[1]姜波克,陆前进,汇率理论和政策研究[M].上海:复旦大学出版社,2000.
[2]姜波克,杨长江.国际金融学(第二版)[M].北京:高等教育出版社,2004,
[3]施建淮.汇率经济学研究[M].北京 : 中国社会科学出版社,2010.
[4]D.A. Hsieh, “Testing for Nonlinear Dependence in Daily Foreign Exchange Rates,” Journal of Business, Vol. 62, No. 3, 1989, pp. 329-368.
[5]J. A. Frankel, “Monetary and Portfolio Balance Models of the Determination of Exchange Rates,” In: J. A. Frankel, Ed., On Exchange Rates, MIT Press, Cambridge, 1993, pp. 95-116.
[6]M. Alvarez-Diaz and A. Alvarez, “Forecasting Exchange Rates Using an Evolutionary Neural Network,” Applied Financial Economics Letters, Vol. 3, No. 1, 2007, pp. 5-9.
[7]Shan-Chang Huang, Pei-Ju Chuang, Cheng-Feng Wu. Chaos-based support vector regressions for exchange rate forecasting [J]. Expert Systems with Applications. Vol. 37, Issue 12, December 2010,pages 8590-8598.
[8]Jussi Nikkinen, Seppo Pynnonen, Mikko Ranta, Sami Vahamaa, Cross-dynamics of exchange rate expectations: a wavelet analysis[J]. International Journal of Finance & Economics. Vol 16, Issue 3, pages 205-217, July 2011.
[9]Bahram Adrangi, Mary Allender, Arjun Chatrath and Kambiz Raffiee. Nonlinearities and Chaos: Evidence from Exchange Rates[J].Atlantic Economic Journal, 2010, vol. 38, issue 2, pages 247-248.
[10]Ivakhnenko A.G. Heuristic self-organization on problems of engineering cybernetics [J].Automatic.1970, 6(3):207-219.
篇10
Abstract: Laser scanning point cloud data can be projected using a specific intuitive program to help understand the structure of the data in the building. Such procedures have been widely used in automated building modeling. The method derives a building orientation from the analysis of a high-degree histogram bin and uses the azimuth to generate an orthogonally two-dimensional projection of the point cloud, where the roof plane is the line of the point cloud. The line segments representing these planes are extracted by a line tracking algorithm. In the subsequent processing steps, the line segments are stretched and the plane is used to analyze deviations from the rectangular shape. Two or more adjacent planes are grouped to generate a three-dimensional building model. Existing 2D GIS data can be used in this process to provide reliable partitioning of the onboard laser scan dataset and generate hypotheses that support realistic building modeling.
关键词: LiDAR;点云数据;分割;建筑模型建模
Key words: LiDAR; point cloud data;segmentation;building model reconstruction
中图分类号:TP391.4 文献标识码:A 文章编号:1006-4311(2017)14-0147-03
0 引言
激光雷达Lidar在最近十年间崭露头角并逐渐进入主流的一种遥感技术,它实用性强,比如用于DEM提取和三维建模等。甚至国外已经用Lidar实现了城市三维模型建立。Lidar直接测得带有地理坐标的密集点云,并不能直观地给人们描述其所需要认识的研究对象,为此往往需要对点云进行一系列的处理,然后方能提取出人们想要得到的信息。
目前,关于点云的处理已经有多种的流程和框架,其中点云分割技术就是期间重要的一步。通常只有在完成点云分割技术处理之后才能再进行建模、三维建模。本研究中涉及的点云数据的建筑物重建技术,从高度直方图面元的分析中导出建筑物方位,并利用该方位产生点云的正交二维投影,其中屋顶平面作为点云的线。通过线跟踪算法提取表示这些平面的线段。最后矫正偏差,重建模型[1]。
1 基于二维GIS数据的分割
良好的机载激光扫描点云数据集分割是应用3D建筑模型生成方法的关键前提。基本上,激光扫描点云数据的分割可以基于数据本身进行,或者结合其他信息源,例如现有的2D GIS数据或高分辨率航空影像。
在理想条件下,可以在激光点云数据中检测建筑物,执行简单的高度阈值处理,结合对数据集的每个点的第一个和最后一个的间隔差进行分析。假设建筑物和树木有着显著大于地形的高度,第一个和最后一个点的间隔差在高植被覆盖区域将存在明显差异[1]。如果应用于原始数据,则可通过TIN结构中的连续性分析来检测和分割建筑物。如果应用于被压缩到规则格网下的激光扫描仪的高度数据,则该过程可以生成掩模用于数据中表示各个建筑物的切割点云。在具有非平坦地形的区域总,阈值处理的首位间隔差分法可以应用于归化数字表面模型,该模型基于滤波数字表面模型[2]。
如果只基于激光扫描仪数据获得的分割质量会受到数据集的复杂性限制。在具有相当复杂地形的地区,靠近建筑物的密集植被覆盖区域或内城区,这类方法的成功率较低,从而限制了3D建筑模型自动生成方案的适用性。用于分割处理的信息主要来自于2D GIS数据。在大多数地区,这类数据可以通过地籍数据或从数字化地图获得。该类型数据交互操作时已将注视加入原始数据源中,可靠性较高。另一方面,这种技术受限于地区二维GIS数据的完整性、精确性和可靠性以及更新频率。此外,大部分基于此类数据的分割过程将不能用恢复,并且多数不考虑房屋的突出部分。
在瑞士,分米级精度的数字二维地类数据可以在大多数地区使用。该数据用于研究区域内机载激光扫描数据的分割。通过单独处理每栋建筑物地平面多边形并在多边形中测试其包含的数据点来实现分割。由于研究区域的特点是建筑物具有大的屋顶悬垂,在每个多边形周围定义一个5米的缓冲区,以便悬挂区域的屋顶点不被处理成噪音点(图1)。同时,缓冲^域允许建模程序从包含地面在内的泛化效应恢复。该过程可通过ArcMap插件实现。在实际建筑物建模时消除包括缓冲区在内的附加地面或植被点。接地点可以在建模时用于定义地形级别。连接的区段需要切断缓冲区,只有邻近建筑物附近地面点可以在两个区段之间共享。
2 基于二维GIS数据的方位分析
除了区域数据对点云数据进行分割之外,还可以从实验区域数据中到处支持建筑物建模过程的附加信息[3]。以及使用一种分割复杂实验区域并使用这些部分来限制搜索区域并进行三维霍夫变换以提取屋顶平面的技术[4]。
屋顶平面通过分割点云的特定正交二维投影和随后的线检测过程来检测。这种方法需要建筑物方向的信息,其可以通过对高度直方图元中的线搜索的结果分析,从激光扫描仪数据本身导出[5]。(图2)。
在具有许多上部结构的屋顶情况下,该过程可能产生不理想的结果。在这些情况下,从建筑物实验区域导出的建筑物取向可以支持屋顶建模。为此,执行长度加权的方位角聚类分析,产生由地平面图(图3)中的最长线定义的建筑物的主方向。
从地平面导出的该建筑物方位角可以仅用于进一步建模处理,或者可以用于验证从高度直方图面元分析导出的方位。由于上述过程在复杂地面计划的情况下不会总是检测到正确的主方向,因此后一种方法将产生更可靠的结果。在高度直方图单元方向分析中的清晰最大值的情况下,最接近从高度单元导出的定向角的地平面取向被选择为主要建筑物取向,而在高度直方图单元方向分析的不理想结果的情况下,主要建筑方向是从实验区域方向分析。
3 特定正交点云投影的建筑物建模
本文提出的三维建筑物模型自动建模的方法基本思想来源于注释表示建筑物点云时,操作者的基本操作方式:用户旋转点云,正交投影平行于屋脊,来识别房屋结构。屋顶平面在该投影中投影成线,从而允许识别平面的宽度和倾斜。这种面向用户的交互过程在相应的建筑建模方案中有细节描述[6]。
消除地面点噪音:
通过局部高度直方图分析,利用在建筑物墙的高度范围内的直方图最小值来消除来自分割过程的缺陷或从建筑物地平面周围限定的缓冲器剩余的接地点,以导出高度阈值。
确定屋顶方向:
对于点云的特定正交2D投影所需的主要屋顶取向可以从高度直方图面元分析或从如第3章中描述的地面平面的分析获得。点云由建筑物旋转方位并投影到XZ平面(图4)。
通过与建筑物方位角相加90°来执行进入YZ平面的第二正交投影。 当假定具有一个或两个正交的屋脊方向的建筑物时,这两个突起将以投影线显示所有屋顶平面。可选择性添加多个45°的投影以覆盖更复杂的屋顶形状。
2D投影中线的检测:
在点云的2D投影中执行线检索,以便检测表示屋顶面的线(图5)。线检索从接地点消除后的局部点云的最低点开始。如果在该点上方居中的框中,点的数量超过特定阈值,则使用鲁棒性估计将线拟合到这些点中。 在下一步中,该线被外推以收集对该线有贡献的附加点。如果最低点无法产生线,则返回并从下一点重新开始。
线的梯度和长度定义屋顶平面的倾斜度和宽度(图6)。表示相邻屋顶平面的线在点上相交。交叉点代表屋顶的脊。在屋脊附近结束的提取线长度被缩短或延长到交点。
屋顶平面的生成:
属于线的所有点旋转屋顶倾角D,并投影到Y-Z平面中,在那里它们形成水平线。 该线的长度表示屋顶表面的长度。 图7示出了从单个投影导出的屋顶面提取的3D多边形。
非四边形屋顶平面:
考虑到数据集的平均点密度(图8),通过该过程产生的矩形屋顶面投影到X-Y平面内点的条带分析来检查切除。
建筑模型生成:
在下一步骤中,各个平面可以结合屋顶结构。此时会有,共享脊线的相邻屋顶平面相交(图7)。此外,源自两个正交投影的平面必须相交。这就是屋顶的建模。
在下一步骤中,通过将屋顶边缘投影到地形模型上来重建建筑物的墙壁。为了简单起见,选择建筑物附近的最低点来表示建筑物足点高度。为了视觉目的,可以在墙壁的重建中考虑屋顶突出。如果有土地规划信息可用,屋顶悬垂的大小可以从屋顶轮廓和土地规划之间的差异导出。或者,可以从地平面本身重建墙壁。如果没有可用的土地规划信息,则可以假定为平均屋顶突出。
多边形被分组到多面体建筑模型并被可视化(图9)。
4 适用性检测
第1-3部分所示的方法已在瑞士卢塞恩地形图的激光扫描仪数据集上进行了实际测试。 数据集特征为每1.5平方米一点的平均点密度和高度20cm的标准偏差。该数据集中,选择了六个探测器,总共250个建筑物代表不同类型的建筑类型和建筑布置。 2D数字地籍数据可用于整个测试区域并且用于如上所述的分割和建筑物取向确定。
5 结果分析
在分段激光呙璧阍频奶囟ㄕ交投影中,2D线检索的方法已被证明是用于从机载激光扫描器数据生成3D建筑模型的通用且强大的途径。现有的2D GIS数据可以用作将激光扫描器数据分割成要通过该方法建模的单个建筑物局部点云的可靠工具。 2D GIS数据也可以用于通过定向假设生成来支持3D建筑重建过程。
成功重建的建筑物成功率在具有复杂建筑物的地区中为40-50%,在新建住宅区中接近100%。未来将扩展2D GIS数据的使用,以确定屋顶悬垂,改进非四边形屋顶平面的形状确定和平面分组假设的生成。
参考文献:
[1]钟良.LiDAR同机影像辅助点云分类相关技术研究[J].武汉大学,2010,24(5).
[2]惠振阳.胡友健.基于LiDAR数字高程模型构建的数学形态学滤波方法综述[J].激光与光电子学进展,2016(08).
[3]管海燕.LiDAR与影像结合的地物分类及房屋重建研究[D].武汉大学,2009.
[4]杨斌.机载LiDAR点元数据建筑物半自动提取方法研究[J].辽宁工程技术大学,2011.
[5]赵明波,何峻,田军生,付强.基于改进的渐进多尺度数学形态学的激光雷达数据滤波方法[J].光学学报,2013(03).
[6]孙美玲,李永树,陈强,蔡国林.基于迭代多尺度形态学开重建的城区LiDAR滤波方法[J].红外与激光工程,2015(01).
[7]欧新良,匡小兰,倪问尹.三维散乱点云分割技术综述[J].湖南工业大学学报,2010,24(5).
[8]Shapiro L G,Sthockman G C,et puter Vision[M].Prentice Hall,2008.