数据挖掘论文范文

时间:2023-04-05 01:35:37

导语:如何才能写好一篇数据挖掘论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数据挖掘论文

篇1

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

篇2

近年来,我国的部队管理体系已经逐渐向着自动化方向发展,部队中各个部门都建立了一定的管理体系,也逐渐脱离了人工管理模式,实现信息现代化模式,很大程度提高了部队工作的效率,但是由于外界因素与经济发展的多样化以及人们的思维模式也在不断改变,从而出现了一些新问题,使得部队管理体系存在着一定问题:第一、关联性小、系统比较独立。现阶段,部队采购食品系统的作用以及目的比较简单,思维面也比较窄,也就是说按照清单进行食品采购时,不能充分考虑到采购人员的健康、效率等问题,不能达到最优化采购方式,因此就变得比较独立;第二,数据功能简单,可靠性不高。现阶段,部队食品采购数据只是对采购的种类与过程进行简单记录,时间一久,就会被损坏或者丢失;第三,数据分散不集中。现阶段与部队人员健康、起居饮食、训练相关的数据分散在不同系统中,使得数据变得不一致、不完整,仅仅只能进行简单查询、汇总、统计等工作,不能对数据进行多角度分析、关联等,不能为采购食品提供很好的政策支持。针对部队采购存在的问题,可以利用数据仓库以及数据挖掘技术建立多为数据库,利用数据挖掘进技术对食品采购数据进行挖掘。依据现阶段部队的实际发展情况,建立一套新数据库的成本代价比较高,因此,选用了目前社会上通用方法,对已经存在的数据进行一定改革与拓展,合理优化系统数据,成为新的数据库。并且选取对数据挖掘影响比较大的系统性分析,包括训练系统,食品采购系统、人员管理系统以及医疗卫生系统。针对食品采购采购系统建立数据模型。

二、在部队食品采购系统中的应用以及其价值评价

在部队食品采购系统实际应用工程中,其实可以运用MicrosoftSQLServerAnalysisServices来对数据进行分析,并且在数据挖掘过程中对多维数据进行描述与查找起到一定作用。因为多维数据比较复杂,增长的也比较快,因此,进行手动查找是很困难的,数据挖掘技术提供的计算模式可以很好的对数据进行分析与查找。在建设部队食品采购仓库数据的时候,数据内容主要包括了人员的健康、兵员的饮食以及训练等,进行数据挖掘主要包括以下内容:第一,把每个主题信息数据进行收集、汇总、分析等,对人员情况、健康、饮食、训练等进行合理分析;第二,多维分析数据信息。根据部队的实际情况,利用数据挖掘技术对部队人员健康、饮食、训练等数据信息进行多维分析,其中包含上钻、切片、下钻等;第三,挖掘健康与饮食之间的内在关系。根据数据库中许多面向主题的历史数据,采用数据挖掘技术进行分析与演算得到部队人员的训练和健康情况与部队饮食之间内在关系,以便于为部队食品采购提供合理的、有效的保障,从而提高部队整体人员的健康水平、身体素质以及训练质量,对提高我国部队战斗力有着深远的意义。

三、结束语

篇3

物联网数据挖掘处理功能需要在Hadoop平台和Map/Reduce模式基础上进行,对此需要划分2个不同层面的操作流程。

1.1Hadoop平台的具体操作流程

(1)对物联网中的RFID数据进行过滤、转换、合并的处理,并在分布式系统HDFS中保存PML文件形式的数据。同时,可采取副本策略来处理PML文件,在同一机构的不同节点或不同机构的某一节点上保存PML文件中的2-3个副本,进而可实现对存储、处理、节点失效问题的有效解决。

(2)在执行任务过程中,创建和管理控制是Master(主控程序)的主要工作,当Worker处于空闲状态时会接收到有关的分配任务,需与Map/Reduce互相合作实现操作处理,处理的最终结果由Master来归并,同时将反馈结果传送给用户。

1.2Map/Reduce的具体操作流程

(1)根据参数在Map/Reduce思想指导下对输入文件进行分割处理,使其细化为M块(16-64M大小范围)。

(2)Master、Worker、Map操作(M个)、Reduce操作(R个)是构成执行程序的主要部分,其中Map/Reduce的处理任务会由Master伴随物联网的快速发展和广泛应用,人们可以有效利用物联网来实现信息交换和通信的目的,不过物联网海量数据的日益增多大大降低了物联网服务的质量。在此,对基于Apriori算法进行物联网数据挖掘研究。摘要将其分配给空闲的Worker。

(3)在处理Map任务时,Worker会读取处理中的数据,并向Map函数传送<key,value>,而后产生中间结果在内存中缓存且定时向本地硬盘传送。此外,依据分区函数将中间结果分割为R块区,利用Master将本地硬盘接收到的数据位置信息传送给Reduce函数。

(4)ReduceWorker根据Master所传送的文件信息采用远程读取方式来操作,以在本地文件中找到对应的文件,对文件的中间key进行有序排列,并利用远程发送信息给具体执行的Reduce。

(5)ReduceWorker依据key排序后的中间数据向Reduce函数传送与key对应的中间结果集,而最后的结果需采取最终输出文件来进行编写。

(6)当Map、Reduce的任务全部完成之后,MapReduce将回归到用户程序的调用点处,同时以Master对用户程序进行激活。

2基于Apriori算法的物联网数据挖掘

2.1Apriori数据挖掘原理和操作流程

Apriori是提升物联网数据挖掘功能的一种最有效算法,其原理是在K项集中以逐层搜索迭代的方式来探索。具体的操作流程包括:

(1)扫描数据集以生成频繁1-项集L1。

(2)通过L1来探索频繁项集L2,采用不断迭代的方式来持续探索,直至频繁项集是空集。

2.2K次循环搜索后的数据挖掘流程

当已完成了K次循环搜索时,还需要进行2个数据挖掘的操作流程:(1)在LK-1生成CK(候选集)之后,开展JOIN操作。(2)支持度统计和剪枝的操作依据Apriori性质来进行,而后使得CK生成LK(频繁集)。为提高物联网数据挖掘的效率,节省系统的时间和内存消耗,在Apriori算法基础上还需要借鉴和移植云计算平台的分布式并行计算性质。如此以实现Hadoop架构的建立,在扫描数据库查找频繁项集中得到的并联规则需要存储在Hadoop架构中。同时,为取得各个计算节点上的局部频繁项集,各个DataNode节点需要经历并行操作的扫描处理,并使用Master来统计和确定实际全局的支持度、频繁项集。

2.3Apriori算法Map/Reduce化的处理流程

上述提及基于Apriori算法的物联网数据挖掘需借助于Map/Reduce模式,其数据挖掘功能的实现还应Map/Reduce化Apriori算法。主要的处理流程包括:

(1)用户提出挖掘服务的请求,且由用户来设置Apriori所需的数据,如最小支持度、置信度。

(2)当Master接收到请求后,通过NameNode来进行PML文件的申请,而后逐步完成访问空闲节点列表、向空闲的DataNode分配任务、调度和并行处理各个DataNode需要的存储节点算法。

(3)运用Map函数来处理每个DataNode的<key,value>对映射、新键值对,以CnK(用1表示每一个CnK的支持度)来表示所产生的一个局部候选频繁K项集。

(4)通过Reduce函数来实现调用计算,对每个DataNode节点上相同候选项集的支持度进行累加,以产生一个实际的支持度,将其与最小支持度(用户申请时所设置)进行比较,进而用LnK表示所生成的局部频繁K项集的集合。

(5)对所有的处理结果进行合并,从而实现全局频繁K项集LK的生成。

3结论

篇4

1.1关联分析。它是形如XY的蕴涵式,其中X和Y分别称为关联规则的先导和后继。用关联规则可以从大量数据项集中挖掘出它们之间有趣的联系。此外,关联规则也可用于序列模式发现。

1.2分类。它能将数据库中的数据项,映射到给定类别中的一个。分类[3]定义了一种从属性到类别的映射关系,给定样本的属性值,根据已知的模式将其划分到特定的类中。

1.3聚类分析。聚类是根据一定的规则,按照相似性把样本归成若干类别。在对样本合理划分后,对不同的类进行描述。聚类通常用于将客户细分成不同的客户群,如有相同爱好的客户群。

1.4时间序列。按照时间的顺序把随机事件变化发展的过错记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。

1.5孤立点分析。孤立点在数学上是指坐标满足曲线方程,但并不落在曲线上的点。它也可以被看作是在数据集合中与大多数数据特征不一致的数据。对孤立点进行分析极有可能发现重要的隐藏信息。

1.6遗传算法。它是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法;是一个以适应度为目标函数,对种群个体施加遗传操作,实现群体结构重组,经迭代而达到总体优化的过程。目前,将数据挖掘技术应用于烟草行业的研究逐步受到重视。欧阳秀君,刘文在《数据挖掘技术在烟草CRM中的应用》一文中[4],主要探讨如何将数据挖掘中的关联规则、聚类、分类方法应用于烟草CRM中。康江峰,陈辉[5]将基于数据挖掘的技术应用于对烟草精准营销策略的研究。王辛盟[6]采用数据挖掘技术,利用SPSS统计软件,以某烟草配送中心的订单数据和客户资料数据为数据源,用聚类的方法对客户群进行细分。郑阳洋、刘希玉[7]采用基于多层次关联规则挖掘技术,对2007年山东省内某地级市卷烟商业企业的销售数据进行分析,得到“消费者在购买品名为红河(软甲)的客户中,有57%会同时购买类名为八喜的卷烟”的规则。但以上对于烟草行业的数据挖掘研究的方法主要集中在关联规则、聚类分析和分类三种方法上,在接下来的研究中,我将探讨如何将更多的数据挖掘方法应用于烟草行业的数据分析上。

2数据挖掘技术在烟草行业中的应用

2.1聚类分析在卷烟销售中的应用为了便于日常卷烟销售及统计,通常根据卷烟的属性对进卷烟行分类,常见的卷烟分类方法如下:一是按照价位段划分,5元以下、5-10元、10元以上等;二是按照利润贡献度,分为一类烟、二类烟、三类烟、四类烟和五类烟;三是按照卷烟品牌划分,泰山系列、黄鹤楼系列、七匹狼系列等;四是按照产地划分,鲁产烟、沪产烟、外产烟等;五是按照焦油含量划分,低焦油卷烟和高焦油卷烟。以上就卷烟的某一单一属性对卷烟类别进行区分,极大的方便卷烟的销售管理工作,然而,消费者在选择卷烟时,往往会考虑多方面的属性,因此单一属性的卷烟分类无法解释消费者偏好。因此需要引入基于多属性的卷烟分类方法,由于卷烟规格多且本身具有多重属性,基于主观判别分类方法难以满足分类要求,需借助统计学的方法对卷烟进行科学分类。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,同一类别的样本表现出较高的相似性。因此,可将聚类分析用于解决上述卷烟分类问题,根据多属性相似程度将卷烟分成几个类别,消费者在同一类别中的香烟偏好无显著差异,即同一类别中的香烟具有较高的替代效应。在实际销售过程中,当某一牌号的卷烟断货、紧俏时,可推荐此牌号所在类别的其它牌号的卷烟给消费者作为有效替代。

2.2时间序列用于卷烟销售趋势预测卷烟销售市场季节性特别显著,主要表现为两个方面:一是市场以节假日为节点,节前卷烟销售迅猛,节后消费趋于平淡;二是夏季是旅游市场的旺盛,旅游业带动外来人口流动增加,卷烟销售量也随同增加。同时,卷烟市场也受经济、人口结构等方面因素影响,使得卷烟销售量存在明显的非线性特征,波动范围比较大,传统线性预测模型难以准确预测。为了提高卷烟销售预测精度,建立一个基于时间序列、能够精确预测卷烟销售量的模型已经成为一种必然趋势。时间序列由四个影响成分所组成,分别是长期趋势、循环变动、季节变动、不规则变动。这四个影响成分与卷烟销售市场的变动规律相吻合。通过建立卷烟销售时间序列模型,对以往销售的历史数据进行分析,能够有效地预测未来卷烟销售市场的走势和发展规律,更好地掌握卷烟市场的供需关系。在此基础上,做好备货工作,设立合理库存,实现有效的货源供应。通过对区域市场变化趋势的预测并结合客户实时经营状况,能够对客户的需求总量做出相适应的预测,确保做好客户的合理定量工作,保障不同零售客户需求。预测结果还可为制定公平合理的货源投放政策提供依据,使得各类货源能够投放至有相应销售能力的客户手中,更好的满足消费者的需求。

2.3孤立点分析用于烟草专卖执法数据挖掘中的孤立点分析方法可以通过计算数据点之间的距离,稠密度等来模拟用户之间的属性差异,由此找到那些属性特征与正常点差异非常大的用户数据点。人们普遍认为孤立点的存在极有可能是度量或执行错误所导致的,因其不符合数据的一般模型,所以在研究普遍现象时,人们总是试图使孤立点的影响最小化,而尽可能排除它们。然而,孤立点可能隐藏着比一般的数据更有价值的信息。近些年来,孤立点挖掘作为一个重要的研究课题,已被广泛用于信用卡诈骗监测、市场内部交易侦测、工业设备故障探测等领域。在已建立的烟草分销数据库中储存着大量客户订单信息,这些订单信息包含多个维度,如用户ID、商品编号、订购数量、需求数量、同一品牌订货间隔等等。可利用孤立点挖掘算法对客户订单数据进行分析,建立客户评估监测模型,找到以下“孤立点”:订单金额高的,敏感牌号订购量大的,敏感牌号订购频繁的,以往订购敏感牌号频率低但最近一段时间频繁订购的,按照商圈不具备高端敏感牌号销路的却频繁订购等等。这类订单“异常”的客户,或者称为“孤立点”,可以被认为是存在相当大的“违规”可能性,我们的专卖执法人员应该对这一类的零售户采取进一步的跟踪调查。孤立点数据分析,势必成为专卖执法的又一利器。

2.4遗传算法用于车辆配送线路优化卷烟商业企业的销售收益主要来自于订单,销售成本主要产生在物流配送的环节。所以,在假设销售量不变的情况下,如何优化线路配置,降低成本,最大化公司利润,在当前烟草行业面临巨大的挑战和压力下,显得尤为重要。因此,采用科学的、合理的方法来确定配送线路将是车辆优化调度工作的重中之重,是物流系统优化、物流科学化的关键。烟草商业企业已有的线路优化系统中储存有客户商店位置、道路情况等信息,可以在此基础上,利用遗传算法对配送线路问题进行优化。将一系列实际中车辆配送的约束条件,转换成二进制编码(染色体)并随机产生初始种群,通过模拟达尔文的遗传选择和自然淘汰的生物进化过程,并借助于自然遗传学的遗传算子进行组合交叉和变异,逐代演化产生出越来越好的近似解,末代种群中的最优个体经过解码,可以作为最终问题的近似最优解,用以实现对车辆的优化调度,即合理地进行配货优化、货物配装优化,特别是配送路线优化。从而达到提高里程利用率,降低行驶费用,减少车辆空驶里程,增加货运量,节约燃料,降低大修费等,为企业带来更大的经济效益。另外,车辆优化调度在减少废气排放量,降低城市空气污染方面也起到积极作用。

3结束语

篇5

纺织品中一些纤维不易上色,只有应用强酸或者强碱才能保证其上色的效果,我国对纺织品中PH达到的数值有着明确要求。通过对某检测机构pH值超标报告的分析发现,纺织品中各个成本pH值分布为:棉56.67,羊毛22.5%,羊绒7.5%,桑蚕丝4.17%,亚麻3.33%,聚酯纤维3.3%,粘纤1.67%,兔毛0.83%。

经过检验与对比发现,pH超标较为严重的主要是棉成分,由于棉只能在强碱条件下上色,所以,会使纺织品超过国家要求的pH值控制范围。pH值超标主要是生产工艺不佳造成的,为了降低pH值对人健康的影响,相关部门应加强对服装制作工艺的控制与管理。

2基于数据挖掘的色牢度分析

色牢度也是纺织品检验的一项重要指标,在Clementine中将导入的数据通过过滤节点过滤出品牌、耐水色牢度(沾色)、耐酸色牢度(沽色)、耐碱色牢度(沾色)、耐干摩擦色牢度和主要成分之后。建立进口纺织服装的风险预警以及置信度规则,可以发现,支持度和置信度都很高的规则主要涉及桑蚕丝和棉这2种成分以及甲品牌。主要成分为桑蚕丝的纺织服饰与耐碱色牢度、耐水色牢度、耐酸色牢度关系密切,而主要成分为棉的纺织服饰以及甲品牌的纺织服饰4种色牢度的不合格比例都很高。

色牢度不够的原因除了与制作工艺有关,还与染色后浮水处理有关。针对桑蚕丝与棉成分含量较高的纺织品,一定要在染色前先进行正交试验,还要保证染色温度、染色液酸碱浓度的合理性,这样才能保证桑蚕丝以及棉制品色牢度的合格性。

3结语

篇6

根据网络规划的要求,利用大数据可以从覆盖评估,干扰评估和价值评估三个维度建立基于大数据挖掘的LTE网络规划体系,通过对现网问题的全面、准确分析定位,预知LTE网络规划存在的问题,提升LTE网络规划的准确性。

1.1覆盖评估分析

良好的覆盖是网络建设的最基本要求,基站站间距过大,基站覆盖过远会造成部分地点盲覆盖或者室内深度覆盖不足;而站间距过小,重叠覆盖会带来较大干扰,同样影响用户感受,同时不必要的重复建站将会加大投资成本。理想的蜂窝网络结构应该在保证用户移动性的前提下使小区间的交叠区域处在一个较低的水平借助现网2G/3G实测数据,参考工参,扫频及MR等大数据,利用奥村-哈塔传播方程矩阵理论运算,根据不同频段自由空间传播模型损耗、模拟仿真覆盖及损耗矩阵,评估规划LTE网络的覆盖情况;同时构建贴合现网实际的小区传播路损模型,有效识别LTE网络的弱覆盖和过覆盖区域,实现“点、线、面”联合校准验证,获取真实、准确和全面的小区覆盖规划数据。

1.2干扰评估分析

干扰是影响LTE网络质量的关键因素,我们引入干扰贡献系数来评估无线网络重叠覆盖度。定义干扰邻区的能量之和与主小区的总能量的比值为干扰贡献系数,用其来评估主小区A,系数越大,说明该小区对外的干扰越大,需要整改的优先级越高。

1.3价值评估分析

传统规划主要从覆盖与干扰两个维度分析,不能完全识别出高价值站点,导致网络部署后出现建设偏离业务热点,超闲小区较多等问题。而基于大数据挖掘的LTE网络规划可基于话务热点、用户/终端及价值业务等多维度进行关联性分析。首先梳理出数据及话务热点、智能终端/数据卡渗透高区域,判定流量价值高的区域;其次发掘出数据业务使用率高,但实际速率低,话务需求被压制的区域;再次利用VIP/投拆用户列表导出数据业务投诉用户和VIP用户区域,更直观、有效的体现网络热点投诉、流量变化较大的重点小区数据,定位重要客户的高价值流量区域,聚焦影响用户感知的重要问题,发掘LTE潜在高价值区域,有效指导LTE网络规划效益,降低网络资源的管理成本。利用基于栅格的多维度价值得分评估体系,通过高流量小区选择,实现用户分布地理化关联,进行多维度地理化综合分析,得到多个小区构成的栅格的价值得分,得出高优先级建站区域。

1)统计各栅格流量、用户使用TD-SCDMA的速率、用户数量、终端分布、业务流量分布等数据,当某个栅格点上指标值大于全网栅格该指标平均值的k倍,即赋予该栅格价值点相应的分值。

2)栅格价值点相应的分值:栅格内指标值/(全网栅格点该指标平均值×k),k值建议为1.2,意义为在此栅格点的其中某一项因素大于该项因素的平均值的1.2倍,才会进行价值得分分析,小于该值则该栅格点的该项因素的价值得分为0。

3)单个栅格总得分=权重1×热点得分+权重2×速率得分+权重3×终端得分+权重4×业务得分…。

4)统计基站覆盖范围内包含的栅格数量以及各个栅格上的分值,最终输出规划基站的总栅格得分排序,排序高低反映了该基站的价值高低。

1.4评估分析流程

评估分析一般在待建站点资源收集后,按照价值高低,基于基站覆盖范围和受干扰影响程度,选择建站顺序。根据实际情况,可一方面利用2/3G旧站址,一方面建议增加符合合理网络结构的新站点,达到良好规划的目的。

2大数据处理思路

LTE规划过程利用收集到的大量数据,包括工参数据、性能数据、经分口数据、MC口数据、投诉数据、测试数据等六大项13类数据,从中提取有用信息进行分析。

2.1基于大数据的打包清洗

根据大数据删冗去错机制进行数据清洗(见图7),保持数据的准确性。在规划中首先实现数据去冗,对话统过期数据、工参多余字段集中去除;其次是数据去重,去除相同路段多次测试的数据,排除话统及性能相同的数据,保证数据唯一性;再次是数据纠错,结合数据特性,对统计异常、工参错误等数据进行纠错,保证数据区间在合理范围。

2.2基于大数据的关联聚合

根据数据的特征、变量等进行“数据降维”,从覆盖,干扰和价值维度对数据进行投影降维,简化分析数据的复杂度。同时运用强关联聚合、相近聚合、相关聚合等聚合模型进行“关联聚合”,比如在覆盖评估中将道路测试、路测扫频、用户测量报告等信息按照关联强弱聚合,在价值评估中将业务分布、用户分布、终端分布等信息按照比例进行关联聚合。具体来讲,以用户的地理位置为索引,关联其所在位置的信号强度,干扰情况,终端支持类型信息,业务信息以及所在位置的周围基站分布情况,周围环境情况,人群流动情况等等,建立基于时间、位置、用户、终端、应用等多维度的用户行为聚合模型。根据用户行为模型,分析筛选得到绝对静态用户数(静态用户定义为单用户在某小区有5天产生流量且每天在该小区产生流量占当天该用户总流量的70%以上,且产生的流量大于10MB/周)全省共计3.8万人,涉及5798个小区。根据用户在占用静态小区时上报的用户自身所在位置的经纬信息(理论上精度平均误差在55m)结合基站位置关联,发现定位2G/3G数据业务成熟度高的区域。通过精确定位不同用户上网的地理位置,同时关联静态用户终端网络制式信息,用户上网习惯和用户流量,引导4G站点规划,指导指导定向推送4G营销业务。

3应用情况

基于大数据挖掘的LTE网络规划研究在山东公司LTE网络一期网络规划中得到了广泛应用。通过高价值区域定位、干扰问题分析、覆盖评估等维度综合关联性分析,借助2G/3G现网实测数据实现了“点、线、面”联合评估,真实、准确、全面地对4G网络的价值流量、重叠覆盖干扰、弱覆盖等进行了评估,同时输出了LTE工参信息、站址建设优先级,站址地理化呈现等一系列规划结果。通过黑、灰、白名单规则判断,输出了LTE网络不建议规划的黑名单小区、通过相关优化调整后可规划灰名单小区、直接可共址建设的白名单小区,共评估一期工程规划小区60653个,发现低价值用户流量少的黑小区3433个;易产生干扰黑色小区5021个,灰色站点1265个;覆盖问题黑色小区543个,灰色小区3501个。通过规划质量的提高,降低了后续优化调整的难度,共计节约资金11766×0.3=3530万(注:每个基站年优化费用约0.3万),而且原来人工规划、勘察基站的效率大大提升,解放人力成本带来的直接经济效益75×10=750万(注:人力成本节约75人,含外包,年人均成本10万),降低了全省网络规划优化的管理成本。通过TD-LTE的大数据网络规划分析,有效指导了4G网络规划,按照以终为始、聚焦价值、提高投资收益、建设精品网络的目标,提升了4G网络规划的准确性、合理性。

4结语

篇7

对原燃料结算方式进行数据挖掘的目的是为了控制结算成本,采用的方法是根据超出我方检斤检质结算量属性对原燃料进行分类,构建原燃料结算控制模型。

2数据准备

数据收集:需要严格控制我方检斤检质的过程以作为判断的依据,同时尽可能多的从事物数据库中收集各种原燃料按不同结算方式所得到的结算量属性值。数据预处理:首先根据经验去掉明显有误的数据;其次根据原燃料结算方式,选择与数据挖掘相关的属性。数据变换:对数据进行相应的变换,从初始特征中找出真正有用的特征。在本次数据挖掘中原燃料属性主要包括:原燃料种类,供方检斤检质结算量,我方检斤检质结算量,供方检斤检质与我方检斤检质之间的结算量差别。然后根据我方检斤检质结算量与供方检斤检质结算量之间的差别作为分类的依据,对上述属性进行归一化[1],得到表1、表2数据。SupQty表示供方量,SupH2O表示供方水分,Qty表示我方量,H2O表示我方水分,SupInsQty表示供方检斤检质量,in-sQty表示我方检斤检质量,calculQty表示供方检斤检质量与我方检斤检质量之间的差值。

3数据挖掘

通过编程实现K均值聚类方法[6]来处理表2数据。此K-均值算法是发现给定数据集的k个簇的算法,每个簇通过其质心(centroid),即簇中所有点的中心来描述。首先,随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具体来讲,就是为每个点找距其最近的质心,并将其分配给该质心所对应的簇。这一步完成之后,每个簇的质心更新为该簇所有点的平均值。根据实际情况,本文K均值法采用3个初始点作为质心,按归一化我方检斤检质和归一化超出我方检斤检质量作为分类属性,得到3个类的质心坐标,结果如表3,同时得到每种原燃料的分类图,如图1。

4结果解释和评估

篇8

常见数据挖掘技术包括:分类树技术、关联发现技术、聚类技术、人工神经网络、最优集合规约技术以及可视数据挖掘技术等。软件度量数据往往具有多维度、高耦合性,软件工程数据挖掘中会采用一些特殊处理技术,包括统计分析、回归建模、分类树以及神经网络等。在具体软件工程实践中,选择何种挖掘技术,其决定性因素为想要达成的目标。

2数据挖掘实现过程

通常,数据挖掘过程包括4个步骤,即选择数据、预处理、实施挖掘以及吸收数据。数据挖掘整个过程具有交互性,有时数据需要重新选择,有时也要对数据预处理进行改进,也可能出现算法反复被调整现象,基于这种特征,数据挖掘时要设置反馈环。挖掘数据第1步是将管理和目标反映到1个(或多个)挖掘任务中,整个过程可主要划分成为六种:1)评估、预测。评估包括对软件产品、过程以及资源的属性进行相应检查就是整个评估过程,同时也需要根据这些属性,赋值给未知属性,当然这些未知属性需要进行量化。评估工作完成后,要对属性值进行预测。2)分类。检查1个特定实体属性,根据结果将其划分到另1个类别或范畴(事先定义好)中。3)关联发现。关联发现能够识别出特定内容中互相存在关联某些属性。如,可将找出在软件开发属性和产品属性相互关联的内容找出来。4)聚类。将1个结构不相同的群体划分到另1个具有相同结构的子群集合中,这个过程叫做聚类,它的划分依据是成员之间具有高度相似性。5)数据可视化。数据可视化是利用可视化描述方法来定义复杂信息。6)可视数据探察。可视化数据探察是对描述工作的相应拓展,可利用数据可视化交互控制来分析和检视海量数据[3]。它应用具有可视化功能和数据挖掘技术来对数据进行处理。

3挖掘技术在软件工程中应用

上文提及到软件工程度量,部分可利用信息已在海量数据中被提取出来,但普遍认为更为有效且数量众多的数据依然在软件工程相关数据库中隐藏,而没有被发现。实际上,数据挖掘就是1种被公认为提升软件工程度量的技术。图1为数据挖掘在软件工程中的应用。

3.1数据挖掘繁荣原因1)计算机硬件系统和软件系统的基础设施建立具备发现驱动、分析数据等功能;2)每种技术都在实际应用中不断得到改进,其使用能力不断提升。如,模式识别、神经网络等有明显进步趋势;3)数据存储、贮藏、集成成本不高,海量数据可轻松获得。数据挖掘技术被人们认识,并在实践中逐渐被重视,同时也给研究和进一步提高数据挖掘技术提供了便利条件。

3.2面临挑战软件工程自身存在很多数据上的特殊性,给数据挖掘领域研究工作带来制约和影响,主要表现在以下三个方面:1)数据复杂。软件工程数据主要分为两个组成部分,即结构化数据、非结构化数据。结构化数据主要包括缺陷报告、版本信息等内容,而非结构化数据则包含数据代码、相应注释以及文档等内容。结构化数据、非结构化数据并不能同时适用一种算法,而且两种数据间还存在对应联系。如,1个缺陷报告中往往包括缺陷代码段。而结构化数据里常常涵盖部分非结构化信息,非结构化数据中亦是如此,这也是今后工作中需要重点解决的问题之一。2)非传统分析存在局限。数据挖掘最终想实现的目标就是将转化而来的信息传达给用户,实现信息共享。传统数据挖掘技术在使用过程中,信息手段比较单一,如文字、图表等表达形式。其实,软件开发商对信息的要求很高,1个统计结果根本不能满足其工作需求。为促进软件开发不断向上发展,开发人员需要相关信息作为参考依据,包括开发实际案例、编程所需模板、系统缺陷定位以及软件结构设计等。研究数据挖掘技术,提升其实际使用功能,需要不断提交新信息、新知识,并改进相应手方法。3)挖掘结果评价标准不够具体。软件工程数据挖掘尚未形成完善的结果表示体系,其评价体系也有待加强。人员在软件开发过程中需要大量信心,这些信息非常具体且复杂,表示方法不尽相同,互相之间难以做出对比,也很难用定量方法去分析挖掘结果。

4结束语

篇9

目前计算机网络教学的模式可以分为如下几种:

1)网络教学:包含异步学习模式与同步学习模式,泛指教师与学生都不用到传统的教室去上课,只要上网到网络教室中就可以进行许多教与学的活动。

2)远程教室:在各大专院校设立有许多远程教学同步视频教室。在该教室中建置了许多视频影音的设备,用来进行课程的实时转播工作。

3)网络同步教室:网络教学活动可以区分为异步与同步的教学活动,其区别在于是否实时。教师和同学在约定的同一时间,通过Inter-net网络进行在线实时的课程教授的教学环境,就可称之为网络同步教室。在网络同步教室中提供许多教学相关的辅助工具及互动相关的功能,以协助课程的进行。研究者希望通过数据挖掘的方法,来分析教师对于网络教学环境的观念,并提供教师在网络同步教室中类似传统教学环境的教学模式,以增加教师采用网络教学的意愿。本研究将先就“传统教学”、“远程教学”及“网络同步教学”的环境因素、教学方式、师生互动、学习成效等构面进行分析比较,来区分出这三种教学环境的优缺点及差异,并将依据目前教师在传统教学中的教学模式,实际应用在网络同步教室中来施行,让参与网络教学的教师可以了解如何运用网络同步教室来经营一门高质量的课程。首先将推行计算机网络教学遇到的问题,大致上区分成以下几个主要因素:

1)数字教材的制作或取得不易:学校对于数字教材的取得感到忧心,大多要求学校教师自行制作,对教师而言会增加额外的负担,导致教师对网络教学产生抗拒的心理。

2)教师对网络教学的成效产生质疑:教师普遍认为网络教学环境的教学效果没有办法像传统教学环境一样,可以和学生有高度的互动,不认为网络学习会比较有教学成效。

3)教师对参与网络教学的意愿低落:教师必须花费许多时间和学生互动,比往常还需要花费更多的时间去回答学生的问题、关心学生的学习状况,教师普遍认为网络学习对教师来说不会比较轻松。将此主要因素做成调查问卷,对数据进行聚类分析,则可以找到主要的影响因素,获得教师对于网络教学环境的态度,进而选择更加有效的授课形式,以此提供类似传统教学环境的教学模式,以提高教师采用网络教学的意愿。

二、总结

篇10

关键字:数据挖掘金融数据

金融部门每天的业务都会产生大量数据,利用目前的数据库系统可以有效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了数据爆炸但知识贫乏”的现象。与此同时,金融机构的运作必然存在金融风险,风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律,而且可以很好地降低金融机构存在的风险。学习和应用数扼挖掘技术对我国的金融机构有重要意义。

一、数据挖掘概述

1.数据挖掘的定义对于数据挖掘,一种比较公认的定义是W.J.Frawley,G.PiatetskShapiro等人提出的。数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts),规则(Rules)、规律(Regularities)、模式(Patterns)等形式。这个定义把数据挖掘的对象定义为数据库。

随着数据挖掘技术的不断发展,其应用领域也不断拓广。数据挖掘的对象已不再仅是数据库,也可以是文件系统,或组织在一起的数据集合,还可以是数据仓库。与此同时,数据挖掘也有了越来越多不同的定义,但这些定义尽管表达方式不同,其本质都是近似的,概括起来主要是从技术角度和商业角度给出数据挖掘的定义。

从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。它是一门广义的交叉学科,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域且本身还在不断发展。目前有许多富有挑战的领域如文本数据挖掘、Web信息挖掘、空间数据挖掘等。

从商业角度看,数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。

2.数据挖掘方法

数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从使用的技术角度,主要的数据挖掘方法包括:

2.1决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。国际上最有影响和最早的决策树方法是ID3方法,后来又发展了其它的决策树方法。

2.2规则归纳方法:通过统计方法归纳,提取有价值的if-then规则。规则归纳技术在数据挖掘中被广泛使用,其中以关联规则挖掘的研究开展得较为积极和深入。

2.3神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础,建立3种神经网络模型:前馈式网络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型,可以完成分类、聚类和特征挖掘等多种数据挖掘任务。

2.4遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力。

2.5粗糙集(RoughSet)方法:Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。它特别适合于数据简化,数据相关性的发现,发现数据意义,发现数据的相似或差别,发现数据模式和数据的近似分类等,近年来已被成功地应用在数据挖掘和知识发现研究领域中。

2.6K2最邻近技术:这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。

2.7可视化技术:将信息模式、数据的关联或趋势等以直观的图形方式表示,决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。

二、数据挖掘在金融行业中的应用数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:

1.对目标市场(targetedmarketing)客户的分类与聚类。例如,可以将具有相同储蓄和货款偿还行为的客户分为一组。有效的聚类和协同过滤(collaborativefiltering)方法有助于识别客户组,以及推动目标市场。

2..客户价值分析。

在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了80%价值的20%客户实施最优质的服务。重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;通过对交易数据的详细分析来鉴别哪些是银行希望保持的客户;通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。

3.客户行为分析。

找到重点客户之后,可对其进行客户行为分析,发现客户的行为偏好,为客户贴身定制特色服务。客户行为分析又分为整体行为分析和群体行为分析。整体行为分析用来发现企业现有客户的行为规律。同时,通过对不同客户群组之间的交叉挖掘分析,可以发现客户群体间的变化规律,并可通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动输人到数据仓库中。通过对客户的理解和客户行为规律的发现,企业可以制定相应的市场策略。

4.为多维数据分析和数据挖掘设计和构造数据仓库。例如,人们可能希望按月、按地区、按部门、以及按其他因素查看负债和收入的变化情况,同时希望能提供诸如最大、最小、总和、平均和其他等统计信息。数据仓库、数据立方体、多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中发挥重要作用。

5.货款偿还预测和客户信用政策分析。有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素,别除非相关因素。例如,与货款偿还风险相关的因素包括货款率、资款期限、负债率、偿还与收入(payment——to——income)比率、客户收入水平、受教育程度、居住地区、信用历史,等等。而其中偿还与收入比率是主导因素,受教育水平和负债率则不是。银行可以据此调整货款发放政策,以便将货款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。

6.业务关联分析。通过关联分析可找出数据库中隐藏的关联网,银行存储了大量的客户交易信息,可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析,找出客户的潜在需求;通过挖掘对公客户信息,银行可以作为厂商和消费者之间的中介,与厂商联手,在掌握消费者需求的基础上,发展中间业务,更好地为客户服务。

7.洗黑钱和其他金融犯罪的侦破。要侦破洗黑钱和其他金融犯罪,重要的一点是要把多个数据库的信息集成起来,然后采用多种数据分析工具找出异常模式,如在某段时间内,通过某一组人发生大量现金流量等,再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式分析工具等,发现可疑线索,做出进一步的处理。

数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势,这些信息对于决策或规划是有用的,金融

行业数据的挖掘有助于根据顾客的流量安排工作人员。可以挖掘股票交易数据,发现可能帮助你制定投资策略的趋势数据。挖掘给企业带来的潜在的投资回报几乎是无止境的。当然,数据挖掘中得到的模式必须要在现实生活中进行验证。

参考文献:

丁秋林,力士奇.客户关系管理.第1版.北京:清华人学出版社,2002

张玉春.数据挖掘在金融分析中的应用.华南金融电脑.2004