数据挖掘技术论文范文

时间:2023-03-18 16:11:50

导语:如何才能写好一篇数据挖掘技术论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数据挖掘技术论文

篇1

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

篇2

(1)确定业务对象:做好业务对象的明确是数据域挖掘的首要步骤,挖掘的最后结构是不可预测的,但是探索的问题必须是有预见的,明确业务对象可以避免数据挖掘的盲目性,从而大大提高成功率。

(2)数据准备:首先,对于业务目标相关的内部和外部数据信息进行查找,从中找出可以用于数据挖掘的信息;其次,要对数据信息的内容进行全面细致分析,确定需要进行挖掘操作的类型;然后,结合相应的挖掘算法,将数据转化称为相应的分析模型,以保证数据挖掘的顺利进行。

(3)数据挖掘:在对数据进行转化后,就可以结合相应的挖掘算法,自动完成相应的数据分析工作。

(4)结果分析:对得到的数据分析结果进行评价,结合数据挖掘操作明确分析方法,一般情况下,会用到可视化技术。

(5)知识同化:对分析得到的数据信息进行整理,统一到业务信息系统的组成结构中。这个步骤不一定能够一次完成,而且其中部分步骤可能需要重复进行。

二、数据挖掘技术在水利工程管理中的实施要点

水利工程在经济和社会发展中是非常重要的基础设施,做好水利工程管理工作,确保其功能的有效发挥,是相关管理人员需要重点考虑的问题。最近几年,随着社会经济的飞速发展,水利工程项目的数量和规模不断扩大,产生的水利科学数据也在不断增加,这些数据虽然繁琐,但是在许多科研生产活动和日常生活中都是不可或缺的。例如,在对洪涝、干旱的预防以及对生态环境问题的处理方面,获取完整的水利科学数据是首要任务。那么,针对日益繁杂的海量水利科学数据,如何对有用的信息知识进行提取呢?数据挖掘技术的应用有效的解决了这个问题,可以从海量的数据信息中,挖掘出潜在的、有利用价值的知识,为相关决策提供必要的支持。

1.强化数据库建设

要想对各类数据进行科学有效的收集和整理,就必须建立合理完善的数据库。对于水利工程而言,应该建立分类数据库,如水文、河道河情、水量调度、防洪、汛情等,确保数据的合理性、全面性和准确性,选择合适的方法,对有用数据进行挖掘。

2.合理选择数据挖掘算法

(1)关联规则挖掘算法:关联规则挖掘问题最早提出于1993年,在当前数据挖掘领域,从事务数据库中发现关联规则,已经成为一个极其重要的研究课题。关联规则挖掘的主要目的,是寻找和挖掘隐藏在各种数据之间的相互关系,通过量化的数据,来描述事务A的出现对于事务B出现可能产生的影响,关联规则挖掘就是给定一组Item以及相应的记录组合,通过对记录组合的分析,推导出Item间存在的相关性。当前对于关联规则的描述,一般是利用支持度和置信度,支出度是指产品集A、B同时出现的概率,置信度则是在事务集A出现的前提下,B出现的概率。通过相应的关联分析,可以得出事务A、B同时出现的简单规则,以及每一条规则的支持度和置信度,支持度高则表明规则被经常使用,置信度高则表明规则相对可靠,通过关联分析,可以明确事务A、B的关联程度,决定两种事务同时出现的情况。

(2)自顶而下频繁项挖掘算法:对于长频繁项,如果采用关联规则挖掘算法,需要进行大量的计算分析,不仅耗时耗力,而且影响计算的精准度,这时,就可以采用自顶而下频繁项挖掘算法,这种算法是一种相对优秀的长频繁项挖掘算法,利用了事务项目关联信息表、项目约简、关键项目以及投影数据库等新概念与投影、约简等新方法,在对候选集进行生成的过程中,应该对重复分支进行及时修剪,提升算法的实际效率,从而有效解决了长频繁项的挖掘问题。结合计算机实验以及算法分析,可以看出,这种方法是相对完善的,同时也是十分有效的。不过需要注意的是,当支持度较大、频繁项相对较短时,利用关联规则挖掘中典型的Apriori方法,可以起到更好的效果。

(3)频繁项双向挖掘算法:这种算法是一种融合了自顶向下以及自底向上的双向挖掘算法,可以较好的解决长频繁项以及段频繁项的挖掘问题,主挖掘方向是利用自顶向下挖掘策略,但是结合自底向上方法生成的非频繁项集,可以对候选集进行及时修剪,提升算法的实际效率。

三、结语

篇3

近年来,我国的部队管理体系已经逐渐向着自动化方向发展,部队中各个部门都建立了一定的管理体系,也逐渐脱离了人工管理模式,实现信息现代化模式,很大程度提高了部队工作的效率,但是由于外界因素与经济发展的多样化以及人们的思维模式也在不断改变,从而出现了一些新问题,使得部队管理体系存在着一定问题:第一、关联性小、系统比较独立。现阶段,部队采购食品系统的作用以及目的比较简单,思维面也比较窄,也就是说按照清单进行食品采购时,不能充分考虑到采购人员的健康、效率等问题,不能达到最优化采购方式,因此就变得比较独立;第二,数据功能简单,可靠性不高。现阶段,部队食品采购数据只是对采购的种类与过程进行简单记录,时间一久,就会被损坏或者丢失;第三,数据分散不集中。现阶段与部队人员健康、起居饮食、训练相关的数据分散在不同系统中,使得数据变得不一致、不完整,仅仅只能进行简单查询、汇总、统计等工作,不能对数据进行多角度分析、关联等,不能为采购食品提供很好的政策支持。针对部队采购存在的问题,可以利用数据仓库以及数据挖掘技术建立多为数据库,利用数据挖掘进技术对食品采购数据进行挖掘。依据现阶段部队的实际发展情况,建立一套新数据库的成本代价比较高,因此,选用了目前社会上通用方法,对已经存在的数据进行一定改革与拓展,合理优化系统数据,成为新的数据库。并且选取对数据挖掘影响比较大的系统性分析,包括训练系统,食品采购系统、人员管理系统以及医疗卫生系统。针对食品采购采购系统建立数据模型。

二、在部队食品采购系统中的应用以及其价值评价

在部队食品采购系统实际应用工程中,其实可以运用MicrosoftSQLServerAnalysisServices来对数据进行分析,并且在数据挖掘过程中对多维数据进行描述与查找起到一定作用。因为多维数据比较复杂,增长的也比较快,因此,进行手动查找是很困难的,数据挖掘技术提供的计算模式可以很好的对数据进行分析与查找。在建设部队食品采购仓库数据的时候,数据内容主要包括了人员的健康、兵员的饮食以及训练等,进行数据挖掘主要包括以下内容:第一,把每个主题信息数据进行收集、汇总、分析等,对人员情况、健康、饮食、训练等进行合理分析;第二,多维分析数据信息。根据部队的实际情况,利用数据挖掘技术对部队人员健康、饮食、训练等数据信息进行多维分析,其中包含上钻、切片、下钻等;第三,挖掘健康与饮食之间的内在关系。根据数据库中许多面向主题的历史数据,采用数据挖掘技术进行分析与演算得到部队人员的训练和健康情况与部队饮食之间内在关系,以便于为部队食品采购提供合理的、有效的保障,从而提高部队整体人员的健康水平、身体素质以及训练质量,对提高我国部队战斗力有着深远的意义。

三、结束语

篇4

统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。

篇5

>> 基于本体的网络舆情观点挖掘方法研究 基于热点文件下载的网络舆情信息挖掘方法研究 基于网页文本获取的高校网络舆情监控 基于OAG循环的网络舆情管理模型研究 基于大规模文本数据情感挖掘的企业舆情研究 基于文本挖掘的网络媒体报道研究 基于模糊神经网络的Web文本挖掘系统 基于PDCA循环的预算管理 基于PDCA循环的绩效考评 基于 PDCA 循环方法的沥青路面质量动态管理的研究 基于数据挖掘的网络舆情预警决策支持系统 基于数据挖掘技术的网络舆情智能监测与引导平台设计研究 基于Web挖掘的突发事件网络舆情预警研究 基于Web数据挖掘的网络舆情分析技术研究 基于Web挖掘的突发事件网络舆情预警策略探讨 基于数据挖掘技术在网络舆情预测中的应用 基于数据挖掘的高校网络舆情分析系统设计与实现 基于数据挖掘的舆情观点挖掘研究 基于蛙鸣博弈的网络舆情与政府监管的模型浅析 基于PDCA循环的绩效管理体系的构建 常见问题解答 当前所在位置:.

[2]张玉亮.突发事件网络舆情的生成原因与导控策略――基于网络舆情主体心理的分析视阈[J].情报杂志,2012,31(4):54-57.

[3]许鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]郑军.网络舆情监控的热点发现算法研究[D].哈尔滨哈尔滨工程大学,2007.

[6]陈耘可,李博,郑天翔.PDCA循环在煤炭企业质量标准化建设中的研究与应用[J].煤炭经济研究,2013,33(2):77-79.

[7]辛敏.PDCA理论在护理质量管理中的应用研究[D].硕士学位论文:山西医科大学,2010.

篇6

关键词: 居民出行特征; 数据挖掘; GPS轨迹数据; DBSCAN

中图分类号:TP29 文献标志码:A 文章编号:1006-8228(2017)05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan, Zhang Yaqiong, Zhang Hui

(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)

Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.

Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN

0 引言

在城市的上下班高峰期,道路矶率浅鞘薪煌ㄎ侍庵凶钗突出的难题,这跟城市居民出行行为密不可分,因为出行的居民是交通量的主要来源[1]。一个城市的交通系统状况跟城市居民的出行行为息息相关,居民的出行行为会对城市交通体系产生影响[2]。对居民出行特征进行研究是城市和交通规划、城市公共基础设施建设管理中的一个基础性任务,不仅可以用来对目前的交通出行情况进行评估,也可以用来对居民的出行需求进行预测,对实施合理有效的城市交通规划起着至关重要的作用[3]。

出租车因其灵活性和便利性,已日渐成为城市交通系统的重要组成部分,同时,因为它的起点和终点由乘客决定,且24小时不间断服务,所以,出租车的运营规律能够反映出乘客的出行特征[4]。由于装载在出租车上的GPS和通信设备以一定的频率向城市交通客运管理中心传送出租车的实时经纬度、运营状态、行驶方向、速度等信息,因此,管理中心会积累大量的出租车GPS轨迹数据[5],利用DBSCAN对这些进行数据进行聚类分析,可以在一定程度上挖掘乘客出行的时空特征,也能为出租车寻找最佳的载客区域提供依据,有效的降低出租车的空驶率。

1 GPS轨迹数据挖掘设计

1.1 数据预处理

本文选取榆阳区(地理坐标为东经108?58'-110?24',北纬37?49'-38?58'之间)作为研究区域,GPS轨迹数据使用榆阳区1100多辆出租车五天的运营数据,对数据进行预处理后,出租车轨迹数据由车牌ID tID、、当前位置loc、GPS时间ct、营运状态tsta、行驶方向tdir、GPS速度dspe等六个属性组成,部分属性值如表1所示。

表1中,营运状态的取值为0-3,其中0表示空载,1表示载客,2表示驻车,3表示停运;GPS方向的取值为000-360,以度为单位,即与北极方向的夹角,代表车辆的行驶方向。

1.2 利用DBSCAN算法进行聚类挖掘

居民的作息和社会活动有明显的时间规律,比如上下班高峰期的载客点分布情况和非高峰期的居民出行特征有可能完全不同,因此,可以先将GPS历史轨迹数据根据时间特征分类,再进行密度聚类分析,如此便可充分挖掘在不同时间段上居民出行特征的空间密度分布情况,给出租车提供更加合理的时空载客区域分布数据,有效地提高其巡游过程中的载客成功率。基于此,论文引入了DBBSCAN算法,该算法需要3个输入参数:历史轨迹数据对象D,空间半径ε,以及密度阈值MinPts;输出参数为聚类簇C,部分MATLAB代码如下:

data=importdata('data.xlsx');

data=data.data.Sheet1;

……

num=size(data,1);

k=floor(log(num))+1;

k=round(num/25)+1;

k_dist=zeros(num,1);

for i=1:num

temp=repmat(data(i,:),num,1);

gx0=temp(:,1); gy0=temp(:,2);

gx1=data(:,1);gy1=data(:,2);

dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);

dist_s=sort(dist0);

k_dist(i)=dist_s(k);

end

x=1:num;

figure;plot(x,k_dist,'r-');

xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');

……

x=[(1:m)' data];

[m,n]=size(x);

types=zeros(1,m);

dealed=zeros(m,1);

dis=calDistance(x(:,2:n));

number=1;

……

img=imread('map.jpg');

[Ny,Nx]=size(img);

……

figure;imagesc(x00,y00,img); colormap(gray); hold on;

for i=1:m

if class(i)==-1

plot(data(i,1),data(i,2),'.r');

else if class(i)==1

if types(i)==1

plot(data(i,1),data(i,2),'+b');

else

plot(data(i,1),data(i,2),'.b');

end

elseif class(i)==2

if types(i)==1

plot(data(i,1),data(i,2),'+g');

else

plot(data(i,1),data(i,2),'.g');

end

……

plot(x1,y1,'r*');

xlabel('度'); ylabel('纬度');

2 实验结果

聚类结果如图1和图2所示,出行热点区域在图中用圆圈标出。

以上的聚类结果显示,榆阳区的居民出行呈现一定空间和时间特征。工作日和非工作日出租车热点区域不同,且工作日的不同时间居民出行的特征不同;在工作日,出租车的载客热点数比非工作日多;而载客热点分布,工作日比非工作日分散。该聚类结果也可以给出租车司机提供历史载客热点序列,从一定程度上解决巡游方式的出租车空载率高的问题。

3 结束语

本文利用DBSCAN算法对出租车的历史GPS轨迹数据进行挖掘,从挖掘结果可以分析出居民出行的时空特征,从而用来对目前的交通出行情况进行评估,同时也可以用来对居民的出行需求进行预测;再者,可以根据挖掘结果给出租车司机提供历史载客热点序列,帮助出租车司机降低空驶率。本文仅针对工作日和周末特定时刻给出了聚类分析,没有详细地分析一天中不同时刻的居民出行特征,以后的工作中会继续研究和改进。

参考文献(References):

[1] 卫龙,高红梅.基于轨迹数据挖掘的居民出行特征研究进展[J].西部交通科技,2016.10:87-92

[2] 冯琦森.基于出租车轨迹的居民出行热点路径和区域挖掘[D].重庆大学,2016.

[3] 陈世莉,陶海燕,李旭亮,卓莉.基于潜在语义信息的城市功能区识别――广州市浮动车GPS时空数据挖掘[J].地理学报,2016.3:471-483

[4] 张俊涛,武芳,张浩.利用出租车轨迹数据挖掘城市居民出行特征[J].地理与地理信息科学,2015.6:104-108

[5] 张薇,林龙.基于数据挖掘的增城居民出行特征分析[J].科技和产业,2015.7:61-64

[6] 赵苗苗.基于出租车轨迹数据挖掘的推荐模型研究[D].首都经济贸易大学硕士学位论文,2015.

[7] 童晓君.基于出租车GPS数据的居民出行行为分析[D].中南大学硕士学位论文,2012.

篇7

论文关键词:数据挖掘;电子商务;web数据挖掘 

 

1 引言 

当前,随着网络技术的发展和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。电子商务就是利用计算机和网络技术以及远程通信技术,实现整个商务活动的电子化、数字化和网络化。基于internet的电子商务快速发展,使现代企业积累了大量的数据,这些数据不仅能给企业带来更多有用信息,同时还使其他现代企业管理者能够及时准确的搜集到大量的数据。访问客户提供更多更优质的服务,成为电子商务成败的关键因素,因而受到现代电子商务经营者的高度关注,这也对计算机web数据技术提出了新的要求,web 数据挖掘技术应运而生。它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。目前,它已成为电子商务活动中不可或缺的重要载体。 

2 计算机web数据挖掘概述 

2.1 计算机web数据挖掘的由来 

计算机web数据挖掘是一个在web资源上将对自己有用的数据信息进行筛选的过程。web数据挖掘是把传统的数据挖掘思想和方法移植到web应用中,即从现有的web文档和活动中挑选自己感兴趣且有用的模式或者隐藏的数据信息。计算机web数据挖掘可以在多领域中展示其作用,目前已被广泛应用于数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等多个方面,其中对商务活动的变革起到重大的推动作用方面最为明显。 

2.2 计算机web数据挖掘含义及特征 

(1) web数据挖掘的含义。 

web 数据挖掘是指数据挖掘技术在web 环境下的应用,是一项数据挖掘技术与www技术相结合产生的新技术,综合运用到了计算机语言、internet、人工智能、统计学、信息学等多个领域的技术。具体说,就是通过充分利用网络(internet),挖掘用户访问日志文件、商品信息、搜索信息、购销信息以及网络用户登记信息等内容,从中找出隐性的、潜在有用的和有价值的信息,最后再用于企业管理和商业决策。 

(2)web数据挖掘的特点。 

计算机web数据挖掘技术具有以下特点:一是用户不用提供主观的评价信息;二是用户“访问模式动态获取”不会过时;三是可以处理大规模的数据量,并且使用方便;四是与传统数据库和数据仓库相比,web是一个巨大、分布广泛、全球性的信息服务中心。 

(3)计算机web数据挖掘技术的类别。 

web数据挖掘技术共有三类:第一类是web使用记录挖掘。就是通过网络对web 日志记录进行挖掘,查找用户访问web页面的模式及潜在客户等信息,以此提高其站点所有服务的竞争力。第二类是web内容挖掘。既是指从web文档中抽取知识的过程。第三类是web结构挖掘。就是通过对web上大量文档集合的内容进行小结、聚类、关联分析的方式,从web文档的组织结构和链接关系中预测相关信息和知识。 

3 计算机web数据挖掘技术与电子商务的关系 

借助计算机技术和网络技术的日臻成熟,电子商务正以其快速、便捷的特点受到越来越多的企业和个人的关注。随着电子商务企业业务规模的不断扩大,电子商务企业的商品和客户数量也随之迅速增加,电子商务企业以此获得了大量的数据,这些数据正成为了电子商务企业客户管理和销售管理的重要信息。为了更好地开发和利用这些数据资源,以便给企业和客户带来更多的便利和实惠,各种数据挖掘技术也逐渐被应用到电子商务网站中。目前,基于数据挖掘(特别是web数据挖掘)技术构建的电子商务推荐系统正成为电子商务推荐系统发展的一种趋势。 

4 计算机web数据挖掘在电子商务中的具体应用 

(1)电子商务中的web数据挖掘的过程。 

在电子商务中,web数据挖掘的过程主要有以下三个阶段:既是数据准备阶段、数据挖掘操作阶段、结果表达和解释阶段。如果在结果表达阶段中,分析结果不能让电子商务企业的决策者满意,就需要重复上述过程,直到满意为止。 

(2)web数据挖掘技术在电子商务中的应用。 

目前,电子商务在企业中得到广泛应用,极大地促进了电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,便可发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,企业信息系统因此会获得大量的数据,如此多的数据使web数据挖掘有了丰富的数据基础,使它在各种商业领域有着更加重要的实用价值。因而,电子商务必将是未来web数据挖掘的主攻方向。web数据挖掘技术在电子商务中的应用主要包含以下几方面: 

一是寻找潜在客户。电子商务活动中,企业的销售商可以利用分类技术在internet上找到潜在客户,通过挖掘web日志记录等信息资源,对访问者进行分类,寻找访问客户共同的特征和规律,然后从已经存在的分类中找到潜在的客户。 

二是留住访问客户。电子商务企业通过商务网站可以充分挖掘客户浏览访问时留下的信息,了解客户的浏览行为,然后根据客户不同的爱好和要求,及时做出让访问客户满意的页面推荐和专属性产品,以此来不断提高网站访问的满意度,最大限度延长客户驻留的时间,实现留住老客户发掘新客户的目的。 

三是提供营销策略参考。通过web数据挖掘,电子商务企业销售商能够通过挖掘商品访问情况和销售情况,同时结合市场的变化情况,通过聚类分析的方法,推导出客户访问的规律,不同的消费需求以及消费产品的生命周期等情况,为决策提供及时而准确的信息参考,以便决策者能够适时做出商品销售策略调整,优化商品营销。 

四是完善商务网站设计。电子商务网站站点设计者能够利用关联规则,来了解客户的行为记录和反馈情况,并以此作为改进网站的依据,不断对网站的组织结构进行优化来方便客户访问,不断提高网站的点击率。 

篇8

【关键词】 数据挖掘技术;电子商务;推荐系统;研究

随着计算机互联网技术在社会工作与生活中的普及,电子商务产业也获得了快速的发展。为了进一步扩大电子商务的市场,提高电子商务企业的经济效益,电子商务推荐系统被开发出来。而数据挖掘技术作为支持该系统运行的重要技术,对电子商务推荐系统的发展具有重要意义。本文将主要对其进行分析与研究。

一、数据挖掘技术概述

数据挖掘技术至今还没有一个统一的、确定的概念定义。归结起来,笔者认为数据挖掘的概念应主要包括以下三方面内容:①未知。一些学者也将其表述为新颖。这一方面内容强调的是数据挖掘技术能够清楚的揭示出许多数据之间的相互关联关系,并对于隐藏在这些数据信息后的隐含信息也能随之被呈现。通常来说,被挖掘出的信息越隐秘,那么其价值也就越大[1]。②可用。一些学者也将其表述为有效、支持决策等。数据挖掘技术的这一内容主要强调对数据信息可用性价值的需求。因为只有挖掘出了有价值的、能够被人们利用的数据信息,才能满足人们的需求,推动某些事物的发展。③可理解。一些学者也将这一内容解释为可解释。然而无论表述之间存在着怎样的差异,这一内容都主要对被挖掘出的数据信息的可理解状况提出了要求。只有那些通被商家与客户理解的数据信息才能够被最终应用,发挥其自身的价值,带动相关利益主体的进步与发展。

二、协同过滤技术

数据挖掘技术有许多种类,如关联规则、聚类、贝叶斯网络和协同过滤技术等[2]。其中协同过滤技术作为数据挖掘技术中最具有价值的一种技术,被广泛的应用到了现如今的电子商务推荐系统之中。

2.1协同过滤技术的实现

协同过滤技术的实现并不是一步就可以完成的,而需要经过多个步骤。经过归纳,笔者将其分为三个主要步骤:第一,人们需要事先对用户进行调查,以记录和收集他们对企业商品项目的评价信息;第二,对企业项目集的搜索结果进行生成操作;第三,对企业项目集推荐结果进行生成操作[3]。在进行第一个步骤时,人们经常使用显示评价法与人工调查法对商品项目的评价信息进行收集。在电子商务时代,传统的人工走访方式已经逐渐被取代,更多的是应用显示评价法对商品项目信息进行收集。

2.2基于用户的协同过滤技术

此种协同过滤技术主要通过惯性分析方式将电子商务企业的用户作为研究对象,这种数据挖掘技术是以用户为研究对象的。也就是说当电子商务企业的某两个用户对于某一商品的评价信息趋于一致时,那么系统就会推断这两个用户对商品的喜好品味是相同的,而商务推荐系统在以后的工作中在对某一商品进行推荐评价等工作时就会认为这两个用户也会对此商品有着同样的喜爱程度。

将基于用户的协同过滤技术应用到电子商务的推荐系统中,电子商务推荐系统能够更加轻松的对商品项目用户的喜好倾向进行搜集与挖掘,从而为相关的商家提供一定的数据信息支持其新产品的研发设计等。并且通过这一技术电子商务推荐系统还能够对并未购买过某商品的用户,但是与其有着相同喜好的用户已经购买过的关联用户进行商品推荐,以发掘更多的潜在购买用户,扩大企业的市场,增加产品的销量,从而获取更高的利益。

2.3基于项目的协同过滤技术

基于项目的协同过滤技术主要将商品项目作为其作用对象。若电子商务推荐系统要想将某件商品Y推荐给某个用户S。就应该首先将用户S已经购买并评价过的商品(Y1、Y2……Yn)进行统计,然后对电子商务企业需要推荐的商品Y和这n个已经评价过的商品之间的相似度进行计算与对比。找出这n个评价过商品中与待推荐商品Y相似度最大的商品项目,从而建立起与待推荐商品Y相似的商品集合(n1、n2……nk)。由于商品用户S对待推荐的商品Y的评价情况与用户S对(n1、n2……nk)中商品集合的评价情况相似度较高,因此电子商务推荐系统会用用户S对(n1、n2……nk)商品集合的评价值进行加权的方式来得出用户S对待推荐商品Y的评价值F。当F大于推荐平均值w时,电子商务推荐系统就会对用户S推荐商品Y。

三、结束语

本文主要对基于数据挖掘技术的电子商务推荐系统进行了研究,并重点对协同过滤技术对电子商务推荐系统的重要性作用进行了分析,希望能够进一步推动电子商务推荐系统的发展。

参 考 文 献

[1] 韩家炜.数据挖掘――概念与技术(范明,孟小峰译)[M].机械工业出版社,2011.

篇9

[关键词]文本挖掘人 文社科 技术应用

[分类号]TP391

[文本挖掘概述

文本挖掘(text mining)是一个跨学科的交叉研究领域,涉及到数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。目前关于文本挖掘并没有统一的定义,关于文本挖掘的名称亦有“文本数据挖掘(text data mining)”或“文本知识发现(knowledge discovery in text)”等不同说法。一个比较广泛使用的定义是:文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。它是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。

一个完整的文本挖掘过程一般包括预处理、模式挖掘、模式评价等多个步骤,其中包含了多种文本处理与挖掘技术,如数据预处理技术中的分词、特征表示、特征提取技术,挖掘分析技术中的文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测等技术以及信息展示中的可视化技术等。

文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,因此可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识,目前在很多领域得到了广泛应用。文献计量的结果表明,近年来国际上文本挖掘的研究论文呈迅猛上升势头。以“text mining”为主题词在Web of Knowledge(WoK)中检索可得与文本挖掘相关的论文3 049篇(截至2010年),且呈逐年上升的趋势。从WoK学科统计来看,目前文本挖掘技术的研究主要集中于计算机科学、计算生物学、数学、医药信息学、生物化学与分子化学、信息科学、医学等自然科学领域,论文总数占文献总量的82%。相比而言,人文社会科学领域的论文则较少,两者之和为18%,其中人文科学仅为1%。

由于互联网时代学术资源生产与传递方式的变化,以新的方法和技术从海量文本中发现隐含的知识和模式,成为情报学中最有前景的领域之一。由于人文社科文献的非结构化特征更加明显,文献中包含的隐性内容更多,能否在人文社科领域成功运用文本挖掘就成为了检验文本挖掘的方法论优势的试金石。本文以文本挖掘的几个关键技术——信息抽取、文本分类、文本聚类、关联规则、模式发现与可视化技术为主要线索,分析发现文本挖掘技术在人文社科研究中的应用特点,以便为人文社科研究中更加自觉地应用文本挖掘方法提供新的思路。

2、信息抽取应用

信息抽取(information extraction)是文本挖掘的前-端技术,它从文本对象中抽取预先指定的实体、关系、事件等信息,形成结构化的数据并输入数据库。信息抽取所获得的结构化信息片段从一个角度反映了文本内容的内在特征,因此通过机器学习等方法可以从中发现知识、挖掘知识,为科学研究提供有力的支持。

信息抽取作为一门独立的内容处理技术,其本身在商业、情报分析、数字图书馆等领域有着广泛的应用,已有较多专门的信息抽取系统投入商用。在人文社科研究中,信息抽取常常作为文本挖掘的一个重要步骤,作为知识发现技术的前端和基础。文献构建了基于信息抽取的文本挖掘模型,均把信息抽取作为文本挖掘的一个重要组成部分,是提高文本挖掘效率的一个手段。不仅讨论了信息抽取对文本挖掘的作用,而且证实了通过文本挖掘得出的规则对信息抽取系统具有指导作用。除了作为文本挖掘的前端技术,信息抽取技术在改善信息检索、辅助知识发现方面在人文社科研究中有着较多的应用。

2.1 改善信息检索

传统的信息检索只能通过关键词与文档的匹配返回与用户需求相关的文档,而信息抽取则可以帮助用户直接定位所需的信息,无需阅读文档的全部内容。由于在处理海量数据时具有出色表现,信息抽取在多个人文社科领域得到了应用。在古典文学研究领域,德国莱比锡大学承担的eAQUA项目从古典文献资料(公元前3000年一公元600年)中抽取特定领域的知识,并通过eAQUA门户免费提供这些知识。在文献中,英国伦敦国王学院的Matteo(2010)介绍了一个信息抽取在古典文学中的应用研究项目,该项目旨在对当代关于古希腊和拉丁文学作品进行研究的二手文献进行实体抽取,并提供与原始文献之间的关联,从而提供更高级的信息展示和检索功能。在社会学领域,英国联合信息系统委员会(JISC)资助的ASSERT E’’项目综合利用信息抽取、文本聚类等技术提供了一个自动生成文献综述的系统。信息抽取技术与信息检索技术互相融合渗透,为人文社科领域海量信息资源的获取提供了极大的便利。

2.2 辅助知识发现

篇10

关键词:数据挖掘;数据仓库;教育管理;算法;VB

中图分类号:TP311.52 文献标识码:A文章编号:1007-9599 (2011) 03-0000-02

Education Management Decision Support System Based on Data Mining

Lin Lin

(Biochemical Engineering College of Union University,Beijing 10023,China)

Abstract:The paper theoretically expounds the concept of data mining,demonstrates the data mining in the education management decision support system of the core applications,introduces the education management decision support system of data collection, preprocessing,establish and maintain the DW,data mining algorithm choice,the specific content of decision tree algorithm,VB language program design,system testing,etc,discussed the system model in theory framework,rearch data mining and combining education management play a huge role,fnally,discussed the data mining technology in education management decision support system application prospect.

Keywords:Data mining;DW;Education management;Algorithm;VB

随着信息时代的快速发展,外界所带给我们的大量信息也越来越多。大量信息在给人们带来方便的同时,也带来了一大堆麻烦:信息过量难以消化,信息真假难以辩识,信息安全难以保证,信息格式难以统一。身处信息中的我们,如何才能不被信息淹没、如何从中及时发现有用的信息呢?是否存在着一种工具、一种方法或者一个手段使得身处“数据爆炸、知识匮乏”的我们,能够以一种轻松的状态来进行有效的管理决策呢?

数据挖掘技术是人们长期对数据库技术进行研究和开发的结晶,它为我们提供了一个非常优秀的工具。

一、 数据挖掘技术

所谓数据挖掘就是指一个完整的过程,该过程就是从海量的随机应用数据中,提取分析隐含在其中的、人们事先并不知道的、但又具有内在联系的、有价值的信息数据,这些信息数据为决策提供必要的支持。

数据挖掘过程中详细各个步骤的大体内容如下六步:

1. 确定主题:即做好需求分析,清晰地定义出问题,并对探索的问题具有可预见性。

2. 数据的提炼:搜索与主题有关的数据信息,研究数据的质量,并确定将要进行挖掘操作的类型。

3. 数据的转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。

4. 数据挖掘:对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法外,其余一切工作要都能自动地完成。

5. 结果分析:解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。

6. 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。

二、 数据挖掘与教育管理决策支持系统

我们使用数据挖掘技术对我们所掌握的信息进行特定的“挖掘”,能够发现:广义知识、关联知识、分类知识、预测型知识、偏差型知识,能够在数据中寻找预测性的信息,能够为我们的管理提供“做出决策”的依据,能够有力的支持我们做出恰如其分的选择。

所谓教育管理,就是在特定的社会环境下,遵循教育的客观规律,对各种教育资源进行合理配置,以实现教育方针和教育目标的行为,教育管理是社会管理的一部分。在学校教育管理中,我们引进数据挖掘技术,正是想针对教育的海量数据进行有效的发掘,以期充分利用数据挖掘的长处,来发现这些海量数据中潜在的、长久以来未被发现的规则,能够对学生潜力做出数据挖掘,这就为学校的招生工作提供了一定程度的参考,并在学生入学后还可以分析其进步或者退步的可能原因是什么,解决学生教育导向的问题;还可以对学校管理层比较关心的问题进行挖掘。例如,在所有教职工中教师的比例有多大;一般意义上讲某位教师是否达到了学校的一般标准;能够对教师执教能力和教师人力资源优化做出分析,在教师招聘中为人力资源主管提供一般性的判断依据,对所应聘的教师做出其潜力及前景分析,以便能够辅助管理层做出更好的决策,优化教育管理,促进教育管理良性发展。

三、 系统架构的搭建

我们将分以下几步来进行系统模型的设计及实现:

1 对数据进行分析,建立数据仓库

数据主要来源是档案室现存的档案,包括教职工和学生的,还要动态的添加一些数据。如果能够得到教育院校的支持来丰富数据,那就更好。这个数据的要求是大量、真实、准确。

对于教职工的信息,主要有以下属性:编号、姓名、性别、民族、出生年月日、

政治面貌、工作时间、是否为班主任、是否为学校管理层、毕业院校、最高学历、

最高学位、最高职称、家庭经济条件、教学评估成绩、所获荣誉、所带班级荣誉、研究成果等等,越详细对我们进行数据挖掘就越好。如下表所示。

对于学生的信息,主要有以下属性:学号、姓名、性别、民族、出生年月日、政治面貌、专业、班级、入学时间、入学成绩、毕业去向、毕业成绩单、毕业论文名称、毕业论文成绩、毕业证书、毕业后十年状况(可选)、毕业后二十年状况(可选)、毕业后四十年状况(可选)、家庭条件、在校期间所获荣誉等等。

对每一个属性进行赋值初始化,如:性别,定义为字符型变量,M代表男,F代表女;又如:对教师的研究成果,是以字符来进行赋值的,涵盖了发表的论文、编著的书籍、科研成果等等,这些分别按照级别予以打分,进行累加,最后全部总和即为该教师的研究成果的成绩,然后对该成绩进行加权求值,按照求值分别赋以A、B、C等字符。对每一位教职工和学生进行赋值,并录入到数据仓库中。创建数据仓库的工具我们可以选择Microsoft SQL Server 。需要注意的是,SQL Server “企业管理器”中控制台根目录中SQL Server组名称应与其他名字一致,例如分析服务器是LINLIN2006,它也应该是LINLIN2006。

2 决策树算法

决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。如图4-1,针对学生毕业成绩影响因素进行数据挖掘后的一棵决策树,从中我们看到,决策树的基本组成:节点、分支和叶子。

图4-1决策树

图4-1中“入学成绩=好”这个条件是树的根,即决策树的根节点。对条件的不同回答产生了“是”和“否”两个分支;而是否“学习勤奋”是根节点的子节点(子节点的个数与决策树算法有关);如果分支下无节点,则到树尾,称为叶子,图中“毕业成绩=坏”就是其中的一个叶子。从树根到每一片叶子的过程就是利用决策树进行分类的过程,通常称这个过程为“遍历”。

决策树算法是数据挖掘中常用的一种算法,常用于数据分析和预测。决策树的构造结果是一棵二叉树(即每个节点有两个分支)或多叉树(节点可以包含多于两个的子节点)。构造决策树的过程,即树的生长过程是把条件数据不断切分的过程,每次切分对应一个问题(即一个节点),二叉树的内部节点(非叶子)一般表示为一个逻辑判断,如图4-1。对每个切分的要求是分组之间的“差异”尽量最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。我们只需要把切分看成是把数据信息分成几份,每份数据信息之间尽可能不具有相同或相似的属性,而同一份内的数据尽量具有相同的属性,即属于同一类别。

对于教育管理决策者来说,决策树的构造,即在其生长过程中没有必要太“茂盛”。因为这样会大大降低树的易理解性和易用性,而且也使决策树本身对原始数据产生较大的依赖性,换句话说,这样的决策树可能对于原始数据非常准确,但当有新的数据信息加进的时候,准确性就会急剧下降,这种情况被称之为训练过渡。为了使得到的决策树所蕴含的规则具有普遍性,我们必须有效避免训练过度,同时减少训练的时间。常用的方法是限制决策树的过度成长,即预先设定决策树的最大高度(层数);此外也可以通过设定每个节点必须包含的最少记录数来限制,当节点中记录的个数小于这个数值时就停止切分。

1 使用VB对算法进行编程,实现各个模块的功能

通过VB来进行图形应用界面设计及核心程序编程。菜单的设计如下:导入数据仓库、选择数据仓库、任务确立、选择因素、开始运行、查看结果、保存结果、翻译规则、保存规则、退出。主要通过表单及命令来实现各功能。样本空间指的是由教职工、学生数据仓库中的数据所构成的数据空间。

2 测试

根据软件测试的要求,必须对该系统进行数据测试,即用手中所拥有的档案资料与数据挖掘的结果对比,进行测试。

首先,假定某学校教师部分档案资料如下(受篇幅限制,仅有部分):

其次,我们使用表中的数据来检测树形结构中每条枝叶的正确性。如果大部分吻合,那么该决策支持系统是成功的,软件和算法都是正确的;否则就得检查改正。这个测试以及测试结果比较的工作量是非常巨大的。

四、进行数据挖掘时应考虑的问题

1 确定问题,即用数据挖掘解决什么样的问题,它是核心,偏离了这个主题,最终只能导致失败;

2 海量数据的问题,一方面是源数据的挖掘,一方面是数据的提炼;另外非标准格式的数据、多媒体数据、面向对象数据处理问题;从而保证数据的质量和时效性;

3 各种算法的使用;

4 变化的数据和知识问题;

5 枝叶――规则的易懂性问题;

6 与其他系统的集成问题,如果可能的话,本系统可以嵌入到学校网络协同办公平台之中;

这些都是在具体实施时应该注意的,也关系着基于数据挖掘的教育管理决策支持系统模型成功与否。

五、展望未来

随着信息化不断向前发展,基于数据挖掘的教育管理决策支持系统也将涵盖人才培养、人力资源、教学评估、教育经济等几个大的方面,也将逐渐发展为教育管理数据挖掘应用平台。基于数据挖掘的教育管理决策支持系统也将发挥越来越重要的角色。

参考文献:

[1][加]Jiawei Han,Micheline Kamber(著)范明,孟小峰等译 《数据挖掘概念与技术》 北京机械工业出版社

[2][中国]张尧庭,谢邦昌,朱世武(编)《数据采掘入门及应用――从统计技术看数据采掘》中国统计出版社

[3][美]John W.Fronckowiak,David J.Helda(著)全刚,杨领峰,申耀军,张涛(译)高长剑(审校)《MS VB6.0 数据库编程大全》电子工业出版社