数据挖掘课程范文

时间:2023-04-11 02:52:19

导语:如何才能写好一篇数据挖掘课程,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数据挖掘课程

篇1

国外很多大学都开设了数据挖掘课程,波士顿大学的“数据管理与商务智能”课程主要包括基础、核心技术、应用三部分。授课方式包括理论内容讲授、案例教学,以及学生以团队合作方式完成项目并进行课堂演讲。从麻省理工学院开放性课程资料(斯隆管理学院)中可以看出,在每章讲解一种算法之后都尽可能地安排了商务实例的分析,并在课程后期安排了客座讲座的形式。国内对于数据挖掘的教学类研究成果也很多,主要集中在三类问题的研究上,较为普遍的是根据专业建立大纲的研究,例如针对电子商务专业进行大纲设计;另外也有专注研究某一种或多种适合数据挖掘或商务智能的教学方法,如专题研讨法;还有的讨论算法理解与程序设计、软件应用的关系。

2、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。该方法在20世纪70年代,由国际劳工组织引入教学之中,开发出以现场教学为主,以技能培训为核心的模块化教学模式,在很多国家得到广泛应用。由于该教学法具有针对性、灵活性、现实性等特点,越来越受到教育界的关注。模块化教学本质上是以知识点与实践的细化为出发点研究,本课程的知识点细化分为两个层次:一是从宏观角度,参考ACM的SIGKDD的数据挖掘课程建设建议,设计课程的基础内容模块和高级主题模块;二是从微观角度,针对较为复杂的算法进行的知识点划分。课程内容的一至五章属于基础内容模块,介绍本课程的基础理论和入门的数据挖掘技术;六至第八章介于基础内容与高级主题之间,介绍数据挖掘的核心算法,可以根据学生情况进行灵活处理,可强调应用,也可深化算法介绍;第九、十章为高级主题模块,可以作为扩展材料介绍应用,或为感兴趣同学提供算法介绍;课程实践模块包含数据仓库建设与数据挖掘算法的应用,难度居中,可以在引导学生思考的前提下给出实验步骤,并引导学生使用类似的方法处理不同的数据。

3、基于模块化方法进行重要知识点的模块化分析

重要知识点内涵较为丰富,一般体现在经典数据挖掘算法上,通常一大类算法下还分有多个算法,不同算法的在难度上有渐进层次,同一种算法也有很大改进研究空间,讲授弹性比较大。因此,适合使用模块化方法进行处理,并且需要在课程设计中明确一定课时量所要达到的内容和难度。基础部分为必选内容,介绍基本概念和基本原理;决策树作为数据挖掘分类算法的最基础算法也是必选内容,决策树算法有多种分类,需要进行按照难易程度进行选择;最后要根据难度选择其他分类算法进行介绍。

4、结论

篇2

近年来,数据挖掘与商务智能技术发展迅速,充分借鉴国外相关研究,尤其是ACMSIGKDD课程委员会对数据挖据课程建设建议,对进行数据挖掘类课程的教学建设研究有重要意义。ACM(美国计算机协会)于1998年成立了SIGKDD(知识发现兴趣小组),致力于知识发现与数据挖掘的相关研究,ACMSIGKDD课程委员会连续多年多次更新其主要课程———数据挖据课程的建议,其中委员会将数据挖掘课程分为基础部分与高级主题,基础部分覆盖了数据挖掘的基本方法,高级主题既有数据挖掘基本方法的深入研究,又有更高级算法的介绍。国外很多大学的计算机科学学院、商学院都开设了数据挖掘类课程并同时进行相关研究。波士顿大学开设了“数据管理与商务智能”课程,课程主要包括基础、核心技术、应用三部分。许多国外著名大学建立了教学管理系统,提供大量的案例、在线讨论和在线辅导功能。国内很多学校都开设了数据挖掘的相关课程,我国大多数高校的课程大纲内容与国外大致相同,只是在实践部分选用了不同的商务案例。数据挖掘的应用领域广泛,因此可以根据开课学院和专业选择合适的实例。

二、根据信息管理专业本科生培养要求确定课程目标

数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。

三、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。

1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。

2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法———决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。

四、授课与考核方法设计

对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。

五、结论

篇3

(武汉科技大学城市学院信息工程学部 湖北 武汉 430083)

摘 要:数据仓库与数据挖掘是大数据时代产生的一门新兴交叉的课程。针对该课程的特点,将CDIO工程教学理念融合到教学过程,重新设置了教学目标与大纲、调整了教学内容、改进了教学方法,总结了数据挖掘课程教学实践的一般流程并给出具体的实验教学设计方案。

关键词 :教学改革;数据仓库;数据挖掘;CDIO

中图分类号:G642 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.09.040

收稿日期:2015-03-15

1 CDIO简介

CDIO工程教育模式是基于项目的学习的一种模式。CDIO中,C(Conceive)构思,根据工程实践,让学生掌握专业知识的基本原理,确定未来发展方向;D(Design)设计,以产品设计与规划为核心,解决具体问题;I(Implement)执行,以制造为核心,组织一体化的课程实践,其中包括学生必须掌握的理论知识与实践能力;O(Operate)运作,即产品应用的各个环节。它以产品的研发到运行的生命周期为载体,通过系统的产品设计让学生以主动的、实践的、课程有机联系的方式学习。CDIO代表工程项目生命全周期,是产业转型升级对创新人才需求的形势。

CDIO培养大纲将工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDIO系统四个层面,大纲要求以综合的培养方式达到这四个层面的预定目标。其精髓在于:以工程项目设计为导向、工程能力培养为目标的工程教育模式。

2 “数据仓库与数据挖掘”课程概况

当今的大数据时代,人们处理数据的能力大大增强,快速增长的海量数据已经远远超出人们的理解能力,因此数据仓库与数据挖掘技术得到了广泛关注,有效地挖掘和运用海量数据,获得有价值的知识和信息,从而帮助人们制定正确的决策。很多高校为工程类专业本科生开设这门专业课,研究如何将信息处理技术运用于企业管理决策的具体实际。

本工程课程涉及到数据仓库的设计与构建技术、联机分析处理OLAP技术、分类与预测、聚类、关联规则算法、数据挖掘应用综合项目技术等多方面的知识和技能。通过课程的学习,不仅要求学生掌握在数据仓库与数据挖掘方面的知识,还要求培养学生的工程CDIO能力。

但是目前许多高校在工程教育采用的教学方式存在以下问题:培养目标不清楚,学术化倾向严重;人才培养模式单一,缺乏多样性和适应性;工程性缺失和实践环节薄弱;课程体系与产业结构调整不适应等。在教学过程中,强调教师的主导作用,却忽视了学生的主体作用,忽视了学生的工程意识、工程素质和工程实践能力的培养。这与高校培养创新性应用型人才的目标相悖。因此,改革势在必行。

3 “数据仓库与数据挖掘”课程改革实践

3.1 基于CDIO理念的教学目标与大纲

CDIO教育理念所提倡的工程毕业生的能力分为技术知识与推理、个人专业能力和素质、团队合作与沟通能力、在企业和社会环境下CDIO系统四个层面,四个层面上进行综合培养的教学模式。在CDIO能力培养目标方面,课程在四个能力层面上建立培养目标。

针对“数据仓库与数据挖掘概述”内容,知识点是数据仓库的含义与特征、数据挖掘的任务、多维数据模型。讲授数据仓库的概念、特点、构成以及数据挖掘和数据处理的基本知识,使学生有一个初步的理解。培养学生技术知识与推理能力。

针对“联机分析处理OLAP”内容,知识点是数据仓库的数据组织、数据预处理、数据存储、基于多维数据模型的数据分析。本阶段如果不结合直观的举例讲解,学生就失去了兴趣,因此笔者要布置一些思考题,教会学生自主学习,自己查阅教材、网络等资源资料,从中提炼出结论。培养个人分析问题、解决问题的能力、所学知识的灵活应用能力;

针对“分类与预测、聚类、关联规则”内容,知识点是数据采集、关联规则算法的设计、结果分析。在这个阶段经常会是“数据的堆砌”,讲了很广泛的算法知识却没有足够的时间进行深入理解。因此应抓住关键的概念、能力,引导学生提出问题,并学会调查研究,为学生提供深层学习的机会,并把在第一层面所学的知识运用到对问题的解决之中去。这样,学习的焦点就从“覆盖”的方式过渡到以学生为中心的学习方式。培养数据获取能力、程序设计能力、问题表达能力;

针对“数据挖掘应用综合项目”内容,知识点是项目的准备、进度管理、文档管理和项目设计和实现。实际工作牵涉到企业或者组织的各个部门多类人员,所有团队成员之间协同、合作,会有分工、沟通、协调,甚至会有妥协,这就要求在运用实例的过程中一定要具有团队合作精神。培养工程系统能力和人际团队能力。

3.2 改革教学内容

在教学内容中安排了两级项目:多种初级项目和一个高级项目。初级项目是将课程内容分成各种项目,数据主要来源于SQL Server 2008的示例数据仓库Adventure Works DW,以项目实现促进理论学习;高级项目是综合性项目:“卷烟产品销售规律挖掘”,利用卷烟产品历史销售数据中蕴含的信息,采用数据挖掘技术对各个卷烟品种销售的关联关系进行分析并预测,以制定更加合理的卷烟产品营销策略。具体项目设置如下:

项目一:基于SQL Server 2008的数据仓库数据库及多维数据模型设计。步骤如下:分析组织的业务状况及数据源结构组织需求调研,收集分析需求采用信息包图法设计数据仓库的概念模型利用星型图设计逻辑模型物理模型设计构建多维数据模型。本项目旨在个人能力的培养(分析问题、解决问题的能力、所学知识的灵活运用能力等)。

项目二:关联规则挖掘。使用商业智能开发工具进行购物篮分析,以达到重新设计网站功能,提高产品的零售量。

项目三:潜在客户分析即分类及预测。使用商业智能开发工具分析购买自行车的潜在客户。

项目四:K-Means聚类分析。使用商业智能开发工具分析客户购买自行车情况分析。

项目五:贝叶斯网络应用。使用商业智能开发工具解决一个简单的预测和诊断问题。

项目二至五旨在培养学生个人能力(数据获取能力、程序设计能力等)和人际团队能力(问题表达能力、人际交流能力),倡导学生乐于探究、勤于动手。

高级项目:数据挖掘应用综合项目“卷烟产品销售规律挖掘”。将一个相对独立的项目交由学生自己处理,从信息的收集,方案的设计,到项目实施及最终评价,都由学生自己负责,学生通过该项目的进行,了解并把握整个过程及每一个环节中的基本要求。通过综合项目,学生完成了CDIO的四个阶段,提升CDIO所提倡的四大能力,具体体现如表1所示。

3.3 改革教学方法

在课程教学方法是项目教学法为主,任务驱动法和案例教学法为辅的教学模式,起到很好的教学效果。

4 结语

CDIO工程教育模式由麻省理工学院和瑞典皇家工程学院提出,包括构思、设计、实现和运作四个环节,是国际流行的工程人才培养理念,强调对学生创新思维、实践能力和团队协作精神的培养。本文体现了CDIO理念的能力培养要求,将数据仓库设计开发方法和数据挖掘技术融入具有较强工程背景与应用价值的项目设计与开发中,理论与实践紧密结合,推动课程建设和课程教学改革。

参考文献

1 顾佩华,沈民奋,陆小华译.重新认识工程教育—国际CDIO培养模式与方法[M].北京:高等教育出版社,2009

2 郭长虹. 重构CDIO特色的工程图学课程体系[J].图文学报,2013(3)

3 王丽丽. CDIO视角下项目驱动法在“数据仓库与数据挖掘”教学中的应用[J].电子商务,2013(9)

篇4

Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course

YANG Nan-yue

(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)

Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.

Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching

我校的多媒体技术公选课面向全校各年级各专业本科生开课,因此选修本课程的学生来源较复杂,其计算机基础参差不齐。过往统一步调的授课模式满足不了不同层次学生的需求,所以从2011年开始,本门课程实施教学改革,以多媒体技术在线学习平台为基础,结合课堂授课开展个性化教学,把多媒体技术包含的四大媒体技术课程:图像处理、音频处理、视频处理和动画制作做成讲座的形式,每一门课程分别包含两到三次的讲座,学生根据自己的情况选听选学。每门媒体技术不同难易度的学习资料都放在学习平台里,学生可以自由选择学习资源,并通过网络或课堂与同学和老师进行学习交流。考核方式为每一门课程最后一次讲座讲完后在学习平台上进行随堂考试,要求每位学生至少选考其中三门。本门课程期末考试也在学习平台上进行,要求全体学生都必须参加。本教改实施五年来,学生反应良好,同时多媒体技术学习平台网站上存在着大量学生成绩和教师教学及管理过程中的相关数据,那么这些数据之间存在着怎样的联系,是否蕴藏着教与学之间的知识和规律?由于数据挖掘技术能够发现隐藏在海量数据中的潜在联系和规则,从而预测未来的发展趋势[1],因此我们把该技术引入学习平台中的信息资源管理系统,把大量积累的教学基础数据建立数据仓库[2],在这基础上运用数据挖掘手段从中快速准确地提取出重要的信息和有价值的知识,找出影响学习成绩的因素,为进一步改善个性化教学的教学质量提供数据支持和决策参考。

1 数据仓库多维数据模型的建立

数据仓库的逻辑数据模型是多维数据模型。目前使用的多维数据模型主要有星型模型和雪花模型。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表[3]。雪花模型是对星型模型的扩展,将星型模型的维度表进一步层次化,原来的各维度表被扩展为小的事实表,形成一些局部的层次区域[3-4]。建立本课程数据仓库时,为了减少数据冗余,改善查询性能我们采用雪花模型结构,如图1所示。建立以学生选课为中心的选课事实表,三个主维度表“学生表”、“成绩表”和“时间表”分别通过“学生键”、“成绩键”和“时间键”与事实表直接关联。其中,主维度表中的“学生表”和“成绩表”都有各自的二级维度表,与事实表间接关联[5]。

2 采用Apriori算法的关联规则挖掘

关联规则用于揭示数据与数据之间未知的相互依赖关系,即在给定的一个事物数据库D,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的支持度和可信度分别高于用户给定的最小支持度(min_sup)和最小可信度(min_conf)的关联规则。关联规则挖掘算法归结为下面两个问题:(1)找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),即频繁项目集(Frequent Item Sets)。(2)使用步骤(1)找到的频繁项目集,产生期望的规则。两步中,第(2)步是在第(1)步的基础上进行的,工作量非常小,因此挖掘的重点在步骤(1)上,即查找数据库中的所有频繁项目集和它的支持度[4]。本课题对多媒体技术课程学习平台中所有考试成绩进行关联规则挖掘,采用Apriori算法查找频繁项目集。

Apriori算法通过逐层迭代来找出所有的频繁项目集L。用户需要输入事物数据库D和最小支持度阀值min_sup。实现过程为:

1)单次扫描数据库D计算出各个1项集的支持度,得到频繁1项集构成的集合L1。

2)连接:为了产生频繁K项集构成的集合,通过连接运算预先生成一个潜在频繁k项集的集合Ck。

3)剪枝:利用Apriori算法“任何非频繁的(k-1)项集必定不是频繁k项集的子集”的性质,从Ck中删除掉含有非频繁子集的那些潜在k项集。

4)再次扫描数据库D,计算Ck中各个项集的支持度。

5)剔除Ck中不满足最小支持度的项集,得到由频繁k项集构成的集合Lk。

Apriori算法如下:

[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潜在频繁项集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潜在频繁项集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]

求出频繁项集L后,1)对于L中的每一个频繁项目集l,产生l的所有非空子集。2)对于l的每一个非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],则输出规则:SL-S[4]。

本课题对近五年选修多媒体技术的学生所有成绩数据进行清洗,填补空缺值,去噪,类型转换,集成等处理后放入数据仓库中,系统采用Apriori算法找出所有的频繁项集。为了便于进行关联规则的挖掘,对成绩数据进行离散化处理,转变成标称型变量[5]。成绩score(简化为“s”)在85-100区间的表示“优秀”,标记为“1”,在70-84区间的表示“中等”,标记为“2”,在60-70区间的表示“合格”,标记为“3”。多媒体技术每门媒体技术课程:图像处理、音频处理、视频处理、动画制作和最后的期末考试分别用A、B、C、D、E表示。学生的学号用StudentID表示,那么每个学生选修的N门课和最后期末考试的成绩可以表示为{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范围是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示学号为2011204543021的学生,选修了图像处理,音频处理和动画制作这三门媒体技术,其中图像处理成绩为合格,音频处理成绩为优秀,动画制作成绩为合格,期末考试成绩为合格,该名学生没有选修视频处理,故没有这门科目的成绩。

设定最小支持度阀值min_sup为3%,最小置信度阀值min_conf为70%,系统采用Apriori算法进行数据挖掘,得到满足最小置信度阀值的规则和相应的置信度如表1。

挖掘结果分析:表1的关联规则体现学生选修的媒体技术课程种类、科目数量与期末考试成绩之间的相互关系。可以看到期末考试成绩属于中等(E2)或合格(E3)级别的,学生全选四门媒体技术比只选学三门的置信度高,即选课数量多的较容易及格或获得中等的期末成绩。另外,在选课种类方面,选B这门课,即选音频处理的学生比较多,是一个概率比较高的事件,可能这门课内容比较少和易掌握,因此选学选考的学生就多。但这门课的成绩对期末考试成绩影响不明显,说明教师这门课出的考题区分度低,没能反映出学生的水平层次。在最小支持度阀值min_sup为3%的情况下,选A(图像处理),C(视频处理)和D(动画制作)这几门课并获得优秀成绩(A1,C1,D1)的很少,即小概率事件被过滤掉了,没能挖掘出它们与期末成绩之间的关联性。但这几门课程成绩中等或合格与期末成绩存在内在关系,也就是说如果这几门课成绩都是中等的,期末考试成绩大部分都为中等,一小部分可以达到优秀。如果这几门课成绩都是合格,期末考试成绩就是合格。说明这几门课程的考题比较真实反映出学生掌握技能的实际水平,致使期末综合性的考试成绩与学生平时掌握程度相符合。这也意味着个性化教学具有一定的成效。

本课题对近五年的学生多媒体技术每科成绩与期末成绩进行聚类分析,把学生划分到若干不同的类中,分析各个类的特征,从而考察实施个性化教学后的效果。设定85分,75分和65分为三个初始的聚类中心,对学生的所有成绩进行聚类分析,找出同一类别学生的学号,以此为索引,查找到该类中各个学生的专业与年级,绘制出饼状图,再绘制出该类学生所选各门媒体技术的平均分柱状图,通过这几个图表考察不同专业不同年级学生在本门课程优秀中等合格若干成绩区间的分布情况,从而检查实施个性化教学的效果,为今后的改进方案提供参考。例如调整后得到的最终聚类中心为82分的学生,各门媒体技术的平均分和专业、年级分布如图3~图5所示。

从上面几个图可以看出,成绩为优秀的学生主要来自美术、计算机和电信这几个专业,大三、大四的学生比较多。分析其中的原因,主要是美术学院很多专业课需要用二维、三维图像软件或视频软件进行制作和处理,他们对这门课程已经有一定的基础,所以学起来比较轻松,也容易取得高分。而计算机和电信专业中高年级的学生学习和使用软件的能力比较强,因此掌握多媒体技术各个媒体软件较其他专业学生快,并且能够灵活运用,因而较易取得比较优异的成绩。

最终聚类中心为64分的学生,各门媒体技术的平均分和专业、年级分布如图6~图8所示。

从图中可以看出,这个类别的学生主要来自文科方向的专业,年级分布差异不大,大四所占百分比稍微比其他三个年级略高,有可能是学生们最后一年为了修满选修课学分而选了这门课,目的是混个及格拿到学分,因此学习积极性和学习态度不佳,导致大部分成绩徘徊在60来分。还有一种可能性是大四学生毕业在即,需要写简历找工作,做自我介绍作品等,觉得掌握一些多媒体技术可以作为辅助工具因此选了本门课程。可惜有效学习时间明显不如前三年充足,加上文科方向的同学计算机基础和软件学习能力较理工类学生薄弱,因此成绩不太理想。

篇5

【关键词】 工程项目; 成本核算; 会计科目; 数据挖掘

工程项目成本核算是成本管理的一项重要内容,而成本核算的科目体系又是成本核算的一个基础且重要的组成部分。科目体系的好坏将直接关系到成本分析与控制工作的开展,进而影响到成本管理水平的高低。因此,科学、合理地设计科目体系显得尤为重要。

一、当前的工程项目成本核算科目体系存在严重不足

(一)科目设置过于粗糙,不利于查阅明细

以“工程施工”科目为例,当前绝大多数施工企业的成本核算科目体系如表1所示,其科目设置非常简单,最多只到三级科目,尚有很多综合科目未设明细。以“其他直接费”科目为例,如果需要了解其中安全措施费的发生情况,将很难直接从其科目余额表和明细账上查询到理想的答案;只有逐一翻阅其明细账上每笔记录的凭证,将其中属于安全措施费的所有金额汇总,才能计算出安全措施费的发生额。显然,这给成本分析与控制造成了很大不便。

(二)科目按经济内容分类设置,无法洞悉成本动因

可以看出,当前的科目体系仍然沿袭传统按经济内容分类设置的模式,分工、料、机、其他等方面设明细,整个科目体系没有一处的金额体现了成本动因。这样,如果需要对成本发生的原因进行分析并实施控制,必须对成本核算数据重新分类汇总,进行额外的专项分析才能达到目的,势必影响成本分析与控制工作的效率,而且数据处理和分析的周期较长,无法及时获得有用信息,工作效果也不理想。按经济内容分类设置科目,一旦明细科目设置过多,会成倍增加成本分析与控制的难度,因为没有将各项成本费用按其内在成因归类,而是按其表象全部罗列出来,只会显得繁杂,也难以穷尽,增加了成本分析的内容,同时也增加了成本控制的事项;明细科目设置过少,又过于粗糙、过于笼统,同样不利于成本分析与控制。

(三)科目体系不够科学,忽略了成本发生的内在规律性

当前的科目体系不仅过于粗糙而且也无法洞悉成本动因,再者就是忽略了成本发生的内在规律性。长期的施工生产实践表明,工程项目的某些成本与另外一些成本之间存在着正比例关系、反比例或者某种相关关系,但是显然无法从当前的科目体系中发现和看到这些规律。

二、工程项目成本核算数据利用不充分和数据挖掘的意义

工程项目及其施工生产具有唯一性特征和一次性特征。所谓唯一性特征,是指任何一个工程项目都是唯一的、不可复制的。工程项目设计包括科学规划工程项目的规模、性能等,工程项目施工包括合理安排施工组织、施工环境(地理位置、气候等)、施工方案、施工工艺等;由于工程项目的用途和性状各不相同,设计和施工过程中的不可控因素和人为因素太多,可以说没有任何两个工程项目是完全一样的。所谓一次性特征,则是指工程项目施工不像制造企业生产新产品,新产品生产出来,如果检验不合格可以再试验,试验后再生产,不合格再试验,直到合格为止,而工程项目只能一次性建设完工并验收合格,否则将对施工企业造成非常严重的损失甚至破产。

恰恰是由于工程项目及其施工生产的这两个特征,导致许多工程项目的管理者想当然地认为已完工项目的成本核算数据对正在施工的和将要施工的项目并没有借鉴意义。其结果就是大量工程项目核算数据没有得到分析、挖掘等形式的充分利用,大部分施工企业只将其作为计算工程项目成本、利润并结算的依据,过后就封存保管,出现了工程项目成本核算数据使用的一次性的状况。这也间接导致了一些施工企业工程项目成本核算的随意性、不准确的问题。

事实上,事物的偶然性中总是蕴含着必然性,成千上万的已完工项目的成本核算数据中可能隐藏着某些规律性,亟待深入挖掘。数据挖掘正是一种从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识的技术及工具。数据挖掘出现于20世纪80年代后期,在20世纪90年代有了突飞猛进的发展,当前已被广泛应用于企业的客户关系管理、内部控制和绩效评价等领域,相信按照数据挖掘的思路并利用其技术,对工程项目成本核算科目体系予以改进,也将对工程项目成本管理有所裨益。

三、应用数据挖掘改进工程项目成本核算科目体系

如前所述,数据挖掘就是从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。数据挖掘任务一般可以分为两类:描述和预测。描述性任务刻画数据库中数据的一般特性;而预测性任务则要在当前数据基础上进行推断,作出预测。这样,数据挖掘通过预测未来趋势及行为,帮助管理者作出前摄的、基于知识的决策。本文将基于以下四类数据挖掘功能,具体讨论工程项目成本核算科目体系的改进方向及形式。

(一)自动预测趋势

数据挖掘的自动预测趋势功能是在数据库中找寻具有预测作用的信息,一个典型的例子就是发现、证实并预测工程项目成本构成比重的变化趋势。随着科学技术的发展和管理水平的提高,工程项目成本中的间接费用比重会呈下降趋势,由此可以推断构成工程主体的材料费用占工程项目总成本的比重将呈上升趋势,这就是工程项目成本构成比重的变化趋势。但这只是人们的主观感受和判断而已,如果需要准确地得出以上结论,就可以对已完工项目的成本数据采用科学、恰当的方法进行数据挖掘,客观地获知工程项目成本构成比重的变化趋势,进而为各成本费用项目控制标准的制定提供依据。

当前的“工程施工”一级科目按经济内容分类设置了“人工费”、“材料费”、“机械费”、“其他直接费”和“间接费用”等明细科目,可以说基本满足数据挖掘自动预测趋势功能的要求,但还不够详尽。因此,科目级次可以从当前的三级适当地增加到五级甚至六级,对各明细科目进一步细分。如在表2中,对“机械费”科目进一步细分成“自有设备”和“租赁设备”两个科目单独核算,预期可以更充分地反映出市场细分、租赁行业发展和施工企业大量租赁通用设备的发展态势。

(二)关联分析

关联是数据库中存在的一类重要的、可被发现的知识,如成本构成中某些具体成本项目之间存在的某种规律性(一项成本的发生是由另一项成本的发生所引起的,或者一项成本的增加会导致另一项成本的减少等等)。关联分析的目的就是要找出数据库中隐藏的关联网。工程项目成本中也存在着一些明显但却未被证实的关联关系。

工程项目质量成本主要由两个方面组成:一是为了保证工程质量而发生的各种质量预防成本和鉴定成本;二是因工程质量未达到标准需维修及返工而造成的故障成本。预防成本主要包括为了保证工程质量而支出的研究、规划、改进工序和规范操作的费用及各种涉及工程质量的培训费用;鉴定成本主要包括检查、评定工程质量、工序质量是否满足规定要求和标准所需的费用及相关人员的工资;故障成本主要包括施工生产过程中处理工程质量缺陷而产生的返工费用、材料损失、停工费用及需要施工单位负责的保修费、赔偿费等。一般来说,工程质量预防成本、鉴定成本和故障成本之间存在着密切关系:预防成本、鉴定成本属于保证工程质量的费用,和质量水平成正比,即质量水平越高,成本投入越大;而故障成本属于损失性费用,和质量水平成反比,即质量水平越高,故障成本越低。也就是说,预防成本、鉴定成本越高,故障成本越低,两者之间是反比关系,这就是质量成本内部的关联关系。

同样,安全成本中也有预防成本和损失成本之分:预防成本是施工过程中为了防止各种安全事故发生而支出的安全措施费;损失成本则是工程发生安全事故所造成的各种材料损失、赔偿损失和停工损失。一般预防成本越高,损失成本越低;预防成本越低,损失成本越高,两者之间也存在着一种反比关系。

工程项目成本中也许存在着诸多这种关联关系,如表2所示,对某些成本费用项目根据其内部关联关系分类设置明细科目,势必可以更充分且便利地反映工程项目成本发生的内在规律性,有利于工程项目成本分析与控制。

(三)聚类分析

聚类分析的功能在于建立一种归类方法,如将若干工程项目成本按照性质上的亲疏程度进行归类。

工程项目间接费用主要包括项目管理人员工资及福利费、通讯费、差旅交通费、业务招待费、办公用品折旧摊销费、车辆使用费、意外保险费、房屋租赁费,等等。从用途来看,种类繁多,但这些费用的发生可以归于几大成本动因,如工程项目组织规模(人数)决定着项目管理人员的工资及福利费;工程项目离公司总部的距离远近决定着差旅交通费;工程项目覆盖范围的大小决定着车辆使用费;施工环境(危险程度)决定着项目应为项目管理人员购买意外保险费的金额。通过聚类分析,可以将工程项目间接费用归为几类,找出每一类共同的成本动因和特点,有利于分析每一类成本的发生、超支和节约状态,进而更好地研究、制定控制成本的对策。

如表2所示,“间接费用”科目根据成本动因分成“组织规模动因”、“施工范围动因”等科目单独核算,并进一步细分,就可以严密监视每一类成本的发生是否符合其成本动因规律,而且能够更有针对性地对工程项目间接费用实施控制。

(四)偏差检测

数据库中的数据常有一些异常记录,从数据库中检测出这些偏差很有意义。工程项目成本中也会存在一些异常成本,如发生严重的安全事故、异常的雷雨天气导致工期拖延、当地居民的干扰等都会导致异常成本发生。如果把这些异常成本混作正常成本一起核算,将不利于工程项目成本分析与控制以及考核。因此,单独设置了“异常成本”科目,同时通过数据挖掘的偏差检测技术,专门、单独核算这些成本。

综上所述,改进后的科目体系如表2所示。

四、改进后工程项目成本核算科目体系优点分析

改进后的科目体系不但能够弥补当前科目体系的诸多缺点,而且还能强化工程项目成本分析与控制,产生意想不到的效果。

(一)并不增加成本核算难度

表2的科目设置看似复杂,其实不然。随着会计电算化的普及,手工账已逐渐退出历史的舞台,在财务软件上设置会计科目以及进行账务处理都是一件非常容易的事情,而且在同一套财务软件系统中,一个工程项目设置好的科目体系还可以非常便捷地复制到任何其他工程项目。因此,改进后的科目体系并不增加成本核算难度。

(二)无需额外的专项分析即可获得有价值的信息

由于科目设置的细化、科目级次的增加,根据改进后的科目体系生成的科目余额表或明细账将具有更丰富的信息含量,而且一目了然。如异常成本、间接费用等的金额是多少、是由什么原因引起的都可以从科目余额表或明细账中直接查询到,不再需要对成本核算数据重新分类汇总,进行额外的专项分析,从而缩短了成本分析所需的数据处理实践,节约了资源,提高了效率,增强了效果,也使得非财务出身的企业领导能够比较容易地看懂成本构成,以及成本发生是否合理。

(三)有利于成本分析与控制及相关决策

更丰富的信息含量,必然有利于更具体而微的管理。如“机械费”分成“自有设备”和“租赁设备”,就能将两种费用进行对比分析,从而发现哪类设备更能为工程项目节约成本,作出相关生产决策。“其他直接费”下设有“安全成本”等三级科目,通过关联分析,又可以发现其中“预防成本”与“损失成本”之间的关联关系,从而找到安全成本的一个合理控制标准,即预防成本与损失成本之和的最小值。同样,“间接费用”按成本动因分类核算,就可以一目了然地找到成本发生的原因,如果某种动因导致的成本出现异常,就可以有的放矢地应对。

【主要参考文献】

[1] 彭英.数据挖掘综述[J].德宏师范高等专科学校学报,2009(1).

篇6

关键词:数据挖掘;院校教育;教学管理

中图分类号:G424文献标识码:A文章编号:1009-3044(2009)27-7591-02

Discusses the Application of Data mining Technology in the Colleges and Universities Education Informationization Shallowly

LI Yong

(The Computer Room of Bengbu College of Automobile Management, Bengbu 233011, China)

Abstract: As one kind of emerging data technology,the data mining obtains the widespread application in many domains.The article embarked from data mining's concept,has outlined the major function and the process of data mining,and expounded the application of data mining in the colleges and universities education informationization from the teaching management,the teaching appraisal,the curriculum,the teaching method choice and so on.

Key words: data mining; colleges and universities education; teaching management

现代计算机技术、信息通讯技术和网络技术在院校教育系统的整合应用,在一定程度上实现了教育教学、组织管理、校园生活服务等活动的数字化、网络化、自动化,提高了教育质量和效率,形成了适应信息社会要求的全新的教育和管理模式,即教育信息化。院校教育信息化带来的是信息量的急剧增长和对信息提取的更高要求,现在再依照传统方法在海量数据中寻找决策的依据是很困难的事情。数据挖掘是一个新兴的多学科交叉领域,利用数据挖掘技术可以帮助人们分析、理解存储在计算机系统中的海量数据,为决策提供支持,因此,可以借助数据挖掘工具去发掘院校教育数据中隐藏的规律或模式,为教育教学决策提供科学依据和更有效的支持。

1 数据挖掘

1.1 数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、有用的信息和知识的过程。数据挖掘是对数据内在和本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。它涉及对数据库中的大量数据进行抽取、转换、分析以及模型化处理从中提取辅助决策的关键性数据,因此数据挖掘就是深层次的数据信息分析方法。

1.2 数据挖掘的主要功能

具体来说,数据挖掘具有预测趋势和行为、关联分析、聚类、概念描述以及偏差检测等主要功能。

预测趋势和行为:数据挖掘可以自动在大型数据库中寻找预测性信息,以往需要由手工分析大量数据完成的问题如今可以通过数据挖掘迅速直接地得出结论。

关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。

聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

概念描述:概念描述就是对某类对象的内涵进行描述,并对其特征进行概括。

偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例等。

总之,数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为决策者进行决策的依据。

1.3 数据挖掘的过程

数据挖掘一般包括以下几个基本过程:

1) 确定和逐步理解应用领域。清晰地定义出业务问题,这是数据挖掘的重要一步。

2) 数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

3) 数据预处理。研究数据质量,确定将要进行的挖掘操作的类型。

4) 数据编码、数据转换。将经过预处理的数据进行一定的格式转换,使其适应数据挖掘系统或挖掘软件的处理要求,形成一个分析模型。

5) 数据挖掘。利用各种数据挖掘方法对数据进行分析,挖掘用户需要的各种规则、趋势、类别、模型等。

6) 解释结果。将挖掘结果以可视化的形式展现在用户面前。

7) 管理发现的知识。

2 数据挖掘在院校教育信息化中的应用

院校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘技术可以应用于院校教育信息化的多个方面,如教学管理,教学评价,课程设置,教学方法选择等等。

2.1 辅助教学管理

随着计算机在教学管理方面的广泛应用,学生和教师的学习、工作、奖励、处罚等。

信息被存储在教学管理数据库中,通过分别对师生数据库进行挖掘,利用得到的有价值的数据来制定正确决策。

2.1.1 合理制定教师培训、招聘计划

在院校教师管理中,传统方法是运用日常管理中积累表层信息实施决策,这样只能获得数据的表层信息,并不能获得内在属性和隐含的信息。如果转变理念,运用数据挖掘理论,采用新技术分析这些数据,就会使大量的数据信息得以有效利用。

利用分类算法对不同年龄、学历、职称级别的教师教学数据进行分析,确定哪些专业的人才可以通过内部培训产生,哪些专业人才短缺而且急需,需要通过引进解决,从而达到平衡内部人才和外部招聘人才的关系,进而制定教师进修、培训、招聘计划,以调整师资队结构,使专业教师分布均衡。

2.1.2 分析学生特征

学生入学后,在校学生管理数据库中存放有大量的学生档案,包括的内容有家庭情况、身体状况、入校前后的学习成绩、特长爱好、奖惩等信息。利用数据挖掘的关联分析和演变分析等功能,在学生管理数据库中挖掘有价值的数据,分析学生特征,掌握学生的状态,帮助学生修正自己的学习行为。通过对学生特征分析结果和事先制订的行为目标标准进行比较,使学生提高学习能力、完善人格,促进其综合素质的发展。

2.2 辅助教学评价

教学评价就是根据教学目标和教学原则的要求,系统地收集信息,对教学过程中的教学活动以及教学成果给予价值判断的过程。其内容主要包括对学生“学”的评价和对教师“教”的评价。目前,院校教育评价指标主要包括学生综合测评指标和课堂教学评价指标,这些评价指标多数是参考国内外相关评价指标体系并结合实际操作中的经验和调查问卷等制定的,对于各项指标之间的关系、重要程度以及指标存在的合理性等方面很难作出判断,将关联规则和粗糙集理论应用于各评价系统,可以对指标进行排序、约简等,在一定程度上对评价指标进行优化,可以找到比较合理且简单易行的评价指标体系。

首先,院校教育信息化产生了大量数据,如学生的学习成绩数据库、行为纪律数据库、奖励处罚数据库等。利用数据挖掘工具对这些数据库进行分析处理,可以及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。同时,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。

其次,将关联规则运用于教学评价数据中,探讨教学效果的好坏与教师年龄、职称之间的关系、学生各项素质指标之间的关系等,能够及时地对教师的教学和专业发展以及学生的学习和个性发展提供指导。

最后,将数据挖掘中的关联规则应用于分析试卷数据库,根据学生得分情况可以分析出每道题的难易度、区分度、相关度等指标,教师也可以据此对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况并为今后的教学提供指导。

2.3 合理指导课程设置

院校的课程设置有其一定的规律性,先基础,后专业,学习是循序渐进的。如计算机专业的学生在学习数据结构这门课程之前,会先学习语言程序设计和离散数学等课程。如果先行课程没有学好,势必会影响后续课程的学习。此外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩也会有所差异。每学期安排课程的多少,也会影响学生的学习效果。我们可以利用学生的学习成绩数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,从这些数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因,并在此基础上对课程设置做出合理安排。

2.4 辅助选择适当教学方法

在教学过程中,教师通常采用多种教学方法完成对本门课程的教学任务,如讲授法、讨论法、案例法、演示法、实验对比法、参观学习法等等。这些大量的教学班次实践过的经验数据存放于教学数据库中,可以用数据挖掘的方法来挖掘数据库中的数据,判定当前的教学班应该采取什么教学方法才能满足教学需要,更有利于学生对知识的理解和吸收。课程结束后将每个学生的成绩和对教学方法的评价进行综合,运用回归线性分析、关联规则的方法来判断本次教学方法适合哪一类学生,对于分类、分层次教学具有推广和指导意义。

3 结束语

数据挖掘作为一种新兴的数据处理技术,在数据的利用和提取方面发挥着日益重要的作用。在教育领域的应用,为教学工作的决策、设计、实施以及评价等各项内容提供了新的途径和方法,随着数据挖掘技术在教育领域中应用功能及技术的不断发展和完善,必将发挥越来越大的作用。

参考文献:

[1] Insight into Data Mining Theory and Practice.范明,牛常勇,译.数据挖掘基础教程[M].北京:机械工业出版社,2009.

[2] 段向红,张飞舟.数据挖掘技术及其在职业教育中的应用探讨[J].职业教育研究,2007(7).

篇7

关键词:数据挖掘; 关联规则; 学生成绩; Apriori算法

中图分类号:TP392文献标识码:A文章编号文章编号:1672-7800(2013)012-0133-03

作者简介:岳超(1986-),男,西南科技大学计算机科学与技术学院硕士研究生,研究方向为教育技术与知识工程;范太华(1962-),男,西南科技大学计算机科学与技术学院副教授、硕士生导师,研究方向为数据挖掘和系统结构;姬亚利(1988-),女,西南科技大学计算机科学与技术学院硕士研究生,研究方向为网络教育教学设计;衣峰(1987-),男,西南科技大学计算机科学与技术学院硕士研究生,研究方向为网络教育与移动学习。

0引言

随着招生规模的不断扩大,教务管理系统中的数据急剧增加,普遍存在的问题是学生成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段,如何利用这些数据理性地分析教学中的成效得失以及找到有关影响学生学习成绩的因素是广大教师共同关心的问题[1]。 本文着重讨论了数据挖掘技术在学生成绩这一海量数据中的应用,发现成绩数据中隐藏的课程相关规则或模式,力图通过关联与分类,得出一些有用的知识,对教学质量的提高起到积极的促进作用。

1数据挖掘及关联规则

数据挖掘 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是一个循环往复的知识发现过程,通过对挖掘结果的描述、分析与评价,不断优化数据挖掘模型和挖掘算法,最终获得最优化数据挖掘解决方案[2]。

1.1数据挖掘流程

(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

(2)数据准备。①数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据的预处理:研究数据的质量,为进一步的分析作准备,并确定将要进行挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3)数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。

(4)分析和同化。①结果分析:解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术;②知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。数据挖掘的过程如图 1 所示。

1.2关联规则简述

关联规则挖掘就是在海量的数据中发现数据项之间的关系,关联规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。他们分别反映了所发现规则的有用性和确定性。 一般地,用户可以定义两个阈值,分别为最小支持度阈值(minsup)和最小置信度阈值(minconf)。 当挖掘出的关联规则支持度和置信度都满足这两个阈值时,就认为这个规则是有效的,否则,就是无效的。 这些阈值一般可由领域专家设定,也可以进行其它分析,揭示关联项之间的联系。

2基于数据挖掘的高校学生成绩分析

对学生成绩的正确分析,是保证教学工作顺利进行的关键,揭示一些“教”与“学”的现象和规则,能更好地指导教师的“教”与学生的“学”,为教育教学的计划和决策提供依据, 提高教学的效果和成果。

2.1数据采集

高质量的数据,是保证数据挖掘成功的前提保证。本研究所需数据取自计算机专业学生的期末考试成绩数据库文件,确定某门课程和其它课程之间的关联性。为减少不必要的影响因素,影响关联规则的产生,删除了英语类、思政类、体育类的课程,将数学类和计算机课程进行分析,最终随机抽取 385 名学生的《C&C++ 语言程序设计》、《线性代数》、《离散数学》、《计算机系统原理》、《计算机网络》、《计算机组成原理》、《软件工程》、《数据库原理》、《数据结构》等课程的期末考试成绩。

2.2数据预处理

数据预处理是数据挖掘的关键阶段,原始数据往往存在不完整的、含噪声的和不一致的数据,不能直接运用于数据的挖掘,需要对其进行数据预处理,包括数据清理、数据集成、数据变换等内容。

(1)数据清理。通过填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。从数据库中导出字段包括学号、课程名、成绩、备注等信息。对备注中显示补考、重修的成绩填充为50分。对缺失值的填充,我们运用了决策树归纳的方法,填写最可能的值进行填写,以便数据挖掘结果更准确。经数据清理的数据如表1所示。

(2)数据集成。将多个数据源合并到一致的数据存储,依据以往经验思政类和体育类课程对本研究的结果影响不大,予以删除。根据此类思想整理数据,并将所有数据集成到一个Excel中,最终数据包含4 065条271名学生的15门数据。

(3)数据变换。将数据转化成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的区间内。由于成绩是按照数值形式存储的,不利于数据的挖掘,需要对各科成绩进行离散化处理,将成绩分为优秀、良、一般、差4个等级,分别用A、B、C、D进行标识,规定85~100为A,75~85为B,60~75为C,60分以下为D。笔者运用Apriori算法对表1数据进行关联规则的挖掘,进行数据转化后如表2所示。

2.3Apriori算法的运用

采用SPSS Clementine工具进行数据挖掘,预处理的数据已满足Apriori算法对数据的要求,导入数据可直接使用Apriori模型进行分析。为了得到更有效的数据,笔者进行了反复的验证。设置条件支持度为0.15,最小规则置信度为0.75,挖掘结果如图2所示。

2.4结果分析

上面挖掘的关联规则并非每条都有现实意义,我们进一步进行处理,将关联规则模型导出,分析这些关联规则,得到主要知识如下:

(1) 学好计算机应用基础、C&C++程序设计、数据结构是学好数据库的基础,数据结构又是学好软件工程的基础。

知识发现过程如下:计算机应用基础=A =>数据库=A,支持度为32.32%,置信度为85.3%。计算机应用基础和数据库同时是A的人数占总人数的32.32%,计算机应用基础为A中85.3%的人数据库原理也为A,所以说要学好数据库原理先要学好计算机应用基础,C&C++程序设计=A =>数据库原理=A,支持度为42.35%,置信度为86.56%,同上解释,C&C++程序设计也是数据库原理的基础。数据库原理=A =>软件工程=A,支持度45.36%,置信度为81.02%,数据库原理也是软件工程的基础。

(2) 学好离散数学是学好数据结构的基础。

(3) 要把计算机操作系统学好,计算机组成原理、C&C++程序设计、数据结构、离散数学是基础。

(4) 计算机操作系统取得好成绩的人数中76%的人计算机网络也学的好。

(5)C&C++程序设计、数据结构和数据库原理又是学好软件工程的基础。

此处只列出了部分知识发现,管理者可以以此为参考,结合实际情况对所学的课程进行调整,并通过预警对学生的学习进行提醒和帮扶。学生可以结合自己的成绩及时预测某门课程的成绩,及时补救,加大课程的学习力度。

3结语

利用关联规则中的Apriori算法对计算机科学与技术专业的课程进行了挖掘,找出了隐藏在课程背后有趣的规律,发现偏离正常学习轨道的学生,及时进行预警和干预,帮助学生顺利完成学业,对学生课程的学习和管理者的决策提供参考,也为关联规则在其它学科的应用提供了思路。

参考文献参考文献:

[1]朱艳丽,高国.Apriori算法研究及其在学生成绩分析的应用[J].福建电脑,2010(1):47.

[2]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2010:41-43.

[3]王海容.数据挖掘在学生成绩分析的应用[J].电子设计工程,2013,21(4):54-56.

篇8

关键词:关联规则 数据挖掘 学生成绩 预警系统

中图分类号:G64 文献标识码:A 文章编号:1672-3791(2013)02(c)-0023-01

高校教学管理的重心在于不断提高高校教学水平,关键在于加强学生成绩的管理。目前,通过数据挖掘技术对教学数据库的不断分析研究,其在教育方面的研究成果越来越突出。如果设计一套高校学生成绩预警系统,参考高校教务信息系统数据库,并使用数据挖掘技术对高校学生成绩数据库进行分析,系统通过挖掘各学生每一课程的成绩数据,计算出不同成绩水平的产生概率,通过原有的成绩数据推测今后的成绩趋势,进而找到与本课程相对应的关联规则作为预警因素,建立起预警系统,这样就能够及时评估学生的学习成绩,督促学生改进学习方法,以提高其成绩水平。

1 数据挖掘含义及基本原理

数据挖掘(Data Mining,DM)通俗地说就是从数据中挖掘信息。由于人类的认识水平有限,很多模糊的、随机的、不完全的、有噪声的数据中隐藏的信息就不容易被发现,但是通过对一系列有关数据的分析和挖掘,就会使大量重要的潜在知识浮现出来。数据挖掘将数据库、数据网络、统计数学等技术结合起来,从而进行预测、分类、估计、复杂数据类型挖掘、相关性分组或关联规则等处理。在高校教务管理工作中,高校学生成绩与成绩的各影响因素之间潜藏着很大的联系,而数据挖掘技术可以对此进行全面地分析。所以,各个从事此项研究的人员开始设计并逐渐将数据挖掘技术与高校教学管理系统结合起来,扩展数据挖掘技术应用的新领域,并多方面、多角度的定性分析学生成绩情况。

数据挖掘主要是通过关联规则数据挖掘算法进行:根据所需挖掘出的相符合关联规则,设定最低可靠度和最小支持度两个阈值,即用来表示所需的关联规则一定要符合的最小可信任程度和所需的关联规则一定要符合一组数据量在统计意义上能达到最低要求。

2 现在状况下对学生成绩的管理

一般情况下,教务系统的管理人员虽然能够在数量较大的数据库中作普通的查询,或对一定数量学生的成绩进行简单统计处理或数学排序,但是如果想进行进一步的研究,那么这种传统下管理数据库的方法就只能望而却步了。另外,在高校逐渐扩大招生人数的情况下,成绩管理系统也需要处理越来越多的数据,解决更加繁琐的问题。因而,在这种数据处理压力较大状况下,就要求更加强大的数据处理系统来进行工作。如果仅仅将计算机作为存储工具而存放大数量形式不一的数据,而不去挖掘在其中隐含的具有重要价值的信息,那么数据中潜在的关联和规则也就不会被找出或利用,同时也就不能够对数据产生规律加以把握,在教学工作中造成一定损失。如果能够对这些存在的弊端加以解决,那么不仅能够使现代教学管理提高到新的层面,而且可以帮助教师有效评估学生学习成绩状况,以提高学生的学习成绩。所以说尽早建立完善的数据挖掘管理信息系统很有必要。

3 高校学生成绩预警系统设计

我国的高校成绩预警设计在当前水平上,只能对学生成绩数据进行简单的统计分析。为了满足需要,以便于更好的管理学生学习,针对学习成绩的三个基本状态:成绩相对落后、成绩趋于滑落和成绩潜藏问题,依此能够及时分析学生成绩水平,督促学生改进方法,提高学生成绩。

现在就以成绩潜藏问题来对系统的基本使用原理进行分析,并设计出相应的基本模型。成绩预警系统通过挖掘学生以往成绩关联规则,确定成绩的关联规则范围,再根据目前成绩水平在此范围进行搜索,推算学生今后的学习中隐藏问题。

(1)对成绩数据进行预处理,首先将学生所处学期、学期所有课程进行编号,因为四个学年有八个学期,各学期课程应该都在10科以内,故一般情况下以两位数表示,即“学期+课程”,这样就有利于后续的排序。然后把历史数据库内数据的格式“学号+姓名+不合格课程”中的“不合格课程”依次编上号码,如不合格课程1,不合格学课程2,…。再将成绩不合格的记录从需要处理的所有成绩记录中一一筛选出来。

(2)挖掘出概率较高的数据,设置适当的支持度,以便于找出的关联规则不具特殊性。为了能确保能够准确成功预警,需要排除无关规则,同时也要避免有管关预警规则被弃用,所以在进行合适的置信度定位时,既不能过于狭隘,也不能范围太广,在保证准确率的同时不断提高预警水平。预警规则包括前件和后件,前件和后件分别表示前后学期的课程,每个学科作为一个项,将前件各项和后件的各项之间排好顺序,后件始终排在前件之后。规则的前件和后件不可以用来表示同一学期的课程成绩,相同学期课程之间的成绩不能够相互预测,只能在前件产生之后对后件即下一学期成绩进行预测,随着历史学期成绩的期数增加,预测的准确率越高。

(3)按照首步的方法预处理本学期的学生成绩,在预警规则库中进行搜索,输出匹配项进行分析。

4 结语

随着我国各高校实行信息化步伐的加快,高校教育中的工作效率不断提升,管理大量数据信息的系统也就充分发挥了作用。数据挖掘的方式能将很多有用的数据在繁琐、量大的数据库中提取出来,作为评估教学水平和学生学习的依据,合理指导高校的管理、教学工作。成绩预警系统的目的就是能够对出现学习问题的学生及时发出预警信息,使学生在大学的学业成功完成。同时,在信息技术不断发展今天,不断对成绩预警系统进行改进,以使其能更好的为教育事业服务。

参考文献

[1] 李昊,周振华.基于数据挖掘的高校学生成绩预警系统[J].大庆石油学院学报,2011,4(35):91-95.

篇9

【关键词】 数据挖掘技术 现代远程教育 应用

一、数据挖掘概述

1、数据挖掘过程。首先需要明确被挖掘数据的主要来源,其次要有效地处理原数据,进而详细地了解数据采集、预处理以及发现之间存在的关系,再次要构建相应的模型,最后对模型进行改进并应用于实践过程中[1]。

2、数据挖掘方法。第一,关联分析。这种挖掘方法的目的就是为挖掘数据之前存在的潜在联系,并了解关联规则。第二,序列模式分析。对数据之间的前后关系与因果关系进行分析,在实践数据当中找出内部事务的模式。而学习活动序列模式对问题的挖掘主要是因为数据源与挖掘模式具有一定的特殊性,仍存在诸多问题解决。第三,分类与聚类分析。输入集主要是记录集合与集中标记。现阶段,已经有诸多分析模型被应用于实践当中,最经典的就是线性回归与决策树等模型。而聚类分析方法与分类分析的规则存在一定的差异。其中的输入集就是没有标定的记录,即输入次数记录并未进行分类。主要的目的就是按照特定规则,对记录几何进行划分,同时利用显示与隐式方式对不同类别进行描述,而且当前已经研发出多种聚类分析的工具。

二、数据挖掘技术在现代远程教育中的具体应用

2.1数据挖掘技术在学习者个性化服务中的具体应用

为了更好地提供远程教育个性化服务,最重要的就是分析并处理学习个体数据之间存在的差异。其中,针对参与学习个体情况予以分类和安排,以保证教学内容与进程的合理性。同时,在学习过程中,知识所表示的内容应当充分考虑学习者个性化要求展开深入地了解,为其提供具有针对性的学习形式[2]。在此基础上,应全面评价并反馈各阶段的学习效果。在此过程中,需要对学生注册信息进行全面核实,同时还应当注重学生行为信息与课件库等多种数据源。

通过对数据挖掘基本方法的运用,在综合考虑学生兴趣爱好以及个人情况的基础上,合理地划分学生的种类,进而为学生推荐相关性的课程与知识点,或者是有价值的学习资源,以保证在学生实际学习的过程中充分运用分类分析与聚类分析的方式进行调整,同时向类型不同的学生传送相对应的学习内容。另外,针对学生问题与测试成绩挖掘相互关联的基本规则,为学生提出所没有理解和掌握的知识内容,并给予有参考价值的学习建议,进而为其提供尚未掌握学习内容的资料,在短时间内促使学生掌握。通过对数据挖掘技术的运用,确保远程教育可以充分结合学生具体状况安排教学内容,实现了远程教育作用与效率的全面提升,同时也促进了高等教育的终身化发展。

2.2数据挖掘技术在教学资源建设中的具体应用

对于教学资源建设来说,将远程教育平台数据库当作最主要的数据源,同时,学习者网上学习的行为也被当作不可缺少的数据源,以保证更好地找出学习者关注程度和教学资源建设之间存在的联系,积极构建模型,进而对教学资源建设计划予以有效地调整,进一步增强教学资源自身质量。

以某学校直属学院为例,对15级网络工程专业学生网上学习的时间进行收集并当作数据源,在本学期期间,有七门课程供学生进行学习。其中,图一代表不同课程学生上网的时间分布:

根据图一内容可以了解到,课程二、四备受学生关注与认可。经分析与研究以后可以发现,两门课程资源当中的案例和分析比重较大,所以,对学生的吸引力较大[3]。

结束语:综上所述,将学生所反馈的信息有效地提取出来,构建数据模型,有机组合信息碎片形成更具价值的信息内容,因此,数据挖掘对远程教育的发展具有重要的作用和现实意义。而远程教育教学活动同样也是整体,教W环节之间存在一定的联系,这也决定其具有个性化的特征。对数据挖掘技术进行合理地应用,可以进一步完善远程教育。

参 考 文 献

[1] 徐丽,徐志明,陈峰等.远程教育系统中数据挖掘技术的应用[J].景德镇学院学报,2014(6):30-32.

篇10

关键词:教学质量评估;数据挖掘;偏相关分析法

中图分类号:TP274文献标识码:A文章编号:1009-3044(2012)10-2172-03

The Application Research of Data Mining in Teaching Evaluation of Independent Colleges

WU Ya-li1, YAN Xiao-liang2, YANG Dong-ying1

(1.Business College of Shanxi University, Taiyuan 030031, China; 2. Information Center of Certification and Accreditation Administration of the People’s Republic, Beijing 100020, China)

Abstract: It become more and more important to the teaching quality evaluation of the university. At first, in this paper we are based on teaching evaluation data of the independent college, analysis and mining the data of evaluation with the software of data analysis and data mining software. then we study the theory of data mining and give a new analysis mode of the data mining of teaching quality evaluation. As a result,we get main factor about teacher’s teaching quality.

Key words: teaching quality evaluation; data mining; partial correlation; linear regression

近些年来,我国独立学院的发展为扩大高等教育资源和高校办学规模发挥了不可忽视的作用。独立院校侧重于课堂与实践教学,因此,教学评估是衡量高校教学质量的重要指标。然而,现在高校教学质量评估系统还存在诸多问题。多年来的教学和管理工作积累了海量的数据,但目前对这些数据的处理还停留在数据的统计和查询阶段。怎样能更好的利用这些数据,如何对数据进行深入分析,分析的结果对教师教学工作以提供哪些更有价值的建议是目前我们要解决的主要问题。

该文以独立学院近年来的教学评估数据为例,运用分析数据软件(SPSS)、数据挖掘软件(WeKa)对教师教学评估数据进行了数据分析与数据挖掘。在深入研究数据挖掘理论的基础上,提出一种分析挖掘教学质量评估数据的新模式。实验结果表明,该模式效果良好,有利于教学质量的提高。

1数据挖掘技术

最初数据挖掘研究的目的很大程度上是基于对市场购物篮的分析,以便管理者能更好的了解市场情况,从而针对消费者采取更有效的措施。

数据挖掘(Data Mining)[1],也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理(OLAP),从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识

2应用研究

2.1确定挖掘对象、目标

确定数据挖掘的目标,确定数据挖掘的对象是数据挖掘的首要工作。该文中数据挖掘对象是独立学院教师基础信息和教学评估数据。本系统的挖掘目标是从已有教学评估指标中找出对教学评估结果影响比较大的因素,运用合理的指标模型对教师教学质量进行深入分析,最终以达到提高教学质量的目的。

2.2建立数据挖掘库

2.2.1数据采集

1)教师基本信息

数据结构如下:教师号(TNo)、性别(Sex)、年龄(Age)、职称(ProfeTitle)、学历(Education)、是否专职(Ext_Full)。

2)课程与教师评估信息

内容主要包括对课程本身和教师教学方面的评估。其中评价课程的目的是评价课程设置的必要性、合理性及教材的质量;评价教师设置了教学态度(E_Tea1,E_Tea2,E_Tea4)、教学内容(E_Tea5, E_Tea9)、教学方法(E_Tea7, E_Tea8)、教学手段(E_Tea3, E_Tea6)、教学效果(E_Tea10)等十个条目,目的是评价教师的课堂教学质量。均采取量化评价的方法,数据结构表如表1:

表1课程与教师评估信息数据结构

其中课程评价总分100分,共4项,每项25分;教师评价总分100分,共10项,每项10分。课程评价和教师评价均分四个等级,并设置了A、B、C、D四个级差,其权重依次为0.95、0.7、0.6、0.4。评价总分按照公式M=∑KiMi计算得到课程评估结果(E_CourReault)和教师评估结果(E_TeaResult),其中Ki为第i个条目的权重;Mi为第i个条目的分值。

2.2.2数据挖掘库的建立

数据预处理包括数据挖掘库的建立、数据分析、数据转换。数据预处理的目标是将数据进行转化,然后在数据集中剔除不合理的信息,整合成能被数据挖掘算法利用的数据,最终存入数据挖掘库。

该文运用一定的数据分析方法和数据挖掘技术进行数据分析挖掘。首先,为收集数据并建立数据库。数据来源为的“教师基本信息库”,“教学评估数据库”。其次是教学评估数据分析,是在以上两个数据库的基础上按照需求进行关联,涉及了四个数据表:Tea_info(教师信息表)、Cour_Standard(课程指标信息表)、Tea_Standard(教师指标信息表),Eva_reault(评估结果表),其中,Eva_reault是教学体系指标编号和教师编号的关联表.有这些表生成数据挖掘库。主要字段包括:教师号、性别、年龄、职称、学历、是否专职、课程评价、教师评价、评估结果等字段。

2.3数据预处理

数据分析的目的是筛选出对评估结果影响较小的指标,进一步缩小对评估结果影响的范围。

偏相关分析[2](Partial)是研究两个变量的相关性的一种方法,为了找出任意两个变量之间的关系,首先要控制与这两个变量有联系的其它变量,使其保持不变.在分析中,当其它变量被固定后,给定的任意两个变量之间的相关系数,叫偏相关系数[5],它表示在其余变量保持不变时,这两个变量之间的相依程度。

偏相关系数可以度量P个变量x1, x2…xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余P-2个变量的影响下的线性相关。

相关系数可以度量两个变量x1, x2之间的线性关系的程度.表达式为:

偏相关系数反映了相依关系中变量之间的相互重要性,如果x1和x2之间的相关性只是基于x3的公共影响,那么r123,≈0。这也可以看成在消去干涉变量后显示出来的相关性。

要确定各影响因素与教学评估结果的相关程度,首先要确定一个变量来衡量教师教学质量,评估结果就是衡量教师教学质量的变量。然后计算出所有影响因素与教学质量的偏相关系数,从而剔除掉对教学质量效果影响较小的因素。

由偏相关分析可以得到属性之间的变量值,其中每个变量对应的三个属性值依次为:偏相关系数,实际显著性概率,自由度数。其中,偏相关系数代表的是关系的密切程度,实际显著性概率是使因子与教学评估结果之间的相关系数为零的假设成立的概 率,自由度数即计算时的自由度数。其中,E_Tea4与E_TeaResult的关系是最密切的,相关系数为0.691,显著性水平为0;其次是E_Tea6,相关系数为0.651,显著性水平为0;下来是E_Tea2,相关系数为0.599,显著性水平为0。

分析表明影响教学评估结果的主要因素,在偏相关分析的基础上去掉了Sex、Age、Education、ProfeTitle E_Cour1、E_Cour2、E_Cour3、E_Cour4、E_CourReault、E_Tea3、E_Tea8、E_Tea9和,这些相对影响不大的因素。

2.4数据挖掘

在偏相关分析的基础上,采用WeKa的序列挖掘模式,支持度为70%,程序给出E_TeaResult与Ext_Full、E_Tea1、E_Tea2、E_Tea4、E_Tea5、E_Tea6、E_Tea7和E_Tea10之间线性依存关系,如图1:

图1评估指标依存关系图

结果表明:

1)教学态度对于教师的质量评估起着至关重要的作用,因此,首先要端正教师的教学态度,充分认识到自己的职责和作用,发挥教师的主人翁精神,投入到教学工作中去,在学生中建立自己的威信。

2)在大力倡导素质教育的今天,教师除完成教学任务外,还要注重与在课堂上学生交流互动,进行心与心的沟通,这是一种必不可少的教育方法。

3)在大力倡导素质教育的今天,教师除完成教学任务外,还要注重与在课堂上学生交流互动,进行心与心的沟通,这是一种必不可少的教育方法。

4)独立学院是以培养实践人才为主教育模式,其次,枯燥的理论知识无法引起学生浓厚的兴趣。因此,案例教学,将理论与实践教学相结合,可以得到更好的教学效果。

5)不可以否认,兼职教师在独立学院发展过程中很大程度上缓解了独立学院师资紧缺矛盾,但他们毕竟精力有限,更重要的是多数兼职教师缺乏主人翁责任感,对教学采取应付或敷衍的态度,他们的教学方式可能从某种角度来说不适合独立学院学生的发展。因此,学校必须加强师资队伍建设,培养适合于自己发展的教师。

3结束语

该文基于独立院校教学评估数据,运行数据分析和挖掘技术,将教学评估结果运用偏相关分析方法进行数据分析,采用序列模式挖掘出影响教师评估结果较大的指标以及指标之间的相关性,能够让学校管理者从中发现教师教学活动中的主要问题,为独立院校教师招聘工作和教育质量改革提供有价值参考意见.同时,教师本人能够根据自己的教学质量评估结果进行调整,从而提高自身的教学质量。

参考文献:

[1] Agrawal R,Srikant R.Mining sequential patterns[C].Proc International Conference on Data Engjneerjng,Tajpej,Taiwan,1995:3-14.

[2]钟晓,马少平,张钹,等.数据挖掘综述[J].模式识别与人工智能, 2001,14(1):48.

[3]白雪.高校教学质量评估数据的分析挖掘系统[D].南京:南京理工大学,2007.

[4]何晓群,刘文卿.应用回归分析[M].北京:中国人民大学出版社,2001.

[5]赵健,傅莉.数据挖掘在本科教学评估中的应用[J].高教发展与评估,2008 ,24(1):66.

[6]周峰.数据挖掘理论在高校教学评估中的应用[M].南昌:南昌大学,2009.