数据挖掘技术在学习效能评价的作用

时间:2022-10-17 02:55:24

导语:数据挖掘技术在学习效能评价的作用一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

数据挖掘技术在学习效能评价的作用

摘要:教育大数据的应用方兴未艾,目前较多的研究应用在预测学生表现或挖掘影响因素方面。本论述采用关联算法和决策树方法所产生的结果集来评价教学质量提升程度,为教学评价探索了一条新路。

关键词:评价;教学;大数据;决策

本论述的主要目的是研究如何应用数据挖掘思维评价学生的课业成绩及授课质量。由于数据挖掘算法众多,主要应用决策树及关联算法作为研究手段,学习数据集主要来自高考成绩、大学一年级出勤情况、课堂测试、讨论发言、作业成绩及期末考试成绩等与学业相关的数据,并将这些数据作为特征变量,将两年之后的专业课成绩总和作为目标变量。基本想法是将三年学生的数据作为训练集,以此为依据每年预测新生毕业时的专业课成绩优良率,如实际与预测相符,则表明整个专业建设工作处于稳定状态,包括授课质量、教学改革、实验实训条件、师资队伍建设等因素的总和处于稳定状态;如实际大于预测或小于预测,则表明总体专业建设质量在提升或下降,以便有针对性地提出加强和改进方案。

1数据挖掘主要技术

数据挖掘常用的主要技术有决策树法、神经网络法、遗传算法、统计分析方法、可视化方法等。1.1决策树。决策树法就是以信息论中的互信息(信息增益)原理为基础寻找数据库中具有最大信息量的字段建立决策树的一个结点,再根据不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树。然后对决策树进行剪枝处理,最终把决策树转化为规则,再利用规则对新事例进行分类。典型的决策树方法有分类回归树(CART)、D3、C4.5等。该方法输出结果容易理解,实用效果好,影响也较大。1.2神经网络法。神经网络法建立在可以自学习的数学模型基础上。它是由一系列类似于人脑脑神经元一样的处理单元组成,那就是节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。神经网络法对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上,该方法更适合用于非线性数据和含噪声的数据,在市场数据分析和建模方面有广泛的应用。1.3遗传算法。遗传算法是一种模拟生物进化过程的算法,由三个基本算子组成:繁殖、交叉(重组)、变异(突变)。在遗传算法实施过程中,首先对求解的问题进行编码(染色体),产生初始群体;然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,最后产生新的个体。经过若干代的遗传,将得到满足要求的后代(即问题的解)。该方法计算简单,优化效果好,适合于聚类分析。1.4统计分析方法。统计分析方法是利用统计学、概率论的原理对数据库中的信息进行统计分析,从而找出它们之间的关系和规律。常用的统计分析方法有:判别分析、因子分析、相关分析、多元回归分析、偏最小二乘回归方法等。统计分析方法是最基本的数据挖掘技术方法之一,可用于分类挖掘和聚类挖掘。1.5可视化方法。可视化方法是一类辅助方法,它采用比较直观的图形图表方式将挖掘出来的模式表现出来,其大大拓宽了数据的表达和理解力,使用户对数据的剖析更清楚。

2国外研究现状

Alaael-Halees认为数据挖掘可以增强对学习过程的理解,要专注于与学生学习过程相关变量的识别、提取和评估;Han和Kamber[1]认为能够分析不同维度数据的数据挖掘软件,对教育数据的分类,并总结出挖掘过程中各种关系具有极大的推动作用。Pandey和Pal[2]选取了来自印度法扎巴德不同学院的600名学生,对他们的学习成绩进行了研究。通过对学生的类别、语言、背景资格等进行分类,可以发现新生是否会成为优秀毕业生;Hijazi和Naqvi[3]对300名学生(225名男生)的学习成绩进行了研究。初期假设为“学生上课的态度、大学毕业后每天学习的时间、学生的家庭收入、学生母亲的年龄及母亲的教育程度与学生的学习成绩显著相关”。通过简单的线性回归分析,发现母亲教育程度、学生家庭收入等因素与学生学业成绩呈高度相关。Khan[4]对400名学生进行了研究包括200名男生和200名女生,主要目标建立的包含不同测度值的预测值集合,包含认知能力、成功的人格和人口统计学变量,从而试图揭示在高中能取得科学学科成功的因素,算法选择基于聚类的抽样技术,研究分为聚类组合和随机组。研究发现,社会经济地位高的女生理科成绩相对较高,社会经济地位低的男生理科成绩总体较高;Galit[5]给出了一个案例研究,使用学生的数据来分析他们的学习行为,从而预测结果,并在期末考试前关注处于危险中的学生;Al-radaideh,[6]应用决策树模型预测了2005年约旦Yarmouk大学c++课程学生的最终成绩。采用ID3、C4.5和NaiveBayes三种不同的分类方法。结果表明,决策树模型具有较好的预测效果;Pandey和Pal[7]选取了印度法扎巴德R.M.L.Awadh博士学位学院的60名学生,对他们的学习成绩进行了研究。通过关联规则发现学生对语言选修课的兴趣;Ayesha,Mus⁃tafa,Sattar和Khan[8]描述了使用k-means聚类算法来预测学生的学习活动。数据挖掘技术实施后所产生的信息对教师和学生都有一定的帮助。Bray[9]在他关于私人辅导及其影响的研究中发现,印度接受私人辅导的学生比例相对高于马来西亚、新加坡、日本、中国和斯里兰卡。研究还发现,家教强度对学生的学业成绩有促进作用,而家教强度的这种变化依赖于集合因素,即社会经济条件;Bhardwaj和Pal[10]对R.M.L.Awadh大学计算机应用学士学位课程5个不同学位学院的300名学生的学习成绩进行了研究。运用贝叶斯分类方法对17个属性进行分类,发现学生高中成绩、居住地点、教学媒介、母亲的资历、学生的其他习惯、家庭年收入和家庭状况与学生大学学业成绩呈高度相关。

3实例分析

本例选取了财经商贸学院2017~20毕业生共1800名学生的相关学习记录数据。目标变量选取的是二、三年级的专业课总成绩(STS),特征变量选取高考成绩(CEEA)、大学一年级出勤情况(ATT)、课堂测试(CTG)、讨论发言(SEM)、作业成绩(ASS)及期末考试成绩(ESM)。其等级分类表见表1所列。经计算,CEEA与STS的相关程度最高,可将其作为根节点。通过决策树的训练,可以为从终端节点到根节点的每个路径生成一个分类规则,通过删除对象数目少于所需数目的节点来执行剪枝技术,最后可得到如下if-then的关联规则见表3所列。

4结论

本论述利用分类任务对学生数据库进行分类,已有数据库的基础上预测学生学习成果等级。由于数据分类的方法很多,本论述使用决策树方法,而信息数据从教学过程中得到。本研究是一种创新尝试,希望通过大数据预测方法开辟新的教学评价之路,对高等教育评价工具的补充具有一定的参考价值。

作者:张武 康等银 王德方 单位:兰州资源环境职业技术学院