数据挖掘技术分析论文范文

时间:2023-04-03 16:22:47

导语:如何才能写好一篇数据挖掘技术分析论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数据挖掘技术分析论文

篇1

关键词 技术情报分析;数据挖掘

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02

1 概述

在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。

技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。

2 系统的设计与功能描述

2.3 数据挖掘技术设计

2.3.1数据文本特征表示

在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。

2.3.2关联算法

在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。

2.3.3 层次结构可视化算法

情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。

4 结论

本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。

参考文献

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.

[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).

[3]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志.2005,1.

篇2

关键词:文本 时态 关联规则 垂直数据 有效时间

引言

现代化的企业搜集了大量时态文本数据,但信息超载和无结构化,使得企业决策部门无法有效利用现存的信息,时态数据挖掘技术便应运而生。目前有关时态关联规则算法已较多,但是如果运用到时态文本关联规则的挖掘中则时间复杂度都太高。所以本文将对时态文本关联规则挖掘进行研究。

1.时态文本预处理

1.1时态文本处理

在挖掘时态文本关联规则之前,需要先对文本进行预处理,对英文而言需进行Stemming处理[5],中文的情况则不同,因为中文词和词之间没有固定的间隔,需进行分词处理。

对于本文研究的是医学病毒论文数据库,是一个英文数据库,文本预处理的具体内容如下:

①英文大写换小写(都以小写字母表示,方便文本识别);②删除空白记录;③将论文信息中的标题和摘要进行(可以提高关键词的比重,增加提取文本向量的精度);④处理时间DP列,只保留年份数字,方便提取有效时间;⑤对于记录太多的库,适当拆分表格(否则在程序处理时会内存溢出);⑥根据文本内容提取合适的停用词表,对文本内容进行去停用词处理。

1.2 时态文本表示

在对时态文本进行清理后,需将其进行表示。在文本处理时我们已提取论文的发表时间,所以将时间和文本分列处理,然后将文本单独表示。本文采用向量空间模型(VSM,Vector Space Model)进行表示[6]。

2.时态关联规则算法概述

以前的算法不能有效应用到时态文本数据库中,主要原因有:1)这些算法计算时时间复杂度仍太高。2)没有考虑每个独立文本项各自存在的有效时间;3)每个项目缺少一个合理的可以浮动的支持度数。所以本文根据时态事件模型及Apriori原则,本文在快速更新算法思想上产生新的算法:SPFM(Segment-Progressive-Filter-Miner)

该算法主要包括三步:1.数据库不断更新;2.对数据库按不同时间段进行划分;3.对每个时间段的事务集挖掘频繁项集。拆分后的数据库,每个阶段部分有不同的支持度阈值,我们按不同的支持度阈值进行计算来产生候选项集。

SPFM算法主要有三个特点:1)算法预处理时将文本数据转换成垂直数据格式,可大大提高程序效率;2)在挖掘时态数据库的频繁项集时,通过更新不同时间粒度的支持度数来确定频繁项集,并判断频繁项集在时间粒度上的连续性;3)如2)所述,时态数据库是和时间粒度有关的,那么从时态数据库挖掘出的关联规则也应该是和时间粒度有关的,即存在“有效时间”,本算法引入一种判断机制,使得发现的有效时间是由频繁项集本身决定的,最终我们获得的是一组浮动的“有效时间”。

3.实验测试

为了测试SPFM的算法性能,用Visual C++进行编程。对象为医学病毒论文数据库中1970~2010年间约50万条的记录,每条记录的属性包括fileno(论文标号)、TI(标题)、AB(摘要)、DP(发表时间)等。以“年”作为时间粒度,将数据库划分为40个阶段部分。minsup为0.5‰,minconf为35%,然后进行频繁项集的挖掘,并确定每个频繁项集的有效时间,依次循环直至2010年为止。

比如rous(含铁血黄素)和sarcoma(1979年、1981年、1983年),都是强关联规则,且COS判断值为0.8165>0.5,说明该规则有意义,这两者在1979~1983年是一个共同研究热点,它们之间有可能存在一些密切的联系,在医学上也可以深入研究。

通过对医学文本数据库的挖掘,我们挖掘出上百条时态文本关联规则,从这些规则当中我们能得到近40年学者们对病毒研究的规律以及病毒的发展规律,这些规律会是对以往病毒研究的较好总结,也会有助于更有效地治疗已产生的病毒。

在文本数据挖掘技术已经日渐成熟的背景下,把时态数据与文本挖掘联合起来,可将时态文本数据挖掘应用于医学、经营、管理等各个方面,通过对海量的时态文本数据进行关联分析,为管理者做决策提供参考数据;还能为新的经营模式提供目标和思路,减少盲目性,以获得更大利益。

4.结束语

本文提出了对医学病毒论文数据库中的时态文本如何进行预处理,需先将时间和文本分为不同的列,将文本表示为向量空间模型。然后确实频繁项集的有效时间,将文本数据转换成垂直数据格式,再通过新的算法挖掘频繁项集,最后对时态文进行强关联规则的挖掘。该实验是对时态文本进行预处理后再进行关联规则挖掘的,最后验证了该算法的有效性。

参考文献:

[1] 潘定.持续时态数据挖掘及其实现机制[M].北京:经济科学出版社,2008:36

作者简介:

张春燕(1987- ),女,硕士生,主要研究方向为数据挖掘;

篇3

关键词 大数据;CiteSpace;教育

中图分类号:G642 文献标识码:B

文章编号:1671-489X(2016)18-0069-03

Abstract The advent of the era of big data has brought new vitality

and challenges for educational research. This paper uses bibliometric visualization software Cite Space to analyze thesis with key words data and education from CNKI based on Co-occurrence analysis of keywords, explore the hot issues in the field of educational research, summarize the research status and trends.

Key words big data; CiteSpace; education

1 引言

近年来,教育领域研究者开始关注大数据背景下的教育管理模式转变、教育决策研究等内容,大量基于大数据背景的教育领域研究论文逐年增加。以“大数据”“教育”为主题关键词在CNKI中国知网进行搜索,仅选择SCI、EI、中文核心、CSSCI四类来源期刊截止到2015年12月出版的文献,共检索到417条数据,从2010年开始呈现出逐年上升的趋势。对这些文章进行浏览和筛选,选择与本研究主题相关的论文,共247篇。对这247篇文章的关键词信息进行研究,分析大数据的出现对教育领域研究热点及发展趋势的影响。

2 教育领域热点问题研究知识图谱

CiteSpace软件是一款引文可视化分析软件,着眼于分析科学知识中蕴含的潜在信息,通过可视化的手段呈现科学知识的结构、规律和分布情况[1],能对文献进行作者分析、关键词共现分析、机构分析、作者共被引分析、文献共被引分析等。关键词共现分析是一种内容分析技术,通过分析在同一个文本主题中的款目对(单词或名词短语对)共同出现的形式,确认文本所代表的学科领域中相关主题的关系,进而探索分析学科领域的发展,发现学科的研究热点和研究趋势[2]。

使用CiteSpace软件对下载的文献进行关键词共现分析,生成图1所示关键词共现知识图谱,分析大数据的出现对教育领域研究热点和趋势的影响。关键词出现的频次由圆圈代表的节点反映,圆圈越大,表明关键词出现次数越多,最大圆圈代表的关键词是“大数据”。

根据图1得到表1所示文献关键词、被引频次、中心性等指标数据。中心性代表共现程度的高低,中心性越强,表明该关键词与其他关键词共同出现的几率就越大,也就表示该关键词在共现网络中的影响力越大。从知识理论角度分析,频次和中心性高的关键词一般是某一段时期内研究者共同关注的问题,也就是研究的热点和前沿。表1中,“大数据”是频次最高也是中心性最高的关键词;“学习分析”频次为23,中心性为0.22;“数据挖掘”频次为13,中心性为0.15,等等这些都是热门的研究主题。

3 大数据背景下教育领域的热点研究

依据图1和表1所示结果,将大数据背景下教育领域的热点研究总结为以下几个方面。

学习分析和数据挖掘 教育数据挖掘是数据挖掘在教育领域的新型应用,主要目标为知识发现、决策支持和推荐等。学习分析是测量、搜集、分析和报告学生及其相关的学习环境的数据,用以理解和优化学习过程和学习环境[3]。

教育数据挖掘专注于技术层面,侧重教育数据模型和模式的抽取,强调挖掘结果的自动化反馈;学习分析更注重研究有利于改善学习的干预措施。

2012年,美国教育部了报告《通过教育数据挖掘和学习分析促进教与学》[4],提出“数据驱动学校,分析变革教育”的大数据时代已经来临,要综合运用教育数据挖掘和学习分析,构建教育模型,探索教育变量,为教育教学提供有效支持。

在CNKI中以“学习分析”和“教育数据挖掘”为关键词进行检索,得到图2所示的文献数量趋势图。如图2所示,2010年以前的文献数量很少,但2010年之后开始呈指数式增长;2016年1―2月份刊登的相关主题期刊论文已有5篇,可以预计本年度,学习分析和数据挖掘仍将是大数据背景下教育领域的研究重点和热点之一。

在线教育――兴起与变革 以“在线教育”和“大数据”为关键词进行搜索,得到图3所示文献数量趋势图。目前在线学习的发展趋势主要有如下表现。

1)移动学习是大方向:随着无线网络的覆盖,移动终端特别是手机用户的增多,移动学习逐渐发展起来。

2)免费是大趋势:目前在线学习存在各式各样的免费现象,如免费试用、前期付费后期免费等形式。

3)细化管理是要求:任何一种在线学习方式,都离不开资源开发、管理和优化等工作,需要设定管理要求,细化规则。

4)实现互动是必然:交互功能是在线学习软件必然要设计的功能,大多数在线学习使用者表示学习过程中希望能有更多的互动交流。

5)个性化学习是亮点:学习分析和教育数据挖掘的出现,使得在线学习存储的大量数据能够被更快速分析和使用,学习者可以随时掌握学习状况,开发商也可以掌握学习者的兴趣点、学习特征等,为学习者推荐或制订个性化的学习方案。

教育信息化 我国的教育信息化主要包含两层含义:一是把提高信息素养纳入教育目标,培养适应信息社会的人才;二是把信息技术手段有效应用于教育,注重教育信息资源的开发与利用。教育信息化的核心是教学信息化,要求在教育过程中较全面地运用现代信息技术,促进教育改革,适应信息化社会提出的新要求,深化教育改革,实施素质教育。随着大数据时代的来临,教育信息化也在不断进步,未来的教育信息化将在教育云平台上进行展现,现有的教育网、校园网将全面升级,实现互联网、电信网、广电网等跨平台使用并支持移动设备。

在CNKI中以“教育信息化”和“大数据”为关键词进行检索,2013年共有3篇学术论文,2015年共有10篇,研究主题包括大数据时代的信息化教学、教师培训、课程资源建设、教育舆情监控等。

教育决策 以“教育决策”为关键词搜索到上千篇学术论文,以“教育决策”和“大数据”为关键词,2013年以来共有8篇论文。大数据将在教育决策中发挥越来越重要的作用已成为共识,但如何利用大数据进行决策是目前面临的难题,如何解决这个难题也是研究者重点关注的领域。教育决策离不开数据,大数据背景下的数据更加复杂、凌乱,呈现碎片化的特征,并且掺杂一些虚假数据,如何收集、选择数据,是第一步需要做的事情。大数据对于教育决策的价值在于为教育服务,将数据转化为支持决策的信息,需要数据分析者具备综合、全面的数据分析素质和能力。大数据的核心是预测,随着教育信息化和在线学习的持续发展,数据呈爆炸式增长,需要对数据进行整合、分析,发现新知识,为教育优化服务。

4 数据推动决策

传统决策过程主要依靠决策者的经验,主观性较强,或多或少存在一些不足,难以充分发现教育过程中的潜在问题,无法真正有效地优化教学、提高学生表现。信息化推动了人类发展,逐渐成为人类生活必不可少的重要部分;信息化技术普及的同时,也产生前所未有的海量数据。大数据时代的来临,颠覆了传统数据分析方法;大数据背景

下,利用数据挖掘方法发现问题、支持决策具有多方面的意义。

1)优化教学、提高教育质量。教师若能充分利用学生学习数据,分析学生学习过程,可以更加快速、便捷、有效地了解学生,发现不足之处并及时反馈,提供改进意见等[5]。

2)为学校管理者制订更加合理的教学计划和方案提供决策支持。基于数据的教育决策能够为管理者提供更加准确、合理的决策支持。基于数据的教育决策能够提供从数据到决策,实施决策后产生的数据再到决策的一种良性循环过程[6]。

3)帮助地区甚至是国家级决策者进行科学判断。数据推动决策具有相当明显的优势,能为决策者提供全方位的视角。大数据分析得到的结果具有全面性、多视角性、参考性强等特点,能够更好地为决策者提供决策支持。

5 结语

上文所分析出的教育领域热点研究问题,都紧紧围绕“数据推动决策”这一主题,学习分析和教育挖掘是分析方法和技术;在线教育是数据来源;教育信息化是信息化大数据环境;教育决策则是根据数据制定决策并运用于教育教学。可见,利用数据推动决策已成为教育领域在大数据背景下最为重要的研究问题之一。

参考文献

[1]陈悦,陈超美,胡志刚.引文空间分析原理与应用:Cite Space实用指南[M].北京:科学出版社,2014.

[2]潘黎,王素.近十年来教育研究的热点领域和前沿主题:基于八种教育学期刊2000-2009年刊载文献关键词共现知识图谱的计量分析[J].教育研究,2011(2):47-53.

[3]Siemens G. Learning and Knowledge Analytics-Knewton-the future of education?[EB/OL].[2011-04-17].http:///?p=126.

[4]Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics[DB/OL].[2012-10-12].http://ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.

篇4

关键词:推荐系统;云计算;数据挖掘;个性化

中图分类号:TP393 文献标识码:A DOI:10,3969/J.issn.1003-6970.2013.03.001

本文著录格式:[1]郭平,刘波,沈岳,农业云大数据自组织推送关键技术综述[J].软件,2013,34(3):1-6

0 引言

随着物联网、云计算、下一代互联网等新一代信息技术的快速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,推荐系统(recommender systems)被认为可以有效的缓解此难题,帮助用户从海量数据中发现感兴趣信息,满足个性化需求。

近年来,我国在农业个性化知识服务服务领域从本体论、语义网、知识工程角度开展了广泛的研究,成果主要体现在三个方面:以搜索引擎为代表的知识检索系统,需回答大量预设问题进行知识推理的专家系统,特定领域应用系统,它们在各自的场合都发挥了积极作用。然而知识检索系统不能满足用户个性化需求,专家系统的应用很难普及,特定领域应用开发成本高和重用难度大。物联网与数据挖掘云服务提供知识服务云实现物理世界的“感知控”,知识服务云的研究主要集中在制造和图书情报领域,云环境下的农业个性化知识服务的研究尚处于起步阶段,主要集中在服务模式的构建与展望。

本文是对科技部科技支撑课题“农村农业信息化关键技术集成与示范”(2011BAD21803)与“农村物联网综合信息服务科技工程”(2012BAD35800)研究成果的总结,也是对农业云推荐系统研究的升华。

1 农业云大数据自组织区域推送的提出

1.1 农业信息资源特点

我国自“十一五”时期以来,农业农村信息化发展取得了显著成效,主要表现在农业农村信息化基础设施不断完善、业务应用深入发展、物联网技术在农业中逐步推广应用等方面。从中央到省,市、县建立了“三农”综合信息服务平台,涉农企业、组织和科研院所也积极搭建了各具特色的农业信息服务平台,目前正向乡镇村发展。农村信息员队伍及以农业综合信息服务站和农业合作社为代表的农村信息服务机构发展迅速,“三电合一”、“农民信箱”、“农村热线”等信息服务模式应用深入。云计算利用海量的存储能力把农业信息资源形成高度集成和虚拟化的计算资源一“农业知识聚合云”,支持用户在任意位置、使用各种终端方便获取信息,但由于农业领域生态区域性和过程复杂性及农业区域发展不平衡和农民文化的多层次性也带来了“信息过载”、“资源隐晦”“资源迷向”等问题。

1.2 农业云环境下大数据自组织区域推送

物联网和云计算背后是大数据,在云计算模式下,用户不确定的、智能的交互,个性化需求更加多元化,信息交互行为更加频繁;在大量用户通过社会标注达成共识的过程中,逐渐形成不同社区,涌现出群体智能,形成“农业用户兴趣社交云”。利用云的海量存储、群体涌现智能、强大的计算能力和物联网感知控优势,可以提供面向用户复杂分析计算,实现业务重点由面向应用和资源的传统信息服务,转变为基于对海量农业知识进行动态划分,有目的、主动、定制、自组织推送给有需求的农业用户,为农业用户提供实时性、个性化知识服务,指导农业生产过程。

首先以Hadoop+MapReduce+HBaSe分布式框架为处理平台,对“农业用户兴趣社交云”,融合用户兴趣偏好和社交网络进行建模,将这些多元用户信息充分融入推送系统会更好产生推荐结果;将推荐对象“农业知识聚合云”按农业知识高维性、多样性、多层次性特征分类聚类为各种知识块静态和动态元数据;通过智能算法推荐和社会网络推荐为用户发现个性化内容;根据用户的地理位置、用户服务的评价以及云基础服务提供商信息将预测值最高的服务推送给用户实现与物理世界的互动(如图1)。

从以上分析可知,农业云大数据自组织区域推送的关键技术有用户兴趣模型、推荐对象模型,推荐算法、数据挖掘四个部分,以下分别对这几项技术进行论述。

1.2.1 用户兴趣模型

用户兴趣建模是个性化服务技术的基础和核心,包括数据收集、模型表示、模型学习与模型更新。用户兴趣建模的方法有很多,常用的有向量空间模型、神经网络、遗传算法、用户一项目评价矩阵、基于案例的表示、基于本体论的表示、基于加权关键词的表示,基于社会网络的表示等。几乎每种表示形式都是以一种私有形式进行知识表示,此外一些表示技术还依赖于模型学习,如广泛使用的基于向量空间模型的表示与TF-IDF学习技术联系在一起。表示形式的私有性和对学习技术的依赖性阻碍了用户模型在系统间的共享,这种共享对于减少用户建模工作量,提高推荐算法启动效率具有重要意义。因此开发独立于模型学习技术的通用用户模型表示技术是目前研究中热点,基于语义网和社交网络的用户模型在这方面表现了优势。

用户的兴趣或需求会随时间、情景发生变化,结合长期和短期兴趣及兴趣的变化用户兴趣建模的重点,目前的更新机制很难及时跟踪用户兴趣的变化,有更好的学习效率和动态变化适应能力的建模是未来的重要研究方向,国内外大量的文献对此展开了研究,遗忘函数、时间窗、用户兴趣的漂移特性等被提出。

在湖南农业云中,基于呼叫中心、互联网,手机报、手机短信,电视广播等用户在多应用系统中形成的兴趣偏好和社交网络特征,提出“农业用户兴趣社交云”建模思路:以图论模型表示用户“兴趣图”数据和“社交图”数据,根据经典的局域世界演化理论,综合考虑实际情况中用户之间的多重关系和关系的强弱程度,以用户之间相似度为节点连接概率因素,生成动态多维网络,进行用户数据的挖掘和更新;结合农业本体,在多维社交网络的基础上,将基于农业本体的区域用户兴趣融合在云计算平台上进行处理。

1.2.2 推荐对象模型

推荐本质上是将推荐对象的特征与用户的兴趣偏好进行推荐计算,所以推荐对象的描述和用户的描述密切相关。推荐系统应用不同领域,它推荐的对象也就各不相同,目前,湖南农业云主要是文本性数据;不同的对象,特征也不相同,目前没有一个统一的标准来进行统一描述,主要有基于内容、分类、聚类的方法。

基于内容的方法是从对象本身抽取信息表示对象,常见的是向量空间模型,使用最广泛的是加权关键词矢量方法进行特征选取,使用TFIDF计算每个特征的权值。向量空间模型对模型中的特征词进行权重估计(TF-IDF)过程中不考虑特征词之间的相关性,直接用特征词作为维度构建文档向量,降低了文档向量对文档概念表达的准确性以及对不同类型文档的区分能力。

基于分类的方法是把推荐对象放入不同类别,把同类文档推荐给对该类文档感兴趣的用户。主要有两种,一种是基于知识工程的方法,使专家的类别知识直接编码为分类规则,正确率和召回率高,但工作量大;近期研究最多的是另一种一机器学习,根据训练样本集建立分类器,方法有很多,常见的有概率分类、贝叶斯回归分析、决策树分类器、决策规则分类器、Rocchio分类器、神经网络分类器、支持向量机(SVM)、分类器融合、Boosting分类器、k最近邻方法(KNN)等。

研究文本聚类的最初目的是为了提高信息检索的查全率和查准率,近年来,文本聚类用于自动产生文本的多层次的类,并利用这些新生成的类对新文本进行效率较好的归类,已经提出了大量的文本聚类算法。传统的聚类算法在处理高维和海量文本时效率不很理想。针对这样的问题,将聚类分析与计算智能理论,并行计算、云计算等相结合,设计出高效的并行聚类算法,己经成为一个比较流行的研究思路。

在湖南农业知识云数据模型中,将能更好反映特征词相关性的超图模型引入,将文档中提取的特征项表示为图中节点,特征词条之间的关系构成图中边,用边上权值表示相关联特征项之间共现程度。通过对文本图模型K最近邻划分实现降维降噪的粗粒度数据切片;对切片后数据反映用户兴趣如地域、时间、诉求等多维度特征的智能聚类,实现细粒度的聚合与分割。

“农业知识聚合云”模型算法建立在基于MapReduce处理的大规模图上,得到各种知识块静态和动态元数据。

1.2.3 推荐算法

推荐算法是整个推荐系统中核心部分,大量的论文和著作都关注了这个方面。目前,基本包括以下几种:基于内容过滤推荐、协同过滤推荐、基于关联推荐、基于知识推荐、基于效用推荐、基于网络结构推荐、基于聚类推荐、基于社会网络分析推荐、混合型推荐等。通过对众多推荐算法进行比较分析,各种算法都有优缺点(如表1):

各种推荐方法都有各自的优缺点,在实际问题中采用多种策略进行混合推荐,主要有两种混合思路:推荐结果混合和推荐算法混合。目前大部分的推荐算法都是混合推荐算法,主要还是以协同理论为核心,再配合其他算法的优点或交叉学科的理论来改善推荐的质量。另外基于社会网络个性化推荐算法研究是一个趋势,基于社会网络的推荐是协同过滤的延伸,通过考察结点之间(用户和用户之间或产品之间)的相关性和结点之间的信任度可以获得比一般协同推荐更高推荐效果,如文献提出将社会网络关系结合到推荐算法中。纵观国内外在推荐算法上的研究,主要集中在基于用户显性评分数据的协同过滤算法上,对基于非显性评分行为数据场景下的研究却显得有点不足。目前在扩展性问题上学术研究不是很具有针对性,主要集中在通过各种交叉学科中的方法来对用户进行聚类或对行为数据进行降维、压缩等缩短推荐的项目集或减少计算量,从而提升算法的性能;有关基于云平台上的推荐算法研究目前主要集中于协同过滤算法MapReduce化。而实际应用中,己出现利用分布式集群解决算法扩展性方法,如Google News的推荐算法就是部署在分布式环境下,从而满足海量数据下的推荐服务。

根据农业云大数据自组织区域推送实际情况将推荐结果和推荐算法混合,提出“三层推荐”策略:在丰富的知识块云元数据基础上,将知识块属性和用户兴趣行为基于频繁模式的知识关联撮合推荐;通过复杂网络聚类算法识别一个用户多个社区兴趣,融合“兴趣图”和“社交图”协同过滤推荐,突破算法推荐的局限性,让用户信任的朋友圈子为其发现和推荐内容,取得社交推荐的时效性和算法推荐的长尾性之间的互补,从而针对每个社区成员提供精准个性化推荐;根据基础设施服务供应商、用户所在的地理位置以及用户对服务可用性评价值的相似性等,将大量用户云终端聚类为一定数量的社区,提高云端推送服务的有效性,最终形成通过大众参与,支持云间变换,集电信网、广播电视网、互联网合一的自组织区域推送,较有效地处理一般推荐算法中存在的稀疏性、冷启动以及大规模实时计算的问题。

1.2.4 云计算下个性化数据挖掘

数据挖掘采用了多种领域中的思想,包括来自统计学的抽样、估计、假设检验以及人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。随着数据挖掘的不断发展,也采用了包括最优化、进化计算、信息论、信号处理、可视化、信息检索、云计算、并行计算等技术。与传统的数据挖掘相比,云计算下的个性化数据挖掘的目标,就是通过云计算中心,向用户提供针对其即时演化需求的数据挖掘SaaS(Software as aService,软件即服务)服务,其基础问题主要为:对于用户不同的数据挖掘需求以及针对用户特点进行个性推荐的建模和表征;数据挖掘算法适应云计算的并行分布式化;使数据挖掘的结果和算法能够支持云间变换并形成一种面向用户、即时组合的、变粒度的云服务,其中数据挖掘的云服务化是研究的难点。

(1)云计算下个性推荐的建模和表征

云下的个性推荐建模和表征与传统上个性化推荐明显的不同在于海量异构大数据和用户间群体涌现的社交网络,它们本质上形成了多个顶点的大规模图。云计算可以为大规模个性化提供技术支撑,云服务本身也有大规模个性化定制应用需求,目前研究两者结合的文献还很少,张泽华从计算资源的角度基于复杂系统理论对云计算联盟体系结构进行建模,并基于蚁群优化算法和复杂系统理论进行了负载均衡研究;郭昱就有效处理客户需求信息该如何选择与分布云计算平台中的关键节点问题,提出了基于云计算的大规模定制客户需求模型。赵东杰对复杂网络、数据挖掘与群体智能有效结合进行了探索研究。农业云大数据自组织推送通过“农业知识聚合云”分解的静态、动态知识元数据和“农业用户兴趣社交云”形成的兴趣图、社交图基于用户行为和知识元数据的关联撮合,通过人工智能和社交圈子帮助用户发现内容,实现搜索和推荐的无缝结合,为智能个性化推荐实现“内容找人”愿景。

(2)算法并行分布式与高性能计算

对于大规模数据的处理,典型系统结构大致分为三类:基于MapReduce模型的分布式并行处理系统、基于BSP模型的分布式并行处理系统和分布式图数据库系统。数据挖掘算法现在的发展趋势是基于云计算的并行数据挖掘,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFS或者HBASE,编程模式采用MapReduce这种方式。Bhaduri等整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作。

2 基于云计算推荐系统研究的重点、难点与热点

2.1 云环境下用户偏好获取安全与可信问题

推荐系统中,用户数据集的数量和质量问题,影响用户模型的精确度、可用性,导致问题的根本原因在于用户对隐私和安全的考虑。而云环境下,数据的安全与隐私是用户非常关心的问题。既能得到准确用户信息而提高推荐系统性能,又能有效保护用户信息同时检测并能预防推荐攻击(一些不法的用户为了提高或降低某些对象的推荐概率,恶意捏造用户评分数据而达到目的)将是未来推荐系统的一个重要研究方向。

2.2 模型过拟合问题

过拟合现象是指系统推荐给用户的对象与用户刚刚看过的不是太相似或者太不相关。过拟合(过学习)的问题本质上来自于数据的不完备性,这在实际应用中是无法完全避免的。在于兴趣偏好获取方式或隐私等原因使用户没有对足够多类别的对象进行评价。目前解决的主要方法是引入随机性,使推荐算法收敛到全局最优或者逼近全局最优,关于既要保证推荐的多样性,又不能与用户看过的对象重复或毫不相关这一问题的研究是推荐系统研究的一个难点和重点。

2.3 稀疏性与冷启动问题

稀疏性和冷启动问题困扰推荐系统很长时间了,前者的解决办法主要过滤和降维。目前针对冷启动问题提出了一些解决方法,主要分为两大方面,一是直接利用传统协同过滤的评分数据结合特定的方法进行解决,二是新用户或新项目的内容属性信息与传统的协同过滤评分数据相结合的方法进行改善冷启动问题。稀疏性与冷启动问题一直是推荐系统研究的一个难点和重点。

2.4 数据挖掘的结果和算法智能服务化

将数据挖掘算法融入针对海量用户的使用记录和计算资源间协作进行优化组合,利用这些特性通过大众参与的交互作用,提高云间服务的智能性、有效性将是大数据时代推荐系统研究的一个制高点。将数据挖掘任务及其实现算法服务化,通过SaaS方式向云计算中心索取所需的相应的数据挖掘,这可能是目前突破数据挖掘专用软件使用门槛过高、普通大众难以触及、企业用户使用成本太大、挖掘算法和结果难以实时得到评价和相应修改等问题的最有希望的解决方案之一,也是数据挖掘走向互联网大众、走向实用化的重要的一步。

2.5 大数据处理与增量计算问题

目前对大数据的研究仍处于一个非常初步的阶段,半结构化和非结构化数据给传统的数据分析带来巨大挑战,尤其算法如何快速高效地处理推荐系统海量和稀疏的数据成为迫在眉睫的问题。当产生新的数据时,算法的结果不需要在整个数据集上重新进行计算,而只需考虑增量部分,对原有的结果进行微调,快速得到准确的新结果,是增量计算的理想状态。但一般而言,随着信息量的增多,算法的误差会累积变大,最终每过一段时间还是需要利用全局数据重新进行计算。一个特别困难的挑战是如何设计一种能够保证其误差不会累积的算法,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升,要达到这种程度,还有很长的路要走。

结束语:

随着新一代信息技术的快速发展和信息内容的日益增长,搭载在云计算平台的自组织区域推送具有它天然的优势:云的海量存储使得推荐系统能有效获取训练数据;云的分布式计算能力提供了较高的响应能力;海量用户的使用记录和计算资源问大众参与的交互涌现,最终形成自组织优化组合的智能个性化云推送。因此,农业云自组织区域推送具有重要的研究意义和广阔的应用前景,对云环境下其他领域的个性化推送应用具有借鉴意义,但目前存在大量问题需要进行深入细致的研究。

参考文献

[1]孟祥武,胡勋,王立才,张玉洁,移动推荐系统及其应用[J],软件学报,2013,24(1):91-108

[2]杨涛,基于本体的农业领域知识服务若干关键技术研究[D],上海:复旦大学计算机科学技术学院博士论文,2011,1-50

[3]杨晓蓉,分布式农业科技信息共享关键技术研究与应用[D],北京:中国农业科学院博士学位论文,2011,3-35

[4]赵春江,农业智能系统[M],北京:科学出版社,2009,1-210,

[5]何清,物联网与数据挖掘云服务[J],智能系统学报,2012,7(3):1-5,

[6]黄卫东,于瑞强,共享学习模式下知识服务云平台的构建研究[J],电信科学,2011,12:6-11

[7]丁静,杨善林,罗贺,丁帅,云计算环境下的数据挖掘服务模式[J],计算机科学,2012,39(6):217-219,237

[8]邓仲华,钱剑红,陆颖隽,国内图书情报领域云计算研究分析[J],信息资源管理学报,2012,2:10-16

[9]胡安瑞,张霖,陶飞,罗永亮,基于知识的云制造资源服务管理[J]同济大学学报(自然科学版),2012,40(7):1093-1101

[10]程功勋,刘丽兰,林智奇,俞涛,面向用户偏好的智能云服务平台研究[J],中国机械工程,2012,23(11):1318-1323,1336

[11]刘波,方逵,沈岳,可重构的农业知识服务模式研究[J]农机化研究,2011,36(11):66-70

[12]赵星,廖桂平,史晓慧,陈诚,李文圃,物联网与云计算环境下的农业信息服务模式构建[J],农机化研究,2012,4:142-147

[13]郭永田,中国农业农村信息化发展成效与展望[J],电子政务,2012,02-03:99-106

[14]李道亮,中国农业农村信息化发展报告(2011)[M],北京:电子工业出版,2012,87-150

[15]钱平,郑业鲁,农业木体论研究与应用[M],北京:中国农业科学技术出版社,2006,1-100

[16]吴丽花,刘鲁,个性化推荐系统用户建模技术综述[J],情报学报,2006,25(2):55-62

[17]李珊,个性化服务中用户兴趣建模与更新研究[J],情报学报,2010,29(1):67-71

[18]王国霞,刘贺平,个性化推荐系统综述[J],计算机工程与应用,2012,48(7):66-76

[19]王巧容,赵海燕,曹健,个性化服务中的用户建模技术[J],小型微型计算机系统,2011,32(1):39-46

软件杂志欢迎推荐投稿:http:///

[20]张华清,动态多维社会网络中个性化推荐方法研究[D],济南:山东师范大学硕士学位论文,2012,16-31

[21]丹,面向跨系统个性化服务的用户建模方法研究[J]_情报杂志,2012,31(6):156-161

[22]邓夏玮,基于社交网络的用户行为研究[D],北京:北京交通大学硕士学位论文,2012,4-43

[23]马尧,基于多维用户特征建模的个性化社交搜索引擎的设计与实现[D],广州:华南理工大学硕士学位论文,2012,12-55

[24]陈恩红,徐童,田继雷,杨禹,移动情景感知的个性化推荐技术[J],中国计算机学会通讯,2013,9(3):19-24

[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487

[26]南智敏,钱松荣,引入漂移特性的用户兴趣模型优化研究[J],微型电脑应用,2012,28(3):30-32

[27]郭新明,弋改珍,混合模型的用户兴趣漂移算法[J],智能系统学报,2010,5(2):181-184

[28]程显毅,朱倩,文本挖掘原理[M],北京:科学出版社,2010,9-45 [29]李涛,推荐系统中若干关键问题研究[D],南京:南京航空航天大学博士学位论文,2009,31-80

[30]姜伦,模糊聚类算法及其在中文文本聚类中的研究与实现[D],哈尔滨:哈尔滨理工大学硕士学位论文,2010,18-48

[31]冯汝伟,谢强,丁秋林,基于文本聚类与分布式Lucene的知识检索[J],计算机应用,2013,33(1):186-188

[32]陶红,周永梅,高尚,一种基于语义相似度的群智能文本聚类的新方法[J]计算机应用研究,2012,29(2):482-532

[33]孟海东,刘小荣,基于聚类分析的图模型文档分类[J]计算机应用与软件,2012,29(1):117-174,229

[34]饶君,张仁波,东呈晓,吴斌,基于MapReduce的大规模图挖掘并行计算模型[J],应用科技,2012,39(3):56-60

[35]于戈,谷峪,鲍玉斌,王志刚,云计算环境下的大规模图数据处理技术[J],计算机学报,2011,34(10):1753-1767

[36]吕善国,吴效葵,曹义亲,基于网络结构的推荐算法[J]_实验室研究与探索,2012,31(7):278-280,368

[37]周佳,罗铁坚,一种基于内容关联的学术资源协同推荐算法[J],中国科学院研究生院学报,2013,30(1):117-123

[38]唐晓波,张昭,基于混合图的在线社交网络个性化推荐系统研究[J]情报理论与实践,2013,36(2):91-95

[39]王立才,孟祥武,张玉洁,上下文感知推荐系统[J],软件学报,2012,23(1):1-20

[40]刘建国,周涛,汪秉宏,个性化推荐系统的研究进展[J],自然科学通报,2009,19(1):1-15

[41]许海玲,吴潇,李晓东,阎保平,互联网推荐系统比较研究[J]软件学报,2009,20(2):350-362

[42]孙冬婷,何涛,张福海,推荐系统中的冷启动问题研究综述[J],计算机与现代化,2012,5:59-63

[43]张亮,基于聚类技术的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,7-18

[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.

[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.

[46]周源,基于云计算的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,26-64

[47]吕雪骥,基于云计算平台的智能推荐系统研究[D],合肥:安徽大学硕士学位论文,2012,25-43

[48]刘晨,改进的聚类挖掘算法对网络自助出版“长尾”文本的推荐应用[D],上海:复旦大学硕士学位论文,2011,10-19

[49]陈桂生,张海粟,刘玉超,云计算下的个性化数据挖掘服务[EB/OL],[2011-2-28]中国人工智能学会通讯,http://www,/contents/50/119,html

[50]张泽华,云计算联盟建模及实现的关键技术研究[D],昆明:云南大学博士学位论文,2012,26-114

[51]郭昱,吴清烈,基于云计算的大规模定制客户需求响应模型及其节点的选择与分布[J],系统工程理论与实践,2011,31(增刊2):1-6

[52]赵东杰,张海粟,韩言妮,杨海涛,何宇,基于网络化数据挖掘的群体智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.

[53]AnandRajaraman,Jeffrey David Ullman著,王斌译,互联网大规模数据挖掘与分布式处理[M],北京:人民邮电出版社,2012,1-253

[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/

[55]杨健,汪海航,王剑,俞定国,云计算安全问题研究综述[J],小型微型计算机系统,2012,33(3):472-479

篇5

关键词:LIMS,数据仓库,数据挖掘

 

1 引言

食用菌实验室管理系统LIMS以食用菌研发数据管理为核心,系统利用数据仓库技术将菌种、营养环境参数、试验方案、研发人员、海量实验数据等信息进行抽取清洗和存储,采用数据挖掘技术对以上各类数据进行分析。目的在于整合应用HACCP控制体系,对产品研发过程进行智能化监控。通过对工厂化研发食用菌产品的各项关键技术、风险评估、比较执行度等参数进行管理和监控,实现食用菌产品研发管理流程过程管理目标。

美国试验与材料学会(ASTM)在概念模型中将LIMS的功能分成了3个级别。三个不同等级在全局功能、数据库结构、数据采集和分析、实验报告、实验室管理以及系统管理方面都有明确规定的描述。

国内真正构建和全面应用LIMS的实验室还不多,且大部分偏重于管理,其功能与LIMS国际标准存在较大差别,系统通用性与专业性无法平衡,不能满足食用菌实验室研发数据管理的需要。国内部分单位开发的食用菌方面的软件可以帮助实验室处理一般数据和转换格式,但缺少对食用菌实验室的实验流程、实验资源、研发数据、实验结果等全方位信息进行管理分析的网络化LIMS。

2 相关技术介绍

目前关于农作物研发实验数据分析领域主要分成两类:具有人工智能特点的推理机系统和一般的信息系统。前者通常需要预先建立知识库,然后在此基础上创建知识原型系统。这样的专家系统存在很多不足,一方面它们仅能罗列一些简单知识,而且随着专家知识的不断积累,增加或者修改库中的知识都会引起知识大爆炸和推理时的逻辑混乱,使得产生错误的结论而失去了专家系统的意义。一般的信息系统系统则只能提供咨询服务和信息查询,没有数据分析和建模的功能。将数据仓库和数据挖掘技术应用到食用菌LIMS中,实现实验参数的电子化管理和监控,帮助发现食用菌实验数据内部的规律性联系,解决实验过程管理和决策优化辅助问题。

数据仓库中的数据面向主题,与传统数据库面向应用相对应[1]。数据仓库的典型技术包括:数据的抽取转换和装载,数据的存储和管理,数据挖掘和呈现等等。

2.1 数据的抽取转换和装载

用于数据挖掘的原始数据源可能是多个数据库或数据仓库,而这些数据源的结构和规则可能是不同的,这将导致原始数据非常杂乱和不可用,即使在同一个数据库中,也很可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理[2]。ETL过程就是对原始数据进行抽取转换清洗等预处理,按照预定义好的数据仓库模型,将数据装载至数据仓库中。

2.2 数据的存储和管理

数据仓库在数据存储和管理上有三个明显的技术特征:首先,系统要求对大量数据进行存储和管理。其从,要求能够解决并发处理的问题,也就是说能够将用户的请求进行均衡分担。第三个问题是针对决策支持查询的优化。第四个问题是支持多维分析的查询模式。数据仓库专家们发现,关系数据库若采用“星型模式”来组织数据就能很好地解决多维分析的问题[3]。因此面向决策支持扩充的并行关系数据库在这四个个方面都有不错的表现,是非常成熟的管理系统,大多数厂商提供的数据仓库解决方案也都采用此类系统[3]。

2.3 数据呈现和挖掘

数据呈现技术主要集中在多维分析、数理统计和数据挖掘方面。食用菌分析应用中一个很重要的任务就是找出食用菌培育各困素之问可能存在的相关性,利用分类决策树、关联规则、时间序列算法来创建分析模型[4]。通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。

3系统设计

3.1 功能设计及模块详述

系统包括如下业务功能模块:试验方案管理、研发过程管理、食用菌CCP管理、风险管理、发菌管理、出菇管理、基本信息管理模块。如图1所示。

图1 功能结构图

现针对上述结构图,分别对功能模块作详细描述。

(1)试验方案管理

该模块用于工厂化研发食用菌产品试验方案的管理。每个试验方案创建时,系统会自动分配方案的唯一标志号,为以后查询、修改方案提供方便。试验方案中的详细数据项可为系统其他模块如发菌管理、出菇管理、智能决策、警提供数据来源。

HACCP定义数据包括:

(2)研发过程管理

该模块以食用菌研发周期为基础,对食用菌研发管理的各个流程全程记录,准确的实现产品溯源,提高产品研发过程的质量管理。通过与HACCP系统有效整合应用,用户能够对系统所定义的食用菌的栽培过程中的每个特性值进行采集、分析,实现对企业技术中心各部门、各试验实施环节运行情况的监测。具体包括数据采集、曲线图表、历史查询、报表统计、报警监视、培养料配置、带装灭菌、接种管理、发菌期管理、出菇管理、采收管理等

(3)菌种生产管理

菌种生产管理用于食用菌菌种生产计划和菌种生产的过程管理,辅助实现菌种规范化、标准化生产,有效提高菌种质量。

其中菌种生产计划HACCP数据定义包括:母种、原种、栽培种培养基的选择、配制,包括配方选择和培养基配制记录,其中涉及日期、培养料级别、配方原料种类、数量、总数量(瓶/kg)、制备负责人、验收结果、验收人、对不合格的处理措施)等主要内容。

灭菌消毒操作HACCP数据包括:灭菌方式的选择,如常压灭菌/高压蒸汽灭菌。不同的焙养基选择不同的压力指标、灭菌时间、灭菌形成温度。灭菌消毒记录表:涉及日期/灭菌设备号/物品名/数量/操作人/检验结果/检验人。论文参考。

菌种培养作HACCP数据包括:涉及日期、菌种名、种类、数量、培养室编号、检验依据、检查情况等。

(4)风险管理

本模块在检测各项关键技术因素的基础上,比较执行情况与其原始方案的差异,从而进行合理的技术风险评估,推算出与之相关的研发栽培措施,及时调配研发人员,体现了强大的交互功能。

① 风险评估:将已识别的技术风险因素,通过执行情况与原始方案的差异比较,利用一定评估方法计算出风险的大小,并分析风险因素的敏感性(或称影响度),最终以风险评估报告的形式呈现给用户。

②应对方案:根据风险的大小即可确定技术风险的严重性,根据严重性风险排序,即可制订风险应对方案,决定下一步任务,及时调配技术人员解决问题。有些技术风险与其他风险紧密相关或交叉重叠,需要综合分析和处理;有些技术风险还需进一步跟踪研究,待时机成熟再加以控制。在制订应对方案时,通过风险影响度分析,将影响度高的风险因素作为风险控制的核心。

③ 风险追踪:通过技术风险跟踪,可以监视技术风险状态.当技术风险超过需控制的标准,即通过预警功能,进入制订风险应对方案阶段。

④报警处理:对研发过程中出现的报警记录及时进行处理

⑤ 风险数据库构建:该模块用于管理食用菌研发过程各项环节中各项风险知识,包括创建、存储、修改、删除等功能。其中知识存储的数据结构和知识独立性是实现关键。

(5)基本信息管理

该模块用于人员及产品信息管理,为管理层提供便捷的信息服务,提高管理服务效率。包括:公司信息管理、部门信息管理、人员信息管理、产品信息管理、角色管理、系统模块访问权限控制。

3.2 技术架构设计

食用菌LIMS技术架构设计的基本原则包括兼容性、灵活性、充分考虑与其它业务管理子系统的衔接和扩展,为未来进一步的系统应用整合打好基础。 鉴于上述原则,系统从技术架构上可以划分为四个层次:数据层、控制访问层、业务逻辑层和用户呈现层。论文参考。如图2所示:

图2 技术架构设计

数据层的设计目标是解决数据的保存和管理问题。其中,数据库中数据表的设计是该层需要考虑的核心和关键,如何从现实业务逻辑中抽象出易于系统处理的数据,从而降低各平台间的数据关联性,减少数据关联性,降低模块耦合度。该层的配置包括:DTS配置、数据对象配置和Analysis Service配置。

控制访问层由数据库基础组件和配置文件组成,配置数据库层访问的参数、性能、安全加密等配置,包括数据访问模块、数据分析模块、图表汇出模块。

用户层根据不同的业务类别调用下层的逻辑组件,最后对业务逻辑组件的调用结果进行处理。该层由多个业务模块组成,包括: 分析结果显示模块、图表控制模块。

5 结语:

本项目将食用菌产品研发管理的全部流程纳入到软件层次进行管理。对工厂化研发食用菌产品的各项关键技术、风险评估、比较执行度等参数进行管理和监控。利用构建的软件平台可以直接查询数据,进行食用菌试验方案的追踪溯源。论文参考。本项目使食用菌产品研发与管理技术研究信息化系统得以与HACCP系统有效地进行整合应用,系统采用自行研发的报表统计分析系统,能够对各种数据实时汇总到系统。不仅能为企业管理者提供相关的决策信息,达到实时监控整个企业技术研发的稳定高效开展,达到辅助决策的目的,而且可以动用管理决策相关的数学方法和技术进行决策优化,为各级技术研发管理层提供各种最优解、次优解或满意解、可行解,提高管理决策的科学性;合理利用企业技术中心的各项资源,提高企业的经济效益。

参考文献:

[1] W. H. Inmon. Building the DataWarehouse Third Edition [M]. John Wiley & Sons, Inc. 2002.

[2] 安淑芝. 数据仓库与数据挖掘[M]. 北京:清华大学出版社,2005.

[3] 高小惠. 数据仓库技术在企业人力决策支持中的应用. 科学时代. 2007,12 .

[4] 张荣祖. 数据挖掘技术在食用菌数据分析中的应用. 复旦大学硕士学位论文,2004.

篇6

关键词:任务驱动;探究式;课程改革

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2014)06-1253-03

Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

HUANG Jian

(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

Key words: Task-driven; Inquiry; Curriculum reform

数据挖掘是一门包括了数据库系统、专家系统、机器学习、统计学、模式识别、信息检索、人工智能等学科的综合性的学科,其目标是发现隐藏在大型数据集中的知识模式。此课程一般是在研究生教育阶段开设[1],但随着社会对应用型人才的需求越来越大,这就要求我们的学生毕业后不仅要有扎实的理论基础,更要有较强的创新能力和实践能力。

我校针对信息与计算科学及统计学两个专业开设了数据挖掘课程。该专业学生拥有较强的数学理论基础,并掌握了数学建模、统计学、数据库等相关学科。数据挖掘作为一门综合性课程,是融合学生各科知识,提高该专业学生应用实践能力,培养学生团队协作能力的很好的载体课程。

1 数据挖掘课程教学特点

数据挖掘技术是一个多学科交叉的综合研究领域。不过也正因为它涉及的范围很广泛,发展的时间也不是很长,因此要真正理解数据挖掘的本质并不是一件容易的事情。我校针对信息与计算科学和统计学两个理学专业开设此课程,并将此课程归类为实践类课程。经过笔者多年对传统教学方法的研究和改革,发现了在数据挖掘教学中存在的问题:

1) 理论教学困难:数据挖掘课程内容涉及领域广泛,如统计学、数据库、机器学习、模式识别等内容,并且所涉及的算法繁多。由于本科生的知识体系不健全,理论基础相对薄弱,造成了学习难度过大。此外,由于学时限制,无法在课堂中详细地讲述算法理论,导致了学生积极性不高,很难达到教学目标。

2) 实践环节无法让学生体会数据挖掘本质:数据挖掘是从数据获取、数据整理、预处理、数据挖掘分析、结果分析等一系列流程的综合。但由于课时关系,我们课程中的实践环节往往是针对某个特定的算法,让学生利用已经预处理好的数据进行算法的应用。数据挖掘成本很高,但是这个成本往往并不是金钱,而是时间,而数据整理和预处理的时间往往占到全部工作量的80%。不经过完整的数据挖掘流程训练,学生就无法体会数据挖掘的本质。

3) 软件应用缺乏:针对海量数据分析是必须要应用到计算机技术处理。当今针对数据挖掘应用的软件很多,如SAS公司的EM模块、SPSS的Modeler、WEKA、Matlab以及各数据库系统配套的OLAP功能等。在课堂中,不可能对任何一款软件都详细的进行讲解。这就使得学生很难进行算法的应用实践。

2 任务驱动探究式教学模式

针对目前教学存在的这些问题,广西大学梁斌梅提出了目标驱动的专业课教学法,利用导入课吸引学生、利用教学目标引导学生[2]。韩秋明等人编著的《数据挖掘技术应用实例》中采用了大量的行业数据,为数据挖掘教学模式的改革提供大量的应用实例[3]。结合本校的学生特点,参考国内的一些研究成果,该文提出了基于任务驱动探究式教学模式。课程整体主线由任务驱动,学生进行探究式自主学习。

任务驱动是基于构建主义教学理论基础上的教学方法,以学生为主体,以老师为主导的一整套教学新模式。而探究式教学是与直接接受式教学相对的,在任务驱动的同时,激发学生的好奇心,并驱使学生投入到知识获取的自主学习活动中。任务驱动探究式教学模式是将两者有机的结合起来,使学生能够明确学习目标、提高学习兴趣、提升学习动力,发挥学生的自主学习能力、创造能力,培养学生分析问题、解决问题的能力。通过自主学习,自行的完成阶段性的教学任务,以达到相应的教学目标。任务驱动探究式教学模式,适合操作性和应用性强的课程。任务驱动探究式教学模式的核心思想是在教学方面强调任务驱动,在学习方面则强调探究式学习。因此必须合理地设计课程教学方案,在“教”和“学”两个方面进行设计。老师必须在任务设计、实施进程管理、信息反馈等各方面做好衔接,保证学生能够时刻跟上任务进度,并保持足够的兴趣度。

3 基于案例驱动探究式教学模式的数据挖掘课程改革

任务驱动探究式教学模式是以学生为主体,教师主导的新型教学模式。教师的作用在于教学组织和任务布置的安排调度。利用任务引导学生学习相关知识,提高学生的学习主动性。因此,如何根据课程需要合理地进行课程任务设计,安排任务进度都是课程改革成功的关键。

3.1 课程内容重新整合

数据挖掘是一个由数据收集、数据预处理、数据分析挖掘、结论分析等各个步骤组成的整体过程。在现有的数据挖掘书中,针对数据收集、数据预处理部分往往比较简化,大部分篇幅都在讲述数据挖掘算法,如分类算法、关联算法、聚类算法。如果在课程内容设计时,仅仅对算法做重点讲述而忽略前期步骤,将会造成学生内容知识的脱节,无法体会数据挖掘整个流程,从而不能真正地理解数据挖掘思想本质。因此,本课程教学目标应该是重点培养学生分析问题、解决问题和团队协作能力,树立数据挖掘思维体系,了解数据挖掘基本算法,能够应用数据挖掘软件解决实际问题并得到结果。

根据这个教学目标对课程内容进行适当调整。首先,增加绪论内容并设置导入课。在导入课中增加生活中学生感兴趣的数据挖掘故事,经典案例以及各行业中的应用,从而提高学生学习的兴趣。其次,适当增加数据获取、数据预处理以及数据挖掘软件的介绍,使得学生能够明确数据怎么来、如何处理以及用什么工具处理等问题。最后,有选择地介绍基本的数据挖掘算法,所介绍的算法应该是常见、易懂并且能够很容易使用软件实现的,如决策树算法、K均值聚类算法、Apriori算法、朴素贝叶斯算法等。而针对比较难的算法,可以仅做介绍,让学生在今后遇到此类问题能够自主的进行学习。通过内容的调整,一方面使得学生不会因为数据挖掘算法繁多且复杂而惧怕,保证学生的学习兴趣,从而很好的引导其自主学习,提高教学效果。另一方面,数据挖掘算法在不断的改进,不可能在课程中覆盖所有。通过基本算法和工具的结合,能够很好地帮助学生从算法理论转变成算法实现,从而真正的进行数据挖掘工作。即使出现了新的算法,也能够举一反三,进行软件实现。

3.2 组织方式的改变

任务驱动探究式教学模式必须以课程任务为依托。改变以往以纯理论的教学方式,加入实践和课堂讨论环节,将理论知识讲解和课程任务有机地结合到一起。考虑到数据挖掘连贯性以及工程庞大性,可以考虑以项目化的方式进行。将学生6个人左右分为一组,自主的在老师所提供的数据共享平台中寻找感兴趣的问题进行分析研究。将整个项目分解成为数据搜集、数据预处理、探索性分析、数据挖掘、结果分析等一系列的小任务,安排阶段性的任务目标,层序渐进,逐步的建立学生完成项目的信心并最终完成整个项目。

学生是项目的负责人,在接受一个短期任务后,就要自主的开始进行任务的执行。老师仅仅在课堂中进行了基本知识的讲解,学生要完成任务就必须学习更多的课外知识。项目的研究内容是自己选择的,而且完成阶段性的任务并不是那么的遥不可及,所以学生有足够的兴趣和信心去完成。通过查阅资料、学习知识、任务分配、安排和组织实施等,完成教学任务的同时也锻炼了他们团队合作意识、沟通能力、自主学习能力。这些能力的培养才能使他们在知识不断更新的当今,紧密地跟紧前沿技术并更好的去解决实际问题。

3.3 任务进度控制和评价

课程的课堂教学时间是有限的,老师不可能在课堂中既完成理论教学,又给足时间让学生进行课程任务,所以项目的实施必须是在课后进行。学生要在课外进行大量的参考资料阅读、相互讨论及数据分析的工作。那么老师作为主导者,必须及时地了解学生阶段性任务的完成情况,对当前学生遇到的困难及时给出建议和意见,甚至在学生遇到真正的难题给予技术上的支持。所以本课程在理论课教学的同时,也开展了定期的讨论课,让学生定期汇报阶段性任务的完成情况,及时进行任务进度的控制。整个项目的实施流程和任务分解如图1。根据流程安排,理论引导学生任务的进行。通过学生任务的完成情况,老师在完成基本理论教学的同时,有针对性的对学生所遇到的问题进行讲解,最终目标是引导学生完成整个教学项目。一方面,学生自主学习能力提高,有足够的兴趣和能力去完成每个阶段的任务,并且会更加认真的在理论课中寻找自己想得到的知识。另一方面,由于学生自主寻找的项目多样性,选择的算法不可控性,同样促使老师不断的提高自身,教学内容不再一成不变,而是随时的更新。

图1 任务进度安排流程图

良好的进度控制需要一个完善的评价体系做辅助。只有做好每个阶段性的评价,引入一定的竞争机制,才能提高学生积极性和自信心。首先,必须做到极端性任务的目标和时间明确化。要完成什么,在什么时候完成,都必须事先和学生约定。对没有按时完成任务的组,必须做出相应的惩罚,如扣除本阶段的得分。除此之外必须分析原因,搞清为什么无法完成任务,有针对性地提出建议和意见,以便学生能够及时调整。其次,评价标准既要唯一又要区别对待。唯一标准指的是一样的进度,一样的任务,一样的要求。但是数据挖掘项目会根据研究领域不同、使用算法不同、数据质量不同而造成难度差异,一味的同等标准要求会造成选择难度较高项目的学生积极性下降。所以老师必须客观的分析每个项目难度,并区别对待。对于由客观难度造成任务进程落后的组,应当在解决问题后给予奖励。并且,在最终论文评定时,适当的加入一定的难度分,以鼓励学生培养自我挑战的精神。通过教师评价、组长评价、组间评价等评价方式,客观的合理的对整个项目实施作出最终的评价结果。

4 结束语

通过案例驱动探究式教学模式的改革,数据挖掘课程在教学效果上得到了实质性的提高。人才培养上卓有成效,老师也在教学过程中受益良多。通过教学模式的改革,使得原本枯燥、难懂的理论教学变得生动。学生的求知欲望得到了激发,课程的学习目标更加的明确,教学质量也有很大的提高。同时我们发现,学生的自主学习能力、汇报能力、论文撰写能力都有了明显的提高,并且有很多教学项目被用于毕业论文的研究。数据挖掘课程也因此被选为宁波市级的智慧产业核心引导课程。

参考文献:

[1] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,2007(3):29-210.

篇7

大数据背景下的机器算法

专业

计算机科学与技术

学生姓名

杨宇潇

学号

181719251864

一、 选题的背景、研究现状与意义

为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。

在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。

随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。

二、 拟研究的主要内容(提纲)和预期目标

随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。

三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)

 1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。

四、 论文(设计)的工作进度安排

2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。

2020.04.28-2020.04.30 :设计实验。

2020.05.01-2020.05.07 :开展实验。

2020.05.08-2020.05.15 :准备中期检查。

2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。

2020.05.29-2020.06.26 :论文修改完善。

 

五、 参考文献(不少于5篇)

1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.

2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.

4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.

5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.

6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.

7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.

六、指导教师意见

 

 

 

 

 

 

 

 

签字:                  年     月    日

七、学院院长意见及签字

 

 

 

 

 

 

 

篇8

摘要:本文主要介绍了如何利用数据仓库技术建立学生成绩管理数据仓库,应用SQL Server 2008中的联机分析处理技术,从不同的维度观察对成绩有影响的因素,并通过建立决策树挖掘模型对学生成绩进行定性分析,用于指导学校决策者制定修改人才培养方案和指导学生更加有效的学习。

关键词 :数据仓库 数据挖掘 维度 决策树

如今人们利用信息技术生产和收集大量的数据,要想高效地管理、组织这些数据并对其进行分析并不是一件易事。数据仓库和数据挖掘技术在这方面得到了广泛的应用,数据挖掘能从存放在数据仓库中的大量数据中挖掘出隐藏的有用知识。

一、利用数据仓库技术管理学生成绩的意义

学生是学校的核心,其学习成绩作为一种总结性评价,能反映出他们的知识掌握情况和相应知识技能的获得情况。诸多高校的教务数据仓库中对学生成绩的评定分两种:定量评价和定性评价。定量评价也就是分数,定性评价一般分优、良、中、差等四个级别。数据仓库从定量的角度对学生成绩进行分析,能精确得到各个方面的数据。因此使用数据仓库和数据挖掘技术对学生成绩进行深层的分析,挖掘出隐藏在数据背后的规律或模式,根据挖掘结构提出一些指导性建议,从而更好地指导教师教学,提高教学效率,提高学生的成绩。

二、如何利用数据仓库技术管理学生成绩

在学生成绩管理中有各种类型的数据,先要对这些数据进行预处理,使它们符合教学决策所需的数据,然后把学生成绩分析作为本论文研究的主题创建学生成绩数据仓库,并从同一个班的不同门课程和同门课程在不同的专业与不同的教师教授下的效果比较进行分析研究。

把教务处的数据抽取出来后,通过还原数据库还原到SQL Server 2008中,从里面挑选出有关学生、教师、课程信息等关联的表(共计11个),把这些表导入到学生成绩数据库中。

该次课题必须保证所有的学生有课程平均学分成绩,如该生办理了退学或者休学手续,则删除该生的所有信息,如该教师没有担任教学任务,则删除该教师的相关信息。

例如,笔者使用了如下SQL语句来删除无成绩的学生记录:

Delete from Cj_BjxsCJB where zcj is null

对数据进行筛选和连接,例如:

在学生成绩(XsCj) 事实表里,笔者使用如下SQL语句:

Insert into XsCj

Select xnxqh, zcj,kcbm,xf,xs,kcbm,xh,kcxzcode,kcflcode,khfscode,jsbh

from Cj_XsCj where kcbm in (select kcbm from Curriculum)

and xh in (select xh from Xj_YxjJbxx )

在专业(ZhuanYe)维表里,笔者使用的SQL语句如下:

Insert into ZhuanYe

Select zybh,zymc,yxbh from Major

学生(Student)维表里的SQL语句是:

Update Student set bjbh=BanJi.bjbh

from BanJi where zybh in ( select zybh from BanJi, Xj_YxjJbxx

where BanJi.bjmc= Xj_YxjJbxx.bjmc )

在SQL Server Business Intelligence Development Studio开发环境中新建一个名为“学生成绩”的SSAS项目,以数据仓库“学生成绩”为数据源新建数据源学生成绩.ds、数据源视图学生成绩.dsv和多维数据集学生成绩.cube。

该课题初步实现了在高校教学中数据挖掘技术的应用,但仍然有许多问题:在数据预处理方面工作量比较大,还不够完善,需要找寻其他数据库工具人工完成;在其他应用方面,学校教学管理中的许多领域还有待进一步探讨,比如学生成绩的分析、学生信息管理、学生心理分析、教学质量评估等。

参考文献:

[1]陈文伟,黄金才.数据仓库与数据挖掘技术[M].北京:人民邮电出版社,2004.

[2]Jiawei HAN,Mieheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2004.

[3]朱得利.SQL Server 2005 数据挖掘与商业只能完全解决方案[M].北京:电子工业出版社,2007.

[4]邱文教,潘晓卉.数据挖掘技术在教务管理中的应用[J].安徽工业大学学报(社会科学版),2006.

篇9

关键词:数据挖掘;关联规则;决策树;教学;效果评估

中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)01-143-02

The Application Research of Data Mining in Teaching

FANG Fang1, YE Chun-ming2, ZENG Guang-jun3

(1. Anhui University of Traditional Chinese Medicine, Hefei 230037, China; 2. Electronic Engineering Institute, Hefei 230037, China; 3. Communication and Command College, Wuhan 230037, China)

Abstract: This paper based on the theory of Data Mining, elaborates the two methods: association rule and decision tree, which applied to teaching practice. Research indicates that using association rule could do teaching situation prediction and teaching effect evaluation better. And Decision tree can give analysis and guidance in the aspect of thesis and course selection. Finally, this paper indicates Data Mining applied to teaching would be of vase prospects.

Key words: data mining ; association rule; decision tree; teaching; effect evaluation

1 概述

随着高校教育信息化建设的发展,对于学生、教师资料,课程设置,考试成绩等多种信息进行分析评估,对提高教学质量,加强高校管理,推进高校各项事业的建设有着重要的意义。经过近些年的发展,虽然各高校收集和建立起了较为完备的资料数据库,但如何科学有效地分析这些海量数据,使其充分发挥指导决策作用,已成为教育信息化研究的方向之一。传统的分析方法难以从这些数据中发掘出有用的信息。而利用数据挖掘技术,能够方便高效地从大量数据中发现有用的信息和隐藏的规律,充分发挥资料数据库的作用,为高校管理工作以及教师和学生的工作学习提供指导依据。

2 数据挖掘技术介绍

数据挖掘(Data Mining)是自上世纪90年代以来迅速发展的一门交叉学科,包含有人工智能、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等技术学科的相关内容。一般认为,数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则[1],数据挖掘的过程有时也称为知识发现或数据库中的知识发现(knowledge discovery in database,KDD)。其基本功能包括分类(classification)、估计(estimation)、预测(prediction)、关联分组(affinity grouping)或关联规则(affinity rule)、聚类(clustering)以及描述和建档(description and profiling)[2]。

数据挖掘的对象包含数据库、文本、图像等各种结构化或非结构化的信息,很多情况下无法直接对这些数据进行分析。利用数据挖掘进行分析一般需要进行如下的过程[3]。

1)选择数据:数据挖掘过程所需的数据可能从不同的异构数据源获取,因此首先必须从各种不同形式的数据源中获取数据。

2)预处理:初始数据中可能会有一些偏差或不符合形式化处理的例外,对这些数据必须进行修正和剔除,以保证后期数据处理的正确性。

3)变换:对不同数据源获取的数据必须转换成统一的格式,利用编码或其他方法简化数据表示形式。

4)数据挖掘:对变换后的数据应用数据挖掘算法以产生期望的挖掘结果。

5)解释/评价:将数据挖掘的结果以适当的方式提交给用户。可以使用图形化的工具或文档表格的形式等。

数据挖掘技术在电信业、零售业、农业、金融业、生物医药、化工行业等多个领域已有较成功的应用,例如对于数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等问题的分析等。数据挖掘主要的分析方法包括:关联规则、决策树、聚类分析、遗传算法和神经网络等,其中关联规则和决策树是使用频率最多、范围最广的两种方法。

关联规则是用于揭示数据之间隐含的关系的一种数据挖掘方法,是数据挖掘最先研究的问题之一,也是数据挖掘的主要研究方向和最成熟的分析方法之一。关联规则通过对数据库中一组对象的关系进行分析,进而通过置信度和支持度的阈值筛选,得出被认为是有价值的规律或事实,典型的应用是购物篮分析,通过对销售数据分析发现部分客户的常用的购物习惯和规律。最经典的关联规则算法是1994年由R.Agrawal, Hnielinski,Swam等人提出的Apriori算法[4],主要思想是生成特定关系的候选项目集,然后扫描数据库并进行计数,以确定这些候选项目集是否满足要求。

决策树算法是一种用于解决分类问题的办法[5]。决策树通过对数据的归纳学习,构建一棵树对分类过程进行建模,构建完成后,将其应用到数据库中的元组并得到分类结果。树的每个内部结点代表对一个属性值的检验,分支代表检验的结果;树的每个叶结点就代表一个类别。决策树算法主要是用来对离散型变量进行分析,连续型变量必须被离散化后才能被分析[6]。最主要的决策树算法是20世纪80年代由J.Ross.Quinlan提出的基于信息熵的ID3算法,但ID3算法对于大数据集的分析效果不令人满意,后来出现的C4.5、C5、SLIQ、SPRINT等算法在ID3基础上做了诸多改进,提高了算法的性能。

3 数据挖掘在教学中的应用

数据挖掘技术在商业领域已得到广泛的应用,但在教育领域的应用尚处于研究试验阶段,研究应用较多的包括分析学生成绩,改进教学质量,调整课程设置,辅助教学评价等等[7]。借助数据挖掘的方法,通过对收集的学生、教师、课程、成绩等各类信息进行分析,寻找其中的规律、趋势和问题,提供客观科学的结论作为决策依据,能够大大提高学校的教学管理水平,指导教师和学生的工作和学习。

3.1 关联规则在教学中的应用

关联规则可以描述为以下的形式[3]:给定一组项目I={I1,I2…}和事务数据库D={t1,t2…},其中ti={Ii1,Ii2…}并且Iij∈I,关联规则是形如X=>Y的蕴含式,其中X,Y?奂I是两个项目集合,称为项目集并且X∩Y=Φ。关联规则的分析主要基于两个数值:支持度和置信度。在关联规则中,X=>Y的支持度表示数据库中包含X∪Y的事务占库中所有事务的百分比。X=>Y的置信度表示包含X∪Y是事务数与包含X的事务数的比值,对于X=>Y的支持度和置信度分别用s和a表示。

在教学数据的分析过程中,关联规则使用于两种类型的分析。类型一是进行预测性的分析,主要用于对学生的成绩进行分析,类型二是进行评价性的分析,主要用于对教学效果的评估。利用数据挖掘技术进行分析一般分为三个基本步骤:建立数据仓库,数据预处理和数据挖掘。下面以学生成绩分析为例,描述关联规则进行预测性分析的过程。

第一步是建立教学信息的数据仓库。采集的数据内容主要包括学生的入学成绩、基础课程成绩、专业课程成绩,国家等级考试成绩等等。为了提高分析结果的准确性,避免只通过成绩进行单一的分析判断,还应进行问卷调查等方式收集关于学生兴趣爱好、擅长课程等数据内容,不同类型的信息分别组成各自的数据表。通过多种途径建立内容全面的综合数据仓库,根据需要从中提取相应的数据进行分析。假定建立的数据库为W={D1,D2,…},其中的Di为不同的数据表,内容分别是成绩、调查内容等不同类型的数据。

第二步是对数据进行预处理。为便于数据挖掘分析,对采集的数据需要需求进一步进行处理,首先是删除无效数据,例如校正错误信息,对缺考、无效调查结果等进行处理。其次,需要对不同类型的数据进行形式化处理,一般的方法是进行简单的分类,例如成绩按照“优秀、良好、集合和不合格”形式进行处理。如果数据库W的内容较多,为提高关联规则算法的执行效率,根据需要选择部分表{Di1,Di2,…},其中Dij∈W,对这些表进行表连接等操作生成的待分析的事务库D',并根据需求设定支持度s和置信度a。利用Apriori算法对事务集D'进行扫描,得出支持度不小于s的频繁项目集D1'。

与一般关联规则应用不同的是,在商业领域,支持度较小的项目集因其没有商业利用的价值会被摒弃。但在教学领域,由于分析的对象是学生,即便是支持度很小的项目集也可能需要引起重视。例如,利用关联规则入学成绩和毕业成绩的关系进行分析,类似{入学成绩优秀,毕业成绩优秀}这样的项目集支持度可能较高。但{入学成绩优秀,毕业成绩不合格}这样的项目集可能会因为支持度小于s被忽略。但如果对这一现象引起重视并深入分析,所反映的问题,可能比支持度较高的项目集代表的情况更有研究价值。但如果对所有这种非频繁集进行分析,会影响算法执行效率,也可能得出很多无用的结论。解决办法是对事务集分析之后,将大项目集的事务从数据库中剔除,对生成的新事务库D"进行二次分析,或直接对非频繁集进行其他方式的分析[8]。

第三步是根据Apriori等算法进一步挖掘,在频繁集D1'中,按照置信度为a的标准,生成最后的关联规则表。按照算法进行分析,最后生成的都是支持度和置信度比较高的关联规则,但仍需对其中的内容进行分析和筛除。对于一些常识性的、显而易见的结论,如“入学英语成绩高,平时英语成绩好=>英语等级考试通过”这类结论一般不必进一步研究,但对其中发现的不常见的结论,甚至是有悖于一般看法的结论需要引起注意,并做深入的分析研究,从而找出现象背后的原因所在。

关联规则还可以用于对教学效果进行分析。比类型一复杂之处在于,建立数据仓库时,需要业务专家进行设计,采集较为全面的教师工作相关信息,以及自身资质水平、所学专业、执教经历等等详细资料,并结合类型一采集的学生信息数据库,完成内容详实的信息仓库。分析的过程与类型一的分析过程基本相同。

3.2 决策树在教学中的应用

决策树算法可以描述如下[3]。给定数据库D={t1,t2…},其中ti={Ii1,Ii2…},数据库模式包含下列属性{A1,A2,…}。同时给定类别集合C={C1,C2,…}。对于数据库D,决策树可表示为每个内部节点都被标记一个属性Ai;每个弧都被标记一个谓词,可应用于相应父节点的属性;每个叶节点都被标记一个类Cj。通过训练数据构建决策树,确定每个元组的类别,并对所有元组的类别进行分析,得出需要的结论。决策树主要用于对离散的数据进行分类,在教学方面能够用来对学生课程的选修、毕业课题的选择、就业等方面进行分析指导。

基于决策树的分析可以使用关联规则相同的数据源,但对数据仍然要进行预处理。为了方便处理,可以将数据统一成可描述为相同类型的属性。例如,学习成绩可以划分为:优秀、良好、中等、及格和不及格五档,分别用5、4、3、2、1数字进行表示。同样,动手能力、对某课程的喜好、资格考试是否通过等等,也可以采取类似的方式进行属性编码处理,例如通过可以表示为5,不通过表示为1,以此类推。按照属性的分类构造决策树,以指导学生选择课题毕业课题为例。以一门或多门相关课程的成绩、对一门或多门相关课程的喜好、动手能力的区别、理论研究能力的区别,以及毕业课题的选择等作为分类属性,通过对往届学生信息数据库进行分析,得出关于毕业课题成绩优秀的规则,例如最后生成“动手能力强,喜欢编程,C语言等课程成绩较好,关于编程类的毕业课题成绩较好”这样的规则,通过对这些规则的整理和进一步的分析,可以帮助学生选择适合的毕业课题类型,甚至对包括就业在内的其他问题也有较强的指导作用。

4 结束语

数据挖掘技术适合从各种复杂的数据中分析出直观明确的规律,数据利用率高,运行成本低,预见性强,在高校教学中有着广阔的应用前景,虽然现在较为成熟的应用还不多,主要停留在研究试验阶段,但随着高校信息化建设的推进和人们认识的加深,数据挖掘技术将在高校管理和教学改革中发挥重要的作用。

参考文献:

[1] Ming-Syan Chen, Jiawei Han, Philip S. Yu. DataMining: An Overview from a Database PersPeetive [J]. IEEE Transaetions on Knowledge and Data Engineering. 1996,8(6):866-883

[2] Jiawei Han,Micheline Kamber. 数据挖掘概念与技术[M]. 加拿大:机械工业出版, 2004.

[3] Margaret H.Dunham. 郭崇慧, 等译. 数据挖掘教程[M]. 北京: 清华大学出版社, 2005.

[4] Rakesh Agrawal,Ramakrishnan Srikant. Fast Algorithm for Mining Association Rules [C]. Proeeedings of 20'Int.Conf. Very Large Data Bases (VIDB). 智利: Morgan Kaufmann出版社, 1994.

[5] ROKACH L. Top-down induction of decision trees classifiers-asurvey [J]. IEEE Transaetions on Systems. 2005(35): 476-487.

[6] 陈恩红,王清毅,蔡庆生. 基于决策树学习中的测试生成及连续属性的离散化[J]. 计算机研究与发展, 1998,35(5).

篇10

关键词:客户分群;聚类分析;K-means算法

中图分类号:TP311.13文献标识码:A 文章编号:1009-3044(2008)24-1123-03

Application of Data Mining in Telecom Customer Segmentation

LIU Yi-jun1, FU Han-yu1, CAI Qiu-ru1, HE Hui2, LUO Ye1

(1.Jiangsu Teachers University of Technology, School of Computer Sciences and Engineering, Changzhou 213001,China; 2.Changzhou Branch of Jiangsu Telecom, Changzhou 213003,China)

Abstract: The paper introduces the data mining topics and data mining models frequently used in telecom. A resolution of Customer segmentation is proposed based on the data mining tool KXEN and K-means method.

Key words: customer segmentation; clustering analysis; K-means algorithm

1 引言[1]

随着电信体制改革的深化,电信业的竞争也日趋激烈。电信业是典型的数据密集行业,与其他行业相比,则电信行业拥有更多的有关用户的数据。谁能正确地分析这些数据得到有用的知识,谁就能更好地向用户提供服务,发现更多的商机,从而在竞争中获胜。数据挖掘可以从大量数据中自动获取有用信息或知识,因此数据挖掘在电信业中有重要的应用价值。

该文组织结构如下:第二部分分析了电信数据挖掘的若干主题及其相关的数据挖掘模型;第三部分介绍了客户分群及其K-means聚类算法的实现流程;第四部分基于实践经验给出了建立电信客户分群模型的解决方案。

2 电信领域的数据挖掘模型[2,3]

电信的数据挖掘应用开发,主要进行客户分群、客户流失分析、客户发展分析、客户行为分析等数据挖掘专题分析,逐步实现业务预测和信息挖掘等功能。

1)客户分群:客户分群将一个大消费群体划分为一个个细分群体,同属一个分群的消费者相似,而隶属于不同分群的消费者被视为不同的群体。企业根据客户提出的要求和实际所做的不断地改善产品和服务,从而不断提高该客户群的满意度。

2)客户消费模式分析:从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为相关经营决策提供依据。

3)客户市场推广分析:利用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。

4)客户欠费分析和动态防欺诈:总结各种骗费、欠费行为的内在规律,并建立欺诈和欠费行为的规则库。当客户的话费行为与库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。

5)客户流失分析:根据已有的客户数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,然后根据此模型来监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。

6)大客户的识别:企业的大客户群体往往是利润的主要来源。识别出大客户,为他们制定有针对性的措施,提高大客户的忠诚度,是电信运营商继续保持领先的关键所在。此外数据挖掘工具不仅能够根据现有的消费量的多少来判断用户是否为大客户,还应该可以根据现有大客户的资料,提取大客户的特征,并发现潜在的大客户。

7)客户利润分析:分析客户的利润分布情况,得到带来不同利润的客户的具体特征。系统将客户利润分为高、中、低三种类型。用户可以对高、中、低的具体情况进行设置。

表1总结了电信领域中可以应用的主要数据挖掘模型及其采用的方法。

3 基于K-means聚类的客户分群[4,5]

客户分群是根据一个或多个客户属性组合把所有客户划分成不同的类,同类内的客户具有最大的相似性,异类间的客户具有最大的差异性。

通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出特点,对客户总体构成有准确的认识,对客户的服务和营销更具针对性。对客户分群可以达到如下目标:

1)了解客户的总体构成;2)了解各种客户价值的客户群体特征;3)了解流失客户的客户群体特征;4)了解客户群体的消费特征;5)了解各信用等级的客户群体特征。

数据挖掘技术中的聚类(Clustering)分析技术能够被运用来从客户基本库中发现不同的客户群,并且刻画不同客户群的特征,达到细分客户群的目的。本文采用K-Means聚类模型进行客户分群,主要因为K-means算法具有以下优点:1)能够很好的解决给出数值型属性的数据对象的聚类问题,经常以局部最优结束;2)对处理大数据集,该算法是相对可伸缩的和高效率的;3)对输入数据顺序的敏感度一般;4)虽然对处理噪声数据的能力不高,由于电信的数据还算完整,可以通过数据预处理来弥补;5)该算法结果比较容易理解,建模速度也较快。

K-means处理流程以算法形式表示如下。算法的复杂度是0(nkt),其中,n是所有对象的数目,k是簇的数目,t是迭代的次数,通常k

输入:结果簇的数目k,包含n个对象的数据库。

输出:k个簇,使平均误差准则最小。

方法:

① 任意选择k个对象作为初始的簇中心。② repeat。③ 根据簇中对象的平均值,将每个对象(重新)赋给最类似的簇。④ 更新簇的平均值,即计算每个簇中对象的平均值。⑤ until不再发生变化。

K-means算法尝试找出平方误差函数值最小的k个划分。算法使得各聚类本身尽可能紧凑,而各聚类之间尽可能的分开。当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。本文选择这种算法建立数据挖掘模型,从而对客户做初步的划分,将含原始客户信息的数据库划分成K个聚簇,使得同一簇中的对象是“相似的”,而不同簇中的是“相异的”。

4 实例研究

我们使用商业数据挖掘自动化软件KXEN对常州电信客户进行分群研究。KXEN软件分群采用结构风险最小化的K-Means算法实现。我们选择了营销服务相对薄弱的小型商客作为目标客户群,取得目标客户群的近一年的相关数据。其中小型商客是指客户有1-2门电话、小灵通的客户,不包含已经安装宽带的客户,有效小型商客为23074户。基础表涵盖了以下数据:①用户及客户的基本信息:包括客户身份信息、联系方式、产品拥有情况、入网时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等;②价值信息:包括业务月租费、使用费、优惠费用及增值业务、新业务、信息费和卡类、结算费用、缴欠费信息等;③行为信息:包括时长、次数、跳次、发话不同号码数、时长集中度、次数集中度等。

我们通过KXEN软件对客户价值(V)与客户行为(B)进行多维分群,其中参加分群的V变量有21个,B变量有15个。首先根据价值维度的分群结果,计算出每个群的平均收入进行客户价值分析:

ARPU=客户群总收入/m

其中m为该群客户人数,ARPU(Average Revenue Per User)为每用户平均收入。

然后对行为B变量作Z分数。设某个客户i使用产品j的时长是Tij,所有客户使用产品j的平均时长为Tj。对于客户i,其产品j的 分数为Zij=(Tij-Tj)/σj,其中σj为所有客户使用产品j的时长标准差。单个客户i使用电信所有产品的Z分数为Zi= Zij,其中n为客户使用的产品数量。客户群k的Z分数为Zk=( Zi)/m,其中m为分群k中的客户数。

最后对V变量按总费用进行群排序,形成VB矩阵交叉图。在组成的交叉矩阵中根据客户数的多少选出SS1-SS8共8个战略客户群,共有客户17128户,占总客户的比例为74.23%,接着对战略客户群进行特征分析。图1是分群后的总体情况,图2是分群矩阵图,图3是各群分布气泡图。

群分布气泡图

图3中气泡的大小代表客户数的多少。SS7、SS8客户群最大。横轴方向越靠右,表明客户价值越高。SS1、SS2、SS3群为高值的小商客,SS7、SS8为低值小商客。在横轴的上下,表明客户的消费趋势值情况,在横轴以下为下降趋势,偏离越多,下降值越大。SS2群下降最多。SS1上升最为明显。

下面以中值下降的SS6群为例进行分析(限于篇幅,仅给出竞争特征的图表)。

1)总费用特征

该群属中值群,客户数1964,占总中小商业客户的8.5%,客户ARPU为 93.35元;总体费用下降趋势为-5.28元,为各群次低;总费用趋势上升的客户比例极少。总费用前半年均值106元,前半年趋势基本平稳。

2)长话特征

该群用户长话费均值为9.97元,占总费用的比例为11%,相对较低。长话费用月均下降1.96元,为各群次高。长话费用高于50元的和长话费上升的客户比例都很低;使用传统长话的客户各群中比例最高。另外,该群用户长话使用量很少,且主要使用传统长途,传统长话占长话比例最高;长话费12个月均呈下降趋势。

3)市话特征

该群用户市话费用均值为中值,为41.67元,月平均下降3.53元。区间费用的均值2.92元,区间费用趋势月下降0.37元。

4)竞争特征

结合图4分析可得,该群客户也有较明显的卡类业务使用习惯,主要使用他网卡类业务,但是下降趋势最为明显。

5)其他特征

该群用户的窄带上网信息费也在下降,优惠费用均值为13元,为各群中次低。套餐用户较少。

综上可得SS6群特征如下:

a.该群为中值下降群,ARPU值为93.35元。总费用趋势下降较明显,月均下降5.28元,各项费用均呈下降趋势。

b.该群客户为长话低值客户,长话主要使用传统长途。

c.使用他网卡较多,但他网IP卡下降趋势明显。SS6群使用非电信卡消费均值最高,长话流失严重。

针对上述情况,拟采用的营销策略是用超级IP、商务行、17908卡等有针对性地开展策反工作。

5 结论

数据挖掘可以对大量数据进行自动分析,帮助我们去学习新的潜在模式。聚类分析能够为我们解决客户分群问题,从而应用于电信目标市场营销。本文使用数据挖掘工具KXEN,采用K-means方法给出了一个电信客户分群的解决方案。实践证明本文提供的电信目标市场营销客户分群的解决方案是成功有效的。

参考文献:

[1] 廖里,余英泽.数据挖掘和数据仓库及其在电信业中的应用[J].重庆邮电学院学报自然科学版,2000(4):34-37,81.

[2] 宋威.江苏电信数据挖掘专题分析报告[J].江苏电信,2004.6.

[3] 陶露菁.基于数据挖掘的电信客户分群设计和实现[D].南京大学硕士学位论文,2005.06.

[4] 邓晓梅.基于数据挖掘的电信客户细分模型研究[D].大连理工大学硕士学位论文,2006.10.

[5] 韩家炜,Kamber M,著. 数据挖掘:概念与技术[M].范明译.北京:机械工业出版社,2001.