数据挖掘范文

时间:2023-03-26 17:13:39

导语:如何才能写好一篇数据挖掘,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数据挖掘

篇1

关键词:数据挖掘;因特网;服务

中图分类号:TP

文献标识码:A

文章编号:1672-3198(2010)17-0357-01

1 数据挖掘的概念

数据挖掘(Data Mining)最早是在数据库领域发展起来的。称为数据库中的知识发现(KDD,Knowledge Discovery in Database),据挖掘是从大量的包括结构化和非结构化数据中提取隐含在其中的、事先不为人知的、潜在的、有用的信息和知识的过程,它要求数据源应该是大量的、真实的、多媒体的;所发现和提取的信息和知识是潜在的、有效的并隐藏在大量数据背后,是用户感兴趣的、可理解、可运用的知识,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。

2 数据挖掘的系统简介

2.1 AuthorLink系统

最近,美国开发出了基于文献计量分析的知识查询系统,并借助于可视化技术首次将复杂的统计结果,用通俗易懂的图像形式显示给用户,从而实现了知识信息提供服务的一次变革。

2.2 专利统计分析系统

人们关于专利的统计分析,事实上也是一种知识挖掘。目前,包括英国的WPI及美国、日本专利局等网络站点,都在提供专利文献检索服务的同时提供专利统计分析的服务。

2.3 OLAP系统

OLAP系统(On-Line Analytical Processing联机分析处理系统)也是一种典型的数据挖掘系统。这是一种含有数据导航、数据查询、建模、预测和数据挖掘的数据分析系统。其中OLAP引擎可以在前端接口接受用户提交的多维提问,并转换成SQL语句,然后将提问查询提交数据库,最后以图表的形式输出。

3 数据挖掘的步骤

(1)确定应用领域:包括此领域的基本知识和目标;(2)建立目标数据集:选择一个数据集或在多数据集的子集上聚焦;(3)数据预处理:在大数据集中,根据需求,利用数据净化和整合技术,选择与任务相关数据,在不降低其准确度的状况下减少处理数据量;(4)数据转换:找到数据的特征进行编码,减少有效变量的数目;(5)数据挖掘:根据数据和所要发现知识的种类来确定相应的挖掘算法;(6)数据评价:将挖掘出的知识和数据以各种可视化方式显示,并将其以图形、文本等方式存储在库中,以便对它们进一步挖掘,直至满意为止;(7)实施和应用:实施和应用阶段是指利用数据挖掘技术所建立模型在实际项目中的应用,包括数据库的构建,个性化用户服务、基于知识的企业信息管理(MIS)、金融、证券、股票分析、电子商务、企业目标管理、决策支持等等。

4 数据挖掘服务的实现

4.1 数据挖掘为个性化服务打下基础

收集用户有关的信息,建立用户信息库。用户是数字图书馆的重要资源,一个信息完整的用户信息库,能保证在充分挖掘的基础上,了解用户的普遍性需求与特殊性需求,从而开展有针对性的个性化服务。通过对用户访问日志记录信息的挖掘,把握用户兴趣,有助于开展网络信息推送服务以及个人信息的定制服务。但从用户群整体来看,用户的信息需求又是随机的,这为一般用户需求信息分析带来了很大困难。数据挖掘从全局出发,以丰富、动态的联机查询和分析来了解用户的信息需求。通过在线提问、调查表等方式,系统可以获取关于用户的用户名、用户访问IP地址、用户的职业、年龄、爱好等原始信息。然后,采取一定的挖掘规则(如关联规则、联机分析处理等),对这些数据进行融合分析,其结果是为每个用户建立一个信息需求模型。根据用户需求,主动跟踪本地信息库和网络相关信息,收集用户所需信息。为了提高准确度,还应对所收集的信息进行相关性分析,可以根据用户提供的检索词,确定所检索到的信息与该检索词的相关度。同时还可以利用智能推送技术将用户所需信息推到用户的计算机、电子信箱,甚至手机、PDA上。

4.2 数据挖掘使网络资源的内容检索成为可能

网络内容挖掘是一个从文本、图像、音频、视频、元数据等形式的网络源信息中采用分类、聚类等形式的挖掘方法,发现有用信息,并将这些信息按满足某种检索方式的形式加以组织的过程。通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网络资源。有的学者应用数据和文本挖掘技术在网络上进行问题跟踪,从而获得了以前未知的有用知识,为信息内容分析提供了极大的可能性。网络内容挖掘是目前网络信息检索发展的一个关键,通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过对用户所使用的提问式(query)的历史记录分析,可以有效地进行提问扩展(query expansion),提高查全率和查准率;可以运用网络内容挖掘技术进行关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。

篇2

关键词:数据挖掘;方法;数据挖掘技术;数据仓库

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)34-2030-03

Brief Analysis of Data Mining Techniques

WEI Xiao-ling

(Department of Primary education, Qinzhou University, Qinzhou 535000, China)

Abstract: Data mining techniques is an emerging research field in database and artificial intelligence.Is present widespread research data bank technology Is present widespread research data bank technology, It may refine usefully, the latent information from the massive data, After ten several years research and application, Had already established the quite solid rationale, at present, is closely integrated with applications, Further reform of the existing technology development.

Key words: data mining; methods; data mining; techniques data warehouse

1 引言

随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大,传统的数据处理方式已很难充分利用蕴藏在这些数据中的有用知识,为适应这种需求 ,数据挖掘(Data Mining,DM)应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。

从80年代末数据挖掘开始出现,短短二十多年它的发展速度很快。目前数据挖掘技术在零售业的购物篮分析、金融风险预测 、产品质量分析、通讯及医疗服务 、基因工程研究等许 多领域得到了成功的应用.很多专题会议也把数据挖掘和知识发现列为议题之一。

2 数据挖掘技术概述

所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。

3 数据挖掘技术功能

1) 自动预测趋势和行为

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

2) 关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3) 聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

4) 概念描述

概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

5) 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

4 数据挖掘常用技术

在数据挖掘中最常用的技术有:

人工神经网络:人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。 它将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。

决策树:决策树是数据挖掘中经常要用到的一种技术,可以用于分析数据,同样也可以用来作预测。它利用树的结构将数据记录进行分类,树的一个叶结点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,便可生成一棵决策树。常用的算法有CHAID、 CART、 Quest 和C5.0。

遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。其基本思想是基于 Darwin的进化论和 Mendel的遗传学说。该算法由密执安(Michigan)大学教授 Holland及其学生于 1975年创建。与传统搜索算法不同,遗传算法从一组随机产生的初始解,称为种群(Population),开始搜索过程。种群中的每个个体是问题的一个解,称为染色体(Chromone)。染色体是一串符号,例如一个二进制字符串。这些染色体在后续迭代中不断进化,称为遗传在每一代中用适应度 (Fitness)来衡量染色体的好坏。生成下一代染色体,称为后代(Offspring)。后代是由前一代染色体通过交叉(Crossover)或变异(Muration)运算形成。根据适应度大小选择部分后代淘汰部分后代,从而保持种群大小是常数。适应度高的染色体被选中的概率高。这样,经过若干代之后,算法收敛于最好的染色体,它很可能就是问题的最优解或次优解。

近邻算法:将数据集合中每一个记录进行分类的方法。

规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

5 数据挖掘技术实现

在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。

1) 数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

2) 数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。

3) 数据的展现

在数据展现方面主要的方式有:

查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

4) 数据挖掘一般过程

图1描述了数据挖掘的基本过程和主要步骤。

过程中各步骤的大体内容如下:

5.1 确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的

5.2 数据准备

1) 数据的选择

搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

2) 数据的预处理

研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。

3) 数据的转换

将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

5.3 数据挖掘

对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。

5.4 结果分析

解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。

5.5 知识的同化

将分析所得到的知识集成到业务信息系统的组织结构中去。

6 数据挖掘技术的应用

应用是数据挖掘技术的发展动力,数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力 ,且这种趋势正在以前所未有的速度继续向前发展。尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。具体应用实例如:IBM公司开发的QUEST和Intelligent Miner系统可以挖掘顾客的购物行为模式,预测销售行情。AT& T实验室开发了Hancock系统,该系统主要处理电信数据流,分析电话呼叫记录。Bell通信研究所的Tribeca则是一个用于网络监控的系统。Google公司利用其数据挖掘技术Page Rank,在短短的几年内打败所有竞争对手成为Internet上的赢家。

7 结束语

数据挖掘是当前计算机工业最热门的研究领域之一。它是一个不断发展的、综合交叉的学科。随着数据挖掘成功案例的广播,越来越多的行业采用数据挖掘技术,它将会被广泛而深入地应用于人类生活的各个领域。

参考文献:

[1] 张士玲,杨林楠,孙向前,等.浅论数据挖掘技术[J].福建电脑,2005(8):61-62.

[2] 杨雪.浅析数据挖掘技术[J].华南金融电脑,2005(8):83-85.

[3] 张倩.数据挖掘技术综述[J].甘肃科技,2005,21(7):92-93.

[4] 黄晓霞,萧蕴诗.数据挖掘应用研究及展望[J].计算机辅助工程,2001(4):23-29.

篇3

[关键词]大数据;数据挖掘

中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2014)35-0286-01

当“大数据”铺天盖地般向我们涌来,人们往往期冀能够对大数据能够有更进一步的了解,“数据挖掘”因此成为我们理解大数据概念绕不过去的“坎”。通过将大数据与数据挖掘进行对比分析,将有助于人们了解大数据的来龙去脉和未来真实走向。

1.基本概念

数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、随机的、模糊的数据中,提取隐含其中的、规律性的、人们事先未知的、但又是潜在的有用信息和知识的过程。数据挖掘是一个在海量数据中利用各种分析工具发现模型与数据间关系的过程,它可以帮助决策者寻找数据间潜在的某种关联,发现被隐藏的、被忽略的因素,因而被认为是在这个数据爆炸时代解决信息贫乏问题的一种有效方法。数据挖掘作为一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。

大数据是通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。著名研究机构IDC给大数据的定义,有四个"V"字开头的特征:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大)。Volume是指大数据巨大的数据量与数据完整性Velocity可以理解为更快地满足实时性需求;Variety则意味着要在海量、种类繁多的数据间发现其内在关联;Value最重要,它是大数据的最终意义:挖掘数据存在的价值。

2.相互联系

大数据是数据挖掘的概念再升级。相比于兴起只有2~3年的大数据概念,已有20多年发展的数据挖掘可称得上大数据的开山鼻祖。因为大数据和数据挖掘的本质是相同的――对数据进行挖掘分析,以发现有价值的信息。而且大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的,而人工智能、机器学习又是在为数据挖掘服务。从表面上看,大数据与数据挖掘的显著区别在于“大”上。然而深入分析就会发现:一方面,数据挖掘的对象不仅可以用于少量的数据,而且同样适用于海量数据,只是由于挖掘方法和技术工具的不断升级换代,换了个新的名称而已;另一方面,大数据的本质不在于“大”,而是以崭新的思维和技术去分析海量数据,揭示其中隐藏的人类行为等模式,由此创造新产品和服务,或是预测未来趋势。所以大数据和数据挖掘的概念在一定时期还会并存,因应于使用的时机、场合或使用人的习惯,真正的关键点是如何体现出数据的价值。

大数据是数据挖掘产业化的表现。长久以来,数据挖掘的经典案例――“啤酒与尿布”被广为传颂,然而这一传奇故事显然跟不上时代大发展的步伐,取而代之的是谷歌成功预测流感的案例。数据的价值在于信息,而技术的价值在于利润,数据挖掘可以看作是专业技术领域的专业名词,到了商业领域就需要进一步的包装与升级。只有这样,一系列的开放式平台、技术解决方案才能迅速“火”起来。显而易见,这种商业的运作模式已经非常成熟和成功。目前,大数据已被视为创新和生产力提升的下一个前沿,正成为国家竞争力的要素之一,在世界范围内日益受到重视,多国政府加大了对大数据发展的扶持力度,甚至上升到国家战略的高度。某咨询公司研究显示,全球对大数据项目投资总额2012年已达45亿欧元(约60亿美元),2013、2014两年均会保持约40%的增长速度。

3.简要小结

当前,数据挖掘在专业领域的地位已经非常牢固,但大数据还受到民众和业界的诸多质疑,认为是一种商业噱头和忽悠。其实很多争论实质上并非在讨论同一问题。比如,有人举例说,《大数据时代》的作者维克托・迈尔―舍恩伯格认为 , “人们处理的数据从样本数据变成全部数据”的结论至少从目前的数据收集和分析能力来说是不可能实现的。我们应该看到,没有不变的真理,只有客观规律。任何技术都不是万能的,作为一种技术而言,它仅代表了一种发展方向,它因为能够解决某一现实问题而具备存在的价值;至于技术的商业化运用成不成功,则还受制于运用推广的方式等其它诸多因素。例如,对比上世纪末“互联网经济泡沫”破灭时的哀鸿遍野和前不久阿里巴巴在美国上市的一片赞歌,可以看出:互联网技术的发展势不可挡,互联网产业发展一波三折,只能说产业和技术紧密相联,但终究不是一回事。

参考文献

[1] 维克托・迈尔―舍恩伯格著,周涛译.大数据时代:生活、工作与思维的大变革[M] .浙江:浙江人民出版社,2012.12

[2] 朱明.数据挖掘(第二版)[M] .合肥:中国科学技术大学出版社,2008.11

作者简介

篇4

数据挖掘的英语名称是Data Mining,又译为资料探勘、数据采矿。所谓数据挖掘,是指从大量不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取那些隐含在其中的,然而人们事先不知道却有潜在用途信息的过程。它是根据数据的微观特征,发现其表征的、带有普遍性的、较高层次概念的知识,是信息优势成为知识优势的基础工程。数据挖掘萌芽于“情报深加工”,其实质就是发现情报背后的情报。在大数据时代,数据挖掘就是从海量数据中寻找到自己需要的信息,我们常用的百度、谷歌等搜索引擎完成的工作也属于数据挖掘的范畴。

随着计算机和互联网技术的迅速崛起与普及,人们(当然包括犯罪分子和)已经离不开手机、电脑、智能电视等智能终端设备,不少日常活动基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。总之,在通信技术无孔不入的时代,人们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为司法部门破案时所需要分析的材料。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以可理解的方式(如可视化)将找出的规律表示出来。由于人类从来没有像今天这样如此依赖网络和电子设备,因此,信息时代众多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。

目前,美国安全局已经开始利用数据挖掘技术追踪和监控社会情绪。比如,美国安全局和交通安全局曾经基于数据挖掘技术,开发出计算机辅助乘客筛选系统。该系统为美国本土各个机场提供接口,当乘客购买机票时,系统利用乘客提供的信息确定乘客是否是需要额外安全筛选的人员。该系统将乘客购买机票时提供的信息输入到商用数据提供商提供的数据库,这些信息包括全名、地址、电话号码以及出生日期。商用数据库然后将隐含特殊危险等级的数字分值传送给交通安全局。带有“绿色”分值的乘客将接受“正常筛选”,带有“黄色”分值的乘客将接受“额外筛选”,而带有“红色”分值的乘客将被禁止登机而且还将接受“法律强制性的关照”。在利用商用数据库信息时,交通安全局声称工作人员不会看到用于计算分值的实际信息,也不会保留乘客的信息,以此保障乘客的隐私。

篇5

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

篇6

系统采用C/S+B/S结构,主要由前端数据采集设备(位移及载荷传感器)、站点客户端、数据库及Web服务器等组成。各部分采取分布式协同处理运行方式,站点客户端利用前端采集的数据独立分析计算,分析完成后上传至数据库服务器,并通过网页服务器对外。

2系统数据

2.1系统数据结构系统采用MicrosoftSQLServer,创建了WPGUI与WPCHQ数据库来管理3万余口油井数据采集、处理及存储等,建设数据表65张(见主要数据表的关系图2),主要包括生产井的完井数据、静态数据、动态数据、采集数据、原油物性数据、机杆管泵等技术数据,同时系统保存了油井近两年功图电参数据(每天每口井到少100张),以及根据这些数据分析计算出来的结果和汇总生成的数据。

3数据挖掘应用

数据挖掘是从大量数据集中发现可行信息的过程,是统计分析技术、数据库技术及人工智能技术的综合。面对油井工况实时分析及功图计产系统大量的油井生产完备数据,长庆油田充分利用数据挖掘技术,对数据进一步清理、集成、转换、挖掘应用,深化功图系统数据分析,先后开展了动液面计算,系统效率在线实时监测、区块动态分析研究等,并应用于油田现场,取得了较好的效果,既节约了生产成本,又方便了现场管理应用,进一步提升系统在长庆油田数字化前端的核心地位。

3.1区块动态分析

油井生产中,每天都会获得大量的实时生产数据,目前系统主要对单井完成工况分析及产液量计算,如何通过分析和处理这些数据,及时全面了解油田区块产油量、压力、含水等变化规律是数据挖掘应用又一问题。长庆油田开展了基于油井工况诊断及功图计产系统的区块动态分析,从空间和历史角度,对油井分类、分级、分层次进行统计分析,挖掘生产数据里有用的信息,提炼区块共性问题,并按照设计的模板(区块指标统计图表、供液能力分析、产量分析、故障井分析等)每月30日自动生成全面及时的区块油井生产动态分析,从而指导区块生产管理,实现油田的精细管理,为油田开发决策提供依据。

4结束语

随着长庆油田数字化建设的不断深入,各种生产、研究、管理等数据库不断增加,如何深化数据应用,准确迅速从数据库是提取有用信息,已成为是数字油田生产管理的迫切需求。在基于油井工况实时分析及功图计产系统数据挖掘应用中我们积累了不少经验,拓展了系统功能,提升系统在长庆油田数字化前端的核心地位。在今后应用中,油田数据挖掘应用注意几个问题:

(1)数据是数字油田的血液,为了保证数据挖掘效率,在数据库建设中要规范数据存储格式,保证数据源及数据类型的统一,同时加强数据审核,注重数据入库的质量;

(2)数据挖掘中尽可能使用可视化工具,一幅图胜过千句话,数据挖掘可视化主要包括数据可视化、挖掘结果可视化、挖掘过程可视化等;

篇7

近年来,我国的部队管理体系已经逐渐向着自动化方向发展,部队中各个部门都建立了一定的管理体系,也逐渐脱离了人工管理模式,实现信息现代化模式,很大程度提高了部队工作的效率,但是由于外界因素与经济发展的多样化以及人们的思维模式也在不断改变,从而出现了一些新问题,使得部队管理体系存在着一定问题:第一、关联性小、系统比较独立。现阶段,部队采购食品系统的作用以及目的比较简单,思维面也比较窄,也就是说按照清单进行食品采购时,不能充分考虑到采购人员的健康、效率等问题,不能达到最优化采购方式,因此就变得比较独立;第二,数据功能简单,可靠性不高。现阶段,部队食品采购数据只是对采购的种类与过程进行简单记录,时间一久,就会被损坏或者丢失;第三,数据分散不集中。现阶段与部队人员健康、起居饮食、训练相关的数据分散在不同系统中,使得数据变得不一致、不完整,仅仅只能进行简单查询、汇总、统计等工作,不能对数据进行多角度分析、关联等,不能为采购食品提供很好的政策支持。针对部队采购存在的问题,可以利用数据仓库以及数据挖掘技术建立多为数据库,利用数据挖掘进技术对食品采购数据进行挖掘。依据现阶段部队的实际发展情况,建立一套新数据库的成本代价比较高,因此,选用了目前社会上通用方法,对已经存在的数据进行一定改革与拓展,合理优化系统数据,成为新的数据库。并且选取对数据挖掘影响比较大的系统性分析,包括训练系统,食品采购系统、人员管理系统以及医疗卫生系统。针对食品采购采购系统建立数据模型。

二、在部队食品采购系统中的应用以及其价值评价

在部队食品采购系统实际应用工程中,其实可以运用MicrosoftSQLServerAnalysisServices来对数据进行分析,并且在数据挖掘过程中对多维数据进行描述与查找起到一定作用。因为多维数据比较复杂,增长的也比较快,因此,进行手动查找是很困难的,数据挖掘技术提供的计算模式可以很好的对数据进行分析与查找。在建设部队食品采购仓库数据的时候,数据内容主要包括了人员的健康、兵员的饮食以及训练等,进行数据挖掘主要包括以下内容:第一,把每个主题信息数据进行收集、汇总、分析等,对人员情况、健康、饮食、训练等进行合理分析;第二,多维分析数据信息。根据部队的实际情况,利用数据挖掘技术对部队人员健康、饮食、训练等数据信息进行多维分析,其中包含上钻、切片、下钻等;第三,挖掘健康与饮食之间的内在关系。根据数据库中许多面向主题的历史数据,采用数据挖掘技术进行分析与演算得到部队人员的训练和健康情况与部队饮食之间内在关系,以便于为部队食品采购提供合理的、有效的保障,从而提高部队整体人员的健康水平、身体素质以及训练质量,对提高我国部队战斗力有着深远的意义。

三、结束语

篇8

(荆楚理工学院 计算机工程学院,湖北 荆门 448000)

摘 要:本文旨在研究数据挖掘中数据预处理技术,首先通过简单介绍数据挖掘的基本概念以及数据挖掘的逻辑构成,介绍了数据预处理在整个数据挖掘过程中所处的阶段,然后从数据预处理的数据清洗、数据变换、数据集成、数据简化等数据预处理操作入手,详细介绍了填充缺失值、弱化噪声数据、数据集成等数据预处理技术,最后给予专门的数据预处理的流程来实现数据挖掘中的数据预处理的过程.

关键词 :数据预处理;噪声数据;数据冗余

中图分类号:TP311 文献标识码:A 文章编号:1673-260X(2015)03-0005-02

1 引言

随着科学技术不断发展,计算机信息技术在各个领域中得到了广泛应用,尤其是在原材料采购、金融、通信等方面,数据存储和数据处理等技术更是被各个企业用来记录企业运营过程中各种信息数据的记录和处理,以方便日后的企业财务管理和信息核对等操作.随着时间的推移,各个领域的不同企业的数据信息存储量越来越大,过量信息的处理是各个信息处理行业不得不面对的问题.同时由于这些信息对于日后用户信息分类、信息推送、企业的决策等方面起着非常重要的作用,不可能人为地删减信息来减少数据处理工作量,所以如何从爆炸式的数据信息中及时地提取有用的数据进而为企业的各种信息分类和决策提供合理、科学的数据决策依据,已经成为了我们当前面临的亟需解决的重要课题.为了能够使海量数据成为宝贵的资源,必须采取数据挖掘技术手段,结合相关的业务决策和企业战略发展计划,才能使企业在经济全球化的浪潮中在竞争日益激烈的环境下夺得先机而立于不败之地.

2 数据挖掘及其过程介绍

数据挖掘的英文名称为Data Mining(DM),是从企业的大型关系型数据库中或数据仓库中提取一些人们感兴趣的潜在有用的信息数据处理过程,是一门从大型关系型数据库或数据仓库中提取隐含的预测性信息的新技术.

数据挖掘的数据来源是数据挖掘技术处理的大数据,常见数据挖掘的数据来源于有关系型数据库、事务型数据库等,然后经过一定的清理和集成的过程以数据仓库的形式存储起来,为数据挖掘提供数据源.数据挖掘的逻辑过程是利用人工智能的、机器学习的数据挖掘技术对源数据进行数据处理并提取对企业决策有用的数据过程.数据挖掘的过程是一个完整的系统,是结合了多项技术完整的一个整体.从数据源开始,根据数据的挖掘对于大数据处理的逻辑过程大致可以分为以下:目标数据样本的准备、数据挖掘过程以及挖掘结果分为三级,包含多个处理步骤,如图1.所示,为数据挖掘的逻辑过程结构示意图.

由图1可知,整个数据挖掘的过程包括从最原始的数据开始数据选取的过程,这里的原始数据一般指的是存在企业各种信息管理数据库中的海量数据,是杂乱无章的、不能以专业的良好的形式展现出来的原始数据.通数据选取的过程,主要是选择能够参与数据挖掘过程的数据,从而生成目标数据.得到目标数据之后,就需要对其进行数据预处理的过程,囊括了数据清洗(Data Cleaning)、数据变换(Data Transformation)、数据集成(Data Integration)、数据简化(Data Reduction)等数据处理过程,主要包括了消除噪声数据、推导计算缺值数据、消除重复记录、按成数据类型转换等数据操作.得到预处理数据之后,就可以利用数据挖掘的技术,对这些数据进行智能挖掘和分类的过程,主要是基于某种思想,设计相应的算法,最后通过对预处理之后的数据进行数据挖掘算法的处理,最终是生成而分类的数据.当然,这时数据挖掘的过程并没有结束,这些数据只是以某种数据挖掘的思想进行分类存储,并没有以具有现实意义的形式展现出来,所以此时还需要开发人员,基于自己的业务逻辑和需求,开发相应的分析或评估功能,对数据挖掘之后的数据进行形象显示,从而形成对企业有用的知识.

3 数据挖掘中的数据预处理

数据预处理是数据挖掘过程中必不可少的一部分,进行数据预处理过程的主要原因是因为从原始数据选取的目标数据,是以原有的数据库初始定义的格式和结构进行存储的数据,存在很多空白数据、重复数据、复杂数据、不可用数据等,这些数据对于数据挖掘来说非常不适用,而且会增加数据挖掘的复杂度,所以需要数据预处理的过程来对目标数据进行预处理,从而生成预处理之后的数据.由图1.可以看出,数据预处理的过程对于数据挖掘来说是非常重要的,是为后期数据挖掘过程奠定坚实基础的过程.常见的数据预处理的过程包括,数据清洗(Data Cleaning)、数据变换(Data Transformation)、数据集成(Data Integration)、数据简化(Data Reduction)等内容.其中数据清洗(Data Cleaning)的主要操作就是在根据一定的原则和规定对目标数据样本进行消除无关数据或者噪声数据的操作,包括处理数据样本内的重复数据以及缺省数据等.数据变换(Data Transformation)的操作主要是对处理后的数据进行降维处理,从而消除原始特征力度无效属性,找到真正有用的特征,以方便后期数据挖掘的处理和计算.数据集成(Data Integration)的操作主要是合并目标数据样本内存在的异构数据,主要包括数据的选择、不同数据库文件之间的数据冲突以及不一致等问题的处理操作.数据简化(Data Reduction)的过程是在挖掘目标的有用特征以及对数据自身内容理解的基础上,尽量保持目标数据样本原有的数据特性的基础上,最大限度地对目标数据样本进行精简处理的过程,主要包括数据样本的参考属性选择以及数据抽样的数据处理.

3.1数据预处理主要方法

数据预处理的主要方法是填充目标数据缺失值、消弱噪声数据、数据集成等.

在我们设计信息管理系统伊始,会考虑到各种各样的问题,所以在设计数据存储表时会牵涉到各方面的信息,而在实际的应用过程中,之前设计的数据表的内容有很多时候并未有实际的数据,而是使用了缺失值存储,如果这些数据作为数据挖掘处理,会带来诸多不便,所以对于这些缺失值的处理,可以直接使用人工填写的方法来弥补缺失值,或者用该字段的所有属性值的均值,其他同类的属性值,利用回归或贝叶形式化的推理工具得出的最有可能值或最邻近的值的来代替,从而对缺失值进行填充弥补,形成完成的数据.

此外,在目标数据中,统一类的属性值可能有某些偏离正常数据,这些数据我们称之为噪声数据,对于噪声数据的数据预处理也需要专门的方法或技术来对其进行噪声消除.常见的方法有分箱法,即对某一个区域内的近邻数据进行观察,从而形成局部噪声消除;回归法则是利用回归函数找出某两个属性值的回归线,通过一个属性来对另外一个属性进行预测;中心点距离法就是计算目标数据的该属性值的平均值,然后计算所有数据对象与中心点的欧氏距离,并对其进行排序,而后根据数据性质和背景知识确定一个距离阈值,而与中心点距离大于该阈值的数据对象则为孤立点.

在我们设计信息系统数据表时,各个表格之间需要存在一些冗余来提高各个表之间的关联性,方便信息系统的数据表的关联查询.这也就导致了在得到的目标数据中,可能是因为数据信息的相同或者业务逻辑数据信息的类似,会有一部分的数据信息冗余,这些冗余对于数据挖掘来说也是没有必要的,或者最后需要数据挖掘的对象是来自不通数据库内容的信息,所以要通过数据集成的方法来对冗余数据或者不同数据结构的数据进行集成.在使用数据集成的方法来对数据信息进行预处理时,需要考虑到以下问题,第一就是集成的模式与原数据对象之间的匹配度的问题,现实生活中的很多数据存储的形式多种多样,在数据库存储的格式、类型、形式也不尽相同,而统一业务数据在不同的数据库之间存储后,能否最终以一种统一的数据格式来存储;第二个问题就是不同属性之间的冗余度的问题,不同的属性值之间是否冗余,是否需要删除某个属性值来使最终得到的数据最大化精简.关于不同属性之间的相关度,可以通过专门的公式进行计算,假如判断A属性和B属性两者之间是否是相互冗余的,可以通过以下公式来计算.

3.2数据预处理过程

数据预处理是数据挖掘的一个前期过程,是一个完整的数据操作阶段,上述的数据预处理的操作步骤和预处理方法都是在数据预处理过程中应用到的.在整个数据预处理的过程中,首先需要得到目标数据,然后利用数据清洗、数据变换、数据集成、数据简化等数据挖掘的操作,利用填充缺失值、弱化噪声数据、数据集成等数据预处理方法,来完成数据预处理的过程.整个过程的实施,可以通过人工检查的方式来实现,也可以通过编写专门的数据预处理软件来实现,或针对某个特定区域或接近某一类应用于的数据预处理问题等来实现数据预处理的前期操作.然后要遵循某种模式或者基于某种统计方法、识别方法等发现目标数据中的异常数据,同时对这些异常数据进行处理,例如通过校验的方法来识别元素的一致性以及内容上的错误,通过观察记录来找出数据中的重复或异常的数据等.最后要对这些数据进行记录,并以档案化的形式存储起来,从而使用户对数据有更加深刻的认识.

4 总结

数据挖掘的过程是一个复杂的过程,数据预处理是数据挖掘中对目标数据进行预先处理的过程,为后期的数据挖掘过程奠定基础.主要的数据预处理操作包括数据清洗、数据变换、数据集成、数据简化等,并通过填充缺失值、弱化噪声数据、数据集成等技术并给予专门的数据预处理的流程来实现数据挖掘中的数据预处理的过程.

参考文献:

〔1〕白凤伟.数据预处理系统的几个关键技术研究与实现[D].北京交通大学,2012.

篇9

[关键词] 数据流 数据流挖掘 模型 算法

近年来,随着计算机技术和通信网络技术的蓬勃发展,由于众多应用领域的需求,数据流处理问题,特别是基于数据流的挖掘问题已受到越来越多的研究人员关注。

一、数据流以及数据流挖掘

1.数据流。数据流由一系列按序到达的数据组成,也可看作是信息传输过程中经编码处理的数字信号串。若令t表示任一时间戳,at表示在t时刻到达的数据元素,则数据流可以表示为无限集合{…,at-1,,at,at+1,…}。

2.数据流挖掘。数据流挖掘就是在数据流上发现提取隐含在其中的。人们事先不知道的,但又潜在有用的信息和知识的过程。流数据挖掘方面的研究主要包括多数据流挖掘和单数据流挖掘,挖掘多条数据流的主要目的是分析多条并行到达的数据流之间的关联,对单数据流的挖掘则涵盖了分类、频繁模式挖掘、聚类等多项传统数据挖掘中的主要任务,挖掘变化的数据流是一项特殊的任务,目前主要是以单数据流为对象进行研究的。

二、数据流挖掘的模型

按算法处理数据流时所选取的时序范围,数据流模型可分为以下几类。

1.快照模型:处理数据的范围限制在两个预定义的时间戳之间。

2.界标模型:处理数据的范围从某一个已知的初始时间点到当前时间点为止。

3.滑动窗口模型:处理数据的范围由某个固定大小的滑动窗口确定,此滑动窗口的终点永远为当前时刻,其中,滑动窗口的大小可以由一个时间区间定义,也可以由窗口所包含的数据项数目定义。

典型的数据流挖掘模型如图所示。

三、数据流挖掘算法

目前数据流挖掘方面的研究成果主要集中在数据流的聚类、分类和频繁模式挖掘方面。

1.数据流分类算法。数据流分类就是提出一个分类模型(或函数),并通过单遍扫描数据流,持续地利用分类模型将数据对象(数据流的数据点或元组等)映射到某一个给定的类别中。P.Domingos 和 G..Hulten他们提出了一种Hoeffding决策树分类算法VFDT(Very Fast Decision Tree),使用恒定的内存大小和时间处理每个样本,有效地解决了时间、内存和样本对数据挖掘,特别是高速数据流上的数据挖掘的限制。VFDT使用信息熵选择属性,通过建立Hoeffding树来进行决策支持,并使用 Hoeffding 约束来保证高精度地处理高速数据流。

由于VFDT算法假设数据是从静态分布中随机获取的,所以不能反映数据随时间变化的趋势。因此,P.Domingos和G..Hulten引入了滑动窗口技术,对VFDT算法进行改进,提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的优点外,增加了对数据产生过程中变化趋势的检测和响应,使得算法更好地适应对高速时变流数据的分类。

2.数据流聚类算法。流数据本身所具有的特征使得传统的聚类算法不可能直接应用于(甚至不能应用于)流数据聚类, 数据流聚类算法就是通过单遍扫描数据流,持续地将数据流数据对象(数据点、元组等)分组成多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇间的数据对象的相似度很小。近年来,学者们提出的应用于大规模数据集的一趟聚类算法,如Squeezer算法和BIRCH算法,也可以应用于某些数据流问题,也有学者提出了针对流数据的聚类算法,典型的有STREAM算法和CluStream算法。

3.数据流频繁模式挖掘算法。数据流频繁模式挖掘就是单遍扫描数据流,来连续地发现其中的频繁项集。频繁项集是满足最小支持度的项集(Itemset)。对于数据流上的频繁项集挖掘的研究方法大多数都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用倾斜时间窗口技术来维护频繁模式以解决时间敏感问题,研究了在数据流中构造、维护和更新 FP-stream 结构的有效算法,提出了计算和维护所有频率模式并动态更新它们。建立一个框架来挖掘带近似支持度的时间敏感模式,为每个模式在多时间粒度上增量维护一个倾斜时间窗口,在这种框架下可以构建和回答感兴趣的查询。

四、结语

由于数据流具有独特的性质,对其进行挖掘是一个挑战性的问题,当前的有关算法的研究有很多是在传统的增量式挖掘技术基础之上发展而来的,探索数据流挖掘技术与传统的静态数据挖掘技术之间的本质区别,提出更有效、新颖、快速挖掘算法是当前研究面临的重要问题。

参考文献:

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 钱卫宁 周傲英:流数据分析与管理综述.软件学报,2004,15(8):1172~1181

篇10

关联规则最初是针对购物篮分析问题提出的,目的是发现事务数据库(TransactionDatabase)中不同商品之间的联系。关联规则是形如A=》B的蕴涵式,其中A称为该关联规则的前项,B称为该关联规则的后项。事务,是一个明确定义的商业行为,如顾客在商店购物就是一次典型的事务。由用户设定的支持度和置信度的门槛值,当sup-port(A=>B)、confidence(A=>B)分别大于等于各自的门槛值时,认为A=>B是有趣的,此两值称为最小支持度(minsupport)和最小置信度(minconfidence)。同时满足minsupport和minconfidence的这种关联规则就叫做强的关联规则。设任务相关的数据D是数据库事物的集合,当项集的支持计数≥D中事务总数|D|与minsup-port的乘积时,就叫做频繁项集,当项集的支持计数可能≥D中事务总数|D|与minsupport的乘积时,就叫做侯选项集。所有侯选项集K-项集的集合记作Ck,所有频繁项集K-项集的集合常记作Lk,很明显Lk奂Ck。如果仅依赖最小支持度和最小置信度这两个参数的限制,所挖掘出的强关联规则不一定是用户感兴趣的,因此,用户可以根据实际应用的需求,再结合自身的领域知识,通过选择与实际分析任务有关的数据集,设置不同的参数,限定前项和后项的个数,选择前项和后项包含的属性等操作,对关联规则的挖掘进行约束。

2模糊集理论的引入

在讨论实际问题的时候,需要判定模糊概念涵义,如判断某个数据在模糊集的定义和归属,这时就需要普通集合与模糊集合可依某种法则相互转换。模糊理论中的截集是模糊集合和普通集合之间相互转换的一座桥梁。

3基于事务间数值型关联规则的数据挖掘算法

假设有一就业数据库,先通过数据整理,将原始数据记录值区间[0,10]偏置10个单位。由此就得到了经过偏置后的数据库记录。再依滑动窗口方法,设maxspan=1(该值可以依实际情况的需要来定),就可将偏置后的数据库数据整理转化为扩展事务数据库。再把扩展事务数据库记录通过隶属度函数转化为对应的隶属度。

4结语