数据挖掘技术范文
时间:2023-04-07 12:19:17
导语:如何才能写好一篇数据挖掘技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)34-2030-03
Brief Analysis of Data Mining Techniques
WEI Xiao-ling
(Department of Primary education, Qinzhou University, Qinzhou 535000, China)
Abstract: Data mining techniques is an emerging research field in database and artificial intelligence.Is present widespread research data bank technology Is present widespread research data bank technology, It may refine usefully, the latent information from the massive data, After ten several years research and application, Had already established the quite solid rationale, at present, is closely integrated with applications, Further reform of the existing technology development.
Key words: data mining; methods; data mining; techniques data warehouse
1 引言
随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大,传统的数据处理方式已很难充分利用蕴藏在这些数据中的有用知识,为适应这种需求 ,数据挖掘(Data Mining,DM)应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
从80年代末数据挖掘开始出现,短短二十多年它的发展速度很快。目前数据挖掘技术在零售业的购物篮分析、金融风险预测 、产品质量分析、通讯及医疗服务 、基因工程研究等许 多领域得到了成功的应用.很多专题会议也把数据挖掘和知识发现列为议题之一。
2 数据挖掘技术概述
所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。
3 数据挖掘技术功能
1) 自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
2) 关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
3) 聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
4) 概念描述
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
5) 偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
4 数据挖掘常用技术
在数据挖掘中最常用的技术有:
人工神经网络:人工神经网络方法从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型。 它将每一个连接看作一个处理单元(PE),试图模拟人脑神经元的功能。它可以完成分类、聚类、特征挖掘等多种数据挖掘任务。
决策树:决策树是数据挖掘中经常要用到的一种技术,可以用于分析数据,同样也可以用来作预测。它利用树的结构将数据记录进行分类,树的一个叶结点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,便可生成一棵决策树。常用的算法有CHAID、 CART、 Quest 和C5.0。
遗传算法:遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。其基本思想是基于 Darwin的进化论和 Mendel的遗传学说。该算法由密执安(Michigan)大学教授 Holland及其学生于 1975年创建。与传统搜索算法不同,遗传算法从一组随机产生的初始解,称为种群(Population),开始搜索过程。种群中的每个个体是问题的一个解,称为染色体(Chromone)。染色体是一串符号,例如一个二进制字符串。这些染色体在后续迭代中不断进化,称为遗传在每一代中用适应度 (Fitness)来衡量染色体的好坏。生成下一代染色体,称为后代(Offspring)。后代是由前一代染色体通过交叉(Crossover)或变异(Muration)运算形成。根据适应度大小选择部分后代淘汰部分后代,从而保持种群大小是常数。适应度高的染色体被选中的概率高。这样,经过若干代之后,算法收敛于最好的染色体,它很可能就是问题的最优解或次优解。
近邻算法:将数据集合中每一个记录进行分类的方法。
规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。
5 数据挖掘技术实现
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
1) 数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。
2) 数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。
3) 数据的展现
在数据展现方面主要的方式有:
查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。
4) 数据挖掘一般过程
图1描述了数据挖掘的基本过程和主要步骤。
过程中各步骤的大体内容如下:
5.1 确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的
5.2 数据准备
1) 数据的选择
搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
2) 数据的预处理
研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。
3) 数据的转换
将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
5.3 数据挖掘
对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
5.4 结果分析
解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。
5.5 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
6 数据挖掘技术的应用
应用是数据挖掘技术的发展动力,数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力 ,且这种趋势正在以前所未有的速度继续向前发展。尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。具体应用实例如:IBM公司开发的QUEST和Intelligent Miner系统可以挖掘顾客的购物行为模式,预测销售行情。AT& T实验室开发了Hancock系统,该系统主要处理电信数据流,分析电话呼叫记录。Bell通信研究所的Tribeca则是一个用于网络监控的系统。Google公司利用其数据挖掘技术Page Rank,在短短的几年内打败所有竞争对手成为Internet上的赢家。
7 结束语
数据挖掘是当前计算机工业最热门的研究领域之一。它是一个不断发展的、综合交叉的学科。随着数据挖掘成功案例的广播,越来越多的行业采用数据挖掘技术,它将会被广泛而深入地应用于人类生活的各个领域。
参考文献:
[1] 张士玲,杨林楠,孙向前,等.浅论数据挖掘技术[J].福建电脑,2005(8):61-62.
[2] 杨雪.浅析数据挖掘技术[J].华南金融电脑,2005(8):83-85.
[3] 张倩.数据挖掘技术综述[J].甘肃科技,2005,21(7):92-93.
[4] 黄晓霞,萧蕴诗.数据挖掘应用研究及展望[J].计算机辅助工程,2001(4):23-29.
篇2
【关键词】数据仓库;数据仓库应用;OLAP;联机分析处理
数据仓库技术是计算机数据库系统发展的新方向,近几年来已经在许多领域得到了应用。以数据仓库为基础的商业职能系统强大的功能在实际应用中能带来高利润的回报,所以近年来数据仓库在众多领域得到了越来越广泛的应用。对于大量存在于计算机信息系统中的数据,通过数据仓库、联机处理技术和数据挖掘技术,对数据进行加工、分析、产生用于决策支持的信息,得以充分利用。
1 数据库技术概念及特征
1.1 数据仓库概念
数据仓库就是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,即对分布在企业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。
1.2 数据仓库的特征
①面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
②集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上,经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
③相对稳定的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
④反映历史变化。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
2 数据仓库的分析技术
OLAP是数据处理的一种技术概念。OLAP的基本目的是使企业的决策者能灵活地操纵企业的数据,以多维的形式从多面角度来观察企业的状态、了解企业的变化,通过快速、一致、交互地访问各种可能的信息视图,帮助管理人员掌握数据中存在的规律,实现对数据的归纳、分析和处理,帮助组织完成相关的决策。
根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多维信息的快速分析。OLAP通过对多维信息以很多种可能的观察方式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入的观察。基于操作型数据环境的OLTP(联机事务处理),其基本操作是通过经典的SQL语句实现的。而OLAP多维数据分析是指对多维数据采取切片、切块、钻取、旋转等各种分析操作,以求剖析数据,使最终用户能从多角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息、内涵。数据仓库系统一般都支持OLAP的这些基本操作,也可以认为是一种扩展了的SQL操作。
2.1 联机分析处理的主要特点
OLAP是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,在这里,维指的是用户的分析角度。例如对销售数据的分析,时间周期是一个维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维数据模型建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理在近年来被广泛关注的根本原因,它从设计理念和真正实现上都与旧有的管理信息系统有着本质的区别。
2.2 联机分析处理与数据仓库的关系
事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策管理信息系统的解决方案。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。
概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。
从应用角度来说,数据仓库系统除了联机分析处理外,还可以采用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实际上只是数据仓库系统的一部分。
联机分析处理的用户是企业中的专业分析人员及管理决策人员,他们在分析业务经营的数据时,从不同的角度来审视业务的衡量指标是一种很自然的思考模式。例如分析销售数据,可能会综合时间周期、产品类别、分销渠道、地理分布、客户群类等多种因素来考虑。这些分析角度虽然可以通过报表来反映,但每一个分析的角度可以生成一张报表,各个分析角度的不同组合又可以生成不同的报表,使得IT人员的工作量相当大,而且往往难以跟上管理决策人员思考的步伐。
3 数据挖掘技术
3.1 数据挖掘的概念
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。随着人工智能技术在专家咨询、语言处理、娱乐游戏等模式识别领域的应用日益广泛。从选取专业学习、研究方向的实际出发,提出了将数据挖掘应用于辅助选取专业学习、研究方向的数据挖掘技术流程模型。
3.2 数据挖掘技术的过程
数据挖掘技术是一个多步骤、可能需多次反复的处理过程。主要包括以下几步:准备、数据选择、数据预处理、数据缩减、确定数据挖掘的目标、确定知识发现算法、数据挖掘(Data Mining)、模式解释、知识评价。其中最重要的一个步骤是数据挖掘,它是利用某些特定的知识发现算法,在可接受的运算效率的限制下,从有效数据中发现有关的知识。
数据挖掘技术主要有四种开采任务:
(1)数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘是从数据泛化的角度来讨论数据总结。
(2)分类发现这是一项非常重要的任务,分类是运用分类器把数据库中的数据项映射到给定类别中的某一个,用于对未来数据进行预测。
(3)聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体间的距离尽可能的大。
(4)关联规则是指事物之间的联系具有多大的支持度和可信度。有意义的关联规则必须给定两个阈值:最小支持度和最小可度。
3.3 数据挖掘在实际生活中的应用
数据挖据的结果经过业务决策人员的认可,才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家认识结合在一起,构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用,才能对数据挖掘的成果做出正确的评价。但是在应用数据挖掘成果时,决策人员所关心的是数据挖掘最终结果与用其他候选结果在实际应用中的差距。为将数据挖掘结果能在实际中得到应用,需要将分析所得到的知识集成到业务信息系统的组织机构中去,使这些知识在实际的管理决策分析中得到应用。
数据挖掘不一定需要建立在数据仓库基础上,但以数据仓库为基础,对于数据挖掘来说源数据的预处理将简化许多。另外为了保证结果的正确性,数据挖掘对基础数据量的需求是巨大的,数据仓库可以很好地满足这个要求。
【参考文献】
[1]谢邦昌.数据挖掘基础与应用[M].机械工业出版社,2012-01.
篇3
信息技术的不断推广应用,将企业带入一个信息爆炸的时代。每时每刻都有潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息的处理类型主要分事务型(操作型)处理和信息型(分析型)处理两大类。事务型处理也就是通常所说的业务操作处理。这种操作处理主要是对管理信息进行日常的操作,对信息进行查询和修改等,目的是满足组织特定的日常管理需要。在这类处理中,管理者关心的是信息能否得到快速的处理,信息的安全性能否得到保证,信息的完整性是否遭到破坏。信息型处理则是指对信息做进一步的分析,为管理人员的决策提供支持。
1.1 数据仓库的定义
业界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定。
数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发展规律的决策。因此,在很多场合,决策支持系统也成了数据仓库的代名词。建立数据仓库的目的是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策和分析人员使用。
1.2 数据仓库的特点
从W.H.Inmon关于数据仓库的定义中可以分析出数据仓库具有这样一些重要的以下特性。
1.2.1 面向主题性
面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。
1.2.2 集成性
所谓集成性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。
1.2.3 时变性
所谓时变性是指数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系统地记录了企业从过去某一时点到目前的数据,主要用于进行时间趋势分析。
1.2.4 非易失性
数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。
1.3 数据仓库的技术体系结构
一个数据仓库系统的技术体系结构总体来说包括后台数据预处理,数据仓库,数据管理和数据仓库的前台查询服务三大部分。
数据仓库中的数据来自企业内部不同的业务系统甚至企业外部的商业数据库,这些数据库对于数据仓库来说被称为数据源。数据源中的数据在数据的组织方式、数据格式等许多方面与数据仓库对数据的要求有很大的差别,因此这些数据不可能直接载入数据仓库的数据库中,为此必须进行数据的预处理操作。数据的预处理包括数据源的定义、从数据源提取数据到预处理数据区(数据准备区)、在数据准备区中对数据进行净化处理、作必要的转换、再将数据加载到数据仓库,等等。实现这部分功能的是数据仓库的后台数据预处理部分。
数据仓库的应用服务部分提供了各种应用工具,使用这些工具可以对数据仓库中的数据进行复杂的查询分析和知识挖掘等等。没有一种工具可以满足所有的应用需求。可选择的工具大致分为:数据挖掘工具:数据挖掘是基于人工智能来分析数据的一种技术,通过对数据仓库中数据的分析去发现一些用户可能没有想到的模式和数据关系。特别查询工具:特别查询提供了一种能力,使得分析人员可以提交一些特别的问题,并产生相应的结果。在线分析处理(OLAP,On-Line Analytical Processing):在线分析处理以数据立方体或多维的方式来查看数据,允许用户进行钻取以获得更详细或更概括的数据,或者对不同的“维”如时间、商品等进行切片操作。OLAP工具可用于对商业问题进行分析,是最常用的辅助决策工具。
2、数据挖掘
2.1 数据挖掘的概念
数据挖掘是指从大量的数据中提取有用的信息和知识的过程。所发现的信息和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的知识。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等。
数据挖掘也可视为是一类深层次的新型数据分析方法,它与传统的数据分析的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息通常是预先未知的、也是很难预料到的,甚至与人的直觉是相背的,但又是非常有用的;而传统的数据分析得到的信息则是浮在表面的、人的直觉能够感受到的、或与人的直觉较为相近的。
2.2 数据挖掘的过程
数据挖掘过程,可以概括为数据准备、数据挖掘及结果的解释和评价三部分。
2.2.1 数据准备
数据准备一般包括三个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗“脏数据”等。数据选择的目的是辨别出需要分析的数据集合,即目标数据(Target Data),是以用户需求驱动的从原始数据库中抽取的一组数据,它使处理范围缩小,提高数据挖掘的质量。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换,预处理目的是为了克服目前数据挖掘工具的局限性。
2.2.2 数据挖掘
数据挖掘阶段首先要决定挖掘的任务或目标,确定了任务或目标之后我们才能决定使用什么样的挖掘方法。确定挖掘任务后选择合适的算法,可进行数据挖掘操作,获取相应的模式。
2.2.3 结果的解释和评价
经过数据挖掘阶段后,获得了一些模式结果,但通常存在冗余或无关的模式。有可能这些模式不满足用户要求,这时则需退回到发现过程的前面阶段,可能需要获取新的数据,采用新的数据预处理方法,换一种挖掘方法等等。
2.3 数据挖掘技术
数据挖掘技术主要分为:关联分析、时序模式、聚类、分类、偏差检测和预测等。
2.3.1 关联分析
关联分析用来发现关联规则。它是从数据库中发现知识的一类重要方法。关联分析广泛用于购物篮或事务数据分析。
2.3.2 时序模式
时间序列模式是用变量过去的值来预测未来的值。比如可以用前六天的数据来预测第七天的值,这样就建立了一个区间大小为7的窗口。
2.3.3 聚类
聚类是把整个数据库分成不同的组群。它的目的是使得群与群之间差别很明显,而同一个群内的数据尽量相似。划分出来的组群具有一定的意义,我们称为类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离较大。
2.3.4 分类
数据挖掘应用最多的任务要属分类。分类找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类。该模式能把数据库中的元组映射到给定类别中的某一个。
2.3.5 偏差检测
所谓偏差检测就是在数据分析中发现有很多异常情况存在于数据库中,我们根据这种异常情况可以获得很多有用的信息
2.3.6 预测
预测可以利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布趋势等。
2.4 数据挖掘面临的主要问题及对策
2.4.1 数据挖掘面临的主要问题
数据挖掘在不断的实际应用中,正不断地吸取各种领域的经验而逐渐成熟。从目前的情况来看,在运用现代数据挖掘技术时还需要注意一些问题,如数据挖掘任务、数据挖掘方法、用户交互、挖掘性能和数据类型多样性等问题。
2.4.2 主要对策
针对数据挖掘现在面临的主要问题,所应用的对策有以下一些:(1)与数据仓库技术结合。数据仓库可以为数据挖掘提供经过清洗的和转换的、完整的数据资源。(2)挖掘多种类型的知识。数据挖掘除了最常见的关联与分类之外,还有许多重要的任务待进一步的开发,包括聚合、预测模型以及时间相关分析等等。(3)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,如SQL语言一样的形式化和标准化。(4)可视化数据挖掘。寻求数据挖掘过程中的可视化方法,使知识发现的过程便于用户的理解,也便于在知识发现的过程中进行人机交互。(5)高效的数据挖掘。高效性和可伸缩性是目前数据挖掘算法的焦点之一,随着并行的、分布式的以及增长式的数据挖掘技术的研究与发展,这种趋势将会继续得到进一步的发展。(6)数据挖掘的应用。更加广泛的将数据挖掘技术应用于现实世界也是一个非常重要的研究方向。
3、数据挖掘与数据仓库的关系
3.1 数据挖掘是数据仓库发展的必然结果
随着大量数据被收集,从原始数据中得到有价值的决策信息越来越困难,于是新的数据库的体系结构产生了,即出现了数据仓库。数据仓库中存放的是从原始数据中经过计算和统计后得到的满足决策者需要的数据,这种数据也被称为是信息型或分析型数据。联机分析处理工具是基于数据仓库的信息分析处理过程,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力,但对于深层次的分析,如数据分类、聚类和数据随时间变化的特性,仍然需要其他分析工具。数据挖掘可以看作是联机分析处理的高级阶段。
3.2 数据仓库为数据挖掘提供应用基础
从数据挖掘的定义可以看出,数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将获得意外的成功。
4、结语
本章主要介绍了数据仓库的概念、特点和体系结构,以及数据挖掘的概念、数据挖掘的过程和数据挖掘的技术,和数据挖掘面临的主要问题及对策,最后分析了数据挖掘与数据仓库的关系。为数据挖掘与数据仓库的实际运用打下坚实的理论基础。
参考文献
[1]吴庆慧.在金融数据库营销中的一种数据挖掘与决策分析的方法.中国科学技术大学学报,2009,39(2):208~214.
[2]高祥涛.数据挖掘在水文相似年查找中的应用研究.计算机工程与应用,2009,45(5):243~245.
篇4
【关键词】信息时代;数据;利用;挖掘;应用
1.数据挖掘的起源
随着科学技术的日新月异,信息正在处于爆炸的时代,但是在数据庞大的背后,人们对其利用和提取的价值是有限的,有时候是不能满足现实的需要。当前大部分只是对所有的数据进行储存、统计、查询,很难找出数据背后存在的某种关系和规律,更不能对数据的未来发展进行准确的预测。这也就导致了虽然信息数据非常多但是价值却占到很少的一部分。正是因为有这种情况的产生,信息挖掘技术才会得到发展和应用。
2.数据挖掘的定义
所谓的信息挖掘通过对一些已有的数据存在不确定性、信息量大、不完整的数据进行分析提取,提取出数据背后存在的一些价值和有用的信息。通过对这些数据的分析提取为一些技术部门和相关的人员的战略决策提供很大的支持。
3.数据挖掘的过程
数据的挖掘是通过数据挖掘算法提取出数据模型,还有就是针对数据挖掘所采取的一些方法和步骤,一般都是经历几次甚至多次的处理过程。最后才会在数据上提取到其存在的潜在价值,整个过程主要包括一下几个阶段。
(1)目标定义阶段
做任何事情之前通过对将要做的事情进行计划分析,然后制定对所做这件事情需要达到的目标,这样事情就会很容易成功。数据挖掘也不例外,在对数据进行挖掘的时候,需要相关的人员了解和明确对所挖掘的数据要达到的目的,这也很大程度上会决定数据挖掘的成功与否。因此相关人员要在指定明确的目标,然后选择一定的技术手段和方式对数据进行挖掘。
(2)数据准备阶段
根据已有的数据挖掘目标,就应该对所有的数据进行分析处理,大略的挑出能达到目标的一些数据,剔除一些没有意义的数据。还有就是对数据进行一些变化,主要就是为了能够在一些有特征的数据找出符合要求的数据,减少在数据挖掘过程中需要考虑的其他因素。
(3)数据挖掘阶段
这个阶段是整个数据挖掘阶段最重要、最核心的阶段。相关的工作人员应该在已有的数据挖掘目标的基础上选择合理、科学的数据挖掘方法对数据进行挖掘,提取出数据背后隐藏的价值。
(4)数据挖掘结果解释和评估阶段
首先应该对数据挖掘出来的信息进行研究,把最终满足要求的数据提取出来。因为数据的挖掘的最终目的就是为客户服务,所以还应该针对客户的一些特殊要求对挖掘出来的数据进行提炼,经过客户对所挖掘的数据结果的评估后,将一些不满足要求的数据剔除。还有就是把挖掘的数据应该进行合理的优化使其更加人性化,给客户优质的服务。
4.数据挖掘的研究方向
(1)对于数据挖掘系统来说,其不可能对各类型的数据进行数据挖掘,因此应该针对不同类型的数据研究出不同的数据挖掘系统,这样就可以在数据挖掘时能够快速、高效的对数据进行挖掘。
(2)数据挖掘系统应该具备能够对数据进行高效率的挖掘,因为随着信息化时代的到来,数据会越来越多,越来越复杂。如果其系统不能高效的工作,会很大程度上影响到数据挖掘的整体进度。
(3)数据挖掘结果的准确性、通俗性以及有效性也是数据挖掘所需要达到的,只有这几方面都能满足要求,才会能够很好的服务客户。
(4)随着信息时代和科学技术的快速发展,人们也越来越关注到一些个人隐私。所以在对数据挖掘的过程中不应该侵犯到他人的隐私。还有就是对挖掘出来的数据有一定的安全保护措施,防止数据丢失。
(5)挖掘出来的数据也应该能够及时的和现有的数据进行结合和补充,这样就能使数据得到更广泛的应用和利用。
5.数据挖掘的应用领域
随着科技的不断发展和信息化时代的到来,数据挖掘技术也取得了一些成就,在许多行业也得到了一定的应用
(1)科学研究
因为许多科学研究的数据的大量性、复杂性使得一般的分析工具很大对数据进行分析、提取,因此数据挖掘技术在这种情况下深受科学研究方面的广大欢迎,其也在这个行业得到了快速的发展和应用。通过数据挖掘在科学研究的应用,促进了科学的快速发展,使其能够为社会提供有价值的科学成果,为国家做出贡献。
(2)风险分析和欺诈辨别
因为许多行业的数据存在具有庞大性、真假难辨性,所以对这些数据进行挖掘分析,分析出有价值、真的数据,防止因为假的数据给我们带来的不必要的麻烦。还可以经过对数据的挖掘分析提高对风险的分析能力。还有就是一些行业的数据可能被不法分子利用对人们进行欺诈,通过数据挖掘可以对这些数据进行辨别,从而避免了经济损失。
(3)制造业的应用
数据挖掘一般就是对制造业的制造部件的缺陷进行分析,通过分析挖掘出能够优化制造部件的数据,从而避免制造部件的缺陷。
(4)学校教育的应用
学校的数据也是非常庞大、复杂的,因此数据挖掘也在学校的各个信息系统得到了一定的应用。学校通过数据挖掘挖掘出对学校、老师、学生有价值的数据,从而让学校科学的管理,老师更加高效的工作和教学,学生更加高效的学习。
参考文献:
[1] Jiawei Han.Data Mining:Concepts and Techniques[M].机械工业出版社.2004
[2] 刘同明等.数据挖掘技术及其应用[J].北京:国防工业出版社.2001.(9)
[3] 康晓东.基于数据仓库的数据挖掘技术[J].北京:机械工业出版社.2004.(1):131~175
篇5
关键词:数据挖掘;关联规则
中图分类号:TP311.13
1 数据挖掘技术
1.1 数据挖掘概念
所谓数据挖掘,简单理解就是从海量数据中挖掘出对用户有利用价值的信息,并根据分析结果判断数据与数据之间的关系。人们利用数据技术的主要目的就在于从混乱的数据信息中分析出能够对未来经营策略有用的信息,进而能够更好更高效的经营企业,获得更多经营利润。
1.2 数据挖掘技术分类
关于数据挖掘针对其挖掘的对象,大致的可以做出以下分类,具体分为时态数据库、异质数据库、文本数据源、关系数据库面向对象数据库(Object-Oriented Database)、空间数据库、遗产数据库、多媒体数据库以及web等比较具有针对性的挖掘对象。针对数据挖掘的方法大致的可以归纳为:计算机学习法、数理统计法、信息聚类分析法、遗传算法Genetic Algorithm、神经网络 Neural Network探索性分析法、不确定性推理和近似推理法、数据分析法、证据理论和元模式法、数据集成方法、当代数学分析法等。
1.3 数据挖掘应用分析
随着当前计算机技术和信息技术的飞速发展,数据分析已经成为当前各行各业的重要研究内容,数据挖掘技术可以说是时展的产物。传统意义上的数据收集已经很难以应付当前数据信息瞬息万变的局面,企业需要发展就需要高价值率的数据库作保证。企业在市场竞争中,只有掌握了最为准确的市场分析数据,才能够更好的去确定未来的发展方向,才能够更好的提高资金利用率。高层次数据分析是很多企业所面临的重点问题,不管是行政决策还是市场预判,均需要这类数据来提供可靠参考。所以,研究数据挖掘技术与关联规则挖掘算法具有非常重要的现实意义。
2 时态约束关联规则挖掘问题及算法
2.1 聚焦挖掘任务,提高挖掘效率
早期的数据挖掘理论主要研究方向是模型建立及挖掘算法设计,不同企业所收集数据类型不同,所以在实际使用过程中模型及算法的确定也不同。传统数据挖掘过程,首先需要做的是对提供的数据库进行全面分析,然后再结合用户需求进行更为深入细致的研究,制定出最佳数据挖掘模型,如果最终所得到的分析结果并未达到用户满意,则重新分析研究制定模型进行二次数据挖掘。算法也是影响数据挖掘结果的关键,不同算法在不同模型下所得到的结果也不同,因此制定数据挖掘模型及算法是用户是否能够得到预期结果的重要参数。
2.2 保证挖掘的精确性
虽然数据挖掘的目的是为了能够帮助用户获得更多有价值的参考结论,但其结果具有不可预测性的特点。数据挖掘过程中算法的运用还会设计很多问题,这些问题的出现肯定会对最终的结果可靠性造成一定影响,因此必须要在算法中加入反馈机制,以便于在计算过程中对结果进行测试和修正。
3 数据分割下的挖掘问题及算法
对于理论基础比较成熟的算法――Apriori算法,研究的侧重点已经变为效率问题,人们也提出了各种的改进算法,本文选区几种比较有代表性的加以介绍。
3.1 减少事务的个数
如果在事务处理过程中去除长度小于k的项目集,那么在后期计算过程中肯定不会再出现长度为k+1的项目集。因此,在数据挖掘过程中我们可以通过算法直接将无用事务滤除,以便于在下轮扫描过程中简化操作过程,提高数据挖掘效率。
3.2 基于划分的方法
这类算法的比较典型的是频繁项目生成算法,该算法原理在于:把数据库分解成逻辑上互不交叉的部分,而每次只需要单独考虑一个分块,在这样的分块中,研究怎样能够发掘频繁项目集;而对于怎样将数据进入存储中,可以把需要处理的分块放入计算机内存中,这样有利于算法的并行处理,数据量相对于不分块前减少,提高了数据挖掘的速度。
3.3 基于采样的方法
数据库抽样计算的目的是获得更直接的规则,进而能够方便于后期的数据挖掘过程,通过抽样检验我们可以更为直观的判断关联规则是否有效,是否能够更加简便的获得用户所需目标。基于采样的数据挖掘算法在实现方法上要容易一些,而且还可以最大限度的降低数据挖掘过程所需要提供的I/O成本。但同时这种算法也会使得抽样数据随机性大大增加,进而使得数据挖掘过程中出现的问题增多,给数据挖掘带来额外负担。基于统计学理论的抽样算法,虽然在计算精度上无法与其他算法相媲美,但如果我们结合相关数据挖掘理论进行更为深入的分析研究,还是能够在精度上进行一定的弥补。
4 交互式的可视化方法
关联规则可视化研究是当前关联规则挖掘在数据挖掘技术走向实用化的重要内容之一,通过直观的、易懂的方式展现给用户是关联规则挖掘是否能够高效应用的关键。当前社会上可视化方法中使用最为广泛的是有向图、2D矩阵、3D显示等几种,这些方法中已经在实际生活中得到了广泛认可。但它们均有一个共同的特点就是将数据挖掘所得到的所有结果一次性通过不同颜色或者不同形状展现在表或者图中,这种页面显示必然会存在一定的混乱性,以致于其显示效果大打折扣。正是在这种前提下,交互式可视化方法受到了研究人员的关注。交互式可视化方法显示方式为:
第一,从宏观上来把握项与项之间存在的关系,通过不同图形或者颜色来达到视觉突出的效果,进而能够让用户更加直观的看到数据挖掘结果。关联规则挖掘所得到的结果中不同项与项之间是使用线条连接起来的,在这种情况下,用户可以通过了解某一个项其内部的关联信息,进而解决由于线条过多而造成的页面混乱情况。
第二,从微观上更加精确的把握每一个关联规则的支持度和信任度,通过数字化的形式来给出挖掘结果的表示比,进而帮助用户更直观更准确的获得数据挖掘结果。
第三,从分类显示的角度出发,将数据挖掘所得出的没有使用价值的规则剔除,通过不同图形或者颜色来增加视觉效果,这样从根本上提高了数据挖掘可视化目的。
5 结束语
数据挖掘技术与关联规则挖掘算法所包含的内容有很多,本文只是简单介绍了其中较为重要的一部分。在今后的工作中,笔者将继续致力于该领域的研究工作,以期能够获得更多有价值的研究成果。
参考文献:
[1]孟海东,李丹丹,吴鹏飞.基于数据场的量化关联规则挖掘方法设计[J].计算机与现代化,2013(01):8-11.
[2]陆新慧,吴陈,杨习贝.空间关联规则挖掘技术的研究及应用[J].计算机技术与发展,2013(05):26-29+33.
[3]刘爱宏,史春燕.基于数据挖掘的现代物流信息系统管理问题研究[J].物流技术,2013(09):381-383.
篇6
1 空间数据挖掘研究概述
空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。
空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。
2 空间数据挖掘在GIS中的应用
空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
3 空间数据挖掘面临的问题
(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4 空间数据挖掘的发展趋势
(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。
(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。
篇7
[关键词]数据挖掘 企业 应用
[中图分类号]TP[文献标识码]A[文章编号]1007-9416(2010)02-0079-02
1 前言
数据挖掘能帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略,以用最小的花费得到最好的销售。
2 数据挖掘概述
数据挖掘是一种决策支持过程,是一类深层次的数据分析方法。它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性地推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的商业应用可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘,还可以称为数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的信息的高级处理过程。
2.1 数据挖掘是在数据库技术、人工智能技术、概率与数理统计的基础上发展起来的一种的技术。
2.1.1 数据库技术
SQL统治数据库查询语言标准三十多年这一事实本身就与现在 IT 发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查询转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少,只有不协调的两层,这样的结构就造成了只有程序员能编程,老板只能求助于这些“专家”。
2.1.2 人工智能技术
人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上,它可以发挥重要作用,这使得它转向数据挖掘技术。
2.1.3 概率与数理统计
数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从 SQL 中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化,概率与数理统计将获得新的生命力。
2.2 数据挖掘中最常用的技术:
2.2.1 工神经网络(Artificial Neural Networks)
人工神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。神经网络常用于两类问题:分类和回归。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。而神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构;神经网络的学习体现在神经网络权值的逐步计算上,为的是防止训练过度和控制训练的速度,如图1所示:
2.2.2 决策树 (Decision Tree)
决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据概述性字段的不同取值建立树的分支;在每个分支子集中重复建立树的下层节点和分支过程。决策树的基本组成部分:决策节点、分支和叶子。比如,在贷款申请中,要对申请的风险大小做出判断,为了解决这个问题而建立的一棵决策树,如图2所示:
2.2.3 临近搜索方法(Nearest Neighbor Method)
临近搜索方法将数据集合中每一个记录进行分类的方法。
2.2.4 规则推理(Rule Induction)
从统计意义上对数据中的“如果-那么”规则进行寻找和推导。
2.3 数据挖掘步骤
数据挖掘的数据分析过程可以分为三个步骤:
2.3.1 确定业务对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
2.3.2 数据准备(Data Preparation)
本阶段又可进一步细分为两步:数据集成、数据选择和预分析。
(1)集成(Integration)。在这一步中,将从操作型环境中提取并集成数据,解决语义二义问题,消除脏数据等等。很明显,数据集成的目的和所利用的技术与数据仓库的数据集成完全一致,都是为了建立统一的数据视图。数据挖掘不一定需要建立在数据仓库的基础上,但如果数据挖掘与数据仓库能协同工作,则必将大大地提高数据挖掘的工作效率。
(2)数据选择和预分析(Data Selection and Pre-Analysis)。这一步将负责缩小数据范围,提高数据挖掘的质量,前面提到的验证型工具长于对数据的细致,深入地观察和表述,在这一步中可以发挥相当的作用。
2.3.3 挖掘(Mining)
数据挖掘(Data Mining processor)综合利用前面提到的四种数据挖掘方法分析数据库中的数据。
2.3.4 表述(Presentation)
与验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。由于用户要求的不同,DM分析的数据的范围会有所不同,这样DM系统会得出不同的结论。这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外还可以存储在知识库中,供日后进一步分析和比较。
2.3.5 评价(Assess)
如果分析人员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。
3 数据挖掘在企业决策过程中的作用
3.1 数据挖掘的功能
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘就是对海量数据进行精加工。严格地说,数据挖掘是一种技术,从大量的数据中抽取出潜在的、不为人知的有价值信息、模式和趋势,然后以易于理解的可视化形式表达出来,其目的是为了提高市场决策能力、检测异常模式、控制可预见风险、在经验模型基础上预言未来趋势等。数据挖掘技术在商业领域已经不是一个新名词,最早成功应用于高投入、高风险、高回报的金融领域,正在不断向电信、保险、零售等客户资源信息密集的行业拓展。美国财富杂志500强之一的第一数据公司(First Data Corp.)就在为第一国家银行(First National Bank)、美国在线交易(Ameritrade holding Co.)、奥马哈保险公司(Mutual of Omaha Co.)等著名的金融证券和保险公司提供数据挖掘的产品服务,这些企业在风险控制、挖掘客户、降低成本方面的年收益数以亿计。
3.2 在企业决策过程中利用数据挖掘的作用
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
目前,商业数据挖掘的应用重点集中在对企业内部信息资源的加工处理,指导企业运营的战术策略的实施。具体地说,就是在以客户需求为价值源泉、进销存为价值链的各环节进行数据增值分析,并将分析结果迅速向链条的上一环节传递,调整链条上游的执行达到改善下游环节执行结果的目的,最终形成以客户终端需求为导向的价值增值。
部分企业资源计划软件中集成了对计划、生产、产品销售进行数据挖掘的模块,能够提供商业智能的分析结果;另外,客户需求的价值链终端是另一个数据挖掘技术应用的重点,客户关系管理的目的就是创造、挽留客户并不断升级对客户的服务,以保证企业利润的持续增长。“以客户为中心”的数据挖掘内容涵盖了客户需求分析、客户忠诚度分析、客户等级评估分析等三部分,有些还包括产品销售。
客户需求分析包括:消费习惯、消费频度、产品类型、服务方式、交易历史记录、需求变化趋势等因素分析。
客户忠诚度分析包括:客户服务持续时间、交易总数、客户满意程度、客户地理位置分布、客户消费心理等因素分析。
客户等级评估分析包括:客户消费规模、消费行为、客户履约情况、客户信用度等因素分析。
产品销售分析包括:区域市场、渠道市场、季节销售等因素分析。
然而,数据挖掘不仅仅用于客户关系管理,ERP更不能够完全覆盖数据挖掘的整个内涵。企业数据挖掘的内容不仅包括企业的内部信息资源,更包括大量的企业外部信息资源。商业数据挖掘的下一个应用热点将建立在两类信息资源充分整合的基础上。
相对于内部信息资源而言,企业外部的宏观政策环境、市场需求动向和竞争对手情报等信息资源左右着企业战略决策与宏观发展规划,也直接决定企业市场战术策略的实施,所以对信息资源的整合利用以及竞争情报分析将成为企业级数据挖掘应用的重点。
以IBM为例,为了导正企业战略决策方向,IBM于1993年提出三项竞争策略:立即加强对竞争对手的研究、建立一个协调统一的竞争情报运行机制以及将可操作的竞争情报运用于公司战略、市场计划及销售策略。其新的竞争策略通过研究市场格局和竞争对手的状况、合理定位并改善自身的产品和服务两个途径有效地提升了企业核心竞争力,采用的竞争情报运行机制及竞争情报规划能够把全公司的竞争情报力量集中于主要的竞争对手和主要威胁,不断地优化现有的情报资源。
随着企业市场竞争的日益加剧,企业竞争情报已经不限于原有意义上的数据采集、整理、分类、的概念,“在线”需求逐步超越“离线”需求,“受动式服务”正为“主动式、自助式”服务所取代,数据挖掘技术已经成为“信息分析”这个企业竞争情报系统中核心模块的技术支撑。“数据在线服务”和“竞争情报个性化服务”将成为企业级数据挖掘应用的新热点需求,也将成为知识经济下新兴的数据服务模式。
4 结语
数据挖掘的核心技术是人工智能、机器学习、统计学等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列任务,最后将分析结果呈现在用户面前。
[参考文献]
[1] 胡百敬,SQL Server 2000 数据转换服务[M],北京:中国铁道出版社,2003.1.
[2] Reed Jacobson,SQL Server 2000 Analysis services 学习指南[M].北京:机械工业出版社,2001.
[3] 韩加炜J.(Han,JiaWei),数据挖掘:概念与技术[M].北京:机械工业出版社,2001.
[4] 陈京民,数据仓库与数据挖掘[M],北京:电子工业出版社,2002.
[5] 李真文, SQL Server 2000 开发人员指南[M].北京:北京希望电子出版社,2001.
[6] 石钧.ADO编程技术[M].北京:清华大学出版社,2001.
[7] Jared Jackson,Jussi Myllymaki,基于Web的数据挖掘[C].网站获取,2001.6.
篇8
1、数据挖掘技术的概念、功能及优点
数据挖掘(Data Mining),从名字来看就是从大量复杂的数据信息中挖掘出有利用价值的信息。通常,这些大量的复杂的数据信息都被认为是随机的、模糊的、不完全的、有噪音的,完全没有进行处理的信息。然而经过挖掘之后,这些原本看似没有任何利用价值的信息,就会呈现出一种新颖、有效、潜在有用的状态,最终为人们的生活与生产提供便利。这种信息数据的处理变化过程,就常常被称作是数据挖掘。它也可以理解成是在一些观察数据或事实的集合中找正确模式的决策支持过程。数据挖掘是一门涉及面极其广大的交叉学科,它可以简单的认为是经济信息转换的一个过程,同时它还包含了机器学习、模式识别、数据库、数理统计、神经网络、模糊数学等相关技术。
数据挖掘的大体步骤是:数据的准备、数据的挖掘、结果的分析。在这样一个完整的过程中,处于核心地位的就是数据的挖掘。而它的功能主要包括数据的聚类、模型的预测、分析等。除此之外,在挖掘信息数据的过程中,通常还会牵涉到其它方面的技术,比如链接分析、聚集检测、关联规则等。
数据挖掘主要功能有:预测模型、分类、数据聚类、数据总结、关联规则发现、依赖关系或依赖模型发现、序列模式发现等。根据数据挖掘技术的作用和特点来看,它具备的优点是:它具有自动找出有价值的数据信息的功能;它能够处理大量的数据信息;它反映数据信息快速有效;它能够有效的对数据信息进行分析与评判,描绘过去和未来。
2、数据挖掘在经济统计中的体现
对于经济统计问题,对于我们所要探究的问题一定要定义,并且确定此次数据挖掘的目的。1.数据准备。就是对我们即将要面对的经济问题中所涉及到的数据进行相应的采集,做好预处理这些工作,最终使数据得到简化,使后续工作能顺利进行。2.数据挖掘。根据数据的特点以及数据的类型选择相适应的算法,利用统计、人工智能等方法,去挖掘有利用价值的信息3.结果分析。对第二步得到的结果进行充分的分析和评估,同时也是通过这一步骤反过来去调整上面,来得到更好的方法,从而让结果更加真实。4.知识的运用。将得到的最符合实际的结果应用到现实的经济问题中去,使得经济能更好的运行和发展。
3、数据挖掘技术在经济统计中的可行性研究
3.1 能为经济统计提供有效的服务
数据挖掘技术虽然经历的时间不是很长,然而,它的研究与应用水平已达到了一种相对稳定的状态。随着科学技术的不断发展,数据挖掘技术在各国也普遍受到关注,特别是在经济统计领域。数据挖掘技术能够这样的的迅速发展,在很大程度上也是依赖于它对经济统计的有效服务。
3.2 能够为经济统计的不同需要提供不同的需求
目前,最常见的数据挖掘工具主要有综合工具、通用型工具、和面向特定应用的工具。综合工具,不仅能够为处于商业中的经济体拿出有效的管理报告,并且还能够对普通经济结构中的数据信息经行深入挖掘。通用型工,在市场上占最大比例,在应用方面最为成熟的挖掘工具。面向特定应用工具,从字面来理解,这种工具就是针对特定领域来提供服务的,具有很强的特别性。
3.3 建立宏观经济数据库,为数据挖掘的应用提供了良好的电子平台
在目前的情况下,全国范围内的大部分经济统计部门主要使用的还是应用统计系统。大部分经济统计的数据信息都处于一种不相聚分散的状态,并没有形成一套有效的管理系统。经济统计过程中一旦出现问题,严重的就会导致经济数据的有效性与准确性受到影响。然而,当建立了宏观经济数据库以后,以上问题就可以寻找到有效的解决办法。当宏观经济数据库与数据挖掘技术一起合理运用,就能保证挖掘到的信息准确、真实。这样的情况下,在经济统计中数据挖掘技术就能为其提供更好的服务,不仅满足了现实中经济发展的需要,同时也为经济决策的制定提供了准确、重要的依据。
4、数据挖掘在经济统计中的应用
正是由于对数据的大量收集、数据算法的产生、经济数据库的出现、先进的计算机技术、对数据进行精深统计方法计算的能力、数据访问速度的提升等一系列东西的出现,使得数据挖掘技术的作用越来越广泛。由于经济统计中数据的实用性和准确性的需要,数据挖掘技术也开始慢慢在经济统计中大展身手。数据挖掘技术的主要方法有:
4.1 统计分析法
经济数据库字段项之间存在两种关系,相关关系和函数关系。就是对于数据库中的信息利用统计学原理来进行分析。
4.2 决策树
决策树一般用于预测模型,通过对大量复杂无顺序的数据有目的分类,找到有价值的信息。同时,正是因为描述简单,分类速度快,特别适合运用于经济运行过程中出现的大规模数据的处理。
4.3 遗传算法
它是一种根据生物遗传机理和自然选择的随机搜索算法,其主要思路是依据特定的社会问题,然后在指定对象中去采集相关信息,最后通过对信息中隐含部分的归整、分析,进而得到结果。经济问题不是固定不变的,相反它是一个不断发展变化的问题,内部的联系千丝万缕,改变其中一项其他的也会相应改变。按照遗传算法的步骤,从源头开始,我们就一步步向下探索,去提取信息数据,对整体进行分析,这样就能把经济问题目标化、具体化、直接化,使得在研究问题时可以更加直观,把隐性的表现出来,使得经济统计工作更加直白、简单。
4.4 粗集理论法
这是一种探究不确定知识、不精确的数学工具,它通过上下集比较而出来结果。它易于操作,算法简单;简化输入信息的表达空间;不需要给出额外信息。特别适合那些不确定的经济因素,同时正是通过这种原则,才能使得制定的经济决策与需求更加接近,为获得最大利益化给予了强有力支持。
4.5 神经网络法
神经网络法是一种高强度模拟人脑加工信息过程的智能现代信息技术。它和人的神经运动过程一样,首先进行数据的输入,然后进行精准的分析,最后输出。在经济统计过程中得到了实际的应用。神经网络法为我们提供了一种准确的、完整的处理经济统计的过程,使得经济运行模式和人在处理信息的过程很相像,一样实用化、形象化、具体化。使经济过程中各个部分之间能取得更好的联系,从而获得对经济统计???题的处理办法。
篇9
关键词:数据挖掘技术;Web;应用;
中图分类号:TP319文献标识码:A 文章编号:1674-098X(2015)05(a)-0000-00
所谓数据挖掘,就是在大量的、随机的、无关的、不完全的数据中找出共同点,提炼有价值的规律,从而有利于企业利用这些规律进行决策,获得超额利润。而基于Web的数据挖掘技术,是指在HTML文档中或相关的服务中借助数据挖掘技术提取对用户有价值的信息。
1 基于Web数据挖掘技术的原理和分类
1.1 基于Web数据挖掘技术的原理
基于Web数据挖掘技术主要利用统计学原理把Web页面中用户访问的信息内容和超链接结构等进行统计分类,然后总结出这些数据的规律和特征,并把这些大量的数据进行筛选和过滤,从中挖掘出这些数据的潜在联系,让企业获得用户在访问网页时深层次的规律。
1.2 基于Web数据挖掘技术的分类
基于Web数据挖掘技术按照其技术原理可以分为三类:(1)、内容挖掘。这里的“内容挖掘”是指把Web网页中数字,文字,表格,文档等显示的数据信息和其它隐示的数据信息整理并挖掘出来。(2)、使用挖掘。当用户通过浏览器访问网页内容后,该网页所在的服务器会自动把这些访问的行为记录在访问日志上,而通过分析这些访问日志就可以掌握用户在该网页中的一些需求和动向,这就是“使用挖掘”的作用。所以通过使用挖掘可以掌握用户的行为动向,有利于提高网站的收益或网站的点击率。(3)、结构挖掘。数据挖掘中的结构挖掘是指分析Web页面之间的超链接结构关系,从中找到Web页面结构的有用模式及权威网页。
2 基于Web数据挖掘技术分析
2.1 路径分析技术
网络中的信息是巨大的,因此人们不可能一下子就找到自己需要的内容,总是要从一个页面链接到另一个页面,再从这个页面链接到其它页面。人们的这种访问路径会被记录在服务器的日志文件中。路径分析技术就是分析这些存有路径信息的日志文件,分析后的结果有利于帮助网站管理员根据大多数用户的需求改善网站的结构。
2.2 分类分析技术
分类分析技术借助对示例数据的详细分析建立一个分析的模型,再使用这个模型对网上的众多数据进行分类描述。使用分类分析技术可以在网络销售中向一个用户推荐他可能喜爱的相关产品。
2.3 聚类技术
聚类技术,就是把大量的用户访问数据,如用户喜欢的商品,以及访问网页的用户本身的信息等进行分析整理,然后按照一定的规则对它们进行分类,并给出该类别的特征描述。例如在网络营销中聚类技术帮助企业把客户分成不同的群体,并给出这些群体的喜好和需求,以便企业根据这些需求调整业务内容以满足不同的客户群体。
2.4 关联规则技术
关联规则技术通过分析用户在网站上的访问记录建立关联模型,可以根据用户的习惯和喜好为用户提供方便快捷的访问方式,也可以为用户推荐喜爱的商品或服务。
3 基于Web数据挖掘技术的应用
3.1 在远程教育中的应用
传统的教育方式没有注重学生的个体差异性,也不可能给每一个学生制定一套教学方案。但是在应用了数据挖掘技术的远程教育方式中,利用学生在网站的学习情况,通过数据挖掘技术可以为学生推荐适合他的教学方案,真正做到了“因材施教”,“以学生为中心”。而且利用分类分析数据挖掘技术、聚类数据挖掘技术和关联规则数据挖掘技术还可以对学生和教师进行分类和关联,这样可以为学生推荐适合他,同时也是学生喜欢的教师。数据挖掘技术在学生的学习过程中有利于学生快速的检索需要的课件资源和学习内容。
3.2 在电子商务中的应用
随着网络技术的迅速发展,电子商务已经与人们的生活密不可分。将基于Web数据挖掘技术应用在电子商务中,可以帮助企业获得及时、准确的商业信息和客户信息,帮助企业制定正确的商业发展目标,从而获得丰富的利润。
(1)、为企业定制正确的商业发展目标。在企业制定自己的商业发展目标之前需要先考察市场,掌握商品的市场动向,了解企业自身在同行业中的市场地位。采用基于Web数据挖掘技术帮助企业快速、准确地完成了上述工作,有利于企业定制商业发展目标。
(2)、提高了客户的满意度。基于Web的数据挖掘技术可以帮助企业分析客户信息和客户行为,掌握客户喜爱的商品类别,挖掘客户潜在的消费意向,为客户提供满意的服务。
(3)、提高了企业的资金使用效率。基于Web数据挖掘技术可以对企业的库存,商品交易情况,财务报表等信息进行分析后,为企业提供一份资金分配策划单,从而保证企业购买的都是畅销商品不会造成大量的库存,提高了企业的资金使用效率。
(4)、延长用户访问网页的时间。人们在网上购物时会感觉所有的商品都是一样的,没有区别,因为它们都是以网页的形式存在的。所以如果企业希望有良好的销售业绩,就需要用户在企业的网页上停留更多的时间,因为用户停留的时间越长,越有可能购买商品。企业可以利用数据挖掘技术掌握用户的习惯和喜好,为用户提供方便快捷的访问方式,这些快捷方式都是根据用户的喜好推荐的商品,因此用户愿意花费更多的时间在这个Web页面里。
(5)、挖掘潜在的商机。企业利用基于Web数据挖掘技术对服务器的日志文件进行分析和处理,可以将用户分类,并给出相应的描述。如果一个新的用户来到企业的网站时,可以利用前面的分类结果对这个新用户提供个性化的服务,投其所好,挖掘潜在的商机。
除此之外,基于Web数据挖掘技术在医疗、金融、通讯等领域也得到了比较广泛的应用,而且比较成熟,但是在电子商务领域中Web数据挖掘技术还处于起步阶段,有很多问题需要人们进一步去探索,相信随着网络技术的迅速发展,基于Web数据挖掘技术在电子商务领域中会有更大的发展空间。
参考文献
篇10
【关键词】WEB数据挖掘技术 网络营销 应用
网络营销是在电子商务发展下孕育而生的一种集市场营销和现代信息技术为一体的新型市场营销模式。网络营销主要是依托互联网和计算机信息技术,将营销者与客户之间的交易、交流行为实现信息化,而这其中则会产生大量的频繁数据交换,再加之这些数据的种类较为分散,如何能够有效的管理与应用这些数据便成为网络营销者必须关注的问题。在本文研究中,笔者首先阐述看关于网络营销及WEB挖掘的基本理论知识以及技术原理,并就网络营销中的Web挖掘应用技术及具体应用方法进行全面的探讨分析。
一、网络营销和WEB数据挖掘技术的概念及类型
(一)网络营销概述
网络营销是近几年来产生的一个新兴名词,其是指企业在市场营销过程中利用计算机技术和互联网实现有效信息的获取、处理与利用,在此基础上制定有效的市场营销策略,从而实现市场营销工作。
通过网络实施营销可让企业降低运营成本,提升企业的市场占有率,降低了市场壁垒,尤其对与中小企业而言可以利用低成本营销而平等的进入国内、国际市场。对于企业恶言,网络营销增加了企业与客户之间的双向互动交流频率,而对于消费者而言,通过互联网平台不仅扩大了商品选择的空间个获得更加低廉的价格,而且满足了更加便捷的购物需求。
(二)WEB挖掘概述
WEB挖掘属于是利用数据挖掘技术在获取WEB活动文档中的隐藏信息或者具有应用价值的潜在应用模式。WEB挖掘技术主要通过WWW资源、页面的超链接结构、Web页面内容以及用户访问信息等数据信息,利用归纳学习与统计分析方法获取数据对象间的内在特征。利用WEB挖掘可以发现更多的潜在的有趣应用模式或者其他隐藏信息资源,并在信息过滤技术的辅助下让客户获得更高层次的规律与知识。
根据相关技术原理,现将WEB挖掘技术分为以下三大类:
1.WEB结构挖掘。WEB挖掘中的结构挖掘是指利用Web组织结构之间的链接关系而计算出网页结构中的有用模式。在大量的Web超链接信息中为Web页面提供了相关联的结构与质量方面信息资源,其能够集中反映出文档之间的引用、从属及包含关系,另外通过分析Web文档之间的超链接结构,还可发现网页结构中的有用模式,从而有利于找到权威页面。在WEB结构挖掘领域,应用最多的算法是Page Rank和HITS算法,两者都是通过使用一定的计算方法而获得Web页面之间超链接的质量,例如:Google搜索引擎便是应用此类计算方法[1]。
2.WEB使用挖掘。WEB挖掘中的使用挖掘是对网页中的相应站点数据和日志文件实施挖掘,以此来追寻相应站点的访问者的行为模式。由于在网页资源中拥有大量的复杂、异质信息,而每一个信息资源在服务器上都存在一个结构化的Web访问日志,当网页资源访问者提出请求之后服务器将自动将行动数据记录在访问日志上。因此,分析不同的Web站点的访问日志,则有利人们掌握WEB结构以及客户的行为动态,这样有助于提升网站的工作效率。
3.WEB内容挖掘。WEB挖掘中的内容挖掘主要是收集有用的Web信息资源(如:数据、内容、文档等)。Web中含有不同在种类的信息资源,目前网络信息资源的来源基本上都是来自于WWW 信息资源之中,这其中除了部分人们可以直接搜索、抓取以及实现服务的资源以外,还有部分资源是无法被索引的隐藏数据,因此便需要应用WEB挖掘技术将其挖掘出来。
二、网络营销中的WEB挖掘技术分析
(一)路径分析技术
实施Web数据挖掘,其所需要的路径分析技术主要是通过对Web服务器的日志文件中访问频繁的路径等其他相关路径信息进行判定,利用这些信息再对网站及页面的设计结构进行不断的完善和改进。利用路径分析技术实现数据挖掘必须经过三个基本步骤[2],即:首先通过浏览过程中产生的站点所形成的序列来构成原始路径;其次是获取最大引用序列;最后是确定最大引用序列。
(二)聚类技术
对于Web数据挖掘中的聚类技术,其是将Web访问信息数据中一些具有相似特征的数据项、访问者信息等进行集合,然后运用隐式或显式等方式来对不同的类别资源进行描述。在实践操作中,聚类分析在对数据分布分析时可单独作为一个相对独立的工具来集中观察、分析每一个类型的特点,具体来说就是帮助企业通过分析客户数据库而发现一些不同的客户群,并通过运用消费模式来描述出这些不同客户群的基本特征,从而帮助企业能够更好的了解客户,保障自己的服务能够最大限度的满足客户需求。
(三)分类分析技术
在数据挖掘中利用分类分析技术可通过详细分析示例数据并准确描述不同类别或者建立分析模型,然后在利用这个分析模型对其他数据进行细化分类。分类分析技术在网络营销中是使用较多的应用技术之一,其能够利用分类自动推导而对相关数据进行相关的推广描述,以此来预测未来的数据发展趋势。
(四)关联规则挖掘技术
WEB挖掘技术中的关联分析主要是利用同一个事件中出现的不同项的相关性来挖掘其中所隐藏在数据之间的关联规则。在网络营销活动中,关联分析主要是用于找寻客户对网站中各种文件之间访问现象的相互联系,从而总结分析出客户购买行为的关联因素[3]。通过在Web上实施数据挖掘,以此来构建一个关联模型,这样我们便可以更换的优化组织站点,降低客户过滤信息频率,并根据客户的购买行为而为客户提供一定的推荐服务。
三、WEB数据挖掘技术在网络营销中的具体应用
(一)有利于确定网络营销目标
实施有效的市场营销活动前首要的工作是确定市场营销目标,而这需要经过三个既定步骤——细化目标市场、选定目标市场、定位目标市场。在网络营销活动中,企业确定目标市场前必须对于商品目标的应用、销售市场进行细分,也就是考察商品的市场吸引力、企业自身的商品营销经验及未来发展目标等等,通过上述细分之后确定商品目标市场,最后在此基础上定位目标市场。如果企业在网络营销中应用Web 挖掘技术确定市场营销目标,其可以迅速对客户数据进行综合分析,并自动对各个层次的市场实施细分,形成一个详细的目标市场分类数据资料库,从而为企业定位目标市场提供真实、有效的数据依据。
(二)构建市场营销情报系统
为了降低市场营销活动的风险,在此之前一般都需要收集大量的市场营销信息来对目标市场进行细致分析。网络营销主要是通过Internet来获取大量的相关联信息资源,利用WEB数据挖掘技术可收集大量有效的市场营销情报,例如:对企业营销中所需要的政策法规、行业技术、市场环境、竞争对手、国际行情等动态信息进行全面收集整理,并建立全面的营销情况系统,这样有助于企业及时掌握市场、行业等发展新情况,制定并执行具有针对性的营销策略,保证企业在市场营销中拥有绝对的主动权[4]。
(三)数据挖掘在客户关系管理中的应用
1.延长客户驻留时间。通过网络平台实施营销活动,消除了销售企业与客户之间存在的空间距离,在Internet平台上所有销售企业相对于客户而言都是一样的。商家为了能够让访问者尽量对在自己网站上驻留,都需要通过技术手段分析访问者的浏览行为,也就是掌握访问者的爱好或者需求,这样有助于商家及时根据访问者的行为动态调整页面设计和推荐商品信息,更新部分访问者敢兴趣的商品信息,一方面能够满足访问者的需求,更重要的是能够最大限度的延长访问者的驻留时间。
2.挖掘潜在客户。企业通过对Web日志记录中的访问规律进行分析,根据访问者的相关信息资源进行科学分类,并确定访问者分类的关键属性及相互之间的关联。如果有新的访问者,则可在Web分类中识别出与已分类访问者之间存在的一些公共描述,然后再对这些新访问者进行正确分类,最后从新访问者的分类判断中决定是否将其作为潜在客户来对待[5]。如果将其作为潜在客户对象,则可给予该客户提供一些个性化的特殊页面内容,从而吸引客户的注意力,激发客户的消费欲望。
(四)促进优化站点设计
在超市中我们经常会发现他们将有关联的物品放在一起,这样有助于提升商品的销售业绩,而在网络营销中的Web站点结构也是类似的,在浏览模式的设计过程中需要依据大部分访问者的浏览习惯来安排、链接页面内容;若部分页面访问频率较大时则可适当增加页面链接,这样方便访问者顺畅浏览页面;在访问较为频繁的页面上放置重要商品信息,吸引客户的注意力及商品的影响力,从而提升营销业绩。
四、结语
网络营销模式属于是现代市场营销进入数字化时代最有力的证明,随着电子商务体系不断成熟,网络营销必将成为未来社会营销领域中一种新的发展潮流与趋势。在网络营销活动中,Web数据挖掘技术有助于企业预测市场发展趋势、客户消费动态,进一步挖掘有价值的潜在商业信息资源,从而帮助企业制定具有前瞻性的营销策略,保障企业能够在激烈的竞争环境中把握有利发展机遇。目前,国内外学术界对Web挖掘技术展开了深入的研究,虽然尚未形成一个成熟的理论与应用体系,但是随着电子商务的不断发展,Web挖掘技术必将拥有广阔的发展空间。
参考文献
[1]李岩.基于Web挖掘的专题性智能信息搜索工具关键技术研究[D].北京:北京科技大学信息工程学院,2003.
[2]石磊,王伟华等.Web挖掘技术在电子商务中的应用[A].信息时代—科技情报研究学术论文集(第三辑)[C];2008.
[3]朱凌云,赵韩,高先圣.Web挖掘在网络营销中的应用研究[J].情报杂志,2006.1.
[4]蔺莉,潘浩.Web数据挖掘技术在电子商务中的应用[J].电脑知识与技术,2010,(4):816-818.
[5]付泉.电子商务中数据挖掘技术的研究与应用探讨[J].科技广场,2007(3):114-116.