数据仓库范文
时间:2023-04-04 18:28:37
导语:如何才能写好一篇数据仓库,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:数据仓库;体系结构;维度
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)15-20998-02
The Summary of the Data Warehouse Technology
WANG Min1,2, ZHOU Cong-jun2,DU Cheng-Long2
(1. Hubei University of Technology,Wuhan,430068;2.Hubei Professional College of Land Resource,Jingzhou,434003)
Abstract: Data warehouse is a new progressing direction of database technology,and is also a popular research fields currently.This paper introduces the data warehouse definition,architecture and characters.The article also analyzes the procedure of building Data Warehouse .In the end,it describes the application of data warehouse to the national economy fields and the prospect of the data warehouse in the future.
Key words: data warehouse;architecture of the warehouse;dimension
1 引言
在过去的几十年中,人们为了能够收集、存储和处理大量的业务数据而开发了数据库管理系统(DBMS)。由于数据库系统的开发和使用,为企业记录和处理业务提供了极大的方便,使得这种技术得以迅速的发展和应用。但随着数据库系统记录和处理的数据越来越多,人们不再满足仅仅使用数据库系统来记录企业的业务活动数据和对数据进行简单处理,人们需要对企业业务活动的数据进行各种分析,以便找出影响企业成功的要素和企业未来的发展趋势。而如何将这些大量的数据转化为对企业管理者有用的,可供辅助决策的信息,也逐渐成为研究的热点。
2 数据仓库技术
2.1 数据仓库的定义
数据仓库的概念是由W.H.Inmon博士在1992年出版的《建立数据仓库》(Building the Data Warehouse)一书中提出的。他在书中对数据仓库是这样说明的:“数据仓库(data warehouse)是一个面向主题的、集成的、稳定的、不同时间的数据集合,它用于支持经营管理中的决策制定过程。”[1]实际上可以理解为数据仓库就是从多个数据源收集数据,存储于一个统一的数据模式下的数据体。从本质上讲,数据仓库就是一种信息集成技术。数据仓库从多个信息源中获取原始数据,经整理加工后,存储在数据仓库的内部数据库中,通过向用户提供访问工具,向数据仓库用户提供统一、协调和集成的信息环境,从企业的角度来支持用户的决策和帮助企业的管理进行深入综合分析。[2]
2.2 数据仓库与数据库的区别
数据仓库是在数据库的基础上发展起来的,因此数据仓库与数据库有着本质的区别,主要体现在以下几个方面:
(1)数据库中存储的都是当前使用的值,而数据仓库的建立是一个企业日积月累的建立过程因而其存储的数据都是一些历史的、存档的数据,另外由于要提供分析决策,还需要存储一些归纳的、计算的数据;
(2)数据库的数据主要是面向业务操作程序的,可以重复处理,主要是用来进行事务处理的。而数据仓库却是面向主题,主要是用来分析与应用的;
(3)数据库的数据结构是高度结构化的,比较复杂,适合于操作计算。而数据仓库的数据却比较简单,适合于分析处理;
(4)数据库中的数据的使用频率是很高的。数据仓库中的数据的使用则不是很高;
(5)通常对数据库中的事务的访问,只需要访问少量的记录数据。而对数据仓库的事务的访问就可能需要访问大量的记录;
(6)对数据库的响应时间一般要求比较高,通常是以秒为单位。而对数据仓库的响应时间要求则较低,通常比较长。
2.3 数据仓库的主要特点
从数据仓库的定义我们可以看出,它的特点主要体现在以下几个方面:
(1)数据仓库是面向主题的。也就是说数据是按其自然属性来进行组织的。主题通常是在一个较高层次上将数据归类的标准,每个主题对应一个宏观分析领域。比如,在学生的学籍管理成绩系统中,数据常被组织成“学生”、“课程”、“学生成绩”等关系模式,描述了各个学生、各门课程以及学生学习各门课程的详细信息。而在数据仓库中,我们则要对学生、课程、学生成绩进行综合分析,以便进行决策,因而应重新组织数据,完成业务数据向主题数据的转换。主题的抽取则应根据分析的要求进行确定。[3]如针对学生成绩分析数据仓库就可以设置以下主体:学生、课程、教师等。
(2)数据仓库是集成的。数据在进入数据仓库之前,必须经过加工与集成。对不同来源的数据进行数据结构统一编码。统一原始数据中的所有矛盾之处,如字段的同名异义,单位不统一,字长不一致等情况。即将原始数据结构做一个从面向应用到面向主题的大转变。[4]
要将决策分析建立在数据仓库之上,数据系统就需要定期从各院系、各部门抽取适宜于进行决策分析的细节数据,然后按照不同的粒度要求汇总到各级数据集市或数据仓库中。以“教师”主题为例,关于教师的完整信息是分散在各个院系、各部门的,每个部门都没有关于“教师”的完整信息,而且这些数据可能是不一致的。比如:“教师”主题中的教师编号在“图书管理系统”和“科研信息系统”中可能不同;性别在各部门中的表示方法也可能不同,在“科研信息系统”中用“M”、“F”来表示,而在“教师基本信息系统”中用“0”和“1”来表示。在经过了面向主题的数据组织后,消除同名异义、异名同义、单位不统一、字长不统一等数据不一致之处,按照元数据的定义形成关于教师的完整、一致的信息集合。[3]
2.4 数据仓库的体系结构
数据仓库系统通常由数据仓库(DW)、仓库管理和分析工具三部分组成,其结构形式如下图所示。
(1)源数据:数据仓库的数据来源多个不同的数据源,它可以是通常的数据库系统,也可以是非传统的数据,如文件、HTML文件、知识库等。
(2)仓库数据管理系统(DWMS):仓库的管理主要包括对数据的案例、归档、备份、维护以及恢复等工作,这些工作需通过数据仓库管理系统来完成。
(3)分析工具:数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含两种工具。一种是查询工具,用来对分析要求的查询。一种是挖掘工具,用于在大量数据中进行挖掘有规律性的知识。
2.5 数据仓库的实施
数据仓库的开发要以数据为中心,可大体分为以下几个步骤:
(1)明确目标,制订计划
根据需求确定相应的数据仓库的设计目标,并制定实施计划,用发展的眼光创立架构方案。
(2)建立技术环境
建立支撑平台建立技术环境,选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具等等。
(3)确定主题
通过对用户、管理层的需求进行深入的了解与分析,然后对这些需求中比较迫切、重要程度初步确定几个主题。
(4)概念模型设计
概念模型设计是主观与客观之间的桥梁,通过概念模型,可以用适合计算机世界的模型和语言对客观世界中的问题进行具体的描述。主要包括事实的定义、维度的定义和级别的定义。所谓事实,即指决策者分析的目标数据,可以帮助决策者了解全局,作出相应决策。也称为度量值。而维度,即指事实的属性信息。也称为考察事实的角度。
(5)逻辑模型设计
逻辑模型的设计是指根据事实、维度和级别之间的关系确定所采用的架构。通常采用星型构架进行设计,也就是以事实表为中心,四周与每个维度相关联,不存在维度与维度相关联的情况。
(6)物理模型设计
物理设计主要完成开发决策工具的选择、数据表的创建与索引的创建。数据表主要包括事实表与维度表的创建。一般对维度都创建了主键索引,对事实表则设置了组合主键索引。
(7)数据转换程序
实现从数据源中抽取、清理、聚集、转换数据并加载数据等过程的设计。
(8)定义元数据
即定义数据的意义及系统各组成部件的关系。
(9)运行与维护
管理数据仓库环境,定期进行数据的更新,使数据仓库正常运行。
3 数据仓库技术的应用
目前,国内数据仓库的需求主要表现在如下方面:
(1)由于银行商业化的步伐正在加大,各大、中型银行开始重新考虑自身的业务,特别是加强对自身的信贷风险的管理,因而对有关信贷风险管理和风险规避的决策支持系统的需求逐渐多了起来。
(2)由于电子商务的迅速发展,不少网站开始考虑如何提高对顾客的忠诚度,为客户提供更进一步的“贴身”服务。
(3)各大型企业如移动通信局等开始考虑着手进行决策支持以及数据仓库规则。
4 结束语
虽然目前国内的数据仓库市场经过了多年的发展,但是比起国外大企业所建的巨型企业级数据仓库来讲,还只能算是刚刚起步,还存在很多的不足之处,主要表现在计算机应用水平较低,无法提出决策支持需求,所以很多企业无法马上实施数据仓库。
但相信随着相关计算机技术的进步,数据仓库技术也一定能得到不断的发展,为企业在商业竞争中提供更好的帮助。
参考文献:
[1] w.H.Inmon.数据仓库管理[M].北京:机械工业出版社,1999,8-9.
[2] 钟爱军,宋麒.基于数据仓库的医院决策支持系统的构建.数理医药学杂志,2007,13-19.
篇2
信息技术的不断推广应用,将企业带入一个信息爆炸的时代。每时每刻都有潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息的处理类型主要分事务型(操作型)处理和信息型(分析型)处理两大类。事务型处理也就是通常所说的业务操作处理。这种操作处理主要是对管理信息进行日常的操作,对信息进行查询和修改等,目的是满足组织特定的日常管理需要。在这类处理中,管理者关心的是信息能否得到快速的处理,信息的安全性能否得到保证,信息的完整性是否遭到破坏。信息型处理则是指对信息做进一步的分析,为管理人员的决策提供支持。
1.1 数据仓库的定义
业界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定。
数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发展规律的决策。因此,在很多场合,决策支持系统也成了数据仓库的代名词。建立数据仓库的目的是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策和分析人员使用。
1.2 数据仓库的特点
从W.H.Inmon关于数据仓库的定义中可以分析出数据仓库具有这样一些重要的以下特性。
1.2.1 面向主题性
面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。
1.2.2 集成性
所谓集成性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。
1.2.3 时变性
所谓时变性是指数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系统地记录了企业从过去某一时点到目前的数据,主要用于进行时间趋势分析。
1.2.4 非易失性
数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。
1.3 数据仓库的技术体系结构
一个数据仓库系统的技术体系结构总体来说包括后台数据预处理,数据仓库,数据管理和数据仓库的前台查询服务三大部分。
数据仓库中的数据来自企业内部不同的业务系统甚至企业外部的商业数据库,这些数据库对于数据仓库来说被称为数据源。数据源中的数据在数据的组织方式、数据格式等许多方面与数据仓库对数据的要求有很大的差别,因此这些数据不可能直接载入数据仓库的数据库中,为此必须进行数据的预处理操作。数据的预处理包括数据源的定义、从数据源提取数据到预处理数据区(数据准备区)、在数据准备区中对数据进行净化处理、作必要的转换、再将数据加载到数据仓库,等等。实现这部分功能的是数据仓库的后台数据预处理部分。
数据仓库的应用服务部分提供了各种应用工具,使用这些工具可以对数据仓库中的数据进行复杂的查询分析和知识挖掘等等。没有一种工具可以满足所有的应用需求。可选择的工具大致分为:数据挖掘工具:数据挖掘是基于人工智能来分析数据的一种技术,通过对数据仓库中数据的分析去发现一些用户可能没有想到的模式和数据关系。特别查询工具:特别查询提供了一种能力,使得分析人员可以提交一些特别的问题,并产生相应的结果。在线分析处理(OLAP,On-Line Analytical Processing):在线分析处理以数据立方体或多维的方式来查看数据,允许用户进行钻取以获得更详细或更概括的数据,或者对不同的“维”如时间、商品等进行切片操作。OLAP工具可用于对商业问题进行分析,是最常用的辅助决策工具。
2、数据挖掘
2.1 数据挖掘的概念
数据挖掘是指从大量的数据中提取有用的信息和知识的过程。所发现的信息和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的知识。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等。
数据挖掘也可视为是一类深层次的新型数据分析方法,它与传统的数据分析的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息通常是预先未知的、也是很难预料到的,甚至与人的直觉是相背的,但又是非常有用的;而传统的数据分析得到的信息则是浮在表面的、人的直觉能够感受到的、或与人的直觉较为相近的。
2.2 数据挖掘的过程
数据挖掘过程,可以概括为数据准备、数据挖掘及结果的解释和评价三部分。
2.2.1 数据准备
数据准备一般包括三个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗“脏数据”等。数据选择的目的是辨别出需要分析的数据集合,即目标数据(Target Data),是以用户需求驱动的从原始数据库中抽取的一组数据,它使处理范围缩小,提高数据挖掘的质量。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换,预处理目的是为了克服目前数据挖掘工具的局限性。
2.2.2 数据挖掘
数据挖掘阶段首先要决定挖掘的任务或目标,确定了任务或目标之后我们才能决定使用什么样的挖掘方法。确定挖掘任务后选择合适的算法,可进行数据挖掘操作,获取相应的模式。
2.2.3 结果的解释和评价
经过数据挖掘阶段后,获得了一些模式结果,但通常存在冗余或无关的模式。有可能这些模式不满足用户要求,这时则需退回到发现过程的前面阶段,可能需要获取新的数据,采用新的数据预处理方法,换一种挖掘方法等等。
2.3 数据挖掘技术
数据挖掘技术主要分为:关联分析、时序模式、聚类、分类、偏差检测和预测等。
2.3.1 关联分析
关联分析用来发现关联规则。它是从数据库中发现知识的一类重要方法。关联分析广泛用于购物篮或事务数据分析。
2.3.2 时序模式
时间序列模式是用变量过去的值来预测未来的值。比如可以用前六天的数据来预测第七天的值,这样就建立了一个区间大小为7的窗口。
2.3.3 聚类
聚类是把整个数据库分成不同的组群。它的目的是使得群与群之间差别很明显,而同一个群内的数据尽量相似。划分出来的组群具有一定的意义,我们称为类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离较大。
2.3.4 分类
数据挖掘应用最多的任务要属分类。分类找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类。该模式能把数据库中的元组映射到给定类别中的某一个。
2.3.5 偏差检测
所谓偏差检测就是在数据分析中发现有很多异常情况存在于数据库中,我们根据这种异常情况可以获得很多有用的信息
2.3.6 预测
预测可以利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布趋势等。
2.4 数据挖掘面临的主要问题及对策
2.4.1 数据挖掘面临的主要问题
数据挖掘在不断的实际应用中,正不断地吸取各种领域的经验而逐渐成熟。从目前的情况来看,在运用现代数据挖掘技术时还需要注意一些问题,如数据挖掘任务、数据挖掘方法、用户交互、挖掘性能和数据类型多样性等问题。
2.4.2 主要对策
针对数据挖掘现在面临的主要问题,所应用的对策有以下一些:(1)与数据仓库技术结合。数据仓库可以为数据挖掘提供经过清洗的和转换的、完整的数据资源。(2)挖掘多种类型的知识。数据挖掘除了最常见的关联与分类之外,还有许多重要的任务待进一步的开发,包括聚合、预测模型以及时间相关分析等等。(3)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,如SQL语言一样的形式化和标准化。(4)可视化数据挖掘。寻求数据挖掘过程中的可视化方法,使知识发现的过程便于用户的理解,也便于在知识发现的过程中进行人机交互。(5)高效的数据挖掘。高效性和可伸缩性是目前数据挖掘算法的焦点之一,随着并行的、分布式的以及增长式的数据挖掘技术的研究与发展,这种趋势将会继续得到进一步的发展。(6)数据挖掘的应用。更加广泛的将数据挖掘技术应用于现实世界也是一个非常重要的研究方向。
3、数据挖掘与数据仓库的关系
3.1 数据挖掘是数据仓库发展的必然结果
随着大量数据被收集,从原始数据中得到有价值的决策信息越来越困难,于是新的数据库的体系结构产生了,即出现了数据仓库。数据仓库中存放的是从原始数据中经过计算和统计后得到的满足决策者需要的数据,这种数据也被称为是信息型或分析型数据。联机分析处理工具是基于数据仓库的信息分析处理过程,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力,但对于深层次的分析,如数据分类、聚类和数据随时间变化的特性,仍然需要其他分析工具。数据挖掘可以看作是联机分析处理的高级阶段。
3.2 数据仓库为数据挖掘提供应用基础
从数据挖掘的定义可以看出,数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将获得意外的成功。
4、结语
本章主要介绍了数据仓库的概念、特点和体系结构,以及数据挖掘的概念、数据挖掘的过程和数据挖掘的技术,和数据挖掘面临的主要问题及对策,最后分析了数据挖掘与数据仓库的关系。为数据挖掘与数据仓库的实际运用打下坚实的理论基础。
参考文献
[1]吴庆慧.在金融数据库营销中的一种数据挖掘与决策分析的方法.中国科学技术大学学报,2009,39(2):208~214.
[2]高祥涛.数据挖掘在水文相似年查找中的应用研究.计算机工程与应用,2009,45(5):243~245.
篇3
(1)本单位的基本情况,包括本单位组织结构、人员构成、经营业务范围规模、科研生产经营管理情况,单位在行业中的地位、优势、特色,以及取得的各种荣誉和奖励等。(2)本单位目前执行的各种法规制度和内控制度。(3)历年财务数据,包括会计科目余额汇总表、明细科目、全年每张凭证的明细内容;还可能包括基建账目的会计科目余额汇总表和序时账,以及固定资产计提折旧、大修理基金的汇总表,分摊到各个科研项目设备费的分摊明细数据和分摊依据说明;每年的管理费用分摊表及其明细表,以及对分摊依据进行说明,等等。(4)被审计项目的文件资料。(5)有关基础数据。如固定资产增减变动情况表、原材料出入库汇总表和入库单、领料单明细表、固定资产采购合同、进口设备结算单、施工合同、施工图、工程预结算书、设计变更、工程洽商及现场鉴证资料、单项工程质量评定材料、竣工验收文件,中介机构提供的工程结算审核报告、客户名录、招投标数据库、各类合同,等等。(6)接受外部检查的资料。如审计报告、审计意见书和专项审核报告等以及税务、财政、社保、环保、消防安全机构、质量体系、集团公司等对单位各项检查结果检查的结论性意见。(7)内部审计的资料。(8)所属子公司和附属单位的数据资料。总之,满足审计需要的数据,众多且庞杂。
二、建立和管理审计数据仓库
数据仓库的建设是以现有业务系统的积累为基础。数据仓库建设是一个工程,是一个过程。数据仓库建立不是一蹴而就的,一成不变的,需要平时不断地收集和整理。根据数据仓库的特点,数据内容是历史的、存档的、归纳的、计算的数据。在管理中需要注意以下几点:1.传统操作型数据库中的数据要抽取、净化和转换成“干净”数据后才能进入数据仓库。源数据可能有很多与审计无关的信息,经过净化和转换的数据才是审计有用的数据。2.数据仓库的数据特性是历史的、静态的、定时添加的,数据仓库内已经存在的数据不会改变,要定期持续对有关内容进行维护,产生的新数据要及时添加补充,单位若有新的规章制度也需添加进去。3.数据仓库里的数据和资料,一般可按年度来建立,跨年度的被审计项目数据就可以方便地从各个年度数据仓库中提取。4.数据仓库里的数据是有时效性的,而被审计项目往往跨越几个年度,不同时期所遵循实施的标准和管理规定也不尽相同。在数据仓库中要合理划分不同时间区段。5.遇审计项目内容的,只提供给有保密资质的外审人员,并签署保密协议;若外部审计单位没有审计资质,则需要删除数据仓库中的信息后转化为非密版本,即可按和非准备两套版本,根据不同需要提供不同的版本。6.建立数据仓库需要各个部门的大力沟通配合共同建设。建立数据仓库之后,审计部门将所有收集来的审计相关信息存放在一个唯一的地方——数据仓库。仓库中的数据按照一定的方式组织,从而使得审计信息容易存取并且有使用价值,从而大大提高审计效率。
三、数据分析应用于数据仓库
篇4
数据仓库十多年前开始出现在企业中,其承诺相当诱人:将关键数据集中在容易发现的统一站点,这样所有的商业人士就可根据具体的事实分析作出决策,而不是在信息不充分的条件下凭直觉作出决策。现在,数据仓库仍是实力雄厚的公司的奢侈品,这些公司具有足够的资金、员工以及耐心来购买、安装和维护数据仓库。
而开源,这种破坏性的力量完全颠覆了数据仓库和其它许多市场。开源交付的特许软件成本很低或者根本无需成本,即使对再小的公司也开放性能;而且对网络社区开放代码和功能,只要社区能保证解决方案切实满足主要标准,解决方案在部署时变得更加直接、灵活,不再花里胡哨。
数据仓库的开源方案
现在,开源的革命已经渗入数据仓库领域。不仅有工具和技术可在实施数据仓库时构建模块,同时数据仓库本身也已成为开源。下面是支持数据仓库的开源方案。
第一,数据库系统。成功部署数据仓库时,开源构建模块(building blocks)的数量取得了巨大增长,这表明采用开源数据仓库的时机已经成熟。例如,Gartner公司的报告指出:近几年,开源FIRMS引擎已显著增长。Gartner还发现,47%的受调查公司已经采用开源数据仓库,19%的公司正考虑在12个月内采用开源数据仓库。
在许多情况下,开源数据仓库正得到广泛采用的市场正是大型数据库供应商长期忽略的市场。但是,如果公司以活跃的商业数据库实施项目为主导,那么公司内部也会存在开源数据仓库。一项针对独立Oracle用户组(IOUG)226个成员的研究表明,超过三分之一(35%)的站点也拥有开源数据库,如运行MySQL。
第二,ETL工具。与开源数据库同时出现的还有ETL、开源分析/商业智能工具,这些工具在企业中逐步得到应用。Gartner估计,大约11%的受调查公司正在使用开源ETL工具,16%的公司正考虑在未来几个月内采用这类工具。开源ETL工具包括Pentaho公司的KETL、Talend、Clover.ETL以及Octopus等。
第三,商业智能。在商业智能和分析工具领域,Gartner指出,9%的受调查公司已经采用开源BI解决方案,18%的公司正考虑在未来12个月内采用开源方案。目前,市场中存在许多开源BI或分析程序,以Pentaho和JasperSoft等供应商为主导。同时,Ventana Research对500家公司的调查结果证实:BI受到广泛关注,并且这种趋势在继续增长;对开源商业智能感兴趣的公司中有21%已部署开源程序。显然,仍有许多公司声称他们未来没有此类项目,因为他们不会考虑开源商业智能。
使用如此广泛、客户如此满意,并且拥有开源数据库和开源分析工具,开源数据仓库在此时兴起也就不足为奇了。之前,供应商根据开源数据库(如MysQL、PostgreSQL和Ingres)生产数据仓库专有产品,现在,供应商开始引入全面的开源数据仓库解决方案及其伴随社区。
最近的产品ICE(Infobright Communicy Edition)及其在的伴随社区就是一个很好的例子。论坛帖子表明社区用户在不断增加,其中一些用户对数据库非常了解,但是对数据仓库相对陌生。MySQL扩展了数据库市场,ICE等开源产品亦如此,因为数据卷快速增长,分析需求也不断增加。
开源数据仓库的优势
开源数据仓库可以解决当前诸多问题,而且足迹较少、运作的管理资源较少。开源模型运用到数据仓库的优势为:
第一,开源数据仓库在前期耗费较少,维护和支持费也较少。目前,市场中的开源软件产品通常比相应的特许产品更加便宜。另外,开发人员和IT管理人员可以下载开源产品的源代码,也可以定制产品或修改产品,从而进一步简化操作。
第二,开源数据仓库采用的技术很容易在市场中获得。因此,公司如果具备现有数据库或数据仓库的专业知识,在实施新的开源数据库工程时,就不必进一步研究。
第三,开源数据仓库大大促进了标准化。开源代码透明、支持社区,因此,一些重要的标准就可获得各种版本和实施方式的一致性支持。专有形式不能也不会在这些设置中获得支持。
第四,开源数据仓库相当灵活。开源许可方式使得企业能够将解决方案扩展给无数用户,而不像专有软件包那样:按用户或处理器收取费用。公司只需花费很少甚至无需花费就可添加用户或者扩展工程。另外,终端用户公司不必担心被某个供应商的强制升级路径锁定,相反可以选择系统的新版本。
第五,开源数据仓库能从网络社区效应中获利。开源解决方案利用开发人员和创新人员的社区促进发展。将新代码和新特性贡献给社区,不断为终端用户提供各种可用的新方案。网络社区的方法也可应用到数据仓库――开创新领域,将能很好地适应环境,因为有许多系统和数据种类需要集成到数据仓库中。单个供应商提供的解决方案很难解决所有的集成问题。另外,公司可以依靠社区快速修复bug或安全缺陷,通常只需花费几天时间,而不必等待几个星期甚至几个月,直到供应商再次提供安全补丁或服务补丁。
第六,开源数据仓库可以逐步实施。对于一项大型工程,切忌好大喜功。数据管理人员即使需要实施全新功能,也不必向预算委员会寻求资金支付公司昨天所需的性能。工程可以从小做起,在成功实施的基础上逐步完成。这也可以缓解“承诺过多”的问题――在确定数据仓库项目的最佳资金时,“承诺过多”是不得已而为之。开源数据仓库无需大量启动资金,而是首先瞄准最迫切的商业问题,随着收效增长而增加资金人投入。
实施开源数据仓库的建议
如果中小企业需要管理和观察大型数据卷,但是缺乏实施和支持大型专有数据库所需的资金或资源,那么开源数据仓库就非常合适。另外,开源数据仓库提供专门针对大型企业的某些部门或业务单元的解决方案,一旦产生商业问题,就可快速解决可以部署的解决方案。以下建议可以帮你最大程度地实施开源数据仓库。
第一,开源和专有数据仓库需要共存。开源数据仓库将会增加,但是不会取代专有数据仓库。如前所述,调查中有超过三分之一的Oracle的公司采用MysQL等开源数据库。通常,这些数据仓库能够很好地满足策略需求,补充许多专有数据库无法快速或有效满足的新需求。
第二,寻找产品背后大型的活跃社区。不管是开源数据仓库还是专有数据仓库,都是非常复杂的工程,因为需要涉及企业中所有的数据。充分互动的社区是必不可少的资料来源。
第三,终端用户应该无法见到开源数据仓库。操作型数据仓库的数据与生产数据密切相关,是市场中增长最快的数据仓库。数据仓库的数据需要与前端用户实时合作,但是几乎无需终端用户的输入。在许多情况下,这些“普遍的BI”用户没有技术背景,操作应该尽可能简单。相比之下,数据仓库的主要使用人员――分析人员或“超级用户”――在过去擅长构建大量的查询方式。开源数据仓库应该只需少量调整,就能支持普遍的BI用户。
第四,开源数据仓库应该一如既往地支持开源标准。之前市场中的“开源”数据仓库都是根据开源数据库,开发专有接口,与开源的本意背道而驰。开源数据仓库应该与相关的开源环境兼容。
第五,寻找快速的部署方式和简便的使用方法。寻找这样的开源数据仓库工具和平台:具有数据压缩功能,拥有较少的硬件和软件足迹,只需较少的服务器和存储空间就可支持TB级的数据。否则,维护费用可能上升到专有数据仓库的水平。
篇5
关键词:地理信息系统;空间数据仓库;数据仓库;认知过程
0引言
进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。
总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。
1概念框架
空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。
空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。
1.1外部结构
数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。
1.2内部结构
空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。
当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。
2认知过程
2.1认知过程概念图
空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。
2.2认知过程描述
这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。
数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。
由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。
3认知的概念定义
3.1世界模型
实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。
3.1.1现实世界模型
现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。
现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。
本文原文
3.1.3地理工程现实世界模型
地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。
3.1.4地理工程概念世界模型
要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。
3.1.5地理工程尺度世界模型
将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分类世界模型
按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。
3.1.7地理要素编码世界模型
要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。
3.1.8地理要素几何世界模型
为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。
3.1.9地理要素集合世界模型
因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。
定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。
3.1.10地理空间抽取世界模型
地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。
3.1.11地理空间整合世界模型
数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。
3.1.12地理空间统一世界模型
实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。
3.1.13地理空间产品世界模型
随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。
定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。
3.1.14地理空间决策世界模型
建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。
定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。
3.2转换算子
在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。
4结束语
目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。
参考文献:
[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.
[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.
[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.
[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.
[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.
[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.
[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.
[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.
[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.
[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.
[12]周炎坤,李满春.大型空间数据仓库初探[J].测绘通报,2000,22(8):22-23.
篇6
关键词:空间数据仓库
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)33-9532-02
The Application of Spatial Data Warehouse Technology
HUANG Hai-yan
(Faculty of Information Science and Technology,Jiujiang University,Jiujiang 332005,China)
Abstract: The article elaborate conception, characteristic and function of spatial Data Warehouse.It analyzes how spatial Data Warehouse help moden enterprise make decision.
Key words: spatial Data Warehouse
随着企业管理技术的不断提升和信息系统的广泛应用和逐趋完善,企业相应的信息数据量也得到了极速增长。同时,随着数据库技术应用的发展,企业决策人对于数据的应用提出了更高的要求,己不仅仅满足于对事务处理的电子化与自动化,还希望能够提供更多的对于数据进行分析、统计、趋势预测,从而对于管理决策提供支持。由此,数据仓库及相关技术应运而生。
1 空间数据仓库的简述
空间数据仓库是今年来数据仓库思想在空间信息科学领域延伸的产物。数据仓库是一个面向主题的、集成、稳定的、包含历史数据的数据集合,用于支持经营管理中的决策制定过程。传统的数据库是联机事务处理系统,处理和存储日常业务数据,无法实现更高层次的分析处理各种类型信息的任务。而数据仓库从各数据库中按专题和内容等提取数据,并对所提取的数据进行预处理,可以支持在线分析处理,利用存储在数据仓库中的数据完成各种分析操作,以直观易懂的形式将分析结果返回给决策分析分员。目前,数据仓库在许多需要大型数据库管理海量数据和对数据进行分析的行业如通信、金融等领域得到了成功的应用。
空间数据仓库的特点:与传统空间数据库面向应用进行数据组织的特点相对应,空间数据仓库的数据是面向主题进行数据组织的。它在较高层次上将企业信息系统中的数据进行综合、归类,并加以抽象地分析利用。空间数据仓库的数据是从原有的空间数据库数据中抽取来的。因此在数据进入空间数据仓库之前,必然要经过统一与综合,这一步是空间数据仓库建设中最关键、最复杂的一步,所要完成的工作包括消除源数据中的不一致性和进行数据综合计算。空间数据仓库中的数据主要供决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。空间数据仓库的数据反映的是一段相当长的时间内的数据内容,是不同时间的空间数据库快照的集合和基于这些快照进行统计、综合和重组导出的数据,而不是联机处理的数据。空间数据库中进行联机处理的数据经过集成输入到空间数据仓库中,一旦空间数据仓库存放的数据已经超过空间数据仓库的数据存储期限,这些数据将从空间数据库中删去。空间数据仓库的数据是随时间的变化不断变化的,它会不断增加新的数据内容,不断删去旧的数据内容,不断对数据按时间段进行综合。
2 空间数据仓库的应用
2.1 空间数据仓库的功能
空间数据仓库在数据仓库基础上引入空间维,根据主题从不同的GIS应用系统中截取从瞬态到区段直到全球系统的不同规模时空尺度上的信息。空间数据仓库主要实现三个功能:1) 从分布式空间数据库中获取空间数据;2) 对数据进行动态综合、集成、管理和分析;3) 提供空间信息访问。通过空间数据仓库技术,可以将来自不同专业领域的相关数据,按照选定的主题转换成统一的格式,集成、存储在一起,实现空间和非空间的分析操作,然后借助各种专业模型通过数据挖掘技术从数据中发现知识,为辅助决策提供支持。
2.2 空间数据仓库的作用
空间数据仓库是分析型数据库,根据主题通过专业模型中不同空间数据库中的原始业务数据进行抽取和聚集,为用户提供一个多视角、综合、全面的分析决策支持环境。空间数据仓库是一种基于空间数据管理和利用的综合性技术,它使得现有的传统空间数据系统由操作型向分析型转变。在竞争日益激烈的市场中,能否迅速做出更好的决策关系到银行是苟且偷生还是繁荣兴旺。银行需要对各种压力迅速做出反应,包括不断加剧的竞争、行业的无规律发展、企业并购、产品和市场革新、传统系统的重组等。 如今大多数企业并不缺少决策的数据,这些数据包括:联机交易的历史数据、研究分析结果、Internet提供的数据……数据几乎无处不在。因此,关键不在于数量,而在于质量――是否一致、准确、具有时效性和复杂度。 在过去几年中,许多企业认识到了这一问题,并开发了各种系统,如决策支持系统、管理信息系统、运作信息系统。这些系统从各种源系统中下载数据,通过运行一些相应的程序进行查询等操作。 但由于这些系统基本上都是基于主机的,功能有限,比如:联机无法进行数据分析;数据是离散的、冗余的;用户访问过于复杂;用户访问降低了业务操作的效率。联机系统一般的设计原则是以最快速度更改一条记录,而不是用于数据分析,也不是按照某一标准浏览数据和对数据进行排序,以及对数据进行计算。 与之相比,数据仓库却能够实现快速数据查询,帮助银行挖掘其传统系统中潜在的无法被直接利用的信息。
3 结束语
空间数据仓库的构建是一个处理过程,空间数据仓库是―个从多个数据源收集的信息存储库,存放在一个一致的模式下并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据仓库系统由数据仓库、数据仓库管理系统、数据仓库工具三个部分组成。在整个系统中,DW居于核心地位,是信息挖掘的基础;数据仓库管理系统负责管理整个系统的运作;数据仓库工具则是整个系统发挥作用的关键,包含用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据挖掘DM工具等,以实现决策支持的各种要求。
参考文献:
[1] 邹逸江.空间数据仓库研究综述[J].测绘学院学报,2002(3).
[2] 陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
篇7
关键词:数据库技术;联机分析
中图分类号:TP311 文献标识码:A文章编号:1007-9599 (2011) 16-0000-01
The Analysis of Data Warehouse Technology and Application
Fu Shuguang
(Qingdao Hismile College,Qingdao266100,China)
Abstract:with the development of society,information has become an important feature of today's society, a lot of information and data are required to have a scientific technology to study and analysis,database technology will emerge as the times require,is a product of the development of the computer,business and other fields play a vital role.This article from the database technology and the characteristics of the development of analysis,analysis of the database in various fields of application.
Keywords:Database Technology;Online Analysis
数据仓库技术作为一门计算机应用技术,是新兴的技术,也是这个时代对信息化管理发展的一个产物,数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合数据仓库,英文名称为Data Warehouse,可简写为DW。在市场竞争日益加剧的今天,不管是企业还是社会团体,都需要把市场经营或者社会服务同各种需求相联系起来,把市场上的各种数据进行有效的统计和分析,从而做出科学正确的决策。所以,对于数据仓库技术在各个企业和社会团体进行收集、存储和研究各种数据的环节就起到了尤为重要的作用。
一、数据仓库技术概述
(一)含义
数据仓库概念创始人W.H.Inmon对数据仓库的定义:数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。
(二)数据仓库的发展
数据仓库技术是信息化高速发展的产物,它是基于信息系统业务发展的需要,基于数据库系统技术发展而来、并逐步独立的一系列新的应用技术。它是在传统的数据库技术的基础上发展而来的新的应用技术,传统的数据库技术是一种单一的数据资源,是以数据库为中心,进行事务处理以及批处理再到决策分析的各种类数据处理工作。而数据仓库技术不单单是这种单一的数据资源,实现了对决策主题的存储和综合等特点。随着数据仓库技术在应用过程中的不断深入,近些年,数据仓库技术得到了长足的发展,各行各业已经能够接受“整合数据,从数据中找知识,运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。
(三)数据仓库的作用
建立数据仓库系统,可以更加科学的收集、存储以及管理业务中的各种数据,从而不断分析市场已经各种因素,不断改善和提高工作人员的工作效率,更科学的分析数据用来指导管理过程中的各种行为,如在客户的研究方面,在应用系统和企业行为方面,以Internet和电子商务、专家系统、多媒体数据挖掘和人工智能以及呼叫中心等信息技术为基础,从而实现企业识别、保留以及挽回最具价值的客户,从而提升企业的核心竞争力。
二、企业数据仓库的应用
数据仓库的应用主要表现在数据的抽取、数据的存储和管理、信息的探索、集成和转换以及避免脏数据的进入、质量的管理和数据。总的来说,企业数据仓库是一个环境,是通过有效的信息来不断满足企业的决策的制定过程,换言之就是通过企业数据仓库来对企业的一些决策进行指导。也可以说是一个企业的数据库的平台,这些数据来源于各种各样的数据源,并经过一定的过程如抽取筛选清晰以及转换后根据用户的查询适时的提供给用户的这么一个平台。企业数据仓库包含综合数据、分粒度的数据、历史数据、共享数据,是一个企业决策的基础,拥有大的存储量,对企业来说具有极其重要的作用。
数据仓库应用在不同的企业和单位,在资源环境企业中的应用,能够利用空间数据仓库技术不断规范、提炼和集成环境数据,按照不同的决策主题来组织数据,而且还能用于支持环境管理制定决策,使相关部门利用决策支持分析工具从资源环境的信息池中提取、分析数据,为资源环境的发展做出有利的贡献。在公路交通方面的应用,公路数据仓库是一项综合且复杂的信息化系统工程,是公路工程、大地测量、地理学、计算机科学、系统工程、统计学、管理学等学科还有技术的结晶,它改变了传统的信息处理的方式,使交通规划、建设、运营和管理变得直观、轻松和高效。可以说数据仓库是公路交通管理步入数字化的标志。数据仓库在医院中的应用,现代医院中,电子病历广泛使用,,挖掘海量病案数据中所潜藏的信息进行支持决策是医院提高管理水平的一个重要的手段,通过数据仓库在病案数据的分析中的应用,如,根据某医院常发疾病的治疗和新生儿出生的情况,建立病案数据仓库,借助联机分析技术来对对病案中的发病率、治愈情况等进行分析,为疾病的预防、医院的管理决策,提供可靠的数据支持。数据仓库技术在银行业的应用,解决客户关系以及企业在收入、成本、预算方面的分析,一些收入的发展、项目的状况及预算状况进行全面分析,使领导能够及时的得到企业发展情况报告。
三、结论
随着数据仓库技术应用的不断扩大,各行各业都已经通过数据仓库技术来对各种数据进行分析以不断地提升自身的各种竞争力和竞争水平。在信息化如此发达的今天,数据仓库技术已经作为一门新兴的技术在各个领域内发挥着极其重要的作用,企业如何根据自己企业自身的情况来应用这种技术,如何在竞争如此强烈的市场占有一席之地,应用好数据仓库不断解决企业发展中遇到的问题,将对企业有着积极的作用。
参考文献:
[1]张维明等.数据仓库原理与应用[M].北京:电子工业出版社,2002
[2]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002
篇8
【关键词】数据仓库;科研管理;应用
在科研项目质量管理中,科研数据以及科研资源的管理、科研档案管理等等,都是其中的重要组成部分,通过数据库,实现对科研管理的规范化、科学化,同时,也应当努力规范和提高科研管理运行机制,健全约束机制,完善科研项目的管理评标体系,这都是提高我国科研管理水平行之有效的途径。
一、数据仓库概述
数据采集是数据仓库构建中的重要内容,从数据源中抽取所需要的数据,然后对抽取到的数据进行清洗,将其按照一定的数据仓库的模型,放到数据仓库中。数据采集中的数据抽取其实就是数据源接口,数据源接口从不同的系统中抽取所需要的数据,将其作为数据仓库的输入数据,数据转换是对不同系统中生成的数据源进行处理,保证这些不同的数据源可以按照规定的要求输入到数据仓库中。数据清洗是对所有的数据进行处理,使得数据集中的所有数据值保持一致,并可以正确的对这些数据进行记录。而数据的装载是按照一定的模型将以上经过数据抽取、转换、清除的所有数据装入数据仓库中,在数据进入数据仓库的过程中还包括了将数据域清除、对数据进行有效的检查等。
二、数据仓库在科研管理中的应用研究
(一)数据仓库的核心技术――ETL技术
在科研管理中,管理人员需要随时获取所需要的数据和信息,因此,通过数据仓库,将外部数据和内部数据进行整理和储存,并且为数据的查询提供了极大的便利。但是这些数据信息有不同的来源,具有数量、不清洁等诸多不良特点,进而不能直接对这些数据进行使用,也不能直接将这些数据输入到数据仓库中,所以需要对这些数据先进行处理分析,然后再将这些数据以高质量输入到数据仓库中供用户使用。因此,数据仓库的核心技术――ETL技术负责对数据信息进行清洗、转换等,保证数据信息质量的一种技术,ETL技术可以将数据分散、数据不清等问题进行解决,保证数据信息可以高质量的输入到数据仓库中供企业的各部门安全使用。
(二)数据仓库用于科研数据的快速检索、查询
数据仓库是为了实现数据的存储、检索以及表达,例如当数据仓库中的数据需要从一种形式转换成另一种形式时,ETL的数据转换就需要进行考虑,同时ETL中的数据抽取、转换、装载等都需要变成转换操作,所以对于数据仓库而言数据转换是其核心部分。数据仓库实质上是一个独立的数据环境,它需要从不同的系统中抽取所需要的数据,然后通过ETL技术将这些数据进行处理,处理过后的数据信息才可以安全的输入到数据仓库中。ETL技术主要涉及到互连、复制、转换、监控等方面的内容,在数据仓库中的数据不需要和处理系统中、或者其他相关系统中的数据保持同步,尽量保证数据仓库中信息的有效性。
为了将数据冗余等问题进行避免,在抽取的数据进入到数据仓库之前,需要对其进行有效性检查,这项工作在数据仓库数据输入中非常重要,如果没有对这些即将输入到数据仓库的数据进行有效性检查,就会对整个数据仓库的完整性产生破坏,或者将其破坏的几率大大的增加。对数据进行有效性检查最好的方法就是源系统。在源系统中有专业的和非专业的技术知识人员,但是数据有效性检查是一项费时又不可省略的一个环节,所以可以进行自动化的检查。
(三)通过数据仓库实现科研数据的清除及转换
由于数据仓库中的数据来自不同的数据源,这些数据源可能出现不同的平台上,有不同的操作系统,所以这些数据会以不同的形式输入到数据仓库中。如何将这些数据加载,是数据仓库建立中需要考虑的一个问题,在进行数据迁移的过程中,会将数据以一种适合数据仓库的格式转入数据仓库中,这就是数据的格式化,对数据的处理是数据仓库成功建立的关键,所以在数据提取的过程中,对数据进行格式化,从操作中实现数据资源的共享。ETL技术进行的数据有效性检查是对数据进行标准给定的过程,如果数据的给定没有在界定的范围之内,那么它就是需要清除的对象。数据的清除包括了在给定界限范围之外的数据,对这些数据采取一定的纠正措施。
通过数据仓库,实现科研数据的转换,是为了体现这些数据的价值,使其更加有意义,进一步推动科研工作的进程。在数据转换的过程,使用最好的方法保证数据从原始储存器到数据仓库的过程是同步的,将数据转换的重点放在语言的标准化、数据移动、通信等方面,数据的转换除了自动化转换以外,还具有一定的复杂性,所以在ETL数据转换工具、技术不断更新的同时,还需要将其复杂性进行解决。
(四)数据仓库与科研数据动态更新
随着科研进程的推进,数据仓库也需要伴随着科研数据的动态进行更新,这样,才有助于实现数据的时效性。对检查验收之后的业务数据进行相应的更新,其他的数据都是在年底的时候才进行统一的更新。两项或者两项以上的、连续生产经营活动的变化和更新,都会被看作是多次变化,需要分别进行更新。数据仓库更新方法主要是主键关联法,主键关联法就是要求被更新的数据库和更新数据库具有相同标识的小班唯一键值,然后才可以进行一对一的关联,最后才可以进行数据仓库数据的更新,主要更新的手段是字段更新。在对数据仓库进行更新时,必须保证的是一对一的关联,要不然会产生错误的逻辑关系。
(五)数据仓库在科研档案管理中的应用
通过数据仓库来实现科研的档案管理工作,对完善科研档案管理具有重大的意义。对科研课题档案资源进行研究和开发利用,档案管理人员要注意联合课题研究人员一起,及时的对各种课题档案进行整理,通过数据仓库,对档案资源进行整合。然后积极的利用各种信息化技术,有效实现档案资源的共享。并努力的深入研究开发各种档案资源,更好的为经济建设提供服务,最大程度的妥善利用各种档案资源,保证科研究成果的最大化利用。从而有效的实现通过合理的利用促进科研工作的快速发展的目的,取得较大的经济社会价值。
三、结语
针对现阶段我国研究所科研项目管理工作中存在的问题,积极运用数据仓库,来实现对科研数据资源的整合及管理。依靠数据仓库实现科研档案的规范化管理,以科研动态为基础,及时更新数据仓库,保持数据仓库的时效性。数据仓库在科研管理中的应用,进一步优化了我国科研管理工作,提高了科研管理的质量和效率。努力提升我国科研管理能力,完善科研项目管理程序,使该管理体系逐步趋向规范化、成熟化。
参考文献:
[1]焦振.基于Oracle的人事科研数据仓库设计与实现[J].安阳师范学院学报,2013,(2):46-50.
[2]汤雪,赵卫东,吕万里等.高校教职工科研管理系统数据仓库设计[J].福建电脑,2010,26(2):119-119,102.
[3]肖红玉,黄静,陈海等.数据库技术在科研管理系统中的应用[J].制造业自动化,2010,32(10):68-70.
[4]巫莉莉,张波,李涛等.高校科研管理系统智能分析模块的分析与实现[J].计算机工程与设计,2010,31(11):2641-2644.
[5]胡君.基于数据仓库的科研管理系统设计与实现[D].中国地质大学(武汉),2011.
篇9
随着社会的进步与科技水平的提高,互联网在各个领域被广泛的使用,为了实现更好的组织决策和服务,互联网管理人员对大数据的重视程度越来越高,对大数据进行了详细的获取、应用以及分析的深入研究。就目前而言,手机使用率与普及程度已经达到了很高的程度,移动互联网APP的用户也在不断的增加。为了有效的开发和改良APP软件,时其可以更好的服务于客户,相关的APP管理人与开发人员需要针对用户群体进行高度分析与调查,认识客户的需求,如此大量的数据分析也就需要构建相应移动互联网APP数据仓库,开发人员也需要对这项工作高度的重视。本文通过分析移动互联网APP数据仓库的应用,提出有效的具体策略,以供开发者参考与借鉴。
【关键词】移动互联网 APP 数据仓库 应用分析
网络信息技术如今正处于高速发展的阶段,大数据逐渐被社会各界重视起来,数据仓库作为数据挖掘和分析的重要平台,在各个行业中被广泛的使用。数据仓库可以记录每一个人网络中进行的操作与行为,并以数据的形式存储起来,为开发者与管理者提供了大量的数据信息,稳定了数据来源。移动互联网APP自身具备便捷、用户流量较小、数据变化快速等特点,对于此特点使用现有的大型数据仓库并不合适,可以针对移动互联网APP的特点开发适用于其的数据仓库,对移动互联网的用户行为与需求进行有效的收集和存储。
1 建立适用于移动互联网数据仓库的必要性
数据挖掘与分析是目前人工智能与数据仓库的热门要点,目前这样的数据处理技术是通过数据库,将其中的有价值的、隐藏的数据抽离出来,为开发者与管理者策略提供相应的线索。数据仓库则是实现这一技术的重要平台,其通过将用户的行为与需求已数据的形式进行记录,建立庞大的数据集合,为开发者与管理者提供有效的信息。
目前,智能手机的普及程度在不断的上升,移动互联网的用户也在不断的增加,可以说现在每一个人都可以使用手机在互联网上进行活动,已经成为了人们日常生活当中不可缺少的必须品。手机具有通信、娱乐、购物等众多的功能,占据了人们日常生活的大部分空间与时间。为了跟随时代的脚步,更好的为手机用户提供服务,移动互联网的开发者开始着手于对数据仓库的建设,利用先进的数据技术,对用用户的需求进行详细的分析与研究,就手机用户流量小、数据变动较快、数据复杂的特点而言,构建适用于移动互联网的数据仓库迎合了时代的脚步又满足了用户的需求,是十分必要的。
2 移动互联网APP数据仓库的应用需求
关于移动互联网APP的数据挖掘与分析,其自身具有一定的用户使用的规律与特点,因此要构建适合移动互联网APP的数据仓库。首先,移动互联网APP其自身的数据规模并不是很大,由此可见数据仓库的构建并不需要大型的,要更加的灵巧、便捷,并且不会占用大量的储存空间,能够及时的反应用户的行为。再者,移动互联网APP的数据是在时刻变动的,没有相应的规律可循,这就需要数据库频繁的上传数据,尽快对实时的用户数据进行分析和处理,为开发者和管理者留有充裕的时间做出决策。最后,数据仓库要具有一定的安全性与有效性,避免数据丢失与遗漏的情况出现,为移动互联网APP开发者上传有效可观的数据资料,保持其数据、信息与参数的高度统一,确保数据的准确性与可行性。
3 移动互联网APP数据仓库的设计思虑
在满足移动互联网APP数据仓库的需求之后,开发者对数据仓库的设计思路只要符合移动互联网APP的特点与数据的规律就可以初步实现。构建移动互联网APP数据仓库包括以下几个方面:首先,需要明确用户在使用APP的时候所展现的形态,这种形态表现为关系型的数据联系,其中包括了:个性信息、粉丝群体以及与其他用户的互动行为,以及用户自身的登录时间规律等。因此关于数据的分析与记录的工作,需要从数据之间的兼容性以及数据看的从属关系入手,将数据自动同步到数据仓库之中。再者,用户在使用移动互联网APP的时候,所产生操作数据,可以及时的在服务器上产生相应的日志。这些日志一般都是以文件的方式储存而来的,规模较大、内容较为随意。对于这样的数据我们需要做的就是在规律性的时间内对这些数据进行整理并录入到数据仓库当中,在转化这些数据的时候,需要保证数据的安全性与有效性,避免对数据进行改变。其次,客户端产生的数据,以及数据的形式都不具备规律性拥有较大的随机性,但是这些数据往往反映了用户对APP的使用情况。这类信息的存储要保证一定的完整性,以便管理者与开发者可以有效的分析用户的行为规则,探索用户实际的操作行为。最后,对于前端数据的录入到数据仓库之中,首先需要对这些数据进行检验,确保数据的一致性,排除多余参数与无效格式(如图1)。
4 移动互联网APP数据仓库应用实践
4.1 移动互联网APP数据库收集的数据情况
在互联网APP投入使用的过程当中,原始数据和变迁数据的表现形式主要变现为以下三个方面:
(1)同步到继承前端数据仓库中的数据,这一类数据,是未经过加工的数据,具有较好的即时性,以及自我同步与可随时查阅的特性。由于这些数据没有经过处理,因此这一类的数据不利于整合与分析,更适合作为即时信息进行查阅。
(2)通过服务器手机的数据,这些数据是经过格式化处理的信息,被收录在数据仓库已经建立的好的数据表格当中。但是由于用户的行为不断的变动所以日志的内容也在不断的增加与更行的,因此对于这一类的信息,通常需要经过固定时间来进行收集。在收集记录这些数据的时候,系统会对于之前的信息进行切断性的总结,避免数据出现丢失与损失。日志数据要比前一个数据占有更多的空间,对此,这部分数据需要比之前的要大10倍,同时采用阶段式的数据收集方式,避免别前端数据的影响。
(3)来自客户端的集成日志。来自客户端的操作日志,具备有序性、不完整性,它们是非格式化的数据。为保证其完整和规范,需要在导入到数据仓库前,集中对其进行格式化的操作。首先,需要进行数据清理和补齐。因为这部分数据在收录过程中会收录到系统自动生成的日志或者机器人操作产生的日志,因此,需要根据 APP 自身的特点,进行数据清理。而部分数据会有缺失字段的现象,通过设置,可以对发生字段缺失的数据进行补齐。然后,对数据进行格式化处理,将所有字段进行整理,形成统一完整的文本。最后,在数据仓库中建立好与格式相匹配的数据表,将格式化后的数据信息导入到数据仓库中。
4.2 实际应用与数据仓库的管理
移动互联网APP数据仓库的具体管理方式对应其表现的数据形式,这一部分是数据仓库运行的关键。移动互联网APP数据仓库的具体管理方式为一下这三个方面:
4.2.1 利用关系数据库系统
海量的数据存储,要保证其有序可操作行,就必须利用关系数据库系统,通过大量的时间积累,数据在不断的增加,关系数据库可以保证这些数据有序的运行并且依然具备可操作性。
4.2.2 并发操作技术的应用
对于APP而言其用户的访问量较而且较为集中,数据之间常处于并行状态,这就需要采用并行操作,将用户的需求都可均匀的满足,不会出现网络拥堵的状态。此外关于整体数据的处理,并行操作还可以对所有的数据进行查询和分解,使得数据拥有高利用率。
4.2.3 优化支持查询
移动互联网APP数据仓库的关系数据对于决策的查询功能还不完善。但是结合优化过后的查询其等技术,可以使得决策的查询处于合理化有效化(见图2)。
数据仓库最主要的功能就是对数据的表现以及分析,其可以有效的反应数据的具体情况,为开发者与管理者提供相应的对策。如今的移动互联网APP数据仓库对数据的表现形式主要集中在多想数据的挖掘以及分析上面。在数据仓库的运用当中,多为分析起到了重要的作用,可以帮助开发者与管理者从多个元度进行比较,数据统计的方式已经被广泛的运用,并且其收益十分之高。
5 结语
移动互联网APP数据仓库的使用可以为APP开发人员提供海量的参考信息,可以更加便捷快速的了解用户的需求与满意程度。数据仓库的应用在数据挖掘中具有很高的使用价值和更高的性能,此外,数据仓库的投入较少,性价比极高。其在大数据挖掘、分析以及移动互联网APP领域有着较高的发展空间。要开发者更深入的进行了解与创新,使数据仓库发挥自身的价值与潜能,为开发者提供更为有效的信息。
参考文献
[1]黄国贤.移动互联网APP数据仓库的应用实践研究[J].科技传播,2016,8(03):67,75.
[2]沈伟,汪海航.移动互联网APP数据仓库的实现与应用[J].科技风,2015(06):93-94.
[3]贾庆华.移动互联网APP数据仓库的应用实践研究[J].通讯世界,2016(09):30-30.
[4]王恂.大数据背景下基于Hbase技术的移动统计平台研究[J].无线互联科技,2015(13):47-48.
篇10
1.数据仓库的定义
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《BuildingtheDataWarehouse》一书中给予如下描述:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
2.数据仓库的特点
(1)面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
(4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
二、决策支持系统(DSS)
1.数据仓库化决策分析系统的体系结构
这一结构首先从各类异构的数据库中通过数据复制技术,将数据复制到数据仓库中。然后,在数据仓库的基础上建立数据立方体,实现OLAP。最后,客户端访问服务器采用了三层结构,通过HTTP方式直接访问数据库。而传统的数据仓库一般采用C/S结构。对于C/S结构,一般说来客户端维护比较困难,而且应用局限在局域网内。对于网络结构复杂,访问需要经过防火墙的情况,难以处理。这里采用三层结构有效的解决了这一问题。
2.构建决策分析系统的几个关键技术
(1)各库管理系统。在DSS中有数据库管理系统、模型库管理系统、知识库管理系统。它们分别对数据库、模型库、知识库进行有效的管理。各库管理系统有其共性也有各自的特点,需要进行分别处理。
①数据库管理系统。作为DSS中的数据库,系统可以采用已成熟的数据库系统,也可以根据需要自行设计。采用已成熟的数据库系统,可以减少实现数据库管理系统的大量工作,但是要解决好决策支持系统与数据库系统的接口。如果自行设计数据库系统,就要按数据库系统的要求,设计和完成一套数据库语言来实现数据库的功能。
②模型库管理系统。建立模型库管理系统同数据库管理系统一样,要设计一套模型库管理语言来实现对模型库的一般管理和特殊管理功能。一般的管理包括对模型的增加、删除、修改以及查询等功能。由于模型有源程序文件和目标程序文件的特点,故需要增加对模型源文件的编辑和编译等功能,这是模型库的特殊管理功能。
③知识库管理系统。知识库是由知识文件库组成。类似于数据库管理系统,知识库管理系统需要有对各类知识的基本管理功能,即对知识进行增加、删除、修改等维护功能以及查询功能等。对知识需要进行特殊管理,即对知识的一致性检查。
(2)接口技术。在数据库系统、模型库系统和知识库系统建立以后,部件之间的接口技术就突出了。
①模型存取数据库的接口。
②知识存取数据库的接口。
③模型库和知识库之间的接口。
3.统一集成技术
DSS是人机交互、问题处理、数据库系统、模型库系统、知识库的有机集成体。对任一个实际决策问题,首先需要建立数据库系统、模型库系统和知识库系统。再在各库间接口的基础上,利用DSS集成语言,对决策问题进行形式
化描述,形成统一集成各库的问题处理系统,即统一集成的DSS。