数据分析分析技术范文

时间:2023-05-16 14:57:09

导语:如何才能写好一篇数据分析分析技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数据分析分析技术

篇1

[关键词]数据仓库联机分析处理多维数据分析

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1110077-01

一、引言

联机分析处理(Online Analytical Processing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

二、OLAP的多维数据结构

数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以构造多维数据。

(一)超立方结构。超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。

这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。

(二)多立方结构。在多立方结构中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据的分析效率。

一般来说,多立方结构灵活性较大,但超立方结构更易于理解。超立方结构可以提供高水平的报告和多维视图。多立方结构具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。

许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。

三、OLAP的多维数据分析

多维数据分析是指对以多维形式组织起来的数据采取切片、切块、旋转和钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多侧面地观察数据仓库中的数据,从而深入地了解包含在数据中的信息、内涵。多维分析方式迎合了人们的思维模式,因:

(一)切片。定义1:在多维数组的某一维上选定一维成员的动作成为切片,即在多维数组(维1、维2、....维n,变量)中选一维:维i,并取其一维成员(设为“维成员vi”),所得的多维数组的子集(维1,...维成员vi,...,维n,变量)称为在维i上的一个切片。

按照定义1,一次切片一定是原来的维数减1。所以,所得的切片并不一定是二维的“平面”,其维数取决于原来的多维数据的维数,这样的切片定义不通俗易懂。下面给出另一个比较直观的定义。

定义2:选定多维数组的一个二维子集的动作叫做切片,既选定多维数组(维1、维2、....维n,变量)中的两个维:维i和维j,在这两个维上取某一区间或者任意维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i和维j上的一个二维子集,称这个二维子集为多维数组在维i和维j上的一个切片,表示为(维i和维j,变量)。

按照定义2,不管原来的维数有多少,数据切片的结果一定是一个二维的“平面”。从另一个角度来讲,切片就是在某个或某些维上选定一个维成员,而在某两个维上取一定区间的维成员或全部维成员。从定义2可知:

1.一个多维数组的切片最终是由该数组中除切片所在平面的两个维之外的其它维的成员值确定的。

2.维是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上来集中观察数据,因为人的空间想象力有限,所以,对于维数较多的多维数据空间,进行数据切片是十分有意义的。比照定义1,我们可以将切片的这两个定义联系起来,对于一个n维数组,按定义1进行的n-2切片的结果,就必定对应于按定义2进行的某一次切片的结果。

(二)切块。定义1:在多维数组的某一维上选定某一区间的维成员的动作称为切块,即限制多维数组在某一维的取值区间。显然,当这一区间只取一个维成员时,即得到一个切片。

定义2:选定多维数组的一个三维子集的动作称为切块,即选定多维数组(维1、维2、....维n,变量)中的三个维:维i、维j、维r,在这三个维上取某一区间或任意的维成员,而将其余的维都取定一个维成员,则得到的就是多维数组在维i、维j、维r上的三维子集,我们称这个三维子集为多维数组在维i、维j、维r上的一个切块,表示为(维i、维j、维r,变量)。切块与切片的作用与目的是相似的。

(三)旋转。旋转既是改变一个报告或者页面的维方向。例如:旋转可能包含了交换行与列;或是把某一个行维移到列维,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或者列的一个)。

(四)钻取。

钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。大多数的OLAP工具可以让用户钻取至一个数据集中有更好细节描述的数据层,而更完整的工具可让用户随处钻取,即除一般往下钻取外,随处钻取还包括向上钻取和交叉钻取。

(五)多视图模式。人们发现,获取相同的信息,图形显示所带来的直观性有时是简单的数据表所无法提供的。一个OLAP系统,应当采取多种不同的格式显示数据,使用户能够获得最佳的观察数据的视角。

四、结语

随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据,而OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。将有助于我们解决数据处理中的复杂问题。

参考文献:

[1]彭木根,数据仓库技术与实现,电子工业出版社,2002.9.

篇2

关键词 数据分析;工程;曲线回归

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)86-0119-02

在科学技术飞速进步的当今世界,石油一直是世界上最主要的供能能源,随着石油化工产业的不断进步与发展,石油化工检测也迅速成长起来。在化工领域里,石油化工原料也被广泛的应用于各个部门,它是决定各个部门发展进度的至关重要的因素。因此,石油化工检测的发展与成长也是必然的结果。

1 石油化工检测

石油化工检测是一门复合技术,其将电子、自动化、信息处理、控制工程、计算机等多门学科有机的融为一体,并将其广泛的应用于生产自动化过程以及石油化工领域自动化装备中。在石油化工原料的生产过程中,有毒或者易燃易爆气体随时都存在泄露的危险,有些严重的泄露事件甚至会威胁工人的生命财产安全,所以石油化工产业亦是一个高危产业。面对这些不容忽视的安全问题,严密的检测程序在石油化工生产的过程中是必不可少的一个重要环节。随着科学信息技术的飞速发展,检测手段也在不断的进行推陈出新,在其有机的结合了化学、物理、电机学、计算机和现代光学技术后,检测技术也有了质的飞跃。

如今在石油化工检测的过程当中,出现了许多如无损失检测等的新设备,这些现代化科技设备的广泛投入与应用,无一不说明了石油化工产业的重要性。在如今的石油化工产业中,一个新兴的概念正在逐步被人们所接受,它就是安全检测体系以及安全评价。其中安全评价是经由安全系统工程原理以及工程技术方法,对系统中有可能存在的危险性或固有危险性进行全面分析,也称风险评价和危险性评价,其包含危险性确认以及危险性评价两个方面。我们也应当全面深入的找寻其可能存在的危险源,并对其进行认真的校对与考核。与此同时,我们还应该对可能产生的后果进行分析与预测,并与当今社会上工人的安全指标进行认真比对,其值若在安全值范围以内,便可认为其安全;若在安全值以外,则认为其不安全,我们应当对其采取适当的措施,从而减少或者避免危险发生的可能性。

2数据检测方法

2.1安全检查表法数据分析

石油化工产品系数一般在一个安全的系数范围之内,根据实验发现,这些所测的数据互相独立,互不影响,所以这些数据呈现正态分布,所以检测的数据应该在该分布范围之内。所谓安全检查表法,就是通过抽样数据,通过SPSS软件计算出各数据之间的平均值以及标准方差,通过比较所测数据是否在平均值所在的标准方差范围之内。通过检验数据核对来衡量该数据值是否在安全检测范围之内。在分析的过程中,可以将其与标准平均值的偏差与安全检测标准方差的比值对其进行赋分,如果大于1说明偏差太大,产品不在安全范围之内,如果为0,则产品在安全范围之内。

2.2预先危险性数据分析

在数据统计过程中,有一种分析方法为数据拟合,可对数据回归分析,利用回归分析函数,预见系统的危险性。常用的数据回归分析方法为二元Logistic回归分析与曲线拟合分析。比如通过统计分析先前发生的事故的传统安全数据系数,对安全系数数据进行二元回归拟合,得到输入函数,通过输入函数来预见产品的危险性,以此来对产品做出相关的概括性评价统计,对于有害成分,触发条件进行评价。预先危险性数据分析可以应用到石油原油品质分析中去。

2.3故障影响因素数据分析

在石油化工作业中,经常会出现一些故障,这些故障发生的概率随着工艺过程,各不相同,对于发生某次故障,或者发生变质产品,肯定会有主要因素,但是如何才能得到主要因素,可以利用方差分析,利用方差分析是以两个样本作为比对对象,通过比对对象,来得到在一定置信区间内的主要影响因素,分析的数据统计量需要满足,各统计量之间符合正态分布,显然影响因素之间是相对独立,符合方差分析要求。通过统计数据,进行方差分析,可以得到影响故障的主要因素,继而对其进行评价。方差分析可以利用到石油管道故障,自动化仪表故障的主要因素分析中去。

2.频率分析

石油化工检测过程中,往往会发生不同类事故,多次发生,我们可以统计这些数据的频率,通过频率分析,进行参数估计,归纳其分布状态,可以看出其是否在置问之内。常用的方法为频率分析法。频率分析,可以检测发生事件的集中趋势,离散程度以及分布偏度与峰度,通过模拟分布图,可以有效判断事件发生的合法性概率。事件频率分析应用较广,可应用到成品油质量分析以及主要设备故障分析中。

3 结论

数据分析应用较广,如今的市场上存在着许多工作原理大同小异的有关于石油化工检测的设备,这些设备最终的目的均是为了保障石油化工的安全生产,但其实这只是石油化工检测的冰山一隅。怎样使正在上升的石油化工产业进行相对安全的生产,使其事故率降到最低,是石油化工产业在未来发展中,至关重要的核心问题。为了能更好的适应我国石油化工检测的发展,我们可以针对我国石油化工产业发展的特点进行软件开发。在其开发以及研究发展的过程中,国家应当出台一些相应的倾斜优惠政策,这样便会是这个新兴的、充满活力的产业迅速茁壮成长起来。

参考文献

[1]李建,余昌斌.浅论石油化工检验概况[J].科学之友,2010(4).

[2]魏天飞. 展望先进的产品检测技术——访梅特勒-托利多产品检测部门销售经理John Coleman[J].中国包装工业,2011(9).

[3]陈奥林,黄琦,兰翔,郑洁,侯胜,张昌华.杂散电流腐蚀防护与测试[J].管道技术与设备,2009(1).

篇3

关键词:云计算;电力大数据分析技术;应用

中图分类号:TM76 文献标识码:A 文章编号:1007-9416(2017)02-0117-01

1 云计算在大数据分析技术探究

1.1 SQL语句

云计算系统的使用中,主要应用SQL语句对电力系统中的信息资源进行存储,例如:电力供应系统中检测电力输送系统中,电流应用总量,电流输送区域的大小[1],电力时速送管理人员为了达到电力供应的合理性分配,应用云计算进行电流输送的系统化分配,云计算系统结合计算机应用系统的相关数据,实现电力系统的资源供应与电力资源区域性分配快速处理,从而到达电力供应系统的资源供应的数据信息处理结构科学性的划分。此外,SQL语句执行电力系统的大数据信息时系统主要采用相对完善的SQL系统化程序,避免系统数据的应用信息安全,避免应用信息在使用受到外界病毒的直接入,实现了电力系统信息资源处理的安全性、系统性、科学性发展。

1.2 分层次处理技术

云计算系统的应用,采用分层次处理技术对计算机处理系统进行系统处理,实现电力系统中建立的电力信息收集、电力信息存储、电力数据应用的结构化管理,依据电力供应中大数据管理系统进行系统分支化管理,从而达到电力系统资源在电力供应各个系统之间相互联系,又相互对立,云计算强大的SQL系统可以实现电力系统的大数据同一时间内的分析计算。大大提高了电力供应系统的数据处理速率,同时也保障我国电力系统数据处理的层次化管理[2]。

1.3 数据处理检测技术

云计算在电力系统大数据处理技术中的应用,采用算机数据处理检测技术,云计算系统中计算机应用处理技术采用计算机自动化处理系统,系统内部能够依据电力系统的处理信息,形成SQL系统语句检测系统,完善计算机自动化处理空间,使电力供应系统的数据处理结构可以得到应用系统的数据应用保障,实现我国电力管理系统的进一步智能化发展。

2 从云计算的优势分析应用

2.1 处理速率快

云计算是现代计算机系统逐步开发的重要体现。云计算系统的运行以计算机内部数据处理系统为基础,同时结合虚拟数据挖掘,进行计算机系统的进一步完善,虚拟空间的综合性应用,实现了云计算在电力大数据信息处理中,云计算的系统计算处理速率快,云计算的实现避免了传统计算机大数据的整体性计算,而是采用计算机系统中SQL语句[3],保障计算机系统运行中,将整体化大数据分割成不同层次数据,从而实现系统数据的综合性运行,大大提高了计算机系统运行的计算缩率。

2.2 兼容性强

云计算在电力供应中的应用,实现了电力系统供应中大数据处理技术的兼容性提高,云计算的计算方式主要应用分布式处理系统对大数据信息进行控制,从而可以实现多种电力处理系统的信息管理资源在整体应用中的综合性探索[4],例如:当电力大数据分析系统中的输送电力系统的信息资源在初期存储中受到严重的损坏,无法对后期的电力系统信息处理提供完善的信息资源,云计算能够通过语句处理,实现对电力供应系统的大数据分析系统进行调节与控制,系统中也可以将电力系统中,多种电力输送系统的资源形式在同一种电力大数据处理系统中进行调节控制,完善不同的信息资源处理。由此可见,云计算在电力大数据处理系统中的应用,为提高电力系统的信息应用范围额进一步完善提供新的技术支持。

2.3 数据存储空间性大

云计算技术电力系统大数据处理中的应用,拥有数据存储空间性大的特点。电力资源作为社会发展的主要动力之一,在社会中的应用范围得到进一步提高,较大的电力资源容量为电力系统建设的进一步完善带来问题。云计算采用虚拟空间存储技术,数据计算的存储空间也主要应用虚拟空间,为电力系统的大数据处理系统的综合性应用提供了较大的存储空间,能够保障逐步扩大的电力系统中大数据处理的完整性[5]。

3 结语

云计算系统是现代计算机系统的主要分支,云计算中应用SQL系统,分层次处理系统以及数据智能化检测系统实现了系统资源的综合性应用,对云计算在电力大数据分析技术的探究,实现了电力系统的信息管理结构逐步完善,为我国电力管理系统的进一步发展提供技术支持。

参考文献

[1]彭小圣,邓迪元,程时杰,文劲宇,李朝晖,牛林.面向智能电网应用的电力大数据关键技术[J/OL].中国电机工程学报,2015(03).

[2]吴凯峰,刘万涛,李彦虎,苏伊鹏,肖政,裴旭斌,虎嵩林.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,02:111-116+127.

[3]刘杨.云计算与数据容灾技术在电力系统中的应用研究[D].华北电力大学,2015.

篇4

关键词:数据挖掘;金融数据分析;Analysis Services

中图分类号:TP274文献标识码:A 文章编号:1009-3044(2009)36-10604-02

The Implement of Financial Data Analysis Module Base on SSAS Technology

HE Ying-gang, CHEN Jian-xiong

(Chengyi College, Jimei University, Xiamen 361021, China)

Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.

Key words: data mining; financial data analysis; analysis services

目前许多金融交易系统都为用户提供了技术指标的编写工具。在编写指标计算公式时,往往有各种参数需要用户进行选择和设置,合理的参数组合所得出的结果可以使得用户作出正确判断,但是这类金融系统中并未提供最佳参数搜索功能,这使得用户需要耗费许多时间对分析验证参数。随着数据挖掘技术的成熟和发展,为这类问题的解决提供了解决方法和途径。

由于许多金融公司都有使用Microsoft SQL Server系列数据库系统作为内部系统的数据库平台,而微软公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通过服务器和客户端技术的组合为客户提供联机分析处理 (OLAP) 和数据挖掘功能。这使得我们可以在不改变现有数据库系统的前提下,在原有的公司业务系统的基础上开发数据挖掘分析模块。基于SSAS本文提出了一种实现金融数据分析模块的解决方案。

1 金融数据分析模块的数据挖掘功能的设计

1.1 功能设计

金融数据分析模块主要应用于对指标参数的搜索,寻找最合适的指标参数值。所以系统应具有的功能有:1)根据用户的需要,提供指标公式设计和参数设置;2)提供灵活直观的图形显示;3)用户能够指定数据挖掘算法的参数值,并查看数据挖掘生成的规则。

1.2 结构设计

数据分析模块的设计采用了三层体系结构,分别为:1)数据访问层,实现对金融日志数据的采集、清理和转换;2)数据挖掘业务层;3)分析结果表示层,表示层把各种参数组合所对应的数据挖掘分析结果以图形化或表格化的方式展现出来,方便用户能够对比各种参数组合的优劣。为了避免对数据库系统性能造成影响,模块使用独立的数据仓库系统。开发框架如图1所示。

2 金融数据分析模块的数据挖掘功能模块的实现和关键技术

指标公式参数的求解是一类系统优化问题。遗传算法是一种求最优解或近似最优解的全局优化搜索算法。使用遗传算法比传统的枚举算法和启发式算法具有诸多优点,例如:搜索使用评价函数启发,过程简单;搜索从群体出发,具有并行性;与问题领域无关的快速随机搜索能力等等。由于SSAS所提供的数据挖掘算法中没有包含遗传算法,所以为了实现最优参数搜索,必须在数据挖掘模块中加入遗传算法。本文将指标计算公式的参数作为染色体基因,一种参数组合作为一个个体。然后根据个体基因数据生成指标值,并对指标值进行数据挖掘和预测,对预测结果的准确性进行评分,预测效果最好的参数组合将作为最佳选择提供给用户。遗传算法实现可以参考有关文献。本文所设计的主要处理流程如图2所示。

在图2流程中使用SSAS对每一种参数组合计算生成的指标数据进行数据挖掘分析和预测。SSAS是基于数据挖掘模型进行处理的,数据挖掘模型是一个数据结构,包含了数据关系、多维数据的分组和预测分析、数据挖掘算法等。用SSAS进行数据挖掘过程分为三个步骤:创建挖掘模型、训练挖掘模型和利用挖掘模型生成的规则进行预测。

2.1 创建数据挖掘模型

开发人员可以利用Visual Studio 2005内置Analysis Services项目模板快速创建数据挖掘模型,也可以利用DMX数据挖掘查询语言创建和处理数据挖掘模型。下面是一个利用关联规则算法建立的外汇利润预测分析的挖掘模型的例子。选择交易时间做为主键,该字段用来唯一表示某时间段内外汇交易价格。

CREATE MINING MODEL DM (

Ftime Date KEY,

KvalueDoublediscrete,

DvalueDoublediscrete,

…….

ProfitLeveldiscrete PREDICT)

USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)

2.2 训练挖掘模型

SSAS将挖掘模型保存在数据库服务器端,然后训练挖掘模型生成数据挖掘规则。AMO(Analysis Management Object)是微软提供给开发人员使用的管理SSAS的主要接口,开发人员可以使用AMO创建、管理和处理挖掘模型,立方体,分区等Analysis Services对象。以下是在户端程序中使用AMO与Analysis Services进行数据交互,训练挖掘模型的简单例子。

Svr=new Server();

Svr.Connect(@”Provider=SQLNCLI.1;Data Source=SSASDM\Store;……”);

Db=svr.Databases.GetByName(“DM”); //获取数据挖掘模型对象

Db.Process(ProcessType.ProcessFull); //调用训练和处理挖掘模型

Svr.Disconnect();

2.3 预测

挖掘模型训练完后,SSAS生成挖掘规则并可以用来进行预测。本文算法流程中将指标数据预留一部分用于预测,然后使用SSAS提供的SQL扩展语言,实现预测任务。以下是一个客端程序的预测连接例子:

AdomdConnectionConn=new AdomdConnection(……);

AdomdClient.AdomdConnand Comm=Conn.CreateCommand();

AdomdDataReader reader;

mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);

//构建数据挖掘预测语句

Reader=Comm.ExecuteReader();

上述第四行程序语句涉及数据挖掘模型和数据测试表,使用一个实例集进行预测,返回预测结果数据表格。

3 总结

该文分析了一种金融数据分析模块的设计方法和实现,该模块可以被重复开发和利用。若用户自定义新的指标计算公式,只需要修改数据挖掘模型和预测连接语句即可运行。在实际应用中,该系统模块的原型证明能够帮助金融分析员提高工作效率。

参考文献:

[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.

[2] 张涛.基于MS Analysis Services多维分析系统的实现[J].哈尔滨理工大学学报,2003(6):16-18.

篇5

[关键词]公安大数据;SAP HANA;数据分析

中图分类号:TP311.13 文献标识码:A 文章编号:1009-914X(2015)05-0141-01

1引言

近年来,大数据这个概念被越来越多的提及,信息大爆炸的时代已经到来,现阶段建设新的能够匹配公安业务场景的大数据系统是公安部门的迫切需求。公安工作与大数据也已然开始产生密切的联系,基于各种技术的大数据平台也在被建立起来,本文就基于“SAP HANA”技术的公安大数据分析平台做一个展望。

2公安工作对大数据平台的需求

公安部门掌握的数据越来越多,对于这些不同来源、不同类型、不同格式的数据,现有的公安警务数据平台无论是规模还是架构都很难适应在海量数据场景下的数据管理和分析,直接影响了公安形势预判和重大决策,因此,在现阶段建设新的能够匹配公安业务场景的大数据系统是公安部门的迫切需求。新建设的公安大数据系统,需要做到:PB级数据存储管理,多种数据类型与协议支持,高质量的数据整合,高效的数据分析能力,可管理和开放性,安全可靠,自主可控。

3现有大数据平台的缺陷

对于数据可以划分为两类:结构化数据和非结构化数据,非结构化数据没有统一的大小和格式,给分析和挖掘带来了很大的挑战。而现有的数据平台对非结构化的数据处理起来就非常的吃力。面对冗杂无序的庞大数据,简单的人海战术已经跟不上社会发展的步伐,因此更高效、更便捷的SAP HANA内存数据库运算技术应运而生,它的产生让数据存储、运算速度得到了极大的提高,让TB乃至PB级数据分析、处理和存储变得更加快捷稳定,也让大数据分析平台的搭建有了新的选择途径。

4 SAP HANA技术

HANA(High-Performance Analytic Appliance)是德国SAP软件公司开发的是一个软硬件结合体。它能够提供高性能的数据查询功能,可以直接对大量实时业务数据进行查询和分析,不需要对业务数据进行建模、聚合。

4.1 SAP HANA技术特点

4.1.1软件方面

相对于Oracle等传统关系型数据库,SAP HANA内存数据库不仅在维护数据的完整性、一致性方面做到了最好,而且在传统关系型数据库并不擅长的领域――难以顾及数据处理实效要求方面实现了突破。追本溯源,之所以SAP HANA实现了对Oracle等传统关系型数据库的超越,是因为其采用了改进的数据压缩、行列式数据存储和内存计算技术。将海量数据经过高效压缩存储至HANA的大内存数据厍,提高查询和分析效率。

数据压缩:SAP HANA采用数据字典的方法对数据进行压缩,用整数来代表相应的文本。对于数据格式相对单一的结构化数据源,这种压缩方式非常有效,数据读写速度也因此得到提升。

行列式存储:有人曾形象的比喻,HANA可以“识别”用户在插入数据和输出数据时的真正意图。实际上这是因为HANA采用了行列式存储方式,即增量更新(插入数据)时,HANA将它视为行式数据库;而输出数据时,HANA又充分利用其列式结构适合数据压缩的优点稳定快速的输出数据。而传统关系型数据库则需要牺牲其中一种方式来保证速度。

内存数据库计算技术:根据计算机组成原理我们知道数据是从磁盘->通过数据总线和控制器(RAID,I/O hub等)―->内存―->CPU Cache-->CPU进行数据处理(CPU寄存器)。HANA内存数据库,就是将数据放在内存中直接操作,跨过了数据总线和控制器,直接与CPU cache进行数据传输,数据读写速度比磁盘读写速度高出几个数量级,极大地提高了计算速度,缩短了时间。内存的访问速度比磁盘快1,000,000倍。传统磁盘读取是5毫秒,内存读取是5纳秒,比SSD和闪存快1000倍。虽然寄存器和Cache的读取数据的速度比内存快,但在实际的数据处理中却应用较少。

在传统的数据库中,由于内存存储的数据有易失性,系统断电或重启后内存中的数据就会丢失,对此SAP HAHA采取后台异步进程savepoint(Data persistence)定时把内存数据存储到磁盘中,大大降低了因故障导致数据存储丢失的问题。

4.1.2硬件方面

SAP不仅在软件领域独树一帜,在硬件研发方面也积极创新,和多个国际硬件厂商开展了合作,开发了多款支持HANA的高性能服务器,包括DellR910、Fujitsu RX600 S6、HP DL980 G7、IBM x3850等服务器。

4.2 SAP HANA技术应用

正是基于对SAP HANA高性能的认同,SAP内存计算技术正在全球内广泛应用,不断的转变人们的思考、重新规划着人们的生活和工作方式。

以亚太区第一家上线HANA技术的某快速消费品企业为例,该企业年销售额近百亿元,业务涉及生产、销售、计划、调度、物流、市场营销等多个方面,这对企业的综合管理和整体运营能力提出了很高的要求。同时,作为一个快速消费品行业企业,准确实时的数据对于企业来说非常重要,企业高管如果要对瞬息万变的市场行情做出准确的判断,就必须依据准确实时的数据进行科学决策。

该企业在应用了HANA技术后,确实提高了数据查询、处理的能力。数据展现能力快速提高。据测试,商业智能报表快25~30倍,逻辑计算能力速度提高了约150倍,而且,越是复杂的运算,HANA的逻辑运算能力就越突出,数据实时、同步真正实现。

5公安工作应用hana技术的可行性

公安部门的各类信息来源(公安管控信息、社会管理信息和社会公开信息等)中,人口信息、水电煤气信息、通讯信息、网络账号、图像、声音以及视频等信息绝大部分是非结构化数据。在这个“非结构化数据时代”,主要用于管理结构化数据的传统关系型数据库受限明显,尤其是运算速度过慢被人所诟病。而采用擅长大数据运算的SAP HANA技术无疑是明智的选择。

篇6

 

0 引言

 

新世纪以来,随着互联网及信息技术的飞速发展和应用,使我国的信息化得到前所未有的爆炸式增长,各个行业相继完成信息化改造,极大地提升了人们的生活水平与生产效率。同时,也使各行业进入到信息化发展的轨道上,进一步提升了企业生产效益。正是由于经济的飞速发展,各行业发展都已积累了海量的数据信息。但是传统的数据分析方法和工具仅仅能实现简单的录入、查询、更改、统计、输出等非常低等的功能,无法及时快速地发现数据跟数据之间存在的关系与规则,无法根据已有的海量数据有效预测未来的发展趋势,不能及时为企业决策提供有力的数据支持。

 

数据挖掘技术的出现技术填补了大量企业的这一需求,数据挖掘技术可以高效地挖掘数据背后隐藏的关系跟规则,非常方便地把这些海量信息予以统计、分析及利用成为当前各行业需要解决的首个问题。为企业决策提供及时准确的统计学数据支持,为企业发展壮大提供很好的数据分析工具。而海量数据挖掘技术的出现,保证了海量数据信息的合理利用,同时加快了我国信息化技术的发展。

 

1 数据挖掘技术定义

 

数据挖掘技术起源于情报分析,其过程是一个从大量的、不完整的、有噪声的、模糊的随机数据被从隐含在大量数据中提取的过程,数据挖掘的情报资料是人们事先不知道的,但可能是有用的信息和知识。在大多数情况下,人们利用计算机等信息工具的时候只知道,存储数据,数据被存储的越来越多,但不知道这些海量数据中隐藏着很多重要的规律、规则等信息,数据挖掘技术就是一种可以从大量的数据中挖掘出有用重要信息的一种数据分析工具。如图1所示。

 

2 数据挖掘常用的方法

 

数据统计分析中的数据挖掘技术主要有以下方法:分类法、回归分析法、聚类法、关联规则法、特征法、变化和偏差分析法、Web页挖掘等相关方法,这些方法从不同的角度对数据进行挖掘分析,得出需要的信息数据。

 

3 统计分析和数据挖掘的主要区别

 

从实践应用的角度来看,这个问题并没有很大的意义,正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样,在实际的应用中,数据分析师分析问题时,首先要考虑的是思路,其次才会对与思路匹配的分析挖掘技术惊醒筛选,而不是优先考虑到底是用统计分析方法还是利用数据挖掘技术来解决这个问题。

 

统计分析和数据挖掘的主要的区别在以下几个方面:

 

统计分析在预测中应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底哪些变量在起作用,又是如何起作用的。最经典的例子就是“神经网络”挖掘技术,它里面的隐藏层就是一个黑箱,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的,在实践应用中,这种情况常会让习惯统计分析公式的分析师感到困惑,这也确实影响了模型在实践应用中的课理解性和可接受度。

 

统计分析的基础之一就是概率论,在对数据进行统计时,分析人员常常需要对数据分布和变量之间的关系进行假设,确定用什么概率函数来描述变量之间的关系,以及如何检验参数的统计显著性;但是数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系,因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。

 

在实践应用中,统计分析常常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设的正误。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。

 

两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。

 

4 数据挖掘的一般流程

 

海量数据挖掘技术指的是把海量数据信息有针对性地进行提炼、分类和整理,从而将隐含在最深层次的信息挖掘出,为各行业发展提供可靠的数据信息支持。换言之,海量数据挖掘技术利用当前最先进的数据分析工具从海量数据信息内部挖掘数据信息以及模型间的关系的一种技术统称,更加深入的认识与了解数据模型,并对各自模型件关系的对应关系予以深入分析,从而更好地指导各行业的生产与发展,同时为其提供更多决策性的技术支持。

 

事实上,数据挖掘过程不能够自动生成,必须通过人工建模来实现,因此,人需要完成大部分的工作。其中,主要包含数据采集、数据预处理、数据选择、建立挖掘模型及评估模型等。

 

首先,通常海量数据挖掘技术应用在各行业的生产和发展决策方面,也就是说数据挖掘工作将面临着巨大的数据信息,并且此类数据信息多数为模糊的、无规律的;其次,建立高效、易理解的数据模型有助于实现海量数据挖掘;再次,数据挖掘模型的构建主要目的是帮助用户解决实际存在的问题,在经过对海量数据信息进行挖掘之后,从中找出利用价值高的信息,再对此类信息予以统计、整理和分析,最终用于指导各行业的生产与发展;最后,开展数据挖掘工作主要是为从海量数据信息里找出有价值的数据信息,这并不是单纯的数学性研究,其根本目的是从各行业的海量数据信息中找出有价值的数据信息,它具有相应的约束条件,且面向的是针对性较强的数据挖掘模型。

 

数据挖掘的一般流程如图2所示。

 

5 数据挖掘技术实现

 

现如今,尽管海量数据挖掘属于一种新技术,但由于该技术发展速度较快,因此,已被广泛应用到计算机发展领域当中。近年来,由于数据挖掘理论的逐步趋于完善化,并且在实践中取得了较好成效。其中,最常用的海量数据挖掘技术主要包含以下几种:决策树、神经网络以及统计学模糊。

 

①决策树算法通常应用到分析分类问题当中,同时它也是分类与预测的一主要技术。其中,类别属于因变量,而决策树可从众多预测变量当中,再相关理论的指导下,预测变量的发展趋势及变化关系,同时可对其进行双向分析,即包含正向分析和反推分析,根据最终的结果去寻找问题的原因。

 

②神经网络的建立。事实上,人工神经网络法指的是模拟人脑神经元结构的一种算法。其中,改善神经网络算法的关键在于知识的表达与获取。神经网络可实现并行处理,这是因为神经网络应用的是自适应函数估计器,因此,它的学习能力是极强的,在短时间内能学会新知识,同时它的纠错能力与适应性也是非常可观的。

 

③统计学模糊学习。该方法属于一种预测法,常被应用到谈及机器学习规律当中,而且只可应用到小样本情形中。另外,该方法是对观测数据进行深入的研究,通过对原理的分析,找出其中不予通用的规律。再结合已找出的规律进行更深层次的分析与探究,再结合实践中存在的现象予以预测,这样可提前预测出数据的发展趋势。

 

6 数据挖掘的应用

 

目前数据挖掘的应用领域主要包括以下这些方面:

 

金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业、网络舆情监控系统、企业竞争情报系统、全文检索、企业搜索、数据分析、数据库,可以用在各个需要数据分析的行业。

 

6.1 生物科技

 

在生物科技领域,如人的大脑与机器这一层面上,利用数据挖掘技术可加速发展生化义肢这一产品,很多这方面的专家学者普遍认为利用数据挖掘技术快速发展生化义肢这方面是大有潜力可供挖掘的。

 

6.2 信息科技

 

数位权利管理愈来愈受重视,以便保护知识财产,由全录公司Palo Alto研究中心创出的Content Guard公司,利用加密技术保护知识财产。

 

6.3 商务智能

 

数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。数据挖掘还能帮助零售商回答一些重要的商务问题,如“谁是最有价值的顾客?”“什么产品可以交叉销售或提升销售?”“公司明年的收入前景如何?”这些问题催生了一种新的数据分析技术——关联分析。如图3所示。

 

6.4 资料发掘与生物测定学

 

数据挖掘是利用数学演算法,在庞大的资料库中寻找方式,例如目前应用在掌纹、脸孔等图像辨识,或者是语言辨识处理等方面。

 

6.5 塑料芯片

 

塑料芯片是最新的前沿科学,塑料以其价格便宜、容易制造等特点被很多科研机构以及大学所青睐。很多大学科学家及机构在利用数据挖掘技术致力于研究塑料代替硅半导体,如IBM公司、朗讯科技、麻省理工大学、剑桥大学、Penn State大学都在大量研究与开发塑料或有机物质芯片。

 

6.6 微光学技术

 

专家利用可反射光线的水晶、玻璃等物质,让光纤传输资料的速度,不会因为通过路由器、交换器时而降低速度。

 

6.7 司法

 

在司法领域,数据挖掘技术分析的对象一般分为两大类:一类是基于监控对象的系统,它能够帮助分析专家跟踪某个犯罪嫌疑人;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑的可能涉及犯罪的行为,或者可能是犯罪分子才会产生的行为。基于监控对象的数据挖掘技术又称作关联分析法,是司法机构重点开发的技术。这种方法能利用相关数据,在表面上没有关系的人或事件之间建立关联。比如,如果某人是犯罪嫌疑人,那么就可以使用关联软件发现嫌疑人可能正在影响的其他人,从相关人那里获取破案线索。

 

6.8 微应用流体学

 

科学家正试图利用物理原则做实验,只利用极微量的水,加快原本需要费时费金钱的实验。加州理工学院的应用物理学家Stephen Quake,以微应用流体学发展了一套DNA分析装置,比传统的分析装置快。Technology Review的编辑指出,微应用流体学将为生物科技提供巨大的帮助,就像当初电晶体提高了电子产品。

 

7 案例分析

 

基于统计分析的数据挖掘在工程造价管理中的实例应用分析,在工程造价管理系统中,可通过选择工程单方造价指标、造价核减率、竣工结算价、工程结构形式、招标方式、竣工结算审核单位、竣工结算日期等因素等进行数据筛选,通过后台数据库统计分析后选出符合目标值的数据类型。

 

比如,选取出2010年1-7月某市市区竣工结算审定价超过100万元的工程计三十二项。其中,六层以下砖混结构住宅楼七项,六层以下框架混凝土结构住宅楼六项,十八层框剪住宅楼两项,框架综合楼五项,框架厂房三项,内装饰工程五项,外装饰工程两项,普通沥青路两项。

 

经过对建设成本的测算可以清楚,六层及以下的砖混结构住宅楼平均单方造价为801.65元/m2,六层以下框架住宅楼平均单方造价为941.39元/m2,十八层框剪住宅楼平均单方造价为1080.37元/m2,框架综合楼平均单方造价为1326.36元/m2,框架厂房平均单方造价为852.70元/m2,内装平均单方造价为24.58元/m2,外装平均单方造价为824.94元/m2,普通沥青路平均单方造价为354.55元/m2。

 

此市市区2010年1-7月竣工工程单方造价指标如上所示的典型工程造价指标信息,是此市定期的,具有代表性、以审定的工程结算为主的住宅(含经济适用房或廉租房)、公共建筑、市政道路等工程造价实例信息,它为社会和造价管理机构提供可参考的、较详细的实际工程造价经济指标和消耗量指标信息。

 

总的来说,数据分析处理,可以简单快捷地从繁重冗杂的工程造价数据中找出共性或者异性的数据。有效加强了工程造价的全过程动态管理,强化了工程造价的约束机制,为维护有关各方的经济利益,规范价格行为,促进微观效益和宏观效益的统一提供广阔的平台。

 

8 结束语

 

数据挖掘技术的广泛应用彻底解决了海量数据快速处理问题,然而人们对数据挖掘技术的需求水平也越来越高。它可以预测未来的发展趋势,所以今后研究焦点可能会集中到处理非数字数据;寻求数据挖掘过程中的可视化方法,便于在知识发现过程中的人机交互,使计算机真正实现智能化。这可能需要一段时间,需要计算机工作者的不断的研究探索,不久的将来我们将看到数据挖掘据技术很大的进展。

篇7

文章编号:1004-4194(2015)07-122-02

大数据是以云计算为基础,通过信息存储、分享和挖掘,将大量、高速、多变的终端数据存储下来并分析计算,寻求解决问题的有效方法。随着军队信息化建设的不断推进,未来军事经济活动都将以数据信息流的形式展现和保存,产生的数据量增长迅速,数据种类和格式日渐丰富。面对一个个数量庞大、种类繁杂的数据信息源,审计机关不仅要具备对海量数据的采集和存储的能力,更重要的是能够迅速分析和挖掘数据,从中找出审计线索、发现问题、寻求对策。

一、大数据的定义与特征

根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。对于大数据,美国著名的顾能公司给出了这样的定义:是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着大数据研究的深入,大数据概念的内涵和外延不断地产生变化,业界对其定义尚未完全统一。目前主流的定义基本是从大数据的特征出发,试图通过阐述和归纳这些特征来给出大数据的定义,其中比较有代表性的是4V。大数据的4个“V”有四个层面:一是数据体量巨大。从TB级别,跃升到PB级别。二是数据类型繁多。包括网络日志、视频、图片、地理位置等信息。三是处理速度快。1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。四是只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”――Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点,强调将数据结合到业务流程和决策过程中,部分类型的数据必须实时分析才能对业务产生价值。

二、大数据背景给军队审计数据分析带来的机遇和挑战

(一)大数据背景给军队审计数据分析带来的机遇

1.军队审计数据分析的认同感大为增强。军队审计部门作为综合性的经济监督部门,一直秉承数据说话的传统。审计报告中无论是综合评价,还是揭示问题,无一不是以数据为支撑的。在大数据背景下,海量数据离散地存储于不同信息系统中。可充分利用数据仓库、联机分析、数据挖掘和数据可视化等技术,对这些数据进行关联并深度挖掘分析,科学评估经费的使用情况和法规的实施效果,从而得出客观的审计结论。所有这一切都将得到各级党委和被审计单位的高度认同,从而进一步提升军队审计自身的地位。

2.军队审计数据分析所需的基础数据的获取将变得更为便利。在破除了军队内部协同思想理念上的障碍后,随着大数据技术发展,跨越系统、跨越平台、跨越数据流结构的技术将使军队内部纵向、横向部门得以流畅协同。军队审计部门不再需要“点对点”地与被审计单位进行联网,在内部局域网设定的许可权限内,可以直接查询和利用相关数据信息,极大地节约了审计成本;同时由于利用大数据技术,数据处理及分析响应时间将大幅减少,审计工作的效率将明显提高,可以同时对多个类别、多种领域的数据进行分析、处理。

3.军队审计数据分析将有助于提高党委决策的科学性和准确性,推动预测预警和应急响应机制建设,更加有效地规范军事经济活动。审计人员可以通过对历年海量数据的统计分析,挖掘出军事经济活动的特点规律,对各类违规违纪行为进行总结归纳,为党委建章立制提供参考依据;同时还能科学地评估管理规章的执行效果,从而帮助各级党委不断发现问题、整改落实。随着审计分析的进一步深化,审计分析将超越传统的数据分析方法,不但是对纯数据可以进行分析挖掘,对财务账表、报告等都可以进行深度挖掘、人工智能。

(二)大数据背景给军队审计数据分析带来的挑战

大数据在给军队审计信息化带来机遇的同时,也带来前所未有的挑战:一是实现资源统一规划和使用,必须以数据编码和信息标准统一、相互之间兼容互联为前提。由于目前缺乏制度依据,部门间横向协同难,原有的“信息孤岛”将给审计机关获取审计数据以及进行持续化审计造成困难。二是面对数量庞大、种类繁杂的数据信息源,审计机关不仅要具备对海量数据的采集和存储的能力,更重要的是能够迅速分析和挖掘数据,从传统的“经验依赖”转化为“数据依赖”,审计人员的数据驾驭能力将受到考验。三是审计业务流程大多以数据信息形式展现,资金流向更多体现为数据信息流的交换,使得违规违纪行为更加隐蔽和多样,微小的数据变动就可能造成经济损失。以往仅限于重点人员和财务的审计已经不能满足需要,抽样分析以及单一的财务账目分析也难以发现微小数据异常,这就要求审计机关对审计对象进行全面覆盖。四是审计机关作为军事经济运行安全的免疫系统,不仅要对已存在的问题进行查处和修补,还要对潜在的风险进行及时的揭示和抵御,更要通过大数据这个金矿,从更高层面、更全范围、更广视角为上级党委提供系统性、综合性、前瞻性的审计建议。

三、大数据背景下军队审计数据分析的策略

(一)明确工作目标导向,实施数据基础式审计

传统的以审计组划分的分散式审计模式已不能适应大数据背景下审计数据分析工作要求。首先,当前军队审计工作要建立健全制度、整合审计资源,结合审计人员的专业理论素养、实践工作经验、数据处理能力等因素,着手组建数据集中分析模式团队。其次,明确审计工作目标导向,按照“总体全面分析、重点业务分析、重点事项分析”逐层递进的思路,以系统全面的数据信息源为基础,坚持“面向业务需求、指导审计实践、推动数据分析”的原则开展审计数据分析工作。最后,要理清军队审计数据分析的工作思路,运用信息系统实施数据基础式审计方法,全面分析被审计单位在经济活动中存在的问题与不足,为军队审计工作的顺利开展提供数据支撑和技术保证。

(二)研判后台数据结构,掌握重点数据资源

在大数据时代,军事经济数据将呈现指数增长,挖掘重点及敏感数据审计的难度日益加大。做好审计数据的掘取、存储、处理与应用,对提高审计效率、实现分析结果的精准化具有重要作用。通过检查被审计单位内部控制制度,审查单位内部对不同业务数据的使用管理是否到位,数据库管理和安全操作制度是否完善,重点领域数据库常态监管措施是否严格,移动设备安全使用规程是否执行;依据数据库设计文档和数据注释等媒介,研究论证后台数据结构,确定重点、敏感信息数据库范围;采取穿行测试法、重新执行法、代码审查法、文档审查法等技术手段深入挖掘,切实掌握重点事项、信息、账表和报告间的勾稽关系。

(三)运用挖掘型分析技术,开展数据深度分析

目前军队审计中应用较多的是查询型分析和验证型分析,无法满足深刻揭示军事经济活动内在规律的现实需要,必须要引入挖掘型分析技术。挖掘型分析是利用数据仓库和数据挖掘工具进行的审计分析,主要有分类、回归分析、聚类、关联规则等方法。运用挖掘型数据分析技术,首先要做好审计数据的分类、存储、快速调用等工作,整合分析数据资源,搭建云数据存储平台,完善数据整理和研判机制,实现重点数据库间的兼容互联,共享审计云平台服务器运算能力资源。其次,要研发数据审计方法和分析工具,运用移动办公、云计算等技术对海量数据进行远程分析,深度分析审计疑点及问题线索,进而实现数据分析结果的精确化。

篇8

关键词:ATM;IP;数据分析;交换技术

中图分类号:TN915 文献标识码:A 文章编号:1674-7712 (2013) 02-0015-01

数据通信是以“数据”业务为主的一种通信系统,数据是预先约定好的具有含义的数字以及字母和符号等。计算机的发展,数据通信应运而生,实现了计算机与计算机之间的传递。电信技术的发展,使其数据交换的技术也随之出现。

交换即转接,是交换通信网中不可缺少的技术。交换是指按照某种方式对传输线路的资源进行分配,交换技术主要包含了报文的交换、分组的交换、线路的交换以及分组的交换等几个方面。

目前的宽带数据通信网出现了两种不同的技术,即IP与ATM,IP的网络核心节点为太位路电器;ATM的网络核心节点为ATM交换机,其目的为了实现信元的高速交换。

一、目前数据通信的几种交换方式

(一)电路交换:能为任意一个入网的用户提供一条临时使用的物理信道,这种方式被称为电路交换,是由通路的各节点内部早空间上完成的信道接续而形成。这条物理信道始终被用于信息的传输,因此不允许被用于其他的计算机。

(二)分组交换:分组交换,同时也被称作为包交换。它的主要作用是将用户发来的数据分割成相同长度的数据包,因此被称为打包或者分组。分组交换是指在每个数据包前面加一个分组头,作为将发往何处的地址标志,然后分组交换机会根据不同的地址标志对其转发到目的地。

(三)报文交换:报文交换,同时也被称为信息交换方式。报文交换是将用户之间不直接存在的信息进行接收以及发送的特殊物理信道。同时还将用户正在进行交换的报文进行存储,当输出电路出现空闲的情况时,再将报文发送到需要接收的交换机。

二、DDN

(一)DDN的工作方式:DDN作为高质量、高宽带的数字数据通信网,数字信道为信息传输的主要信道,因此不具有交换的功能。用户的数据信息应该根据之前约定好的协议,采用同步转移的模式对数字进行分复用的技术,所以必须在固定的时间内对通信宽带和速率传输进行事先设定。

(二)DDN提供的业务:DDN网作为全透明的网络,因此可以为分组交换网和互联网提供中继电路;不仅可以对一点对提供多量的业务;同时还可提供图像、G3传真以及语音和智能等多种业务来满足用户的要求。

三、FR

(一)FR的工作方式:FR的主要任务是将在原来的交换基础上进行分组交换做出相对简化数据传输新技术。它在OSI第二层主要采用简化的方式进行数据的传送和交换。因为FR仅完成OSI的物理层与核心层的功能,将控制流量以及纠错等任务留给终端来完成,因此不仅使节点机之间的协议简化,同时还提高了传送的效率。

(二)FR的特点:1.传输效率高。2.产生的费用低。3.兼容性好以及组网的功能性强。4.网络资源的使用率高。

(三)FR提供的业务:FR主要使用的面向连接交换技术,虽然能够提供需要交换的PVC和SVC,但目前只能采用交换虚电路的方式。

四、IP

(一)IP的工作方式:IP交换是一种高效的IPoverATM技术,同时也被称为三层交换技术。简单来讲,三层交换技术即“二层交换技术加上路由转发技术。”IP只对数据流中的第一个数据包进行路由地址的处理,由路由转发,继而按照已经计算好的路由在ATM网建立虚电路VC。这样的处理方式使数据包在今后不用经过路由器,可以直接沿着VC的方式进行传输,提高传输的效率。

(二)IP的交换的特点:1.因为彼此之间不存在连接建立时延,因此IP在进行交换的时候不需要事先建立通信线路,可以随时将信息发送出去。2.通信的双方可以不使用固定的通信线路,因此,提高了对通信线路的使用率。

(三)IP提供的业务:适合多种业务的环境,目前主要使用于宽带以及IP骨干的传输。

五、X.25

(一)X.25的工作方式:X.25的交换方式主要体现在传统储存转发方式的基础上,进而发展的一种新型交换方式。X.25的主要工作是将用户发送的数据进行分割,每个分割后的分组都有一个分组头,而分组头的主要目的是为了指明将要发往的地址,最后按照地址的排列顺序挨个进行交换网的发送。

(二)X.25的特点:因为X.25的交换动态主要为分配线路资源和传输的效率高,因此能为不同种类的终端提供互通的便捷。其具体内容如下:1.交织传输。2.统计时分可复用:采用动态的方式对线路资源进行分配。3.逻辑信道:在分组的交换方式中,每条逻辑信道在一次呼叫过程中都有相应的逻辑信道号。因此被用于用户的区分。4.虚电路:虚电路是根据报文的需要,以及占用多个时隙相应的缓冲空间而来的,因此,进行呼叫时不需要建立固定的物理通道。5.分组多路的通信:因为每个分组都有控制信息,所以分组型的终端可以做到与多个用户终端同时通信。

(三)X.25提供的业务:分组交换可以提供永久虚电路,同时还能开发以及提供增值的数据业务。

六、ATM

(一)ATM的工作方式:ATM的转移模式是立于电路交换和分组交换的基础上,主要目的是将数据分解成固定长度53B的信息,目前将这样的分组叫做信元。而ATM主要以信元为单位进行复接、交换等工作。复用的时候只要具备信元就可以进行信息的发送工作。

(二)ATM的特点:1.不仅可以建立虚电路来进行数据的传输,同时支持无连接的业务。2.因为采用的数据包属于固定长度的模式,因此有利于宽带的交换。3.采用异步术同时能够采用服用技术。4.ATM技术使其协议以及网络功能得到简化。

(三)ATM提供的业务:ATM常用于局域网互联、互联网以及虚拟局域网,还可用于电视领域。其主要优点在使用的过程中可以提高速度。

篇9

关键词 大数据分析;通信网络;监控体系

中图分类号 G2 文献标识码 A 文章编号 1674-6708(2017)181-0015-02

通信网络监控体系的建立是为了能够准确、及时地发现通信网络出现的问题,并能采取科学有效的措施来解决这些问题,以确保通信网络的正常运营。大数据分析,顾名思义就是要进行大量的数据分析,这是在互联网时代下应运而生的产物,在通信网络监控体系的构建及实施上有很强的应用价值。因此,通过大数据分析,建立完善的通信网络监控体系是优化和改进我国通信网络发展的必然趋势。

1 基于大数据分析的通信网络监控体系建立的必要性

互联网时代,大数据在我国的很多行业领域中都有较为广泛的应用,比如计算机IT行业、商品零售业、医疗行业以及通信行业,尤其是在与数据息息相关的通信网络行业上,有很高的应用价值。

一方面,通过大数据分析建立通信网络监控体系,能很好地起到决策的作用。利用一些能够量化的手段把内容转化成数据,并得以直观的显示,能让一些潜在的内容变得直观和突出。在利用大数据进行分析时,能将一系列规模庞大的数据细分化,通过找出这些数据之间的相关性更有针对性地获取所需要的信息。在数据挖掘技术不断发展下,这种基于大数据分析建立起来的通信网络监控体系应用越来越广泛,其决策的价值体现的淋漓尽致。

另一方面,大数据所能产生的价值还体现在能产生足够巨大的市场价值[ 1 ]。在当今社会,数据不是某个领域、甚至说不是某一个人的专属财产,而是一种人人都能拥有的财产,人们能够通过自由的使用大数据来获取所需要的信息,并产生一定的市场价值。甚至可以这样说。好的数据信息就是企业管理部门、生产部门维持日常运行的一种动力,是企业决策者做出重大决策的基础和依据。通过把控准确的大数据信息,反馈到具体的人或企业后,能有效增强工作的效能、避免耗费大量的人力和物力,这种潜在的经济效益也是大数据的价值。

我国的通信网络监控体系最初是通过设备告警来实现的,即必须是收到了危险警告的数据信息后,才能开始搜集和分析,这种被动性的监控体系,在大数据时代已经过时了,是不智能和不精准的。因此,针对这种设备告警建立起来的通信网络监控体系所存在的一些弱点和问题,应该要结合大数据分析,建立更加科学和智能化的通信网络监控体系。

2 基于大数据分析通信网络监控体系的建立及实施

2.1 明确通信网络监控体系的设计流程

基于大数据分析建立的通信网络监控体系,要按照建立数据传输线路、通过专网采集终端数据信息、解析采集到的数据信息、将数据信息保存到相应的数据库中、对数据库中的数据进行更新的流程来完成(见图1)。具体实施上,数据采集人员将搜集到的客户感知数据整理后并入数据库,然后进入到区域网络服务质量系统内,把网络结构库和综合报警系统相结合后处理数据[ 2 ]。同时工作人员能通过分析后得到的数据加强对通信网络的监控和反馈,更好的完善服务,增强客户体验。

2.2 以客户感知度建立通信网络监控体系

总体来说,我国通信网络监控体系的建立必须要以客户感知为出发点和终点。以客户感知建立的通信网络监控体系内容包括,客户感知、网络质量分析处理、工单工资、网络质量保障、感知信息接收平台、网络运营数据中心、智能网管、区域网络服务质量视图、客调系统等。即将搜集到的客户感知信息录入数据库,建立区域网络服务质量视图,并通过颜色区分网络服务质量等级,建立有针对性的网络维护、优化和发展建议,达到回馈、接收、执行的目的。这一系列工作的完成大致就说从采集和分析客户感知信息数据两个路径入手。

2.2.1 采取客户感知信息数据

在通信网络监控体系下,采取客户感知信息数据有很多个渠道,比如宽带用户、客户的无线终端、感知终端等。在宽带用户上,工作人员在宽带客户终端集成相应的软件或在客户计算机上安装相应的软件,通过软件获取客户位置信息、下载数据,并利用数据通道将这些数据上传到信息接收平台。又如在感知终端上,这种模拟客户终端是一种特制的电信终端,能集成宽带、窄带、无线、电源接口,并对这些集成体进行测试,记录好下载速度、信号强度、客户位置、通话质量等信息。为获取信息,可以将感知终端安装在通信网络中的一个节点上,利用PING测试该节点及其下游的各种设备,进而获取这些设备有无在线服务的信息[ 3 ]。同时,也可以在大客户的接入点上进行安装,达到接收信息的目的。

2.2.2 分析客户感知信息数据

在接收到大量的客户感知信息数据后,工作人员就要对这些数据进行科学有效的分析,这是很关键的步骤。工作人员将这些信息分类或分区域存入数据库后,要结合设备警告、资源库、网络Y构库等完成分析和处理。比如某地的宽带用户或手机用户上报了数据掉包的问题,利用大数据分析,就能快速的感知和接收到这个信息,并通过智能化分析后,及时分派工单,这样就能快速解决客户的问题,提高工作效率的同时,也能让客户更加放心的使用产品。

2.3 客户感知通信网络监控体系的优点及效果

这种以客户感知为核心原则建立起来的网络监控体系主要有3个优势:

一是能大量的搜集到客户的信息。通过大数据分析建立客户感知的网络监控体系能搜集到海量的客户信息,这样就避免了遗漏或搜集错误的问题,对最终的分析结果准确性有了基本的保障。

二是能提高分析的精准性。一般而言,通信网络监控体系最终服务的是网底层的用户,而大数据分析一般也是来自底层,所以这种形式的网络监控和数据分析准确度有了更好的保证。

三是实现监控的高效性[ 4 ]。通过对信息数据的实时采集和动态的、智能化的分析后,不仅能提高反应的速度,快速地察觉到网络中存在的问题,更主要的是能对网络实现全覆盖的监控,杜绝监控盲区的出现。

3 结论

总之,与传统的通信网络监控体系相比,以客户感知为核心原则建立起来的网络监控体系所搜集到的信息更全、分析和监控的结构更为精准、分析和监控的范围更广,很好地满足了客户随时随地服务的需求。同时,客户感知通信网络监控体系的建立,大大提高了网络通信的质量,推动了我国通信行业的稳定、可持续性发展。

参考文献

[1]庞倩.数据视阈下通信网络的监控体系研究[J].通讯世界,2016,23(21):19-20.

[2]陈威.移动通信运维大数据应用价值探讨研究[J].信息通信,2016,30(10):25-26.

篇10

文献标识码:A 文章编号:1672-7800(2015)005-0098-02

作者简介:陈冠星(1984-),男,广东揭阳人,硕士,海南软件职业技术学院网络工程系助教,研究方向为数据库、网络技术与物联网。

1 数据仓库简介

数据仓库(Data Warehouse,DW)是随着关系数据库、并行处理和分布式技术的飞速发展而产生的[1], W?H?Inmon出版了《Building the Data Warehouse》一书,给出了数据仓库的定义:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合[2]。数据仓库包含的是整个企业视图的粒度化数据。

数据仓库系统通常对多个异构数据源有效集成,集成后按照主题进行重组[3]。存放在数据仓库中的数据通常不再修改,用作进一步的分析型数据处理。

数据仓库系统的建立和开发以企事业单位的现有业务系统和大量业务数据的积累为基础 [4],其开发是一个循环迭代过程,通常需要企业有一定的业务数据积累,开发人员将这些历史数据通过ETL输入到数据仓库中,进行分析和统计,以建立决策支持辅助系统,为企事业单位管理者提供决策支持。

2 保险业需求分析

随着保险业发展及保险市场竞争的加剧,保险公司在管理和运营方面面临着更高的要求,来自监管、竞争、技术更新及全球化等各方面的压力不断考验着保险企业。保险业发展的核心动力表现在以下几个方面:①进入新分市场及提高业务质量;②巩固客户忠诚度,适应客户多变的需求;③高效的运营;④精确的风险及成本控制;⑤消除各种技术壁垒。

要做到上述目标并不容易。对高层管理者来说,由于统计口径的关系,很难获取一致性数据进行比对,很难及时监控到业务状况,不能有效地进行决策支持。对于业务部门主管与业务分析员,所需报表难以及时获取,即使取得的数据也难用于多视角、全方位地分析业务问题。对于IT部门来说,要不断帮助业务部门制作报表,时间相对较长,而且开发的报表越多,特别是分析型的报表越多,业务系统性能越受影响。

以某人寿保险有限公司为例,该公司的数据支持情况如下:

(1)保单管理系统中大致有50张左右的报表在运行,但随着公司业务的发展,数据分析及用于日常管理的制式报表与日俱增,报表数量将很快无法满足业务发展需求。

(2)各业务管理部门有各自的制式报表及统计需求,但在将数据汇总时,时常出现因统计时点不同、指标定义的理解差异等原因造成数据不一致,导致额外的数据校验工作。

(3)当前报表的IT实现基本上是按照单个报表需求来设计的,造成IT设计无法复用,报表开发缺乏整体规划,呈一种临时性状态,随着报表及统计需求的增加,IT相应的工作将与日俱增。

(4)因当前报表及数据统计都在保单管理系统中运行,随着需求数量的增加,保单管理系统将面临沉重的夜间批处理压力并严重影响日间日常业务操作的效率及稳定性。

针对上述系统现状,在建设中决定采用数据建模、ETL、数据分析以及数据展现等技术,实现风险管控分析、客户服务分析、客户维持分析、市场销售分析、综合分析和综合管理6大功能,达到以下目标:①代替原有手工报表方式,为业务人员节省时间;②提供精细的分析数据。业绩分析可以从营业部,钻取到营业组,甚至每个FC(理财顾问),保全分析可以分析每种保全项目的明细;③统一的分析口径。各部门统计指标,可以在统一的时间点上进行公司级汇总;名称一致的统计口径,可以唯一定义一种统计方式;④唯一的报表平台。从报表需求获取到报表需求分析以及最后的实现都在一个体系下完成,公司数据分析工作逐步系统化和实用化。

3 系统设计

统计分析系统采用灵活架构,在构建一个统一、稳定的企业级数据仓库基础上,分步构建各个独立的分析应用数据集市,满足灵活性、扩展性要求,系统架构如图1所示。

保险数据仓库是一个中央的知识数据库,包含来自寿险系统、团险系统、短期险系统和电话销售系统等源系统的源数据,数据模型分为3层:

(1)数据准备层(Staging Layer): 采用同源系统相似的数据结构存储源系统的每日增量数据。

(2)保险企业模型层(Insurance Enterprise Models Layer): 作为保险数据仓库的核心,相应的保险企业模型部署在该层。根据保险行业的业务视图,保险企业模型分为10个主题,根据保险信息的特性而非事务处理的目的来设计,企业级上所有保险业务信息根据历史版本进行记录。在数据准备层通过ETL(数据抽取转换装载程序)进行数据批处理,采用增量机制装载进入保险企业模型。

(3)分析数据模型层(Analysis Data Models Layer): 各种各样的数据分析需求归类到不同的数据集市,如市场及销售数据集市、运营效能数据集市、风险管控数据集市等。分析数据模型即为满足数据集市需求而采用维度建模方法特别设计的模型。分析数据模型从保险企业模型衍生而来,数据通过ETL 批处理,采用增量机制装载进入保险企业模型。

ETL采用增量机制,每日从源系统抽取变更数据至Staging层,接着将Staging层数据转换至企业模型和分析模型。在ETL批处理完成后,系统运行报表批处理生成报表并到相应的报表文件服务器上。

OLAP元数据管理工具: 提供OLAP 元数据管理工具,用于管理所有OLAP 业务元数据,包括指标定义、维度层次定义、指标与维度的关系及分析需求。通过使用这个工具可帮助保险企业统一KPI 定义及促进企业标准化管理,同时其管理的内容可作为统计分析系统所支持的知识库来使用。

OLAP平台:选择微软的SQL Server 2008作为OLAP平台。OLAP 工具支持分析的类型包括管理仪表盘、平衡记分卡、制式化管理报表、临时查询、数据挖掘等。

4 系统实现

4.1 ETL实现

ETL采用SQL Server集成服务来实现。Microsoft Integration Services 是一个可以生成高性能数据集成解决方案(包括为数据仓库提取、转换和加载ETL包)的平台。Integration Services包括生成和调式包的图形工具和向导;执行工作流函数操作和执行SQL脚本等任务;提取和加载数据的数据源和目标;清除、聚合、合并和复制数据的转换;管理包执行和存储的管理服务,即Integration Services;用于Integration Services对象模型编程的应用程序编程接口(API)。

4.2 多维数据实现

创建报表之前,需要通过SQL Server分析创建多维数据模型。之所以使用SQL Server分析服务创建多维模型,主要是为了实现对业务数据的即席查询。系统开发人员创建多维数据集以支持快速响应,并提供单个数据源以进行业务报告。商业智能的重要性不断提高,使用单一的分析数据源可确保将差异减到最小(如果无法完全消除差异)。

4.3 报表系统实现

报表系统实现使用了SQL Server报表服务,报表服务包含一整套管理报表的工具。报表工具在微软的开发环境中工作,并与SQL Server无缝衔接。通过报表服务,可以从多种不同的数据源创建各种不同样式的报表。

5 应用效果

该系统目前已经在某人寿保险有限公司正式投入使用,结果显示,该系统使业务数据的分析效率、分析能力大大提高,在一定程度上简化了业务人员数据统计工作,对公司决策支持起到很大的帮助作用,系统良好的应用价值体现在以下几个方面:①数据集成。数据仓库能够把来自多个不同子系统的数据进行有效集成,提供统一的、一站式的业务报表系统;②查询灵活方便。统计分析系统能够根据不同的需求进行条件过滤,并支持数据向上向下钻取,数据查询方式更加灵活,追溯更加简单直接,为业务分析人员提供了很大的便利;③安全性高。为了保证数据的安全性和可靠性,对数据仓库中的数据实行统一管理;④降低成本。统计分析系统的建立,可以代替原来的手工汇总操作,一次创建,只需要进行简单的维护就可长期使用。

6 结语

本系统开发及系统运行工作得到如下经验及启示:

(1)理念的转变。在数据分析上,需要从清单和简单汇总上升到数据分析,从单个部门分析到全局分析,从数据库到数据仓库进行分析设计。