数据理论论文范文

时间:2023-04-11 17:15:14

导语:如何才能写好一篇数据理论论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

数据理论论文

篇1

(一)类型繁多(Variety)

数据通常被分为结构化数据、半结构化数据和非结构化数据。相对于传统的以文本为主的结构化数据,网络日志、音频、视频、图片、地理位置信息等半结构化、非结构化数据越来越多。同时,近几年出现的微博、微信等可通过移动互联设备使用的电子交往形式使数据量和数据种类更加复杂化。

(二)价值不高(Value)

价值密度的高低与数据总量的大小成反比。以社会中常见的监控录像为例,一天的监控记录,有用数据可能仅有一二秒。如何将已有的结构化数据、半结构化数据及非结构化数据进行整合、分析,挖掘出更多有价值的信息,并通过强大的计算能力迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

(三)要求高速处理(Velocity)

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是生命。

二、图书馆大数据的主要来源分析

根据大数据的基本特征,经笔者分析,图书馆知识服务领域的未来大数据的来源主要有RFID射频数据、传感器数据、社交网络和移动互联数据等几个方面。随着图书馆数字技术的不断提高,RFID将不断推广,这将是未来图书馆大数据的主要来源之一;由图书馆中的传感器感知生成的数据,长时间积累后也将产生巨大的数据量;社交网络已广泛应用于社会各个方面,逐步成为人们交往的主要形式,其所产生的数据量远超以往任何一个信息传播媒介,由其生成的数据量是不可估量的;移动互联网及移动互联技术的不断完善,使得图书馆可以灵活获取移动电子设备、人员、资源、用户行为和需求等信息,并对这些信息进行实时分析,从而帮助我们开展有效的智能辅助决策。

三、大数据对图书馆管理的影响和挑战

(一)海量数据处理考验图书馆计算能力

大数据时代背景下,各类数据量迅速增长,数据产生的方式、范围发生前所未有的变化,人们在社会中的各类行为都产生了大量的信息数据,信息数据的组成结构、格式类型、存在形态等都更加复杂。图书馆要对上述复杂的数据进行应用、存储,将具有很强的挑战性,不仅仅涉及云计算、大数量级数据存储等技术问题,还可能促发图书馆服务模式、资源建设模式、管理模式与发展模式的转变。

(二)数据分析方式转变带来的挑战

随着图书馆信息化程度的提高,以互联网信息搜索、查询为基础的知识服务逐渐被更多的图书馆所采用。但不管是简单的信息服务,还是结合了信息检索、组织、分析等高级业务服务,都可归纳为就数据而进行的服务。大数据时代背景下要求图书馆不仅需要通过结构化数据了解客户需求,也需要大量的非结构化数据、半结构化数据去挖掘、预测和分析当前和未来的用户需求,社会大众的需求也将随着不断变化的个性化的高满意度服务出现而对图书馆的服务呈现出明确和迫切的需求。满足用户的需求,提供复杂数据的处理也将成为大数据时代图书馆的发展方向,如何处理好数据分析,将直接影响图书馆的生存与发展。

(三)大数据对图书馆基础设施提出更高的要求

半结构化及非结构化数据的迅速增加,导致数据存储、计算规模越来越大,其成本急剧上升。很多知识服务机构出于成本的考虑将应用由高端服务器转向中低端硬件构成的大规模计算机集群,从而对支持非结构化数据存储及分析的基础设施提出了很高的要求。

四、大数据时代图书馆管理发展方向

(一)探索利用数据分析技术与工具

对图书馆来说,在大数据时代要想在激烈的市场份额竞争中争得一席之地,避免边缘化,开展必要的大数据分析服务显得必不可少。图书馆开展的大数据分析服务业务,主要可以有以下几种:首先是图书馆自身建设所需的大数据分析。这类分析一般以图书馆的现有数据为对象进行分析,如读者的借阅方式、行为爱好等,是一种对现有资源的分析与挖掘;其次是客户即读者所需的大数据分析。这类分析业务类似于当今图书馆为企业等客户群体所做的信息情报参考、竞争情报分析,但也有着很大的区别,如对于分析对象数据的不同、分析手段的不同、分析目的不同等,这类分析业务所依靠的大量数据可能并非图书馆所拥有,从而成为限制该项业务发展的瓶颈,如何解决此类服务的数据问题是突破该瓶颈的关键。麦肯锡的《大数据:创新、竞争和生产力的下一个前沿领域》报告中首次提出了“大数据”的概念,对大数据的分析技术与工具进行了列举,如目前已为广大图书情报研究者所熟知的聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等,特别是聚类分析、可视化分析与数据挖掘技术。但这些现有的研究目前仅仅只是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘大量负责数据的存在与表现形态,更不能通过这些分析去预测未来的可能发展趋势。当然,大量网络社交等信息行为产生的大量非结构化数据、半结构化数据也让许多学者开始思考去采集和利用这些信息,如苏玉照等人就认为如果能够采集到Web日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制Web日志的数据模型、过程及方法进行探索。

(二)重视基础设施建设

大数据时代,图书馆的核心竞争力不再仅是文献数据信息的竞争,各类形式的海量数据以及对海量数据的分析、挖掘才是今后图书馆之间竞争的核心因素。因此,要跟上大数据的脚步,必须完善信息收集的基础设施建设,加强各类信息资源的收集将成为图书馆资源建设的大方向。图书馆首先要明白“数据即生命”,解决数据存储问题。大数据时代对于图书馆的数据存储量要求极高。早在2007年,沃尔玛就通过对消费者的购物行为等非结构化数据进行分析,创造了“啤酒与尿布”的经典商业案例。这样的经典案例是通过对海量的多类型数据收集和分析得到的。因此,图书馆要掌握读者用户、馆员乃至社会服务群体等的信息,既要有当前通用的数据记录中的个人身份、借阅记录等结构化数据,还要有存储信息行为、搜索方式、行为痕迹等非传统数据,这些都需要通过基础设施的建设来支持。除此之外,图书馆还必须解决数据计算和数据分析问题。要积极利用“云计算”技术,搭建图书馆的云计算平台,解决图书馆自身海量数据的存储及运算能力与大数据对存储能力的高要求之间的矛盾。

(三)提高图书馆服务的智能化程度

篇2

城镇土地调查数据库的主要内容包括:土地权属、土地登记、土地利用、基础地理、影像等信息。城镇土地调查数据库建设的依据是《城镇地籍调查规程》、《城镇地籍数据库标准》和二次调查相关技术标准、规范和办法等,根据城镇地籍测量、城镇地籍调查和土地登记成果,建立了城镇土地调查数据库。①数据检查。利用自主开发的MDIGS数字化系统对入库前的地籍、地形图、入库基础街坊图内业数据进行100%的检查,对检查到的线型、符号等地形要素、数据字段属性等错误自动或人工进行了及时改正,保证了入库基础数据的完整性、正确性。在数据库内,利用ARCGIS9.3拓扑检查工具、“城镇地籍建库管理软件以及“ACCESS2003”数据库工具,对所有录入的地籍调查表主、子表项、勘丈数据、街坊面积、街坊数据图等100%进行了严密地检查。对检查中发现的问题,由相关作业人员进行了更正。②数据入库。借助数据库管理系统,将图形和属性数据转入城镇土地调查数据库管理系统。③数据库建设质量控制。对城镇土地调查数据库建设进行全过程质量控制,包括基础数据源质量控制、环节质量控制、交接检查、数据自检、数据库建设成果质量检查。数据库建设过程中重要的过程数据和质量控制记录进行了保存,以保证数据质量的可追查性,确保数据安全。④统计数据输出。经检查合格后的入库数据,按《城镇地籍调查规程》、二次调查的规定输出各种统计报表。

2上交产品质量

根据对样本图幅综合质量特性的检测结果,无锡市锡山区第二次土地调查1:500城镇土地调查(A标段)各项精度指标均需符合技术设计书和规范的要求,质量保证可靠。上交质量包括控制测量资料和城镇土地调查质量,其中控制测量资料包括一二级导线观测记录手簿、一二级导线平差计算成果、图根导线计算成果、一二级导线点点之记、埋石图根点点之记、一二级导线点成果表、图根点成果表、控制点展点图、仪器鉴定资料;城镇土地调查资料包括街道街坊分布图、城镇地籍调查表及相关资料、宗地界址点坐标及面积表、以街坊为单位的宗地面积汇总表、以街道为单位的土地分类面积汇总表、城镇土地分类面积统计表、1:500分幅地籍图接合表、宗地图、新旧街坊对照表、新旧宗地号对照表。上交质量还应该包括数据建库资料(宗地图分幅地籍图光盘、城镇地籍数据库)、专项调查统计资料(工业用地、基础设施用地、金融商业服务用地、开发园区用地、房地产用地统计)、文档资料(无锡市1:500城镇土地调查技术设计书、技术总结检查报告)。

3总结

篇3

1.1系统功能模块设计经过对福州外语外贸学院科研管理的需求调查分析,对取得的信息进行仔细整理可以发现,科研管理系统的主要任务可以划分为机构管理、科研人员管理、科研项目管理、科研成果管理、报表打印管理、系统管理6个部分,各部分之间并非各个独立,而是相互联系。本研究正是据此设计,从而使本系统能够很好地完成这些功能。具体功能结构如图2所示。(1)机构管理:科研机构包括各学院、部处、机关单位等,所有的科研人员、成果、项目等都按照科研机构进行归口管理。提供各科研机构的增加、删除、修改与检索。(2)科研人员管理:主要对学校参与科研工作的人员基本信息进行管理,提供人员信息的增加、删除、修改与检索。为其他模块提供人员信息,是其他模块的基础。(3)科研成果管理:主要对科研论文、著作、成果等进行管理,提供成果信息的增加、删除、修改与检索。(4)科研项目管理:主要对已经立项后的项目进行管理,提供项目信息的增加、删除、修改与检索。可以对项目状态进行编辑。(5)报表打印管理:可以打印部门成果报表、个人成果报表、成果分类统计表、院部处教师科研分统计表、申报项目表、立项项目表等报表的打印。(6)系统管理:用于对登录用户信息、密码等进行维护。

1.2数据库设计数据库设计在软件开发过程中是一个很重要的环节,数据库是任何系统都不可避免的。本研究在设计数据库时尽量满足第三范式,减少数据冗余,尽量设计比较精简的数据库。(1)人员信息表:有机构、人员编号、姓名、出生日期、性别、职称、最后学历、最后学位、学科、研究方向等字段。(2)科研成果信息表:有机构、成果编号、成果名称、第一作者、成果来源、成果形式、出版单位、出版时间、刊号、关键字、成果字数等字段。(3)科研项目信息表:有机构、项目编号、项目名称、项目来源、批准号、负责人、立项时间、完成时间、项目状态、批准经费等字段。(4)管理员信息表:有用户名称、密码。管理员登录的时候要进行验证,表单获得的数据和数据库中该表的数据对比如果成功,则登录成功,否则,登录失败。对以上所有表的添加、删除、修改、读取等数据操作都设计相应的存储过程来实现。

2系统实现

2.1系统用户界面的设计用户界面设计的要求是:(1)简单清晰,一目了然,容易上手;(2)功能相似的页面,采用统一的布局;(3)方便操作,尽量减少数据录入量;(4)具有较好的录入容错功能。用户工作界面由三层组成:上方是图标栏;左下方为事务菜单;右下方为操作界面。页面主要采用webForm来进行设计。如校级管理员用户通过验证后的登入界面。

2.2数据库的实现本科研管理系统采用了三层结构的框架,将访问数据库的一些底层方法封装在DBUtility这个类库中,其中DbHelperSQL类和DbHelperSQLP类是连接数据库字符串和一些公用的方法,如简单的SQL语句,带参数的SQL语句,存储过程的操作等,DES-Encrypt类是数据库的安全性,加密解密等操作。PubConstant类是动态的配置数据库的连接字符串。

2.3配置web.config为了方便数据操作和维护,可以将一些数据库连接配置参数放在web.config文件中,代码如下。

2.4科研项目管理功能模块的实现高校科研项目管理主要针对已通过审核的项目提供管理功能,能提供项目的信息,对项目实现增加、修改、查找等功能。点击项目管理,可以出现项目一览和新增项目两个功能模块。这时候点击项目一览,可以出现项目的一些基本信息,并且可以对其进行增加、修改、查找等相关操作。系统管理员有最高权限,可以查找全校的申报项目,可以模糊查找,有修改、删除的权限,还可以导出所要的项目资料。以下是校级科研项目管理设计界面,如图4所示。

3结束语

篇4

关键词:空间数据库更新;无缝集成;海量数据;数据压缩;数据检索;

Abstract: As China's economic construction and social development speed is very quick, terrain and other factors change, the basic geographic data has a distinct feature of the current, directly restricts its use value and the range of use. So it is necessary to study the geographic database updates. This paper introduces briefly the basic steps of building characteristics and spatial database; and discusses some technical problems in spatial database, such as spatial data retrieval, seamless database. Finally discusses the update problem of geographic database.

Key words: spatial database update; seamless integration; massive data; data compression; data retrieval

中图分类号:G633.55文献标识码:A文章编号:

一、引言

随着基础地理数据的积累逐步完成和共享应用,其现势性问题已成为广大用户关注的热点问题。《国家科技基础数据库建设与发展的研究报告》指出:持续更新和业务化运行是一个科学数据库存在的根本。目前许多科技数据库是按项目方式一次性建立的,缺乏持续的数据来源,或有效的数据更新机制[1],很容易变成死库,或逐步地失去应用价值。因此有必要对基础地理数据成果定期进行更新,以满足国民经济、国防建设和社会发展的急切需求。

目前,空间数据管理技术呈现出网络化、集成化、组件化和可视化的趋势。Internet与Intranet的出现使分散于各地的数据,相互访问与远距离传输成为现实;数据仓库和数据库技术的出现,使人们能够快速、有效地对海量空间数据进行管理。虽然关系数据库是数据库发展的主流,但单一关系型数据库已不能完全满足对空间数据的管理[2]。随着数据库技术的进一步发展,面向对象技术和关系数据库技术相结合[3],形成了对象—关系型数据库。这进一步提高了数据管理的灵活性和应用开发能力。

二、空间数据库简介

1 数据库的概念

地理信息系统的数据库(简称空间数据库或地理数据库)是某一区域内关于一定地理要素特征的数据集合。与传统数据库相比,它具有如下特点:

(1)数据量特别大,地理系统是一个复杂的综合体,要用数据来描述各种地理要素,尤其是要素的空间位置,其数据量往往很大。

(2)不仅有地理要素的属性数据,还有大量的空间数据,并且这两种数据之间具有不可分割的联系。

(3)数据应用广泛,例如地理研究、环境保护、土地利用与规划等。

三、空间数据库建库步骤

1空间数据库的体系结构

地理信息空间数据库是实现数据组织、存储与管理,其体系结构[4]如图l所示。

图1 数据库体系结构

2 空间数据库建库流程

以下是空间数据库建库流程图[5]:

图2 空间数据库建库流程图

四、空间数据库建库的若干技术

1.多尺度数据的组织

为满足不同的需要,城市测绘部门一般要生产1:500、1:1000、1:2000、1:10000、1:50000等系列比例尺地形图,各种不同分辨率的航空、卫星遥感影像等,如何对这一系列的比例尺的空间数据进行组织,主要有三种方法[6]:

(1)建立统一数据库的多个比例尺;

(2)开发更好的层次数据结构来支持空间数据的多级表达,包括运用面向对象方法、语义数据模型等技术;

(3)通过自动综合的方法自动生成同一数据库的多个版本,这种方法的难度很大。

2.数据的无缝集成

GIS数据集成类型分空间数据的无缝集成和空间数据与属性数据的无缝集成。

2.1 空间数据的无缝集成

传统的空间数据都是基于图幅的,每一图幅以文件的方式存放起来。由于数据生产的系统误差或偶然误差,在图幅与图幅之间往往存在数据不一致的情况,如河流在图幅之间发生了错位、房屋在图幅之间不能闭合等现象,这种情况称为“图幅缝隙”。由于分幅生产的原理,这种“图幅缝隙”无法避免,以往的处理方法是增加一道接边的工序,这就造成了数据被人为的修改,增大了误差。可以设想,如果在整个数字化区域内进行数据生产,就可避免这一问题。具体实施步骤[7]为:

(1)详细拟定空间数据库结构,提出可操作的数据库建库方案。

(2)按照数据库建库方案对原始数据进行规范化整理。

(3)对于有属性表的数据如MapInfo、Arc/Info数据,进行属性整理;没有属性的数据如AutoCAD数据,单独在数据库里建立属性表。

(4)对已整理完成的空间数据进行批量入库。

(5)对属性数据进行批量入库。

(6)进行图形归一化处理,保证跨图幅的特征地物保持连续。

(7)进行属性连接。

2.2 空间数据与属性数据的无缝集成

对于这种情况,在数据入库时只需对图形和属性进行相应的对照入库即可。

3.海量数据存储和管理

当前,航空和航天对地观测技术迅速发展,利用多种星载和机载传感器,人们已经能够(准)实时获取反映地球表面动态变化的、多时相、多波段、多分辨率的对地观测数据[8]。因此,对海量空间数据的存储和管理形式的研究和探索也成为一个重要的研究方面,目前国际上正在采用对象—关系型数据库来存储和管理空间数据的技术和方法。

对象—关系型数据库可以支持多用户通过网络对空间数据的直接访问,从而扩展了空间数据的应用范围和方式,满足人们在任何时间、任何地点,对空间数据的使用需求。

篇5

1.1建模原理

为实现多源异构遥感影像数据的统一管理,需要建立统一的数据模型。在逻辑结构上将遥感影像数据划分为描述性元数据信息和数据实体,在业务流程上将数据建模分为元数据建模和数据建模。

1.2元数据建模

遥感影像通常格式特定、数据量大,而元数据是对影像获取信息、质量信息、空间特征等的概括抽取,通常为文本格式、数据量小,具有信息丰富、读取方便等优点[11-12]。本文根据元数据描述对象的特点和数据管理要求,构建了海洋遥感影像元数据的统一模型,如图1所示。其中,数据要素级信息由元数据解析读取获得;数据集级信息可批量手工录入,便于按照专项、区块、调查单位及时间等对各专项数据进行管理;数据库级信息在数据入库时由系统自动扫描数据的存储路径、大小、状态、权限等生成。

1.3数据建模

本文基于面向对象的思路方法,将多源异构的海洋遥感数据抽象表达为数据实体、元数据、空间特征和快视图等基本组成部分及其对应关系。建立数据模型由E-R图表示,如图2所示。由于目前存档的海洋遥感影像数据包含多种星源影像、航空影像和4D产品,且同源数据还包含不同级别、类型产品,因此,需要对每种产品类型数据分别构建数据模型,完成主数据标识确定、影像ID命名规则、数据对象和元数据识别规则等定义,流程如图3所示。影像数据建模支持面向多种数据源的各种影像目录模型的定义,具备对影像数据存储方式、数据格式、坐标系统等参数的设置。

2多传感器影像数据模型实体自动提取与匹配

2.1技术路线

为将构建的数据模型应用于实践,本文提出多传感器影像数据模型实体的自动提取与匹配技术,解决了如下几个关键问题:①多源异构影像元数据自动识别与解析;②空间特征、快视图及影像覆盖范围矢量自动提取与生成;③数据ID命名规则制定及数据模型实体间自动匹配。技术路线如图4所示。

2.2元数据自动提取与输出

根据构建的数据模型,本文建立了一套自动提取与输出元数据信息表的技术流程,核心是从多源异构的元数据中提取出与元数据模型对应的字段信息,消除数据冲突,并利用元数据中关于空间特征的描述自动生成影像数据矢量覆盖范围。具体如下:1)元数据文件识别:依据建立的数据模型,对每类影像产品定义元数据文件格式。如ALOS影像产品定义“HDR-*.txt”为元数据格式。2)元数据格式解析及数据冲突消除:建立元数据提取配置文件,将多源元数据文件中的字段名称对应至提取配置模板中,消除元数据命名冲突和语义冲突。命名冲突指相同字段(如影像左上角纬度)在不同元数据中有不同名称(如ImageSceneLeftTopLatitude、SCENE_UL_CORNER_LAT等)或同一字段(如ProductType)在不同元数据中表示不同意思(产品类型或产品处理级别)。语义冲突指不同元数据对同一字段在描述方式、内容上的不同造成的语义不一致性,如投影带号在不同元数据中表示为ZoneNumber和ZoneNo.两种形式。本文数据冲突消除方法的实质是通过元数据配置文件将多源元数据字段名称映射到元数据模型的全局名称,通过提取配置模板和输出模板两步实现。3)元数据信息提取:将元数据文件内容全部读入内存,用程序分步定位的方法提取元数据字段信息。以ALOS影像元数据“UTMZone="51N"……”为例,提取投影带号信息需先定位至“UTMZone”字段,查找“=”后、符号“"”之间的字符串,即为带号“51N”。又如,XML格式的RAPIDEYE元数据文件中,提取成像时间需定位至以“<eop:acquisitionDate>”开始、“</eop:acquisitionDate>”结束中间的字符串,即为成像时间。元数据信息提取将原始元数据字段对应至提取配置模板字段,生成中间元数据文件。4)元数据信息输出:定义元数据输出配置模板,将中间元数据文件字段对应至元数据模型中的字段。输出配置模板按卫星影像、航空影像、4D产品和动力卫星数据等设置四类。输出时还可对模板字段进行批量统一赋值。5)矢量范围输出:由元数据提取影像四角坐标值,调用ArcGIS脚本语言函数CreateFeaturesFromTextFile_samples(),将四角坐标文本文件、分隔符、输出矢量文件和空间参考基准作为输入参数,生成带有空间参考信息的ShapeFile格式的影像范围矢量。

2.3基于GDAL的快视图自动提取

以往快视图作用仅定位于数据浏览不同,本文提出的数据模型要求将快视图匹配至影像空间特征,并录入关系型数据库实现集成管理。然而,影像产品数据集中提供的快视图通常不包含空间坐标信息,因历史原因各单位汇交数据中快视图或已丢失或因重命名已不满足数据模型识别要求,加之航空影像、4D产品通常不具备快视图,快视图自动提取面临较多问题。因此,针对多源异构影像,本文基于GDAL(GeospatialDataAbstractionLibrary)对快视图自动提取并匹配至空间特征,流程如图5所示。GDAL是X/MIT许可协议下的开源地理栅格空间数据转换库,支持几乎所有常见的遥感图像文件格式的读取、格式转换和重采样等基本操作。本文选用开放源代码的GDAL库作为多源影像的访问引擎,为影像的访问和基本处理提供统一接口。提取后的快视图具有了和影像文件一致的空间坐标和数学基准。

2.4数据模型实体自动匹配

本文在分析各类影像产品数据建模的基础上,提出基于规则的影像ID命名方法,通过指定影像惟一ID实现影像数据文件、快视图、元数据和矢量范围的自动匹配。具体如下:1)针对特定影像类型,根据数据模型定位至元数据文件,确定元数据存放目录,将元数据上级文件夹记为ParentDirectory(1)。定位至元数据的好处在于:与元数据信息提取的过程相一致避免重复搜索;部分影像数据分波段存放(如中巴、TM等)或分块存放(如WorldView),定位至影像文件很难形成与影像数据包一对一的关系。元数据文件通常与影像文件在同一目录、名称一致,并且元数据中通常有影像文件名信息。2)制定影像ID命名规则,标识惟一影像数据包。通常情况下,元数据文件名能够标识惟一影像数据包时,采用元数据文件夹名命名;若不行,则需要考虑数据文件名、或上级(ParentDirectory(1))至上几级文件夹名(ParentDirectory(N))的组合形式来命名影像ID。部分示例如表1所示。特征的相互匹配,为数据建库和入库管理奠定基础。

3多传感器海洋遥感影像集成与管理

根据数据模型和集成管理的要求,本文研发设计了多传感器影像自动加工工具(以下简称“工具”)和海洋遥感影像管理信息系统(以下简称“系统”)。考虑到数据安全和保密需要,工具设计为单机版,系统采用C/S架构。系统采用.NetFrameWork框架搭建平台,利用ArcGISEngine组件做专业开发;服务器端部署Oracle11g数据库和ArcSDE空间数据引擎,服务器端与客户端通过内网连接。工具研发基于多传感器遥感影像数据模型实体自动提取匹配技术,对不同影像元数据操作提供统一的配置交互界面(见图6)。工具支持用户根据影像类型和建模要求配置元数据提取和输出模板,提供预定义的影像ID命名规则。模板与规则均以XML格式保存,支持用户自定义修改,扩展性强。工具能够从元数据和影像数据文件中批量生成元数据信息表、快视图和空间特征一一对应的标准数据集,并通过影像ID与原始数据包自动匹配,与后端管理系统有效衔接。依据本文构建的多源异构影像数据模型,系统按照“元数据表+快视图+空间特征数据文件”的方式,将数据存储路径记录在二进制变长字段内,并将影像对应的元数据信息表、空间特征和快视图信息存放于关系型数据库表中,从而实现了海量数据的无缝管理。系统提供数据空间范围、快视图、数据包详情的查询浏览、分析统计等功能,并支持用户通过选择元数据记录、下载相应的遥感影像数据实体。如图7所示。数据建模是整个系统的核心内容。系统将入库配置环节设计为功能模块,按照“元数据项管理—资料建模—数据建模—编目管理”的步骤,向导式指引用户完成数据建模和存储规划。其中,元数据项管理完成元数据项的定义;资料建模为元数据模型的定义;数据建模为每类资料构建数据模型;编目管理为数据入库设计相应的数据节点。系统入库需用户提供影像数据实体文件存储路径,以及影像加工工具生成的标准元数据表、快视图和矢量文件。入库过程中,系统首先根据数据模型校验是否能在指定路径下正确识别遥感影像原始数据包。校验完成后,系统根据主标识字段(即影像ID),自动匹配影像数据包、元数据表、快视图和矢量范围,并根据元数据模型判定输入元数据表信息是否正确、齐全。在所有判定条件都满足后,系统扫描并存储每条数据文件的存储路径,并将元数据表、快视图和矢量范围入库。系统支持用户浏览查询、编辑修改和数据下载等操作。用户可按数据节点、数据查询结果等方式浏览影像快视图、矢量覆盖范围和元数据表,并可对元数据表编辑修改。数据查询支持数据节点下自定义几何形状(线或多边形)、跨数据节点综合模糊查询两种查询方案。数据下载通过元数据表、快视图或矢量范围等与数据文件的自动匹配,在记录存储路径下定位相应数据文件并提供下载服务。

4结束语

篇6

要了解Web数据挖掘技术,首先就必须要了解数据挖掘技术。数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。它的表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。Web数据挖掘是一种综合的技术,它主要是使用数据挖掘技术在互联网挖掘各种有用的、有趣的、隐藏起来的信息或者是有用的模式。与传统的数据挖掘相比,Web数据挖掘所挖掘的信息更加的海量,这些信息具有异构和分布广的特点。对于服务器上的日志与用户信息的挖掘仍然属于传统的数据挖掘。Web数据挖掘由于Web的逻辑结构其所挖掘到的模式有可能是关于Web内容的,也有可能是关于Web结构的。同时有些数据挖掘技术也不能直接运用到Web数据挖掘中。Web数据挖掘的研究范围十分广泛,它的研究主要包括了数据库技术、信息获取技术、统计学、神经网络等。Web数据挖掘根据所处理的对象可以分为三类:Web文档的内容挖掘、Web文档的结构挖掘、Web使用的挖掘。Web文档的内容挖掘指的是从Web文档及对其的描述内容中获取到有用的信息,即是对Web上大量的各种文档集合的内容进行处理,例如摘要、分类、聚类、关联分析等。同时内容挖掘还可以对各种多媒体信息进行挖掘。Web上的内容摘要是用简洁的语言和方式对文档的内容进行描述和解释,让用户在不用浏览全文的情况下就可以对全文的内容和文章写作的目的有一个总体的了解。文章写作的目的有一个总体的了解。而Web内容挖掘的这种方式非常有用,例如应用到检索结果的显示中。Web分类则指的是根据已经确定好的类别,为每一个获得的Web文档确定一个大类。聚类则是指的在没有确定类别之前,将相似度高的文档归为一类。关联分析指的是从文档集合中找出不同语词之间的具有的关系。Web文档的结构挖掘指的是从互联网的整体结构和网页之间的相互链接以及网页本身的结构中获取有用的信息和知识。目前为止针对结构的挖掘主要还是链式结构模式。对于Web结构的挖掘主要源于对引文的分析,引文分析的主要内容就是通过对网页的链接数和被连接数以及对象的分析来建立一个链接结构模式,这种模式可以用来对网页进行归类,同时还可以获取网页之间的相似度和关联度等信息。Web使用的挖掘一般情况下指的是对Web日志的挖掘。其挖掘的对象是用户与互联网交互过程中所抽取出来的各种信息,例如访问记录、用户名、用户注册信息以及用户所进行的操作等。在这一方面的研究已经比较成熟,同时也有很多较为成熟的产品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技术较为成熟的产品。

二、Web数据挖掘技术的工作流程

Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的Web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成WWW资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。

三、Web数据挖掘技术在高校数字图书馆中的应用

高校数字图书馆为师生主要提供以下功能:查找图书、期刊论文、会议文献等数字资源;图书借阅、归还等服务;图书信息、管理制度;导航到图书光盘、视频资源等数据库系统。师生时常登录到网站中查找其需要的信息,根据师生所学专业、研究方向不同,关注目标也不同。通常这类师生会到常用的图书馆网站上,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,而且所有改变常常是用户所关注的内容;另外,当目标网页所在的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题只要稍加改动,容易使用户难以找到所需内容。本课题采用Web挖掘技术与搜索技术相结合。首先允许用户对感兴趣的内容进行定制,构造数据挖掘的先验知识,然后通过构造浏览器插件,捕获用户在浏览器上的行为数据,采用Web数据挖掘的方法,深入分析用户的浏览行为数据,获得用户的信息资料集,最终为用户提供不同的个性化服务页面,并提供用户对站内信息进行搜索功能,同时可以满足师生对于图书馆资源进行查找访问的需求,实现高校图书馆网站资源真正意义上的个性化服务。

1、为开发网络信息资源提供了工具

数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过Web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过Web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。

2、为以用户为中心的服务提供帮助

通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过Web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。

3、Web数据挖掘技术在图书馆采访工作中的应用

在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而Web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。

4、使用Web数据挖掘技术提供个性化服务

传统的信息检索工具在友好型、可理解性、交互性方面都存在着很大的缺陷。通常情况下都只是将各种查询结果毫无逻辑的简单的进行罗列,用户很难从其中获取自己需要的信息,通过数据挖掘,可以对图书馆网站上的在线调查、留言簿、读者调查表等数据进行收集整理,对不需要的冗余信息进行剔除。通过分析可以获知用户所喜好的浏览模式是哪种,他们常访问的网站的路径是什么,他们对图书馆中的那些资源比较有兴趣。然后再根据用户的普遍需求与每个人的个性需求,建立起相应的规则,从而帮助网站设计人员对网站进行设计和优化,使得这些信息检索变得更加的个性化、智能化,并根据每个用户的偏好等特征将检索到的信息排列处理,使得读者可以用最快的速度获得想要检索的文献信息。通过Web数据挖掘技术可以对用户的特征信息进行总结,将那些从没有发出过信息的潜在用户进行归类,同时还可以免费的为他们提供各种他们所感兴趣的信息和资料,把这些潜在的用户转变为正式的用户使用Web数据挖掘可以对用户的检索日志进行分析,从而得知用户所感兴趣的内容、他们的研究方向,并根据这些内容为用户指定个性化服务的内容,为用户提供各种他们所感兴趣的各种信息。

篇7

我国大部分医院的仓库管理工作都是基于其医疗设备管理信息系统的。这些系统大部分都是由PB语言编程的,数据库应用的是Oragcle数据库系统。应用了数据信息技术的系统软件可以准确地记录了医院材料入库、出库等业务,并可以更规范的对医院的库存进行清单查询、财务查询以及对账等查询工作,也可以根据其来出具更加准确的季度收支和财务报表和明细表。目前,信息技术在我国医院仓库管理中的应用已经比较广泛。我国很多医院都通过构建高速的以太网,来部署高质量的无线网络以及一些移动应用软件,通过这些硬件设备来构建移动库房管理系统。并通过管理信息系统来做到医院仓库库存减少,耗材量也有所降低,使医院的仓库管理由过去的仓储模式转变成为了现代物流的仓库管理模式。医院仓库管理信息技术系统构建的整体思路是利用信息条形码、无线网络、以及智能计算、移动技术以及RFID等技术,来将医院的材料通过完全流程从进货、入库、登记、收费、使用等完整的工作管理环节来严格的控制和管理。通过数据信息技术,我国医院已经取得了更好的成绩,完善了医院的物资管理质量,也同时提升了我国医院的经济效益和服务质量。

(一)数据信息技术系统的构成数据信息技术系统的构成是由MC50、RFID以及一些其他数据采集终端和无线网络联合构成的。通过这些技术与医院仓库后台服务器进行实时交互。医院仓库应用有线网络对数据库的信息进行查询以及录入,并实现数据的共享和交互,保持医疗信息数据的同步。

(二)数据信息技术系统的功能模块数据信息技术系统的功能模块主要包括医院仓库的采购管理模块、入库管理模块、出库管理模块、库存管理模块、会计管理模块以及物资质量管理模块。

(三)数据信息技术系统的工作流程数据信息技术系统的工作流程是比较明确的。当材料进入医院的仓库时,材料物品一定要贴上条码或者RFID等信息化标签,并在后台映射与其对应的数据。医院仓库管理工作人员应该持手持终端接入无线网络,通过网上申领,填写医院仓库领用物品名称、数量以及信息。医院仓库管理的工作人员通过PC上查看科室领用计划,并根据这个领用计划来准备材料。医疗材料出库之后,应该将领用的物品保存在智能耗材柜中。

二、数据信息技术为医院仓库管理带来的效益分析

篇8

使用秘密共享技术可利用多个数据中心形成低成本的医疗数据云,实现云计算时代的数据管理要求,即不需要自己保管关键数据,有安全的地方保存关键数据,任何地点、任何时间可使用数据,仅合法用户可访问数据,降低初始投资和运营成本,确保业务的持续性。秘密共享也是一种加密技术。以Shamir[1]的(k,n)门限秘密共享方案为例,其原理是将秘密消息加密并分割成n个分享份额后分布存储到不同的远程数据中心,多个数据中心构成低成本的医疗数据云。每个数据中心存放的单个分享份额看起来毫无意义,传输和存储不再需要额外的机密性保护,秘密只能从不同数据中心收集满任意k个组成的授权子集中得以恢复,而对于不足k个分享份额的非授权子集,即使拥有无限计算能力和无限大的存储器也无法恢复秘密,因为秘密共享技术的安全性不像传统加密技术那样基于复杂的计算,而是基于信息理论,所以可保证秘密的长期安全性,目前主要用于安全要求较高的密钥管理方面。此外,n个分享份额具有冗余性,即使任意(n-k)个分享份额遭到损坏或因网络故障不能获取,也能从其余的k个分享份额中恢复出秘密,这可保证业务的持续性。秘密共享方案可以是完美的,也可以是不完美的。(k,n)门限方案具有完美的安全性,即少于门限值k个的分享份额得不到原始消息的任何信息,完美方案的缺点是每个分享份额的长度≥原始消息的长度,即所有分享份额的总容量≥原始消息的n倍,如果用于数据量很少的密钥共享是没有问题,目前实际应用的几乎都是完美秘密共享方案,但对于数据量较大的医疗数据管理来说,效率和安全一样重要。

二、提高秘密共享技术的效率

要提高秘密共享技术的效率首先可从算法入手,目前典型的秘密共享算法是Shamir[1]的多项式插值法,这种算法的优点是不管(k,n)门限方案中k和n取什么值,都能用通用的公式实现加密和解密。有作者提出了(k,n)门限方案的异或运算方法[2-4],异或运算的效率要比多项式插值法高很多,这种方法没有通用的加密或解密公式,不同的k和n取值,需设计不同的加密和解密方法,这使得加密和解密方法也成了秘密的一部分,虽然通用性不高,但安全性更高。Yamamoto[5]提出的(k,L,n)秘密共享方案可大幅减少计算量和传输量,该方案被设计成1个原始消息s可从n个分享份额中的任意k个分享份额获得重构,从任何(k-L)个或更少的分享份额中得不到原始消息的任何信息,但可能会从(K-j)(其中,j=1,2,…,L-1)个分享份额组成的跳板(Ramp)集合中获得一点儿有关原始消息的信息,由于该方案可能会牺牲一点安全性,所以被称为不完美的秘密共享。但根据对已有(k,L,n)方案的具体算法的研究发现,Ramp集合的不安全性是可以避免和消除的。此方案的优点是:每个分享份额的位长是原始消息长度的1/L,所有分享份额的总容量降为原始消息的n/L,这将使计算量和传输量比(k,n)方案降低大约L倍。(k,L,n)方案的概念自提出以来,根据广泛的国内外文献检索结果显示,目前国际上实际的应用案例还非常少,迄今还没发现任何医院使用这项技术进行数据安全管理。

三、秘密共享服务软件

我们开发了秘密共享服务测试软件,使用了异或运算的(3,2,4)Ramp秘密共享技术,发现该技术完全可胜任大容量医疗数据的分布式存储。该秘密共享服务软件可为用户提供远程备份、远程访问、共享与交换等医疗数据的安全管理功能。用户通过常规方式在指定文件夹中存储1个文件,该文件就会被自动加密并分割成4个子文件,子文件又被分布存储到4个数据中心,每个数据中心存放的单个子文件毫无意义。用户随时随地再次登录并打开文件时,秘密共享服务软件又自动从不同的远程数据中心收集任意3个子文件,恢复出原始文件,同时相关联的应用程序会自动开启,文件又可被编辑和浏览。任何一个子文件遭破坏或因网络故障无法获取,也不会影响文件的恢复。将秘密共享服务软件用于医疗数据的远程备份可兼顾安全性和冗余性,从而保证业务的持续性;用于远程访问可使远程工作者无需随身携带数据,随时随地通过账号远程登录秘密共享服务文件夹抽取数据;通过多用户共享1个秘密共享文件夹可为多用户或多机构的医疗数据交换与共享提供多一种选择。

四、秘密共享方案的优势

篇9

科学工作流中的任务之间的依赖既包含控制依赖,也包含数据依赖。连接两个任务(t1-t2)的边表示任务t1的输出作为任务t2的输入,工作流中的每个任务可能读入一个或多个输入文件,然后写入一个或多个输出文件。在工作流层,文件可以分为3种类型:输入文件、中间文件和输出文件。不同类型的文件具有不同的生命周期。(1)输入文件。输入文件不由工作流中的任务产生,文件通常驻留在用户存储服务器上。在运行时,可以从一个存储服务器传送到另一个存储服务器,然后在这里被检索,也可以在存储服务器上直接检索。图1中的F-input就是一个输入文件[10]。(2)中间文件。在工作流运行过程中产生但无需长期保存的文件称为中间文件,将在所有使用它的任务结束后被立即删除。图1中的f-t1-o1、f-t1-o2、f-t2-o1、f-t2-o2都是中间文件。(3)输出文件,由工作流产生,对用户有用并且在工作流结束后需要永久保存的文件。在工作流执行过程中,这些文件通常被转移到常驻存储中。图1中的F-output就是工作流的输出文件。值得注意的是,输出文件不一定必须是工作流中最后任务的输出,也可能是中间环节任务的输出数据。

2云计算环境下工作流执行模型

科学工作流由工作流管理系统提交和管理,工作流管理系统驻留在提交主机,协调调度工作的流执行。工作流管理系统将工作流中的任务分配到虚拟机的工作节点,任务的执行所需要的数据可以从一个或多个输入数据存储点输入。中间文件在工作流执行期间驻留在数据暂存站点。当工作流结束时,工作流管理系统删除中间数据,同时将输出文件从暂存站点转存到输出站点,然后永久性保存。根据工作流管理系统和目标执行环境的不同,多个数据站点可以协同工作。例如,在输入数据已经驻留在计算节点的情况下,该计算节点和输入点是相同的。图2显示了具有两个任务的工作流,来说明工作流所需的文件是如何在逻辑上独立的站点之间移动的。

3对象存储应用于科学工作流中的数据管理

对象存储系统主要包括存储服务器、元数据服务器、客户端等组成部分,其核心思想是将数据的读和写与元数据存储分离,如图3所示。存储服务器主要负责数据存储、智能的数据分布以及每个对象元数据的管理;元数据服务器主要提供对象存储访问、文件和目录访问管理以及客户端缓存的一致性管理等功能。为了提供可扩展的可靠服务,对象存储器的内部结构非常复杂。例如,亚马逊的简单存储服务(S3)[12]通过REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供检索和删除操作;它将一个对象的多个副本布局在存储服务器上以提供错误情况下的冗余。很多网格存储服务和为数据密集型应用设计的协议可以认为是对象存储,这种架构对构建来自不同的执行环境的数据管理模式而言具有重要的借鉴意义。针对面向大数据工作流,利用对象存储的优点,本文提出两个方案:一是工作流中的3类数据文件都使用远程的对象存储;二是在计算节点上使用共享文件系统作为数据暂存点来存储中间数据。

3.1单独使用对象存储

在这种情况下,所有的数据都存储在对象存储系统中,工作流管理系统需要从对象存储中无缝检索数据,为本地工作流任务使用。在这样的设置中,工作流管理系统从对象存储中检索输入文件和中间文件,然后,工作流中的任务对本地的POSIX文件系统做必要的输入/输出设置,任务完成时,工作流管理系统能够将中间数据和输出数据存储到对象存储中。这样,即使工作流被部署在分布的资源上,科学应用只需要对POSIX做常规的输入/输出设置,就能完成工作流的执行。工作流管理系统与对象存储的多次交互增加了工作流执行的开销,而该开销与分布资源上的计算相比并不算大。对象存储中既有输入数据也有中间数据,只要工作流系统与对象存储能够无缝检索和存储,那么任务执行可以在任何地方。如图4中,任务t1可以在校园计算机集群上完成,而属于同一工作流的任务t2可以在亚马逊的EC2上完成,t1、t2使用亚马逊的S3对象存储作为中间数据文件的暂存。总之,数据存储和执行环境的分离,使得工作流在分布资源上的执行更为容易。一个常见的情况是,当计算需求超过本地或校园计算所提供的资源时,将使用云资源。图4也说明了工作流的数据移动情况。在这里,文件F-i被传送到云中的高性能计算集群工作节点的本地文件系统。任务t1从该节点开始,读入输入文件F-i,然后写入本地文件系统的中间文件F-t,F-t被传回到作为数据暂存点的对象存储中。F-t文件将从对象存储中被检索进入到EC2节点的本地文件系统。任务t2启动后读取F-t文件(该文件是由t1创建),然后将F-o写到本地磁盘,再传送到对象存储中。以上所有的数据传输工作都由工作流管理系统完成。科学工作流中单独使用对象存储的明显不足之处是,数据重复传输会引起在大数据处理过程中的延迟。工作流中的多个任务使用相同的文件,所以重复传输是显而易见的[13][14]。对象存储将对同一资源的重复请求认为是不同的请求,对象存储通常以其良好的扩展性减轻这种重复对工作流性能造成的影响。另外,工作流系统可能在本地节点选择缓存文件,或者利用集群中的共享文件系统来减轻此问题。延迟是整个工作流性能应该关注的问题,云对象存储的设计提供了很高的带宽,但对单个检索或对象操作可能需要数秒钟的延迟。对具有大量文件的数据密集型的科学工作流而言,这种延迟显著增加了工作流运行的时间开销。大型工作流中的另一个问题是多数中间文件需要被传输到对象存储中由相关后续任务检索并使用。由于商业对象存储提供以GB为单位的存储,并按迁移、存储和检索的请求数付费,所以重复传输也就意味着费用的增加。

3.2共享文件系统作为数据暂存

解决由数据重复迁移造成的延迟问题的方法之一,是工作流管理系统将中间文件暂存在POSIX兼容系统中,由多个计算节点文件系统共享,然后在一个资源节点上运行所有的计算。文件共享系统保存了工作流管理系统中所有任务的中间数据,在这种情况下,只有输入输出文件存储在对象存储中。由于中间文件不需要在对象存储与计算节点之间传送,从而可降低使用商业云对象存储的费用。如图5所示,是一个具有文件共享系统的高性能计算环境下具有2个任务的简单工作流。文件F-i被工作流管理系统传送到集群文件共享文件系统。任务t1在计算节点1上启动,从共享文件系统中读入文件F-i,然后将中间文件F-i-t写入到共享文件系统中,任务t2在计算节点2上启动,从文件共享系统中读入F-i-t(由任务t1创建),然后将其输出写入到F-o,F-o由工作流管理系统送到对象存储中,这种方法的优点在传统的有高速并行超级计算环境中尤为显著。例如,XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)节点对多数科学工作流点有极大扩展性[15]。值得注意的是,如果第一个计算节点忙而需要将计算溢出到另一个节点时,这种随数据布局任务的方法,损失了布局计算的灵活性。以上两种方法各有所长,选择使用哪种方法取决于工作流的类型和工作流执行的目标环境,这就要求工作流管理系统的开发具有弹性的数据管理方案,允许科学家有效使用对他们有用的基础设施。工作流中的数据管理方案应该具有如下特征:首先,科学工作流管理系统允许任务和数据后绑定,任务依据资源的可用性映射到计算资源上,任务在执行时能够发现资源,并从众多存储中选择数据暂存位置;其次,在科学家只有一个计算资源可用的情况下,允许任务和数据的静态绑定;再次,支持使用不同协议和不同安全机制访问对象存储。

4相关工作

工作流管理系统处理数据的方法很多,Swift[16]采用与本文所描述的第二种模式类似,使用本地文件系统或共享文件系统作为数据缓存,提交主机扮演数据暂存的角色。系统首先选择一个计算站点来运行一个任务,然后将数据从提交主机推向该站点的文件系统,任务执行后,输入的文件被回传给提交主机,中间文件被留在共享文件系统中以便后续任务的执行。相对而言,本文将数据文件(包括输入、输出、中间文件)与提交主机分离,并使用不同的协议,具有更好的灵活性。其他工作流管理系统如Kepler[17],Triana[18]和Taverna[19]关注的是流式工作流中任务的调度和其他Web资源的调用,这些工作流具有图形化的用户界面,允许用户搭建具有不同部件的工作流,但通常没有涉及访问大量数据集的问题。这些工作流中的数据管理很大程度上依赖于用户,数据管理自动化非常有限。Kepler[20]引入了一个MapReduce执行器,允许执行采用MapReduce算法的混合工作流。Hadoop平台通常用来运行数据密集型的科学应用,它所提供的文件操作与POSIX类似,允许随机读,但不允许随机写。在这种情况下,Hadoop平台负责将输入文件切片并分布在各个数据节点。而本文提出的方法主要针对工作流运行在多个不同的执行环境中,代码不能MapReduce的情况。在XSEDE中,任务利用分布式文件系统如GPFS-WAN[21](GeneralParallelFileSystem-WAN)来访问数据,分布式文件系统支持POSIX操作,可以对输入和输出文件进行远程访问。研究表明[22],将大型数据集布局在本地计算节点会更好,但这一策略也会带来新的问题,如不同类型工作流的融合以及数据布局策略算法等。

5总结

篇10

1 大数据采集    

大数据采集是大数据能力的基础,培养学生快速准确全面获取数据的能力是大数据分析技能的起点。企业各种原始凭证、记账凭证、账簿、报表等会计资料信息采集,包括传统纸质材料和电商电子材料等信息的采集,因为相对工整规范,采集难度不大;培养学生对企业自有数据仓库数据抽取导出能力,将充分发挥企业历年数据作用。    

同时,企业不仅要采集企业内部核算资料,还要进行管理活动需要采集原材料价格、市场前景、同类产品销售情况等外部数据资料,这些资料有公开的如钢铁价格、原油价格等,也有不公开的某企业某产品销售情况,所以通过大数据的手段在获取某类产品、某些特点产品的销售情况,或者购买参考公共销售情况数据,需要培养学生爬取数据的能力。    

例如,利用八爪鱼进行淘宝、天猫、京东等网站商品检索结果抓取或者商品详情内页资料进行抓取,也可以自行设计或者购买规则进行特定数据抓取;利用公共平台数据对企业商品的竞争情况有更全面的了解,也可以获取消费者的检索热点;对自己产品的评论资料可以进行典型意见和关键词的提取,提高CRM水平,如图1所示。 随着物联网传感器的发展,自动、实时、全面、完整、可靠、准确的数据不断出现,每一个界面、每一个动作、每一次交互都有迹可循并被规范记录,获取的数据也将更加全面,企业的数据采集也更趋自动。

2 大数据清洗    

培养学生通过对数据进行多方验证、审核,将有杂质的数据剔除能力;培养学生从格式、逻辑、数值等多方面进行数据清洗和整理,处理缺失值、孤立点垃圾信息、规范化、重复记录、特殊值、合并数据集等问题的能力。

3 大数据分析    

对于企业积累数据和获取的外部数据都要及时进行分析应用,快速充分分析数据尤为关键。培养学生数据分析、数据挖掘的技能尤为重要,具体需培养数据分析技能如。  

(1)描述型分析:是什么?    

描述性分析会提供重要指标和信息。例如,通过每月的销售单据,可以获取大量的客户数据,如客户的地理信息、客户偏好等;也可以了解企业库存、销售等生产经营数据。    

(2)诊断型分析:为什么?    

通过评估描述型数据,诊断分析工具能够深入的分析数据,钻取到数据的核心,分析某种产品或者某些产品销售量变化原因等。    

(3)预测型分析:可能怎样?    

预测型分析主要用于进行预测事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点。使用各种可变数据来实现预测,在充满不确定的环境下,预测能够帮助做出更好的决定,如预测原料价格可以辅助决定库存、预测销售可以辅助决定产量、预测业务量可以辅助决定资金筹集量等。    

(4)指令型分析:做什么?    

指令模型是基于对“是什么”“为什么”和“可能怎样”的分析,帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最好的回家路线;企业考量了销售数据的变化、分析了市场和消费者的原因、预判了产品市场前景,进而决定对产品实施哪些改进。

4 大数据可视化    

大数据可视化是培养学生对大数据分析结果进行直观呈现能力。培养学生利用企业自有数据或者外部连接数据、抓取数据等方式获得的数据进行全方位呈现的能力,培养学生将数据的汇总、平均、交叉列联分析等描述和分析结果,利用适当的图形进行展示的能力。大数据可视化是非常重要的技能,具体如。   

4.1各类变量适合的基本可视化效果    

单一变量:点图、抖动图;直方图、核密度估计;累计分布函数。    

两个变量:散点图、LOESS平滑、残差分析、对数图、倾斜。    

多个变量:假色图、马赛克图、平行左边图。