数据理论论文范文
时间:2023-04-11 17:15:14
导语:如何才能写好一篇数据理论论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
(一)类型繁多(Variety)
数据通常被分为结构化数据、半结构化数据和非结构化数据。相对于传统的以文本为主的结构化数据,网络日志、音频、视频、图片、地理位置信息等半结构化、非结构化数据越来越多。同时,近几年出现的微博、微信等可通过移动互联设备使用的电子交往形式使数据量和数据种类更加复杂化。
(二)价值不高(Value)
价值密度的高低与数据总量的大小成反比。以社会中常见的监控录像为例,一天的监控记录,有用数据可能仅有一二秒。如何将已有的结构化数据、半结构化数据及非结构化数据进行整合、分析,挖掘出更多有价值的信息,并通过强大的计算能力迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
(三)要求高速处理(Velocity)
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是生命。
二、图书馆大数据的主要来源分析
根据大数据的基本特征,经笔者分析,图书馆知识服务领域的未来大数据的来源主要有RFID射频数据、传感器数据、社交网络和移动互联数据等几个方面。随着图书馆数字技术的不断提高,RFID将不断推广,这将是未来图书馆大数据的主要来源之一;由图书馆中的传感器感知生成的数据,长时间积累后也将产生巨大的数据量;社交网络已广泛应用于社会各个方面,逐步成为人们交往的主要形式,其所产生的数据量远超以往任何一个信息传播媒介,由其生成的数据量是不可估量的;移动互联网及移动互联技术的不断完善,使得图书馆可以灵活获取移动电子设备、人员、资源、用户行为和需求等信息,并对这些信息进行实时分析,从而帮助我们开展有效的智能辅助决策。
三、大数据对图书馆管理的影响和挑战
(一)海量数据处理考验图书馆计算能力
大数据时代背景下,各类数据量迅速增长,数据产生的方式、范围发生前所未有的变化,人们在社会中的各类行为都产生了大量的信息数据,信息数据的组成结构、格式类型、存在形态等都更加复杂。图书馆要对上述复杂的数据进行应用、存储,将具有很强的挑战性,不仅仅涉及云计算、大数量级数据存储等技术问题,还可能促发图书馆服务模式、资源建设模式、管理模式与发展模式的转变。
(二)数据分析方式转变带来的挑战
随着图书馆信息化程度的提高,以互联网信息搜索、查询为基础的知识服务逐渐被更多的图书馆所采用。但不管是简单的信息服务,还是结合了信息检索、组织、分析等高级业务服务,都可归纳为就数据而进行的服务。大数据时代背景下要求图书馆不仅需要通过结构化数据了解客户需求,也需要大量的非结构化数据、半结构化数据去挖掘、预测和分析当前和未来的用户需求,社会大众的需求也将随着不断变化的个性化的高满意度服务出现而对图书馆的服务呈现出明确和迫切的需求。满足用户的需求,提供复杂数据的处理也将成为大数据时代图书馆的发展方向,如何处理好数据分析,将直接影响图书馆的生存与发展。
(三)大数据对图书馆基础设施提出更高的要求
半结构化及非结构化数据的迅速增加,导致数据存储、计算规模越来越大,其成本急剧上升。很多知识服务机构出于成本的考虑将应用由高端服务器转向中低端硬件构成的大规模计算机集群,从而对支持非结构化数据存储及分析的基础设施提出了很高的要求。
四、大数据时代图书馆管理发展方向
(一)探索利用数据分析技术与工具
对图书馆来说,在大数据时代要想在激烈的市场份额竞争中争得一席之地,避免边缘化,开展必要的大数据分析服务显得必不可少。图书馆开展的大数据分析服务业务,主要可以有以下几种:首先是图书馆自身建设所需的大数据分析。这类分析一般以图书馆的现有数据为对象进行分析,如读者的借阅方式、行为爱好等,是一种对现有资源的分析与挖掘;其次是客户即读者所需的大数据分析。这类分析业务类似于当今图书馆为企业等客户群体所做的信息情报参考、竞争情报分析,但也有着很大的区别,如对于分析对象数据的不同、分析手段的不同、分析目的不同等,这类分析业务所依靠的大量数据可能并非图书馆所拥有,从而成为限制该项业务发展的瓶颈,如何解决此类服务的数据问题是突破该瓶颈的关键。麦肯锡的《大数据:创新、竞争和生产力的下一个前沿领域》报告中首次提出了“大数据”的概念,对大数据的分析技术与工具进行了列举,如目前已为广大图书情报研究者所熟知的聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等,特别是聚类分析、可视化分析与数据挖掘技术。但这些现有的研究目前仅仅只是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘大量负责数据的存在与表现形态,更不能通过这些分析去预测未来的可能发展趋势。当然,大量网络社交等信息行为产生的大量非结构化数据、半结构化数据也让许多学者开始思考去采集和利用这些信息,如苏玉照等人就认为如果能够采集到Web日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制Web日志的数据模型、过程及方法进行探索。
(二)重视基础设施建设
大数据时代,图书馆的核心竞争力不再仅是文献数据信息的竞争,各类形式的海量数据以及对海量数据的分析、挖掘才是今后图书馆之间竞争的核心因素。因此,要跟上大数据的脚步,必须完善信息收集的基础设施建设,加强各类信息资源的收集将成为图书馆资源建设的大方向。图书馆首先要明白“数据即生命”,解决数据存储问题。大数据时代对于图书馆的数据存储量要求极高。早在2007年,沃尔玛就通过对消费者的购物行为等非结构化数据进行分析,创造了“啤酒与尿布”的经典商业案例。这样的经典案例是通过对海量的多类型数据收集和分析得到的。因此,图书馆要掌握读者用户、馆员乃至社会服务群体等的信息,既要有当前通用的数据记录中的个人身份、借阅记录等结构化数据,还要有存储信息行为、搜索方式、行为痕迹等非传统数据,这些都需要通过基础设施的建设来支持。除此之外,图书馆还必须解决数据计算和数据分析问题。要积极利用“云计算”技术,搭建图书馆的云计算平台,解决图书馆自身海量数据的存储及运算能力与大数据对存储能力的高要求之间的矛盾。
(三)提高图书馆服务的智能化程度
篇2
城镇土地调查数据库的主要内容包括:土地权属、土地登记、土地利用、基础地理、影像等信息。城镇土地调查数据库建设的依据是《城镇地籍调查规程》、《城镇地籍数据库标准》和二次调查相关技术标准、规范和办法等,根据城镇地籍测量、城镇地籍调查和土地登记成果,建立了城镇土地调查数据库。①数据检查。利用自主开发的MDIGS数字化系统对入库前的地籍、地形图、入库基础街坊图内业数据进行100%的检查,对检查到的线型、符号等地形要素、数据字段属性等错误自动或人工进行了及时改正,保证了入库基础数据的完整性、正确性。在数据库内,利用ARCGIS9.3拓扑检查工具、“城镇地籍建库管理软件以及“ACCESS2003”数据库工具,对所有录入的地籍调查表主、子表项、勘丈数据、街坊面积、街坊数据图等100%进行了严密地检查。对检查中发现的问题,由相关作业人员进行了更正。②数据入库。借助数据库管理系统,将图形和属性数据转入城镇土地调查数据库管理系统。③数据库建设质量控制。对城镇土地调查数据库建设进行全过程质量控制,包括基础数据源质量控制、环节质量控制、交接检查、数据自检、数据库建设成果质量检查。数据库建设过程中重要的过程数据和质量控制记录进行了保存,以保证数据质量的可追查性,确保数据安全。④统计数据输出。经检查合格后的入库数据,按《城镇地籍调查规程》、二次调查的规定输出各种统计报表。
2上交产品质量
根据对样本图幅综合质量特性的检测结果,无锡市锡山区第二次土地调查1:500城镇土地调查(A标段)各项精度指标均需符合技术设计书和规范的要求,质量保证可靠。上交质量包括控制测量资料和城镇土地调查质量,其中控制测量资料包括一二级导线观测记录手簿、一二级导线平差计算成果、图根导线计算成果、一二级导线点点之记、埋石图根点点之记、一二级导线点成果表、图根点成果表、控制点展点图、仪器鉴定资料;城镇土地调查资料包括街道街坊分布图、城镇地籍调查表及相关资料、宗地界址点坐标及面积表、以街坊为单位的宗地面积汇总表、以街道为单位的土地分类面积汇总表、城镇土地分类面积统计表、1:500分幅地籍图接合表、宗地图、新旧街坊对照表、新旧宗地号对照表。上交质量还应该包括数据建库资料(宗地图分幅地籍图光盘、城镇地籍数据库)、专项调查统计资料(工业用地、基础设施用地、金融商业服务用地、开发园区用地、房地产用地统计)、文档资料(无锡市1:500城镇土地调查技术设计书、技术总结检查报告)。
3总结
篇3
信号调理电路根据功能分为输入保护电路、抗混叠低通滤波电路、衰减电路、增益电路和电压抬升电路。(1)输入电压幅值最高在24V,为防止输入电压超出可测范围,在输入端采用两个24V的稳压管支路进行电压钳位保护,并且分别在两个支路串联不同颜色的发光二极管以显示正反向超压。(2)为了消除高频噪声信号和被测信号中的高频成分对信号采集的混叠效应,设计了二阶低通抗混叠滤波电路。为保证较好的抗混叠效果和测量带宽,设定滤波器的截止频率为300kHz。滤波电路形式固定如图2所示,其频域传递函数为。由式可得滤波器的截止频率fp≈0.64f0,fp=300kHz,得RC=3.4×10-7s。通过multisim仿真比较确定参数值。抗混叠低通滤波电路如图2所示。(3)LM3S9B96的ADC的输入电压范围是0V~3V,要实现采集0V~±24V的输入信号需要对信号进行衰减处理,衰减网络采用兆欧级精密电阻组成,其中固定电阻设定为1MΩ。这里选择8,4,2,1四级衰减,后期处理的数据可以通过移位操作进行数据还原。电路实现选用OMRON公司G5V-1小信号继电器作为开关控制,根据上位机传输的命令来选择合适的电阻支路。具体的数值对应关系如表1所示。(4)为满足采集小信号的需求,采用TI公司的增益可编程仪表放大器PGA205。PGA205具有四级数控增益,数控端直接连接到微控制器的I/O引脚[5]。输入幅值、放大倍数和数控端的对应关系同上述衰减电路类似,这里不列表赘述。增益电路如图3所示,PC4、PC5为数控端。(5)信号经过衰减和放大电路的调理后电压范围为0V~±3V电压信号将信号调理至0V~6V范围,再经过比例运算电路做1/2分压处理。运放选择TL052,是由TI公司生产的低失调加强型的JFET运算放大器,相对于TL07和TL08系列具有更快的转换速度。
2电源供电系统
本文中需要三级电源供电:3.3V,5V,±10V。5V电压通过SPX1117-3.3V稳压芯片转变为3.3V为系统供电,±10V要是给可编程放大器PGA205和运放TL052供电,该电压需要5V电压经过Boost升压电路得到,设计选用TPS61040开关电源芯片,其为低功耗的DC/DCBoost转换芯片,内部集成开关管,开关频率可达1MHz,输出电压纹波低[6]。双电源供电电路如图4所示。
3系统软件设计
本文软件设计任务主要是LM3S9B96芯片的初始化和内部各模块之间的逻辑控制,包括根据上位机的指令来设定调理电路。数据采集系统总的软件任务框图如图5所示。信号调理任务负责根据上位机发出的指令完成调理电路的设定;采样任务实现对模拟信号的采集;数据转移存储任务负责将数据从ADC转移到内存,再转移到USB缓存。数据转移任务利用DMA来实现,DMA的工作模式分为基本模式、乒乓模式和外设散聚模式,为了ADC采集不丢失数据,本文采用了乒乓模式,在程序设计时创建主数据结构体和副数据结构体交替接收数据,高效的完成数据转移任务;数据传输任务负责将数据从微控制器通过USB总线传输到上位机。USB总线标准是在1994年由英特尔、康柏、IBM、Microsoft等多家公司联合提出,包含了四种基本数据传输类型:控制传输、批量传输、中断传输和等时传输,本文需要向上位机传输大量数据,选择批量传输模式(BULK)传输数据[7]。基于LM3S系列芯片,TI公司提供了多层次十分丰富灵活的USB驱动库,简化软件的实现。
4上位机软件设计
NIVISA(VirtualInstrumentSoftwareArchitecture)是NI公司开发的一种用来与各种仪器总线进行通信的高级应用编程接口,VISA总线I/O软件是一个综合软件包,不受平台、总线和环境的限制。VISA是NI公司随LabVIEW配套提供的,从3.0版本开始支持USB通讯,根据是否符合USB测试和测量协议,VISA分为两种VISA类函数,可以控制两类USB设备:USBINSTR设备和USBRAW设备。这里使用USBRAW设备。利用VISA驱动程序开发向导产生INF文件用来通知Window系统将NI-VISA用作USB设备的默认驱动,完成之后才可以正常和下位机通讯。USBRAW类设备的读写时序为(1)ViOpen打开VISA设备;(2)ViProperty设定VISA设备的属性节点参数(指令端点和传输方式);(3)ViRead读写USBRAW(发送命令和设定字数);(4)ViClose关闭VISA(释放VISA设备所占资源)。上位机程序总体分为指令接受程序,数据接受程序、数据处理程序和波形显示程序。数据处理程序框图如图6所示。
5系统测试与结果
为了测试系统的可靠性,本文使用数字合成信号发生器DF1405模拟传感器输出信号作为数据采集系统的测试信号。经测试,设计系统完整实现了设计要求。5V10kHz正弦波测试结果如图7所示,通过点击Save控件可以完成数据的存储。
6结束语
篇4
Gartner的研究报告显示,公共数据管理应被视为实现企业内信息管理战略的一部分,没有广泛的企业信息管理和基础架构的支持,公共数据管理解决方案将不能有效的维持高质量和可重用性的数据。图5为2012年Gartner的关于公共数据管理技术的成熟度曲线。纵观公共数据管理技术成熟度曲线,公共数据管理市场正在逐步走向成熟。虽然在两年之内还没有新的技术出现,但是从整体上看,公共数据管理市场仍具有可开发的潜力。2012年的公共数据管理技术成熟度曲线的特点是,有些技术在高峰期到达前就已过时,这些技术将被更广泛的公共数据管理技术所替代,如多域公共数据管理解决方案。使用低质量的公共数据去改善业务过程只会导致低预期的结果,所以维护单一版本的公共数据是非常有必要的。
2公共数据管理体系
公共数据管理体系主要涵盖了公共数据标准、管理组织、管理流程和质量管理4部分,旨在创建企业级信息视图,建立一个有效的端到端的数据管理体系,在整个数据生命周期内采用一项综合、协调且有计划的方案,从而提升决策过程中所需数据的一致性和可信度,提升数据的安全性及质量水平,将数据对收入的贡献潜力最大化。2.1公共数据标准体系2.1.1公共数据标准识别企业公共数据编码标准体系是基于企业业务运作及管理需求而建立的,首先以各项业务分析作为关键输入,分析出核心业务组件(CBM)模型,而后根据公共数据识别的原则定位各业务相关的公共数据对象,并按照公共数据分类的原则,从公共数据共享的业务领域、信息系统范围等角度出发,筛选出公共数据,最后从现行标准、应用集成情况、数据责任人、管理流程及平台支持维度对每一项公共数据对象进行详细分析,确定管理策略,制定公共数据标准,进而形成公共数据标准体系。2.1.2公共数据标准体系企业公共数据通常包括人、财、物、业务伙伴和基础数据5个方面,代表了企业整个层面公共的业务实体,跨业务领域、跨信息系统。因此公共数据标准是应用于多个信息系统的基础类标准,需在整个企业范围内统一制定,并严格执行。2.1.3公共数据标准管理流程公共数据编码标准管理流程一般包括注册与立项、制修订与、宣贯与执行、检查与复审、使用与维护等5个阶段,实现公共数据的全生命周期管理(图6)。2.2公共数据管理组织和职责在公共数据管理过程中,从标准的制定到标准的执行会涉及标准和数据责任部门、标准部门、标准执行部门3个重要的角色。通常标准和数据责任部门是财务、采购部门,主要负责公共数据编码标准的制修订、解释和监督执行。企业的标准化管理机构负责标准,标准由企业的各级公共数据责任部门分级负责执行。在整个组织体系中,标准和数据责任部门(DataOwner)直接影响公共数据管理的最终效果和管理水平。实践证明,最有效的公共数据责任部门是业务与管理高度统一的部门,但具体企业还需具体分析。2.3公共数据编码管理根据企业业务管理特点和要求的不同,公共数据将采取集中制、审批制和备案制3种管理方式,归口业务管理部门将按不同的方式对公共数据进行编码。公共数据管理从公共数据的业务活动出发,逐个分析各节点的业务需求,为数据标准、数据质量、管理体系及系统功能的提升提供需求指导和应用思路。图7展现了数据从产生到消亡的生命周期管理。2.4公共数据质量管理数据质量管理主要从事前防范、事中监控及事后治理3个方向进行管理。,管控流程一般主要包括数据质量监控、数据质量分析、数据清理及长效保证4个环节(图8)。
3公共数据管理系统建设
企业要实现公共数据管理,需搭建相应的系统用于公共数据的申请、审批和集成管理。公共数据管理系统包含公共数据的查询、申请、审批、、质量管控和集成等功能,通过企业服务总线实现与企业各信息系统的集成,为各集成系统提供公共数据编码服务(图9)。通过公共数据管理系统的建设,不仅可以落实企业公共数据标准的执行、规范公共数据管理流程,还能最大化发挥公共数据管理的实施效益,为企业应用系统集成应用和信息共享奠定坚实的数据基础。
4总结
篇5
环境监测一般包括常规监测和污染源监测[6]。常规监测的对象是大气、噪声、河流等,污染源监测对象通常是一些工业单位,我国的工业单位众多,单位之间有各不相同,给环境监测工作带来了更大的困难。大气、河流、降水甚至噪声都是环境监测的内容,每一项检测内容又有不同的监测指标,此外还涉及到污染物的排放量、治理效果等,所以环境监测工作量繁重。环境监测工作关联性较强,而且还是按照一定的顺序进行的。环境监测工作和其他的环保工作也相关联,因此环境监测工作在满足自身要求的同时,还需要同时满足各项工作要求。必须建立健全环境监测数据管理系统。在进行数据统计分析工作时,必须按照要求生成格式化的标准报表与非标准报表。
二、环境监测数据管理系统
1、环境监测模块
该模块的功能在于通过时间触发器连续或间断地对某地区环境条件下的污染物性质变化进行判断,同时对污染物浓度发展情况、趋势进行预测,通过预测分析污染物的变化趋势及其可能性,判定环境问题、污染问题发生的结果。环境监测通常是按照检测目的划分的,其中包括两部分,即监视性监测、特定监测。在系统设计过程中,应当参照监测目的对相关模块进行划分,并在此基础上确定监视性监测、特定监测子系统。环境监测数据管理系统,围绕着空气质量、水质质量以及废弃物和噪声进行常规性的监测,从而实现数据管理、预测和统计分析,重点数据绘制环境质量图过程中显示出来,从而使其更加的直观。其具体的功能结构设计如下图所示。
2、排污申报与环境污染源管理模块
环保法及相关法规规定的排污单位,一定要履行申报义务,排污申报是污染管理系统的一个非常重要的功能。对于该模块而言,其包含如下功能:数据汇总,即对污染源数据进行及时的汇总,采取相关信息资料。数据查询:根据排污单位、污染源对其进行查询;数据管理,即排污申请填写,对污染源信息资料进行维护;数据分析,即针对性的对重点企业、污染源进行分析。在数据查询功能设计过程中,查询危险源以及排污企业,并且基于GIS技术的应用在地图上对排污企业的具置显示出来;按单位名称和污染源名称对其进行查询,并且按地区对污染源进行查询。数据分析功能设计为:分析污染事故缓冲区,对重点污染源进行分析,并且用图表将其显示出来;污染物历年数据分析;地区污染物以及污染企业分析等。排污申报及污染源管理系统如下图所示。
3、环境在线监控模块
监控的主要内容是污染源排放在线监控烟尘、污水(主要是COD、流量、TOC以及总磷和pH值等),同时还包括污染源噪声。首先,系统登陆。客户端管理软件提供具体的授权访问模式,以确保该系统管理的安全可靠性。授权用户利用账号、密码登录该数据管理系统,并且用户权限由管理员进行分配。比如,管理员可以进行建库、控制、监测以及其他高级功能;一般用户则只能使用基本的系统功能,比如在线监测和基本的图表报表打印等。系统登录过程中,先输入用户名、登录密码,然后验证身份,进入该系统主界面。其次,系统界面。客户端管理界面为XP风格界面,客户端管理软件所有功能均可通过在界面右侧选择任务栏目实现,任务栏为可展开/收缩的风格控件,功能栏目为类Web风格的超级链接。界面中部为GIS地理信息系统,GIS的主要功能通过GIS工具栏实现。界面右侧还有若干窗口显示即时消息、系统报警以及快速查看数据等功能。数据输入:把各类污染物的监测数据都存储起来,构建成一个数据库,这样可以方便数据统计,也为技术人员的分析提供了数据基础。通过先进的计算机技术,把这些数据都统一管理,然后按照监测地点、监测类型、监测时间等信息,分类处理这些数据,方便用户选择,使他们可以快速的掌握到想要了解的信息。此外,必须注意数据的存储工作,多做一些备份,以免数据丢失,影响环境监测工作不能正常的进行。数据修改:录入环境监测数据以后,管理人员要认真仔细的核对数据,要及时的修改和更正以及删除无效的数据,确保数据的准确性[4]。数据修改有条件修改、当前记录修改和替换修改的功能,这些功能的设置,可以方便管理人员快速、高效的进行修改工作,也能提高数据的准确性。数据备份:由于环境监测数据众多,而且是环境监测分析工作的基础,一旦丢失,就会给环境检测部门带来很大的损失,所以管理人员在管理数据的时候必须注意数据的备份工作,把数据存储在不同的工具下,预防电脑崩溃使数据丢失。确保数据的安全性,保证环境监测工作的顺利进行。数据查询。数据查询可以帮助用户很快的找到他们需要的数据,使他们更好的进行环境监测工作。在查询数据的过程中,用户可以设置条件,然后数据库中相关的数据就会自动出现,这样可以减少查询时间,提高查询的效率,而且还能保证数据的准确性。数据输出:数据输出一般采用打印输出、屏幕输出[5]以及文件输出三种输出方法。打印输出,顾名思义就是把数据报表通过打印机打印出来;屏幕输出则是把数据制作成图形和图表的形式显示在电脑屏幕上,供用户查看,然后根据这些信息来分析环境状况;文件输出就是把环境监测数据、分析结果通过不同的文件格式存储在磁盘上,可供用户下载查看。数据统计:数据库中的数据一般只是环境监测的原始数据,可供用户进行查看、统计分析,然后更好的进行环境保护工作。数据统计分为常规统计和选择统计两种。常规统计是按照报表的要求进行的,要计算监测点以及区域的年、月、日均值等,然后保存。选择统计则是按照用户的定义条件进行的,灵活性较大。数据分析:数据分析是把数据转化为图形或者图表的形式来展示数据信息,可以使用户更加直观、清晰的掌握环境的质量和变化情况,方便环境监测部门快速、高效的处理环境问题,更好的服务环境保护工作。
4、环境监测部门的职能
建立环境监测数据管理系统是为了更好的管理环境监测的数据,为了使环境监测部门管理人员可以准确、快捷的掌握环境质量信息,因此必须要符合环境监测部门的工作要求,提高工作人员的管理水平,满足环境信息化的需求,做好环保工作。环境监测主要是监测污染源以及常规的监测,做好了这两种工作才能保证我国环境污染状况不再加剧。常规监测是一项衔接性很强的工作,需要经过一系列的过程:现场采样,样品登记,分析实验等等,最后通过审核签字才能生成分析报表。在进行常规监测工作的时候,一定要有序进行[3],这样才能保证分析报表的准确性。污染源监测也是一项非常繁琐的工作,进行污染源监测工作时首先要委托登记,其次分配任务,然后按照现场采样、样品登记等的顺序进行监测工作。现阶段我国已经控制了污染源的排放量,只有减少污染源的排放,我国的环境质量才能得到彻底的改善。
三、结语
篇6
要了解Web数据挖掘技术,首先就必须要了解数据挖掘技术。数据挖掘是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。它的表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。Web数据挖掘是一种综合的技术,它主要是使用数据挖掘技术在互联网挖掘各种有用的、有趣的、隐藏起来的信息或者是有用的模式。与传统的数据挖掘相比,Web数据挖掘所挖掘的信息更加的海量,这些信息具有异构和分布广的特点。对于服务器上的日志与用户信息的挖掘仍然属于传统的数据挖掘。Web数据挖掘由于Web的逻辑结构其所挖掘到的模式有可能是关于Web内容的,也有可能是关于Web结构的。同时有些数据挖掘技术也不能直接运用到Web数据挖掘中。Web数据挖掘的研究范围十分广泛,它的研究主要包括了数据库技术、信息获取技术、统计学、神经网络等。Web数据挖掘根据所处理的对象可以分为三类:Web文档的内容挖掘、Web文档的结构挖掘、Web使用的挖掘。Web文档的内容挖掘指的是从Web文档及对其的描述内容中获取到有用的信息,即是对Web上大量的各种文档集合的内容进行处理,例如摘要、分类、聚类、关联分析等。同时内容挖掘还可以对各种多媒体信息进行挖掘。Web上的内容摘要是用简洁的语言和方式对文档的内容进行描述和解释,让用户在不用浏览全文的情况下就可以对全文的内容和文章写作的目的有一个总体的了解。文章写作的目的有一个总体的了解。而Web内容挖掘的这种方式非常有用,例如应用到检索结果的显示中。Web分类则指的是根据已经确定好的类别,为每一个获得的Web文档确定一个大类。聚类则是指的在没有确定类别之前,将相似度高的文档归为一类。关联分析指的是从文档集合中找出不同语词之间的具有的关系。Web文档的结构挖掘指的是从互联网的整体结构和网页之间的相互链接以及网页本身的结构中获取有用的信息和知识。目前为止针对结构的挖掘主要还是链式结构模式。对于Web结构的挖掘主要源于对引文的分析,引文分析的主要内容就是通过对网页的链接数和被连接数以及对象的分析来建立一个链接结构模式,这种模式可以用来对网页进行归类,同时还可以获取网页之间的相似度和关联度等信息。Web使用的挖掘一般情况下指的是对Web日志的挖掘。其挖掘的对象是用户与互联网交互过程中所抽取出来的各种信息,例如访问记录、用户名、用户注册信息以及用户所进行的操作等。在这一方面的研究已经比较成熟,同时也有很多较为成熟的产品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技术较为成熟的产品。
二、Web数据挖掘技术的工作流程
Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的Web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成WWW资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。
三、Web数据挖掘技术在高校数字图书馆中的应用
高校数字图书馆为师生主要提供以下功能:查找图书、期刊论文、会议文献等数字资源;图书借阅、归还等服务;图书信息、管理制度;导航到图书光盘、视频资源等数据库系统。师生时常登录到网站中查找其需要的信息,根据师生所学专业、研究方向不同,关注目标也不同。通常这类师生会到常用的图书馆网站上,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,而且所有改变常常是用户所关注的内容;另外,当目标网页所在的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题只要稍加改动,容易使用户难以找到所需内容。本课题采用Web挖掘技术与搜索技术相结合。首先允许用户对感兴趣的内容进行定制,构造数据挖掘的先验知识,然后通过构造浏览器插件,捕获用户在浏览器上的行为数据,采用Web数据挖掘的方法,深入分析用户的浏览行为数据,获得用户的信息资料集,最终为用户提供不同的个性化服务页面,并提供用户对站内信息进行搜索功能,同时可以满足师生对于图书馆资源进行查找访问的需求,实现高校图书馆网站资源真正意义上的个性化服务。
1、为开发网络信息资源提供了工具
数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过Web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过Web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。
2、为以用户为中心的服务提供帮助
通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过Web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。
3、Web数据挖掘技术在图书馆采访工作中的应用
在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而Web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。
4、使用Web数据挖掘技术提供个性化服务
传统的信息检索工具在友好型、可理解性、交互性方面都存在着很大的缺陷。通常情况下都只是将各种查询结果毫无逻辑的简单的进行罗列,用户很难从其中获取自己需要的信息,通过数据挖掘,可以对图书馆网站上的在线调查、留言簿、读者调查表等数据进行收集整理,对不需要的冗余信息进行剔除。通过分析可以获知用户所喜好的浏览模式是哪种,他们常访问的网站的路径是什么,他们对图书馆中的那些资源比较有兴趣。然后再根据用户的普遍需求与每个人的个性需求,建立起相应的规则,从而帮助网站设计人员对网站进行设计和优化,使得这些信息检索变得更加的个性化、智能化,并根据每个用户的偏好等特征将检索到的信息排列处理,使得读者可以用最快的速度获得想要检索的文献信息。通过Web数据挖掘技术可以对用户的特征信息进行总结,将那些从没有发出过信息的潜在用户进行归类,同时还可以免费的为他们提供各种他们所感兴趣的信息和资料,把这些潜在的用户转变为正式的用户使用Web数据挖掘可以对用户的检索日志进行分析,从而得知用户所感兴趣的内容、他们的研究方向,并根据这些内容为用户指定个性化服务的内容,为用户提供各种他们所感兴趣的各种信息。
篇7
我国大部分医院的仓库管理工作都是基于其医疗设备管理信息系统的。这些系统大部分都是由PB语言编程的,数据库应用的是Oragcle数据库系统。应用了数据信息技术的系统软件可以准确地记录了医院材料入库、出库等业务,并可以更规范的对医院的库存进行清单查询、财务查询以及对账等查询工作,也可以根据其来出具更加准确的季度收支和财务报表和明细表。目前,信息技术在我国医院仓库管理中的应用已经比较广泛。我国很多医院都通过构建高速的以太网,来部署高质量的无线网络以及一些移动应用软件,通过这些硬件设备来构建移动库房管理系统。并通过管理信息系统来做到医院仓库库存减少,耗材量也有所降低,使医院的仓库管理由过去的仓储模式转变成为了现代物流的仓库管理模式。医院仓库管理信息技术系统构建的整体思路是利用信息条形码、无线网络、以及智能计算、移动技术以及RFID等技术,来将医院的材料通过完全流程从进货、入库、登记、收费、使用等完整的工作管理环节来严格的控制和管理。通过数据信息技术,我国医院已经取得了更好的成绩,完善了医院的物资管理质量,也同时提升了我国医院的经济效益和服务质量。
(一)数据信息技术系统的构成数据信息技术系统的构成是由MC50、RFID以及一些其他数据采集终端和无线网络联合构成的。通过这些技术与医院仓库后台服务器进行实时交互。医院仓库应用有线网络对数据库的信息进行查询以及录入,并实现数据的共享和交互,保持医疗信息数据的同步。
(二)数据信息技术系统的功能模块数据信息技术系统的功能模块主要包括医院仓库的采购管理模块、入库管理模块、出库管理模块、库存管理模块、会计管理模块以及物资质量管理模块。
(三)数据信息技术系统的工作流程数据信息技术系统的工作流程是比较明确的。当材料进入医院的仓库时,材料物品一定要贴上条码或者RFID等信息化标签,并在后台映射与其对应的数据。医院仓库管理工作人员应该持手持终端接入无线网络,通过网上申领,填写医院仓库领用物品名称、数量以及信息。医院仓库管理的工作人员通过PC上查看科室领用计划,并根据这个领用计划来准备材料。医疗材料出库之后,应该将领用的物品保存在智能耗材柜中。
二、数据信息技术为医院仓库管理带来的效益分析
篇8
使用秘密共享技术可利用多个数据中心形成低成本的医疗数据云,实现云计算时代的数据管理要求,即不需要自己保管关键数据,有安全的地方保存关键数据,任何地点、任何时间可使用数据,仅合法用户可访问数据,降低初始投资和运营成本,确保业务的持续性。秘密共享也是一种加密技术。以Shamir[1]的(k,n)门限秘密共享方案为例,其原理是将秘密消息加密并分割成n个分享份额后分布存储到不同的远程数据中心,多个数据中心构成低成本的医疗数据云。每个数据中心存放的单个分享份额看起来毫无意义,传输和存储不再需要额外的机密性保护,秘密只能从不同数据中心收集满任意k个组成的授权子集中得以恢复,而对于不足k个分享份额的非授权子集,即使拥有无限计算能力和无限大的存储器也无法恢复秘密,因为秘密共享技术的安全性不像传统加密技术那样基于复杂的计算,而是基于信息理论,所以可保证秘密的长期安全性,目前主要用于安全要求较高的密钥管理方面。此外,n个分享份额具有冗余性,即使任意(n-k)个分享份额遭到损坏或因网络故障不能获取,也能从其余的k个分享份额中恢复出秘密,这可保证业务的持续性。秘密共享方案可以是完美的,也可以是不完美的。(k,n)门限方案具有完美的安全性,即少于门限值k个的分享份额得不到原始消息的任何信息,完美方案的缺点是每个分享份额的长度≥原始消息的长度,即所有分享份额的总容量≥原始消息的n倍,如果用于数据量很少的密钥共享是没有问题,目前实际应用的几乎都是完美秘密共享方案,但对于数据量较大的医疗数据管理来说,效率和安全一样重要。
二、提高秘密共享技术的效率
要提高秘密共享技术的效率首先可从算法入手,目前典型的秘密共享算法是Shamir[1]的多项式插值法,这种算法的优点是不管(k,n)门限方案中k和n取什么值,都能用通用的公式实现加密和解密。有作者提出了(k,n)门限方案的异或运算方法[2-4],异或运算的效率要比多项式插值法高很多,这种方法没有通用的加密或解密公式,不同的k和n取值,需设计不同的加密和解密方法,这使得加密和解密方法也成了秘密的一部分,虽然通用性不高,但安全性更高。Yamamoto[5]提出的(k,L,n)秘密共享方案可大幅减少计算量和传输量,该方案被设计成1个原始消息s可从n个分享份额中的任意k个分享份额获得重构,从任何(k-L)个或更少的分享份额中得不到原始消息的任何信息,但可能会从(K-j)(其中,j=1,2,…,L-1)个分享份额组成的跳板(Ramp)集合中获得一点儿有关原始消息的信息,由于该方案可能会牺牲一点安全性,所以被称为不完美的秘密共享。但根据对已有(k,L,n)方案的具体算法的研究发现,Ramp集合的不安全性是可以避免和消除的。此方案的优点是:每个分享份额的位长是原始消息长度的1/L,所有分享份额的总容量降为原始消息的n/L,这将使计算量和传输量比(k,n)方案降低大约L倍。(k,L,n)方案的概念自提出以来,根据广泛的国内外文献检索结果显示,目前国际上实际的应用案例还非常少,迄今还没发现任何医院使用这项技术进行数据安全管理。
三、秘密共享服务软件
我们开发了秘密共享服务测试软件,使用了异或运算的(3,2,4)Ramp秘密共享技术,发现该技术完全可胜任大容量医疗数据的分布式存储。该秘密共享服务软件可为用户提供远程备份、远程访问、共享与交换等医疗数据的安全管理功能。用户通过常规方式在指定文件夹中存储1个文件,该文件就会被自动加密并分割成4个子文件,子文件又被分布存储到4个数据中心,每个数据中心存放的单个子文件毫无意义。用户随时随地再次登录并打开文件时,秘密共享服务软件又自动从不同的远程数据中心收集任意3个子文件,恢复出原始文件,同时相关联的应用程序会自动开启,文件又可被编辑和浏览。任何一个子文件遭破坏或因网络故障无法获取,也不会影响文件的恢复。将秘密共享服务软件用于医疗数据的远程备份可兼顾安全性和冗余性,从而保证业务的持续性;用于远程访问可使远程工作者无需随身携带数据,随时随地通过账号远程登录秘密共享服务文件夹抽取数据;通过多用户共享1个秘密共享文件夹可为多用户或多机构的医疗数据交换与共享提供多一种选择。
四、秘密共享方案的优势
篇9
科学工作流中的任务之间的依赖既包含控制依赖,也包含数据依赖。连接两个任务(t1-t2)的边表示任务t1的输出作为任务t2的输入,工作流中的每个任务可能读入一个或多个输入文件,然后写入一个或多个输出文件。在工作流层,文件可以分为3种类型:输入文件、中间文件和输出文件。不同类型的文件具有不同的生命周期。(1)输入文件。输入文件不由工作流中的任务产生,文件通常驻留在用户存储服务器上。在运行时,可以从一个存储服务器传送到另一个存储服务器,然后在这里被检索,也可以在存储服务器上直接检索。图1中的F-input就是一个输入文件[10]。(2)中间文件。在工作流运行过程中产生但无需长期保存的文件称为中间文件,将在所有使用它的任务结束后被立即删除。图1中的f-t1-o1、f-t1-o2、f-t2-o1、f-t2-o2都是中间文件。(3)输出文件,由工作流产生,对用户有用并且在工作流结束后需要永久保存的文件。在工作流执行过程中,这些文件通常被转移到常驻存储中。图1中的F-output就是工作流的输出文件。值得注意的是,输出文件不一定必须是工作流中最后任务的输出,也可能是中间环节任务的输出数据。
2云计算环境下工作流执行模型
科学工作流由工作流管理系统提交和管理,工作流管理系统驻留在提交主机,协调调度工作的流执行。工作流管理系统将工作流中的任务分配到虚拟机的工作节点,任务的执行所需要的数据可以从一个或多个输入数据存储点输入。中间文件在工作流执行期间驻留在数据暂存站点。当工作流结束时,工作流管理系统删除中间数据,同时将输出文件从暂存站点转存到输出站点,然后永久性保存。根据工作流管理系统和目标执行环境的不同,多个数据站点可以协同工作。例如,在输入数据已经驻留在计算节点的情况下,该计算节点和输入点是相同的。图2显示了具有两个任务的工作流,来说明工作流所需的文件是如何在逻辑上独立的站点之间移动的。
3对象存储应用于科学工作流中的数据管理
对象存储系统主要包括存储服务器、元数据服务器、客户端等组成部分,其核心思想是将数据的读和写与元数据存储分离,如图3所示。存储服务器主要负责数据存储、智能的数据分布以及每个对象元数据的管理;元数据服务器主要提供对象存储访问、文件和目录访问管理以及客户端缓存的一致性管理等功能。为了提供可扩展的可靠服务,对象存储器的内部结构非常复杂。例如,亚马逊的简单存储服务(S3)[12]通过REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供检索和删除操作;它将一个对象的多个副本布局在存储服务器上以提供错误情况下的冗余。很多网格存储服务和为数据密集型应用设计的协议可以认为是对象存储,这种架构对构建来自不同的执行环境的数据管理模式而言具有重要的借鉴意义。针对面向大数据工作流,利用对象存储的优点,本文提出两个方案:一是工作流中的3类数据文件都使用远程的对象存储;二是在计算节点上使用共享文件系统作为数据暂存点来存储中间数据。
3.1单独使用对象存储
在这种情况下,所有的数据都存储在对象存储系统中,工作流管理系统需要从对象存储中无缝检索数据,为本地工作流任务使用。在这样的设置中,工作流管理系统从对象存储中检索输入文件和中间文件,然后,工作流中的任务对本地的POSIX文件系统做必要的输入/输出设置,任务完成时,工作流管理系统能够将中间数据和输出数据存储到对象存储中。这样,即使工作流被部署在分布的资源上,科学应用只需要对POSIX做常规的输入/输出设置,就能完成工作流的执行。工作流管理系统与对象存储的多次交互增加了工作流执行的开销,而该开销与分布资源上的计算相比并不算大。对象存储中既有输入数据也有中间数据,只要工作流系统与对象存储能够无缝检索和存储,那么任务执行可以在任何地方。如图4中,任务t1可以在校园计算机集群上完成,而属于同一工作流的任务t2可以在亚马逊的EC2上完成,t1、t2使用亚马逊的S3对象存储作为中间数据文件的暂存。总之,数据存储和执行环境的分离,使得工作流在分布资源上的执行更为容易。一个常见的情况是,当计算需求超过本地或校园计算所提供的资源时,将使用云资源。图4也说明了工作流的数据移动情况。在这里,文件F-i被传送到云中的高性能计算集群工作节点的本地文件系统。任务t1从该节点开始,读入输入文件F-i,然后写入本地文件系统的中间文件F-t,F-t被传回到作为数据暂存点的对象存储中。F-t文件将从对象存储中被检索进入到EC2节点的本地文件系统。任务t2启动后读取F-t文件(该文件是由t1创建),然后将F-o写到本地磁盘,再传送到对象存储中。以上所有的数据传输工作都由工作流管理系统完成。科学工作流中单独使用对象存储的明显不足之处是,数据重复传输会引起在大数据处理过程中的延迟。工作流中的多个任务使用相同的文件,所以重复传输是显而易见的[13][14]。对象存储将对同一资源的重复请求认为是不同的请求,对象存储通常以其良好的扩展性减轻这种重复对工作流性能造成的影响。另外,工作流系统可能在本地节点选择缓存文件,或者利用集群中的共享文件系统来减轻此问题。延迟是整个工作流性能应该关注的问题,云对象存储的设计提供了很高的带宽,但对单个检索或对象操作可能需要数秒钟的延迟。对具有大量文件的数据密集型的科学工作流而言,这种延迟显著增加了工作流运行的时间开销。大型工作流中的另一个问题是多数中间文件需要被传输到对象存储中由相关后续任务检索并使用。由于商业对象存储提供以GB为单位的存储,并按迁移、存储和检索的请求数付费,所以重复传输也就意味着费用的增加。
3.2共享文件系统作为数据暂存
解决由数据重复迁移造成的延迟问题的方法之一,是工作流管理系统将中间文件暂存在POSIX兼容系统中,由多个计算节点文件系统共享,然后在一个资源节点上运行所有的计算。文件共享系统保存了工作流管理系统中所有任务的中间数据,在这种情况下,只有输入输出文件存储在对象存储中。由于中间文件不需要在对象存储与计算节点之间传送,从而可降低使用商业云对象存储的费用。如图5所示,是一个具有文件共享系统的高性能计算环境下具有2个任务的简单工作流。文件F-i被工作流管理系统传送到集群文件共享文件系统。任务t1在计算节点1上启动,从共享文件系统中读入文件F-i,然后将中间文件F-i-t写入到共享文件系统中,任务t2在计算节点2上启动,从文件共享系统中读入F-i-t(由任务t1创建),然后将其输出写入到F-o,F-o由工作流管理系统送到对象存储中,这种方法的优点在传统的有高速并行超级计算环境中尤为显著。例如,XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)节点对多数科学工作流点有极大扩展性[15]。值得注意的是,如果第一个计算节点忙而需要将计算溢出到另一个节点时,这种随数据布局任务的方法,损失了布局计算的灵活性。以上两种方法各有所长,选择使用哪种方法取决于工作流的类型和工作流执行的目标环境,这就要求工作流管理系统的开发具有弹性的数据管理方案,允许科学家有效使用对他们有用的基础设施。工作流中的数据管理方案应该具有如下特征:首先,科学工作流管理系统允许任务和数据后绑定,任务依据资源的可用性映射到计算资源上,任务在执行时能够发现资源,并从众多存储中选择数据暂存位置;其次,在科学家只有一个计算资源可用的情况下,允许任务和数据的静态绑定;再次,支持使用不同协议和不同安全机制访问对象存储。
4相关工作
工作流管理系统处理数据的方法很多,Swift[16]采用与本文所描述的第二种模式类似,使用本地文件系统或共享文件系统作为数据缓存,提交主机扮演数据暂存的角色。系统首先选择一个计算站点来运行一个任务,然后将数据从提交主机推向该站点的文件系统,任务执行后,输入的文件被回传给提交主机,中间文件被留在共享文件系统中以便后续任务的执行。相对而言,本文将数据文件(包括输入、输出、中间文件)与提交主机分离,并使用不同的协议,具有更好的灵活性。其他工作流管理系统如Kepler[17],Triana[18]和Taverna[19]关注的是流式工作流中任务的调度和其他Web资源的调用,这些工作流具有图形化的用户界面,允许用户搭建具有不同部件的工作流,但通常没有涉及访问大量数据集的问题。这些工作流中的数据管理很大程度上依赖于用户,数据管理自动化非常有限。Kepler[20]引入了一个MapReduce执行器,允许执行采用MapReduce算法的混合工作流。Hadoop平台通常用来运行数据密集型的科学应用,它所提供的文件操作与POSIX类似,允许随机读,但不允许随机写。在这种情况下,Hadoop平台负责将输入文件切片并分布在各个数据节点。而本文提出的方法主要针对工作流运行在多个不同的执行环境中,代码不能MapReduce的情况。在XSEDE中,任务利用分布式文件系统如GPFS-WAN[21](GeneralParallelFileSystem-WAN)来访问数据,分布式文件系统支持POSIX操作,可以对输入和输出文件进行远程访问。研究表明[22],将大型数据集布局在本地计算节点会更好,但这一策略也会带来新的问题,如不同类型工作流的融合以及数据布局策略算法等。
5总结
篇10
1 大数据采集
大数据采集是大数据能力的基础,培养学生快速准确全面获取数据的能力是大数据分析技能的起点。企业各种原始凭证、记账凭证、账簿、报表等会计资料信息采集,包括传统纸质材料和电商电子材料等信息的采集,因为相对工整规范,采集难度不大;培养学生对企业自有数据仓库数据抽取导出能力,将充分发挥企业历年数据作用。
同时,企业不仅要采集企业内部核算资料,还要进行管理活动需要采集原材料价格、市场前景、同类产品销售情况等外部数据资料,这些资料有公开的如钢铁价格、原油价格等,也有不公开的某企业某产品销售情况,所以通过大数据的手段在获取某类产品、某些特点产品的销售情况,或者购买参考公共销售情况数据,需要培养学生爬取数据的能力。
例如,利用八爪鱼进行淘宝、天猫、京东等网站商品检索结果抓取或者商品详情内页资料进行抓取,也可以自行设计或者购买规则进行特定数据抓取;利用公共平台数据对企业商品的竞争情况有更全面的了解,也可以获取消费者的检索热点;对自己产品的评论资料可以进行典型意见和关键词的提取,提高CRM水平,如图1所示。 随着物联网传感器的发展,自动、实时、全面、完整、可靠、准确的数据不断出现,每一个界面、每一个动作、每一次交互都有迹可循并被规范记录,获取的数据也将更加全面,企业的数据采集也更趋自动。
2 大数据清洗
培养学生通过对数据进行多方验证、审核,将有杂质的数据剔除能力;培养学生从格式、逻辑、数值等多方面进行数据清洗和整理,处理缺失值、孤立点垃圾信息、规范化、重复记录、特殊值、合并数据集等问题的能力。
3 大数据分析
对于企业积累数据和获取的外部数据都要及时进行分析应用,快速充分分析数据尤为关键。培养学生数据分析、数据挖掘的技能尤为重要,具体需培养数据分析技能如。
(1)描述型分析:是什么?
描述性分析会提供重要指标和信息。例如,通过每月的销售单据,可以获取大量的客户数据,如客户的地理信息、客户偏好等;也可以了解企业库存、销售等生产经营数据。
(2)诊断型分析:为什么?
通过评估描述型数据,诊断分析工具能够深入的分析数据,钻取到数据的核心,分析某种产品或者某些产品销售量变化原因等。
(3)预测型分析:可能怎样?
预测型分析主要用于进行预测事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点。使用各种可变数据来实现预测,在充满不确定的环境下,预测能够帮助做出更好的决定,如预测原料价格可以辅助决定库存、预测销售可以辅助决定产量、预测业务量可以辅助决定资金筹集量等。
(4)指令型分析:做什么?
指令模型是基于对“是什么”“为什么”和“可能怎样”的分析,帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最好的回家路线;企业考量了销售数据的变化、分析了市场和消费者的原因、预判了产品市场前景,进而决定对产品实施哪些改进。
4 大数据可视化
大数据可视化是培养学生对大数据分析结果进行直观呈现能力。培养学生利用企业自有数据或者外部连接数据、抓取数据等方式获得的数据进行全方位呈现的能力,培养学生将数据的汇总、平均、交叉列联分析等描述和分析结果,利用适当的图形进行展示的能力。大数据可视化是非常重要的技能,具体如。
4.1各类变量适合的基本可视化效果
单一变量:点图、抖动图;直方图、核密度估计;累计分布函数。
两个变量:散点图、LOESS平滑、残差分析、对数图、倾斜。
多个变量:假色图、马赛克图、平行左边图。