大数据治理方案范文
时间:2024-01-18 17:58:47
导语:如何才能写好一篇大数据治理方案,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
【关键字】 大数据 网络防火墙 网络安全 策略审计 安全感知
一、防火墙的传统安全功能
网络防火墙是数据中心一个必不可少的安全防护工具,负责网络地址转换(Network Address Translation)和访问控制(Access Control List)。网络地址转换用于隐藏私网IP和端口信息和地址复用;访问控制用于防护服务器敏感端口和漏洞端口的非法访问、非法扫描,以及控制各个安全域间的服务器或终端的访问权限。
二、防火墙日志做策略审计和优化
2.1防火墙策略审计需求
防火墙策略控制着安全域之间服务器或终端的访问权限,它的有效性直接影响业务,必须定期检查。每个业务和资产都有生命周期,资产或者业务的终止会让对应的ACL策略变成无效策略,这些无效策略必须定期审计并删除。每个网络安全运维人员都有配置错误ACL的可能,这些错误可以通过审计发现。
2.2大数据助力防火墙策略审计和优化
策略审计基本是通过检查ACL配置实现。然而,通过大数据平台收集防火墙日志并作分析,可以优化审计或者实现新的功能:
1)对近期的访问量进行排序,根据访问频率调整ACL顺序,能有效减轻防火墙工作压力。
2)通过防火墙的拒绝连接日志,发现错误配置。例如某个应用程序配置了错误的访问目标IP,则会被防火墙拦截并产生大量防火墙拒绝连接日志,我们可以通过收集这些拒绝连接日志发现程序错误。
3)根据ACL的源IP和目标IP,对近期的访问量进行搜索从而发现0命中策略,再去确认源IP或目标IP服务器是否下线,可以发现无效策略。
三、防火墙日志感知互联网
防火墙的主要作用是负责访问控制,拦截违反访问策略的流量。在大数据平台接收互联网边界防火墙日志后,我们不仅可以知道违规的流量,也可以感知互网IP,建立互联网IP信誉库,表1举了几个例子。
四、防火墙日志感知内网访问
网络防火墙日志中,大部分是建立连接和拒绝连接的告警日志。在长期收集日志后,对成功链接的日志根据源IP、目标IP进行统计,可以感知数据中心服务器间的业务访问行为,从而建立安全访问规则库。对于违反访问规则的日志,则发出告警,让安全管理员对源IP服务器进行安全分析。如果数据中心有配置管理数据库(CMDB),把IP与服务器名关联起来,可以提升安全分析效率。
五、防火墙日志在挖掘攻击链路的作用
现在的网络攻击越来越复杂和隐蔽,网络入侵的发现和溯源需要多种安全设备告警的关联分析。如果黑客在某个攻击环节中采用0day恶意代码,则很有可能没有告警,从而无法还原整个攻击链路,给溯源分析带来困难。例如:黑客成功入侵服务器A后,通过IP扫描得知服务器A可以访问服务器B,然后植入0day恶意代码并成功控制服务器B。在这个例子中,我们可能会发现服务器A有安全告警,服务器B有安全告警,但没有找到A入侵B的安全告警。但无论攻击再隐蔽,恶意代码再难发现,只要服务器A访问服务器B经过防火墙,访问记录是无法掩盖的。我们可以通过防火墙日志完善攻击链路,从而实现攻击链路的溯源。
篇2
如何充分利用大数据,挖掘大数据的商业价值,从而提升企业的竞争力,已经成为企业关注的一个焦点。这也是甲骨文公司努力的方向。
全面解决方案才能奏效
当前,越来越多企业将大数据的分析结果作为其判断未来发展的依据。同时,传统的商业预测逻辑正日益被新的大数据预测所取代。但是,我们要谨慎管理大家对大数据的期望值,因为海量数据只有在得到有效治理的前提下才能进一步发展其业务价值。
最广为人知的大数据定义是Gartner给出的大数据的3V特性:巨大的数据量(Volume)、数据的快速处理(Velocity)、多变的数据结构和类型(Variety)。根据这一定义,大家首先想到的是IT系统中一直难以处理却又不容忽视的非结构化数据。也就是说,大数据不仅要处理好交易型数据的分析,还把社交媒体、电子商务、决策支持等信息都融入进来。现在,分布式处理技术Hadoop和NoSQL已经能对非结构化数据进行存储、处理、分析和挖掘,但未能为满足客户的大数据需求提供一个全面的解决方案。
事实上,普遍意义上的大数据范围更加广泛,任何涉及海量数据及多数据源的复杂计算,均属大数据范畴,而不仅局限于非结构化数据。因此,诸如电信运营商所拥有的巨量用户的各类详细数据、手机开关机信息、手机在网注册信息、手机通话计费信息、手机上网详细日志信息、用户漫游信息、用户订阅服务信息和用户基础服务信息等,均可划归为大数据。
与几年前兴起的云计算相比,大数据实现其业务价值所要走的路或许更为长远。但是企业用户已经迫不及待,越来越多企业高层倾向于将大数据分析结果作为其商业决策的重要依据。在这种背景下,我们必须找到一种全面的大数据解决方案,不仅要解决非结构化数据的处理问题,还要将功能扩展到海量数据的存储、大数据的分布式采集和交换、海量数据的实时快速访问、统计分析与挖掘和商务智能分析等。
典型的大数据解决方案应该是具有多种能力的平台化解决方案,这些能力包括结构化数据的存储、计算、分析和挖掘,多结构化数据的存储、加工和处理,以及大数据的商务智能分析。这种解决方案应具有以下四个特性:软硬集成化的大数据处理、全结构化数据处理的能力、大规模内存计算的能力、超高网络速度的访问。
软硬件集成是必然选择
我们认为,大数据解决方案的关键在于如何处理好大规模数据计算。过去,传统的前端数据库服务器、后端大存储的架构难以有效存储大规模数据并保持高性能数据处理。这时候,我们让软件和硬件更有效地集成起来进行更紧密的协作。也就是说,我们需要软硬一体化的专门设备来应对大数据的挑战。
坚持开放的战略
篇3
关键词:大数据分析;低压台区;降损系统;用电数据;营销业务 文献标识码:A
中图分类号:TM714 文章编号:1009-2374(2016)35-0058-02 DOI:10.13535/ki.11-4406/n.2016.35.028
1 概述
线损治理与反窃电工作一直是营销管理人员日常工作的一项重要内容,与历史数据相比,当前用户数量急剧增加,窃电形势越来越严峻,而受到资金以及管理人员数量的限制,线损治理与反窃电难度也就越来越大,依靠传统的管理手段已经很难适应新的市场形势。随着智能电表的普及安装以及远抄技术的全面推广应用以及新型反窃电设备的涌现,科学治理、科技反窃是一条必由之路。
新型单项智能电表计量包括正反向有功总示数、电压、电流、剩余金额、开盖记录等30项数据,三相智能电表计量45项数据。但现有用电信息采集系统因数据传输及服务器容量等限制,只能针对正反相有功总示数等有限的几个计费相关的数据进行采集。而对低压电能表的电压、电流、开盖记录等参数并不采集,由此造成智能电表计量功能的浪费。由此沧州供电公司联合相关研发机构采用“大数据”技术,建立低压台区大数据降损系统,采集用户各项用电数据,并结合SG186营业业务应用系统用相关数据进行分析研究,为提升供电公司低压线损管理提供了新思路。
2 低压台区大数据降损系统总体设计及系统架构
2.1 系统总体设计
建立集中的高损台区监管系统,既能够利用现有SG186系统以及远抄系统对高损台区的历史和实时数据进行对比分析,又能够找出可能存在的窃电用户进行专项治理,同时还可以为三相平衡分析以及无功治理提供技术数据。
通过公开的统计资料可以发现,40%~50%的低压窃电行为可以通过对比分析低压计量装置的火线与零线的电流电压数据是否匹配直接定位,可以有效督促负责用电检查人员排查其他窃电用户,再结合台区线损的实时变化曲线,必要时辅以现场检查等手段,可迅速降低低压台区线损。
2.2 系统架构
实时低压台区线损监测分析系统,打破了依赖人工排查的治理手段。依靠后台数据,进行全天候实时分析。在发现异常用户信息后对该用户位置、异常信息提取并及时发送给相关管理人员,是针对台区线损管理的整体解决方案,方案包括后台软件以及现场采集设备。软件系统主要功能是实时监控、报警(窃电、欠费)、数据分析(横向、纵向)、统计报表等;硬件系统主要由数据采集通讯终端、通讯前置机、WEB服务器、WEB客户端等部分构成。
3 系统平台模块详细设计
平台设计共5个模块,包括了日常线损分析统计、台区及用户数据实时存储分析。此次设计核心是引入了大数据处理概念,通过现有成熟条件,对数据进行深度挖掘,努力使日常的数据发挥出更大价值。
3.1 地图导航定位模块
实现台区定位及台区分布图查看。台区信息查询功能,实现台区基本信息及台区用电信息查询。
3.2 台区线损分析模块
实现台区实时线损、台区历史线损、高损台区
筛查。
3.3 用电异常监控模块
实现低压单相表火线电压为零,零线电压为220V;低压单相表火线电流与零线电流不相等;低压单相表失压或电压偏高;低压单相表有电流无电压;台区总表失压失流;低压三相表电流不平衡;低压三相表失压;低压三相表相位角分析;低压三相表总功率不等于各相功率之和;低压智能表剩余金额检查等异常监控。
3.4 预警管理机制模块
实现台区监控管理、短信报警管理、报警信息自动记录。
3.5 反窃电记录模块
实现线损治理、反窃电活动自动记录。
4 基于大数据分析的低压台区降损平台实现的功能
实时监测分析系统,通过系统后台对高损台区下的用户进行实时监测分析,发现低压卡表用户有窃电行为,将异常信息、用户信息一并提取保存,并发出警报,通知相关管理人员。管理人员接到报警信息后,提取出异常信息,可以准确掌握低压窃电用户使用的手法及用户信息地址。整套流程不仅提高了降损工作的工作效率、降低治理成本,同时也打击了不法分子对窃电行为的侥幸心理。
4.1 反窃电监控的目标
发现低压用户窃电及违章用电;发现低压用户电表接线错误;发现抄表异常;监控用户用电习惯。
4.2 监控数据的分析及现场核查
建立反窃电主站后台分析系统,对采集的监控数据分析和预警提示,并根据分析内容安排现场核查工作。
4.3 监控数据的范围
只针对特定的高损台区进行监控,不适用于大规模的台区监控。由于对低压台区反窃电监控时,需要占用采集系统的载波数据通道,因此需要在采集系统工作空闲时进行数据采集工作,监控所需采集数据较多,为了避免影响采集系统的正常工作,只针对特定台区下发监控任务,以保证采集系统的正常运行。
4.4 反窃电监控的时段及数据频率
在采集系统已经完成的时段进行数据监控采集,原则上避开抄表数据采集的时段,预计大约2~4小时。因为低压用电户在晚上0点时一般都不用电,因此需要采集低压用户的24小时整点电压电流数据。
5 结语
采用低压台区线损实时监控分析后实现了对窃电用户的快速定位,缩小了查窃范围。采用反窃降损分析、计量差错监控、抄表异常排查、监控用户用电习惯等多套降损措施,对低压台区线损率的降低有显著作用。在电力供应紧张的状况下,分析用户用电行为为实现低压降损、实施无功补偿等工作提供了参考数据。我国终端节电潜力巨大,如果实施有效的低压台区用户大数据分析研究,改善用户用电习惯,将为供电企业带来巨大的节电效益、经济效益、环境效益和社会效益。
本文作者创新点:建立集中的高损台区监管系统,既能够利用现有营销MIS系统以及远抄系统对高损台区的历史和实时数据进行对比分析,又能够找出可能存在的窃电用户进行专项治理,同时还可以为三相平衡分析以及无功治理提供技术数据,打破了依赖人工排查的治理手段。依靠后台数据,进行全天候实时分析,是针对台区线损管理的整体解决方案。
参考文献
[1] 中华人民共和国电力行业标准:电力网电能损耗计算导则(DL/T 686-1999)[S].1999.
[2] 丁毓山,翟世隆.电网线损实用技术问答[M].北京:中国水利水电出版社,2010.
[3] 安进朝,王涛.一种远程抄表系统设计[J].无线电工程,2007,(2).
篇4
“螺旋迭代”治理模式
趋势科技产品经理林依莹介绍:“APT 攻击是一种高级的、狡猾的伎俩,高级黑客可以利用APT 入侵网络、逃避‘追捕’、对相关数据进行长期访问,最终挖掘到想要的信息。”
为了改变网络风险失控的现状,趋势科技提出了“演化的APT 治理战略”,这包括1个中心、4个过程、6个抑制点。即“监控”为中心,实现威胁可视化、策略下发、以及威胁情报共享;“侦测、分析、响应、阻止”为4个治理过程,贯穿整个APT 治理的生命周期;对应APT 攻击过程的6个阶段分别建立抑制点,实现针对性极强的防御。
趋势科技产品经理白日表示:“演化的APT 治理战略中所阐述的观点,是一种‘螺旋迭代’的立体化治理模式,每经历一个迭代周期,防护体系将具备更强的防御治理能力。另外,演化的APT 治理战略包括的具体落地方案,通过趋势科技控制管理中心(TrendMicro Control Manager,TMCM)整个企业提供全方位智能的安全管控,它紧密整合了趋势科技云安全智能防护网络(TrendMicro Smart Protection Network,SPN)全球威胁情报分析系统、趋势科技深度威胁发现平台(Deep Discovery,DD)的威胁侦测和分析能力。”
四方面治理战略核心
据介绍,趋势科技演化APT治理战略核心包括四个方面。第一,趋势科技的云安全智能防护网络,简称SPN,也就是云端大数据分析系统。如果要做云端大数据分析,至少有两方面的条件。第一要有广泛的用户基础;第二还要有非常全面产品线。
篇5
1.数据平民崛起
甲骨文公司预测一种新型用户:数据平民(Data Civilian)会崛起。该公司称:“虽然复杂的数据统计可能仍局限于数据科学家,但数据驱动的决策不会是这样。在未来一年,更简单的大数据发现工具让业务分析员可以寻找企业Hadoop集群中的数据集,将它们重新做成新的混搭组合,甚至运用探索性机器学习方法来分析它们。
2.“大数据”会消亡
Nucleus Research公司公开发表了不同意见,预测我们所知道的大数据会消亡。该公司称:“在过去两年,每家公司及其人员似乎都推出了某种形式的大数据解决方案。是该告别新奇事物综合症(shiny object syndrome)的时候了。用户会像对待任何数据那样对待和访问大数据,而不是着手解决大数据分析这一项庞大又艰巨的任务。
3.风险投资公司更关注大数据给出的结论
据Opera Solutions公司的高级副总裁Keri Smith声称,由于风险投资公司往数据初创公司纷纷投入资金,是时候开始提出尖锐的问题了。Smith问道:“大数据解决方案真正的投资回报率(ROI)如何?公司如何才能跨过部门级部署这个阶段,让大数据在整个企业创造的价值实现最大化?又有哪些有意义的使用场合适用于众多垂直领域?要是贵公司现在没有提出这类问题、积极寻求答案,应该很快就会。
4.机器学习和人的洞察力组合渗透新行业
Spare5公司的首席执行官Matt Bencke表示,我们在2016年会看到数据绝地武士(Data Jedis)的兴起。他写道:“将来被人工智能改变的工作会比以往任何时候都要多,‘数据绝地武士’会变成最抢手的员工。机器学习和人的洞察力这对组合会渗透到新行业,包括医疗保健和安全行业,员工需要灵活适应以提供不同服务,不然就会落在后面。
5.数据科学在银行界大放光彩
数据科学咨询公司Profusion的首席执行官Mike Weston预测,数据科学在银行界会大放光彩。他写道:“金融业是率先采用数据科学技术/方法的行业之一。不过,所有银行服务公司采用数据科学的步调远远没有统一。2016年,我预计这种局面会有所改变。更好地利用数据和服务个性化会从金融市场进入到零售银行领域。这会给市场营销、客户服务和产品开发带来深远影响。”
6.人工智能和认知计算让个性化医疗成为现实
先进的人工智能引起机器人成为统治者,这种场景吓坏了Elon Musk。不过据Franz公司的认知科学家兼首席执行官Jans Aasman声称,应该将人工智能归为“友好的技术”这一列。他说:“2016年及以后,人工智能和认知计算将使个性化医疗成为现实,帮助拯救患有罕见疾病的病人,并改善整体的医疗保健状况。”
7.首席数据官将成为信息技术领域的“新宠儿”
Blazent公司首席技术官办公室负责人Michael Ludwig认为,首席数据官(CDO)会成为信息技术领域的“新宠儿”,永远让办公室政治更显错综复杂。他写道:“正是由于大数据很复杂,又需要完整而准确的数据,首席数据官会变得越来越重要。因而,首席技术官和首席信息官需要给首席数据官让出地方,除非确立了明确界定的角色,并成立了相关团队,否则高层管理团队当中会出现紧张局势。”
8.首席洞察官成为大数据整理过程的关键领导者
但不是每个人都这么认为,其中包括PROS公司的首席远见官Craig Zawada。“2016年,我们会开始看到被任命的首席数据官日渐式微,这是过去的一种角色。相反,2016年会出现首席洞察官,这类人将成为大数据整理过程中的关键领导者。”
9.云服务被充分利用
但是颇有势力的CIO能重新发号施令吗?Cazena公司创始人兼首席执行官Prat Moghe预测会这样。他写道:“2016年,CIO们会充分利用企业就绪的云服务,作为中间人提供这样的云服务,既满足IT部门在治理、合规和安全等方面的要求,又满足业务部门在敏捷性和响应能力等方面的要求。”
10.流分析逐渐成熟
DataTorrent公司的首席执行官兼联合创始人Phu Hoang预测,流分析(streaming analytics)会开始成熟起来,并在大数据阵营中证明其价值。他说:“虽然许多公司已经认可了实时流非常重要这一点,但我们会看到用户希望更进一步,确定流分析使用场合。在接下来一年,使用流分析工具的客户会变得更加成熟,要求流分析有明确的投资回报率。”
11.实时分析异常火爆
实时分析在明年会很火爆,这个我们懂。不过据MongoDB公司的战略和产品营销副总裁Kelly Stirman声称,一项技术:Apache Kafka比其余技术更惹人注目。Stirman写道:“Kafka将成为企业数据基础设施的一个重要集成点,为构建智能分布式系统提供便利。Kafka及其他流分析系统(比如Spark和Storm)会补充数据库,成为跨应用程序和数据中心管理数据的整个企业堆栈的关键部分。”
12.大数据让娱乐更加“娱乐”
喜欢鼓乐?FirstFuel Software公司的首席数据科学家Badril Raghavan表示,那么你一定会爱上2016年。“在今后几个月,我们会看到企业和个人利用数据和分析工具,面对包括能源、体育、社会公益和音乐在内的众多行业,提供个性化、引人入胜的体验。比如说,人们将来可以利用数据,根据个人喜好(例如偏爱鼓乐)改编歌曲。”
13.物联网影响半导体行业
物联网会如何影响半导体行业?IT传奇人物Ray Zinn对此有几点看法。他写道:“你会看到设计和制造出现更明显的分工。晶圆厂的使命就是扩大规模,服务于几十亿消费者和新兴的物联网市场。设计将会与制造脱离开来,分担市场风险。创新将是设计公司的生存之道,而不断提高效率才是晶圆厂的致胜秘诀。问题是,接下来会出现什么?到时难免会出现新的市场和设备,从而推动行业呈现新的井喷式增长。物联网好比是沉睡的巨人,不过我觉得它只是在打盹而已。”
14.机器学习、大数据自动化和人工智能大放异彩
Infosys公司高级副总裁兼平台、大数据和分析部门主管Abdul Razack表示,机器学习、大数据自动化和人工智能在2015年大出风头,明年会出更大的风头。Razack说:“2016年,企业更广泛地采用人工智能技术替代人工重复性任务的步伐会快速加快。”他提到,丰田公司最近往人工智能方面投入了10亿美元。大数据自动化已经在发展,不过明年“会得到更广泛的应用,人的独特能力(即拿来复杂问题后给出创造性的解决办法)显得更重要。”特斯拉的无人驾驶汽车内置了机器学习技术,但明年,“机器学习会悄悄进入到千家万户,让我们身边的物件不仅仅是联网而已。
15.合并兴起的关键年
许多人预计2016年大数据领域会出现激动人心的事情。Logi Analytics公司的解决方案工程和服务副总裁Charles Caldwell却不这么认为。“如果我展望2016年,并不觉得会出现许多激动人心的事情。其他厂商已给出了云计算、视觉分析和移动等方面的预测,但是那些大多是安定下来的旧趋势。在我看来,2016年会是合并兴起和为下一大热门打基础的一年。”
16.副本数据管理(CDM)迎来春天
“最想象不到奖”授予Catalogic Software公司的产品营销高级经理Peter Eicher。我们倒不是指他的这一预测:副本数据管理(CDM)“是迎来大好时期的技术――不仅这个领域出现新厂商,老派厂商也在跟风,这就是最好的佐证。”这完全合情合理。不,我们之所以提名Peter是因为他的这一疯狂预测:纽约尼克斯队会夺得NBA总冠军。他承认:“是的,结果不是。我不可能一直预测正确。不过话又说回来,这个预测已连续错了42年。”
17.大数据泄密事件频发
大数据领域的“沮丧的黛比”(Debbie Downer)奖授予BlueTalon公司的首席执行官Eric Tilenius,因为他预测,大企业爆出大数据泄密事件的步伐可能会加快。他写道:“2016年,缺乏统一的数据治理,可能会导致企业界迄今面临的最大的安全方面冲击――这相当于移动技术的问世给传统企业边界带来的冲击。依赖支离破碎的方法来控制数据访问,即面对不断变化的数据格局采用不一致的政策,只会在企业数据保护方面留下大洞。”
18.微服务架构有所突破
你在搞微服务吗?据SaaS厂商Workday声称,如果你现在没搞,很快会搞。该公司声称:“很显然,内部部署与云之争已结束,云赢了。不过,并非构建的所有云架构都一个样。微服务架构会突破Netflix等消费者互联网设计领域,成为自向云转变以来企业应用软件领域最重大的架构进步。”
19.大数据分析扩大领域
TARGIT公司首席技术官Ulrik Pederson表示,大数据有难度,许多公司在明年会竭力搞好大数据。他写道:“2016年大数据分析会扩大领域,一些工具让企业用户有可能在需要时对大数据执行全面的自助式探索,不需要IT部门的大力指导。对应于我的第一个预测,我预计先进分析项目在众多行业会大幅增加。然而,这并不意味着它们会成功......要是听到许多厂商和客户在成功实施项目上遇到困难,我也不会觉得惊讶。”
20.认知技术、数据科学会有进展
国际数据分析研究所(International Institute of Analytics)预测便于嵌入式分析的分析微服务会大行其道。这家独立研究和咨询公司还预测,认知技术、数据科学和数据精选等领域会取得进展。哦,该组织表示,由于许多大学开设新课程,分析人才危机有望得到缓解。
21.非数据专业人才也会投身大数据
OLAP-on-Hadoop提供商AtScale公司的首席营销官Bruno Aziza表示,不是数据专业人才的那些人也会积极投身于大数据。他写道:“随着Hadoop变得更容易被非数据专业人才访问,营销人员会开始访问更多的数据,以便做出更合理的决策。可以借助Hadoop更深入更全面地了解数据,这让营销人员能够洞察消费行为、从而做出决策,并了解客户消费旅程背后的流程。”
22.高性能计算渐成主流
存储巨头DDN预测,我们会看到更多的高性能计算技术进入到主流,特别是由于它涉及存储。该公司表示:“2016年,来自高性能计算行业的存储、数据管理和应用程序加速等技术会继续以更快的速度被利用起来,以满足企业对性能和规模越来越高的要求,因而会以更快的速度取代传统的IT基础设施。”
23.开源大数据遍地开花
开源大数据技术给你留下了深刻印象?Pentaho公司的首席执行官Quentin Gallivan表示,你还没有看到任何实际东西。Gallivan写道:“像Spark、Docker、Kafka和Solr这些很酷的新工具会遍地开花,这些新兴的开源工具旨在能够对PB级数据进行大规模大批量的分析,它们会从‘青春期’阶段进入到‘壮年期’阶段。”
24.Spark淘汰MapReduce,拯救Hadoop
RDBMS-on-Hadoop厂商Splice Machine公司的联合创始人兼首席执行官Monte Zweben表示,Spark会淘汰MapReduce,但是会拯救Hadoop。他写道:“MapReduce相当深奥。具有速度慢、批处理的特性,又加上非常复杂,因而对许多企业来说毫无吸引力。由于速度快,Spark要自然得多,对程序员来说很方便。Spark会给Hadoop注入活力;2016年,基于Hadoop的项目十之八九会是与Spark有关的项目。”
25.云厂商自己的Spark平台即服务解决方案
Snowflake Computing公司的首席执行官Bob Muglia表示,但是这并不意味着每个Spark项目会涉及Hadoop。“如今,Spark是Hadoop发行版的一部分,与Hadoop有着广泛的联系。随着Spark独自行动,建立一个独立的、有活力的生态系统,预计这种情况在2016年会发生变化。实际上,可以预计各大云计算厂商会各自的Spark平台即服务(PaaS)解决方案。我们会看到Elastic Spark吗?可能性很大。”
26.Apache Hadoop将被重置,并非丢弃
Teradata公司的企业系统总经理Dan Graham表示,企业组织会对Apache Hadoop进行重置处理。“随着Hadoop及相关开源技术跨过收集知识的早期阶段、炒作渐渐消退,企业会对部署的Hadoop按重置键、而不是丢弃,运用汲取的经验教训,尤其是治理、数据集成、安全和可靠性方面的经验教训。”
27.主数据管理(MDM)派上用场
杂物抽屉问题是Hadoop社区面临的最大挑战之一。但根本不用害怕――主数据管理(MDM)派得上用场!Reltio公司的首席执行官兼创始人Manish Sood写道:“MDM会变得无处不在。长期以来,MDM这门技术只有大公司才用得起,大公司拥有庞大的IT团队,又有硬件、软件和为期多年的实施项目所需的庞大预算。新一批数据驱动的应用程序会内置MDM作为基本要求。由于同时提供操作功能和分析功能,每个应用程序可靠的数据基础由MDM引擎来支撑。”
28.Hadoop将处于十字路口
2016年,Hadoop将处于十字路口,它会往哪个方向走?Altiscale公司的首席运营官Mike Maciag给出了他的预测。“2016年,我们会看到Hadoop行业标准得到巩固。2015年年初,我们看到开放数据平台计划(ODPi)正式启动,该计划制定了标准,为大数据生态系统的关键项目如何协同运行指明了方向。由于标准化给客户带来的好处变得更加显而易见,ODPi的成员数量在这一年翻番。我们预计,2016年Hadoop会得到更大的发展和认可,让新的技术和应用程序得以满足由ODPi制定的Hadoop生态系统标准。”
29.物联网2.0出现
Zebra Technologies公司预测,我们会看到物联网2.0出现。“物联网市场会由过去的闭源、专有的第一代解决方案,变成更成熟、基于行业标准、可灵活适应的解决方案。借助开源方法,企业组织能够从数量更多的服务提供商及其各自的API当中作一个选择。”
30.后稀缺经济(post-scarcity economy)日渐兴起
OpenText公司首席执行官Mark Barrenechea预测,物联网可能预示着后稀缺经济(post-scarcity economy)日渐兴起。他写道:“可以将算法想象成这种应用程序,对物联网及我们生活中方方面面的数十亿个互联设备生成的彼此关联的海量信息进行大数据分析。拥有数据、分析数据、改进和创新成为企业成功的关键――这一切得益于互联数字化社会。”
31.生产工作负载与分析技术充分结合
MapR Technologies公司的首席执行官John Schroeder预测,能够同时处理分析型工作负载和事务型工作负载的融合平台会迎来巨大飞跃。“2016年,由于各大领先公司获得将生产工作负载与分析技术结合起来,迅速调整,以适应客户偏好、竞争压力和商业环境所带来的好处,我们会看到融合方法成为主流方法。这种融合加快了企业组织“从数据到行动”的周期,并缩短了数据分析到业务影响之间的时间差。”
32.小众解决方案吃香
看好2016年会出现单一架构的另一个支持者是Datameer公司的首席执行官Stefan Groschupf。他写道:“某个技术类别是新类别时,会出现众多公司,各自的产品旨在为这个领域的一小部分提供解决方案。这样一来,客户只好购买多个工具,试图弄清楚如何结合使用这些工具。最后,这种方法根本行不通,客户倾向于单一厂商提供的集成产品架构――或者覆盖范围广泛的产品。2016年将标志着大数据产品开始出现这种转型。”
篇6
关键词:大数据;数据分析;数据挖掘
1综述
1.1简介
在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。
1.2需求和意义
从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。
2功能设计
2.1总体架构
本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。
2.2在线数据
在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或SparkStreaming框架进行实现。SparkStreaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。
2.3归档数据
归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。
2.4非结构化数据
通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。
2.5结构化数据
结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。本平台中主要使用HadoopImpala和SparkSQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而SparkSQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。
2.6准实时数据
通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用SparkSQL结合高速缓存Redis的技术来实现。SparkSQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。
2.7非实时数据
非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。
2.8范式化模型
范式化模型主要是针对关系型数据库设计范式,通常数据是采用第三范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。
2.9基于维度模型
维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用HadoopImpala来进行实现。Im-pala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。
3应用效果
本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。
4结语
本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。
作者:蓝科 李婧 单位:1.中国科学院成都计算机应用研究所 2.中国科学院成都文献情报中心
参考文献
篇7
大数据新机
倪敦介绍,软通动力已从传统的外包服务商转型为通过新技术创新服务的提供商。在转型创新的过程中,软通动力一直关注大数据技术,并在实践创新中发现大数据的业务价值。在倪敦看来,大数据最核心的价值在于对人们思想决策方式的改变,软通动力利用大数据技术通过数据治理水平、分析能力和可视化能力的提升创造出新的商业机遇,从而带来更多的商业价值,主要体现在三个方面。
第一是数据治理本身。软通动力可以通过整个数据链业务的咨询和开发,挖掘更多的业务价值,而数据治理与数据管理也是其未来发展方向之一。
第二是通过大数据来增强传统行业的商业决策和服务能力。软通动力在金融、保险、电力等行业积累多年的服务能力,这能帮助传统行业更好利用大数据实现创新发展。
第三是智慧业务。大数据是实现包括智慧城市、智慧企业在内的所有智慧型业务的最底层、最关键的一种技术。只有通过大数据才能让我们传统与现代整合在一起,通过不断积累、运营、分析、应用,才能让城市、让产业更加智慧。
对于大数据的技术创新,倪敦介绍,软通动力将会采取“用两条腿走路”的策略:一是重点跟踪、研究、开发具有共性的开源技术,包括底层的数据存储、分布式数据系统以及相应的检索、处理等,要与专业的论坛社区共享创新,在此基础上积累属于软通动力的创新技术和解决方案;二是强化与国际技术领先企业的合作,比如说,与IBM、微软等企业合作,学习他们的技术路线。
实干出智慧
倪敦说,空谈谈不出大数据价值,只谈顶层设计谈不出真正智慧。他介绍,软通动力的思路就是要脚踏实地地从一个个项目做起,一个领域接着一个领域,一个行业接着一个行业,在统一的运营平台上积累数据,再做关联分析,最终创造更大价值。
他详细介绍了软通动力在辽源所做的智慧业务。辽源是东北的一个能源型的三级城市,为了帮助辽源实现城市转型发展,软通动力与IBM合作,首先解决了辽源的信息产业化问题。“辽源原来是没有发展信息产业的,后来我们通过整个项目的长期合作吸引了数十家软件企业,每家企业投资几千万。在其能源开采接近尾声时,辽源成了整个吉林,甚至东北信息化的中心。我们也将在中小制造业、企业云计算中心和电子政府云服务等领域,让辽源体会到信息技术带来的价值。”
篇8
摘要:
大数据时代的来临,为城市规划编制方法带来新的突破契机,为实时动态获取城市居民生活和行为特征信息,评估和预测城市规划编制成果提供方法和技术支持。本文从大数据视角的城市规划思维方式出发,梳理了城市规划编制各阶段采用的大数据研究方法和技术,最后指出当前城市规划编制中存在的问题,以期促进大数据助推城市精准规划。
关键词:
大数据;规划编制;规划评估;数据公开与共享
0引言
受互联网普及和传感网、物联网、云计算等信息技术快速发展的影响,传统城市规划编制研究发生了很多变化,关注微观主体-城市居民对城市发展的需求成为城市规划研究的热点,而大数据方法和技术将成为支撑这一热点研究的重要手段[1-2]。发现、挖掘、处理、分析城市发展过程中获取的大数据,可以为城市规划编制提供新的思路和方法。采用大数据思维、方法和技术手段,可以精确、定量、精细化分析和研究城市问题,保障规划方案更加科学,城市基础设施、公共服务设施的布局更加合理高效,公众参与规划更加便捷直接,规划决策更加民主[3-4]。
1数据思维
方式大数据改变了人们的生活和理解世界的方式,给人们带来了思维变革,同样,大数据也给城市规划领域带来思想上的冲击,不仅改变了传统城市规划编制过程中对数据获取、分析以及挖掘的认识,也在改变规划师的思维模式。
1.1全样本思维
大数据给城市规划编制带来全样本数据,而不再仅限于传统随机样本数据。城市规划很难获取城市居民日常生活与行为信息,只能采用随机抽样、问卷调查等小样本分析方法进行估算,很难全面客观反映城市居民活动特征。随着大数据技术的广泛应用,通过获取不同出行特征:私人汽车、公共交通、自行车等定位数据,可以全面客观地掌握城市居民出行,为构建城市综合交通规划体系提供了特定区域、特定时间内的居民出行全样本信息。
1.2相关性思维
基于大数据的分析与研究不再热衷于寻找因果关系,而是寻找事物之间的相关性。相关性也许不能准确预测事件为何发生,但可以及时提醒事情正在或即将发生。如利用乡镇和街道尺度的“五普”和“六普”人口资料,可以对一定时期人口密度的空间分布变化进行考察,基于人口密度视角,根据城镇化格局的识别指标,可以分析出不同类型城镇格局的演变特征[5]。
1.3数据挖掘
思维传统数据时代由于信息量少,数据质量和精度是最为重要的指标。大数据时代由于数据量大、来源复杂、类型繁多、优劣掺杂,适当放松质量和精度,有利于获取更多的数据,进而发现数据背后所隐藏的联系和规律。通过对社交网络数据进行抓取,可以获取特定人群的粉丝、关注和好友信息,进而可以分析并构建其虚拟社交网络关系[6-7]。当然这不是要完全放弃数据质量和精度,而是适当忽略微观层面上的质量和精确,使城市规划师在宏观层面拥有更好的洞察力。
2规划编制方法
2.1数据获取途径
传统规划编制的数据类型主要为统计数据、调查访谈数据、基础地理信息数据、规划信息数据等4类,这些数据在全面性、时效性、准确性等方面存在限制。大数据时代城市规划编制中前期获取数据的来源和类型变得丰高,数据获取渠道更加通畅,数据精确性、时效性、全面性极大提高,保证了规划编制对数据的客观性和全面性的要求,为城市规划编制的动态评估提供重要可靠的参考。目前通过不同渠道和方式,可以获取以下七种类型的大数据资源,见表1。政府、行业和企业数据,可以采用申请、购买、开发网络爬虫软件等形式获取多类型共享数据、社交媒体数据以及开放数据。通过运营商、第三方平台和指定管理机构,可以获取特定地区、特定时间段内的包括GPS定位数据、手机信令数据、公共交通IC刷卡数据等在内的全样本、实时动态的居民生活和出行行为数据。
2.2数据采集分析方法
1)网络数据挖掘与分析
通过开发“网络爬虫”软件,按照一定规则,在专业网站和社交网络中自动抓取并下载与某一特定主体相关的Web网页、文档、图片、音视频等资源,并通过相应索引技术组织下载资源,以提供最后的查询服务。如通过对新浪微博上北京三家知名规划院用户的粉丝和好友数据进行挖掘,可以分析三家单位的人脉特征、组织特征和相互联系与影响的情况[8]。
2)行为数据采集与分析技术
针对居民行为活动特征进行数据采集,获取手机信令、出租车轨迹、公交IC卡刷卡等生活和行为数据,分析城市居民的行为与活动规律,进而构建居民与城市空间组织与结构之间的关系。表2是基于手机信令数据的城市规划编制研究方法,通过分析手机定位数据中包含的地理位置信息,可以获取手机用户在真实地理空间中的活动情况,并以此为研究依据,开展人群空间活动特征分析,分析不同尺度下城市建成区域使用情况,并进行规划评估分析。
3)数据分析与可视化技术
借助GIS平台的地图显示、空间分析等功能,对带有地理属性信息的多源数据进行可视化和空间分析,找出能够反映城市空间发展的规律与机制。如基于GIS平台,通过分析北京2008年连续一周的公交IC卡刷卡数据,结合2005年居民出行调查、地块级别的土地利用图,可以识别公交持卡人的居住地、就业地和通勤出行情况,进而可以评价北京市职住分离的空间差异[9]。
2.3规划编制管理方法
公众参与是城市规划编制的重要组成部分,既是公众表达对政府功能、政府与利益集团之间权利斗争的不满,也是政府兑现民主政治口号的重要手段。公众参与城市规划有助于提高城市规划决策的科学性和实施性。在现实中公众参与城市规划的效果很难达到公众期望的结果,主要体现在有效参与城市规划编制渠道不畅、传统公众参与方式效率不高、参与主体无法体现公众代表性、公众利益缺乏法制化保障等方面。为提高公众参与程度,基于PPGIS、WebGIS等技术,搭建网络公共互动平台,不仅城市管理者和规划师可以便捷、广泛地获取公众对城市发展的意见,还可以让公众了解并参与规划编制和建设的全过程,逐渐改变传统的主要由政府和专家的价值判断主导城市建设和规划格局。公参与规划编制模式也不再仅仅限于官对民和民对官的单向模式,而形成利益共同体的多方关注和介入。以武汉市为例,武汉国土资源与规划局打造“众规平台”网站,推出“环东湖路绿道规划”,通过网络建立社会公众直接参与规划编制的渠道。在“众规平台”上,公众不仅可以通过文字、图片和矢量图形的方式提交对规划项目的策划方案、建议和设计方案,更可以利用平台提供的地图服务,直接进行规划方案的标绘。此外,以社交网络、移动终端为代表的新媒体平台,也改变着公共参与城市建设规划的方式,不仅公众可以自由表达对城市发展的诉求,实现“自下而上的”公共参与,第三方组织也越来越多地通过新媒体平台,针对具体规划项目发起记录、宣传活动,进而介入公共参与。王鹏等利用社交网络、位置服务和移动终端等新媒体工具,对北京“钟鼓楼片儿区”和梅州市“梅州围龙屋”进行关注,通过新浪微博和腾讯微信平台传播和推广社会关注,通过WebGIS平台汇聚和空间数据,收集公众反馈信息,从而构建了一套完整的基于新媒体平台的城市规划社区公众参与模式[10]。
2.4规划编制评估方法
大数据时代的城市规划编制由于能够获取城市发展巨量规模的个体属性及其需求特征,因此,为实现“公共利益”导向的城市规划实施提供了基础。基于遥感影像数据,可以快速准确地把握城市空间发展现状和趋势,全面掌握城市建设用地的基本情况,为城市总体规划和分区规划的编制和修改提供科学可靠的数据支撑。以城市规划许可数据为依据,通过对比不同时序的遥感影像,结合GPS、出租车轨迹、公交刷卡等居民出行活动信息,可以有效区分城市规划边界和实际开发边界,评价城市增长边界。针对传统公共服务设施专项规划方法适合发展成熟、配套完善的老城区,指导新城规划建设针对性不强的特点,采用大数据“自下而上”的技术方法,获取新区房产注册信息、居民按月用水量、移动通信终端分布数据、交付房产竣工验收数据、历年财政统计数据等,,分析新区人口空间分布、人口流动以及住宅空置情况等信息,并以此作为杭州湾新区公共服务设施专项规划编制的依据[11]。基于大数据的规划编制评估不仅可以对规划实施效果进行评估,还可以对规划方案进行预评估。马世发等基于2005和2010年土地利用数据,构建约束性CA模型,可以对城市规划编制过程中的建设用地布局方案进行预评估,并检测城市建设用地空间布局的合理性[12]。
3问题思考
尽管基于大数据的城市规划编制研究和应用已经取得大的进展,但仍然在数据公开与共享、数据真实性以及数据安全等方面存在需要进一步思考与解决的问题。
3.1数据公开与共享
目前我国城市管理和规划行业仍然处于缺乏数据公开和共享的局面,受技术、成本、体制等因素的限制,个人、科研机构和规划编制单位很难获取所须数据,政府和大型企事业单位仍是大数据的实际拥有者和解读者。随着城市规划行业获取更多更全面的数据需求,公众了解和参与城市规划的意愿和能力日益增强,政府和专业机构需要更多地公开城市规划等相关数据以满足多方面对获取数据的强烈要求。政府部门应主动公开包括城市发展、规划信息等在内的数据,并通过城市信息平台和规划管理部门网站,建立城市规划信息与数据公开方式的平台,推动城市规划行业的数据公开。
3.2数据真实性
大数据由于获取途径不受限制,使得数据质量和可用性被极大地降低。如开放的理空间数据由于采用大众采集、上传的数据共享和更新模式,其数据质量和精度很难得以保证。手机信息自身存在不足,不仅体现在个体属性缺失、出行目的和方式缺失、漂移误差、记录缺失问题,更面临着个人隐私泄露的问题。由于大数据获取过程中无法做到“小数据”的精确性和针对性,使得基于大数据的分析方法和结果也不能完全客观地反映复杂的人类行为过程和城市的发展规律,容易导致计算和预测结果失真。
3.3数据的安全问题
规划编制所需要的基础地理信息数据、社会经济发展数据、土地利用数据、专题数据甚至是个人隐私数据等都掌握在以政府、企业、科研单位、互联网站等为代表的大数据管理者手中,如果这些信息不能被妥善保存和管理,而是被滥用,将会给社会和个人带来极大的侵害。另外如个人位置信息、出行计划、路线选择、购物清单与检索内容等大数据研究中最关心的居民日常生活联系紧密的数据,其本身并非用户的精确隐私信息,但在大量收集并被进行深入分析挖掘后,却可以轻易地泄露出个人消费习惯、出行规律、政治倾向、业务爱好等相关信息。要解决大数据安全,急需加快制定相应政策法规,推动大数据信息技术的快速发展,才能更好地解决数据安全问题。
4结束语
目前,大数据在城市规划编制研究中仍然处于探索阶段,未来以小数据方法驱动大数据质量、以专业知识驱动大数据分析、以有限方式应用大数据预测、以精细化模型研究复杂城市发展规划将是城市规划编制研究的主要方向。相信大数据在城市规划编制中将发挥更大的作用,贯穿并支撑不同层次的城市规划编制及其不同的阶段。
参考文献:
[4]党安荣,袁牧,沈振江,等.基于智慧城市和大数据的理性规划与城乡治理思考[J].建设科技,2015,(5):64-66.
[5]龙瀛.中国人口密度的时空演变与城镇化空间格局初探:2000-2010[C],城乡治理与规划改革——2014中国城市规划年会,北京:中国城市规划学会,2014.
[6]王波,甄峰,席广亮,等.基于微博用户关系的网络信息地理研究——以新浪微博为例[J].地理研究,2013,(2):380-391.
[8]茅明睿.规划师微博人脉特征分析——以北京三大规划院规划师的新浪微博为例[J].北京规划建设,2013,(5):178-180.
[9]龙瀛,崔承印,张宇,等.利用公交一卡通刷卡数据评价北京职住分离的空间差异[C].2012中国城市规划年会.北京:中国城市规划学会,2012.
[10]王鹏.新媒体与城市规划公众参与[J].上海城市规划,2014(05):21-25.
[11]田轲,林飞宏,罗双双.一次以大数据为方法的“自下而上”的规划实践——以杭州湾新区公共服务设施规划为例[C].城乡治理与规划改革//2014中国城市规划年会.北京:中国城市规划学会,2014.
篇9
企业内部和外部的利益相关者不仅要求企业提高业绩,还要求企业的业务运营更加透明化。企业需要积极、审慎地应用云计算、移动办公、大数据等技术。
关注云计算带来的
合规与安全问题
云计算已逐渐被认为是一种性价比较高的企业应用交付方式,甚至成为业务流程外包的交付方式。在云计算环境中,数据和应用与基础设施是分离的,将数据和应用迁移到云上会影响组织遵从某些法规和标准的能力。从信息安全管理和企业风险控制的角度来看,企业要想更好地利用云计算平台,必须有云的安全策略、治理策略和合规策略。
云安全需要解决很多问题。例如,如何确保本地数据中心的资源安全,如何确保向公有云迁移后的大量应用的安全,如何确保存储在多家云服务商的数据中心的数据的安全,如何保护公有云和私有云的虚拟化基础,如何确保接入云基础设施的移动设备的安全。
一旦涉及信息安全和治理,混合云环境还会带来更多的挑战。比如,如何实现多租户的隔离和共享,怎么建立科学的异常事件预警、响应机制,怎么合理进行权限设置以给用户提供有限的可见度,如何处理数据的安全和合规等问题。企业在构建基于云计算的信息系统时,最好能够将云计算整合到现有企业IT治理体系中。
应对移动办公带来的
合规挑战
移动互联网和智能终端的普及使得随时随地办公成为可能,办公设备也变得更加多种多样。这也使得BYOD(携带自己的设备办公)日益盛行。企业员工可以在任意地点登录企业邮箱,利用在线办公系统完成收发邮件、处理流程和沟通业务等操作。这不仅增加了员工工作的灵活性,还满足了员工对办公设备的个性化需求。不过对于企业来说,BYOD在降低办公设备的采购、运营成本的同时,也带来了新的IT管理难题,如面临设备归属、数据隐私、数据安全等问题。
对于企业来说,要解决由于BYOD带来的数据安全问题,行之有效的办法就是制定数据安全责任制度,采用各种控制措施将企业数据和个人数据充分隔离,并制定使用终端设备的规范。只有这样,才能真正做到既有效保护企业数据,又不侵犯员工隐私。
为了从根本上解决移动办公的安全问题,企业还需要采取以下几个措施:第一,重视对员工的教育与培训;第二,部署适用的移动设备管理(MDM)系统、企业移动管理(EMM)系统;第三,重视移动信息化治理措施的落实。
利用大数据提升GRC智能
企业在运营与管理过程中会产生大量的过程数据和信息(如文档、日志等);企业在应对日益复杂的业务环境过程中,还需要处理多种多样的数据和信息。企业运营管理所需处理的数据已经不再局限于具有静态结构和有限交互路径的数据,而是来源复杂多样的数据,其中包括社交媒体数据、电子邮件数据、传感器数据、商业应用数据、档案和文件。企业获取和分析数据的方法亟待更新。
篇10
根据国务院《关于促进大数据发展行动纲要》和国家安全监管总局《安全生产“十二五”规划》以及《“十二五”政务信息化工程建设规划》等文件精神,要通过安全生产监管信息化工程建设,提高政府监管部门、企业、社会公众及中介机构的信息支撑能力,充分利用物联网、大数据提升安全生产“大数据”分析预测能力,加强安全生产周期性、关联性等特征分析,做到检索查询即时便捷、归纳分析系统科学,实现来源可查、去向可追、责任可究、规律可循。最终为解决安全生产事故总量居高不下、重特大事故波动反复等重大社会问题提供信息化支撑保障。
大数据建设的必要性
一方面,加强安全生产大数据运用是创新安全监管监察工作的需要。目前,我国共有煤矿、非煤矿山、危险化学品、烟花爆竹、工贸企业370余万家,监管监察执法人员不足10万人,安全生产点多、线长、面广,重点行业领域安全生产问题突出。安全生产涉及危化品生产存储、特种设备、建筑施工、道路交通、电力等多个领域,安全监管力量薄弱、监管手段落后;部分重点行业领域企业忽视安全生产,安全投入少,安全管理水平较低,缺乏信息化系统和数据联网,难以有效上报数据。要充分利用信息化手段和大数据技术,彻底改变传统运动式、粗放式的监管监察执法手段和方法,提升安全监管效能。
另一方面,加强安全生产大数据运用是事故防范与预警预测的需要。由于缺少有效的分析工具,缺少对事故规律的认识,导致我国对于安全生产主要采取“事后管理”的方式,缺少事前预防。这种方式存在很大局限性,不能达到从源头上防止事故的目的。将大数据技术运用到安全生产中,通过对海量安全生产数据进行挖掘分析,探寻和查找事故发生的季节性、周期性、关联性等规律、特征,从而找出事故根源,有针对性地制定预防方案,提升源头治理能力,降低安全生产事故的发生率。
国内外现状
当前,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。很多国家通过实施大数据战略来强化本国竞争力,以美国为主的西方发达国家正在投入极大的财力、人力、物力开展大数据相关领域的研究工作,特别是在分布式大数据处理平台、数据分析和可视化等应用领域关键技术方面,开展了大量的、深入的研究工作。
国外现状
美国奥巴马政府于2012年3月宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油与矿产”,将“大数据研究”上升为国家意志,对未来的科技与经济l展必将带来深远影响。
英国政府紧随美国之后,推出一系列支持大数据发展举措。首先是给予研发资金支持。2013年1月,英国政府向航天、医药等8类高新技术领域注资6亿英镑用于研发,其中大数据技术获得1.89亿英镑的资金,是获得资金最多的领域。其次是促进政府和公共领域的大数据应用。据测算,通过合理、高效使用大数据技术,英国政府每年可节省约330亿英镑,相当于英国每人每年节省约500英镑。
法国政府为促进大数据领域的发展,将以培养新兴企业、软件制造商、工程师、信息系统设计师等为目标,开展一系列的投资计划。法国政府在其的《数字化路线图》中表示,将大力支持“大数据”在内的战略性高新技术,法国软件编辑联盟曾号召政府部门和私人企业共同合作,投入3亿欧元资金用于推动大数据领域的发展。法国政府在大数据领域的投资目的在于“通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展”。
日本政府在新一轮IT振兴计划中,把发展大数据作为国家战略的重要内容,新的ICT(信息、通信和技术三个英文单词的词头组合:Information Communication Technology,简称ICT )战略重点关注大数据应用技术。日本总务省2012年7月推出了新的综合战略“活力ICT日本”,将重点关注大数据应用,并将其作为2013年6个主要任务之一,聚焦大数据应用所需的、社会化媒体等智能技术开发,以及在新医疗技术开发、缓解交通拥堵等公共领域的应用。
国内现状
我国大数据发展的宏观政策环境不断完善。自2012年以来,科技部、发改委、工信部等部委在科技和产业化专项陆续支持了一批大数据相关项目,在推进技术研发方面取得了积极效果。2014年的《政府工作报告》明确提出,“以创新支撑和引领经济结构优化升级;设立新兴产业创业创新平台”,在新一代移动通信、集成电路、大数据等方面赶超先进,引领未来产业发展。
《安全生产法》、党的十及十八届三中、四中、五中、六中全会对新常态下安全生产工作分别提出了新的要求,为安全生产大数据发展提供了充分的政策依据。《国务院办公厅关于加强安全生产监管执法的通知》(〔2015〕20号)明确要求:“要大力提升安全生产大数据利用能力,加强安全生产周期性、关联性等特征分析,做到检索查询即时便捷、归纳分析系统科学,实现来源可查、去向可追、责任可究、规律可循。”
近年来,国家安全监管总局通过建设“金安”工程、国家安全生产应急平台、综合政务信息系统等重大政务信息化工程,初步形成了基于互联网的外网平台、物理隔离的内网平台和基于电子政务外网的专网平台(简称“三网”)及其应用系统,积累了一定规模的安全生产数据资源,但是数据可用性不高、时效性差,数据价值挖掘不充分,距离实现大数据功能还有很大差距。自2015年4月份以来,初步建成了国家安全生产大数据应用平台,具备事故分析、规律挖掘、远程巡查、舆情分析等10大功能,目前已在国家安全监管总局专网上线运行。
存在的问题
缺少数据标准规范
安全生产大数据标准规范不健全,数据不全面、质量不高、时效性差,影响了数据分析挖掘、决策支持与可视化展示等,导致大数据应用效果差。
缺少大数据分析模型
安全生产领域涉及行业广、种类多,目前初步建成的大数据应用平台仅对煤矿、危化品等部分高危行业进行了数据分析建模,但对诸如煤矿瓦斯事故、顶板和透水事故等专业分析模型尚未建立,大数据分析模型研究与建立尚处于起步阶段。
安全生产大数据建设总体框架
建设思路
安全生a大数据的建设思路主要体现为:“四个一”,即基于安全生产“一张网”采集安全生产大数据,清洗分析整合为“一张表”,通过时间空间多维度分析可视化展示为“一张图”,形成全国安全生产大数据应用和数据资源开放共享“一盘棋”。
利用云计算、大数据等最先进的技术手段归集分析各级政府部门掌握的安全生产数据和互联网数据,建立企业风险分级管控和隐患排查治理双预防机制,优化监管监察业务流程,提高各级安监部门决策效率,为加强业务监管、创新安监,提供了有力的支撑。
总体框架
安全生产大数据建设架构由“三层”组成(如图所示)。
1.基础设施层
主要包括安全生产大数据中心场地、服务器、机房及其配套设施、消防设施等。
2.数据资源层
通过整合国家安全监管总局已有安全生产事故统计报送、隐患排查治理、标准化达标、重大危险源监控等数据资源,建成安全生产企业基础信息、安全监管监察、公共服务、交换共享、辅助决策等五大数据库;对数据资源进行科学分类,建立数据资源指标体系,构建安全生产大数据挖掘分析模型,研发模拟仿真技术等,支撑大数据应用。
3.应用决策层
利用云计算和大数据分析技术,实现安全生产大数据挖掘利用,形成隐患分布分析、事故风险分析及事故预测预警等系列“一图一表”,提升事故预测预判和风险预控能力。
思考和建议
加快健全大数据标准规范
一是面向地方安全监管部门,制定《安全生产数据交换共享和平台系统整合接入规范》和《安全生产数据采集和业务系统使用制度》,明确数据采集与对接接口、数据项、资源目录体系、采集与对接方式、数据交换频率、交换共享机制等。二是面向国务院安委会有关成员单位,编制《安全生产信息共享、业务协同规范和运行机制》,明确共享数据接口、共享平台、共享协同方式及机制等,提升信息共享水平。三是面向高危行业(领域)生产经营单位,编制《生产经营单位安全生产数据采集规范》等,规范生产经营单位安全生产数据采集、上报等。
强化数据采集分析与开放服务
根据统一的数据采集标准规范,形成国家安全监管总局统一数据采集、存储、加工、分析、利用和更新的入口,逐步建设国家级安全生产大数据中心,实现对重点行业领域企业安全管理基础数据、监管监察业务数据、辅助决策数据、交换共享数据和公共服务数据集中管理和应用;建立“一数一源、一源多用”的服务模式,实现安全生产数据资源“底细清、情况明”,有效支撑业务系统开发、应用和大数据分析决策,为地方安全监管部门、安委会成员单位、生产经营单位、中介服务机构和社会公众提供个性化、多元化数据服务。
加强大数据技术平台和分析模型研究
大数据技术发展迅速,日新月异,在技术架构上根据安全生产业务特点应融合各领域大的平台技术和符合云的大布局思想,研究构建大数据技术平台。结合安全生产工作实际,研究建立图计算、碰撞关联、聚类挖掘、语义分析等大数据模型,提升大数据模型分析的科学性和准确性。