大数据时代数据的特征范文

时间:2023-12-28 17:49:29

导语:如何才能写好一篇大数据时代数据的特征,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

大数据时代数据的特征

篇1

关键词:大数据时代特征;研发大数据;分析平台;具体策略

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)27-0003-02

正是互联网技术的应用,为整个社会发展转型奠定了重要基础。尤其是在大数据应用日益成熟的今天,完善构建大数据分析平台,结合大数据分析的具体功能属性和应用价值,从而实现企业经营发展与大数据应用的体系性融入。当然,想要用好大数据平台,就必须了解大数据平台有哪些应用特征,同时也要了解其具体应用要求和内涵,从而适应大数据时代特征,为企业发展提供科学决策。

1 大数据时代特征分析

大数据时代的到来,标志着人类对计算机互联网技术的应用实现了实质性进步,与以往时代所不同的是,大数据时代具有自身特征,其主要表现为:首先,其整体数据量极大,与以往信息时代不同的是,大数据应用的前提就是收集庞大的数据信息,因此,其存储数据的计算量远超过了当前的计量,其基本上使用的都是P/E/Z做计量单位,起码存储在1000T以上,甚至高达10亿T。

其次,其特征主要表现为种类繁多、内容多样。尤其是整个大数据体系中不仅包含了各个行业的信息,同时其收集形式也极为多样,从文字、图片到音频、视频等等,基本上囊括了整个时代的各个信息链条和内涵。正是数据信息的多样化和多元化决定了我们可以通过使用大数据实现对整个数据资源的体系化认知,同时这也从根本上提升了我们对数据的处理和应用能力,使得整个数据分析更有参考价值和意义。

此外,随着当前大数据应用不断成熟,如今数据价值密度相对较低,尤其是在物联网广泛应用影响下,信息感知应用极为广泛。虽然当前大数据时代,整个数据量大,但是有价值的数据较少,其整体价值密度不大,因此如何才能有效完善数据筛选,优化其价值应用,就是当前利用大数据平台过程中所不可忽视的内容。

最后,我们应该认识到大数据时代的重要特征还表现为数据处理深度快,且对数据处理有较高的时效性要求。正是高速的数据处理速度和处理时间要求,决定了当前大数据开发应用不同于传统数据筛选应用。但是我们应该辩证看待大数据平台的优缺点,尤其是当前我们所具备的技术和设施已经无法满足海量信息数据的处理,可以说正是快速发展的时代要求决定了我们必须优化信息数据利用方式,构建完善的数据应用平台和机制。

2 当前大数据分析平台应用内涵及具体状况分析

想要对大数据分析平台应用要求进行体系化认知,就必须清楚大数据分析的定义内涵、应用过程中存在的问题和不足以及其具体的解决对策。只有对其形成体系化了解,才能从根本上服务大数据分析平台建设、应用。

2.1 大数据分析的定义

结合大数据结构复杂,数据更新速度快、价值密度低、整体数据量大等一系列特点,当前我们在应用大数据时,存在较大难度,而全面应用大数据的关键就是实施大数据分析,通过完善大数据分析的具体定义认知,从而构建合理的大数据分析平台。实际上,大数据分析指的是在数据密集的环境下,通过使用科学分析的方法,对数据应用进行重新思考,并完善构建全新数据分析应用模式。大数据分析认为其分析应用过程并非技术上的应用,而是一种具体的使用策略,其核心内涵指的是通过使用一种相对以往更有效分析方式来管理、获取海量数据的方式,并且在这一过程中获取有价值的信息。结合当前大数据应用实际状况,我们可以认为,大数据分析指的是:依据数据生成理论,通过构建大数据分析模型,从而结合集成化大数据分析平台,使用云计算技术完善分析数据资源,并且最终探究出大数据模式背后规律的过程。

2.2 大数据分析方法阐述

目前大数据分析的重要内容是可视化分析,通过集成交互可视化和自动化分析,从而提升大数据分析方法的应用效果。从大数据分析系统架构层面看,整个大数据分析具有9层架构体系,尤其是其中的复杂结构处理技术、平台应用标准规范和虚拟化接入技术以及其知识服务交易模型和大数据知识服务质量评价体系等共同组成了大数据分析服务的关键技术应用机制。在传统数据分析过程中,其更多针对的是原始数据进行抽样、过滤,并结合数据样本分析,从而探究其中存在的具体规律和特点。因此,其中最重要的特点在于通过使用复杂算法能够从体系化的数据中寻找到更多有价值的数据信息。在当前计算水平和存储能力大大提升过程中,大数据分析所面临的对象是整个动态变化的数据群体,而不是客观不变的数据样本,因此其大数据分析的应用重点从高效解决收集到的信息入手,只有提升数据运算的准确性,才能够没满足大数据分析的应用要求。

2.3 大数据分析过程中存在的问题阐述

正是因为当前大数据时代的迅猛发展,整个大数据分析过程中存在着一系列问题和不足,其大大制约了大数据分析的应用效果,其问题集中反映为:首先,想要实现精准的大数据分析,需要解决其大数据存储问题,与以往相比,大数据时代,其整体数据存储远远超过了传统数据时代,而想要实现其数据分析目的,就必须完善数据存储。而目前在大数据时代,整个数据存储并不是静态的,而是动态发展的,因此只有探索完善适应大数据存储的具体机制,才能实现其最终目的。其次,大数据质量不高,分析利用难度大。因此,需要探究增强数据可用性的方法。此外,大数据分析的核心在与数据建模。但是当前由于建模水平较差,暂时很难结合大数据时代特征,完善建模应用。最后,缺乏专业的大数据分析工具。在传统数据分析过程中,经常使用SPSS等软件进行数据分析,但是在大数据时代,缺乏能够完善有效的数据分析工具。因此,结合大数据时代特征,构建大数据分析平台,对于整个大数据时代应用发展来说,极为必要。

3 构建研发大数据分析平台的具体策略

在大数据分析过程中,最需要探究的就是其分析方法。分析方法的好坏直接关系到大数据分析应用的具体结果是否合理有效,同时也关系到其数据分析结果是否切实有用。而不同类型的大数据则需要截然不同的分析方法。而在构建大数据分析平台过程中,需要从以下方面入手:

首先,要结合大数据分析应用的具体要求,完善数据存储技术。当前增速惊人的大数据决定了我们想要实现大数据分析目的,就必须探索完善的数据存储方式。通过应用云存储技术,能够确保其存储容量以及数据整体的可用性和安全性等等,从而解决大数据分析平台的数据存储问题。而通过提升大数据分析存储技术,必然也能够有效提升其具体应用技术。同时优化数据存储,能够有效提升大数据的应用效果,实现大数据分析的良好效果。

其次,大数据分析是大数据应用的核心,而实施大数据分析模式则需要针对当前类型多样、迅速增长的信息数据进行分析,并且通过合理分析,从庞大的数据体系中寻找到有价值的信息内涵,进而为整个决策活动提供相关依据的模式。在大数据分析过程中,数据库、知识库和模拟库是整个数据分析模型构建的主要要素,通过在构建现有知识库和数据库模型基础上,进行数据分析,其得到相应结果,一方面优化模型构造,另一方面也实现对数据的具体应用。通过优化数据模型应用,能够有效提升大数据分析能力和应用实效。

最后,大数据分析系统作为当前数据平台应用的核心,其主要应用功能在于为数据挖掘应用提供完善基础,同时使用分布式存储法和并行计算体系,通过使用多重分布计算,从而实现对各类信息资源进行有效计算和分析,通过提供关联、分类、预算等一系列方法,结合各种数据挖掘分析机制的应用,从而实现整个大数据平台价值效用的体系化发挥。

4 结语

在当前互联网技术对各行各业发展的具体影响推动下,通过使用大数据技术,能够为各行业发展奠定重要基础,尤其是大数据分析的科学性,能够为企业发展提供重要决策依据。而对各企业来说,寻找大数据应用与企业自身经营的结合点,则能够从根本上提升大数据应用效率。而想要构建符合实际经营需要的大数据分析平台,就必须从大数据时代特征分析入手,通过具体了解和体系化融入,从而实现大数据分析平台的具体研发。而构建大数据分析平台将从根本上发挥大数据技术优势。

参考文献:

[1] 马新莉.面向服务的大数据分析平台解决方案[J].科技创业,2013(10):72-74.

[2] 韩晶晶.大数据时代下数据分析理念的辨析[J].管理信息,2014(5):33-35.

篇2

关键词:大数据;统计学;教学改革

中图分类号:C829.29 文献识别码:A 文章编号:1001-828X(2015)024-000-01

一、引言

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据具有以下的鲜明特点:第一个特征是数据量大。第二个特征是数据类型繁多,多类型的数据对数据的处理能力提出了更高的要求。第三个特征是数据价值密度相对较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第四个特征是处理速度快,时效性要求高,这是大数据区分于传统数据挖掘最显著的特征。

统计学专业是与数据分析处理联系最为紧密的学科之一。大数据时代的到来不仅为统计学专业的发展带来的前所未有的机遇,同时也带来了巨大挑战。传统的统计学专业已不再适应大数据时代的信息爆发式增长的要求,这就要求我们应该对统计学专业进行重新定位,并在此基础上调整相关课程,改革传统的教学手段以及完善教学评价体系,以适应大数据时代的到来。

二、统计学专业改革的建议

(一)人才培养目标的重新定位

如果说以往的统计学专业是以培养简单的“应用型”人才为目标,那么随着大数据时代的到来,社会不仅仅需要会应用基础统计知识处理相关领域的问题的单一的应用型人才,而是对人才提出了更高的要求:大数据时代下的统计学专业的人才除了应该具备基础的数据收集,处理和分析的能力之外,还应该了解相关应用领域的背景知识,而且应具备很强的自我学习能力,以适应大数据时代数据量大,总类繁多,时效性高等发展特点。因此,统计学人才培养目标应该重新作出调整,应该以培养全新的“复合型”统计人才为新的目标。

(二)课程设置的调整

随着人才培养目标的重新定位,随之而来的就是应该对不再适应时展要求的课程进行必要的调整。

首先,大数据的分析和处理与以往的经典分析方法有很大不同,以往的统计分析方法主要是建立在抽样基础之上,而大数据时代信息处理迅速,信息获得途径广泛,而且信息价值密度低,这就要求数据处理时,可以以全体作为样本,而不是进行抽样;分析时必须考虑所有数据而不是剔除所谓的异常数据。因此,以往的经典统计分析方法已不再适应大数据的处理和分析,必须适当的调整经典分析方法的课程设置,增加新的适用于大数据分析的课程。

其次,随着数据量的爆发式增长,所有的统计工作对计算机的依赖程度越来越高,这就要求统计学专业的学生不仅掌握统计学专业的基础知识,同时应该熟练掌握计算机专业知识相关知识,因此,在课程安排时,应注意计算机相关课程的适当增加。

基于上述原因,可以考虑增加如下课程:机器学习,模拟算法,数据挖掘,R语言软件分析等课程,同时适当降低传统分析方法课程的学时比重。此外,为了使学生能够对相关应用领域的背景知识有所了解,可适当增设与应用领域相关的通识课程。

(三)教学模式与手段的创新

以往的教学模式,通常是以课堂教学,掌握书本经典理论为主。虽然,传统教学手段有着学生理论基础扎实等诸多优点,但是同时也存才学生过于偏重理论知识的掌握,动手能力不足,理论与实践脱节等缺点。随着社会的发展,尤其统计学专业自身具有鲜明的应用专业特点。只采用传统的教学模式和手段显然不再适合大数据时代的需要;同时,随着大数据时代的到来,多媒体手段日益丰富多彩,为传统教学的创新提供了必要的支持。因此,为了适应大数据时代人才的要求,必须改革传统的教学手段和模式,在传统教学基础上,加大实验教学的比重,在传统教学外,增加社会实践环节,引入微课慕课,翻转课堂等全新教学模式,以提高学生的学习兴趣,锻炼学生理论应用于实践的能力,从而为以后使用大数据时代的工作打下坚实的基础。

(四)教学评价体系的完善

传统的教学评价体系,通常是采用书面考核的方式对学生的学习进行评价,随着时代的发着,单纯的笔试评价不足以衡量学生的全面能力,最后导致出现高分低能的情况的出现。

为了适应大数据时代对人才多方面能力的需求,必须对传统的考核评价体系做出适当的调整,以评价学生的多方面能力,尤其是动手能力,学习能力和应用相关理论处理实际问题的能力。具体可以采用多种考核方法相结合的方式。如:增加平时的考核力度,增加实践项目的考核,通过布置适当的项目论文,采用答辩的形式,以锻炼学生适应以后工作,独立分析解决问题的能力。

此外,传统教学评价体系通常是单方面的,只有对学生成绩的评价,为了适应大数据时代的到来,全面提高教学质量,可采取双向教学评价体系,如:增加学生对教学环节的评价体系。以及教师间同行间的评价体系等。

篇3

“用手机上网,搜索简单的四个汉字,可能就需要消耗60个15瓦灯泡的能量。数据的产生是需要用电的。在云时代,一个数据中心所要耗费的能量是惊人的。”这是记者在在日前召开的2013施耐德电气云计算数据中心创新峰会上听到的一个观点,由此产生的一个问题摆在我们面前:云时代数据中心应该如何进行能效管理?

能量的逻辑

施耐德电气全球高级副总裁、APC大中华区总裁黄陈宏指出:“我们正处在一个‘大数据’引领的智慧科技时代。‘快速化’、‘大量化’和‘多样化’作为‘大数据’的显著特征,从部署速度的实时性,部署量级的规模化和全方位的智能化管理方面对数据中心提出了新的要求。在如今这个以“泽”(Zettabytes)为衡量数据量的时代,随着数据量的爆发式增长,大型、超大型数据中心的可扩展性也越来越受到关注。”

有数据显示,在2013年,全球有50%的数据中心迈向云计算。云时代大数据的特征,也使得未来数据中心的规模过去不可同日而语。施耐德电气IT事业部大中华区副总裁、数据中心业务总经理曲颖告诉我们,过去一个银行的数据中心约在500到几千平方米左右,但是现在,“我们接触到的越来越多的银行,都在规划建设5000到20000平方米的数据中心。据统计,一个20000平方米的数据中心,一年需要耗费20兆瓦的电量。现在有越来越多的万米数据中心建设在中国的北方地区,比如,这是一个应时而生的变化。”

对于整个行业而言,如何在云时代数据中心的规划设计、建设运行中更多地节约能效,积极地面对能源的消耗和碳排放的控制,对于这些数据中心的所有者而言,既是一个未来发展的趋势,也会是要面对的一个巨大挑战。

一个大型数据中心在规划建设之始,居然也要“看风水”。在北京建数据中心,东北风和西北风吹来的方向,决定了数据中心窗户的朝向。因为要对一个数据中心进行能效管理的话,首先就要尽可能地利用自然冷却,以减少空调所带来的耗电量。所谓“风水”,就是在规划数据中心之初,把是否能够最大程度利用地理条件带来的便利放在首要位置上考虑。

曲颖说:“在数据中心里,我们不讲节能,而讲能效。因为能量是有逻辑的,当我们把能源的逻辑理顺,能源效率得到提高后,不仅达到了节能的目的,还使数据中心变得更可靠、更优化了。”

数据中心基因的作用

大数据时代,数据库的内容不仅海量,而且结构也发生了极大变化。大量非结构化数据的涌入,不仅对数据中心基础设施带来压力,也使数据中心管理平台从“设备级监控”、“被动级管理”、“主动级管理”、“自动化管理”逐步向“智能化管理”迈进。同时,数据中心的规模也在不断地扩大,可能是几千平米。但是现在,越来越多的数据中心已经突破了一万,甚至几万平方米。这在能效管理与建设规划方面都提出了更高的要求。

黄陈宏进一步提出数据中心的“基因”一说,他认为数据中心拥有业务基因和技术基因,“要让我们的数据中心能够跟上云时代的发展,我们必需依靠数据中心的‘基因’。”

国内的通信运营商在全国有几万,甚至几十万个规模不一的基站,如果要把这些基站进行智能化整合,应该怎么做?

曲颖说:“这就要求我们对数据中心的‘基因’有着更深入的认识。如果将企业、或是一个智能机构比作成是一个生命体,那么它的特点由其基因来决定。不同的基因有不同的特征使得数据中心有着不同的特质。举个例子,如何满足客户在两周之内要完成移入一万片刀片服务器的要求,这就需要你能够掌握数据中心的基因密码,然后在此基础上实现快速重组。通信企业在并购后,存在不同组织结构下的IT设施如何进行更有效整合的问题。这对于数据中心的建设与运行,也是一个很大的课题。这个时候,只有充分了解掌握了这些IT设施的“基因”,并进行重组,才有可能达成目的,组合成一个全新模式。”

事实上,在数据中心的规划、建设过程中,也无时不刻需要考虑到“基因”问题。在能效管理环节,“基因”更是关键点。据了解,在北京上地的IBM数据中心项目中,施耐德通过重组基因的方式,复制优质基因,帮IBM实现了PUE从1.77下降到1.5以下,每年节约运行成本约100万人民币;位于北京经济技术开发区(BDA)的Telehouse北京数据中心,施耐德电气可帮助其实现高达25%的节能目标,并达到Telehouse在中国大陆地区的最低PUE值,实现最高能效水平。

“经过这样优化之后的数据中心,才有可能是最优质的、最赚钱的数据中心。”曲颖说。

软件定义数据中心

在云时代,对数据中心的设计师建设、基础设施的管理控制也有新要求,黄陈宏进一步提出:“由软件来定义数据中心会是将来的一个必然趋势。”

篇4

随着我国互联网的发展,云计算、物联网已成为耳熟能详的词汇;但是对大多数人只是听过这些词汇但是却不能理解他们的含义。大数据时代已成为一个不可阻挡的趋势,对于图书馆服务行业来说是一种机遇也是一种挑战,图书馆行业的发展应该主动面对这一现状,应该主动面对大数据时代所带来的挑战,积极应对。我们都知道现阶段数据的发展以幂指数方程的趋势发展,大数据时代将成为图书馆行业发展的核心,因为它支撑着图书馆在新时期下的发展。但是面对这一大数字时代带来挑战,应如何积极的面对,成为图书馆发展行业首要考虑的问题。本文主要针对这一问题进行讨论,望能够找到有效的解决方案,促进图书馆行业的发展。

1 什么是大数据时代

1.1 大数据时代的概念

对于很多人来说,大数据时代这一词汇是很熟悉的,但是对于它的含义确是很陌生的。大数据时代其实很难用一个完整的定义,我们通常可解释为:大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。从这大数据时代的解析我们能够看到,大数据时代不是单单的一种技术,但是各种信息的综合体,是一个巨型的资料库。

最早提出“大数据”这一词汇的是一个全球知名咨询公司麦肯锡,他表示到:数据已渗透到各个领域,成为促进社会发展的重要因素。面对这样的形式,人们加以合理的利用海量的数据资源,将会把世界的发展推向一个新纪元。

1.2 大数据时代的特点

我们由大数据的概念很容易的了解到,它是一个多种数据库的聚合体。有些人就根据大数据的概念将其特点归结为一下三点:量大、多样、实时,有人直接将这三点简单的成为3V特征(三个特征的首字母都是V开头,简称为3V)。但是我认为大数据时代的特点除了这三点外还其他的,诸如数据价值密度高、处理数据快的特点。因此大数据时代特点我们可以总结为:①数据量大,也就是说数据的体量大,对于体量的衡量我们已经不能用传统的衡量方式了。②种类的多样性,大数据库的种类包含众多的行业,多个领域,而且具有文本、图像、影视等多种样式,这一特点尤其适用于图书馆的发展;③更新速度快,也就是我们说的实时性,大数据的更新每时每刻都在发生,保证了数据的实时性。④数据的价值密度高,涉及到传输、决策、感知、控制开放式循环的大数据,大量的不相关信息对未来发展模式和趋势的可预测性分析起着至关重要的作用。⑤处理速度快,数据持续到达,数据分析要求实时处理而非批量式分析。

2 大数据时代下图书馆面临的机遇与挑战

我们由大数据时代的特点可知,随着大数据时代的发展,处理速度和更新速度使得其利用价值在不断地上升,在大时代数据对图书馆行业的发展有着很大的影响。

2.1 大数据时代下图书馆面临着挑战

在新的时代下要求图书馆服务行业要对其图书馆内部资料有一个充分的了解,而且这种了解要紧紧跟随着图书馆内部资料的更新不断改变。传统的图书馆服务行业的特点就是人工管理占很大一部分,数据更新速度差,管理效率低下,比较浪费时间;由于人们对知识的渴望,图书馆的作用越来越大;图书馆场地的局限也是一个重要的问题;大数据时代的高效性、实时性是传统的图书馆服务行业所不能比拟的,如何在大数据时代下更好的发展图书馆服务行业成为一个重要的问题。

2.2 大数据时代下图书馆面临着机遇

其实在大数据时代下图书馆的发展,机遇与挑战而言,机遇所占的比例不少于挑战的比例。大数据时代下数据形式有多样化、信息更新的实时性、快速的处理速度,大数据这些特点都将会促进者图书馆服务行业的发展,未来会成为图书馆服务行业发展的核心部分。

3 图书馆行业应该如何应对大数据时代下的影响

面对大数据时代下的机遇与挑战,图书馆服务不能坐以待毙,应该积极的面对挑战,勇于创先,实现机遇利用率的最大化。

3.1 创新图书馆管理方式,提高图书馆的智能化管理水平

传统图书馆管理模式已不能适应快速发展的社会,对于图书馆的管理,我们应该做到与时俱进。创新图书馆的管理方式是适应社会发展的必然趋势。我们可以充分利用大数据时代量大、快速、实时的特点,提高图书馆的智能化管理水平。数字化时代,文献资源等进行数字化、语义化处理是图书馆进行数据处理的主要模式,在此基础上借助网络服务,实现数据共享,从而最大程度满足用户需要。

大数据时代的到来可以快速的提升图书馆的服务水平,大数据可以以最快的速度更新图书馆的资源,并对资源进行分类,让人们根据自己的喜好可以快速的筛选出所需要的种类,节约借书人时间的同时也减少了图书馆行业的压力。

3.2 高度关注图书馆用户数据和信息

为了迎接大数据时代下挑战,要提升图书馆服务质量;我们首先要注重的就是用户的需求。我们都知道大数据内的资料很多,但不一定都是客户们需要的资源。因此我们要做到尽可能的满足用户们的需求。

做好用户们的需求我们就要做好以下几点:①根据用户们的网页访问数量,统计、整理出哪些资源是比较受欢迎的,对其M行大量的收集。②了解用户的爱好和价值取向,根据其不同的喜好可以向不同的人群进行资料的推荐。

4 总结

在大数据时代下,虽然图书馆服务行业受到了很多的挑战,但是同时也遇到了很多的机遇,我们要相信,随着图书馆服务行业的不断发展和创新,一定能跟随时代的潮流,为我们提供更优质的服务。

参考文献

[1]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆.2013(01)

篇5

关键词: 数字音乐;传播模型;大数据;云存储

0 引言

大数据时代的来临极大地改变了整个人类社会,为我们的生活带来了全方位的革新,包括传播技术和模式。作为对传播技术高度依赖的音乐产业,是率先深受大数据时代传播技术革命影响的领域之一。

音乐不仅是艺术品,也是在个层次受众中广泛传播和消费的文化消费品。因此,音乐作为一种特殊形式的商品,有着巨大的市场需求空间。在社会发展的的不同历史时期,随着技术的发展,音乐承载形式一直在进化。事实上数字音乐并不是一个新兴产物,其存在和发展已经有几十年了。但是,在大数据和云计算成为主流信息处理技术的新时代,数字音乐的传播亟待新的传播模型。

1 大数据的特征

大数据首先意味着数据量极为庞大。2011年5月麦肯锡全球研究中心将“大数据”定义为“数据的量超过典型数据库软件工具撷取、存储、管理和分析能力的数据”。这个定义还不够全面。更准确的说,大数据意味着从各个方面全方位尽可能多的收集不同的变量,用以描述人、事、物以及现象的各种特征。面对不断增长的记录这些变量的需要,撷取数据的数量也相应的快速增长,因此数据库容量越来越大,最终接近无限大。处理如此海量的数据需要新技术和模型进行存储、计算和传输,从而带给我们很多意想不到的应用。大数据的主要特征可概括为:①海量与数字化:所有的数据均以数字化的形式存在。(姚远,2013)。②云存储:通俗地说,云存储是指通过网络技术将数据存放在远端虚拟空间中。③基于数据总体的计算:传统统计学通常采用抽样统计的方法。而在大数据时代,我们是通过分析与话题相关的全部已有数据来分析事物之间的联系。④智能应用:当数据总量大到一定程度时,隐藏在数据背后的事物的其他特征就会显现出来,就可以发现事物之间更多的联系。这些发现可以衍生许多智能应用。

2 数字音乐的数据化与云存储

数字化并不意味着数据化。将一个对象数据化就是将其置身于量化形式,可以制成表格并加以分析。这与数字化大相径庭,数字化仅仅是将相似信息进行二进制编码处理供计算机处理。

从二十世纪九十年代起,人们就开始用数字化的形式记录和传播音乐作品(冯毅,2008)。但在大数据时代,仅靠对音乐内容的数字化处理方式远远不能满足有效的传播音乐需求,还需要更加便于管理和计算的传播方式,即数据化。

采用知识本体论方法将音乐作品数据化不失为一种行之有效的方法。我们在之前的研究中已经构建了音乐领域知识本体,其中定义了5个子本体描述上级概念结构,分别是音乐事件、音乐作品、音乐人物、音乐地点、音乐技术。在这些子知识本体中,通过定义子类的概念、特征以及各类别和实例之间的关系,我们建立了一个完整的系统描述音乐的各项特征。(杨立,2011)

作为新型的网络个人应用,一些数据服务供应商开始提供音乐云服务。数据服务提供商提供设备和服务,允许用户建立个人音乐库,在设备间同步更新音乐和向台式电脑、笔记本、平板、智能手机和其他的数码播放器等传递音乐。

这些音乐云偏向于私有云,主要针对个人客户。这种云存储模式对于数字音乐传播的有效性还远远不够。我们需要一个更加开放的平台和机制,允许所有在传播链上的参与者都能在版权法的保护下合法地分享他们的作品、产品和服务。

3 数字音乐传播链上的参与者

这里所说的参与者指的是在数字音乐传播链涉及的所有的个人或组织。他们共同组成了如下传播链:音乐制作者指音乐作品内容最初的创作者,包括作曲家、歌词作者和表演者。音乐要想突破时间和空间的限制进行传播,首先就需要将音乐记录下来进行处理,因此我们需要音乐内容处理者,包括:录音棚、演出机构和数据处理商。数字音乐内容供应商拥有自己特殊的传播渠道或者营销网络,通常和网络运营商或云服务提供商关系密切。他们提供在线数字音乐交易平台,在数字音乐的传播发挥着重要作用。此外,还需要云服务提供商提供包括存储、搜索、上传、分享,甚至是交易的公有或者私有数字音乐云服务。除此之外,还需要网络运营商为传播链上所有参与者提供网络连接服务。数字音乐可预装载诸如MP3播放器、手机等设备中捆绑式销售,因此这些相关硬件生产商也与数字音乐传播直接相关。传播链的终端端是数字音乐消费者,包括个人消费者、公众媒体和娱乐行业。

4 数字音乐传播模型

数字音乐传播涉及三个层次,分别是制作层、存储层和交易服务层。如图2所示。

①制作层:制作层描述数字音乐作品由最初创作到最终数据化的过程。②存储层:为了更为便利和有效的传播,数字音乐作品基本储存在云端。经过第一层次的数据化过程,数字音乐实现转化,储存在不同的云端中。③交易服务层,即为用户服务层,数字音乐交易发生在该层次。该层次可为电子商务平台,在符合版权保护的前提下,允许混合电子商务模型B2C,C2C,B2B和O2O等。

5 结语

数字音乐作为一种特殊的信息产品,消费十分广泛。不同与实物产品和虚拟产品,数字音乐介于两者之间。音乐创作过程是物理过程,但是最终制作和传播可以彻底数字化。一个适合的传播模型对整个产业的发展是大有裨益的,值得深入研究。限于篇幅,本文呈现的模型仅仅是一个框架,更多细节问题,比如技术、运作策略以及产业链等有待将进一步深入研究。

参考文献:

[1]冯毅.音乐的革命:从电子音乐到数字音乐[J].艺术评论,2008,10:59,70-74.

篇6

关键词:大数据时代;大学英语听力教学;教学改革

一、引言

当前,在全球信息化快速发展的大背景下,信息技术对教育的革命性影响日趋显著,教育大数据的研究和应用已经引起我国政府的高度重视。国务院2015年8月印发《促进大数据发展行动纲要》(国发〔2015〕50号),指出:“探索发挥大数据对变革教育方式、促进教育公平、提升教育质量的支撑作用。”[1]教育部2016年6月印发《教育信息化“十三五”规划》(教技[2016]2号),强调:“积极发挥教育大数据在教育管理平台建设和学习空间应用等方面的重要作用。”[2]这表明推动大数据在教育中的改革,已经纳入国家的发展战略,对大学英语听力教学的改革具有重大的影响。

二、大数据时代的背景

“大数据时代”概念由一家咨询公司麦肯锡提出,“大数据”主要体现在数据已经渗透到当今每一个业务,每一个行业,数据已经成为一个行业甚至一个国家的重要因素。随着互联网和信息产业的不断发展进步,海量的数据被挖掘和运用,它们构成了“大数据时代”的要素,推动着人们的生活节奏和思维方式。大数据时代的特征可以用五个V来概括:更大的数据容量(Volume)、种类的多样性(Variety)、更快的生成速度(Velocity)、更加分散的价值密度(Value)、可视化的呈现(Visualization)。[3]这些特征将给我们的社会生活及思维方式带来重大的转变,主要体现在三个方面:一是整体大于离散。海量数据总体的特性大于离散的特性;第二,混杂大于精确。大数据时代数据繁多,不能一味追求精确,要接受混杂,掌握事物总体的发展趋势;最后的特性是,关联大于因果。在大数据时代,事物之间的因果关系已不能再成为我们关注的唯一,而事物之间的相关关系才是我们最需要注重的方面。[4]在大数据时代海量数据流通且容易获取的背景下,大学英语听力教学有了一个新的平台,如何正确地使用这个大平台,促进教学改革?本文将从大数据的本质和特点,结合大学英语听力教学的现状和不足,研究在这大数据时代,大学英语听力教学应该做出怎样的变革。

三、大数据时代对传统大学英语听力教学的冲击

(一)大学英语听力教学的现状

传统的听力教学模式是训练学生对一段英语反复、机械地训练,这种训练容易造成课程乏味,学习效率极低的情况。许多教师意识到这种不足,开始尝试新的以学生为主体的教学模式。但这种模式对自制力差,不自信的学生存在不确定性,也不能保证每位学生都能在“听”和“说”这两项技能上得到有效的训练。同时这种模式也无法提供给学生课本以外的听力资源和实践机会,和随时对学生的学习特征、学习时长及频率、交互行为和作业情况等做出数据记录、分析和反馈。而这些难以满足的方面,正需要大数据时代的优越性来补充。

(二)大学英语听力教学资源的立体多元化转变

传统的大学英语听力教学,多倾向机械训练,不注重听力资源的输入多样化。这种教学方式往往是事倍功半,学生的学习主动性和听力理解应用能力未得到显著提高。大数据时代为英语听力教学提供了丰富的学习资源,拓展学生们的视野,提高学生们对听英语的积极性和对英语的兴趣。[5]拥有一个海量数据的大数据库能把数据、影音、图像等资源巧妙地与英语听力教学融合在一起,提高学生听英语的积极性。大数据时代,大学英语听力教学资源在不断丰富,从只能从书本课堂学习固定资源到收听国外纪录片,人物访谈等英语国家本土听力视频。大数据把英语听力教学与社会相结合,丰富拓展了学习手段和听力材料。大数据时代里丰富有效的学习资源极大地冲击变革着传统英语听力教学。

(三)慕课、微课、翻转课堂对传统课堂的冲击

MOOC、微课、翻转课堂是大数据变革教育的体现,这些教学平台利用海量数据将学生集合于一个课堂,其中师生间的互动,学生间的互动,学生与机器人的互动能更加频繁、有效和高效。大数据时代高效技术手段支持下的多种教学平台已经有明显的成效,且在大数据的教学平台下,学生不但是这海量数据的使用者,还是这些数据的提供者。[6]笔者2017年对本校艺术加林学学院、公管学院、食品学院和人文学院的大一和大二学生共900人,分别进行了两项问卷调查:1.教学者(你老师)是否经常还是非⁄很少使用大数据支持多媒体教学?2.学习者(你自己)对大数据支持多媒体教学十分积极还是无所谓?共获得852份有效数据。其中分析到两组数据:教学者使用两种教学模式的人数比例;以及英语学习者对两种教学模式的学习积极性比较,如表一和表二所示。表一:共852份有效数据中,反映教学者经常使用大数据支持多媒体教学的学习者为604人,约占70.90%,反映教学者非或很少使用大数据支持多媒体教学的学习者为248人,约占29.10%。问卷表明:当前英语教学中,非或较少使用大数据支持多媒体教学的教学者还占有一定比例。表二:学习者在两种教学模式下的积极性明显不同。针对经常使用大数据支持多媒体教学,十分积极的学习态度人数明显高于无所谓的学习态度人数;针对非或很少使用大数据支持多媒体教学,除去不接受的学习者750人,102名学习者中十分积极的学习态度人数明显低于无所谓的学习态度人数。可以看出:学生们对于更新鲜、更具活力的大数据支持教学模式具有更大的兴趣与学习动力。以上数据表明:大数据支持下,融合数据、影音图像等资源的线上立体化,多媒体教学无疑能为老师和学生带来更多的帮助与新鲜感。因此,推动大数据支持下的先进有活力的教学方式是大学英语教学改革所要注重的部分。

(四)英语听力教学手段的多元化转变

传统听力教学中,两周一次的听力短时训练远不能提高学生的听说应用能力。随着大数据时代的推进,学生学习英语的手段和工具日益多元化。除了登陆英语听力学习平台和网站外,各种智能手机、平板电脑等移动设备的普及,实现了学生们能在移动终端上,结合老师指导,在各种学习软件上随时随地进行英语听力训练,这种多元化的听力教学手段也成为大数据时代下的一大特色。比较常见的听力学习软件有“可可英语”“VOA每日英语”“每日英语听力”等。大数据时代,老师可以借助这些大数据平台进行网上教学,使英语听力学习不再局限于课堂,学习的时间和空间更加灵活多变。

四、大数据时代下大学英语听力教学改革的几点对策

(一)构建英语听力训练平台和英语听力评估系统

大数据时代海量数据的记录及分析能将大学英语听力教学与各方数据信息相互结合起来。为提高学生们的学习效率和积极性,需要构建一个随时随地训练学生听说的平台,和一个能够为之提供评估测定的系统。一个完善的英语听力训练平台,不但要有大量的英语听力素材,更需要提供学生模拟场景训练,比如开发学生与英语国家朋友进行网上口语聊天的软件平台,让学生们能更切实地运用所学知识,从实践中获得听说交际能力的提高。还需构建一个完善的评估系统,对学生的不足之处及时反馈建议。

(二)提高教师信息技术能力

在信息不断更新,不断填充的大数据时代,世界的变化速度之快超乎想象。这一大背景下,更需要教师们提高自身的信息技术能力,学习掌握基本的数据分析和统计软件,如Excel、SPSS、Clementine、Visio和SwiffChart软件等,以更好地记录分析学生学习行为和特征,适时进行学生英语听力能力评估和反馈。教师在教学过程中也应充分挖掘大数据平台上学生感兴趣的题材和内容数据,及时提供给学生融合社会热点的学习资源,扫清听力材料中的背景知识障碍。教师们还可以利用这些软件对学生学习过程的记录进行分析,及时调整教学模式,进一步完善大学英语听力教学系统。

五、结束语

综上所述,大数据时代的丰富资源和海量学习平台全面地改变着大学英语听力教学的学习手段和教学方式。大数据时代要求听力教学改革应该是数据驱动教学,促进大学英语听力教学手段平台多样化,教学资源多元信息化,提高教师信息技术能力。正因如此,我们需要利用好大数据时代的特点,利用这些海量的数据,完善大学英语听力教学的改革。

参考文献:

[1]国务院关于印发《促进大数据发展行动纲要》的通知.

[2]教育部关于印发《教育信息化“十三五”规划》的通知.

[3]维克托•迈尔——舍恩伯格,肯尼思•库克耶.大数据时代——生活、工作与思维的大变革[M].周涛,译.杭州:浙江人民出版社,2013:27-96.

[4]麦红宇.大学英语听力教学改革与定位[J].广西民族大学学报:哲学社会科学版,2009,(11):189-192.

篇7

关键词:陈四楼煤矿;大数据;安全管理

1大数据的概述

大数据是信息化建设发展到新高度的产物,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的特征。

2大数据在陈四楼煤矿应用于安全管理中的策略研究

煤矿安全管理作为长期以来困扰煤炭行业安全高效发展的严峻课题,改革开放以来,虽然我国煤炭百万吨死亡率已经下降到0.083,但对比国外先进国家煤矿安全管理水平仍有不小差距。煤矿大数据技术的引入为持续推动矿井安全管理注入了强大动力,并且煤矿安全生产和安全管理过程中所积累的海量数据也与大数据特性有所交集。相比传统的信息处理技术而言,大数据更符合当前信息时代数据爆炸的现状。同时大数据强调数据的快速流转与价值,提高对数据的“加工能力”,并在最短的时间内通过“加工”实现海量数据的分析处理和增值,其客观存在的依据是洞察力。随着综合信息化的高速发展,大数据势必成为矿井丰富安全管理的重要手段,是推动煤炭行业安全发展的必然之举。

3陈四楼煤矿安全管理现状、信息数据特征

3.1矿井安全管理现状

(1)近年来,矿井虽然加大了改革创新、先进生产力和自动化、智能化设备的引进力度,采掘工作面现场机械化、自动化和智能化生产水平不断提升,且技术改造持续完善,但受开采深度不断增加的影响,矿井重大致灾因素逐步凸显且种类逐渐增多,同时作为煤与瓦斯突出矿井,受其生产本质的制约,井下现场生产作业期间仍不能完全摆脱人工劳动强度大、作业环节较多、作业流程较复杂等不利因素。(2)对于煤矿安全生产事故,尤其是重特大伤亡事故是各煤矿企业谈声色变和不愿谈及的家丑,其事故相关的宝贵经验和数据也是不愿自行共享的,且就目前煤矿安全事故分析仍偏向于事后分析,未能真正有效地实现超前预警、事前防控的最佳效果,导致安全管理效能未能完全得到释放,与此同时全面有效且有深度的事故分析工具在煤矿中应用较少。(3)陈四楼煤矿作为井工煤矿,开采深度较深,且作为煤与瓦斯突出矿井,采掘工作面受瓦斯赋存异常、地质构造条件、重大灾害和开采条件复杂等多方面不利因素的影响,同时现场安全生产较难控制。

3.2陈四楼煤矿信息数据特征

(1)信息数据体量大。矿井井下现场生产是动态变化、瞬息万变的过程,期间所积累的大量数据体量是庞大而繁杂的,并且这些数据也都将作为矿井现场安全生产和日常安全动态管理重要数据。(2)信息数据多样化。矿井生产过程是实时变化的,其现场各类传感器及相关安全监测监控设备所采集和监测到的数据也同步实时更新和变化,且图像数据等半结构化和非结构化数据所占数据密度呈逐步增大趋势。(3)信息数据价值密度低。矿井在用各类安全监测监控设备及传感器在生产过程中能够实现实时同步运行,实时变化的过程中,持续不断地传输和生成大量信息数据,但所产生的这些数据和信息较从中获取的知识成反比。(4)信息数据生成和增长速度快。矿井信息综合化和自动化的联合应用,在安全生产过程中起到了至关重要的作用,也覆盖了矿井瓦斯监测等系统,通过设备实时监测产生的大量数据,并能够保持快速增长。

4大数据在陈四楼煤矿安全管理中的实施与研究

4.1大数据改变思路,全面提升安全理念

要有效解决矿井生产过程中繁杂生产系统所带来的问题和出现的异常信息,就必须转变思路,降低数据精确性需求,接受大数据时代下混杂而体量庞大的数据,获得更全面的信息数据,降低人为主观意识失误,从而指导矿井重大安全决策。

4.2大数据超前监视设备运行,提高设备运行可靠性

以往煤矿设备管理理念大都是“事后管理”,即在设备出现故障后进行应急性抢修,这种应急状态下的设备抢修既影响正规作业循环也给设备抢修过程中人的不安全行为、物的不安全状态等方面带来安全风险,埋下安全隐患。大数据为消除此风险隐患提供了坚实的基础和保障。通过大量数据的收集,并进行合理化分析、对比,并结合现场生产实际情况,实现超前预判生产过程中存在的风险和即将产生隐患问题和异常信息,确保安排检修人员在设备发生故障前进行调整和检修维护,降低设备损耗、生产影响和风险隐患,提升设备安全管理水平。

4.3大数据技术建立事故分析新方向,实现“双重预防”超前防范

运用大数据技术分析则更全面,通过收集国内外煤矿提升运输事故现场数据,包括提升机与作业现场匹配、斜巷坡挡设施设计参数、现场作业环境等数据。运用大数据分析可以深度挖掘以上3个主要因素外的相关要素,设置提升运输教学模型,指导矿井提升运输安全生产。大数据分析技术能够从更多方面考虑事故的预防举措,真正实现“双重预防”在安全管理中“防火墙”作用,具有深远的意义。

4.4大数据强化技术认知,转变管理思维

机械化、自动化、信息化和智能化建设是煤矿企业顺应时展的重要举措,陈四楼煤矿经过多年孜孜不倦的努力,矿井已与华为公司合作打造了F5G工业光环网技术,并实施取得初步成效,使矿井实现了对环境、设备和人员状态的实时感知;万兆工业环网和F5G通信技术的应用,让矿井开通了信息传输的高速公路。同时基于大数据的智能应用,积累了大量的结构化与非结构化数据,而这其中又以非结构数据占主导地位。矿井安全生产管理人员必须转变以往传统和落后的管理思维,将抽样分析向全样本数据分析蜕变,相比抽样分析而言,尽管在数据精确性上有所缺陷,但就数据分析情况而言却全面增强,并且大数据能进一步发掘不同数据之间的关联性,有效地捕捉传统分析工具所被疏漏的细枝末节,逐步降低煤矿安全管理过程中人为意识失误。

5结束语

篇8

随着科学技术的不断发展,全世界已经进入大数据时代,大数据的应用给电力系统的运营带来了极大的便利和优势,但是随之而来的就是信息安全问题。本文主要介绍了电力大数据的应用特征,电力大数据给企业带来的好处以及存在的问题,同时详细阐述了安全防护技术与管理方法,如何加强信息安全管理,加强安全防护工作,这样才可以从根本上解决电力企业的信息安全问题。

【关键词】

电力大数据;信息安全;技术

1引言

大数据技术是未来信息社会发展的一个大方向,它为人类全面、深刻地认识世界、认识自身提供了新的方式、新视角,这在此前的时代是无法办到的,大数据是未来技术发展的一片蓝海。大量的数据处理无疑给现在的信息技术提出了新的挑战,而这一问题在信息化程度不断提高的电力企业中同样正在凸显出来。随着信息技术的推进和发展,电力企业的数据也会成爆炸式增长。大数据不是洪水猛兽,而是可供利用的信息资产。如何使用好大数据,充分活化企业数据资产,更好地服务电力事业发展和广大电力客户将成为摆在电力企业面前值得思考的课题。电力行业应当在大力推广信息化建设的同时,认识到数据背后的价值,搞好数据治理,并积极投入到数据挖掘与分析运用工作中,实践大数据战略,挖掘数据价值,为电力行业发、输、配、变、用电各环节建设,以及电力营销等业务发展提供科学指导,及有效解决方案,重视提升电力行业信息化系统辅助决策能力。

2电力大数据的应用特征

大数据本身具有4个典型特征:容量巨大;数据类型多样;价值密度低;处理速度快,对此业界已基本达成共识,但还没有统一的定义。电力大数据的应用主要是以业务应用为主,实现面向典型业务场景的模式创新及应用提升。电力大数据应用于大规划,主要是针对电网趋势进行预测,通过用电量预测、空间负荷预测以及多项指标关联分析,进行综合分析,从而支持规划设计;电力大数据应用于大检修,通过视频监测变电站,准确识别多种表计、刀闸、开关与隔离开关的位置、状态或读数,利用大数据技术,智能分析视频数据,从而代替传统的传感器;电力大数据应用于大运行,通过对电网调度的电网设备台账信息、设备拓扑信息、设备遥信遥测的相关信息的历史时刻查询,预测分析未来状态,为设备状态管理提供完善建议,为电网调度提供辅助决策;电力大数据应用于大营销,拓展面向智能化、互动化的服务能力,面向用电信息采集、计量、收费和服务资源,开展用电互动服务,实时反馈用电、购电信息,例如营销微信平台、营销手机、营销支付宝等。随着居民用电信息采集的表记终端数量达到上亿只,供电电压自动采集接入电压监测点达到上万个,输变电状态监测装置接入上万个,监测数据达到上千万条,电力大数据的应用也具有数据量大、数据类型多、实时性强等大数据的典型应用特征。

3电力大数据给企业带来的好处

电力大数据属于一项综合型数据信息,涵盖了企业的生产、运营、销售与服务等多个方面。大数据在电力企业的应用,有效提高了企业工作效率,并科学判断企业运营状况和未来发展方向,从而制定并调整科学的营销政策与方针,促进电力企业朝着正确的轨道运营与发展。正是因为高效率的决策、运营与服务,降低了企业经营成本。通过大数据的分析、监测功能,企业建立起同客户间的紧密联系,实现了对客户的在线服务,全面提升了客户服务水平,从而赢得了更广阔的市场空间,为企业发展创造了预期的经济效益。

4电力大数据给信息安全带来的风险

大数据背景下,信息数据的运行主要依赖于计算机网络系统,多方数据参与各方共享统一的互联网,势必会带来信息安全问题,这主要体现在:

4.1数据运行风险

大数据系统时刻需要承担数据存储、分析与处理等工作,需要管理者适时更新技术,缓解数据处理的负担。若技术更新不及时,就可能导致数据运行风险,如:数据丢失、信息失真等。其他的运行故障,如:软硬件兼容性差、系统异常及管理人员操作失误、设备更新不及时等也可能引发数据失真。

4.2黑客攻击风险

黑客攻击问题成为大数据时代信息安全的大问题,黑客攻击通常是专业性较强、有组织、有预谋的攻击,通过窃取大数据、非法获得信息等来进行非法交易,其破坏性较大,甚至可能造成整个大数据系统的瘫痪,为电力企业带来不可估量的经济损失。

4.3电力企业隐私的泄露

电力企业引入大数据系统的同时,需要将企业信息、员工信息以及其他方面的相关信息到网络数据平台中,信息一旦进入互联网就可能面临着泄密的危险,这些数据若得不到有效管控,很容易造成信息的泄露,从而引发多方面的风险,如:非法分子利用电力企业信息、个人隐私信息等从事非法交易、谋取暴利等,无疑会为企业的发展与运营带来风险。

5信息安全防护技术措施与管理方法

5.1信息安全防护技术措施

面对大数据给电力信息安全带来的风险,电力部门必须加大风险管控力度,采用先进的技术积极规避信息安全问题,其中隐私保护技术成为一项关键技术,它包括:加密与密钥管理技术、数字签名技术、身份认证技术等,不同的隐私保护技术发挥着不同的安全保护功能,并形成了一个有机的架构系统。

5.1.1数据扰乱技术

数据扰乱技术是一项重要的隐私保护技术,它主要是通过扰乱、替换、添加随机变量等来混淆视线,替代重要的数据信息,并对应生成不确定的信息数据,再开展相关的计算操作。

5.1.2加密与密匙技术

众多的数据信息安全保护技术中,加密与密匙技术成为被认可的标准数据保护技术,此技术依托于科学的加密算法与密钥安全,能够有效确保电力数据信息的安全。

5.1.3安全多方计算技术

该技术的运行原理为:在各个参与方之间进行协作计算函数,参与方的输入信息保密,不向彼此公开。遇到需要解决的问题时,设计一个函数,相互配合计算此函数,再引入安全多方计算模块来解决问题。此技术能够发挥对数据信息的安全保护功能,防止信息泄露,其隐私保护也有级别划分。

5.1.4数字签名技术

数字签名技术,就是只有信息的发送者才能产生的别人无法伪造的一段数字串,这段数字串同时也是对信息的发送者发送信息真实性的一个有效证明,该技术可以确保信息传输的完整性。

5.1.5秘密共享技术

秘密共享,是将秘密分割存储的密码技术,目的是阻止秘密过于集中,以达到分散风险和容忍入侵的目的,该技术是信息安全和数据保密中的重要手段。

5.1.6身份认证与访问控制技术

所谓身份认证技术,就是对用户的身份信息进行验证与识别的过程,以防范非法用户的非法登录行为。最常见的身份认证技术主要包括:口令核对、识别用户生理特征等。认证成功后,再参照用户具体的身份信息、职能信息等来限制数据的访问范围。通过对各类访问的控制,最终实现对信息的安全保护目标.

5.2信息安全防护管理方法

大数据时代数据的安全防护不仅要依赖于技术,更重要的是要加强管理,具体应从风险管理系统建设、防护技术的运用和监管等做起。①创建并完善大数据信息安全管理系统。电力企业应认识到大数据安全管理工作的重要性,创建安全管理系统,培养信息技术人才,打造一支先进的信息安全管理工作队伍,及时更新大数据技术,加大平台建设力度,做好风险评估等多方面工作,打造一个标准的安全防护管理系统,发挥对信息数据的保护功能。②重视安全防护技术的研发。电力企业为了维护自身的信息安全,必须与时俱进,积极研发信息安全防护技术,加大在信息安全防护方面的投入,鼓励信息技术人员深入研究新技术,时刻保持自身信息防护技术的先进性,发挥技术措施的保护作用。③健全完善信息安全法律法规。解决数据安全的问题,需要政府加大对信息安全的重视程度,制定并实施信息安全方面的法律法规,利用法律法规来约束、控制一些不法行为,从而达到对信息安全的保护作用。

6结束语

大数据技术的深入发展与广泛运用,极大地推动着时代的发展与进步,各行各业进入信息数据新时代,大数据系统的运用有利有弊。电力行业作为关系国计民生的重要行业,需要信任并利用大数据技术,然而,信息安全问题成为时代关注的问题,应该加强数据信息安全管理,掌握先进的数据安全防护技术,提高信息防护水平,进而从整体上支持并促进电力企业的发展与进步。

作者: 单位:四川省电力公司运营监控中心

参考文献

[1]王倩,朱宏峰,刘天华.大数据安全的现状与发展[J].计算机与网络,2013(16):67~69.

篇9

早在2012年,GE就已将目光瞄准工业互联网和大数据,率先提出要依靠机器与设备间的互联互通及分析软件,打造智能机器,实现人、机器和数据的无缝协作。

同年,麦肯锡报告也揭示了一个相关事实,即在虚拟经济占据主导地位的美国,其工业界蕴含的数据总量却是最大,也最具价值。

那么如何解读工业大数据,可从产生背景、价值创造和工程实践三方面考量。

“跨界”整合数据

工业大数据已成为新一轮产业革命的重要动力。

为什么提出工业大数据,源于四个方面:一是数字化装备和产品的普及,二是装备和产品网络化联接的普及,三是企业向服务型制造的转型,四是“从摇篮到摇篮”再制造的必然要求。

无论是德国提出的“工业4.0”,还是美国定义的“工业互联网”,大数据在其中都发挥着重要作用。IBM认为,工业4.0是大数据驱动的智能制造,无数据不智能。GE表示,工业互联网最重要的就是数据分析,未来每一家工业企业也必须是一家软件企业,有了软件必然会有数据。

工业大数据是以工业、工业产品为主体,这些数据源于产品生命周期的各个环节,涵盖三个重要阶段――开发制造阶段(即 Beginning of Life )、使用维护阶段(即 Middle of Life )及回收利用阶段(即 End of Life )。其中,第一阶段和第二阶段的分离点是产品交付用户的时刻,第二阶段和第三阶段的分离点则是产品退役时刻。

在产品生命周期中,包括市场、设计、制造、服务、再利用等各个环节都会产生数据,“全”生命周期汇合起来的数据更大。当然,企业外、产业链外的“跨界”数据也是工业大数据不可忽视的重要来源。

认识工业大数据必须从信息时展变迁的视角去权衡。从传统工业IT到GE强调的OT(Operation Technology)概念,再到DT(Data Technology)时代,工业大数据实际是三流合一,整合的是IT时代信息系统中的数据、OT时代以机器为主体的数据,及DT时代网络环境下的互联网数据。

数据驱动价值创造

拉力战神――Rally Fighter这款车的诞生就是工业大数据应用的一个典型实例。这款车的制造商Local Motors是一家规模不大的网站,之所以能够生产出这样一款跑车与越野车完美融合的产品,依靠的是来自全球约三万多个研发人员提供的一万多个设计方案,从中寻找最优方案,继而生产制造。这种模式正是马云当年称之为C2B的制造模式。

这个案例可以窥得互联网时代数据的力量。

制造业采购环节的大数据应用也能够帮忙企业提升其供应链体系竞争力。以长安汽车为例,其对生产供应链的高标准建设、格把控,使其在2015年跃居中国品牌价值评价汽车行业第一名。

长安汽车总裁朱华荣在多个场合多次强调,采购工作要严格成本管控,做好资源储备,杜绝零部件保供风险。而在采购环节真正的货比三家,依靠的是数据,是来自网络渠道更广泛的数据,基于长安汽车强大的云计算平台操作控件。

运行大数据的应用也已有了成功实例。澳大利亚力拓集团通过持续监测位于澳大利亚、蒙古和美国矿井,集成20个系统进行专业分析,同时通过管理实验数据、操作日志、控制系统、视频数据以及维护日志,获得大量数据。这些运行数据可用于优化矿石筛分过程,提高铜矿和金矿产量;识别异常情况,辅助现场决策;加快物流效率,减少成本损失。每年可为一个矿井带来一百万美元以上的年收益。

工况大数据实践

目前,我国在装备工况大数据平台应用方面已经初有成效。“十二五”期间,国内装备龙头企业已经开始建设装备工况大数据平台。随着应用的深入,需将工况数据的处理分析结果,向企业服务、制造甚至设计系统进行反馈,因此需要替换部分原有的关系数据管理系统。

与遗留系统进行集成,甚至替换“旧”系统,是工业大数据项目区别于互联网大数据项目的重要内容,因为互联网业务往往是“全新的”。在具体实践中,我们形成了 “ 四阶段 ” 切换方案――即切入准备、写入接口切换、查询接口切换、原数据库切出。

以三一工业大数据平台为例,我们现已真正解决了生产系统与其他业务系统的关联和切换问题。目前,有将近二十万台设备(六万台活跃设备)已实现接入,其监控数据都可传到我们的工况大数据平台上来。

在得到工况数据以后,首先我们可对装备运营进行监管,不同于传统的运营监管,在大数据技术支持下,运营是成套设备互相协同的运营,例如:以搅拌站为例,通过收集位置数据、油位数据可以对搅拌车运输的过程进行优化调度,从而避免拥堵、减少等待、降低能耗。

再举个例子,我们知道液压系统是工程机械的核心系统之一,导致故障的原因很多,如密封套腐蚀、内壁刮花、密封环损坏,阀块受损等。有了工况大数据就可以寻找更深层次的原因。

我们可以通过大规模比对开工指标,从典型取值、波动幅度、回传密度多个维度进行分析,自动搜索推荐与故障车辆关系密切的特征工况,发现这些故障车辆的每分钟换向次数在变化幅度上高度相关。

再通过引入互联网上的行政区划数据和历年高铁建设数据(企业外部数据),可以得出这样一个结论:这些典型故障均发生在2012年~2013年期间在建重大工程“杭深高铁”沿线,这为我们寻找更深层次的原因提供了重要线索。此外,通过大规模工况数据我们还可透视宏观装备应用情况,根据这些信息进行易损配件需求的预测,优化调配我们的服务资源。当然,装备开工情况,也反映了各地区宏观经济情况。

总之,工业大数据是推动工业产品创新的重要途径,在我国工业大数据刚刚起步阶段,需冷静思考,坚持应用驱动,迈向中国制造强国之路。

相关链接

工业大数据不是“交钥匙”工程

王建民指出,目前工业大数据不存在“交钥匙”工程,原因如下所述。

篇10

2015年9月5日,《国务院关于印发促进大数据发展行动纲要的通知》正式,在全社会引起广泛影响。在此前后,社会上的大数据浪潮汹涌澎湃,推动和裹挟着每一个行业、部门和企业。一些单位和部门急于“抢占大数据制高点”,纷纷出台了一系列政策、措施、机构和项目;气象部门也未能例外,以气象大数据为名上项目、搞工程的苗头已经出现。如何认识大数据,大数据是否适用于气象部门,以及适用于哪些领域,是气象部门决策机构需要思考、分析和综合归纳的问题,因为这些问题的厘清有助于尽可能避免工作中的盲目性并减少失误。

(一) 大数据时代的背景

所谓“大数据时代”的到来,是水到渠成的必然结果,归纳起来有以下几个方面:

1. 数据源泛在化

移动智能设备、可穿戴设备、互联网应用等设备和系统应用的普及,使得数据的采集不再停留在专业部门的业务系统范畴:手机、身份证、交通卡、银行卡、门禁卡、网上查询、网上聊天、网购、网游、GPS定位、视频监控、ETC等一切智能设备都是数据设备,只要人迹所至,就有数据产生。较之上世纪,数据源已极大地泛在化了。

2. 网络广泛连接

在数据源极大泛在化的同时,互联网、移动互联网及物联网将所有数据源连接在一起,人类历史上首次实现了人与人、人与物、物与物之间广泛的连接和自由交换数据。从而将单台设备的数据能力升级到全球网的层次上,极大地提升了系统的智能潜力。梅特卡夫定律指出:“网络的价值与参与者的平方成正比”,网络的广泛连接极大增加了互联网的应用价值,其中包括全社会数据利用能力的增加,以及提高生产力机会的增加。

3. 软件的普及和智能化

软件是人类知识和智慧的外在形态和应用载体,软件将硬件设备、网络资源、传感器、控制器与数据组织成为能够实现目标的智能系统,软件是智能系统的灵魂,也是大数据应用的核心。数据只有在被处理和应用之时,方才成其为资源,否则只能是垃圾;所拥有数据是废是宝,最终由软件的能力决定。

4. 生态环境的形成

“四个无处不在”以及数据源的泛在化,体现了包括传感器、智能终端、高速网络、移动互联网、云平台、大数据处理技术、地理系统技术等多种信息技术共生的新生态环境,所有这一切构成了大数据生长的肥沃土壤。这些基础技术的出现和普及应用为新技术、新应用的集成创新提供了良好的机会。大数据时代是数据大爆发的时代,也是智能系统大爆发的时代。

5. 互联网巨头的推动

互联网将所有数据源连接在一起,网上业务量的激增导致互联网企业的业务数据呈指数倍激增,使得那些成功的互联网企业在迅速成为互联网巨头(如:谷歌、亚马逊、百度、阿里、腾讯等)的同时,其原有的数据存储系统也被一一撑爆,以至于这些互联网巨头们始终在马不停蹄地疯狂扩充自身的存储和处理能力。面对这些每天都在剜心割肉地消耗着不菲的维护资金的庞大业务数据,如何将其进一步变现,以变废为宝、变闲为宝,发掘这些业务数据在业务应用之外的新的价值,便成为这些互联网巨头们迫切需要解决的新课题――此即为何大数据概念的出现以及大数据技术的发展均来自互联网巨头及业务的推动的主要原因。抛开商业目的,互联网巨头们对大数据技术及应用的推动,客观上改变了人们从数据中获取信息的理念,促成了大数据应用理念的革命。

(二) 观察大数据的视角

大数据时代是信息技术发展的必然结果,它的到来不可抗拒。现象的出现和应用的需要,必然导致理论的产生。而大数据理论的主要基础,是考察该事物的视角。

1. 提取和应用信息的视角(关注于数据处理理念和方法的改变)

从数据本身的角度出发考察大数据,是大数据浪潮发端时最初的公认视角。其最具代表性的理念更新当属《大数据时代》一书的作者迈尔.舍恩伯格,该作者将大数据理念的精髓概括为三点:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。作者在书中雄辩滔滔地论述此三味真火的背后,有其内心深处对世界本质的认识做支撑。但无论如何,作者对大数据应用归纳的新理念,对于利用大数据资源获取信息的应用提供了一种新思路,其新颖的大数据思维也为科技探索提供了一种新的模式。

《大数据时代》作者在书中关注的是如何从大数据中挖掘出更加准确和丰富的信息,以便指导和改进人们的工作、提高决策水平等等,其视角是大数据的信息提取和应用。气象部门的大数据应用既属此范围,即:从数据中提取信息供决策使用。

2. 信息和内容价值的视角(关注连接范围的是否全面)

大数据产生信息的价值并不取决于其所产自的数据集的规模大小,而在于该数据集内容的丰富与否。用一架高分辨率摄像机对准一面空白墙面连续拍摄数周,也能产生PB级的数据,但其应用价值却极低,原因很简单:虽然其体量甚大,但其中所含信息内容却极度贫乏。无人驾驶汽车的研制之所以难度甚高,除需要处理的周边环境的信息量巨大外,还在于无法全部获取周围其它行驶车辆驾驶人员当前及将要采取措施的信息。

此外,大数据的应用价值除了其内容的是否丰富以外,还取决于对本应用是否适用。阿里电商大数据可以用来分析宏观经济形势,却无法用来分析火星地表是否存在液态水,因为这些大数据内容虽然丰富,但却不包含任何有关火星方面的信息内容。

因此,一个应用广泛的大数据,一定是一个内容十分丰富――换句话说,就是连接面十分广泛、全面――的数据集,与体量没有必然关系。就价值而言,连接比规模更重要。

3. 行政决策和国家治理的视角(关注社会治理能力的提升)

国家宏观经济形势、百姓的消费热点、民众对某一重大事件的反应、流行疾病的爆发预警乃至反恐维稳的目标锁定等等,这些涉及政府行政决策的信息,以及这些信息的全面、准确和及时,都是政府在国家治理层面迫切需要的。虽然这些信息大多也有一定的正规获取渠道(甚至设有专业部门负责),但种种原因导致了这些渠道所采集和汇集的信息往往或不精细、或不准确、或不完整、或不及时,使得国家行政决策因之而难以达到预期效果。改造完善这些渠道需要耗费大量成本和时间,于是在现有的、沉睡在各部门和企业系统中的业务数据中提取相关信息,以弥补现有信息渠道的各种不足,便成为信息获取的新途径和新思路。从目前业界所热传的所有大数据应用成功案例看,绝大部分属于人文社会领域,从一个侧面印证了大数据对于改善国家宏观治理的重要意义。有效开发互联网大数据应用,可以显著提升政府的国家治理能力和决策的科学性,这是许多国家政府和智库的共识。因此,不少发达国家纷纷制订本国的国家大数据战略,我国也不例外。

4. 简单的事实:所有大数据应用成果都是业务数据的副产品

分析目前已有的大数据应用成功案例,可以发现一个事实:所有大数据应用的数据源,都来自于非专属于本应用目标的业务数据。换言之,所有大数据应用的数据来源,都不是专为本应用而特设的:啤酒和婴儿尿布的关联关系产自于对沃尔玛超市结算柜台的货品销售日志分析;阿里巴巴对2008年全球宏观经济形势的准确预测来源于对淘宝网采购单数量、规模和内容的变化、以及变化的地理分布特征分析;美国国家安全部门对的锁定,相当部分来自于对互联网巨头所掌握的电邮的内容分析,等等。原因很简单,由于成本或难度太高,人们不可能为了某项大数据应用而专门去采集原始数据。大数据应用大多只能使用那些已经存在的、非为本应用所特设的业务系统所积累的数据资源,且收集和维护这些数据的成本是由这些业务系统所属单位承担的。因此,大数据应用是业务数据的副产品。

盖缘于此,大数据应用的数据源(即:合适的业务数据)的寻找,本身就是一个难题。

(三) 大数据的辨识

1. 从应用的视角观察大数据

数据是服务于应用的,大数据也不例外。

当一个新的应用出现,现有业务数据无法满足其数据需求时,必须寻找新的数据源。在寻找过程中,如果自行采集数据能够满足需求,且成本能够接受,则采取该方式是最好的选择,因为采集的过程和方法受需求者控制,所采集的数据最接近需求(如:十一五、十二五气象部门建设的全国天气雷达站网及遍布全国所有乡镇的地面自动气象站等)。而当自行采集的成本过于昂贵、以致无法承受时,选用替代数据便是将工作继续进行下去的唯一选择了。以往信息相对贫乏的年代,可供选择的合适的替代数据不多,许多工作因之而无法开展。互联网时代信息量暴增,替代数据的选择范围有了很大改善,使得许多过去无法开展的工作,现在有可能开展起来了。然而,由于这些替代数据自身不是因本需求而产生的,故不可避免地存在诸如:体量虽大但针对本需求所需的信息稀薄,信息质量不高、故难以得到确切结论,许多现象和结论难以解释等痼疾。于是,“是全体数据而不是样本数据、是模糊结论而不是精确结论、是相关关系而不是因果关系”的大数据的理念和方法由此产生。

从应用的角度评价大数据,可以得出以下结论:

虽然就数据血统而言,大数据在实际应用中往往不属于专为本应用采集的血统纯正的数据,但它的存在和被使用却是使得众多创新应用得以实现。因此大数据是资源。

当今新的时代已经进入信息经济和知识经济的新时代,这是一个以信息和知识为基础的经济,是一个在更大程度上依赖于在生产、分配和使用等各个环节中知识和信息所作贡献的新的经济。因此大数据是新的生产力要素。

2. 大数据的可能与不能

大数据可能提供有价值的参考信息,包括:

大数据可能为政府的科学决策提供有价值的参考信息。

大数据可能对企业的业务改进提供数据支持和信息支持。

大数据可能为一些社会科学领域的学科研究提供有价值的信息。

大数据甚至有可能对自然科学研究中的一些新的科学机理的发现提供参考信息。

与此同时,不能指望单靠大数据就能全面提高政府决策水平。因为决策依赖于多方面信息的综合,大数据只是提供信息的途径之一,仅靠它是无法解决政府决策的诸多问题的。高层决策主要面对的是诸多不确定性环境,需要广阔的视野与丰富的经验。深厚的历史背景、细微的地缘差异、复杂的宗教派系之争以及民族间的矛盾等等,这些因素交织在一起,关系复杂而头绪繁多,远非数据统计分析那样简单。大数据能够为行政决策提供一项或多项较为准确的参考信息,改善影响决策的信息的质量,但信息的综合和最终的决策必须依靠人。

其次,大数据不可能直接解决科学机理问题。从大数据“模糊而非精确”、“只求相关而非探究因果”的理念可以看出,大数据只关注于现象之间的关联性,但不探究这些关联背后的因果关系,但求知其然,而不愿(甚至不屑)探究其所以然。之所以如此,是与大数据的理论构建者所固有的对世界的认知:“混乱构成了世界的本质,也构成了人脑的本质”的哲学观所决定的。本文无意探讨哲学问题,但由此可以推断:就认识论而言,大数据属于经验主义范畴,它无法直接解决科学问题,尤其是以科学机理(即所谓因果关系)为核心的气象预报科学问题。在气象理论研究领域,大数据可能的贡献在于提供参考信息(如:具有一定关联度的气象要素组合等),以供气象科学家们分析研究。

二、气象大数据辨析

(一) 气象大数据的内涵

就数据本身而言,气象大数据是指所有与气象工作相关的数据总和;从来源渠道划分,气象大数据可分为“行业大数据”和“互联网大数据”两类。其中:

“气象行业大数据”由与气象部门各项工作相关、且产生自气象部门内部的所有数据组成,包括:由气象部门建设的、具有国内最高专业水准的气象探测体系所产生的气象专业探测数据,其它部门自行采集、通过数据共享/交换等方式汇聚到气象部门、且经过气象部门严格质量控制的气象要素探测数据,由气象业务部门和业务系统产生的各类气象服务产品数据、派生数据及中间产品数据,职能部门各管理系统(如:财务系统、人力资源系统、项目管理系统等)所产生和管理的数据,各业务和管理系统的状态数据和日志数据,等等。

“气象互联网大数据”由互联网上与气象相关的所有数据所组成,包括:移动终端搭载的气象要素传感设备的探测数据,网友随手拍并上传的天气状态照片,搜索引擎对气象相关敏感词的统计分析数据,其它所有可供气象部门业务和服务应用的互联网数据等等。

“气象行业大数据”与“气象互联网大数据”间存在很大差异,限于篇幅,难以在此做详细分析。简言之,“气象行业大数据”属于气象业务数据,其生成的直接目标是服务于气象业务和工作的,故其气象信息浓度高、各种技术指标亦最为符合气象业务和工作的各项要求。“气象互联网大数据”则不然,它不是专为气象工作而生成的,它产自于其它非气象部门的行业、企业,是为满足这些行业和企业自身业务目标而生成的。这些数据之所以被纳入“气象互联网大数据”的范围,是因为这些数据包含有与特定气象应用相关的信息内容,而这些内容是气象行业大数据所缺乏的;亦即,这些数据是为弥补气象行业大数据在内容和时空密度等方面的不足而从互联网上收集来的;故其气象信息的浓度、数据质量等参差不齐,各项技术指标也往往差强人意。即便就气象要素而言,两者之间存在的差异也是很明显的,见表1:

表1、气象行业/互联网大数据中气象要素之间的差异

从内容上划分,气象行业大数据大致有:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据、业务日志数据、设备及系统状态数据、气象管理数据等等。需要说明的是,目前对气象数据范畴的界定,只包含前四项,即:气象观测原始数据、气象观测产品数据、气象业务产品数据、气象服务产品数据。其后的业务日志数据、设备及系统状态数据、气象管理数据等尚未正式纳入气象数据的定义范围。

从性质上考察,气象行业大数据属于“气象业务数据”范畴,即:每类数据都有其特定的使用目的、使用对象及数据形态,且所有数据的初始目的都是围绕满足气象部门自身运转所特有的数据需求的。

从体量上衡量,“气象行业大数据”虽可勉强跻身大数据行列(PB级),但较之互联网公司而言,仍有至少2~4个数量级之间的差距。以目前业界现有处理技术,完全可以满足“气象行业大数据”在分析处理方面的时效要求(数值预报除外)。因此对于“气象行业大数据”而言,单纯的管理和处理技术不是问题所在。

(二) 气象大数据与预报准确率

将大数据理念和方法全面应用到气象部门,在部门内开展气象大数据工作,能否有效提高预报准确率,这是本文首先必须正面回答的问题。

1. 大数据理念和方法探究

《大数据时代》一书的作者将大数据理念的精髓概括为三点:“不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”。深究下去,不免使人产生质疑:首先,如果通过分析少量的样本数据就可以得到事物的准确本质(如:适用于数学归纳法的数据集),是否还有必要花费巨大成本去收集和处理全体数据?其次,如果能够得到准确数据或结论(如:台风路径和登陆地点、暴雨的落区),是否还有必要刻意去追求混杂不准确的数据或结论;第三,如果能够了解并掌握因果关系(如:人类活动与气候变暖之间的关系),是否还要放弃对因果关系的探寻,而只去分析相关关系?

答案显然都是否定的。

所以,不能生搬硬套大数据的理念和方法,否则可能会出现有违基本常识的举措和结果。对于大数据理念和方法,其合理的解释应该是:如果通过分析少量的样本数据无法得到事物的本质,则人们将不得不花费更多成本去搜集和处理全体数据,以求得到事物的真实本质。如果得不到准确的数据或结论,则人们将不得不接受那些差强人意的不十分准确的数据或结论。如果无法了解到事物之间的因果关系,则人们将退而求其次,通过分析相关关系来了解事物。

因此,由《大数据时代》作者所定义的大数据方法,不应该是刻意为之的,而应该是不得已而为之的:当现有的观测数据无法满足业务需求、且布设新的探测设备代价太高或无法布设时,只能寻找其它代用数据,以弥补现有观测数据的某些不足。当无法做出准确预报时,概率预报是退而求其次的预报方法。当气候变化规律目前无法完全掌握时,气候统计预测方法便是填补气候预测方法空白的可接受的选择之一了,如此等等。

2. 观测数据和科学研究是气象学科的主要支撑

上世纪二、三十年代,无线电通信技术引入到气象地面和高空观测信息通信,人们能够获得大范围的大气立体观测资料,在此背景下,科学家们通过对观测资料的深入分析,并根据流体力学、动力学/热力学定律等物理学原理,构建起了气象学科的基本框架,并在日后的岁月里不断丰富完善。因此,气象学科是建立在观测资料基础之上,并由气象学家们通过深入的科学分析研究,发现其中的内在机理,进而形成相应的理论体系而最终构建的。随着资料的不断丰富,科学家们不断发现着新的天气/气候变化内在科学机理,气象学科因此得以成长发展。如果没有气象科学家天才卓越的分析研究成果,气象观测资料便仅仅是一堆天气现象的记录数据。因此对于气象学科而言,观测数据/产品和科学分析研究,二者缺一不可。而在人工智能达到能够具有科学家们深厚的知识背景、敏锐的捕捉现象的本能、严谨的推演技巧和天才的综合分析判断能力之前,这些科学分析研究工作就只能由科学家们承担并完成。

气象业务的现代化水平最终体现在气象预报的准确率,所追求的恰恰就是精确和及时。如果不掌握天气变化的内在规律(即所谓因果关系),单凭现象要素之间相关性的强弱,是很难达到及时精确预报的要求的。地震前许多动物的行为举止往往异常,但动物举止异常却不见得预示着地震的即将发生。止步于天气现象与气象要素之间相关性的统计分析,不对其做进一步的机理分析研究,对气象学科而言,不是科学的态度。

3. 统计分析是气象部门常用的方法

探究科学机理是十分艰难的。在尚未掌握科学机理的情况下,统计分析是常用的预报方法,如气候领域里的气候统计预测。这种通过对长时间序列气象观测资料进行统计分析,以历史上相似天气现象所发生的天气(或气候)变化的概率为依据,进行气候预测的方法,自气候学科发端之日起,便一直在采用,已达数十年之久。因此“大数据”所推崇的统计分析方法,气象部门早在数十年前便已悉数使用,并不陌生。

但这并不意味着气象部门在该领域的科学研究止步于此。事实上,目前基于动力框架的气候数值预报模式(尤其是集合预报模式等)等方法一直在积极地试验和尝试使用之中,目的就在于探索能够有效发现气候变化规律(即所谓因果关系)的路径和方法――虽然气候统计预测方法仍在使用之中。目前数值天气预报和数值气候预测中所大量采用的集合预报方法,就是“因果”与“相关”、机理与统计之间有机结合的一种尝试。

4. 气象观测数据是所有数据中最重要的贡献者

从上文“气象大数据的内涵”中的分析可得知,与一般大数据所使用的数据源不同,气象行业大数据中的气象观测数据及产品是专门为气象预报业务工作而采集的,其时空分布、数据质量及其它各种技术指标最符合气象业务的各项要求,气象业务所需信息的浓度也最高。比较而言,气象互联网大数据的气象信息密度不高,数据质量也难以保证,其它技术指标更是难以保证满足气象应用的需求。因此,从气象行业大数据中的气象观测数据和产品产生出来的统计分析结论以及学科科学机理的发现是具有权威性的。就预报准确率而言,气象观测数据/产品是所有数据中最重要的贡献者,气象互联网大数据是它的补充而绝非替代者。

5. 大数据并非提高预报准确率的终南捷径

综上所述,气象预报对准确率永远的追求决定了,气象学科必须以探究并最终掌握大气运动的内在机理为工作目标。而大数据方法是在特定的、理想状态无法满足情况下的退而求其次的方法,即:在尚未完全掌握大气运动规律、无法通过理论推演和方程计算准确预报天气或气候的情况下,统计分析方法也许是一种补充完善的途径。在无法断定抽样分析所得结论的正确性时,分析全体数据也许是一种最终解决方案。在无法提供准确预报时,概率预报也是一种不错的选择。但是,如果通过努力有可能达到理想状态,人们便不应该盲目的生搬硬套大数据方法;因为对气象预报而言,因果关系的掌握远比相关关系的发现更为重要,后者是为前者提供线索而非取代前者的。同样,精确的分析和预报结论永远比模糊的分析和预报结论更加满足预报需求,收集和处理样本数据永远比收集和处理全体数据更为高效和节省资源。

所以,大数据理念和方法并非提高预报准确率的终南捷径。

当然,笔者并不否认大数据方法在客观预报产品解释应用方面对预报效果的改善有所帮助等正面作用,但这终究是辅、修饰性的,不是提高预报准确率的根本途径,且效果难以具体量化。

尤其需要强调的是,以在预报准确率方面赶上世界先进水平为目标的气象工作者,绝不能因拥有了大数据这种退而求其次的方法而放弃对掌握气象规律这一理想事业的追求。而且,这一追求的最终实现,只能靠观测数据和产品在时空密度和质量上的不断提高,以及科学家们辛勤的分析研究。由于就数据而言,对提高预报准确率贡献价值最高的仍然是气象观测数据及产品,因此研制出高质量、高时空密度的气象观测产品数据,便仍将是提高预报准确率以及气象科学研究最重要的基础性工作。至于科学研究工作,没有捷径可走,在这里“工匠精神”永远不会过时。

(三) 气象大数据的价值分析

上文“气象大数据与预报准确率”的分析并非意味着大数据在气象部门无所作为,而只是想说明,大数据并非包治百病的灵丹妙药,而是一个宏观上可在全社会产生巨大正面效益、但也存在一些效益不甚显著区域的、实实在在的思维理念和工作方法。说到底,气象部门之所以引进大数据理念和方法,并非为了大数据而大数据,而是为了解决实际工作中存在的问题。因此,气象大数据必须以业务和工作需求为引领。当业务或工作中出现的问题没有合适的数据信息,或者虽有数据但常规处理方法无助于问题的解决时,气象大数据也许是一种可以尝试的解决途径。通过“气象行业大数据”中的各类数据,在履行其各自的直接业务目标之外,使各类数据间彼此有机融合并协同分析,是能够发掘出新的数据价值、信息价值和知识价值,从而推动业务的发展和管理的进步,不断提高气象部门的工作品质的。气象部门内层级堆叠、工作效率不高的问题长期以来有目共睹,“智慧气象”中“精细的科学管理”,即可从打通部门藩篱、消除管理信息孤岛开始。通过管理信息的整合,优化管理流程,增强职能部门间的工作协同,提高管理效率。通过充分挖掘和发挥出管理信息应用的价值来提高管理工作效率,进而提高气象部门整体的工作效率,通过大幅提高工作效率来创造价值,等等。

“气象行业大数据”产生自气象部门,是气象部门赖以运转的最主要资源,同时也是气象部门各项工作的记录载体,在所有数据资源中,它所含有的气象信息最浓;故其应用领域首先应在于气象部门业务工作的有效运转,其次才是社会服务。“气象行业大数据”潜在价值的挖掘和发挥,也应当以提高气象部门工作能力为首要目标。用好“气象行业大数据”,是开展气象大数据工作的重要内容和检验指标。

与此同时,“气象行业大数据”与“气象互联网大数据”之间的有效融合,有可能大幅提高气象观探测的时空密度。物联网技术的有效应用,可以使“气象行业大数据”中专业气象探测的时空分辨率变得富有弹性,以更加有效地应对各种业务需求和社会服务需求。此外,高时空分辨率的探测数据也可为气象科学家发现新的大气运动机理和客观规律提供前所未有的数据资源。

就应用对象及范围而言,“气象互联网大数据”中气象要素数据的产生是与搭载传感仪器的拥有者――人――密切相关的,其所沉积下来的信息中包含有珍贵的人类活动痕迹。凡人迹所至且移动通信可覆盖之地,均有可能成为“气象互联网大数据”的数据源。虽然其传感器搭载体的形式各异,探测环境也很不规范,但也正因为其搭载体拥有者是人,可放置或出入于各种人类活动场所,从餐厅到旷野、从巷道到影院、从居所到河畔,皆可随时对各种场所进行气象基本要素探测,这为气象服务的精细化、专业化和个性化提供了“气象行业大数据”所难以甚至无法提供的现场气象要素数据。此外,利用已广泛布设的非气象监测设备所采集的信息,通过分析得出所需要的气象要素,以弥补专业气象探测设备无法获得的探测信息,是一条值得深入探索的途径,GPS/MET的发掘和广泛应用就是一个典型的成功事例。可以预期,“气象互联网大数据”与“气象行业大数据”以及其它行业大数据之间的有效融合,可在气象社会服务领域开辟出空前繁荣的气象服务新局面。

总之,数据是为应用服务的,气象大数据必须将业务和工作做为最主要的引领。气象大数据战略的首要内容,不是数据的收集、数据源的拓展以及海量数据的管理技术,而是气象工作的持续创新。在技术创新、原理创新、概念创新和思想创新的氛围中,不断涌现出新的应用,根据新应用在信息和数据需求方面的特点,充分发掘现有数据资源的价值,同时有针对性地寻找并拓展新的数据资源,合理运用大数据有关技术,处理并提炼出新的有价值的信息,以推进创新的不断实现。与此同时,由于创新本身是不同概念之间的有机连接和融合,多角度的观察会增加概念连接的机会,大数据所固有的关联分析以及由此产生的相关事物的现象信息,对开拓概念连接的范围会有所帮助,对气象部门在新形势下的创新当有所裨益。于是,初始创新启动大数据应用,大数据应用促进新的创新――这应该是气象大数据战略的基本轮廓。

三、开展气象大数据工作的前提条件

(一) 现有气象数据的梳理

长期以来,人们普遍将气象观测数据及产品、以及少量的气象服务产品做为气象数据的全部,以现代信息化理论和实践来考量,这无疑是片面的。气象部门是一个整体,其有效运转除需要观测数据外,财务、人事、绩效、资产甚至设备状态信息等数据,都是不可或缺的重要信息资源,应当无一遗漏地纳入气象数据的范畴。事实上,由于长期以来对气象数据内涵理解的局限性,使得部门内对气象数据的关注点长期聚焦在气象观测数据,相应的规范标准亦多以观测数据为对象,其它类别的数据则所涉甚少,甚至没有涉及。这种不平衡导致了这些其它类别数据在管理上的各自为政、规格上的无章可循、信息间的彼此隔离、质量上的参差不齐、以及使用上的困难无序和低效。即便是长期受到关注的气象观测数据,存在问题亦不可忽视,以数据质量为例,众所周知,在周边环境未发生非气象因素改变的情况下,探测数据的质量直接取决于传感设备自身状态的正常与否。然而到目前为止,除气象卫星和天气雷达等高端探测仪器外,其它如地面自动气象站等,没有探测设备自身状态信息的获取途径,探测设备状态的判定需要依靠其所采集的气象要素是否合理、是否超出理论极限范畴等被动式手段来完成,于是出现两个问题:其一,对于真实的极端天气事件(如局地特大暴雨)数据,有可能因其数值超出气候极值而导致数据正确性的误判;其二,故障设备从开始发生故障到被检测出来的这段时间难以确定,从而导致这段时间内观测数据的质量无法保证。由此亦可推论,探测设备状态信息是相当重要的业务数据,但遗憾的是,该类数据至今既无相关标准,也未正式纳入气象数据的管理范畴。

需要指出的是,不少技术人士将所有气象数据纳入统一管理平台(如:Cimiss)视为气象数据治理的完成,这无疑也是片面的。事实上,如果上述诸如数据定义、数据分类/分级、数据分布、数据操作等诸多问题没有解决,气象数据没有经过科学的梳理和配置,所有气象数据在形式上的汇聚便起不到高效管理、有效应用和长期支持业务发展(包括业务变更)的作用。

(二) 气象数据的规划和治理

要搞好气象大数据,首先要管理好做为气象部门核心资源的“气象行业大数据”(亦即所谓“气象数据”)。在此,一个极为重要的基础性工作――对气象数据的全面规划和治理――是无法跨越的。

气象部门的所有各项工作中,无时无刻不充满着信息的产生、流动和使用。要使每个单位内部、单位之间、单位与外部门单位的频繁、复杂的信息流畅通,充分发挥信息资源的作用,不进行统一的、全面的规划是不可能的。气象数据规划,实质上就是气象部门的信息资源规划,是对气象部门日常运转所需要的各种信息,从采集、处理、传输到使用等生命周期各个环节的全面规划。其目的,是通过有效管理气象数据,实现气象部门内外数据流的畅通以及数据资源的有效利用,进而达到工作的流畅、业务的融合和整体的协同,从而提高气象部门的工作效率和效益。通过气象数据规划,可以梳理业务流程和管理流程,厘清信息需求、建立部门行业的信息标准和信息系统模型,并据此来继承、整合、优化、改进乃至再造业务流程及业务系统,从而积极稳步地推进气象大数据战略。该项工作的长时期缺位,已经给气象部门各项工作造成了十分被动的局面。

在这里,气象数据规划是整体梳理、谋划和设计,气象数据治理则是具体实施执行。

所谓数据治理,就是使气象数据自产生的那一刻开始,经历的采集、传输、处理、存储、操作以及质量和安全保障等生命周期诸多环节中的每一个环节,都处在一个统一、自洽、协同的规则之中,以使得气象数据这一部门和全社会宝贵资产始终处于正确有效的管理之下。换句话说,气象数据的治理就是治理气象数据的政策、方法、措施和具体落实。

贯彻气象数据治理,除先进的理念外,还需要有配套的组织架构、原则、过程和规则,以确保数据管理的各项职能得到正确的履行。

气象大数据的工作形态就是数据资源的开发利用,做为良好的数据资源开发利用的基础,数据规划是纲领,而数据治理则是贯彻数据规划的具体进程。

(三) 数据意识的逐步培育

提高全部门的数据意识,是开展气象大数据的基础。

数据是精准文化的核心,精准靠数据来表述。对创新而言,所有的成功都是小概率事件,唯有每一步都追求精确方才可能达到。同时,科学和精准使得思维逻辑得以严谨,以严谨逻辑表述的思维成果,确保了推理的可靠性,使后人可在前人思想成果的基础上进一步思考和拓展;严谨的思维成果成为可组织、可利用的资源,科学成果因之而得以积累,并最终发展成长。技术的精准和步骤的严谨使得成熟技术的品质更高,也使得这些技术得以方便地利用和重组,而成熟技术的再重组是科技创新的重要形态之一。此外,思维的严谨性还决定了人们科学研究的深度。在信息时代,鲜见有采用粗放、笼统、马虎和粗枝大叶方式能够持久成功的事例。没有数据意识就没有现代科技,在全气象部门培养数据与精准意识已是当务之急,科学与精确应当成为气象部门的工作信条和文化素养,是实现气象现代化最根本的基础条件。

(四) 必要的人才基础条件

所有的工作,都是以人的思维成果而指导的。大数据技术只是众多工具中的一类,工具没有自行主动解决问题的能力,工具不可能解决连人都没有想清楚的问题,解决问题的办法必须靠人的思维;人想清楚了,则相应的处理流程可由信息系统重复运作,以提高工作效率。如果一项工作,连人自己都还没有想清楚,则此时的大数据非但不能帮忙,反而可能会把事情搞得一团糟。因此,气象大数据应用的开展,人才条件是决定其成败的要素之一。

具体地说,实施气象大数据应用,除上述几项基础工作外,在人才队伍方面还需具备以下2个基础条件:

1. 建立起对应于大数据管理运营的数据管理中心的组织架构。没有一个相对完整和专业的数据管理团队,是难以发挥出大数据分析的功效的。

2. 建立起一支精干的数据分析团队,并拥有一个灵活适用的数据分析技术平台。

此外,开展气象大数据工作,可能会遇到许多意想不到的困难,如:算法和数据来源问题。如前所述,所有大数据应用的数据来源都是来自于互联网的替代数据,而由于数据源非针对该应用所采集,该应用所需要的内容可能同时存在于不同的数据源之中,且存在的形态和格式各异:同样是分析舆情,腾讯微信大数据和百度大数据的分析方法可能完全不同。面对不同的数据源,需要不同的信息提取算法。因此,合适的数据源和合适的分析算法,是开展气象大数据应用首先需要解决的问题。而气象部门在这方面,目前尚缺乏相应的专业人才和团队。因此,对于气象部门而言,利用他人的数据开展大数据应用,对可能面临的困难,需要做好一定的心理准备。

四、气象大数据中心建设问题

(一) 应当是气象行业大数据中心

开展气象大数据工作,基础设施环境(即:气象大数据中心)的建设问题,是本文必须正面回答的另一个问题,因为海量数据的处理需要相当规模的存储和计算资源予以支持。

上文已述,气象大数据由“行业”和“互联网”两部分来源构成。笔者认为,气象大数据中心应当是以存储管理行业大数据为主要目标,即:气象大数据中心应当是气象行业大数据中心。理由如下:

气象行业大数据中的各类数据,都是由气象部门业务或管理系统产生,以服务于气象业务或工作为首要目标的。根据属地化管理原则,规范管理这些数据,并负责这些数据的社会化共享服务,是气象部门的职责。因此气象大数据中心所管辖的数据中,必须包含气象行业大数据。同理,由于气象互联网大数据中的所有数据皆非产自气象部门,同样根据属地化管理原则,气象部门没有职责和义务存储管理这些非气象部门产生的数据。

在目前数据量急剧爆发的背景下,轻率地将体量硕大的互联网大数据整体搬移到自己的属地后再进行处理,不是明智的举动。按照业界“算法找数据”的原则,应尽可能采用诸如与数据源拥有方建立协作联盟、租用对方一定规模基础资源等方法,达到在数据源近旁完成处理工作的目的,以减少海量数据整体搬迁所造成的高昂代价,并提高工作时效。即:对于互联网大数据的应用而言,应尽可能采取“就近处理”的方法;在无法就近完成所有处理的情况下,也应尽量设法采用“提取”的方法,将有用的信息从数据源中提取回自己的属地分析处理,切不可轻易采用“数据找算法”的陈规陋习,将数据源整体复制到自己的属地,除非万不得已。这方面的工作需要慎重筹划,以免被昂贵的数据搬迁和数据更新成本所压垮。

总之,由于气象互联网大数据与气象行业大数据相比,无论在规模上,还是在管理时段上都难以较为准确地预估,将其纳入气象大数据中心的管理内容之一,会对大数据中心的设计和管理带来一系列极其复杂的不确定因素。因此,气象大数据中心在建设和使用初期,应以气象行业大数据为主要管理对象,并在气象互联网大数据的应用中尽可能避免海量数据的搬迁。与此同时,大数据中心在设计和实际操作过程中可以预留一定规模的基础资源,为在极端情况下互联网大数据的载入和处理预留一定的管理空间和能力。

综上所述,第一,管理气象行业大数据是气象大数据中心的职责。第二,对于互联网大数据而言,大数据中心既没有义务、也应尽可能避免对其进行长时间管理。所以,气象大数据中心应当是气象行业大数据中心。

(二) 气象大数据中心的形态和分布

1. 气象行业大数据中心同时应当是气象云中心

就应用效果而言,在资源充沛且数据处于规范管理的前提下,数据的集约化程度越高,应用的效果越理想。因此,气象大数据中心应当是气象数据汇聚、规范化管理且资源十分充沛的数据中心。云计算中心是大数据中心最好的物理形态,大数据中心应以云计算中心为基础平台,这在业界已形成共识,气象大数据中心也不例外。所以,气象大数据中心应当是一个组织机构概念,逻辑上相对独立,而其实际的物理基础设施应当是气象云中心,是气象云中心上的一个具体业务应用。

需要进一步说明的是,对气象大数据中心的规模而言,其中的行业数据的增长规模处在气象部门掌控之中,基本上可以预估。但如果将互联网大数据的应用场景也考虑在内,预留可充分应对极端情况下互联网数据源大举载入时的支撑资源,由于数据源对象的未知性,其相应的规模是难以预先测算的,偏大则可能导致资源的长时间闲置,偏小则可能届时无法发挥支撑作用。较为可行的解决方案之一是采用专有云形式,即:选择资源规模大、公共安全措施完备、专业水平高、服务信誉好且价格相对合理的云计算中心,在其上长期租赁相应规模的基础设施资源作为气象云的基础设施,其中气象大数据中心的资源需求规模可基本参照气象行业大数据的存储管理规模来进行预估。与此同时,与该云计算中心签订相应的服务合同,承诺在气象大数据中心遇到特殊情况(如极端情况下海量互联网数据的大批载入)时,该云中心可及时扩充气象大数据中心的基础资源租赁规模,并在应用结束后收回这些临时租赁的基础资源。

2. 大数据中心的分布

笔者于前文已讨论过,未来的气象云中心最终将以1+2或1+3等数量有限、地理分布相对合理的形式长期存在。且专有云较之私有云而言,是更为合理的气象云形态。限于篇幅,其理由不再重复阐述。

(三) 尽早开展应用研究工作

应及早开展针对互联网大数据在气象部门各领域创新应用的研究工作。目前这项工作在气象部门除个别先行单位(如公共气象服务中心)外,基本处于空白状态,是一片未开垦的处女地。尽早进行大数据基础知识和技能的储备,对工作的顺利开展有益无损。同时,应积极筹备组建相关的专业化团队,以期尽早具备如下能力:

数据资源发现能力:熟悉互联网上各种数据资源以及数据交易市场的业务动态,熟悉数据资产的价值评估,可在部门用户提出数据资源需求时,及时提供互联网数据资源的咨询服务,推荐合适的数据资源,以及资源的基本情况。

数据获取能力:具备在正常情况下,通过正规途径,以技术手段及时获取指定数据源中所有数据的能力。

数据分析能力:具备在收集互联网数据的基础上,针对应用目标以及数据源的特点,提出相应的分析模型,指导并最终完成对互联网数据的整理和分析,以完成应用目标中各项研究、评估和预测的能力。

数据算法实现:根据分析模型及数据源特点,形成数据分析处理软件,并完成数据处理。

分析平台:拥有分析模型建立、处理软件生成以及分析结果可视化展现的技术平台。

应适时成立相应机构(如:气象互联网大数据应用研究中心等),专门从事这方面的研究和应用工作。

五、稳步推进气象大数据战略

(一) 全面认识气象大数据

在积极探索创新应用的同时,应冷静分析气象大数据的特点和可能的适用范围,基本明了其能力边界,做到心中有数。既不被外界过度宣传所裹挟,也不被内部守旧力量所羁绊。积极而稳妥,慎重而不裹足不前。应当明白,目前国家所倡导的大数据战略,与其说是为了推行充分挖掘数据资源价值的工作方法,不如说是一种工作思维和工作方式的改进和补充,是一场全社会文化素养的改良和变革。通过对大数据不断深入的应用,持续改进全社会的生产质量、产品质量、服务质量和生活质量。

因此,不必过度介意气象大数据在某些特定领域内(如提高预报准确率等)作用的有限。大数据不是万能的,正如信息化不是万能的一样,不可能指望单凭推行大数据就能解决所有问题。充分利用一切可以利用的数据资源,不断创新、不断改进气象部门各项工作,倡导和发扬工匠精神,使各项工作更加科学化和精细化,就已达到了气象大数据战略的基本目标。

此外,气象大数据应当以应用为主导,以业务为主导,以改善各项工作为主导,更应该以技术、业务、服务和管理创新为主导。应当使全部门明了:开展气象大数据工作不等于在各地开展数据中心基础建设,更不等于在各地开展数据库建设。此外,开展气象大数据工作,应力求基础工作先行、专业团队建设先行和应用研究先行。

(二) 保持清醒、力戒浮躁

我国政府多年前便已开始倡导科学发展的理念,但目前全社会急于求成的心理依然非常普遍,似是而非且激动人心的宣传口号此起彼伏,反映出一些人的浮躁心态。气象大数据工作的开展,不宜采用运动的方式,而应该在充分营造创新氛围的前提下,由创新引导气象大数据的具体应用,循序渐进,待深入到一定程度后,再由大数据应用逐步推动创新,从而形成创新引导大数据应用,大数据应用进一步推动创新的彼此互动的良性循环局面。从过程上看,气象大数据的开展应当水到渠成,过度的宣传、强力的行政推动和盲目鲁莽的基础建设无异于揠苗助长,对大数据的应用发展有损无益。切勿被“抢占制高点”等宣传口号所蛊惑,在被某些善良单纯的记者以及别有用心的企业家鼓动得显然有些过热的大数据风潮中,保持头脑的冷静,力戒内心的浮躁,显得尤为可贵。

六、结语