大数据时代的定义与特点范文

时间:2023-12-28 17:49:16

导语:如何才能写好一篇大数据时代的定义与特点,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

大数据时代的定义与特点

篇1

[关键词]交通管理;智能交通;云计算;物联网;大数据

中图分类号:U12-39 文献标识码:A 文章编号:1009-914X(2017)08-0383-03

一、引言

随着科学技术的飞速发展,传统的交通管理模式和系统已无法满足经济社会的快速增长和物流需求,交通拥堵已经成为国内外所共同面临的难题。解决城市交通问题的一个重要途径――智能交通,也是未来城市交通的发展方向。当我们在逐步认识、运用云计算、物联网等技术解决该问题时,“大数据”时代已悄然来临,既宣告了一个新时代的来临,又成为了一个时代的标志。不容置疑,随着大数据时代的到来,城市智能交通也必然会产生重大变化,也将面临重要的发展机遇,智能交通产业发展也将迎来新的机遇。

二、大数据简介(图1)

随着世界各国对“大数据”关注度的提高,大数据的应用范围已不断扩大,其所蕴含的内容价值也得到进一步的开发和利用。随着互联网技术的普及和发展,信息时代的发展进步导致信息量的加速扩大,海量的、多样的信息使我们逐渐地步入了“大数据”的时代。想要在大数据中快速获得有价值的信息并对其进行有效的分析处理,就需要应用到大数据技术。

1.大数据定义(图2)

大数据时代的来临,是互联网发展到一定阶段的必然产物。随着互联网的高速发展,互联网中的信息量急剧增加,这些信息有用的部分被称为数据。当数据规模越来越大时,量变就会引起质变,大数据应运而生。如何定义大数据,可以说仁者见仁、智者见智。

IBMo出的定义:大数据,或称巨量资料,指所涉及的资料规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据概念给出的定义:大数据是一个体量特别大、类别特别大的数据集,并且无法用传统数据库工具对其内容进行抓取、管理和处理。首先,数据体量(Volumes)大,在实际应用中已形成了PB级的数据量;其次,数据类别(Variety)大,囊括了半结构化和非结构化数据。接着,数据处理速度(Velocity)快,在数据量非常庞大的情况下能够做到数据的实时处理。最后,数据真实性(Veracity)高,企业愈发需要有效的信息以确保其真实性及安全性。

研究机构给出的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

2.大数据特点

从上述定义,我们可以将大数据特点归纳为4个V(量Volume,多样Variety,价值Value,速Velocity):如图3所示:

第一,Volume数据体量巨大,从TB级别跃升到PB级别。

第二,Variety数据类型繁多,包括视频、图片、地理位置信息、传感器数据等等。

第三,Value价值密度低,应用价值高,以视频为例,连续不间断监控过程中可能有用的数据仅仅有一两秒。

第四,Velocity处理速度快,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。在交通领域,海量的数据主要包括四个类型的数据:传感器数据(位置、温度、压力、图像、速度、RFID等信息);系统数据(日志、设备记录、MIBs管理信息库等);服务数据(收费信息、上网服务及其他信息);应用数据(生成厂家、能源、交通、性能、兼容性等信息)。交通数据的类型繁多,而且体积巨大。

在以上的四个特点中,量Volume和多样Variety是因,数据类型的复杂和数据量的急剧增加决定了原有简单因果关系的应用模式对数据使用率极低,完全无法发挥数据的作用;速Velocity是过程,巨大的运算量决定了速度必须快;价值Value是最终的果。

三、大数据在城市交通管理的价值(图4)

近年来,包括互联网、物联网、云计算等信息技术在内的IT通信业迅速发展,现代信息社会已经进入了大数据时代。大数据改变的不只是人们的日常生活和工作模式、企业运作和经营模式,甚至还引起科学研究模式的根本性改变。

大数据中蕴含着大价值,大数据价值的合理共享和利用将创造巨大的财富。大数据智能分析能够给智慧城市的管理和服务系统提供新的洞察力,是提升智慧城市“智商”的关键。以大数据技术为支撑的综合智能化分析和决策系统,使智慧城市的管理系统和服务系统充分、有效、合理地发挥各自的作用,解决目前困扰各地的“信息孤岛”现象,做到信息资源的共享、智能决策的集成,实现智慧城市让城市生活更美好、更幸福的目标。

第一,大数据的虚拟性可以解决跨越行政区域的限制。

交通大数据的虚拟性,有利于其信息跨越区域管理,只要多方共同遵照相关的信息共享原则,就能在已有的行政区域下解决跨域管理问题。

篇2

关键词:大数据;统计学;数据分析;抽样理论;理论

重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].

一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.

1传统意义下的统计学

广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.

2统计学是大数据分析的核心

数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.

统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.

3统计学在大数据时代下必须改革

传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].

3.1大数据时代抽样和总体理论存在价值

传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.

3.2统计方法在大数据时代下的重构问题

在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.

3.3如何构建大数据时代下统计结果的评价标准框架

大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、精确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而精确性用抽样分布的标准差来衡量.显然,精确性是针对样本数据而言的,也就是说样本数据有精确性问题,同时也有准确性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行准确性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.

4结论

来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.

参考文献:

[1]陈冬玲,曾文.频繁模式挖掘中基于CFP的应用模型[J]沈阳大学学报(自然科学版),2015,27(4):296300.

[3]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,35(5):2528.

[5]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6):3543.

[6]覃雄派,王会举,杜小勇,等.大数据分析:Rdbms与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[7]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013(2):165171.

[8]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):1017.

篇3

【关键词】大数据分析;市场营销;影响

现阶段信息技术已经和我们的生活生产密切相关,能够进一步改善我们的生活质量,还能够满足我们对于物质的实际需求。在互联网不断发展过程中,大数据已经成为信息主要载体,在大数据分析时代,过去的市场营销模式受到了不小挑战,企业发展面临重重阻碍,如何通过良好的营销活动让企业具备更高的综合实力,这也是相关工作人员需要解决的问题。

1大数据与市场营销的定义与特点

1.1大数据的定义与特点

大数据指的就是海量数据的集合,不能通过一般数据处理软件在特定的时间和空间范围内对数据进行处理、存储和管理,只有通过更为先进的处理方式才可以应用大数据。现阶段在应用和理解大数据时往往徘徊于概念层面,并没有提出更能满足实际需求的应用方案。大数据的特点包括快速增长,数据多且繁杂,而且需要靠特殊手段去甄别信息,在海量的信息中还包括大量垃圾信息,在对大数据进行分析时,一般是通过这些手段去筛选海量信息中的有用信息,剔除垃圾信息,这样才能使数据全部结合,并通过数据信息表象得到定论,才能为之后的工作制定重要战略基础。

1.2市场营销的定义与特点

市场营销指的就是企业在进行与生产、销售相关的经营活动,而且分析数据、市场调查以及设计产品等也包括在市场营销范围内,前期工作和后期工作都是帮市场做事,目的就是让企业生产的产品能够满足市场需求,让企业营销战略能够与时展相适应,为消费者带来更加满意的产品。市场营销特点包括可调性、指导性、全局性、整体性等,需要考虑微观层面和宏观层面,还要按照时间的推移让企业能够适当调整营销策略,满足市场发展需求,通过市场营销能够让企业在内部实现明确分工,并帮助企业和市场以及社会接轨。

2大数据分析时代下市场营销方式的转变

2.1精准化营销

在大数据分析,时代企业营销管理人员能够借助浏览消费者的网页记录,以及对于不同种类产品搜索以及购买频率能够对消费者实际消费水平进行科学分析,这样能够真正明确消费者的实际消费习惯,可以充分掌握他们的消费喜好,并在此基础上对现有的营销方案进行完善,能够制定更有针对性的营销计划。不仅如此数据分析人员能够在精准化营销中采集到更多商机,并且为消费者制定更有针对性的服务,可以满足消费者多方面需求,使顾客对企业产品服务更加满意,让企业在社会上树立良好形象。

2.2预测消费行为

在应用大数据分析技术的过程中,能够让企业营销管理人员对消费者可能做出的消费行为进行分析,并且在内部系统与外部系统中可以对消费者可能转变的消费方向进行预测。在内部系统中记录着消费者的交易信息,而外部系统则是网页搜索平台,要想让市场营销活动开展的更加顺利,就离不开内部、外部系统的支持。

2.3产品交叉销售

现阶段数据挖掘技术得到了大范围应用,能够对海量数据进行有机整合,并且可以找到消费者最经常购买的商品,按照消费者特点为他们制定有针对性的营销策略,可以对现有的商品营销进行调整,与促销方式进行结合,通过交叉销售能够让企业在市场中获得更多收益。

2.4处理客户关系

通过大数据技术能够在多种客户关系中找到核心客户,并且对客户消费数据进行深度挖掘,这样能够为那些具有价值的客户带来更为满意的营销服务,可以让客户对营销方式更加认可,能够帮助企业在市场中拓宽商品营销范围,让顾客对商品以及企业有更高的忠诚度和信任度。

3大数据分析时代对市场营销的影响研究

3.1产品营销策略

不同的消费者对于消费需求也有所区别,因此企业在营销方式方面也要做出一定调整。在大数据分析时代,消费者会通过网络平台浏览产品信息来实现购买行为,对于那些更加青睐的信息会以数据形式展示给企业营销管理人员,这些工作人员可以对消费者的浏览信息进行深入研究,并且按照消费者日常消费倾向可以为他们提供更能满足实际需求的产品,这种产品营销方式才是最精准的营销,能够真正实现个性化销售。

3.2价格调整策略

在不同阶段、不同时期,企业在进行产品定价时也会有所差异,而且成本会对产品定价产生直接影响,更与市场营销方向息息相关。通过大数据分析技术,可以让消费者对企业产品有更为全面、深入的了解,可以将消费者对于产品购买信息进行收集,并且通过调整价格来让消费者对现有的价格更加满意,能够对消费者理想价格进行预估,并制定最佳定价方案,不但能够让企业在产品投资回报率上有所提高,还能够防止由于不合理定价导致客户流失。

3.3模式更新策略

随着互联网技术不断发展,给市场营销模式带来更多可能。之前的B2B、C2C模式已经不能满足企业对于未来发展的全部需求,因此在这样的的背景下急需020消费模式来取代之前的内容,这样能够使企业实现双线营销活动。在大数据分析时代中,根据双线营销模式来明确企业需要实现扇平化发展,对顾客进行精准营销,这样才能规避营销风险。

篇4

关键词:大数据时代;企业专利管理;问题;应对策略

大数据的出现改变了世界以及改变了人们生活当中的方方面面,并且为生活创造更多维度,大数据技术对于企业的专利管理也具有一定积极的意义,将和专利有关的数据进行搜集分析以及处理,可以促使企业专利管理更加完善以及企业决策更加科学,实现企业专利保护以及产品开发相互促进,为企业开发、创新产品提供重要的保障以及支持。

1 大数据的概念

关于大数据,当前并没有公认定义,很多定义基本根据大数据特点进行分析,通过对大数据特征阐述以及总结,归纳出大数据的概念。大数据概念包括狭义概念以及广义概念,其中,广义大数据不但包含大数据的技术以及应用,而且包含大数据科学以及大数据工程学等,并且可以进一步划分,分为大数据工程、大数据应用、大数据科学以及大数据技术等多个领域。狭义大数据概念,主要指大数据技术,就是从各种数据当中获取有效数据以及有信息,可以将大数据的特点总结为四点:首先,规模性,主要是指大数据的数量特别大,可以达到TB的级别,有的甚至可以到达PB的数据级别。其次,多样性,大数据种类以及形式多种多样,并且来源于各种不同领域以及获取途径更不相同。再次,高速性,大数据需要高速及时性分析,有价值数据可能很快减少甚至完全消失。最后,真实性,大数据所反映的是真实的世界,并且这些数据都是真实的记录,通过对大数据的研究以及分析,可以对未来事件进行预测,比如未来人们消费习惯以及未来经济发展趋势等。

2 大数据时代的企业专利管理特点

传统思维之下,专利管理从属于现代企业管理,并且是现代企业管理十分重要的一个部分,贯穿在产品开发、产品销售以及科学创新等多个领域。在大数据的时代,专利管理主要是指将和专利相关的数据进行搜集分析,并且融合专业管理的内容。在企业管理人才、流程以及制度的依托之下,促使产品研发、研发创新、专利保护以及相关认资讯等形成有机的互动,并且构建出属于企业的专利管理系统,从而促使专利管理和数据管理相互结合。大数据,本质上属于一种工具以及资源,也可以成为一种思维的方式,将其和企业的专利管理融合,从而有效激发有价值的服务以及管理方面的创新。不但可以提升企业中专利的地位,而且可以改善企业管理困境,在大数据的支持下,企业专利管理促使企业更好服务企业管理。

3 大数据时代的企业专利管理面临的问题与应对策略

3.1 专利大数据搜集的问题以及应对策略

大数据搜集过程是对数据进行保障以及提取。专利数据的量相对比较大,不但包括专利的文件数据等,而且包含其他的文献资料,比如,市场资源资料、法律法规数据、人力资源资料等多种数据,这些数据总量基本上都达到了TB的级别,部分体量可以达到PB的级别。专利数据来源比较广泛,并且数据格式以及种类特别繁冗以及复杂,其中具有半结构化、结构化以及非结构化的各种数据间形式,比如网络博客、广告、视频、图片、新闻、报告等多种类别。换句话说,和专利相关的数据种类多种多样,部分数据还比较难以获取以及存在获取的障碍等,大数据搜集的过程中需要克服以下的困难,第一,数据体量过大,难以搜集。第二,数据形式以及种类多种多样。第三,数据多元化。只有克服以上三种困难,才能保障数据搜集的完整性、及时性以及准确性。其中,企业的专利管理,可以根据专利检索以及定制智能搜集的软件实现数据搜集。此外,可以借助商业数据的提供商,将软件搜集和人工搜集相互结合,从而有效应用大数据搜集的困难。

3.2 专利大数据处理的问题以及应对的策略

专利数据存在数据来源广、数据量大、数据分布广泛、数据结构复杂以及持续增长等多种特点,相比传统的专利数据,大数据这些特征导致数据处理存在一定的问题。首先,数据异构性,就是专利管理所依靠的数据不是分布在同一数据系统当中,而且分布在多个不同数据系统之中,并且通常是以半结构以及非结构化的形式存在,难以通过简单的数据结构加以标识,此外,传统关系数据库难以处理复杂数据结构相关数据。其次,数据存在非完备性问题,换句话说,在大数据的条件下的得到的数据包含很多错误信息以及非完整性的信息,处理大数据以及分析大数据之前,应当对非完备性加以处理,之后才能对后续的数据加以分析处理,输出具有价值性的数据。再次,有效性的问题,数据量一般越大,进行处理数据的过程就更长,数据的价值一般是随着实践推迟快速降低直到消失。因此,关于数据的处理应当是高效率、稳定、智能化以及响应性更快。最后,数据处理存在很多风险因素,应当保障安全性,企业通过分析处理模型以及处理之后的信息进行专利管理决策,对于企业发展具有重要意义,在专利大数据分析处理过程应当切实保障数据的安全性,才能保障企业决策的准确性以及可靠性。

4 结束语

大数据在企业专利管理当中具有重要的作用,一方面大数据给企业专利管理带来重大的机遇,另一方面大数据专利管理也存在一定的问题,比如数据体量大、数据多样化以及数据来源多元化等,给数据搜集处理工作带来一定的麻烦,因此,应当优化企业专利数据搜集、处理方面的问题,并且保障数据搜集处理安全性。

参考文献

[1]顾毓波.大数据时代企业专利管理面临的问题与应对策略[J].知识产权,2015,10:120-124.

[2]孙雪凌.大数据时代下高校论文信息化管理面临的问题及应对策略[J].科技风,2015,24:236-238.

篇5

关键词:大数据;应用;轨道交通

中图分类号:TP3;U23 文献识别码:A 文章编号:1001-828X(2017)013-0-01

进入新世纪以来,随着博客、微信、移动设备以基于位置服务的LBS服务的新型信息方式的发展,数据的种类和数量正在以几何级的速度增长和积累,人们的生活已经被各种各样的数据包围,大数据时代的到来给人们带来了更多生活上的便利和行为习惯的改变。学术界、工业界、政府机构早已对大数据开始了各种研究。然而大数据的火热并不意味着对大数据的深刻理解,反而可能影响了大数据的真正含义的理解。

一、大数据的基本概念

大数据本身的概念比较抽象,但有一点是确定的,即他表示数据的规模庞大,但是仅从数量上难以区分与海量数据(massive data)、超大规模数据(very large data)的差别,大数据目前的定义并没有一个公认的说法,但从不同的定义中可以归纳试图给出定义,而最有代表性的要数3V定义。即认为大数据需满足三个特点:规模性(volume)、多样性(variety)、和高速性(velocity).对于提出4V定义的有国际数据公司的价值性(value)和IBM认为的实用性(veracity)。维基百科对大数据的定义则更简单明了:Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them. 大数据时指利用常用软件应用工具已经不能够处理的庞大且复杂的数据集。

作者认为,大数据的概念不必拘泥于某一个,在面对实际问题时,把握4V(规模性、多样性、高速性、价值性)特点的基础上适当的考虑数据处理的可容忍时间即可。

二、轨道交通企业大数据特点

轨道交通领域涉及专业多而广,其中土木、车辆、机电、供电、维保、通信、信号、环控、AFC等,这些专业通过人工或自动传输等方式采集产生的数据数以百万计,应用大数据处理技术,深入探索轨道交通系统的运行规律,对于提升轨道交通的运营服务质量和水平有着重要的理论指导意义和实践管理作用。

1.数据种类

根据轨道交通企业数据产生的来源,将大数据分为内部大数据和外部大数据。内部数据包括客流数据、各类型设备反馈的数据、物资材料消耗数据、内部管理数据(财务、人力、效率数据);外部数据包括天气数据、大型活动数据、其他相关公共数据等。按照数据的产生的过程分为直接数据和间接数据。大数据研究的基本都是直接数据,对直接数据加工处理产生的间接数据,根据其家公的程度来确定该数据是否还需再处理。亦或是用来指导管理决策。

2.数据特点

(1)数据动态性强

以重庆轨道交通开收班时间计算,轨道交通系统每天运转将近17个小时,在运行的这段时间各种数据时刻变化,且各数据动态性强、随机性强、个体间差异明显,变化粒度多样,各数据间相互联系,每一个数据的变化都可能带来其他方面的影响或变化。

(2)数据关联性强

在列车晚间进站到早班发车的间隔时间内,相关的其他工作维保、公务、供电、道岔、桥隧等检修工作也差生这各种不同的数据,而这些数据将直接影响着第二天轨道交通系统的运转情况。

(3)数据分布呈现广泛的异构性

首先数据来源广泛,轨道交通系统涉猎专业繁多,业务复杂,每个部门都产生这各种各样的数据;其次,数据种类繁多,非结构化数据占比较大;再次,数据产生方式多样,随着移动终端的快速发展,数据的产生模式也由被动提取转变为主动产生进而发展为自动发送、上传的模式。

(4)数据规律性强

轨道交通系统每天能够正常运转主要依赖于完善的工作计划,如列车运行计划、人员排班计划、列车检修计划、客流组织计划、设备设施巡检、检修计划等,而完美的计划需要依赖于对数据规律的掌握。

(5)数据的安全保密性要求高

作为支撑企业长久发展的核心信息,如新技术的研发、外来技术的国产化、核心技术、核心指标、管理方法的创新、安全技术的应用、盈利模式的创新、关键的财务数据等都需要较高的保密性。

三、轨道交通企业的大数据应用挑战

1.数据集成挑战

轨道交通数据的采集方式的多样性和数据类型的多样性使得数据集成成为大数据应用面临的巨大挑战。首先数据得广泛异构性表现在数据类型从结构化数据为主转向结构化、半结构化、非结构化,其次数据采集方式的多样性体现在传统固定设备的数据转向移动设备的快速变动数据,且产生的数据呈爆炸式增长,并有着明显的时空特性。不同类型、不同方式、不同纬度的各种数据形成的大数据需要新的集成方法才能发挥其大数据的作用。

2.数据清洗挑战

数据量巨大并不代表数据的价值大,数据量的增加导致数据质量低劣,噪声增多,反而会影响有用数据的筛选和使用。一方面很难由单个几系统容纳下不同数据源集成的海量数据,另一方面数据集成并不是简单的将数据聚集在一起而不作任何清洗,这样有用数据就会被大量的干扰数据淹没。大数据时代的数据清洗需要更加谨慎,因为有限的、细微的有用信息需要从巨量的数据中清洗出来,如果清洗粒度选择不合适,或大或小,都将无法达到真正的清洗效果。

3.数据解释挑战

数据解释旨在更好的呈现大数据的分析结果,不恰当的解释方法可能导致解释结果晦涩,难以理解。然而传统的数据解释方式并不能应对大数据的分析结果,尤其是在面对类型复杂、数量巨大的轨道交通企业大数据时更为如此,外部的大数据与内部的管理数据以何种技术呈现解释结果,需要提出全新的大数据解释方式。云计算的发展为大数据的应用奠定了基础,但是对于大数据去粗取精、内外数据互联融通的过程,云计算犹如大海捞针,仍显得无力。

四、轨道交通企业大数据应用现状

目前轨道交通系统对大数据的应用都尚处于起步阶段,查询知网数据库,也发现目前的研究应用较少,在少有的应用中主要提及的是地铁耗能仿真和节能操纵研究、地铁乘务技术管理、车在信号设备主动维护研究、地铁票制创新、地铁车辆牵引系统故障诊断等,从以上文献不难发现,行业内真正的大数据研究应用还很缺乏,这些数据仍处于专项数据的集成处理研究,数据尚不够“大”,对于管理决策的支撑研究也很少。

五、结语

本文通过大数据概念,结合轨道交通行业目前的数据特点、应用挑战及应用现状提出简单的分析,希望助力于大数据在轨道交通行业的深入、广泛、恰当的应用,促进大数据的良性发展。

⒖嘉南祝

[1]维基百科:大数据.(2017-5-22)https:///wiki/Big_data

篇6

关键词:大数据;科技查新;多元化发展;服务模式

中图分类号:G354 文献标识码:A 文章编号:1671-2064(2017)09-0211-02

进入2l世纪以来,随着互联网技术的不断发展,数据存储的方式发生了很大的改变,我们可以从世界各个角落的计算机上获得越来越多的数据,数据信息量从逐步从TB走向PB、EB,人类进入了真正的大数据时代。在大数据的环境下,科技查新工作服务模式也需要做出相应的改变,需从以往单一的服务模式向多元化发展,通过完善、合理的科技查新工作服务模式,更加高效、准确地对信息进行获取和加工整理,为政府、企业及相关单位提供更加多元化的服务。该文以天津市科技信息研究所科技查新工作现状为例,探讨大数据环境下科技查新服务的多元化发展。

1 大数据的定义及特点

现在的社会处于科技高速发展时期,信息流通迅速,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代应运而生的产物。

什么是大数据?对于“大数据”(Big data)的概念,研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。所谓大数据就是巨量资料、巨量信息,它最显著的特点是:数据体量巨大,类型繁多,非结构化数据越来越多;数据价值密度越来越低,价值提纯难度加大;动态数据越来越多,数据处理速度难度加大。所谓大数据技术,可从大数据抽取与集成、大数据存储、大数据挖掘与分析、大数据解释与展示四个方面来表征。其中,大数据挖掘与分析是整个大数据处理流程的核心,也就是将先进分析技术应用于大数据,如:高级分析技术、可视化发现技术等都将是大数据分析领域的关键技术[2]。

目前在商业智能、政府决策、公共服务等领域大数据得到高度重视和应用。科技情报和信息服务作为公共服务的组成部分,充分利用大数据将会极大促进信息服务工作的发展,为经济发展提供有力支撑。

2 科技查新服务的定义和作用

科技查新是指具有查新业务资质的查新机构对查新委托人提供的需要查证其新颖性的科学技术内容,按照《科技查新规范》,对科技文献资源进行科学、系统地检索,运用对比、综合分析等方法做出客观的结论[3]。它是随着我国科技体制改革应运而生的具有中国特色的新型科技信息服务,为科学研究课题立项及科研成果的鉴定、评估、验收、转化、奖励等提供客观依据,提高科技管理与决策的科学化和规范化,保证科技项目的立项、科技成果的鉴定、评奖等工作的新颖性、科学性、客观公正性和准确性。

虽然查新服务查新为企业的科研立项、成果鉴定等方面提供了一定的依据,其作用也得到科技管理部门和专家评审的肯定,但从信息角度来说,目前的科技查新工作还主要是以专业数据库为基础,以手工检索和计算机检索为手段,以检出的文献结果为依据,通过信息查询对文进行整理和对比,对数据的加工和使用还处于初级阶段。而在当今“信息大爆炸”的时代,大数据环境下的科技查新服务需要向多元化发展,提升服务内容,建立多元化的服务模式,需要从最基础的科技查新服务不断扩展向竞争情报服务、知R产权服务、企业创新战略服务转型,要通过信息资源建设、查新复合型人才培养、管理制度创新等方面,建立知识型服务促进发展创新的工作机制。

3 大数据环境下科技查新服务面临的问题与挑战

大数据时代下科技查新服务的特点也悄然发生了变化,具体表现为:数据资源更加丰富、宽泛,科技查新更显必要;数据呈现出动态化、类型多、价值低的特点,增加了科技查新难度,因此对查新员的综合素质、对信息技术的掌握提出了要求更高;对数据资源的有效利用和开发是提高查新质量和效率的关键。相对于丰富的大数据,科技查新服务面临着诸多的问题:(1)数据资源重复建设,开发与共享不足,各部门、单位系统兼容性较差,浏览器和数据格式不统一等均严重制约着资源共享;(2)针对查新项目数据和信息的提纯加工、快速处理,查新工作人员的专业和职业素质还有待提升;(3)信息的海量化,使科技查新的工作难度加大,规范有待严格,激励机制有待完善;(4)借助大数据优势,科技查新服务模式有待进一步创新发展;(5)在信息爆炸的时代,还需加强科技查新机构与科研创新人员的沟通,精准地把握有用资源,减少无用功。

天津市科学技术信息研究所查新检索中心成立于上世纪80年代,是全国首批十三家获得国家级科技查新资质的服务机构之一,自科技查新工作开展以来发展至今已有30多年,以往的业务主要包括科技查新服务、定题检索和文献服务、科技翻译服务等,现在顺应时代的发展逐渐开展了知识产权服务、竞争情报服务等。天津市科学技术信息研究所查新检索中心近5年的科技查新数量年均3000余项,涵盖项目立项查新、成果鉴定查新、专利查新、新产品查新、申报奖励、文献查证等,获得了用户的好评,在业内具有良好的信誉和口碑。但不得不承认,我们目前的工作大多仍然停留在被动的服务模式阶段,主要还是等待用户上门和行政干预,缺乏主动宣传和推送服务;定题或动态跟踪服务模式也缺乏创新性和吸引力,没有充分发挥科技查新的人员和资源优势,为广大用户提供多元化、个性化的服务;没有把查新机构与用户有机地结合起来并主动参与到竞争信息情报的发展中去,没有深挖新时代下科技查新服务的潜能,这是对自身优势和大数据的资源浪费。

虽然目前我们也在原来业务的基础上,开展了知识产权服务、竞争情报服务等业务,不断地摸索服务的形式,但就效果来看没有达到预期的目标。科技查新机构必须与时俱进,不断尝试基于大数据、云服务理念,规划未来架构,利用大数据,管理、挖掘海量庞杂信息,加大为企业尤其是信息相对匮乏的中小企业服务的深度和广度。应充分利用大数据资源优势,抓住机会拓展创新,提升知识挖掘潜能,调整信息服务策略,在科技查新基础上,完善整合服务技能,实现主动式多元化服务方式。

4 大数据环境下科技查新服务的多元化服务模式

4.1 竞争情报服务

针对大数据所具有的创新特征,科技查新应逐步向竞争情报服务过渡、融合,并实施创新战略服务。如何高效、准确地从互联网的海量信息中获取和跟踪特定信息,是开展竞争情报服务工作首先需要解决的问题。通过引进智能竞争情报系统(CIS),采用自动信息采集工具对相关信息进行定期采集、监测和跟踪,自动按不同主题进行分类,形成专业信息库,可以有效解决上述问题。同时科技查新服务机构还可根据自身信息源丰富的优势,收集、整理各类纸质载体信息、电子信息,利用相应的数据分析方法及工具进行深入信息挖掘与加工整理,形成专题研究集和专题信息资源库,为竞争情报服务提供更多信息基础,并与用户的情报需求进行有效对接。在开展竞争情报服务时,科技查新机构亦可针对中小企业技术创新能力不足、技术资源匮乏等问题,创新服务方式,收集企业研发领域的先进技术、知识产权、竞争对手情况、市场情报,并追踪最新技术发展动向,为企业开展战略研究服务,帮助中小企业开拓研发思路,提高研究水平,降低研发风险。

4.2 知识产权服务

拓展专利权、商标权、著作权的知识产权检索服务,帮助企业规避产品技术的侵权风险。现在国人越来越能意识到知识产权的价值,我国的专利受理量也在逐年上升。由于实用新型专利与外观设计专利授权均不进行实质性审查,而发明专利授予中的实质审查由于检索数据资料和审查员自身的业务水平也难免会产生疏漏和偏差,因此,企业在生产经营中实施新技术、新产品创新活动可能会遭遇到专利侵权纠纷。针对这种情况,查新机构应尽快开展企业专利侵权诉讼检索服务,对其相关专利的有效性进行分析评价,维护其合法权益,为企业减轻侵权损失或避免侵权风险。将知识产权侵权查新作为风险监控、预警和规避的有效手段,成为企业知识产权战略发展中必要且重要的环节。

4.3 企业创新战略服务

提供基于大数据的科技创新知识服务,可为企业量身定制专业数据库。在大数据时代,企业为了能快捷地获取创新技术或产品等相关信息,对其R盗煊虻奈南仔畔⒓焖鳌⑶楸ǘ态跟踪有很大的需求。查新机构可根据企业用户的实际需求,利用分布式数据库、云存储等大数据技术,对大数据中的核心数据资源进行集成整合和挖掘,形成适用于科技文献资源的元数据仓储,将企业用户、管理、资源、技术、知识、能力和过程各大元素进行有机结合和优化,提供基于大数据的科技创新知识,服务于企业科技创新全生命周期活动。利用查新机构拥有的抓取系统和文本挖掘系统,主动、有针对性地向企业推送相关知识和最新技术经济讯息,使其及时了解行业的最新发展动向、研发态势及相关产业政策,有效缩短企业的创新过程。

4.4 信息推送服务

信息的加工和整理是科技查新机构的主体工作,信息的方式也逐渐从被动的索取到主动的推送过度。未来服务模式的重点是怎样更好地将信息服务推送出去,以满足不同客户的需求。当客户提出某一服务需求后,在后台进行整理加工后,可以将客户所需的情报信息内容推送到客户端。大数据环境下,可以通过模糊查询实现客户的信息需求预测,例如当客户进行某些资料或文献的检索查询时,可将客户搜索的范围和输入的关键词、主题词进行智能整合和分析,从而辨别、预测出客户可能感兴趣和需要的数据信息,为查新机构进行数据采集、资源更新提供可靠依据,主动向用户推送信息资源,最终达到超前服务客户、满足客户需求的效果,提高科技情报机构的服务能力和社会效益。大数据环境下的数据无限扩展,会让很多客户对海量信息的搜索无从下手,花费了很大的力量可能获取的都是无用的网络信息,通过查新机构的专业服务可以帮助客户迅速便捷地找寻到所需的有价值信息,可大大降低人工成本和时间成本,并为后续继续开展各项深度服务提供了可能,真正实现“以用户为中心的服务理念”的服务模式。

在大数据时代下,科学技术飞速发展对科技查新工作提出了更高的要求,查新机构和查新员不能局限与以往的工作模式,我们必须正确面对诸多挑战,积极推进查新资源的开发与共享,强化队伍建设,规范查新制度,完善激励机制,创新服务模式,加强与客户的沟通与交流,保证查新质量,提高业务水平,增强科技创新能力,为创新型国家的建设做出贡献。

参考文献

[1]刘高勇,汪会玲,吴金红.大数据时代的竞争情报发展动向探析[J].图书情报知识,2013(2):105-111.

[2]RUSSOM P.Big data analytics[R]. [s.1]:TDWI Best Practices Report,2011.

[3]谢新洲,滕跃.科技查新手册[M].北京:科学技术文献出版社,2004.

[4]梅杰,杨剑,康磊,杨辉.大数据环境下科技查新工作服务模式探究[J].科技情报开发与经济,2015,25(18):132-134.

篇7

信息化大体上分成三个阶段。20世纪90年代中期以前为信息化1.0阶段,这个阶段最显着的特征是以单机应用为特征的数字化阶段。此后一直到现在为信息化2.0阶段,它的主要特征是以联网应用为特征的一个网络阶段。而信息化3.0阶段开始于我们这个时代,它的特征是以数据的深度挖掘和融合应用为特征的一个智慧化阶段。未来还有没有新的阶段?我认为,信息化3.0这个阶段持续20年也是有可能的。

定义大数据

大数据是什么?大数据本身的产生是互联网及其延伸所导致的一个自然现象。一是广泛应用,二是成本急剧下降。体现在几个方面:摩尔定律驱动的指数增长模式、技术低成本化的万物数字化、宽带移动泛在互联驱动的人机物广泛连接、云计算模式驱动的数据大规模汇聚。这就是我们讲的摩尔定律指数增长。按照IDC的统计,2003年、2009年到2012年,大数据从5百万TB到8亿TB到27亿TB,增长速度非常之快。这是大数据的几个主要特征。大数据不仅是量大,重要的是多元。另外它和过去的信息化是不一样的,大数据的很多东西不是靠过去那种主动采集产生的,而是有目标的按照结构化的方式采集的,很多是信息系统通过各种各样的交互自然产生的。

大数据的意义和价值何在?第一,它提供了我们人类认识一个复杂系统的新思维、新手段。实际上如果说我们做到一个无尽大或者不断逼近现实世界里的一个数字化的话,实际上我们用大数据构建了一个数据空间,现实世界的数据空间,也就是这个数据在逼近我们的现实世界,这就可以按照科学研究的第四范式,基于大数据触摸、理解或者逼近复杂系统。随着问题空间的数字化,能不能得到一个数据空间,这个空间里就有很多规律可循,可以挖掘。所以从传统思维到今天的大数据思维,这也是大家经常谈到的几个很重要的变化,从样本到全体、从精确到近似、从因果到关联度,这是一系列的变化。

第二,大数据也会成为促进经济转型的一种新的引擎。大数据这个产业本身一方面促进产业升级,激发商业模式创新、促生新业态,不断改善民生服务。大数据时代有一句话,信息技术的定位。信息技术不仅是一个独立存在的行业,同时也广泛渗透到别的行业,成为该行业的倍增器或者催化剂,而现在这个时代,倍增和催化大概已经不够了,它甚至会成为一个行业的颠覆者。第三,大数据成为提高政府治理能力的新途径。第四,大数据成为提升国家综合能力和保障国家安全的新利器。

大数据应用尚处于发展初期

大数据产业生态系统已经初步形成。一个方面是基础设施,各个计算设备、软硬件、数据处理的不同方法以及各个领域的特定大数据应用形成了大数据产业生态链。那么技术平台是什么?技术平台就是云计算。云计算为数据存储、融合和分析提供了高伸缩性的平台。这个平台向上是支撑各种应用(以服务化的方式),向下管理各类资源。而这个平台一个很重要的特点就是全面走向“软件定义”。就是硬件资源虚拟化、管理功能可编程,对网络化、规模化的各种资源进行灵活高效的调用。

从应用来讲,大数据的应用还处于发展初期,全世界都是如此。中国的大数据应用也才刚刚起步。目前,互联网行业是大数据应用的领跑者,同时也在向别的行业大量拓展。现在 “大数据”这个词用得过热。很多应用也就是过去数据量的增加,有的应用甚至是换了一个“大数据”的马甲而已。从深度挖掘和融合应用角度来看,实际上多元数据的融合才是大数据一个非常重要的特征。虽然大数据应用呈现发展初级阶段特征,还处于“盲人摸象”的尝试阶段,但其巨大潜力已被广泛认知,同时引发新一轮信息化建设热潮,这将成为信息化3.0阶段的重要建设内容。

新时代下的计算和网络能力足够强,设备和技术的成本迅速降低,云计算公用事业化,万物互联达到人机物融合,渗透率跨过了临界值,大数据分析挖掘手段以及利用大数据的方式影响了我们的方方面面。国家也制定了“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等方面的发展。

我理解的“互联网+”首先是加法,其次为升级、延伸。这个“+”会带来颠覆性的影响。除了成为行业的倍增器也会成为行业的颠覆者。所有的行业都离不开它,离不开三个关键词:跨界、融合、创新。

“互联网+”

是信息化3.0的指南

“互联网+”本质上是传统行业/产业信息化的深化和泛在化,同时它也是孕育新兴形态的一个平台,是互联网技术、模式、思想与传统行业的深度融合,它需要我们促进信息基础设施的完善、数据资源的积累、新型业态的诞生和成长。“互联网+”,毫无疑问,就是现在信息化3.0这个时代的基础设施、思维模式和实施指南。也就是说,数据的深度挖掘和融合应用会成为新一代信息化应用的主要特征。

十八届五中全会公报指出“实施网络强国战略,实施‘互联网+’行动计划,发展分享经济,实施国家大数据战略”。从这些方面都体现了我们在信息化3.0时代,随着互联网的不断延伸和扩展,网络强国战略恰逢其时。信息化3.0时代在应用上有很多创新,能不能在基础设施、技术上自主可控甚至引领,是值得我们探究的事情。

互联网催生了一个创新的时代。过去有那么多新的概念层出不穷,这是IT业一个非常典型的特征。2000年以后,从计算机角度来看,就是一个概念创新的时代。而且以前这个行业的术语几乎是技术导向,而后来全是应用导向。怎么让用户听的明白,不再考虑技术本身的定义和含义是什么。但是在这里面有中国元素吗?或者说有中国概念吗?实际上是一个很严重的缺失。长期的跟随者思维形成了定势,真正实现创新发展需要技术创新、基础设施创新、应用创新。但在一定程度上,思想和概念的引领可能会产生更大的影响。

篇8

关键词:大数据;图书馆;知识服务

“大数据(Big Data)”是继Web2.0之后和云计算一起被媒体最关注的词汇组合,并正在引起信息科技领域越来越多的关注热潮。IBM、EMC、Oracle、Microsoft等IT巨头几乎都已投身到了大数据的软硬件技术整合、大数据信息处理的技术供应研究开发之中,力求在新一轮的信息竞争环境中占据主动,并抢得战略先机与技术制高点。图书馆作为社会的知识信息服务中心,使得社会对图书馆所提供的服务要求更为苛刻,潜在的知识挖掘、知识评价、数据分析等增值服务需求已经开始显现。利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化数据信息,寻找他们的隐形诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制已成为大数据时代图书馆提高服务体系的组织水平、推动行业发展与制度建设的捷径之一。

一、大数据概念

(一)大数据的定义

维基百科的定义是:“大数据(Big Data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”[1]也就是说,由于所涉及的数据规模巨大,以至于利用目前的主要软件工具,在可允许的时间范围内,达到查询检索、下载获取、加工处理、数据管理,并有效的整理成为对用户有用的数据资源已经变的非常困难。美国互联网中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据都是近几年产生的。大数据时代最大的转变就是人们放弃对事物因果关系的渴求,取而代之的是更加关注相关关系,对人类的认知方式和与世界交流的方式都提出了全新的挑战。在大数据时代,数据就是资产已经成为人们的共识。

(二)大数据的特点

分析员道格.莱尼(Doug Laney)曾在麦塔集团(META Group,现为高德纳)的一份研究报告中指出大数据的三个特点:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”。另外,以IDC为代表的业界认为满足“4V”(Volume、Velocity、Variety、Value,即种类多、流量大、容量大、价值高)指标的数据才可称为大数据。但无论是“3V”还是“4V”,其本质都是对大数据中的“大”的理解与阐释。

大数据的单条数据并无太多价值,但汇集庞大的单条数据集则蕴含着巨大的财富,将已有Y构化(如关系型数据库、面向对象数据库中的数据),半结构化数据与非结构化数据(如文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等)进行融合和分析后,会挖掘出很多新的业务信息。

二、图书馆大数据

(一)图书馆的大数据类型

进行大数据分析首先要拥有大数据,图书馆本身拥有的大数据主要包括:

1.图书馆的数字化资源。经过数字图书馆的多年建设,图书馆拥有大量的数据库资源、电子书资源纸质图书电子化的数字资源,以及各种音频、视频资源,这些资源在总量上很大而且增长速度也比较快,它们是图书馆大数据的重要组成部分。[2]

2.社交网络时代出现的大量非结构化数据。在门户网站、搜索引擎时代之后,社交网络时代已经到来。随之而来产生了大量的非结构化数据,通过大数据分析技术可以将这些数据进行收集分析,得出读者的兴趣偏好。伴随着社交网络、移动图书馆、物联网等概念的兴起,今后来自读者的各种信息将越来越多,我们将在读者使用图书馆服务的过程中收集读者的地理位置、搜索历史、搜索时间等信息,这些很多是非结构化和半结构化的数据,挖掘读者偏好,为其提供最有用的信息。

3.读者使用历史所形成的非结构化数据。在图书馆里不管是各种数据库资源,还是纸质资源,以及各种学生的信息都是我们的大数据。但是这些并不是大数据的全部,只是其中的一部分。比如他们对于数据库的检索历史、浏览历史、数据使用方向及使用方法等信息。伴随着移动互联时代的到来,将从手机、平板电脑、笔记本等诸多移动终端中收集到读者的个人信息、方位信息、浏览信息等各种不同的数据,这才真正构成了图书馆完整的大数据采集。

(二)图书馆大数据的几个主要来源

1.RFID射频数据:RFID嵌入到图书馆相关资源中,实现资源的跟踪及分析。比如图书芯片和借阅卡芯片的相关数据,来优化图书布局和馆藏结构。什么资源使用的多,哪个时段流通更频繁,资源的处理效率如何等,都对图书馆资源的利用率和采购渠道至关重要。

2.传感器数据:通过分布在图书馆不同位置或环境中的传感器对所处环境和资源进行的感知,不断生成的数据,由于长时间积累所产生的数据量也非常巨大。结合物联网技术,可以提升自动化设备的智能化处理能力。

3.社交网络交互数据:随着社交网络应用的逐步推广,社交网络所产生的数据量远远超过以往任何一个信息传播媒介,毫无疑问,它将会成为未来很长一段时间内,大数据最为主要的来源之一。该渠道可以更多地结合第三方商业数据接口,来完成数据汇集。

4.移动互联数据:移动互联网及移动互联技术的不断完善,使得图书馆可以通过WIFI定位、流量监控等方式,灵活获取移动电子设备、人员、资源、用户行为和需求等信息,并对这些信息进行实时分析,从而帮助我们开展有效的智能辅助决策。[3]

三、大数据应用

(一)实现针对不同读者的个性化服务

图书馆读者具有人数众多、年龄不同、专业方向不同等特点给图书馆提出了不同的个性化要求。而大数据的应用就在于加强用户研究与交互数据的利用,并基于对用户数据的分析,从中提取有价值的信息,建立用户模型,针对不同用户提供针对。[4]图书馆里大量的用户行为产生的数据,如用户查询书目产生的OPAC日志,用户流通日志,电子资源检索浏览下载产生的日志及流量数据,这些数据中除了用于记录读者的个人信息外,还隐藏着许多重要的信息,因此可通过对这些数据进行挖掘分析、知识发现、只能等技术,描述用户的行为,准确定位读者需求,向读者提供主动式推送服务,满足其个性化的智能服务。

(二)提供研究动向以及研究热点的变化

图书馆可以通过对读者数据的收集汇总,进行大数据分析,可以在宏观上分析相关领域科研热点的动向,为科研人员、科研部门的决策者服务,让他们更快的洞察最新的科研走向,以及相关研究领域其他科研人员的研究进展。通过大数据的分析,提升图书馆在科研领域中的作用,与此同时为科研人员提供更多有价值的研究策略信息。

(三)为采编部门和数据库采购部门提供资源评价意见

文献资源是图书馆的重要组成部分,如何合理采购纸质资源和电子资源,如何能够让购买的资源更好地满足读者的需要,让图书馆更有效率地服务读者一直是图书馆面临的问题。通过检索条目信息中对搜索关键词的搜集与统计等大数据分析,可以有效评估读者对各种资源的使用情况,并且通过读者平日访问历史的收集,可以预测出读者关注的热点,这为有效评估图书馆已有文献的质量以及读者对未购买文献的需求提供了支持。

(四)用户流失分析及价值分析

在当今信息技术发展的洪流中,价值质疑、技术障碍、管理僵化、人员队伍适应变化敏感性低等重大问题已经严重困制约着图书馆的发展,图书馆的社会地位与存在价值正在不断的弱化,用户正在向其他文化信息机构流失。我们通过大数据分析能够让图书馆清晰把握用户的信息需求及意愿,分析出用户的信息行为及其知识应用能力,有利于图书馆对用户的信息需求以及信息行为偏好进行预测,架构以读者个性化服务为核心的信息服务体系。[5]大数据技术加强了图书馆对于读者研究与交互数据分析、利用的能力,从海量数据中挖掘有用信息,建立用户档案与模型,在精确划分读者类别的基础上,进行跟踪服务、知识关联服务、先觉,提高用户体验,增加图书馆信息服务的竞争力,从而留住用户。

(五)建立新型知识服务引擎

技术引擎是图书馆信息服务的技术核心,如何利用大数据技术构建图书馆的新型知识服务引擎,将会是未来几年内图书馆情报领域信息技术研究的主要内容。[6]新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体(包括用户及资源)行为智能分析引擎、用户知识需求预测引擎、及多维度信息资源获取、组织、分析及决策引擎等。例如美国Hiptype公司将大数据分析技术来分析电子书读者阅读习惯和喜好,这也是国内外图书情报领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为智能分析引擎。

(六)建立知识服务及业务建设的风险模型

通过分析资源,包括知识资源、网络资源、信息资源、软件资源及服务资源等的实时状态来预测未来可能出现的故障及稻葑试纯赡艹鱿值耐槐溆氩ǘ,帮助图书馆预先制订好应对措施、策略以及图书馆的各类风险评估模型。同时,如前所述,传感器数据也是未来大数据的主要来源之一,此类数据将为图书馆获取大量的图书馆人文环境、自然环境以及技术环境的多维度数据,借助大数据技术分析、预测建立有针对性的各类图书馆风险评估模型,实现图书馆管理的优化升级,保持图书馆稳定的运行状态。

四、概念转变

数字信息的爆炸式增长催生出“大数据”概念,正席卷整个IT及其相关行业,大数据已经深深嵌入到了图书馆情报工作当中。然而目前图书馆相关大数据的理论研究与方案应用仍处于一个初级阶段,有大量基础性的构架问题有待解决。图书馆作为信息资源收集整理及为社会提供信息服务的资源中心,拥有丰富的资源优势,然而在今后大数据的云服务竞争中,图书馆只有突破现有技术屏障,才有可能避免被新型信息模型边缘化。

【参考文献】

[1]大数据.维基百科.2014-07-25.http:///wiki/大数据.

[2]杨海燕.大数据时代的图书馆服务浅析.图书与情报,2012(4).

[3]樊伟红等.图书馆需要怎样的“大数据”.图书馆杂志,2012(11).

[4]韩翠峰.大数据时代图书馆服务创新与发展.图书馆,2013(1).

[5]王捷.大数据时代下图书馆开展信息服务的对策.现代情报,2013(3).

篇9

大数据(BigData)本身是一个比较抽象的概念,至今尚未有一个公认的定义。Wiki定义“大数据”是利用常用软件工具捕获、管理和处理数据所耗的时间超过可容忍时间的数据集[1]。Gartner这样定义“:大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。也有研究者形象化地描述“大数据”是未来的新石油。不同的定义基本都是根据大数据的特征归纳阐述给出。比较具有代表性的是4V定义,认为大数据具有4个特点:规模性(volume)、多样性(variety)、高速性(velocity)和价值性(value)。即数据规模巨大,从TB级跃升到PB级;数据类型多样,包含结构化、半结构化和非结构化的多种数据类型;高效的数据处理能力及蕴含着极高的价值。

2大数据时代图书馆信息安全面临的威胁

大数据时代,数据资源将逐渐成为图书馆最重要的资产之一,决策行为将在数据分析的基础上做出。作为以数据分析利用和信息服务为己任的图书馆,它的信息安全将面临着大数据带来的挑战。

2.1存储安全问题

图书馆关注的数据已不仅限于书目信息、读者信息、电子期刊等业务数据,还延伸到微信、微博、移动网络等读者活动中产生的很难估量的社会化数据。如此庞大的数据集对图书馆的存储、软硬件设施是个考验。如何防止这些数据丢失、损毁、被非法盗取及利用是图书馆安全存储面临的一项挑战。另外,大数据环境下的图书馆为了降低成本,通常会将数据存储在云端,云的开放性,海量用户共存性等都带来了潜在的威胁。

2.2网络安全问题

图书馆是以网络为基础来传递信息和数字资源,为读者提供服务。在网络上,大数据成为更易被攻击的显著目标。图书馆的“大数据”不仅包含了海量数据资源,还包含了读者行为、敏感数据等,这些海量的信息资源将吸引更多的攻击者,也使大数据成为更有吸引力的目标。另外,黑客利用大数据发起的僵尸网络攻击,能够同时控制百万台机器,这是传统单点攻击做不到的。利用大数据,黑客能够发动APT攻击,APT的攻击代码隐藏在大数据中,很难被检测到。

2.3隐私泄露问题

社交网络、微博、移动网络等这些信息服务新形式的快速发展,互联网每时每刻都在产生海量的数据。读者的个人数据可能被任意搜索、获取,这将极大地威胁隐私安全。一方面,图书馆的海量数据信息资源、读者信息、读者行为、科研信息等数据高度集中,即使不被盗取滥用,也增加了数据泄露的风险。另一方面,对于某些重要数据、敏感数据以及隐私数据的挖掘分析,其使用权没有明确界定,这都将会涉及隐私泄露。

2.4知识产权问题

大数据时代,图书馆虽然会把越来越多的数据资源交给“云”提供商代为托管,但是图书馆应完全拥有这些被托管数据资源的知识产权。然而现实中“,云”提供商利用大数据技术对图书馆的数据资源进行挖掘、发现、分析进而整合成新的数据产品加以利用,本该由图书馆所唯一拥有的数据,一旦被“云”提供商开发成产品,知识产权的界定就成为图书馆要面临的新难题。

3大数据时代图书馆信息安全应对策略

大数据资源将成为图书馆的核心资产。图书馆在利用数据处理、数据挖掘、数据分析等技术获取大数据蕴藏的高价值,创新服务模式,提高服务质量的同时,应重点考虑如何确保数据资源存储安全,如何降低网络安全威胁,如何防止隐私泄露等。大数据时代的图书馆应首先从技术层面保障存储安全,提高网络安全防范技术;其次,建立数据监管体系,对读者和图书馆的重要数据、敏感数据、隐私数据进行监管;最后,加强图书馆信息安全制度和相关政策法规建设。

3.1保障存储安全

图书馆的数据资源在无限增长,规模日益庞大,保障这些数据资源的安全存储显得尤为重要,同时对硬件设施也是巨大考验。现有的存储系统无法充分有效地存储、管理、分析大数据,限制了数据的增长。大数据时代的图书馆为了降低运维成本,缓解硬件设施压力,应考虑将数据和信息存储在云端,利用云存储实现数据的存储、管理以及分析。云存储,即基于云计算的存储系统,其可扩展性、灵活性、运算高效性能够解决大数据存储和管理存在的问题。但是,云存储具有数据规模海量、管理高度集中、系统规模巨大、平台开放复杂等特点,这些都将对信息安全带来威胁。因此,保障云安全是大数据时代图书馆信息安全的基础。图书馆作为云存储服务用户,最关心的就是存储在云端的数据是否完整安全,是否有人非法访问,以及当合法访问这些数据时是否能获得有效且正确的数据。因此,应重点研究运用身份认证、加密存储、数据灾备这3种技术手段来保障云安全。

(1)身份认证。

加强图书馆云存储上数据的管理,实行身份认证,确保管理员、读者用户、云存储服务提供商等经过认证获得访问权限后,才可管理、分析、访问“云”上的数据资源。云存储具有跨平台、异构、分布式等特点,为了提高管理员、用户的访问效率,应建立有效的单点登录统一身份认证系统,支持各图书馆云存储之间共享认证服务和用户身份信息,减少重复验证带来的运行开销。

(2)加密存储。

对文件和数据进行加密保存,确保图书馆云存储上的数据资源在存储和传输过程中,不被意外或非意外损毁、丢失、处理及非法利用。加密存储主要包含两部分工作:一是密钥的管理和产生,二是应用密钥对数据进行加密存储和解密读取。云存储系统为每位注册用户生成一个解密密钥,系统将数据加密存储在数据中心,用户读取加密数据后,利用自己的解密密钥恢复数据,得到原始数据。这一过程对存储性能和网络传输效率会有一定影响,因此图书馆一方面要加快对加密存储技术的研究;另一方面可以考虑先只对重要数据、敏感数据、个人信息数据进行加密存储。

(3)数据灾备。

云计算技术对于数据灾备具有天生的优势。将虚拟化技术、分布式技术和云计算技术结合可实现多点备份、数据自动冗余存储、云节点无单点故障数据级灾备。图书馆可以利用云存储在不同的地方建设两个及以上的图书馆云存储数据中心,构成一个跨地域的统一存储平台,各业务部门和每个用户都可以共享共用这些数据。保证只要有一个数据中心完整,所有数据就不会丢失且能够提供持续服务。

3.2提高网络安全防护技术

随着图书馆数据资源总量的增加和新型社交网络下读者原创数据爆炸性增长,网络在线数据呈现急剧增长的趋势,导致黑客的攻击欲望比以往更为强烈,其手段和工具也更为复杂、更加专业。大数据对图书馆网络安全策略提出更高的要求,从技术层面来说,图书馆网络安全策略包括漏洞扫描、入侵检测、访问控制和网络安全审计4种技术手段,任何一个单一的防范手段都无法保障图书馆网络的安全性。

(1)漏洞扫描。

漏洞扫描包括检测路由器、交换机、防火墙、各应用服务器OS、应用系统以及工作人员用机的安全补丁、系统漏洞、病毒感染等问题。漏洞扫描系统应及时发现系统漏洞、木马、病毒、蠕虫、后门程序、网络攻击、ARP等,并提供修复、查杀、拦截、防御的有效工具,同时能够对图书馆整个网络系统进行风险评估,以便采取相应措施及时消除系统中的安全隐患。与以往的漏洞扫描不同的是,大数据时代,对于海量数据的扫描,将会花费很长的时间,因此需要研究解决如何提高网络海量数据检测扫描的精确度和速度。

(2)入侵检测。

随着图书馆信息资源和数据资源共建共享步伐的加快,图书馆私有云和行业云的建设加快,网络应用范围在不断扩大,来自校园网内部和外部的黑客攻击、非法访问等安全问题与日俱增,因此对恶意入侵的检测与防范刻不容缓。大数据对信息安全是把双刃剑,应利用大数据的分析技术,通过分析来源信息,能够自动确定网络异常。进一步研究更有效的检测手段,完成APT高端检测,做到多点、长时、多类型的检测。

(3)访问控制。

接入图书馆网络的用户,在使用海量数据资源之前,必须进行身份认证和权限划分,用户通过认证获得授权之后,才可以根据自己的权限访问相应的数据资源和应用系统,获取相关的数据分析结果等。采用单点、统一认证方式,并结合PMI权限控制技术,加大认证加密技术研究,有效控制不同用户分不同级别访问管理数据、访问数据、获取数据以及应用大数据分析结果。

(4)网络安全审计。

相比入侵检测系统,网络安全审计没有实时性要求,因此可以对海量的服务器运行日志、数据库操作记录、系统活动等历史数据进行分析,并且可以利用大数据进行更加精细和复杂的分析,发现更多的黑客攻击种类,其误报率也将低于传统的入侵检测。

3.3建立数据安全监管机制

大数据关键技术的快速发展,为图书馆大数据的存储与分析奠定了基础,大数据将成为图书馆的重要资产。但是,海量数据和数据分析结果一旦泄露,相对于以往,对读者个人甚至整个图书馆界将会造成巨大的经济损失,还可能导致声誉受损,严重的还要承担相关法律责任。大数据安全不仅是技术问题,更是管理问题。因此,大数据时代,图书馆除了要从技术上实现存储安全、云安全、网络安全等方式来抵御外来的信息安全威胁,更需要加强在数据安全监管、数据资源共享机制、数据隐私保护、敏感数据审计等方面的制度建设,从管理上防止图书馆核心数据、隐私数据和敏感数据的泄露。力图建立贯穿于数据生命周期的数据监管机制。在技术层面,运用先进的信息技术手段开展数据监管工作,如利用现有隐理、数据预处理等技术保障数据在使用和传输中能够拒绝服务攻击、数据传输机密性及DNS安全等。在管理层面,提高图书馆工作人员的信息安全意识,加强各业务部门内部管理,明确重要数据库的范围,创新有效科学的数据监管手段与方法,制定终端设备尤其是移动终端的安全使用规程,制定并完善重要数据、敏感数据、隐私数据的安全操作和管理制度,规范大数据的使用方法和流程。

3.4加强图书馆信息安全制度建设

依据信息安全管理国际标准ISO27000,明确大数据时代图书馆的实际安全需求和安全目标,量化各类数据资源的安全指标,建立全方位、立体、深度的信息安全防御体系。以信息安全防御体系为基础,建立信息安全责任人负责制的组织机构;制定日常安全运维制度,包括存储、业务系统以及各应用系统的安全运行监控制度、数据监管制度、移动终端检测制度、网络安全制度等;制定应急响应制度,包括数据灾备制度、数据恢复制度、故障系统恢复制度等。对于存储在云端的数据,建立数据共享制度和机密保护制度。根据保密级别、共享级别、开放级别等明确访问权限等级划分,制定数据的访问、检索、下载、分析等方面的规定;建立身份认证和权限控制机制,控制非法授权访问数据;制定数据云存储的安全规定,加密关键数据;制定数据所有权条款,防止“云”提供商第三方泄密。建立相应的法律政策保护数据利用时涉及的知识产权,保障数据资源的合理合法使用,维护图书馆利益,保护知识产权。

4结语

篇10

关键词:大数据;云计算;职业教育

中图分类号:G424 文献标识码:A 文章编号:1009-3044(2014)09-1853-01

2012年,联合国大数据政务白皮书,提出了各国政府(包括联合国在内)的一个历史性机遇:利用丰富的大数据对社会经济做出具体的分析,帮助政府更好的运行经济服务社会。同年,奥巴马在美国白宫宣布将“大数据战略”上升为国家意志,将大数据定义为“未来的新石油”并加大投资拉动相关产业。2013年12月5日-5日,由中国计算机学会主办,中国CCF大数据专家委员会承办的主题为“应用驱动的架构与技术”的中国大数据技术大会,这次大会成为大数据技术与应用深度结合的新起点,成为产业界、科技界与政府部门密切合作的新平台,进一步推动我国大数据的产学研。2014年3月1日,在北京举行的贵州・北京大数据产业推介会上,贵州共获投730.2亿元用于大数据产业的发展,这一伟大的壮举将全面推动贵州互联网,网络营销发展进而影响贵州经济发展。百年大计,教育为本,在贵州“后发赶超,跨越发展”的过程中,教育的改善提升成了社会发展步伐是否稳健的重心,随着大数据的到来,贵州的教育正张开腾飞的羽翼迎接新一轮的跨越赶超,贵州在全国率先完成中小学生学习信息管理系统,学生学籍信息入库。为加快推进职业人才培养体系建设,促进经济工作稳定快速发展,省教育厅、人社厅等多家单位携手并进,联合出台了加快职业人才教育培养的实施方案,以贵阳为中心,打造职业教育核心发展区,规划高职办学规模达到25万人,为贵州大数据产业发展提供充足的人才保障,建成具有贵州特色的现代职业教育体系。在大数据背景的前提下,贵州的职业教育发展将踏上更加非凡和精彩的跨越之旅。

1 大数据、云计算简介

麦肯锡公司在2011年了一个前沿领域的研究:大数据。虽然到现在为止没有一个明确的定义,但是,大数据不是海量数据的表面理解,具有数据体量巨大,数据类型繁多,价值密度低,处理速度快等特点。 “云计算是通过网络提供可伸缩的廉价的分布式计算能力”。云计算代表了以虚拟化技术为核心、以低成本为目标的动态可扩展网络应用基础设施,是近几年来最有代表性的网络计算技术与模式。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

2 高职院校大数据条件下云计算的应用

云计算的应用使得高校在信息工具化的时代能够脱离原始的“信息孤岛”现象,集中了原本分散的国内及世界的教育资源,让社会与学校,学校与教师,教师与学生之间有了更深的互动和相互带动,把社会各行各业对教育有利的资源通过计算机与网络终端带动教育的发展。高职教育与传统的本科教育不同,重点是培养学生的实际操作能力,通过资源库的分析和选取并优化应用,可以提高高职教育的目标性。

2.1 依据社会人才需求信息,调整专业设置

目前的社会公开招聘信息都是通过互联网至少在全国范围内进行公开招考的,近几年,百度等各大网站都可以轻易的分析出

招聘的条件和专业。各大中型企业招聘的专业类型等都可以通过数据提取,数据分析得到各专业的需求状况,通过这些计算、分析这些大数据,可以适当迅速的调整专业设置和专业学习计划,以适应信息瞬息万变的时代需求。

2.2 利用数据库优秀教育资源,提高教学效果

近年来,各大高校,职院都在进行重点专业的课改工作,很多优秀的课程教学视频和配套资源等上网,通过相关网站对教育资源的数据进行搜索,在相应的学院,教研室,进行数据的分析和研讨,经过相应的更改后可以直接应用我们的教学和管理中,可以充分吸取网络教育资源的精华,变成自己教学工作进步的工具。

2.3 充分利用电子图书馆,扩展“校企合作”的形式

贵州是教育相对落后的地区,首先,经济基础决定上层建筑,资金配套的硬件措施是制

约学校教学工作前进的桥梁,近几年,国家的西部发展计划和贵州省对教育尤其是职业教育的大力支持,使得,学校的教学环境有了很大的改善,很多学校都配套修建了电子图书馆和电子信息实训室。“校企合作”首先在发达地区开展,在贵州,合作项目近三年才开始试行,以贵州职业技术学院为例,2012年,由政府搭台的“中兴网络学院”项目达成协议,中兴在贵州职院第一次投入一千万元建立实训室并开始招生,除了学校教学计划必须完成的课程外,中兴选派有实战经验的一线老师加强学生实训的教学和指导,让学生更深入的练习自己的职业技能,除了学习学校扎实的基础理论,更吸收了中兴企业信息化的优势。

3 高职教改的新方向

面向大数据的云计算主要是为学院提供基于云架构的知识、信息的存贮,但对于这些数据的科学性分析和研究并不完备,尤其是职业院校需要的不仅仅是可以相对容易验证真理的理论知识,主要是一线的先进生产力和技术的学习和研究资料,所以认真学习和研究大数据的处理方式,将是未来高职在大数据方面的发展新方向,当然事物两面性的原则,大数据的网络环境也为学院的发展带来负面的影响,比如,随处可见的传感器和摄像头等,都可能会泄露学校和学生的私人隐私信息,暴露学校的科研痕迹和学生的行踪轨迹,从而对学生的个人安全等起到威胁作用,所以,隐私信息保护系统也是当下研究的热点问题。