大数据开发的过程范文

时间:2023-05-16 14:54:44

导语:如何才能写好一篇大数据开发的过程,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

大数据开发的过程

篇1

关键词:大数据;软件工程;群体软件;关键技术

一、大数据时代软件服务工程与群体软件工程

所谓软件服务工程,就是将服务作为主要目标,在应用时需要根据变化不断通过虚拟的手段与分布式手段进行应用,而这种应用方法不仅能够使得软件更加虚拟化,同时也能强化其操作性,与此同时,更能有效解决动态变化与分布变化情况[1]。软件工程在发展过程中能够在大数据领域、云计算中得到更加广泛应用。在网络化、服务化等大环境影响下,软件工程可以得到更好的开放空间。工程师利用数据信息交互、学术交流等多种方式开展合作,对软件进行开发,建设更加具有性价比的软件系统。在软件开发中,目前十分成功的就是开源软件,开源软件的合作模式与结构都是当前学术界最看重的,然而当前常规研究方式却未能实现较大突破。很多学者开始尝试利用网络分析方法对数据进行有效分析,在一些规模较大的开发项目的开发人员中,外围开发者占据绝对优势,并且模块化特征更加明显。和群体软件工程相比,开源软件有较弱的发展态势,而群体软件工程主要是倡导利用众包形式进行开发。

二、大数据时代众包软件服务工程

(一)创新发展态势

众包软件服务工程作为国际各国都密切重视的一种流式数据处理与集密数据处理方式,特别是在服务中对产生的各项数据尤为重视,如何才能将这些密集型数据的存储设施、平台、价值分析等作为服务对象,是当前大数据软件工程在研究过程中的难点与重点部分。从最开始的服务消费,到后来的众包服务开方,随后再到软件平台管理,运营方都由在线流式数据和离线密集型数据组成。当前开发者版本级别达到GB级别,众多用户数据能够达到PB级别,在线沟通数据更是能达到TB级别,利用直接推送功能可以左右软件服务时间,对软件产生关键性作用与影响[2]。

(二)软件生产开发、运营与管理

密集型数据,因为他们本身固有的动态分布形式、动态交互、复杂演化、动态分配、价值隐藏等,都能够体现大数据的最原始行驶情况。从本质角度来看,这些数据仅仅是用于描述内容模量,但是没有具体含义,并且缺乏语义化作用。想要对其进行创新,必须打破原有的研究方法与思维,将密集数据作为主要材质课题,并且将其看作是研究的主体,在主体领域,大数据所在流域与主体专家需要制造,传播大量的数据。他们不仅是大数据的群体用户,还是最主要的消费者,同时也担任着运营和管理的作用,能够将群体智慧汇到一起,逐渐形成系统化的领域和主体知识。将这些知识作为核心与基础,对研究密集型数据相对应的信息学过程与生命周期进行研究,并且及时推送相应的服务期限,研究数据内容的相关语义和标志,最终赋予其相应的矢量。组织主体部分构建价值服务机制与知识体系,在研究和互通过程中,利用操作式管理方式将关键技术应用在密集型数据上,这些都能展示出众包软件工程发展内容。

三、大数据背景下关于信息处理技术发展情况

与传统数据形式相对比可知,在大数据时代下能够实现各项数据相互联系,并且这些相互关联的结构,能够利用当前所有的框架,对数据进行及时且有效的处理。将硬件作为基础,通过该基础搭建的网络存在相应局限性,并且制约了网络的性能和发展,因此需不断探索与创新网络架构技术,以此实现大数据技术的提高。在日后发展过程中,计算机网络必须为其提供开放式的结构与传输功能,将计算机网络信息处理与软件基础、硬件基础分开使用,随后对网络架构进行定义。相关网络软件使得我国网络技术朝着更高水平发展,随着大数据时代的不断深入,计算机能够实现网络、硬件、软件融为一体,并且产生出新的网络结构,能够为大数据时展提供重要理论与实践意义。这种形式不仅能够突破传统计算机在处理信息时因为网络所带来的限制,同时也能使计算机处理技术开发与应用形式打破单一情况,逐渐朝着多元化方向不断发展。

四、结语

综上所述,随着我国大数据时代的到来,社会各领域都将受到大数据思想和创新技术的影响。大数据对人们的生活方式产生深刻影响,因此将大数据作为当前一种最新兴的网络技术。

参考文献:

篇2

一、大数据的概念和发展

大数据指的是以多元化形式,根据众多来源搜集信息,并将其汇总成一个巨大的数据库。一般情况下,大数据具有实时特性,这些数据来源于社交网络、电子商务网站或者顾客的来访纪录等等,而这并不是企业公司与消费者关系管理数据库中的常态数据。在大数据库中,不仅蕴藏着数据生产者的喜好、目的、真实意图等非传统结构上的数据信息,有效处理这些数据信息对网络架构及数据处理能力也带来了更多挑战。同样,从酒店管理的未来发展走向来看,随着大数据时代的不断推进,酒店领域的大数据化也正处于发展阶段,这就需要酒店企业正视大数据时代的发展优势,紧紧抓住发展机遇,切实提高酒店管理工作的效率和质量。

二、大数据应用于酒店管理工作的现状

(一)对大数据的认识不全面

在不同时代,酒店行业的发展会遇到不同的机遇和挑战,伴随大数据时代的不断发展,酒店行业也得到了更为广泛的发展平台。所谓大数据,就是将客户的资料信息进行综合归纳和整理,以便作为酒店企业在进行布置布局的重要数据基础,从而促进酒店行业的快速发展。在采集客户数据的过程中,仍然存在很多纰漏和不足,而且由于很多企业对大数据的认识不够全面,导致数据库往往失去其原本作用,徒有形式而没有实际作用。

(二)应用程度较低

经过调查与分析,发现很多酒店在进行客户数据整理与利用方面都存在或多或少的缺陷,其中多数酒店仅仅将大数据应用于销售营业报表以及盈利预算方面,疏于对这些数据的进一步开发与分析,导致数据信息的浪费,没有真正发挥在酒店市场营运方面应有的作用。由此可见,在现代酒店管理工作中,很多酒店企业对大数据的应用程度极低,在很大程度上影响了酒店行业的后续发展。

(三)酒店基本服务设施不配套

对一个优秀的酒店企业而言,其服务质量和水平不仅体现在为客人提供的优质餐饮方面,更体现在酒店客房别具一格的设计上。然而,很多酒店企业的基本服务设施不配套,也影响了消费者对酒店服务的满意程度。因此,为了解决这一问题,各大酒店企业必须要充分考虑到消费者的隐私问题,采取智能门禁、智能取电开关、智能电脑网络等等先进设备,提升消费者的满意度。

三、酒店管理工作中大数据的具体应用

(一)应用标准化酒店管理,简化数据管理

在酒店管理工作中,为了保证其科学化与自动化,就必须要采取良性循环发展的管理模式,应用标准化酒店管理,简化客户信息数据管理。另外,酒店也要根据技术与市场的不断发展做出相应的调适,充分运用大数据,达到推动酒店行业快速发展的终极目的。

(二)确保大数据运用的安全性

目前,由于大数据技术系统仍然存在漏洞,在酒店管理服务工作中常发生客户信息泄露等问题,而这也严重威胁着酒店行业的经营与发展。因此,酒店大数据管理系统必须要及时更新,并通过设计具体管理部门,对客户信息加密,保证酒店信息的正常流动。由此可见,确保大数据运用的安全性,能够有效提升消费者的满意程度,从而增加酒店的收入。

(三)加强酒店信息系统的开发

面对大数据时代的发展与推动,酒店行业必须要积极应对挑战,及时加强对酒店信息系统的进一步开发,充分发挥在线旅游平台的优势,从而建立独立的数据收集与整理的平台,通过对信息的归纳与分析,帮助酒店企业更好地了解消费者的实际需求。

篇3

一、大数据环境的基本特征分析

大数据主要是运用计算机应用技术和现代信息处理技术等对数据信息在极短时间内进行收集、获取、处理和管理的过程。大数据的产生和发展主要可以分为三个阶段,一种是系统运营阶段,一种是用户自创阶段、一种是系统感知阶段。在新的发展阶段下,数据资源的庞大性、多元性、生成的快速性、价值大等特征成为当前大数据时代下数据资源的主要特点。特别是与前两个阶段相较而言,大数据的处理单位甚至可以超过了GB和TB,当前大数据的处理单位可以以PB来计量,且数据库本身不再是简单的数据的整合和对比,而是形成了结构式的数据资源库,或者板结构式的数据资源库,这种数据资源库的可利用范围更广,利用重复率更高。另外,大数据的数据处理作为一种辅助方式,可以为实施其他管理措施奠定基础,从而更好的提升数据库的利用价值,促进数据资源应用范围的拓展。

二、大数据背景下医院档案信息资源发展的状况分析

(一)档案信息资源总量激增,信息种类繁多

医院档案信息资源的总量不断增加且种类也更加多元化。医院内部的仪器设备等大多需要形成影像资料,如CT、DSA、CR、MRI、DR等技术得到广泛的适用,大量的影像资料需要转化为信息资源,且影像资料本身所占据的内存较大,医院每年的新增影像资料可以达到20TB。同时医院的住院病历也逐渐开始转化信息数据的形式,且依据卫生部的要求,医院的住院病历要保存至30年以上,门诊病历的保存时间也不能少于15年,大量的病历档案如果转化为信息数据的话,那么医院每年新增的数据资源就要达到近百TB。另外从信息资源的种类来看,病历、设备档案、人事管理档案、行政文书档案、医院基建档案等档案都需要进行严格的管理和控制,且这些档案中的档案结构各异,大量的档案数据需要依赖于医院的管理流程进行不断完善和更新。

(二)信息资源流动性强,信息利用程度较低

医院每天会有大量的病人就诊,因而医院档案资源往往流动性较强,多种数据资源要在医院医疗事务管理过程中快速的形成并不断的更新。但是当前医院的档案信息数据资源利用的程度却并不像想象中的那样有效,许多医院往往仅仅从数据的收集和录入入手,进行数据化管理的理由多是要对数据进行保存,但是档案信息资源应当成为医院管理事务的基础,对数据进行分析和处理才能真正发挥数据资源的价值。同时医院档案信息资源的数据化管理尚处于分体管理的模式中,数据资源的整合统一协调管理程度较低。

三、大数据背景下医院档案信息资源利用发展的意义分析

在大数据背景下推进医院档案信息资源的利用与发展能够有效的打破医院档案信息资源之间的部门限制,能够有效的形成开放性的数据管理系统,通过档案信息资源的数据化操作与处理为不同部门提供查询、使用、整合、共享的基础,从而更好的保证医院档案信息资源价值的发挥。另外,在我国医院卫生体制改革的环境下,要实现医院的现代化和信息化管理,就需要立足于大数据处理基础,健全城乡医疗卫生网络化服务机制,运用信息化管理手段推动医院资源的优化流动,在不同的医疗机构之间形成患者病历交流共享的制度,为医师开展多点执业奠定基础。

四、大数据背景下医院档案信息资源利用发展的挑战分析

(一)数据收集难度大,信息存储扩容压力大

大数据具有规模大、数据类型多的特征,在这样的大数据环境下,要开展数据的收集录入工作往往需要耗费大量的人力和物力,同时还需要对数据进行分类管理分析,还需要对多元化的数据进行真伪鉴别,保证数据的真实性和准确性,要通过多样化的信息管理方式实现数据收集的有效性。而要对这些数据进行存储也需要占用大量的数据空间,医院的数据存储系统和存储安全保障问题限制着医院数据存储工作的安全性和可靠性。

(二)信息样本繁多,信息数据呈现形式多

医院档案信息资源的来源较为多样复杂,信息数据的表现形式十分多样,大量的信息样本无法用传统的信息管理方式进行描述,因而在开展数据处理工作时需要对数据的形式进行转化和协调,但是当前针对数据的智能化管理尚且只能在较小规模内实施,数据的深层次挖掘和多元化分析技术尚未形成。

五、大数据背景下医院档案信息资源利用的具体策略分析

(一)强化档案信息资源利用,开发大数据分析技术及产品

大数据背景下医院档案信息资源的开发和利用工作必须受到重视,这不仅是由于大数据技术的运用可能性,其同时也是开展医疗卫生体制改革的要求。提升医疗服务水平,重视档案管理工作是医院开展管理工作需要树立的基本意识,运用档案信息资源的智能化管理提升档案管理的有效性、便捷性和可靠性,从而更好的促进医院部门之间的信息共享,实现医院服务水平的高效提升。在重视档案信息资源利用的基础上,医院还需要开发和引进大数据分析技术及产品,以技术作为依托,提高数据收集、存储、处理的水平,引进现代化的设备保证信息资源利用的数据化、智能化发展。

(二)健全数据利用法律规范,培养创新型管理人才

要推进医院档案信息资源管理的智能化发展,国家和政府也需要从制度和法律规范方面入手为医院开展大数据技术利用提供法律支撑。大数据背景下,数据资源的管理既要服务于大众又要保护人们的个人隐私权,要防止数据的恶意转让,明确数据的挖掘、利用的范围,规范数据使用的权限,为数据资源的公开透明化管理提供制度上和法律上的支撑,维护公民的信息安全。同时还要为医院档案信息资源的利用发展提供人才支撑,医院要重视专业人才的培训和管理工作,提升临床医生的技术化应用水平,规范信息资源的呈现形式,培养档案信息资源管理的专业化技术人才,强化档案数据资源的深层次加工,提升档案利用效率。

结束语:

篇4

关键词:大数据;VIS辅助设计模块;VIS辅助分析模块;VIS辅助提升模块

引言

我国目前正大力推动“互联网+”行动计划、移动互联网、云计算、大数据、物联网等新兴技术和新兴产业的发展。随着互联网的进一步普及,大数据已经真真正正的影响到了我们的生活。在大数据技术的背景下,很多分析处理的方法正悄然发生着变化,品牌视觉识别系统VIS的设计开发也面临同样的机遇与挑战。而品牌作为企业商业形态及服务形态的主要表征,在当前制造产业大升级,摒弃低端代加工,提升产品附加值的大背景下,其价值正日益凸显。

1 品牌VIS视觉识别系统的重要性

一个知名的品牌在相同条件下,可以帮助企业获得数倍的收益。当然,打造一个企业或产品的知名品牌是系统性工程,涉及到的内容很多。而品牌VIS视觉识别系统能帮助企业建立系统化的品牌视觉体验,将企业和产品的信息真实的、简约的和有意义的从视觉感受传递给市场与消费者,知名品牌的VIS是一种精神象征与价值理念,是企业品质优异的视觉体现,也是品牌有别于竞争对手,展示独特内含的无形资产。所以设计开发一套优质的品牌VIS系统的重要性是不言而喻,品牌VIS对的产品销售、定价等有着非常大的影响。

2 基于大数据技术VIS设计分析

传统的品牌VIS设计有天生缺陷。其一,品牌VIS设计方案有较大的设计师主观意识在内;其二,由于企业品牌推广是长期的、缓慢的过程,在此过程中对品牌VIS结果的反馈也会有较大的延迟,导致设计团队无法在第一时间给予提升支持。而国内较普通的现象是除了前期完成品牌VIS设计后,基本没有后期的品牌VIS分析与提升。目前著名的际调研机构新力公司就启用大数据分析技术,结合消费者U&A行为,开发出品牌针对性人群结构研究模型,让客户的品牌VIS更有针对性的来改进升级。

而将大数据技术引入到品牌VIS系统的设计开发中是必然趋势。因为大数据的结果能有效客观的指导品牌VIS设计,让开发团队准确的设计出针对性较强的品牌VIS,并对品牌VIS进行量化评测。而在后期品牌推广中依托大数据对VIS多项指标进行跟踪监测,通过多种量化的关系分析,快速得出针对性较强的修改方案并马上加以改进提升。

2.1 品牌VIS辅助设计模块

借助辅助设计子系统, 为品牌VIS设计提供全过程的信息支持和技术保证, 实现设计的数字化、信息化,提高设计效率。利用大数据建立的设计原则和设计方案资源库的指导下明确设计任务、形成设计方案。

2.2 品牌VIS辅助分析模块

针对企业特定需求,依托大数据建立市场信息资源库,提供目标市场与人群的各类信息数据模型。包括受众个体信息、群体信息、市场趋势信息等,为品牌VIS提供设计依据,辅助设计者分析已知品牌VIS相关数据。

2.3 品牌VIS辅助提升模块

依托前一分析模块所得的数据,从中抽取有价值资讯,结合大数据技术自主决策算法,对品牌VIS完成进入市场后,收集到的市场、消费者、媒体、营销者的各类信息,从目标、定位、视觉效果等方面进行综合评价,作出相应的修改或保持结论。如果确定有修改或再设计的必要,信息综合评价子系统将会把提供的信息作为修改或再设计的依据反馈给设计团队与客户。

此套基于大数据技术的品牌VIS设计、分析与提升系统,针对品牌VIS系统而设计,所以其研发方案也需围绕在VIS设计、分析和提升三个重点上分别展开。

(1)品牌VIS辅助设计模块的研究(如图2)

(2)品牌VIS辅助分析模块的研究(如图3)

(3)品牌VIS辅助提升模块的研究(如图4)

3 结束语

系统最终的技术实现路线:品牌VIS设计方案的提出(客户的基本信息与要求)――基于大数据的市场定位――基于资源库的品牌VIS辅助设计方案生成――终稿品牌VIS设计评价――基于大数据的品牌VIS精准宣传与信息反馈。

参考文献

[1]黄金平.浅议企业品牌战略[J].科技信息,2009(26):48.

[2]张建.基于大数据平台的精准广告系统研究与设计[J].电脑与信息技术,2015(04):47-50.

[3]陆艳军.大数据平台访问控制方法的设计与实现[J].信息安全研究,2016(10):926-930.

[4]张志强.基于特征学习的广告点击率预估技术研究[J].计算机学报,2016(04):780-790.

[5]马二伟.大数据时代广告产业结构优化研究[J].国际新闻界,2016(05):153-168.

[6]周傲英.计算广告:以数据为核心的Web综合应用[J].计算机学报,2011(10):1805-1819.

篇5

我国电子政务建设已经经历了十多年的发展,并且取得了一定的成效。新时期,在大数据时代,电子政务系统已经很难满足政府服务实际需要,对此,应该加快构建基于大数据背景的电子政务系统,促进电子政务系统朝向指挥系统方向发展。对此,本文首先介绍了大数据时代电子政务面临挑战,然后对大数据背景下电子政务建设要点进行了详细阐述。

【关键词】大数据 电子政务 建设

1 引言

在经济全球化背景下,加强电子政务建设已经成为国家发展的关键问题。在大数据背景下,电子政务必须不断创新,结合实际情况进行开发建设,这样才符合新时期政府政务工作发展需要。

2 大数据时代电子政务面临挑战

2015年8月,国务院正式《促进大数据发展行动纲要》。在大数据背景下,电子政府面临很多发展机遇和挑战。对此,必须促进大数据背景下的电子政务建设,推动政府服务、管理和决策等多个方面的转变和发展。然而,基于大数据背景的电子政务建设涉及的内容复杂多样,包括人才结构变化、机制创新、推广应用等等,而这些都是对于电子政务建设的重大挑战。

3 大数据背景下的电子政务建设要点

3.1 建立统一技术标准

在基于大数据背景的电子政务建设过程中,首先需要明确统一的技术标准,并且制定统一的规划制度。在电子政务工作中,互联网安全以及信息安全至关重要,因此,需要建立符合政府部门办公特色的电子政务标准,比如公众信息网、办公业务网、信息资源库等等。另外,在电子政务的网络安全方面,还应该建立并完善相关法律体系,从而为电子政务的实际应用提供安全保障。通过建立统一的技术标准,能够有效促进电子政务的开发和建设。

3.2 基础设施建设

电子政务基础设施是由三部分所组成的,包括硬件、数据库以及电子政务平台,这三个部分之间为层进关系,而为了将三者进行有效结合,还需要科学合理的架构。信息基础设施的建设目标主要包括提升存储设备性价比、增加网络带宽等等,通过优化基础设施,能够为大数据存储和传播提供重要保障。另外,在电子政务建设中,可以利用云计算,为大数据的管理和访问提供重要的平台。在大数据背景下,云计算必须不断创新,在统一标准的基础上,对数据库进行科学合理的构架,从而实现对于数据的高效采集和存储,避免出现资源浪费问题。

3.3 在线服务与电子参与

电子政务平台的开发可以认为是软件层的开发,电子政务平台各项功能的开发都需要建立在对用户实际需求进行详细分析的基础上。电子政务平台的用户主要有两类,即群众和政府工作人员。因此,对于电子政务平台的需求也应该体现在两个层面上,

(1)服务,即政府部门在线服务,通过构建在线服务平台,能够有效降低群众寻求政府服务和帮助的成本;

(2)政务工作人员日常工作流程,主要包括公文起草、审核、下发、存储等等。因此,通过构建电子政务平台,能够实现无纸化办公,提高政府在线办事效率。

根据国内外对于电子政务的研究和应用实践,在政务业务管理以及辅助决策工作中,大部分都与地理空间的分布情况有一定的关联,电子政务在城市建设和发展中发挥着十分重要的作用。在大数据背景下,在电子政务需要针对政府部门的具体业务内容进行信息化规划和建设。现如今,科学技术正处于不断发展中,随着电子终端技术的不断发展,电子政务系统也在不断进步,这样才能够服务群众应用需要,增加民众参与度,充分体现出电子政务系统的功能。新时期,计算机已经得到普及,同时智能手机、平板电脑等应用也越来越广泛,对此,政府应该不断创新电子政务在线服务设计和建设,开发电子政务系统功能,使得民众能够通过手机、平板电脑等终端设备获得政府政务信息。

3.4 开发电子政务数据应用平台

在大数据背景下,政府可以通过电子政务实现政务数据共享。另外,通过电子政务系统,政府部门也可以向社会采购或者联合开发出大数据应用平台,并提供相应的技术服务。通过开发建设电子政务数据应用平台,政府可以有效利用现有数据和资源,提高政府服务政府服务效率,从而达到转变政府工作职能、加强社会监督能力、降低政府监管成本的作用。

4 大数据背景下电子政务建设和应用成效

4.1 政府能准确把脉市场,提高监管和服务的效率

在政府日常政务工作中,通过应用大数据技术,政府部门可以对不同行业、企业、地区的需求进行详细分析,结合企业实际经营情况、销售情况等,准确把握市场发展趋势,然后在此基础上更好的服务企业,采取有效措施引导企业经营发展方向。与此同时,政府通过大数据分析,还可以对市场进行有效监管。

4.2 提高政府的信息服务水平

在大数据背景下,政府通过建立大数据平台,可以对经济信息资源进行收集、分类和处理,然后将数据信息作为政府部门基础数据库。大数据来源于社会经济统计分析,因此,通过智能手机或者计算机数据信息,均能够满足企业实际需要。与此同时,政府部门通过对数据库信息进行审核和处理,还可以添加至全国信用信息平台中。

4.3 打破“信息孤岛”

过去,电子政务系统建设的服务对象是政府相关部门,因此,在电子政务建设过程中,必须以政府行政部门的发展为主要方向。但是,在大数据背景下,电子政务的服务对象不仅是政府部门,而且还包括企业、公众,因此,通过建设基于大数据背景的电子政务,能够有效实现信息数据共享,打破“信息孤岛”局面,有效促进信息数据的发展和进步,避免电子政务数据信息出现混乱的局面,提高政府服务水平。

5 结语

大数据技术发展迅速,在大数据背景下,电子政务发展面临很多机遇和挑战。对此,政府应该建立统一技术标准,加快基础设施建设,提高在线服务与电子参与度,并且合理开发电子政务数据应用平台,这样才能够有效提高政府政务水平。

参考文献

[1]郭兴军.试论大数据对电子政务的影响[J].科技致富向导,2013(19):172-173.

[2]谢婷玉.大数据背景下电子政务管理的新发展[J].信息技术与信息化,2015(09):139-142.

[3]王云庆,刘佳慧.大数据时代背景下我国电子政务创新模式[J].党政干部学刊,2013(12):36-37.

篇6

行业解决方案与时俱进

“一张CT扫描图像,就含有约150MB的数据;一个基因组序列文件大小约为750MB;标准的病理图的数据量接近5GB。如果将这些数据量乘以人口数量和平均寿命的话,仅一个社区医院累积的数据量,就可达数TB甚至数PB之多,而且其中还富含图像、视频等非结构化数据,更别说规模更大的医疗机构,甚至是地区医疗主管部门汇集的数据集了。”嘉和美康副总经理范可方摆出的数据充分说明原有行业解决方案急需针对大数据做出调整和升级,以满足医疗行业对数据处理的需求。

从建立大数据存储、管理和查询平台入手,嘉和美康不断优化应用软件和解决方案,以帮助医疗单位跨过大数据这道门槛。“大数据在医疗行业的前景和收益是嘉和美康最根本的驱动力,作为医疗行业信息系统的开发者和建设者,嘉和美康必须在产品上、技术上、应用上迈上一个大的台阶。”试想,小到辅助临床医生做出更为科学和准确的诊断和用药决策或帮助医院根据患者潜在需求开发全新个性化服务及自动服务,大到帮助研究机构实现突破性的医疗方法和药物革新或支持地区甚至全国医疗行业主管部门优化医疗资源及服务配置,这些美好规划实现的前提即是大数据好好为医疗行业所用。

“嘉和美康在电子病历的基础上,推出了新一代的临床数据中心系统――基于CDR的临床信息系统。” 范可方介绍,这个系统是面向临床的深度应用,基于CDR平台借助大数据处理技术推出的新一代产品。

携手英特尔

“和英特尔的合作是一个水到渠成的过程。早在2010年,嘉和美康就展开了基于Hadoop的研究,我们非常看重Hadoop技术。但是我们又非常困扰,Hadoop是开源项目,技术支持、产品交付过程中的调优、软硬件综合优化,嘉和美康都需要合作伙伴的帮助。” 范可方简单回顾了与英特尔达成合作的过程。他强调了几个因素:一是英特尔Hadoop商业发行版的开发工作是在中国进行的,这将对本土企业形成很好的支撑;二是基于通用x86架构开发的Hadoop系统,英特尔在软硬件的组合调优方面具备很大的优势;三是英特尔一直关注医疗市场里的最终用户并具备一定影响力,也就是嘉和美康用户的用户。

篇7

关键词:大数据;数字化学习环境;变革与趋势

中图分类号:G434 文献标识码:A 论文编号:1674-2117(2015)20-0086-05

前言

近年来,随着新技术的不断开发与互联网技术的飞速发展,人们正在进入大数据时代。联合国在2012年的大数据白皮书Big Data for Development:Challenges & Opportunities中指出,大数据时代已经到来,大数据的出现将会对社会各个领域产生深刻影响。[1]世界各国都高度重视大数据带来的机遇与挑战,因此投入了大量的人力、物力来支持大数据的相关研究。美国在2012年3月29日正式启动“大数据研究与开发计划”(Big Data Research and Development Initiative),提出“通过搜集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国家安全,转变教育和学习模式”,正式将“大数据”提高到国家战略层面。[2]

在教育领域,许多世界知名高校也启动了教育大数据的相关研究计划。为了更好地促进大数据为教育领域服务,美国教育部于2012年10月了《提升教与学:教育数据挖掘和学习分析报告》(Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics),旨在通过提升教育数据挖掘技术和学习分析技术,改变教与学的方式,实现教与学的提升与发展。

我国学者也逐渐意识到教育大数据对教育领域的重要作用,2012年岁末,教育科学出版社出版《教育数据挖掘:方法与应用》一书。它在大数据时代的背景下,指出致力于从大量数据中提取或“挖掘”知识的数据挖掘将有助于发挥教育数据的价值,数据以及数据挖掘可以作为审慎决策的依据。[3]随着移动终端等先进的网络设备逐渐进驻课堂,传统的学习环境已经演变成数字化学习环境,学生在借助数字化学习环境中的网络设备进行学习时,大量的学习行为被记录下来,形成了规模宏大的教育大数据。分析这些大数据,能有效促进学生在数字化学习环境下的学习。

基本概念

1.大数据

自2009年以来,IDC、Gartner、麦肯锡、普华永道和埃森哲等咨询公司,《纽约时报》《福布斯》《财富周刊》《斯隆管理评论》《技术评论》等商业管理刊物,以及《科学》《自然》等科学杂志,都连篇累牍地介绍了大数据。其中,麦肯锡认为,“大数据”将成为下一个创新前沿。[4]

麦肯锡全球研究院将“大数据”定义为“无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合”。“大数据”可以认为是“分析”的另一种表述,它是寻求从数据中萃取知识,并将其转化为商业优势的智能化活动。在大多数文献中“大数据”被总结为以下三个特征(即三个V)[5]:①容量大(Volume)。2012年,全球数据总量约为2.7~3.5ZB。而每秒钟通过网络传输的数据总量已经超过了20年前互联网的总存储量。②产生速度快(Velocity)。IBM将这一属性定义为数据进出的高速性,也可以将这一特性引申理解为对大数据迅速的处理能力以及决策能力的要求。③多样性(Variety)。大数据所包含的数据种类不仅有常规意义上的关系数据库或数据仓库数据,而且容纳了如图片、流媒体以及社会网络信息等在内的全新数据类型。

此外,大数据的“信息价值大与冗余信息多(Value)”这一属性也被众多学者纳入大数据的第四个特征。

2.学习分析

2012年10月,美国教育部的《提升教与学:教育数据挖掘和学习分析报告》将学习分析定义为,对学生学习过程中产生的大量数据进行解释,目的是评估学业进步、预测未来表现、发现潜在问题。数据来自学生的显,如完成作业、参加考试等;还有学生的隐,如在线社交、课外活动、论坛发帖,以及其他一些不直接作为学生教育进步评价的活动。学习分析模型处理和显示的数据帮助教师和学校更好地理解教与学。学习分析的目标是使教师和学校创造适合每位学生需要和能力的教育机会。

学习分析技术对学生、教师、管理人员、研究人员以及技术开发人员均具有重要价值。对学生而言,可以从学习者行为角度了解学习过程的发生机制,并用来优化学习,开展适应性学习、自我导向学习;对教师和管理人员而言,可以用来评估课程和机构,改善现有的学校考核方式,并提供更为深入的教学分析,以便教师在数据分析基础上为学生提供更有针对性的教学干预;对研究人员而言,可以作为研究学生个性化学习的工具和研究网络学习过程和效用的工具;对技术开发人员而言,可以优化学习管理系统。[6]

3.数字化学习环境

数字化教学应用环境的基础是多媒体计算机和网络化环境,最基础的是数字化的信息处理。所谓数字化的学习环境,就是信息化学习环境。这种学习环境,经过数字化信息处理具有信息显示多媒体化、信息传输网络化、信息处理智能化和教学环境虚拟化的特征。为了适应学习者的学习需求,数字化学习环境包括以下五个基本组成部分:①基础设施,如多媒体计算机、多媒体教室网络、校园网络、城域网、因特网等;②教育资源库为学习者提供经数字化处理的多样化、可全球共享的学习材料和学习对象;③平台向学习者展现的学习界面,是实现网上教与学活动的软件系统;④通讯是实现远程协商讨论的保障;⑤学习者进行知识构建、创造实践、解决问题的学习工具。

数字化学习环境中的大数据

数字化学习环境主要是基于网络的各种学习平台、学习工具、资源库,学生在教师的指导下在学习环境中进行个性化学习,他们在学习过程中的各种学习行为被记录在相应的学习系统中,下面围绕系统生成的数据内容和数据类型做具体介绍。

1.学习数据内容分析

学习数据内容主要是记录在电子教材系统、学习资源系统、作业与考试系统和互动交流系统中。其中,电子教材系统主要数据内容是交互式电子内容、知识管理和社会性阅读,记录了学生看过的知识点、对知识点的标记与管理等,生成了海量的学习内容序列节点数据;学习资源系统主要数据内容是课外阅读和课件点播,记录了学生看过的视频、浏览过的课件等,生成了海量的学习资源序列节点数据;作业与考试系统主要数据内容是作业练习和考试测评,记录了学生练习的试题及批阅的结果、答题时间等,生成了海量的练习测评序列节点数据;互动交流系统主要数据内容是互动答疑、学习社区和家校互动,记录了学生参与讨论互动等情况,生成了海量的互动交流序列节点数据。

2.学习数据类型分析

学生学习过程中生成的数据类型多种多样,主要有音频、视频、图片、动画和文本等资源。其中,视音频资源中的学习数据内容主要是教学视音频、微视频和网络视音频,生成的数据名称是结构化和半结构化数据;图片资源中的学习数据内容主要是网页图片和教学图片,生成的数据名称是结构化和半结构化数据;动画资源中的学习数据内容主要是Flas和网页动画,生成的数据名称是结构化和半结构化数据;文本资源中的学习数据内容主要是电子教材、课外阅读和教学课件,生成的数据名称是结构化数据。

大数据对数字化学习环境的冲击与影响

1.更支持个性化学习

个性化学习的实现对技术的依赖程度较高,因此在技术发展的不同时期有着不同的含义。学者曹晓明等对个性化学习的发展脉络进行了梳理,认为个性化学习从主张教学系统的智能型到自适应网络教学系统的应用,再到目前基于移动互联网络的支持个性化的学习情境和智能答疑等系统的开发。个性化学习内涵的说法虽然一直在变化,但个性化学习的实质是充分考虑学生的个体差异,为了更好地促进每位学生的全面发展而提出的。武法提教授及一些学者根据个性化学习的内涵及相关文献的分析,通过归纳整理认为个性化学习包括学习内容个性化、学习活动个性化、学习方式个性化和学习评价个性化。

目前,各种移动学习终端的普及为支持学生个性化学习提供了硬件设施的基础支持,学生在利用学习终端学习时,学习系统也记录了学生学习过程的大量学习行为数据,包括学习者学习能力、学习结果等关键信息,根据对这些信息的分析可以全面了解学习者的学习现状,如依据学习者有效登录时间和登录比值来分析学习者的学习意愿,用学习相关比例来分析学生是否利用线上讨论区进行闲聊而非学习的情况等。利用这些结构化、半结构化和非结构化的大数据进行学习分析,可以实现根据学生的个体差异推送个性化的学习资源和学习路径,以及对学习过程与学习结果的个性化监控、指导与反馈等。由此可见,基于大数据的学习分析使真正实现学生的个性化发展成为可能,为进一步支持个性化学习提供了新的途径。

2.促进协作学习环境建设

协作学习(Collaborative Learning)是以小组合作为组织形式,以掌握知识,培养学生合作互助、人际交往的技能为目标,以活动任务为载体,通过互动协作的方式进行学习的一种方式。与传统的学习方式相比,它能更好地发挥学习者的主动性和创造性,有利于学习者对知识的深化理解与运用,有利于培养学生的协作能力、与他人交往的能力等,顺应了时展对人才的要求。

协作学习环境包括协作学习的组织环境、空间环境、硬件环境和资源环境,应具备共享信息资源、提供交互工具、提供协作空间和个人学习空间的功能。小组协作学习的学习成果很大程度上依赖小组成员之间的协作互动,传统课堂环境下的协作学习主要是小组成员之间就某一问题或任务进行讨论,交流看法,是低效的小组协作。而随着多媒体、网络技术进入到普通课堂中,以及云技术、基于大数据的学习分析技术、增强现实等技术不断被应用在学习平台等系统的开发中,使目前的课堂学习环境越来越智能化、个性化。在这样的学习环境下,学生的学习场所不再局限于课堂之内,可以利用学习平台进行远程协作学习,也可以利用各种社交软件进行实时和非实时的交流,还可以从云端获取大量学习资源。与此同时,学生的协作学习行为和相关数据会被记录在学习系统和其个人电子档案中,如学生在某一界面的停留时间、登录时间、学生交流对话、学习结果呈现等信息,利用学习分析技术来分析这些大数据,可以了解到学生的协作学习情况,同时,这些反馈信息有利于教师教学系统的开发,有利于管理人员设计更符合学生协作学习需要的数字化学习环境。

虽然目前的研究者都意识到这些数据对学习环境建设的重要性,但是如何将海量的大数据进行分类并从中抽取重要的相关数据进行分析,仍是一大技术难题,正如著名的学习分析研究专家George Siemens在谈到如何分析学习情境时说的那样:“我们还没有恰当的数据搜集方法,数据搜集还是过多地依赖于按键、记录键盘和浏览器数据等,并没有跟踪广泛的学习情境。”[7]

3.优化数字化学习过程

信息技术在课堂中的广泛运用,不仅是为了促进教师的教,更主要的是为了促进学生自主知识意义的建构。李克东教授认为,“数字化学习是信息时代学习的重要方式,是信息技术与课程整合的核心,数字化学习的关键是要把信息技术作为学习的认知工具”。[8]学者张国英等认为,“数字化学习是指在教育领域建立互联网平台,学习者通过网络进行学习的一种全新的、能充分体现学习者主体作用的学习方式,它带给人们的不仅是获取教育资源的便捷,还是有别于传统课堂学习的崭新观念”。[9]关于数字化学习含义的说法可能不尽相同,但对数字化学习实质的认识基本一致,就是利用先进的信息技术更好地促进学生的学习和全面发展。

数字化学习过程是指学生利用先进的现代信息技术学习的过程。在这个过程中,信息技术的运用不仅有利于学生完成知识的获取,而且有利于培养学生的能力、发展学生的思维、提高学生的素质。数字化学习过程主要包含学习者、内容和资源三大要素,而数字化学习过程的优化具体包括学习资源、学习交流和学习过程中信息处理的优化。

在学生利用信息技术进行学习的过程中,学习系统会记录学生的具体学习行为,如学生学习日志、学习路径、学习成果数据、课程数据、学习管理数据等,这些数据构成了学生学习过程中的学习行为大数据,研究人员利用基于大数据的学习分析技术或教育数据挖掘技术对数据进行采集、存储和分析,可以获得学生的知识掌握水平、学习规律以及学习态度等非认知因素,有助于了解学生详细的学习过程。同时,教师借助这些信息可以对学生进行个性化资源推送与辅导,还可以对学生的学习结果有更细致的分析与反馈,使系统开发人员可以创设更符合学生学习特点的学习平台或资源库,让数字化学习更符合学生的学习特点,从而优化数字化学习过程。

4.对数字化学习评价的影响

传统的学习评价是指以学习目标为评价标准,利用课堂观察、问卷、测验等方式获得学生学习状况信息,并根据量化处理结果,对学生的学习状况作出判断。教师利用所获得的判断结果,不断调整教学过程与教学活动,保证教学目标的完成,为改进教学提供依据。可见,传统的教学评价试图通过教师不断改进学习策略来改善学生的学习结果,还停留在教师主导整个教学的认识阶段,而随着信息技术和先进的学习理论的广泛运用,学习评价不只是提供给教师改进教学策略,还应提供给学生个性化、可视化的评价,以促进学生自主知识的建构。

学生利用各种终端、平台进行数字化学习,这些学习系统中记录了学生在学习过程中的所有学习行为数据,这些数据在电子教材系统数据库、数字资源系统数据库、作业与考试系统数据库和互动交流系统中都有相应的记录。通过对学生知识点的掌握情况、学生写作交流情况、作业完成情况以及考试信息等记录的分析,教师可以对学生的学习进行深层次的评价,不仅能了解学生学习的不足,还能在此过程中发现学生学习的潜能,为学生、教师、学习系统开发人员提供有效反馈。

具体对学生学习评价的内容有课程内容学习评价、参与互动交流分析评价、考试与学习作品评价和课外资源学习评价。课程内容的学习评价主要是对学习过的知识点进行评价,评价信息包括学习时长、学习过的知识点、知识点学习次数和学习笔记等内容;参与互动交流分析评价主要是对学生的课堂活动及课外互动进行评价,具体评价信息包括在学习空间中问题的数量、答疑的数量,互动交流的主题数量等;考试与学习作品评价是对学生的学习作品和单元测验的评价,对学习作品的评价包括对个人作品和小组作品的评价;课外学习资源评价包括学生在正式和非正式学习的拓展资源中的评价,包括文本的下载量、视频的点击量等。

基于大数据的数字化学习评价,使学习评价走向多元评价和深层次评价,评价不再单纯依赖课堂观察和学习测验,而是根据学生学习过程中的学习行为进行评价,这样能观测到学生学习过程中更多的细节,给教师、学习系统开发人员、学生更详实的反馈信息,有利于更好地促进学生对知识的掌握和能力的发展。

结语

大数据时代的到来,极大地推动了教育信息化的深入发展。随着新技术的不断发展,各种移动终端、基于移动终端的学习平台、学习空间被广泛地应用在学生的学习活动中,学生在借助移动终端进行学习时,学习过程等被记录在各种系统上,这使得他们的大量学习行为数据能够被轻易获得。基于大数据的学习分析技术使得关注学生个性化发展这一诉求有了实现的途径,也使得为学生提供个性化资源、个性化学习评价等个性化服务成为可能。

参考文献:

[1]Big Data for Development:Challenge & Opportunity[OB/OL].[2012-05-01].http:///sites/default/files/Big Data for Development-UNGlobalPulseJune2012.pdf.

[2]Big Data Researchand Development Initiative[DB/OL].[2012-03-29].http://whitehouse.gov/sites/default/files/microsites/ostp/bigdata-press_release_final_2.pdf.

[3]页川.大数据时代背景下挖掘教育数据的价值――教育部科学技术研究重点项目成果《教育数据挖掘:方法与应用》出版[J].中国远程教育,2013(04):94.

[4]陈明奇,姜禾,张娟,廖方宇.大数据时代的美国信息网络安全新战略分析[J].信息网络安全,2012(08):32-35.

[5]朱东华,张嶷,汪雪锋,李兵,黄颖,马晶,许幸荣,杨超,朱福进.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理,2013(04):172-180.

[6]陆Z.大数据及其在教育中的应用[J].上海教育科研,2013(09):5-8.

[7]魏雪峰,宋灵青.学习分析:更好地理解学生个性化学习过程――访谈学习分析研究专家George Siemens教授[J].中国电化教育,2013(09):1-4.

篇8

关键词:大数据背景;档案利用服务;数据挖掘;文本挖掘

1.大数据时代来临

数据的爆炸式增长正在出乎人们的想象。据预计,2020年全球以电子形式存储的数据量将达35ZB,是2009年全球存储量的40倍。而在2010年年底,根据IDC的统计,全球数据量已经达到了120万PB。①人们不禁感叹随着信息化的逐步推进,我们迎来了大数据时代。

何谓“大数据”,目前没有统一的定义。通常认为,它是海量的非结构化数据。IBM公司把大数据概括成了三个V②,即Volume(数量大,通常以PB级别的数据量计)、Velocity(实时性,需要更短的时间处理数据)和Variety(多样化,以非结构化数据为主。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个V就是大数据的基本特征。

以某特大型企业档案馆为例,在“十一五”期间信息化规划项目统一推广实施档案管理系统的基础上,档案馆档案目录中心已将辖下各单位的档案目录信息进行集中管理、统一展现,建成了覆盖集团各单位,包含400余万卷案卷、4000余万件档案的全公司档案目录中心,馆藏存储量已由GB向TB级和PB级转变。同时,随着公司电子文件应用的推广,数字档案和全文数据库是数字档案馆藏资源的重要增长点,其数据量将呈几何级数增长,存储的数据总量成了名副其实的海量规模。另外,档案资源中存在大量的非结构化数据,例如扫描图像、传真、照片、字处理文档、电子表格、演示文稿、语音和视频片段等。

2.大数据背景下档案服务面临的挑战

与传统档案的馆(室)藏资源或者其它应用相比,大数据时代下数字档案馆馆藏量具有媒体形式多、数据量大的特点,但这些特点也给档案利用服务带来了新的挑战:

2.1挑战一——如何在海量数据中查询到所需要的档案信息

在大数据时代下,企业在各种业务活动中产生的数据和信息呈爆炸性增长,最终作为档案保存下来的文件也相应的增长。与过去信息贫乏的时代不同,在电子文件广泛利用和互联网高度发达的今天,信息泛滥同样给利用带来了困难。在过去,档案检索主要依靠手工著录、卡片检索,随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。但是在大数据时代,档案数量急剧增长,甚至出现了档案数据“胀库”的问题。③随着档案信息化建设的不断推进以及数据量的进一步增大,在进行档案查询时,往往需要的信息会被埋没在大量的不需要的数据中,并且检索性能急剧下降,甚至无法响应。因此,如何在大量的档案中快速而准确地找到所需的信息,是档案服务要解决的首要问题。

2.2挑战二——如何在海量数据中抽取和挖掘有用的信息和知识

知识管理是档案管理发展的趋势和方向,档案用户已不满足于仅限于数据或文件的利用,更希望能够获得数据背后的信息以及信息蕴藏的知识。因此,档案利用服务也应由提供数据、信息转变为提供知识。然而,知识不是自然生成的,知识也不是简单地存在于信息集合中,特别是蕴含在档案中的知识,需要经过抽取和挖掘才能展示出来。如何在海量数据中抽取和挖掘有用的信息和知识并提供给用户,是档案利用服务工作今后发展的方向。依靠人工抽取、挖掘知识,在传统纸质档案时代、档案数量不多的情况下还可实行,但在大数据时代海量档案存在、非结构化数据盛行的今天则会变得心有余而力不足。因此,依靠信息技术进行数据挖掘、知识挖掘才是解决之道。

2.3挑战三——如何在海量数据中进行档案资源二次开发并提供利用

档案的保存和管理是为了利用,在大数据时代,用户对档案资源的需求已不仅仅局限于原始的档案,需求变得更加个性化、多样化。这就需要通过对档案信息资源进行二次开发,制作多种形式的编研产品,并主动提供给用户。档案信息二次开发是指利用各种计算机技术、多媒体技术、通信技术等对档案及相关信息进行再次开发。④档案信息二次开发是档案资源信息再利用的升级,它所蕴含的信息量和信息价值将是无比巨大的,它是档案资源信息化开发的高级内容。在大数据时代下,档案数量急剧增加、档案类型多种多样以及非结构化数据的大量存在,给档案信息资源的二次开发带来了困难。一是如何在海量数据中选择有价值的信息并找出它们之间的关联,二是如何编研开发非结构化的档案信息,三是如何减轻档案开发人员的工作量。

3.数据挖掘——大数据时代下档案利用服务的必然选择

3.1大数据时代的档案业务流程转变

大数据时代档案数据的量大、形式多等实际情况,带来的无法找到、查询性能急剧下降、甚至无法响应等问题,利用传统的简单查询服务模式已经无法适应大数据时代的要求。通过优化IT架构,提高性能是解决性能的一个途径,而通过模式识别、数据挖掘等技术手段对海量的文本、多种媒体等形式非结构化数据进行开发和利用是应对上述挑战的有效方法。传统的档案业务流程主要包括收集、管理、保存、利用四个大的环节,档案利用直接采用原始数据。而在大数据时代下直接利用原始数据已经变得比较困难,因此,在利用前需要加入数据挖掘环节使得利用者可以在浩瀚的数据中马上定位到自己所需要的信息,从而提高档案服务质量。大数据时代下档案业务流程如下图所示:

图一大数据背景下的档案业务流程

3.2数据挖掘与文本挖掘的应用

如何从海量原始档案数据中发掘出有价值的信息和知识,满足不同档案用户的信息需求,数据挖掘技术(Data Mining) 将会起到巨大作用。广义上,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含的、事先未知的但有潜在应用价值的信息和知识的过程。④它的种类包括结构型数据挖掘、web 数据挖掘和文本数据挖掘等。在海量档案的信息挖掘中主要采用文本数据挖掘技术。

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中),产生结构化数据,并最终评价和解释输出。“高品质”的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。通过下面的图示我们可以对文本挖掘有一个直观的认识,文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;文本挖掘有两个主要应用领域,信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。

图一文本挖掘技术图示

总之,我们可以把对文本数据的分类、融合、压缩、摘要、以及从文本中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小范围,从而提高了效率和准确度。如,文本信息抽取是从文本数据中抽取人们关注的特定的信息。文本数据可以以句、段落、篇章为单位;抽取信息既可以以字、词、词组、句、或段落为单位,也可以是以上基本单位的组合。抽取信息可以是关于个体的(比如,人、组织、时间、地点),也可以是关于事实、事件、或个体间关系的。抽取的信息还可以作为文本数据的特征,用于其它数据挖掘处理。

4.档案资源数据挖掘及智能应用

为了适应大数据时代的特点,避免大数据带来的负面影响,利用数据挖掘技术来提高大数据背景下档案服务的质量迫在眉睫。

(1)基于音视频内容检索。可以直接对音视频内容进行检索,自动识别关键帧,能够区分定位出一个视频中的不同的两段内容,减轻人工打点的工作量,提高视频处理的能力。

(2)基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。

(3)档案智能化辅助分类。可从历史分类中智能提取档案分类,提高用户整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行学习,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。

4.2数据挖掘平台

数据挖掘管理平台架构于文本智能数据处理层上,其核心是建立在独特的信息论和概率论的基础之上的模式识别技术以及音视频识别技术,抽取概念和内容挖掘后,为提供多种的搜索应用服务。

因此,系统总体架构也是按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘及智能搜索应用平台三个层次实现,通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。

5.结束语

大数据时代档案数据的量大、形式多等特点带来的无法找到、查询性能急剧下降、甚至无法响应等问题,利用传统的简单查询服务模式已经无法适应大数据时代的要求。在此情况下,只有通过数据挖掘和文本挖掘,深层次发掘档案之间的关联,开发档案信息中蕴藏的知识,通过智能化处理平台主动推送给用户,才能不断满足用户日益增长的高层次、个性化的需求。(作者单位:国家电网公司)

注解:

篇9

【关键词】 大数据 无线网络优化 大数据 应用

大数据的到来,信息存储、收集和处理都无法靠传统的技术完成。大数据给信息产业带来了挑战,也带来了机遇,对于无线网络优来说,抓住大数据的核心特征,加大扶持力度,就可以发挥其积极作用。大数据作用于无线网络优化主要体现为数据变成一种经营模式,方便了新市场的开发。运营商同样可以根据需求进行内部升级改造,满足大数据使其的要求,支撑针对用户实现精准营销,确保企业利润。

一、实现无线网络优化-掌握大数据关键技术

1、无线网大数据技术介绍。大数据的关键技术包括数据存取和数据挖掘。其中数据存取主要是依靠分布式数据库来实现,而数据挖掘则是以大数据平台的搭建的实现,分布式数据挖掘技术就成为实现无线网络优化的核心技术之一。目前,大数据技术已经成为互联网等商战的一种标志,比较有代表性的是由基金会所开发的Hadoop。其主要应用于非结构化大数据存储和处理,完成分布式存储程序的建立。分布式文件系统使传统的服务器存储能力扩大。目前利用分布式文件系统,可以实现在X86服务器集群上运行,X86时分布式计算存储系统的基础,只有把握这一技术才能满足大数据技术的需求。HDFS 技术则采用主从结构,通过开源平台的使用,而从最终用户角度来看,HDFS技术帮助其顺利的完成了文件的创建、读取、删除或者修改等过程。HDFS集群是由多数Data Node 、少数Name Node和Client客户端组成。Data Node作为系统文件存储的基本单元,将固定大小的文件存入系统。并周期性的发给Name Node。利用Name Node来对系统的命名空间,信息复制以及信息存储进行管理。实际上,Name Node 就是整个系统的管理者。最后,Name Node将信息传给客户端Client,完成数据的读写工作。

2、分布式数据库技术的应用。大数据时代,大量的非结构数据可以采用分布式数据库技术来完成。这一技术能够对不同种类的数据进行统计,分布式数据库不同于其他类型的数据库,具有固定属性。HBase 是目前主流的分布式数据库平台,其特点主要表现为可靠性高、性能稳定、面向列,可伸缩性等,对于大数据时代下的非结构数据增多具有较强的处理作用。HBase于上文我们说的主从结构相似,Hadoop的HDFS 作为存储基础,将所有数据文件存储在HDFS 文件系统上。并委派Region Server进行管理。

3、采用分布式计算平台技术。随着信息技术的发展,分布式计算平台实现了多台设备的自己操控。分布式计算平台的开发和使用尚处于初级阶段,主要是在于它能够其核心技术还不完善,目前的分布式计算平台还无法直视单机普通程序的编写,也就是增加了开发者自行解决的难度。这给分布式计算带来了巨大的麻烦。而比较实用的平台为实时流计算平台与批量计算平台。典型的分布式数据挖掘算法有基于Gibbs 采样的LDA 算法、K-means 算法迭代式以及SVM 算法等。这一平台的主要特点是利用不同节点上的自动部署来完成数据处理。这样能够及时的对新数据进行处理,确保了数据的完整性,但批量式计算平台必然会存在一定的疏漏,并且能够对已经存在的数据进行重新整理,执行任务过程时,数据集合被分成若干模块,各模块分别启动任务,最后将多个任务处理结果汇总,得出分析结果。批量式计算平台的典型代表是Map Reduce,其将数据处理分成Map 和Reduce 两个阶段,将Map 将数据处理任务进行分解,得出结果。

二、无线网络优化中的大数据应用的问题

无线网络优化是对企业话务统计报表等数据进行核查的一种证明,围绕拥塞率、掉话率和接通率等指标来对网络的运行稳定性进行评价。并随之分析和找出网络运行的影响因素,通过优化技术结合大数据时代的特点来进行修复。确保无线网络质量明显改善,这样才能确保网络资源的最大化利用,提高企业受益,从而推进互联网时代的快速发展。对于无线网质量来说,网络容量的增加和使用者的增加等原因都使低质量保证难度增大。因此与对于我国无线网络优化来说,其最重要的任务就是顺应大时代的需求,尤其是数据非线性的增长条件下。如何实现无线网络的进一步维护是本文研究的主要问题。

三、总结

大数据时代,数据具有非结构特征,很难及时发现相同网络自检的联系。除了基础业务外,还要尽量尝试其他优化上,尤其是在电信运营商拥有丰富的数据资源和大数据能力,除了开展业务创新外,还应尝试将大数据运用于网络优化方面,尤其是在当前经济社会发展对无线网络质量要求越来越高的背景下。

基于此,本文突破性的提出大数据无线网络优化平台的构建,分析了其构建过程,对于如何利用好数据采集、存储、挖掘等技术开展,还需要相关人员进一步的努力。

参 考 文 献

篇10

关键词:大数据;中小企业;电子商务;课程体系;实践教学

随着大数据时代的来临,越来越多的企业开始意识到在电子商务中应用大数据的重要性[1]。我国国务院于2015年8月31日印发了《促进大数据发展行动纲要》,将加强大数据专业人才培养确立为国家大数据战略政策保障机制之一,提出了“开展跨学科大数据综合型人才培养,大力培养具有统计分析、计算机技术、经济管理等多学科知识的跨界复合型人才”[2]。中小企业是企业中的主体,占企业总数的99%以上。但对于中小企业而言,大数据人才的缺乏已成为制约其电子商务大数据应用的重要因素之一。面向中小企业培养电子商务大数据人才具有重要的意义,本文将在开展人才需求分析的基础上,探讨如何面向中小企业培养电子商务大数据人才。

1、面向中小企业的电子商务大数据人才需求与培养目标

自电子商务专业开设以来,人们针对电子商务人才需求[3-4]和培养[5-6]开展了大量研究。虽然电子商务技术发展迅速,但到目前为止一般还是将电子商务人才需求分为四类:运营类、技术类、销售类和综合管理类[4]。电子商务大数据人才总的来说是属于第二类,即技术类人才。通过其所开展的大数据分析,为其他三类人才的工作,包括运营、营销和管理应用提供支撑。调研表明,电子商务大数据人才本身因其侧重点不同又可以分为两类:一类是偏重于大数据分析平台建设和分析工具开发的研发人才;另一类是偏重于大数据应用,如提供决策支持、客户分析、营销服务等的应用人才。由于大多数中小企业通常不具备独立开展大数据应用开发的条件,而主要是应用第三方的大数据分析平台和工具,因此,面向中小企业的电子商务大数据人才以商业分析与应用人才为主,并需要少量从事第三方平台或工具开发的研发人才。基于以上需求分析,我们将中小企业电子商务大数据人才培养目标确定为:培养具有大数据意识和思维,熟悉大数据和电子商务的相关技术,能够熟练应用大数据分析工具开展电子商务相关的数据分析和应用,并具有一定的大数据分析软件开发能力的技术应用型人才。

2、面向中小企业的电子商务大数据课程体系构建与实施

2.1课程体系构建

从培养目标来看,中小企业电子商务大数据人才的知识能力体系可分为三个层次:第一层次,大数据和电子商务的前导知识和技术,即计算机、经济管理和数理统计基础知识和技术;第二层次,大数据和电子商务相关知识和技术;第三层次,电子商务大数据分析软件的开发和应用。在此基础上,可以构建如图1所示的电子商务大数据课程体系。由于电子商务和大数据技术的发展速度迅猛,且可能的实现技术比较多,为使得课程体系具有较强的通用性,我们在图中并未指定各方面技术具体使用什么软件。但每一方面技术目前都有一些主流的产品,我们在软件选择时一般应尽量选择当前的主流产品。如程序设计一般选择Java语言,数据库则建议选择Oracle,大数据存储和处理建议选择Hadoop,统计软件和大数据挖掘工具建议选择SAS,大数据软件开发建议选择R语言。

2.2师资队伍建设

电子商务大数据应用是一个全新的领域,综合运用了电子商务和大数据技术。根据电子商务大数据课程体系,电子商务大数据应用相关师资应当由两个方面组成:一方面是从事相关基础知识和技术的学科基础课程师资,如数学、计算机、经济管理等,这一部分师资由相关学科提供;另一方面是熟悉电子商务、精通大数据技术并能将二者结合起来的专业方向师资,这一部分的师资应当是由现在的电子商务专业教师承担,电子商务大数据师资建设的重点就是如何提升电子商务专业教师的大数据分析和应用能力。目前国内高校电子商务专业教师主要来自于计算机和经济管理两个方面。电子商务大数据应用重在大数据的商业应用,因此,对于计算机专业出身的教师而言,在深入学习掌握大数据技术的基础上,应加强商业运营与分析领域的学习;对于经济管理专业出身的教师而言,则需要在加强数据库、算法等计算机基础知识和技术的基础上深化大数据技术的学习。而对于所有电子商务专业教师而言,在深入掌握大数据技术后,需要结合大量企业案例开展大数据实践以提高实际应用能力,但单一中小企业显然难以提供大量数据和案例,因此,高校应积极与行业协会,通过地方的行业协会获取本地区众多企业的电子商务运营数据后进行大数据分析实践,这一方面可以提高师资实践水平,另一方面可以帮助广大中小企业利用电子商务大数据技术来优化生产经营。

2.3实践教学开展

电子商务大数据人才作为技术应用型人才,其实践应用能力的培养是最为重要和关键的。我们主要从实践教学体系构建、实验实训室建设、实习基地建设、实践教学组织几个方面探讨实践教学的开展。

(1)实践教学体系构建

电子商务大数据人才培养的实践教学体系由三个层次组成:第一层次是课程所对应的实验实训;第二层次是创新实践训练,其中包括课程设计、毕业设计和各类创新实践训练项目;第三层次是企业岗位训练,包括短期见习和毕业实习。

(2)实验实训室建设

为满足电子商务大数据实验实训教学需要,该专业的实验实训室应由三方面组成:其一,基础性的计算机和运筹统计实验实训室;其二,专业课程实验实训室,主要包括电子商务实验室和大数据分析实验室;其三,创新训练实验实训室,主要用于创新实践训练。其中计算机、运筹统计、电子商务的实验室建设都比较成熟。而大数据分析实验室的建设案例不多,创新训练实验室因其面向专业不同差异很大,在此我们主要讨论一下这两个实验室的建设。大数据分析实验室主要应包括多台用于数据存储与处理的服务器、电脑、移动终端等硬件设备及Hadoop、SAS、R语言等大数据存储、分析和开发的软件。创新训练实验室在服务器方面应尽可能与大数据分析实验室共享,并采用分组结构以方便小组交流合作,并配以必要的电脑、移动终端等硬件设备和大数据分析工具软件。

(3)实习基地建设

虽然需要电子商务大数据分析人才的中小企业数量众多,但每家企业的相关岗位都很少,这就给本专业的集中实习带来了一些困难。为解决这一问题,我们可以从三个方面着手建设实习基地:第一,与行业协会合作,以其为载体面向区域性的行业企业群开展实习基地建设;第二,与专业从事大数据分析的开发和应用的IT企业合作建设实习基地;第三,在对真实企业案例数据进行收集整理的基础上,建设仿真性的校内实习基地。

(4)实践教学组织

在实践教学管理方面,应邀请企业电子商务领域的高级管理和技术人才参与,建立由院系教学院长(主任)、企业高管、专业负责人共同组成的实践教学指导小组和由专业带头人、骨干教师、企业专家共同组成的实践课程建设小组。在实践教学师资方面,由于电子商务大数据分析的教学必须是理论与实践相结合,因而本专业的实验实训教学最好由理论课程教学老师来承担;同时,所有老师应全面参与到学生创新训练指导,通过这一指导过程,在培养学生创新应用能力的同时也提升了教师的实践能力和教学水平;此外,本专业所有老师应轮流参与实习指导,通过实习指导可以掌握企业对电子商务大数据应用的真实需求,从而推动教师在课程建设和校内实践教学更贴近实际应用。

作者:彭海静 李云 郦丽 单位:泰州学院计算机科学与技术学院 泰州学院实验实训中心

参考文献:

[1]王惠敏.大数据背景下电子商务的价值创造与模式创新[J].商业经济研究,2015(7):76-77.

[2]国务院关于印发促进大数据发展行动纲要的通知[EB/OL]

[3]邓之宏,邵兵家,段建.中国企业电子商务岗位人才核心技能需求研究[J].实验技术与管理,2012(11):136-140.

[4]孙鑫婷,王德林,姜瀚,李名丽,楚会仙.从招聘信息看电子商务专业人才需求特点[J].中国冶金教育,2015(3):24-27.