大数据技术社区教育平台建设探析

时间:2022-03-01 08:28:26

导语:大数据技术社区教育平台建设探析一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

大数据技术社区教育平台建设探析

【摘要】社区教育平台建设是社区教育的主要手段,随着不断发展,系统建设中隐含的问题逐渐显现。大数据平台是通过分布式文件系统、管理系统以及分布式数据库系统等一系列关键技术建设的网络平台,大数据技术所具备的超强的数据收集、存储、分析能力能为社区教育平台建设提供新的思路,能为社区教育的发展提供先进的技术支持。

【关键词】社区教育;大数据;分布式数据库Hadoop

1引言

社区教育数字化平台是社区教育的主要手段,它满足了社区居民大部分的教育诉求。随着社区教育平台的发展和用户的激增,各种应用数据无所不在,与用户学习行为相关的数据量急速增长,社区教育平台进入了“大数据”时代。然而,由于诸多因素造成了这些数据没有得到充分的重视和运用,丧失了对学习者的深度了解,摒弃了平台自身发展的优势,社区教育平台的发展正面临着大数据的挑战。

2社区教育平台建设现状

以河北省为例,社区教育平台建设至今已五年之久,发展迅速、运行效果良好、硬件基础比较完善、管理模式具体、推广颇具深度;目前十一家地市的社区教育平台半数以上具备了PC版和移动版同时运维的能力,丰富的学习资源覆盖范围广阔、知识结构权威、学习方式快捷,为广大学习者提供了一个良好的学习和交流的平台,得到了多方用户的称赞。但是,随着时间的推移,各平台出现了诸多类似的问题,比如用户上网行为不能及时管理,教学资源推送不能满足用户需求,大都与庞大的数据记录有关,这些问题是平台进一步发展的瓶颈,是不得不解决的首要问题。2.1平台缺少信息收集和分析处理功能。社区教育的主要特征是教育对象具有广泛性,不同的受众群体具有不同的教育诉求,这就需要社区教育平台提供不同的教育方式和内容,以满足广泛的兴趣需求和学习特点;目前平台对每名用户的学习行为和受教数据都没有综合收集和储存,无法通过这些具有个性化的日志资料分析学习倾向和需求,平台建设大多主观提供课程资源,甚至造成供需脱节,达不到平台建设的预期目标。2.2平台缺乏统一规划,信息存储不规范。目前,各平台都是独立运行,使得海量信息离散分布,并且信息的存储互不兼容,大量三分屏、单视频、PPT等资源闲置,几乎没有一个可执行的资源标准,无法形成聚合数据库。离散信息一方面造成重复的资源建设和信息冗余,另一方面限制了共享,不利于资源传播。2.3对于平台使用的关键技术,绝大多数沿用传统。CMS管理系统的结构,没有任何一个系统能够对平台运行过程中的数据全面存储、自动分析以为管理者提供决策和建设的依据,而作为社区教育平台运行过程中产生的大数据恰恰是平台运行的宝贵资源,对于受众对象和管理者都是不可忽视的。大量资源无人问津,系统点击深度低、缺乏粘合度,闭门造车开发出来的系统完全成了开发者自娱自乐的工具,学习者的真实需求不能满足,甚至有系统还在沾沾自喜于网站的点击率,殊不知这样的数据没有任何意义;从SEO角度看,各系统甚至没有个基本的分析系统,尽管系统满足了上千人同时在线,却对这些在线行为不能做出基础的收集、整理和分析。出现供需严重脱节现象的主要原因一是开发者没有做细致的需求分析,二是平台架构存在严重缺陷,而解决这些问题的重要手段就是在系统开发上充分利用大数据技术。

3基于大数据技术的平台架构和关键技术

大数据技术,就是从多种类型的数据中,快速获取有价值信息的能力,它是数据分析的前沿技术。与传统数据相比,大数据有几个特点:第一,数据体量巨大,为进一步的分析提供了充分的数据资料;第二,数据类型繁多,包含文字、图片、音频、视频、地理位置信息等;第三,处理速度快,可从海量数据中极速获取高价值信息,这也和传统的数据挖掘技术有着本质的不同;第四,数据可实现再利用和重复利用,以低成本或零成本对研究对象进行纵向历史比对和横向现实比对;第五,只要合理利用数据并对其进行正确的分析,将会带来意想不到的高价值回报。3.1大数据系统的架构。一个常规的大数据分析平台,必须能够做到可持续、可迭代开发的功能,可存储所有种类的数据,可进行各种需求分析,可实现大众化使用;同时,一个大数据分析平台还应该可以接入不同的开发工具,并且实现数据分析的图形化,可以在不同时间、空间等维度进行查询。大数据处理系统不管结构如何复杂,采用的技术千差万别,但是总体上可以分为几个重要逻辑部分,它们分别是管理子系统、数据加载系统、计算子系统、二次开发界面、直观的图形、报表和自定义分析工具、提供多种服务的对外接口。大数据系统涉及到的人工协议和交互中,大致分为系统协调者、系统提供者、大数据应用提供者、大数据框架提供者、数据消费者,这五个角色的活动都要受到安全和隐私角色的影响,通过不同的技术手段和安全措施,构筑大数据系统全方位、立体的安全防护体系。3.2大数据系统关键技术。大数据环境下的关键技术主要是针对不同格式的海量数据存储和海量数据的运算及分析,这其中包括数据收集、预处理,分布式文件存储、文档存储、列式存储等,另外还包括数据分析挖掘、数据共享、数据呈现。数据呈现是大数据应用的直接方式,通过一系列数据处理,最终由用户通过简单明了的界面服务平台形成可视化的图形报告或者是数据报表、数据检索、数据渲染等。大数据收集需要从不同的数据源实时或者及时的手机不同类型的数据并传送到存储系统或者预处理系统进行后续处理,数据收集一般可分为设备数据收集和web数据爬取两种。数据预处理有助于提升数据质量、减少噪声数据、防止数据缺失和数据冲突的影响,是后续数据处理分析和可视化过程更加简洁有效。分布式存储访问方式是大数据存储的关键技术,它具有成本低、效率高、容错好等特点,在很短时间内磁盘、磁带等存储介质将成为大数据分布式存储的主要媒体。与分布式存储相关的就是分布式数据处理技术,它由Hadoop数据库提供基础框架,采用分布式内存计算和流计算方式,成为各个行业比较成熟的大数据处理方式。大数据分析技术包括对已有数据信息的分布统计分析技术,以及未知数据信息的分布式挖掘和深度学习技术。数据可视化运用图形学和图像处理技术,将数据转化为图形或图像在屏幕上显示出来,并进行交互处理,为金融、通信、商业、教育、医疗提供决策依据,这已经成为数据可视化的新热点。

4应用好大数据技术有效提升社区教育平台性能

大数据经过科学分析后,能够具有更强的决策力、洞察发现力和流程优化能力;大数据时代的到来能够改变人类看待和使用数据的方式,改变已有的教育模式。针对社区教育领域,大数据更有其独特的优势,采用大数据技术的社区教育平台功能更加完备,使用体验更加人性化,目前比较成熟的大数据分析平台有IBM的InfoSphere、Oracle推广的BigDataAppliance和Sybase常用的IQ系统以及使用较为广泛的微软公司的Hadoop系统,在这些技术平台的支撑下社区教育平台建设将揭开新的一页。下面以Hadoop为例介绍如何使用大数据技术为社区教育平台服务。Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是一种可靠、高校、可伸缩的数据处理方式,它以并行计算的方式假设PB级的计算元素和存储失败,从而形成多个工作数据做副本,确保能够针对失败节点做重新分步处理,Hadoop还依赖于社区服务器以形成低成本运算模式,而MapReduce正是谷歌提出的云计算的核心计算模式。Hadoop系统=HDFS(文件系统)+HBase(数据库)+MapReduce(数据处理)+Others。通过下图来看一看海量数据架构是如何通过大数据运作处理机制来实现可视化的。从上至下分别是:数据源、计算层、存储层、查询层、产品层。数据源存放着平台所有行为数据,通过DataX,DbSync和Timetunel准实时的传输到Hadoop集群,在这里系统对每天产生的数据产品进行不同的MapReduce计算,下一层是分布式存储集群辅助系统,我们可以采用基于MySQL的MyFox,还可以采用基于HadoopHbase技术的叫做NoSQL的存储集群,MyFox一个重要的功能就是为数据产品提供查询功能,每个产品具有唯一一个URL来获取想要的数据,这里应用的是最常见的HTTP协议,每一个数据产品就是一个大数据应用,它们为数据消费者提供直观的操作界面,呈现图形化数据。

5结语

应用了大数据技术的社区教育平台不仅能推送个性化教学资源,满足学习需求,在功能体验上,除了具备搜索排序体验,LBS定位功能,资源多样化以及交互功能外,还要实现资源利用最大化,学习行为自主化,学习形式交互化等等,但也不是万能的,不是能够实现所有的需求和目标,比如大数据技术不擅长社会关系分析、不擅长上下文情景分析、产生过多的发现、不擅长处理真正的巨型问题、数据分析的结论往往基于大众偏好,甚至有时原始数据往往会被扭曲,造成样本缺乏代表性、相关性误差较大、过于故事化等等;当然还有一个重要的问题,就是大数据与隐私,大数据中包含着每个人的小数据,这些数据经过进一步分析既能知道你的爱好,也能知道你的下意识行为倾向,如果据此来判断一个人的未来,是否会重演大片“少数派报告”的场景,我们现在还不得而知。

【参考文献】

[1]韦书令,文梦丹,邓孟红.大数据视野下社区数字化学习平台的应用策略研究[N].广西广播电视大学学报,2018-05-25.

[2]曾浩宇.基于LBS社区系统的大规模数据集协同处理系统的设计与研究[D].北京邮电大学,2014-12-27.

[3]卢昀.云计算社区教育应用探讨[J].教育信息技术,2015-10-20.

[4]黄俊健,白伟华,梁莉筠.智慧协同校外教育云服务平台的研究与建设[N].科技创新导报.

[5]吴文峻.面向智慧教育的学数据分析技术[J].电化教育研究,2017-06-01.

[6]罗治情,官波,陈娉婷,吴亚玲,沈祥成.“三农”数据云平台设计研究[J].江苏农业科学,2018-09-25.

作者:张辉 李俊梅 单位:衡水广播电视大学