大数据分析论文范文
时间:2023-03-24 09:27:07
导语:如何才能写好一篇大数据分析论文,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。
1.1数据采集
大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。
1.2数据处理与集成
数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。
1.3数据分析
在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。
1.4数据解释
数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。
2云计算与大数据分析的关系
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。
3基于云计算环境的Hadoop
为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。
4实例分析
本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。
5结束语
篇2
关键词:大数据分析;内部审计应用
近年来,大数据应用更加广泛,它改变了固有的数据分析方式,将企业经营以及与之相关联的企业和客户信息进行收集和分析,通过新的思维处理数据与技术的难题。据调查显示,目前我国很多优秀企业都将大数据作为新一轮经济增长点,从2012年开始就实现了持续增长,成了企业市场经营的巨大资料库,提高了企业的整体技术水平和竞争能力。具体而言,大数据分析是一种能够从各类信息中快速提取有用数据的一种新技术,对内部审计工作来说具有的意义不言而喻。下面就从大数据分析给内部审计带来的机遇和挑战入手,从实际出发做好应用性审计,带动审计工作发生质的飞跃。
一、大数据分析给内部审计工作带来的机遇和挑战
(一)审计目标信息化技术使用的初期,内部审计工作依赖计算机技术,可以通过对数据的观察和分析找到审计中存在的问题,为具体工作的开展提供参考。大数据分析技术的应用则将审计工作带到了新的高度,它不仅能够发现问题,还可以对风险进行评估,对效益进行分析,及时发现审计工作中存在的问题,降低内部控制风险,为企业发展做出预测性思考。(二)审计内容数字是传统内部审计工作参考的重点,包括营业收入、费用支出、税收情况等等。大数据分析则突破了原来数字化的限制,基本内涵和审计的内容不断向外延展,打破了传统数据结构化的样式不足,在不同的时间范围内可以生成复杂多变的数据,其中包括文本、音频、视频、xml等,构建出了审计的立体化方法。(三)分析技术大数据分析与内部审计应用的结合,最大的改变就在于技术的更新,大数据分析可以实现大数字的整合,从五大技术方面进行了完善。即可视化分析、数据挖掘算法、预测性分析、语义引擎和数据质量与管理。这些新技术可以通过标准化的形式,建立数据新模型,提取隐藏起来的内部审计信息,利用图表展示数据分析的全过程,并做出前瞻性的判断,从而提高数据的分析准确性。
二、大数据分析内部审计的方式
首先,数据验证性分析朝着数据挖掘性分析转变。即由原来的多维分析验证数据变为挖掘性技术的使用,将数据仓库和模型构建起来,做好聚类分析,找到规律性内容,并提取关联性数据。例如,在电力审计过程中,可以建立起专门的数据资料库,找到电力使用的具体数据,分析用电情况。其次,审计方式由事后发现问题变为风险预警。企业经营难免会遇到各种风险,对市场形势进行分析,将可能存在的危机控制在萌芽阶段,是大数据分析有别于传统分析模式最大的特点。另外,大数据分析可以早期关注经济运行情况,发掘数据敏感性波动,并集合社保审计、债务数据、经济宏观运行数据,实现信息库的交叉使用,提升数据分析水平和审计能力。最后,单机审计向云审计方法的转变。云审计是基于云数据库设立的数据平台,它依靠的是中心统计分析,通过网络与“云”的对接,对审计成果进行共享。与此同时,在大数据分析云计算实施的过程中,必须坚持技术的创新与发展,建立预算、财务、执政一体化策略,设立专门的数据平台,提高信息化技术审核的质量,做好宏观分析。
三、大数据分析在内部审计中的应用
大数据分析与内部审计的综合应用是信息时代技术演变的新手段,在与内部审计结合使用的过程中必须坚持全面化使用,从制度流程、机构人员、审计业务以及技术上做好配合,全面推行新的审计方法。(一)创新大数据工作模式创新是进步的源泉,大数据分析的推行,与内部审计工作的结合,都必须坚持创新原则,对预算执行审计有一个全面的认识。传统的孤立审计已不适应大数据审计的要求,需要打破部门之间的界限,以审计项目为管理主线,成立大审计组,进行扁平化管理。结合各预算部门的财务数据,发现是否存在预算项目在连年结转的情况下仍然安排新增预算、造成资金闲置的问题。通过对数据进行宏观整体分析,发现是否存在预算执行效率不高、分配下达预算不及时、拨付转移支付资金超期等情况。(二)完善跟踪审计方式通过建设审计数据综合分析平台,搭建关系国计民生的重点行业联网审计系统,用Hadoop等专业工具处理半结构化、非结构化数据,规范高效地汇集和处理大规模数据信息。例如,在地税审计中,可利用地税联网审计系统,集中进行全省地税数据整理分析,探索“数据集中采集、集中统一分析、疑点分布落实、资源充分共享”的大数据审计模式,实现全省联动审计。此外,还要对资金分配结构、资金使用流向、资金管理情况进行总体分析,全面反映预算执行整体情况,实现对预算单位的审计监督全覆盖。(三)实现多数据融合,落实经济责任审计运用关联分析,找出数据间的相互联系,分析关联规则,发现异常联系和异常数据,寻找审计疑点。在经济责任审计中,可利用财政、税务、社保、培训等数据在横向和纵向之间都做好关联性研究,做好数据的全面跟踪分析,实施和推行经济责任审计模式,提高审计效率。另外,在深入挖掘数据过程中,还要利用数据仓库和模型分析统计数据变动信息,分析关联性内容,对体制机制性问题开展研究,挖掘行业性和趋势性问题。
四、结束语
综上所述,大数据技术的发展对审计工作提出了新的、更高的要求,也为审计提供了新的工具。传统的大数据分析与内部审计工作的结合不够紧密,技术应用不够突出,且人才缺失。基于大数据分析的新情况,内部审计工作必须从数据、资源、人才方面逐步积累资源,创新大数据分析的思路和模式,研究技术发展的情况,并建立覆盖公司业务流程的审计信息化管理系统,使公司各业务线在统一、透明、标准的审计监控下阳光运行,确保大数据在内部审计中的高效应用。
参考文献:
[1]王磊.数据挖掘技术在保险公司内部审计中的运用研究[D].山东财经大学,2015.
[2]梁秀根,黄邓秋,蔡赟,魏连涛,梁国平.持续审计结合数据挖掘技术在内部审计中的探究和应用[A].全国内部审计理论研讨优秀论文集(2013)[C].2014:10.
篇3
统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文
摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。
关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩
为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。
一、数据选取
回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。
选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。
二、建立多元线性回归模型1及数据分析
运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:
(1)
线性回归模型通常满足以下几个基本假设,
1.随机误差项具有零均值和等方差,即
(2)
这个假定通常称为高斯-马尔柯夫条件。
2.正态分布假定条件
由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。
从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。
回归分析期末成绩y1的多元回归模型1为:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。
三、后退法建立多元线性回归模型2及数据分析
从模型1中剔除了x2变量,多元回归模型2为:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。
四、结束语
通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。
通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。
统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文
摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。
关键词:统计学专业;数据挖掘;大数据;教学
一、引言
通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。
二、课程教学探讨
针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。
(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。
(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。
(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。
(4)充分考虑前述提到的三点,课程内容计划安排见表1。
(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。
三、教学效果评估
经过几轮的教学实践后,取得了如下的教学效果:
(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。
(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。
(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。
(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。
教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。
篇4
1 大数据时代已悄然来临
大数据(Big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通常大数据只有通过分析才能获取很多智能的、有价值的信息。因此,大数据分析对于高校档案管理有着无可取代的作用。大数据分析的理论核心是数据挖掘算法,各种数据挖掘的算法基于不同数据类型和格式才能更加科学地呈现数据本身具备的特点,才能深入数据内部,挖掘出公认的价值。尤其在档案管理上深入大数据分析将对工作带来更大的?r值。
2 当前高校档案管理工作状况及大数据在高校档案管理的建立和应用
目前,由于对档案管理工作重视程度不足,高校内仍然缺乏相应的档案管理硬件设施,个别部门的档案人员甚至处于狭小潮湿的办公区域,档案库房区、办公区、阅览区不能分开。很多档案管理人员身兼数职,网络化、数字化的档案管理更是无从谈起。传统的档案管理信息零落、复杂、不能共享。这样间接地浪费了档案资源,还造成了原始档案信息的流失,从而影响了档案信息化的发展水平。因此,高校档案管理信息化的建立已势在必行,进而为广大师生提供新信息上网、电子邮件交流、联机公共目录查询等服务,通过提供定向、定题的交互信息咨询,提升档案管理的服务能力和质量。
3 大数据时代对高校档案管理工作的影响
大数据时代对高校档案管理工作的影响,第一是有助于原始档案文件的保存。传统的档案文件常常以纸质档案、照片、录音、录像档案的形式出现,岁月的沉淀和档案人员的更新换代,常常会因为某些主客观因素的出现,而阻碍了高校档案的开发利用。
第二是有助于加大档案的开发利用程度。随着大数据在档案管理工作中的有效应用,对传统档案实施有选择和有步骤的数字化,为档案网络信息的存储、检索和利用提供数据基础。通过大数据时代与档案管理的结合,使档案实体和档案信息实现了自动化管理,节省了大量的时间和人力资源,为开展档案的科研工作创造了有利的条件。
篇5
摘要:大数据时代思维方式讲究思维主体上的协同合作、思维客体上的综合运用、思维中介上的工具开发。数据应用的侧重点由感官理性转向了证据理性,由单一结论转向了个性化分析判断,从被动获取转向了主动预测。它势必在数据处理习惯、数据潜在价值挖掘和数据价值分析利用上对高校专业建设造成冲击,并在专业建设数据挖掘力度、数据平台搭建以及专门数据分析人才的培养方面提出相应要求。
关键词 :大数据 思维方式 专业建设
高校专业建设汇聚着大量的信息,从学生角度来看,包括专业必修课、专业选修课、专业必修学分、专业实践、课程作业、专业成绩等各种信息;从教师角度来看,包含专业教学任务、课件等教学信息,专业论文著作、科学研究数据等科研信息;从管理者的角度来看,包含学科专业的分布、专业的数量规模、专业的招生就业、专业预警等信息。随着移动互联网以及物联网等新技术的兴起,人们主动产生和由设备自动收集的专业信息必将越来越多。它们共同存在着数据量大、结构复杂、产生频率快的特点,毫无疑问,高校专业建设思维必将受其影响。2015年,教育部高等教育教学评估中心启动了教学基本状态数据库采集的行动,标志着大数据正大步向高校进军,其触发的思维革命与方式转变正大力冲击着高校教学管理的固有模式。因此,有效运用大数据时代思维方式探索高校专业建设发展途径,有效预测和分析专业建设走向,是高水平大学走向现代化治理的必然趋势。
一、大数据时代的特点及思维方式
维克托·迈尔·舍恩伯格在《大数据时代》一书中,解读了大数据的4个特点,即大量(Volume)、高速(Velocity)、多样(Variety)、真实(Veracity),简称4V。但他同时又提醒到,大数据延伸的另一个特点是更多和更乱。如果无法顺畅理清各种数据间的关联性,我们将在它的时代中迷失。舍恩伯格强调,在庞大的数据面前保持清晰的头脑,理顺思维方式更为重要。他说,大数据时代思维方式是:每天早上起来想一下,这么多数据我能用来干什么,这些价值在哪里可以找到,能不能找到一个别人以前都没有做过的事情,你的想法和思路,是最重要的资产。他提示我们,转变惯有的思维方式,将成为获取数据价值和创新行为方式的前提与根本。
数据是死的,人是活的,要让死的数据说话,就必须发挥人的主观能动性,用活人的思维。有学者从思维主体、思维客体和思维中介等方面分析大数据时代应具备的思维方式结构,认为在大数据时代面前,个体思维者在思维主体上需要从精神生产的过程中寻求协同合作,由个人的思维活动转化为集体思维活动;在思维客体上要侧重挖掘隐藏在数字背后的深刻的内涵,实现突破性的科学预测和科研活动,实现全方位、多角度的综合思维;在思维中介上要寻求有力工具,运用多种信息加工手段和方法,提高数据存储和处理速度的准确性和可靠性。并以此得出敏捷性、开放性、前瞻性和个性化是大数据时代思维方式的代表特征。
二、大数据时代思维方式对高校专业建设的冲击
一是对数据处理习惯造成冲击。按照以往数据管理和处理的方式,无论是管理者还是管理对象,都无法及时有效地搜集和应对层出不穷、错综复杂、始料未及的专业建设数据。一种处理的方式便是被动获取和被动应付,让数据不断累积或流失,然后定时清空或有意遗忘,无法真正有效挖掘数据的隐藏价值,造成“数据浪费”。其原因在于人们的思维尚未适应大数据时代的洪流,尚未意识到在大数据面前,个体的思维主导和思维对象以及所能利用的思维中介早已超出了固有的范畴习惯,如不转变数据处理的思维方式,改进处理数据的思维习惯,管理将陷入低效和混乱的境地,协同创新将举步维艰。
二是对数据潜在价值的挖掘造成冲击。以往对专业建设数据的挖掘通常采用直线型的方式进行。就高校教育管理层来说,专业建设数据往往是自下而上获得,通过各学院、专业的报送来获取第一手专业数据。就专业本身来说,其建设数据的获得一般采用实时获取、延时存储、滞后分析的直线型关系模式进行。而大数据时代下要求我们从时空的立体角度对专业数据的潜在价值进行深入挖掘。按照挖掘的任务,一项数据的挖掘包含了对数据的时空聚类、时空分类、时空异常检测等过程,并逐步深入探讨对数据挖掘的频繁模式、周期模式、共现模式、关联模式等主题的研究,以图架构起科学的数据挖掘系统。例如,通过高校选课平台,长期跟踪学生选课科目,通过有效数据的挖掘,得出该时间段学生对某一学科领域的兴趣度数据,继而对某一专业所在的选修课的开设广度和深度进行判断,同时也可以为开课教师的教学效果评定提供有效数据证明。
三对数据价值的分析利用造成冲击。大数据的应用核心是大数据预测:通过对各方面的数据分析利用,提前预判即将到来的事件。那么,通过对专业建设时空数据的挖掘,运用相关技术进行关联分析,可以极大地提升专业建设的预测能力,达成科学的专业预警机制和专业规划方案。它一改以前高校对于专业发展预测的理论与感性判断,采用实样而非抽样,效率而非精确,相关而非因果等相互关系,用数据和事实说话。例如,在探索专业分流的问题时,学校可利用图书馆借阅平台,从新生入学第一天起,记录其借阅图书的数量、频率、种类、周期等行为数据,通过时空聚类和共现模式对数据进行深入挖掘,就可以大致预测该生的学科兴趣和专业爱好,继而判定其可能感兴趣的专业,将之提供给学生,作为其挑选专业的参考数据,对于解决学生专业选择的盲目性和未来专业旨趣有很大助益。由此,学校的专业定位将被提前明确并适时调整,个性化专业分流及因材施教将得以可能。
三、大数据时代思维方式对高校专业建设提出新的要求
首先,要求加大专业建设数据挖掘力度,提升专业建设数据的实用价值。高校在专业建设过程中产生了形形的数据,就专业内在结构的角度来看,包括专业数量,专业定位,课程设置等信息。从专业外在价值的角度来看,包括专业满意度、专业兴趣度、专业课程设置、专业实践安排、专业教师配备等信息,这些数据的获取、监控和分析直接关系着专业建设的走向,通过获取这些关键数据,从大的方面来说,可以预测专业定位和人才培养的成效;从小的方面来说,可以及时有效获得课程体系和师资力量等有效数据,进一步提高教育教学质量。因此,改变以往被动式的搜集专业数据的习惯,深入挖掘专业建设带来的各种数据,可以有效提升专业建设数据的实际效用。
其次,要求搭建专业建设数据平台,拓宽专业建设数据获取途径。良好的数据挖掘需要科学数据获取的平台,否则无法科学共享数据和分析数据的意义,这就需要找寻到一个专业的数据实用工具,搭建一个专业的数据平台。以复旦大学为例,该校从2012年开始建立和逐步完善校级统一数据仓库,在数据仓库的基础上,建立了包含面向师生在内的多类的主题数据展示系统,包括人员信息类(教职工信息统计、学生信息统计、本专科生基本信息查询、教职工基本信息查询、研究生基本信息查询)、科研类(文科科研数据分析、教师学术表现)、教学类(研究生成绩分析、招生数据分析、本科生生命周期数据分析)、综合服务(一卡通分析、图书馆客流分析、综合校情展示、其他信息)、学生工作(宿舍数据统计、宿舍使用情况统计)、报表类(教育部高基报表)等。[ ]形成了在业务管理,教学资源,网络行为三个层面以数据化为着眼点,以“人”为中心的数据索引和存储模式。既实现了数据共享,又促进了业务融合,同时也为教育决策提供服务支持。近期教育部组织各高校完善教学基本状态数据库采集的举措,将对专业建设数据的监控宏观调控起到重大作用,某种程度上佐证了数据平台搭建的必要性。
最后,要求培养专业建设数据分析人才,深入分析专业建设数据意义。大量数据的堆积并不能直接产生效益,所谓外行人看热闹,内行人看门道,研究表明,仅有少量的数据能被挖掘用来解决实际问题,很多复杂、重要的问题要依靠数据处理、数据集成和数据质量来解决。这就要求校园信息化中做数据分析的人员需要具备既懂得数据、又懂得业务的复合能力,能将业务带入到数据剖析过程、将技术传递给业务人员。从而建立起大数据管理的良性生态。因此,培养专业化的数据分析人才显得尤为必要,高校专业建设也不例外。当数以万计的专业建设数据蜂拥而至的时候,如何更好、更科学有效地获取、存储、分析、挖掘和利用它们,非专业化人员无法有效实现。有鉴于此,部分院校已在尝试开设大数据采集与管理专业,意图培养专业的大数据分析人才。而在国外,如美国,围绕大数据的开发和应用,早已形成了专门的职业,用来专业挖掘数据的意义。所以,在教育管理层面上尝试培养专门的专业建设数据分析人才,对于专业建设发展有着深远的意义。
参考文献
[ 1 ] 张燕南等. 大数据时代思维方式对教育的启示[ J ] . 教育发展研究,2013(11):2-3
[2]吉根林等.面向大数据的时空数据挖掘综述[J].南京师大学报·自然科学版,2014(3):3
[3]吕本富等.大数据预测研究及相关问题[J].科技促进发展,2014(1):61-62
[4]赵泽宇等.复旦大学:大数据促进服务模式转变[J].中国教育网络,2014:69
篇6
关键字:大数据 情报研究 情报研究技术
中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2012)06-0001-08
1 引言
当数据和黄金一样,成为一种新的经济资产[1],当科研处于以数据为基础进行科学发现的第四范式[2],当数据开始变革教育[3],这些无不宣告着我们已经进入了大数据(big data)时代。不同的学科领域,正在不同的层面上广泛地关注着大数据对自己的研究和实践带来的深刻影响,情报研究领域也不例外。
大数据,顾名思义是大规模的数据集,但它又不仅仅是一个简单的数量的概念,IBM公司指出,大数据的特点是4个V:Volume(大量)、Velocity(高速)、Variety(多样)及Veracity(真实),它提供了在新的和正在出现的数据和内容中洞悉事物的机会,使业务更加灵活,并回答以往没有考虑到的问题[4]。Gartner公司的报告也提出,大数据是大容量、高速和多样化的信息资产,它们需要新的处理方式,以提高决策能力、洞察力和流程优化[5]。
由此可见,大数据强调的不单纯只是数据量多少的问题,其背后隐藏了更为复杂和深刻的理念,这些理念包括:①将对数据和信息的分析提升到了前所未有的高度。这里的分析不是一般的统计计算,而是深层的挖掘。大数据时代,如何充分利用好积累的数据和信息,以创造出更多的价值,已经成为企业管理者、政府机构以及科研工作者首要关注的问题。“业务就是数据”、“数据就是业务”、“从大数据中发掘大洞察”等意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代。②多种数据的整合和融合利用。大数据时代,数据的多样性是一种真实的存在,数据既包括结构化的数据,也包括非结构化的数据,表现方式可以是数据库、数据表格、文本、传感数据、音频、视频等多种形式。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在知识。只有如此,才能真正地提高数据分析的科学性和准确性。③更加广泛地应用新技术和适用技术。数据量大(Volume)、类型多样(Variety)、增长速度快(Velocity)是大数据的突出特点,这必然会带来数据获取、整合、存储、分析等方面的新发展,产生相应的新技术或者将已有的技术创新地应用于大数据的管理与分析。同时,大数据的这些特点也决定了传统的、以人工分析为主的工作模式将遇到瓶颈,计算机辅助分析或基于计算机的智能化分析,将成为大数据时代数据与信息分析的主流模式。
对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作正在得到空前的重视,大数据为情报研究的新发展提供了机会,从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,将极大地促进情报研究理论与实践前进的步伐。另一方面,大数据时代本身也要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足到以往作为专门领域的情报研究之中,并将其作为本学科的重要组成部分加以建设。文献分析(本质是文本分析)不再为情报研究所独占,以往情报研究领域积累的相关理论和方法很有可能优势不再。因此,如何把握住自身的优势,并抓住机会有所拓展,是情报学在大数据时代需要思考的问题。
2 大数据环境下情报研究的发展趋势
大数据带来的新观念,正在引报研究的新发展,而且,研究人员也在不断地从情报研究的实践中总结经验教训,引导情报研究的未来走向。英国莱斯特大学的Mark Phythian教授在2008年10月作 了题为“情报分析的今天和明天”的报告[6],指出:①获知情境是至关重要的。忽略战略环境、领导风格和心理因素等更为广泛的问题,将导致情报研究的失误;②要加强信息之间的关联。美国政府部门内部的信息共享障碍,致使分析人员无法获取充足的信息来支持分析活动,导致情报研究中的预测失败;③要汲取更多外界的专业知识。这一举措虽然不能保证分析的成功性,但将是竞争分析的重要信息来源。
综合大数据背景的要求和以往情报研究的经验教训,结合国内外同行的研究成果,本文将情报研究的发展趋势总结为以下五个方面:单一领域情报研究转向全领域情报研究;综合利用多种数据源;注重新型信息资源的分析;强调情报研究的严谨性;情报研究的智能化。
2.1 单一领域情报研究转向全领域情报研究
随着学科的深入交叉融合及社会发展、经济发展与科技发展一体化程度的增强,情报研究正从单一领域分析向全领域分析的方向发展。
首先,表现在各领域中的情报研究从视角、方法上的相互借鉴。从方法上看,社交网络分析方法、空间信息分析等其他学科的分析方法,广泛应用于军事情报、科技情报等领域,心理学等领域的理论也用于情报分析的认知过程,以指导情报分析及其工具的研发。同时,情报学中的引文分析等文献计量方法也被借鉴用于网站影响力评估。从技术上看,可视化、数据挖掘等计算机领域的技术,为情报研究提供了有力的技术视角,情报研究获得的知识反过来又给予其他技术领域的发展以引导。可见,无论从思想上、方法上、技术上,各领域之间的交叉点越来越多,虽然这种相互借鉴早就存在,但现在意识更强、手段更为综合。
其次是分析内容的扩展,这也是最为重要和显著的变化。在情报研究过程中,不仅仅局限于就本领域问题的分析而分析,而将所分析的内容置于一个更大的情景下做通盘考虑,从而得出更为严谨的结论。联合国的创新倡议项目Global Pulse在其白皮书“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是关键,基于没有代表性样本而获得的结论是缺乏外部合法性的,即不能反映真实的世界。在情报研究领域,一些数据往往因为一些不可抗力的原因而不完整,如早期的科技数据,可能由于国际形势等外部因素,导致一些国家的科技信息无法获取,基于这样缺失的分析样本来评估该国的科技影响力,如果仅就数据论数据,无疑是会得“正确”的错误结论,这时应针对这样的异常情况,将研究问题放置在当时的时代背景下,揭示背后的原因,从其他方面收集信息来补充,才能得出符合实际的结论。也就是说,必须要考察不同时间戳下的相关信息,再对分析内容加以扩充,这实质是一种基于时间轴的扩展。另外,将内容扩展至本领域的上下游则是一种更为重要的扩展。例如,考察某项技术的发展前景,如果仅就该技术本身来讨论,可能会得出正面的结论,但如果结合特定地区人们对该技术的态度、当地的技术水平、物理条件、发展定位等,却可能会得出相反的结论。这就说明,在很多领域中,环境不同,发展程度不同,要解决的问题也就不同。一些地区当前关注的问题不一定就是其他地区要关注的问题,某些欠发达地区当前不一定就必须照搬另一些所谓发达地区的当前做法。这需要通盘考察,分析相关思想、观点和方法产生的土壤、使用的条件,结合当前环境再做出判断,否则可能会对决策者产生误导。
2.2 综合利用多种数据源
综合利用多种信息源已经成为情报研究的另一大发展趋势。Thomas Fingar[8]从军事情报角度指出,军事情报界需要综合利用人际情报、信号情报、图像情报和外部情报,进行全资源分析(all-source analysis),即利用多种不同的信息资源来评估、揭示、解释事物的发展、发现新知识或解决政策难题。科技情报界也是如此,如利用科技论文和专利,发现科技之间的转换关系、预测技术发展方向,综合利用政府统计数据、高校网站、期刊、报纸、图书等来评估大学等科研机构。可见,综合利用多种信息源是从问题出发,系统化地整合所有相关信息资源来支持情报研究,信息源可以是学术论文、专利等不同类型的文献集合、文本和数据的集合也可以是正式出版物与非正式出版物的集合等。
这一发展趋势是由几大因素决定的。一是情报研究问题的复杂性。在大数据背景下,情报不再局限在科技部门,而成为全社会的普遍知识。公众对情报的需求使得情报研究问题更为综合,涉及要素更为多元,同时也更为细化。这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充。例如要分析科技之间的转换关系,就避免不了涉及科技论文和专利这两种类型的信息源。二是各种信息源的特性。不同信息源可以从不同角度揭示问题,如专利、研究出版物、技术报告等,可以较为直观地反映研究者对某科技问题的理解与描述,而评论文章、科技新闻、市场调查等,可以反映出社会对该科技的观点、认知情况[9]。因此,各类信息自身的特性就说明他们之间可以、也需要相互补充。此外,从现实角度来看,通常会遇到某些信息无法获取的情况,这就需要别的信息加以替代,这就从实践角度说明了综合利用多种信息源的必要性。三是分析结果的重要性。以评估大学为例,评估的结果会引导各学校在比较中发现自身优势和差距,指导未来发展定位,同时也为广大学生报考提供参考。可见,研究结果对社会的影响是广泛而深远的,要做到分析结果的可靠性、科学性,必然先要从源头上,即分析数据上加以丰富完善。
综合利用多种信息源也意味着诸多挑战。首先分析人员要熟悉每一种信息资源的特性,了解相似信息在不同资源类型中是如何表现的,不同信息源相互之间的关系是怎样的。其次,针对待分析的问题,要选择适合的信息,并不是信息越多越好,类型越全越好,尤其是当问题含糊不清时,可能需要不断地调整信息源。再次,情报研究人员要能有效地综合、组织、解释不同信息源分析出的结果,特别是当结论有所冲突的时候,识别不当结果、保证分析结果的正确性是很重要的。
2.3 注重新型信息资源的分析
随着网络应用的深入,出现了许多新型的媒体形式。Andreas M. Kaplan等人将构建于Web2.0技术和思想基础上,允许用户创建交换信息内容的基于网络的应用定义为社会化媒体(Social Media),包括合作项目(如维基百科)、博客、内容社区(如YouTube)、社交网站、虚拟游戏世界和虚拟社会世界(如第二人生)等六种类型[10]。这类媒体形式依托于Web2.0等网络技术,以用户为中心来组织、传播信息,信息可以是用户创造性的言论或观点,可以是围绕自己喜好收集的信息资源集合等。由于社会化媒体的易用性、快速性和易获取性等特点,它们正迅速地改变着社会的公共话语环境,并引导着技术、娱乐、政治等诸多主题的发展[11]。这些通过庞大的用户社区来传播的高度多样化的信息及其网络结构,为洞悉公众对某一主题的观点、研究信息扩散等社会现象[12]、预测未来发展方向[11]等提供了机会,有助于发现有共同兴趣的社群、领域专家、热点话题[13]等,带来了网络舆情分析等研究内容。此外,这类信息结合其他类型的数据,产生了新的情报研究领域。例如,智能手机的普及和GPS的广泛应用,使得可以从社交网络和网络交互数据、移动传感数据和设备传感数据中获取社会和社区情报(social and community intelligence,SCI),揭示人类行为模式和社群动态[14]。
此外,机构知识库等作为一种反映组织或群体知识成果的智力资源,也正引报界的重视。网络信息联盟的执行董事Clifford A. Lynch[15]从大学的角度指出,成熟完整的机构知识库应包含机构和学生的智力成果(包括科研材料和教学材料)以及记录机构自身各项事件和正在进行的科研活动的文档。这暗示着学术界从过去只关心科研成果正逐步转向关注科研过程。从机构知识库中,可以发现隐藏其中的科研模式、揭示目前科研状况的不足,引导机构未来科研的发展走向等。但现有的机构知识库工具还缺乏帮助人们理解和分析这些资源的机制[16],在大数据环境下,加强这方面的研究也是必然趋势。可以预见,随着科技的发展和应用的深入,还会不断的有新型资源出现,并不断促进情报研究的发展。
2.4 强调情报研究的严谨性
情报研究活动在宏观层面上是一种意义构建(sensemaking)[17],依赖于分析人员根据已有知识构建认知框架(frame),通过对认知框架的不断修正来达到理解的目的[18]。这意味着情报研究活动本身带有很大的不确定性,很多因素影响着情报研究的有效性。如何使情报研究工作更加严谨,减少情报分析的不确定、提升情报成果的质量,正成为学术界当前普遍关注的问题。情报研究严谨性(rigor)不等同于分析结果的正确性,它衡量的是情报研究的过程,是指在情报研究过程中“基于仔细考虑或调查,应用精确和严格的标准,从而更好地理解和得出结论”[19]。美国俄亥俄州立大学的Deniel Zelik[20][21]从评估角度,给出了8个指标来衡量分析过程的严谨性:假设探索、信息检索、信息验证、立场分析、敏感度分析、专家协作、信息融合和解释评价。从这几项指标看,信息检索和融合是从分析信息源上消除不全面性;假设探索是要使用多种视角来揭示数据和信息;信息验证侧重于数据的溯源、佐证和交叉验证;立场分析强调分析的情境性;敏感度分析指分析人员要了解分析的局限性,目的是从分析方法上消除主观影响;专家协作是防止分析结果受分析人员自身的学科背景或经验带来的偏差;解释评价是要正确对待分析结论。可见,情报研究的严谨性意在消除人的主观偏见,用更为客观的视角对待情报研究。如果说之前的情报研究活动依赖专家的个人判断,带有较为强烈的主观色彩,那么走向严谨性的情报研究活动正逐步转变为一门科学。
在大数据背景下,情报分析的严谨性,不仅体现在理念上,还暗含了对技术的要求。面对海量数据,自动化的技术手段必不可少。当信息的检索更多的是借助检索系统,而不是人工的收集,信息融合更多依赖数据仓库等技术手段,如何在这样的分析环境中将情报研究的科学性落到实处,是需要关注的问题。可以看到,利用技术本身已经在一定程度上避免了人的主观性,但面对同样一个问题,可以有不同的技术手段,也可能产生不同的结果,如何避免由技术产生的偏见,也许通过多种技术手段或采用不同的算法,全方位地展示信息内容及其之间的关系,从而避免产生信息的误读,是一个解决方案。可见,在大数据时代,情报研究需要多种手段来加强其分析过程的科学性,而这又需要多种技术方法加以支持。
2.5 情报研究的智能化
大数据背景下的情报研究,对技术提出了更高的要求。正如美国国家科学基金会(NSF)的报告[22]所说,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据以及借助复杂的数据挖掘、集成、分析与可视化工具将其转换为信息和知识的能力。对于情报研究来说,应用智能化技术能自动进行高级、复杂的信息处理分析工作,在很大程度上把情报研究人员从繁琐的体力劳动中解放出来,尤其在信息环境瞬息万变的今天,及时收集信息分析并反馈已经变得非常重要,这都需要智能化技术加以支撑。从信息源来讲,情报研究对象得以扩展,其中可能包含微博等社会化媒体信息,可能包含图片、新闻等,大量非结构或半结构化数据的涌入,必然需要技术将这些数据转化为结构化数据,以供后续分析。同时,多元化的信息,需要根据分析需求加以融合,这可能需要语义层面上的技术支持。从分析需求来讲,简单的统计分析已不能满足现在社会的决策需求,需要从大量信息中发现潜在模式,指导未来的发展,这就涉及数据挖掘、机器学习等技术。此外,要寻求情报研究的客观性,摒除过多的主观意愿,也需要多种技术来支撑。可见,这一发展趋势是大数据时代下的必然。而各国在积极建设的数字化基础设施,也在推动着情报研究的智能化,如欧洲网格基础设施(European Grid Infrastructure,EGI)[23]项目就致力于为欧洲各领域研究人员提供集成计算资源,从而推动创新。
目前,对情报研究中的智能化技术没有统一的界定,但概观之,可以将情报研究智能化的本质概括为定量化、可计算、可重复。定量化是针对过去情报研究更多的是依赖人的主观判断,即基于已有文字材料或数据,根据研究人员的经验等给出粗略的结论,如果说这是一种定性化分析,现在更多地依赖通过计算机自动化处理原始材料并获得潜在数据,并在此基础上辅以人的判断,可以说是一种定量化的分析。可计算是指将各种信息资源转化为计算机可理解、处理的形式,如从新闻、论文、专利等中,提取出科研组织、科研人员等实体,再基于这些结构化的、富有语义的信息,采用统计、数据挖掘等方法加以计算,获取隐含的知识。可重复是指自动化分析技术消除了许多主观因素,从理论上讲,如果分析数据等条件一致,分析结论也应该是一致的,这也体现了智能化技术为情报研究带来客观性的一面。
3 情报研究中的技术问题
情报研究的上述发展走向,决定了情报研究既不能仍然停留在定性分析上,也不能仅仅靠简单的统计替代情报研究中的计算技术,由此对情报研究技术提出了新的要求。美国McKinsey Global Institute在2011年5月了研究报告“大数据:创新、竞争和生产力的下一个前沿领域”(Big data: The next frontier for innovation, competition, and productivity)[24]。报告分六个部分,其中第二部分讨论了大数据技术,并围绕大数据分析技术、大数据技术和可视化三方面进行了阐述。在大数据分析技术中,列举了26项适用于众多行业的分析技术,包括A/B测试、关联规则学习、分类、聚类分析、众包(Crowdsourcing)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的,如众包就是随着Web2.0而产生的技术。
根据我们的理解,这些技术大致可以划分为可视化分析、数据挖掘以及语义处理三大类。这三大类技术也是当前情报分析领域应予以关注和深入研究的技术。
3.1 可视化分析
可视化分析(Visual Analytics)是一门通过交互的可视化界面来便利分析推理的科学[25],是自动分析技术与交互技术相结合的产物,目的是帮助用户在大规模及复杂数据内容的基础上进行有效的理解,推理和决策[26]。它不同于信息可视化,信息可视化关注计算机自动生成信息的交互式图形表示,关注这些图形表示的设计、开发及其应用[27],而可视化分析在此基础上加入了知识发现过程,关注自动分析方法及其选择,以及如何将最佳的自动分析算法与适当的可视化技术相结合,以达到辅助决策的目的。
目前的情报分析系统,虽然也提供了多种视图来揭示信息,但更多的是一种分析结果的呈现,系统内部分析、处理的机制对分析人员来讲是个黑匣子,分析人员无法了解分析方法、分析结果的局限性或者有效性,这无疑不符合情报研究严谨性这一发展要求。同时,现有的分析工具需要分析人员输入各种繁杂的参数,又缺乏对情报分析认知过程的支持,这就对使用人员的专业化程度提出了较高的要求,增加了分析的难度。而可视化分析则可以较好地解决这一问题,它整合了多个领域包括采用信息分析、地理空间分析、科学分析领域的分析方法,应用数据管理和知识表示、统计分析、知识发现领域的成果进行自动分析,融入交互、认知等人的因素来协调人与机器之间的沟通,从而更好地呈现、理解、传播分析结果[28]。佐治亚理工学院的John Stasko等人应用Pirolli 等人提出的情报分析概念模型[29],建立了一个名为Jigsaw(拼图)的可视化分析系统[30],并将其应用于学术研究领域(涉及期刊和会议论文)以及研究网络文章(如网络新闻报道或专题博客)领域,也说明了将可视化分析技术应用于情报研究的可行性。
将可视化分析技术应用于情报研究领域,有众多问题要解决。首先,在情报研究工具中,是以自动化分析为主,还是以可视化为主?Daniel A. Keim等人将待分析的问题分为三类,第一类是在分析过程中可视化和自动化方法可以紧密结合的问题,第二类是应用自动化分析潜力有限的问题,第三类是应用可视化分析潜力有限的问题。在研究这三类问题中交互程度对分析效率影响的基础上,Daniel A. Keim等人指出,应分析如何通过考虑用户、任务和数据集特点,来确定可视化和自动分析方法的优化组合,从而达到最佳的效果[31]。可见,要将可视化分析技术应用于情报研究领域,需要明确每类问题适用哪种组合方式。其次,情报研究领域适合使用哪些可视化交互手段?这可能包括原始分析数据、析取出的关系数据、深层挖掘的模式数据等的可视化手段,分析人员与系统交互的方式,分析过程的可视化展示等。第三,情报研究领域中的认知过程是什么样的,关注哪些问题,涉及哪些实体,在大数据环境下面临哪些认知困难,需要在哪些环节加以支持,这些困难能否通过技术来解决。此外,从现有的可视化分析技术来看,主要是将各个相关领域的技术以优化的方式整合起来,但在将来会产生一体化的可视化分析解决方法[32],这种一体化的方法可能是什么形式,又会对情报研究带来怎样的影响等等,都是在情报研究中引入可视化分析技术需要关注的。
3.2 数据挖掘
广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库数据、数据仓库等基本形式,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型的数据[33]。
从数据挖掘的涵义看,它与情报研究有着天然的联系;从数据挖掘的方法看,有其特定的含义和实现过程,可以有效地解决情报研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些工作仅仅是数据挖掘的数据准备,还有待于更为深入的发掘。可见,数据挖掘能够也应该应用于情报研究领域,这不仅是数据挖掘应用扩展的结果,也是情报研究自身发展的需求。此外,由于较少有专门针对情报研究领域研发的挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,如在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,可能社会网络和其他信息之间有关联,因为工具的分割性,就导致潜在模式的丢失。由此,研发适用于情报研究的挖掘工具,是必要也是紧迫的,尤其是面对大数据的挑战,智能化地辅助分析人员,减少认知压力,是亟待解决的问题。
要解决以上的问题,首先需要研究情报分析任务,分析哪些问题是可以使用数据挖掘技术来支持的,这类问题有哪些共同点、特殊性,能否对未来可能的情报分析问题进行扩展,哪些问题不适用于数据挖掘技术,原因是什么等。其次,对于某类或某个分析问题,使用哪种数据挖掘技术或几种技术的组合才能有效地解决,涉及的算法是否需要针对该问题进行适应性改造,如何评价挖掘的结果等。第三,数据挖掘出现了交互挖掘这一发展趋势,即构建灵活的用户界面和探索式挖掘环境[33],这与可视化分析在某些方面上也不谋而合,这样的趋势会对情报研究带来哪些影响,如何在这一背景下,探索情报研究工具的新发展,寻找情报分析的新模式,值得我们关注。
3.3 语义处理
语义是关于意义(meaning)的科学,语义技术提供了机器可理解或是更好处理的数据描述、程序和基础设施[34],整合了Web技术、人工智能、自然语言处理、信息抽取、数据库技术、通信理论等技术方法,旨在让计算机更好地支持处理、整合、重用结构化和非结构化信息[35]。核心语义技术包括语义标注、知识抽取、检索、建模、推理等[34]。语义技术可以为信息的深层挖掘打好基础,即通过对各类信息的语义处理,在获取的富有语义的结构化数据上使用各种数据挖掘算法来发现其中的潜在模式。数据的语义性支持了机器学习等技术的内在功能[36]。
从现有的情报研究实践和工具看,语义支持的缺失是一个普遍问题,这其中又可划分为两个层次。对于传统的情报研究对象,如科技论文、专利等,有较为成熟的分析工具,但这些工具往往缺少深层次的语义支持。例如,要分析论文的内容主题时,需要从摘要等自由文本中提取出主题信息,在数据处理时,常常无法识别同义词、近义词等,需要人工干预。一些工具虽然在语义方面做了努力,但仍然存在诸多不足,例如在形成的主题聚类结果上,缺乏有效的主题说明,自动形成的主题标签不具有代表性,需要分析人员深入其中重新判断等。这在小数据集环境下,还可以接受,当面对大数据的冲击,这种半自动化的处理方法无疑是耗时又费力的。此外,对于新型情报研究对象,如网络新闻、博客等,已有如动态监测科研机构等的系统工具,但总体来说还处于起步状态,目前较多的还是依赖人工筛选出所需信息,并整理成结构化的数据,同样也不利于大规模的数据分析。这些问题的存在,使得消除语义鸿沟(semantic gap)[37],应用语义技术成为广泛需求及必然。
将语义技术应用于情报分析,需要关注以下几方面的内容。首先,分析情报研究任务的特点,了解它的语义需求,是否存在规律性的准则以供指导分析工具的研发,这既需要原则性和方向性的准则,也需要为针对多维度划分出的各类任务给出详细的规范,例如,对微博等社会化媒体,其中既存在高质量的信息,也存在辱骂等低质量的信息,区分这些信息并筛选出高质量信息,就成为在分析社会化媒体中的语义任务之一。其次,语义资源建设问题,即在情报分析领域中,要实现语义层面上的理解,是否需要建设语义资源,如果不需要,哪些技术手段可以代替,如果需要,哪种类型的语义资源可以便捷、快速、高效地构建,并且这种语义资源应该如何构建,如何使用才能有效地服务于情报研究工作。第三,信息抽取问题。科技信息涉及众多学科的专业术语、各种科研机构、组织等,如何使用语义技术将这些信息准确地提取出来并加以标注,尤其是针对不同类型的信息源,采用什么样的抽取策略等。第四,信息整合问题,即如何使用语义技术,把不同来源的数据对象及其互动关系进行融合、重组,重新结合为一个新的具有更高效率和更好性能的具有语义关联的有机整体,以便后续分析。
4 结语
正如本文引言中所谈到的那样,大数据的理念和技术为情报学领域中情报研究的理论和实践带来了机遇,也带来了挑战。机遇巨大,挑战更大,需要我们对此有清醒的认识。本文分析了大数据背景下情报研究的若干发展趋势,总结了情报研究中值得关注的技术问题,以期能为促进情报研究的理论和实践的发展添砖加瓦。
参考文献:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
篇7
关键词:大数据时代;学科馆员;数据素养服务;学科发展支撑服务
摘要:在大数据环境下,高校学科馆员应努力提供基于数据获取与利用的信息素养服务,为学者提供基于文献信息和数据的学科知识发展支撑服务,为学校科研管理与决策部门提供决策支持服务,为深入科研一线的学者提供定制化知识服务。
中图分类号:G251.6文献标识码:A文章编号:1003-1588(2017)04-0131-03
1大数据对图书馆发展的挑战
1980年,美国最早提出了“大数据”概念,但大数据时代的到来是在2004年以后,以Facebook、Twitter为代表的社交媒体相继出现,互联网成为全世界网民实时互动、交流协同的载体。随着数字化、移动化、网络化的发展,大数据的应用无处不在,使得图书馆用户的信息环境、信息行为等发生了巨大的变化,图书馆已经不再是用户获取信息的唯一渠道。对用户来说,在大数据时代,信息资源的组织管理、数据挖掘和价值发现比信息获取更加重要。
Web of Science、中国知网等国内外商业数据库的迅猛发展,使得图书馆需要培养大数据时代的图书馆数据管理与应用人才。随着采集存储数据的成本越来越低,分析工具越来越先进,个人隐私安全面临着巨大的冲击与风险,如何保护用户的个人隐私,对新时代的图书馆员提出了更高的职业道德与专业素养要求[1]。传统出版社的电子出版、数字图书馆的发展及开放获取等,促进了科研资源的大数据化发展。为此,学科服务在大数据时代应积极探索信息服务的新理念和新方法,努力构建智慧学科服务[2]。学科服务是图书馆全馆服务体系的灵魂和有机部分,学科馆员是全馆最核心、最重要的资源,应当借助大数据时代的优势与机遇,在算机软硬件操作、信息资源挖掘、读者隐私保护等方面提高服务质量[3],从而运用知识图谱整理馆藏资源、建立学科文献数据库、整合资源知识等。
2基于数据获取与利用的信息素养服务
数据素养主要体现为数据解读、数据管理、数据利用、数据评价等[4],强调对数据的操作和使用。另外,其还包括数据的伦理道德修养[5]、数据存取[6]等。学科馆员应具有发现、评估与使用信息和数据的意识和能力。
2.1数据获取与利用能力
学科馆员的数据素养主要体现为对科学数据的获取和再利用、数据库重组、数据分析与可视化软件使用及培训等。预计到2020年,80%以上的公益性、基础性科学数据资源将通过因特网面向全社会共享。学科馆员应帮助用户群体提高数据获取能力,努力培养和提高用户群体的公共自助科学数据开放获取意识,帮助人们识别和查找科研数据的在线信息库。此外,数据重组会创造出更大的价值,如:英属哥伦比亚大学图书馆和华盛顿大学图书馆建设学科服务门户,将购买的多个数据库(如期刊论文、图书、研究报告、数据、数字化馆藏、学位论文等)分装打包,并推送到各学科平台,不仅降低了用户查找相关数据库的时间成本,而且提高了各数据库的利用率;北京大学将古籍资源加入3D技术进行处理,添加古代地图,聚合其他人文景观信息,大大提高了古籍的观赏价值和利用率。
2.2学会和善于利用工具
在新时期,学科馆员应具有学科专才、情报能力,并能熟练掌握及利用相关的软件工具,如:信息导航、信息检索、检索查新、文献管理、知识发现、专利分析等工具。数据软件培训主要是指学科馆员根据用户需求,到相关院系开设数据分析软件(如SPSS、Eviews、Stata等)、文献管理软件(如EndNote、RefWorks等)、科研管理软件、商业统计软件等相关专题讲座、讨论会,帮助用户主动运用软件工具并提高科研效率。云计算正在改变人们对数据存储的看法,海量数据存档研究成为一项基础性工作,越来越多的大学和研究中心开始建立科学数据仓储库,如Figshare、Dryad、PANGAEA等。因此,面对云架构,学科馆员需要对云存储等数据存储基础设施及数据组织进行必要的了解和认识,通过高度标准化的数据存储工具适应科研数据负载的变更,保证在可信赖环境中提供数据集的持续永久性访问。
3基于文献信息和数据的学科发展支撑服务
3.1学者成果验证
科研机构的科研能力是衡量其竞争能力的重要指标,学者作为其中的主体,其科研能力直接决定科研机构的科研水平和后续的发展优势。图书馆学科馆员可以根据学者需求,利用WOS、Scopus等数据库检索学者在某一时段的发文数量、被引频次、所投期刊的影响因子等,分析合作者的影响和产出绩效,并基于学者个人成果,包括期刊、会议论文、专著等作品,提供文献收录和引用检索证明,方便科研人员进行职称申报、基金申请和评奖等。
3.2嵌入式课程教学
学科馆员以课程为主要服务方式,提供信息素养教育课程,促进用户通过课件学习、课堂研讨等方式全面提高自己的信息素养技能。学科馆员与专业教师进行合作,将信息素养培训内容嵌入课堂教学,通过“课堂教学信息指导”和“嵌入课程教学”等方式,针对性地提供信息素养教育;借助虚拟学习环境,提供注册课程,获取课程学习资源、课程考试资源等内容,延伸教学空间与交流空间,培养学生的终生学习能力。
篇8
关键词:大数据;经济学;数据分析
大数据作为一种有用的信息资源,在商业、金融等领域发挥着越来越重要作用,也逐渐成为社会科学的国际前沿应用研究内容之一。然而,在经济学领域,大数据还鲜少被用到(据统计,截至2014年12月,google中学术搜索到的与“大数据”有关的研究论文共3026篇,其中仅有29篇是和经济学相关)。但因海量经济数据资源的快速增长,计算技术和能力的不断提高,以及方法论的不断发展,将大数据分析技术运用于经济学已成为一个值得探讨的新课题。展望未来,由于经济学是一门理论与实践相结合的学科,将大数据应用于经济学,有可能会开辟一个全新的经济学发展领域。
一、大数据在经济学领域应用的基本原理
大数据在经济学中应用的基本思路以大样本数据统计与机器学习技术为基础。其中大样本统计的过程概括如下:用N个代入变量得出对应的N个测量结果与K个潜在的预测因子,比如:以居民消费价格CPI指数预测为例,首先通过GOOGLE数据搜索或其他软件,筛选出同CPI有关的一系列关键词(比如粮食产量、原油期货价格、气候温度、价格改革政策等),然后通过这些关键词在文本数据(新闻、微博、评论、研究报告、学术论文等)出现的时间频次,计算它们之间的相关关系和逻辑路径关系,从而得到测量结果N和预测因子K。在许多情形下,每一个代入变量的信息是足够丰富的,但不具有结构性,故可能会产生很多潜在预测因子,因此,需要注意的是:若是过度拟合,即预测因子K的个数可能会远远大于观测变量N的个数时,虽然模型可完美解释观测到的结果,但样本外数据的解释力却很差。在这种状况下,构造一个最大化样本解释力的模型便成为首要目标,同时构建的模型还不能出现因过度拟合所导致的样本外无力解释的情形。因模型构建不同,使用方法也随之改变,惩罚预测因子的过度使用方式也不同。如Lasso回归模型,在满足一系列约束条件下,依据最小化离差平方和来选择模型系数。通过将样本分为“训练样本”和“测试样本”(“训练样本”用来估计模型参数,“测试样本”用来评估模型)进行过度拟合。而在评估预测效果时,一般交叉使用样本内预测与过度拟合,但目前这种交叉验证的方法在当前的实证微观经济学中也鲜少用到。
机器学习的一个非常重要假设就是机器学习的环境是相对稳定的,也就是样本数据(训练样本与测试样本情形相同)独立产生于同一过程。但由于现实环境会随着时间发生改变,故这一假设并不合理,因此,在高频使用新数据的应用中,往往通过对自身持续“再训练”,从而使得模型可以随着时间与环境的变化对预测结果进行调整。当然,对于机器学习,有些经济学家提出了卢卡斯批判的疑问,即若根据模型的预测结果进行政策调整,则政策调整后的现实结果可能与初始模型的预测结果有差异,因为政策的改变会影响数据间的潜在行为关系,但这一疑问在其他预测模型,比如计量经济模型、结构方程模型和联立系统模型中也都存在。
二、大数据对经济学的影响及前景
如今,随着数据样本容量的急剧增加,使得大数据的使用方式不尽相同。作为一个规律性科学,经济学需要广泛、详细的数据,并运用统计技术来处理新型数据,大数据的出现可能会在社会学与计算机科学间构建一架桥梁,其学科价值可能在于创造新的思维方式,这将会导致对经济学的新思考和研究方法创新,甚至会带来分析经济学方法的质变。
一方面,由于多维度的精细间隔,大数据可以为经济学研究人员提供更多研究变量和视角,可以研究以前难以测度的行为理论,这为经济理论研究提供了一种全新的测量方法。例如:麻省理工大学助理教授Alberto Cavallo设计的“百万价格”项目,该项目旨在通过一个网络程序,获取网上物品价格,继而运用这些数据计算得出通胀指数,该通货膨胀指数就是阿根廷的精确透明通货膨胀指标,其实时价格数据的捕捉能力和准确度,使得该指标作为政府测量通胀的替代选择。又如,谷歌提供的请求式数据选择也提供了一个探索新机会的理由,目前一个备受瞩目的例子就是“及时预报”,在某些方面它可以通过庞大经济社会数据集进行短期精确预测。
另一方面,大数据已与行为经济学相适应,成为产业相关经济规律研究的一部分,并且,大数据在经济学领域已经显示出众多的优越性。大数据已有潜力去挑战理性概念,例如对于经济学家在预测问题上的出错概率,强调样本偏差的方法;或者对于政策刺激的外部效应问题,强调在社会媒体中情绪化分析出现的混乱问题,总而言之,大数据与先进的建模策略相结合,可以产生更详细、更准确和更有说服力的解释和分析。
篇9
一、大数据的基本概念
大数据(bigdata)即是在网络多元化形式之中的一种巨型数据集合,其来源于社交网络、搜索引擎以及电子商务网络等等,具有体量大、速率高、多样性、真实以及价值等几个主要的特征。大数据与云计算具有较为密切的联系,因为单一的计算机并无法对大数据进行处理,因此需要利用分布式的计算框架,其基本特点在于对巨型数据的深度挖掘,但始终需依托于云计算的分布式处理。早在二十世纪八十年代便已有科学家做出预见,大数据所带来的变革必将改变我的生活、工作方式以及思维。在近十年间,大数据已成为互联网技术的一个重要方面,其关注度也呈逐年上升的趋势。正是在这样的环境之中,我国的企业经营发展迎来了前所未有的机遇与挑战。
二、大数据时代下企业经营管理所面临的挑战
(一)数据多样化
信息的发展与经济的进步基本上是保持这相同的步调,在大数据背景下,企业需要根据实际的经营需求,自由选择传统以及现代两种信息数据收集的方式,并对不同网络渠道信息资源的收集进行探究,尤其是在电子商务飞速发展的今天,对图片、视频以及数据内容进行采集。就企业自身的经营管理而言,大部分企业对于信息收集处理的方式还比较局限,基本还停留在满足于结构信息发展的需求之上,而对于企业自身的非结构化信息则难以进行有效的处理与分析。值得说明的是,企业自身的非结构化信息在企业的经营管理之中占据着较为重要的地位,甚至可以说对企业非结构化信息的处理是企业经营发展的基础。
(二)实时数据分析
随着经济全球化程度的加深,企业的发展与其内部系统以及外部环境有着密不可分的关系,这两者的基本特点是迅捷、快速、高效。简而言之,在大数据时代下企业自身数据处理的任务正在飞速增长。与传统企业的经营管理模式不同,现代化企业的管理很大程度上依赖于企业对信息数据“即时”的分析把握。基于此,企业将面临相当庞大的信息处理任务,而随着信息分析处理任务量的急剧增长,也对企业信息数据处理的速度以及质量提出了更高的要求。大数据时代下的企业信息数据处理必须始终保持“即时”性,这也是现代化企业信息数据处理分析的基本发展趋向,同时也是企业健康稳定发展的基本需求。
(三)建立在数据内容上的决策
企业现代化程度的加深,意味着企业各类经营活动均对信息数据有着更高的要求,这也是企业数据信息处理分析发展的一个方向。对于信息数据的精确分析,是理性决策的重要保障,能够有效提高决策的科学性、规范性以及精确性,避免因数据内容的不准确,导致决策者出现不同程度的错误判断,减少企业经营发展的风险。就现状来说,许多企业在扩大生产以及业务范围的过程之中,对于信息数据的处理分析并不如何重视,只是盲目的将所得信息进行单向性的汇总,而缺乏对于信息数据内容的归纳判断,同时对于同行业内企业的信息数据也并不重视,导致企业决策出现一定的纰漏。在大数据的时代背景之下,只有充分重视信息数据内容,并对其进行科学化的处理分析,才能够有效解决企业内部管理所存在的问题。因此,为了对传统决策观念与模式进行改变,就有必要进行科学规范的数据分析,并将决策的举措置于数据内容上进行,以谋求企业长远发展。
(四)关注数据安全
现代化企业经营管理各类活动的均与信息数据的准确性有着较为密切的联系,这也包括企业自身所掌握的信息,尤其是企业客户的信息,对于企业来说更是其核心价值之所在。在大数据的时潮之中,企业必须思考如该如何在有效分析处理信息数据的基础之上,对企业商业机密以及客户信息进行全面的保护。
三、大数据时代下企业经营管理模式与发展分析
(一)运营决策以数据为基础
在大数据的时代背景之下,企业必须强化对内部信息数据的整合管理并逐步建立起相关的体系,使企业日常经营活动均有相关的信息数据内容作为参照。为推动企业经营管理模式的进步,就搭建企业内部信息数据的平台,使企业内部的信息数据分析管理体系趋向规范化,以提升企业整体信息数据分析管理工作的效率。这也意味着,企业必须建立于社会网络的链接,并提高对于社会网络数据的观察与分析,通过对不同社会网络平台上的信息数据进行采集整理,深度挖掘管理活动之中所需的信息内容,并完成后续的分析传输工作。同时,企业也必须加深对于信息数据采集搜索的强度,以提升企业信誉为基本目的,制定多层次、多角度、多取向的音效策略。以上内容,均建立在对信息数据的分析处理之上,实现企业运营决策的所有内容都有其信息数据的基础。
(二)培养数据管理人才
目前,市场环境乃是以知识经济作为基本引导,这也意味着企业的经营发展愈来愈倚重于人才,尤其是在大数据时代下,企业想要在日趋激烈的市场竞争之中脱颖而出,就必须加大对于人才的吸纳。大数据时代的来临,对于企业的经营管理提出了更高的要求以及标准,这也是对企业内部人才综合素质的长大考验。为了保证企业信息数据分析管理工作的效率与质量,就有必要培养符合企业发展需求的数据管理人才,以大数据时代的要求来看,对信息数据具有敏锐感知能力、应对能力以及分析能力是一名优秀数据管理人才所须具备的基本素质。因此,企业必须加强对数据管理人才的储备,并建立完善的招聘、筛选、任用、培训制度以及相关的考核奖励机制,推动企业数据管理人才工作素质的提高。
(三)企业网络的建设
从提升企业信息数据管理分析的角度来谈,就有必要在企业内部建设全面化、多向性、科学性的企业内部网络,为信息数据的各项工作提供一个良好的平台,并实现企业内部信息数据的有效化管理。企业网络的建设必须符合企业经营发展的现状以及需求,并具备一定的科学性与合理性,以谋求企业发展为基础,提升企业服务质量为手段,推动企业信息网络建设为最终目的,提高企业对信息数据分析管理工作的效率。
结束语
综上所述,在大数据的时代潮流之中,企业发展所面对的外在环境具有多样化的基本特征,且规模亦不尽相同。企业经营管理的改革必须与信息化社会的进步保持相同的步调。所以,企业必须主动迎合大数据时代,置身于这股时潮之中,并结合自身的具体情况,思考如何有效利用大数据时代所提供的资源来提升企业自身的竞争力,使企业在日趋激烈的市场竞争之中,始终立于不败之地。
参考文献:
[1]陆波.信息爆炸(大数据)对现代企业经营的挑战、机遇与对策[J].经贸实践,2017(15):164-165.
篇10
论文关键词:网络环境,大学生信息组织,共享模式
在易班中,这个新兴网络群体组织被统称为网络社区,在大家都比较熟悉的易班网按网络组织分为机构群和公共群,或者另外一种分类法叫做聊天群和非聊天群。这已经初步建立起网络组织和共享模式。从最早的BBS,从博客群到微博再到微信、易信,发展到现在的易班,大学生网络学习和生活由此真正也进入了专业化移动社区时代。自从易班校园好声音活动开播以来,易班网络社区在中国网络领域成为了后起之秀,逐渐成为大学师生获取、交流与传播信息的重要平台。
然而,在当今社会,QQ、微信、易信等平台仍然是主流新媒体。随着大学生网络社区的迅速发展,易班网络的社区信息资源的管理尤其是信息组织和分享方面的问题日益凸显。如何在尊重学生个性发展的基础上有效地对大学生进行思想政治教育,如何控制网络组织中的信息流向,让信息流变成现实的管理数据库,如何把网络信息资源组织成有序而优化的信息管理反馈系统,比如学生的网络话语与学生的操行自动比对,形成管理者的共享材料。这是当前网络社区信息管理的几大难题,也是解决当前大学生网络社区信息个性化需求与高校有序管理需求之间的矛盾的主要措施。
1 易班的信息组织模式和理念还不能很好适应A—B
易班作为一个服务平台,首先应当是一个管理平台。社区化的思想应当首先服务于高校管理。过于追求社区化,当然某种意义上利于学生群体自由,但是不利于管理。试用易班后,多数高校发现了这个问题。易班原来英文名叫“E-class”,建立以班级为群体或者小社区的理念是它的初衷,这个是好的,但是班级一定要找到它的根,即要找到它的院系然后找到它的大学。这样才有管理的条件。而且班级新闻怎么推送上去要看这个链条是否完整,管理节点有没有。易班的信息组织模式要是能适应当前网络时代的发展,就一定要做到A—B—C的模式,其中第一个重要环节就是A—B,A就是网络服务提供商,就是教育部易班发展中心,B就是各个高校的管理层,这个脉络不仅在现实生活中非常清晰,而且要做到在网络中也非常清晰。学生有归属感,不至于游离于网络,如果让学生随心所欲,学生就可能走出社会主义核心价值观的舆论氛围,思想和精神得不到健康发展。
第二个环节才是B—C,B是各高校的管理者,C就是一个个的群组。B是架起易班服务的桥梁,C是群星灿烂的易班组织,B能体会到易班的精神并将之传导到C,C最终能共享易班服务成果。结合易班网络社区组织结构构成及功能特点,以及国内外有关信息组织结构和共享模式的相关理论,建立“A—B—C”系统化、个性化的大学生网络社区中的信息组织管理共享模式,不仅有利于解决网络社区中信息组织新出现的问题,促进网络社区中信息资源规范管理,现代企业管理论文而且从深层次上揭示信息组织和共享的结构机制,建立起适应复杂网络社区环境的、完善高校学生管理和思想政治教育的信息组织和共享模式。
2 易班信息共享模式有待升华
易班网络目前停留在信息分享的初级阶段,各高校仍然不能很好分享或者获取网络中有价值的信息,也需要自己收集加工信息,这个情况造成很多辅导员职业疲倦。以至于讨厌易班,不愿意发动学生加入易班。网络社区中的信息组织和共享模式,不是对信息组织和共享模式的简单相加,而是对传统信息组织模式的升华和优化,是对传统社会中有关商业化网络信息组织共享模式的方法和经验进行借鉴、总结和改造的结果,是一种具有实践过程并将成果指导实践的研究。有具体的网络社区环境应用场地,有现实的易班网络平台,还要有虚拟的大数据分析分享系统,对于改善网络社区中的信息组织有重要的指导价值,能促进网络社区更加有序的运行具有重要的意义。
易班对网络社区的信息主要集中于大学生所关注的领域或者活动,无论从微社区、话题,还是轻应用,都比较“散”,范围非常广泛,缺乏提炼。学校和院系除了知道学生人数,剩下的事情就只停留在“点赞”和“刷屏”上了,真正获得有价值的信息,比如学生最近在干吗?学生普世价值观数据分析?学生社会行为学分析数据、学生心理需求方面分析数据等等这些信息无法拥有,老师们也就无力去再做些什么。所以易班要向这方面努力。概括起来主要有:1)信息共享应该接入整个学生数据库;2)分层级分享易班分析数据库,这个需要大数据支持;3)积分系统应该下放到管理层;4)好的应用明码标价或共享;5)应拓展数据分析的学科领域。科学地建立大学生易班网络社区中的信息组织和共享模式,以及大数据,将使易班更有吸引力,更有应用前景。
总的来说,易班网开辟了大学生信息组织和共享成果时代,是我国高等教育领域尤其是网络思想文化方面一个巨大的进步。基于易班网在信息组织与共享模式上存在的缺陷,本文拟提出建立“A—B—C”的信息组织和共享模式,拓展大数据时代价值,结合信息科学和社会科学的相关理论,系统地给各高校提供一个集分享和管理的信息模式,构建一个既能适应高校大学生个性化需求又能服务于高校管理信息化平台,以改善当今大学生网络社区中信息组织混乱无序的现状,同时为大学生网络组织和分享模式的研究另辟蹊径,促进科学和技术的交流与整合。
参考文献
[1]张明海,龙献忠.云传播时代大学生信息素养教育创新研究[J].图书馆,2014(5):99-101,106.
[2]潘燕桃,廖昀赟.大学生信息素养教育的“慕课”化趋势[J].大学图书馆学报,2014(4):21-27.