数据分析的统计学基础范文
时间:2023-07-11 17:50:59
导语:如何才能写好一篇数据分析的统计学基础,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:大数据时代;统计学;影响
随着大数据时代的到来,各企业采用了新的策略,获得了更多的利润。对于统计专业来说,改变发展策略,使培养出来的专业人才能够适应大数据背景的需求是其主要任务。目前,高校统计学专业逐渐认识到大数据时代综合性人才培养的重要性,并对专业建设进行了相关改革。
一、大数据时代对统计学的影响
大数据时代的到来对现代统计专业的发展造成了新的冲击,要确保培养出来的人才能够起到应有的作用,首先要了解大数据时代对统计专业所造成的影响。
(一)大数据时代使数据结构和数据性质发生变化
网络技术以及基于网络技术的电子商务等新的数据记录模式标志着大数据时代的到来。大数据时代,不再依赖于抽样调查的记录模式,网站浏览、视频监控都将形成大量数据。传统的数据结构甚至是数据性质发生了变化。大量的数据信息对于需求者来说,如何甄别其可用价值成为关键。传统的数据可以二维表格显示和整理。但大数据时代所产生的数据具有多样化和复杂化特征,往往包含了大量的音频、视频、HTML等。这要求大数据的收集具有较强的目的性,才能实现其价值。
(二)大数据时代要求统计分析方法和统计思维更新
大数据时代的主要特征为数据多且复杂,数据分析要求分析者对总体进行分析。在这一背景下,参数统计不再具有意义,假设检验法也随着总体分析而失去价值。数据的复杂化对传统大数据统计思维造成了巨大的冲击,要求统计者具有活跃的思维。只有对传统数据的改变进行分析,并且树立新的统计方法。
二、大数据时代下的统计学发展新策略
为适应大数据时代的需求,统计学专业的发展势必要对传统模式进行改革。目前,多数高校统计学专业已经认识到大数据对于其发展带来的冲击。为此,本文提出了以下策略,以及能够帮助统计学取得更好发展。
(一)加强统计应用性教学
根据大数据时代数据的总体分析特征,数据分析人员应掌握全面的分析方法。在人才培养过程中,应致力于培养实践分析能力,提高数据和资料收集能力,并且培养其强烈的数据价值观,使其能够从众多数据中找到所需的。另外,对传统模式进行改革,增加大数据统计内容,以适应时代的需求。基于大数据的结构特点,实施资料透视化教学,提高分析者对复杂数据的分析能力。
(二)培养大数据统计思维
在人才培养过程中,新的统计思维的培养具有重要意义,即强调数据分析实践能力的提高。统计思维的培养有助于数据分析者对复杂的数据进行区分,从而整理有效信息。在大数据时代,不仅要以传统的平均思维、动态思维和变异思维为基础,还要注重基于整体分析的大数据思维。另外,还要培养数据分者的复杂性思维,以应对复杂的数据库。总之,大数据时代需要数据分析者具有全面的、创新性的思维。
(三)强化基础性统计知识
统计学自身具有复杂性,其改变多且抽象。基础的统计知识是进一步掌握大数据分析思维的基础,可见学习基础性统计知识的重要性是不言而喻的。为此,应该采取深入浅出的方法,利用多媒体等方式使复杂的数据统计清晰化、简单化。结合具体的案例使数据分析者正确认识统计概念、掌握统计原理和方法。此外大数据分析不再是一种专业,而是更倾向于一种技术,这要求我们将大数据分析与统计学以外的相关知识相互联系。注重真实相关与伪相关的讲解,强调商务智能的开发和分析。只有具有坚实的基础,才能确保数据分析者大数据分析思维的养成,适应现代社会的需求。
(四)加强复合型人才培养
为适应大数据时代的需求,复合型人才的培养是关键。所谓复合型人才,是指其不但要具有专业的数据分析能力,还要相应的具备管理以及其从事专业的技术。大数据时代,高校应建立全面的人才培养模式,注重培养人才的数据分析能力、编程能力等,使其真正了解大数据,懂得如何利用大数据对其所处的行业起到积极作用才是关键。总之,大数据时代对综合性人才具有更高的需求,大数据时代不仅培养的是一种能力,而且是一种思维,是对全新模式下的数据的分析和利用。高校作为人才培养的重要基地,其教学模式的改革、对大数据时代所需教学模式的认识是高校的主要任务。
三、总结
统计学是经济学的基础课程,传统的统计人才培养具有定向性。而随着大数据时代的到来,数据产生的形式多样,且具有复杂性。大数据分析不仅是作为一种专业存在,而是应以一项必备的技术而存在。大数据时代,传统的统计思维和统计方法发生了改变,统计人才培养方式的改革也就势在必行。(作者单位:海南师范大学)
参考文献:
[1] 朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究,2014(3).
[2] 姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究,2012(3).
[3] 孙耀东.大数据背景下统计学专业课程教学探究[J].廊坊师范学院学报(自然科学版),2015(06).
篇2
关键词:统计测度;统计学;大数据;数据科学;
作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。
最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。
一、什么是统计测度
汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。
除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。
那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。
统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:
1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。
2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。
3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。
4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。
二、统计测度是统计学的立足之本
首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。
其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。
第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。
当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。
三、统计测度是数据科学的基础
笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。
首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。
其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。
例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。
相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。
第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。
综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。
四、创新与完善大数据统计测度方法
如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:
首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。
其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。
第三,要紧密结合现代信息技术以完善统计测度方法。复杂、多变和不断涌现的大数据,不仅需要借助现代信息技术(包括硬件与软件)来解决极其复杂的分析计算问题,也需要利用现代信息技术来解决其繁杂多样的统计测度问题。对于大数据,不论是原始统计测度还是再测度,其复杂性或难度都不是传统的结构化数据所能相提并论的,哪怕是基本的关联词计数、分类与汇总,其工作量之大也超乎想象,不借用现代信息技术几乎是不可能完成的。而事实上,有些统计测度的内容与方法本身也是以数据处理能力的提升为前提的。可以说,脱离现代信息技术,人们难以承受大数据的统计测度与分析任务;要把统计测度思想变为可实现的统计测度方法,必须借助现代信息技术。为此,要充分利用各种信息技术和手段,把统计测度与数据清洗相结合、与数据分析模型相结合、与计算方法相结合,努力建立融自动搜索统计测度、动态演化统计测度和自主优选统计测度为一体的大数据统计测度方法体系。
篇3
【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。
一、关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
二、统计学中的几种统计思想
2.1统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
三、对统计思想的一些思考
3.1要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).
[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).
篇4
一、统计学中的几种常见统计思想
统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等。统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点:
(1)统计思想强调方法性与应用性的统一;
(2)统计思想强调科学性与艺术性的统一;
(3)统计思想强调客观性与主观性的统一;
(4)统计思想强调定性分析与定量分析的统一。
1.均值思想。均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.变异思想。统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
3.估计思想。估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
4.相关思想。事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
5.拟合思想。拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
6.检验思想。统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
二、对统计思想的若干思考
1.要改变当前存在的一些不正确的思想认识。英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂,越科学。在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
篇5
(池州学院数学系安徽池州247100)
摘要:随着我国社会的不断进步和科学技术的迅猛发展,数理统计也处于一种不断完善和发展的过程中,在当前众多领域得到了普遍的应用。因此,如何加大数理统计在大数据分析中的应用,保障统计工作高效的进行,是当前迫切需要解决的问题。本文研究探讨信息时代背景下数理统计在大数据分析中的应用,首先从数理统计的研究内容分析出发,然后对数理统计的特点进行了简要的阐述。最后对信息时代背景下数理统计在大数据分析中的具体应用进行了深入的分析。希望为今后数理统计在大数据分析中发挥出更大的应用作用,奠定一个具有参考价值的文献基础。
关键词:信息时代;数理统计;大数据分析;应用研究
在进行科学研究的过程中,经常会遇到描述两个及以上的随机变量、描述随机变量的分布特征、离散性质或变量大小等等相似的问题,如果不借助于数理统计,就不可能有效的解决这些问题。数理统计这一数学工具的出现,在我国社会的不断进步和科学技术的迅猛发展的过程中处于一种不断完善和发展的状态之中,在当前众多领域得到了普遍的应用。众多学者开始考虑如何更加有效的应用数理统计方法去解决具体的数据分析问题,这成为了数据分析过程中非常关键的部分,也是当前针对数理统计研究最多的一类问题。
一、数理统计的研究内容分析
数理统计的研究内容,主要包括数理统计在数据分析及数据处理中的基本定义、概念,以数据分析中数理统计的广泛应用为重点。此外,对数理统计的相关理论进行深化,总结数理统计及实践操作的特点等等也是当前关于数理统计研究的重要方面。同时,如何有效的将数理统计应用于企事业单位当中以及数理统计对企事业范围统计工作的价值也是一个重要的方面。
二、数理统计的特点
数理统计的特点主要是基于数据分析而言的,具体表现为通过参考数据资料,将对应的数学模型应用到随机现象中,借助于有价值的数据,实现数据应用于数学模型的检验,从而对数据背后主体的规律、性质以及特点等等内容进行反馈。另外,数据分析以及数理统计二者之间有着非常大的关联,不仅仅是一个简单的、固定形态的统计来的一一对应关系。因此,由于数据分析的需要而逐渐演化出来的数理统计方法,实现了数据主体到数据分析、数据分析到数据主体的循环路径,为最大程度的发挥出数据价值奠定了一个非常重要的基础条件[4]。
三、信息时代背景下数理统计在大数据分析中的具体应用
数理统计对于大数据的处理主要可以通过数理统计方法实现。在当前,每一个学科对于数据的处理都有自己对应的数据分析方法,而数理统计方法就是众多学科中交叉的方法,对研究社会活动的各个领域和不同学科之间的研究有着非常大的帮助[5]。因此,数理统计在数据分析中占据的重要的地位。随着其不断的发展,也慢慢形成了数理统计理论,并有效的应用于数据分析。通过大数定律,数理统计与数据分析之间产生了相互依赖的关系,总体的相对数及平均数等等相关性指标在数据分析中都可以发挥作用,同时也是建立在大量观察的基础之上实现的。
数理统计在数据分析的过程中发挥重要作用的同时,也会对数据分析产生一定的影响,主要体现在以下几个方面。一是数理统计会对数据的总体分布形态、方差分析以及正交设计、相关分析等等产生显著的影响,可能是正向的回归效应,也可能是负面的偏离效应[6]。二是数理统计还可以通过其模型的构建去修正,对数据分析的均值以及方差等等统计学变量产生不同程度的影响。
四、结语
作为一项重要的工作,统计工作必须要依靠数理统计的方法和模式,才能够充分发挥出应用价值。数理统计这一工具的出现,成为了解决数据分析中常见问题的有效手段。在我国社会的不断进步和科学技术的迅猛发展,数理统计也处于一种不断完善和发展的过程中,在当前众多领域得到了普遍的应用。因此,如何加大数理统计在大数据分析中的应用,保障统计工作高效的进行,是当前迫切需要解决的问题。本文研究探讨信息时代背景下数理统计在大数据分析中的应用,首先从数理统计的研究内容分析出发,然后对数理统计的特点进行了简要的阐述。最后对信息时代背景下数理统计在大数据分析中的具体应用进行了深入的分析。希望为今后数理统计在大数据分析中发挥出更大的应用作用,奠定一个具有参考价值的文献基础。
参考文献:
[1]胥洪燕,陈梦雨.数理统计在数据分析中的应用研究[J].现代商业,2014,05:126.
[2]陈建桦.用数理统计的方法对检测中出现可疑数据的处理[J].家电科技,2008,01:62-64.
[3]颜钟得.磨损试验数据的数理统计处理方法[J].理化检验(物理分册),1995,01:45-46.
[4]颜钟得,谢致薇.静态磨损试验数据的数理统计分析[J].广东工业大学学报,2007,01:50-52.
篇6
关键词:统计学;教学改革;融合
1专业基础课教学现状分析
专业基础课是高等院校设置的为专业课程学习奠定必要基础的一类课程,它往往在一个专业的课程设置中起到承前启后作用,是学生掌握专业知识和专业技能必须的重要课程,专业不同,将设置不同的专业基础课。同一门课程也可能成为多个专业的专业基础课。以统计学为例,它是一门关于数据的收集、整理、显示和分析、解释数据的方法论学科。对经济管理类专业学生来说,在校学习和毕业后的工作中,都会涉及到很多社会经济方面的数据,也会涉及到一些大数据分析。因此,统计学一直是经济管理类本科专业的核心课程和必修的专业基础课之一。通过统计课程的学习与培养,希望学生能掌握统计学科的基本思想,并将其用于不同学科背景下的数据分析,形成数据统计分析的思维方式,提高解决实际问题的综合能力。现有教学模式基本解决了专业基础课将理论课教师与实验课教师分离的问题,这也在一定程度上解决了理论教学和实验教学的分离问题。但这还未能实现理论教学与实验教学的完整统一。以经济管理类专业基础课《统计学》为例,主要表现在:目前的统计学理论教学材料与实验教学材料仍然相对独立,缺乏统一的知识体系。然而,作为一门工具性和应用性极强的学科,统计理论与统计实验二者本应该是属于同一知识体系下的两个不同教学环节,但因为历史原因,统计理论的发展相对比较成熟,而统计实验却相对滞后,因此形成二者独立存在。一个突出的特点是,理论课学习的知识和方法不能恰当地在实验课中得以实施和训练,实验课的训练未能与理论课同步进行。要想从根本上解决专业基础课理论教学与实验教学相统一的问题,还必须有能将理论课和实验课统一一体的教学材料。因此本文探讨专业基础课理论教学与实验教学材料融合模式的问题显得尤为重要,并以统计学为例,提出总体的融合方案、融合模式,为其它专业基础课教学改革提供参考。
2统计学理论教学与实验教学材料融合方案设计
2.1整合统计学理论教学和实验教学目标
统计学是处理数据的一门科学,通过收集数据、处理数据、分析数据、解释数据并从数据中得出结论的科学。统计研究的是来自各个领域的数据,统计方法是适用于所有学科领域的通用数据分析方法,只要有数据的地方就会用到统计方法,比如政府部门、学术研究、日常生活、企业生产经营管理等。而今,人类已步入大数据时代,知识总量急剧增长。大数据给企业运营、政府管理和科学研究等都带来了革命性变革。大数据对统计学教学也提出了更高的要求,为顺应时展,统计学教学改革势在必行。而在统计学教学改革中,首先要解决的就是现有教学目标的调整。在以往的教学中,通常把理论教学与实验教学孤立开来,其教学目标也不统一。大数据时代使得统计学理论教学与实验教学密不可分,因此,需要整合统计学理论教学和实验教学的教学目标:通过统计学理论课和实验课的教学,培养学生扎实的定量分析能力和理论联系实际的能力,使学生掌握统计学的基本思想、基本理论、基本方法以及运用统计软件处理数据的能力,为后续课程的学习准备必要的统计知识和统计技能。基本内容要求:描述统计重点培养学生统计资料收集、整理、综合能力;推断统计重点培养学生进行统计抽样、运用样本信息对总体进行参数估计、假设检验、方差分析以及统计回归等能力。同时,强化学生的动手能力,掌握一至二种统计分析软件,培养学生运用统计软件处理数据、分析解决实际问题的能力。
2.2构建统计学理论教学与实验教学知识体系融合架构
为解决现有统计学理论教学与实验教学分离的问题,需要从教学资源的融合着手,目前在大部分院校的统计学教学中,理论课教学和实验课教学由同一老师完成,这从一定程度上实现了二者的融合。但是,由于在教学中使用的理论教学材料和实验教学材料相对独立,老师很难将理论教学和实验教学有机结合。从笔者多年统计学教学经验看,要较好地解决二者的分离问题,得将统计学理论教学和实验教学知识体系融为一体,各章内容构架设计:引导案例、基本理论和方法、软件功能模块、实验案例、思考练习题、实务操作题。“引导案例”主要反映一些社会经济热点问题,其目的是引导学生认识本章将涉及到的统计知识;“基本理论和方法”主要介绍经典的统计理论和统计方法,也可以介绍一定的前沿理论和方法;其目的是让学生掌握基本的统计知识,了解前沿统计理论方法;“软件功能模块”主要介绍本章实验需要的软件功能模块,其目的让学生熟悉软件功能及基本操作;“实验案例”主要是结合本章的理论方法给出一至二个案例,介绍如何进行数据处理和数据分析,其目的是让学生能根据实际问题,运用相应的软件模块,进行数据处理和分析;“思考练习题”主要是体现统计基本理论和方法的练习题,其目的是让学生通过练习掌握统计的基本知识;“实务操作题”主要是给出一两个案例,要求学生课后运用软件处理和分析这些实际问题,其目的是让学生能根据实际问题选择相应的软件功能模块进行数据处理和分析。
3结论与建议
篇7
一、大数据与统计学的区别
统计知识在大数据的利用研究中有多样化的应用形式,主要是对“大数据”进行肢解,对爆炸增长的数据信息进行搜索、分类以及整合主要依赖于统计学。因此,大数据的相关研究在一定程度上运用了统计学的知识。但是,大数据的使用尚未被统计学这门学科充分利用,这主要是因为大数据的运用方式,使用模式和统计学之间存在着重要差异。统计学主要利用的是样本统计资源,样本主要在根据既定的概率标准从总体中抽样调查,但是随机抽样调查是带有成本属性的,例如消耗时间、资本投入的成本等。在样本数量逐渐增加的情况下,样本估计的误差范围是伴随着总体样本数量的增大而逐渐增加的,这是样本统计学不能忽视的缺点。大数据时代最具代表性的就是海量的信息数据化以及即时电子商务信息,大数据在整体上呈现出“总体样本数据化”的趋势,这样的特征恰好可以补充样本统计的弊端。大数据环境下的整体样本统计即使可以囊括全部的样本容量,但是因为很多情况下数据具有非结构性和半数据化的特征,而且大量的数据资源呈现的是重视尾部分布的状态,方差、标准差等标准化的方法变得毫无意义,整体依靠性和不稳定性经常会超越经典时间内的时间序列的整体假设性,所以概率论的应用范围呈现狭窄化的发展趋势。因此,统计学在利用大数据进行样本统计的过程中,可以对整体上的数据资源进行融合和选择,这和样本统计中的数据化处理技术存在异曲同工之妙。
二、大数据时代统计学教育的发展
1.全面培养人才素质
统计学专业的学生需要具备良好与人交往能力。统计学的学生很多都是理科出身的学生,不善于交际。但是在日常的工作中,有数据经验的科学家应该经常和每个部门的工作人员交流,协同工作。怎么样才能让颇具专业性的数据分析结果让普通的老百姓也可以读懂,让每个部门的工作人员都能无障碍地理解,这是不容易做到的。要训练自己的交往能力和沟通技能,主动地参加演讲活动是不错的渠道,演讲活动锻炼了演讲者的自信,在整个演讲的过程中,能否清晰地表达自己的思想以及给人以信服力是至关重要的。需要培养数据常识,广其见闻。数据科学家经常面对各种各样的海量数据,并需要从这些数据中挖掘出有价值的信息,这就需要数据科学家具有强烈的数据敏感性。对数据的敏感程度的训练不是一蹴而就的,要经过长时间的积累和数据分析工作的磨练,同时也可以根据阅读数据分析材料积累阅历,提升对数据资源的敏感程度。
2.培养应用型人才
大数据时代培养的数据科学家需要两方面的基本素质,第一是概念性,也就前面所说的数据科学家需要掌握的基本素养和专业知识;第二是实践性,也就是本文中我们提及的应用型人才,也就是实际操作中处理数据的能力。在高校开展大数据分析研究生学科,最大的问题是没有可用的数据,这就需要高效与大数据企业合作,进行研究生的联合培养,注重学生的实际操作能力,这里面涉及到我们的应用统计学专业硕士的双导师培养制度,一名校内导师一名校外导师,校内导师注重学生的概念性,校外导师注重学生的实践性,学生通过在校外导师单位的实习,从而熟悉并且掌握实际工作中所需要的技能。
3.促进统计与数学、计算机学科合作
“大数据”时代需要的海量数据分析资源仅仅凭借统计学科单一学科的发展是不能满足发展需求的,大数据的数据结构性特征已经抛弃了传统意义上的数据分析模式的非智能化框架,而且数据分析需要利用新型的数据运算方式以及计算机技能分析,这也是进行数据分析工作的拦路虎。所以,数据科学家的成长仅仅依靠单一的统计学科知识的学习是远远不够的,其需要的是数学、计算机和统计学三门学科融合发展,紧密结合。三门学科之间交叉发展,融会贯通,这样既可以发挥学科的优势资源,同时也能弥补其他学科的弊端。
篇8
1.1计算机技术应用于统计学是信息化发展的必然要求
传统的统计工作基本以统计人员的手工劳动为主,因此无论在信息量,还是统计数据的可靠性、准确性及时效性都已不能适应现代社会信息化发展的需要。而在信息化时代,从统计方法的选择到统计工作过程,即统计设计、统计调查、统计整理和统计分析四个阶段,在遵循客观规律和实事求是原则基础上,每个环节都需要渗透计算机技术,尤其是最后对海量数据分析阶段,需揭示事物的本质和规律,需要对数据进行深度挖掘,得出有用的决策方案和评价结论。离不开计算机软件处理,有的甚至需要编程寻求数据结果,数据结果的一般也是在通过该网络平台上进行的、所以,计算机技术应用于统计学是信息化发展的必然要求。
1.2计算机技术推动了统计学的发展
就统计数据本身而言,其不但渗透到社会生活的各个领域,而且数据量也快速增加,即所谓海量数据的处理,这就对统计学的发展和应用提出了更高的要求。例如在对一些理财产品的选择和风险投资领域,对这些数据处理最重要的要求就是快而准,唯有如此才能抓住盈利的时机,而电脑和网络技术的发展真正提供了这种可能性。计算机作为一种高速计算的电子计算机器,最重要的功能之一便是数据处理分析,不但能在时间复杂度上得到最大程度的优化,同时在完成基本数据运算之余,更能通过分析技术对数据做出合理分析,并在一定程度上通过对数据的整合完成对所关心对象未来发展的预测。所以,计算机技术不但能实现对数据的快速处理,而且在很大程度上推动了统计学的发展。
1.3统计学为计算机信息处理提供数据保证
在信息化时代,数据日新月异,层出不穷,计算机技术只是为信息时代的数据处理提供了高效手段,但只有信息是准确和可靠的,才能得出正确的处理结论,而这些数据是否真实、准确、可靠,完全依赖于统计学的调查方法和手段,依赖于统计学的不断发展。只有统计学,才能为计算机技术进行准确和及时的数据处理提供保证,也才能更好地促进信息社会的发展。
2计算机技术在高校统计学教学中的应用
统计学,以“概率论与数理统计”为核心理论支撑,包括诸如随机过程、抽样推断、时间序列、多元统计分析等各个细小分科,而作为与数据打交道的统计学,在通过数据挖掘来探求事物本质,发展状况与走向时,对数据的依赖是不容忽视的,对于海量数据的处理需要计算机技术、统计分析方法和统计软件。而在目前高校统计学教材和统计学学习中,学习的核心仍旧放在理论方面,在应用上投入时间少,尤其是对较为实用,较为前沿的技术介绍不够。下面介绍几种简单的计算机处理技术如何在统计学中进行应用。
2.1EXCEL在统计学中的应用
EXCEL是WINDOWS的成员,学习起来非常方便,极易被人们所接受,因高校中开设计算机文化基础课程,对此有所了解,因此尤其适合高校统计学中深入学习。EXCEL软件是一种功能强大的数据分析与管理系统,它提供了大量的函数,比如统计学中经常涉及到的平均指标(算数平均数、中位数、众数)、标志变异指标(标准差、方差、标志变异系数)、回归系数(一元、多元)、极值计算(最大值、最小值、峰值)、抽样推断(样本个数、置信区间)以及编制变量数列进行统计分组等等,都可以进行处理和计算,很直观,也很适合统计人员使用。另外,还具有很强的制图制表功能,同时可以对经济预测提供相应的数学模型,是目前高校统计学习中的一种重要数据处理工具。
2.2SPSS在统计学中的应用
SPSS是StatisticalPackageForSocialSciences的缩写,即社会科学统计软件包,是目前国际上广泛使用的统计软件包之一,主要分布在保险、医疗、制造、银行、证券、科研院所等各个领域。SPSS主要功能包括数据管理、数据分析、图表分析和数据输出等,集数据管理、分析与一体。主要内容包括均值比较、方差分析、主成分分析、回归分析、时间序列分析、因子分析、聚类分析等等,每类中都有多个细小的专项统计方法。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。具有操作简便、编程方便、功能强大、全面的数据接口、灵活的功能模块组合等优点,为统计人员处理数据提供方便。
2.3SAS软件在统计学中的应用
SAS是StatisticalAnalysisSystem的缩写,即统计分析系统,现已发展成为一个大型的模块化集成软件系统,融数据处理和统计分析于一体,具有数据仓库管理、数据挖掘和集成数据访问等功能,广泛应用于医药、卫生、经济学、政府、农业、教育部门等各行各业,几乎满足任何类型的数据和任何应用的需要。具有易学易用,操作简便、完整可靠的特点。在统计学方面,可以进行一元线性回归分析、相关分析、方差和协方差分析、时间序列分析、决策分析和经济预测等等。SAS具有绘图功能,能把存储的数据以图形的形式非常形象和直观地显示出来,不仅可以绘制直方图、散点图、扇形图等,而且还能绘制地图。另外,本身还有函数系统,用户可以根据自己的需要选择适合自己的模块。SAS提供了几乎所有最新的统计分析方法,其分析技术先进可靠,非常值得在统计学中学习和推广。
3统计软件运用过程中的相关建议
篇9
关键词:数据挖掘能力;SPSS软件;统计分析
中图分类号:G647.38 文献标志码:A 文章编号:1673-291X(2013)05-0234-04
一、调查背景
随着信息时代的迅猛发展,经济研究对信息的需求与日剧增,面对海量数据,要从中提取出有用的信息,就需要人们掌握高级的数据挖掘方法与手段。这样,就对高等教育的人才培养提出了更高的要求,需要培养以计算机为工具,利用各种数据分析方法去挖掘大量数据背后重要信息的能力,即数据挖掘能力。SPSS 软件作为数据发掘的重要工具,在调查统计行业、市场研究行业、医学统计行业、政府和企业数据分析应用中久享盛名,其提供了数据获取、数据管理与准备、数据分析、结果报告这样一个数据分析的完整过程,操作性强。因此,SPSS软件课程的开设对于当今经济管理类的大学生是非常有必要的。
本次调研通过对680名受访者(湖南商学院学生)对SPSS软件的认知程度、对SPSS课程相关要求和对学校硬件软件支持的期望等方面的调查,了解大学生对SPSS软件的认识程度,并为提高大学生数据挖掘能力和SPSS课程的推广提供可行性建议。
二、调查对象
本次调查主要针对于湖南商学院在校大学生进行的调查,调查样本属自愿样本。本次调查共发放680份问卷,回收有效问卷649份,有效回收率为95.44%。
有效问卷中从性别来看,男性占47.6%,女性占52.4%,比男性多了3.8个百分点,这符合商学院性别比例“女多男少”的现状。从年级来看,受访者主要集中在大四,大一最少,大二大三居中。大学生随着学习的积累、生活的丰富,更加有意见发表,这让本次的调研成果更加有信服力。从学院来看,受访者来自12个学院,各学院人数从9人到319人不均匀分布。受访者人数最多的前4个学院中,工商管理学院占53.3%,会计学院占13%,经贸学院占7%,财政金融学院占5.2%。这4个学院的学生人数在学校的占比都是很大的,因此,更有代表性。本次调查的受访者来自33个专业,人数最多的为市场营销专业,有174人,最少的是旅游管理专业,有9人。专业的广泛性,使得本次调查更为全面。
三、调查方法
本次调查采用自填式调查问卷进行访问,问卷由SPSS软件认知、数据分析能力的自我认知、SPSS课程的认知及相关要求和个人基本信息四个部分共25个问题组成,调查报告运用SPSS19.0进行统计分析。
四、SPSS软件对学生数据挖掘能力培养调查结果及分析
本次调查主要从SPSS软件的认知情况、数据分析能力的自我认知、SPSS课程的认知及相关要求和职业意向四方面对受访者进行调查,意在了解湖南商学院学生的数据挖掘能力现状、对SPSS课程的期望度、对SPSS软件的认知和SPSS软件学习环境的要求与期望。
(一) 受访者对SPSS的认知情况
在对湖南商学院学生对SPSS软件认知的调查中,发现受访者对SPSS的了解途径以课程选择和师友口碑为主,且大部分学生对SPSS软件的认知度不高,对其功能了解不全面,对SPSS软件的操作也不是很熟练。
1.受访者对SPSS的了解程度不高
表 1 不同年级的受访者对SPSS软件的了解程度 单位:%
表1中数据显示,40.4%的受访者对SPSS软件只有“一般”了解,23.5%的受访者表示“不了解”,17.5%表示“很不了解”,对SPSS不了解的比例超过40%,可见该软件没有得到广泛的推广。另外有17.7%的受访者表示“比较了解”,仅0.8%的受访者表示“非常了解”。
从年级分布看,大一群体中近80%的人表示“不了解”;大二群体中“不了解”的比例将近65%,但有9%的人对该软件比较熟悉;大三群体中,“不了解”的比例下降到45%,“了解”的比例达到15.9%;而大四群体中仅有27.3%表示不了解,而“了解”的比例扩大到24.7%。
随着学习的深入,学生将有越来越多的机会接触到SPSS软件,并在不同程度上加以运用;另一方面也反映出了低年级阶段对该软件的运用度不够,需要加大对这些群体的教育投入。
2.对SPSS的了解途径以课程选择和师友口碑为主
图 1 受访者了解SPSS软件的主要途径
图1显示,受访者中对SPSS的了解有40.1%是通过“课程的选择”,28.6%是在“学校老师同学的推荐”下了解到的,“做调查统计数据”了解的占21.8%,从“计算机相关书籍上”了解到的占6.4%,在“网络上遇到”和“观看别人演示”而了解的各占了1.4%。可见,“课程选择”、“老师同学推荐”和“调查统计的需要”是受访者了解SPSS的三大主要途径,比重合计超过90%。
3.受访者大部分使用过SPSS但不熟练
在访问者中,63.0%的受访者对SPSS软件的接触停留在“学过,实际上操作过但不熟练”这个层面;16.2%的受访者表示“了解SPSS软件,但没接触过”;还有15.6%的受访者表示“上课学过,但没用过”;仅有5.3%的大学生“操作SPSS软件非常熟练”。可见,绝大部分的学生还处在对SPSS运用的表面阶段,操作能力还需要进一步加强。
4.大部分同学认为SPSS软件是专业数据统计分析软件,且大部分同学对SPSS软件的功能认识但不全面。
从图2中可以看出,有81.5%的同学认为SPSS软件是“专业的数据统计软件”,77.9%的同学认为“能对数据进行分析的便利软件”,41.2%的同学选择“增强人数据分析能力的工具”,36.7%的同学认为SPSS软件是“一门数据统计的课程”,选择 “制作图标的软件”和“能保存很多数据的数据库”分别占21.8%和21.6%。在第一印象中,认为SPSS是“数据统计和分析的软件”,合计超过总数的80%,说明绝大部分的人对SPSS有一定的认知。
图 2 受访者对SPSS软件的印象
对于SPSS的功能,同学们了解最多的是“数据输入”和“数据整理”,占比分别为66.0%和53.4%;其次是“图表制作”和“分析报告”,占比分别为27.8%和29.2%;了解“建立模型”、“相关性分析”、“探索分析”、“交叉分析”、“结果”和“预测分析”功能的分别为23.0%、20.5%、17.1%、16.9%、11.8%、10.7%;仅有5.3%的大学生“了解所列出的全部功能”。可见,学生对SPSS软件功能的了解很局限,因此,SPSS教学应给予学生更多的操作机会,让学生对SPSS了解更全面。
(二) 受访者自身数据分析能力状况
在数据分析能力自我认知调查中,大部分的受访者对自身的数据挖掘能力不认可且具有学习SPSS课程的基础,并期望能熟练或者独立操作SPSS软件,但受访者大都不愿意主动接受SPSS课程。
1.大部分专业开设了与SPSS相关的课程
受访者中70.9%学过《统计学》,32.1%学过《SPSS在经济管理中的运用》,26.4%学过《市场调查与预测》,19.7%学过《计量经济学》,有17.9%的受访者没有接触过与SPSS相关的课程。
在受访者认为学好SPSS需要提前了解的知识的调查中,超过65%的受访者认为学好SPSS需要提前了解《统计学》,其次有近16%的受访者认为要提前了解《市场调查与预测》,认为要提前了解《概率论》、《计量经济学》、《高等数学》的受访者分别只占7.2%、5.5%和4.5%。
可见大部分的学生有接受SPSS课程的基础,且大部分同学认为提前掌握《统计学》和《市场调查与预测》的知识对于学习SPSS有帮助。
2.大部分学生认为自身数据分析能力差,而且大部分同学对自己的数据挖掘能力不认可
受访者中48%认为自己“能力一般,会对数据进行一些简单的分析”;认为自己“能力非常差,不会对数据进行分析”和“能力较差,分析数据时需要参照别人成果进行分析”分别占12.9%和20.8%;认为“能力较好,不仅能掌握数据的主要核心,还能根据已有数据进行扩展性分析”的占16.3%;只有1.8%的受访者认为自己“能力非常好,数据概括能力强”。
图 3 受访者对自身数据分析能力的自我评价
在对自身数据分析能力满意度调查中,受访者对自身数据分析能力不满意的将近40%,对自身数据分析能力满意的只占13.1%,持一般态度的人群占据了总人数的一半左右。可见,大多数人对自身数据分析能力并不认可,显然SPSS课程的开设是有必要的。
3.受访者大都不愿意接受SPSS课程
图4显示,在是否愿意接受SPSS课程的调查中,受访者选择“不愿意”和“非常不愿意”的分别占44.2%和23.7%,合计67.8%; “非常愿意”和“愿意”的分别只占了4.5%和10.9%。
图 4 受访者是否愿意接受SPSS软件
结合图3来看会发现一个矛盾:虽然超过80%的人不认可自身数据分析能力,但愿意接受SPSS课程的只有15.4%,远远低于不愿意接受的人群。一方面学生对自身数据分析能力不认可,另一方面却又不愿意主动接受SPSS课程。原因很多:首先,《SPSS课程》在学生群体中并没有形成广泛的影响力,还处在一种被接受的过程。其次,SPSS软件操作不是十分深奥,但许多学生对统计软件、统计分析望而却步或者即便会用,也经常犯一些很基本的错误或者计算出来的结果不知道该如何解释,甚至看不懂软件结果。这就要求教师在教学过程中,还应告诉学生“为什么选用这种方法”。教师在教学过程中应该激发学生联系自己的专业,认识到从实验设计着手就需要“统计知识”的参与,为提高自己的分析能力奠定基础。
4.学生更期望能熟练或者独立操作SPSS
在对自身数据能力的期望上,受访者中60.4%的期望“能熟练地操作SPSS软件”;40.2%的期望“能独立自主运用SPSS软件完成报告”;39.2%的期望“达到未来工作岗位对数据分析能力的一般要求”;38.9%的期望“提高自身对数据提取概括的能力”;37.1%的期望“能对数据进行拓展相关性分析”;29.4%的期望“能运用多种分析方法,并熟练作图”。受访者期望在能熟练掌握数据分析的基础上独立撰写报告并满足将来职业发展的需要,SPSS课程教师应设计一套系统的教学方式来引导学生去学习SPSS。
(三) 受访者对SPSS课程的认知及相关要求
在SPSS课程的认知及相关要求的调查中,受访者最期待SPSS课程作为专业必修和专业选修,课程教学能理论与实际结合,考试能以实践课程、小组合作和机试这些形式,且课时不少于32个;学生们期待在SPSS课程学习中能得到学校在学习设备、专门实验室和雄厚的师资力量等方面的支持,并提供最新的SPSS软件和实践机会。
1.经管类学生认为学习SPSS的最佳时期是大二,最佳课时不少于32个
学习SPSS的最佳学期,受访者中选择“二年一期”的占28%,“三年一期”的占18.9%;,“二年二期”的占17.2%,“一年二期”的占16.2%;选择“一年一期”、“三年二期”和“四年一期”的分别只占8.7%、7.8%和3.2%。
在最佳课时调查中,超过90%的人认为学习SPSS的课时至少需要32个课时,这说明受访者愿意花时间来学习该课程来掌握数据分析的能力。可见,适宜的学习时期以及更多的课时是学生所期望的,这为学校设计SPSS课程提供了参考。
2.学生更期望SPSS课程作为专业必修和专业必选课程
图 5 受访者期望SPSS软件的上课形式
受访者期望SPSS课程作为专业必修课的占39.70%,期望作为专业任选课程的占26.50%,期望作为专业限选和人文选修的分别占22.30%和11.50%;期待SPSS课程作为专业必修和专业任选的合计达到66.2%。可见,受访者对SPSS课程还是比较重视的。
3.SPSS课程以理论与实际相结合的教学方式,实践课题、小组合作和机试的考试形式是最受学生欢迎的
受访者中59.1%的期望SPSS课程是“理论讲解与上机实践结合”的形式,35.2%的期望采用“上机实践”的形式,选择“理论讲解”和“研讨会”两种形式的分别只占3.7%和1.7%。理论与上机实践结合形式是受访者更愿意接受的,实际上这种形式能让学生更好地理解和掌握该课程。
在期望的SPSS课程考试方式调查中,受访者中选择 “社会实践做课题”近30%,“小组合作形式”和“上机考”分别占25.5%、25.9%,希望以“闭卷考试”、“开卷考试”和“论文”分别为2.7%、7.3%和8.7%。显然“社会实践做课题”、“小组合作形式”和“上机考”是学生最期望的,这也表明大部分受访者认为这门课程应该更加注重实践操作能力。
4.在SPSS教学过程中资历丰富、结合案例教学的教师更被青睐
受访者在对授课老师的第一要求中,55.1%的选择了“资历丰富”,10.2%选择了“企业实战背景,丰富的案例辅助”,9.7%选择了“互动参与性强”,其他选项作为第一要求的受访者相对而言较少。
受访者中70.8%的认为SPSS课程的授课老师要“资历丰富”,44.4%的期望授课老师有“企业实战背景,丰富的案例辅助”,36.9%的选择了“互动参与性强”;期望授课老师“理论性强,具有系统性及条理性”和“耐心解答学生问题”分别占29.6%和27.9%;期望老师“认真备课”、“有成功案例”和“激情澎湃,有感染力和号召力”的分别为18.6%、17.7%和12.4%。大部分的受访者希望授课的老师资历丰富,有实战背景并且能与学生充分互动,相当一部分的受访者希望老师授课有系统的理论知识,并且能够耐心解答学生问题,在“认真备课”、“有成功案例”和“上课有激情”三个方面对授课老师也有一定的要求。可见,同学们对老师的上课风格很是在意,这可能直接影响到学生对课程的兴趣。
5.学生期待有良好设备、专门的数据分析实验室和雄厚的师资力量等硬件支持
受访者中78.5%的认为要学好该课程学校应 “建立专门的数据分析实验室”,78.3%认为要“更新或维护好电脑设备”,71.2%认为要“配备更多的优秀师资力量”,认为要“进行学生数据分析能力大赛”和“购买更多专业方面的书籍”分别为45.8%和25.8%。学生们认为学好SPSS这门课程学校应该支持“电脑设备”、“师资力量”和“数据分析实验室”三个方面。当然学校能支持学生“进行数据能力分析大赛”和“提供更多的专业书籍”,可以更好地辅助SPSS的学习。
6.学生期望在SPSS学习过程中有最新SPSS软件和实践机会支持
受访者中88.2%的认为要学好该课程要“购买或安装SPSS最新软件”,81.4%期望有“提供更多的实践机会”,67.9%期望有“提供资金支持”,期望有“政策上给予关注”和“举办专场讲座”分别为31.2%和30.8%。最新的SPSS软件、更多的实习机会是学生最为期待的,因为软件方面支持到位了对于SPSS课程的授业而言就相当于拥有良好的内部环境。也有相当一部分的受访者希望学校能从“政策”和“专场讲座”两个方面给予支持,这几点也值得重视。
五、建议
SPSS软件和其他一些统计软件一样,不能够对模型的适应性做出判断,模型选择的正确与否依赖于使用者对资料的了解程度与统计分析方法的掌握程度。主观上,大部分同学希望提高自身的数据挖掘能力;客观上,各行各业都要求人们掌握高级的数据挖掘方法与手段,可见SPSS课程的开设是有必要的,但调查发现多数同学不愿意接受SPSS课程的学习。因此,开设SPSS课程有利于培养学生的实践能力,提高学生的职场竞争力。为此,笔者提出以下建议。
(一)加强SPSS软件在商科院校学生中的宣传推广力度
通讯、医疗、财会、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业都要求掌握一定的数据处理分析的能力,因此,学好SPSS软件无疑对以后参加工作会起到锦上添花的效果。而要使学生接受SPSS软件,首先得加大SPSS软件在学生中的宣传推广。
笔者认为,可以鼓励校园内SPSS软件爱好者在SPSS课程相关老师的指导下,成立“SPSS数据处理社团”以进行全校性质的宣传推广;定期或不定期举行与SPSS软件相关的活动,如SPSS数据分析大赛等。
(二)结合学生需求,以适当的形式在各专业各年级开设SPSS软件课程,以达到更好的教学效果
开设该课程前,先开设与SPSS课程的相关基础课程,如统计学、市场调查与预测等,用以辅助SPSS软件的学习;上课注重理论结合操作,以学生自主上机为主老师讲解为辅,配以数据分析题,让学生以小组课题形式完成对SPSS课程的学习。
(三)校方努力满足SPSS软件课程所需软硬件设施,以辅助达到更好的开课效果
加强师资队伍的建设,及时更新SPSS课程相关老师的知识储备,以适应SPSS软件不断更新的需要;校方应投入一定资金,及时更新SPSS软件;校方应及时更新校计算机系统、操作平台等;再者,学校可以适时建立数据分析实验室。
(四)处理好学生能力不足与教学要求之间的矛盾
对SPSS软件各功能原理的学习,是让很多学生特别是非统计学专业的学生头痛,因此,教师应因材施教,在讲授过程中简要介绍各种分析方法的基本原理,重点介绍不同的分析方法的功能和目的,并通过实际案例让同学们了解分析方法的实际应用,并学会解读分析结果。在教学中采用与授课学生专业相近或者有较强现实意义的连贯性案例数据资料,这样有助于学生把SPSS各个操作菜单联系起来,使学生懂得每个操作选项背后的实际意义,增加数据挖掘的能力,培养学生以数据思维模式来解决实际研究问题。
(五)建立“以学生为主体”的教学和管理模式
在SPSS课程教学中引导学生融入课程学习,激发其学习的潜能,将学生作为教与学的主体,变被动为主动;在管理中激励学生参加教学活动,尽量减少学校的强制行为,增加学生自制的范围。学校在重视SPSS课程理论教育的同时,应该高度重视实践应用尤其是加强动手能力的教育,在内容与方式上变畸重式教育为促进学生全面发展、健康的教育。
参考文献:
[1] 陈晓毅.统计学教学与SPSS软件结合的研究[J].广西财经学院学报,2009,(10):179-181.
[2] 窦清.基于金融市场综合实验室的SPSS 实验教学的思考[J].实验室研究与探索,2007,(4):22-36.
[3] 高莉.SPSS软件在统计学教学中的应用[J].校园心理,2010,(6):414-415.
[4] 韩胜娟.高校经济管理类专业SPSS 软件教学的探讨[J].现代企业教学,2007,(16):178-179.
[5] 何琳.SPSS软件在广西教育科学研究领域的应用分析[J].广西教育,2011,(27):99-101.
篇10
关键词:统计学专业 专业素养 理论教学 综合实践教学 统计软件
统计学是研究统计原理和方法的科学。具体地说,它是研究如何收集、整理、分析反映事物总体信息的数据资料,并以此为依据,对总体特征进行描述和推断的原理和方法。其显著特点是可以与整个自然科学、社会科学相结合,可以与计算机科学、信息科学相结合,处理各个领域的数据分析与统计推断问题,是一门方法论学科。统计学专业主要包括理学类统计和经济统计两类专业方向,培养具有良好的数学或数学与经济学素养,掌握统计学的基本理论和方法,能熟练地运用计算机分析数据,能在企业、事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析、市场研究、质量控制以及高新技术产品等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作的高级专门人才。特别地,在大数据时代,把统计学人才培养成数据科学家是在新时代统计学发展的必然趋势。
根据统计学的专业特点及人才培养目标,在统计学专业的人才培养方案中,专业类基础课程包括数学分析、高等代数、解析几何等数学类课程,这对刚步入大一的新生来说,无疑是一个前所未有的挑战:一方面,这几门数学类课程比高中数学的难度增加了几个等级;另一方面,对数学基础不好或厌倦学数学的同学来讲,原以为经过高考后,不选择数学专业就可以不再学习深奥的数学,可事与愿违,选择统计学专业仍然离不开为数不少的数学类基础课程。因此,结合统计学专业教育的实际情况,可能会出现这样一些现状:有些统计专业的大一新生以为学统计就是学数学,觉得太难,枯燥无味,就给统计贴上了数学的标签,未经深思熟虑就想转专业,渐渐失去学习的兴趣和动力。由于大一时没有打好数学基础,有些大二以上的学生对待专业学习时态度消极,经常感觉很茫然,学无所获、虚度光阴,专业课的学习入门难;由于缺乏对统计学专业的认识,有些毕业班的学生面临就业时不想找与统计专业对口的工作,盲目择业,既弱化了专业竞争力,又耽误了未来的发展。这些现象可以认为是对统计专业认知不良的表现,反映了部分统计专业学生对自己所学的专业认识不深、动机不强、缺少认同。因此,在统计专业教育教学的各个环节,采取多种有效的措施增强统计专业学生专业素养的培养显得尤为重要!下面结合重庆理工大学统计学系(理学类统计)多年来在培养统计学专业学生时,讨论了从专业教育、理论教学、统计软件教学、实践教学、专家讲座等方面专注培养学生的专业素养的探索与实践。
一、对于新生的专业教育,可以以专业导学课的形式,第一时间给予学生专业引导,使学生对所学专业有一个清晰的、宏观的认识
导学课的课时以16课时或一个学分为宜,内容上除了介绍统计学专业的人才培养目标、教学计划、课程设置、实践教学,还要系统地进行统计学专业的发展历史和现状、发展趋势、前沿的专业技术、就业前景等内容的讲解。特别地,由于在大数据时代,把统计学人才培养成数据科学家是在新时代统计学发展的必然趋势,可以结合大数据时代对统计学人才培养提出的新要求,明确大学四年的学习任务的艰巨,让他们做到心中有数。通过入学教育,尽早地让学生接触专业,了解专业,做到先入为主,让学生树立远大的目标。
二、对于理论教学,要把握好一些关键的专业课程
统计学或描述性统计学课程,作为统计学专业的第一门专业基础课程,应由教学经验丰富、专业知识渊博、上课幽默风趣、深受学生喜爱的资深教师担任。把这门课程上好了,能使学生了解统计学与数学的区别,从而消除学统计就是学数学的误解;使学生了解统计学的历史、现状及发展前景,从而了解统计学专业学生具有极宽的就业面;结合对实例的讲解,使学生感觉“统计是无所不能的”,从而对统计学产生较浓的兴趣,爱上统计学。在教师讲授核心课程,如《多元统计分析》《时间序列分析》《统计质量管理》《抽样调查》《应用回归分析》等课程时,要多搜集实际案例,采用案例驱动法教学,消除理论课程的枯燥、乏味,便于充分调动学生的学习积极性、投入到课程教学中来。教师要组织学生开动脑筋,运用课程知识解决与实际应用有关的一些统计问题。由于统计学的问题总是来自于学科外部,故要强调实践,要求学生会利用统计软件和相应的统计知识对实际数据做分析,并对结果给予合理的解释以及说明应用价值。在教学中对这些课程把握好是培养学生专业素养的重要一环。
三、对于统计软件的教学,如在SPSS、R、SAS等的教学过程中,让学生真正掌握算法的原理以及软件的操作,并深入思考算法的实现与相关理论的指导作用
“大数据”环境下,对统计人才的需求也发生了变化。这就要求在教学过程中,加强统计软件的教学。在进行统计软件课程的讲授时,学生已具备一定的专业基础知识,但知识体系偏理论,由于缺乏应用和分析工具,导致知识理解不深刻,专业知识零散,整体感弱。统计软件是统计学专业学生学习和研究必不可少的工具。要求学生掌握一至两门统计软件,具备数据分析的操作能力。教师在讲授该课程时,注意与其他课程理论讲解的不同:模拟直观,展示理论含义;逐步计算,展示理论过程。学生初学时,可能觉得使用统计软件获得一些分析结果非常容易,殊不知,要获得正确的答案并不容易,教师应强调学生对相应的统计方法要有透彻的理解;统计软件的输出总有一系列的结果,要从中找到对问题分析有用的结果,并能结合实际对结果进行合理的解释。从而通过系统学习统计软件,使学生又一次加深对专业知识的理解,加强知识体系的整体感。由于统计软件的学习没有理论知识那么枯燥,学生更容易去上机实现,但又得避免学生一味地重视操作过程,而忽视正确的统计方法的选择。甚至有学生大学四年下来就记住了怎么用软件输出结果,至于哪些结果有用,哪些没用,分得并不清楚,只是将输出结果全列出,看不懂输出结果,更谈不上是否选择了正确的统计方法了,出现这样的现象就在于学生将统计软件等同于统计方法。因此,在教学过程中,应特别强调:统计软件只是帮助进行统计计算的工具,能否恰当用好这个工具,在于你对统计方法掌握的程度。
四、对于综合实践教学,强调统计数据、计算机编程以及统计分析软件的结合
在综合实践教学中,首先突出典型案例教学,由易到难,通过典型案例教学逐步让学生掌握不同结构和数量的数据处理的基本技术,提高学生进行实际数据分析与处理的能力;当进入大四时,几乎所有的专业核心课程都已经学习完毕,就可以逐步过渡到以数据驱动为主的教学模式,训练学生在处理实际问题时选择正确的统计方法的能力。尤其是在“大数据”时代背景下,目标是培养符合市场需求的专业统计分析人才(或称为数据科学家),而合格的能进行统计分析的人才的培养必须经过一定量的统计实践训练。诸如统计数据平台,金融数据库,大数据展示平台及大数据问卷调研系统等,教师可以根据需要用到课堂教学中。
校外专业实习是实践教学中的重要一环。专业实习能起到从学校向社会过渡的桥梁作用。通过校外专业实习,可以让同学们对自己、对工作有更具体的认识和客观的评价;可以让同学们明白许多书本上没有的或原来理解不深刻的知识,感觉到实际工作与课本中学到的知识的差距,增强理论联系实际的能力;可以带动学生了解和掌握整个数据分析实践的流程,激发学生学习的兴趣,塑造更好的自我。
另外,可以积极鼓励高年级学生参加统计建模竞赛。通过竞赛,激励广大学生学习统计、应用统计的积极性,提高运用统计方法、建立统计模型、利用计算机技术解决实际问题的能力,培养创新精神,提升统计专业学生的综合素质。
五、对于扩大学生的专业知识面与就业面,可定期或不定期以专题讲座或学术报告的形式体现
通过邀请国际国内统计学家来校讲学,让学生了解统计前沿及当今热点问题,可为有志于进一步深造的优秀学生指明方向。由于统计学的应用渗透到各个领域,可邀请相关行业专家来校讲座或聘请其为兼职导师,让学生真正了解统计学在各行业的应用,进一步激化他们的学习兴趣。
以上只是笔者结合重庆理工大学统计学系多年来在培养统计学专业学生专业素养的一些有益探索及实践来进行总结,还有未尽之处,需要在实际中进一步地总结及摸索。尤其是在大数据背景下,对统计学教育提出了更高更实际的要求,人才的培养和供应方面如何与时俱进是当前面临的典型问题,需要不断地探索与实践。
参考文献:
[1]胡爱平,肖枝洪,苏理云,伍度志,陈彩霞.从就业前景谈统计学专业学生应具备的专业素质[J].中国校外教育,2013,(3):120-120.
[2]黄介武.浅析大数据环境下的统计学课程教学[J].课程教育研究,2014,(8):235-235.
[3]刘晓东,宗义湘,白丽.地方农业院校统计学专业实践教学改革技术路线图[J].河北农业大学学报(农林教育版),2012,(4):37-40.
[4]邱东.大数据时代对统计学的挑战[J].统计研究,2014(1):16-22.
[5]李君.统计学专业就业前景以及课程介绍研究[J].科技与企业杂志,2012,(9):224-224.
[6]张海波,黄世祥.统计学专业学生大数据分析能力的培养方式选择[J].统计与决策,2014,(24):66-68.
[7]徐秋艳.统计学专业校外实习基地的建设[J].实验室研究与探索,2012,(4):152-154.
[8]王炯琦,吴翊,周海银.美国一流统计学专业课程设置现状研究[J].高等理科教育,2012,(3):61-64.
[9]苏理云,高红霞,胡爱平,陈彩霞.以数据分析为核心的应用统计学人才课程体系构建[J].教育教学论坛,2014,(12):248-249.
[10]苏理云,叶志勇,刘仁彬,刘锋,高红霞,胡爱平.一般本科院校统计学本科实践环节的系统设计与优化,中外教育研究,2011,453(4):20-21.
[11]苏理云,叶志勇,李凤兰.案例驱动和课题带动的统计学应用课程教学模式探索,中国科技纵横,2010,90(6):121-121.
[12]苏理云,叶志勇,李姣军.案例教学在统计学专业课中的应用.重庆理工大学学报(自然科学版),2009,23(s2):131-132.