统计学的数据分析范文

时间:2023-07-13 17:31:44

导语:如何才能写好一篇统计学的数据分析,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

统计学的数据分析

篇1

关键词:大数据时代;大数据;统计学;

一、大数据与统计学

(一)大数据与统计学关系密切

简单来说,我们可以分为两个方面来理解大数据:若“大数据”作为形容词,则描述的是大数据时代数据的特点;若“大数据”作为名词,则体现的是数据科学研究的对象。对大数据的定义有非常多,不同领域不同专业对大数据的界定都会有些许不同。通俗地说:大数据是目前人类所有可抓取、可记录、可存储的信号集合。这个包含了一切信号的集合将非常非常之庞大、多样、繁杂,并且还在不停地、迅速地增加。现代互联网和信息技术的飞速发展,使得人类开始有能力收集、储存、分析、处理这些从前无能为力的数据,从中挖掘出有用的信息促进社会的发展。迈尔•舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析世界的渴望。而统计学正好是收集、整理、分析、解释数据并从数据中得出结论的科学。由此可见大数据与统计学关系密切,将大数据与统计学结合发展潜力无穷。

(二)大数据时代下的非结构化数据与结构化数据需整合

对接统计研究可根据自身的目的收集总体数据或样本数据,但如果总体太过庞大,以过去的技术方法来收集总体数据成本会很高,受于限制统计研究更多收集得是样本数据。如今,人类已经开始能够在合适的成本下获得大数据,大数据的广博给统计研究带来了新的发展方向。我们需要着重研究的一个方向就是如何将结构化数据和非结构化数据对接。大数据的核心是数据,统计学的研究对象也是数据,但是它们获得的数据性质有所不同:大数据收集的多是半结构化和非结构化的数据,通俗地理解,先获得数据,再整理结构(如声音、图片、视频等信息);传统统计学收集则主要是结构化数据,先定好结构,再根据目标结构收集数据(如数字、符号等信息)。拿非结构化数据和结构化数据来说:大数据时代使得我们有更多可以分析利用的数据,使得统计研究不仅可以在有更多的结构化数据的情形下进行;对于一些领域的研究工作还可以设法将非结构化数据和结构化的数据结合起来分析。如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事,同时需要计算机技术的一同创新发展。统计研究的范围在大数据时代越来越大,能用数据说明的问题越来越多。

(三)大数据时代下的相关分析与因果分析发展并重

《大数据时代》一书中表示:大数据时代的一个显著变化是:相关分析比因果分析更重要。我的看法是:大数据时代下,市场确实会对相关分析有着更强的关注度,但这并不意味着因果分析的重要性会有褪色。统计学中既有相关分析,也有因果分析,要对它们有合理的了解,首先需要明确的是相关关系和因果关系之间的联系,简单说:有相关关系不一定有因果关系,有因果关系则一定有相关关系。大数据时代,相关关系变得比以前更加为人所关注的原因:一方面,在很多领域的应用里,相关分析比因果分析更简单可行;另一方面,因为相关关系足以体现事物之间的一定联系,在商业效益上更为经济有效。因此在商业利润的推动下,相关关系也会更加受到青睐。但是我们不能就此否定因果关系的重要性,因果关系是对数据更加深度地分析:相关关系让我们知道了“是什么”,因果关系是让我们知道了“为什么”。倘若只是在商业经济上的利用和成本考虑,“是什么”在很多时候就以足够;但如果是在科学研究领域,“知其然而不知其所以然”就远远不够了。结合现实发展需要,可在分析确定相关关系后,根据情况研究因果关系,若能够得出因果关系,那肯定是更具价值和意义的。探求“为什么”始终是人类探索世界的动力,因果分析是人类永恒的使命。

二、结语

大数据时代的到来几乎对每个领域都有着不可忽视的影响。大数据与统计学关系密切,大数据的出现对统计学的意义是非凡的,我们应把握住大数据时代和统计学的可结合点。其一,完善非结构化数据的整合,深入研究如何实现非现结构化与结构化数据的对接,都需要我们思维上的创新、数据处理技术上的提高。其二,在注重相关分析的同时,不能丢掉对因果分析的研究,应合理并重,实现大数据的进一步利用,真正挖掘出数据的价值。对于以数据为研究对象的统计学科,大数据时代就是统计学变革创新的时代,统计研究工作人员也应把握机会思考创新,为统计学增添新的生命力。

参考文献:

[1]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(02):3-9.

[2]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02):10-19.

篇2

关键词:数据挖掘;统计学;比较

中图分类号:TP311.131文献标识码:A文章编号:1007-9599 (2010) 06-0000-01

Comparison of Data Mining and Statistical Analysis

Kong Pengxiang

(Laiwu Iron&Steel Group Co, Ltd.,Training Centre,Laiwu271104,China)

Abstract:Data mining from statistical analysis,but different from the statistical analysis.Data mining is not intended to replace the traditional statistical analysis techniques,on the contrary,statistical analysis of data mining is an expansion and extension.

Keywords:Data mining;Statistical analysis;Comparison

随着科学技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识。这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现――KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是KDD中的一个最为关键的环节。

一、数据挖掘简介

(一)数据挖掘的含义和功能

数据挖掘―DM(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。

一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘所采用的技术涉及到:数据库、人工智能、统计学、可视化、并行计算等不同学科和领域。

二、统计学的含义

统计学最初是作为一门实质性科学建立起来的,它从数量上研究某类具体的现象(如社会经济发展)的规律,但是,随着统计学研究范围的不断扩大以及统计方法在社会领域和自然领域内的有效应用,加之统计方法体系本身的不断发展和完善,使得统计学的研究对象也发生了变化。统计学已从实质性科学中分离出来,转而研究统计方法,成为一门方法论的科学。即统计学是研究如何搜集数据、整理数据和分析数据的一门方法论科学。

从本质上看,统计工作的核心就是数据(或者信息)的采集、分析和处理,正如权威的不列颠百科全书将统计定义为“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“统计:收集、分析、表述和解释数据”

三、数据挖掘与统计学的比较

数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。

由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目、找出数据挖掘的目标、确定数据挖掘所需涉及的变量、对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。

四、小结

数据挖掘理论与技术的产生,促进了统计学发展的同时,也提出了更多的挑战。如何更好地使用数据挖掘和统计为解决社会实际问题做出贡献,是统计学家和数据挖掘研究者共同关心的话题。数据挖掘和统计学应该相互学习和渗透,各自分工,协同工作,共同为挖掘隐藏在复杂现象背后的有价值的知识贡献力量。

参考文献:

[1]Jiawei Han,Micheline Kambr.数据挖掘――概念与技术(影印版)[M].北京:高等教育出版社,2001

[2]韩明.数据挖掘及其对统计学的挑战[J].统计研究,2001,8

篇3

随着数字媒体技术研究的不断深入和新媒体艺术的兴起,科技与艺术的结合越来越紧密,新媒体艺术渗入了艺术的各个领域,新媒体舞蹈是最后被开发的田地,也是集成最多媒体元素的新媒体艺术。在数字媒体技术的发展支持下,新媒体舞蹈的作品和软件层出不穷,如“Life Forms”等,为新媒体舞蹈的演出和编创提供了全新的机遇与挑战。

舞蹈剧目课是一门艺术表现性课程,是通向舞台的艺术性训练课程,在舞蹈教育中占有极其重要的地位,对学生舞蹈艺术能力的培养至关重要。在传统的教学中,由于场地、课时、教师精力等局限性,浪费时间、精力,事倍功半。如今,我们看到了新媒体舞蹈对剧目课教学的影响作用以及新媒体技术在剧目课中应用的可能性。但现有的研究成果主要集中在如何利用计算机对舞蹈进行记录和编创,很少涉猎舞蹈的课堂基础教学,或者所采用的技术过于依赖硬件的配置,增加了应用的难度,不适用于舞蹈教师或演员的独立操作。本文立足于舞蹈剧目课教学,设计一套基于数字媒体技术理念的适用于剧目课教学的交互式系统。

1 舞蹈剧目课与新媒体舞蹈简析

舞蹈是在一定的空间和时间内,通过连续的舞蹈动作过程,凝练的姿态表情和不断流动的地位图形(不断变化的图画),结合音乐、舞台艺术(服装、布景、灯光、道具)等艺术手段来塑造舞蹈的艺术形象[1]。舞蹈剧目课属于艺术表现性的训练课程,每个剧目都是一个完整的艺术作品,它是包含有特定的历史文化背景、鲜明的创意、具体的角色、丰富的情感意志以及舞美、灯光、服装、道具等众多姊妹艺术的结合体现,加强舞蹈剧目课教学,对当前提高学生的舞蹈水平、艺术水平和文化修养,有着极为重要的现实意义。从某种意义上甚至可以说,舞蹈剧目课是舞蹈教学的本质与核心[2],传统的剧目课教学采用“口传身教”的教学方式,即教师口头讲解、亲自示范动作、通过语言的描述让学生想象营造出一个原生态传承的特定环境,这种教学方式虽然具有现场感,教师能够有针对性地临场指导,学生有针对性地当堂提问,但由于场地的面积、人员的数量、教师的精力、个体和群体之间的关系、舞蹈艺术的身体体验等原因,使得学生形成了单调和孤立的学习方式,而束缚了学生的自学能力和创造性思维,不利于发挥学生的主动性和积极性,不利于提高学生的全面素质 [3-4]。近年来,随着新媒体艺术的兴起,数字媒体技术被广泛应用到了艺术的各个门类当中,正如马晓翔在《新媒体艺术透视》一书中提到的:“新媒体艺术不仅是计算机合作与兼容数码技术创作作品的方式,也是用计算机的计算力量和技术来创作新符号、新定义、新的交流与形式的方式。”舞蹈艺术作为一门多种艺术共同融成的综合性艺术,其与新媒体技术更能擦出不可估量的火花,美国著名编舞家兼数字艺术家阿尼达?程如是说:“新媒体技术不仅是舞蹈记录和传播的物质媒介,更是激发灵感的技术型缪斯。”可见新媒体技术对舞蹈艺术数字化革命的真正含义[5]。如前所述,剧目课作为舞蹈学习通向舞台的表演性课程,可以从新媒体舞蹈的本体特性中找到新的教学理念,即在全新环境中发展起来的立足于创意理念,并且融合了高新技术手段和互动设计理念。也就是说,更新传统剧目课的教学理念,结合计算机技术的数字化支持,搭建具有完整资料库、训练实时采录比对功能、远程/在线反馈功能、舞台模拟再现功能等允许学生自主学习和远程/在线学习的剧目课教学平台,以期做到教学中的事半功倍,对舞蹈剧目课教学改革以及创新能力的培养有着重要的现实意义。

当然,该平台的搭建需要多学科的跨界合作,本文仅对平台中所需的计算机技术进行分析与实现。

2 基于新媒体舞蹈理念的剧目课教学系统模型规划

本系统是一套适用于舞蹈剧目课教学的计算机辅助教学系统,以数据库形式管理课程参考资料和用户个人资料,通过数字图像处理手段对用户的个人练习进行原型比对,给出意见建议,在此基础上,通过可视化设计允许用户选拼动作进行新剧目的自由开发。

本系统吸纳了新媒体舞蹈的理念,将剧目课与虚拟的数字化舞台直接相连,并允许用户自由创作,激发创作的灵感和表演的热情,为实际的舞台演出提供全新的数字化剧目经验。

本系统模型的具体规划如下图所示:

其中,二维图像特征点提取与对比是技术中的重点,接下来,本文对此进行详细说明。

3 二维图像特征点提取与对比

3.1 芭蕾舞的算法定义

芭蕾舞在动作上有着固定的手位、脚位和精准的评价标准,因此逐帧对视频进行二维特征点的.提取与对比,即可很准确地得出动作的分析结果,为用户提供相应的反馈和建议。当然,结合专业教师的教学经验和作品特点给出视频中关键动作或重难点动作的时间,可以进一步减少计算时间和重复动作计算的冗余。

篇4

关键词:微课程;移动终端;自主学习;数据结构;系统框架

中图分类号:G642 文献标识码:A

1 引言(Introduction)

随着便携式移动终端的发展,“碎片化”时间的利用率越来越高,人们进入了“微时代”。“微课程”成了时代的产物。所谓“微课”是指按照新课程标准及教学实践要求,以教学视频为主要载体,反映教师在课堂教学过程中针对某个知识点或教学环节而开展教与学活动的各种教学资源的有机组合[1]。现如今各高校大力推动微课程,组织各种微课程比赛,调动教师的积极性,“微课”对于教师来说已不是一个陌生的名词。然而,目前的微课程只是针对一门课程当中的一个组成部分,仅是单独讲解某个知识点,没有形成一门完整的课,还没有完全发挥微课程的优势,并没有应用于真正的教学当中。

《数据结构》课程是计算机课程体系中的专业基础课程[2],作为程序设计的基础,数据结构课程不仅成为高校硕士研究生入取的必考科目,还是各企业招聘员工入职笔试中青睐的学科。如何让学生在课堂教学中对课程有更深刻的理解,并在复习考研和准备找工作中进行更好的自主学习,成为数据结构课程教学的研究重点,本文在分析数据结构教学现状的基础上通过对数据结构知识点的分析,构建合理的数据结构微课程框架,并将其应用于教学中,使得学生能更好的应用“微课程”进行学习。

2 数据结构课程的现状分析(Current situation

analysis of data structure)

数据结构课程是一门比较抽象的课程,而且学生本身知识储备不足[2],所以仅靠课堂上的讲解,不能使学生达到很好的消化吸收的效果。目前,很多高校也开发了网络教学平台,积极倡导教师和学生通过网络平台实现在线探讨交流,通过对网络教学平台的建设,如将大纲日历、教案、教学课件,教学视频上传到教学平台,使学生增加课下自主学习的意识,同时,老师在上课的时候也会给学生提供一些教学视频的网站,如清华教育在线等,然而,虽然教学平台的建设很完整,教师提供的教学视频也很不错,学生却很少好好利用网络教学平台或教师提供的网络视频进行自主学习。主要原因有三点:

(1)教师的课堂教学主要以集中讲授为主,并没有引导学生利用网络教学平台的资源进行自主学习,学生把网络教学平台当成了一个简单的提交作业、下载课件的平台。

(2)教学平台的内容过于繁多,视频基本上为课堂讲授的视频,即使有学生想课下自主学习,在看到45分钟甚至90分钟的教学视频也会打退堂鼓。

(3)教师提供的教学视频,如清华教育在线虽是名校老师讲解,但对于一般高校的学生来说讲解内容过深,没有针对性,很多学生觉得听不懂,打消了自主学习的积极性。

通过“微课程”的概念,专家学者认为“微课程”就是针对一个具体的知识点在短时间内(一般为10分钟左右)做简单明确的讲解,这种讲解不是泛泛的介绍,而是通过精心的设计,最终完成容量小,内容精的视频制作[3]。可以说,“微课程”的出现为我们解决数据结构自主学习难的状况提供了很好的解决方案。如何做到容量小,内容精成了“微课程”视频制作的关键,也是本文的研究重点。

3 基于微课程的数据结构模块化设计与实现

(Modular design and implementation of data

structure based on micro-lecture)

本文依据清华大学出版社出版的严蔚编的数据结构教材[4]进行知识点的划分,构建知识点的模块化,并将其应用在教学中。

3.1 数据结构相关知识点的分析与研究

数据结构课程研究的是数据和数据之间的关系,其基本分为四大类:集合、线性结构、树形结构和图形结构。在数据结构课程中,主要讲解的是后三种结构的逻辑结构、物理结构,以及相关算法的实现。在课程的最后讲解了利用已学过的数据结构解决基本的查找和排序的问题。

上述这些知识点中都具有一定的顺序性、关联性,但又相互独立。如果只是把课程讲解的内容分解成10分钟之内的小视频,除了时间上看着短了以外,没有改变课堂讲解的实质,没有做到真正意义上的微课程。在多年教学经验的指导下,本文要研究的是什么样的知识点适合做成微课程,让学生课下自主学习,课上共同讨论,培养学生自主学习的能力,并且在考试复习时通过温习微课程的视频可以更快的掌握主要题型的解决方法,节约复习时间。

微课程知识点的设定原则为5―20分钟可以被清晰地讲解,且尽量不涉及程序性的内容。栈和队列可以说是操作受限的线性表,其抽象数据类型和现实生活中的很多例子都有相似性,可以将其作为微课程的一个知识点,让学生自主学习。在树形结构中,如何在连续的存储空间中把非线性的东西表示出来可以在短时间内很经典的讲解出来,其链表的表示所以也非常适合做成微课程。二叉树的结构和树非常像,对二叉树的遍历,以及树和森林的转化都是比较独立的知识点,其方法不涉及难理解的程序,将这些放入微课程中。赫夫曼树是二叉树的重要应用,其构造方法可以放入微课程的知识点框架中。在图形结构中图的邻接矩阵表示法和邻接表表示法都可以作为微课程的一部分,深度优先遍历和广度优先遍历的算法虽然不易理解,但其求解方法的思想却可以通过微课程表达出来。最小生成树,关键路径,单源最短路径都是图里的应用,仅把问题的解决方法放入微课程中是比较好的选择。在查找中的折半查找和二叉排序树的构造都是独立的知识点,可以很好的用于微课程的制作。在排序中,会选择相对复杂一些的快速排序和堆排序,仅仅介绍排序的思想。微课程的知识点设定如图1所示。

3.2 翻转课堂辅助数据结构微课程的实现

学生在刚接触数据结构时会觉得特别的抽象,其基本概念和相关的术语并不适合让学生自主学习,线性表是学生接触的第一种线性结构,其逻辑结构,顺序存储和链式存储,以及插入删除等操作都非常的重要,但多数都是枯燥的程序,想让学生在短时间内掌握其精髓并不是一件容易的事,如果这个部分让学生自主学习很可能会打消学生的积极性,所以前几节课程并不适合做翻转课程。在学生已经对线性表有所掌握的情况下,可以将栈和队列的逻辑结构微课程要求学生自己学习,在课堂上进行讨论,在讨论的基础上讲解实现通过自主学习了解的各种操作的程序。树形结构是学生接触的第一种非线性结构,所以其逻辑结构需要在课堂上进行讲解,虽然树形结构的存储结构已经安排在微课程中,但由于是学生第一次接触,所以本微课程部分并不作为翻转课堂的一部分,学生在复习时可以通过微课程进行复习,以更好的掌握知识点。而二叉树的相关微课程可以要求学生自行学习,在课堂上根据学生学习的结果共同研究算法的实现。图形结构和树形结构都属于非线性结构,所以二者具有很多相似的地方,可以由学生自主学习课堂讨论,通过讨论的情况分析学生的掌握情况,因为微课程的内容简单,重要的算法实现还需要在课堂上详细讲解。经过前面的学习,插入和排序的内容无论是应用方面还是程序实现方面都由学生自主完成,通过讨论和测试考察学生的掌握情况。

经过和微课程相结合的翻转课程的设计,使学生习惯通过微课程进行学习,掌握自主学习的能力。

4 结论(Conclusion)

微课程的系统框架对微课程的制作起到了指挥棒的作用,在总体框架下进行各个微课程的制作,在制作过程中绝不仅仅是录制简单的视频,虽然仅仅是10分钟左右,但工作量绝不亚于一节课的准备,不仅要对微课程设计方案,制作电子课件,还要精心准备习题,并配合易理解的答案。只有一个完整系统的微课程,再加上与课堂的相辅相成,才能使得学生在课下自主学习时更有针对性,学生学的更明白,课上讨论也会更丰富,形成良性循环,真正实现了教师学生共同授课,共同讨论的多样化教学体系。

参考文献(References)

[1] 梁乐明,曹俏俏,张宝辉.微课程设计模式研究――基于国内

外微课程的对比分析[J].开放教育研究,2013,19(1):65-73.

[2] 董丽薇.“数据结构”课程教学方法的改进[J].沈阳师范大学

学报:自然科学版,2012,30(2):307-309.

[3] 刘名卓,祝智庭.微课程的设计分析与模型构建[J].中国电化

教育,2013,(12):127-131.

[4] 严蔚敏,吴伟民.数据结构(C语言版)[M].北京:清华大学出版

社,2012.

作者简介:

董丽薇(1981-),女,博士生,讲师.研究领域:供应链管理.

篇5

关键词:大数据;数据分析;统计学

大数据在如今社会已经成为热点词汇,不仅在计算机领域,在其他各个行业都能够得到运用,为各个行业提供便捷,为了让大数据能够得到充分利用,下文将对大数据分析相关方面进行讨论。

一、大数据与大数据时代

(一)大数据大数据是在当今科技飞速发展的情况下,一种新兴的信息数据处理技术。随着社会科技的进步,各行各业对于数据的应用也越来越广泛,传统的数据处理技术耗时较长且精准度较为低下,已经不能满足现代科技对数据应用的要求。新时代的大数据系统具有超大的数据容量,同时兼容半结构化与结构化的数据,远远超出传统数据库管理系统的管理能力。因此新的大数据技术就此诞生。大数据在发展过程中,具有比为鲜明的特点。与传统数据处理技术相比,大数据具有数量庞大、多样化、速率快、价值高的特点。在信息处理的速度不断加快的当今社会,这样的特点为大数据的广泛应用打下了坚实基础。由于数据的数量较为庞大,且各种数据近年来的增长趋势呈指数型,其数据的种类和形式也各有不同。其次,合理利用大数据技术,能够在一定程度上降低成本,提高效率,因此,大数据处理各项关键技术的进一步的开发与利用已成为了提高自身效率,实现核心竞争力的重中之重。

(二)大数据时代大数据时代是指在物联网技术、计算机技术、数据信息处理技术的基础上,通过互联网途径,大量收集并处理分析数据资源,而形成一种新型的信息时代。大数据时代的主要核心内容是对庞大的数据体系进行处理以发挥价值,从而提升数据分析效率以及数据应用价值。大数据时代是由多种信息技术共同组成,可以有效地避免数据处理中不同步、使用不方便的情况发生,具有高效可靠的数据处理、整合、分析及汇总的功能。因此,大数据时代的新型数据处理技术可最大程度的对数据进行分析与挖掘,极大提高处理数据的效率。

二、大数据时代与统计学

(一)大数据时代与统计学的关系统计工作是集数据的搜集、整理、分析和解释为一体的系统的过程。大数据与统计二者互相依存,通过统计的方法和原理对数据进行整理和分析,提高数据的精确度和适用度,以此来实现数据的价值和利用率。由此看来,大数据与统计学的联系既紧密,又存在区别。大数据与统计学的关系甚为密切,它们都是关于数字的学科。统计学为大数据提供了了施展方向,而大数据将统计学引领至更深更广的空间。共性之一就是社会与数据。几乎所有的行业与大数据都有着密切联系,这些联系或直接或间接,而人们正是通过获取数据并进行分析,从而才能得到商业知识和社会服务等能力。大数据与统计学的区别。首先,信息规模不同。大数据的分析对象是与某事物有关联的所有数据,要求数据量庞大。统计学则是用样本来分析和推断总体的数量特征。在大数据时代,则可以通过各种方法和渠道获得全面而又完整的的信息资料,从而完成更多从前无法完成的事情。其次,动静标准不同。数据经过了搜集、整理、分析的过程就很有可能因为精确性不足而被认为失去了用处。而大数据时代,则不必再担心这个问题,数据的精确性和原始性不在被过分重视,人们可以接受复杂数据。第三,数据搜集形式不同。在以往数据搜集形式主要是抽样调查,方法局限。而在大数据时代,特点是信息爆炸和互联网飞速发展,这一情况得到改观。最后,思维方式不同。大数据时代人们的思维发生转变,人们开始更多的关注事物的相关关联。

(二)大数据对统计学研究工作的影响首先,大数据丰富了统计学的研究对象。在大数据时代,我们既可以以结构化数据作为测量单位对文本、图像和视频等进行分析,还可以对非结构化数据实行分析。其次,大数据影响了统计学的工作进程。统计数据需求丰富,原有的统计抽样分析不能在适应时代的发展,而现代科技方法如透过传感器自动收集数据等方法取代了传统方法,更加便捷有效。

三、大数据数据分析理念

(一)统计学的应用随着现代科技的发展,传统的大数据已经不能满足人们对数据处理的要求。传统的抽样数据调查不能满足大数据的数据处理以及知识发现。因此,新技术及思维的引进就显得尤为重要。新的统计学思维以及知识的应用能够很大程度的提高大数据分析的效率。摒弃对传统的小数据样本的依赖,不在用传统的统计工具对数据进行全部分析。而是对数据进行针对性的分析,使数据分析更加精准,并且能够更加全面的体现数据的价值。我们利用统计计算工具对数据进行分析从而判断数据的变化趋势。统计学的应用可以,为数据分析提供科学的参考依据。

篇6

【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。

【论文关键词】统计学;统计思想;认识

1关于统计学

统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。

2统计学中的几种统计思想

2.1统计思想的形成

统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。

2.2比较常用的几种统计思想

所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:

2.2.1均值思想

均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。

2.2.2变异思想

统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。

2.2.3估计思想

估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。

2.2.4相关思想

事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。

2.2.5拟合思想

拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。

2.2.6检验思想

统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。

2.3统计思想的特点

作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。

3对统计思想的一些思考

3.1要更正当前存在的一些不正确的思想认识

英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。

3.2要不断拓展统计思维方式

统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。

3.3深化对数据分析的认识

任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。

参考文献:

[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).

[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).

篇7

笔者在教学实践中,依据统计学教学基本理论应以实际应用为目的,以“必须”、“够用”为度的原则,结合清远职业技术学院教学条件和学生的实际情况,对统计学教学做了如下改革:

1.简化理论,保证“够用”。统计学的原理抽象、公式的推导难懂、计算过程复杂容易出错,这些都是学生学习统计学的共同难点。大多数高职院校学生高等数学基础差,甚至根本就没有高等数学的基础。而且,统计学课程的周课时少(一般周课时只有2节),教学进度快,学生理解消化的时间不够。对高职学生来说就更是难上加难了。所以,在保证“够用”的前提下,简化理论就成了统计学教学中的一个重要任务。笔者在实际教学中,按照“必须”和“够用”的原则,根据人才培养方案和教学大纲的要求对上课的内容进行重组。强调课程体系的针对性,课程设置不是从学科体系出发,而是从职业岗位群的需要出发,体现国际劳工组织的MES职业培训体系经常采用的模式――模块式课程模式(把专业学科的系统理论知识进行简化、分解成职业岗位群所需要的模块知识)。具体课堂教学操作是:

在简化理论方面,首先,在教材体系中,简化教材中抽象基本原理的讲述、复杂公式的推导,省略繁杂的书面统计计算过程的章节。把重点放在假设检验、方差分析、χ2检验和直线回归等实际应用性的章节;其次,在教学内容上,简化抽象基本原理的讲述、复杂公式的推导,省略繁杂的统计计算过程。重点讲授基本原理适应解决的对象,统计公式应用的条件,解题的基本步骤、基本方法和应注意的事项,新增引用Excel计算统计量、统计分析和常见统计软件的初步应用等内容。

所谓“够用”,首先是保证学生将来从事的岗位群所需要的统计方法及其原理,包括基本统计方法和原理的含义、应用对象、适用条件等基本知识;其次要保证具有分析和解决实际问题的实操能力,能做到学以致用。主要包括基本统计原理在实际工作中的应用、分析和解决问题的灵活运用能力和基本统计工具(Excel和SPSS,EVIEWS,SAS统计软件)的使用能力等,其中重点是MicrosoftOfficeExcel一些自带工具在统计学上的应用。

2.优化手段,讲求“实用”。在课堂教学中,我们还应遵循教育教学过程和培养目标的另一个特点,即注重岗位能力的培养,根据“按需施教、学以致用”的原则,组织课程教学、试验和实训。笔者根据以上原则,突出统计专业课程是定量分析的内容较多,应用性和实践性十分明显的特点,把优化教学手段和“实用”结合起来,一并体现在课堂教学之中,主要是改变传统讲授统计学的“三个一”模式,对教学手段进行优化,采用多媒体自做课件教学和计算机实操教学。首先,利用多媒体教学信息容量大、视觉直观、效果好的优点,既能简化教材中抽象基本原理的讲述、复杂公式的推导,省略繁杂书面统计计算的过程,又不影响学生对教材的学习和理解,在保证基本理论够用的前提下,还有足够的时间把重点放在讲授基本原理应用性的实用内容上。其次,增加计算机实操(实验实训)课,把教材中的手工、半手工统计计算转化成计算机计算。主要做法是增加SPSS、EVIEWS和SAS统计软件的简介,重点放在引用Excel自带的函数公式“fx”计算标准误、方差等统计量、利用Excel自带的“数据分析”工具分析双样本均数假设检验和方差分析、利用Excel的“图表向导”求回归方程、相关系数和制作图表等内容,其主要目的就是利用计算机这个现代化工具去解决实际生产中的统计问题,使复杂的统计计算简单化,以增强学生的解决实际生产问题的实操运用能力。第三,根据教学对象将来的就业方向,并结合实际工作中的实际案例和学生学习中其它学科出现的统计问题自编练习题,让学生反复练习并要求他们能举一反三、熟练应用。

3.注重方法,力求“会用”。本文所讲的方法是指注重统计学的实际运用方法,强调统计学基础知识和基本原理在实际工作中的运用。重点内容应放在Excel自带的函数公式、数据分析库和统计软件的基本应用上,而不是理论和繁杂的书面计算过程。核心问题是教会学生能够灵活应用统计学这个统计工具,去解决生产实践中的实际问题。在实际生产中,最为简单、方便、实用的统计工具就是Excel。所以笔者在教学过程中就是以Excel的应用为中心,结合实际生产中的问题开展教学工作。

在工作中要始终坚持“会用”这个原则,“会用”包括两层含义:第一,会用统计的原理解决实际问题,即知道解决什么问题时使用什么统计方法;第二,会利用Excel自带的函数公式“fx”、“数据分析”库和图形处理等计算统计量,并根据统计计算结果对问题进行推论,达到解决实际问题的目的。

在课堂教学中,我们应注意以下几个问题:第一,注意讲清楚“数据分析”工具与手工统计分析计算上的衔接关系;第二,向学生交代清楚Excel自带“数据分析”适用对象、适用条件,并教会他们分析和判断;第三,详细讲授运用Excel自带函数公式和“数据分析”的具体操作步骤,明确Excel计算结果中各个数量所代表的意义。下面举例说明两种安眠药的疗效有无极显著的差异:

对10名失眠患者,服用甲乙两种安眠药。以XiYi分别表示使用甲乙两种安眠药后各个患者睡眠的延长小时数,结果如下表:

分析说明:第一,利用Excel自带的“数据分析”工具解此题的步骤同手工统计法,也要求有以下4个步骤,①提出假设;②确定显著水平;③计算概率值;④推断H0的正误。其中提出假设、确定显著水平和推断H0的正误这三步与手工统计分析相同;而Excel自带的函数公式和“数据分析”工具仅仅用于计算概率值。第二,Excel自带的“数据分析”工具的选定和运用分析。本题具有两组样本数据,而且两个样本是相互关联的,样本容量一样,每对数据都是同一总体在不同条件下抽取的样本,如第1组数据1.9和0.7是同一个患者服用甲乙两种药睡眠延长的时间数。所以应选用Excel“数据分析”工具中的“t-检验:成对双样本均值分析”。第三,讲清具体操作步骤,并注意对结果进行说明。

解:①检验假设:H0:u1=u2即两种药疗效相同;HA:u1≠u2即两种药疗效不相同

②取α的值为0.01(判断这两种安眠药的疗效有无极显著的差异)

③统计计算:此步需用Excel“数据分析”工具,具体操作步骤如下:

打开Excel,把数据输入Excel表格,点击“工具”,再点击“数据分析”,在对话框中选取“t-检验:成对双样本均值分析”,点击“确定”。在随后出现的对话框内单击“变量1的区域”后的对话框,而后拖动鼠标选定Excel表中的第1组数据;同理,单击“变量2的区域”后的对话框,而后拖动鼠标选定Excel表中的第2组数据;把“(Α)”后对话框的值改成0.01。然后在“输出选项”下面的“输出区域”前的圆圈内单击鼠标表示选定,再用鼠标点击“输出区域”后面长形对话框,并在Excel数据表中鼠标点击适当的单元格作为输出区域。最后用鼠标点击“确定”,此时Excel就会自动生成如上表的结果:“df”为自由度;“tStat”是“t-检验:成对双样本均值分析”的统计值,即t=4.062128;“t单尾临界”是单尾检验临界值,即单尾t0.01=2.8214;“t双尾临界”是双尾检验临界值,即双尾t0.01=3.2498;“P”为概率,“P(T

④推断H0的正误:

篇8

【关键词】统计学;统计思想;认识

1关于统计学

统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。

2 统计学中的几种统计思想

2.1 统计思想的形成

统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。

2.2 比较常用的几种统计思想

所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:

2.2.1 均值思想

均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。

2.2.2 变异思想

统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。

2.2.3 估计思想

估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。

2.2.4 相关思想

事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。

2.2.5 拟合思想

拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。

2.2.6 检验思想

统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。

2.3 统计思想的特点

作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。

3 对统计思想的一些思考

3.1 要更正当前存在的一些不正确的思想认识

英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。

3.2要不断拓展统计思维方式

统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。

3.3深化对数据分析的认识

任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。

参考文献

[1] 陈福贵.统计思想雏议[J]北京统计, 2004,(05) .

[2] 庞有贵.统计工作及统计思想[J]科技情报开发与经济, 2004,(03) .

篇9

一、统计学中的几种常见统计思想

统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等。统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。

1.均值思想。均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。

2.变异思想。统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。

3.估计思想。估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。

4.相关思想。事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。

5.拟合思想。拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。

6.检验思想。统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。

二、对统计思想的若干思考

1.要改变当前存在的一些不正确的思想认识。英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂,越科学。在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。

篇10

 

2011年2月,国务院学位委员会进行了学科调整,统计学完全从数学和经济学中独立出来,上升为一级学科,设在理学门类中,编号为0714。统计学上升为一级学科后,下设的二级学科包括数理统计学、社会经济统计学、生物卫生统计学、金融统计、风险管理和精算学、应用统计学。统计学上升为一级学科对统计学专业的教学带来巨大影响。

 

同时,随着大数据时代的到来,使得传统的统计数据收集、处理与分析方法面临新的挑战,从而推动统计学的发展进入了一个全新的阶段。在统计学上升为一级学科以及大数据时代已经到来的大背景下,统计学专业的课程教学也面临着新的挑战,需要进一步改革与调整。

 

一、大数据时代的到来

 

(一)大数据的生成

 

伴随着人类对客观世界各领域数字化程度的不断提高,每天都有大量的数据产生,并且其产生的速度也越来越快。这些数据来源广泛,其中最主要的来源有:科学研究(如天文学、生物学、高能物理等实验数据)、社交网络、电子商务、物联网、移动通信等。

 

(二)大数据的定义

 

为了应对数据大规模增长带来的机遇和挑战,美国《Nature》杂志在2008年9月4日率先提出了“大数据”的概念。国际数据中心IDC 是研究大数据及其影响的先驱,在2011年的报告中定义了大数据:“大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。但是大数据是一个新兴而且内涵不断发展的概念,尚没有统一公认的定义,只能从其特点上加以认识。

 

(三)大数据的特点

 

与传统数据相比,大数据的特征可以用五个“V”来表示,即Volume(容量大)、Variety(种类多)、Velocity(时效性强)、Value(价值高)、Visualization(可视化呈现)。大数据容量大是个相对的概念,受时间、行业和数据类型等因素的影响;种类多是指数据集的结构异质性,科技进步导致了结构化、半结构、非结构化数据的日益增多;时效性强是指大数据被生成、处理、移动的速度相当快,是区别于传统数据最显著的特征,这也增加了对即时分析、加工数据的需求;价值高是指大数据潜在的高价值能为评价和决策提供依据。可视化是大数据分析的关键步骤,是对有价值信息加以提炼并显示的过程。

 

(四)大数据的应用

 

大数据具有5Vs(Volume、Velocity、Variety、Value、Veracity)特点,蕴含着巨大的社会价值、经济价值和科研价值,已引起了产业界、学术界、政府部门和其他组织的高度关注和重视。

 

近年来,世界发达国家相继布局大数据战略,诸如联合国“数据脉动”计划、美国大数据战略、英国“数据权”运动,大力推动大数据发展和应用。大数据已纳入我国国家发展战略,国务院2015年8月31日印发了《促进大数据发展行动纲要》的通知(国发[2015]50号),指出:“大数据成为推动经济转型发展的新动力,大数据成为重塑国家竞争优势的新机遇,大数据成为提升政府治理能力的新途径。以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。探索发挥大数据对变革教育方式、促进教育公平、提升教育质量的支撑作用”

 

二、大数据给传统统计学带来的冲击

 

(一)数据收集方法上

 

不同于传统的调查抽样方法获取数据,大数据的收集来源渠道通常为现代网络渠道,如互联网、物联网等。不同的数据源的数据采集需要专用数据采集技术, 如包含格式文本、图像和视频的网站数据,通常需要web爬虫技术。

 

(二)数据存储上

 

大数据的存储不同于传统的数据存储方式,有固定的格式和结构,对于大数据的数据库来说,可以直接将所探测到的信号自动容纳到其中;大数据需要有先进的存储设备,传统的存储设备已经不能容纳如此大量的数据。

 

(三)数据分析上

 

传统的统计分析方法,难以胜任对非结构化的大数据的分析。当前大数据分析技术的研究可以分为6个重要方向:结构化数据分析、文本数据分析、多媒体数据分析、web数据分析、网络数据分析和移动数据分析。

 

(四)数据展示上

 

数据可视化的目标是以图形方式清晰有效地展示数据的信息。一般来说,图表和地图可以帮助人们快速理解信息。但是,当数据量增大到大数据的级别,传统的电子表格等技术已无法处理海量数据。大数据的可视化展示需要专业的软件来完成。

 

三、大数据时代统计学专业教学改革

 

大数据时代的到来对统计学也带来了新的机遇和挑战,特别是大数据对于数据分析人才产生了巨大需求,同时也要求统计专业学生掌握更为复杂统计软件的编程和操作。大数据背景下,统计学要适应新的形势,需要对课程教学进行有针对性的改革。

 

(一)大数据时代统计学专业毕业生就业方向定位

 

大数据时代的到来,使各行各业,包括政府、企业、个人都希望能从大数据这座金矿中挖掘出对自己有价值的金子,从而增加了对统计专业毕业生的需求。一直以来,我国统计工作领域主要是政府统计、部门统计、民间统计。传统意义上,政府及各个部门是统计学学生就业的首选。然而,随着大数据时代的来临,越来越多的毕业生选择发展空间更为广阔的民间统计。民间统计相对于政府统计来说,涉及范围十分广泛,包括各类统计咨询公司、统计调查公司、统计研究院等,介于市场和企业、行业之间。民间统计的发展前景十分广阔,可以预见,随着大数据时代的来临,统计学作用的提高,民间统计必会成为统计专业毕业生选择就业的主要渠道之一。

 

(二)大数据时代统计学专业课程设置改革

 

大数据时代,在对统计数据分析人才需求增加的同时,也对统计专业毕业生的大数据处理能力提出了更高的要求,这就需要统计学专业在课程设置上,增加大数据处理与分析方法课程,如《大数据分析方法》、《数据挖掘》等,培养学生能够使用专业统计软件(R/SAS/Python)进行大数据的挖掘、清洗、分析等。

 

(三)大数据时代统计学专业学生实践能力培养改革

 

在课堂教学之外,通过广泛举办大数据技术创新大赛、大数据技术创新与创业大赛、数据挖掘挑战赛,支持学生成立大数据研究协会,举办大数据相关讲座论坛等方式,增强学生分析和处理大数据的能力。另外,还要加强校外大数据实践教学基地建设,通过与通信、互联网、电子商务等企业大数据开发中心以及大数据研究咨询机构合作,为学生提供给更多的实习、实践机会。

 

四、总结

 

总之,面对大数据时代的到来,统计学专业需要积极改革与调整课程的设置,注重学生实践能力的培养,以适应各行各业对大数据分析与挖掘人才的需求。

 

作者简介: