生物统计学数据分析范文

时间:2023-12-06 18:01:12

导语:如何才能写好一篇生物统计学数据分析,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

生物统计学数据分析

篇1

关键词:数理统计学;发展

1 前言

数理统计学是数学非常重要的分支,探讨如何合理的采集、整理以及分析具有一定随机性的数据,对于所需考察的问题实施推演又或是预估,直到为确定相应的决定与行动提供参考。部分专业人士将其概括成:探讨应用于科学与现实推演的,统计数据的全面性整理、加工与运用的数学方式。确定了数理统计学的分析主体与分析目标。

2 数理统计学的概念

数理统计学是探索合理使用数据采集和处理、多个模型和技术研究以及社会调研等等,对于科学技术的发展以及国民经济的关键问题与繁琐问题,以及政府与社会层面非常多的问题,怎样对数据实施推断,便于对问题实施推演与预估,进而对决定和行动奠定较好的基础。

3 数理统计学的发展

3.1 萌芽期

现代化的统计大致源自于分析总体、变差以及简化数据等。英国政治算术学派的典型人物约翰・格朗特在其编写的书里面经过大量观察的方式,分析同时挖据出了大量人口统计的基本规律。例如:在非瘟疫阶段,某个大规模城市的每个年份的死亡人员均具有一定的统计规律,普通疾病与事故的死亡率相对平稳,但是因传染病而死亡人数数量改变较大。新生婴儿的性别比为1.08,也就是出生13个女孩便会有14个男孩出生。由此可知,格朗特已经可以由大量繁琐的数据里面获得满足现实的相应结论。

3.2 发展期

截至1830年,大部分的经验分布均是与一个非数值又或是一维误差相关的变量。在此以后,凯特勒采取了正态分布与理论二项分布。高尔顿是生物统计学派的创始人,首次把概率统计理论等方式运用到生物科学之中,同时创新出了“生物统计学”。当前,被人们所熟知的“回归”与“相关”,同样也是高尔顿所首次运用的。在1886年的时候,在针对两代豌豆重量间联系进行分析的时候,其挖掘出了y与一正态随机变量X相关的线性回归以及与椭圆相似的等概率线。在此之后,多元正态分布便获得了人们大量的运用。其实首次由数学层面对生物统计进行分析的人便是皮尔森,其先后提出与拓展了标准差、正态概率曲线以及平均变差等大量相关的概念。

3.3 壮大期

在皮尔森的方式无法形成数量更加多的联合分布以后,伯恩斯坦指出一种更加具备生产意义的方式或许形成于随机过程之中。在1930年的时候,费舍曾经对于独立同分布概率变量的最大值的渐近分布实施理论层面的研究,挖据出了在极值分布里面存在着逆威布尔分布,康拜尔分布,遵循相同分布的n个单独持续的概率变量里面最大值x的极限分布;以及发现了属于正态分布的极值统计量向极值分布的收敛速度非常之慢。接着由米思所给出了分布函数归属极值分布吸引范畴的充分条件。

3.4 多元化

在1940年之后,数理统计逐渐向着多元化的方向发展。70年代能够说得上是规范化模型的阶段。其重点便是去除正态性的假设,达到涵盖由二项分布至咖码分布的线性化。该理论和概率随机相互融合,推动了对医学相关数据能够实施深层次考察的生存解析法的出现。80年代的初期高度关注对于渐进理论的探讨,渐进性理论采取高等数学公式推演出了较为繁琐的展开式,计算机的出现对统计学的发展造成了巨大的影响。对数据进行模拟,回归变量的推断等非参数估计的方式随之产生。在90年代之后,非常多的应用问题均有着研究对象相对繁琐和难以准确识别模型架构等,经过运用专业型的软件实施模拟,能够处理非常多非常繁琐的问题。

4 数理统计学的应用

4.1 在数据分析中的应用

对于不一样的科学分析与社会活动层面,人们均会采取不一样的分析数据的方式来达到人们对此领域的研究与掌握。伴随数理统计可以处理现实问题的思想有着更加强的发展态势,数理统计在数据分析所占据的位置日益提升,数理统计在数据分析里面的统计方式相应的被确定。其间,大数定律就是数理统计和数据分析间创建关联的最为主要的纽带,在大数定律里面,大量观察的方式是数据分析最主要的方法,大量观察法是大数定律的重要基石。在对数据进行分析的环节里面,如果不进行大量观察,则数据分析所获得的整体的相对数与平均数等其它基本性的指标便没有了相应的重要意义与价值。由此可知,数理统计对于数据分析而言有着非常重要的意义。

4.2 在社会经济中的应用

数理统计的分析方式是对具有一定随机性的主体实施分析,进而挖据出其基础性的规律,其对于目前迅猛进步的社会经济具有相应的参考作用,尤其是我们国家,在经济全球化的背景之下,更加多的厂家和人民群众对于日常生活里面部分现象的规律性更为关注。伴随数理统计的大量运用,人们逐渐意识到了数理统计所具备的重要性和科学性,调查问卷等方式的统计行为逐渐被接受。然而在商品的出售环节之中,商品在某一城市里面销售状况的数理统计所获得的结果,可以在一定范畴内对将来此商品在此城市的销售数据实施相应的预估,其是数理统计在社会经济中运用的本质所在。数理统计在社会里面应用形式丰富多彩,主要有抽样调研、随机统计以及人口发展动态模拟等,在社会的各个层面均有着或多或少的运用。

4.3 在中药质量鉴定中的应用

中是我们国家的瑰宝,然而它的成分较为繁琐、品质无法调控等其它问题对于中药的发展造成非常大的负面影响。之前所具备的性状鉴定以及显微鉴定已无法达到市场对中药品质的需求,较为单一的指标无法展示出中药繁琐系统的作用特征,所以,数理统计大量的运用在中药的质量鉴定环节中。

5 结语

数理统计学相关理论知识的运用,有了非常大的进展,然而概率论显得更为重要,其不仅是数理统计的重要基石,同时还是统计推理和归纳的重要参考。上述研究成果,使得当前更加完善、更加繁琐的数理统计学的出现,同时快速的运用于各个行业。但是,科学的发展是没有尽头的,现代化的数理统计学,依然有着非常多的问题,需要后期更加好的处理,需要人们更加深入的研究。

参考文献:

[1]徐传胜.数理统计学的发展历程[J].高等数学研究,2007,(10).

[2]孙波.在工程项目管理中应用统计学的初探[J].经济管理,2011,(03).

[3]柏佳丹.21世纪统计学在经济发展中的作用[J].佳木斯大学社会科学学报,2004,(08).

篇2

【关键词】统计学;统计思想;认识

1关于统计学

统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。

2 统计学中的几种统计思想

2.1 统计思想的形成

统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。

2.2 比较常用的几种统计思想

所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:

2.2.1 均值思想

均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。

2.2.2 变异思想

统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。

2.2.3 估计思想

估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。

2.2.4 相关思想

事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。

2.2.5 拟合思想

拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。

2.2.6 检验思想

统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。

2.3 统计思想的特点

作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。

3 对统计思想的一些思考

3.1 要更正当前存在的一些不正确的思想认识

英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。

3.2要不断拓展统计思维方式

统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。

3.3深化对数据分析的认识

任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。

参考文献:

[1] 陈福贵.统计思想雏议[J]北京统计, 2004,(05) .

[2] 庞有贵.统计工作及统计思想[J]科技情报开发与经济, 2004,(03) .

[3] 范文正.几种基本统计思想的现实意义[J]统计与决策, 2007,(08) .

篇3

【关键词】统计学;统计思想;认识

1关于统计学

统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。

2 统计学中的几种统计思想

2.1 统计思想的形成

统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。

2.2 比较常用的几种统计思想

所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:

2.2.1 均值思想

均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。

2.2.2 变异思想

统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。

2.2.3 估计思想

估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。

2.2.4 相关思想

事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。

2.2.5 拟合思想

拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。

2.2.6 检验思想

统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。

2.3 统计思想的特点

作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。

3 对统计思想的一些思考

3.1 要更正当前存在的一些不正确的思想认识

英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如gnp、人口增长率等等,均是凯特勒及其弟子们的遗产。

3.2要不断拓展统计思维方式

统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。

3.3深化对数据分析的认识

任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(dda)、推断性数据分析(ida)和探索性数据分析(eda)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。

参考文献:

[1] 陈福贵.统计思想雏议[j]北京统计, 2004,(05) .

[2] 庞有贵.统计工作及统计思想[j]科技情报开发与经济, 2004,(03) .

篇4

近半个世纪以来,科学技术迅猛发展,新知识、新成果不断涌现,数字化特点凸显。根据2002年度美国国家科学基金会资助的研讨会报告,目前我们收集的数据需求呈指数增长,而数据分析的需求呈二次增长,但统计的专业人才呈线性增长并且目前统计学的教育远远落后于实际需求。邵启满教授“给当今毕业生的建议,就两个字:统计”。我们当前的数理统计课程的教育还处于“非常狭窄的计算机时代前的统计学”,严重滞后于不断发展中的现代统计学。大部分的研究生教科书内容仍然是从统计量到点估计,继而假设检验、回归分析和方差分析等基础知识的呈现及统计方法的推导。课程的教学大纲中也以理论推导为重点,注重统计方法的理论基础和演绎证明,而对于实际应用较多的现代统计方法缺乏介绍,忽视与各种统计软件的结合。因此,我国工科研究生毕业论文实验数据处理手段较为低级,对异常数据缺乏理性说明。我们的研究生往往在学完数理统计课程后,虽然掌握了基本的统计方法和推导,但进入科研工作碰到实际数据时,对数据的收集、处理和分析仍然一筹莫展。这也是促使我们教学理念转换的主要原因,研究生数理统计课程应以现代统计应用为中心,不仅要求学生理解和领会统计思想,还应正确使用统计方法,根据计算结果作出正确的推断,给出合理的解释。

2教学变革的尝试

由于课程的实用性和重要性,学生普遍对数理统计课程比较感兴趣。如何调动学生的主观能动性,变“被动灌输”为“主动探索”,在有限的课时内学习较多的统计知识呢?我们教学变革主要采取如下措施。

2.1教学内容的调整为了避免重复学习,我们对原来本科时已经学习的统计量与抽样分布、参数估计这部分内容只简单复习,温故知新,不再细讲。而对目前生物医学工程中应用较普及的方差分析、回归分析,我们补充了生物医学方面的实例,运用软件进行统计分析,并对运行结果详细讲解。对于教材未介绍的非参数检验和实验设计部分,补充几种常见的统计方法。对于较复杂的多元统计和现代统计学部分,我们引入PBL教学模式,通过分组、问题探究、成果汇报、反思和完善几个步骤,完成学习内容。

2.2教学方式的改进在课程的教学中,我们尽量做到深入浅出,回避复杂的推导、运算和证明,强调对统计思想的理解以及统计方法的运用,同时注重和统计软件的结合。统计从某种意义上说是与数据打交道的科学,没有实际数据的统计分析,不利于学生对统计方法的理解和应用。教学中如果仍然当成数学课程,注重统计理论中定理和公式的推导演算,而缺乏实际的数据分析训练,学生就无法对统计的广泛应用性及重要性有深刻的体会,也不利于保持和提高他们的学习兴趣。我们补充了生物医学方面的实例,通过数据分析,提高他们对统计方法的实际应用能力,也为后续PBL教学的顺利开展做准备。大部分学生在本科阶段已学习Matlab软件,而且工科学生计算机应用能力较强,因此我们要求学生自学一门统计软件(如SPSS、R等)或使用Mat-lab,对所有的实例在软件中实现数据分析。软件输出的是数值或图表,并没有详细的解释、分析和结论,学生必须结合数据背景知识,应用所学统计方法,进行分析推断,最后给出结论和合理的解释。

2.3考核方案的变革注重平时考核,淡化期末考试。考试不是最终目的,只是促进学习而已。因此,成绩是对学生学习情况的全面评价,不仅包括教材知识点的掌握情况,还有自主学习和实际应用的能力。我们将PBL案例分析的评价和期末考试的成绩各设置为50%的比例,鼓励学生自主学习,提高实际数据分析的能力。

3结合PBL教学模式

统计学的飞速发展要求研究生掌握必备的统计基础知识外,能够进行知识的自我更新,具有不断学习现代统计新知识的能力。PBL教学模式在提高学生分析问题、解决问题的能力,培养学生成为自主学习者、终身学习者等方面已被广泛认同。虽然生物医学工程专业研究生基础知识比较扎实,但统计学的发展以及软件的学习交叉,要想学好这门课程并不轻松。在研究生教班开展PBL教学的有利条件是:①教班人数较少,分组进行问题探索可以实现。②学生对数理统计课程比较感兴趣,积极性较高。③现代统计学和计算机科学紧密联系,但医学工程学生计算机应用能力较强,在统计软件的学习和编程方面具有优势。④教研组在数模竞赛培训和本科毕业设计中积累了一些素材,可以将内容完善成PBL问题。我们引入PBL教学模式,进行了初步探索。

3.1前期准备推荐一些统计应用的网站和书籍。简单介绍前沿的方法和知识,补充回归、相关、时间序列分析以及实验设计等内容,对于随机模拟、MC-MC方法也举例说明。教师将原先积累了一些实例设计成若干问题,让学生进行选题,组成学习小组(每组5-8人),确定分工。我们将多元统计分析和传染病预测的案例编写成4个问题,提前半个月交给学生,等他们分组确定后,分别给予一定指导。

3.2问题探究小组成员分工合作,查找文献、学习算法,围绕选定的问题进行准备。通过交流和讨论,将各自学到的知识进行整合,进而运用这些知识重新分析上一阶段提出的问题,思考并提出解决方案。最后,对问题形成一个附有详细统计算法和计算结果的论文报告交给教师。

3.3成果展示和汇报各组将问题的解决方案和结果做成PPT,在课堂上进行汇报。其他小组可以提问和质疑,开展课堂讨论。教师预先阅读各小组的论文报告,引导学生的课堂讨论,针对学生模糊不清的问题进行讲解,强调重点和难点,对每个小组的报告给予建设性意见和评价。

篇5

1常用统计学软件的特点

Excel是我们日常工作中最常用的软件之一。主要用于数据处理、统计分析与计算,简单的数据库管理,而且它能绘制图表,具有检查与删除宏病毒的功能,并能与Internet网络共享资源[3]。此外,还能利用VisualBasicforApplication(VBA)语言开发面向特定应用的程序,但实际应用中很少有人使用。实际工作中我们经常用Excel的两大服务,一是自动计算功能,进行一些报表处理,这时Excel相对于Word来说不仅制表容易,更重要的是Excel有自动重算功能,一个数据被改动了,相应的结果会自动重算;二是Excel的制图功能,它能根据输入表中的数据自动生成曲线图、柱形图、饼形图等,大大减轻了手工制图的工作量。SPSS(StatisticalPackagefortheSocialScienceorStatisticProductsandServiceSolution)forWindows,与Excel相比,SPSS的统计分析功能、图表功能和数据库互接功能更为强大。SPSS软件处理庞大的受随机因素影响的数据时具有速度快、无编程、数据接口方便和功能模块组合灵活等特点。它使用Win-dows的窗口方式展示各种管理和分析数据方法的功能,并使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,只需粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS集数据整理、分析功能于一身。其基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分多个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数[4-5]。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。其分析结果直观、易学易用,而且可以直接读取Excel及DBF数据文件。由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。SAS是一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。SAS中各模块具有相对独立的功能范围。常用的模块有base,graph,stat,insight,assist,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。编程操作功能的无比强大是SAS系统的长处。尽管高级版本的SAS出现了可视化窗口,然而要想完全发挥SAS系统强大的功能,充分利用其提供的丰富资源,掌握SAS的编程操作是必要的,也只有这样SAS在各个方面的杰出特长才能得以体现。

2结合相关分析探讨比较Excel、SPSS和SAS优缺点

2.1变量的相关分析及两个变量的相关分析

相关分析用于属于平行关系的两个变量的分析。在相关分析中,变量无自变量和依变量之分,而且都具有随机误差。相关分析只能研究变量间的相关程度和性质,不能用一个变量的变化去预测另一个变量的变化。事物间的联系是普遍的。生物学中,作物产量与施肥量、气温、土壤湿度等都存在一定的联系。这种说明客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程就是相关分析。现以20种细胞系的细胞膜和细胞质中蛋白质含量的测定结果为例,通过三种软件的操作来进行两者之间的相关分析。如本例题命名X为细胞膜中蛋白质含量,Y为细胞质中蛋白质含量,见表1。

2.1.1Excel操作Excel通过其分析工具库实现统计分析。数据在工作表中组织后,在“工具”菜单中单击“数据分析”命令。如果在“工具”菜单中没有“数据分析”命令,则需要安装Excel的“分析工具库”。安装过程如下:在“工具”菜单中,单击“加载宏”命令,单击“浏览”按钮,定位到Office安装盘所在位置。安装完成后,再打开“加载宏”对话框,选中“分析工具库”复选框。选择“工具”菜单中的“数据分析”命令,此时弹出“数据分析”对话框。在分析工具列表框中选择“相关系数”。在弹出的对话框中选择输入区域,即数据所在区域;分组方式根据输入数据的方式选择“逐列”或“逐行”。如果输入区域的第一行中包含标志项,则选中“标志位于第一行”复选框;如果输入区域中没有标志项,则此复选框不选。“输出选项”中选择相应选项,以确定分析结果的显示位置。选择完成后,点击确定即可显示相关系数的值。Excel中若要显示统计描述需要在“数据分析”中选择“统计描述”。可显示的结果有:平均、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、最小值、最大值、求和、观测数、最大、最小、置信度(95.0%)等。相关系数结果见表2。本例X与Y的相关系数为0.55461,相关系数检验的P值为0.001,按α=0.05水准,拒绝H0,接受H1,相关系数检验有统计学意义,膜蛋白和质蛋白之间有55.461%的相关性。这样的统计分析结果对于我们的后续实验有一定的指导作用。

2.1.2SPSS操作SPSS相关分析通过Statistics菜单的Corre-late选项完成。该命令允许同时输入两个或两个以上变量,但系统输出的是变量间两两相关的相关系数。此过程通过对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。初始设置:单击窗口左下角的“变量窗口”(VariableView),在名称、类型、长度、小数点等处适当设置。完成相关设置后,单击窗口左下角的“数据窗口”(DataView),返回数据填充区。在SPSS工作表中输入表1中的实验数据。输入数据后,即可进行相关性分析。具体步骤如下:选择菜单栏中的分析(Analyze)相关分析(C)两个变量相关分析(B),弹出“两个变量相关”对话框。分别将X,Y变量选入“变量”的方框中,点击“选项”(Options),弹出“两个变量相关:选项”面板,选择“统计”中的“描述”(Descriptive),即可显示出“平均值和标准差”(M),交叉乘积的标准差和协方差(C)选项,然后点击“继续”,重新回到“两个变量相关”界面,本例分别选中“Pearson”,“双侧”和“标识显著相关”,然后点击“确定”,即出现SPSS统计的结果见表3(省略统计描述表格)。从表中可以看出,变量X,Y的相关系数为0.555,交叉乘积的标准差和协方差为267.314,14.069。PearsonCorrelation(相关系数)一列中的星号含义是:显著性水平为0.001(默认值)的情况下,变量X,Y相关系数存在显著差异,与“Sig”一列的结果相对应。从给出结果我们可以看到,比起Excel,SPSS的结果内容更详尽,结果分析更全面。

2.1.3SAS操作与上述两种操作不同之处在于,SAS操作在建立数据集时应指定膜蛋白X与质蛋白Y两个变量。再调用CORR过程求出相关系数。1)设定数据库环境:LIBNAMEA''''C:\USER'''';2)数据步,建立数据集:DATAA.YTLI7_1;INPUTYX@@;CARDS;12.2115.214.5416.712.2711.912.0414.07.8819.811.1016.210.4317.013.3210.319.595.99.0518.76.4425.19.4916.410.1622.08.3823.18.4923.27.7125.011.3816.810.8211.212.4913.79.2124.4;RUN;3)CORR过程,进行相关分析:PROCCORRDATA=A.YTLI7_1;VARXY;RUN;CORR过程的默认输出结果主要包括各个变量的简单统计描述(图略)和一个相关系数矩阵。结果见表4。SAS这种程序化操作过程简单,但需熟练掌握相关的编程语言,而且结果内容也没有SPSS的结果详尽。

2.2Excel、SAS、SPSS的评价

2.2.1数据处理Excel是日常办公的通用软件,也是作为计算机文化基础的一部分而被广泛学习。作为简单的数据处理工具,Excel操作简便,结果直观。SPSS的数据编辑器很像Excel,可以输入数据。SPSS的可视窗口界面和下拉列表可以选择特定命令。但运用SPSS一次只能编辑一个数据文件,在一次涉及多个文件的数据处理中并不强大。SAS在数据处理上可谓功能强大,几乎可以进行任何可能的处理。SAS中的sql数据库可以执行sql查询。只是需要耗费大量时间来学习和理解那些在excel和SPSS中相对容易处理的简单命令。但是SAS可以同时处理几个文件相关联的数据,同时SAS还可以处理多达32768个文件,记录的数量能限制在磁盘最大容量范围内,因此它以强大的数据管理和同时处理大批数据文件的功能,得到高级用户的青睐。

2.2.2统计分析三种软件用于统计分析的高级程度从高到低依次是:SAS,SPSS,EXCEL,就像例题中的操作一样,只要是Ex-cel“数据分析”库中包括的统计部分,都能通过简单的操作给出简单的统计结果。但是Excel只能进行有限的几种运算(平均、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、最小值、最大值、求和、观测数、最大、最小(1)、置信度(95.0%)等)。SPSS可以运行众多统计分析。其长处在于变量分析和多变量分析,可以进行多种特定效应检测。SPSS的缺点是运算方法不多,只能依照软件中提供的模式进行运算。SAS可以运行多数常用的统计分析。SAS和SPSS一样都属于专业分析统计软件,而SAS的强势在于方差分析,混合模式分析和多变量分析,其不足在于依次多项逻辑回归,运算方法受到SAS语言的限制。

2.2.3图表Excel的图表生成简单,可视化窗口模式形象直观,是日常图表生成的有利工具,而且修饰加工的图形尤其美观,单元格数据与数据分析结果具有“联动”关系,改变其中一个单元格数据,与之相关的Excel公式或图表就会发生相应的改变,具有“即改即见”的效果。Excel2007使之更加完善,这些功能均为SAS、SPSS所望之不及。SPSS窗口界面可以像Excel一样轻松的创建图表。图片质量较高,因此被很多发表文章的作者采用。SAS包括最强大的图表工具SAS/Graph,但是SAS/Graph学习起来很有难度。这种图表大多是通过程序性语言创建的。尽管SAS8以后的版本在创建图表方面出现可视化界面,但还是没有SPSS容易操作,一般适用于高级人士。

篇6

采用Revman5.2版软件对资料进行统计分析。各研究间异质性用I2值进行评估,I2<50%时提示各研究间有统计学同质性,采用固定效应模型进行分析;I2>50%时提示各研究间有统计学异质性,采用随机效应模型进行分析。

2结果

2.1纳入研究的一般情况初步初步检索出1357篇文献,根据纳入和排除标准,审查标题后剔除数据不完整和质量较低的文章,最后纳入13篇文献,其中一些文献中不止对一种社会心理因素或者呼吸道过敏性疾病进行描述,将这些指标分别纳入,共20项研究,纳入研究的一般情况见表1、2。

2.2社会心理因素对呼吸道过敏性疾病的影响

2.2.1研究的特点共纳入13项研究,样本量从90到20854不等,平均数为5865。随访年限1到21年不等,平均为8.5年。8项是关于儿童的研究,5项是关于成人的研究。各文献的基本特征见表1。

2.2.2统计分析结果图1所示,13项研究对社会心理因素与呼吸道过敏性疾病的关联进行了报道,各项研究间具有异质性(I2=69%),采用随机效应模型进行数据分析,OR=1.77,95%CI(1.42,2.22),,合并效应量的检验Z=5.06,P<0.00001,表明社会心理因素与呼吸道过敏性疾病的发生发展有关。图2所示对儿童单独分析时,各项研究间具有异质性(I2=70%),采用随机效应模型进行数据分析,OR=1.56,95%CI(1.24,1.97),合并效应量的检验Z=3.78,P=0.0002,表明在儿童中社会心理因素与呼吸道过敏性疾病的发生发展有关。图3所示对成人单独分析时,各项研究间具有异质性(I2=80%),采用随机效应模型进行数据分析,OR=2.45,95%CI(1.35,4.62),合并效应量的检验Z=2.78,P=0.005,表明在成人中社会心理因素与呼吸道过敏性疾病的发生发展有关。

2.3过敏性疾病对心理健康的影响

2.3.1研究的特点共纳入7项研究,样本量从591到3430不等,平均数为1574。随访年限1到21年不等,平均为15.8年。其中1项是关于儿童的研究,6项是关于成人的研究。各文献的基本特征见表2。备注见表1

2.3.2统计分析结果图4所示,7项研究对呼吸道过敏性疾病与未来不健康的心理的关联进行了报道,各项研究间统计学分析无异质性(I2=21%),采用固定效应模型进行数据分析,OR=1.73,95%CI(1.47,2.03),合并效应量的检验Z=6.67,P<0.00001,提示呼吸道过敏性疾病与未来不健康的心理发生发展有关,对儿童的研究仅1项,OR值为1.90,95%CI(1.09-3.31)。图5所示,6项研究对成人进行分析,各项研究间统计学分析无异质性(I2=33%),采用固定效应模型进行数据分析,OR=1.72,95%CI(1.45,2.03),合并效应量的检验Z=6.28,P<0.00001,表明在成人中,提示呼吸道过敏性疾病与未来不健康的心理发生发展有关。

3讨论

篇7

纵观统计学的发展状况,与整个科学的发展趋势相似,统计学也在走与其他科学结合交融的发展道路。归纳起来,有两个基本结合趋势。

(一)统计学与实质性学科结合的趋势

统计学是一门通用方法论的科学,是一种定量认识问题的工具。但作为一种工具,它必须有其用武之地。否则,统计方法就成为无源之水,无用之器。统计方法只有与具体的实质性学科相结合,才能够发挥出其强大的数量分析功效。并且,从统计方法的形成历史看,现代统计方法基本上来自于一些实质性学科的研究活动,例如,最小平方法与正态分布理论源于天文观察误差分析,相关与回归源于生物学研究,主成分分析与因子分析源于教育学与心理学的研究。抽样调查方法源于政府统计调查资料的搜集。历史上一些著名的统计学家同时也是生物学家或经济学家等。同时,有不少生物学家、天文学家、经济学家、社会学家、人口学家、教育学家等都在从事统计理论与方法的研究。他们在应用过程中对统计方法进行创新与改进。另外,从学科体系看,统计学与实质性学科之间的关系绝对不是并列的,而是相交的,如果将实质性学科看作是纵向的学科,那么统计学就是一门横向的学科,统计方法与相应的实质性学科相结合,才产生了相应的统计学分支,如统计学与经济学相结合产生了经济统计,与教育学相结合产生了教育统计,与生物学相结合产生了生物统计等,而这些分支学科都具有"双重"属性:一方面是统计学的分支,另一方面也是相应实质性学科的分支,所以经济统计学、经济计量学不仅属于统计学,同时属于经济学,生物统计学不仅是统计学的分支,也是生物学的分支等。这些分支学科的存在主要不是为了发展统计方法,而是为了解决实质性学科研究中的有关定量分析问题,统计方法是在这一应用过程中得以完善与发展的。因此,统计学与各门实质性学科的紧密结合,不仅是历史的传统更是统计学发展的必然模式。实质性学科为统计学的应用提供了基地,为统计学的发展提供了契机。21世纪的统计学依然会采取这种发展模式,且更加注重应用研究。

这个趋势说明:统计方法的学习必须与具体的实质性学科知识学习相结合。必须以实质性学科为依据,因此,财经类统计专业的学生必须学好有关经济类与管理类的课程,只有这样,所学的统计方法才有用武之地。统计的工具属性才能够得以充分体现。

(二)统计学与计算机科学结合的趋势

纵观统计数据处理手段发展历史,经历了手工、机械、机电、电子等数个阶段,数据处理手段的每一次飞跃,都给统计实践带来革命性的发展。上个世纪40年代第一台电子计算机的诞生,给统计学方法的广泛应用创造了条件。20年展起来的多元统计方法虽然对于处理多变量的种类数据问题具有很大的优越性,但由于计算工作量大,使得这些有效的统计分析方法一开始并没有能够在实践中很好推广开来。而电子计算机技术的诞生与发展,使得复杂的数据处理工作变得非常容易,那些计算繁杂的统计方法的推广与应用,由于相应统计软件的开发与商品化而变得更加方便与迅速,非统计专业的理论工作者可以直接凭借商品化统计分析软件来处理各类现实问题的多变量数据分析,而无需对有关统计方法的复杂理论背景进行研究。计算机运行能力的提高,使得大规模统计调查数据的处理更加准确、充分与快捷。目前企业经营管理中建立的决策支持系统(DSS)更加离不开统计模型。最近国外兴起的数据挖掘(Datamining,又译"数据掏金")技术更是计算机专家与统计学家共同关注的领域。随着计算机应用的越来越广泛,每年都要积累大量的数据,大量信息在给人们带来方便的同时也带来了一系列问题:信息过量,难以消化;信息真假,难以辨识;信息安全,难以保证;信息形式不一致,难以统一处理;于是人们开始提出一个新的口号"要学会抛弃信息"。人们考虑"如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用率?"面对这一挑战,数据挖掘和知识发现(DMKD)技术应运而生,并显示出强大的生命力。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它把人们对数据的应用从低层的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。虽然统计学家与计算机专家关心Datamining的视角不完全相同,但可以说,Datamining与DSS一样,使得统计方法与计算机技术的结合达到了一个更高的层次。

因此,统计学越来越离不开计算机技术,而计算机技术应用的深入,也同样离不开统计方法的发展与完善。这个趋势说明:充分利用现代计算技术,通过计算机软件将统计方法中复杂难懂的计算过程屏障起来,让用户直接看到统计输出结果与有关解释,从而使统计方法的普及变得非常容易。所以,对于财经类统计专业的学生来说,一方面要学好统计方法,但另一方面更加要学会利用商品化统计软件包解决实践中的统计数量分析问题,学好计算机信息系统开发的基本思想与基本程序设计,能够将具体单位的统计模型通过编程来实现,以建立起统计决策支持系统。

所以统计与实质性学科相结合,与计算机、与信息相结合,这是发展的趋势。了解这一点,再来看我们目前教育中的问题就更加明显了,所以一些课程要改革,教学方式也要改革。以下谈一谈统计教育需要改革的几个方面。

二、统计教育的改革

(一)统计专业课程建设问题

专业建设考虑的是应当培养什么样的人才和怎样培养这样的人才。专业建设的核心问题是课程设置和规范课程内容。课程设置主导学生的知识结构,培养统计理论人才应当设置较多的数学课程,目的是让学生能对各种统计方法有较深刻的理性认识;培养应用统计人才应当设置较多的相关应用领域的专业课程,目的是让学生如何能将统计方法正确地运用到相关领域。例如培养从事经济管理的统计人才,在课程设置上至少应当包括四方面的知识:(1)经济理论课程,让学生了解经济活动的主要进程和基本规律;(2)研究社会经济问题主要统计方法,包括常用的统计数据搜集方法,统计数据处理方法和分析方法;(3)适用电脑技术,让学生初步掌握运用电脑进行统计数据处理和分析的基本理论和技能;(4)有关统计理论和统计实践中的前沿性问题,目的不在于要学生真正掌握这些问题,而是让学生了解统计理论和统计实践的前沿发展动态,启迪学生的科学思维能力。

(二)教学方法和教学手段的改革

统计教学方法和教学手段改革中,有两个焦点问题:一是如何激发学生学习统计学的兴趣;二是应用什么教学手段来达到较好的统计教学效果等。充分运用现代教育技术、教学手段,更新教学方法,促使教育技术、教学手段和教学方法有机结合。

1.改灌输式教学为启发式教学,特别注重教育多样化和多层次性,不仅让学生掌握如何搜集、整理数据的技术,还要教学生读懂数字背后的事实。学会按照具体与抽象、动态与静态、个体与总体、绝对与相对、一般与特殊、演绎与归纳等不同的思维方式分析问题和解决问题。注重利用一题多解与一题多变,开拓学生的发散思维。

2.改单向接受式的教学为双向互动式教学,以案例分析与情景教学开启学生的思维闸门,使学生更形象、快捷的接受知识,发挥其独立思考与创造才能,培养学生创造性思维能力。

3.构建以课堂、实验室和社会实践多元化的立体教育教学体系。在传授和学习已经形成的知识的同时,加强实践能力锻炼,提高学生的动手能力和创新能力。只有将统计学的方法结合实际进行应用,找到应用的结合点,才能使统计学获得最大的生命力。

(三)统计学与计算机教学相结合

教材要与统计软件的应用相结合。现在许多教材都是内容与软件分家,现在计算机已非常普及,无论是高校、高职和中专,培养出来的学生不会用统计软件分析数据,不管哪一个层次,都已说不过去。统计学是一门应用的方法型学科,统计学应从数据技巧教学转向数据分析的训练。统计学与计算机教学有机地合为一体,让学生掌握一些常用统计软件的使用。除了要培养学生搜集数据、分析数据的能力外,还要培养学生处理大量数据的能力,即数据挖掘的能力。

(四)教学与实际的数据分析相结合

统计的教学不能只停留在课本上,案例教学与情景教学应成为统计课程的重要内容。统计教学和教材增加统计实际案例,通过计算机对大量实际数据进行处理,可以在试验室进行,亦可在课堂上进行讨论,这样学生不仅理解了统计思想和方法,而且锻炼和培养了研究和解决问题的能力。

(五)要有一批能用电脑、网络来教学的新型教师

电脑、网络的出现,不仅改变了教学的手段,还深深地影响着教学的内容,因为它影响着经济、生活的发展和需求。语文(中文、外文)、数学、计算机、专业知识是一个统计人才必备的素质,它们之间不是分离的,而是要尽可能结合在一起来进行教学,各管各教一套的办法已不适应现代化教育教学的需要,现代教育特别注重教育信息技术中的多媒体、网络化、社会化和国际化、多样化和多层次,有了电脑、网络,必需要更新,要培养出一批能用电脑、网络来教学的新型教师,以便培养出新型的21世纪的人才。

[参考文献]

[1]贺铿.关于统计学的性质与发展问题.中国统计,2001.9.

[2]袁卫.国外统计高等教育发展的趋势及对我国统计教育改革的思考.中国统

计,2001.10.

[3]习勤.关于统计教育创新的思考.中国统计,2002.1.

篇8

随着科学的进步以及不断发展,导致现代社会信息化水平日益提高,大数据时代应运而生。在信息化水平不断提高的背景下,审计人员如何利用一些必要的计算机技术来分析被审计数据,从中发现审计线索以确定审计重点、范围,这将成为开展审计工作的前提条件。而当前,审计人员采取的数据工具以Excel与SQL Server为主,本文就将针对这两种工具与R语言之间进行比较研究,并以此探究R在实际审计工作开展的可行性。

二、R语言简介

R语言是S语言的一种实现。S语言同C语言一样,只是一个标准,而围绕它有很多实现。S语言的最初实现版是S-PLUS,但S-PLUS作为一款商业软件,价格十分昂贵,其受众面较窄。后新西兰奥克兰大学的Ross Ihaka与Robert Gentleman共同开发出S语言的另一种实现-R语言。R是一个免费开源、能够自由有效地用于统计计算和绘图的语言和环境,在UNIX、Windows以及Mac OS系统中均可以运行,它提供了广泛的统计分析和绘图技术,包括回归分析、时间序列、分类和聚类等建模方法。

R是一套完整的数据处理、计算和制图软件系统,拥有一套开源的数据分析解决方案,由一个庞大而活跃的全球性社区维护。与其说R是一种统计软件,还不如说R是一统计分析与计算的环境,因为R不仅提供若干统计程序,而且还可进行统计分析,只需使用者指定数据库和若干参数即可。R的思想是:它可以提供一些集成的统计工具,更重要的是,它还可以提供各种数学计算、统计计算的函数,从而令使用者能够灵活地进行数据分析,甚至创造出符合需要的新的统计计算方法。

三、R与当前审计方法比较分析

(一)利用Excel分析

Excel作为我们生活中常用的数据统计、分析工具,早在中学时期便为我们所接触、熟知,Excel能被审计人员广泛接受,一方面与其高被使用频率以及在使用者心中根深蒂固的地位相关,另一方面与其易操作的特点、能够满足大部分数据分析要求的功能密不可分。Excel在审计人员进行非大数据分析工作时,不失为首选工具,能够帮助审计人员高效快速地分析数据并以此发现审计线索,但日前,伴随着大数据时代的进入,数据量大且结构复杂,Excel可能并不能很好地协助进行审计工作,将其与R进行比较,可发现存在以下两方面的不同,同时,这也直接反映了R的优势。

1.Excel所能处理的数据数量受限。Excel满足于非大量数据分析要求,对于海量数据的处理、计算、统计等分析过程可能并不能应用自如。本部分仅针对该公立医院2015年的部分数据进行分析,尚可满足数据分析需求,在针对该公立医院多年的药品数据进行分析时,运算速度较慢,同时会出现软件闪退及程序停滞无法运转的情况,而现今已进入大数据时代,数据数量不断增加及其繁复程度不断提高,这必将为分析数据的工具提出更高要求。而R作为大数据统计软件,能够实现大量数据分析,同时,只要下载安装合适的程序包(关于R中的包将在本文第3部分详细介绍),便能读取包括Excel、SPSS、SAS、Stata等甚至从网页中抓取的数据,基本没有R不能读取的数据形式,完全满足国家审计人员实际大数据审计工作开展的需要。

2.Excel可视化功能有限。Excel中对分析结果进行图表展示的能力有限,以常规的折线图、柱状图、饼图等图形形式居多;此外,难以将大量分析结果在一张图形中进行展示,同时对于大量数据展现的观赏性不强,难以为审计人员分析决策提供帮助。而R是现今最受欢迎的数据分析和可视化平台之一,基于R语言可制作多种精美的图形,允许众多分析结果以代表各自的图形形态在一张图中进行展示,可方便审计人员对分析结果进行宏观观察、分析。

(二)通过SQL语句查询分析

SQL查询是SQL最常用的功能,被广泛应用于目前审计机关针对特定条件、事项进行的查询分析,通过编写简单的SQL查询语句来询问特定的问题,之后数据库通过执行这个查询便可提供回答这个问题的数据信息。SQL的易理解、易操作、易上手等特点成为目前国家审计机关人员重点培训的使用工具之一。但将应用SQL语句进行查询分析与基于R语言进行统计分析过程进行比较,R语言仍具备两点优势:

1.R语言分析数据的功能更为强大。众所周知,SQL语句作为结构化查询语言,在数据查询方面具备强大的功能,优势明显,但在数据挖掘层面,比如进行聚类、回归建模分析等应用时,SQL可能并不如R语言使用得心应手;同时,面对一些高级查询,可能需要通过编写连串的、大量的SQL语句,而R自带多种函数及功能强大的程序包,涵盖统计学、生物学、数学等多个领域,而R又作为免费开源软件,使用者还在不断创建新的包来更新丰富R的使用功能,通过简单的几步函数运行便可实现多种统计需求;除此之外,R语言是用来进行统计分析和绘图的一种语言,除了自身包括强大功能的函数及多种程序包能够满足审计人员进行多种统计分析的要求之外,还可以作为一种可视化语言,能够将分析结果以各种精美的图形展现以帮助分析决策。而进入大数据时代,软件的数据可视化能力至关重要。

2.R语言的应用范围更广。SQL侧重应用于数据库软件,能够方便使用者作相关查询分析,而R作为大数据统计工具,广泛应用于数据分析、数据挖掘等诸多方面,是目前最受欢迎的数据分析和可视化平台之一,其包含的众多具备不同功能的函数、程序包,可满足数据分析人员众多需求。

篇9

关键词: 生物信息学 医学统计学 课堂教学

生物信息学融合了生物技术、计算机技术、数学和统计学的大量方法,已逐渐成为发现生命过程中所蕴涵知识的一门重要学科。其基本问题主要包括:DNA分析、蛋白质结构分析、分子进化。医学统计学作为医科院校的基础课程之一,长期以来其理论和方法就广泛应用于临床医学、基础医学的各类研究中。随着生物新技术的诞生,在推动生物信息学发展的同时,医学研究对象也由宏观的病人、生物组织拓展到微观的基因领域,所面对的实验数据在性质和结构上也都有所不同,这对医学统计学的应用提出了新的更高的要求。

目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:

一、概率分布

概率分布(probability distribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、Possion分布、正态分布、t分布、F分布等。

借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。

在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST (Basic Local Alignment Search Tool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。

二、假设检验

假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。

假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。

这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。

例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(gene chip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。

如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。

但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值 ;考虑到基因在不同序列上变异程度的统计量 ,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量: ,修正值a由M的方差s2的均数和标准差估计得到。

三、一些高级统计方法在基因研究中的应用

(一)聚类分析

聚类分析(clustering analysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(Hierarchical Clustering)、K-means聚类法、SOM方法等。

聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。

近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(Unsupervised Analysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(Average Linkage Clustering)一般能给出较为合理的聚类结果2。

(二)判别分析

判别分析(discriminant analysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-Nearest Neighbor Classifiers)、分类树算法(Classification Tree Algorithm),人工神经网络(ANNs)和支持向量机(SVMs)。

判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。

在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(Supervised Analysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。

(三)相关分析

相关分析(correlation analysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。

我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。

生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。

四、意义

生物信息学不仅是医学统计学的研究前沿,更是医学研究由宏观向微观拓展的重要领域,其研究内容已逐渐为多数医学院校的学员了解和熟悉。而如何对新技术产生的生物实验数据进行准确合理的分析,却成为生物信息学研究的主要瓶颈之一。

在医学统计学课堂教学中引入生物信息学实例,而不仅仅局限于常见的医学、卫生领域的例子,将难以理解的统计理论和方法与前沿的生物实例相结合,拓宽了学员的视野,提高了学员的学习兴趣,更可以加深对所学知识的理解;与此同时,使学员掌握了生物实验数据的先进分析方法,扩大了学员的知识面,提高了他们今后开展医学科研工作的能力。

还有一些医学统计学方法目前也逐渐应用于生物信息学研究中,诸如:遗传算法、熵理论等等。但这些方法已经超出了医学统计学课堂教学的范围,我们将尝试在第二课堂或选修课中,作为补充知识进行讲授,供那些学有余力的学员学习交流。

参考文献

1.郭祖超著. 医学统计学. 第1版.北京:人民军医出版社,1999. 238-243

篇10

关键词:统计学;发展趋势;统计教育改革

0引言

随着国家创新形式的发展,统计创新工作已经得到相关部门的重视,统计创新包括统计实践创新和统计教育创新两个方面。统计教育的创新是统计创新的基础,没有统计教育的创新,就谈不上统计实践的创新,下面我从统计学的基本发展趋势来探讨目前统计教育的改革方向。

1统计学的基本发展趋势

统计学的发展与其它学科的发展相似,也需要走与其它学科相联系的发展道路。

1.1统计学与实质性学科相结合的趋势统计学是一门通用方法论的科学,是一种定量认识问题的工具。统计方法只有与具体的实质性学科相结合,才能够发挥出其强大的数量分析功效。并且,从统计方法的形成历史看,统计方法基本是从一些实质性学科的研究活动得来的,例如,最小平方法与正态分布理论源于天文观察误差分析,相关与回归源于生物学研究,抽样调查方法源于政府统计调查资料的搜集。同时历史上一些着名的统计学家同时也是生物学家或经济学家等。另外,从学科体系上看,统计学与实质性学科之间的关系不是并列的,而是相交的,统计方法与实质性学科相结合,才产生了统计学的分支,如统计学与经济学相结合产生了经济统计学,与社会学相结合产生了社会统计学等,而这些分支学科都具有“双重”属性:一方面是统计学的分支,另一方面也是相应实质性学科的分支,所以经济统计学、经济计量学、社会统计学不仅仅属于统计学,同时也属于经济学、社会学、生物学的分支等。这些分支学科的存在主要不是为了发展统计方法,而是为了解决实质性学科研究中的有关定量分析问题,统计方法是在这一应用过程中得以完善和发展的。这个发展趋势说明了统计方法的学习必须与具体的实质性学科知识学习相结合。因此,统计专业的学生必须在学好本专业知识的同时,也要通晓相关的实质性学科的课程知识,只有这样,所学的统计方法才有用武之地。

1.2统计学与计算机科学结合的趋势纵观统计数据处理手段发展历史,数据处理手段的每一次飞跃,都给统计实践带来革命性的发展。电子计算机技术的诞生与发展,使得复杂的数据处理工作变得非常容易,那些计算繁杂的统计方法的推广与应用,由于相应统计软件的开发与商品化而变得更加方便与迅速,非统计专业的理论工作者可以直接凭借商品化统计分析软件来处理各类现实问题的多变量数据分析,而无需对有关统计方法的复杂理论背景进行研究。计算机运行能力的提高,使得大规模统计调查数据的处理更加准确、充分与快捷。随着计算机应用的越来越广泛,信息数据也越来越多,大量信息在给人们带来方便的同时也带来了许多问题:信息过量、信息真假、信息安全等问题出现了,同时信息形式的不一致也导致信息难以统一处理。于是如何从大量的信息中找出有用的信息?如何提高信息的利用率?数据挖掘和知识发现(DMKD)技术随之应运而生了。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它把人们对数据的应用从低层的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求下,汇聚了不同领域的研究者们投身到数据挖掘这一新兴的研究领域。虽然统计学家与计算机专家关心Datamining的视角不完全相同,但可以说,Datamining与DSS一样,使得统计方法与计算机技术的结合达到了一个更高的层次。

因此,统计学越来越离不开计算机技术,而计算机技术应用的深入,也同样离不开统计方法的发展与完善。所以,对于统计专业的学生来说,一方面要学好统计方法,但另一方面更加要学会利用商品化统计软件解决实践中的统计数量分析问题,学好计算机信息系统开发的基本思想与基本程序设计,能够将具体单位的统计模型通过编程来实现,以建立起统计决策支持系统。所以统计与实质性学科相结合,与计算机技术相结合,这是发展的趋势。所以统计教育的一些课程要改革,教学方式也要改革。以下谈一谈统计教育需要改革的几个方面。

2统计教育的改革

2.1统计专业课程建设专业建设考虑的是应当培养什么样的人才和怎样培养这样的人才。专业建设的核心问题则是课程设置和规范课程的内容。培养统计理论人才应当设置较多的数学课程,目的是让学生能对各种统计方法有较深刻的理性认识;培养应用统计人才应当设置较多的相关应用领域的专业课程,将统计方法与相关领域的专业知识完美结合。例如培养从事经济管理的统计人才,在课程设置上至少应当包括三方面的知识:(1)经济理论课程,让学生了解经济活动的主要进程和基本规律;(2)研究社会经济问题主要统计方法,包括常用的统计数据搜集方法,统计数据处理方法和分析方法;(3)适用电脑技术,让学生初步掌握运用电脑进行统计数据处理和分析的基本理论和技能。

2.2教学方法和教学手段的改革统计教学方法和教学手段改革中,应充分运用现代教育技术、教学手段,更新教学方法,促使教育技术、教学手段和教学方法有机结合。

2.2.1改接受式的教学为互动式教学,以案例分析与情景教学开启学生的思维,使学生更形象、快捷的接受知识,发挥其独立思考与创造才能,培养学生的创造性思维能力。

2.2.2构建以课堂-实验室-社会实践多元化的立体教育教学体系。在传授和学习已经形成的知识的同时,加强实践能力锻炼,提高学生的动手能力和创新能力。只有将统计学的方法结合实际进行应用,才能展现统计学的生命力。

2.3统计学与计算机教学相结合教材要与统计软件的应用相结合。现在许多教材都是内容与软件分家,现在计算机已非常普及,无论是高校、高职和中专,培养出来的学生都会要用统计软件分析数据。再者,统计学是一门应用的方法型学科,统计学应当从数据技巧教学转向数据分析的训练。统计学与计算机教学有机地合为一体,除了要培养学生搜集数据、分析数据的能力外,还要培养学生处理大量数据的能力,即数据挖掘的能力。

2.4教学与实际的数据分析相结合统计的教学不能只停留在课本上,案例教学与情景教学应成为统计课程的重要内容。通过计算机对大量实际数据进行处理,可以在试验室进行,亦可在课堂上进行讨论,这样学生不仅理解了统计思想和方法,而且也锻炼和培养了学生研究和解决问题的能力。

2.5要有一批能用电脑、网络来教学的新型教师电脑、网络的出现,不仅改变了教学的手段,还影响着教学的内容。语言、数学、计算机、专业知识是一个统计人才必备的素质,它们之间是不可分离的,而是要尽可能结合在一起来进行教学,单一化人才已不适应现代化教育教学的需要,现代教育更注重教育信息技术中的多媒体、网络化、社会化和国际化、多样化和多层次的综合人才。

参考文献:

[1]贺铿.关于统计学的性质与发展问题.中国统计,2001,9.