统计学样本的概念范文

时间:2023-07-10 17:19:32

导语:如何才能写好一篇统计学样本的概念,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

统计学样本的概念

篇1

关键词:大数据;海量存储;数据挖掘;标本库;医学生物信息;数据挖掘

随着信息技术在医学临床和科研中的应用,临床医学、生物学、信息学发生了一次交叉融合, 这种以生物大数据信息是未来生物医学研究发展的核心点。这种以海量、高维度、数据变量复杂、为特征的数据结构, 需要我们在传统的医学基础之上集数学、统计学、工程学、计算机信息科学的交叉综合、理论和实验相结合,建立新的新方法和手段。使得我们的临床医学模式从经验医学进一步向循证医学转变,无序医疗向着有序医疗发展,医学研究也会进入从发现、研究、验证、应用到再发现、再研究、再验证、再应用的迭代式良性循环过程中。

1实现大数据的大价值是医学信息建设的新目标

信息化时代各行业信息数据量呈现指数上升,医疗行业的数据信息增长更快。经研究表明,未来10年医学数据将高爆式地增长,其增长来源于医院医疗信息运行数据的积累、新的临床信息系统的嵌入(如电子病例系统)、新医疗诊疗设备接入等。随着医学的进步以生物芯片为代表的高通量生物技术的飞速发展,基因组学、转录组学、蛋白质组学、代谢组学的信息也会涌入医学生物信息领域。这种大量高速增长的数据被称之为海量数据或者大数据(big data)。大数据的特点是海量、高维度、数据变量复杂、分析处理复杂。

随着信息技术在医学临床和科研中的应用,临床医学、生物学、信息学发生了一次交叉融合,形成了生物医学信息学(Biomedical Informatics)。这种以生物大数据信息是未来生物医学研究发展的核心点。我们可以看到,生物医学领域的大数据时代正在来临,其发展将促使我们尽快构建一个实时、便捷、全方位的医学生物信息挖掘和应用系统。在医学信息研究方面,我国还主要处在对医疗流程的信息化管理、质量控制等初级阶段,尚未开展面对"大数据"挖掘的系统研究与应用,但这种研究与挖掘应用必将成为生物医药科学技术发展的趋势。大数据时代的到来,既对临床医生、研究人员、医院管理者、医疗监管机构等都提出了巨大的挑战,也为生物医学研究带来了前所未有的机遇。生物医学领域里科学研究的一个重要发展趋势就是数据驱动。以前进行实验研究的目的是获得结论或者是提出一种新的假设,大数据技术通过对海量数据的研究来探索其中的规律,可以直接提出假设或得出可靠的结论。

当前,以临床医疗信息为基础的计算机信息系统可扩展到多个相联的信息系统,包括:电子病例系统、随访信息管理系统、实验室信息管理系统、生物信息分析系统、基因组学数据库系统、药物临床试验信息系统等,在医学科研与临床应用之间架起了一道不可或缺的桥梁。收集大数据、整合大数据、处理和分析大数据,形成价值密度高、利用价值高的数据资源体系,实现"大数据"的"大价值",是医学信息建设的新目标。

2大数据挖掘将盘活医学生物信息资产

医学生物信息的大数据包括医疗对象以及与医疗对象相关的信息特征集合,生物标本以及与生物标本信息相关的特征集合,这些大数据集带有自己的、潜在的、未被揭示的规律趋势特征,这才是医学生物信息价值的核心所在。这些医学生物信息是我们进行用于人类健康研究价值的资产,研究、分析、挖掘海量医学生物信息就是盘活人类健康研究的资产。数据挖掘,也称知识发现,是盘活这些宝贵的医学生物信息资产的有力工具。

大数据的挖掘和应用不同于传统的采样分析法,它有自身的一些独特特点,如:①大数据挖掘分析与事物相关的所有数据,而非少量数据样本,研究的样本数量趋近于总体数量;②大数据挖掘追求的是效率和趋势,而非绝对的准确性;③大数据挖掘更多关注事物的相关关系而非因果关系,这种信息与信息之间的相关关系会提醒我们某件事情正在发生。

同时,从数据中发现价值的实践也由来已久。横跨数据库技术、统计学和机器学习等交叉学科和技术的数据挖掘是大数据分析的基础,传统的数据分析实践是无法适应大数据的发展的。

近年来,数据挖掘引起了信息产业界的极大关注。其主要原因是,由业务系统产生的大量数据,迫切需要将这些数据转换成有用的信息和知识,并广泛使用于业务中。获取的信息和知识可以广泛用于各种实践应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等领域。数据挖掘利用了来自如下一些领域的思想和方法:统计学、人工智能、模式识别、机器学习等。数据挖掘的很多算法都采用了以上领域中的理论算法、建模技术和学习理论等。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化技术、进化计算、信息论、信号处理、可视化和信息检索技术等。数据挖掘也需要数据库系统提供有效的存储、索引和查询处理得支持。源于高性能并行计算的技术在处理海量数据集方面常常是也重要的。分布式计算技术也能有效地帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要的[2]。

医学生物信息的数据挖掘应用比较广泛,医学样本库领域的应用就是其中的一个实例。通过建立临床医学样本信息筛选和侦测交互信息平台来建立协作样本库和虚拟样本库。建立样本库协作单位的协作机制、严格的样本筛选策略(根据研究项目协议和国家地方相关标准诊断、归转标准[5-7])、应答式的标本收集机制、样本区域内(研究机构、转化中心、医院)权利共享机制,以建立全新模式、响应一致、反应迅速、整齐划一的样本收集研究管理的体系。建设样本从标筛选、采集、管理策略运转的实例,是以一个研究中心结合4~5个医院以及4~5个样本筛选医院,建立研究临床医学转化知识发现和研究验证系统信息平台和建立临床医学样本信息筛选和侦测交互信息平台的基础。

医学生物信息的数据挖掘应用的另一个实例是医学科研。生物医药领域里科学研究的一个重要发展趋势就是数据驱动。以前进行实验研究的目的是获得结论或者是提出一种新的假设,而现在通过对海量数据的研究来探索其中的规律,可以直接提出假设或得出可靠的结论[8]。另一方面,必须清楚的是,大数据作用与价值的重点在于能够引导和启发科研者的创新思维、并辅助决策。简单而言,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供若干种参考方法,将解决问题的思路拓宽、拓广、拓深。当然我们需要在学科知识的结合上下内功,不能单纯依靠智能挖掘技术及工具就能解决大数据的应用问题,实际上我们还要有熟悉掌握和运用智能挖掘技术及工具的业务技术人才,才能在浩瀚的信息资源中遨游,才能真正利用好医学信息这个巨大的资产。

3挖掘和利用医学生物信息的技术方法

医学科学的第三次革命需要在传统的医学基础之上集数学、统计学、工程学、计算机信息科学的交叉综合、理论和实验相结合,建立新的新方法和手段。目前,我国医院信息系统存在着许多问题,集中体现在:医学生物信息内容缺失、信息标准化程度低以及发展目标不明确等问题上。我们建设目的①坚持医疗一线的工作需要,②坚守医学大数据信息资源的理念,③做好大数据收储分析的准备工作。 大数据时代医院该如何挖掘和利用医学生物信息?我们通过与国内外有关数据挖掘的技术专家的合作,总结了医学生物信息的挖掘和利用的一些方法。

3.1数据集成(多种数据源可以组合在一起) 把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为医院和研究机构提供局部的或全面的数据共享。

3.2数据选择(从数据库中提取与分析任务相关的数据) 根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。

3.3数据规约 数据挖掘时往往数据量非常大,在大量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多但仍然接近于保持原数据的完整性,数据挖掘的结果与归约前结果相同或几乎相同。

3.4数据清理(消除噪音或不一致数据) 在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据库中,否则会影响数据挖掘的结果。

3.5数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作等) 通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

3.6模型运算(使用智能化的算法提取数据模式) 根据数据库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集、神经网络、遗传算法等方法处理信息,得出有用的分析信息。通过对数据的挖掘,①可以发现数据的历史规律,对过去进行总结;②可以根据数据对未来进行预测,研究者可以根据预测对未来行情趋势做出预判,并作出相关决策。

3.7模型评估 根据某种兴趣度度量,识别提供知识的真正有趣的模式。

3.8知识表示。(使用可视化和知识表示技术,向用户提供挖掘的知识) 将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。使用各种图表、三维地图、动态模拟以及相关的动画技术使原本枯燥乏味的数据变得生动起来。数据可视化把数据以更加直观的形态展现出来,使人们对相关数据做到一目了然。经过上面几步我们就把原先认为毫无价值的数据变成了信息,最后演变为有价值的知识。

对于医学生物信息挖掘系统的建设者(这里包括医院科研部门和信息部门)来说,数据挖掘项目不因该是一个普通的IT项目,不能依照原来信息项目模式建设,更不能理解成为是个管理工具,在项目各个阶段,数据信息每一次挖掘、演绎、分析是建设者和研究者全程参与的艺术性结合。目前对于各行业、各类典型问题的数据挖掘应用,还缺乏标杆模式作为参考。数据挖掘工作更像一个年轻医师,需要通过不断尝试来积累经验,面对如潮水般涌来的海量数据,她必将成为了生物医学研究的支柱技术之一。

综上所述,在今后的发展中计算机硬件性能的巨幅提升和数据库技术的飞速发展,使得企业级大数据量的计算成为现实,数据挖掘涉及的数据量会更大。数据挖掘工具也将越来越强大,汇合的挖掘算法越来越多,并将逐步实现算法的自动选择和参数自动调优,数据挖掘各类算法的巨大潜力将得到充分发挥。

我们设想在不久的将来,生物信息大数据的应用将会改变着医学临床实践。临床医学模式从经验医学进一步向循证医学转变,无序医疗向着有序医疗进一步发展,医学研究也会进入从发现、研究、验证、应用到再发现、再研究、再验证、再应用的迭代式良性循环过程中。古老的医学走到了今天,已经发展成为多学科、多领域结合交汇的领域,生物信息科学、计算机科学和计算应用数学的介入为大数据信息时代开创了新的前景,未来数据资源将会成为极具研究价值的医学资产,而且我国又是一个医学研究资源丰富的大国,我们有理由相信,我们的医学研究者会通过医学生物信息的挖掘和利用,在医学的研究和发展中为广大人民的健康事业做出更多贡献。

参考文献:

[1]中国医药生物技术协会生物样本库标准(试行)[J].中国医药生物技术,2011, 6(1):71-79.

[2]朱凌云,吴宝明.医学数据挖掘的技术方法及应用[J].生物医学工程学杂志,2003;20(3):559-562.

[3]卫生信息数据元.中华人民共和国卫生行业标准[S].VS 363.3-2011.

[4]科学技术部.十二五"生物技术发展规划[S].2011;11.

[5]刘淑珍,骆岩林,黄永峰.基于XML的电子病历存储管理系统的实现[J].医院数字化,2007,22(7):24-26.

[6]孙荣国,贾晓蓉.对我国临床标本库建设的建议[J].卫生软科学,2012,26(9):772.