卫生统计学的概念范文
时间:2024-03-01 17:46:59
导语:如何才能写好一篇卫生统计学的概念,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:锆石;U-Pb年代学;f同位素;麻粒岩相变质作用;下地壳;幕式生长;前寒武纪;华北克拉通
中图分类号:P5883 文献标志码:A
文章编号:672-656(202)04-000-11
0引言
大陆地壳的形成一般归结为2个典型的板块构造位置,即活动大陆边缘和板内[]。其中,板内的大陆生长与地幔柱的岩浆板底垫托作用或岩浆底侵作用(magmatic underplating)有关,而板缘的大陆生长则主要通过俯冲增生和弧陆碰撞来实现的。而且,会聚大陆边缘通常被认为是下地壳增生(包括幔源岩浆板底垫托作用和俯冲增生)的主要场所[2]。然而,很少有实例是来自活动大陆边缘的下地壳包体[2-3]。
麻粒岩包体和麻粒岩地体(尤其是高压麻粒岩)通常被认为是透视下地壳的窗口[2]。高压麻粒岩通常被认为代表高级的变基性岩,并以单斜辉石+斜长石+石榴子石+石英等矿物组合为主要特征[4-6], 至于其他次要矿物如角闪石和蓝晶石等是否出现,取决于水活度和全岩成分[7]。高压麻粒岩不同于榴辉岩的是其矿物组合中含有斜长石和(或)贫硬玉分子的单斜辉石,而中压麻粒岩不同于高压麻粒岩的主要特征是其矿物组合中含有斜方辉石,但是高压麻粒岩在峰期之后减压过程中可能会形成以后成合晶冠状体形式存在的斜方辉石[7]。高压麻粒岩出露相当广泛,从古元古代(如华北恒山杂岩[8])到新生代(如喜马拉雅山脉)的诸多大陆碰撞造山带中均有报道。前人研究结果显示,当变质温度超过800 ℃时,变质压力可能超过4 GPa[5],这意味着加厚地壳(或俯冲地壳)的下部经历了高温作用。另外,高压麻粒岩有时也与中温榴辉岩共生,如华力西造山带[9]。在特定地带鉴定出高压麻粒岩有助于对涉及大陆碰撞及相关过程中下地壳演化的认识,而对高压麻粒岩相变质作用的岩石学观察和年代学测定对理解变质作用和下地壳演化之间的关系至关重要。但是,获得精确的高压麻粒岩相变质作用的时代往往比较困难。这种困难主要来自于后期多阶段变质作用叠加以及相关过程导致的矿物间同位素体系(尤其是Sm-Nd和Rb-Sr)的重置或不平衡,因此影响了对岩石的形成过程和构造背景的认识。
在过去的20年里,众多研究者对华北克拉通前寒武纪变质基底和下地壳包体岩石开展了大量的岩石学、构造地质学、地球化学和地质年代学研究,并在其形成和演化上获得了若干重要进展,进一步将华北克拉通变质基底划分为东部陆块、西部陆块及分割东部和西部陆块的中部造山带[0-]。目前就东、西部陆块沿中部造山带在大约85 Ga完成克拉通拼合已经达成共识[0-7]。拼合完成之后,在6~85 Ga期间,克拉通内部和边缘经历了一系列的拉张和裂谷事件,形成了伴随有镁铁质岩浆群侵位的拗拉槽和边缘裂谷盆地,发育有斜长岩辉长岩纹长二长岩环斑花岗岩套和A型花岗岩,以及超钾火山岩的喷发[7-22]。值得注意的是,目前已报道的古元古代高压麻粒岩相变质作用主要来自于中部造山带[8,0-3,23],而东部陆块仅在胶东和信阳地区见有零星报道[24]。此外,对华北克拉通古元古代高压麻粒岩相变质作用的构造背景还存在2种不同的解释:一种观点认为这些高压麻粒岩形成于东、西部陆块拼合的碰撞造山环境中[8,-4];另一种观点则认为它们是古元古代地幔柱活动的产物[8-20,24]。存在争议的一个重要原因是对高压麻粒岩相变质作用缺少直接的岩石学和年代学观察,尤其是在华北克拉通东南缘或东部陆块的南部。目前,在所研究的区域,仅见高压麻粒岩相变质作用的岩石学证据和模糊的(晚)古元古代年龄的分开报道。最近,Xu等在徐州—宿州地区发现了榴辉岩(类)捕虏体,认为它们是华北克拉通镁铁质下地壳在大约220 Ma时构造加厚形成的[25-27]。
关于华北克拉通的形成与演化,虽然受到广泛关注并日益引起国内外研究者的兴趣,但是大部分研究都集中于华北克拉通内部、北部和东、西陆块结合带或中部造山带,而东南缘下地壳的形成与演化研究则显得较薄弱。华北克拉通东南缘出露的变质基底(五河变质杂岩)和下地壳包体岩石无疑为这一研究提供了极好的天然实验室。最近的研究结果显示,五河变质杂岩中的变基性岩经历了80~90 Ga的高压麻粒岩相变质作用[28-29]。徐州—宿州一带中生代侵入体中包体的岩石学、年代学和岩石地球化学研究也表明,这些包体大部分形成于24~25 Ga并经过大约8 Ga高压麻粒岩相变质作用[25-29]。但是,有关研究区下地壳岩石的成因、形成与演化仍是亟待解决的重要科学问题。
为了更好地了解华北克拉通东南缘前寒武纪地壳(尤其是下地壳)的形成和演化过程,笔者根据近年来对蚌埠地区出露的前寒武纪变质基底和宿州附近夹沟中生代闪长斑岩中捕虏体的研究成果和进展,结合研究区已发表的相关资料,总结了华北克拉通东南缘前寒武纪幕式地壳生长和多期变质作用与改造的岩石学和年代学证据。
地质背景
华北克拉通是世界上最古老的克拉通之一,保留有大于36 Ga的古老地壳物质残留[30]。地理位置上,华北克拉通西接祁连造山带,北邻天山—内蒙—大兴安岭造山带;在南端,秦岭—大别—苏鲁造山带把华北克拉通和扬子克拉通分开(图[26])。基于年代学、岩石组合、构造演化和P-T-t轨迹的不同,将华北克拉通划分为东部陆块、西部陆块及夹于其中的中部造山带[8,0,9,3]。笔者研究的蚌埠和徐州—宿州地区位于华北克拉通东部陆块的东南缘,距苏鲁造山带西端的郯—庐断裂带以西约00 km,距大别造山带北端约300 km (图)。区内变形的新元古代和古生代盖层,以及晚太古代到古元古代的变质基底侵入有大量小的中生代侵入体(如夹沟、班井和利国岩体;图)。这些中生代侵入体主要由闪长质和二长闪长质斑岩组成。研究区的前寒武纪变质基底主要出露在蚌埠地区(常称为“五河变质杂岩”或“五河群”[32]),并且被中生代含石榴子石花岗岩所侵入[图2(a)];而中生代侵入体中含有大量下地壳或幔源包体或捕虏体[25-26,29,33-34] [图2(b)]的徐州—宿州地区则无变质基底出露。近期研究表明,变质基底出露区(荆山、怀远和凤阳等地)发育的含石榴子石花岗岩主要是由华南三叠纪俯冲陆壳岩石在59 Ma左右发生部分熔融形成的[35-36]。
研究区变质基底的岩石类型主要有(含石榴)斜长角闪岩、榴闪岩、石榴麻粒岩和片麻岩等;下地壳包体的岩石类型主要有(含石榴)斜长角闪岩、榴闪岩、石榴角闪石岩、石榴麻粒岩、含石榴角闪斜长片麻岩和花岗片麻岩等。此外,包体中还有含尖晶石石榴单斜辉石岩、含金云母单斜辉石岩和含尖晶石二辉石岩等形成于古生代((393SymbolqB@ 7)Ma)的幔源岩石,指示北秦岭向东延伸到华北克拉通东南缘(至少到安徽宿州地区)以及在华北克拉通与扬子克拉通之间存在一个已消失的新元古代洋壳[33]。
研究区前寒武纪变质基底岩石(五河变质杂岩),主要出露于“蚌埠隆起”区(如荆山、怀远和凤阳等地),岩石类型主要有含石榴斜长角闪岩、榴闪岩、石榴麻粒岩和片麻岩等。石榴斜长角闪岩呈构造岩块或条带状产于不纯的大理岩中[29,34-36],两者之间呈构造接触关系,反映了它们原岩的不同以及可能具有不同的演化历史,它们的原岩分别为岩浆岩和沉积岩。石榴斜长角闪岩(如样品07FY0)主要由石榴子石、斜长石和角闪石以及少量单斜辉石、榍石和微量金红石等矿物组成(图3(a)、(c)[29])。石榴子石在成分上是均一的,为铁铝榴石镁铝榴石钙铝榴石固溶体,锰含量较低。斜长石有3种产出形式:以包裹体形式产于石榴子石中;以后成合晶形式与绿角闪石共生;以基质形式产出。富钛的棕色角闪石通常以包裹体形式产于斜长石[图3(b)[29]]或基质中,TiO2含量(质量分数,后文同)高达
382%;而产于基质中或与斜长石共生产于后成合晶中[图3(c)]的绿色角闪石几乎不含Ti。基质中残留的单斜辉石为透辉石。榴闪岩[图3(d)、(e)]主要由石榴子石、角闪石、斜长石和石英等组成,石榴子石在成分上相对均一,类似于样品07FY0的石榴子石组成;角闪石有2期,分别为早期的棕色高钛角闪石和晚期的绿色低钛角闪石,这些特征暗示榴闪岩样品也经历了类似的高压麻粒岩相变质作用及后期变质作用叠加。石榴麻粒岩的主要矿物组合为石榴子石+单斜辉石+斜长石+角闪石[图3(f)],这种矿物组合指示其经历了高压麻粒岩相变质作用[4-6]。
研究区下地壳包体的岩石类型很丰富,如(含石榴)斜长角闪岩、榴闪岩、石榴角闪石岩、石榴麻粒岩、含石榴角闪斜长片麻岩和花岗片麻岩等(图4[29,33])。其中,石榴斜长角闪岩(如样品07JG2)主要组成矿物为石榴子石、斜长石、角闪石、金红石、石英以及少量单斜辉石[图4(b)、(d)、(e)]。石榴子石晶体在尺度上为毫米级别,成分相对均一,为铁铝榴石镁铝榴石钙铝榴石固溶体。斜长石有3种产出形式:以包裹体形式产于石榴子石中;以后成合晶形式与单斜辉石和(或)角闪石共生;以基质形式产出。大部分金红石已退变为钛铁矿,单斜辉石被以角闪石+斜长石组成的后成合晶结构所替代[图4(d)、(e)]。有时可见裂隙中钾长石等矿物的分布[图4(b)],可能指示晚期的溶体交代作用结果。
石榴麻粒岩(如样品07JG4、08JG5)主要组成矿物为石榴子石、斜长石、角闪石、单斜辉石、石英、金红石、榍石和少量绿泥石[图4(a)、(f)~(h)]。单斜辉石为透辉石,有2种产出形式:与金红石和石英共生,以包裹体的形式产出于石榴子石和榍石中;以残晶形式与斜长石和角闪石共生产于后成合晶中。透辉石局部被绿泥石所交代[图4(f)]。含有金红石和角闪石针状出溶体的单斜辉石有时含有角闪石退变边[图4(g)]。石榴子石的典型特征是含有定向的针状金红石出溶体[图4(g)],成分上类似于样品07JG2的石榴子石。长石主要以基质或后成合晶形式存在[图4(f)]。基质中的金红石部分被钛铁矿所替代。
含石榴角闪斜长片麻岩(如样品07JG32)[图4(c)]主要矿物组合为石榴子石+斜长石+角闪石+金红石,金红石部分退变为钛铁矿,石榴子石被斜长石+角闪石后成合晶所环绕。此外,石榴角闪石岩的主要组成矿物为石榴子石、角闪石、金红石[图4(i)]:石榴子石有2期,包括具有针状金红石出溶体的早期石榴子石和晚期深色石榴子石;角闪石也有2期,分别为早期的褐色富铁、高钛角闪石和晚期的绿色低钛角闪石。
不同样品中的角闪石是按照Leake等的分类方案[37]来命名的。棕褐色、富TiO2角闪石为韭闪石和铁质韭闪石,而绿色、低TiO2的角闪石为镁质绿钠闪石和浅闪石[图3(b)、(e),图4(i)]。表明这2类角闪石分别形成于不同的变质条件下,如麻粒岩相和角闪岩相条件下,因为前人研究已证明角闪石中Ti含量随变质程度的增加而升高[6,38]。这种差别也得到了岩相学证据的支持:绿角闪石产出于后成合晶中,而棕褐色角闪石以包裹体形式产出。有些样品中含有较多的富钛角闪石,可能反映了它们不同的原岩成分。根据电子探针成分分析,不同类型的角闪石可能形成于不同的变质条件下(图5[39]),`这进一步证明本区下地壳岩石经历了多期变质叠加与改造过程。
综上所述,无论是变质基底还是下地壳包体岩石,它们大多数(除下地壳上部的岩石以外)都含有石榴子石、单斜辉石、金红石、斜长石和石英等峰期矿物组合,指示形成于高压(大约 GPa)麻粒岩相条件下[40]。另外,这些样品缺少诸如蓝晶石和硅线石之类的富铝矿物相,表明其原岩为岩浆岩而非沉积岩成因[4]。基于上述显微结构观察和矿物之间的关系,至少可以区分出峰期高压麻粒岩相(石榴子石+斜长石+单斜辉石+石英+金红石±富钛角闪石)变质矿物组合,以及后期角闪岩相(斜长石+绿角闪石+钛铁矿+榍石)和绿片岩相(绿泥石+方解石+磁铁矿)等退变质矿物组合。因此,研究区前寒武纪变质基底岩石以及大多数下地壳包体岩石所经历的最高变质条件为高压麻粒岩相。矿物组合与初步的温压计算结果表明,高压麻粒岩相变质阶段温度和压力分别为800 ℃~860 ℃和0~2 GPa[29]。但是,由于缓慢冷却,尤其是可能经历了缓慢折返作用的岩石(如样品07FY0),而导致矿物的Fe-Mg交换或重置[42],所计算的温度有可能代表高压麻粒岩相变质阶段的最小估计值[43]。
3幕式地壳生长与多期改造的年代学和f同位素证据
由于受到后期多阶段变质作用叠加的影响,Sm-Nd和Rb-Sr同位素体系发生了重置和(或)矿物之间的同位素不平衡,往往难以准确测定不同变质阶段的时代,而锆石无疑是理想的定年矿物。锆石是一种难熔矿物,具有很低的Pb扩散速率[44],因而高级变质岩中锆石常常能保留多期次的岩浆作用和变质作用记录[45-49]。因此,锆石的原位U-Pb定年是获得经历过复杂演化过程和多期变质作用岩石可靠时代的有效方法。但是,由于物理化学条件变化和每期变质时间长短的不同,导致早期的锆石结构发生改变和(或)新的锆石生长,从而造成高级变质岩中的锆石结构显示较大的变化性和复杂性[50]。锆石中的变质矿物包裹体能把年代学结果和变质作用直接联系起来,而对于那些反映岩石复杂的岩浆和变质作用历史的环带锆石所表现出的诸如不规则边界、不同的核幔边区域之类的复杂结构可以通过阴极发光(CL)图像揭示出来[5-52]。此外,锆石的Lu-f同位素体系优于其U-Pb体系,通常能抵抗后期蚀变和改造作用的影响[44,53-54],能保存近于初始的f同位素比值,并可以用来示踪岩石成因和源区研究[55-56]。
因此,单颗粒锆石U-Pb和Lu-f 同位素的联合分析数据已被证明能提供有关岩浆和变质事件以及岩石成因和壳幔演化的可靠详细信息[53-55,57-65]。正如前文所述,华北克拉通是一个古老的克拉通并经历了复杂的演化过程,为此,笔者根据最新研究成果以及已发表的有关华北克拉通东南缘变质基底和下地壳包体的锆石U-Pb年代学和Lu-f 同位素数据,探讨了研究区前寒武纪下地壳的形成和演化过程。
根据锆石阴极发光图像(图6[29,33-34])可以看出,研究区前寒武纪下地壳包体岩石经历了复杂的岩浆热事件和多期变质作用,大多数锆石显示核幔边结构,包括典型的岩浆锆石核和具有石榴子石+单斜辉石+金红石+斜长石等高压麻粒岩相矿物组合的8~9 Ga变质锆石[29,33]以及具有高的Ti温度(大于800 ℃)的248~249 Ga麻粒岩相变质锆石[34]。锆石U-Pb年龄结果统计(图7)显示,研究区经历了25~26、2 Ga的岩浆热事件以及25~26、2、8~9 Ga以及390、76 Ma的变质事件。其中,形成于25~26 Ga的下地壳岩石包括2类:一类是经历了2 Ga和(或)8~9 Ga高压麻粒岩相变质作用以及390、76 Ma的变质改造,而且可能是因为这类岩石位于下地壳下部,在2 Ga时靠近俯冲带,因而遭受大洋俯冲与变质作用的强烈影响而造成Pb同位素均一化,形成了具有与约2 Ga岛弧岩石一致的高放射成因Pb同位素组成;另一类岩石则形成于255~264 Ga,可能因处于下地壳上部而仅遭受了248~249 Ga麻粒岩相变质作用,但没有2 Ga和(或)8~9 Ga变质叠加的岩石学和年代学记录,表现为典型的前寒武纪下地壳岩石特点的低放射成因Pb同位素组成[34]。此外,强烈的约8 Ga高压麻粒岩相变质作用可能是由于幔源岩浆底侵于下地壳底部而导致大规模地壳加热和增厚引起的,这也与该时期华北克拉通存在广泛的拉张、裂谷作用以及相关的镁铁质岩浆侵位等相吻合[8,20-2,29]。
锆石的f同位素分析(图8[33])指示,研究区前寒武纪下地壳经历了25 Ga和2 Ga的岩浆热事件。鉴于这2期锆石的ε-f(t)中有一部分样品为明显的正值(如5~2),反映它们的原岩来自于新生地壳,结合其原岩性质和地球化学特点,指示它们的岩石成因与2期俯冲增生事件有关[33]。此外,27~28 Ga的继承锆石U-Pb年龄(图7)和锆石f模式年龄[33-34]暗示研究区可能还存在更老的地壳物质或更早的地壳生长时期,这尚需进一步的研究。
4结语
()华北克拉通东南缘前寒武纪下地壳的岩石组成复杂,反映一个不同形成时代和不同成因并经过多期不同程度变质作用与改造的形成、演化过程。
(2)华北克拉通东南缘在前寒武纪发生过幕式地壳生长,至少包括25~26 Ga和2 Ga这2期俯冲增生和约8 Ga的垂向增生过程。由f模式年龄和继承锆石限定的27~28 Ga可能代表另一期地壳生长时间。
(3)华北克拉通东南缘前寒武纪下地壳岩石至少经历过25~26、2、8~9 Ga以及390、76 Ma等多期构造热事件和不同程度的变质交代与改造,造成岩石中某些元素和同位素特征发生变异。
篇2
一、学习卫生统计学的目的不明确
随着社会进步和医学科学的发展,要做好预防保健工作,医学工作者必须经常深入现场进行调查研究,了解人群的健康状况,发现存在的问题,并根据工作的需要开展相应的研究工作,如今学科之间相互渗透,相互交叉的趋势日益明显,如今的就业市场迫切需要高素质的复合人才,所以医学工作者应具备统计研究设计的能力。而有些医学生以为在医学院校学习的目的就是治病救人,从而忽略本课程的学习。
二、医学统计理论复杂
医学统计学的主要内容是数理统计计算,公式多,计算繁琐,前后知识联系紧密,整体跨度大,加上易产生歧义的名词较多,易出现理解上的盲点,致使学生学习有畏难情绪,易半途而废。
三、教学课时安排不足
中等职业教育中医学统计非考试课,课时少,学生自主学习不足,降低学习效率。
四、教学方法单一,照本宣科
青年教师因为教学经验不足,教学方法单一,刻板,且与学生互动少,课堂情绪调控较差,学生提不起学习的热情,缺乏对本学科的兴趣。有些老师语速过快,高估了学生接收信息和消化信息的能力。
总结以上教学中存在的问题,为改进教学方法,提高学生学习效果,笔者总结出以下几点。
(1)激发学生学习一门课程的兴趣的关键就是强调其学习的重要性,从而充分激发学生学习的兴趣和动力。统计学是帮助人们分析信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段,开展统计工作,首先要进行统计设计,这本身就是很具有创造性和艺术性的工作,亲自揭开世界的面纱,透过事物的表面看本质,是教会学生认识问题、分析问题和解决问题的方法学,会令学生终身受益。
(2)中等职业学校的学生普遍数学基础差,所以一翻开书本看见大堆的字母公式,就会产生畏难情绪,加之医学统计的结果需要一定的医学基础知识和临床知识相辅助,而课程安排往往将卫生统计学与临床课平行进行,此时学生还不能灵活掌握及运用医学知识,这就更增加了统计学学习的难度。所以,在讲课中,可以采用案例导入式教学,既能理解强化医学知识,又能引出相关统计理论和方法,帮助学生形成知识网络,让多学科知识相铺相成,降低理解的难度,从而激发学生的学习兴趣,建立自信心,调动学生学习的主动性,同时注意向学生详细解释说明新出现的名词概念。
(3)增加卫生统计学的课时安排,让知识更好的承前启后。
篇3
对学生不感兴趣的原因进行调查,有152人(85.4%)认为预防医学课程理论内容枯燥;有141人(79.2%)认为卫生统计学抽象、难懂不愿学习;有55人(30.9%)认为所学内容与专业无关;有76人(42.7%)认为该课程为考查课,不予重视。
2对目前教学的建议
目前,我校《预防医学》课程的教学情况为:卫生统计学部分理论20学时,实验(通过计算器进行)20学时;流行病理论32学时,实验16学时;卫生学(环卫、营养)共理论16学时,实验4学时。通过本次问卷调查,结果显示:有86%的学生认为应该将《预防医学》课程由考查课改为考试课,这样可加大学生学习的重视程度;有94.3%的学生认为统计学实习应改用计算机,通过统计软件来完成数据分析;有43%的学生认为应增加统计学理论学时教学;31%的学生认为应增加流行病学理论的教学,有28%的学生认为应增加卫生学理论教学。说明较多学生对目前的《预防医学》教学的方式、内容、方法等存在不满,需要探索新的、能提高学生兴趣的教学方式。
3实验组学生学习效果评价
必要开设预防医学综合性实验项目;有94.2%的学生认为通过SPSS统计软件的学习可以加强统计学部分基本概念和方法的理解,有助于理解统计分析方法的条件,并希望以后继续学习SPSS软件;67.4%的学生认为目前的学时数不够;有97.7%的同学对补充内容的学习感兴趣;并与以往的教学方式相比,更喜欢后者。
4讨论
现代医学的目标是培养适应社会新形势发展需要的高质量、实用型医务人才,这就要求医学教育必须适应现代医学的发展需要,在医学教育中加强预防战略。教育部曾指出“加强对非预防医学专业预防医学教学”;同时在“面向21世纪高等教育改革”中专门设立非预防医学专业预防医学教育教学改革项目。通过几年的实践,许多学校认为在医学教育中必须加强预防战略的教育,并从多方面采取措施(如改变课程设置,增加预防医学课时数等),而且结合社区医学教学进行社会实践活动。
既可使学生形成大卫生观念,增强预防意识,又能培养学生预防思想与独立工作能力。本次研究表明,临床医学专业学生对《预防医学》课程不怎么感兴趣,一是由于理论太枯燥,教学方法有待改进;二是统计学与流行病学内容相对抽象、很难理解。但是,这两点是预防医学课程的自身特点,和医学基础课中《医用物理学》等有着共性,关键在于,在教学中我们该如何提高学生对这门课程的兴趣,增加课程的趣味性。本研究中,学生对学习SPSS软件很感兴趣、热情很高,如果在医学统计学理论教学中,加入SPSS软件有可能改善理论教学的枯燥效果,提高学生对知识的实际运用能力。在以往的教学中我们多以教师讲授为主,学生被动接受,课堂互动较少。
篇4
关键词:预防医学;本科生;MOOC教学模式
MOOC(MassiveOpenOnlineCourse)的中文全称为“大规模开放式在线课程”,又称为“慕课”,是一种面向社会大众的免费开放式网络课程,通过在线教学方式教学资源,嵌入课程测试对学生的学习成果进行检验,并且注重交流互动,全面及时地向教师反馈学生的学习情况[1]。MOOC教学模式的概念由加拿大学者DaveCormier和BryanAlexander在2008年首次联合提出[2]。2012年MOOC在全世界引起广泛关注,被称为“慕课元年”,涌现出了当今最为知名的三大平台:Udacity、Coursera、EdX,并称为MOOC的“三驾马车”,在教育领域产生了深远的影响。2013年是中国的“慕课元年”,我国的高等学府也陆续加入了国际MOOC领域,构建了MOOC平台向世界开课[3]。MOOC的出现也给医学教育带来了发展契机,然而在我国医学教育领域,目前MOOC尚处于初步阶段,在预防医学专业课程中MOOC的比例更少。因此MOOC与预防医学教育的结合还面临着许多挑战,本文将对MOOC在预防医学中的应用进行探讨。
1MOOC教学模式和预防医学专业应用现况
MOOC教学模式主要分为两类:cMOOC和xMOOC,cMOOC以“连接主义”学习理论为教育基础,作为大学活动的一部分运行于开放资源学习平台,是强调同伴学习的教学模式;xMOOC体现“行为主义”学习理论,是将高校提供的课程视频在私人企业拥有的网络运营平台上运行,并与学习者和高校建立合约和商业关系的教学模式[4]。MOOC教学模式不拘泥于授课时间和地点,灵活性较大,课程往往是经过精心设计的精品课程,可以完整系统地实现课堂教学、学习进程、师生互动、提交作业、效果测试、成绩评估等过程,只要拥有一台可以上网的计算机,任何感兴趣的学生都能够零成本或低成本获得优质的教学资源[5],因此在一定程度上缓解了教育资源分配不均的问题。MOOC教学模式注重在线互动,将传统的授课式课堂向以学生为主体的课堂倾斜,学生与教师、学生与学生之间可以随时进行双向在线交流,MOOC的整个学习过程是个性化的,学生可定制个性化的学习内容,并自主选择学习时间、学习进度和学习方式[6]。在医学领域,率先开启MOOC在特定行业领域应用先河的中国医学教育MOOC联盟于2014年3月29日正式成立。目前作为医学教育重要部分之一的预防医学课程虽然在MOOC平台上还未被广泛普及,但是我国一些名校已经在MOOC平台上推出了预防医学相关课程,“中国大学MOOC”平台上复旦大学推出了《预防医学》,中山大学推出了《医学统计学》,Coursera平台上北京大学推出了《流行病学基础》、《医学统计学与SPSS软件》,南京大学推出了《营养与健康》。此外,中南大学推出了《食物营养与食品健康》、武汉大学推出了《营养学》、北京师范大学推出了《环境污染事件与应急响应》等,这些课程资源均可供学习者免费学习[7]。但在“中国医学教育MOOC联盟官方平台”上,尚未有相关课程。目前,推出的这些预防医学MOOC课程主要针对高校的在读学生,且课程内容较分散,尚未形成完整的教学体系[6]。
2MOOC教学模式在预防医学教育中的优势
预防医学是医学院校学生的必修课,涉及流行病学、医学统计学、职业卫生与职业医学、环境卫生学、营养与食品卫生学、儿童少年卫生学、卫生毒理学与卫生化学等课程,知识面较广且内容较多,某些课程如卫生统计学等的理论又比较抽象,学生较难理解。传统的教学方式主要是以教师为中心的灌输式教学[8],并以课堂讲授内容为主进行记忆,此方式虽有利于教师对课堂的管理,但缺乏对学生创造性、自学能力的培养,学生在有限的学时内需要吸收大量知识点,短时间内难以理解和掌握,较难调动学习积极性,学生学习兴趣不高。若将MOOC应用于预防医学教学,则能够在一定程度上弥补传统教学方式的不足。针对预防医学知识点庞杂的特点,MOOC可以将每一章内容切割成微视频的形式[9],使每个教学视频不冗长且内容精炼,更符合学生的认知规律。而且预防医学课程对科学思维和创新能力有一定的要求,教师在课堂上传授的往往是较为基础的知识,这些知识点较为陈旧,而在MOOC视频中加入科研进展等内容则可以让学生了解最为前沿的知识[10]。有相关研究通过实验对比传统授课式教学(Lecture-basedLearning,LBL)和MOOC教学模式来评价MOOC教学模式在预防医学教学中的实施效果,结果显示MOOC教学组总评成绩明显高于LBL组,表明了MOOC教学模式有利于提高教学质量并具有培养学生的创新思维的优势[11]。MOOC还能够兼顾不同预防医学课程的特点,以预防医学的骨干学科之一的医学统计学为例,该课程学习的根本是理解概念与实践,由于医学统计学的概念较为抽象且需要进行逻辑推理,学生若不思考和理解概念,而是机械记忆则会感到该课程较难掌握[12]。学生在MOOC平台上进行学习则可以根据自身接受知识的情况选择学习进度,做到因人而异,加深对概念的理解。利用计算机学习统计软件同样是医学统计学课程的重要内容,学生常不能记牢软件操作过程,录制MOOC平台上机实习视频课程之后学生可以反复播放学习,不需要教师重复授课,有利于学生查缺补漏、巩固记忆。除了在高校开展MOOC课程之外,MOOC还可供社会中公共卫生从业人员、非专业人员或其他感兴趣的学生进行课程的学习。疾控中心、科研院所等公共卫生从业人员能够通过MOOC及时简便地更新他们的知识体系,医院、基层卫生服务机构等非专业人员及其他业余人员则能够从MOOC课程得到他们感兴趣的和想了解的知识点[6].
3MOOC教学模式在预防医学教育中面临的挑战
虽然MOOC教学模式具有一定的优势,但在我国预防医学教育领域中MOOC仍面临着巨大的挑战。其一,我国MOOC教学模式在预防医学领域的应用尚处于初步阶段,MOOC平台中的预防医学课程十分缺乏,且这些课程针对的受众并不广泛,目前多为在校学生[6],因此亟待大规模、高质量的全国预防医学课程资源的共享。其二,尽管MOOC教学模式具有互动性的特征,也进行了教学情景模拟,但是大多数的MOOC仍然是远程教学,缺少传统课堂教师言传身教的体验[6],学习者对学习内容的掌握不牢固,而且预防医学不同的课程之间具有相类似的特点,它们均是实践性与应用性很强的学科,课程中非常重要的实验课等内容是需要教师亲自指导的,因此尚不适合直接与MOOC相结合。其三,在MOOC平台的学习过程需要更多的自主性学习,因为缺少传统课堂的束缚,学习者专注持久的学习时间不容易得到保证,导致MOOC课程注册学习的人数往往很多,但是完成率较低,教学计划常不能按时完成[13]。其四,MOOC对授课教师的挑战不小,医学院校教师平日的工作任务普遍较为繁重,因此录制课程视频及后期在平台的操作对教师协调时间和精力的要求很高,而且课程视频需要精心制作,不仅需要投入大量的人力、物力、财力,同时对教师授课水平也提出了不小的要求,需要教师不断进行创新、探索和改进[14]。其五,MOOC平台公布的课程视频向公众免费开放,涉及到相应的版权保障等相关问题[6]。
4MOOC教学模式在预防医学专业课程应用的实施方案
对于MOOC面临的挑战和不足,MOOC教学模式在预防医学领域的应用还应继续加强和优化。在MOOC对我国教育模式的不断冲击和教学方式改革的重要影响下,有关部门可以牵头组织打造系统全面的预防医学精品课程,召集高校、科研院所或疾控中心等单位有经验的教师,在全民范围内免费开放并做好相关宣传工作,增加大众对MOOC教学模式的知晓率,从而鼓励所有感兴趣的学习者注册学习。由于预防医学课程中实践内容的局限性,MOOC并不能完全取代传统的预防医学教学模式,因此可以将MOOC与传统课堂学习相结合,教师提前录制教学视频,学生课前进行自学和小组讨论对内容进行理解,课堂上师生交流学习成果,教师通过学生的成果汇报进行引导和教授,此方式被称为“翻转课堂”[14]。以卫生毒理学为例,传统毒理学实验教学以验证性实验和示教性实验为主,存在实验内容陈旧、学生缺乏综合性分析、基础理论与实践脱节等不足,而仅依靠MOOC的远程教学则存在教师无法直接指导学生操作的弊端。因此可以将实验原理和实验流程录制成MOOC视频课程供学生预习观看,使学生提前熟悉实验操作步骤,从而缩短实验课堂教学时间、增加教师纠正学生操作和分析点评实验结果的时间。教师还可以在MOOC课程中增加科研创新性实验和综合性实验,学生根据理论知识自行选定实验内容,此过程将有利于培养学生的创新思维[10]。而对于流行病学来说,案例分析是其教学的重要内容,但学生常常在课堂上才接触到案例,因此短时间内无法将实际问题考虑全面,如果教师课前在MOOC平台公布案例相关内容,学生就可以在课前进行分析思考,课堂上便能够加深讨论交流的深度,教师也能够有更多的时间进行点评、小组讨论、答疑解惑和知识拓展等内容。此外,预防医学的实践内容还可以引入大规模开放在线实验室(MassiveOpenOnlineLabs,MOOL)的课程安排[6]。针对课程完成率低的问题,MOOC平台可以引入学分奖惩机制,并颁发得到相关部门认可的证书来促使学生高效利用时间,鼓励学生进行实名注册,将课程分为不同的部分,学生完成每一部分之后获取一定的学分,在获取所有完整的学分并通过所有的测验考核之后才能获得证书。在医学院校中,同样可以将部分课程的学分分配给MOOC课程,由于预防医学课程包括理论和实践课程,成绩评定需要进行综合评定,为了更加全面客观地反映学生的学习情况,教师可以在线布置阶段性课后测验,并将测验分数以一定比例纳入学生综合成绩的评价中,用多元化评价机制来激发学生对课程学习的兴趣和积极性。MOOC平台还可以开发相应的移动客户端并建立相应的交流微信群来加强课程的互动性,手机客户端能够使MOOC课程的学习更为快捷方便,微信交流群可以使师生之间随时在线交流互动、答疑解惑,学生之间也可以通过微信群进行互相监督,探讨遇到的问题[6]。
5结语
MOOC的出现为预防医学教育领域提供了多元化的教学模式,弥补了传统授课方式的不足,使预防医学教育更为灵活,并且能够在社会范围内共享优质教育资源,具有明显的优势。虽然MOOC在预防医学领域的应用处于刚刚起步的阶段,仍旧面临着挑战和困难,但是随着对MOOC平台进一步的调整和不断的完善,MOOC教学模式在预防医学教育中的应用将会逐渐成熟,在社会范围内吸引更多感兴趣的学习者加入,具有更加广阔的应用前景。
参考文献:
[1]李诗竹,吕晓华,张晓玲.慕课———公共卫生硕士培养的新模式[J].现代预防医学,2015,42(20):3834-3836.
[2]于琦,贺培风,袁永旭,等.MOOC的发展及其对医学高等教育的启示[J].中华医学图书情报杂志,2014,23(7):8-12.
[3]秦君.慕课教学模式的SWOT分析[J].中国教育技术装备,2015(8):111-112.
[4]斯蒂芬•哈格德,王保华,何欣蕾.慕课正在成熟[J].教育研究,2014(5):92-99.
[5]尹德伟.MOOC对高等医学教育的影响[J].广西广播电视大学学报,2014,25(2):31-33.
[6]陈仁杰.浅谈MOOC在我国公共卫生继续教育中的应用[J].卫生职业教育,2016,34(14):27-29.
[7]唐娟,赵申武.MOOC优质教学资源在高专《预防医学》课程中的应用初探[J].科技视界,2016(9):95-127.
[8]刘殿武,牛玉杰,陈潜,等.预防医学专业教学改革的实践与效果[J].河北医科大学学报,2005,26(6):230-231.
[9]张扬.实验教学中引入“慕课”教学方式改革的SWOT分析[J].实验室科学,2016,19(1):122-124.
[10]段军超,荆黎,杨曼,等.浅析MOOC在卫生毒理学教学中的应用[J].医学教育管理,2016,2(S1):113-114.
[11]宓伟,石塔拉,尹淑英,等.MOOC教学新模式在预防医学教学中的实施效果分析[J].中国高等医学教育,2015(8):13-14.
[12]陈雅,邓青,姚佳红.浅析医学统计学教学改革的必要性及措施[J].中国卫生统计,2009,26(3):317.
[13]吕若然,高建华.网络教学在公共卫生专业中的SWOT分析[J].卫生软科学,2016,30(1):57-59.
篇5
张 欢
[摘 要]流行病学是各类医学院校必不可少的课程。然而学生对流行病学的学习往往不够重视,缺乏学习流行病学的热情和主动性。鉴于流行病学课程的重要性及目前流行病学教学效果欠佳的问题,提倡流行病学教师采用有效措施提高学生的学习兴趣和学习主动性,加强学生流行病学思维能力的培养,重视流行病学资料分析方法的教学。此外,注重网络学习材料的收集和利用,并适当开展双语教学等对提高流行病学教学效果也有帮助。
[
关键词 ]流行病学;教学效果;学习兴趣;思维
中图分类号:G642.3文献标识码:A文章编号:1671-0568(2014)35-0040-03
基金项目:本文系国家自然科学基金青年科学基金项目“汉族人群Corin蛋白与高血压发病关系的研究” (编号:81302499)、中国博士后科学基金特别资助项目“CORIN基因多态性与Corin水平及高血压的关联研究” (编号:2014T70547)的成果。
流行病学是研究疾病和健康状态在人群中的分布及其影响因素,借以制订和评价预防、控制和消灭疾病及促进健康的策略和措施的科学。 近年来公共卫生事件频发,且传染病的发病率和死亡率显著下降,而心脑血管病、糖尿病和癌症等慢性非传染性疾病的威胁不断增加。如何更好地应用流行病学原理和方法来预防和控制慢性病和公共卫生事件的危害,是各级卫生行政部门和医疗卫生机构面临的重大课题。流行病学的重要性使之成为了各类医学院校必不可少的课程。
由于课程多、学习任务重,同时对课程重要性不够了解,医学院中非预防专业的学生对流行病学的学习往往不够重视。很多学校的流行病学教材和教师的授课教学模式比较单一,也使得学生缺乏学习流行病学的热情和主动性。此外,为了适应慢性病患病率不断上升的公共卫生新形势,流行病学的教学内容及教学方法需要不断更新和改进。笔者根据近年参与流行病学教学工作的体会,谈谈加强流行病学课程教学的方法和策略。
一、提高学生兴趣
流行病学教学大多采取大班上课方式,教师讲解,学生被动性接受,学习兴趣不高。由于大多数的流行病学教学内容是理论性的概念,逻辑严密、抽象,不如临床医学等课程那么形象生动,学生的学习兴趣不高,课堂互动性比较少。单向灌输式教学方式使流行病学理论与防病实践严重脱节,学生只能被动接受。同时,根深蒂固的重治疗、轻预防的思想和现实也对学生有所影响,使得学生对今后在实际工作中是否有机会进行流行病相关的研究及工作缺乏信心。
学生作为教学活动的直接感受者,其兴趣直接影响学习的效果,可以针对不同的教学内容设置不同的教学方法。通过典型实例讨论,启发学生思考,让学生认识到流行病学的重要性和实用性,从而促使学生自发学习。例如,讲述病因推断时,可以SARS为例,让学生自己讨论怎样提出病因和验证病因,让学生对病因推断的基本步骤有深刻的体会。在实验流行病学中,可以从科研设计的角度来讲解,让临床专业的学生认识到即使是临床医生进行疗效评价,也离不开流行病的原理和方法,从而意识到流行病学课程的重要性。让学生积极参与课堂教学的全过程,真正体现“以学生为主体的课堂教学模式”。同时开设“第二课堂”,组织课外兴趣小组,在教师的指导下对引起社会广泛关注的公共卫生问题进行课题设计和调查等活动,并指导学生撰写调查报告等;鼓励学生参与教师的课题研究,从文献检索、课题设计、现场调查或实验到资料整理、数据统计分析和论文撰写等,学生在进一步理论联系实际的同时也提高了科研能力。
此外,利用多媒体的“多样性、交互性、集成性”等特点.针对教学重点和难点,结合经典的流行病学研究案例,制作形象生动、实践性强的多媒体课件,可以达到活跃课堂气氛、激发学生学习兴趣、加深学生对理论知识的理解的目的。
二、加强流行病学思维
流行病学是一门科研方法学,它的重要基础是逻辑学和概率论,在教学中要特别注意培养学生的逻辑思维方式和从群体角度思考问题的概率论思想,这一点在病因学研究中尤为重要。 网但是长期以来,流行病学教学以单向灌输式教学方式为主,偏重基本概念、基本原理方法教学,对流行病学思维尤其是以预防为主的思维能力培养不足,导致流行病学教学中理论与防病实践严重脱节,学生只能被动接受。这在很大程度上压抑和束缚了学生的创造性思维,使流行病学的应用性无法得到充分体现,学生缺乏将来在疾病控制实践中独立解决问题的能力。因此,加强流行病学思维能力的培养非常重要,其中包括宏观(群体)、对比、概率统计、多病因论及预防为主的流行病学思维方式与观点。
流行病学是从群体的角度宏观地观察一个人群的疾病发生情况、健康状况和公共卫生问题,其原理是在个体中看来是偶发事件,但在群体中是有规律性的。在流行病学定义中,有两个相当重要的概念,即“群体”与“分布”。这两个概念正是流行病学中宏观思维方式的体现。流行病学正是通过宏观的人群调查,了解疾病在不同人群、时间、地区的分布状况,并根据分布状况去追溯造成分布不同的原因,从而达到控制疾病之目的。吸烟与肺癌的研究,Frarningham心血管疾病流行病学研究等,都是应用宏观思维方法的典范。以吸烟与肺癌关系的研究为例,从个体的角度看,并非每一个吸烟者都患肺癌,也并非每一个肺癌患者都吸烟;从群体的角度来看,肺癌患者吸烟的比例显著高于非肺癌者,吸烟者中肺癌的发病率与病死率也显著高于非吸烟者,因而吸烟是肺癌的危险因素。通过实例使学生逐渐理解和接受流行病学的宏观(群体)思维方式。
在流行病学研究中自始至终应贯彻对比的思想。只有通过对比调查、对比分析,才能从中发现疾病发生的原因或线索,而且这种对比必须坚持可比性原则。经典的分析性流行病学研究方法,如病例对照研究、队列研究均设立对照组,应用对比的思维方式检验病因假设或对可疑的病因或危险因素进行研究,通过比较分析这一科学严密的病因逻辑思维推论过程来判定结果。
流行病学的病因是概率论的病因, “能引起人群发病概率升高的因素即为流行病学的病因”。这些因素实际上指的是疾病的危险因素,研究疾病的危险因素比研究直接的病因在疾病预防中的意义更大。在进行群体间比较时多使用发病率、死亡率等频率指标,而不是用绝对数来表示。例如,人们不能因看到某个吸烟的人已经活到100岁或某个不吸烟的人也得了肺癌而否认吸烟是肺癌的一个重要病因,而应当从概率论的角度认识吸烟者比不吸烟者患肺癌的危险要高出多少倍。通过流行病学调查发现某些疾病在某一地区具有某些特征的人群中比其他人群的发病率更高.则可认为这类人发生该病的危险更大。这种对某病的高危人群的确定,就是应用概率统计的思维方式来实施的。
流行病学病因研究认为许多疾病并非由单一的、特异的病因引起,而是遗传与环境等多种因素长期综合作用的结果。影响人体健康的因素本身就是多维的,因而应当用三维或多维的思维方式去贯彻和解决人类的健康问题。
流行病学的根本任务之一是查明病因并预防、控制和消灭疾病,包括无病时预防使其不发生,发生后使其得到控制、减轻甚至消除,即可根据疾病自然史的不同阶段。采取相应措施来阻止疾病的发生、发展或恶化,这就是疾病的“三级预防”及“预防为主”的指导思想。使学生尽快树立“预防为主”的专业理念,体会临床学习的意义,提高学生的自主学习能力和实践操作能力。
三、流行病学资料分析方法
预防医学课程中的医学统计学和流行病学方法,与医学科研密切相关,对培养学生的创新能力至关重要。这两门课程在教学过程中也往往需要进行有机结合。传统流行病学教学中,学生很难在短时间内将医学统计学方法和流行病学资料处理结合起来,因而很难理解和树立流行病学概率论的观点。适时地巩固学生的统计学思维,提高学生对医学数据的分析能力并将其与流行病学知识融会贯通,对医学统计学教学和流行病学教学,都是很有帮助的。
运用计算器手工运算各项指标,回答思考题,这是大多数学校采用的教学模式。但仅以计算器进行数据分析并不能解决所有流行病学资料分析问题。如流行病学病因研究最常用的回归分析,就无法在课堂上用计算器完成。 。目前,几乎所有流行病学的调查数据资料分析工作都要借助于统计软件,单纯由计算器进行资料分析的教学与实际工作脱节,已不符合现代流行病学的教学和工作的需要。因此,应在保留少量计算器手工计算方法以加深理解的基础上,将EpiData和sPss等国际权威的统计分析软件应用于流行病学教学中。
EpiData是专为流行病学调查而设计的软件,它与其他软件相比更符合流行病学工作对数据录入与管理的要求,所以在流行病学研究与实践中极为常用。EpiData软件是一款免费的数据录入和数据管理软件,简单易学,数据录入界面直观,操作简便,实用性强,具备强大的数据录入、数据核查、数据转化功能及双份录入及一致性检验的功能。 流行病学实习课的实例中,数据多是经过整理加工的,往往实习课结束后,学生对相关研究问题依然没有理解和体会,流行病学实习课的教学目的没能达到。在教学中应用EpiData等软件处理真实数据可以帮助学生更深入地了解流行病学数据资料。SPSS软件是专门为统计而开发的软件,统计方法较齐全,一般用于大型统计,是当今国际流行的优秀统计分析软件之一,是医学科研工作的得力助手。sPss软件界面友好,统计功能强大,操作简单易学,目前已在各大院校医学统计学教学中广泛应用。
苏州大学流行病与卫生统计教研室教师有多年从事实验教学的经验,参与过多次大型流行病学调查,有丰富的流行病学资料分析经验。预防医学专业本科生医学统计学课程和流行病学课程均开设了实习课,且统计学课程在先,学生具备了使用统计学软件的能力。在流行病学实验课中使用统计软件进行资料分析,使流行病学资料分析与统计学理论及软件的使用进行对接并加以综合运用,更能体现出流行病学与卫生统计学的紧密联系,使实践教学更具有针对性和现实性。
四、丰富学习材料
教科书是教学的核心材料,但广义的教材可以是传授知识、技能和思想的所有教学材料。广义教材既包括教科书、教学实习指导,也包括学术专著、期刊文献、教学幻灯片、音像资料、计算机辅助教学课程软件等。当前网络已经成为大学生获取专业知识的重要途径,流行病学课程教学应该充分利用网络资源,丰富学生的学习材料。这样不仅可以提高学生的学习兴趣和通过网络独立获取流行病学知识的能力,也使学生切身感受流行病学在社会生活中的实际应用。
世界卫生组织(WHO)网站和美国疾病预防控制中心(CDC)网站是提供流行病学实习的理想网站,可为流行病学学习和研究提供良好的素材。WHO从1995年起通过“The world heal山report”年度全球健康评估报告,报告有英文、中文、阿拉伯文等版本,内容覆盖了流行病学的大部分领域。美国CDC wonder是美国CDC建立的数据检索系统,可提供多种疾病的流行病学信息、统计数据、实验数据和研究进展。通过这些网站,学生可以了解世界各国的疾病负担和疾病预防控制策略,并可以从流行病学研究实例中学习调查研究的方法。这些实例来自于疾病防治的实际工作,与学生的生活及将来的工作岗位关系密切,更容易激发学习的兴趣。
随着信息技术和教育理念的发展,越来越多的组织或个人在互联网上共享教学资源,如全球健康网络超级课程。 网该网络课程汇聚了来自全球174个国家的56000名专业学者,目前收集了这些学者制作的5710份与全球健康和预防有关的Powerpoint讲稿,构建成一个基于互联网的开放的教学讲稿库,供全球相关领域的教师和学生免费使用。又如,美国加州大学洛杉矶分校流行病学系的Frerichs教授建立的快速流行病学调查的课程网页。该网站除课程的PowerPoint讲稿、配套的讲解录音外,还包括推荐阅读材料、统计软件及其使用说明、练习用数据库和课后作业等,成为一套非常完整的教学材料。此外,还应充分利用精品课程网站开展网络补充教学,如国家精品课程资源网和流行病学精品课程网等。
五、尝试双语教学
当前流行病学研究飞速发展,国际交流合作日趋频繁。如何培养具有国际合作意识、国际交流与竞争能力的公共卫生专业人才是目前高等医学教育中的一个重要课题,而实施双语教学正是适应高等教育国际化趋势的发展需要,也是培养这类外向型人才的重要途径。预防医学本科生学习流行病学及相应的实习课程时大多已经通过了大学英语四级或六级考试,具备较好的英语基础,这时合理地安排双语教学,有助于将学生的英语学习从公共英语转移到专业英语上来,切实提高学生的英语应用能力。
合适的外文教学资料是流行病学双语教学实施的必要条件,获得外文教学材料的途径可以是直接购买或复印合适的原版教材和参考书。此外,通过互联网收集教学材料是一个获得双语教学材料的有效途径。美国匹兹堡大学的Supercourse以虚拟图书馆的形式为全世界从事流行病学教学的人提供了一个交流的平台,目前其中含有来自174个国家的5710个讲稿。 网世界卫生组织和美国疾病预防控制中心官方网站的各种年报等材料也经常被流行病学教研室教员用来作为双语教学的背景参考资料。英国Dundee大学研制的流行病学互动教学软件Studying Popula-tions ProWam也深受好评。该软件是一个计算机辅助的流行病学方法学习软件包,其中包含了80多个关于流行病学基本概念的交互式练习和模拟,适合所有健康科学工作者使用,包括医学专业本科生和硕士生、公共卫生工作者及临床医生。在国外一些大型公共卫生或流行病学学术会议中,如美国公共卫生年会等,一些大学、研究所、出版社、公司等都会提供电子版或纸制的宣传材料,其中不乏流行病学专业期刊,健康教育短片、美国疾病预防控制中心的工作介绍、国外大学公共卫生学院的介绍等。这些都属于流行病学双语教学资料的收集范围,有利于我们及时地了解国外的流行病学教学的动态。另外,通过直接使用英文版的疾病数据分析软件(sPss,SAS,Epi Info)来提高学生的专业外语运用和理解能力也是加强双语教学的有效办法。
篇6
关键词:医学统计学;非预防专业;实验教学;改革
中图分类号:G642.0 文献标志码:A ?摇文章编号:1674-9324(2014)03-0036-02
医学统计学是基于概率论和数理统计的基本原理和方法,为研究医学领域中数据的收集、整理和分析的一门应用性学科[1]。该学科不仅能够培养医学生的科学逻辑思维,对提高学生分析问题、解决问题的能力也具有重要意义,更为学生今后的临床实践和科研工作打下必要的统计学基础。实验课是医学统计学教学的重要组成部分,要想引导学生将统计学理论与医学临床和科研联系起来,调动学生的学习兴趣和灵活运用理论知识的能力,实验教学有着不可替代的作用。为此,我们结合实际教学工作中的体会,对非预防医学专业本科生统计学实验教学内容和方法提出一些改革与实践的思路,以期提高实验教学效果,加强学生综合运用统计学知识的能力。
一、非预防医学本科生医学统计实验教学中存在的问题
我国高等医学院校已将医学统计学作为必修课列入各专业本科生的教学计划中。非预防医学本科生的统计学教学总时数一般为32学时左右,实验课时多为10个学时,相对比较紧张。而统计学的原理知识较多,理论课时难以压缩,因此对于实验课时无法增加,限制了实验教学内容和方法上的改革,影响实验教学效果。目前国内绝大部分医科院校开设的医学统计学实习课基本上是“习题课”[2],在实习课上教师以书后的练习或是实习指导册上的习题为主,把每道题涉及到的理论知识再给学生强调一遍,学生利用计算器套用书上例题的解题步骤及公式进行统计运算,下课后交作业,教师根据学生作业给予一个分数作为平时成绩。由于所做习题大多是经过收集、整理好的现成资料,学生只需着眼于对结果的分析,而不必注重统计设计、资料的收集与整理。这样常造成学生上课的积极性不高,毫无兴趣,学生为了拿到一个好的平时成绩,甚至互相抄袭作业,更有甚者,后面批次的学生来上课之前就已经把作业做好了。老师在批改作业的时候难以衡量学生对知识的掌握程度,往往每个学生的作业分数都相差不大,但是在考试中遇到同样的题型甚至原题,仍然有很多学生无从下手,乱用统计方法的情况比比皆是。这种单一的传统实验课教学模式,忽视学生统计思维和科研素质的培养以及解决实际医学问题能力的训练,从而导致学生的统计理论水平与实践能力脱节的突出矛盾。传统的教学模式造成了学生对只知其一不知其二,一遇到实际问题就无从解决。
二、实验教学内容的改革
传统的习题很难调动学生的积极性,加之医学生要从医学课程长期训练的形象思维转向医学统计学所需的逻辑思维能力,而且在统计学理论教学中,偏重于用教材上典型例子进行单个统计学方法的讲解,而忽视不典型实例及多种统计学方法之间互相联系的讲解[3]。学生用统计学知识解决实际问题时缺乏系统性,在碰到不典型实例时,学生误用、滥用统计学方法在所难免。目前国内医学院校的医学统计学专业都提供统计咨询服务项目,利用统计咨询积累的不典型案例和综合分析实例或将国内外公开发表的医学论文中的经典研究实例进行重新整合作为实习教学内容,要注意与医学实际联系,如果能够做到对于不同的医学专业采用不同的实习内容,更能够提高学生的学习兴趣。教学的重点放在研究设计类型和统计方法的活学活用,这样可以加深对基本理论的理解,也可以做到以后在医学临床实践中学以致用。
三、实验教学方法的改革
1.以问题为中心,小组讨论为主的实习教学方法。传统的实习教学模式难以激发学生自我分析问题、解决问题的潜力,难以提高学生的学习兴趣,而基于问题,小组讨论的教学形式将学生和教师紧密联系在一起,共同参与其中,增加了学生和教师的互动。在教学过程中学生作为学习的主体,教师除了指导学生对难点、重点的把握上,教师更重要的是如何利用小组讨论充分地调动学生积极思考,使学生勇于表达自己的观点,这就向老师提出了更加全面的挑战,老师不仅仅是传授知识,对如何组织课堂,调动学生的积极性,培养学生的科研思维也有了更高的要求。学生通过这种形式的讨论和辨析,引导学生思考、促进逻辑思维发展,从而达到正确掌握统计学基本概念和方法,并能灵活运用的目的。同时,通过讨论与交流也能锻炼学生的沟通能力和团队合作的意识,教师的自身素质和能力也得到了锻炼和提高。
2.引用统计软件提高学生数据分析能力。医学统计学是一门方法型学科,统计学应从数据技巧转向数据分析的训练[4],21世纪是信息化的时代,利用计算器进行数据分析的实验教学方法已不能适应当前教学形势和医学科研发展的需要。在带教期间,学生的教学效果反馈意见中有三分之一的学生希望在实验课中能介绍SPSS等统计软件的应用。医学统计学教学应尽快利用计算机和统计软件等先进教学手段进行实习,统计软件的运用,软件应当考虑易于学生操作和掌握的、现行广泛应用的,如SPSS(Statistical Package forSocial Science,社会科学统计软件包),它是非统计专业人员应用最多的统计分析软件,也是国际医学期刊引用最多的统计软件[5]。在实习中要求学生能掌握软件的基本操作技能和统计分析能力,要将实习内容和软件教学需求相结合。由于软件的方便快捷、准确高效,节省了大量时间,这就有利于我们把实习重放在何种情况下,采用何种统计方法,及对所得结果如何进行解释上,同时在软件实习作业要求学生按照计算器实习的要求不仅写出完整的统计过程,还要写出分析思路,包括资料的类型、设计类型、适用条件等。这样就弥补了学生不用计算器之后对检验过程、步骤的生疏。
3.充分利用网络资源,开辟实验教学的新途径。随着网络科技的日益发展,互联网在“90后”的大学生中广泛普及,利用互联网对医学统计学知识的普及与传播作用也日渐突出。实验教学课时紧,内容综合性强,想要达到预期的教学效果,提高学习效率,网络资源的利用是现代化教学手段的一个重要因子。全国大部分高校都建立了教学网络平台,学生和老师利用最多的就是用此平台做一些日常性的工作,比较学生选课、查看成绩,老师查课表、录入成绩等。而此平台在辅助教学、提高学生知识水平方面的功能突显不足,源于教师建设不足,学生利用率低。因此教学网络辅助平台的共享性、教师和学生的互动性等优点无从彰显。在实验教学过程中我们寻找到了一条更快捷、学生接受程度高的网络辅助教学途径——百度贴吧,利用这一交流平台,免除了登陆学校教学网络平台的繁琐程序,不仅可以在电脑上实现快捷登陆,随着智能手机的推广应用,学生只需在手机上下载一个贴吧的APP,即可实现一键登陆。为了提高学生的自学能力,促进学生的专业交流,我们在贴吧中不断更新上传一些优秀的医学统计学网站、医学统计学论坛和实验教学所需的统计软件的教程等资源。通过平台互动,能及时了解学生需求和教学需求,教师和学生都能够从中受益,从而提高教学质量。
四、改革实验考核方式
教学内容、教学方法与手段的改革是否有效,改进和加强实验考核是统计学实验教学的重要环节和手段。单凭实验报告考核计分的方法很难达到预期的教学目的,学生解决实际问题的能力难以得到锻炼和提高,另一方面,教师单凭实验报告很难区分学生的学习态度和能力强弱,使得成绩好的学生在实验课上动力不足,成绩差的学生容易投机取巧,出现大部分同学吃“大锅饭”的现象。2012年我们对护理专业统计学实验教学进行了实验考核,取得了良好效果。根据教学大纲的要求,由教研室全体教师集体备课,拟出8套互不重复的综合试卷,考试内容以实习内容为主,加强题型的综合性,以开卷形式难易程度基本相当,每个考场使用不同的试卷,以A、B卷形式交叉发卷实现考试的公平性。考试以开卷形式,允许学生带课本,但不能带其他参考资料,考核成绩占总成绩的20%,实习作业占10%。这种考核方式能够比较真实地反映出学生的学习情况与实际水平,对教学很有帮助,更富针对性,使实验考核成为检验实验教学效果的一种有效手段。现在,随着教学需求的发展,我们在原有的实验考核的基础上,增加SPSS统计软件上机操作考核,它是实验教学改革的一个重要手段,是检验学生是否能将统计软件运用于解决实际问题的一个重要途径。把考核重点放在学生运用基础知识和基本技能解决实际问题的能力。同时根据不同专业类别、不同要求,建立不同的考核题库,制定相应的统计学实验课程考核与评价方法。
教学改革是每一位教师教学生涯中永恒的话题,教学改革的最终目的就是为了让学生能够学到、学懂、学以致用。要想转变医学统计学实验教学的现状,调动学生学习的积极性,提高学生运用统计学解决医学实际问题的能力,这就要求教师在教学过程中,教学方法、教学手段不仅要与时俱进,自身的知识水平也要与时俱进。转变思想,不断更新观念,在实践中探索更加完善和合适的教学方法以期提高教学质量。
参考文献:
[1]孙振球,徐勇勇.医学统计学[M].北京:人民卫生出版社,2002.
[2]杨巧媛.医学统计学实验教学方法的改革与探索[J].实用预防医学,2005,12(1):202-203.
篇7
2011年2月,国务院学位委员会进行了学科调整,统计学完全从数学和经济学中独立出来,上升为一级学科,设在理学门类中,编号为0714。统计学上升为一级学科后,下设的二级学科包括数理统计学、社会经济统计学、生物卫生统计学、金融统计、风险管理和精算学、应用统计学。统计学上升为一级学科对统计学专业的教学带来巨大影响。
同时,随着大数据时代的到来,使得传统的统计数据收集、处理与分析方法面临新的挑战,从而推动统计学的发展进入了一个全新的阶段。在统计学上升为一级学科以及大数据时代已经到来的大背景下,统计学专业的课程教学也面临着新的挑战,需要进一步改革与调整。
一、大数据时代的到来
(一)大数据的生成
伴随着人类对客观世界各领域数字化程度的不断提高,每天都有大量的数据产生,并且其产生的速度也越来越快。这些数据来源广泛,其中最主要的来源有:科学研究(如天文学、生物学、高能物理等实验数据)、社交网络、电子商务、物联网、移动通信等。
(二)大数据的定义
为了应对数据大规模增长带来的机遇和挑战,美国《Nature》杂志在2008年9月4日率先提出了“大数据”的概念。国际数据中心IDC 是研究大数据及其影响的先驱,在2011年的报告中定义了大数据:“大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。但是大数据是一个新兴而且内涵不断发展的概念,尚没有统一公认的定义,只能从其特点上加以认识。
(三)大数据的特点
与传统数据相比,大数据的特征可以用五个“V”来表示,即Volume(容量大)、Variety(种类多)、Velocity(时效性强)、Value(价值高)、Visualization(可视化呈现)。大数据容量大是个相对的概念,受时间、行业和数据类型等因素的影响;种类多是指数据集的结构异质性,科技进步导致了结构化、半结构、非结构化数据的日益增多;时效性强是指大数据被生成、处理、移动的速度相当快,是区别于传统数据最显著的特征,这也增加了对即时分析、加工数据的需求;价值高是指大数据潜在的高价值能为评价和决策提供依据。可视化是大数据分析的关键步骤,是对有价值信息加以提炼并显示的过程。
(四)大数据的应用
大数据具有5Vs(Volume、Velocity、Variety、Value、Veracity)特点,蕴含着巨大的社会价值、经济价值和科研价值,已引起了产业界、学术界、政府部门和其他组织的高度关注和重视。
近年来,世界发达国家相继布局大数据战略,诸如联合国“数据脉动”计划、美国大数据战略、英国“数据权”运动,大力推动大数据发展和应用。大数据已纳入我国国家发展战略,国务院2015年8月31日印发了《促进大数据发展行动纲要》的通知(国发[2015]50号),指出:“大数据成为推动经济转型发展的新动力,大数据成为重塑国家竞争优势的新机遇,大数据成为提升政府治理能力的新途径。以数据流引领技术流、物质流、资金流、人才流,将深刻影响社会分工协作的组织模式,促进生产组织方式的集约和创新。探索发挥大数据对变革教育方式、促进教育公平、提升教育质量的支撑作用”
二、大数据给传统统计学带来的冲击
(一)数据收集方法上
不同于传统的调查抽样方法获取数据,大数据的收集来源渠道通常为现代网络渠道,如互联网、物联网等。不同的数据源的数据采集需要专用数据采集技术, 如包含格式文本、图像和视频的网站数据,通常需要web爬虫技术。
(二)数据存储上
大数据的存储不同于传统的数据存储方式,有固定的格式和结构,对于大数据的数据库来说,可以直接将所探测到的信号自动容纳到其中;大数据需要有先进的存储设备,传统的存储设备已经不能容纳如此大量的数据。
(三)数据分析上
传统的统计分析方法,难以胜任对非结构化的大数据的分析。当前大数据分析技术的研究可以分为6个重要方向:结构化数据分析、文本数据分析、多媒体数据分析、web数据分析、网络数据分析和移动数据分析。
(四)数据展示上
数据可视化的目标是以图形方式清晰有效地展示数据的信息。一般来说,图表和地图可以帮助人们快速理解信息。但是,当数据量增大到大数据的级别,传统的电子表格等技术已无法处理海量数据。大数据的可视化展示需要专业的软件来完成。
三、大数据时代统计学专业教学改革
大数据时代的到来对统计学也带来了新的机遇和挑战,特别是大数据对于数据分析人才产生了巨大需求,同时也要求统计专业学生掌握更为复杂统计软件的编程和操作。大数据背景下,统计学要适应新的形势,需要对课程教学进行有针对性的改革。
(一)大数据时代统计学专业毕业生就业方向定位
大数据时代的到来,使各行各业,包括政府、企业、个人都希望能从大数据这座金矿中挖掘出对自己有价值的金子,从而增加了对统计专业毕业生的需求。一直以来,我国统计工作领域主要是政府统计、部门统计、民间统计。传统意义上,政府及各个部门是统计学学生就业的首选。然而,随着大数据时代的来临,越来越多的毕业生选择发展空间更为广阔的民间统计。民间统计相对于政府统计来说,涉及范围十分广泛,包括各类统计咨询公司、统计调查公司、统计研究院等,介于市场和企业、行业之间。民间统计的发展前景十分广阔,可以预见,随着大数据时代的来临,统计学作用的提高,民间统计必会成为统计专业毕业生选择就业的主要渠道之一。
(二)大数据时代统计学专业课程设置改革
大数据时代,在对统计数据分析人才需求增加的同时,也对统计专业毕业生的大数据处理能力提出了更高的要求,这就需要统计学专业在课程设置上,增加大数据处理与分析方法课程,如《大数据分析方法》、《数据挖掘》等,培养学生能够使用专业统计软件(R/SAS/Python)进行大数据的挖掘、清洗、分析等。
(三)大数据时代统计学专业学生实践能力培养改革
在课堂教学之外,通过广泛举办大数据技术创新大赛、大数据技术创新与创业大赛、数据挖掘挑战赛,支持学生成立大数据研究协会,举办大数据相关讲座论坛等方式,增强学生分析和处理大数据的能力。另外,还要加强校外大数据实践教学基地建设,通过与通信、互联网、电子商务等企业大数据开发中心以及大数据研究咨询机构合作,为学生提供给更多的实习、实践机会。
四、总结
总之,面对大数据时代的到来,统计学专业需要积极改革与调整课程的设置,注重学生实践能力的培养,以适应各行各业对大数据分析与挖掘人才的需求。
作者简介:
篇8
关键词:熵;熵权TOPSIS;乳腺癌
一、引言
熵是热力学中的一个名词,在信息论中又称为平均信息量,它是信息无序度的度量,信息熵越大,信息的无序度越高,其信息的效用值越小;反之,信息熵越小,信息的无序度越小,信息的效用值越大。因此,在综合评估中,通常运用信息熵评估系统信息的有序程度及信息的效用值。同时最大熵技术也广泛应用于多目标决策问题各评价指标权重的确定[1]。基于此,本文把熵与多目标评价方法TOPSIS结合来分析乳腺癌候选基因与乳腺癌易感性之间强弱的评价值,进而综合考虑定性和定量因素,并最终给出了分析结果,为进一步发现乳腺癌候选基因提供了理论依据。
二、熵、熵权TOPSIS方法
空间统计学中,距离综合评价法是一种以空间统计学为基础的分析方法,它是通过将统计数据转化为多维坐标系中的点,在空间中确定出参考点,即最优样本点和最劣样本点,然后计算各样本点到参考点的距离来分析评价的方法。具体计算步骤如下。
1.对数据的初步分析处理。假设用P个指标对n个数据进行评价,先构造原始数据,
X′=(X1′,X2′,X3′…XP′)=( XIJ′)n*p
并对数据进行处理,进行指标同向化,将逆指标、适度指标转为正指标后得到矩阵:
X′=(X1,X2,X3…XP)=( XIJ′)n*p i=1…n;j=1…p。
2.无量纲化。为消除量纲,并在数量上统一,TOPSIS法使用无量纲化公式
yij=
得到无量纲矩阵
Y′=(Y1′,Y2′,Y3′…YP′)
3.确定权重,构造加权数据矩阵。传统的TOPSIS法在确定评价指标的权重时,一般采用专家意见调查法或层次分析法等方法,这些方法存在着较大的主管因素,不同的人对各个指标的重要度有不同的评价。因此,本文采用熵的概念来确定评价指标的权重,从而避免主观因素的影响。
熵值法是根据各指标的观测值所提供信息量的大小来确定权重的方法。数据分布越分散,其不准确性也越大。当系统可能处于N种不同状态,每种状态出现的概率为批pi时,该系统的熵为
e=-pilnpi
式中0≤pi≤1,∑pi=1。各个指标的决策信息可用其熵值来表示:
ej=-kpijlnpij
式中K=1/lnn。于是第j个指标的评价值数据的分散程度gj可表示为gj=1-ej。
给定的指标xj,xij的差异越大,相应的gj值也越大,表明该指标所包含和传输的信息量越大,重要程度也越高;相反,表明该指标的重要性低;如果各方案的xij都相等,则在指标评价值绝对集中,该指标对综合评价不起任何作用,因此,用熵测度来表示的第j个指标的权重为
wj=
确定出各指标的权重后,以它们为主对角线上的元素构造主对角矩阵
Y′W=(yij)n×ji=w1y11…wpy1p
wnyn1…wnynp
式中yij=wj*yij
4.确定参考样本:参评样本中的最大值构成最优样本,最优样本点为:
Y+=(y1+,y+p),y+j={yij}
参考样本中的最小值构成最劣样本,最劣样本点为:
Y-=(y1-,y-p),y-j={yij}
5.计算距离:为综合考虑样本点到最优样本点和最劣样本点的距离,需计算样本点在最优样本点两个参考点间连线的射影:
d=
=
di越大,样本越好。
三、基于熵权TOPSIS乳腺癌易感基因分析
随着医学分子生物学的发展,使得人类有机会从分子水平研究乳腺癌,由此对乳腺癌的研究也进入了基因时代。在这个研究过程中,用到了很多方法和实验,产生了大量的数据。尽管从中发现了一些致癌基因,但至少有80%的乳腺癌基因不能由已知的致癌基因解释,这意味着有更多的致癌基因尚待发掘。Pujana等人结合自定义五规则匹配和基因见的相关系数大小,找出了一个乳腺癌致癌易感基因―HMMR;徐超等人运用多目标评价模型对候选易感基因进行评价并对SMC4L1进行了着重分析。但以上文献中,模型权重的确定客观性太强,在一定程度上对评价结果产生了影响。对此,本文引用熵权TOPSIS方法对乳腺癌候选易感基因进行分析和评价,从而避免了主观因素对权重确定的影响。
以徐超等人整理的乳腺癌易感基因参考数据对其运用熵权TOPSIS方法评价,具体分析如下。
1.构造原始数据。利用Pujana等人提出的评价规则体系、徐超等人整理的评价数据,构建乳腺癌易感基因多目标评价模型的评价指标集及相应的评价属性集,如表1所示。
2.对模型数据进行无量纲化处理后,算出其属性权重如表2所示。
3.确定参考样本。参评样本中的最大值构成最优样本,参考样本中的最小值构成最劣样本,具体数值为:
Y+=(0.0682699910564073,0.0002237
90471939587);
Y-=(0, .0000498327157898221)。
4.计算距离并排序。通过计算每个样本和参考样本之间的距离,得出排序结果,部分数据如表3所示。
取其结果与文献参考评价模型结果进行比较,通过比较可以看出,其评价结果完全相同。进一步说明了此方法的可行性,同时也避免了由于主观因素对权重造成的影响。
四、总结
本文通过运用熵权TOPSIS方法对乳腺癌治病基因进行评价分析,消除了主观因素对权重确定的影响。根据计算结果表明,该方法能够有效地度量各致病基因的重要程度,为进一步发现乳腺癌候选基因提供了理论依据。
参考文献:
[1]赵静,王婷,牛东晓.用于评价的改进熵权TOPSIS法[J].华北电力大学学报.2003(3).
[2]中华人民共和国卫生部.中国卫生统计年鉴[M].中国协和医科大学出版社,2009.
[3]THOMPSON D, SZABO C I, MANGION J, et al. Evaluation of linkage of breast cancer to the putative BRCA3 locus on chromosome 13q21 in 128 multiple case families from the Breast Cancer Linkage Consortium[J]. PNAS,2002, 99:827-831.
[4]Pujana M A, Han Jing-Dong J, Starita L M, et al. Network modeling links breast cancer susceptibility and centrosome dysfunction.Nature Genetics,2007,39: 1338-49.
[5]徐超,蒋艳.基于多目标评价模型的SMC4L1基因的乳腺癌易感性分析[J].生物医学工程杂志,2011(3).
[6]Xu Chao, Jiang Yan. Multi-Criteria Evaluation Model Reveals SMC4L1 Gene Maybe a Breast Cancer Susceptibility Gene. 2009 Fourth International Conference on Bio-Inspired Computing, BIC-TA2009, 2009, 10:161-163.
篇9
【关键词】小白鼠;口服;软膏;LD50测定
化学药品的急性毒性试验,LD50的测定仍是很重要、很科学的测定手段[1][2][3]。受试药品是液体采取注射法。是固体或半固体需改变给药途径。红药膏是半固体药品,用药物的原剂型采取小白鼠直接口服测定LD50,在操作和理论上是创新和改进。报告如下:
1材料和方法
1.1材料
1.1.1动物:小白鼠65只,体重分别为20±0.2g,性别各半,月龄2m。分笼饲养7日以上,择优者试验。
1.1.2分析天平。
1.1.3塑料管为园形空芯,长8cm,直径0.15cm。配合适管芯,管芯直径弱小于0.15cm。
1.1.4垫纸:小方形薄纸。
1.1.5小白鼠固定器:本所设计,制造方法另文报导。
1.1.6塑料盘碟:装受试药膏。
1.1.7导针:直径小于0.15cm的细铁或细钢针作导针。
1.1.8药品:红药膏生产批号:20110629。置冰箱冷却3天后切成0.1×0.2cm小块放冰箱备用。
1.2方法
1.2.1分组:小白鼠65只。多备几只以补充试验中外伤或窒息致死数。
1.2.2预试:确定小白鼠正式试验时的5个口服剂量。方法是随机取健康小白鼠8只,分别给服任意值“红药膏100mg、225mg、337.5mg、357mg、482mg、782mg、813.2mg、934.23mg”。服药后观察1周,前5只存活正常,后3只因口服剂量大而死亡。据“预试”结果订出试验组5个剂量即计划服药量分别为260mg、364mg、509.6mg、713.44mg和998.82mg,组间比率为1.4。
1.2.3分组:据以上制订剂量,把50只小白鼠随机分配成5个剂量小组。小组以上述剂量而命名:为260mg组、364mg组、509.6mg组、713.44mg组和998.82mg组,每组10只。
1.2.4与软膏口服LD50相关的5个剂量概念:
1.2.4.1 计划服药量:即标准服药量。系指以上各小组应该服入的标准服药量。喂药中,盘碟等工具上附着的软膏,(即丢失的软膏)。致服入的药量小于“计划(标准)服药量”,把计算的标准服药量视为“计划服药量”。
1.2.4.2 预计损失量:喂药时碟、塑料管、包纸和垫纸上粘附的红药膏总量。通过25只小白鼠喂药后的统计,“预计损失量”约为“计划服药量”的百分之50.69±10.29,即喂药前准备药膏不可少的估计值。
1.2.4.3暂订服药量:即实际喂药量。为“计划服药量”与“预计损失量”之和。
1.2.4.4 实际损失量:操作时实际损失的总量。如附在器械上的药膏量是变数,可能比“预计损失量”高、相等或低。所以“实际损失量”是实际丢失的药量。“预计损失量”是估计损失的药量。
1.2.4.5实际服药量:即真正服药量或近似标准量。用“预计服药量”,减去“实际损失量”,等于“实际服药量”。此剂量接近各组的“标准服药量”。
1.2.5装盘:把药膏小块按已知组的“暂订服药量”即“实际喂药量”装盘。方法:把放入冰箱冷冻2-3天后稍硬的红药膏切成0.1cm×0.2cm左右的小块。再按“暂订服药量”装入已称重量的碟内置冰箱备用。
1.2.6将受试的50只小白鼠以每组10只随机按以上5个标准剂量分成5组依次编号。小白鼠无需麻醉,需用“固定器”妥当固定。头部和尾部暴露在外。
1.2.7将“垫纸”铺手术台上。再将“固定器”固定的小白鼠放在“垫纸”上,便于收集撒落的药膏。
1.2.8 取规定量软膏碎片盘,用“导针”挑起药膏小碎片,装入带管芯的塑料管内,长1.0cm~1.2cm。装毕平放“垫纸”上备用。
1.2.9 操作者左手持小白鼠的“固定器”,直立放置“垫纸”上。右手取装药的塑料管,从小白鼠口角插入缓慢推动管芯。一次少量推入,防止吞咽不协调窒息死亡。推药之初,小白鼠主动配合吞咽。如喂药量过多或时间过久,小白鼠常拒绝吞咽或因神志模糊不能吞咽。此时操作者可用塑料管尖端,轻轻将口内残留药慢慢推进,直至口腔无药膏为止。推药时,动作应轻柔缓慢,防止药膏堵塞气管致小白鼠窒息死亡。管中药膏推完后,再将碟内药膏放入塑料管内再喂。如此反复操作,直至盘中“试服量药膏”完全喂完。装药盘中会残留粘连很牢的药膏,试验前后均要称盘碟、垫纸、包纸、带芯塑料管的重量。便于计算软膏损耗量,记录“实际损失量”。喂药后的小白鼠,观察7-14天的表现。每个剂量喂10只以上。
2结果
2.1试验算出“实际服药量”与“计划服药量”有差距。以“实际服药量”为基础,据数学“近似值原理”:“近靠近,活靠小,死靠大”的原则,归靠某一“计划或标准服药量组”,得出“实际服药量”,观察7-14天。死亡情况按归靠“计划剂量组”的原则,得出小白鼠口服红药膏死亡的结果是:剂量(mg/20g)分别:260、364、509.6、713.44、998.82。动物数(ni):10、10、10、10、10。死亡数(ri ):0、3、4、6、10。死亡率(pi):0.0、0.3、0.4、0.6、1.0。 (因小白鼠平均体重为20g,所以口服剂量单位为mg/20g。如按照mg/kg,应增加50倍,计算不便。故按实际情况改为mg/20g)。
2.2计算:按寇氏法(Karber氏法)[2]计算如下:
3讨论
应用“LD50试验”测定“红药膏”的急性毒性试验,测得的数据能反映红药膏对人体的毒性[1][2][3]情况。
LD50测定先解决给药途径。注射法、直肠给药法、皮肤给药法、呼吸道吸入等给药法[4],小白鼠身体太小不宜应用,最好是口服给药。小白鼠价廉、性情温和、容易饲养,数量上易达到统计学要求。为了测定服药剂量的准确性,不应掺和其他药物,应保持药膏原剂型直接口服。Karber氏法(寇氏法)是本试验的主要依据。用此法测定半固体或固体药物的LD50,值得推广。
参考文献
[1]《工业毒理学实验方法》组编.工业毒理学实验方法.上海科学技术出版社,1979,9-10、40-61、391-392.
[2]上海第一医院卫生统计学教研组.医学统计方法.上海科学技术出版社,1979,206-207,214-215.
篇10
[关键词] 单核苷酸多态性;聚类分析;基因;数据挖掘
[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人类的基因组中存在各种形式的变异,其中,单核苷酸多态性(single-nucleotide polymorphisms,SNPs),即单个的核苷酸变异所引发的DNA链序列的多态性,是这些变异中最普遍的形式。根据数据统计,在人类含有不低于30亿个含氮碱基对数量的基因组中,SNP出现的概率在1/1000左右[1]。如何利用这些信息,建立数字模型,探索这些基因与位点和疾病的关联,成为了摆在科学家面前的一个富有挑战意义的课题[2]。
科学家们在长期的研究中,根据“物以类聚”的原始思想,衍生出了对复杂数据或者试验对象等进行归类的一种多元统计学分析方法,即现在归属于统计学分支的聚类分析(cluster analysis),又称其群分析。这种统计方法的核心思想从诞生之日起就未更改,即在没有任何可用来参考的或者依从的规范下(即先验知识准备程度为零),按照被研究对象或者样品本身的特点或者性状,进行最大程度合理的分类。通过聚类分析的计算过程,不仅可以保证在最终所分的类别情况下,同一类别中的对象或者样品,能够具有最大程度的相似性,而且使不同类别中的对象或者样品,拥有最大程度的相异性。以大量相似为基础,对收集数据来分类,成为了聚类分析计算本身的最终目标[3]。从统计学的观点看,聚类分析计算是通过数据建模简化原有数据复杂程度的一种方法,而从实际应用的角度看,聚类分析计算亦是数据挖掘的主要任务之一。高维度高通量SNPs数据聚类分析,是近现代聚类分析中一个非常活跃的领域,同时也是一个非常具有挑战性的工作。
目前用于高维度SNPs数据聚类分析的方法有很多种,常用的几大类有Logistic回归、潜在类别分析(latent class analysis,LCA)模型、结构方程模型分析(structural equation modeling,SEM)、以决策树为基础的分类回归树(classification and regression trees,CART)和随机森林(random forest,RF)算法的分析[4]、基于贝叶斯网络(Bayesian networks,BNs)模型的分析、基于神经网络(neural networks,NNs)模型的分析和支持向量机(support vector machine,SVM)的方法等,上述种类的方法各有其适用性,在聚类计算的效能方面也广泛存在争议。本文从以上几类方法中,遴选出应用较广泛、理论相对成熟的潜在类别分析、分类回归树模型、贝叶斯网络潜变量模型、BP神经网络模型和支持向量机5种具体方法进行比较,阐述其在SNPs数据聚类分析中的意义。
1 潜在类别分析
诞生于20世纪50年代的LCA方法,其基本原理是通过引入潜变量概念,建立潜在类别模型(latent class model,LCM),在保证维持各个显变量的数据局部独立性的基础上,力图用少数的潜变量与各个显变量建立关系,然后以数量相对较小的潜变量进行对象关系解释。而争取利用最少数量的且关系上互相排斥的潜变量对各个显变量的概率分布进行最大程度的解释,就是潜在类别分析的基本假设,这种假设的思想倾向于各种显变量对其类别进行解释的潜变量都有反应的选择性[5]。潜在类别分析的统计原理建立在概率分析的基础之上。一个潜在类别模型是由一个(或多个)潜在变量和多个外显变量组成的Bayes网[6]。
完整的LCM分析过程包括数据概率变换参数化、模型参数估计与识别、模型评价指标选择、分类结果解释等[7-10]。
1.1 概率参数化
潜在类别概率和条件概率构成了潜在类别模型概率参数化过程中的两种参数。假设某数据集含有三个彼此之间不相互独立的外显变量,以A、B、C表示,而且每一个显变量分别具有的水平数为I、J、K。按照假设,若寻找到合适的潜变量X,则X需满足一下条件:首先,要求合理解释A、B、C的关系;第二,在潜变量的各个类别之中所有显变量维持最大的局部独立性,则为潜在类别分析,如果潜变量X中含有T个潜在类别的话,用数学模型表达就为:
在上式中,LCM的组合概率,用πijkABC表示,相应的,潜在类别概率,以πtX表示,其意义可以解释为:在观察变量处于局部独立的条件下,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率。容易证明,各个潜在类别的概率总和永远为100%即1,用公式表达为:
条件概率,用πitAX表示,其意义可以解释成:外显变量A的第i个水平更倾向于划归到第t个潜在类别的个体的概率。由于各个潜变量的各个水平处于相互独立的状态,所以各外显变量的条件概率总和为1,即:
1.2 参数估计与模型拟合
在潜在类别模型的参数估计过程中,最大似然法(maximum likelihood,ML)是被最广泛使用且计算软件中默认的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在计算迭代过程中为最常用的方法,而其中前者更为常用。在潜在类别模型评价方面,AIC评分(akaike informationcriterion)和BIC评分(bayesian information criterion)成为使用最为广泛的拟合评价指标。两者共同点为:其计算理论基础都为似然比χ2检验,对于模型对应的参数限制不一致的情况下,也可以用来横向比较,且结果简单直观,都是数值越小表示模型拟合越好。Lin与Dayton曾经指出,当研究的样本数量级达到或者超过千位级时,BIC指标更可靠,否则AIC更佳[11]。
1.3 潜在分类
完成最优化模型的确定之后,就可以利用模型进行计算,将每个外显变量的数据值分配到判定的潜在类别之中,通过这个过程,完成数据的后验类别分析,即潜在聚类分析。上述分类的理论依据是著名的贝叶斯理论,分类的计算公式为:
潜在类别分析虽然理论建立时间较早,但是一直依靠着自身的优势在聚类分析领域有一席之地,其计算思想中融合了结构方程模型与对数线性模型的构思。该算法的目的明确,即数量众多的显变量之间的关系,可以用最优化的组合模式,使用最少的潜变量来解释。结构方程模型只能够对连续型潜变量处理的缺陷,在潜在类别模型问世后得到了相当程度的弥补,特别在设计思想范围中,使得研究者以概率论为基础,能够通过数据对分类结果之后所隐藏的因素做更为深刻的了解,这些都要归功于分类潜变量的引入这一有效提高分类效果的方法[12]。
但是,由于该方法的分析原理比较简单,只是脱胎于贝叶斯概率理论的概率参数化,所以使得该方法在聚类分析过程中,如果SNPS数量较少,则表现出不错的聚类效果,但如果SNPS数据维度过高,则有失水准。具体表现在高维度高通量的SNPS数据聚类分析过程异常复杂,时间消耗过长,而最终得到的聚类结果也容易在解释时发生阻碍。
2 分类回归树模型
CART[13]不仅可以在已经获得的数据库中通过一定的规则提炼出关联,而且是对隐藏在各种指标中的分类属性进行量化计算成为可能,其作为数据挖掘技术中的经典聚类分析方法,为高通量SNPs数据的聚类分析制造了一个科学而准确的平台。分类回归树的基本原理为:如果对于已经给定的待分类对象X,已知其可以进行Y个不同属性的分类,那么该模型将模拟把X逐级递归的分解为多个数据子集,并且认为Y在子集上的分布状态,是均匀并且连续的,而分解的方法为二叉树分类法。该方法如同自然界中的树木一样,数据集X由根部向叶部逐步分解移动,每一个划分点即树木分叉点的原因,由分支规则(splitting rules)确定,最终端的叶子表示划分出的最终区域,而且每一个预测样本,只能被分类到唯一的一个叶子,同时Y在该点的分布概率也被确定下来。CART的学习样本集结构如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以称之为属性变量,Y可以称之为标签变量。但在样本集中无论是X或是Y,其变量属性可以容许多种形式,有序变量和离散型变量都可以存在。若Y处于有序变量的数值情况时,模型被称为回归树;若情况相反,称之为分类树。
2.1 分类回归树的构建
将给定的数据集L转化成与其对应的最大二叉树,这个过程称之为构建树Tmax[14]。为了寻找到对应数据集的最优分支方法,最大杂度削减算法被运用到构建过程之中。在进行分支时,数据中每个值都要纳入计算范围,只有这样才能计算出最佳的分支点进行分叉。CART的构建离不开Gini系数的使用。若数据集L中,含有记录的类别数量为N,Gini系数的表达式就为:
其中,Pj表示T中第N个分类数据的划分频率。对于任意的划分点T,如果该点中所包含的样本量非常集中,那么该点的Gini(T)值越小,从分类图上显示为该节点分叉角度越钝。欲构建最终的Tmax,就要重复操作,将根节点分支为子节点,而这种递归分类的计算,最好利用统筹学中的贪心算法。
2.2 树的修剪
当Tmax建造好之后,下一步需要对其进行所谓的修剪操作,就是去掉那些可能对未知的样本分类计算精度上,没有任何帮助的部分,其目标是处理掉对给定数据集中的噪音干扰的问题,以便形成最简单最容易理解的树。通常对树进行修剪的方法是以下两种,先剪枝方法(prepruning)与后剪枝(postpruning)方法,两者都有助于提高已经建成的树,脱离开训练数据集后,能够正确地对未知数据进行分类的能力,而修剪方法都是通过统计计算,将理论上最不可信的分枝去掉。
2.3 决策树评估
测试样本评估法(test sample estimates)与交叉验证评估法(cross-validation estimates)[15]是通常被用来对CART模型进行评估的方法,而前者的使用率更高。该评估方法的原理与多因子降维法有些类似,而且即时效率比较高,在学习数据集囊括的样本量比较大的情况下,该方法的优越性就更加突出,其原理可以解释为:将原始的数据集L随机分成两部分,分别为测试集L2与样本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,将测试集L2放到序列中的树模型之中,TK为L2中的每个样本逐个分配类别,因为L2中每个样本的原始分类是事先已经知道的,则树TK在L2上的误分情况可以利用公式(6)计算:
式中,Nij(2)代表L2中j类样本划归至i类的数量,c(i|j)为把j类误分到i类的代价,Rts(TK)表示TK针对L2的误分代价,则最优化树的条件为:Rts(TK0)=minK(Rts (TK)。
作为一种经典的通过数据集进行训练并有监督学习的多元分类统计模型,CART以二元分叉树的形式给出所构建出的分类的形式,这种方式非常容易解释,也非常容易被研究者理解和运用,并且这种方法与传统意义上的统计学聚类分析的方法构建完全不一样[16]。
但是CART方法对主效应的依赖程度很高,无论是每个分支的根节点还是后续内部的子节点,其预测因子都是在主效应的驱动下进行,并且每个节点都依赖于上一级的母节点分支的情况。而且CART方法对结果预测的稳定性上也有缺陷,具体表现在,如果所给数据集中的样本有小范围的更改,那么所产生的蝴蝶效应就会导致最终所构建的模型与原始模型的差别很大,当然分类结果也就难以一致。
3 贝叶斯网络潜变量模型
BNs是一种概率网络,它用图形的形式来对各种变量间的依赖概率联系做描述,经典的图形中,每一个随机变量利用节点的方式表达,而变量之间的概率依存关系则利用直线表达,直线的粗细表示依赖的强度。在BNs中,任何数据,当然也可以是高通量SNPs数据,都能够成为被分析的变量。BNs这种分析工具的提出,其原始动力是为了分析不完整性和概率性的事件,它可以从表达不是很精准的数据或信息中推理出概率结果。
网络的拓扑结构和条件概率分布作为构成BNs的两大核心组件,如果再将潜变量概念引入BNs,则成为了BNs潜变量模型。被包含在BNs中的潜变量数量,决定着这个模型的复杂程度,因为一般来讲,在实际工作中,研究者常常利用潜变量来进行聚类计算,所以BNs潜变量模型也成为了一个经典的潜结构模型(latent structure model)或潜类模型(latent class model)。
3.1 模型参数
在满足一定的假定条件下,才能对BNs模型进行参数学习的过程。根据文献记载,这些条件分别为:所有的样本处于独立状态;无论全局和局部,均处于独立状态;变量不能为连续变量,只能是分类变量。在上述条件得到满足的情况下,该模型可以利用数据,计算出网络拓扑结构中各个节点的条件概率θ,且服务于制订的BNs模型结构η和数据集D。计算的方法有最大似然估计法等[17]。
3.2 模型选择
与LCA方法类似,BNs模型也利用函数来对模型的拟合优劣程度进行评价,衡量标准也是BIC、AIC、BICe等的评分,一般来说,分数低的模型更加优化。
3.3 模型优化
在通过评分的方法来确定BNs潜变量模型后(需综合考量BIC、AIC、BICe三者的得分),该模型下一步就转化成了如何去搜索符合所给数据集的最优模型的过程。由于该网络的拓扑结构,使得该模型结构的数目的增长速度非常快,与纳入模型的变量数的增长呈指数级别比例,能够适应这种数量级的搜索算法是启发式的,其过程是比较不同的模型的评分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型进行高通量SNPs数据聚类,其优点之一就是在该模型中,所有遗传的模式都可以被忽略,无论是对SNPs的二分类变异赋值,还是三分类变异赋值,只要纳入模型中,就转变成纯粹的数学问题。正是由于这种优势的存在,使得该方法对原始数据的类型容许程度很高,由此扩展了此种模型的使用范围。BNs模型计算的过程虽然复杂,但是结果解读起来却是十分的简单直观。只要将各个类别的概率直方图呈现出来,那所有重要的且有意义的高维度SNPs的整体效应,就能直观的展现出来。BNs模型一旦被建立起来,就可以被用来对新纳入的患者进行分类,其过程如下:输入新加入样本的SNPs的状况,并且将这些状况进行数学化处理即赋予其数据值,并带入模型开始运行。模型会通过新加入样本的SNPs的状况,根据概率理论,将其归入相应类别。
但是BNs模型的理论比较抽象,公式比较复杂,如果让医学工作者去理解其中的数学机制,可能不太现实,若再要求对模型进行深刻解释,则更困难。该模型在优化过程中的搜索算法也有硬伤,爬山算法从出现开始,就一直受到一定程度的诟病,因为其有使模型偏离到局部最优的倾向。
4 BP神经网络模型
BP(back propagation)神经网络在所有的神经网络模型系列中,是被使用最多的模型之一,其核心原理为按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,而这些层则包括输入层(input layer)、隐层(hide layer) 和输出层(output layer)。
BP神经网络模型对于已经给定的数据集的训练过程可以解释为:各种数据由输入层负责接收,并且向内层进行传递,传递过程中需经过一定的中间层级,信息在隐层部分进行计算处理,处理完毕后向输出层传递,输出层的神经元接收到后,即完成了一次完整的训练信息的传播,其结果由输出层向外面释放。如果输出的结果与期望值差距没有达到要求,则进入信息的反方向运动过程,将误差信息通过输出层、隐层、输入层的顺序反向传递。在上述正向和反向的两种信息传递过程中,为了使整个BP神经网络模型的误差的平方和达到最小,就需要对各个层级的权重和反应阈进行相应调整,在一定次数的迭代过程中达到符合设定的要求范围内[19]。
BP神经网络模型建立流程:①建立高通量SNPs足够而可靠的数据信息样本数据库。②把SNPs样本数据进行处理,变成BP神经网络模型可以纳入的形式。③建造BP神经网络初级雏形,进行数据训练。首先确定神经网络所需层的数量,还有隐藏节点的数量,接下来完成各连接权值的初始化过程,将样本数据代入。④开始BP神经网络的迭代过程,按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,最终确定各个层的权重。⑤利用训练好的BP神经网络测试样本。将样本输入训练好的BP神经网络,并输出结果[20]。
非线性问题的解决能力是BP神经网络模型区别于其他的能够自我学习、自我训练的模型的特点之一,该模型以简单的结构模仿神经组织的构成和信号传导通路,根据提供的数据进行学习和自适应,最后可以对复杂的问题求解[21]。该模型的运行模式也很简单,一旦模型建立,则直接将数据带入,BP神经网络就可以对诸多影响因素和结果之间的复杂关系进行统计,超越传统聚类模型,也有能力提供更多的信息量[22]。
但是BP神经网络模型的缺陷也十分明显,首先该种聚类方法迭代次数比较多,计算收敛的速度比较慢;标准的BP神经网络算法各个层的权重值的确定是完全随机性的,容易形成局部最优化;在模型建立的初始阶段,各个节点的确定也没有确凿的理论支持[23]。
5 支持向量机
1995年Comes等[24]提出了一种新型机器学习方法,该方法的数学理论基础雄厚,被称之为SVM。这种方法问世之后,就以其在小样本、高维度数据方面处理的独特优势,被迅速推广到数据聚类分析领域的各个方面[25]。SVM的基本原理如下:利用非线性映射的方法φ(x):RnH,将待聚类数据集首先映射到高维空间H中,试图在高维空间中寻找最优化的一个超平面,此超平面的作用为对数据进行分类。达到最优超平面的要求为:对于数据来说,要求分类的间隔最大而且置信区间最窄;达到最少的数据样本错分数量,以上两条的原则为分类风险最低。
SVM的计算流程为:
在高维空间中,如果被映射数据具有二维线性且可分时,则一定存在一个分类超平面:
其中αi≥0称为拉格朗日系数,该函数对?X和b最小化,对αi最大化。将该问题转化为其对偶形式,求得最优分类函数为:
其中,K(x,xi) =φ(xi)・φ(xj)被称之为核函数,其作用是将原始数据集映射到高维H空间。而核函数有很多种形式,多项式形式、径向基形式等等。但是如果原始数据集经过转换后,确实为线性不可分时,方法会不可避免的产生错分点,此时非负松弛变量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并为:
在上述条件下,求下式目标函数的最小值:
在式(13)中,用C来作为惩罚因子,对错分点来进行一定程度的惩罚,当然是人工定义的,其主要作用是在限制数据集偏差和该方法的推广范围两者间,维持一个平衡。
SVM模型作为一种经典的处理小样本的自我学习、自我组织的分类方法,虽然其基础理论依然与神经网络模型类似,均为通过对给定样本的统计学习,建造模型,而且对非线性数据的处理能力很强,但是很大程度上避免了陷入局部最优化,维度过高限制,拟合过度等缺陷,拥有更广阔的发展空间[26]。虽然该方法出现时间比较晚,但是研究者已经在包括预测人口状况[27]、婴儿死亡率前瞻[28]、金融产业[29]和工业产业[30]前景推断等方面进行了有效使用,当然也包括在高通量SNPs数据聚类,均取得了不错的效果。
但是SVM一样存在短处,由于其分类过程是基于对原始数据集的再次规划来寻找超平面,而再次规划的计算就有n阶矩阵(n为样本个数),如果n的数量很大,则电脑的内存将难以承受巨大的矩阵信息。而且原始的SVM模型只能对数据集进行二分类计算,有一定的局限性,由于在实际工作中,很多情况下分类数量要大于二,为了解决这个问题,只能去在其他方面想相应的解决方法。
6 讨论
不仅上述5种具体方法,而且在前文中所提出的几大种类中的具体聚类分析方法都各有其优缺点,研究者们已经针对上述几类聚类方法的缺陷进行了深入的研究,并提出了许多改进方法,提高了在高通量SNPs数据聚类分析时的计算效能。董国君等[31]提出了将仿生学算法中的退火算法引入到神经网络模型中,能够有效地避免该模型收敛到局部最优的状态。胡洁等[32]更是经过改进,建造了一种能够快速收敛而且全局最优的神经网络模型算法,将BP神经网络的计算效率大为提高。而Leo Breiman在2001年提出的随机森林(random forest)算法,本质上就是对分类回归树算法的一种组合改进,其计算原理为:利用多个树的模型对数据进行判别与分类,其在对数据进行处理的同时,还可以给出各个变量的重要性得分,评估变量在分类中所起的作用[33]。2012年提出了混合潜变量模型(structural equation mixture modeling,SEMM),本质上是一种结构方程模型衍生出的改进版,其设计思想中汇合了潜在类别分析、潜在剖面分析以及因子分析的因素,将潜变量分析与结构方程进行协调组合,创造出的一种新型SNPs分析方法。这种新的方法,将结构方程的缺点――只能分析连续潜变量和潜在类别分析的缺点――只能分析分类潜变量,进行有效的补充,而且把一种全新的探索式的思路引入了高维数据分析的领域。在实际进行聚类分析时,也可以将几种方法结合使用,分别在计算的不同阶段利用效能最高的方法,做到优势互补。现已经出现基于神经网络算法和蚁群算法进行结合使用的报道。
尽管用于高通量SNPs数据聚类分析的方法有多种,但目前没有任何一种方法可以适用于所有的情况。因此,研究者们依旧没有停下寻找更为合适的方法的脚步。不可否认,在基因组相关研究中,SNPs数据的分析对于研究复杂性疾病和遗传因素的联系是一项挑战,但也是机遇。如果能正确合理地运用各种复杂的统计学方法,就可以提高聚类分析的效能,提示研究者们未来应在寻找更适用的高通量SNPs数据聚类分析方法方面付出更多努力。
[参考文献]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 马靖,张韶凯,张岩波.基于贝叶斯网潜类模型的高维SNPs分析[J].生物信息学,2012,10(2):120-124.
[3] 张家宝.聚类分析在医院设备管理中应用研究[J].中国农村卫生事业管理,2014,34(5):510-513.
[4] 袁芳,刘盼盼,徐进,等.基因-基因(环境)交互作用分析方法的比较[J].宁波大学学报:理工版,2012,25(4):115-119.
[5] 张洁婷,焦璨,张敏强.潜在类别分析技术在心理学研究中的应用[J].心理科学进展,2011,18(12):1991-1998.
[6] 曾宪华,肖琳,张岩波.潜在类别分析原理及实例分析[J].中国卫生统计,2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社,2011.
[10] 张岩波.潜变量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,张岩波,等.抑郁症患者单核苷酸多态性(SNPs)分布特征的潜在类别分析[J].中国卫生统计,2010,27(1):7-10.
[13] 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2013.
[14] 王立柱,赵大宇.用分类与回归树算法进行人才识别[J].沈阳师范大学学报:自然科学版,2014,23(1):44-47.
[15] 温小霓, 蔡汝骏.分类与回归树及其应用研究[J].统计与决策,2010,(23):14-16
[16] 符保龙,陈如云.分类回归树在高校计算机联考数据分析中的应用[J].计算机时代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 张凡,齐平,倪春梅.基于POS的BP神经网络在腮腺炎发病率预测中的应用[J].现代预防医学,2014,41(11):1924-1927.
[20] 张晶.BP神经网络在图书馆信息处理中的应用研究[J].图书情报,2014,(9):132-133.
[21] 徐学琴,孙宁,徐玉芳.基于BP神经网络的河南省甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,18(6) :561-563.
[22] 马晓梅,隋美丽,段广才,等.手足口病重症化危险因素BP神经网络模型预测分析[J].中国公共卫生,2014,30(6):758-761.
[23] 任方,马尚才.基于条件对数似然的BP神经网络多类分类器[J].计算机系统应用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2011,26(1):32-42.
[26] 解合川,任钦,曾海燕,等.支持向量机在传染病发病率预测中的应用[J].现代预防医学,2012,40(22):4105-4112.
[27] 刘崇林.人口时间序列的支持向量机预测模型[J].宁夏大学学报:自然科学版,2013,27(4):308-310.
[28] 张俊辉,潘晓平,潘惊萍,等.基于支持向量回归的5岁以下儿童死亡率预测模型[J].现代预防医学,2014,36(24):4601-4603,4605.
[29] 陈诗一.非参数支持向量回归和分类理论及其在金融市场预测中的应用[M].北京:北京大学出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董国君,哈力木拉提.基于随机退火的神经网络算法及其应用[J].计算机工程与应用,2013,46(19):39-42.
[32] 胡洁,曾祥金.一种快速且全局收敛的BP神经网络学习算法[J].系统科学与数学,2014,30(5):604-610.