生物信息学的研究意义范文
时间:2023-12-21 17:37:37
导语:如何才能写好一篇生物信息学的研究意义,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
【关键词】生物信息学;特异性miRNA;动脉粥样硬化
医学生物信息学是是研究、开发和应用计算机工具和方法来扩展生物学、医学、行为学和健康知识应用的科学,包括获得、储存、组织、存档、分析或使这些材料形象化多种学科相互交汇而成的新型学科,并最终能够为临床疾病的诊治提供帮助[1]。动脉粥样硬化是临床上较常见到的一类病症号称 “21世纪健康杀手”,特别在现在中国老年群中,发病率逐年上升,也是引发心肌梗死、脑卒中的主要病因之一[2]。因此,对脉粥样硬化的早期诊断、预防就显得十分重要。微小RNA简称为miRNA[3],这种非编码RNA具有调节其他基因表达的作用,在转录后可以将多个靶基因的表达高效的调控,具有非常高的研究与应用价值。因此如能对动脉粥样硬化发生发展过程异性表达的miRNA进行生物信息学筛查,无疑是对早期检测动脉粥样硬化具有重要意义。
1资料与方法
1.1资料来源miRBase作为目前最权威和完整的miRNA数据库(http:///miRDB/),已经收录了一百余个物种中超过10000条的miRNA记录。数据库主要由3部分组成:miRBase:Registry,主要是用于提交新的miRNA序列;miRBase:Database,用来搜索、比对、下载所有已知miRNA相关信息的数据库,包括成熟序列、前体序列、前体二级结构、基因组位置、相关文献等等,并可进行BLAST搜索、FTP下载。miRBase:Targets,存放了所有miRNA靶基因的信息。目前已经移至EBI,并更名为microCosm。但主要收录了动物miRNA的靶基因信息。
1.2操作环境使用微软公司的Access作为数据库管理系统平台,操作系统为微软公司的windowsXP。以miRBase数据库作为初级数据库,利用miRanda,TargetScan,Pictar、microTar,结合动脉粥样硬化的三大学说中的关键基因进行预测。
1.3数据获取首先,对数据库中Web站点进行登录,并进行动脉粥样硬化关键词搜索配对,访问数据库中的相关有效信息。逐条对搜索结果进行详细查看与记录,对于有用的信息可以通过文档下载,并手工记录。最后,将记录、分析后的资源纳入到二级数据库中。
1.4数据收集整理主要处理的数据为miRNA序列,对miRNA序列条目的字段组成、名称、其他常用标识、靶基因定位、功能描述、等相关资料进行收集保存。实际操作中,由于字段组成通常较为复杂,因此不能够直接对资料进行简单的表格记录。造成这种情况的主要原因主要是该序列并不只有一个实验者进行研究。因此,这些字段将被导入单独的数据表,以序列编号字段作为键,与和基本信息数据表保持联系。同样,与序列特征相关的注释信息也以单独的数据表表示。
1.5数据查新维护因为生物信息学信息增长较快,因此需要对数据库进行定期的筛查,以保证相关数据的时效性。通常情况下,半个月需要对数据库中的相关信息进行一次更新工作。
2结果
到2013年1月31日,目前动脉粥样硬化相关基因以及中以录入其中根据致病基因24个,密切相关基因78个,候选基因25个。对上述基因及其特异性的miRNA进行预测得到下列在动脉粥样硬化发生发展过程异性miRNA,如在血管内皮的损伤方面我们发现有miR-126,miR-15b,miR-16,miR-20a,miR-20b特异性表达;在血管平滑肌迁移增值方面我们发现有miR-21,miR-221/222,miR-143,miR-145。而在单核/巨噬细胞吞噬脂质成为泡沫细胞方面我们发现有miRNA-146a。
3讨论
动脉粥样硬化是当前心血管学科研究较多的一个专业方向,对于早期诊断、早期干预冠心病的发生有极其重要的意义。目前,被大部分专家和学者接受的有内皮细胞损伤学说、平滑肌细胞迁移增殖学说、单核细胞源性泡沫细胞形成细胞学说等。多年来的研究发现,多种基因或蛋白的表达上调或下降对本病的发生、发展起到了较为重要的作用。并根据基因或蛋白与本病的联系性分为密切相关、候选以及致病基因。我们对在这几个学说中的关键基因的相关特异性miRNA进行了预测[4]。以期望对于动脉粥样硬化这一心脑血管疾病的基础病变能够做到早检测早治疗。
血管的内皮细胞是具有维持血管的完整和稳定的作用,覆盖于血管腔[4]。miRNA的内皮细胞特异性表达为miR-126,其可在人脐静脉的内皮细胞中发挥对肿瘤坏死因子α诱导内皮分子的表达的抑制作用,来将内皮细胞的炎症反应进行减轻,甚至还可以对动脉粥样硬化斑块的稳定性起到调节的作用。在研究中发现miRNA-663,其可以通过对炎症因子的表达来诱导炎症反应。目前已知的诱导血管发生的生长因子中,最强的就是血管内皮生长因子,miR-15b,miR-16,miR-20a和miR-20b均对血管内皮生长因子可有靶向调节作用,通过增加血管内皮因子生长的表达,来促进血管发生。因此miRNA对血管内皮细胞的调节可影响动脉粥样斑块的发生以及发展。
在动脉硬化的进展中,血管平滑肌细胞起到了迁移以及增殖的作用,是血管发生狭窄并且使动脉粥样硬化发生的根本原因。miR-21[5]已经被证实对血管平滑肌细胞的增殖和凋亡具有非常重要的调节作用,miR-221/222在研究中发现能够促进血管平滑肌细胞的增殖。通过对小鼠的研究,如果上调miR-221/222则可使其增殖,相反抑制则会使血管平滑肌细胞增殖减少。而miR-143与miR-145在血管受到损害时,可以对血管平滑肌细胞的分化型进行加速,对其去分化型起到抑制作用,平衡了细胞的增殖与凋亡,可以很好地阻止血管发生病理变化。如能通过调控miRNA对血管平滑肌细胞的调节作用,将是非常好的治疗动脉粥样硬化的技术。
在动脉粥样硬化发生和发展的过程中,单核/巨噬细胞可以促进炎症以及斑块的破裂。斑块的稳定性主要的因素是巨噬细胞的数量和纤维冒厚度还有新生血管的多与少。研究发现miRNA对单核细胞具有调节功能,主要是对巨噬细胞的成熟、炎细胞因子和胆固醇的代谢,通过影响以上因素来影响动脉粥样硬化的发生发展。单核细胞在迁移到血管内皮时分化为巨噬细胞,并且分泌出炎症因子,为动脉粥样硬化炎症的形成提供了重要的环境。研究发现miRNA-146a能够调节能够影响脂质的摄入和炎症因子的分泌,使用miRNA抑制剂能够减少炎症因子[6]。
目前生物信息学的资源非常丰富,在心血管疾病的研究方面也在不断提高,miRNA的研究在心血管疾病方面是热点。预测miRNA是最近几年才出现的生物信息学应用,相对于验证microRNA基因而言,验证靶基因的过程更难,更具有挑战性,注定会有很长的路要走。未来我们对于miRNA及其靶基因的认识将大大地依赖于开发有效的预测方法。而实验数据的积累也将带动预测方法的不断改进miRNA及其靶基因的功能研究将成为计算科学与实验科学成功结合的良好示例。虽然目前仍旧处于实验室研究阶段,对于其在临床上的应用,还需要走更长的路接受更多的挑战,但通过对miRNA在心血管疾病中的特异性表达的鉴别,miRNA在动脉粥样硬化中起的调节作用不久必会得到了实验的研究证实,所以通过调节miRNA来进行动脉粥样硬化的治疗,并且提供更好的预防,来实现真正的治疗心血管疾病为患者带来福音将不再遥远。
参考文献
[1]吕德康,葛瑛,柏锡,等.生物信息学在植物miRNA 研究中的应用[J].生物信息学,2009,07(02):113-116.
[2]龙万平,何延政.miRNA在动脉粥样硬化病变中作用研究进展[J].泸州医学院学报,2012,35(03):340-342.
[3]崔庆华.代谢性心血管病变-生物信息学的应用[J].生理科学进展,2012,43(05):361-365.
[4]宋翠珠,郭韧,张毕奎.MicroRNA 对动脉粥样硬化发生的调控作用及其临床应用[J].中国生物化学与分子生物学报,2013,29(01):13-18.
篇2
1.大数据时代下大学生教育信息一体化现状
如今,我们生活在一个信息与网络的时代,在这一时代之下,人们的生活也已经发生了翻天覆地的变化。人们的生活与学习都通过信息网络以数据的形式记录下来,伴随着保存的数据越来越多,我们实际上正在逐渐地步入一个充满大数据的时代。有资料将大数据定义为:涉及的、巨大的、没有办法通过人工在所规定的时间之内完成截取、管理以及整理成为人类所能解读的信息,以帮助人类能够进行正确的决策目的[1]。
与此同时,大数据也具有以下几方面的特征:数据量大、数据形式多样化、数据流动的速度较快以及数据价值密度比较低等。这四大特征的存在,决定了大数据时代的发展,能够为人类的生活带来了更多的便利,使得人们的生活形式与学习形式更加的丰富多彩。
我国信息素养教育已开展了二十几年,但主要是以文献检索课方式进行,目前信息素养教育存在诸多问题,根据《国家中长期教育改革和发展规划纲要(2010-2020年》对高素质专门人才和拔尖创新型人才培养的新要求,构建良好的信息素养一体化教育体系是适应这一要求的重要举措。探讨如何将信息素养教育贯穿于大学教育的全过程和构建全方位、一体化的信息素养教育体系,以实现大学生信息素养的整体提升,是十分必要和重要的。
“十二五”以来,为了全面实施素质教育,我国高校在信息素养教育的研究与实践方面取得了较为显著的成效。但与国外一些发达国家相比,在信息素养教育一体化教育模式等方面存在差距。据笔者调2012年调查发现,目前大学生的信息素养并不高,信息意识不强,信息道德匮乏,如不尊重知识产权、学术规范等,究其原因,主要是高校对信息素养教育重视程度还不够,没有形成全方位、多层次的一体化教育模式。
2.基于创新视角下的分析新型综合网络平台的必要性
时代在发展,亟需创新型综合人才。本科生是创新能力的生力军,创新思维和创新能力的培养从大学生抓起,夯实基础,才能枝繁叶茂,生生不息。多种模式下的新型综合网络平台集教育、管理、服务一体化从多个方面多个视角打造校园网络服务平台建设,更加有利于大学生创新素质的培养和发展。
21 世纪是一个以知识经济为主导的信息时代,而知识经济则是以创新的速度、方向决定成败的经济。在这样的时代里, 只有创造性人才才能掌握主动权, 也只有创造力开发才是人类通向 21 世纪的保证。因此,作为21 世纪人才培养基地,高等学校,必须要引导学生学会自主学习,引导学生学会创新理念。如何引导?首先,必须要走出计划经济条件下传统教育的误区, 必须要从以知识灌输为中心的应试教育转变为创造教育为中心的素质教育,这有赖于建立一体化的信息化平台。再次,是自主教育,创设问题情景与民主宽松的心理氛围, 培养学生的创造精神, 训练学生的创造性思维, 培养学生善于发现问题、分析问题与解决问题的能力, 从而挖掘学生的创造潜能,也许信息一体化平台的支持。
在新时期新条件下, 我国高等教育吸取了历史的经验教训, 提出了以创新精神为核心的素质教育, 这是一个伟大的、历史的转折, 是适应 21 世纪新时代对人才素质要求的根本标志[2]。因此, 如何营造一个有利于大学生自主学习的创新教育、管理、服务平台, 已成为高等院校迫在眉睫的任务。也正是因为如此, 当今高校学生校园网络平台才会像雨后春笋般脱颖而出。面对这种形势和情况, 高校教育者们必须以全新的态度, 重新认识校园网络平台的重要作用, 使其对大学生的综合素质培养发挥其积极的作用,实现培养创新应用技能型人才的教育目标。
3.新型一体化综合网络平台的整合与协同
3.1 一体化的总体思路
所谓一体化总体思路,是在综合考虑学校教育、管理、服务信息化建设的现状与需求的基础上,从全局和整体的高度规划学校信息化建设的方针、策略、发展规划与实施计划,全面考虑硬件环境建设、应用系统建设、管理规范建设和支持机制建设,按照规划协同地推进学校信息化。而要搞好高校创新教育、管理、服务信息化的一体化建设,关键是要抓住科学全面的总体规划和协同有序的项目实施两个环节。
3.2 科学全面的总体规划
做好总体规划是搞好高校信息化的关键,总体规划的制定不是一件简单的事情,它需要在充分了解学校的信息化现状、需求,特别是学校发展对于信息化的需求的基础上,结合IT技术的发展形势做出科学、全面的规划。
3.3 协同有序的项目实施
总体规划做好后,信息化建设成功的关键就在于项目的组织实施。项目的实施有很多需要考虑的问题,如项目组织者的选择、软硬件的选型、实施队伍的选择、实施进度安排等等,但是,从宏观组织管理来说,有两个方面一定要特别注意,一是协同,二是有序。
在信息化建设中,硬件环境(包括网络与服务器系统)和软件系统需要协同建设,硬件环境的建设可以适度超前,但不必过于豪华,否则会导致资金的严重浪费;软件系统的建设与应用要及时跟进,这样才能充分发挥信息化的作用。
篇3
关键词:生物信息学 教材 分析
中图分类号:G4233文献标识码:A文章编号:1009-5349(2017)06-0019-02
近些年,生物信息学顺应时代变化而成为生命科学的新兴领域。[1]生物信息学主要是对核酸和蛋白质两个大方向的数据进行处理与分析。[2]目前,生物信息学作为基础课程在各高校生物科学专业及相关专业开设。其教学质量的高低对于培养学生的综合能力具有重要的意义。[3]因此,各高校在教材选择、课程安排、教学内容、实践教学等方面不断进行改进。[4]优秀的生物信息学教材是提高教学质量的基础。对不同的教材进行对比分析,从中选取适合相关专业的教材,是教师的必要工作。本文对五种生物信息学教材进行分析,为不同专业对于教材的选择提供参考和建议。
一、研究方法及教材简介
(一)文献研究法
笔者主要从以下三个方面进行文献检索。首先,搜索与生物信息学教材分析相关的著作。其次,利用中国知网、万方数据库等检索与教材分析相关的期刊论文。最后,借鉴优秀教师的教案,仔细阅读并进行分析。深入了解相关生物信息学教材分析的背景以便进行整理分析。
(二)对比研究法
本文主要选取了五种生物信息学教材,根据教材的基本框架结构及特点,对其进行对比分析,分析总结不同教材之间异同。
二、生物信息学教材分析
随着课程改革的不断完善,针对不同地区、不同专业,教材的使用也趋向多元化。生物信息学教材是教师进行教学活动的基础。对不同的生物信息学教材进行对比,以便教师作出最适合的选择。如表1所示,对五种教材从宏观角度进行内容上的分析。
如表1所示,从中可看出这五种教材从整体编写方面,都涵盖了核酸和蛋白质两个主要层面。主要内容包括:生物信息学的概念及发展历程、数据库的介绍、生物信息学常用统计方法、基因组学、蛋白质组学等几大方面。并且,大多数教材都附有思考题,有利于学生课后对知识进行运用及加深理解。只是随着生物信息学的飞速发展,不同版本的教材增添了新的相关的知识。同时不同教材的侧重点略有差异。
另一方面,从表1中可看出,五种教材所包含的章节为7到15章不等。这说明,随着科学技术的不断发展,更多的前沿知识不断地填充到教材中。所以,随着时间的变化,不同的教材,具有各自的特色。
首先,教材的侧重点不同。随着各物种的基因组计划的不断完成,生物信息学发展实现了质的飞跃。并且融入到各个领域中。例如:由李霞、雷建波编写的《生物信息学》,侧重介绍了生物信息学与疾病的相关联性。教材在内容和形式上有所创新。突出实用性,以临床实际问题作为编写出发点;而刘娟编写的《生物信息学》一书中,以丰富的实例,重点介绍了相关数据库和软件的功能、应用策略和使用方法。在章节编排上涉及微阵列数据分析的内容,突出了生物信息学与数学的融合。
其次,不同教材的难度存在差异性。陶士珩编写的《生物信息学》较基础,包含了生物信息学基本内容,力求使学生全面了解和掌握生物信息学领域的重要基础知识与基本操作技能。而陈铭编写的《生物信息学》,根据生物信息学多学科融合的特点,增添编程与统计学知识,教材所涉及的知识范围广泛。使得无论是对教师还是学生来讲,都要求具有深厚的学科背景。
最后,学科之间联系程度差异。生物信息学作为一项生物科学的工具,不仅仅应用于生物学,同时,在医学、农业专业、计算机科学等领域。[10]但不同教材所体现生物信息学与其他学科的联系程度不尽相同。例如:吴祖建编写的《生物信息学分析实践》一书,主要包含了数据库检索、引物设计、序列分析等诸多技术问题。书中以图表形式为主,文字介绍为辅,以让学生学会操作为主,将生物信息学与计算机科学紧密结合。
三、结语
生物信息学重要特点为学科交叉性,涉猎范围广。不同的生物信息学教材适用于不同专业。本文对五种教材进行对比分析,根据教材不同特色并结合不同专业特点,为教师选择适合的教材提出建议。陶士珩、刘娟编写的两版不同《生物信息学》,内容基础,适用农业专业和师范专业作为教学用书;李霞、雷健波编写的教材,主要突出了与医学相关联系,适用于医学专业用书;陈铭、吴祖建所编写教材,注重与计算机科学的关联,实践性强,有利于培养学生动手操作能力,适用于计算机专业。
参考文献:
[1]朱杰.生物信息学的研究现状及其发展问题的探讨[J].生物信息学,2005,3(4):185-188.
[2]赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志,2010(5):2-6.
[3]倪青山,金晓琳,胡福泉等.生物信息学教学中学生创新能力培养探讨[J].基础医学教育,2012,14(11):816-818.
[4]向太和.我国现有《生物信息学》教材和网络资源的分析[J].杭州师范学院学报(自然科学版),2006,5(6).
[5]陶士珩.生物信息学[M].北京:科学出版社,2007.
[6]刘娟.生物信息学[M].北京:高等教育出版社,2014.
[7]吴祖建.生物信息学分析实践[M].北京:科学出版社,2010.
[8]陈铭.生物信息学(第二版)[M].北京:科学出版社,2015.
[9]李霞,雷建波.生物信息学(第二版)[M].北京:人民卫生出版社,2015.
[10]高亚梅,韩毅强.《生物信息学》本科教学初探[J].生物信息学,2007,5(1):46-48.
篇4
关键词:中医大数据;生物信息学;高校教学
中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)27-0123-03
Abstract: Analyzed the developing status of Bioinformatics combined with Chinese Medicine, proposed the education directions for the combinations of Chinese Medicine and Bioinformatics, discussed the using of Bioinformatics techniques in Chinese Medicine big data with teaching and researching area by three common method in Bioinformatics.
Key words: chinese medicine big data; bioinformatics; education in university
1 引言
生物信息学是一门新兴学科,在各大高等院校医学或生物学相关专业都有与之相关的课程或专业开设。与我们常见的物理、数学、法学等学科不同,生物信息学更像是一个学科领域,它不仅仅局限于某个科学研究,而是综合运用数学、计算机学和生物学的各种工具及方法来分析和理解在大数据背景下的生物学意义[1]。经过20余年的发展,生物信息学已在分子进化、基因测序、遗传及变异研究等领域取得了突破和成果,是21世纪人类三大计划之一“人类基因组计划(Human Gene Project HGP)”的核心支撑学科。在美国,早于1988年便成立国家生物技术信息中心(NCBI),随后欧洲和日本在1993年和1995年分别建立了欧洲生物信息学研究所(EBI)和信息生物学中心(CIB)用来对数以万计的核酸及蛋白质等数据进行维护并发展至今日趋成熟[2]。生物信息学于上世纪90年代初开始逐渐引起国内科学工作者的重视,经过20多年的发展也已初具规模。笔者通过对近20年公开发表的有关生物信息学关键字的文章进行搜索,运用Excel制图绘制了自1996年至今每年发表文章数量的散点图。从图1可以发现,关于生物信息学学科的研究数量在2014年达到顶峰,并逐渐开始下滑。同时,由于搜索结果包含杂质数据(如被动截取“信息学”为关键词),为了使图表信息量有度可量,笔者继续对在认知上与生物信息学相关的科学领域进行关键词搜索,分别为“数据挖掘”和“人工智能”,并绘制图2。由该图可直观地看出,人工智能的研究一直稳步发展,符合21世纪科技高度发展的大趋势,而数据挖掘技术的相关研究自2005年以来迅猛增长并赶超人工智能。综合分析其主要原因是由于中国人口众多,自2005年以来互联网用户不断增加,全民联网的时代逐渐构成,互联网信息产业的急剧扩大以及电子商务、云技术等网络相关产业的发展带来的信息膨胀,使越来越多的人意识到大数据的作用和研究数据挖掘对经济发展、社会进步的重要影响,进而推动数据挖掘的学科发展。
2 中医大数据背景下的生物信息学课程教学
从图2的对比可以看出,生物信息学的研究数量与其他两个学科对比,则显得相形见绌。也就是说,生物信息学在我国的发展仍较为缓慢,使之与其对人类社会的贡献度不成正比。进一步对图1的搜索结果进行高级检索,对已有的生物信息学研究进行划分,将”中医”关键词加入其中,结果发现将中医与生物信息学相结合进行研究的文献少之又少,每年文献不过20左右。生物信息学的作用就是利用计算机等技术对海量的生物数据进行分析并洞察隐藏在其中的规律,而中医数据经历数代中医名师的记录和数十年来信息存储技术的发展已经俨然呈现出高纬度、高阶度的大数据结构。因此,生物信息学在中医数据的研究中一定具有其特殊的价值和意义,是从微观层面描述中医整体结构的重要手段。本文将以中医证侯、病证和中医复杂性为切入点,结合研究生物信息学在其中的应用价值,并讨论在教育教学过程中如何使中医和生物信息学有机结合,做到融会贯通。
2.1从“定性”和“定量”学习角度看基因组学学习中医“证”本质
在中医学中,“证”是立方立法的基础,医者通过四诊获取的信息进行综合分析和判断,从病症体征等表现集合入手,得出相应的证候,有针对性的用药治疗。中医与西医不同,讲究以整体论看待人体以及病变,“辨证论治”思想也是千百年来各名中医学者通过反复探索得出的实践经验,对中医遣方用药具有决定性的指导意义。而西医认为,疾病的发生与发展是与人体某段特异的基因的改变有关,HGP的研究目的也正是为了揭示人体的构成奥秘从而从本质上研究疾病的产生和发展规律[3]。因此,中医与西医在指导医者诊疗的哲学思想上是有很大不同,甚至可以说是截然相反的。然而中医与西医的内在关联却无处不在,结合点之一正是基因与证候的关联。对于基因组学和中医证候的学习方法是不同的,一个是定量学习,另一个则是定性学习,定量学习有助于学生更加客观的研究生物体的发展规律,并结合现代计算机技术做到多学科交叉学习与实验,而不足之处在于缺乏主观思考、学习方式较为分散缺乏整体思维把控;而定性学习则以某一指导思想为主线,通过对某些案例及知识长时间的观察和分析,从中得出结论。定量学习如基因组学更重视量化计算及工具的使用,而定性学习如中医证候则更重视理论与实践结合,整体到局部学习。在学习的过程中,无论基因组学还是中医证候,都会以疾病为具体的研究对象。从西医上说,基因是决定人是否患病的内部原因,通过遗传或基因状态的改变都可能导致疾病的产生,从中医上说,证候是疾病状态下的临床类型,反映了机体在疾病发展过程中的病理特征[4]。因此,将证候与基因组学统一学习,实则是将定量与定性学习相结合以实际疾病案例和数据着手从而多方面运用计算机、西医学、证候学、数学等学科知识对生物大数据进行分析的综合学习方法。
2.2 基于蛋白质组学学习中医病证相关性
证侯是人体生命活动的一种表现,而生命活动的主要执行者是蛋白质,两者之间必然会有隐秘且细致的联系,我们也应以此为出发点,培养学生的发散学习方法,综合学科进行学习。自HGP的完成宣告了后基因组时代的到来后,研究生命科学的重心也由基因组学向蛋白质组学逐渐转变,作为教育者也应跟上科学发展的潮流,把生物科学研究和相关教学模式从基因水平向蛋白质水平转变。与此同时,蛋白质组学是从整体角度分析细胞内的动态变化以及蛋白质组成成分、表达水平等,它的研究方法学内容与中医的整体观和辩证论治观有着许多相同之处。蛋白质组学在分子水平上的DNA修饰和基因调控反应生命体的整体状态(即阴平阳秘),中医理论强调从整体观对疾病进行认知,认为疾病的发生是人体整体功能的失调所致(即阴阳失调),重点在于辩证论治[5]。在教育教学过程中,将基因或蛋白质方面的研究从结构研究向功能研究转变,使研究更具体,透过相关功能性测试实验,发现基因之间的相互联系及相互作用,在定量学习的过程中培养学生的定性思维,使学生善于发现问题及对象之间的关联。正如数据库实体关系模型中的E-R图一样,在进行蛋白质组学和中医病症相关性研究教育的过程中,中医病证和蛋白组学可以看做是两个看似毫无关联的实体,而通过“疾病”将两者相连,透过此种关系可以衍射出两个学科方面的深入学习。
2.3 运用复杂系统性方法学习中医药复杂系统
中医药的复杂性相比西医有过之而无不及,原因主要在于相对于“结构决定功能”的西方医学思想,中医更侧重于“关系决定功能”,在这种情况下,无论是辨证论治还是症状体征变化,有关中医诊断和治疗的信息都是已高度离散和非线性的方式存储,使得中医称为典型的“复杂自组织系统”[6]。尤其在信息离散度和复杂度较高的中医证侯系统中,症状变量与证侯信息混杂在一起,想辨别两者的区别和联系是非常困难的事情,单纯的研究数据往往缺乏正确的方向,而单纯的研究理论则往往枯燥乏味。因此,在教学过程中,可以将复杂系统方法学引入中医系统学习,通过复杂系统中的熵分划方法将证侯系统的离散变量加工转化为线性关联集合,即将症状变量通过关联度集合成多个症状集合,并将症状集合与关联度较高的证侯要素进行联结。以此方法既可以激发学生对理论学习的兴趣,又能以理论指导实践,对中医证侯大数据进行信息提取,达到全面学习。
3 结束语
中医信息学已经作为一门新兴学科在我国各大高校开设,相关师生深入研究和学习,主要目的就是发掘蕴含在中医几千年发展结晶中的奥秘。关于中医药数据的数据挖掘技术和研究也在近年日益增长,这都表明人们已经愈来愈关注国粹,关注健康,关注未来。这也表明与之相关的学习和研究对未来的人生发展和机遇都有着深远的影响。然而,数据挖掘的技术并不完全适用于中医药复杂系统中的信息发掘,若单纯地将两者进行结合教学,学生可能缺少知识衔接,缺乏过渡。这时若将生物信息学引入二者其中并结合生物信息学相关智能科技手段和技术,则可以从宏观和微观两个方面去看待生命体:宏观上面对复杂的中医系统不需感到困惑,而是以“复杂系统方法论去解决复杂系统”,使学生不要总想着从每一个局部都能分析到问题的本质,而是接受复杂性,从复杂系统的角度去解释生命体的自组织现象,对生命体的宏观表现进行研究;微观即是在分子水平上去分析中医证侯的本质,方剂的复杂体系,去了解生命体内部的调控机制等,以此加深学生对中医理论的理解以及对生物信息学工具和技术运用的融会贯通。
参考文献:
[1] 钟涛.基于复杂系统方法的慢性胃炎中医问诊证侯建模研究[D].上海:华东理工大学,2014.
[2] 谭从娥,王米渠,冯文哲等. 生物信息学分析寒症海量数据的探索[J].中华中医药学刊,2008,26(12):2569-2570.
[3] 李方玲,梁嵘.对中医证侯规范化研究的探讨[J].辽宁中医杂志,2006,33(4):386-387.
[4] 西广成.复杂系统方法学与中医证侯建模[M].北京:科学出版社,2010:91-95
篇5
【关键词】数学建模生物信息学教学
【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2014)05-0214-01
1. 引言
生物信息学是融合生命科学与数理科学的一门新兴学科[1]。1995年在人类基因组计划第一个五年总结报告中对生物信息学的定义是: “它是一门研究包括生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,并综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所蕴含的生物学意义的新兴的交叉学科。”随着人类基因组计划的完成,生物信息学的研究进入了后基因组时代,它已广泛的渗透到生物、医药、农业、环境等各个相关研究领域中,成为生命科学和自然科学的重大前沿领域之一。目前,国内很多高等院校已经开设了生物信息学本科专业。
数学建模是一门综合多门学科知识,集应用与能力培养为一体,有利于培养学生的创造意识和应用实践能力的学科[2]。生物信息学专业的本科生在学习完基本的数理知识以及生物信息学专业基础课后,通过数学建模课程的学习,能够使学生综合运用所学的知识解决实际问题,实现了从理论学习到实践应用的跨越;使学生深刻体会到理论指导实践,实践进一步检验和完善理论的过程。本文对数学建模在医学院校生物信息学专业的开展及具体的教学进行了实践探索,目的是培养学生的建模思维和创新能力,为学生综合运用所学知识解决实际问题以及今后的科研打下良好的基础。
2. 教学实践与探索
在医学院校生物信息学专业的数学建模教学中,我们旨在通过体现学科特点的模型的学习以及实践活动培养学生的建模思维、实际动手能力与创新能力。
2.1 精选模型,体现学科特点
在数学建模的教学中,我们主要通过学习已有的数学模型来完成整个课程的学习,包括问题的分析、模型的假设、模型的建立、模型的求解与分析以及后续的模型检验与应用等。因此如何选择适当的模型成为教学中的首要问题。
在选择数学模型时,除了注重模型需具有简洁性和趣味性[3]以外,我们特别选择了能够体现医学院校生物信息学专业特点的模型,与学生所学的专业紧密结合。如DNA序列分类模型、人类癌症基因预测模型、人类疾病网络模型等。此外,在选择这些模型时注意建立的模型具有阶梯性,即由浅入深,由简到繁,以符合学生的逻辑思维。对于给定的实际问题,我们首先想到的是最简单的模型,然后分析模型的局限性及产生的原因,进而寻找策略改进模型,如此形成一种阶梯式的建模过程,最终使得建立的模型越来越接近实际问题,达到完善的地步。例如,对于DNA序列分类模型(2000年全国大学生数学建模竞赛试题),我们可以先后构建特征密码子概率分布判别模型、图论最小生成树模型以及向量空间直观判别模型,这三个模型体现了模型逐步升级的过程。
2.2 逐步引导,培养学生建模思维
数学建模需要综合运用多学科知识,这对于刚刚接触建模的学生来说是比较困难的,需要逐步引导他们,培养建模思维。我们主要借助于具有阶梯性的数学模型、多媒体教学,通过讲解和讨论穿插的教学模式来引导学生。
仍以DNA序列分类模型为例,对于给定的已知类别的序列和待分类的人工序列(序列较短)及自然序列(序列较长),首先想到的是从已知类别中提取特征,用特征对未知序列进行分类。通过讨论,大部分学生很自然的想到选取序列中ATGC四个碱基的含量作为特征,但是这个特征很粗,结果发现很多序列用这个特征无法分类。接下来学生想到用密码子,对64个密码子进行分析提取特征,结果显示此种特征对人工序列得到较好的分类效果,但不适用于自然序列。随后基于上面的结果,进一步应用图论中的最小生成树模型解决问题,发现分类效果较好。此外,在讨论中,有学生也提到了应用“与已知类别特征相近的物质归到一类”的思想,运用二维向量夹角余弦进行分类,结果表明分类效果优于前两种方法。在学习模型的过程中,我们边讲解边引导学生思考问题,讨论问题,并结合多媒体演示,环环相扣,这样的学习方式往往引人入胜,充分调动了学生学习的积极性,培养了学生的建模思维。
2.3 教研结合,培养学生动手能力与创新能力
理论用于指导实践,没有实践的理论是空洞的。在学习完别人建立的模型之后,我们要求学生自己动手解决实际问题,建立模型,正所谓的“依葫芦画瓢”。我们本着寓研于教,教研结合的思想,将科研中遇到的一些实际问题融入教学中,充分发挥学生的想象力与创造力。我们精选具有生物信息学专业特点、体现学科前沿的两个实际问题作为建模试题,让学生三人一组以论文形式完成。如我们选取了给药方案(较简单)和人类癌症miRNA预测(较复杂)两个实际问题作为建模试题。较简单的问题让学生利用实验课的时间进行完成,较复杂的问题以作业形式让学生利用课余时间完成,并将两次建模的成绩作为学生本门课程的最后成绩。
这种考核方式不仅培养了学生动手能力与创新能力,而且让他们体会到之前所学习的专业基础课的意义所在。此外,学生们对科研问题创造性的思维往往超乎我们的想象,为我们生物信息专业的发展注入新的力量,也为学生后续从事相关领域的研究工作打下坚实的基础。
3. 小结
笔者根据自己在医学院校生物信息学专业数学建模课程的教学实践,提出了几点可行性的措施。本着寓研于教,教研结合的思想,通过精选体现学科特点的模型,采取讲解和讨论穿插的教学模式逐步培养学生的建模思维,利用建模试题培养学生实际动手能力与创新能力,取得了较好的教学效果。随着生物信息学以及相关学科的不断发展,生物信息专业的数学建模课程将更加富有挑战性,我们将根据科学发展以及学生的反馈意见不断修订教学内容,丰富教学方法,提高生物信息学专业数学建模课程的教学质量,真正培养学生分析问题、解决问题的能力。
参考文献:
[1]李霞,李亦学,廖飞.生物信息学[M],北京:人民卫生出版社,2010.
篇6
[关键词]生物信息学 课程教学改革 创新能力培养
[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2013)16-0061-02
当前生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地理解为“将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科”。生物信息学的发展,对人们分子水平上认识生命活动的规律起着关键性的作用。生物信息学是一门理论性和实践性都很强的课程,理论与实践的结合十分紧密。生物信息学课程的授课内容分为理论基础和上机操作部分,主要特点是传授理论知识和培养实践能力并举。在生物信息学的课堂教学中,既要强调基本理论、基本知识的传授,同时也要加强学生的实践能力和创新能力的培养,以实际应用为主要侧重点,着重培养学生的创新能力。根据生物信息学的课程特点,我们在理论教学、上机实践操作及考试方式等方面进行了改革和探索,获得了较好的教学效果。
一、激发学习兴趣
生物信息学课程涉及的新技术较多,接触的因特网也多为英文页面,多数学生因而存在畏难情绪。对于分子生物学基础及英文较差的学生,我们采用循序渐进的方式,鼓励他们由浅入深地学习生物信息学的分析方法,由少到多地浏览英文网站,理解并掌握常用的生物信息学英文词汇,从而增强了学习生物信息学的兴趣和信心。学生通过对英文网站的不断浏览,英文阅读能力得到了很大提高;同时也开阔了视野,拓宽了知识面。随着学生生物信息学分析能力及专业英语水平的提高,教师在理论课讲解过程中,由少到多地逐步加大了英文教学的比例。总之,通过激发学生的学习兴趣,帮助学生逐步建立起学习的兴趣和自信心,为学好生物信息学这门课程打下了坚实的基础。
二、重视双基训练
本课程首先结合人类基因组计划介绍生物信息学的历史发展和概况,然后顺序介绍生物数据库分类、序列相似性比较、数据库搜索、分子系统发育树分析、基因组学与基因预测、蛋白质结构预测等基本知识,以介绍基本理论和基本知识为主,启发学生拓宽知识面,了解学科前沿和最新进展,培养学生解决生物信息学分析实际问题的能力,从而为今后进行生命科学研究奠定基础。
生物信息学涉及的算法多数都较为枯燥,在授课过程中侧重于分析方法的讲解和应用。如在讲授双序列比对动态规划算法Needleman-Wunsch全局比对和Smith-Waterman局部比对及分子系统发育树构建UPGMA(Unweighted pair group method with arithmetic mean,非加权算术平均组队法)等算法时,在多媒体教学的基础上,结合板书演算实例、互动式“提问”等方法帮助学生理解算法的基本原理及分析方法;同时布置课后计算题作业,要求学生独立完成后上交,并作为平时成绩考核的主要依据之一,从而促进学生巩固基本理论和基本知识。
三、双语多媒体教学
为了适应生物信息学知识全球化的特点,使学生能够更好地接受最新的生物信息学知识,我们制订了生物信息学课程双语教学计划,并在教学过程中分阶段逐步实施。在第一阶段,以汉语讲授为主,英语渗透,中文教材为主,相关英文文献为辅;在此基础上,逐步向第二阶段过渡,即汉英整合,不分主次,PPT课件和Flas采用英文版本;最终的目标是第3阶段,即选用英文教材,制作英文版本的PPT教学课件,采用全英文授课方式。整个过程循序渐进,逐步淘汰传统的中文教学。
在讲解数据库查询和BLAST(Basic local alignment search tools)分析、Bankit在线序列提交和Sequin离线序列提交及DNASTAR、DNAMAN、MEGA等软件包使用方法时,改变以往静态演示的旧有模式,应用屏幕录像专家软件制作多媒体动画文件,将操作步骤和鼠标的移动轨迹、点击抓取下来,以便让学生直观地观看课件。通过现场操作核酸序列的查询、蛋白质三维空间结构的显示、限制性酶切图谱绘制、PCR引物设计、序列组装重叠群(contig)构建、分子系统进化树构建等分析,应用多媒体设备将整个操作过程动态地逐一展示,直至最终完成整个过程,使学生得到了直观体验,加深了印象,从而更加容易掌握这些实践操作。
四、加强上机操作
实践教学相对于理论教学具有直观性、验证性、综合性、启发性和创新性的特点。为了提高学生的实践操作能力,我们安排了多个验证性、设计性上机实践操作。《NCBI数据库的检索与使用》让学生熟悉GenBank核酸序列的格式、主要字段的含义、序列下载的方法,并掌握Entrez检索工具的使用方法;《BLAST数据库搜索》让学生掌握BLAST数据库搜索的分析方法;《核酸和蛋白质序列的进化分析》让学生掌握MEGA(Molecular evolutionary genetic analysis)和Clastalx等软件构建分子系统进化树的方法和步骤;《DNAMAN软件的使用》让学生掌握DNA序列的限制性酶切位点分析及PCR引物设计等基本操作方法;最后一次实践上机课安排《核酸、蛋白序列的综合分析》设计性实验,让同学们随机组成两人一组的研究小组,自选感兴趣的基因并从GenBank数据库中下载该基因的20条核酸序列及蛋白序列,分析其中1条核酸序列的碱基组成比例,反向互补序列、编码的RNA序列及蛋白序列,分析其中1条蛋白序列的氨基酸组成比例、分子量、疏水性、等电点、亚细胞定位等物理、化学特性;同时基于DNA序列和蛋白质序列构建分子系统发育树。
五、网络教学资源
生物信息学对于网络工具高度依赖,由于受学时限制,课堂教学的内容非常有限。为了给学生创造一个良好的自学环境,我们应用屏幕录像软件开发了上机实践操作演示等教学资源;提供了课件供学生在网络上下载使用,该课件覆盖了生物信息学课程的全部教学内容,包括相关的动画演示等信息;另外还提供了DNASTAR、DNAMAN、MEGA、BIOEDIT等软件安装程序及使用手册,相关英文参考文献等,从而有效地扩大了学生的自学空间。
六、科研教学相长
本课程由具有生物信息学或分子生物学博士学位的教师承担,每位授课教师的科研课题均涉及生物信息学分析。在生物信息学的教学过程中,授课教师积极融合个人的科研工作经验和成果,丰富了教学内容。如在讲授Bankit在线序列提交及Sequin离线提交序列时,我们以提交至国际核酸序列数据库GenBank的芒草(Miscanthus sinensis)肉桂醇脱氢酶(JQ598683)、过氧化氢酶(JQ598684)、咖啡酰辅酶A-O-甲基转移酶(JQ598685)、肉桂酸-4-羟化酶(JQ598686)为例;在讲授基因外显子和内含子结构预测时,以牡丹(Paeonia suffruticosa)ACC氧化酶(FJ855434)和ACC合成酶(FJ769773)为例。通过把科研思路带入教学中,有效培养了学生的科研能力及创新能力。此外,教学实践也有利于教师全面了解生物信息学和相关学科的最新进展,不断为科研提供新思路。
七、考试方式改革
生物信息学课程的目的是提高学生利用信息技术解决生物学问题的能力,因此主要考查学生综合利用所学知识分析问题和解决问题的能力。在课程考核中结合平时书面作业、递交上机操作练习和考试三方面情况,综合评定。平时布置3次思考题目,以书面形式上交,占考核成绩的20%;上机实践操作的习题以电子版发送到教师的E-mail邮箱中,占考核成绩的30%;课程结束后给学生1周的时间复习,而后在计算机上答题,包括基础知识部分和上机操作部分,占考核成绩的50%。经过综合评定,能够比较客观地反映一个学生对该课程的实际掌握情况。采用这种考试方式后,一方面,促使学生在学习过程中,不必花大量工夫去死记硬背,而把重点放在了基本理论、基本知识的巩固及实践操作技能的提高上,有效地提高了学生的实践操作能力和创新能力;另一方面,也促使教师在教学过程中,注重从能力培养的角度进行教学课堂设计,提升教学质量和水平。
在教学过程中,通过激发学生的学习兴趣,采用双语多媒体教学方式,在重视基本理论和基本知识讲授的同时,加强上机实践操作,充分利用网络教学资源,将科研成果结合于教学过程中,结合考试方式改革与探索,大大提高了“生物信息学”课程的教学质量水平及教学效果。
[ 参 考 文 献 ]
[1] 葛威,鲍大鹏,董战峰,等.Visual BASIC编程在核酸序列分析中的应用研究初探[J].生物信息学,2004,(4):43-46.
篇7
关键词:生物信息学医学统计学课堂教学
生物信息学融合了生物技术、计算机技术、数学和统计学的大量方法,已逐渐成为发现生命过程中所蕴涵知识的一门重要学科。其基本问题主要包括:DNA分析、蛋白质结构分析、分子进化。医学统计学作为医科院校的基础课程之一,长期以来其理论和方法就广泛应用于临床医学、基础医学的各类研究中。随着生物新技术的诞生,在推动生物信息学发展的同时,医学研究对象也由宏观的病人、生物组织拓展到微观的基因领域,所面对的实验数据在性质和结构上也都有所不同,这对医学统计学的应用提出了新的更高的要求。
目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:
一、概率分布
概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、Possion分布、正态分布、t分布、F分布等。
借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。
在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。
二、假设检验
假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。
假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。
这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。
例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。
如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。
但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。
三、一些高级统计方法在基因研究中的应用
(一)聚类分析
聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。
聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。
近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。
(二)判别分析
判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。
判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。
在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(SupervisedAnalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。
(三)相关分析
相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。
我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。
生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。
四、意义
篇8
【关键词】 生物信息学 序列比对 准确率 时空效率
随着生命科学研究的兴起和计算机技术的飞速发展,生物信息学已成为自然科学的核心领域之一[1]。基因序列比对是生物信息处理的最基本方法,对发现基因功能、比较基因、探究生物进化等具有非常重要的作用。
1 序列比对算法概述
所谓序列比对[2],是指两个或多个序列按字母比较,尽可能确切地反映它们之间的相似和相异性,用于阐明序列之间的同源关系。通过序列比对,找出序列之间的相似性,发现与结构相联系的保守序列片段,以及检测新测定序列与数据库中已知结构和功能的序列之间的相似性关系,从而以足够的可信度确定新序列的结构和功能信息。
目前已知的序列比对方法很多。本文主要针对常用的算法,按照比对的序列数目进行相关介绍:
1.1 双序列比对
根据算法结构的不同,将双序列比对算法分为三类[3]:动态规划的优化方法,启发式算法和大型数据库搜索设计的概率方法。
1.1.1 动态规划的优化算法
Needleman-Wunsch算法是最早的序列比对算法,属于全局序列比对,在生物信息处理中应用广泛。Smith-Waterman算法是一种局部相似性的动态规划算法,在识别局部相似性时具有很高的灵敏度,是双序列比对算法中最基本的算法。
1.1.2 启发式算法
1)FASTA算法
FASTA是双序列比对启发式算法,采用了改进的wilbllr和Lipmall算法以集中反映具有显著意义的比对结果。
它的基本思想是:一个能揭示出真实序列关系的比对至少包含一个两条序列都拥有的片段,把查询序列中的所有片段编成Hash表,然后在数据库搜索时查询这个Hash表,以检索出可能的匹配,这样命中的片段就能很快地被鉴定出来。
2)BLAST算法
BLAST算法可以兼顾搜寻的速度以及搜寻结果的精确度,它比FASTA速度更快。它的基本思想是:产生比FASTA更少而更有意义的增强点,以提高整个算法的速度。BLAST算法在不失敏感性的前提下大大提高了算法的效率。
3)BLAT算法
Blat算法最初用于人类基因组拼接和注释过程中的大规模数据比对任务上。其速度快、共线性输出结果简单易读,存在的局限性是对于特殊的任务需要选择合适的软件,如:用于远亲缘物种间的核酸序列比对时,比对精度就不够高;在重复搜索短小匹配片段的同时,会产生过多的没有生物学意义的序列比对碎片。
1.1.3 大型数据库搜索设计的概率方法为基础的算法
MUMmer算法是一种基于后缀树数据结构的全基因组比对方法,利用后缀树的数据结构有效地将算法的时间和空间复杂度由(N 3)降到了(N)。与BLAST算法相比,其后缀树法在速度上快得多,且能处理大量的插入和删除片段,能识别重复片段和单核酸多态性等多种全基因组序列中的复杂片段。
1.2 多序列比对
多序列比对的常用算法有累进算法、隐马尔科夫模型、迭代比对法等。
累进方法是最常用的启发式多序列比对算法。其中的CLUSTAL算法是由Feng和Doolittle提出的,基于相似序列通常具有进化相关性这一假设的算法,它是多序列比对算法中使用最广泛的。
隐马尔科夫模型是目前较先进的多序列比对方法,跟常规的方法相比,它可以发现序列久远的同源性。
迭代方法也基于一个能产生比对的算法,并通过迭代方式精细多序列比对,直到比对结果不再改进为止。这类算法不能提供获得优化比对结果的保证,但却具有鲁棒性和对序列个数不敏感等特性。
2 序列比对算法比较
通过上述介绍,本文对几种最常用的基因序列比对算法进行如下比较(如表1):
在实际试验中处理生物信息数据时,考虑各种序列比对算法的速度和适用范围,启发式算法的应用最为广泛。进一步,虽然BLAT算法的适用范围较BLAST小,但两者原理相似,且BLAT速度更快,便于处理大量的基因数据,在进行简单的DNA基因序列比对任务时,研究者更青睐BLAT算法。
3 结语
序列比对是生物信息学中最重要、最基本的方法,对于从大量生物数据中提取有价值的信息有重大的意义。
我国在序列比对方面研究较为落后,且目前提出的算法较少,大多数都是在几种基本序列比对算法的基础上进行的改进。如:张涛涛、郭茂祖等介绍了一种参数序列比对方法[4],该方法把最佳比对作为权值和罚分的函数,可以系统地得到参数的选择对最佳比对结果的影响。
准确率和运算速度是评价序列比对算法的重要依据,因此,获得比对准确率更高、时间空间效率更好的序列比对算法是生物信息学研究的一个重要课题。
参考文献:
[1]许忠能著.生物信息学[M].北京:清华大学出版社,2009.
[2]何万双.双序列比对算法研究[D].湖南:国防科技大学,2006.
篇9
【关键词】生物技术;计算机;应用
【中图分类号】Q50 【文献标识码】A 【文章编号】1672-5158(2013)01―0046-01
进入二十一世纪以来,由于研究的深入,对知识的进一步认识和了解,许多学科之间都有了一些交叉,尤其是一些新兴学科之间的相互交叉,广泛渗透更是对科学的发展起了很大的促进作用,人们进一步提升对自然界的认识,对人类本身也有了进一步的了解。随着科学技术的不断发展,尤其是计算机技术的飞速发展,计算机在其中的应用范围也日益扩大,计算机和药学两者互相影响、互相渗透、互相结合,密不可分。
1、生物技术与信息技术的关系
信息技术和生物技术都是高新技术,二者在新经济中并非此消彼长的关系,而是相辅相成,共同推进21世纪经济的快速发展。信息技术为生物技术的发展提供强有力的计算工具。在现代生物技术发展过程中,计算机与高性能的计算技术发挥了巨大的推动作用。如今,人们越来越清醒地认识到,超级计算机在创造新品种的药物、治愈疾病以及最终使我们能够修复人类基因缺陷等方面是至关重要的,高性能计算可以为人类作出更大的贡献。生物技术推动超级计算机产业的发展。随着人类基因组计划各项任务的完成,有关核酸、蛋白质的序列和结构数据呈指数增长。面对如此巨大而复杂的数据,只有运用计算机进行数据管理、控制误差、加速分析过程,使得人类最终能够从中受益。然而要完成这些过程,并非一般的计算机力所能及,而需要具有超级计算能力的计算机。因此,生物技术的发展将对信息技术提出更高的需求,从而推动信息产业的发展。生物技术将从根本上突破计算机的物理极限。运用数学、计算机科学和生物学的各种工具,来阐明和理解大量基因组研究获得数据中所包含的生物学意义,生物学和信息学交叉、结合,从而形成了一个新的学科。生物信息学或信息生物学,它的进步所带来的效益是不可估量的。
2、计算机在生物技术中的应用分析
生物医学工程运用现代自然科学和技术科学的原理和方法,从工程学的角度研究人体的结构、功能及其相互关系以及其他生命现象。其目的是解决医学问题,即研究和开发为防病、治病以及人体功能辅助等医学应用的装置和系统。用技术科学的概念和方法来解释和描述人体各层次的成份、结构和功能,以及人体各种正常生理功能和病理状态之问的差异,这些内容形成了这个学科的基础部分。而防病、诊断、治疗及功能辅助的具体技术和设备则形成这个学科的应用部分。
2.1 计算机技术在生物信息学中的应用
生物信息学在今后的无论是生物医药科研还是开发中都具有广泛而关键的应用价值;而且,由于生物信息学是生物科学与计算科学、物理学、化学和计算机网络技术等密切结合的交叉性学科,使其具有非常强的专业性,这就使得专业的生物医药科研或开发机构自身难以胜任它们所必需的生物信息学业务,残酷的市场竞争及其所带来的市场高度专业化分工的趋势,使得专业的生物医药开发机构不可能在自身内部解决对生物信息学服务的迫切需求,学术界内的生物医药科研机构也是如此,而这种需求,仅靠那些高度分支化和学术化的分散的生物信息学科研机构是远远不能满足的。可见,在生命科学的新世纪,生物信息学综合服务将是一个非常重要的也是一个极具挑战性的领域。
2.2 计算机在微生物学中细菌生化反应上的应用
细菌学的计量检验是医学检验现代化的种重要手段。此检验技术是通过收集已确证的统计资料,并将系列生化反应试验的反应结果数值化,按照一定的数学模型进行多元分析,利计算机的运算速度和记忆能力,检验标本作出规范化的定量鉴定。实现这一计量鉴定,我采用了计算机辅助编码捡索系统(CAIS)菌科细菌系列生化反应机辅检索程序(CAE-15)、(eAE-I)输入微机。通过各项生化反应结果及增补试验结果所得的编码数经过人工查询,从计算机编程的“缩码检索手册”中直接查找指定编码的细菌概率分布和相应的补充试验。计算机在微生物中的应用,不仅节约了时间和人力,而且鉴定结果准确可靠,避免主观误。
2.3 计算机在破译遗传密码和管理基因数据方面的应用
计算机在破译遗传密码和管理基因数据方面的潜力,在加利福尼亚大学圣迭分校的生物化学教授杜利特尔及其同事的工作中得以体现。他们在年进行的工作中只通过分析计算机打印输出的数据就获得了一个重要的生物学发现。杜利特尔教授的研究小组比较了两个由计算机打印输出的蛋白质序列,发现一种与癌症发生有关的序列和一种与细胞生长有关的序列完全一样,揭示出癌基因引起了细胞的不正常生长。这一发现在没有进行过任何一实验的情况下就获得了。
2.4 计算机在创造生物的虚拟环境方面的应用
计算机还正被用于创造一个虚拟的生物环境,以便对复杂的生物网络和生态系统进行模拟。这种虚拟环境创造不同的情境,帮助研究人员产生新的假说,并在实验室里被用于检测新的农业和制药产品以及医学活体实验。在虚拟世界里,生物学家敲敲键盘就可以产生新的合成分,而在实验室经常需要几年时间才可能合成一个真正的分子。有了三维的计算机模型,研究人员可以在屏幕上将各种基因和分子进行组合,然后观察它们的相互作用情况。年,宾夕法尼亚州立大学和位于加利福尼亚拉霍亚的斯克里普斯临床研究所的研究人员,通过使用最先进的计算机首次设计了一种极有价值的合成分子。这种被命名为的化合物是在计算机屏幕上构想出来的,几家生物技术实验室正在进行该化合物的批量生产。科学家们打算通过使用新的信息时代的计算技术造出多种多样的新分子。
2.5 计算机在生物医学工程中的具体应用
生物医学工程运用现代自然科学和技术科学的原理和方法,从工程学的角度研究人体的结构、功能及其相互关系以及其他生命现象。其目的是解决医学问题,即研究和开发为防病、治病以及人体功能辅助等医学应用的装置和系统。用技术科学的概念和方法来解释和描述人体各层次的成份、结构和功能,以及人体各种正常生理功能和病理状态之间的差异,这些内容形成了这个学科的基础部分。而防病、诊断、治疗及功能辅助的具体技术和设备则形成这个学科的应用部分。
3、发展前景
计算机在生物医学工程中应用的例子还很多,并且发挥着越来越重要的作用,同时对计算机技术水平的要求也越来越高。比如在生物医学信号处理方面,普通的计算机已经很难胜任实时处理的能力,使人们转向研究处理速度更快的专门处理器件DSP芯片。在人工智能方面,往往还需要功耗更低、存储更大的微计算机。因此,生物医学工程在利用计算机的同时也促进了计算机的发展。二十一世纪是生物技术的世纪,信息生物学是自然科学中发展最迅速、最具活力和生气的领域,并且为人类带来了很大的便利与贡献。不难看出,生物计算机研制成功以后,又会带来一次革命,它将会给人类带来更多的福祉,世人将以期盼的心情等待它的出现。随着科技的发展,随着生物技术的发展,它将越来越离不开计算机。不但如此,计算机和生物技术更越来越紧密结合。将更快地促进两者的发展。
参考文献
[1]张宜,汤韧.计算机单机及局域网在药学领域应用发展回顾及现状[J].武汉总医院杂志,2005,13(4):12
篇10
关键字 蛋白质组;蛋白质组学;研究技术;分离技术
中图分类号 Q-0 文献标识码A 文章编号 1674-6708(2013)107-0135-02
0 引言
近几年基因组学的不断发展与壮大,推动了生物学技术的快速发展,使得我国在生物技术方面的研究走向成熟,大部分的病毒和原核生物等简单生物的基因组工作已经完成,而且高等生物的基因组工作也取得了很大的进步,人类的基因组研究已经顺利完成。随着科技的不断发展,在生物学界产生了许多新的技术,新的基因组研究手段与方法,可以实现对数以万计的基因表达进行检测。但是,这仅仅在生物功能的静态分析上取得了很大的进步,却依然不能达到对基因组学研究的目的。正因如此,越来越多的专家将研究矛头指向了蛋白质组的研究。只有研究基因编码和翻译的蛋白质,才能真正的了解到生物的活动特征。
1 蛋白质组概念和蛋白质组学研究的范围
在20世纪90年代根据蛋白质和基因组的技术提出了蛋白质组的概念,蛋白质组指的是一组基因或者细胞所有的蛋白质表达的情况,与基因组类似,但是与基因组不同的是,蛋白质组更注重于对研究体代谢的一系列动态过程进行研究。从蛋白质组的名称上可以了解到,蛋白质组不是针对于单一的蛋白质进行研究,而是把一组蛋白质的整体作为研究对象,最后分析出每个蛋白质的表达信息。蛋白质组学是由于蛋白质组的出现而兴起的一门生物技术学科,蛋白质组学,即一个基因组,一个细胞或组织,一种生物在一定时间,一定条件下所表达的全部蛋白组成,存在形式,活动方式及时空动态。目前蛋白质组学主要研究生理、病理或不同发育阶段下蛋白质的表达情况,对表达存在差异的蛋白质进行进一步研究,分析蛋白质之间的相互作用,蛋白质的组成结构,以及蛋白质的翻译和定位情况等。
2 蛋白质组研究的主流技术
蛋白质组研究的进展与蛋白质组研究技术的发展是不可分开的,二者之间起到相互促进的作用。随着科学的进步,对于使用生物技术进行研究的结果要求越来越高,对数据要求也越来越精确,所以蛋白质组研究的技术也在不断创新与更新,目前针对于蛋白质的分离来说,蛋白质组研究的主流技术包括双向凝胶电泳技术、差异凝胶电泳技术、质谱技术以及多维液相色谱技术等。
2.1双向凝胶电泳技术
传统的双向凝胶电泳技术由1975年建立,采用双向凝胶电泳技术进行蛋白质组分离大大的提高了分辨率,因此,在蛋白质组研究技术中一直被广泛采用。其产生双向的原理是:第一向为等电聚焦,使得带有不同电荷量的蛋白质产生电泳分离,第二向为SDS-聚丙烯酰胺凝胶电泳,使得具有不同分子量的蛋白质产生电泳分离。
随着技术的提高,双向凝胶电泳技术也进行了完善,目前所使用的双向凝胶电泳技术中第一向利用固相pH梯度等电聚焦电泳技术来达到蛋白质组分离的效果,这样可以在保证在高分辨率的前提下,提高重复性,而且可以获得蛋白质具有的分子量多少以及其等电点信息,但是,这种方法难以实现对于极大蛋白质、极小蛋白质、极碱性蛋白质和疏水性蛋白质进行有效分离分析与研究。
2.2差异凝胶电泳技术
差异凝胶电泳技术是在双向凝胶电泳技术上发展起来的,差异凝胶电泳技术在一定程度上弥补了双向凝胶电泳技术的不足,不但提高了蛋白质组的分离效率,而且降低了劳动强度,最重要的是提高了电泳的灵敏程度。差异凝胶电泳技术的原理是对两份不同的蛋白质组研究样品做不同的标记,然后放在同一环境下进行凝胶电泳,可以直观的观察到正常的基因组和癌变的基因组的凝胶电泳结果的区别,继而可以对两种不同的蛋白质表达结果进行进一步分析与研究。
2.3质谱技术
采用质谱技术对蛋白质组进行分离的原理是:首先将蛋白质组研究样品的分子进行离子化,然后根据不同离子的质荷比不同来确定其分子量,最后实现对其进行分离。在进行蛋白质组样品分子进行离子化的时候,需要保证分子的完整性,尽量不要形成碎片离子。质谱技术通过与其他高端技术的配合,可以实现对多肽的序列进行测量。
2.4多维液相色谱技术
多维液相色谱技术是蛋白质组研究过程中最常用的色谱分离技术之一,主要是通过多种色谱分离技术的联合使用来达到多维的效果,由于科学技术的更新速度比较快,而且生物技术研究的数据量越来越多,蛋白质组研究的样品复杂程度越来越高,所以实现蛋白质组自动化分离成为必然趋势,目前,蛋白质组自动化分离系统已经形成,就是将多维液相色谱技术与串联质谱技术联合使用便可以达到快速、高效、精确的蛋白质组自动化分离。但是,这种蛋白质组分离技术依然存在一定的不足,譬如,不能实现将分子量过小的蛋白质进行分离以及不能对蛋白质的差异表达进行分析等。
3 蛋白质组生物信息学
近几年来,蛋白质组研究技术已经得到了生物信息学的高度重视,甚至大部分国家政府已经大力支持蛋白质组的研究,蛋白质组的研究为生物学和医学做出了很大的贡献,蛋白质组研究技术的发展推动了我国生物学与医学的快速发展,同时生物信息学的发展也为蛋白质组的研究工作提供有力的保证,生物信息学是在生命科学、计算机技术与严密、精确的数学科学计算上发展的交叉型学科,通过对生命科学样本的研究,以及运用数学分析与计算,利用计算机技术手段实现将得到的数据和结论信息进行收集、加工和存储。
4 结论
由于生物学科学技术的提高,蛋白质组学得到了广泛的重视,同时也受到了许多政府的大力支持,成为了基因组计划研究的核心,蛋白质领域的建立为生物学家进行蛋白质结构的研究提供了新的角度与新的研究理念。蛋白质组技术的发展,对一些细菌蛋白质的研究和对分析疾病的产生原因与治疗起着深远的影响与重要的意义。
参考文献
[1]成海平,钱小红.蛋白质组研究的技术体系及其进展[J].生物化学与生物物理进展,2000(27):584-588.
[2]解建勋,蒲小平,李玉珍,李长龄.蛋白质组分析技术进展[J].生物物理学报,2001(1):119-126.