生物信息学范文
时间:2023-04-10 02:32:30
导语:如何才能写好一篇生物信息学,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
一、整合生物信息学的研究领域
尽管目前一般意义上的生物信息学还局限在分子生物学层次,但广义上的生物信息学是可以研究生物学的任何方面的。生命现象是在信息控制下不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、个体、群体和生态系统等。这些层次的系统生物学研究将成为后基因组时代的生物信息学研究和应用的对象。随着在完整基因组、功能基因组、生物大分子相互作用及基因调控网络等方面大量数据的积累和基本研究规律的深入,生命科学正处在用统一的理论框架和先进的实验方法来探讨数据间的复杂关系,向定量生命科学发展的重要阶段。采用物理、数学、化学、力学、生物等学科的方法从多层次、多水平、多途径开展交叉综合研究,在分子水平上揭示生物信息及其传递的机理与过程,描述和解释生命活动规律,已成生命科学中的前沿科学问题(摘自:国家“十一五”生命科学发展规划),为整合生物信息学的发展提供了数据资源和技术支撑。
当前,由各种Omics组学技术,如基因组学(DNA测序),转录组学(基因表达系列分析、基因芯片),蛋白质组学(质谱、二维凝胶电泳、蛋白质芯片、X光衍射、核磁共振),代谢组学(核磁共振、X光衍射、毛细管电泳)等技术,积累了大量的实验数据。约有800多个公共数据库系统和许多分析工具可利用通过互联网来解决各种各样的生物任务。生物数据的计算分析基本上依赖于计算机科学的方法和概念,最终由生物学家来系统解决具体的生物问题。我们面临的挑战是如何从这些组学数据中,利用已有的生物信息学的技术手段,在新的系统层次、多水平、多途径来了解生命过程。整合生物信息学便承担了这一任务。
图1简单描述了生物信息学、系统生物学与信息学、生物学以及基因组计划各个研究领域的相关性。可以看出基因组计划将生物学与信息学前所未有地结合到了一起,而生物信息学的兴起是与人类基因组的测序计划分不开的,生物信息学自始至终提供了所需的技术与方法,系统生物学强调了生物信息学的生物反应模型和机理研究,也是多学科高度交叉,促使理论生物学、生物信息学、计算生物学与生物学走得更近,也使我们研究基因型到表型的过程机理更加接近。虚线范围代表整合生物信息学的研究领域,它包括了基因组计划的序列、结构、功能、应用的整合,也涵盖了生物信息学、系统生物学技术与方法的有机整合。
整合生物信息学的最大特点就是整合,不仅整合了生物信息学的研究方法和技术,也是在更大的层次上整合生命科学、计算机科学、数学、物理学、化学、医学,以及工程学等各学科。其生物数据整合从微观到宏观,应用领域整合涉及工、农、林、渔、牧、医、药。本文将就整合生物信息学的生物数据整合、学科技术整合及其他方面进行初步的介绍和探讨。
二、生物数据挖掘与整合
生物系统的不同性质的组分数据,从基因到细胞、到组织、到个体的各个层次。大量组分数据的收集来自实验室(湿数据)和公共数据资源(干数据)。但这些数据存在很多不利于处理分析的因素,如数据的类型差异,数据库中存在大量数据冗余以及数据错误;存储信息的数据结构也存在很大的差异,包括文本文件、关系数据库、面向对象数据库等;缺乏统一的数据描述标准,信息查询方面大相径庭;许多数据信息是描述性的信息,而不是结构化的信息标示。如何快速地在这些大量的包括错误数据的数据量中获取正确数据模式和关系是数据挖掘与整合的主要任务。
数据挖掘是知识发现的一个过程,其他各个环节,如数据库的选择和取样,数据的预处理和去冗余,错误和冲突,数据形式的转换,挖掘数据的评估和评估的可视化等。数据挖掘的过程主要是从数据中提取模式,即模式识别。如DNA序列的特征核苷碱基,蛋白质的功能域及相应蛋白质的三维结构的自动化分类等。从信息处理的角度来说,模式识别可以被看作是根据一分类标准对外来数据进行筛选的数据简化过程。其主要步骤是:特征选择,度量,处理,特征提取,分类和标识。现有的数据挖掘技术常用的有:聚类、概念描述、连接分析、关联分析、偏差检测和预测模型等。生物信息学中用得比较多的数据挖掘的技术方法有:机器学习,文本挖掘,网络挖掘等。
机器学习通常用于数据挖掘中有关模式匹配和模式发现。机器学习包含了一系列用于统计、生物模拟、适应控制理论、心理学和人工智能的方法。应用于生物信息学中的机器学习技术有归纳逻辑程序,遗传算法,神经网络,统计方法,贝叶斯方法,决策树和隐马尔可夫模型等。值得一提的是,大多数数据挖掘产品使用的算法都是在计算机科学或统计数学杂志上发表过的成熟算法,所不同的是算法的实现和对性能的优化。当然也有一些人采用的是自己研发的未公开的算法,效果可能也不错。
大量的生物学数据是以结构化的形式存在于数据库中的,例如基因序列、基因微阵列实验数据和分子三维结构数据等,而大量的生物学数据更是以非结构化的形式被记载在各种文本中,其中大量文献以电子出版物形式存在,如PubMed Central中收集了大量的生物医学文献摘要。
文本挖掘就是利用数据挖掘技术在大量的文本集合中发现隐含的知识的过程。其任务包括在大量文本中进行信息抽取、语词识别、发现知识间的关联等,以及利用文本挖掘技术提高数据分析的效率。近年来,文本挖掘技术在生物学领域中的应用多是通过挖掘文本发现生物学规律,例如基因、蛋白及其相互作用,进而对大型生物学数据库进行自动注释。但是要自动地从大量非结构性的文本中提取知识,并非易事。目前较为有效的方法是利用自然语言处理技术NLP,该技术包括一系列计算方法,从简单的关键词提取到语义学分析。最简单的NLP系统工作通过确定的关键词来解析和识别文档。标注后的文档内容将被拷贝到本地数据库以备分析。复杂些的NLP系统则利用统计方法来识别不仅仅相关的关键词,以及它们在文本中的分布情况,从而可以进行上下文的推断。其结果是获得相关文档簇,可以推断特定文本内容的特定主题。最先进的NLP系统是可以进行语义分析的,主要是通过分析句子中的字、词和句段及其相关性来断定其含义。
生物信息学离不开Internet网络,大量的生物学数据都储存到了网络的各个角落。网络挖掘指使用数据挖掘技术在网络数据中发现潜在的、有用的模式或信息。网络挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。根据对网络数据的感兴趣程度不同,网络挖掘一般还可以分为三类:网络内容挖掘、网络结构挖掘、网络用法挖掘。网络内容挖掘指从网络内容/数据/文档中发现有用信息,网络内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。网络结构挖掘的对象是网络本身的超连接,即对网络文档的结构进行挖掘,发现他们之间连接情况的有用信息(文档之间的包含、引用或者从属关系)。在网络结构挖掘领域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。网络用法挖掘通过挖掘相关的网络日志记录,来发现用户访问网络页面的模式,通过分析日志记录中的规律。通常来讲,经典的数据挖掘算法都可以直接用到网络用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。
网络数据挖掘比单个数据仓库的挖掘要复杂得多,是一项复杂的技术,一个难以解决的问题。而XML的出现为解决网络数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多个异质数据库成为可能,从而为解决网络数据挖掘难题带来了希望。随着XML作为在网络上交换数据的一种标准方式,目前主要的生物信息学数据库都已经提供了支持XML的技术,面向网络的数据挖掘将会变得非常轻松。如使用XQuery 标准查询工具,完全可以将 Internet看作是一个大型的分布式XML数据库进行数据浏览获取、结构化操作等。
此外,数据挖掘还要考虑到的问题有:实时数据挖掘、人为因素的参与、硬件设施的支持、数据库的误差问题等。
一般的数据(库)整合的方法有:联合数据库系统(如ISYS和DiscoveryLink), 多数据库系统(如TAMBIS)和数据仓库(如SRS和Entrez)。这些方法因为在整合的程度,实体化,查询语言,应用程序接口标准及其支持的数据输出格式等方面存在各自的特性而各有优缺点。同时,指数增长的生物数据和日益进步的信息技术给数据库的整合也带来了新的思路和解决方案。如传统的数据库主要是提供长期的实验数据存储和简便的数据访问,重在数据管理,而系统生物学的数据库则同时对这些实验数据进行分析,提供预测信息模型。数据库的整合也将更趋向数据资源广、异质程度高、多种数据格式、多途径验证(如本体学Ontology的功能对照)、多种挖掘技术、高度智能化等。
三、生命科学与生物信息学技术的整合
生物信息学的研究当前还主要集中在分子水平,如基因组学/蛋白质组学的分析,在亚细胞、细胞、生物组织、器官、生物体及生态上的研究才刚刚开始。从事这些新领域的研究,理解从基因型到表型的生命机理,整合生物信息学将起到关键性的作用。整合生物信息学将从系统的层次多角度地利用已有的生物、信息技术来研究生命现象。另外,由其发展出的新方法、新技术,其应用潜力也是巨大的。图2显示了生命科学与生物信息学技术的整合关系。
目前生命科学技术如基因测序、QTL定位、基因芯片、蛋白质芯片、凝胶电泳、蛋白双杂交、核磁共振、质谱等实验技术,可以从多方面,多角度来分析研究某一生命现象,从而针对单一的实验可能就产生大量的不同层次的生物数据。对于每个技术的数据分析,都有了大量的生物信息学技术,如序列分析、motif寻找、基因预测、基因注解、RNA分析、基因芯片的数据分析、基因表达分析、基因调控网络分析、蛋白质表达分析、蛋白质结构预测和分子模拟、比较基因组学研究、分子进化和系统发育分析、生物学系统建模、群体遗传学分析等。整合生物信息学就是以整合的理论方法,通过整合生物数据,整合信息技术来推动生命科学干实验室与湿实验室的组合研究。其实践应用涉及到生物数据库的整合、功能基因的发现、单核苷酸多态性/单体型的了解、代谢疾病的机理研究、药物设计与对接、软件工具以及其他应用。
在整合过程中,还应该注意以下几方面内容:整合数据和文本数据挖掘方法,数据仓库的设计管理,生物数据库的错误与矛盾,生物本体学及其质量控制,整合模型和模拟框架,生物技术的计算设施,生物信息学技术流程优化管理,以及工程应用所涉及的范围。
四、学科、人才的整合
整合生物信息学也是学科、教育、人才的整合。对于综合性高等院校,计算机科学/信息学、生物学等学科为生物信息学的发展提供了学科基础和保障。如何充分利用高校雄厚的学科资源,合理搭建生物信息学专业结构,培养一流的生物信息学人才,是我们的任务和目标。
计算机科学/信息学是利用传统的计算机科学,数学,物理学等计算、数学方法,如数据库、数据发掘、人工智能、算法、图形计算、软件工程、平行计算、网络技术进行数据分析处理,模拟预测等。生物信息学的快速发展给计算机科学也带来了巨大的挑战和机遇,如高通量的数据处理、储存、检索、查询,高效率的算法研究,人工智能的全新应用,复杂系统的有效模拟和预测。整合生物信息学的课程设计可以提供以下课程:Windows/Unix/Linux操作系统、C++/Perl/Java程序设计、数据库技术、网络技术、网络编程、SQL、XML相关技术、数据挖掘,机器学习、可视化技术、软件工程、计算机与网络安全、计算机硬件、嵌入式系统、控制论、计算智能,微积几何、概率论、数理统计、线性代数、离散数学、组合数学、计算方法、随机过程、常微分方程、模拟和仿真、非线性分析等等。
生物学是研究生命现象、过程及其规律的科学,主要包括植物学等十几个一级分支学科。整合生物信息学的课程设计可以提供以下课程:普通生物学、生物化学、分子生物学、细胞生物学、遗传学、分子生物学、发育生物学、病毒学、免疫学、流行病学、保护生物学、生态学、进化生物学、神经生物学、基础医学、生物物理学、细胞工程、基因工程、分子动力学、生物仪器分析及技术、植物学、动物学、微生物学及其他生物科学、生物技术专业的技能课程。
作为独立学科的生物信息学,其基本的新算法,新技术,新模型,新应用的研究是根本。课程涉及到生物信息学基础、生物学数据库、生物序列与基因组分析、生物统计学、生物芯片数据分析、蛋白质组学分析、系统生物学、生物数据挖掘与知识发现、计算生物学、药物设计、生物网络分析等。另外,整合生物信息学的工程应用,也需要了解以下学科,如生物工程、生物技术、医学影像、信号处理、生化反应控制、生物医学工程、数学模型、试验设计、农业系统与生产等。
此外,整合生物信息学的人才培养具有很大的国际竞争压力,培养优秀的专业人才,必须使其具备优良的生物信息科学素养,具有国际视野,知识能力、科研创新潜力俱佳的现代化一流人才。所以要始终紧跟最新的学术动态和发展方向,整合学科优势和强化师资力量,促进国际交流。
五、总结及展望
二十一世纪是生命科学的世纪,也是生物信息学快速不断整合发展的时代,整合生物学的研究和应用将对人类正确认识生命规律并合理利用产生巨大的作用。比如进行虚拟细胞的研究,整合生物信息学提供了从基因序列,蛋白结构到代谢功能各方面的生物数据,也提供了从序列分析,蛋白质拓扑到系统生物学建模等方面的信息技术,从多层次、多水平、多途径进行科学研究。
整合生物信息学是基于现有生物信息学的计算技术框架对生命科学领域的新一轮更系统全面的研究。它依赖于生物学,计算机学,生物信息学/系统生物学的研究成果(包括新数据、新理论、新技术和新方法等),但同时也给这些学科提供了更广阔的研究和应用空间,并推动整个人类科学的进程。
我国的生物信息学教育在近几年已经有了长足的进步和发展。未来整合生物信息学人才的培养还需要加强各学科有效交叉,尤其是计算机科学,要更紧密地与生命科学结合起来,共同发展,让我们的生命科学、计算机科学和生物信息学的教育和科研走得更高更前沿。
作者简介:
篇2
关键词:生物信息学;生物芯片;药物开发;疾病检测
Abstract: Bioinformatics was emerged in the 1980s,which is a new cross- discipline and then was applicated in the wide range of areas. Bioinformatics in biochips, drug development, energy fields, crop genetic analysis, disease detection are introduced in the context . Bioinformatics focuses on the collection, collation and services of biological data to discover laws guiding research,which is an indispensable tool for bioinformatics research.
Keywords: Bioinformatics;Biochip;Drug development;Disease detection
现代生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互参透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学和遗传学信息的科学[1]。
1.生物芯片
生物芯片(Biochip)是指通过微电子、微加工技术在芯片表面构建的微型生物化学分析系统,以实现对细胞、DNA、蛋白质、组织、糖类及其他生物组分进行快速、敏感、高效的处理和分析
基因芯片是目前最重要的生物芯片。
基因微阵列是通过将核苷酸或DNA作为探针,紧密地排列在硅片等固相支持物上,然后将经过某种标记后的样品与微点阵杂交进行检测。根据杂交信息可以确定靶DNA的表达情况以及突变和多态性存在与否。芯片技术的突出特点是高度并行化、多样化、微型化和自动化等,因而被广泛用于测序、转录情况分析、不同基因型细胞的表现分析以及基因诊断、药物设计等领域,成为后基因组时代基因功能分析的制程技术之一 [2]。
2.药物开发
未来的药物研究过程将是基于生物信息知识挖掘的过程。基因组研究对现代与未来药物学和药理学产生了重大影响,尤其为新药筛选、药靶设计和分子药理学研究,以及疑难病的药物设计和途径选择等提供了新的方法论基础。基因组学与药物学的结合已经产生出一门新的分支学科---药物基因组学[3]。制药公司特将充分应用药物基因组学及生物信息学的理论知识和技术手段来设计临床试验并模拟和分析理论与实验数据。这将大大减少新药开发成本,缩短开发周期,为患者、医生和健康医疗机构等诸方面带来选择性治疗的革命。生物信息学也可用于破译遗传密码、筛选免疫基因以及进行新药研发等领域[4]。
3.生物信息学在能源领域的应用
综合运用GenBank等数据库以及各种分析软件将各类数据对比分析,人们已经能够使用酶来降解生物聚合物,通过筛选有益细菌来获取高级的生物催化剂,从而提高使用的产量[5-6]。原核生物采矿技术也得到了迅速发展。同样,不同类型的煤也会发生类似的生物转变,可以转变成甲烷。人们通过生物信息学技术手段开采能源的新方法,可提高能源的采出率和降低开采难度。
通过生物信息学技术改良生物基因,使之转变为生物能源,这是解决能源短缺问题的途径之一。这主要通过生物催化剂的基因转变和代谢工程,利用酶和细菌对生物体的碳氢化合物进行新陈代谢优化,从而用于开发生产生物乙醇等生物能源。
4.农作物基因分析
对重要农作物及经济植物进行基因组分析也需要生物信息学工具。例如,在植物基因组调控和结构研究中,涉及生物信息学的内容有:调控序列数据库;基因表达的调控分析;基因组序列识别;基因结构预测,转录与翻译控制模型;大规模基因数据集分析。
通过数据检索、序列对比、同源性分析、结构预测等工具软件的运用,可将分析数据应用于农作物模式植物研究、种质资源保存、病虫害防治、作物遗传育种等[7]方面,从而为解决模式植物的基因组测序、保护濒危种质资源、控制动植物病虫害和培育优良高产的农作物品种方面提供可靠保障。
5.疾病检测
基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示,根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式[8]。
6.小结与展望
生物信息学的发展将给生命科学研究带来明显的变革,将帮助人类认识生命的起源、进化、遗传和发育的本质,解释人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供合理和有效地方法或途径,同时还将对医药、卫生、食品、农业等产业产生巨大的推动作用,甚至可能引发新的产业革命。21世纪是生命科学的时代,生物信息学为生命科学的发展提供了遍历和强有力的技术支持,推动者生命的迅速发展。
参考文献:
[1] 张明德.生物信息学[M].北京:科学出版社,2004.
[2] 蔡禄.生物信息学教程[M].北京:化学工业出版社,2008.
[3] 姜远英.药物基因组学[M].北京:人民卫生出报社,2011.
[4] 李松,王英.生物信息学在生命科学研究中的应用[J].热带医学杂志,2009,9(10)1:218-1220.
[5] 赵进,骆江涛.能源:未来生物技术的挑战[J].国外油田工程,2008,24(8)5:3-54.
[6] 刘永军,金鹏康.石油集输系统中微生物群落结构研究[J].微生物学杂志,2009,29(3) 2:5-31.
篇3
[关键词]生物信息学 课程教学改革 创新能力培养
[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2013)16-0061-02
当前生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地理解为“将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科”。生物信息学的发展,对人们分子水平上认识生命活动的规律起着关键性的作用。生物信息学是一门理论性和实践性都很强的课程,理论与实践的结合十分紧密。生物信息学课程的授课内容分为理论基础和上机操作部分,主要特点是传授理论知识和培养实践能力并举。在生物信息学的课堂教学中,既要强调基本理论、基本知识的传授,同时也要加强学生的实践能力和创新能力的培养,以实际应用为主要侧重点,着重培养学生的创新能力。根据生物信息学的课程特点,我们在理论教学、上机实践操作及考试方式等方面进行了改革和探索,获得了较好的教学效果。
一、激发学习兴趣
生物信息学课程涉及的新技术较多,接触的因特网也多为英文页面,多数学生因而存在畏难情绪。对于分子生物学基础及英文较差的学生,我们采用循序渐进的方式,鼓励他们由浅入深地学习生物信息学的分析方法,由少到多地浏览英文网站,理解并掌握常用的生物信息学英文词汇,从而增强了学习生物信息学的兴趣和信心。学生通过对英文网站的不断浏览,英文阅读能力得到了很大提高;同时也开阔了视野,拓宽了知识面。随着学生生物信息学分析能力及专业英语水平的提高,教师在理论课讲解过程中,由少到多地逐步加大了英文教学的比例。总之,通过激发学生的学习兴趣,帮助学生逐步建立起学习的兴趣和自信心,为学好生物信息学这门课程打下了坚实的基础。
二、重视双基训练
本课程首先结合人类基因组计划介绍生物信息学的历史发展和概况,然后顺序介绍生物数据库分类、序列相似性比较、数据库搜索、分子系统发育树分析、基因组学与基因预测、蛋白质结构预测等基本知识,以介绍基本理论和基本知识为主,启发学生拓宽知识面,了解学科前沿和最新进展,培养学生解决生物信息学分析实际问题的能力,从而为今后进行生命科学研究奠定基础。
生物信息学涉及的算法多数都较为枯燥,在授课过程中侧重于分析方法的讲解和应用。如在讲授双序列比对动态规划算法Needleman-Wunsch全局比对和Smith-Waterman局部比对及分子系统发育树构建UPGMA(Unweighted pair group method with arithmetic mean,非加权算术平均组队法)等算法时,在多媒体教学的基础上,结合板书演算实例、互动式“提问”等方法帮助学生理解算法的基本原理及分析方法;同时布置课后计算题作业,要求学生独立完成后上交,并作为平时成绩考核的主要依据之一,从而促进学生巩固基本理论和基本知识。
三、双语多媒体教学
为了适应生物信息学知识全球化的特点,使学生能够更好地接受最新的生物信息学知识,我们制订了生物信息学课程双语教学计划,并在教学过程中分阶段逐步实施。在第一阶段,以汉语讲授为主,英语渗透,中文教材为主,相关英文文献为辅;在此基础上,逐步向第二阶段过渡,即汉英整合,不分主次,PPT课件和Flas采用英文版本;最终的目标是第3阶段,即选用英文教材,制作英文版本的PPT教学课件,采用全英文授课方式。整个过程循序渐进,逐步淘汰传统的中文教学。
在讲解数据库查询和BLAST(Basic local alignment search tools)分析、Bankit在线序列提交和Sequin离线序列提交及DNASTAR、DNAMAN、MEGA等软件包使用方法时,改变以往静态演示的旧有模式,应用屏幕录像专家软件制作多媒体动画文件,将操作步骤和鼠标的移动轨迹、点击抓取下来,以便让学生直观地观看课件。通过现场操作核酸序列的查询、蛋白质三维空间结构的显示、限制性酶切图谱绘制、PCR引物设计、序列组装重叠群(contig)构建、分子系统进化树构建等分析,应用多媒体设备将整个操作过程动态地逐一展示,直至最终完成整个过程,使学生得到了直观体验,加深了印象,从而更加容易掌握这些实践操作。
四、加强上机操作
实践教学相对于理论教学具有直观性、验证性、综合性、启发性和创新性的特点。为了提高学生的实践操作能力,我们安排了多个验证性、设计性上机实践操作。《NCBI数据库的检索与使用》让学生熟悉GenBank核酸序列的格式、主要字段的含义、序列下载的方法,并掌握Entrez检索工具的使用方法;《BLAST数据库搜索》让学生掌握BLAST数据库搜索的分析方法;《核酸和蛋白质序列的进化分析》让学生掌握MEGA(Molecular evolutionary genetic analysis)和Clastalx等软件构建分子系统进化树的方法和步骤;《DNAMAN软件的使用》让学生掌握DNA序列的限制性酶切位点分析及PCR引物设计等基本操作方法;最后一次实践上机课安排《核酸、蛋白序列的综合分析》设计性实验,让同学们随机组成两人一组的研究小组,自选感兴趣的基因并从GenBank数据库中下载该基因的20条核酸序列及蛋白序列,分析其中1条核酸序列的碱基组成比例,反向互补序列、编码的RNA序列及蛋白序列,分析其中1条蛋白序列的氨基酸组成比例、分子量、疏水性、等电点、亚细胞定位等物理、化学特性;同时基于DNA序列和蛋白质序列构建分子系统发育树。
五、网络教学资源
生物信息学对于网络工具高度依赖,由于受学时限制,课堂教学的内容非常有限。为了给学生创造一个良好的自学环境,我们应用屏幕录像软件开发了上机实践操作演示等教学资源;提供了课件供学生在网络上下载使用,该课件覆盖了生物信息学课程的全部教学内容,包括相关的动画演示等信息;另外还提供了DNASTAR、DNAMAN、MEGA、BIOEDIT等软件安装程序及使用手册,相关英文参考文献等,从而有效地扩大了学生的自学空间。
六、科研教学相长
本课程由具有生物信息学或分子生物学博士学位的教师承担,每位授课教师的科研课题均涉及生物信息学分析。在生物信息学的教学过程中,授课教师积极融合个人的科研工作经验和成果,丰富了教学内容。如在讲授Bankit在线序列提交及Sequin离线提交序列时,我们以提交至国际核酸序列数据库GenBank的芒草(Miscanthus sinensis)肉桂醇脱氢酶(JQ598683)、过氧化氢酶(JQ598684)、咖啡酰辅酶A-O-甲基转移酶(JQ598685)、肉桂酸-4-羟化酶(JQ598686)为例;在讲授基因外显子和内含子结构预测时,以牡丹(Paeonia suffruticosa)ACC氧化酶(FJ855434)和ACC合成酶(FJ769773)为例。通过把科研思路带入教学中,有效培养了学生的科研能力及创新能力。此外,教学实践也有利于教师全面了解生物信息学和相关学科的最新进展,不断为科研提供新思路。
七、考试方式改革
生物信息学课程的目的是提高学生利用信息技术解决生物学问题的能力,因此主要考查学生综合利用所学知识分析问题和解决问题的能力。在课程考核中结合平时书面作业、递交上机操作练习和考试三方面情况,综合评定。平时布置3次思考题目,以书面形式上交,占考核成绩的20%;上机实践操作的习题以电子版发送到教师的E-mail邮箱中,占考核成绩的30%;课程结束后给学生1周的时间复习,而后在计算机上答题,包括基础知识部分和上机操作部分,占考核成绩的50%。经过综合评定,能够比较客观地反映一个学生对该课程的实际掌握情况。采用这种考试方式后,一方面,促使学生在学习过程中,不必花大量工夫去死记硬背,而把重点放在了基本理论、基本知识的巩固及实践操作技能的提高上,有效地提高了学生的实践操作能力和创新能力;另一方面,也促使教师在教学过程中,注重从能力培养的角度进行教学课堂设计,提升教学质量和水平。
在教学过程中,通过激发学生的学习兴趣,采用双语多媒体教学方式,在重视基本理论和基本知识讲授的同时,加强上机实践操作,充分利用网络教学资源,将科研成果结合于教学过程中,结合考试方式改革与探索,大大提高了“生物信息学”课程的教学质量水平及教学效果。
[ 参 考 文 献 ]
[1] 葛威,鲍大鹏,董战峰,等.Visual BASIC编程在核酸序列分析中的应用研究初探[J].生物信息学,2004,(4):43-46.
篇4
>> FZ6基因及其蛋白的生物信息学分析 欧文氏杆菌铁代谢相关基因的生物信息学分析 丹参SmNAC1基因的克隆和生物信息学分析 小菜蛾p38MAPK基因的克隆与生物信息学分析 沙棘WRI1转录因子基因的生物信息学分析 水稻2个F―box基因的生物信息学分析 小菜蛾PxALP1基因的克隆与生物信息学分析 丙酮醛诱导细胞凋亡相关基因SHMT2L的生物信息学分析 结核分枝杆菌pst S1基因的扩增及生物信息学分析 玉米淹水诱导表达ZmERF5基因启动子的克隆与生物信息学分析 茶陵野生稻冷响应基因OrCr3的克隆及其生物信息学分析 黄芩葡萄糖醛酸水解酶基因的克隆、生物信息学分析及表达 子宫内膜异位症相关基因和microRNA的挖掘及生物信息学分析 黔北麻羊RERGL基因cDNA克隆与生物信息学分析 不同物种GATA—2基因编码区生物信息学分析 石榴等观赏植物DFR基因生物信息学分析 高丛越桔UFGT基因电子克隆和生物信息学分析 miRNA―497与miRNA―195基因簇在宫颈癌组织中的表达及预测靶基因的生物信息学分析 平邑甜茶MhWRKY15基因cDNA克隆及其生物信息学分析 弓1虫RH株SAG1基因序列体外扩增及生物信息学分析 常见问题解答 当前所在位置:l)进行二级结构预测;通过Protscale()预测分析蛋白质功能和疏水性/亲水性[9];利用CBS网站TMHMM Serverv.2.0(http://cbs.dtu.dk/services/TMHMM/)在线工具对氨基酸序列进行跨膜分析预测[10]。
2 结果与分析
2.1 黄瓜DVR基因序列的分析
根据DNAMAN软件分析可知,DVR基因序列全长1260pb,分别以ATG和TGA为起始密码子和终止密码子,共编码419个残基(图1),编码的蛋白质分子质量为45516 Da。
2.2黄瓜DVR及其同源序列的分析进化树
根据MEGA软件分析,将进化树分为五段,分别是四种白梨、野草莓、香瓜、两种黄瓜和鹰嘴豆(图2)。黄瓜DVR与黄瓜(JX239753.1)的同源基因关系最为接近,几乎完全相同,其次为香瓜,测得黄瓜与香瓜的同源距离约为0.029,与鹰嘴豆基因关系最远,测得它们之间的距离达到0.357。
2.3 黄瓜DVR蛋白二级结构预测
通过sopma在线软件预测可知,该蛋白由419个氨基酸组成,其中α螺旋和无规则卷曲所占比例最高,α螺旋有146个,占总数的34.84%,无规则卷曲有140个,占总数的33.41%。β折叠数量略少于无规则卷曲,但远多于β转角(图3)。
2.4 黄瓜DVR蛋白跨膜结构分析
跨膜结构域一般富含疏水性氨基酸残基,起着固系于细胞膜中的“抛锚”作用,具有跨膜结构域的蛋白属于跨膜蛋白类。通过TMHMM在线软件预测可知,横坐标表示氨基酸残基位置,纵坐标表示残基具有相应结构的可能性, 结果显示,联乙烯还原酶蛋白没有检测到跨膜区,可能不是跨膜蛋白,联乙烯还原酶蛋白极可能为覆盖蛋白(图4)。
2.5 黄瓜DVR蛋白的亲疏水性预测
用protscale软件分析可知,图中大于零的氨基酸为疏水性氨基酸,小于零的氨基酸为亲水性的氨基酸。通过预测可知,组成联乙烯还原酶蛋白的氨基酸中高亲水性的氨基酸的位点有两个(图5),分别是57和58,分值都是-2.667;组成联乙烯还原酶蛋白的氨基酸中高疏水性的氨基酸的位点206,分值是2.978。
3 讨论
本实验预测得黄瓜联乙烯还原酶蛋白为亲水性的非跨膜类蛋白,通过对蛋白质二级结构的预测可知,黄瓜联乙烯还原酶蛋白二级结构以α螺旋和无规则卷曲为主;根据同源序列的遗传距离得知黄瓜DVR与黄瓜(JX239753.1)同源基因关系最近,与鹰嘴豆基因关系最远。
绝大多数绿色植物进行光合作用离不开叶绿体的存在[11],而联乙烯还原酶是生物合成叶绿素必不可少的一个关键酶,迄今已在高等植物中检测到5种DVR活性[12]。联乙烯还原酶具有活性,对叶绿素的生物合成途径具有十分重要的意义
[13]。联乙烯蛋白酶基因的突变可能会引起联乙烯还原酶失活,对植物的生存、生长和繁殖造成较大的影响
[15]。应用生物信息学方法对已知黄瓜DVR序列进行比对、分析,从而对其结构和功能进行推断和预测,这可以为我们在开展试验研究前提供尽可能多的信息,从而为选择合适的试验方法提供理论参考,为进一步对该基因的功能研究提供线索。
[参考文献]
[1]闫世江, 张继宁, 刘洁. 低温对黄瓜伤害的研究进展[J]. 蔬菜, 2010, 5(10):31-34.
[2] 陈惠明, 刘晓虹. 黄瓜性型遗传规律的研究[J]. 湖南农业大学学报:自然科学版, 1999, 25(1):40-43.
[3] 孙洪涛. 黄瓜果实横径遗传分析及分子标记[D]. 哈尔滨: 东北农业大学, 2010.
[4] 曾维华. “黄瓜”始名考[J]. 上海师范大学学报:哲学社会科学版, 2000, 29(4): 313-315.
[5] Nielsen J G, Newman M, Nielsen H. Control and testing of a dynamic voltage restorer (DVR) at medium voltage level [J]. IEEE Transactions on Power Electronics, 2004, 19(3):806-813.
[6] 王平荣, 邓晓建. 高等植物叶绿素生物合成的联乙烯还原酶及编码基因研究进展 [J]. 西北植物学报, 2013, 33(4):843-849.
[7] 王江波. 中国水仙LTR反转录转座子研究及IRAP、REMAP分子标记的开发 [D]. 福州: 福建农林大学, 2012.
[8] 李凤梅, 盖雪梅. 半胱氨酸蛋白酶抑制剂的系统发生分析(英文) [J]. 农业科学与技术, 2010, 14(2): 44-54.
[9] 廖文彬, 崔百明, 温玮. 赤霉素负调控因子GhRGL(RGL-LIKE)基因序列与功能预测分析 [J]. 热带作物学报, 2009, 30(2): 773-781.
[10] 张繁. 结核分枝杆菌哺乳动物细胞入侵因子mce家族Rv0590A基因的性质及功能研究 [D]. 重庆: 西南大学, 2011.
[11] 兰金苹, 李莉云, 贾霖, 曹英豪, 白辉. 叶绿体基因编码蛋白质在水稻叶片生长过程中的表达研究[D]. 保定: 河北农业大学, 2011.
[12] 王平荣. 水稻824ys黄绿叶突变基因的图位克隆及功能分析[D]. 雅安: 四川农业大学, 2010.
篇5
关键词:推荐系统;生物信息学
推荐系统(Recommender System) [1]是个性化信息服务的主要技术之一,它实现的是“信息找人,按需服务”;通过对用户信息需要、兴趣爱好和访问历史等的收集分析,建立用户模型,并将用户模型应用于网上信息的过滤和排序,从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科;其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们,基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织,但是用户无法从大量的生物数据中寻求自己感兴趣的部分(著名的生物信息学网站NCBI(美国国立生物技术信息中心),仅仅是小孢子虫(Microsporidia)的DNA序列就达3 399种),因此在生物二次数据库上建立个性化推荐系统,能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下,生物信息学推荐系统将发挥强大的优势。
1推荐系统的工作流程
应用在不同领域的推荐系统,其体系结构也不完全相同。一般而言,推荐系统的工作流程[5]如图1所示。
(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等,所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6],即显式获取(Explicit)和隐式获取(Implicit),由于用户的很多行为都能暗示用户的喜好,因此隐式获取信息的准确性比显式高一些。
(2)信息处理。信息获取阶段所获得的用户信息,一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式,最常用的是用m×n维的用户—项目矩阵R来表示,矩阵中的每个元素Rij=第i个用户对第j个项目的评价,可以当做数值处理,矩阵R被称为用户—项目矩阵。
(3)个性化推荐。根据形成推荐的方法的不同可以分为三种,即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目,并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目,通过用户与近邻之间的“交流”,发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。
(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户,完成对用户的推荐。目前最常用的推荐可视化方法是Top-N列表[7],按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。
2生物信息学推荐系统的设计
综合各种推荐技术的性能与优缺点,本文构造的生物信息学推荐系统的总体结构如图2所示。
生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时,所留下的登录信息通过网站传递到推荐算法部分;推荐算法根据该用户的用户名从数据库提取出推荐列表,并返回到网站的用户界面;用户访问的记录返回到数据库,系统定时调用推荐算法,对数据库中用户访问信息的数据进行分析计算,形成推荐列表。
本系统采用基于近邻的协同过滤推荐算法,其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分,两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大,使得系统的可扩展性降低。本系统采用SVD矩阵降维方法,减少用户—项目矩阵的维数,在计算用户相似度时大大降低了运算的次数,提高了推荐算法的效率。
(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单,以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后,系统会自动为该用户创建一个“信息矩阵”,该矩阵保存了所有项目的ID号以及相应的用户评价,保存的格式为:S+编号+用户评价,S用于标记项目,每个项目编号及其评价都以“S”相隔开;编号是唯一的,占5位;用户评价是用户点击该项目的次数,规定其范围是0~100,系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。 (2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵,使用户信息矩阵数值化,假设系统中有M个用户和N个项目,信息处理的目的就是创建一个M×N的矩阵R,R[I][J]代表用户I对项目J的评价。
(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果,而且在系统较大的情况下,它既不能精确地产生推荐集,又忽视了数据之间潜在的关系,发现不了用户潜在的兴趣,而且庞大的矩阵增加了计算的复杂度,因此有必要对该矩阵的表述方式做优化,进行矩阵处理。维数简化是一种较好的方法,本文提出的算法应用单值分解(Singular Value Decomposition,SVD)技术[8],对用户—项目矩阵进行维数简化。
(4)相似度计算。得到降维以后的用户矩阵US,就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。
(5)计算用户邻居。该方法有两种[10],即基于中心的邻居(Center-Based Neighbor)和集合邻居(Aggregate Neighbor)。本系统采用了第一种方法,直接找出与用户相似度最高的前N个用户作为邻居,邻居个数N由系统设定,比如规定N=5。
(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中,而在前面的工作中已找出各用户的邻居以及与用户的相似度,推荐形成部分只需要对当前登录用户进行计算。推荐策略是:对当前用户已经访问过的项目不再进行推荐,推荐的范围是用户没有访问的项目,其目的是推荐用户潜在感兴趣的项目;考虑到系统的项目比较多,用户交互项目的数量很大,所以只筛选出推荐度最大的N个项目,形成Top-N推荐集,设定N=5。
3生物信息学推荐系统的实现
生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息,用SQL Server 2000实现。
数据访问层实现了与用户交互必需的存储过程以及触发器,也使用SQL Server 2000,主要完成以下功能:初始化新用户信息矩阵;插入新项目时更新所有用户的信息矩阵;用户点击项目时更新该用户对项目的评价;删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程,在这里不做详细的介绍。
推荐算法完成整个个性化推荐的任务,用Java实现。
(1)数据连接类DataCon。该类完成与SQL Server 2000数据库的连接,在连接之前必须要下载三个与SQL Server连接相关的包,即msutil.jar、msbase.jar和mssqlserver.jar。
(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换,静态成员Con调用DataCon. getcon()获得数据库连接,然后对数据库进行各种操作。把所有方法编写成静态,便于推荐算法中不创建对象就可以直接调用。
(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类,RecmmendSource用于保存当前用户的推荐列表,包括推荐项目号和推荐度;CurrentUserNeighbor用于保存邻居信息,包括邻居ID号、相似度及其访问信息。
(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法,主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。
下面给出方法FCArithmetic的关键代码:
Matrix user_item=this.User_Item_Arry(); //获取用户—项目矩阵
user_item=this.SVD_Calculate(user_item); //调用SVD降维方法
Vector c_uservector = new Vector(); //当前用户向量
Vector o_uservector = new Vector(); //其他用户向量
Vector c_user_correlate_vector = new Vector();
//当前用户与其他用户之间相似度向量
for(int i=0;i
for(int j=0;j
c_uservector.addElement(user_item.get(i,j));
//1.获得当前用户向量
for(int k=0;k
o_uservector.clear();
for(int l=0;l
o_uservector.addElement(user_item.get(k,l));
//2.获得其他用户的向量
//3.计算当前用户与其他用户的相似度
usercorrelativity=this.Correlativity(c_uservector,o_uservector);
c_user_correlate_vector.addElement(usercorrelativity);
}
//4.根据当前用户与其他用户的相似度,计算其邻居
this.FindUserNeighbor(i,c_user_correlate_vector);
}
根据邻居形成方法FCArithmetic,可以得到每个用户的邻居。作为测试用例,图6显示用户Jack与系统中一部分用户的相似度,可以看出它与自己的相似度必定最高;并且它与用户Sugx访问了相同的项目,它们之间的相似度也为1,具有极高的相似度。
4结束语
在传统推荐系统的基础上,结合当前生物信息学网站的特点,提出一个基于生物信息平台的推荐系统,解决了传统生物信息网站平台信息迷茫的缺点,为用户推荐其感兴趣物种的DNA或蛋白质序列。
优点在于协同过滤的推荐算法能发现用户潜在的兴趣,能促进生物学家之间的交流;推荐算法的邻居形成与推荐形成两部分可以单独运行,减少了系统的开销。
进一步的工作是分析生物数据的特点及生物数据之间的关系,增加用户和项目数量,更好地发挥推荐系统的优势。
参考文献:
[1]PAUL R,HAL R V. Recommender systems[J].Communications of the ACM,1997,40(3): 56-58.
[2]陈新.生物信息学简介[EB/OL].(2001).166.111.68.168/bioinfo/papers/Chen_Xin.pdf.
[3]林毅申, 林丕源.基于Web Services的生物信息解决方案[J]. 计算机应用研究, 2005,22(6): 157-158,164.[4]邢仲璟, 林丕源, 林毅申.基于Bioperl的生物二次数据库建立及应用[J]. 计算机系统应用, 2004(11): 58-60.
[5]AIRIA S, TAKAHISA A, HIROYA I,et al. Personalization system based on dynamic learning:International Semantic Web Conference[C].Sardinia:[s.n.],2002.
[6]BREESE J S, HECKERMAN D,KADIE C.Emperical analysis of predictive algorithms for collaborative filtering:proceedings of the Fourteenth Conference on University in Artificial Intelligence[C]. Madison:WI,1998:43-52.
[7]SCHAFER J B, KONSTAN J,RIEDL J.Recommender systems in e-commerce:proceeding of the ACM Conference on Electronic Commerce[C].Pittsburgh:PA,1999:158-166.
[8]PRYOR M H. The effects of singular value decomposition on collaborative filtering[EB/OL].(1998).cs.dartmouth.edu/reports/TR98-338.pdf.
篇6
>> 黄瓜DVR基因的生物信息学分析 斜纹夜蛾核型多角体病毒Ⅱ基因组DNA同源重复区生物信息学分析 人ALK-1近端启动子的生物信息学分析 酵母转录因子结合位点保守性的生物信息学分析 FZ6基因及其蛋白的生物信息学分析 黔北麻羊RERGL基因cDNA克隆与生物信息学分析 不同物种GATA—2基因编码区生物信息学分析 玉米谷胱甘肽过氧化物酶的生物信息学分析 石榴等观赏植物DFR基因生物信息学分析 欧文氏杆菌铁代谢相关基因的生物信息学分析 拟南芥和大白菜YABBY蛋白家族的生物信息学分析 丹参SmNAC1基因的克隆和生物信息学分析 小菜蛾p38MAPK基因的克隆与生物信息学分析 棉铃虫类胰蛋白酶的生物信息学分析 植物抗病WRKY转录因子生物信息学分析 葡萄NAC转录因子的生物信息学分析 抗逆性转录因子NAC的生物信息学分析 苹果TCP转录因子家族生物信息学分析 黑麦草EST―SSR分子标记开发及生物信息学分析 不结球白菜BcGAPDH的生物信息学分析 常见问题解答 当前所在位置:l)在线工具。病毒基因组结构图利用DNAStar Package中的SeqBuilder软件绘制。
⑤蛋白质跨膜结构和理化性质的预测及分析 病毒蛋白质的跨膜结构利用TMpred ()在线工具预测。蛋白质理化性质利用ExPASy的ProtParam(http:///protparam/)在线工具进行分析。
2 结果与分析
2.1 采集样品DNA病毒全长克隆和聚类分析
①TYLCV病毒分子鉴定 通过用TYLCV特异引物TYLCV-F/TYLCV-R对样品DNA进行PCR鉴定,结果显示,3个样品TYLCV-SXYL2、SXYL3和SXYL4都为带毒植株(图1),并克隆测序得到519 bp序列。以双生病毒DNA-B组分通用引物PCRc1/PBLv2040进行PCR扩增,未得到预期500~650 bp大小的条带,以双生病毒卫星DNA β鉴定通用引物Beta01/Beta02进行PCR反应,也未得到预期1 200~1 400 bp大小的条带。结果表明,陕西杨凌地区侵染番茄的TYLCV为不含DNA-B且不伴随卫星DNA β的单组分病毒,只含DNA-A。
②DNA-A全长的同源矩阵 选择NCBI登录的国内外不同地区分离的19个TYLCV分离物(表2),用DNAMAN多序列比对后构建同源矩阵(表3)。发现杨凌区3个分离物TYLCV-SXYL2、SXYL3、SXYL4核苷酸序列全长之间相似度为99.3%~99.4%,且和TYLCV-IS相似度为97.7%~97.8%。杨凌区的3个病毒分离物与山东寿光分离物TYLCV-SDSG的相似度都为99.6%,与陕西泾阳的分离物TYLCV-SX8的相似度都为99.1%。
③基于DNA-A全长的系统进化树 陕西杨凌3个TYLCV分离物同19个不同国家地区的TYLCV通过MEGA5.05软件中MUSCLE算法多序列比对后,用邻近相连(Neighbor-Joining)法构建系统进化树(图2)发现,杨凌分离物和山东寿光分离物TYLCV-SDSG、河北石家庄分离物TYLCV-SJZ1、陕西泾阳分离物TYLCV-SX8、安徽分离物TYLCV-AH1、北京分离物TYLCV-Beijing3、美国分离物TYLCV-USA及浙江分离物TYLCV-ZJ8在同一小支上,且与山东寿光分离物TYLCV-SDSG亲缘关系最近。上述分离物还与上海分离物TYLCV-SH2[9]、日本分离物TYLCV-Janpan、荷兰分离物TYLCV-Netherlands和以色列株系TYLCV-IS在同一大支上。意大利撒丁岛分离物TYLCSV和西班牙马加拉分离物TYLCMalV在同一支。广东分离物TYLCGV-G3和越南分离物TYLCVNV在同一支。新疆分离物TYLCV-XJ26-4和广西分离物中国番茄黄化曲叶病毒TYLCCNV为同一支。云南分离物TYLTHV-Y72和泰国分离物TYLCTHV在同一支。由此可知,我国番茄黄化曲叶病毒的分布和种类同样有较大的复杂性和多样性,而杨凌番茄黄化曲叶病毒分离物很可能由最早发现的TYLCV-IS发展而来,且与山东寿光分离物亲缘关系最近,基于杨凌地区与山东寿光种苗交易频繁的现状,推测很可能是因为感病幼苗交易带来了病毒传播与蔓延。
2.2 病毒DNA-A全长序列和基因组结构
设计背向引物PCR扩增并克隆得到病毒DNA-A全长。测序结果表明,TYLCV-SXYL2、SXYL3、SXYL4(GenBank登录号依次为KC138545、KC138544、KC138543)全长都为2 781 nt,共编码6个开放阅读框(图3),在病毒链上编码外壳蛋白和AV2蛋白,在互补链上编码复制相关蛋白、转录激活子、复制增强子和AC4蛋白。在AC1和AV2之间有313 nt的非编码区,也叫基因间隔区。
①基因间隔区 基因间隔区(Intergenic Region,IR)位于1~147 nt和2 616~2 781 nt,共含313个核苷酸,有调控病毒复制和转录起始必须的元件,含有病毒复制和转录所必需的结构域以及茎环结构,茎环顶端有保守的九核苷酸TAATATT/AC序列。由于IR区相对于编码区选择压小,也是病毒变异最活跃的区域。通过对TYLCV-SXYL2、SXYL3、SXYL4 和 TYLCV-IS的IR区核苷酸序列比较(图4)发现,其特征序列中茎环顶端的九核苷酸TAATATT/AC(位于2 775~2 781 nt及1~2 nt)保守序列、TATA box和TATATA box,与TYLCV-IS一致,但CAAT box和5~8 nt短重复序列已表现出与TYLCV-IS有较大差异,其中短重复序列是Rep蛋白的结合位点。
②编码蛋白的结构和性质分析 为进一步了解杨凌番茄黄化曲叶病毒分离物编码蛋白质氨基酸序列的变异特点和更好地进行蛋白质性质分析,将TYLCV-SXYL4与19个其他地区分离物及TYLCV-SXYL2、SXYL3编码的6个蛋白质氨基酸序列相似度进行比较分析(表5),结果显示,杨凌3个分离物和越南番茄黄化曲叶病毒TYLCVNV、以色列TYLCV-IS转录激活子TrAP的氨基酸序列完全相同。TYLCV- SXYL3、 SXYL4和山东寿光分离物TYLCV-SDSG及河北石家庄分离物TYLCV-SJZ1复制增强子REn的氨基酸序列完全相同,且与TYLCV-IS的REn氨基酸序列相比,第58位由缬氨酸(Valine, V)突变为丙氨酸(Alanine,A)、第59位由甲硫氨酸(Methionine,M)突变为亮氨酸(Leucine,L)、第94位由天冬氨酸(Aspartic acid,D)突变为酪氨酸(Tyrosine,Y)、第124位由谷氨酸(Glutamic acid,E)突变为丙氨酸。TYLCV-SXYL2、SXYL3、SXYL4和日本分离物TYLCV-Japan、山东寿光分离物TYLCV-SDSG、上海分离物TYLCV-SH2、河北石家庄分离物TYLCV-SJZ1的C4蛋白氨基酸序列完全相同,与TYLCV-IS的C4蛋白氨基酸序列相比,第64位由脯氨酸(Proline,P)突变为丝氨酸(Ser,S)、第67位由甲硫氨酸突变为异亮氨酸(Isoleucine,I)、第84位由赖氨酸(Lysine,K)突变为精氨酸(Arginine,R)。
通过TMpred在线工具分别对杨凌3个病毒分离物编码的6个蛋白进行跨膜结构预测发现,CP、 Rep、REn存在跨膜结构(图5),而V2、TrAP、C4为胞内蛋白;杨凌3个病毒分离物的CP、V2、Rep和REn氨基酸序列有1~2个位点的区别,没有影响蛋白质的跨膜结构的预测结果。
利用ExPasy的ProtParam在线工具对TYLCV-SXYL2、SXYL3、SXYL4和TYLCV-IS编码蛋白的理论等电点、不稳定系数和亲水性平均系数进行预测和比较分析(表6),发现杨凌番茄黄化曲叶病毒分离物和TYLCV-IS编码AV2蛋白和REn的理论等电点差异较大。按不稳定系数40为不稳定蛋白推测,CP、V2、TrAP、C4为不稳定蛋白,Rep和REn为稳定蛋白。
3 讨论与结论
为了进一步明确引起杨凌地区不同番茄主产区番茄黄化曲叶病害的病原种类和分子特征,依据Begomovirus分类中同时满足外壳蛋白氨基酸序列相似度>90%和核苷酸全长相似性>89%才可能为同一病毒的不同分离物的标准[10],本研究在杨凌区3个不同番茄主产区调查采样并对全基因组进行了测序和基因组结构分析。本研究表明,在杨凌区五泉、揉谷和李台的番茄主产区引起番茄黄化曲叶病的病原确为TYLCV-IS株系的不同分离物(TYLCV-SXYL2、TYLCV-SXYL3、TYLCV-SXYL4),经鉴定,这3个分离物都为单组分双生病毒且不伴随卫星分子。李云洲等[11]克隆了杨凌地区西北农林科技大学园艺实验场番茄黄化曲叶病毒外壳蛋白基因后发现,其氨基酸序列与以色列株系TYLCV-IS相似度>90%。
陕西省泾阳县2010年暴发番茄黄化曲叶病
后[12],杨凌地区各大番茄主产区在2011年相继发现番茄黄化曲叶病。但由系统进化树构建及病毒编码的6个蛋白氨基酸相似度比对结果发现,杨凌与山东寿光分离物TYLCV-SXSG亲缘关系比与地理位置最近的泾阳分离物TYLCV-SX8的近,病毒蛋白特别是TYLCV-SXYL3、SXYL4编码的REn的氨基酸序列相似度与TYLCV-SDSG达100%,与泾阳TYLCV-SX8仅为97.8%,这说明了植物病毒的传播流行不仅受地理位置、气候环境的影响,人为因素也起着越来越重要的作用。
虽然TYLCV基因组小,编码的蛋白数量有限,但其与寄主的互作及致病机理仍然不清楚[13]。本研究对不同TYLCV编码的蛋白质间的氨基酸相似度、蛋白质的理化特性和跨膜结构进行了生物信息学分析及比较,表明CP、Rep、REn为跨膜蛋白,V2、 TrAP、C4为胞内蛋白,Rep和REn为稳定蛋白,CP、 V2、TrAP、C4为不稳定蛋白。
参考文献
[1] Foolad M R, Panthee D R. Marker-assisted selection in tomato breeding[J]. Critical Reviews in Plant Sciences, 2012, 31(2): 93-123.
[2] Lefeuvre P, Martin D P, Harkins G, et al. The spread of tomato yellow leaf curl virus from the Middle East to the world[J]. PLoS Pathogens, 2010, 6(10): e1001164.
[3] Pan H P, Chu D, Yan W Q, et al. Rapid spread of tomato yellow leaf curl virus in China is aided differentially by two invasive whiteflies[J]. PLoS One, 2012, 7(4): e34817.
[4] Liu B M, Preisser E L, Chu D, et al. Multiple forms of vector manipulation by a plant-infecting virus: Bemisia tabaci and tomato yellow leaf curl virus[J]. Journal of virology, 2013, 87(9): 4 929-4 937.
[5] 李常保,柴敏,李季,等.北京番茄黄化曲叶病毒病的发生及分子检测[J].中国蔬菜, 2010(1):28-30.
[6] Rojas M R, Gilbertson R L, Maxwell D P. Use of degenerate primers in the polymerase chain reaction to detect whitefly-transmitted geminiviruses[J]. Plant Disease, 1993, 77(4): 340-347.
[7] Briddon R W, Bull S E, Mansoor S, et al. Universal primers for the PCR-mediated amplification of DNA β[J]. Molecular Biotechnology, 2002, 20(3): 315-318.
[8] Tamura K, Peterson D, Peterson N, et al. MEGA5: molecular evolutionary genetics analysis using maximum likelihood, evolutionary distance, and maximum parsimony methods[J]. Molecular biology and evolution, 2011, 28(10): 2 731-2 739.
[9] Zhang Y P, Zhu W M, Cui H M, et al. Molecular identification and the complete nucleotide sequence of TYLCV isolate from Shanghai of China[J]. Virus Genes, 2008, 36(3): 547-551.
[10] Fauquet C M, Bisaro D M, Briddon R W, et al. Revision of taxonomic criteria for species demarcation in the family Geminiviridae, and an updated list of begomovirus species[J]. Archives of Virology, 2003, 148(2): 405-421.
[11] DiazPendon J A, Truniger V, Nieto C, et al. Advances in understanding recessive resistance to plant viruses[J]. Molecular Plant Pathology, 2004, 5(3): 223-233.
篇7
(1.中国医学科学院北京协和医学院药用植物研究所,北京 100193;2.中国医学科学院药用植物研究所云南分所,
云南 景洪 666100;3.广西药用植物园,南宁 530023;4.广西中医药大学,南宁 530001)
摘要:FOS蛋白作为一类核蛋白转录因子,在调控细胞生长、分裂、增殖、分化乃至程序性死亡等方面具有重要的作用,它的表达影响了许多生命活动和过程,引起了人们的广泛关注,并在学习记忆及的标记方面吸引了学者的眼球。对FOS蛋白的作用进行了综述,并对人、大鼠及小鼠FOS蛋白进行了生物信息学分析,旨在为FOS蛋白在生理学方面的研究提供参考依据。
关键词 :FOS蛋白;转录因子;生物信息学
中图分类号:Q816;Q811.4 文献标识码:A 文章编号:0439-8114(2015)07-1537-06
DOI:10.14088/j.cnki.issn0439-8114.2015.07.001
FOS是c-fos基因转录产生的成熟mRNA编码的一个核磷蛋白。c-fos基因是人或动物细胞中固有的正常基因,属于即刻早期应答基因(Immediate early response genes,IEG),FOS作为一类核蛋白转录因子,在调控细胞生长、分裂、增殖、分化乃至程序性死亡等方面具有重要作用。FOS蛋白和c-fos基因受到广泛的关注,研究不断深入。本文就FOS蛋白的作用及其在性行为方面的研究进行了论述,对人、大鼠及小鼠的FOS蛋白进行了生物信息学分析。
1 FOS蛋白
c-fos基因高度保守,属多基因家族,与其同族的还有fos-B,fos-1和fros-2。c-fos可在多种因素诱导下迅速地表达,其转录激活在5 min内即可产生,一般维持15~20 min,c-fos mRNA的蓄积在刺激后30~45 min可达高峰,半衰期为12 min。FOS蛋白合成后即刻转入细胞核内,一般在刺激后20~90 min即可检出,60~90 min达峰值,可持续2~5 h,半衰期为2 h[1]。
2 FOS蛋白的作用
在原癌基因的研究中对IEG产物的研究提示FOS蛋白可能是神经元被刺激激活的一种标志[2]。现代学者认为,FOS蛋白参与细胞的正常分化、生长以及学习、记忆等过程,在脑内与皮层、海马、边缘系统、背海马、纹状体内FOS蛋白的表达密切相关[3-7]。在病理状态下与许多疾病的发生、发展有关,如宫颈癌[8]、癫痫[9]。目前FOS蛋白表达还用于偏头痛治疗药物筛选、药效评价和发病机理研究模型的建立[10]、鉴别生前电击与死后电击[11]、作为临床提示脑部受伤时间的参考指标[12]。
FOS蛋白参与神经肽的调节,与神经元的可塑性有关,如细胞水平记忆的形成、神经元损伤后的再生等[1]。当受到如脑缺血、脑出血、血管性痴呆、痫性发作、热应激、恐惧和愤怒应激等刺激后,其在数分钟内做出反应,导致中枢神经系统不同区域出现不同数量的FOS蛋白表达[13],如室旁核[14,15]、下丘脑视上核、下丘脑、杏仁核[16]等,在对外界刺激-转录耦联的信息传递过程中起着核内第三信使的重要作用[17],且各种急性应激所致小鼠空间学习记忆功能的改变与FOS蛋白表达的上调有关,其表达在应激后1 h明显增加[18]。Moore等[19]研究发现,FOS蛋白的持续表达是细胞终末分化的标志及发生死亡的先兆[20],同时还能抑制使细胞维持生存的一些基因的表达,维持着随后的细胞死亡过程并持续很长时间[21]。
3 FOS蛋白与性行为
多年的研究发现大脑接收相关的信号,FOS蛋白的表达可作为与性行为的各个方面尤其是相关的神经活动的标志物[22-24],并且FOS蛋白随着性行为的增加而表达增高[25-27],其表达可能与感觉输入或行为输出有关,或者两者都有,人们普遍认为诱导FOS蛋白表达与感觉信息的处理比触发更相关[28]。
现在FOS蛋白已被用于雄性和雌性啮齿动物大脑性行为的图谱功能网络的绘制[29,30],并且使用FOS蛋白作为标志物具有病变而不会影响细胞分辨率的优势[31-35]。由于分辨率大,时FOS蛋白的增加发生在内侧视前区、杏仁核、条纹终末核、中央被盖区[36-39]、束旁丘脑核[26]、附属嗅球、伏隔核、腹外侧隔、条纹床核、内侧视前区、下丘脑室旁核、腹内侧核、杏仁核、杏仁海马区、腹侧被盖区等。这些脑区域都是性行为调节下的神经网络的部分[40]。总之插入和诱导了FOS蛋白在雄鼠大脑区域中的表达。研究中还发现许多性刺激后FOS蛋白表达的区域是控制雌性性行为和繁殖功能不同方面的区域。在大鼠中,当具有性经验的雄性接触雌性但还没有开始骑跨时在内侧视前区尾部内有FOS蛋白的感应现象[25],在密闭的容器中为雄性提供动情或者不动情雌性弄脏的垫料时该区也有感应[41]。相比之下,在大鼠、雄性仓鼠[33,42]、雄性沙鼠[32]和雪貂[34]中,随着中的插入和可能减少了FOS蛋白阳性催产素神经元在前侧和内侧分泌性细胞分区中的数量[43]。研究还发现FOS蛋白离散集群只在特定的分区位置出现并且是在后而不是插入后就出现[26,32]。在大鼠中, 这些 FOS蛋白集群的神经元通常出现在杏仁核外侧区、条纹终末核喙部、束旁丘脑核内侧。表明后激活了特定的脑部亚分区,能诱导FOS蛋白在大脑特定区域有选择性的表达[29]。
4 FOS蛋白的生物信息学分析
4.1 人类FOS蛋白
人类FOS蛋白(GenBank:CAA24756.1)的编码基因定位于染色体的14q21-31,该基因有4个外显子和3个内含子,FOS蛋白为380个氨基酸的不稳定核内磷酸化蛋白[44]。FOS蛋白存在一个由88个完全相同的氨基酸顺序组成的区域,这个区域包括一个能与DNA结合的基本区和亮氨酸拉链结构。通过Expasy进行一级结构分析可知FOS蛋白的分子式为C1767H2774N480O586S18,相对分子质量为40 695.40,理论等电点pI4.77,带正电残基(Arg+Lys)为33个,带负电残基(Asp+Glu)为51个。该蛋白的不稳定系数为78.82,说明其不稳定。脂肪系数为65.32,亲水性系数为- 0.37,消光系数为21 930,哺乳动物的网织红细胞体外的半衰期为30 h。结构域预测发现其基本区域为亮氨酸拉链的BRLZ蛋白,属于B-ZIP超家族。
利用SOPMA对FOS蛋白序列进行二级结构预测,结果表明,FOS蛋白二级结构中α-螺旋(Alpha helix)占26.84%,β-折叠(Beta turn)占1.05%,延伸链(Extended strand)占8.16%,无规则卷曲(Random coil)占63.95%(图1)。
用Swissmodel对其进行了三级结构预测和可视化分析(图2)。该三级结构模型中用于建立模型的氨基酸残基范围为138~200位,该模型以2wt7A(2.30A)蛋白为模板,序列同源性为100%,E-value为1.43e-28.
4.2 大鼠FOS蛋白
大鼠FOS蛋白(NCBI reference sequence:NP_071533.1),FOS蛋白的分子式为C1776H2791N4
83O592S17,肽链包含380aa,相对分子质量为40 926.60,理论等电点pI4.81,带正电残基(Arg+Lys)为33个,带负电残基(Asp+Glu)为50个。该蛋白的不稳定系数为76.60,说明其不稳定。脂肪系数为65.29,亲水性系数为- 0.43,消光系数为23 420,哺乳动物的网织红细胞体外的半衰期为30 h。结构域预测发现其基本区域为亮氨酸拉链的BRLZ蛋白,属于B-ZIP超家族。
二级结构预测结果表明,FOS蛋白二级结构中α-螺旋(Alpha helix)占27.63%,β-折叠(Beta turn)占1.05%,延伸链(Extended strand)占8.68%,无规则卷曲(Random coil)占62.63%(图3)。
用Swissmodel对FOS蛋白进行了三级结构预测(图4)。该三级结构模型中用于建立模型的氨基酸残基范围为138~200位,该模型以2wt7A(2.30A)蛋白为模板,序列同源性为100%,E-value为1.26e-28.
4.3 小鼠FOS蛋白
该蛋白PDB ID为2WT7,相对分子质量为28 329.84,保守结构域基本区域为亮氨酸拉链的BRLZ蛋白,属于B-zip1超家族。2WT7有4条链。第一条链为63个残基的多肽,二级结构为96%的α-螺旋。第二条链为90个残基的多肽,二级结构为84%的α-螺旋,其余两条链均为16个残基。从PDB上下载其三级结构(图5)。
4.4 FOS蛋白的序列比对与系统进化树的建立
对大鼠FOS蛋白进行Blastp比对,选择同源性较高或研究较多的动物FOS蛋白序列进行分析。结果表明,与小鼠和金仓鼠(Mesocricetus aurarus)同源性最高,为97%,其次为猩猩(Pongo abelii)、野骆驼(Camelus ferus)各为95%、人(Homo sapiens)为94%、黑猩猩(Pan troglodytes)为94%。
从NCBI的数据库中挑选23个物种的FOS蛋白序列用MEGA5.0绘制进化树,结果显示大鼠与小鼠直接聚为一类,亲缘关系最近,这与序列Blastp的分析结果一致。因此通过以上对大鼠、人及小鼠的FOS蛋白进行对比可以看出,三者的同源性较高,结构和性质相似(图6)。
5 讨论
目前,关于FOS蛋白对细胞生命活动的研究取得了重要进展,尤其在各种应激反应对FOS蛋白表达的影响及FOS蛋白表达与一些疾病的相关方面,如冀群升等[1]研究发现FOS蛋白与神经元的可塑性有关,它可以通过参与神经肽的调节影响细胞水平记忆的形成,方向义等[13]在研究中也发现受到各种应激后在数分钟内中枢神经系统不同区域出现不同数量的FOS蛋白表达,且各种急性应激所致小鼠空间学习记忆功能的改变与FOS蛋白表达的上调有关[18]。而在研究性行为中也发现时一些与学习记忆相关的区域中FOS蛋白也随之增加,如室旁核[14,15]、下丘脑视上核、下丘脑、杏仁核[16]等,这提示FOS蛋白可能与性行为中的学习记忆有关。然而FOS蛋白在这些尤其在性行为这一神秘的过程中是如何发挥作用的,这些作用又与哪些基因和蛋白有关等问题还有待深入研究。
由于从人类脑部取样困难,试验往往选用大鼠脑部作为试验材料,不仅因为大鼠基因组与人类基因组相似度达90%,且大鼠脑量较大,取材方便,生物信息学分析发现大鼠、人及小鼠的FOS蛋白的同源性较高,结构和性质相似。尤其是大鼠和人类的FOS蛋白、相对分子质量、等电点等均相差较小,立体结构高度相似,因此研究大鼠FOS蛋白对研究人类FOS蛋白的各种性质和功能有极大的参考意义,本次生物信息学分析也可为大鼠大脑作为人类FOS蛋白研究的替代材料提供证据。
参考文献:
[1] 冀群升,章静波. c-fos原癌基因的进展[J].国外医学(分子生物学分册),1994,16(4):152-156.
[2] 王晓明,韩济生.原癌基因与核内第三信使.神经科学纲要[M].北京:北京医科大学,中国协和医科大学联合出版社,1993.
[3] 张玉秋,梅 俊.学习记忆对脑内c-fos基因表达的影响[J].生命科学,2000,12(5):229-230.
[4] 张玉秋,梅 俊.学习和记忆对大鼠背海马结构内c-fos表达的影响[J].中国神经科学杂志,2000,16(2):138-142.
[5] GILL K M, BERNSTEIN I L,MIZUMORI S J.Immediate early gene activation in hippocampus and dorsal striatum:effects of explicit place and response training[J]. Neurobiol Learn Mem, 2007,87(4):583-596.
[6] 舒 丹,吴 江,上官守琴,等.催产素抑制外周刺激诱发的大鼠海马LTP及FOS蛋白表达[J].基础医学与临床,2009,29(8):845-849.
[7] 于 芳,张安民,王根深,等.间歇性负重游泳训练对大鼠杏仁基底外侧核(BLA)FOS蛋白表达的影响[J].北京体育大学学报,2008,31(10):1357-1360.
[8] 熊 晶,刘凤英,陶光实,等. c-fos和c-jun在宫颈癌、CIN及宫颈炎中的表达及意义[J].现代生物医学进展,2009,9(4):687-689.
[9] 陈 功,江澄川. c-fos、c-jun与癫痫[J].中华神经医学杂志,2005,4(8):853-854.
[10] 彭 成,任永欣,姚 干,等.实验性偏头痛动物模型c-fos、c-jun基因表达[J].中国实验动物学报,2000,8(2):112-119.
[11] 王 晔,廖志钢,王世春,等.大鼠电流损伤多器官c-fos表达研究[J].法医学杂志,2005,21(3):171-176.
[12] 张 辉,李卫东,薄爱华,等.FOS蛋白在脑挫伤皮质和海马中表达的研究[J].中国组织化学与细胞化学杂志,2004,13(1):110-113.
[13] 方向义,胡海涛.中枢神经系统FOS蛋白的表达与外周伤害性刺激[J].神经解剖学杂志,1996,12(3):281-283.
[14] 卢晓虹,李凌江,李昌琦,等.应激对中枢神经系统即刻早期基因c-fos表达及HPA轴的调节作用研究[J].中国心理卫生杂志,2000,14(1):10-13.
[15] 赵正卿,雷 辉,刘俊华,等.热应激时下丘脑视上核和室旁核FOS蛋白的表达[J]. 神经解剖学杂志,2007,23(3):313-317.
[16] 刘晓伟,曲宏达,张红梅,等.怒、恐应激大鼠脑内c-fos与CRHmRNA表达差异性分析[J].四川中医,2006,24(1):11-13.
篇8
牙齿的生长发育是一个持续而复杂的过程,一些关键基因和调控因子在牙齿发育中起着重要作用。赫尔辛基大学创建了牙齿发育数据库,收录了牙组织发育中的基因特征、结构及表达情况等。Hubbard等运用蛋白质组学技术、结合Edman测序及质谱分析方法,对釉质的发育进行了大量的研究,初步构建了口腔牙组织的蛋白数据库,为口腔内组织蛋白的鉴定提供了重要的研究范本。聂敏等运用二维凝胶电泳和生物信息学方法研究维生素D对牙髓细胞分化的影响,结果表明:维生素D可促进牙髓细胞的分化,并在牙齿发育和矿化过程中起了重要的调节作用。Jevnaker等利用基因芯片技术以整个牙胚作为研究对象,首次构建了小鼠牙胚在不同时期的微小RNA表达谱,从基因调控机制上研究了牙齿的生长发育。
2在口腔肿瘤研究中的应用
目前的研究多利用生物信息学方法比较基因组学和蛋白质组学,能够高效率、高通量地筛选口腔肿瘤的相关基因和蛋白,寻找肿瘤的诊断标记和治疗靶点。
2.1口腔鳞状细胞癌(oralsquamouscellcarcino-ma,OSCC)
OSCC是口腔常见的恶性肿瘤之一。美国国立癌症研究所用抗体芯片的高通量蛋白组分析方法推测认为,上皮和间充质间涉及的多重细胞信号的分子信息在口腔癌的发生中起了关键作用。2004年,香港大学利用蛋白质组分析方法检测了OSCC细胞,获得了丰富的蛋白质信息,鉴定了与肿瘤相关的生物标记物或分子靶点。2005年日本千叶大学通过使用生物信息学的方法,鉴定了OSCC与正常组织中22种蛋白的表达存在差异。Wang等研究表明,活化激酶C受体1蛋白在OSCC中存在差异性表达,可作为OSCC的临床诊断分子标记物、临床预后指标及候选药物靶标等。张永强等使用生物信息学技术构建人舌鳞癌细胞cDNA库,并预测了Doc-1基因编码的P12蛋白的某些结构和功能基序。另有研究采用甲基化DNA免疫沉淀结合芯片技术分析研究了口腔疣状癌中基因组DNA甲基化的情况,为进一步探讨口腔疣状癌的发生分子机制和治疗靶基因奠定了基础。
2.2涎腺腺样囊性癌(salivaryadenoidcysticcar-cinoma,SACC)
SACC是涎腺常见的上皮源性恶性肿瘤之一。卢友光等采用第二代差异显示技术构建了SACC高低转移细胞株的基因表达谱,通过生物信息学分析发现,Notch基因家族中的4个成员在ACC-2、ACC-M这2个细胞株中存在表达差异。另一研究运用生物信息学初步筛选出Notch信号通路在SACC中所涉及的基因,并采用实时荧光定量聚合酶链式反应和免疫组学方法进行了验证,结果显示:Notch信号通路中有46个基因与SACC相关,并检测出其中的8个基因在SACC高低转移细胞株中存在表达差异。
3在口腔黏膜疾病研究中的应用
3.1口腔扁平苔癣(orallichenplanus,OLP)
OLP是一种口腔黏膜癌前状态,其病因不明。王文梅等建立了OLP与口腔正常黏膜蛋白表达谱,对OLP在双向电泳图谱中高表达差异的10个蛋白质进行质谱和生物信息学分析,鉴定发现了差异表达的蛋白。Tao等利用DNA芯片的特点筛选并建立了OLP的病变基因表达谱,研究共发现了985个差异表达基因,其中629个上调,356个下调,这为研究OLP的发病机制打下了基础。
3.2口腔白斑(oralleukoplakia,OLK)
OLK指仅仅发生在口腔黏膜上的白色或灰白色角化性病变的斑块状损害。王文梅等通过蛋白质差异组学研究和生物信息学分析,鉴定出膜联蛋白A2、角蛋白8以及角蛋白Ⅰ和Ⅱ型角蛋白亚基、免疫球蛋白J型轻链的C区片段等在OLK的发生发展过程中发生了改变。Odani等采用寡核苷酸芯片技术发现:兜甲蛋白和角蛋白在OLK的发生发展过程中的表达差异较大,且多个基因在癌变过程中显著下调。周晌辉等利用cDNA芯片成功检测出OLK和OSCC组织中30个基因的表达差异,其中17个为已知功能基因,这些功能基团与细胞分裂、信号传导、免疫防御、细胞代谢及细胞成分等密切相关。
4在牙周疾病研究中的应用
牙周炎是导致成年人牙齿丧失的主要原因,严重影响了人类的身体健康。Steinberg等使用具有上皮细胞特异性的DNA芯片研究了白细胞介素对口腔角质形成细胞1β的作用,确定了与牙周炎相关的几个基因。Vardar-Sengul等通过DNA芯片在1次实验中同时分析出了超过40000个基因,得到了类似的结果。Beikler等构建了重度慢性牙周炎患者的牙周组织中的一些免疫和炎症基因的表达谱。Covani等利用生物学实验及生物信息学算法,鉴定出参与或可能参与牙周炎的61个基因,其中5个是主导基因,并完全建立起2个主导基因的牙周炎模型。
5在其他口腔研究中的应用
5.1口腔微生物
口腔微生物在维持口腔正常生理体系和诱导口腔疾病发生中具有重要作用。Chen等构建了口腔病原体的生物信息学资源。2008年,人体口腔微生物组数据库启动,方便了研究者查看和检索口腔微生物信息。在对口腔致病菌的研究中,郭丽宏等利用生物信息学相关软件及数据库进行C血清型变异链球菌高毒力株特异DN段的基因分析、识别和功能预测,发现了5个新的基因片段以及高毒力株特异的DN段的主要功能。刘筱娣等采用生物信息学结合Southern印迹杂交法,构建了变异链球菌的苏氨酰-tRNA合成酶基因敲除的重组质粒。另有研究者应用鸟枪法、蛋白质组学分析、美国国家生物技术信息中心检索等,建立了变异链球菌耐氟菌株和亲代菌株的蛋白质组表达谱。
5.2口腔唾液
篇9
关键词:生物信息学;合作式教学;教学模式;教学改革
作者简介:刘庆坡(1976-),男,河北曲阳人,浙江农林大学农业与食品科学学院,副教授。(浙江 临安 311300)
基金项目:本文系浙江农林大学“农学类核心课程教学团队”项目(项目编号:TD1201)、浙江农林大学研究生优质课程建设项目《生物信息学》的研究成果。
中图分类号:G642.0 文献标识码:A 文章编号:1007-0079(2013)16-0110-02
生物信息学是20世纪90年代由多学科知识相互渗透、融合而兴起的一门新兴交叉学科,现已成为当今生命科学和自然科学的重大前沿领域之一。[1]基于本学科在现代生命科学研究中的重要地位,现在国内外许多高校都纷纷设置了生物信息学专业或开设了“生物信息学”课程。[2]为培养具有创新精神和创业能力的应用型、复合型人才,浙江农林大学近年来面向农学等本科专业及作物、森林培育、林木遗传育种等研究生专业开设了“生物信息学”选修课程。
生物信息学是理论概念与实践应用并重的学科,具有开放性、发展性、交叉性、综合性、应用性等特点。鉴于此,尽管国内的生物信息学科学研究开展得如火如荼,但由于受到师资、教材、授课对象、教学条件、教学法等因素限制,[3,4]开设该课程的高校尚未真正形成一套成熟的、科学的教学体系。近年来,各高校根据自身特点,不断探索将CM法、PBL法、探究性、启发性教学、双语教学等教学法与手段引入课堂,并革新教学内容及考核方式等,取得了不错的课程教学效果。[3,5-9]
现代教学改革与实践证明,在教学过程中必须要突出“学生是教学活动的主体”,既要注意张扬学生“个性”,更要强化学生团队合作意识及创新、创业能力培养,以保证人才培养质量。杨瑞等[10]调查发现,现在大部分学生比较“独”,不愿意与人合作,这导致学生间人际关系淡漠,学习、做事效率低下。随着各种“组学”计划的开展,产生了数以万、亿计的序列数据,生物信息学得到了空前发展。在这种情况下,传统的“填鸭式”、“布道式”教学模式已与当前社会快速发展的局面格格不入,迫切需要变革。合作式教学法是20世纪70年代兴起于美国的一种参与式或协作式教学法,它以学生为中心,在教师恰当的组织、引导和有效调控下,使学生成为教学过程中的积极成分,通过“师生”、“生生”积极合作完成教学任务。[11]为激发学生的学习积极性和教学参与热情,在采用启发式、案例式和研讨式教学基础上,尝试将合作式教学法引入“生物信息学”教学课堂。
一、开展合作式教学的必要性
“团结就是力量“、“独学而无友,则孤陋而寡闻”、“三人行必有吾师”等至理名言很好地阐释了团队合作的重要性与必要性。浙江农林大学于2008年开始在农学、种子科学与工程等专业开设“生物信息学”课程。农学是生命科学领域的重要学科之一,基因组学和生物信息学的发展极大地促进了农学等生物科学研究的进步。因此,系统学习并掌握生物信息学的基本知识、基本理论和基本技能,不仅是学校培养“两创型”高素质农业科技人才的需要,也是国家发展现代高新农业对农学相关专业学生的基本要求。
但是,经过几年教学实践发现,浙江农林大学农学相关专业学生学习“生物信息学”课程主要存在以下2个问题:
一是学生的重视程度不够。有些学生对该课程的认识比较偏颇,不清楚其教学目的及学后有何用处,因而学习目的不明确,学习动力不足。
二是学生的知识水平参差不齐。由于本课程理论性与实践性并重,前后知识点的衔接相对比较紧凑,且生物信息学相关网站、数据库和软件等均使用英文,有些学生数理化、计算机和英语等基础知识不太扎实,在不能有效掌握某些知识点后,久而久之会产生厌学情绪。因此,采用教师讲授、预设问题,学生提问,学生组队分析和解决问题,教师点评加总结等“师与生”、“生与生”合作式教学,不仅可以使学生明晰本课程的学习目的,增强他们的参与意识与学习热情,更重要的是,可以使学生之间优势互补、互通有无、集思广益,达到“以活动促合作,以合作促发展”的目的。
二、合作式教学的组织与实施
1.教学目标与设计
(1)教学目标。根据现代教育教学规律,以“生物信息学”优质课程建设为依托,以课堂建设为抓手,以培养“两创型”高素质应用人才为根本任务,以多媒体、网络、教学平台为载体,深化改革,通过师生、生生间相互影响与合作,突显学生教学主体地位,切实提高课堂教学效果。
(2)教学设计。因为“生物信息学”课程涉及的知识点比较多,而课时有限,所以正规的合作式教学法即小讲课加分组活动不太适合。根据“生物信息学”课程性质及农学相关专业学生的学习特点,本课程采用在教师教学过程中加入合作式教学法元素的形式进行教学。教学过程中,避免过多讲授数据库开发、软件算法等纯理论性内容,坚持以解决生物学问题为主线,讲授解决问题的思路与方法;坚持以教师为主导,以学生为主体,结合教师自身科研工作及本学科领域最新研究进展等案例教学,组织、引导和启发学生开展自主与合作学习,培养学生独立思考、分析问题和解决问题的能力及团队合作精神与创造力。
2.教学组织与实施
合作式教学的关键是调动学生学习兴趣,使其积极参与其中,即教师应用灵活多样的教学手段,鼓励学生积极参与教学过程,并通过实践演练、课堂报告、研讨、课上和课下实时交流等为载体强化教学效果。经过近几年教学实践,总结调动学生学习积极性的基本要素,主要围绕以下几方面开展合作式教学:
(1)实例为导,强化练习。在讲授完每个知识点后,教师结合自己的科研工作在网络上进行案例示范演示,然后由学生两两临时搭配组队上台操作,完成规定任务,巩固所学知识。比如在讲解完“用关键词或词组检索生物信息学数据库”后,在2个自然班中分别临时组建4个两人小组,每个小组中一人负责出题,另一人负责解题,然后负责出题的学生对解题过程及答案进行点评,最后其他同学和教师进行点评及总结,加深了学生对相关知识点的理解。
(2)预设问题,开放教学。在讲授新的知识点前,教师预先设置知识点相关问题,让学生课后自学和探究思考,期间学生之间讨论,亦可请教教师。比如在讲到系统进化部分时,布置思考题“有哪些证据证明人类是从非洲走出来的?”或者教师预设一些本学科热点问题或尚未解决的问题(无固定答案),让学生自由组队,通过课下查阅相关文献资料、独立思考及组内成员讨论等探讨相关问题的解题思路与方法,从而激发学生学习热情。比如“蛋白质和DNA的进化问题,是先有‘鸡’还是先有‘蛋’?”“除了农学及医学外,生物信息学还有哪些应用领域?”等等。学生带着问题去查找资料,通过集体讨论达成共识。在各小组汇报时,首先由组内成员做补充说明,然后由其他组同学进行质疑。在相互质疑、讨论中,使学生获取灵感,扩大视野。
(3)角色互换,学生提问。改变过去教师“一言堂”教学局面,鼓励学生随时就相关问题进行提问,由学生或教师解答,真正做到师生互动,启发学生思考,活跃课堂气氛。
(4)注重实践,关注效果。因为本学科知识点间连贯性较强,所以在讲授2-3个知识点后,教师要布置综合性的题目,由学生组队在网络实验室里现场完成教学任务。学生组队是半自由型的,即教师提出一定要求,在此前提下学生组队,以避免“优优”或“差差”组合等情况发生,使学生间做到优势互补,且既有分工,又有合作。比如,在讲完系统进化树重构章节后,要求学生根据研究兴趣每5人一组,完成同源基因的搜集、多序列比对、系统进化树构建、分析及解读等所有环节,然后各小组进行课堂报告。学生组队必须满足教师提出的要求,即成员必须分别来自不同的自然班且成员间学习成绩差异要比较明显;成员中最好有英语、计算机或生物学成绩较好的学生;成员间必须有分工,分别负责查资料、制作PPT、汇报等,且又必须通力合作,共同完成任务等,从而激发学生的创新思维和创新意识,增强学生的团队合作意识与协作能力。
(5)全员参与,分类评价。本课程为专业选修课。课程成绩以平时成绩70%,期末考试(开卷)30%来计算。平时成绩主要由学生出勤、课堂参与度、实验报告、课堂报告等组成,其中实验及课堂报告环节均以小组形式进行,重点考查学生的学习态度和完成质量等。在涉及到分组考核时,要求小组间分别评分,教师采取一定措施保证各组间打分相对客观、公平,实现全员参与评价。
(6)实时沟通,解惑释疑。学生课后可通过课程网络教学平台或QQ、MSN、E-mail、手机短信等实时聊天、沟通工具,与教师及时交流自己的学习心得或学习中遇到的困难等,教师不仅可为学生解惑释疑,而且还有利于掌握学生对本课程的学习情况。教师可据此及时调整授课方案,达到更好的教学效果。
3.教学效果与评价
经在2010级2个自然班55名农学专业学生中进行合作式教学试点发现,学生最终成绩中最低72分,最高95分,平均为86.1±5.08分。经T检验分析,显著高于27名2008级学生的平均成绩(83.2±5.13分;p=0.023)。因此,在“生物信息学”课程开展以课堂活动为特征的合作式教学,不仅活跃了课堂气氛,增强了学生的参与意识,还极大地调动了学生主动学习的积极性,明显提高了学习成绩,培养了学生的科研创新能力和团队合作意识。“教学结合实际”、“讲课时经常会举些有关知识的例子,很能提高同学的学习热情”、“老师时常会讲授有关的科学前沿知识,很能调动同学积极性”、“注重培养学生自主学习能力”、“上课与其他老师的方式不一样,利于我们听课”、“始终让我保持上课兴趣”、“上课有活力!”等是学生对“生物信息学”课程教学模式与教学效果的客观评价。
三、结束语
生物信息学是一个不断发展中的学科。实践证明,只有紧跟学科发展步伐,及时更新、丰富教学内容;坚持“以生为本”,立足授课对象的实际需要,不断调整和革新教学模式与教学方法,改进和完善学科教学体系,才能稳步提升本课程课堂教学效果,保证教学质量,从而为我国农业现代化培养更多高素质、强能力的应用型人才。
参考文献:
[1]张阳德.生物信息学[M].北京:科学出版社,2009.
[2]程钢.生物信息学课程教学改革和实践[J].安徽农学通报,
2011,17(13):191-193.
[3]张纪阳,刘伟,谢红卫.生物信息学课程研究性教学的实践与思考[J].高等教育研究学报,2011,34(4):51-53.
[4]梁琛,张建海.农科类生物信息学课程教学中存在的问题及对策[J].农业与技术,2010,30(5):136-138.
[5]张林,柴慧.CM教学法和PBL教学法的结合应用研究——以医学生物信息学为平台[J].中国高等医学教育,2012,(8):116-117.
[6]郭艳芳,李金明.PBL教学法在医学生物信息学实践教学中的应用[J].基础医学教育,2011,13(11):1007-1008.
[7]刘伟,张纪阳.“生物信息学”课程中研讨式教学实践[J].中国电力教育,2012,(23):60-61.
[8]魏战勇,高晓平.农业院校生物信息学教学改革与探索[J].郑州牧业工程高等专科学校学报,2011,31(4):50-51.
[9]胡娜,常军,徐玲.生物信息学教学改革与实践[J].安徽农业科学,2010,38(3):1588-1589.
篇10
关键词:C3植物;C4植物;PEPC;生物信息学
中图分类号:Q945.11;Q617文献标识码:A文章编号:0439-8114(2011)12-2558-05
Bioinformatic Analysis of PEPC in C3 and C4 Plants
WU Mei1,2,ZHANG Bian-jiang1,YANG Ping1,WANG Rong-fu2,CHEN Quan-zhan1
(1. College of Biochemistry and Enviromental Engineering,Nanjing Xiaozhuang University,Nanjing 211171,China;
2. College of Life Science,Anhui Agriculture University,Hefei 230036,China)
Abstract: To explore the functional differences between C3 and C4 PEPC, PEPC proteins of four different C3 and C4 plants were analyzed by various bioinformatic tools to predict the protein properties, such as amino acids composition, pI, domains, secondary and spatial structure; and the PEPC protein sequences of C3 and C4 plants were aligned. The results showed that the PEPC proteins were unstable and the secondary structures were mainly composed of random coil, indicating some differences between PEPCs of C3 and C4 plants. A highly homologous(99.7%) protein structure data 1JQO chain A was predicted by three-dimensional structure modeling of PEPC by ESyPred3D, thus facilitated the tertiary structure building of target sequence. The tertiary structure model of Zea mays PEPC was further checked by PROCHECK programmer, and showed that 94.2% of the amino acid residues were located in the most favored regions in Ramachandran plot, indicating that the simulated three-dimensional structure of Zea mays PEPC was reliable.
Key words:C3 plant; C4 plant; PEPC; bioinformatics
与C3植物相比,C4植物具有光合效率高、CO2补偿点低、几乎没有光呼吸等优点,特别在强光、高温、干旱等条件下,C4植物具有明显的生长优势及较高的水分和营养利用率,生物学产量也较高[1]。C4途径包含多种酶类如磷酸烯醇式丙酮酸羧化酶(Phosphoenolpyruvate carboxylase,PEPC)、NADP-苹果酸脱氢酶(NADP-malate dehydrogenase,NADP-MDH)、NADP-苹果酸酶(NADP-malic enzyme,NADP-ME)和丙酮酸磷酸二激酶(Pyruvate ortho-phosphate dikinase,PPDK)等,这些酶有效地固定外部及其光呼吸释放的CO2[2]从而使加氧酶活性受到抑制,降低了氮素的消耗,提高了水分利用率,大大提高了光合生产力[3]。近年来与光合作用途径相关的关键酶的基因已分别从玉米、高粱和苋菜等C4植物中被克隆,并开展了C4基因的遗传转化工作[4]。值得注意的是,Ku等[5]首次成功地将玉米C4光合途径的关键酶PEPC基因导入C3作物水稻中,获得了高表达的转基因水稻株,有效地提高了PEPC活性。罗素兰等[6]和张桂芳等[7]分别克隆了C4植物甘蔗和稗草PEPC基因并进行了功能验证。Chen等[8]又成功地将玉米C4型PEPC基因导入小麦中并实现有效表达,展示了转光合关键酶PEPC基因改造C3作物的应用前景。
Hermans[9]在菊科黄花菊属(Flaveria)中发现PEPC有C3型、类似C3型、类似C4型、C3-C4中间型、C4型等不同代谢类型,分析它们的PEPC基因,发现同源性极高,C4植物PEPC基因与C3植物PEPC基因有71%的同源性,由于表达量不同而活性高低不同。前人的研究表明玉米的PEPC有C4型、C3型和根型3种类型[10];高粱的PEPC基因家族有3个成员CP21、CP28、CP46[11];Flaveria的PEPC基因家族由ppcA、ppcB和ppcC 3个亚家族组成[12]。尽管PEPC也是C3植物中另一主要羧化酶,为三羧酸循环补充草酰乙酸起回补反应的功能,但以C3植物的形态结构,PEPC还不能完成CO2净固定直接生成碳水化合物,因为三羧酸循环的碳与PEPC结合是一种损失,必须在CO2固定后再进入Calvin循环。而在C4和CAM植物中,PEPC介导β羧化反应,把CO2固定为草酰乙酸,后转变为四碳酸[13]。在结构上除了N端有调节磷酸化的基团外,来源于不同生物的PEPC其反应机制本质上是相同的[14]。但不同来源的PEPC在不同植物体内有着不同的生化和生理特性,并致使光合作用产生较大的差异。通过对PEPC进行生物信息学的分析,来进行基因的结构和功能的比较,预测产生的结构和功能的差异,以期为将C4关键酶转入C3作物或者通过修饰C3作物的基因来改造C3作物,从而有效提高作物的光合生产力。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
1材料与方法
1.1供试材料
数据资料来源于National Center for Biotechnology Information(NCBI)核酸及蛋白质数据库中已注册的核酸序列及对应的氨基酸序列:玉米(Zea mays,AJ536629);稗草(Echinochloa crus-galli,AY995212);甘蔗(Saccharum officinarum,AJ293346);高粱(Sorghum bicolor,XM_002438476);拟南芥(Arabidopsis thaliana,AY210895);水稻(Oryza sativa,AF271995);棉花(Gossypium hirsutum,EU032328);大豆(Glycine max,AB008540)。
1.2试验方法
利用生物信息学数据库和互联网上的软件进行分析,用Protparam[15]分析PEPC基因编码蛋白的氨基酸序列组成、分子量、等电点等理化性质;在NCBI[16]上对其保守结构域进行分析;用SOPMA[17]预测其二级结构;用PROSITE[18]分析蛋白质功能;以ESyPred3D[19]程序预测三级结构;利用检测蛋白质质量结构的软件PROCHECK[20,21]对预测的蛋白质三维结构进行分析。
2结果与分析
2.1PEPC一级结构分析
2.1.1PEPC理化性质分析用Protparam预测PEPC基因编码的蛋白质的理化性质[15]。这8种植物PEPC的理论推导半衰期为30 h(体外,哺乳动物的网织红细胞内);大于20 h(体内,酵母细胞内);大于10 h(体内,大肠杆菌)。C4植物总的带负电残基(Asp+Glu)和总的带正电残基(Arg+Lys)略低于C3植物,总的亲水性平均系数(GRAVY)平均略高于C3植物,为-0.45~-0.30,预测该蛋白质属于亲水性蛋白质。C4植物不稳定参数低于C3植物,但两者均为不稳定蛋白质。8种植物PEPC蛋白质中含量较多的氨基酸基本相同,为Leu、Glu、Arg、Ala。其中排第三和第四的Arg和Ala的含量略有不同,在C4植物中排第五的为Gly或Val,而C3植物中则为Asp,所有植物都不含有Asx(B)、Glx(Z)、Xaa(X)。C4植物酸碱性氨基酸的比例略小于C3植物。C4植物中非极性氨基酸、极性氨基酸含量略高于C3植物(表1)。
2.1.2PEPC氨基酸序列分析利用DNAMAN[22]进行多序列比对,比较8种植物的氨基酸序列。参数选择:完全比对;多重比对;空位开放罚分:10;空位延伸罚分:1;延迟趋异序列:30%;蛋白质加权GONNET。蛋白质空位参数试用亲水罚分和残基特异罚分。在C3和C4植物中不同的氨基酸位点共有22处,见图1中用浅色或深色为背景的位点,其中“…”表示省略的氨基酸。据此将进一步研究这些氨基酸位点,观察造成的空间结构活性区域有无变化。
2.2PEPC二级结构分析
用SOPMA对PEPC二级结构进行预测,PEPC结构元件以α-螺旋、无规则卷曲为主,延伸链和β-折叠散布于整个蛋白质中。没有发现如310 helix、Pi helix、Beta bridge、Bend region等其他结构(表2)。对于一级结构中C3、C4植物不同处,在进行二级结构预测后,也发现有3处不同(图1)。在图1的阴影中,C4植物在E(谷氨酸)与S(丝氨酸)处表现为c(无规则卷曲)与h(α-螺旋)的链接、C3植物表现为E与S均为c,而之后的S与D(天冬氨酸)处为c与h的链接。C4植物在P(脯氨酸)到V(缬氨酸)之间均为c的链接,C3植物R(精氨酸)到V之间有两个c变成了e(延伸链),C4植物在K(赖氨酸)和两个Q(谷氨酰胺)之间是表现为两个t(β-折叠)与e的链接,而C3植物KQE之间为两个c和e的链接。分析这些二级结构的不同,为以后的三级结构的比对提供了基础,还有利于进一步去研究是否由于这些位点的不同而造成了PEPC在C3和C4植物中的差异。
2.3PEPC氨基酸序列结构域功能的分析
通过PROSITE分析,8种植物都具有两个符合PEPC活性的位点[VTI]-x-T-A-H-P-T-[EQ]-
x(2)-R-[KRHAQ](H是活性残基位点);[IVLC]-M-[LIVM]-G-Y-S-D-S-x-K-[DF]-[STAG]-G(K是活性残基位点)和一个保守序列M-F-H-G-R-G-G-T-V-G-R-G-G-G-P-T-H-L-A-I-L-S-Q-P-P-[DE]-T-I-H-G-S-[LP]-R-V-T-V-Q-G-E-V-I-E-Q-S-F-G-E-E-H-L。说明这几种植物中都具有PEPC活性,只是活性位点和保守序列的起始位点有所区别(表3),这应该是和它们的氨基酸序列起始位置有关。
2.4PEPC的三级结构预测
将玉米PEPC氨基酸序列上传到ESyPred3D的建模服务器中进行PEPC结构的三维建模,预测得到一个同源性较高的蛋白质结构数据1JQO chain A,同源性为99.7%,符合同源建模条件,从而构建目标序列的三级结构(图2)。
利用PROCHECK对模建结果进行检测,作Ramachandran点图,统计位于最适合区、附加允许区、一般允许区和不允许区残基的比率。Ramachandran点图能够将蛋白质的主链中的phi和psi的二面角角度以图示的方式显示。最深色区域是最理想的phi角和psi角分布区域,而白色区域则为不合理区域。因而如果预测的蛋白质残基的二面角有90%以上位于最深色区域,则表明其有稳定的空间结构。图3是玉米PEPC蛋白质的Ramachandran点图,其中94.2%位于最适合区,5.7%位于附加允许区,0.1%位于一般允许区,没有氨基酸位于不允许区域。从图中可以看出,模拟得到的玉米PEPC蛋白质的三维结构的氨基酸残基有94.2%位于Ramachandran点图中合理区域,从理论上表明模拟得到的玉米PEPC的三维结构是可靠的。
3讨论
根据经典的C4光合知识,C4植物有叶肉细胞和维管束鞘细胞的分化,进行C4光合途径所必需的多酶系统分别定位于此两类具有叶绿体的细胞中,而且C4光合途径是受多基因控制且各基因独立遗传,C3植物存在的内源的C4循环酶及转运蛋白质,都具有明确的生理功能,因而通过个别基因的过量表达增加其产物的活性,不能在C3植物中建立起完整的C4循环,还可能干扰C3植物的正常代谢,因此,把C3植物转化为C4植物是不可能的,但是Jiao等[23]通过转PEPC基因,水稻具有了类似初级的C3-C4中间型的特征。用生物信息学方法对已知PEPC序列进行比对分析,从而对其结构和功能进行推断和预测,为我们将PEPC基因转入C3作物以有效提高作物的光合生产力提供了尽可能多的信息,能为选择合适的试验方法提供理论参考,为进一步对该基因的功能研究提供线索。此外要培育类C4作物,进一步提高光合效率,可能需要Kranz结构,以免光呼吸CO2的外溢,这些都有待进一步研究。
参考文献:
[1] BROWN R H,BASSETT C L,CAMERON R G,et al. Photosynthesis of F1 hybrids between C4 and C3-C4 species of Flaveria[J]. Plant Physiol,1986,82:211-217.
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
[2] VON CAEMMERER S,FURBANK R T. The C4 pathway:an efficient CO2 pump[J]. Photosynthesis Research,2003,77:191-207.
[3] FUKAYAMA H,AGARIE S,NOMURA M,et al. High level expression of maize C4-specific pyruvate,Pi dikinase and its light activation in transgenic rice plants[J]. PlantCellPhysical,1999,40:116-123.
[4] MATSUOKA M,YAMAMOTO N. Induction of mRNAs for phosphoenolpyruvate carboxylase and pyruvate,orthophosphate dikinase in leaves of a C4plantexposed to light[J]. Plant Cell Physiol,1989,30(4):479-486.
[5] KU M S,AQARIE S,NOMURA M,et al. High-level expression of maize phosphoenolpyruvate carboxylase in transgenic rice plants[J]. Nat Biotechnol,1999,17(1):76-80.
[6] 罗素兰,陈如凯,潘大仁,等. 高光效基因植物表达载体的构建[J]. 生物技术通报,2003(4):38-41.
[7] 张桂芳,赵明,丁在松,等. 稗草磷酸烯醇式丙酮酸羧化酶(PEPCase)基因的克隆与分析[J].作物学报,2005,31(10):1365-1369.
[8] CHEN X Q,ZHANG X D,LIANG R Q,et al. Expression of the intact C4 type PEPC gene cloned from maize in transgenic winter wheat[J]. Chin Sci Bull,2004,49(20):1976-1982.
[9] HERMANS J,WESTHOFF P. Analysis of expression and evolutionary relationships of phosphoenol-pyruvate carboxylase genes in Flaveria trinervia(C4)and F. pringlei(C3)[J]. Molecular and General Genetics,1990,224(3):459-468.
[10] DONG L Y,MASUDA T,KAWAMURA T,et al. Cloning expression and characterization of a root-form phosphoenolpyruvate carboxylase from Zea mays:comparison with the C4 form enzyme[J]. Plant and Cell Physiology,1998,39(8):865-873.
[11] LEPINIEC L, KERYER E, PHILIPPE H, et al. Sorghum phosphoenolpyruvate carboxylase gene family:structure,function and molecular evolution[J]. Plant Molecular Biology,1993,
21(3):487-502.
[12] ENGELMANN S,BL?SING O E,GOWIK U,et al. Molecular evolution of C4 phosphoenolpyruvate carboxylase in the genus Flaveria―a gradual increase from C3 to C4 characteristics[J]. Planta,2003,217(5):717-725.
[13] SAGE R F. The evolution of C4 photosynthesis[J]. New Phytologist,2004,161(2):341-370.
[14] MATSUMURA H,XIE Y,SHIRAKATA S,et al. Crystal structures of C4 form maize and quaternary complex of E. coli phosphoenolpyruvate carboxylases[J]. Structure,2002,10(12):1721-1730.
[15] GASTEIGER E,HOOGLAND C,GATTIKER A,et al. Protein identification and analysis tools on the ExPASy server[A].WALKER J M. The Proteomics Protocols Handbook[C].Totowa:Humana Press,2005. 571-607.
[16] MARCHLER-BAUER A,BRYANT S H. CD-Search:protein domain annotations on the fly[J]. Nucleic Acids Res,2004, 32:327-331.
[17] TARAFDAR P K,VEDANTAM L V,KONDREDDY A,et al. Biophysical investigations on the aggregation and thermal unfolding of harpin(Pss) and identification of leucine-zipper-like motifs in harpins[J]. Biochim Biophys Acta,2009,
1794(11):1684-1692.
[18] JONASSEN I,EIDHAMMER I,GRINDHAUG S H,et al. Searching the protein structure databank with weak sequence patterns and structuralconstraints[J]. Molecular Biology,2000,304(4):599-619.
[19] LAMBERT C,L?ONARD N,DE BOLLE X,et al. ESyPred3D:Prediction of proteins 3D structures[J]. Bioinformatics,2002,18(9):1250-1256.
[20] LASKOWSKI R A,MACARTHUR M W,MOSS D S,et al. PROCHECK:a program to check the stereochemical quality of protein structures[J]. J Appl Cryst,1993,26:283-291.
[21] LASKOWSKI R A,RULLMANNN J A,MACARTHUR M W,et al. AQUA and PROCHECK-NMR:Programs for checking the quality ofprotein structures solved byNMR[J]. JBiomol NMR,1996,8(4):477-486.
[22] SONG J Y,YAO H,LI Y,et al. Authentication of the family polygonaceae in Chinese pharmacopoeia by DNA barcoding technique[J]. J Ethnopharmacol,2009,124(3):434-439.
[23] JIAO D M,KUANG T Y,LI X,et al. Physiological characteristics of the primitive CO2 concentrating mechanism in PEPC transgenic rice[J]. Sci China(Ser C),2003,46(4):438-446.