语料库范文10篇
时间:2024-04-12 03:24:43
导语:这里是公务员之家根据多年的文秘经验,为你推荐的十篇语料库范文,还可以咨询客服老师获取更多原创文章,欢迎参考。
语料库研究论文
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况
现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。
现在,国外的主要语料库还有:
London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodicmarking)。
语料库语言学研究
一、研究基础:语料语言学库研究范式
利用语料库研究语言或者语言变体就是语料库语言学。语料库语言学形成了独特的研究范式,包括研究目的、研究对象和研究方法。各种语料库为包括阅读在内的教学提供了丰富的素材。教师可从中提取大量的语言素材,创造真实语境,摆脱了传统教学的一些弊端。基于语料库的研究主要从三个方面开展:词汇、句法和语篇。下面我们从这三个方面简述语料库研究的思路。词汇是指词素、单词、连续的短语和词块等。这是语料库研究的优势所在。在词汇方面,Sin-clair通过对nakedeye的探讨提出了语料库中词项分析的思路。具体来说,在词汇分析时,首先检索一个或者多个词项,在索引行中观察分析词项的搭配情况,概括词汇的搭配关系,归纳出与词项有关的类联接。然后基于这些形式上的分析可进一步探索词项的语义倾向问题以及词项的感情色彩等语义韵问题。语言句法层面研究关注的焦点是句法结构,或者称为型式。在语料库研究范式下,对句法结构的研究需要对语料库中的语料进行词性标注,并使用正则表达式进行复杂检索以深度挖掘。目前研究最多也是技术操作上最为成熟的句法结构为类联接。类联接是句法层面的“结伴关系”,包括词的类联接、词组或短语的类联接、词类或语法类的类联接,是“搭配的更高层次,与语言的句法层面有密切关系”。通过类联接不仅可以探讨语义韵等语义方面的问题,还可以研究某些结构所体现的社会文化属性,从而洞察语言的语体和语用等方面。
二、基于语料库语言学的读写教学模式构建
(一)悉尼学派基于语类的读写教学法
前两个阶段侧重阅读教学,而后两个阶段重点是写作教学。所有四个阶段处于循环中。在设定的真实的情景中,教师与学生磋商、互动以充分理解阅读文本,同时学生不断获得教师关于语类的知识,直至能够单独完成语篇的写作。
(二)语料库语言学视角下的读写教学模式构建
商务英语语料库构建
摘要:京津冀地区是我国北方经济发展的一块腹地。加大对该地区的经济开发,推进多样化的经济形式向外延展是河北省现阶段的重大战略。当前,河北省外贸企业顺势发展,外贸企业对外的经济需求也增大,因而对商务英语语料库的构建提出了更高的要求。基于此,以茶贸易英语语料库为例,分析商务英语语料库的构建要素,探讨对外茶贸易对语言和茶文化的要求,研究商务英语语料库的构建在茶贸易中的应用。另外,全面增强商务英语应用化的作用力,推进商务英语语料库的经济应用价值,为茶贸易经济结构系统化构建稳固奠基,彰显出河北省对外经济发展的新动态、新方向。
关键词:对外经济;商务英语;语料库构建;茶贸易
河北省是人口大省,人口基数大,同时也是中国的对外贸易大省。依据2016年石家庄海关数据记录,2016年进出口总贸易额达到了746.8亿美元,对外贸易处于出超地位。同比上年增长8个百分点。自河北省实施对外贸易的重大战略以来,其贸易总额1.4的百分点发展到25的百分点。另外,区域经济对外发展是经济发展到成熟阶段呈现出来的特征,显现出经济发展的态势。基于对外经济需求的发展背景,河北省借助地理位置、优厚的人才、科技资源等优势,充分地将资源嵌入到经济的发展当中。商务英语在对外贸易中起到的联系纽带作用,是推进对外贸易持续动力,也是贸易经济发展的不竭力量之源。
1商务英语语料库的构建
为了与经济社会发展的步伐相适应,在竞争剧烈的贸易市场中逆流而上。河北省对外贸易经济提出更为严格的专业要求。商务英语语料库的构建是一个商务语言体系化、学科专业化的前提,更是英语语言与实际经济应用资源相衔接的根本途径。1.1语料的采集与录入在庞大的商务英语语料库中,数据库需要定期的进行资源的更新,以适应新时代知识的融合与完善,而数据输入的准确性直接影响到后期使用户的使用效果。因此,在进行商务英语语料的采集与录入时,须确保录入商务英语语料库真实性。为保证商务英语语料输入的准确性,就需要对英语数据输入的端口进行筛选检查。首先,从录入的信息源来看,录入进电子商务英语数据库的信息资源需要从有权威的刊物或者相关文献中选取,而不是任意地从出版刊物中选取;其次,对相关不确定、待考证的信息资源需要进行明确的标注;最后,在录入商务英语信息资料时,需要平衡各二级学科的应用领域的信息,按照一定的比例调研各二级学科的数据资源,分别与商务英语相衔接契合。1.2语料库的检索电子商务英语语料库,如现代化的浩如烟海的活字典,它是为了满足人们快速检索商务英语词汇、词义以及语法等资源而构建的。实质上是根据商务用途的而合成的电子数据资料库。商务英语语料库检索词汇、录入词义的功能。在商务英语语料库中,英语知识被转化为字符,以字节为单位输入到计算机数据库中,计算机根据数字统计将英语字码进行多层次的归类处理,从而使商务英语可以更好地应用到语言教育学、语言经济学中。此外茶贸易发展如火如荼,在商务英语的语料采集与录入时,就应该注重茶文化知识与商务英语的承接,将可利用的茶信息资源与商务英语深度融合。如,增大对茶词汇、茶词义、茶语法信息要素的录入,以便用户对商务英语的检索,保证茶贸易经济的内应力与商务英语的原生力的协同配合。
2茶贸易经济对语言资源整合的要求分析
语料库在英语教学中的运用透析
随着科技进步,计算机技术的发展渐渐渗透到了语言文学与教学领域。语料库语言学作为一门新兴的边缘学科,很好地结合了自然科学与文学,凭借其大规模的语料资源以及先进的语料库检索软件和工具对语言文本进行深加工,再创造。语料库检索工具可以分析统计出文本中需查词语的出现频率,词语与词语间的搭配状况,以及在全文本的各个章节关键词(人物,事物等)出现的疏密程度等(王雁2007)。使用语料库检索工具(concordancer)对文学文本进行量化分析(quantitativeanalysis),为文学提供了更加科学的分析方法,能够帮助我们提高课堂教学的质量,增加思考的角度,拓展新的想象空间,使学生更好的掌握教学内容(陈莹莹2007)。
如今建立在语料库基础上的分析,对文学作品的研究而言,经历了一个从质评到量化、从主观到客观的飞跃。当然这一转变归功于计算机的飞速发展。本文基于语料库对《小王子》的文学语言进行分析,对文本的情节发展进行掌握,为文学作品《小王子》的研究者提供了一种新的视角,以便更好的进行课堂教学,用详实的语言数据证实了它的文学和教学价值。
文章结构清晰,引言部分介绍写作目的、意义和价值,并提出文章的结构框架;第二部分文献综述介绍语料库与文学研究的背景及不足,提出本文使用的研究方法和语料库;第三部分是数据收集、数据分类、数据分析及提供图表说明,通过图表称述分析过程和观点;最后结语部分对文章进行总结。
1.系统介绍
语料库应用广泛,实用性强,在文学研究方面的应用已取得成效,而文学教学的开放性,使它可以面向语料库语言学开放。语料库语言学可以为语言文学的教学提供一套行之有效的方法和工具,使人们可以对文学作品进行更详实、深入和具体的描述。基于语料库的语言文学教学不仅仅可以从个别的现象中归纳出答案,还更加重视从众多的现象和现象之间的联系中归纳答案。此外,理论的真实性和概括性可以通过实证研究得以验证。文学理论也不例外。
由于文学语料库可以容纳几百万、几千万、甚至上亿词的文学作品语料,人们可以从中得到充分的例证、验证或说明某些文学理论(王一川2004)。
自建语料库在商务英语翻译的应用
【摘要】因大型或专门语料库的翻译教学模式不具推广性,教师可根据课程设计需要,有针对性地采集语料,充分利用自建语料库来辅助翻译教学。本研究展示教师如何利用在线计算机辅助翻译平台、免费语料库工具等自建平行语料库和可比语料库,并以实际教学案例展示如何运用语料库辅助翻译教学。自建语料库在商务翻译教学的价值在于,遵循真实的翻译情景,提供真实语料,充分发挥教师的引导作用,训练学生自主学习能力。
【关键词】自建语料库;商务英语翻译教学;教学案例
一、引言
关于语料库在翻译教学中的应用,秦洪武、王克非[1]曾指出因语料库的创建目的、创建技术、检索技术的限制,国内的研究还没有解决语料库与微观教学环节的衔接问题,语料库翻译教学的模式研究还有待发展。而近年来国内学者结合翻译教学实践,不断提出基于语料库的翻译教学应用范例。其中具代表性的如刘泽权、刘鼎甲[2]提出通过建设学习者译文平行语料库,并在课堂中引入专业译者译文对应语料库与大型通用语料库,设计了以学生主动探索为中心的翻译教学路线。王惠[3]则认为如果缺乏深层次加工,语料库在翻译教学及学生自主学习中有一定难度,所以他以香港城市大学的“英汉汉英翻译远程教学系统”语料库平台为例,展示如何将“精加工”平行语料库与教学内容、过程和课后反馈等环节相结合。此外,另有学者提出单语语料库在翻译教学中不可替代的作用,如朱晓敏[4]探讨了COCA和CCL语料库在翻译教学中的用途,孙东云[5]则以BCC汉语语料库在英汉翻译教学中的应用为例,总结出母语语料库驱动的翻译教学模式。以上研究的共性是从教学实践出发,探索如何将语料库的丰富语料和便捷的检索工具等优势服务于教学目标,并且也注重发挥语料库在培养学生的自主学习能力上的作用。需要指出的是,在翻译教学中,语料库的使用主体是翻译初学者,他们还无法深入针对真实语料或某些翻译现象做出快速准确的总结,而语料库检索出的大量的例子往往容易使其受挫。在学生具备基本翻译能力和翻译素养之前直接使用COCA、BNC等语料库对翻译教学的作用并不直接。而上述研究中其他基于语料库的教学实践都有系统成熟的专门语料库支持,这些语料库在前期建设上有非常高的要求,往往因版权无法公开使用,所以,其在教学实践推广上有一定的限制。因此,文本认为教师可根据课程设计需要,有针对性地采集语料,制作旨在帮助学生理解特定语言现象的语料库,充分利用自建语料库来辅助翻译教学。相较大型语料库,小型的自建语料库在辅助教学、编写翻译教材和教辅材料方面更具有针对性、即时性和新颖性。[6]不仅如此,在翻译教学中,教师可以将平行语料库、可比语料库及单语语料库等多种形式语料库结合以配合教学目的。笔者将以自己教授的“商务英语翻译”课程为例,介绍如何根据教学目标自建小型专题语料库,并在微观层面展示如何运用语料库开展商务翻译教学活动。
二、自建语料库
(一)语料的分类与选择。商务英语文本专业性明显,且新词层出不穷,且各类语篇都“使用各种程式化语言使商务文本表达格式规范”。[4]所以在语料选择上需要甄选有时效性、代表性的文本,语料来源可以包括网络、时报、杂志等。建库时可根据教学安排和需求把每类商务体裁文本分别建成小型的专门用途语料库。苏雯超、李德凤、何元建[7]通过统计分析国内具有影响力的商务翻译教材,通过确定商务翻译的核心话题与拓展话题来界定商务翻译的内涵和外延。笔者借鉴其统计的核心话题来确定商务翻译课堂教学的文本,包括“公司宣传文本”“商务信函”及“商务广告”等。举例而言,本文中笔者将介绍的“企业简介”的语料来源主要来自于全球知名企业官方网站,《金融时报》(FinancialTimes)、《经济学人》(TheEconomist)等。(二)语料对齐。收集语料后,构建平行语料库的下一个核心步骤是进行语料对齐。王正、孙东云[8]介绍过如何利用计算机辅助翻译软件(CAT)进行语料对齐。他们利用TRADOSTranslator’sWorkbench带有的组件WinAlign组件进行对齐,但是对齐后的语料导出后的文件还再导入DéjàvuCAT软件进行文本格式的一系列转换才能生成纯文本。其他计算机辅助翻译软件如雪人CAT的语料也带有对齐功能[9],但是同样需要一系列格式转换成可以使用的TXT文本。为省去这一系列操作,现在的在线语料大数据及智能翻译平台可以提供更快捷的操作,比如Tmaxmall()自主研发的智能对齐算法可以快速地自动对齐原文译文,能自动识别“一对多”“多对一”“多对多”句子对应关系,极大地提高对齐的效率以及准确度。调整对齐的界面直观,操作便捷,用户可以便捷地在线预览对齐语料,并且该平台支持docx、xlsx、pptx、pdf、txt等36种主流格式的导入,并且可直接导出tmx、xlsx、txt、docx等4种格式。(三)自建平行语料库。准备好对齐的txt语料文件后,一种方法是可以使用平行语料库检索工具进行检索。Paraconc是经典的双语平行语料库检索工具,可以在其官网下载Demo体验软件。但是中文文本仍不能直接使用Paraconc进行检索,需对语料进行分词处理。本文推荐使用北京外国语大学的BFSUParaConc,汉语文本可不进行分词处理,中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名后导入就可以使用,方便地呈现翻译中原文与译文在字/词/句层面的对应关系。另外一种是利用计算机翻译辅助软件,因为这些软件本身也提供了灵活简便的双语平行语料库功能。只要把对齐后语料tmx文件可以导入CAT软件存为翻译记忆库,可以在软件上查看、调用来辅助翻译教学。可以通过下载Trados试用版或者雪人免费版,但是这些软件在安装操作上较费时,所以笔者推荐更简易的在线翻译管理平台如Yicat,Yicat带有CAT的所有核心功能,直接打开网页就可以免费使用。用户注册后进入主界面在记忆库管理里导入tmx文件就可以进行双语平行语料库的检索查看。(四)自建双语可比语料库。与译者培训有关的双语可比语料库,Zanettin[10]将其定义为在不同语言中基于相似的内容、领域和交际功能收集的相互独立的文本。而将这种双语可比文本用于翻译研究和培训在语料库出现之前已很常见,如Snell-Hornby[11]分别收集了英文和德文的公示语进行比较,她认为通过比较源语和目的语同一文本类型的大量文本有助于定义该文本的原型特征,为译者呈现译文的基本“轮廓”。而在翻译课堂中这类的双语可比语料库是培养其语言的直觉,学习专用文体特有表达方式的理想工具。在课堂教学活动设计与实施过程中,可比语料库可以“构建输入目标语材料”,相对于平行语料库,学生可以“在自主研究所提供的语言数据中分析现象、找到规律,而不是一味地去模仿前人的翻译”。[4]建立这一类语料库的分析工具比较多且都很成熟,最广为使用的是AntConc,其界面简约直观、功能专业实用,使用者只需下载安装就能使用,但这款软件只能用于英文文本的语料分析。所以,笔者也推荐BFSUPowerConc,这款软件支持汉语和英语两种语言,同时支持粗语料和标注语料两种形式的语料检索。研究者可用其建设英汉双语的可比语料库。比如教学设计中让学生掌握英汉两种语言同一文体的语言特征,就需要用到BFSUPowerConc来分别建立中英文双语可比语料库。
我国语料库的研究历史分析论文
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpuslinguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况
现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到99.5%。这个指标已经超过了人工标注所能达到的最高正确率。
现在,国外的主要语料库还有:
BNC语料库的近义词对比研究
摘要:近义词辨析一直是中学英语词汇教学的重点和难点,近义词意思相近但是在具体使用上却有细微的差别。学生在记忆相近意思的单词时,一般都会选择死记硬背或者一概而论,教师在教授近义词时也大多进行字面解释。而语料库可以为学习者提供大量真实的材料,这将为近义词的辨析和使用提供强大的数据支持。该文选取近义词acknowledge和ad⁃mit,以BNC(英国当代语料库)为工具,从语域、搭配、语义韵等方面研究这一对近义词的搭配和使用,旨在为中国英语学习者提供学习近义词的方法,并为英语词汇教学带来启示。
关键词:语料库;近义词;语义韵;词汇教学
1引言
1.1研究背景
二语教学是为了提高学习者的词汇能力,词汇是提高英语写作、阅读、会话等技能的关键[1]。然而对于词语的研究到近代才刚刚开始,“Lexis”一词在英语中只有相对短暂的历史,直到大约20世纪50年代才开始在英国英语中使用[2]。Firth提出了著名的“语境论”,他认为词的意义不在人的大脑里,而是在语境之中。近义词在二语词汇教学和习得中是一个重难点,因为它们在结构、词形、词义和语义等方面具有较大的相似性。近义词在英语词汇中占比较大,在中学阶段,英语词汇教学的重难点也在于如何辨析这类词汇。传统的词汇教学采用中文释义或同义词讲解的方法,学生利用汉语意思记忆和归类单词,忽略了单词所处的语境。学生在使用近义词时,也会因为语境不当,概念模糊而导致误用。语料库中有大量的语言事实,也就是人们在交际中使用的真实的语言。因此,语料库将单词与真实语境相结合,能够帮助学生辨析近义词之间的异同,因此学生能理解词汇的准确内涵并正确使用。
1.2国内外研究现状
语料库在商务英语口译的应用
[摘要]新经济环境的变革影响着社会整体环境的变化,从全球化的经济贸易形式,到我国的整体经济产业结构,都会受到新经济环境的影响。人才培养基本方向和需求也将发生一定程度的转变,商务英语口译类人才在新经济环境作为对外交流的高级人才其市场需求将不断增大,克服目前商务英语口译教学难点,培养商务英语口译人才,可以从语料库的建设入手,通过平行语料库在教学中的应用,实现内涵式的高等人才培养。
[关键词]语料库;商务英语;口译;应用
2017年国家教育部反馈的数据显示,2017年报考口译的人才仅有11772人,商务英语口译人才短板是新经济环境下我国经济发展下的人才缺口之一。1997年,意大利举行的CorpusUseandlearningtoTranslate中对翻译教学中语料库的运用展开了深入探讨,随着语料库建设方式的多样化和丰富化,翻译教学管理和操作的多样化教学展开已经成为翻译教学的共识。口译教学作为翻译教学中的一个分支,能够通过平行语料库的运用,在学生主题理解、术语选择、惯用表达等方面都能够得到提升。因此,研究语料库在商务英语口译教学中的应用,对于商务英语口译教学质量和整体水平的提高有着重要价值。
一、商务英语口译教学现状
商务英语口译教学具有实时和不可预测两大性质,这两大性质让商务英语口译教学难度要远远大于商务英语的笔译教学。由于口译中对学生的语言输入输出能力有着极高的要求,因此教学过程中需要对学生语言能力、反应能力、速记能力表达能力等方面均需要培养。就目前商务英语口译教学现状而言,高要求和高难度都让商务英语口译教学发展现状存在较多问题:一是商务英语口译教学中的源语输入问题,在具体的教学展开过程中学生无法规避误听、信息遗漏等问题,在当下的教学方法中也无法有效规避以上问题;二是商务英语口译教学中的编码问题,学生在具体的口译过程中会出现句型结构混淆、遗漏,英汉转换过程中的语态、时态难以有效转换等问题。在商务英语口译教学中也并没有针对这一问题出现有效的解决措施;三是目的语的输出问题,词汇的精准选择,中英语言转换中的信息残缺以及难以做到口译翻译的即时性;四是商务英语口译教学的时间限制,口译教学需要大量的教学时间和前期系统的学习,但是就目前高校的商务英语口译教学课时安排分析,一个学期的课时难以满足当前的教学需求,短暂的课时难以培养出大量优秀的口译人才。
二、语料库在商务英语口译中的应用
小议小学语文语料库的设计与开发
一、开发和研究小学语文教学
语料库主要是采用的ASP语言写程序,采用SQLSE1KVE1K2000数据库服务器做数据存储服务以及采用IIS60Web服务器语料库检索网站。这个过程主要有:语料采集、原料库加工和开发语料库的检索功能等环节。
1、语料一般都是来源于互联网上的一些读书网站,这是主要来源。
2、在小学语文教学语料库设计时肯定会碰到难点,在建设资料库时需要收集的资料并不是汇集在一起的,需要设计者进行搜集,要把这些结构多样的资源转化为结构统一的语料库并不是一件简单的事,而且很多资源都是网页形式的,而语料库的全文却是文本形式的,这样就要求设计者进行处理,这也是一项比较困难繁杂的工作。
3、对于小学语文教学语料库所遇到问题的解决方法,大多数网站的资源格式基本上都是一样的。这样我们就可以利用这些相同点来进行解决,我们可以去发现各个网站对于文章的作者、标题等的标记的规则,将其转化为我们需要的文本格式,运用到我们的语料库中。但是在有些情况下某个网站的不同的页面中对文章的同一部分所用的标记也不相同,这些地方我们的解决方法是寻找两者之间的共性,尤其是在标记部分的共性,利用这些共性对这两种标记方式进行统一的表达。
4、注意结果的统计。小学的语料库中共收集了一万零六百六十五篇,这些结果的收集对教学和研究是非常有益的。小学语文教学语料库的加工要注意句子层次的加工和篇章层次的加工,句子层次的加工主要是将篇章分割成若干句子,同时确定每句话的长度,而后将这些句子数据存入句子数据表中。篇章层次的加工在语料采集过程已经部分的完成,包括对标题、作者、体裁和字数等属性。
语料库在英语词汇教学中的应用
1指导学习高频词
英语的词汇总量可以说是难以计数的,如此海量的词汇,在实际学习中没有必要完全掌握,教师应当引导学生充分掌握和学习最基本、能产性最强以及高频使用的词汇。(肖忠华、戴光荣,2010)语料库的词频统计就正好符合该要求,通过词频统计,学生能够充分了解不同等级高频词汇的数量及应用范围。根据Kucera与Francis统计,在Brown语料库中进行检索,结果显示,频率排名在1000以内的单词,覆盖普通文本72%;频率排名在2000以内的单词,覆盖普通文本达到了79.6%。为此,在实施教学时,教师应在有限的时间内,将精力集中在词频2000以内的单词,若学生能够基本掌握这些词汇,那么也就基本掌握了所阅读文章的大概意思,这不仅能提高学生对词汇积累的兴趣和成就感,同时也有利于教师教学质量和效率的提高。
2分析语义韵
语义韵是词汇教学中重要的方面,根据节点词与共现词的语义特点,可将语义韵分为消极、中性和积极三种类型。其中消极语义韵的语境通常具有浓厚的消极色彩;中性语义韵能够吸引各种词项语义,氛围较为复杂,故又称之为错综语义韵;积极语义韵的语义氛围具有强烈的积极语义。
3辨析词语搭配错误
单词本身的含义,并非独立存在,是与其他词汇共同组成语句来体现的。词项与结伴词项间有一定的结伴规律,能够相互吸引、相互期待,并且搭配成份的类联接关系等都主要通过词语搭配的方式存在,这也是词语搭配研究的关键内容。通过语料库的运用,学生不仅能够更加形象、直观地了解词语搭配,而且能够辨析和纠正词语搭配错误。