汉字识别范文10篇

时间:2024-02-05 01:33:25

导语:这里是公务员之家根据多年的文秘经验,为你推荐的十篇汉字识别范文,还可以咨询客服老师获取更多原创文章,欢迎参考。

汉字识别

汉字识别研究论文

1主要研究

1.1字形属性对汉字识别的影响

受西方已有研究理论的影响,长期以来关于汉字识别的加工单元也有两种观点:一是认为识别汉字要先对笔画、部件等汉字的字形特征进行分析,然后将分析的结果整合从而识别整字。那么,在汉字识别过程中就会存在笔画数效应、部件数效应等。二是认为识别汉字直接以整字为单元,强调字形知觉的整体性。到80年代末90年代初,已有许多研究表明在汉字的视觉识别过程中,要经过特征分析[1]。近10年以来,汉字识别的特征分析观点得到了更多的研究结果的验证:首先是采用不同的方法证实了笔画数效应的存在。如喻柏林等[2]采用命名识别法,发现在2至15画的范围内,汉字的命名反应时随笔画数的增加呈台阶状上升趋势;张武田等[3]发现在高频字当中存在笔画数效应;彭聃龄等[4]采用命名作业和真假字判断作业也发现有显著的笔画数效应。其次是发现部件因素对汉字识别的影响。有研究发现了启动部件对合体汉字识别的影响[5],提示汉字的部件作为单个结构反复认读,有可能成为汉字识别的加工单元之一,而且比笔画更符合简约的原则。张武田等[3]、彭聃龄等[4]的研究结果进一步证实了部件数效应的存在。

不仅部件的数量影响汉字识别,研究证明部件频率(即在合体汉字中出现的次数)也是影响汉字识别的因素之一,但其作用受到整字频率和结构类型的影响[6]。黎红等[7]的研究也发现,在速示条件下,部件频率影响汉字识别的准确性,而且部件频率对汉字识别的作用模式与刺激字及其组成部分的空间排列有关。

在汉字的构造部件之间还存在不同的组合以及组合频率。采用整字识别和整合识别等实验任务的研究表明,部件组合与部件有类似的频率效应,而且部件组合频率的作用也受到正字频率和结构类型的影响[8]。第三是证实了结构方式效应的存在。喻柏林、冯玲等[9]和喻柏林、曹河圻[10]在不限时呈现整字条件下,分别令被试对双部件和单部件做命名反应,结果一致发现存在结构方式效应,命名上下字的反应时要明显长于左右字的部件。陈传锋、黄希庭[11]进一步研究发现了结构对称性效应,识别结构对称性汉字的加工明显快于非对称性汉字,而且这种结构对称性效应在低频字中起作用,而在高频字当中不起显著作用;在多笔画字中起作用,在少笔画字中不起显著作用。

独体字直接由笔画构成,不存在部件这一结构层次,而且许多独体字本身就是构成合体字的部件。那么在对独体字进行认知加工时,是必须经过特征分析还是直接以整字为单元?肖崇好等人[12]将独体字中除去点、钩、提、短的横竖撇捺以外的其它笔画作为该汉字的框架笔画,把每个独体字的结构分为框架结构和非框架结构。研究结果发现,在速示条件下,独体汉字的识别从识别笔画开始,经提取框架结构后,才完成识别过程。与“框架结构”的观点相类似,沈模卫,朱祖祥[13,14]研究结果也表明,在含有十或口的独体汉字中,十与口是该类汉字的突出视觉特征的理论。这些结果表明对独体字的加工也经过特征分析。

查看全文

浅析汉字识别技术档案管理

关键字:技术方式档案图像利用信息数据文本目录汉字识别

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

查看全文

汉字识别技术应用研究论文

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

查看全文

汉字识别技术在档案管理工作中应用论文

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

查看全文

档案文本数据开发信息资源应用分析论文

编者按:统筹考虑档案状况、人员配备、经费能力、办公自动化水平、档案现代化建设发展规划等方面的因素,本文通过汉字识别技术的应用价值、汉字识别后生成的文本数据的属性问题以及汉字识别技术的应用方式三个方面来探讨切实提高档案信息资源开发利用能力。

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值

汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

查看全文

档案目录数据录入论文

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

查看全文

文本档案数据属性问题分析论文

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

二、汉字识别后生成的文本数据的属性问题。

原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。

查看全文

普及汉字识别提高档案信息资源开发论文

编者按:本文主要从汉字识别技术的应用价值;汉字识别后生成的文本数据的属性问题;汉字识别技术的应用方式进行论述。其中,主要包括:把纸质档案上的固定信息变成可以被检索利用的活信息、精神文明和物质文明的建设都有着非常重要的利用价值、提供了一种新的档案目录数据的录入方式、原始性是档案的基本属性、知识性是档案的又一个属性、汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息、方便用户,可减少信息利用过程中的重复劳动、输入档案目录、扫描、保存图像并提供利用、建立文本数据库、输入目录并保存图像、保存图像、建立文本件数据等,具体请详见。

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值

汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

查看全文

档案技术管理论文

汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。

一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面:

一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。

首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。

另一方面,提供了一种新的档案目录数据的录入方式。

应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。

查看全文

科学家建国60周年优秀征文

一条大河,历经几千年,流淌的尽是汉字。

甲骨文的波纹、金文的涟漪、篆书的漩涡、隶书的浪花……沿路讲述着仓颉造字的传说,传颂着中华民族博大精深、源远流长的文明。

汉字起源于中原,但汉字没有国界边陲。在历史上,越南、朝鲜和日本都曾经用汉字记录他们的语言。越南的本国文字——字喃,是以汉字为基础创制出来的;韩国至今使用的还是汉字和韩字(即谚文)的混合体文字;已在世界占据重要地位的日本文字目前仍保留有1945个简体汉字。将汉文化和汉字象种子一样撒向欧洲、美洲、非洲等世界各地的,其功绩莫过于张骞两通西域、唐朝“对外开放”,以及郑和七下西洋。

国兴则汉字热,国衰则汉字冷。新中国成立后,汉字饱尝“世态炎凉”,才又开始活跃起来。进入二十一世纪,中国日益强盛,经济实力排名世界第三,综合国力排名世界第四,汉文化和汉字也随之风靡世界。据国家汉办主任许琳介绍,到目前,全世界已有81个国家建立了256所孔子学院和58所孔子课堂。世界著名大学中有44所大学建立了孔子学院。此外,还有40多个国家150多个学校和机构已经提出申请设立孔子学院,到2010年孔子学院将多达500所。同时有109个国家、3000多所高等学校开设了汉语课程。全世界学习汉语的人数,已经超过了4000万。美国3年前只有200所学校开汉语课,到现在已经发展到1000多所,并提出了到2015年5%的高中生要学汉语的目标。作为英语发源地的英国,几乎所有的大学都或多或少地开设了汉语课;开设汉语课程的中小学数量,已从2002年的57所增加到目前的近500所。

随着南极长城站、中山站、昆仑站和北极黄河站等科学考察站的相继建立,汉字便同五星红旗一起在冰天雪地,荒无人烟的极地落户。从此,地球的每片土地上都生长着汉字。

活字印刷让汉字广泛传播。但汉字在科技世界的游刃有余,则是在新中国以后,尤其是改革开放的三十多年。1975年国家科技发展规划748工程的启动,推动和产生了我们今天使用的汉字操作系统、汉字应用软件和各种汉字输入输出设备,彻底扫除了“中文不适于信息处理”的障碍。从1981年汉字激光照排系统样机研制成功到后来的广泛使用,我国的印刷出版业告别“铅与火”、进入“光与电”时代,汉字活力与日俱增。随着汉字操作系统、汉字编辑排版系统、汉字识别系统、手写汉字输入系统、机器翻译系统的不断创新和换代,汉字在计算机的王国里进出自由,没有禁区。

查看全文