生僻字的信息处理研究论文

导语：生僻字的信息处理研究论文一文来源于网友上传，不代表本站观点，若需要原创文章可咨询客服老师，欢迎参考。

生僻字的信息处理研究论文

摘要：汉字生僻字的输入，一直是困扰文史工作者的难题，本文试在前人的研究基础上，提出一些关于汉字信息处理的设想和相关的解决方案。

关键字：生僻字；字符集；信息处理

汉字的信息处理经过多年的摸索，冲破了以前汉字不能进入计算机的迷信，取得了可喜的成绩，但离能完全满足实际使用的需要还有很长一段距离。

我们先回顾一下计算机中的字库，然后讨论生僻字的信息处理方法。

一、汉字库发展简介

汉字库通俗地说就是计算机软件系统中的汉字仓库，依据不同的标准，字库中汉字的数量是不同的，以前的主要标准有：

1、GB2312汉字编码字符集

从1975年开始，我国为了研究汉字的使用频度，进行了大规模的字频统计工作，内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物，在数以亿计的浩瀚文献资料中，统计出实际使用的不同的汉字数为6335个，而其中有3000多个汉字的累计使用频度达到了99.9%，而另外的3000多个累计频度不到0.1%，说明了常用汉字与次常用汉字的数量不足7000个，这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集—基本集》的国标交换码，国家标准号为：GB2312-80，选入了6763个汉字，分为两级，一级字库中有3755个，是常用汉字，二级字库中有3008个，是次常用汉字；还选入了682个字符，包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。以前我国大陆的各种中文DOS版本、Windows3.1/3.2版本，装入的字库都是国标一二级字库。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等汉字，既无法输入，又不能打印。

后来国家技术监督局又颁布了一个与之相对应的繁体字集，全称《信息交换用汉字编码字符集辅助集》，标准号为GB/T12345-90。

2、台湾BIG5字库

BIG-5码是通行于台湾、香港地区的一个繁体字编码方案，俗称“大五码”。地区标准号为：CNS11643，这就是人们讲的BIG5码。

BIG-5码收录汉字13053个，分为常用字和次常用字两部分，各部分中的汉字按笔划/部首排列。其中常用字5401个，包括台湾教育管理部门颁布的《常用汉字标准字体表》中的全部汉字4808个，台湾中小学教科书常用字587个，异体字6个；次常用字7652个，包括台湾教育管理部门颁布的《次常用汉字标准字体表》的全部汉字6341个，《罕用汉字标准字体表》中使用频率较高的字1311个。

后来为了协助解决众多使用BIG5码单位于进行公文电子传递时遇到自造字无法转换CNS的问题，实行了“BIG5码字集扩编计划”，1986年7月扩编完成，这就是所谓的“BIG5+码”。

BIG5+码系以CNS为蓝本，共增编标准字集4760个字符与推荐字集3250个字符；其标准字集即纳编CNS第3字面字集内之4145个，第4个字面字集内之219个字，均为一般文书常用之中文字，总支持文字量达141376个

3、大字符集字库（又叫GBK字库）

国际标准化组织为了将世界各民族的文字进行统一编码，制定了UCS标准。根据这一标准，中、日、韩三国共同制定了《CJK统一汉字编码字符集》，其国际标准号为：ISO/IEC10646，国家标准号为：GB13000-90，该汉字编码字符集就是通常人们所说的大字符集，它编入了20902个汉字，收集了大陆一二级字库中的简体字，台湾《通用汉字标准交换码》中的繁体字，58个香港特别用字和92个延边地区朝鲜族“吏读”字，甚至涵盖了日文与韩文中的通用汉字，满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库，人们一般称它为GBK（“国家标准扩展”的拼音缩写）字库。

4、新标准汉字库

2000年3月，国家信息产业部和质量技术监督局在北京联合了《信息技术和信息交换用汉字编码字符集、基本集的扩充》，国家标准号为：GB18030-2000，收录了27000多个汉字，还收录了藏、蒙、维等主要少数民族的文字，以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入，该标准于2000年12月31日强制执行。GB18030-2000作为GBKforUnicode3.0的更新而诞生，它带有包含所有Unicode的扩展，完全向下兼容GB2312-1980和GBK。

二、对于汉字库设计的想法

字集不是越大越好，因为现存于大型字典辞书的字有一部分是历史用字，还有大量的异体字。根据使用的需要和研究的情况，对汉字的信息处理可以分为几个层次

1、日常生活用字：（可有一个人名、地名辅助集和错字集）

日常生活用字就是常用字，这个数字可能就在3000字左右，再加上一些次常用字，可能也就在6000字左右，当然，其中哪些是常用字，哪些是次常用字，具体的字可能要随着时代不同而发生变化。日常生活用字要求有规范性，现在进行的“规范汉字表”课题研究可能有助于此字集的确定。

人名和地名用字是一个比较特殊的问题，国家语言文字工作委员会正在进行“人名、地名规范”的研究，如果此研究成果面世，则可能有助于解决现代人的人名、地名用字问题。

此集中最好还应该有一个错字集，在早期识字教育和对外汉语教学中，经常要使用到一些错别字，别字好打，缺笔少划的错字没有办法处理，所以应特置一个错字集，有利于错别字教学的信息化与错别字的集中纠正。

2、一般古籍整理用字:（应该有一个异体字辅助集）

古籍用字，数量比现代生活用字多。因为历代沉积下来的异体字、死字比较多。关于这个问题，首先应该进行异体字的整理，异体字整理完成后，正体字就可以确定一个数量。为了保持古籍版本原样，古籍整理工作者和语言文字研究者也要用到异体字，所以附录一个异体字集。

还有一个问题就是方言字，很多方言字来源于古代的字典辞书、地方韵书和方言词典，少部分来源于民间文艺作品。首先方言字有一个规范的问题，那些有本字又意义比较明确的，应该首先选用本字。如本字不明，可沿用俗字。

3、古文字用字:（也有一个异体字辅助集）

关于古文字，一般定义为小篆以前的文字为古文字，其中有很多字还不可识，这种情况，就首先要区分出可识字（与小篆或楷书有对应字）与不可识字，然后进行异体字的整理。并且要能为每个不可识字设计可以调用的编码，以利于检索。

汉字库的设计，针对不同的用户与使用目的，分级分层次是很必要的。各级之中首先要全，同时要考虑各级之间正体字与异体字、繁体与简体、古文字与今字的正确对应等。

此外，各种常用图符也可考虑收录到各级字库中，如传世古籍中出现的圈点符号、古文字中的有句读作用的符号。少数民族和外域的汉字型变体字，也可考虑单置一类，以有利于文字的比较研究。、解决方案

以下所使用的操作系统，没有特别指出的为Windows98，字处理软件则为Word2000。其它则专门指出。

（一）利用GBK汉字集解决生僻字的输入方法。

微软从Windows95（简体中文版）视窗操作系统起，都采用了GBK字库，该字库收字20902个，基本能满足日常生活用字（生僻人名、地名字除外）。要利用该字库，通常可采用下列几种方法。

1．改用GBK输入法

Windows95版本及以后版本提供了GBK内码、GBK全拼、GBK双拼、GBK表形码和GBK郑码5种GBK输入法。但这些输入法不是安装的默认选项，需要从“控置面板”中打开“输入法”对话框来添加。Windows98默认安装全拼输入法则可以选择输入一般汉字和GBK汉字（使用该输入法的属性设置）。其它同样需要安装。

这些GBK输入法中只有全拼比较常用，而且，这些输入法所输入的汉字，包括了GBK繁体和GBK简体，数量非常大，所以造成两方面的不便：一是重码率高，选字非常麻烦；二是繁体简体同时出现，有些字不容易分辨繁简，同时如果不知道字的读音，也很难选择拼音输入法。

现在已有软件研制商研制出能输入GBK字库的五笔字形输入法，如智能陈桥，对于熟悉五笔输入法者，比较便利。

2、用Word插入符号的方法

选“插入”菜单中的“符号”命令，在“字体”下拉列表中选“标准字体”(Word97是“宋体”)，在“子集”中选“CJK统一汉字”（Word97是“部首及难检字”）。一般可在列表中找到所需的汉字。虽然该字库大致是按部首和笔画进行编排的，但查找起来还是相当麻烦。以前有万学仁先生编有《通用字符集部首表及区位码（16进制）》[1]，有利于查找，如果没有该部首表，还有一种方法可以采用，先输入一个与所要输入的生僻字相同偏旁的汉字，并选中该汉字，然后用鼠标单击“插入”菜单中的“符号”项，此时会弹出“符号”对话框，再用左右方向箭进行逐个查找和挑选，就会很快找到该生僻字的。如果是一个独体字，则可以输入一个笔画相同的的独体字（也不作偏旁）。很快会在其附近找到该字。

（二）GBK字集以外生僻字的输入

1、使用Windows自带的“造字程序”

该程序操作简单，使用方便，既可以用两个字重新拆分组合成一个新字；也可以选一个相近的字加以修改而造一个新字；还可以直接在编辑框中画出您所需要的字，比较便利的是前两种方法，其步骤如下。

（l）取两个字中有用的部分，重新组合成一个新字。以“腘”字为例（为便于排版，没有选用GBK以外的字作为例字，下同），单击“开始”按钮，选“程序”、“附件”、“造字程序”，出现“造字程序”窗口。在弹出的“选定代码”窗口中确定所造的字的代码位置，比如AAA1后按“确定”按钮（如没有出现，则选“编辑”中的“选定代码”命令），此时在“造字”窗中出现“编辑”工作区。再选“编辑”菜单中的“调用”命令（在Windows2000、XP中则为“复制字符”命令），单击“字体”按钮，选择字体后，在“形状”框中输入参考字“腊”，按“确定”按钮。在“编辑”框中出现“腊”字。再选“窗口”中的“引用”命令（在Windows2000、XP中则为“参照”命令），一样选定字体，输入参考字“掴”，在“造字”窗中出现带有“掴”字的引用框。用“造字”窗左边的圈选工具圈选“编辑”框中的“昔”，按Del键。圈选“引用(参照)”框中的“国”，将它拖到编辑框中合适的位置，然后关闭“引用”框。再选“编辑”菜单中的“保存字符”命令，在对话框中按“确定”按钮。

此时该字已经建立，如文章中需要用到“腘”字只要将输入法切换至区位输入法，键入AAA1，即可出现“腘”字。

如果要在以后能以平时的输入方法输入该字，那还要补上下一步操作；选“编辑”中的“输入法链接”命令，如为第一次输入，将弹出搜索对话框，在文件名输人框中以英数方式输入你常用的输入法，单击“打开”按钮，弹出是否要创建该文件的询问，单击“是”。如有多种输入方法，则依次键入不同的输入法文件名，完成后弹出输入外码对话框，输入该字的外码（如链接了多种输入法，则有不同输入法的外码）。按“注册”按钮。但要注意输入的外码必须符合该输入法的规定，计算机不承认你自行定义的外码。

（2）用相近的字修改。以“臿”字为例：前边的步骤与前例相同，只是将参考字改为“插”。用上述的方法删除“插”字的提手旁后圈选“编辑”框中的“臿”，将它向左拖至框的中间，通过调整八个控制点来改变形状大小至满意。以后的操作与上例相同。

该法的优点是：不管是否知道该字的读音，总能通过拆分组合的方法造出来。并且，当正确输入外码注册后，平时还能以习惯的输入方法输入该字。缺点在于如果需要将使用了该造字文件的文档拷贝到其它计算机中，还需要拷贝造字文件。

（3）对于某些类似于图形的字，可以选用各种工具画出需要的字形。

2、用Word组字

Word2000的“格式”菜单中有“中文版式/双行合一”功能，工具栏上有“字符缩放”按钮，利用它们您可组合一些冷僻字。较之用其他方法要简便得多，操作方法如下：

（l）对于左右型字体，以“嬿”字为例：输入“女”字后紧接着输入“燕”字；选中“女”字，单击“字符缩放”按钮，选择合适的比例（该字可选50％）；选中“燕”字，单击“字符缩放”按钮，选择合适的比例（该字可选80％）；同时选中“女”与“燕”，选“格式／字体”命令，单击“字符间距”标签，在“间距”框中选“紧缩”，再单击“确定”按钮即可。

（2）对于上下型字体（以“斊”字为例）：键入“文耳”两字，然后选中它，在“格式”工具栏上的“字号”框内选择合适的字号（通常输入“四号”字时可选“小五”号，输入“五号”字时可选“小六”号。但有时差距可能还要大一些）；单击“字符缩放”按钮，选择合适的比例（该字可选200％）；选“格式／中文版式/双行合一”命令，按“确定”按钮。

采用上法输入冷僻字要使字型漂亮，对于左右型字关键在于输入合适的比例；上下型字则在于合适的比例及“大小”框中的数值，当然字号的大小也是十分重要。但此法对于结构复杂如包围型、半包围型、声（形）占一角型等的字则不适用。采用该法组成的字，还可以作为字符串检索。

3、如果要经常运用到大量生僻字形，则可以选用已有的自造字字库进行插入。

现在已经有大型的自造字字库出现，如由日本《今昔文字镜》研究所制作的《今昔文字镜》，包括24个TTF格式的矢量字库，共包括九万个汉字。其中收录日本《ISO10646字符集》汉字两万个，《大汉和字典》汉字五万个，其他四万个汉字包括：甲骨文、梵文、大陆、台、港汉字、水文、越南字喃、汉字偏旁和造字部件、日文假名、俄文、拉丁文等各种常用字母和符号。适用于WINDOWS95／98／NT为操作系统的各种文字处理应用软件。还提供了一个简单易用的检索应用软件。

还有如北师大汉字与中文信息处理研究所研制的《说文小篆输入法》，能够输入所有小篆字形和《说文》所收古文、籀文等字形。

其它还有一些古籍数字化机构与研究人员也造了各种各样的字库，只需要安装到字体中，就可以显示打印他们所造的字。此种字库，如能有统一的规范与标准就比较好交流使用。并且最好能有一个检索和输入字符的相应软件才可资重复利用。

4、用字体制作软件制作自己的字库。现在已经有比较好用的字体制作软件，如FontCreatorProgram，如果能熟练使用，则可以自己量身定做自己的字体，优点在于可以随时补充修改。缺点在于自造字库千差万别，通用性差。

参考文献：

[1]万学仁.谈谈非常用字的信息处理[J].内江师范学院学报，2001,(3).

生僻字的信息处理研究论文

相关文章