四库全书校对条例 联系客服

发布时间 : 星期一 文章四库全书校对条例更新完毕开始阅读4174a212f18583d049645943

编辑校对

为确保数据库的资料齐备和准确性,整个制作过程需要有系统地和足够人手去完成繁复的编辑和校对工作。

数据库资料的编辑和校对工作,除了承办制作机构的努力外,更得到多家机构和单位的鼎力支持和协助。

编辑校对单位

上海人民出版社 编审校对 上海师范大学图书馆 原书图像校对 北京图书馆 卷内标题检索校对 辽宁省图书馆 卷内标题检索校对 东北大学等多位教授、研究生 卷内标题检索校对 北京大学文史系研究生 卷内标题检索校对

整个编校队伍超过二百人,在两年的时间内,将一百六十五张数据光碟进行浏览,解决对书籍位置的核准、书名的确定、着者与编纂者的调整、

书名与着者名的对应等各项工作。虽然电脑能辅助校对工作,但要从各个角落,用多种方法对照原文,快速而正确地校对与补充输入,其难度可想

而知。

经过多次校对,目前各数据库沿用的凡例部分如下:

1. 全文文本数据

2. 原文真迹图像数据

3. 书名数据

4. 着者数据

5. 辅助数据 (分类条件、联机字典、汉字关联、辅助输入、

辅助工具)

1. 全文文本数据

《四库全书》是在清代乾隆年间编纂,历时十载,由3,000余名抄缮书手誊写,是我国迄今为止最大的一部丛书。全书文字总数共七亿多字次,

其中汉字出现逾七亿字次。

为了尽量准确地表达这些汉字,本电子版采用了世界上迄今为止最大的国际标准编码字符集 ISO/IEC 10646-1:2000 中的CJK标准汉字

27,000余个 ( CJK Unified Ideographs 和CJK Unified Ideographs Extension A ),并且在该标准框架内的Private Use Area 区域内定义了近5,000

个在古籍中较常使用的汉字,共计32,000编码汉字。我们把这个汉字字符集称作CJK+。根据统计,「四库全书电子版」的汉字数量、汉字出现字

次,在CJK+中的分布分别为:

字数 字次数

字类

万分比

数量 百分比(%) 数量 (%%)

CJK 18670 63.99 695233305 9925.02

CJK_A 内

EUDC 字

6144 21.06 2522469 36.01

4296 14.73 1959813 27.98

其它

符号 38 0.13 455653 6.50

外字 24 0.08 314388 4.49

总数 29172 100 700485628 10000

CJK+ / EUDC(Private Use区域)的自定义汉字,主要从以下来源选取:

1. 上海人民出版社《中华古汉语字典》中的汉字(全选)

2. 《四库全书》作者数据库中的全部汉字(全选)

3. 《四库全书》书名数据库中的全部汉字(全选)

4. 《四库全书》180万条篇目(全选)

5. 《四库全书》中出现率在3次/亿以上的汉字

6. 《中华文化通志》中的汉字。

在CJK+的基础上,我们为电子版制作了新旧两套笔形的楷体字库、开发了OCR手写汉字识别引擎、校对软件以及键盘输入方法─四库流行码。

尽管如此,由於《四库全书》涵盖内容之大和手抄本字体的变异之钜,偌大的字符集仍然不可能 100%地保持原书字迹的真貌。因此,在工程

实际中,我们采用了一整套规则。

规则的目的是在现有CJK+字符集的基础上尽量保真。不做以简代繁,只做有控制的异体代换。异体代换之宽严在不同情况下有所不同:字书

从严,其他从宽﹔字头从严,释义从宽﹔表形时从严,表义时从宽。在异体代换时根据文字的一些具体情况实行了不同处理,其原则如下:

(一)异体字及外字的处理

1. 保真转换:

凡原书字迹与CJK+字形一致时,不论是正体或异体,均实施对应的保真转换 - 用编码汉字表示。

2. 有控制的异体代换:

字符集中没有、但在《四库全书》中出现的异写/异体汉字,已尽量选用字符集中与之最接近者代换(即:用微小笔形变异的同字代换),例如:

\ \代换为\毅\

3. 对《四库全书》抄写过程中出现的增笔、减笔、误笔及书写习惯而出现的明显讹误,校对过程中已依照文意做辨别处理,例如:

\剌史\改为\刺史\。

4. 《四库全书》中避讳字很多,不仅独体字避讳,写成缺笔,而且由这些字为构字部件组成的合体字同样避讳,例如:

\\、\\、\\、\\、\\、\\、\\、\\、\\、\\为了尊重古籍原貌,保留其文化现象,则在

字符集用户扩充区造字做到保真转换。但是通过汉字关联技术,从正字也可检索到避讳字。

5. 对於《四库全书》原书中发现的疑难模糊之处(\模糊字\),已尽力参照原书和工具书加以鉴别,实在难以辨别者,保留其原图形作\处理并加

以说明。阅读时,打开联机字典,当光标移到□处时,会自动出现原文字迹。例如:

6. 外字处理方式:

《四库全书》中出现了许多外字(即:无法按照原形保真转换,又无法进行异体代换的字)我们采用了以汉字结构符等特殊标记开头的字符串来

表示它。以下将它如何显示、检索、提示、联机字典等的几个方面详细说明:

字串 字串含义 显示 检索 提示(鼠标移到该字联机字典(鼠实例