中国类书的特色与方志文献数据库的开发

知识类型: 析出资源
查看原文
内容出处: 《《慈溪市志》编纂实录》 图书
唯一号: 112320020220005273
颗粒名称: 中国类书的特色与方志文献数据库的开发
分类号: TP311
页数: 9
页码: 314-322
摘要: 本论文中国类书的特色与方志文献数据库的开发由周乃复创作,原载《中国地方志协会首届学术年会首届方志文献国际学术研讨会论文集》,中华书局2012年9月版。
关键词: 慈溪市 论文 文献

内容

本文是在日常使用中国古代类书及其电子版的基础上提出的一种方志文献数据库建设设想,所指的方志文献只指传统地方志,不包括易于实现数字化管理的现代地方志。对于计算机软件的开发,也只从用户的角度提出希望实现的功能,有待于软件工程师审定其可行性。
  一、一个设想的提出
  地方志文献的开发利用,自古以来就存在着两方面的困难:首先是志书的总体规模极其庞大,古代志书就已汗牛充栋,新编志书之多更有人以“铺天盖地”来形容①,人们要在这样庞大的书海中搜寻几条资料,实在是大海捞针、极其困难。其次,地方志资料中虽有无可替代的独家信息,弥足珍贵,但它们常常鱼龙混杂,考证、确认都相当困难,用起来不免战战兢兢,难以放心;谭其骧先生在“地方史志不可偏废,旧志资料不可轻信”的演讲中,就曾对此作过深入的论述②。解决上述困难的传统办法,一是编制各类索引来化解资料的检索问题,二是通过校勘、考订提高资料的可信度。另外,我国有一种处理文献资料的工具——类书,则能同时兼顾到这两者。可惜因为地方志文献的规模实在太大,而且良莠不一、体例各异,以至除一些综合性类书也兼收部分地方志资料之外,始终未能出现专以地方志为资源的专门类书,使方志文献的利用始终受到局限。近年来,随着信息技术的迅猛发展,实现方志文献数字化、建设方志资料数据库的问题被提了出来,让人们看到了彻底解决困难的前景,加上《四库全书》《古今图书集成》《四部丛刊》等大型丛书、类书电子版的先后问世,更使这种呼声日益强烈,人们期待的方志文献的数字化工程有望提上议事日程。
  但是,方志文献的数字化与大型丛书、类书的数字化相比,确有更大的开发难度。一方面是如此巨大规模的纸本地方志,要录入成为计算机文本数据,需大量人力、财力和漫长的时日,而且很难保证质量,可行性很低;另一方面,丛书、类书是已编成成品的著述,有其比较完善的编排结构和体例,入选的资料也已经过编者的校勘、考订和整理,而地方志书的集合却只是杂陈的原始资料,不经整理、鉴别、解析分类编辑,就无法像对待丛书、类书那样简单地通过扫描、录入就可以完成。因此,要将方志文献数字化,似乎首先得仿照《古今图书集成》,编出一种《中国地方志集成》,然后才有可能;但编地方志集成也工程巨大,要立项开发大约也不现实。因此,在全部录入现存地方志著作和新编一种地方志的专门类书都还不可能的情况下,要实现方志文献的数字化,为读者提供一种实用的方志文献现代化管理使用工具,就只能采用原件扫描录入,在页面上加主题标引的办法来解决。为此,笔者对传统类书及其现代电子版特别是《古今图书集成》的各种电子版进行了对比研究,产生了一种分工实施的设想,即由地方志部门设计一种方志数据的编排结构及其明细编目,作为方志数据处理的统一标引词系统;再由各地、各单位对各自需要的地方志按此标准进行数据加工,制作成以单部地方志为单位的独立数据;另由计算机专业人员根据地方志数据的结构特点开发地方志文献管理系统,提供给中央以及地方、单位;最终由全国或各地区、单位将所需的地方志数据单元纳入各自的方志文献数据库管理系统,实现不同层次的方志文献计算机管理。这样做,既符合数据库系统对入库数据要独立于应用程序之外的要求,又能将庞大的数据加工分散到各地、各部门甚至个人分头完成,应该是一种实际可行的办法。现不避浅陋,将此想法写出来,望得到大家的批评指正。
  二、传统类书检索功能对开发索引数据库的启发
  将上述设想与已出版的那些丛书、类书电子版比较,其明显的不同在于类书、丛书电子版因文献已转换成文本,采用的是以全文检索为核心的检索技术;而设想中的方志文献数据库则因无法实现文本转换,采用的是在页面图片上加主题标引的检索技术。检索的结果,前者可以文本、原页面两种方式呈现,后者只提供原文献的页面图像。比较两种检索技术,其实也是各有长短的。基于全文检索技术的查询,有很高的查全率,而且事先不必作任何标引,但其结果却并不能按查检者的希望作有序排列,而当检出结果极其庞大时,查检者仍只能望洋兴叹。而按标引检索,虽事先需大量艰辛的标引作业,但只要标引词群的设计比较完善,查准率却会很高。对于这种方志文献数据库来说,设计好数据的组织结构和标引词系统就是关键的环节。有了这个适合于全部方志文献的索引数据库,一部地方志的入库,就只需原书扫描和在扫描件上做出标引即成。
  在对传统类书的体例和使用标引实现检索的电子版古籍的对比研究中可以发现,类书的编目体系,非常类似于我们设想的方志文献的索引数据库,我国千余年来的类书编纂经验,对我们的创编工作,无疑有极大的参考价值。因此,我们先来看看传统类书与此相关的一些特征,以便进一步展开思考。①
  我国自曹魏时编纂《皇览》开始到清代,曾编纂大量的类书,仅《四库全书总目》著录的就多达282种(包括收录和存目)之多,是我国特有的文献利用的有效工具。不用说清代那些从事古籍治理的学者,全都视《北堂书钞》《艺文类聚》《册府元龟》《太平御览》等为研究的必读书;就是当代的学者,也常常通过传统类书来发掘研究资料。著名史学家黄仁宇撰写《明代的漕运》所采用的大量地方志资料,就有许多是通过相关类书找到的。他说:“在明代当时的资料中,各府州的地方志常常为社会研究提供了许多线索。这些地方志所包含的一些资料,在《古今图书集成》和顾炎武的《天下郡国利病书》中都能找到。”②而《古今图书集成》和《天下郡国利病书》正是综合性或专题性的类书。传统类书这种检索并且直接提供资料的功能,是以下数方面的特点带来的。
  首先,类书在其设定的范围内,力求穷极文献。这种求全求备的要求,用现代数据库的概念来看,正是提高查全率,防止资料漏检的基本前提。历史上的许多类书就是为了求全,曾一再被重编、续编、增编。萧衍诏修《华林遍略》,是为了在内容收集上超越刘孝标编的《类苑》,使收录资料增加了数倍;武则天敕命在《修文殿御览》《文思博要》的基础上编成《三教珠英》,也是出于同样的考虑。而白居易的《白氏六帖》,唐宋间更有多种扩编、续编本问世。至于传统类书中出现的那些漏编之处,也常被人诟病,如我国现存最早最完备的唐代类书《艺文类聚》,就因其“山”部所收五岳不全,被视为瑕疵。显然,方志文献索引数据库的编制也必须要求全求备,使能适合所有方志文献。
  其次,类书采用分类编排资料的体例,而分类又力求符合人们的传统习惯,便于检索。中国传统的综合性类书,采用古代哲学的天、地、人、事、物的分类体系,类下再分部分目,目内又按要论、事实和诗文等多层排列,其下则依时序展开。这种分类虽与现代科学分类有很大的不同,但对于有传统文化素养的学者来说,检索起来还是相当方便的。在类书的长期发展中,体例上又曾有很多的探索和创造,例如(隋)虞世南《北堂书钞》采用文献原字句作条目,下列出处、上下文、注释等;(唐)《艺文类聚》开始注意事、文并重,“事居其前、文列其后”,而且采用了参见法;(宋)《事物记原》和《山堂考索》精于考证,“原其始,推其自”;《韵府群玉》创按韵编排;(元)《册府元龟》始设总序、小序;(明)《三才图会》始配图谱;(清)《渊鉴类涵》在类下设统一栏目;等等。到清雍正《古今图书集成》,达到传统类书最完善的体例设计,采用经纬交织的结构编排,经线上用“汇编”“典”“部”三个等级排列,到“部”一级,又按汇考、总论、图表、列传、艺文、选句、纪事、杂录、外编等纬目编列资料,形成独有的经纬网格,将包罗万象的资料纳入相应的网格之中,各得其所。
  这种细分类目的有序编排方法,非常利于资料的检索、发掘,是按文献目录去找资料的办法无法比拟的。譬如我们想在新编《绍兴县志》①中查找有关陆游的资料,按目录查就只能从《人物编》中找到“陆游传”,不过是一篇近千字的简介。而如果从该书的电子版中检索②,就会在“陆游”条目下,出现来自《绍兴县志》的35条资料,总字数将多达近万字,它们分别来自该志的人物、史略、民族、镇乡、交通、城乡建设、农业、历史名产、民政、文化、卫生、体育、文物、风俗、进士名录、插图等16个部分的35个小节中,检索所得的覆盖面很大、漏检率极低,极利于研究的深入。我们在编制方志文献索引数据库时,应充分吸收类书在这方面的经验,编出符合地方志特点的索引词系统。
  第三,人们常说类书是百科全书式的著作,这指的仅是其知识含量像百科全书一样广泛,无所不包。其实从著述的性质来看,类书与现代百科全书是完全不同的。百科全书是一种著述,由编著者分门别类地撰文介绍古今百科知识;类书则是文献资料的分类汇编,列出的是文献原作的摘录。正因此,我们可以通过类书,摘录出古人著作中的有关文字,作为讨论的依据;而通过百科全书虽然可以了解一本古人名著的主旨,却无法原原本本地看到原件的文本。类书的这种原样分类保存文献内容的特点,带来了它重要的无比优越的功能,使一部某时期的优秀综合性类书,成为该时期全社会尚存文献的总索引,并直接提供检索结果。
  因此,类书的编纂十分讲究注明资料出处和忠实于原文献。如《白氏六帖》原本注文简略且不注出处,(宋)晃仲衍就一一考证出处,加以详注;又如(宋)《太平御览》所引资料,常杂抄自前代类书,就产生了不少重复、错落和讹谬之处,可信度大大降低,人们引用时就十分警惕。在这方面,方志文献数据库应充分加以继承,并努力有所发展提高。
  第四,类书中同主题资料的集中罗列,彰显了不同文献对同一事物的不同记述,其作用除检索之外,还有提醒读者注意考证辨别的作用,有时还能直接从中甄别出真伪,起到初步的校勘作用。例如关于上海建镇的年代,“方志上共有三种说法:嘉靖、万历《上海县志》等的宋末说;清初的方志和《大清一统志》的绍兴中说;嘉庆《上海县志》的熙宁七年说。”①研究者如果仅查到某一志书,就不假思索地引为论据,就会差之毫厘、谬以千里。但若能将它们编入类书中,读者在查阅沿革部分“上海”条时,就能同时见到三种说法,引起查考者的注意,就会像谭其骧先生那样经过细致、严密的考证,从中选定正确的资料。谭先生的文章中,还引用过地震历史资料编委会1981年第4期简报上的两则因转抄致讹的例子②。其一说乾隆《邵武府志》载:“康熙六十年辛丑,光、泰旱。建宁地震。”而光绪《邵武府志》转抄时却漏了一个“旱”字,结果在光泽县、泰宁县和建宁县条下分别记上了“(康熙)六十年辛丑地震”。将一个县地震记成了三个县地震。其二说(顺治)《高淳县志》记有“顺治七年庚寅地震。八月十日恩诏,民间拖欠钱粮,前诏已免元、二、三年,今再免四年”,而(康熙)《高淳县志》却记成了“顺治七年庚寅八月十日地震”,把下诏的时间误作为地震的时间,还造成了纪时上的矛盾。试想,如果上述这两例不同的资料,能同时放在一起,其转抄造成的差错,不就能立即发现了吗?类书的这种分类集中资料的办法,确能起校订差错的客观效果,这在方志文献数据库中也应是完全能实现的。
  第五,类书的编纂,处处注意为使用者服务。不说诸如虞世南的《北堂书钞》、白居易的《白氏六帖》、元稹的《类集》、李商隐的《金钥》等文辞类类书,是完全为文人赋诗作文做参考;其他如《艺文类聚》《太平御览》《册府元龟》《古今图书集成》等综合性类书,《兔园策府》《事林广记》等日常生活类书,《玉海》《源流至论》等科场应试类书,等等,莫不有明确的服务对象,努力适应不同人群的需要,努力迎合他们的查阅习惯。地方志文献数据库的设计也须注意这点,而不能仅仅从编著者的方便出发。
  总之,中国类书因其穷极文献、分类编纂、集中类比和注意考虑使用者需求的特点,使它成为一种广受欢迎的文献利用工具。方志文献数据库的设计应充分继承并力争超越,使之成为更优秀的方志文献处理工具。
  三、类书经验在新的条件下需灵活运用
  传统类书毕竟是知识系统还未现代化的封建时代的产物,在政治、哲学观念上,在知识体系的科学化和信息处理技术的计算机化上,都存在巨大的差距,因此在具体继承利用时,应根据新的条件加以改造、变换和提高。
  1关于方志文选索引数据库的建立,主要是索引词的选择和分类问题,要兼顾现代知识分类体系和传统方志文献的规范,并参考历代类书的丰富经验重新设定,要既符合现代划分规则,又不完全脱离传统地方志的习惯,需要进行深入的专门研究。而广西师范大学开发的《古今图书集成》新版提出的“标目式多字段索引数据库”及其具体分类,可作为重要参考。另外,还有以下两个方面的问题也要加以考虑:一是知识门类间存在着大量的交叉现象,该如何处理归类?我以为采取“互见”的办法比较好。这既能反映客观存在的学科间相互交叉、互相渗透的情况,又可避免漏检问题的产生。采取这种办法,在纸本资料上会增加大量的重复,而且一不小心还会产生数据不一致的错误,这在传统类书中几乎无法避免。但在计算机处理中却不会发生问题,因为检索时调用的是库中的同一文件,不会违反数据库的数据一致性和控制数据冗余的基本要求。二是列在目下的资料,要不要再分层次,分成怎样的层次?在传统类书中,《太平御览》在类下以经、史、子、集分类排序;(宋)《全芳备祖》则在每一植物下分事实、赋咏、乐府三“祖”,各“祖”下又分若干小类,如“事实祖”下分碎录、纪要、杂著三类等。《古今图书集成》,前面已提到是在部以下又设汇考、总论、图表、列传、艺文、选句、纪事、杂录、外编各类,其中外编所录,为荒唐难信的记事。看来这个办法有必要继承下来,使数据库标引词群也呈经纬交织的结构。至于如何分,分哪几层,也需要另行深入讨论。
  2.设想中的数据库以单页页面图片为数据的最小单元,这当然是缘于地方志资料不易文本化的局限,但却有对原文献绝对忠实的长处,使之成为一种名副其实的源数据库,使用者一旦检索到了,就无须查找原书核对。这优越性是传统类书无法实现的。尽管传统类书十分注意这一点,但要真正做到却很困难。这种检索结果的呈现方式,还可以实现上下翻页,使该文字片断的上下文、文下的考订评注、作者对该内容的使用角度、资料在书中的正确位置,甚至该书的版本状况、全志序跋等都可一一查阅,可避免对资料的误读和曲解,与类书的神龙见首不见尾的状况完全不同。当然,地方志文献的页面录入,还要注意采录的版本必须严格选择,有版本留存的地方志不能为贪方便,从类书中采集;从类书中采入已失传的地方志资料,要另加标志,等等。这里就不展开来谈了。
  3.在采录文献资料时,不能简单、粗暴地舍弃那些编者认为是荒谬、错记的材料。检索结果只是同一主题资料的集合,对资料的对错,数据库的编者毋庸评判,那是查阅者的事,不必代庖。采取这种态度是因为编者不是全能的,不可能对所有领域的事都做出准确的评判,硬充全能智者,反而会误导读者。一些在当时甚至现代科学也还无法解说的事,在文献中会有显然不科学的记述,但这并不能说明该事实的不存在;而且即使是确实错误的资料,你认为毫无意义,但在别人却可能从另一角度看到最真实的事态。谭其骧先生从《丹涂县志》那完全不可信的历史人口数的记述中,看出了明代“土地兼并严重,吏治日益腐败,册籍欺隐日甚一日这样一个普遍的弊病”,就是一个明显的例子。①
  4.但是,我对上一条的认识,也有一个保留,认为方志文献数据库中可以提供一种符合当前学术水准的比较正确的参照。这个想法是在运用一些丛书、类书电子版时产生的。从综合性类书中查找地方志的资料,会同时出现经书、正史中的相关文字,觉得很有帮助:有时在比较中发现了地方志对正史的补充和匡正,地方志资料的价值立马得到提升;有时则看出了地方志的记述是靠不住的,能防止据以做出错误的判断。因此,笔者在采用地方志的资料时,就常常到著名类书、丛书或正史的电子版上去检索一下,看看经书、正史中怎么说,以便确认或加以订正。
  这让我联想到应该在地方志数据库中纳入《辞海》或《中国大百科全书》这样的代表当前知识水平的工具书的资料,作为一种参照供读者参考。其调阅的方式,可参考《四部丛刊》电子版的做法。它是将《康熙字典》等字典作为辅助资料纳入,当完成检索后,如检索者将鼠标移到页面某一文辞上,计算机屏幕上就会跳出一个窗口,窗口中显示的是字典中对这个文辞的释文,非常方便、实用、可考。在地方志文献数据库中如果也能用这种方式,显示相应的《中国大百科全书》或《辞海》的条目内容,应该会有很大的帮助。
  5.我国传统类书有努力考虑使用者的要求、处处注意为他们服务的优良传统,应努力继承发扬。地方志文献数据库的数据结构和标引词系统即索引数据库的设计,特别要主动听取各专业界的意见;他们的需求和意见是设计的最主要的根据。联系到地方志界存在的那种重在自评自赏,较少主动听取业外专家意见的情况,似乎更应特别强调这一点。
  从传统类书及其电子版的使用中受到启发而想到的这个方志文献数据库的设想,不仅在理论上是可行的,而且客观上也已具备开发的有利条件。
  在数据库管理系统的设计方面,近年来已经开发出许多文史类的古籍数据库,如大型古籍全文数据库《国学宝典》(首都师范大学电子文献研究所)、全文版《四部丛刊》(北京书同文数字化技术有限公司)、《四库全书》(上海人民出版社、迪志文化出版有限公司)、“廿五史”(青苹果数据中心)、维普中文科技期刊全文数据库(重庆维普资讯有限公司)、万方数据资源系统(中国科学技术信息所)、《古今图书集成》(有广西师范大学出版社和广西金海湾电子音像出版社版、台北故宫博物院版等多种),创造和积累了丰富的开发经验,足以对付并不十分复杂的方志文献数据库管理系统的开发。
  在地方文献资料的数字化方面,因为只需实现原件的扫描,更没有多大的难度。而且目前已完成扫描录入的地方志已很多,单从浙江来看,笔者收集到的就已有64种,占比已经不小。
  作为本设想关键环节的标引词系统的设计方面,我们有类书的丰富经验的启发,有各类地方志索引可做参考,特别是广西大学文学院近来公布的《古今图书集成索引》2.0版,被认为“在索引工作史上具有里程碑的意义”,“在世界汉学索引工作中达到了先进的水平”,也可以拿来学习、参考,开发起来也不至于非常困难。
  我由衷地吁请大家对此设想的可行性进行讨论,共同推动方志文献数据库的早日建成。

附注

①《公共图书馆加强新方志开发利用刍议》,见《中国图书馆学报》(双月刊)1999年第1期 ②谭其骧《长水粹编》,第388页,河北教育出版社2000年12月版。 ①本节中有关传统类书的评析,参考了戚志芬著《中国的类书、政书和丛书》,商务印书馆1996年12月版。 ②[美]黄仁宇著,张皓、张升译《明代的漕运》,第248页,新星出版社2005年4月版 ①绍兴县志编委会编《绍兴县志》,中华书局1999年5月版。 ②《绍兴县志》电子版,是本文作者参与制作的一种多煤体光盘读物,宁波金轮计算机有限公司制作,电子工业出版社1999年版。 ①②谭其骧《长水粹编》,第394页,河北教育出版社2000年12月版 ①谭其骧《长水粹编》,第401页,河北教育出版社2000年12月版。

知识出处

《慈溪市志》编纂实录

《《慈溪市志》编纂实录》

出版者:浙江人民出版社

本书记录了《慈溪市志》编修全过程和辑录相关资料编纂,卷首配有与修志工作密切相关的彩色照片,前置编纂回顾、编纂记事,正文由文件辑存、讲话发言、专家评审、论文选录、修枝慢谈、修志掠影六个部分组成。

阅读

相关人物

周乃复
责任者

相关地名

慈溪市
相关地名