三百古籍经典首度数字化经历10多年才出炉

2014-6-24 14:41:00 来源：中国新闻网进入论坛

近日，包括国家图书馆、首都图书馆、北京大学图书馆、清华大学图书馆在内的全国三十余家图书馆，已陆续在电脑系统中安装了中华书局的数字化产品《中华经典古籍库》，并向公众开放。这一数据库目前包含300种首度实现数字化的古籍经典，如果印刷为纸质书，这些古籍完全可以称得上汗牛充栋，可是如今人们却能够在电脑上任意检索，轻松地调阅其中的内容。

“好东西都拿出来了”

“中华书局半个多世纪以来积累下来的好东西都拿出来了，这里面凝聚了无数学者的心血。”中华书局副总编辑顾青这样评价《中华经典古籍库》的价值。

作为中华书局版点校本古籍首度数字化的成果，《中华经典古籍库》收录了包括“二十四史”及《清史稿》《资治通鉴》“新编诸子集成”“清人十三经注疏”“史料笔记丛刊”“学术笔记丛刊”等权威整理本，一期收录经典古籍300种，共计2亿余字。今后，该数据库还会以每年推出一辑的速度，不断增添文献数据。

中华书局数字出版中心主任李晨光介绍，该数据库不仅提供了保留全部整理成果的数字文本，更实现了文本与原书图像的一一对照，并能自动生成引用格式，除支持全文检索外，还添加了独具特色的人名异称关联检索。

在古籍数据库领域，人名异称关联检索是首次出现。顾青举例说：“比如人名曹操，还有很多称谓：孟德、吉利、阿瞒、武平侯、魏王、魏武帝、魏太祖等，仅仅《三国志》一书中就另有25个，更不要说历代文献的各种称谓了。”他认为，即便是最熟悉曹操的专家检索“曹操”，大概也不会把几十个不同称谓都输入一次。“但该数据库因为有主题词表，输入一次‘曹操’，所有不同称谓所在的文献都能检索出来。”

“造”出6000多冷僻字

《中华经典古籍库》经历了10多年漫长的过程，才最终出炉。

中华书局数字出版中心古籍资源部主任洪涛回忆说，该项目于2003年由原国家新闻出版总署启动，并交由中华书局具体实施。有三家外包公司参与了该项目的合作，其中一家负责数据采集，一家进行软件开发，一家负责造字，而中华书局负责设计、组织、测试、验收。

让中华书局方面没有料到的是，该数据库仅造字一项任务就造出了6000多个冷僻字。

北大方正电子有限公司字库业务部总经理张建国说，北大方正开发的超大字库有70000多个汉字，专门用于古籍出版项目服务，但由于古籍经典中包含大量冷僻字，即使是这个超大字库也无法满足《中华经典古籍库》的使用需要。这些冷僻字包括异体字、通假字、避讳字，还包括简繁字，甚至日文、韩文中的汉字。

对于这些字库里没有的冷僻字，“造字设计师会根据中华书局提供的样稿，在电脑里先画出来，再打印出来看效果、看细节，不是偏旁部首一拼就行了。”张建国说，一般设计师每天能造字二三十个就不错了，为了保证工作进度，方正方面投入多人组成小组，加班加点，才完成了这6000多个冷僻字的造字工作。

最担心纸质书受冲击

《中华经典古籍库》项目成本巨大，其中来自国家的投入高达2000万元，中华书局也向该项目投入了1000多万元。沉重的成本负担给中华书局带来了不小压力。顾青实话实说，他怕巨额投入收不回来，纸书销售也受到冲击。当然，他还怕辛辛苦苦出的成果被盗版。

中华书局这套数据库分成两类，售价30万元的为无限并发数，也就是说同时在线使用的用户数没有限制。售价15万元的为3人并发数，也就是说三个用户可同时在线使用。

截至目前，中华书局还没有收回一分钱。“虽说有多家图书馆陆续预装这套数据库，但需要试用三个月以后，这些图书馆才会决定是否买。”即便如此，顾青坦言，“我们一直担心几十年的好东西都拿出来了，数据库没收回钱，最后纸书也卖不动了，大家全用数据库了。”他直言不讳地说，这种担心，即便在数据库开发之初也同样存在。

对于盗版，顾青也心存担心。为了防止盗版，数据库销售目前仅提供给图书馆等机构，并没有向个人开放。但顾青承认，尽管数据库有先进的防盗系统，但小贼能防，大贼防不了，“就像家里安了三道防盗门，你是能防小贼，但大贼开个推土机把你家给平了，你也没办法。”他衷心希望“江洋大盗”别光顾这家“小店”，“因为古籍数据库毕竟是个小行当，我们无比珍视。”

古籍库有望改变论文引用惯例

学界声音

在学术界，《中华经典古籍库》的启用被视为标志性事件，作为该数据库首批试用者的一些学者，在体验了数据库的方便、快捷的同时也感受到，专业古籍数据库的出现，有可能改变现有的学术论文引用惯例。

清华大学中文系教授刘石说，从上个世纪80年代古籍数据库出现以来，专业学者一直遵循不成文的原则，那就是数据库不能直接引用，一定要查找原书进行核对才行，“因此，如果我的学生在论文中引用了数据库的东西，我就不能算他通过。”

刘石解释说，此前，有很多数据库做得不够精心，校对存在很多错误，版本也不够科学，“尤为重要的是，学术论文引用典籍都要有出处，但这些数据库因为版权不明确，或者根本就是盗版，都无法标明出处。”

“中华版”数据库的到来，有可能改变这一惯例。

中国社会科学院历史研究所副研究员陈爽认为，对于学者而言，这个数据库尽管收入的都是常见古籍，并不是什么稀见古籍，其2亿字的数量在业界也并非顶尖，关键在于，该数据库都有版权，而且古籍出处准确，这在过去显然是鲜见的。对此，刘石也表示赞同，“今后，如果我的学生引用这个数据库，就没有任何问题了。”本报记者路艳霞

编辑:秦人
关键词：数据库中华书局检索顾青经典古籍古籍库曹操图书馆人名数字化

发表/查看评论 共条

相关链接

推荐信息

三百古籍经典首度数字化 经历10多年才出炉

三百古籍经典首度数字化经历10多年才出炉