李明杰 | 古籍数字化传播:内容、成效与前瞻
2026-05-07 19:56 湖北
渡尽劫波、千年不圮的古籍是中华文明的见证,其承载的历史记忆、文化遗产与民族情感,既是中华民族宝贵的精神财富,也是世界文明不可分割的组成部分。
👆👆👆点击蓝字 · 关注我们
渡尽劫波、千年不圮的古籍是中华文明的见证,其承载的历史记忆、文化遗产与民族情感,既是中华民族宝贵的精神财富,也是世界文明不可分割的组成部分。党的十八大以来,以习近平同志为核心的党中央站在实现中华民族伟大复兴的战略高度,对传承和弘扬中华优秀传统文化作出一系列重大决策部署。2022 年 4 月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出要“推进古籍数字化”;同年 10 月,全国古籍整理出版规划领导小组印发《2021-2035 年国家古籍工作规划》,将“国家古籍数字化工程”列为四项重大工程之一,并对相关工作进行详细规划;2023 年 10 月,习近平总书记对宣传思想文化工作作出重要指示,明确提出要“着力赓续中华文脉、推动中华优秀传统文化创造性转化和创新性发展”。这一切都预示着,古籍数字化正在迎来一个新的历史机遇。
一、古籍数字化传播的内容
我国历史遗存的古籍大约有 20 万种,这就存在两个问题:一是有无必要全部实现数字化?二是如果存在轻重缓急,该如实现古籍数字化?从文化遗产保护的长远角度看,对所有古籍实现数字化保存其实是有必要的。古籍的内容用今人眼光来看虽良莠不齐,但可以区别利用,如有的可作文化普及用,有的可供学术研究用。因为古籍存量大、数字化周期长,且不同古籍之间在内容、版本、价值及保存状况等方面存在较大差异,数字化工作必须有序推进。换句话说,古籍数字化传播的内容有一个优先选择的问题。
古籍数字化传播的内容是由其工作内涵、当前任务及历史使命决定的。人们对古籍数字化工作内涵的认识经历了以下三个阶段:一是将古籍数字化视作古籍内容存储介质的转换,即把文本内容从传统的纸质载体中迁移至数字载体中;二是在转换古籍内容存储介质的同时,利用计算机技术完成对古籍数字资源的有序化组织和检索;三是将古籍数字化视作传统古籍整理在数字环境下的发展和延续,即把古籍数字化转换之后形成的书目数据、文本数据、图像数据等,当作下一步古籍整理的素材,再运用文本挖掘与聚类、社会网络分析、地理信息系统(GIS)、知识可视化、机器学习等新型信息技术,对其进行深度知识开发。古籍数字化发展至今,笔者将之定义为“以保存古籍文本和版本信息为基本目的,以发掘古籍蕴涵的知识思想与认识历史发展规律为最高目标,在对纸质古籍完成传统的版本鉴定、文本辨伪、文字校勘等整理程序之后,再利用现代信息技术将其文本或影像转换成计算机可存、可读、可传输、可检索的数据,并对这些数据进行深度加工,实现知识的发掘、发现和重新聚合的过程”①。从这个意义上说,古籍数字化保护和传播的对象不仅仅是古籍的文本内容,也包括其蕴藏的知识信息与精神价值。
从当前古籍数字化的现状及历史使命来看,古籍数字化面临的首要任务就是保护古籍。古籍虽有纸寿千年之说,但其原始的物理实体终有消亡的一天,而数字化可将古籍影像及内容化身千百乃至无穷,达到古籍内容再生性保护的目的;古籍数字化当下最现实的任务是服务读者。传统古籍受制于严格的管理和保护制度,许多孤本、珍本和善本“深藏闺中人未识”,普通读者根本难以见到,而数字化之后,不仅可以远程浏览和全文检索,还可进行深度的知识开发,极大地提高了古籍利用率,从根本上解决了古籍“藏”与“用”的矛盾。古籍读者有专业研究人员和普通读者之分,这就要求古籍数字化传播的内容要有学术性和普及性的区分;从长远来看,古籍数字化的第三大任务就是传播和弘扬优秀民族文化。作为中华优秀传统文化的重要载体,古籍承载了丰富的历史信息、哲学思想、人文精神、家国情怀、价值伦理和道德规范,古籍数字化不仅要充分发掘这些民族文化素材,还应扩大其在中国乃至世界范围内的影响力,这也是赓续中华文脉、弘扬民族精神、增强国家文化软实力、建设中国特色社会社会主义文化强国的重要举措。
基于以上认识,古籍数字化传播的内容首先应该涵盖中国传统文化的基本典籍在内,大型丛书、总集、工具书应该成为首选,丛书如《十三经注疏》《二十五史》《诸子集成》《四库全书》《四部丛刊》《四部备要》《历代史料笔记丛刊》等;类书如《北堂书钞》《艺文类聚》《玉海》《太平御览》《太平广记》《文苑英华》《册府元龟》《永乐大典》《渊鉴类函》《古今图书集成》等;总集如《先秦汉魏晋南北朝诗》《全上古三代秦汉三国六朝文》《两汉全书》《全唐诗》《全唐文》《全唐五代诗》《全唐五代词》《全宋诗》《全宋词》《全宋文》《全辽文》《金文最》《全金元词》《元诗选》《全元文》《全元戏曲》《全明诗》《全明词》《全明文》《全清词》《清文海》等,还有历代别集、会要、会典等。这些大部头的古籍丛书的数字化基本能满足传统文化普及和一般学术研究的需要。其次,珍稀版本和特种古籍,应优先数字化。我国先后分六批公布了《国家珍贵古籍名录》,共 485 家机构和个人收藏的 13026 部古籍入选,这些古籍因其特别的文献价值、文物价值和艺术价值,成为古籍保护的重点对象,理应优先成为数字化的对象。古籍整理本经过前人甄别版本、精心校勘,在文本准确性、可靠性方面,较之一般版本更胜一筹,是人们利用古籍的首选,也应成为优选对象。明清稿本、抄本,因其没有大规模刻印,复本数量少,或只存孤本,学术价值较高,也应加快其数字化进程。而像甲骨文献、简帛文献、石刻文献、敦煌文献、谱牒文献、舆图文献等特种古籍,对于研究某一类专门学问具有特别重要的意义,而其纸本文献又不易为一般学者所获得,也应优先进行数字化。再者,像地方文献、少数民族文献、中医药文献、古农书文献、佛教文献、道教文献,因其内容具有鲜明的地域特色、民族特色和专业特色,对于丰富我国文化的多元性具有重要价值,也是古籍数字化必不可少的内容。这就需要国家在古籍数字化领域制订中长期规划,提出各阶段古籍数字化的目标、任务和举措,有序推进古籍数字化进程,避免选题重复和资源浪费。
二、古籍数字化传播的成效
自 1975 年德国汉堡大学的吴用彤编制英文版《诗经》索引至今,古籍数字化已走过近 50 年的发展道路。它从最初的文本录入、索引编制、单书检索系统研发,到大规模建设各种类型的古籍数据库,再到今天利用计算机技术对古籍进行自动标点、自动校勘、自动注释、自动编纂,运用数字人文技术、人工智能技术,对古籍进行深度知识开发,古籍数字化技术也经历了古籍文本的数字化转换、古籍内容的组织加工、古籍知识的发掘和可视化三个阶段。第一阶段所用的技术方法包括文字录入、影像扫描、OCR 识别等,其中也涉及汉字的简繁转换、俗体字和异体字的识别、字符集标准等技术问题;第二阶段所用的技术方法包括运用计算机进行分类标引、书目编制、关键词索引,以及自动标点、校勘、注释、翻译、编纂等,主要满足用户对特定主题或学科领域内的古籍原文获取、语义阐释、文本聚类的需求。现阶段,随着信息技术的进一步发展,仅提供准确可靠、可理解、已聚类的文本内容,已不能满足专业研究者的需求,而是要能提供可用于辅助学术研究的知识产品。古籍数字化在理念和技术上逐渐形成了以知识加工服务为核心的思想,这种以海量的古籍数据为对象的知识加工服务,打破了不同学科、不同书籍、不同语种、不同地域之间的界限,技术上主要采用语义关联、本体构建、社会网络分析、地理信息系统、知识挖掘与可视化、机器学习等方法。
从技术角度讲,古籍数字化首先要解决的是古籍扫描和文本转换的技术标准问题。目前,针对古籍图像处理,我国建立了《WH/T46-2012 图像数据加工规范》文化行业标准,以及《GB/T7517-2004 缩微摄影技术在 16mm 卷片拍摄古籍的规定》和《GB/T7518-2005 缩微摄影技术在 35mm 卷片上拍摄古籍的规定》国家标准,后两个标准主要针对的是有现成缩微胶片的古籍。古籍中使用的汉字数量庞大,远超现在通行汉字的规模,因此选用字符集的基本原则是尽可能地包含更多的汉字,以便满足古籍中生僻字、异体字、俗体字的呈现。之前中国大陆、港澳台地区及国外的中文古籍数据库采用的编码字符集分别有 GB2312、BIG5、Unicode 等。这些不同字符集之间存在汉字多少不一致、字迹模糊、不能兼容等问题。2006 年《国家“十一五”时期文化发展规划纲要》和 2009 年《文化产业振兴规划》提出建设“中华字库”工程,重点研发汉字输入、输出、存储、传输以及兼容等关键技术,预计将建成全部汉字及少数民族文字的编码和主要字体字符库,以解决古籍生僻字、异形字不能显示和检索的问题。而且,“中华字库”可编码字符集将“按照国际标准化组织的要求研制不同类型的文字编码方案,提交给国家相关机构逐步申请纳入 ISO/IEC 10646 国际标准,从而彻底解决我国古籍数字化产品在全世界范围内的信息交换问题”②。
在古籍数字资源描述和组织方面,2002 年始,科技部委托国家科技图书文献中心协调中国科学院文献情报中心、中国科学技术信息研究所、国家图书馆、CALIS 管理中心等 21 家单位,联合制定出台一系列相关标准,为古籍著录的规范化奠定了基础。目前,古籍著录可供参照的有《GB/T 3792.7-2008 古籍著录规则》《WH/T 66-2014 古籍元数据规范》《WW/T 0093-2018 拓片元数据著录规则》《DB32/T3485-2018 地方志著录元数据规范》《国家图书馆古籍元数据规范与著录规则》《国家图书馆舆图元数据规范与著录规则》《国家图书馆家谱元数据规范与著录规则》《国家图书馆拓片元数据规范与著录规则》等。目前古籍的分类标引还比较混乱,大多数古籍数据库采用传统的四库分类法,但也有部分古籍数据库采用新式分类法,这种混乱状况影响了古籍数字资源的共享。为解决这一问题,姚伯岳课题组调研了全国近 20 所大中型图书馆,参考了数十种古籍分类目录和近现代各种图书分类法和相关研究论著,研制出《中国古籍分类法》。该分类法的分类体系摈弃传统的四库分类法,也没有采用十进分类的方法,而是尽可能向图书馆界普遍使用的《中国图书馆图书分类法》靠拢,按照人文社会科学、自然科学、综合性图书的序列,分为 20 个大类。标记制度采用混合制号码,字母后的数字严格按层累制编码。因此,该分类法的最大特色就是将现代图书分类技术与传统分类法相结合,即符合现代人的思维方式,又尽可能保持古籍的分类传统,适用于古代的中、西图书的统一分类。
在古籍知识的深度开发和利用方面,数字人文理念和人工智能技术的引入,有力地推动了古籍数字化向古籍数据化、古籍数智化发展,后两者通常被视为古籍数字化发展的更高阶段。数字人文(Digital Humanities)是从人文计算(Humanities computing)的概念演化而来,意指利用计算机技术研究解决传统人文学科的问题。如词频统计技术,可应用于文学作品的用词习惯、用典情况的精确计量,以分析某一文学作品、某一文学流派的语言特点和创作风格;文本挖掘技术,可应用于古籍人物情感分析、人物社会关系分析、历史事件关联分析;地理信息系统(GIS)技术,可应用于各种命名实体的时空演化分析;深度学习和预训练模型,可应用于古籍文本的实体及图像识别、词性标注、特征提取、自动标点、自动分类、机器翻译等③。目前,大语言模型在古籍智能信息处理领域的应用已处于起步阶段,因其智能化人机交互的特点,具有广阔的应用前景。
数字技术的迅猛发展和积极应用,极大地提高了古籍数字化传播的成效。首先,在古籍保护领域,不仅实现了古籍内容的再生性保护,而且可为古籍字体、版式结构、装帧形式等形式特征构建专类图像数据库,为古籍鉴赏方法、古籍修复技艺、古籍版本工艺的传承性保护开辟数字人文途径;其次,读者在阅读体验方面,数字古籍像纸质图书一样可以按类浏览、翻页,并且提供书影与文本对照,为读者在阅读过程中提供名物典制的超链接知识工具,同时兼具计算机全文检索功能,读者在阅读过程中获得了极大的自由;再者,在辅助古籍整理和学术研究方面,古籍数字化系统能提供自动标点、自动校勘、自动注释、文本聚类、词频统计、知识挖掘和可视化、用户反馈等各种功能,此时的古籍数字化成果不仅是复制和再现古籍原貌,也不是单一的古籍数据库,而是集古籍阅读、古籍整理、古籍研究、古籍交流于一体的知识服务平台。
三、古籍数字化传播的前瞻
古籍数字化是关乎中华民族文化遗产保护与传承的一项公益性事业,但参与的主体具有身份的多重性,既有古籍收藏单位图书馆、博物馆及民间藏家,也有古籍内容研究专家、信息技术专家,还有古籍数字出版商、出版社。为避免古籍数字化的重复建设和无序竞争,整合各方资源和技术力量,实现各地区古籍数字资源的共享,中共中央办公厅、国务院办公厅印发的《关于推进新时代古籍工作的意见》特别强调要“建立健全国家古籍数字化工作指导协调机制,统筹实施国家古籍数字化工程”。这是古籍数字化传播当前面临的一项较为紧迫的任务。建议依托国家图书馆(国家古籍保护中心)这一实体机构,在文化旅游部的领导下,成立全国性的古籍数字化规划小组,其工作内容包括制订古籍数字化中长期规划、推广古籍数字化技术标准、构建古籍数字化信息发布平台、推动各地古籍数字资源共建共享、建立民间及海外古籍数字版本的有偿征集与交换机制等。
为满足古籍专业研究者、普通爱好者甚至海外读者的不同需求,古籍数字化将呈现出分化发展的趋势。对于专业研究者来说,获取古籍全文本是其基本需求,数字古籍能像纸质古籍一样权威可靠并被引用是理想结果,对其内容准确性的要求不言而喻。对于这类古籍数字化而言,必须严守古籍整理的基本学术范式,借鉴文献整理的优良传统,以信息技术将其具象化,提升古籍数字化的学术品质。而且,专业研究者对古籍原文的需求主要集中在其研究领域,因此古籍智能化整理应以古籍文本内的段落、语句为文献单元,对其进行语义识别和主题标引,并以自然语言为检索入口,达到按研究主题自动聚类文献单元(段落和语句)的目的,这对于文史学者获取原始资料尤为必要和实用。其次,专业研究的对象并不仅限于古籍的文本内容和思想内涵,前人研究和整理的成果也可资借鉴。因此,对正文之外的序言、题跋、校记、批语、评点、牌记、藏印等副文本信息进行专类知识加工,对已有古籍研究和整理的成果进行必要的数据加工和知识开发,也是特别需要关注的领域。再者,从宏观知识组织的角度来看,未来古籍数字化传播将引入传统文献学的“会通”思想,将不同文献类型、不同语言种类、不同学科领域的古籍数字资源整合在一起,运用新的知识挖掘、知识组织、知识聚合、知识可视化的方法,从整体上重新解构和重建中国古代知识体系。这实际上是传统古籍“注释”方法的一种技术变形,可先按照四库分类体系,将古籍原生态数据加工成语义态数据,再通过语义关联、本体构建、知识图谱等方法,构建某一部类文献的知识体系,最后完成整体知识体系的“拼图”。
对于普通读者或海外读者而言,阅读古籍全文本可能是其力所不逮的,他们可能更关注书中感兴趣的知识话题。未来大语言模型赋能古籍数字化之后,古籍数字资源库可能发展成为知识个性化的问答平台和交流平台,比如某个朝代服饰流行的颜色、某个地区的饮食习惯、某个时段内关注的社会话题,大到一场战争的宏大叙事,小到古人生活的一个具体场景,都可以通过人机互动即时获得答案。古籍知识平台还提供知识分享、主题讨论的功能,读者在知识社区内可以自由提问、发言,互助式地解决问题。对于这类古籍数字化而言,则要借助信息技术打破以往的古籍利用方式,直接以知识主题来聚类批量古籍中的相关信息内容,并以可视化的形式还原古籍内容描述的历史场景。此时的“阅读”,可以不再是以文字为主要对象,而是借助知识图谱、三维动画、元宇宙等大众喜闻乐见的形式进行社会传播,带给读者沉浸式的“阅读”体验。这种让古籍内容活化起来的古籍数字化方法,可以大大降低普通读者和海外读者阅读利用中文古籍的门槛,消除古籍数字化传播因语言和文化差异带来的障碍。
原文发表于《人民论坛》2025 年第 22 期,《新华文摘》2026 年第 6 期论点摘编。
参
考
文
献
① 李明杰、卢彤:《文献整理学术传统对古籍数字化的参照价值(之一)——以“会通观”为例》,《图书馆论坛》,2019 年第 4 期。
② 张翼飞:《古籍数字化中的字符集问题与解决方案》,《出版与发行研究》,2016 年第 3 期。
③ 刘洋,王东波:《古籍智能信息处理研究现状》,《图书情报工作》,2024 年第 23 期。