从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络
2026-01-12 19:00 北京
编者按:
本文是北京大学数字人文研究中心副主任杨浩,在“数智时代古籍研究前沿论坛暨‘我用 AI 校古籍’(2025 年)总结会”上的主旨报告发言稿,主题为《从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络》。现将全文呈现,以飨读者。
杨浩老师梳理了“识典古籍”平台的构建逻辑与学术根基:平台深植于北大“整理国故,再造文明”的传统,借鉴《儒藏》工程的编纂经验,同时吸纳王军教授多年深耕于数字人文的理念,实现了传统学术与数字技术的深度融合。文中详解平台的创新范式、资源建设策略与国际合作格局,展现AI时代古籍整理的传承与革新。原文如下:
尊敬的各位来宾、各位学界同仁:
从燕京引得的一张张卡片,到如今云端的亿万字符,已经走过了一百年。识典古籍平台,不仅是新技术的练兵场,更是北京大学“整理国故,再造文明”精神在AI时代的重生。在这里,算法不再是冰冷的代码,因为其间流动着学术的温热;技术不再是机械的工具,因为其下奠基着深厚的传统;平台不再是静止的库房,因为其上正演绎着文明的重生。
一百年前,胡适先生振臂一呼,提出了“整理国故,再造文明”的宏愿,以“历史的眼光”、“系统的整理”和“比较的研究”,为中华典籍寻求新的研究方法论。他所构想的“系统的整理”,一为“索引式的整理”,要使古书人人能用;二为“结账式的整理”,要使古书人人能读。后世的古籍整理工作,皆是接踵此两条路径而展开。三为“专史式的整理”,构建全新的文化史体系,要“再造文明”。
随后的洪业先生的燕京引得编纂,实际上就是“索引式的整理”。1930年,他在燕京大学主持成立哈佛燕京学社引得编纂处,以标准化的严密流程,编纂了64种“汉学引得”。虽然那些泛黄的纸质索引如今已被数据库取代,但它们作为“史学现代化第一步”的功勋,永不磨灭。
百年后的今天,文明传承的责任依旧沉重,但AI技术的浪潮为“整理国故”带来了新的曙光。光学字符识别(OCR)、自然语言处理(NLP)等技术,使得高效、规模化地整理古籍成为现实。
“识典古籍”整理平台的设计并非无本之木。上世纪80年代成立的全国高等院校古籍整理研究工作委员会(简称“古委会”),在国家层面统筹规划,为高校古籍整理事业奠定了坚实的制度磐石。正是在这一深厚的学术土壤中,汤一介先生于2003年倾力开启《儒藏》工程,工程汇集五百学人,历时二十载,终成精华编二百八十二册。“识典古籍”整理平台正是直接汲取了这一宏大实践的宝贵经验。
《儒藏》编纂严格依据底本的“存真原则”,是识典古籍平台“图文对照、一字一据”的根本法则。《儒藏》编纂采用统一的体例,13道工序,批量整理的思路,是平台规模化运作的理论基础。此外《儒藏》编纂的校勘规范、标点体例、校点说明撰写、工作流程、质量控制等多个维度上,也都为识典古籍平台构建提供了最稳固的支撑。
《儒藏》的恢弘实践,是识典古籍整理平台“整理国故”的“道”,而北大王军教授在数字图书馆近二十年的深耕,则是走向这个目标的“术”。王军教授所提出的“从文献库到知识服务引擎”的理念,所设计的“图像化-文本化-数据化-知识化-智能化”的全链路升级方案,所倡导的“人机协同与大众参与”的开放生态构想,为“识典古籍”搭建起了数字世界的骨架。而字节跳动卓越的产品打磨与平台工程能力,则是将此蓝图落地的坚实底座。正是得益于这种强大的技术实现力,复杂的编纂设计思路才得以真正化为触手可及的现实。因此,识典古籍平台始终坚持“两条腿走路”:一条腿深植于传统古籍整理的学术土壤,另一条腿则坚实地踏在数字人文研究的前沿阵地。
更令人感动的是一种反哺。识典古籍整理平台脱胎于《儒藏》的经验,而今,成熟的技术又将回馈《儒藏》工程本身。2024年12月,字节跳动助力北京大学“《儒藏》数字化项目”正式启动,全本《儒藏》的编纂将利用识典古籍整理平台全面展开,这正是技术与学术最美好的双向奔赴。
在识典古籍阅读平台的设计上,也广泛借鉴了各类先行者的智慧。纵观现有的古籍数据库,可谓各擅胜场:有的专注于“纯文本”,以精审的文字和规范的编码见长;有的深耕于“商业图文”,以丰富的资料和先进的对照体验取胜;有的致力于“纯图像”,最大限度保留古籍原貌与版本价值;有的立足于“整理本”,在精准文字的基础上提供深度的阅读功能;更有的探索“众包协作”,汇聚大众之力共建共享。
识典古籍的野心,便在于博采众长,试图将这五种模式的精髓融于一炉,实现一场集大成的“融合创新”。
这一创新,具体体现为一场全方位的范式革命:
在作为基石的呈现形式上,不仅坚守“左图右文”的学术严谨,更将右文创新为现代标点横排,彻底打破了“存真”与“普及”之间的坚冰;
在作为骨架的文本结构上,不仅遵循国际通用的学术标准,更将每一个数字字符与原始图像字形精确锚定,真正实现了“字字有据”的深度关联;
在作为血肉的阅读功能上,不仅满足基础的检索需求,更利用AI技术让静态文本“活”了起来,人名可点、古文可译、疑问可答,赋予了古籍以鲜活的生命;
在作为灵魂的参与模式上,不仅提供单向的知识服务,更通过“我是校书官”平台,将被动的阅读者转变为主动的校勘者,让每一位参与者都成为文明传承的在场者。
为了支撑这一革命,平台上设计了贯穿全程的八大核心环节,并设立了“AI整理、粗校、精校”三级标准,实现了“先快速上线、后持续优化”的迭代模式。这彻底改变了传统出版“一经刊印、难以更改”的静态范式,让古籍整理从“刻石成碑”进化为“生生不息”的动态过程。
为将这一理念落到实处,我们探索出了一套多元化的资源建设策略,针对不同古籍的特性,施以最合适的工序。其一为“AI整理”,如同先锋部队,利用成熟的OCR与自动结构识别技术,以雷霆万钧之势,迅速将海量文献转化为可用的数字底本。其二为“批量加工”,如同机械化军团,将线下批量处理的数字化成果,通过自动化脚本,快速、成建制地导入平台。其三为“精校加工”,如同特种部队,在平台上对重要典籍进行多轮次、出版级别的精细打磨,攻克学术难关。最后,也是最具活力的一环,是“众包校对”,也即“我是校书官”模式,则如星火大军,聚则一团火,散则满天星,汇集天下之智,积众力以成浩瀚。
通过这四种建设路径,平台已完成4万余种古籍的数字化,其中对《四库全书》、《四部丛刊》、汉文大藏经(六种版本)、百衲本二十四史等核心文献进行了精准的文字校对,并施以现代标点。平台还系统收录《永乐大典》、《道藏》以及藏外道书,以及CADAL项目的上万种古籍。从通用典籍到特藏资源,一个完整的古籍数字体系已初具规模。
“学术乃天下之公器”。2023年,哈佛燕京图书馆将馆藏9000余种珍贵中文善本古籍的全部数字化书影无偿捐赠给北京大学。这不仅是数据的交接,更是洪业先生与哈佛燕京学社合作历史的延续。这些数据整理后将无偿回馈全球,真正实现了资源的闭环。继哈佛之后,普林斯顿大学、法国国立国会图书馆、CADAL项目等海内外重磅机构也纷纷加入。数据的流动,让全球汉学界紧密相连,一个开放、共享、互利、共赢的国际合作网络已然成形。
回望来路,可以清晰地看到一条学术演进的脉络:从胡适的倡导,到洪业的实践,再到汤一介先生的规模化探索,最终汇入今日识典古籍的智能化浪潮。
然而,“整理国故”并非终点,其目的在于“再造文明”。未来,平台将持续加强资源建设的数量与质量,推动全球中华古籍的数字化回归,开发各类面向学术研究的智能工具,支持跨学科、跨机构的协作研究。平台的愿景,是将识典古籍建设成为全球汉学研究的枢纽。在这里,资源得以汇聚,学者得以协作,思想得以碰撞,文明得以赓续。
《诗》云:“周虽旧邦,其命维新。”
识典古籍,正是以今日之技术,激活传统之血脉,在继承中创新,在开放中前行,在共享中致远。
谢谢大家。
北京大学数字人文研究中心副主任杨浩