北京大学数字人文研究中心与字节跳动公益联合打造的“识典古籍”平台,作为全球规模领先的古籍智能化整理与数字化阅读平台,是“我用 AI 校古籍”活动的依托平台。平台深度融合人工智能技术,构建起从古籍OCR技术、自动标点、实体识别到多版本智能校勘的全流程解决方案,彻底打破古籍整理的专业壁垒,让普通大众深度参与中华文脉传承成为现实。
整场论坛展现出从大众整理产出成果,到学者利用整理成果做研究,再到研究成果反哺平台与传播的一条完整闭环。可以说,从顶层支持到学术论证,再到成果应用与大众参与,古籍整理仅靠专业学者还不够,只有借助AI技术与大众力量,才能真正破解海量文献古籍数字化难题。正是基于这样的共识与实践基础,“我用 AI 校古籍——我是‘校书官’古籍大众智能整理计划” 才得以持续推进、不断升级,成为连接学界、平台与社会大众的重要文化工程。
机械印刷不仅改变了知识传播的速度与规模,还推动了学术制度化的形成。手抄本因抄写者的主观添加或疏漏,往往导致同一本书的不同版本存在差异。机械印刷保证了同一版本书籍在结构、内容与分页上的一致性,这是现代学术体系中至关重要的“引用”“著作权”等概念产生的技术前提,出版、评审、引用等一系列现代学术规范,正是在这种标准化的印刷环境下逐渐形成的。正如爱森斯坦(Elizabeth Eisenstein)在The Printing Press as an Agent of Change一书中所论述的,机械印刷带来了抄写手稿所无法实现的稳定性与一致性,这种标准化为现代学术实践提供了技术基础,是现代科学与现代学术规范的制度性前提。
而在智能工具的加持下,研究者能够从大规模数据集中识别模式、发现问题,并提出过去因资料规模过大而难以驾驭的问题。美国学者安德伍德(Ted Underwood)通过分析数万本文学作品,用计算方法来回答关于文学史演变的大问题,例如小说体裁如何随着时间的推移而变化、批评家对文学作品的接受模式如何演变。他在著作Distant Horizons: Digital Evidence and Literary Change中指出,通过在数以千计的文本中汇聚证据,研究者能够发现个别作品层面无法呈现的长期变化与宏观模式。
2025年1月10日,由全国高等院校古籍整理研究工作委员会(简称“古委会”)主办,北京大学中国语言文学系古典文献教研室、北京大学数字人文研究中心与字节跳动公益联合承办的数智时代古籍研究论坛暨 “我用 AI 校古籍”(2025年)总结会在京圆满落幕。该会议由字节跳动公益团队策划并筹办,核心聚焦“我用AI校古籍:‘我是校书官’古籍大众智能整理计划”的亮眼成果,同步总结近三年“识典古籍”平台建设成果。来自全国各地高校、图书馆、出版社的近300名学者及古籍爱好者报名参会,北京大学党委副书记姜国华,教育部社科司、文旅部公服司、北京市委宣传部、古委会秘书处及抖音集团相关领导出席大会并致辞。
在字节跳动公益基金的资助下,北京大学与字节跳动联合打造的“识典古籍”平台,既是“我用 AI 校古籍”活动的核心支撑,也是全球规模领先的古籍智能化整理与数字化阅读平台。经过近三年建设,平台PC端网站与移动端小程序同步向全球开放,已上线4.7万部古籍资源,月服务用户超240万人,日均检索量达35万人次,总访问量突破1.47亿次。
北京大学党委副书记姜国华在致辞中指出,作为全国首个设立古典文献学专业的高校,北京大学始终坚守古籍整理学术高地。新时代北大携手字节跳动公益打造“识典古籍”平台,以科技搭建传统与现代、专业与大众的桥梁,为古籍数字化筑牢技术底座并推动大众参与。由古委会、北大数字人文研究中心与字节跳动公益联合主办的“我用 AI 校古籍”计划,打破专业壁垒,让学子与大众共同守护文脉,既提升了整理效率与质量,也探索出专业教育与社会参与深度融合的新路径。
古委会秘书长卢伟在欢迎致辞中表示,古委会成立40余年来,统筹高校古籍整理、研究与人才培养。 “我用 AI 校古籍” 活动开辟人机协同新途径,希望未来秉承坚守传统、跨界融合的理念,共推新时代古籍事业高质量发展。
王军教授在开场便直击核心:这91%并非替代,而是解放。如果学者能将繁重的资料清洗、整理工作交给AI,便能从文献资料的“伏案梳理者”,转型为研究逻辑的“框架构建者”。而实现这一身份跨越的关键,正是一套能让人文材料与 AI 技术精准衔接的专业工具 。本场对话的核心载体吾与点智能数据平台,恰为人文研究在数智时代的转型发展提供了这样的全新路径。
北大图书馆将在今年11月举办为期一个月的“燕京古籍旧藏与哈燕馆藏合璧展”,不仅展示文献本身,也梳理那段以哈佛燕京学社,以及洪业主持的引得编纂处为代表的中美学术交流史,主题之一是“从引得到数字人文”。主办单位问我有没有相关资料可提供,我想起上世纪七十年代末我在麻省康桥带了录音机到洪业的厨房,和他一起边喝茶吃叉烧包,边录他的回忆。他送了一本薄薄的册子给我,是他1930年12月12日在北平中国社会及政治学会(Chinese Political and Social Science Association)上用英语发表的报告。此学会成员大概是欧美留学归国学人及在各院校教书的外籍人士,待查。那时他得哈佛燕京学社资助,成立引得编纂处才三个月。替古籍编引得,是他在脑海中已酝酿了十多年的构想,终于有机会付诸行动,欣喜中带几分忧虑,我们可借以窥探当年的学术大环境。
幸而编书目的工作已开了个头。有数所图书馆把馆藏目录出版,让学者知道书在什么地方可找得到。国立北平图书馆准备把北平数所图书馆收藏的丛书做个联合目录,将为学者提供一个很大的便利,因其中有些丛书现在已很罕见;而燕京大学的陈垣教授正着手把这些丛书涵盖的数千种书的书名另行顺序编排,让学者更容易找到他们所需要的书。至于以题材分类的书目,愈来愈多学者发表论文时列出所参考的书本和文章,而不少专业学刊,尤其是国立北平图书馆和中华图书馆协会出的刊物,不时登载些以题材分类的书目。近来还有人把不同期刊上的文章以题材分类后,将标题汇集出版,希望日后会演变成似美国Reader’s Guide to Periodical Literature(《期刊文献读者指南》)那样的参考工具。
第六,编码。把卡片按次序排列,令读者可按次序便捷地找到有关段落。然而顺什么次序呢?这就是为中文书编引得最棘手的问题了。汉字不似英文字用字母拼成。英文有二十六个字母,可轻易地顺着惯常次序排下去,不懂发音不懂意思都可依序做。汉字没有简单的惯常次序。历来字典不是依诗韵排列就是依二百十四个部首排列,引发的麻烦众所周知。我十一年前便开始思虑如何解开这死结,所以一直关注他人这方面的努力,其中以上海商务印书馆王云五先生的四角号码最成功,但我认为用它来编引得仍不理想。我把自己的方法称为“中国字庋撷”,比起王先生的方法对初学的人来说更容易记,替一个字编码只须三个步骤(见图二),而且几乎每一个号码只有一个字,排列起来又较整齐,这对引得来说是相当要紧的。目前有多所图书馆已用王先生的方法编目录,所以我对要不要推广自己的方法相当犹豫,最终仍坚持用它编引得是因我深信这方法有许多优点,而没有相应的缺点。C. C. Wang去年在Chinese Political and Social Science Review(《中国社会及政治学报》)指出汉字电报码有种种问题。庋撷法几乎每一个号码只有一个字,也许亦可解决电报这个问题。言归正传,所有与“孔子”有关的目注自然都应放在“孔子”这一条录下。我们替“孔”和“子”编了码,便可依码把该录排列在他录之间。该录下所有的目注也可依码排列。若某目注在文本中多处出现,则依其在文本中出现的先后排列。我们有个“号片柜”,每个汉字的庋撷号码都写在一张卡片上,并注明该字的各种发音(用韦氏拼音法),依号码排列。替一部书编引得时,助理甲替一条录编码后,助理丙和助理丁便参照“号片柜”卡片上的汉字校对,以防有失误;之后把“号片柜”的这张卡片放在一旁,待下个步骤使用。
我不认为哈佛燕京学社有意图或有责任资助我们替所有重要的中国古籍都编引得。这试验若不成功,事情自然不了了之。成功的话,相信将有出版商接手办。至于要多久才能证实行得通,很难说,有赖于引得编得好不好,有多少人期盼它成功。英人H. B. Wheatley曾戏称:“出版没有引得的书的人该被打入地狱底下十英里,到一个连魔鬼都害怕的地方。”在能证实引得从学术到盈利都成功之前,我们不敢奢望有出版商参与。目前这试验的目的,仅仅要证明就学术而言,替古籍编引得是值得做的。