普通视图

Received yesterday — 2026年4月23日2 - 北京大学公众号

2 - 北京大学公众号
发言｜众手续文脉：智能时代古籍大众整理的价值与路径 2026年4月22日 10:04

发言｜众手续文脉：智能时代古籍大众整理的价值与路径

2026年4月22日 10:04

原创 PKUDH 2026-04-22 10:04 北京

北京大学数字人文研究中心副主任杨浩老师在2026年“我用 AI 校古籍”——我是“校书官”古籍大众智能整理计划启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛上发表题为《众手续文脉：智能时代古籍大众整理的价值与路径》的主题发言。发言指出传统古籍整理由精英主导、门槛高、效率低，结合 AI 与海外汉籍数字化实践，提出 “AI 赋能、大众参与、分层校勘” 路径，以 “AI 预处理 — 大众初校 — 进阶组精校” 体系兼顾普及与严谨。以 “我用 AI 校古籍” 为代表的大众参与模式，让公众与青年深度参与文脉传承，提升效率、培育人才、增强文化认同，助力构建开放共享的数字人文生态，开启人人参与的古籍传承新范式。

众手续文脉：智能时代古籍大众整理的价值与路径

杨浩

回溯中华文明的长河，古籍整理始终是赓续文脉的千秋之业。孔子删《诗》《书》、定《礼》《乐》、赞《周易》、修《春秋》，以个人的宏大愿景，开启了古代文献整理的先河。汉代刘向、刘歆父子于石渠阁校勘群籍，首创目录与校雠之学。至宋代，得益于文治的兴盛，官方开展了规模空前、体系完备的大型古籍编纂工程，先后组织编纂了四大类书。此后，明代有《永乐大典》的浩瀚集成，清代有《四库全书》的宏富汇总，民国时期则有影印《四部丛刊》《正统道藏》等嘉惠学林的壮举。及至当代，则有建国后“二十四史”的点校整理，以及新世纪《儒藏》精华编的编纂等宏大古籍整理工程。这些都是泽被学林、传承文明的文化盛举。

北大《儒藏》精华编·500种·282册

然而，回顾这一部浩荡的文献整理史，不难发现：历代的古籍整理，更多的是官方主导、学者专司的精英事业。传统古籍整理高度依赖少数具备深厚学养的专家学者，是一项专业门槛极高、耗时漫长的系统工程，是一门名副其实的“冷门绝学”。没有深厚的古代汉语功底、扎实的文字学基础和丰富的版本学经验，普通人乃至一般学者都难以企及。这使得古籍整理长期局限于极少数学术精英的寂寥书斋之中。

历代代表性古籍整理工程对比

从文献载体来说，当前正处在从纸质媒介向数字媒介全面转移的历史阶段。在这场深刻的媒介变革中，古籍整理的目标不能仅仅停留在扫描图像的数字化保存，更要将沉睡在图像中的字符转化为计算机可读取、可利用的数字文本。当前，一方面必须加速完成古籍的文本数字化；另一方面，在AI时代，还必须让AI能够接触到，并能理解这些承载着千年智慧的文字。然而，面对浩繁的卷帙与珍贵的遗存，传统的“专家主导”模式正面临着严重的效率瓶颈。要跨越这道鸿沟，迫切需要AI技术的赋能，更需要广大学生的积极参与。

一

人工智能的飞速发展，正在彻底重塑古籍整理这一古老领域的范式。高精度的光学字符识别（OCR）技术，以超越人工录入千万倍的效率，解决了最为繁重的文字转录难题；基于大数据的自动标点技术，在各类文献上展现出稳定的标点水平。技术，不再仅仅是冰冷机械的辅助工具，而是能够打破专业壁垒、重塑整理流程的利器。

智能技术的深度介入，使得原本紧密耦合、深奥复杂的整理工作被合理地拆解了。AI承担了大规模、机械性的初步识别与标点任务，而将更高层次的精细核校、学术研判、疑难辨析交给人类。这种“人机协作”的范式，不仅让古籍图像迅速转化为数字文本，更让大众的广泛参与从理想变成了现实。

人机协同工作流程图

二

如果说AI是古籍数字化的“先锋部队”，那么广泛参与的大众则是“星火大军”。“我用AI校古籍”绝非一句轻巧的口号，而是建立在“人机协作”基础上的全新文化传承模式。

回想这项活动发起的初衷，其实源于一次巨大的挑战。此前，数字人文中心获得了哈佛燕京图书馆近万种珍贵古籍的数字化授权，但面对如此庞大的文献量，仅有的少量专业人力无异于杯水车薪。面对这种困难，数字人文中心提出了一个大胆的设想，借助大众的力量，采用“众包”的方式。不难想到，提出这个想法，大家可能都有着“大众真的能参与古籍整理这样高度专业的工作”的担忧。带着这样的疑问，在小范围探讨之后，专门召开了“智能时代古籍整理与大众传播”研讨会，广泛听取学界意见，专家们给予了积极的支持。在此，要特别感谢全国高校古籍整理研究工作委员会的鼎力支持，以及“到梦空间”第二课堂平台的积极推动。正是有了各方的信任与保驾护航，“我是校书官”活动才得以在2024年7月顺利扬帆启航。现在有越来越多的承办院校的加入，“我用AI校古籍”已然有星火燎原之势。

2024年6月7日，

智能时代古籍整理与大众传播研讨会在京举办

如今，在“我用AI校古籍”活动的系列实践中，可以目睹到这样令人动容的情景：成千上万来自不同专业、不同高校的青年学子，通过轻量化、智能化的平台，满怀热情地参与到基础的文字校对中。

这种“人机协作加上人际分工”的模式，有效缓解了古籍整理长期面临的人力困境。其中更深远的价值可能在于：它构建了一种深度的、参与式的文化传播机制。以往，大众仅仅是古籍成果的被动接受者；如今，他们化身为文明传承的“在场者”。在逐字逐句的校对与比勘中，青年学子们越过千年的时光，真切地触摸了历史的温热，领略了先哲的智慧。

三

面对万千大众的参与，如何保证古籍整理的专业质量？这是作为组织者从一开始就必须直面的核心问题。因此，在大众参与的基础之上，活动设立了进阶组，构建了“AI预处理——大众初校——进阶组精校”的多层级协作体系。设立进阶组的初衷，源于一个现实挑战：专家学者的时间成本极为高昂，不可能将全部精力投入到海量古籍的初校与基础精校中。因此，开始探索一种新的可能——让经过培训的学生，去参与那些以往认为只有专家学者才能胜任的专业工作。

三层协作金字塔

进阶组的同学们，经过系统的理论学习与实操训练，承担起了更为复杂的标点校对、版本核勘与疑难处理工作。在这个过程中，哪怕是非古典文献学专业的学子，在系统的培训与人机协同的支撑下，依然能够产出符合学术规范的有一定质量的整理成果。通过这种梯队式的协作与培养，不仅保障了古籍整理的学术严谨性，更探索出了一条批量化培养古籍整理后备人才的创新路径。这是一种新形态的“教学相长”，是数字时代学术普及与创新人才培养的有机结合。

进阶组培训内容与成效

四

古籍整理不应当是束之高阁的孤芳自赏，更应是“源头活水来”的引流工程。在我看来，“我用AI校古籍”活动不仅是一次整理范式的飞跃，更是一场深刻的参与式文化传播。这种“做中学”的沉浸式体验，能够跨越学科的界限，在青年的心中播撒下文化认同与文化自信的种子。

数字人文生态系统示意

当然，哪怕经过大众整理，平台上的文献数量与整理质量仍然有较大提高的空间。因此，未来的工作将继续坚持做到“既重视数量，又重视质量”。依托这样的大众智能整理模式，能够构建起一个更加开放、共享的古籍知识生态系统。未来可以充分利用平台的技术与资源，一方面回馈学界，让更多的古籍数据反哺数字人文与传统学术研究；另一方面回馈参与的学生，进一步推动古籍整理与古籍教学的深度融合。

中华文脉的传承，需要代代学人的皓首穷经，也呼唤着千万大众的共襄盛举。从竹简木牍到纸寿千年，再到今日云端上跳跃的数字字符，文明的载体在变，但众手续文脉的精神恒久未变。今天，大众正在以AI为笔，以智慧为墨，共同书写古籍整理的时代新篇。

阅读原文

跳转微信打开

Received before yesterday2 - 北京大学公众号

2 - 北京大学公众号
文脉新生・数智赋能：“我用 AI 校古籍”（2026年）计划启动仪式圆满举行！ 2026年4月17日 22:43

2 - 北京大学公众号

文脉新生・数智赋能：“我用 AI 校古籍”（2026年）计划启动仪式圆满举行！

2026年4月17日 22:43

PKUDH 2026-04-17 22:43 北京

2026年4月11日，由全国高等院校古籍整理研究工作委员会主办，山东大学国际汉学研究中心、山东大学古籍文献研究所与字节跳动公益联合承办的2026年 “我用AI校古籍”——我是“校书官”古籍大众智能整理计划启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛在山东大学中心校区举办。该会议由字节跳动公益团队策划并筹办，聚焦“我用AI校古籍——我是‘校书官’古籍大众智能整理计划”活动的已有成果与经验，正式启动“我用AI校古籍”2026年度相关工作。共有来自北京大学、清华大学、复旦大学、山东大学等高校的学者代表，来自68所高校、76个承办高校的教师，以及抖音平台各类知识博主约100余人参加了本次启动仪式。山东大学副校长曹现强、全国高等院校古籍整理研究工作委员会秘书长卢伟、教育部语言文字应用管理司副司长王晖、抖音集团企业社会责任部产品与运营总经理罗海岳出席启动仪式并致辞。

北京大学数字人文研究中心与字节跳动公益联合打造的“识典古籍”平台，作为全球规模领先的古籍智能化整理与数字化阅读平台，是“我用 AI 校古籍”活动的依托平台。平台深度融合人工智能技术，构建起从古籍OCR技术、自动标点、实体识别到多版本智能校勘的全流程解决方案，彻底打破古籍整理的专业壁垒，让普通大众深度参与中华文脉传承成为现实。

2024年7月，由全国高等院校古籍整理研究工作委员会、北京大学数字人文研究中心、字节跳动公益联合国内多家古籍研究机构共同发起 “我用AI校古籍 —— 我是‘校书官’古籍大众智能整理计划”，依托识典古籍智能整理平台，广泛动员高校学生与社会公众参与古籍数字化整理工作。项目自启动以来，已经历经三期稳步迭代，参与规模与整理深度持续提升。截止2026年4月，已经累计完成2万余部古籍整理，其中粗校16亿字、精校1亿字；吸引4.2万余名参与者，覆盖全国1450余所高校，总曝光超30亿次，先后获人民网、新华社、《科技日报》等权威媒体报道，并通过20余位文化达人实现广泛传播。

2026年度的大众整理活动，将由国内68所高校，76个单位参与承办该项活动，承办高校主要负责动员与组织本校相关专业学生参与本项活动。活动时间为3月26日至11月30日，分春季、暑期、秋季三个阶段开展，重点围绕海外汉籍汇聚、典籍活化传播两大方向，持续以科技赋能、创新表达推动古籍走近大众。

在活动启动仪式上，山东大学副校长曹现强介绍了山东大学在古籍整理、全球汉籍合璧工程等方面的成果，表示山东大学将持续深化AI技术与古籍整理融合，助力中华文脉永续传承。全国高等院校古籍整理研究工作委员会秘书长卢伟回顾了 “我用AI校古籍” 前几期的活动成效，介绍了2026年活动开展的重点方向，并宣布优化招募机制，推动活动专业化、规模化发展。教育部语言文字应用管理司副司长王晖高度评价AI赋能古籍整理的创新价值，结合人工智能与教育行动计划，从守正创新、以文铸魂、数字赋能等方面提出期望，鼓励多方协同打造语言文化传承品牌，让青年成为古籍传承主力军。抖音集团企业社会责任部产品与运营总经理罗海岳分享识典古籍平台功能升级情况，说明2026年将深化与各承办高校的合作、支持学者项目研究、开展征文及创作者共创等古籍活化传播活动，持续以技术降低公众参与门槛，推动古籍实现活态传承。

山东大学副校长曹现强致辞

全国高等院校古籍整理研究工作委员会秘书长卢伟致辞

教育部语言文字应用管理司副司长王晖致辞

抖音集团企业社会责任部产品与运营总经理罗海岳致辞

左右滑动查看更多

“我用AI校古籍”活动开展以来，成千上万社会大众与高校青年积极参与其中。在启动仪式上，年届74岁高龄的常兰藻先生作为大众代表来到现场分享参与“我用AI校古籍”活动的体会，作为一名退休会计，退休后因为学习《资治通鉴》的有关知识，偶然发现识典古籍平台并开始利用AI校对古籍，4个月时间已经校对完19卷、近20万字古籍。看见自己名字出现在上架古籍中，老爷子感到无比骄傲。年仅21岁的山东大学大四学生王思彤则代表青年学子发声，分享自己立足在校参与项目、借助平台参与古籍整理的实践体验，分享了利用AI技术辅助古籍整理体会到的高效便捷与参与活动得到的成长锻炼。

优秀志愿者常兰藻先生发言

优秀志愿者山东大学王思彤同学发言

左右滑动查看更多

在论坛的主题报告环节，专家学者们围绕古籍整理、数字赋能、大众参与以及学科发展等多个维度分享前沿实践与深入思考。“我用AI校古籍”活动所整理的一部分重要的古籍资源，来自哈佛燕京图书馆等海外图书馆。北京大学中文系杨海峥教授介绍了如何在海外流传古籍馆藏目录基础上，利用人工智能技术，通过海量元数据提取与流传轨迹重建，构建起大规模古籍流传数据集的过程。

新时代大型古籍整理项目北大《儒藏》工程的全本编纂正在利用“识典古籍”整理平台展开编纂工作，2025年度已经在平台上线约50种经过精心校勘整理的古籍资源。北京大学《儒藏》编纂与研究中心李畅然教授分享《儒藏》数字化与识典古籍平台的实践经验，提出提升OCR技术准确率、完善标点符号等具体技术需求，希望平台功能更加贴合专业古籍整理的需求。

北京大学数字人文中心副主任杨浩副研究员指出历史上古籍整理多由官方与学术精英主导，存在专业门槛高、效率有限、难以普及的局限，以 “我用AI校古籍” 为代表的大众参与模式，让广大青年学子与普罗大众得以加入，既提升了整理效率，也实现了沉浸式的文化传承。活动通过多层级校勘体系兼顾普及性与学术严谨性，既保障了古籍整理质量、培育后备人才，也致力于构建开放共享的数字人文生态。

全国高校古籍整理委员会副秘书长吴国武教授肯定“我用AI校古籍”活动在古籍整理发展历程中具有重大历史价值，体现出AI 技术深度赋能、大众志愿广泛参与、古籍整理范式持续革新的新形态，并指出古籍传承展现出从精英小众走向大众普惠、走向国际传播的新趋势。

北京大学中文系古典文献教研室主任杨海峥教授主题报告

《古籍流传的大规模数据集构建》

北京大学《儒藏》编纂与研究中心李畅然教授主题报告

《两条腿走路——OCR与语义两模块的协同》

河南大学出版社总编辑、河南大学文学院孔令刚教授主题报告

《古籍数字化的双向赋能与协同共生》

抖音集团社会责任部古籍项目经理张明月主题报告

《科技助力古籍保护与传承》

北京大学数字人文中心副主任杨浩主题报告

《众手续文脉：智能时代古籍大众整理的价值与路径》

山东大学国际汉学研究中心主任刘心明教授主题报告

《文本化是古籍整理的大方向》

山东大学古典研究所所长王承略教授主题报告

《中国文化典籍的家底与古籍整理定本的意义》

全国高等院校古籍整理研究工作委员会副秘书长田国武教授总结报告

左右滑动查看更多

论坛的下午场，到场学者们分享借助识典古籍平台与已有的大众整理成果，展开的学术研究与资源应用。例如：复旦大学文史研究院段志强副研究员，基于平台上整理的古籍资源，深入解读古籍中所反映的古代基层社会与普通人生活；清华大学人文学院严程副教授，利用识典古籍平台建设专题文献库“女子艺文数据库”，开展女性文献等专项研究，分享了清代多位具有独特性格的女子的生动故事；清华大学人文学院唐宸副教授分享利用数字人文方法对李白与李璘谋反事件关系的新研究，特别展示了如何利用识典古籍平台深度研究助手补上部分关键史料的例证。学者们以文献解读、案例实证、数字化工具应用等形式，系统呈现研究进展与实践心得，既具备扎实史料价值，又为新时代古籍活化利用提供了现实案例。

复旦大学文史研究院副研究员段志强

《在古籍中发现普通人的生活》

清华大学人文学院副教授严程

《盘一盘自带爽感的清穿女》

北京体育大学人文学院副教授黄二宁

《跃然纸上——唐代文献中的体育世界与大众传播的可能性》

清华大学人文学院副教授唐宸

《数字化时代的古典文献挖掘——以字节跳动“识点古籍”为例》

山东大学全球汉籍合璧工程首席专家助理陈肖杉

《形制与传播——境外汉籍流播管窥》

左右滑动查看更多

在古籍活化方面，创作者们开始频繁利用平台整理成果为根基进行创作传播。例如：抖音专攻五代历史的知识博主杨利辉，在创作过程中经常利用识典古籍平台的资源与工具展开创作，原本他制作有多种检索小工具方便创作，在利用识典古籍平台之后，自用软件多已不再更新。自媒体博主Asu、艾斯利用平台的古籍资源中挖掘 “十二花神” 等文化意象进行年轻化表达，让严谨的古籍整理成果走向大众。创作者们从古籍创作方法论、知识自媒体运营、二次元年轻化表达、小众历史趣味科普等多个维度展开分享，集中展现了前期大众参与古籍整理所形成的高质量成果，为古籍活化创作提供了坚实内容支撑。论坛的最后，创作者们还围绕古籍如何实现通俗化表达、年轻化传播与跨圈层破圈进行深入交流与讨论，认为古籍活化必须坚守学术严谨，同时力求通俗易懂而不失文化底色。

创作者子非秋月

《裁取云间墨，化得千亿身——浅谈短视频创作对古籍素材的选取与运用》

文化搬运委员会

《学术叙事的生活化转向：科普自媒体的叙事策略与实践创新》

Asu、艾斯

《谁说古籍只能藏在书斋？我们把“十二花神”变成了全网爆款》

杨利辉

《一个小众赛道的自媒体博主独白：从我和<太平年>的故事说起》

左右滑动查看更多

整场论坛展现出从大众整理产出成果，到学者利用整理成果做研究，再到研究成果反哺平台与传播的一条完整闭环。可以说，从顶层支持到学术论证，再到成果应用与大众参与，古籍整理仅靠专业学者还不够，只有借助AI技术与大众力量，才能真正破解海量文献古籍数字化难题。正是基于这样的共识与实践基础，“我用 AI 校古籍——我是‘校书官’古籍大众智能整理计划” 才得以持续推进、不断升级，成为连接学界、平台与社会大众的重要文化工程。

回望“我用AI校古籍” 活动的发展历程，从理念萌发到模式探索，其源头实际上是出于一场巨大的现实挑战。2022年3月，北京大学数字人文中心与字节跳动公益合作，开始建设“识典古籍”阅读与整理平台，旨在人工智能与计算机技术的辅助下，变革古籍整理方式，在三年内完成万种古籍的整理工作。2022年10月，识典古籍阅读平台正式上线对外发布，但资源建设是亟须解决的瓶颈难题。2023年11月，北京大学数字人文中心接受哈佛大学燕京图书馆捐赠的近万种中国善本古籍数字化书影。根据捐赠协议，这批古籍扫描书影连同所识别点校后文字，需要全部发布在古籍数字化平台上。然而，利用OCR技术对古籍图像识别之后，还必须经过人工校对才能达到更高的准确率，才能更好地被学界与大众利用，然而专业整理力量有限，人力成本奇高。因此，北大数字人文研究中心王军教授提出，必须借助人工智能技术降低参与门槛，以众包模式发动社会大众参与古籍整理，用普通大众力量破解古籍数字化难题。

传统古籍整理依赖少数具备深厚学养的专家学者，需要丰富的专业知识，专业门槛很高。大众是否能够参与古籍整理这样高度专业的工作，得到很多专家的担忧。因此，在项目正式启动前，北京大学数字人文研究中心召开多次小范围的专家论证会。2024年6月，国家古籍保护中心、北京大学数字人文研究中心、抖音公益等多家机构联合举办了“智能时代古籍整理与大众传播”研讨会。此次研讨会汇集了来自国内各大高校、图书馆和出版社的七十余位专家学者。与会学者就智能信息环境下古籍整理与大众传播的机遇与挑战进行了深入交流。活动还得到“到梦空间”第二课堂平台的支持，符合条件的同学可获得实信网认证的电子版实践证书，成为活动成功举办的重要激励机制之一。2024年7月，在古委会主办下，在各方的大力支持下，“我是校书官古籍大众智能整理计划” 第一期正式启动。

为了让这一构想切实落地见效，为项目开展筑牢基石，北京大学数字人文研究中心联合字节跳动公益推出《古籍智能通识课》《识典古籍智能整理培训课》等系列课程，课程内容涵盖古籍书史、海外汉籍、古籍整理以及历史上的大型丛书等内容，还结合识典古籍智能整理平台，讲解从OCR文字识别到文字精校、结构整理、标点校对等多个环节的技术和方法，将文献学知识转化为实践体系，将人才培养与古籍整理实践相结合。

2024年7月活动首期试行，面向大学生开展OCR校对工作，共有742所高校、超2500名学生参与，取得远超预期的阶段性成果。2024年9-12月第二期同时开设大众组、进阶组任务，参与人数突破1万人，覆盖高校增至1210所，整理规模与参与广度大幅提升，并尝试探索古籍数字化与专业教学、人才培养相结合的新模式。2025年第三期在前期经验基础上进一步拓展范围与深度，联动含清华大学、武汉大学、中国人民大学、中山大学、四川大学等22所承办高校以及1450余所参与高校，构建起 “主办单位统筹+承办高校执行+社会力量参与” 的协同机制。

可以说，“我用AI校古籍”活动不仅是一次古籍整理的技术创新，更是一场面向全民的文化传承实践。项目正逐步构建开放、共享、协作的古籍整理新生态。未来将进一步带动全国高校学生与社会公众共同参与古籍数字化整理，推动中华典籍实现全民传承、活态传承，让古籍真正融入大众的日常生活与精神文化生活，助力中华优秀传统文化创造性转化与创新性发展。

阅读原文

跳转微信打开

2 - 北京大学公众号
2026年“我用AI校古籍”--我是“校书官”古籍大众智能整理计划启动啦 2026年4月14日 11:58

2 - 北京大学公众号

2026年“我用AI校古籍”--我是“校书官”古籍大众智能整理计划启动啦

2026年4月14日 11:58

原创识典古籍 2026-04-14 11:58 北京

2026年“我用AI校古籍”--我是“校书官”古籍大众智能整理计划启动啦

阅读原文

跳转微信打开

2 - 北京大学公众号
论文 | 从公共图书馆到公共智能：公共知识媒介演化及人文学术范式转型 2026年4月1日 11:49

2 - 北京大学公众号

论文 | 从公共图书馆到公共智能：公共知识媒介演化及人文学术范式转型

2026年4月1日 11:49

原创 PKUDH 2026-04-01 11:49 北京

北京大学数字人文研究中心的研究论文《从公共图书馆到公共智能：公共知识媒介演化及人文学术范式转型》近期发表于知网。

北京大学数字人文研究中心主任王军老师的研究论文《从公共图书馆到公共智能：公共知识媒介演化及人文学术范式转型》近日发表于《中国图书馆学报》。该文从知识媒介演化的历史视角出发，辨析人工智能技术，特别是大语言模型出现的历史条件。梳理了自古腾堡印刷术以来人类信息环境的三次历史性跃迁：从印刷文献时代的“公共图书馆”，到网络化信息时代的“公共知识”，再到人工智能时代的“公共智能”。通过对印刷技术、互联网与Web 2.0、开放数据文化及大语言模型等公共知识媒介演化的分析，结合北京大学数字人文研究中心的实践案例，探讨智能技术对人文学科研究资料、研究工具与研究议题的重构作用。人工智能的出现并非偶然，而是开放文化、知识共建与技术演进长期交互作用的历史必然。在“公共智能”的支撑下，人文研究呈现出资料获取的穷尽化、形态的结构化及处理单元的原子化趋势，不仅极大地扩展了研究的问题空间，也推动了方法论层面上诠释与计算的深度融合，预示着学术范式正朝向“人机共生”的模式演化。

以下摘录论文的主要内容，全文请见：

王军. 从公共图书馆到公共智能：公共知识媒介演化及人文学术范式转型[J]. 中国图书馆学报, 1-12[2026-03-27].
https://link.cnki.net/urlid/11.2746.G2.20260325.1017.002.

从公共图书馆到公共智能：

公共知识媒介演化及人文学术范式转型

王军

引言

2022年ChatGPT横空出世，使人工智能（Artificial Intelligence, AI）进入全球公众的视野，也迅速成为跨学科讨论的焦点。尽管人工智能的研究早在20世纪中期便已起步，但大语言模型（Large Language Models, LLMs）的自然语言生成能力，使公众第一次直观感受到机器“理解”与“回应”人类语言的可能性。由此，学界与产业界均提出了一系列关切问题：人工智能的知识来源何在，它与人类认知的关系如何，会在多大程度上重塑学术研究，尤其是人文学科的研究范式。

本文从知识媒介演化的长时段视角来回答这些问题。可以预期，人工智能技术在未来数年内将逐渐成为继互联网之后人类社会的信息基础设施。与印刷术和互联网技术类似，大语言模型正日益成为获取信息的重要载体和入口，并重塑我们获取和学习知识的方式。随着这一趋势的发展，它将像印刷术和互联网曾经引发的那样，推动知识生产与学术范式的深刻变革。换言之，人工智能正在展现出成为新一代“泛在媒介”的潜能。而媒介不仅是信息传递的技术载体，更是塑造知识结构、社会组织与文化认同的深层动力。因此，理解人工智能的出现，需要回溯前两次重大信息环境转型：15世纪的印刷文献信息环境与20世纪末的数字化、网络化信息环境。

本文回顾印刷术对现代科学与学术制度的奠基作用，以及“公共图书馆”知识共享机制的形成过程；分析互联网与Web 2.0所孕育的“公共知识空间”，强调开放数据文化的奠基性作用；讨论大语言模型技术是如何依托开放数据文化而发展起来的，并提出“公共智能”概念；探讨智能信息环境下人文研究范式的转变，重点分析研究工具、研究材料与研究尺度的变化；结合北京大学数字人文研究中心的案例，展示智能技术在人文学科的具体应用；最后强调批判性思维的人文学术传统在智能时代不可替代的价值，以及传统人文训练是构建“人机共生”的学术生态不可或缺的条件。

印刷文献信息环境与公共图书馆

从人类文明史的长时段视角来看，媒介演化不仅仅是技术的迭代，更是知识生产方式与社会结构的重构动力。15世纪中叶，古腾堡（Johannes Gutenberg）活字印刷术的普及，被视为“现代性”的重要起点之一。印刷术的出现，将知识的生产和传播从手工抄写的局限中解放出来，标志着纸本印刷信息环境的确立。

在印刷术出现之前的中世纪欧洲，知识的保存和传播主要依赖修道院和教会机构，教育的主要内容是神学，核心文本是拉丁文《圣经》，且只有少数受教育的精英阶层有能力阅读拉丁原文。普通民众对宗教与世界的认识，依赖神职人员的口头解释。这种知识解释权和传播渠道的垄断不仅限制了信息的传播速度，也造成了知识获取在不同社会阶层的不平等。活字印刷术的推广改变了这一局面。印刷技术实现了文本的大规模复制，使知识的传播速度与覆盖范围前所未有地扩大。不同民族语言的《圣经》译本相继问世，识字率显著提高，人们有机会直接面对本民族语言的圣经文本，而非通过神职人员来传达“上帝的旨意”，思想解放成为可能。

机械印刷的社会影响可从出版规模的增长窥见一斑。据史料统计，1480年前后，西欧约有110家印刷坊；至1500年，这一数字增长至271家，印刷品总量达两千万册；到1500年时，西欧各地印刷机已累计印制两千多万册印刷品；进入16世纪后，产量更是增长十倍，达到约1.5亿至两亿册。而当时西欧人口仅7300万，人均印刷品2—3册。16世纪，欧洲的活字印刷机单日可完成1500至3600张的印刷。如此高的日均效率，是同期东亚雕版印刷工匠手工刷印难以企及的。

机械印刷不仅改变了知识传播的速度与规模，还推动了学术制度化的形成。手抄本因抄写者的主观添加或疏漏，往往导致同一本书的不同版本存在差异。机械印刷保证了同一版本书籍在结构、内容与分页上的一致性，这是现代学术体系中至关重要的“引用”“著作权”等概念产生的技术前提，出版、评审、引用等一系列现代学术规范，正是在这种标准化的印刷环境下逐渐形成的。正如爱森斯坦（Elizabeth Eisenstein）在The Printing Press as an Agent of Change一书中所论述的，机械印刷带来了抄写手稿所无法实现的稳定性与一致性，这种标准化为现代学术实践提供了技术基础，是现代科学与现代学术规范的制度性前提。

随着19世纪工业化印刷的普及与出版物成本的下降，欧洲逐步建立起现代意义上的公共图书馆体系，其核心特征是由公共财政支持并向社会大众免费开放，不论读者的身份和阶层差别。相比之下，中国古代虽有皇家藏书楼与私人藏书阁，但多不向公众开放，直到辛亥革命后，现代公共图书馆制度才逐步建立。公共图书馆的出现，标志着人类社会第一次在制度层面确认了知识的公共属性，并致力于为所有社会成员提供平等的图书资源。这一制度创新，不仅推动了大众教育与思想启蒙，也成为了以物理载体为核心的“公共文献资源共享”的象征。它构成了现代社会知识基础设施的重要组成部分，塑造了长达五个世纪的知识传播基本范式。

历经数百年的发展，纸本印刷信息环境孕育并推动了出版发行、新闻传播、全民教育、学术研究等诸多行业的形成与繁荣，为人类社会全面发展和平等进步提供了坚实的基础。随着通信技术和计算机技术的不断突破和普及渗透，到20世纪末，人类信息环境经历了由纸本印刷向数字化、网络化的重大转型。这一转型以互联网的普及为标志，使信息得以脱离物理载体，以二进制形式在全球范围内实时传播。

2.1互联网的兴起与信息去载体化

互联网技术产生于20世纪60年代末。到了90年代中期万维网出现，以及图形界面操作系统（如Windows）的流行，使得普通用户无需掌握复杂指令，在网页上移动鼠标、点击链接即可访问全网信息。万维网不仅改变了信息获取的速度与范围，更改变了社会运行的基本方式：购物、交通、通信、教育等服务机构逐步将业务迁移至线上，形成全新的数字社会形态。互联网的核心特征之一，是信息的“去载体化”。在纸本环境下，知识要依附于书籍、期刊等物理载体来传播，而在数字化环境中，文字、图像、音视频等内容均以数字形式存储与传输，突破了空间限制，实现了“足不出户而知天下事”的信息平权。

2.2Web 2.0与用户生成内容（UGC）

互联网早期的知识生产主要由机构主导，用户的角色是“信息消费者”。然而，2000年前后兴起的Web 2.0运动，使用户得以通过博客、视频网站（YouTube、优酷等）、社交媒体（Twitter、微博等）、大众书签（Delicious）等平台直接生成内容。2006年，《时代周刊》将年度人物授予“You”，象征每一位网民都是信息的生产者与传播者，这就是Web 2.0所标志的核心模式——用户生成内容(UGC)，自此引发网络信息量的爆炸式增长。全球范围内，无论是个人还是团体，政府还是企业，纷纷在互联网上发布信息。各种语言、各个行业、各个学科的知识和资讯，以及其中所蕴含的丰富的操作过程、组织方式和处理逻辑，由此汇集于网路空间，共同绘制出一幅全球网民协力编织“世界知识”的壮丽图景。这为随后兴起的以数据驱动为核心的大模型技术提供了规模空前的数据基础和文化准备。

2.3“公共知识体”与开放数据文化

Web 2.0时代的UGC，不仅引发了信息量的爆炸式增长，也催生了集体协作的知识生产方式和开放数据文化。维基百科（Wikipedia）是最具代表性的案例。与传统由专家编纂百科全书不同，维基百科允许任何用户参与词条撰写与编辑，形成一种基于网络协作的知识生产模式。这一机制体现了“集体智慧”（collective intelligence）的理念，即无论个体的专业背景或社会地位如何，都可以参与到知识共建的活动中来。与纸本印刷时代依托公共图书馆实现知识共享相比，维基百科依托互联网平台展开的知识众包模式，使得知识共享的范围大幅扩展、更新时效性显著提升、协作的粒度也得以延伸到更细微的知识单元。这一转型意味着人类社会的知识共享机制从“公共图书资料”进入到“公共知识空间”（public knowledge space）的新时代。与前者依赖物理场所提供载体共享不同，公共知识空间以网络平台为媒介，直接实现知识内容本身的开放与共享。Web 2.0孕育了互联网的“开放数据”（open data）文化——全球范围内，无论是个人还是团体、政府还是企业，都可以在网络上访问、分享、再利用信息资源，使得知识跨越地理与文化边界，以全球化方式流动与扩散，促成了跨国、跨语种的全球知识共同体的形成。这种由网络推动的“公共知识”机制，成为大语言模型等人工智能技术得以构建的文化基础。它不仅实现了信息获取的平权化，更为机器学习提供了规模空前的开放数据资源，为数据驱动的大语言模型的出现准备好了数据基础。

大语言模型与“公共智能”的兴起

3.1 书目统计及典籍存佚

进入21世纪第三个十年，人工智能，尤其是基于大语言模型的生成式AI，成为继印刷术与互联网之后又一次重塑知识结构的关键技术。

虽然互联网与Web 2.0实现了知识生产前所未有的开放与共享，但知识的呈现方式仍以静态为主。即便用户能够快速检索到所需信息，仍需依靠自身的阅读与理解，将其转化为对具体问题的答案。以ChatGPT为代表的大语言模型的突破在于，它们可以直接以自然语言与用户交互，根据提示生成连贯且贴合语境的回答，从而省去了传统的“查找—阅读—整合”的过程。流畅的自然语言生成，再加上强大的上下文学习能力和广泛的世界知识，使用户第一次直观感受到机器所展现出的类似智能的表现。

（1）所谓上下文学习（contextual learning），是指大语言模型能够利用用户提供的上下文信息，包括对话历史、任务指令、文本语境，甚至示例与反馈，动态调整生成内容。这种能力使其在交互中表现出高度的适应性与针对性。

（2）所谓世界知识（world knowledge），是指大语言模型通过对大规模语料的训练，汇聚了跨语言、跨文化、跨学科的世界知识储备，涵盖自然科学与人文社会科学的广泛领域。这些知识构成了自然语言生成与理解的基础，使其能够处理从常识性问题到专业性任务的多样需求。

无论是自然语言生成，还是上下文学习，大语言模型之所以能够展现出超越性的自然语言能力，根本上依赖于其所汇聚的“世界知识”，亦即训练数据的规模与开放性。自20世纪90年代互联网普及以来，全球用户与机构持续上传文本、图像、音视频等多模态数据。这些数据在个体层面或许零散、琐碎，但在超大规模的聚合下，通过深度神经网络的模式学习与参数化表示，得以产生“智能涌现”（emergent intelligence）现象。这一现象与人类的知识积累过程具有类比性：正如学者的创造性往往源于广泛的阅读与跨领域的交流，大语言模型的创造性亦建立在对多元数据的整合与再生成之上。

因此，从人文社会的视角来看，人工智能的诞生并非偶然的技术奇点，更不是单一企业或机构的孤立创新，而是自活字印刷术发明以来，开放文化、知识共建与技术演进共同推动的历史必然。开放数据驱动的大模型技术，通过互联网平台与移动终端实现全民可及、即时交互，成为全社会成员皆可使用的“公共智能体”（public intelligence）。如果说“公共知识”阶段实现了信息与知识的获取平权，那么“公共智能”阶段则进一步推动了认知能力与思考力的平权，使人人皆可借助智能工具获得理解、分析、推理与创作的能力。由此，人类社会的知识共享机制进入了新的阶段，“公共智能”将成为继公共图书馆与公共知识空间之后，人类社会知识共享的新型基础设施。

智能信息环境下人文研究资料的重构

自15世纪中叶印刷术诞生以来的近六个世纪，人类信息环境的演进轨迹为我们理解智能时代的人文研究提供了重要的历史视角。现代人文学术研究的基本范式是在纸质印刷环境下逐渐确立的：通过标准化出版程序，形成了“资料收集—写作发表—出版引用—同行评议”的学术流程和相应的评价体系。这一学术范式赖以存在的基础，是以公共图书馆和学术出版体系为代表的人类知识共享机制，它为以图书与期刊为主要载体的知识进行系统性的收集、整理、传播与再生产，提供了社会性与制度性的保障。进入网络化数字化的信息环境后，信息检索效率显著提升，知识传播的速度和范围空前拓展。然而，资料的阅读、理解和消化最终仍依赖研究者个体，其阅读量和认知容量仍受限于个体生命历程与个人精力。因此，尽管网络技术极大提升了知识的可及性和流通性，学术研究的基本范式在本质上依然延续着纸本文明时期所形成的传统路径。相比之下，智能信息环境则预示着一种全新的研究格局。凭借上下文学习、世界知识储备和自然语言生成的能力，LLMs使人机协作模式发生根本性转变，从而重塑人文学科的研究工具、研究材料与研究方法。这种变革不仅体现在研究规模和效率方面，更在资料规模的穷尽性、知识单元的细粒度化，以及人机协作的共生化等方面，为人文研究开辟了前所未有的可能性。下文将结合北京大学数字人文研究中心的实践予以阐释。

4.1 资料获取的穷尽化

传统人文研究依赖学者个人所掌握的档案、文献、田野记录，其数量和范围受制于研究者的时间、精力和认知容量。在智能技术的辅助下，人文学者能够驾驭的资料规模、类型和语种得以超越个体能力的限制。具备多模态理解能力的大模型，使得对超大规模语料、图像、影音资料的检索、比对和综合成为可能，从而极大地扩展了研究的认知边界。在古典文献、古代历史等特定领域，研究者得以在几乎“全量”的资料空间中展开工作，这为学者观察宏观趋势、探索长时段历史和回应重大跨学科议题提供了新的可能。

为了全面系统地反映中国古代书目的建设和发展情况，北京大学数字人文研究中心与孙显斌合作研发了“经籍指掌:中国历代典籍目录分析系统¹。它将上始《汉书·艺文志》，下讫《清史稿》的八朝官修目录加以集成，跨越汉、隋、唐、宋、元、明、清等朝代，再加上《四库全书总目》和现代编撰的《中国古籍总目》，累计299 206条古籍书目，是对中国古籍目录的一次系统整合。该系统中，在宏观层面，研究者可以观察不同历史时期生产和收藏古籍的总量变化（见图1），进而直观考察古籍总量的增长轨迹和知识体系的长时段演化，这种全景式的观察，唯有在全量数据的支持才可以实现。在微观层面，研究者可以考察任一古籍两千余年来的版本流变，追踪它在历朝目录中的记载、更名或重编；可以分析任一类目在后世的演化情况，乃至通过共现关系而关联在一起的书群的聚散离合现象。借助大数据和可视化手段，可以方便地观察中国古代两千年来古籍类目演化、版本流变和知识谱系的结构变更。

图1 历代官修典籍目录数量分布

“经籍指掌”系统汇集的是古代典籍的书目元数据信息。存世的中国古代文献数量毕竟有限的，若能将存世古代文献全部汇集起来，研究者便能在完整的资料空间中考察中国古代思想观念发生、发展与演化，从而避免个体阅读范围有限所造成的偏差。“《论语》复用可视化分析平台”²展示了这一可能性。该平台在《中国学术名著提要˙哲学卷》所收录的全部语料基础上构建，利用语义相似度计算，穷尽式地将后世文献中与《论语》原词或原句意思一致或相似的文本片段无一遗漏地找出来，既包括对原词原句的直接引用，也包括词形句形虽有变化但是意思一致或相近的间接引用，从而观察它们在后世的演化轨迹。在这一框架下，复用数据越完整，越能真实反映思想观念的历史流传全貌。据此还可以观察某一观念乃至某篇章节在不同时代的复用情形，从而揭示其在不同时代所受到的重视程度及其思想史意义（见图2）。

图2 《论语》各篇章在各时代的复用统计

4.2 资料的结构化与图谱化

人文学科的研究对象大多属于人类历史与文化的记忆材料，如史料、典籍、书画等，原本是以人类的阅读、欣赏和记忆为前提而制作与流传的。然而，当研究追溯至历史深处，需要处理考古遗存、古代文献与艺术典籍等文化遗产材料时，它们往往因年代久远、语言艰深、结构复杂而含义隐晦，即便是专业学者，也常常需要多年训练才能加以解读与阐释。资料的智能处理，核心在于将原本面向人类理解的材料重构为面向机器处理的数据。这一过程可以借助多模态大模型的文字识别、图像处理、命名实体识别与语义标注等手段，把文字、图像、影像等传统文史资料统统转化为结构化数据，并进一步构建富含语义关系的知识图谱。通过这种方式，研究者得以在大规模数据集上开展统计分析、比较研究，乃至进行推理与阐释。这为人文学科中难以直接解读的文化遗产材料开辟了新的研究路径。基于这一理念，北京大学数字人文研究中心研发了“吾与点”智能人文平台³，其核心目标在于实现人文学科研究材料的结构化与图谱化。平台内置了多种主流大语言模型的接口，研究者可以根据任务需求灵活调用合适的模型，对文本或图像等原始资料进行处理。在具体操作上，用户首先将材料上传系统，并依据研究目的自定义所需的数据结构。例如，可以设定从文本中抽取人名、地名、官职等字段，或为图像建立标注与描述的维度。平台随后调用指定模型，自动完成信息抽取与标识，随后生成二维表格，或构建包含丰富语义关系的知识图谱。这样，原本以顺序书写形式存在的文史材料，便可转化为结构化数据，实现从线性文本到表格、再到知识图谱的多层次转换（见图3）。

图3 “吾与点”平台智能生成的《史记˙孟子荀卿列传》知识图谱

更为关键的是，这一过程并不仅仅是形式上的转换，而是对材料的重新组织与语义重构（见图4）。传统文史典籍是面向人类阅读的线性文本，而研究往往需要按概念或关系进行聚合与比较。“吾与点”能够利用大语言模型的语义理解能力，从资料中抽取并关联信息，例如，识别史料中同朝为官且具父子关系的人物，汇总《三国志》中涉及战争的所有段落，或集中整理关于某一学者的记载。通过这种方式，材料得以打破原有的书写顺序，依据研究者的需求重新组合，最终形成可供计算分析的知识图谱。这不仅显著提升了人文学科的数据处理能力，也为资料的重构与深层解读提供了新的可能。

图4 吾与点平台基于“人—出生—某国”的关系对《三国志》文本聚类

4.3 知识处理单元的微细化和原子化

搜索引擎时代，机器返回文档级或篇章级的结果以响应用户查询。研究者需要进一步细读来筛选所需要的内容。进入智能时代，大语言模型凭借其语义解析能力，将分析从书籍、章节等宏观单元，进一步细化到段落、句子、词语甚至词元(token)的原子级别，从而赋予研究者精确识别跨文本的细粒度语义关联，并在大规模语料中展开定量分析和计算建模。例如，思想史研究中可追踪特定概念在不同历史语境中的微妙差异，文本学研究能够捕捉跨文本的复用、改写和风格变异，而文化传播研究则能够刻画概念、隐喻或叙事单元在跨地域与跨语种中的迁移和扩散。这种从宏观视角对大规模文化现象的考察，正体现了莫莱蒂（Franco Moretti）所倡导的“远读”（distant reading）范式——即通过计算方法揭示传统文本分析难以察觉的文学演进规律与全球性文化联系。

这一理念可追溯至基于词频统计的数字概念史研究，例如金观涛与刘青峰在“中国近现代思想史专业数据库（1830—1930）”中，对“公理”“社会”“个人”“世界”等关键概念的词频进行统计，考察它们在百年间相关文献中的传递与嬗变，进而分析词义变化所折射出的社会心理特质与时代变迁。更复杂更精细的方法是利用词嵌入表征检测跨文献的 n-gram 互文，使文本分析的尺度能够从整部文献或篇章级别下沉至段落、句子乃至词语的“原子化”层级。北京大学数字人文研究中心在一个涵盖唐以前大多数典籍及部分后世经典的大规模语料库上，检测出千万级别的互文，并通过上下文语境分析，描绘观念在超长时段中的语义演化轨迹。

例如，从《论语》中的“一箪食一瓢饮”出发，经《孟子》《新语》《盐铁论》《汉书》《论衡》等典籍不断被引用、缩写与转化，最终凝练为流传广泛的典故（见图5）。这一追踪过程展示了观念如何由具体叙事逐渐抽象化为符号化表达。又如，通过互文计算追溯《韩诗外传》中的“伪诈不可长，空虚不可守，朽木不可雕，情亡不可久”一语，发现其子句构成分别来自对《韩非子》原句“矜伪不长，盖虚不久”的化用，及《论语》原句“朽木不可雕也”的直接引用，再附上《韩诗外传》作者自撰的“情亡不可久”而形成，从而揭示了思想观念的复杂源流。

图5 采用互文计算追溯“箪食瓢饮”典故的形成

智能时代的研究范式

人工智能在工具层面与材料层面带来的根本性变化，必然推动人文研究范式的转型。首先，近乎全量的资料规模将极大拓展研究问题的空间，研究者得以在更大范围内提出和检验新的问题；其次，智能处理能力正在重构方法论格局，使传统人文学术依赖的“诠释”方法与算法化的“计算”分析趋向互补与融合；最后，工具的智能化发展意味着人机协作机制的演进，其终极形态将走向“人机共生”。

5.1问题空间的极大扩展

受限于个体精力与认知负荷，传统人文学者一般选择具体而微的研究问题，通过对局部材料的精读，从个案出发，以“小中见大”“一叶知秋”的方式，推演宏观结构与历史脉络。

而在智能工具的加持下，研究者能够从大规模数据集中识别模式、发现问题，并提出过去因资料规模过大而难以驾驭的问题。美国学者安德伍德（Ted Underwood）通过分析数万本文学作品，用计算方法来回答关于文学史演变的大问题，例如小说体裁如何随着时间的推移而变化、批评家对文学作品的接受模式如何演变。他在著作Distant Horizons: Digital Evidence and Literary Change中指出，通过在数以千计的文本中汇聚证据，研究者能够发现个别作品层面无法呈现的长期变化与宏观模式。

这表明，数字与智能工具使得学者能够在大规模数据集中识别规律，进而探索“大趋势”“大历史”层面的学术问题。基于大趋势的观察，研究者又可以筛选出对应的具体文本，深入细读和分析诠释，随时在宏观把握和微观诠释之间灵活切换，从而既能把握整体大势，又能穷究细节。这一范式的转型，将赋予每个研究者“致广大而尽精微”的研究能力。

5.2 诠释和计算的复合运用

传统的人文学科强调“精读”与解释。然而，正如莫莱蒂所言：“精读并不是一种可扩展的方法……远读则使我们能够聚焦于比文本更小或更大的单元：如修辞手法、主题、母题，或是文类与体系。”在人工智能技术的加持下，基于大数据的远读模式将更加流行。面对超越个体消化能力的庞大资料集，研究者需要将传统的诠释学方法与统计建模、机器学习等计算手段相结合，从而形成“量化统计—质性解释—智能辅助”相融合的研究路径。换言之，纯粹依赖解释的研究模式仍然不可或缺，但质性与量化相结合的研究范式正在逐步成为主流。这不仅要求人文学者具备一定的量化分析能力，成为具有跨学科素养的研究者，也意味着人文研究将越来越强调团队协作，人文学者与计算机科学家、数据工程师的合作将逐渐成为常态。

5.3 人机共生的协作范式

如果说搜索引擎时代的人机关系是“人机协作”，即计算机收集和提供信息并提供创作工具，而用户则理解、消化信息并自主生成知识，那么，在大语言模型的三大能力——自然语言生成、上下文理解与世界知识整合——的支撑下，人机关系将进化为“人机共生”，即人与AI共同参与知识生成，形成“增强式研究”范式。基本协作流程是：学者提出问题→ AI进行初步分析→ 学者批判性判断→ AI根据反馈进一步优化。如此循环迭代，研究者与AI不断交互从而构成一种动态的知识共创机制，显著提升知识生产的速度与质量，并拓展学术创新的可能空间。

北京大学数字人文研究中心研发的“吾与点”平台，在数据智能处理的基础上，已经升级为智能体开发平台，其核心目标是支持用户在私有数据集之上构建个性化的专属智能体。用户上传私有资料库之后，平台首先智能生成结构化表格或知识图谱，继而根据用户需求创建多功能智能体：既可作为智能助手协助用户对数据集做深度分析，亦可作为小程序向他人提供基于私有数据集的知识服务。与传统的信息传递和知识共享不同，这种“资料集—知识库—智能体”的全链路转化，为用户提供了将自己独有的分析视角、研究思路和处理逻辑也分享给他人的通道。借助这样的智能平台，用户不仅能打造学习和科研的智能助手，还可以化身为“微图书馆”，为大众提供特色服务。

结语

综上所述，智能时代的来临为人文学科带来了前所未有的工具与方法，使研究能够在更大规模的资料、更细微的知识单元上展开，并推动学术范式的深刻变革。然而，真正的学术洞见仍然依赖于人类所独具的历史感、价值判断、批判精神与创造性思维——这些都是任何算法无法替代的。在未来的人机共生模式中，机器的优势在于规模、速度与模式识别，而人类学者的价值则体现在问题的提出、意义的阐释以及文化与伦理的关怀。正因如此，传统人文学科的训练依旧不可或缺，文本细读、历史语境的把握、逻辑与修辞的训练，都是塑造人文学者的基本功夫，也是人机协作得以真正发挥作用的前提。换言之，人工智能的繁荣是否会削弱人文学科，在很大程度上取决于我们对人文学术根本价值的理解与坚守。如果仅把人文学科视为文字生产的工具或特定思想的附属装饰，那么其式微几乎不可避免。但如果承认并珍视人文学科在探寻人类存在意义、反思文化价值与提供伦理关怀方面的不可替代作用，就应当在智能时代更加珍视人文学术的传统价值，善用智能技术打造符合人文学术特质的数字人文研究平台，从而充分发挥人类心智与文化创造的独特力量。

注释：

1 .https://bib.pkudh.org

2 .https://reuse.pkudh.org

3 .https://www.wuyudian.net

*本文原标题《从公共图书馆到公共智能：公共知识媒介演化及人文学术范式转型》，有删节，网络首发于知网，参考文献从略，下载全文请登录中国知网首页检索。

阅读原文

跳转微信打开

2 - 北京大学公众号
从燕京引得到识典古籍：现代科学方法整理中国古籍的学术脉络 2026年1月12日 19:00

2 - 北京大学公众号

从燕京引得到识典古籍：现代科学方法整理中国古籍的学术脉络

2026年1月12日 19:00

2026-01-12 19:00 北京

编者按：

本文是北京大学数字人文研究中心副主任杨浩，在“数智时代古籍研究前沿论坛暨‘我用 AI 校古籍’（2025 年）总结会”上的主旨报告发言稿，主题为《从燕京引得到识典古籍：现代科学方法整理中国古籍的学术脉络》。现将全文呈现，以飨读者。

杨浩老师梳理了“识典古籍”平台的构建逻辑与学术根基：平台深植于北大“整理国故，再造文明”的传统，借鉴《儒藏》工程的编纂经验，同时吸纳王军教授多年深耕于数字人文的理念，实现了传统学术与数字技术的深度融合。文中详解平台的创新范式、资源建设策略与国际合作格局，展现AI时代古籍整理的传承与革新。原文如下：

尊敬的各位来宾、各位学界同仁：

从燕京引得的一张张卡片，到如今云端的亿万字符，已经走过了一百年。识典古籍平台，不仅是新技术的练兵场，更是北京大学“整理国故，再造文明”精神在AI时代的重生。在这里，算法不再是冰冷的代码，因为其间流动着学术的温热；技术不再是机械的工具，因为其下奠基着深厚的传统；平台不再是静止的库房，因为其上正演绎着文明的重生。

一百年前，胡适先生振臂一呼，提出了“整理国故，再造文明”的宏愿，以“历史的眼光”、“系统的整理”和“比较的研究”，为中华典籍寻求新的研究方法论。他所构想的“系统的整理”，一为“索引式的整理”，要使古书人人能用；二为“结账式的整理”，要使古书人人能读。后世的古籍整理工作，皆是接踵此两条路径而展开。三为“专史式的整理”，构建全新的文化史体系，要“再造文明”。

随后的洪业先生的燕京引得编纂，实际上就是“索引式的整理”。1930年，他在燕京大学主持成立哈佛燕京学社引得编纂处，以标准化的严密流程，编纂了64种“汉学引得”。虽然那些泛黄的纸质索引如今已被数据库取代，但它们作为“史学现代化第一步”的功勋，永不磨灭。

百年后的今天，文明传承的责任依旧沉重，但AI技术的浪潮为“整理国故”带来了新的曙光。光学字符识别（OCR）、自然语言处理（NLP）等技术，使得高效、规模化地整理古籍成为现实。

“识典古籍”整理平台的设计并非无本之木。上世纪80年代成立的全国高等院校古籍整理研究工作委员会（简称“古委会”），在国家层面统筹规划，为高校古籍整理事业奠定了坚实的制度磐石。正是在这一深厚的学术土壤中，汤一介先生于2003年倾力开启《儒藏》工程，工程汇集五百学人，历时二十载，终成精华编二百八十二册。“识典古籍”整理平台正是直接汲取了这一宏大实践的宝贵经验。

《儒藏》编纂严格依据底本的“存真原则”，是识典古籍平台“图文对照、一字一据”的根本法则。《儒藏》编纂采用统一的体例，13道工序，批量整理的思路，是平台规模化运作的理论基础。此外《儒藏》编纂的校勘规范、标点体例、校点说明撰写、工作流程、质量控制等多个维度上，也都为识典古籍平台构建提供了最稳固的支撑。

《儒藏》的恢弘实践，是识典古籍整理平台“整理国故”的“道”，而北大王军教授在数字图书馆近二十年的深耕，则是走向这个目标的“术”。王军教授所提出的“从文献库到知识服务引擎”的理念，所设计的“图像化-文本化-数据化-知识化-智能化”的全链路升级方案，所倡导的“人机协同与大众参与”的开放生态构想，为“识典古籍”搭建起了数字世界的骨架。而字节跳动卓越的产品打磨与平台工程能力，则是将此蓝图落地的坚实底座。正是得益于这种强大的技术实现力，复杂的编纂设计思路才得以真正化为触手可及的现实。因此，识典古籍平台始终坚持“两条腿走路”：一条腿深植于传统古籍整理的学术土壤，另一条腿则坚实地踏在数字人文研究的前沿阵地。

更令人感动的是一种反哺。识典古籍整理平台脱胎于《儒藏》的经验，而今，成熟的技术又将回馈《儒藏》工程本身。2024年12月，字节跳动助力北京大学“《儒藏》数字化项目”正式启动，全本《儒藏》的编纂将利用识典古籍整理平台全面展开，这正是技术与学术最美好的双向奔赴。

在识典古籍阅读平台的设计上，也广泛借鉴了各类先行者的智慧。纵观现有的古籍数据库，可谓各擅胜场：有的专注于“纯文本”，以精审的文字和规范的编码见长；有的深耕于“商业图文”，以丰富的资料和先进的对照体验取胜；有的致力于“纯图像”，最大限度保留古籍原貌与版本价值；有的立足于“整理本”，在精准文字的基础上提供深度的阅读功能；更有的探索“众包协作”，汇聚大众之力共建共享。

识典古籍的野心，便在于博采众长，试图将这五种模式的精髓融于一炉，实现一场集大成的“融合创新”。

这一创新，具体体现为一场全方位的范式革命：

在作为基石的呈现形式上，不仅坚守“左图右文”的学术严谨，更将右文创新为现代标点横排，彻底打破了“存真”与“普及”之间的坚冰；

在作为骨架的文本结构上，不仅遵循国际通用的学术标准，更将每一个数字字符与原始图像字形精确锚定，真正实现了“字字有据”的深度关联；

在作为血肉的阅读功能上，不仅满足基础的检索需求，更利用AI技术让静态文本“活”了起来，人名可点、古文可译、疑问可答，赋予了古籍以鲜活的生命；

在作为灵魂的参与模式上，不仅提供单向的知识服务，更通过“我是校书官”平台，将被动的阅读者转变为主动的校勘者，让每一位参与者都成为文明传承的在场者。

为了支撑这一革命，平台上设计了贯穿全程的八大核心环节，并设立了“AI整理、粗校、精校”三级标准，实现了“先快速上线、后持续优化”的迭代模式。这彻底改变了传统出版“一经刊印、难以更改”的静态范式，让古籍整理从“刻石成碑”进化为“生生不息”的动态过程。

为将这一理念落到实处，我们探索出了一套多元化的资源建设策略，针对不同古籍的特性，施以最合适的工序。其一为“AI整理”，如同先锋部队，利用成熟的OCR与自动结构识别技术，以雷霆万钧之势，迅速将海量文献转化为可用的数字底本。其二为“批量加工”，如同机械化军团，将线下批量处理的数字化成果，通过自动化脚本，快速、成建制地导入平台。其三为“精校加工”，如同特种部队，在平台上对重要典籍进行多轮次、出版级别的精细打磨，攻克学术难关。最后，也是最具活力的一环，是“众包校对”，也即“我是校书官”模式，则如星火大军，聚则一团火，散则满天星，汇集天下之智，积众力以成浩瀚。

通过这四种建设路径，平台已完成4万余种古籍的数字化，其中对《四库全书》、《四部丛刊》、汉文大藏经（六种版本）、百衲本二十四史等核心文献进行了精准的文字校对，并施以现代标点。平台还系统收录《永乐大典》、《道藏》以及藏外道书，以及CADAL项目的上万种古籍。从通用典籍到特藏资源，一个完整的古籍数字体系已初具规模。

“学术乃天下之公器”。2023年，哈佛燕京图书馆将馆藏9000余种珍贵中文善本古籍的全部数字化书影无偿捐赠给北京大学。这不仅是数据的交接，更是洪业先生与哈佛燕京学社合作历史的延续。这些数据整理后将无偿回馈全球，真正实现了资源的闭环。继哈佛之后，普林斯顿大学、法国国立国会图书馆、CADAL项目等海内外重磅机构也纷纷加入。数据的流动，让全球汉学界紧密相连，一个开放、共享、互利、共赢的国际合作网络已然成形。

回望来路，可以清晰地看到一条学术演进的脉络：从胡适的倡导，到洪业的实践，再到汤一介先生的规模化探索，最终汇入今日识典古籍的智能化浪潮。

然而，“整理国故”并非终点，其目的在于“再造文明”。未来，平台将持续加强资源建设的数量与质量，推动全球中华古籍的数字化回归，开发各类面向学术研究的智能工具，支持跨学科、跨机构的协作研究。平台的愿景，是将识典古籍建设成为全球汉学研究的枢纽。在这里，资源得以汇聚，学者得以协作，思想得以碰撞，文明得以赓续。

《诗》云：“周虽旧邦，其命维新。”

识典古籍，正是以今日之技术，激活传统之血脉，在继承中创新，在开放中前行，在共享中致远。

谢谢大家。

北京大学数字人文研究中心副主任杨浩

阅读原文

跳转微信打开

2 - 北京大学公众号
“我用 AI 校古籍” （2025年）总结会圆满落幕，“法藏敦煌大众整理”计划同步启动！ 2026年1月11日 15:47

2 - 北京大学公众号

“我用 AI 校古籍” （2025年）总结会圆满落幕，“法藏敦煌大众整理”计划同步启动！

2026年1月11日 15:47

2026-01-11 15:47 北京

2025年1月10日，由全国高等院校古籍整理研究工作委员会（简称“古委会”）主办，北京大学中国语言文学系古典文献教研室、北京大学数字人文研究中心与字节跳动公益联合承办的数智时代古籍研究论坛暨 “我用 AI 校古籍”（2025年）总结会在京圆满落幕。该会议由字节跳动公益团队策划并筹办，核心聚焦“我用AI校古籍：‘我是校书官’古籍大众智能整理计划”的亮眼成果，同步总结近三年“识典古籍”平台建设成果。来自全国各地高校、图书馆、出版社的近300名学者及古籍爱好者报名参会，北京大学党委副书记姜国华，教育部社科司、文旅部公服司、北京市委宣传部、古委会秘书处及抖音集团相关领导出席大会并致辞。

在字节跳动公益基金的资助下，北京大学与字节跳动联合打造的“识典古籍”平台，既是“我用 AI 校古籍”活动的核心支撑，也是全球规模领先的古籍智能化整理与数字化阅读平台。经过近三年建设，平台PC端网站与移动端小程序同步向全球开放，已上线4.7万部古籍资源，月服务用户超240万人，日均检索量达35万人次，总访问量突破1.47亿次。

平台深度整合人工智能技术，构建起从OCR文字识别、自动标点、专名提取到多版本智能校勘的全流程解决方案，彻底打破古籍整理的专业门槛，让普罗大众参与文化传承成为可能。

2024年7月，由古委会主办、北大数字人文研究中心与字节跳动公益联合发起的“我是校书官”古籍大众智能整理活动正式启动。依托“识典古籍”平台的技术支撑，活动累计吸引近3.8万人参与，其中高校学生近2万人、覆盖全国近1500所高校，社会公众近1.8万人，形成学界与社会同频共振的参与格局。

截至目前，活动已完成2万余部古籍的整理工作，粗校字数达15亿，精校字数达1亿，整理效率较传统模式提升数十倍。活动全程获得新华社、人民网等权威媒体聚焦报道，成功让古籍整理从“冷门绝学”转变为全民关注、全民践行的文化热潮。

目前，已有四千余个团队通过平台参与在线古籍整理，既包括北京大学《儒藏》编委会、清华大学人文学院、暨南大学文学院等专业科研力量，也涵盖多家古籍出版社及民间爱好者团队。“人机协作”的古籍整理模式，不仅有效提升了古籍整理效率，拓展了古籍整理参与主体的范围，也为专业人才培养和跨界协作提供了新的实践空间。部分高校已将“识典古籍”平台引入相关课程教学，让学生在实操中培养古籍整理技能；社会公众的持续参与也汇聚起推动古籍数字化整理与传播的社会力量，让古籍文化以更贴近当代生活的方式走进公众视野。

北京大学党委副书记姜国华在致辞中指出，作为全国首个设立古典文献学专业的高校，北京大学始终坚守古籍整理学术高地。新时代北大携手字节跳动公益打造“识典古籍”平台，以科技搭建传统与现代、专业与大众的桥梁，为古籍数字化筑牢技术底座并推动大众参与。由古委会、北大数字人文研究中心与字节跳动公益联合主办的“我用 AI 校古籍”计划，打破专业壁垒，让学子与大众共同守护文脉，既提升了整理效率与质量，也探索出专业教育与社会参与深度融合的新路径。

古委会秘书长卢伟在欢迎致辞中表示，古委会成立40余年来，统筹高校古籍整理、研究与人才培养。 “我用 AI 校古籍” 活动开辟人机协同新途径，希望未来秉承坚守传统、跨界融合的理念，共推新时代古籍事业高质量发展。

抖音集团企业社会责任部总经理杨洁在欢迎致辞中表示，字节跳动秉持务实的公益理念，聚焦古籍修复、数字化与活化传播，构建了从古籍修复、数字化到活化传播的全链条，通过抖音等平台让古籍内容触达大众，形成技术赋能与大众传播的良性生态，推动传统文化融入现代生活。

北京大学数字人文研究中心常务副主任杨浩的主旨报告《从燕京引得到识典古籍：现代科学方法整理中国古籍的学术脉络》，深情回顾百年学术传承：从胡适先生倡导“整理国故、再造文明”，到洪业先生创办“燕京大学引得编纂处”，再到汤一介先生主持《儒藏》工程，北大始终坚守文脉守护的使命。到如今北大数字人文中心联合字节跳动公益打造“识典古籍”平台，并发动 “我是校书官” 大众整理活动，正是这份传承在AI时代的创新延续。

“识典古籍”已成为全球规模最大的古籍智能化整理与数字化阅读平台。凭借平台在古籍保护与传播领域的广泛影响力，继哈佛燕京图书馆将所藏全部善本古籍数字化拷贝捐赠北大数字人文研究中心之后，法国国家图书馆于2025年11月也将所藏全部敦煌文献的数字化拷贝捐赠予北大数字人文研究中心。

敦煌遗书是中华文化的瑰宝，也是习近平总书记十分关心的流失海外典籍。姜国华副书记在致辞之后郑重宣布：“千年敦煌、指尖重光”——法藏敦煌大众智能整理计划正式启动！该计划将依托“识典古籍”平台，邀请广大志愿者参与敦煌写卷的智能整理，为全球学界提供开放共享的优质文化资源，助力敦煌学研究再上新台阶。

在全场瞩目下，北京大学党委副书记姜国华、教育部社科司科研处长卢丽君、古委会秘书长卢伟、北大数字人文中心主任王军、抖音集团企业社会责任部总经理杨洁共同为“千年敦煌、指尖重光——法藏敦煌大众智能整理计划” 按下启动键。

在发言最后，姜国华副书记倡议到：老师们、同学们、朋友们，面向未来，古籍事业的发展既需要专业学者的深耕、技术力量的赋能，也需要企业的公益担当，更离不开社会公众的广泛参与。北京大学将继续发挥学科交叉优势，与古委会、字节跳动及社会各界携手并进，推动古籍保护事业迈向新高度，让千年文脉在智能时代绽放出更加璀璨的光芒！

阅读原文

跳转微信打开

2 - 北京大学公众号
讲座回顾：AI时代的人文研究如何重构研究流程？ 2026年1月9日 10:01

2 - 北京大学公众号

讲座回顾：AI时代的人文研究如何重构研究流程？

2026年1月9日 10:01

2026-01-09 10:01 北京

数智时代，ChatGPT等大模型呼啸而来。微软报告中 “历史学家91%的工作技能可被AI辅助” 的数据，焦虑似乎在所难免。当技术浪潮席卷，传统的治学方式是否即将被颠覆？在刚刚结束的教育部虚拟教研室“AI赋能课程建设”系列公益讲座中，北京大学数字人文研究中心主任王军教授与中国社科院大学数字史学研究中心主任向静老师，联袂带来了一场关于“数智时代史学重构”的深度对话。

王军教授在开场便直击核心：这91%并非替代，而是解放。如果学者能将繁重的资料清洗、整理工作交给AI，便能从文献资料的“伏案梳理者”，转型为研究逻辑的“框架构建者”。而实现这一身份跨越的关键，正是一套能让人文材料与 AI 技术精准衔接的专业工具。本场对话的核心载体吾与点智能数据平台，恰为人文研究在数智时代的转型发展提供了这样的全新路径。

祛魅与赋能

AI是概率而非真理

面对ChatGPT等通用大模型的普及，王军教授首先为AI时代的焦虑祛魅。这些看似无所不能的工具，本质上是“文字接龙”的概率模型。它们追求语言的通顺连贯，却缺乏对事实的敬畏与考证意识。但这并不意味着人文研究要对技术敬而远之。恰恰相反，大模型基于海量数据的“涌现”能力，能将学者从资料搬运、清洗、整理等繁重的机械劳动中解放出来，让研究者回归问题意识与价值判断这一人文学科不可替代的主体性。

吾与点智能数据平台正是为这种人机协作的赋能需求而构建的。不同于通用大模型，它深度融合大模型技术，形成专属人文研究的技术解决方案：既能高效处理图像、PDF、青铜器拓片等多模态信息，又能将零散的非结构化文本转化为结构化数据与知识库，更创新性地搭载了智能体（Agent）封装功能。研究者可将自有史料上传至平台处理，生成专属智能研究助手。智能体既能基于材料回应学术问题，又能提供完整的信源索引，还能实现关系网络、地理空间等多维可视化呈现，让静态的研究成果具备可交互性，助力学术探索。

实践见真章

从史料到洞见的智能跃迁

工具的价值，终究要在实践中检验。向静老师带领团队利用吾与点智能数据平台开展的两项数字史学研究，生动展现了平台如何助力人文研究从材料处理迈向洞见生成。

在明代宦官墓志铭研究中，面对晦涩难懂的文言文本和海量信息，传统手工摘抄往往耗时数月且易遗漏关键细节。而通过「吾与点」平台的多模态OCR，平台能直接识别墓志图片，自动提取墓主姓名、籍贯、官职升迁路径等核心字段，快速生成结构化表格。

更令人惊艳的是其推理性考证能力：当史料仅记载某宦官 “早以俊秀”却无具体年份时，平台会调用大模型，结合墓主生卒年及明代选拔惯例，推算出入宫年龄约为4-20岁，并明确标记为 “推测”，填补了史料阙如。对于宦官复杂的官职迁转记录，平台还能自动生成嵌套列表，清晰呈现每一次升迁的时间、职位与部门，为后续量化统计做好充分准备。

在《明代名人传》的研究中，研究团队先在平台中定义了“同乡”“门生”“政敌”等关系类型，平台自动抽取人物实体并用小程序功能实现关系网络，直观呈现出15世纪江西籍官员政治集团。那些隐匿在浩如烟海史料中的地缘纽带与政治关联，在可视化图谱中一目了然，不仅验证了传统史学关于地缘政治的定性描述，更让隐性的历史网络成为可分析、可佐证的研究对象，推动研究从表层文本解读走向深层关系挖掘。

这场技术赋能的背后，是人文研究范式的深刻变革。王军教授在讲座中提出的观点引人深思：如果说传统学术传承强调“把思想写下来”，那么在智能体时代，更重要的，或许是把思想转化为可重复运行、持续演化的智能结构。「吾与点」的目标，就是将学者的治学材料、知识积累，乃至思考方式，固化为智能体，进而分享复用并持续迭代，使学术智慧突破时间与空间的限制，成为可交互、可演化的知识系统。

这种变革正在重塑做学问的方式：原本耗时数月的资料处理，现在经前期规则设定后，借助平台即可大幅压缩机械劳动耗时。研究过程从静态的个体探索，转变为“提取 - 校验 - 修正 - 再提取”的迭代式人机协作。研究成果也从单一的静态论文，延伸为可随时调用、随时问答的智能知识载体。正如向静老师所说，对于人文研究者而言，技术的价值在于让我们能将最核心的精力集中在创造性、开拓性的学术探索上，在坚守人文精神与学术底线的同时，高效实现从材料到“洞见”的跨越。

🔗 相关资源

平台体验：吾与点智能数据平台
讲座来源：教育部信息化教学能力提升课程群虚拟教研室“AI赋能课程建设系列公益讲座”
讲座回放：敬请关注“中国高等教育培训中心订阅号”

Widen Your Data

让「吾与点」成为你的学术伙伴

吾与点智能数据平台目前已面向全网开放，无需复杂的技术基础，即可轻松上手体验材料处理、知识库构建、智能体定制等核心功能，让AI真正服务于学术研究与教学创新，助力每一位研究者高效挖掘材料价值、产出深度洞见。

平台网址：

https://www.wuyudian.net/

注册登录即可开启你的智能探索之旅。在这里，传统与创新碰撞，让人文研究在数智时代焕发新的生机与活力。

更多精彩案例与教程请关注 北京大学数字人文中心 B站账号：

阅读原文

跳转微信打开

2 - 北京大学公众号
会议日程：数智时代古籍研究论坛暨“我用 AI 校古籍”(2025年)总结会 2026年1月8日 11:19

2 - 北京大学公众号

会议日程：数智时代古籍研究论坛暨“我用 AI 校古籍”(2025年)总结会

2026年1月8日 11:19

2026-01-08 11:19 北京

转发自“识典古籍”公众号

阅读原文

跳转微信打开

2 - 北京大学公众号
工作坊回顾：用「吾与点」解锁数字人文研究新可能 2025年12月31日 19:49

2 - 北京大学公众号

工作坊回顾：用「吾与点」解锁数字人文研究新可能

2025年12月31日 19:49

2025-12-31 19:49 北京

2025年12月20日-21日，北京大学数字人文研究中心团队受邀赴内蒙古师范大学，成功举办“从材料到洞见——基于「吾与点」的数字人文实践”专题工作坊。

为推动智能技术与数字人文研究的深度融合，破解传统人文研究中的数据处理瓶颈，2025年12月20日至21日，北京大学数字人文研究中心团队受邀赴内蒙古师范大学，成功举办“从材料到洞见——基于「吾与点」的数字人文实践”专题工作坊。本次工作坊面向科学技术史的十几位同学们，以实操教学与学术研讨相结合的形式，系统分享了智能数据工具在人文研究中的应用路径，为参会师生提供了兼具理论性与实践性的学术指导。

工作坊聚焦「吾与点」智能数据平台在数字人文领域的实战应用，通过核心案例手把手教学，最终实现智能数据生成与数字人文可视化双重目标。本次工作坊以数据生成、分析阐释、成果输出为清晰实践路径，通过理论讲解、跟做示范、自主实践、汇报点评的四步教学法，助力学员实现从技术零基础到独立完成小型数字人文项目的实践。

智能表格数据处理

工作坊伊始，北京大学数字人文研究中心团队首先对「吾与点」智能数据平台进行全景介绍，细致演示智能数据生成全流程，指导学员完成示范项目创建、导入与字段设计，讲解提示词（prompt）撰写技巧，帮助大家通过精准指令实现关键信息抽取。

随后，授课团队围绕墓志铭信息抽取、PDF文本识别、宋代画作元素抽取、嵌套表格信息抽取四大高频研究场景展开深度演练，针对性解决非结构化文本处理、PDF信息抽取、图像元素分析、复杂关联信息挖掘等人文研究痛点，让学员直观感受智能工具的学术赋能价值。

tips：「吾与点」帮助中心的“应用案例”中有工作坊案例详情与相应配置，吾与点新手用户可前往查看

全链路学术辅助工具

除基础数据处理外，工作坊还向学员们深度讲解了平台智能研究助手功能，构建完整研究闭环：

数据集：可将多个项目的表格数据集中管理，支持字符匹配、语义搜索、混合搜索等智能检索方式，还能自定义显示/隐藏列、查看版本信息，快速定位核心研究资料

知识库：可实现多个数据集的跨项目整合，无论是公开共享还是私有管理均能灵活适配，且操作界面与数据集保持一致，降低跨功能学习成本。

智能体创建：基于用户自主构建的数据集与知识库，打造专属学术问答助手，实现以自有材料为基础，精准响应个性化研究需求的智能交互。用户可将前期处理完成的结构化数据，或跨项目整合的知识库构建为智能体，让问答完全基于自身研究材料展开。

小程序生成：可关联多元数据集与知识库，通过自然语言描述需求即可生成独立可视化应用，支持柱状图、折线图、地图展示等多种呈现形式，且内接CBDB与CHGIS主流数字人文数据库，能够适配学术论文发表、项目汇报、成果展览等多元场景。

除了吾与点智能数据平台，团队还向学员讲授数字人文核心分析方法，详细拆解了社会网络分析（Gephi）与地理空间分析（QGIS）的基础操作与理论应用。此外，在知识图谱构建模块，依托吾与点智能标注平台（https://wyd.pkudh.net/），团队讲解了图谱本体的核心概念，指导学员标注数据后自动构建知识图谱，用于梳理概念关联、还原知识脉络。

自主实践阶段，学员们围绕自选主题设计字段、导入材料，并对进一步数据处理与研究展开讨论，授课团队全程巡回辅导，及时解答技术操作与研究思路疑问。

本次工作坊的成功举办，搭建了北京大学数字人文研究中心与内蒙古师范大学在数字人文领域的学术交流桥梁，有效推广了智能数据处理技术在科技史研究中的应用经验。参会师生普遍反馈，通过本次活动系统掌握了「吾与点」平台的核心操作方法，拓宽了数字人文研究的技术视野，为后续开展相关研究提供了重要的技术支撑与学术思路。

吾与点智能数据平台：

为数字人文研究提供全流程服务

本次工作坊以「吾与点」作为基础培训平台，主要基于以下原因：

多模型适配：提供多款先进模型选择，根据任务复杂度（文本/视觉/推理）灵活搭配，平衡效率与成本

功能全面性：覆盖数据处理、分析、可视化、成果展示全链路，支持数据集、知识库、智能体、小程序一站式构建

适配性优化：面向专业研究场景，操作逻辑贴合学术研究流程，需掌握基础操作规范，可依托操作指南等配套资源，高效跨越学习门槛，实现零代码完成专业级数据处理任务

让研究流程更“轻一点”

让问题本身更“重一点”

吾与点智能数据平台：

https://www.wuyudian.net/

吾与点帮助手册：

https://help.wuyudian.net/docs/user-guide.html

更多关于吾与点的使用教程与使用技巧，敬请关注北京大学数字人文中心B站、小红书账号。

阅读原文

跳转微信打开

2 - 北京大学公众号
「原境·入梦牡丹亭」亮相北京大学“游园听梦”牡丹亭新媒体沉浸式数字艺术展 2025年12月11日 17:30

2 - 北京大学公众号

「原境·入梦牡丹亭」亮相北京大学“游园听梦”牡丹亭新媒体沉浸式数字艺术展

2025年12月11日 17:30

2025-12-11 17:30 北京

pkudh“原境智生”系列之“原境·入梦牡丹亭”，亮相江西抚州文昌里——北京大学“牡丹亭”新媒体沉浸式数字艺术展！

2025年12月9日，北京大学“游园听梦”牡丹亭新媒体沉浸式数字艺术展在江西抚州文昌里历史文化街区美术馆开幕！本次展览由北京大学文化传承与创新研究院主办，北京大学数字人文研究中心参与协办与数字交互内容呈现。

在这场以《牡丹亭》为核心的数字艺术实践中，北大数字人文研究中心带来了自研的AI生成式互动体验——「原境·入梦牡丹亭」，尝试让观众在汤显祖故里完成一次从“看画”到“入画”的旅程。我们尝试用更贴近古典审美的生成方法，把《牡丹亭》的历史图像与当代公众的参与体验连接起来，让经典在当下变得可理解、可进入、可传播。

版画为径：

在长廊里与《牡丹亭》相遇

走进抚州文昌里历史文化街区的沉浸式展览，观众会先进入一条颇具叙事氛围的长走廊。这里不是普通的图片展示区域，而是以晚明刊本徽派刻书家黄鸣岐《牡丹亭还魂记》版画为视觉线索的版画长廊。图像在空间中铺陈出人物、场景与情感张力，也为观众打开一种更直观的入戏路径：先在视觉上抵达《牡丹亭》的梦境结构，再在展览动线中逐步靠近叙事核心。

「原境·入梦牡丹亭」就设置在这条长廊之中。观众一边穿行于古代版画构成的叙事空间里，一边被邀请走向长廊中的一台竖屏一体机。在这里，观众不再只是“看画的人”，而是可以选择成为“画中之人”，把自身作为进入经典的一条当代通道。

杜丽娘入梦（左）、杜丽娘寻梦（右）

十秒入梦：

一次简单的生成式体验

「原境·入梦牡丹亭」的操作方式非常直观。参与者站在竖屏一体机前，面对外接摄像头，轻触屏幕上的“入梦”按钮，系统捕捉人物图像并进行生成。随后屏幕上出现一幅新的画面，观众被“转绘”进了与《牡丹亭》相关的版画场景中。

首页（左）、交互动画与讲解（右）

为强化人物与情境的对应关系，团队依据参与者的性别在多幅底图中进行匹配与呈现，其中包括“杜丽娘入梦”“杜丽娘寻梦”“柳梦梅借住”3个典型情境。短时交互由此获得明确的角色联想与情境指向，使观众能够在有限时间内建立“我在《牡丹亭》里”的体验认知。

入梦：杜丽娘入梦（左）杜丽娘寻梦（中）柳梦梅借住（右）

不止古风感：

我们为何选择“转绘”路径

古风AI在大众经验中常被理解为对现代照片加上笔触与色彩的复古滤镜。然而，中国古画在空间组织、人物动作与面部表达上具有自身的审美技法。若将现代摄影的焦点透视、写实面部与动作幅度直接叠加在古画笔触之上，往往会产生视觉违和。

基于这一判断，「原境·入梦牡丹亭」选择以“转绘”作为主要实现路径。项目通过人物特征的锚点建立识别关联，同时给予模型更大的创作自由，使生成结果更贴近中国古画散点透视、含蓄动作与重神韵的表达传统。为维护版画长廊的整体古韵与审美一致性，生成形象保留参与者现代服饰，但在面部与整体气质上更强调古画写意风格。这一选择兼顾了当代身份的可识别度与历史图像语境的整体协调。

现代装扮（左）转绘为古画风格（右）

面向特定文化对象的活化

作为“原境”系列的一次新实践，「原境·入梦牡丹亭」并不只是一个好玩的互动装置。我们更希望它回应几个更具体、也更贴近真实展陈的问题：

AIGC如何不止停留在通用审美，而能深入具体的文化与艺术传统？

生成式互动怎样与既有史料与展陈叙事协同？

当项目面向图书馆、博物馆、景区等公共文化场景时，能否形成可复制、可运营的技术与叙事实践路径？

在抚州文昌里，「原境·入梦牡丹亭」给出的一个答案是：让AIGC从通用生成转向特定文化对象的定制化活化。在充分尊重文本与图像传统的前提下，我们尝试把技术力量更温和、也更细致地嵌入地方文化与公共记忆之中，让观众的参与成为理解经典、感知美学的一种当代方式。

对北京大学数字人文研究中心而言，本次展览既是一场落在具体地点的展陈实践，也是一次面向未来的路径验证。我们期待把特定文化的定制化生成继续推进到更多公共文化空间之中，为不同的地方文化资源、不同的经典文本设计更贴合其审美语法与传播需求的生成式体验。

在汤显祖的故乡，《牡丹亭》的梦境与至情通过新媒体再次被点亮。观众与古画、与故事、与自我，也在十几秒钟的“入梦”中重新关联。这一次，观众不再只是看一场梦，而是被邀请走进梦里，成为梦境叙事的一部分。

撰稿、排版 | 田梦怡

阅读原文

跳转微信打开

2 - 北京大学公众号
【成果亮相】北大数字人文研究中心创新成果亮相中国数字人文年会（CDH2025） 2025年12月4日 19:00

2 - 北京大学公众号

【成果亮相】北大数字人文研究中心创新成果亮相中国数字人文年会（CDH2025）

2025年12月4日 19:00

2025-12-04 19:00 北京

pkudh自研创新成果——「原境智生」入画体验项目、吾与点智能数据平台，亮相2025年中国数字人文年会数字集市！

11月28日至12月1日，“人文智变：数字人文的智慧奇点”学术研讨会暨2025年中国数字人文年会在中山大学隆重召开。作为中国数字人文领域年度规模最大、影响力最广的学术盛会，本届年会吸引了来自全国高校、科研机构、文化机构的400余位专家学者参加。

北京大学数字人文研究中心受邀参会，中心团队在“数字集市”展区展示了两项创新成果，以技术实践回应“人文智变”主题，引发广泛关注与热烈反响。

CDH2025

数字集市：

两大创新成果集中展示

在善思堂“数字集市”展区，北大数字人文研究中心展示的「吾与点」智能数据平台和「原境·入画」两项自研成果吸引了众多参会者驻足体验与交流。

吾与点智能数据平台：

让数据“活过来”！

展台前人流不息，参会者对「吾与点」平台的智能体和小程序功能表现出浓厚兴趣。中心团队现场演示了「吾与点」这一专为数字人文研究打造的通用型智能数据和知识服务平台。

平台的核心能力在于深度整合大语言模型（LLM）与多模态AI技术，实现对文本、图像等多元材料的结构化信息抽取（如文本关键信息提取、古籍插图元素识别等）。在此基础上，平台支持将用户数据快速构建为可检索的知识库，并提供用户专属的个性化交互智能体，实现基于自然语言的精准信息获取和智能问答服务。同时，「吾与点」支持用户使用自然语言快速生成小程序，把复杂的数据转化为直观的可视化表达，让研究成果“看得见”！

平台网址：https://www.wuyudian.net/

原境智生：

古今共生的沉浸式文化体验

「原境·入画」交互装置同样引发热烈反响。这个基于《韩熙载夜宴图》等传统绘画资源开发的多模态互动系统，让参会者能够跨越千年，与古画中的人物同框共生。

体验者只需站在交互屏幕前拍摄照片，系统即可将现代影像实时转换为夜宴图风格人物形象，并融入听乐、观舞、歇息、清吹、送别五幕场景。这种古今共生的体验设计，让观众不仅看见历史，更能参与历史，成为古画叙事的一部分。

step1：转绘为夜宴图风格人物形象

step2：形象融入《韩熙载夜宴图》的场景

两天展示期间，超过一百位观众亲身体验了这项技术，对装置的高度沉浸感和交互设计的新颖性表示赞赏。这项成果将前沿的AIGC技术与中华传统文化进行创造性结合，为古籍活化和文化遗产展示提供了面向未来、重视用户体验的创新思路。

技术赋能，共绘数字人文未来

北京大学数字人文研究中心的两项展示，从知识服务深化与文化互动创新两个维度，呼应了本届年会“人文智变”的主题。从「吾与点」平台的智能化工具链，到原境智生的多模态交互体验，中心始终坚持“以技术赋能人文，让文化走向大众”的理念。

未来，中心将继续深化平台建设，拓展应用场景，与全国数字人文同仁一道，在智能时代为文化传承与创新贡献力量，推动中国数字人文事业迈向新高度。

撰稿 | 张诗曼

排版 | 田梦怡

阅读原文

跳转微信打开

2 - 北京大学公众号
会议通知：数智时代古籍研究前沿论坛暨“我用AI校古籍”（2025年）总结会 2025年12月2日 09:01

2 - 北京大学公众号

会议通知：数智时代古籍研究前沿论坛暨“我用AI校古籍”（2025年）总结会

2025年12月2日 09:01

2025-12-02 09:01 北京

阅读原文

跳转微信打开

2 - 北京大学公众号
「吾与点」智能研究助手功能发布！ 2025年12月1日 18:01

2 - 北京大学公众号

「吾与点」智能研究助手功能发布！

2025年12月1日 18:01

2025-12-01 18:01 北京

北京大学数字人文研究中发布「吾与点」智能研究助手功能！

11月22日上午，北京大学数字人文研究中心举办了「吾与点」智能研究助手功能发布会。发布会通过功能讲解与精英学者案例分享，系统展示了基于数据集、知识库、智能体与小程序构建的智能研究助手。

发布会回顾

发布会以从材料到洞见：智能工具赋能的人文研究为主题，由北京大学数字人文研究中心主任王军教授开场致辞，他指出需将通用大模型能力转化为人文研究、智慧图书馆的场景化工具，并强调「吾与点」聚焦私有数据与专属需求，为学者打造从材料处理到洞见生成的全流程智能助手。

随后，中心研究助理刘凯然介绍并演示了「吾与点」围绕数据集、知识库、智能体、小程序四个模块搭建的研究助手。

随后，三位专家学者为我们展示了智能研究助手在不同人文场景中的实践：

一、《明代名人传》智能分析

主讲人：向静（中国社科院大学数字史学研究中心主任）

以《明代名人传》为素材，展示从纸质文本→OCR 识别→结构化数据→智能体问答→小程序可视化的完整流程。重点分析15世纪江西籍名人的社会网络（亲属/政治/师承关系）与地理分布，对比吾与点2.0与3.0在数据编码、消歧上的优化。

点评人：陈松（巴克内尔大学东亚研究系副教授）

肯定「吾与点」在结构化数据提取、关联分析上的优势，同时提出疑问：如何解决同名人物消歧、地理可视化中本地近距离关系的呈现问题，为后续功能优化提供方向。

二、《论语义疏》智能分析

主讲人：金珠玉（首尔大学中文系博士生）

聚焦南北朝皇侃《论语义疏》，核心解决两大问题：一是知不足斋本与怀德堂本的版本对读（文字差异、引用文献比对）；二是提取亡佚文献。通过智能体快速定位引用内容，生成差异分析表格，直接服务博士论文研究。

点评人：许喆（釜山大学占毕斋研究所研究员）

围绕 “「吾与点」对研究的实际帮助”“功能改进建议” 提问。

金珠玉老师回应：智能体极大提升文献提取效率，期待未来优化引用内容识别功能。

三、哈佛燕京图书馆书目智能体

主讲人：杨浩（北大数字人文研究中心副主任）

基于哈佛燕京图书馆善本古籍书目，演示结构化数据的智能应用：查询宋辽善本、女性作者作品、地方志中的自然灾害记载，甚至分析明代小说出版中心分布。借助CBDB与CHGIS，实现作者社会关系、出版地等的可视化呈现。

点评人：黄晨（浙江大学图书馆副馆长）

黄晨馆长点赞「吾与点」实现众包从在地到在线、知识组织从离散到关联，契合图书馆 “辨章学术、考镜源流” 的核心需求。

此外，复旦史地所李爽老师分享复旦史地所CHGIS数据升级计划，将持续为「吾与点」提供更精准的历史地理支持。

回放提示：

发布会回放已上线“北京大学数字人文中心”B站账号，大家可以关注查看！

优秀案例征集活动

现面向所有用户与研究者，征集基于「吾与点」完成的研究案例。

提交内容：

吾与点数据集/知识库/小程序等的链接或关键界面截图；
约 1000 字的文字说明，包括：

● 研究背景与问题；

● 材料与数据来源；

● 阶段性结果或初步发现。

投稿方式

欢迎将案例投递至邮箱

contact@wendianyidu.com

● 入选展示的案例将获得 20000 积分奖励，并在吾与点官网案例页面展示；

● 后续工作坊、实践分享、实习招募等活动中，我们也会在同等条件下优先考虑有入选案例的同学与团队。

期待看到更多围绕真实研究问题、结合数据集、知识库、智能体和小程序展开的实践！

让研究流程更“轻一点”

让问题本身更“重一点”

如果你已经有一个正在思考的问题，或者手边有一批尚未整理完的材料，不妨就从现在开始——

打开「吾与点」，用数据集、知识库、智能体和小程序，为你的问题搭建一个研究小项目。

期待在不久的将来，在吾与点官网看到你的项目出现在优秀案例之中。

「吾与点」“帮助手册”与“智能研究助手视频教程”说明置于本篇推文下方，欢迎大家查看！

撰稿 | 田梦怡

排版 | 梅紫萱田梦怡

阅读原文

跳转微信打开

2 - 北京大学公众号
速览！「吾与点」智能研究助手视频教程&帮助手册 2025年12月1日 18:01

2 - 北京大学公众号

速览！「吾与点」智能研究助手视频教程&帮助手册

2025年12月1日 18:01

2025-12-01 18:01 北京

如果你刚刚通过发布会认识「吾与点」，或者已经注册但还没来得及认真摸索，这篇就是专门为你准备的入门索引！

我们把目前已经上线的学习资源整理在一起，方便你一次收藏、慢慢使用。

图文帮助手册

一步一步操作

吾与点帮助中心（用户手册）

https://help.wuyudian.net/

在「吾与点」官网的「帮助中心-使用指南」中，我们提供了图文版用户手册进行按模块整理的操作步骤示例。

用户手册适合愿意“按图索骥”的使用者：每个功能点都有对应的说明与截图，可以边看边操作，一步步搭建属于自己的项目。

B站教程视频

看着操作更轻松

如果你更习惯“看别人点哪里、自己跟着点”

可以前往

北京大学数字人文中心 B站账号

已上线的「吾与点」使用教程 视频合集，将带你完成一个完整的数据智能处理流程；
后续还会根据大家的问题和需求，陆续补充更多“使用小技巧”和场景化教程。

公众号连载

功能解读 + 案例分享

在 数字人文开放实验室

及 吾与点智能数据平台 公众号中

我们陆续发布或即将发布：

智能研究助手功能的细化解读
真实研究场景中的案例分享
活动通知与优秀案例征集信息

这部分内容更接近研究者视角，既保留方法论的严谨，又尽量呈现工具在具体项目中的作用。

上面这些手册、教程和案例，希望为研究者在使用「吾与点」时提供若干入口。

你可以从帮助手册或教程视频开始，慢慢搭建起属于自己的智能工作台，并在真实的研究实践中，持续修正和丰富它。

期待在未来的优秀案例与学术项目中，看到你如何使用「吾与点」，回应人文与社科提出的新问题！

撰稿 | 田梦怡

排版 | 邓茜珈

阅读原文

跳转微信打开

2 - 北京大学公众号
「吾与点」智能研究助手发布会预告！ 2025年11月20日 19:00

2 - 北京大学公众号

「吾与点」智能研究助手发布会预告！

2025年11月20日 19:00

2025-11-20 19:00 北京

随着人工智能技术的飞速发展，大语言模型正在深刻变革学术研究的范式。人文研究领域拥有海量的非结构化材料，如何利用智能工具辅助研究者更高效地从繁杂的“材料”中挖掘深层的“洞见”，已成为人工智能时代数字人文发展的关键所在。

为应对这一挑战，北京大学数字人文中心历经数月研发，正式推出「吾与点」零代码智能体构建平台。用户只需准备好自己的材料，无需任何编程即可生成专属知识库与智能体，让人人都能拥有自己的智能助手。

本次发布会旨在正式推出智能研究助手功能，展示其如何赋能人文研究，并邀请精英学者分享前沿研究案例，与学界同仁共同展望 AI 技术与人文学术深度融合的未来。

发布会议程

发布时间

2025年11月22日（周六）

9:00-11:00

现场直播

哔哩哔哩

搜索“北京大学数字人文中心”

观看直播

小红书

搜索“北京大学数字人文研究中心”

观看直播

会议议程

9:00-9:05 致辞

王军（北京大学数字人文研究中心主任）

9:05-9:20 「吾与点」智能研究助手功能展示

刘凯然（北京大学数字人文研究中心研究助理）

9:20-9:40 《明代名人传》智能分析

主讲：向静（中国社会科学院大学数字史学研究中心主任）

点评：陈松（巴克内尔大学东亚研究系中国史副教授）

9:45-10:05 《论语集注义疏》智能分析

主讲：金珠玉（韩国首尔大学中文系博士生）

点评：许喆（韩国釜山大学占毕斋研究所研究员）

10:10-10:30 哈佛燕京图书馆书目智能体

主讲：杨浩（北京大学数字人文研究中心副主任）

点评：黄晨（浙江大学图书馆副馆长）

10:35-10:45 「吾与点」未来开发计划

王兆基（北京大学数字人文研究中心博士生）

10:45-11:00 在线答疑

主持人：

田梦怡（北京大学数字人文研究中心研究助理）

功能展示

智能研究助手不是单一的AI工具，而是由数据集、知识库、智能体、小程序构成的全流程研究工具。它可以将复杂的学术资料转化为可检索、可对话、可视化的智能资源，改变学者与文献资料的交互方式。

智能数据检索：让数据“找得到”

「吾与点」的数据集和知识库功能，支持用户基于自己的项目和数据自定义构建数据集合。通过全文搜索、语义搜索和混合搜索，实现对用户数据的精准检索和多维度快速匹配，大幅提升数据管理与查询效率。

自然语言问答：让数据“会说话”

「吾与点」的智能体功能集成了大模型技术，基于用户知识库进行深度自然语言问答。智能体支持联网搜索、生成图像、代码等创造性内容，并允许用户调节输出的创意度，实现更个性化的智能交互。

可视化小程序：让数据“看得见”

「吾与点」小程序允许用户通过自然语言对话快速生成独立的可视化应用或展示PPT，并且以交互式网页呈现。基于知识库数据，用户可高效创建多种可视化效果，包括但不限于：

数据图表
地理分布
WEB检索系统
轻量小游戏
思维导图

凭借灵活易用的特性，用户可零代码生成图表、地图等可视化小程序与PPT，直观理解复杂数据，实现高效创新。

更多功能演示，尽在发布会现场！

▼

「吾与点」网址

https://www.wuyudian.net/

让我们一起见证

「数据拓展智能」的精彩未来！

来源 | 北京大学数字人文研究中心

排版 | 梅紫萱

阅读原文

跳转微信打开

2 - 北京大学公众号

从“材料”到“洞见”：智能工具赋能的人文研究 ——暨「吾与点」智能研究助手线上发布会

2025年11月17日 19:00

2025-11-17 19:00 北京

学术圆桌&发布会议程

发布时间

2025年11月22日（周六）

9:00-11:00

现场直播

哔哩哔哩

搜索“北京大学数字人文中心”

观看直播

小红书

搜索“北京大学数字人文研究中心”

观看直播

会议议程

9:00-9:05 致辞

王军（北京大学数字人文研究中心主任）

9:05-9:20 「吾与点」智能研究助手功能展示

刘凯然（北京大学数字人文研究中心研究助理）

9:20-9:40 《明代名人传》智能分析

主讲：向静（中国社会科学院大学数字史学研究中心主任）

点评：陈松（巴克内尔大学东亚研究系中国史副教授）

9:45-10:05 《论语集注义疏》智能分析

主讲：金珠玉（韩国首尔大学中文系博士生）

点评：许喆（韩国釜山大学占毕斋研究所研究员）

10:10-10:30 哈佛燕京图书馆书目智能体

主讲：杨浩（北京大学数字人文研究中心副主任）

点评：马小鹤（哈佛燕京图书馆资深馆员）

10:35-10:45 「吾与点」未来开发计划

王兆基（北京大学数字人文研究中心博士生）

10:45-11:00 在线答疑

功能展示

智能数据检索：让数据“找得到”

自然语言问答：让数据“会说话”

可视化小程序：让数据“看得见”

数据图表
地理分布
WEB检索系统
轻量小游戏
思维导图

凭借灵活易用的特性，用户可零代码生成图表、地图等可视化小程序与PPT，直观理解复杂数据，实现高效创新。

更多功能演示，尽在发布会现场！

▼

「吾与点」网址

https://www.wuyudian.net/

让我们一起见证

「数据拓展智能」的精彩未来！

来源 | 北京大学数字人文研究中心

排版 | 梅紫萱

阅读原文

跳转微信打开

2 - 北京大学公众号
洪业｜试为中国古籍编引得 2025年11月5日 19:02

2 - 北京大学公众号

洪业｜试为中国古籍编引得

2025年11月5日 19:02

上海书评 2025-11-05 19:02 北京

编者按：北京大学数字人文研究中心于2023年获得哈佛燕京图书馆藏善本古籍数字书影授权。2024年，中心联合字节跳动公益发起“我是校书官”古籍大众智能整理活动，将7000余种哈燕馆藏善本古籍全部文本化，并通过识典古籍平台向全网提供无条件的公益访问。在此基础上，原计划筹办专题展览以集中展示整理成果。筹展期间，我们有幸采访了陈毓贤先生，先生的回忆为我们勾勒出洪业先生与哈燕馆的深厚渊源。遗憾的是，展览因故中止。为纪念此次整理历程，并表达对前辈学人的敬意，我们特此转载陈毓贤先生此文，以飨读者。

洪业

（1893-1980）

过去两年间，经哈佛燕京图书馆授权，北京大学数字人文研究中心系统地整理了该馆珍藏的七千余种善本古籍，包括稀见的宋元刻本、地方史志、宝卷、韩南教授捐赠的通俗戏曲小说等。影像与电子文本已在线上公开，供学者阅读与检索。这项浩大的工程自然依赖最新的智能工具，繁琐的校对工作却由上万名“校书官”在网上义务完成。

北大图书馆将在今年11月举办为期一个月的“燕京古籍旧藏与哈燕馆藏合璧展”，不仅展示文献本身，也梳理那段以哈佛燕京学社，以及洪业主持的引得编纂处为代表的中美学术交流史，主题之一是“从引得到数字人文”。主办单位问我有没有相关资料可提供，我想起上世纪七十年代末我在麻省康桥带了录音机到洪业的厨房，和他一起边喝茶吃叉烧包，边录他的回忆。他送了一本薄薄的册子给我，是他1930年12月12日在北平中国社会及政治学会（Chinese Political and Social Science Association）上用英语发表的报告。此学会成员大概是欧美留学归国学人及在各院校教书的外籍人士，待查。那时他得哈佛燕京学社资助，成立引得编纂处才三个月。替古籍编引得，是他在脑海中已酝酿了十多年的构想，终于有机会付诸行动，欣喜中带几分忧虑，我们可借以窥探当年的学术大环境。

——陈毓贤

文︱洪业

文︱陈毓贤

新近出现了一支新的学派叫sinology，国内称为“国学”；名称无论中西都相当别扭。顾名思义，它指一切有关古今中国的研究，但“国学”家至今聚焦于受西方文明冲击前的中国思想与制度。准确地说，所谓的sinology或国学，应被理解为以科学态度研究中国语文和历史的学问，因其一手资料不外于中国历史遗存和文献。

在中国境内，有两个原因令我们对这门学问的前景感到乐观，一是批判性研究方法的崛起，一是古籍的普及化。

校勘学在中国清代早已兴盛。卢文弨、戴震、汪中、孙星衍、严可均和顾广圻等学者把许多古籍的文本恢复原貌，功不可没。相对而言，深层历史批评却是最近才有的。此前虽说有胡应麟、阎若璩、姚际恒和崔述等少数勇者向尊崇的传统挑战，但都不敢打破砂锅问到底，而且号召力有限，跟从者不多。一直到十多年前胡适博士《中国哲学史大纲（卷上）》（商务印书馆，1919年）出版，我们才能在他的序言中看到类似西方过去一个世纪来发展的那种历史批判。胡适是中国声誉最高的学府里最出名的教授，影响波及全国知识分子。现在年轻学子纷纷用批判的眼光审视文本的作者与他们创作的动机，应归功于胡适。而追随胡适的学者中最杰出的是燕京大学的顾颉刚教授，他几乎天天都在揭发中国浩如烟海的历史资料中隐藏的骗局和圈套。

恰恰在这时候，古籍突然普及了。中国虽以发明印刷术为傲，但从西方引进新印刷技术后，尤其是引进石印后，古籍才从奢侈品变成普通人买得起的物品。有生意头脑的出版商大量复制了许多以前是珍版的稀见书目。举个例子，商务印书馆出版的《四部丛刊》，是上一代富有藏书家须花一辈子的功夫才能凑齐的，现在中上人家就能购得起一套，囊中羞涩的书生则可到图书馆借阅。根据《中华图书馆协会学报》的统计，中国的公共图书馆1925年至1930年间从五百零二所骤增至一千四百三十八所。虽然大多没有达到可供学者做研究的水平，但都在朝这一方向发展，尤其是走在前沿的大学图书馆。

总的来说，目前学者要从事学术研究基本上很少有障碍，也许最烦人的是缺乏德国人称为Hilfsmittel（直译为“辅助工具”）的学术工具；依我看，我们最急需各种书目与引得。受过学术训练的学者即使坐拥书城，找资料仍然不易，找到和他题目相关的著作后，又要花许多时间在书里寻检他所需要的段落。虽说勤奋和耐心是每位读书人都应具备的素养，然而精神长期被这种费时费事的操作消耗，研究成果也会受影响。

幸而编书目的工作已开了个头。有数所图书馆把馆藏目录出版，让学者知道书在什么地方可找得到。国立北平图书馆准备把北平数所图书馆收藏的丛书做个联合目录，将为学者提供一个很大的便利，因其中有些丛书现在已很罕见；而燕京大学的陈垣教授正着手把这些丛书涵盖的数千种书的书名另行顺序编排，让学者更容易找到他们所需要的书。至于以题材分类的书目，愈来愈多学者发表论文时列出所参考的书本和文章，而不少专业学刊，尤其是国立北平图书馆和中华图书馆协会出的刊物，不时登载些以题材分类的书目。近来还有人把不同期刊上的文章以题材分类后，将标题汇集出版，希望日后会演变成似美国Reader’s Guide to Periodical Literature（《期刊文献读者指南》）那样的参考工具。

学者找到书本后，须在书中寻检有关段落，这时若有“引得”（index）或“堪靠灯”（concordance）便事半功倍。其实书目愈齐全，提及的书愈多，引得和堪靠灯便愈有用，可为学者节省更多的时间和精力。

譬如学者要找《诗经》内某一句，如果他有大把时间，当然可把《诗经》从头读起，直到见这一句。他若想省点时间，可试查字典或类书，看看有没有提及该句，是《诗经》哪一篇，但很少会幸运碰上，只好又把《诗经》拿出来从头翻。如果他会看英文，就可用理雅各（James Legge）英译本附录的引得，那引得编排得不理想，但仍然可省许多时间。又譬如我们想找《史记》里一段话，可先查沙畹（Emmanuel-Edouard Chavanes）法译本附录的引得——虽然他只译了最初的七十五篇——然后便可据此轻易查到这话在《史记》原文的位置。可见有时最快捷的途径是绕远路，读中文书竟须借助外文译本。

当然，被译成外文的中文书非常少，而会读各种译本的中国学者也非常少。极少数古籍的西文译本附有引得，大体说来无济于事。传统中国教育基本上只要求读书人把几部经书及最有名的文艺著作背得滚瓜烂熟，无需用引得之类的工具。我们现在感到有需要，但除了蔡廷干1922年刊印的《老解老》（非卖品）之外，这种工具始终没有出现。这可归咎于替中文书编引得有许多难以克服的困难，远不如替西文书编引得那么容易。

我对克服所有的困难并不乐观，然而我也不认为这意味着我们应该放弃。许多年来，我总盼望有一批人集合起来选几本书做个试验。今天我可心存感激地向大家报告：哈佛燕京学社已同意拨一笔可观的款项让我们做这么一个试验。我在原有的职务外，主导一个包括编辑和助理的小团队从事这项工作。这三个月来，我们逐渐摸清楚应怎样处理最棘手的问题，希望半年后哈佛燕京学社汉学引得丛刊就有数种引得面世。

现在略谈我们编纂引得的十个步骤：

第一，选书。经编辑和有关领域的学者商讨后，我们定下以下几个原则：（甲）不选已有引得的书；（乙）目前不选伪书；（丙）暂不选二手资料；（丁）暂不选外文译本附有引得的书；（戊）暂不选需两个月以上处理的大书。提最后一条，是因为这既然是个试验，我们应尽快出几个样本送到国内外学者请他们评估，希望获得他们坦诚的批评，告诉我们如何改善。

第二，选择版本。我们尽量选最通行、最可靠的版本。可是为了拥有其他版本的学者也能用我们的引得，须作推算表，让他们算得出某句在他们拥有的版本里大约在哪一页。举个例子：《说苑》（著者刘向，公元前77-公元6年）我们选的版本是《四部丛刊》的单行本。仅我们所知道的，就另有十二个版本。于是我们替每个版本制造一个方程式，让读者可算出某句的相应页数。这些方程式相当精准，最多差一两页。

第三，钩标目注。这是流程中最关键而又最具挑战性的一环。先由两位编辑在各自的文本上下功夫，再由第三位编辑和他们协调商定。牵涉到三个问题：（甲）读者若知道文本中有哪些异文，往往可帮助他们了解内容，异文本身也有学术价值。一般古籍将异文在书后列出，我们所用的《说苑》版本则在另一册上，都不注明异文在文本的哪一页出现，在文本上也没有标志。我们提供读者的引得，附有加入标点符号重新排印的文本，遇上异文，就在文本上加注脚。若相关字眼被选入引得，在该录中也把异文的信息纳入括号里。（乙）传统古籍是没有标点符号的，编辑须把文本读通，明白作者的原意以及文中指涉的名物制度，才能够正确地断句。我们的编辑都是受过学术训练的大学毕业生，但每天都遇到一些怎么读都无法读得通的段落，若寻专家请教后仍无法读通，只好把这些段落列出，希望后人有所发现。标点的同时，编辑们随手做些笔记。如书上提到人物往往不用姓名，而用该人的字或号；而有些地方有两个不同的名称，都须顾及。幸而编纂处现在就设在燕京大学图书馆里，用各种参考书很方便。（丙）文本断句后，就可钩标出引得的目注，决定须不须和另一目注互见等等。我影印了经我们钩标后的《说苑》卷十五第十四页（见图一），上面的校对符号与西方用的大同小异。我们的编辑对西方引得的操作很熟悉，什么东西值得重见于引得中以供读者寻检，中西方的原则是一样的。

第四，把每一条录抄在一张卡片上。卡片上注明其录，及其录所涵盖的目注与异文，在文本的哪一卷、哪一章、哪一页出现，在版心的右边或左边。用其他版本的人可据卷码章码检到其在文本的位置。

第五，卡片经至少两位编辑细心校对。校雠这个词很有意思，就是当为仇敌频频试探的意思。我们曾三校后仍发现错误，所以坚持把每张卡片都假定为有误，有必要证明它是无辜的。

第六，编码。把卡片按次序排列，令读者可按次序便捷地找到有关段落。然而顺什么次序呢？这就是为中文书编引得最棘手的问题了。汉字不似英文字用字母拼成。英文有二十六个字母，可轻易地顺着惯常次序排下去，不懂发音不懂意思都可依序做。汉字没有简单的惯常次序。历来字典不是依诗韵排列就是依二百十四个部首排列，引发的麻烦众所周知。我十一年前便开始思虑如何解开这死结，所以一直关注他人这方面的努力，其中以上海商务印书馆王云五先生的四角号码最成功，但我认为用它来编引得仍不理想。我把自己的方法称为“中国字庋撷”，比起王先生的方法对初学的人来说更容易记，替一个字编码只须三个步骤（见图二），而且几乎每一个号码只有一个字，排列起来又较整齐，这对引得来说是相当要紧的。目前有多所图书馆已用王先生的方法编目录，所以我对要不要推广自己的方法相当犹豫，最终仍坚持用它编引得是因我深信这方法有许多优点，而没有相应的缺点。C. C. Wang去年在Chinese Political and Social Science Review（《中国社会及政治学报》）指出汉字电报码有种种问题。庋撷法几乎每一个号码只有一个字，也许亦可解决电报这个问题。言归正传，所有与“孔子”有关的目注自然都应放在“孔子”这一条录下。我们替“孔”和“子”编了码，便可依码把该录排列在他录之间。该录下所有的目注也可依码排列。若某目注在文本中多处出现，则依其在文本中出现的先后排列。我们有个“号片柜”，每个汉字的庋撷号码都写在一张卡片上，并注明该字的各种发音（用韦氏拼音法），依号码排列。替一部书编引得时，助理甲替一条录编码后，助理丙和助理丁便参照“号片柜”卡片上的汉字校对，以防有失误；之后把“号片柜”的这张卡片放在一旁，待下个步骤使用。

第七，具有庋撷号码的卡片排列整齐后便可依次抄到排版稿上，构成引得的前半部。引得的后半部是按韦氏拼音依英文字母次序排列的，用的正是“号片柜”的那些搁置的卡片，排列后也可抄到排版稿上了。而这后半部的引得虽按发音排列，但每一条都有汉字及其庋撷号码，可让读者便捷地找到文本中有关段落。这不但为习惯用韦氏拼音的西方汉学家提供了方便，并且有些学术功用，因为有些同音的汉字本来是同源的。我目前仍不确定是否应纳入古音，欢迎赐教。

第八，印刷。用什么格式什么字体，都是学问，这里就不细谈了。

第九，印本校对。印本须参照以上第三步骤所完成的稿件校对，一点都不能放松。当下许多中文书附录了很长的勘误表，一点用处都没有。

第十，加序。序里包含文本的来历，版本的源流，以及引得的用途等。

即使是优秀的学者，也得积累许多经验才能成为一位优秀的引得编纂者，因编引得涉及主观判断力。决定什么东西应录，须顾及广大读者的兴趣和研究方向，又须避免太滥，浪费了读者的时间与精神。引得编纂者必须把自己置于读者的立场上，而中国的学术范畴仍未定型，故这些决定远比在西方困难；我们乐得有西方的经验可借鉴。

我不认为哈佛燕京学社有意图或有责任资助我们替所有重要的中国古籍都编引得。这试验若不成功，事情自然不了了之。成功的话，相信将有出版商接手办。至于要多久才能证实行得通，很难说，有赖于引得编得好不好，有多少人期盼它成功。英人H. B. Wheatley曾戏称：“出版没有引得的书的人该被打入地狱底下十英里，到一个连魔鬼都害怕的地方。”在能证实引得从学术到盈利都成功之前，我们不敢奢望有出版商参与。目前这试验的目的，仅仅要证明就学术而言，替古籍编引得是值得做的。

图一：经钩标后的《说苑》卷十五第十四页。

译者按：洪业1932年12月出版的《引得说》（引得编纂处《引得特刊》之四，44-45页）对此图片有相当详细的解说：

我们读《说苑》时，防它里面的讹夺，故先取卢文弨的校勘记来参考着读。在第二行和第五行所钩标之“28b”就是指明校勘记页二十八下对于这二段文有点议论，可供参考……我们读《说苑》时，随读随标出引得中之目注。这一页上有三段：每段我们先撮取其大意，为编目注。第一段有一录，以“治道”为目，以“宜除逆贼”为注。第二段有一录，以“道”为目，以“须藉权势乃行”为注。第三段有二录：一为“子贡问孔子诛少正卯之故”，一为“孔子答子贡诛少正卯之故”。次就各段中标出应录目注，有时且须增益字句，以使其录较为明晰。

此页钩标的目注依次有：尧诛四凶、四凶被尧诛、周公杀管蔡、管【叔鲜】被周公诛、蔡【叔度】被周公诛、子产杀邓析、邓析被子产诛、孔子斩少正卯、少正卯被孔子诛、易、引、五帝、三王、孔子、颜渊、孺悲、权为道所凭藉、势为道所凭藉、孔子诛少正卯、少正卯被孔子诛、鲁、司寇、东观、【端木】赐（见子贡）、王者之五诛、五诛、王者之。

图二：中国字庋撷

阅读原文

跳转微信打开

2 - 北京大学公众号
吾与点 | 使用技巧（四）：可视化小程序 2025年10月17日 19:01

2 - 北京大学公众号

吾与点 | 使用技巧（四）：可视化小程序

2025年10月17日 19:01

2025-10-17 19:01 北京

「吾与点」是一款服务于文科学者、文化机构和企业的智能数据平台，其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型，支持文本、图像等多种材料的智能处理，能够完成图文表格信息抽取等多种专业任务。此外，平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体，实现基于自然语言的精准信息获取与智能问答，为用户提供便捷、专业、高效的智能服务。

本篇推文介绍「吾与点」平台可视化小程序功能：学者研究中巨量的复杂数据，可以一键变得直观可交互。在「吾与点」中，用户可以使用自然语言快速生成小程序，把复杂的数据转化为直观的可视化表达，让研究成果“看得见”！

PART1 介绍

研究助手概览

「吾与点」研究助手由四大核心模块组成：数据集、知识库、智能体、小程序。它们互相衔接，共同构建出完整的数据管理和研究生态。

小程序

「吾与点」的小程序功能，允许用户通过智能体生成独立的可视化应用，以网页形式提供直观的交互体验。

通过智能体即可快速生成独立可视化小程序；

以网页形式呈现，便于快速访问与分享；

提供直观的交互体验，降低理解和操作门槛。

可视化小程序让数据“看得见”，让研究者获得直观反馈，将研究成果以交互形式向公众发布。

PART2 操作

步骤1：对话生成

进入「智能体」模块，研究者用自然语言描述想要生成的小程序，包括主题、呈现形式、功能需求等；在初步生成后，研究者可以通过反复对话不断优化，比如调整图表类型、修改布局、增加交互等。

技巧：

调用 CHGIS 实现可视化地图；
调用 ECharts 绘制多样化图表。

可视化小程序可实现的形式包括但不限于：图表、关系图谱、地图等，灵活满足不同研究场景与展示需求。

步骤2：保存管理

当小程序符合预期后，在对话框右上方点击【保存】，即可得到该小程序的网址。随后可在「小程序」模块中查看与管理，随时调用与展示。

PART3 案例

古籍知识案例

在对古籍内容进行研究时，研究者往往需要处理大量影印文献资料，将其中的数据结构化，如图像、人物、事件、地理信息等。通过「小程序」，研究者能够将这些数据快速转化为可视、可交互的页面：

地图直观呈现人物籍贯的地理分布；

时间轴展示人物的人生跨度；

知识图谱呈现人物之间的关系网络；

构建可检索的系统化人物档案，实现多维度信息的快速查询。

「小程序」不仅方便研究者自身观察和分析数据，也可作为学术展示和公众传播的窗口，让研究成果更具传播性和影响力。

「吾与点」小程序

让数据“看得见”

你的研究成果“触手”可及

「吾与点」网址

https://www.wuyudian.net/

撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 王心宇刘凯然

阅读原文

跳转微信打开

2 - 北京大学公众号
吾与点 | 使用技巧（三）：数据智能问答 2025年10月11日 19:02

2 - 北京大学公众号

吾与点 | 使用技巧（三）：数据智能问答

2025年10月11日 19:02

2025-10-11 19:02 北京

「吾与点」【智能体】模块，让你的数据开口说话。

本篇推文介绍「吾与点」平台数据智能问答功能：当学者们进行研究时，面对庞杂的知识和数据，能否用对话的方式高效获取答案？「吾与点」内置的【智能体】模块可以与任一知识库深度关联，让你的数据开口说话。

PART1 介绍

研究助手概览

「吾与点」研究助手由四大核心模块组成：数据集、知识库、智能体、小程序。它们互相衔接，共同构建出完整的数据管理和研究生态。

智能体

智能体集成了大模型技术，能够对知识库进行自然语言问答交互。

可选择联网搜索以丰富回答内容；

支持生成图像、代码等创造性内容；

支持调节输出内容多样性程度，以适应不同的研究需求和创意场景。

智能体让知识库“会说话”，不再只是静态存储，而是能够实时响应研究者思考的智慧助手。

PART2 操作

步骤1：创建智能体

进入「智能体」模块，点击右上角【+创建智能体】，根据指引对智能体进行初步设置，包括基本信息、关联知识库、对话配置、能力配置和主题配置。

步骤2：数据智能问答

这是智能体的核心功能。研究者无需掌握复杂的检索指令，只需用自然语言提出问题，就能获得即时而有条理的回答。

在这一过程中，研究者可以：

快速获取知识库中的核心信息；
进行多维度的比较与综合分析；
持续追问以逐步深入研究主题；
调用多模态能力，生成图表、摘要或文本内容。

PART3 案例

《盎格鲁-撒克逊编年史》

在《盎格鲁-撒克逊编年史》的研究中，研究者往往需要处理跨世纪、涵盖多个王国的大量历史事件：时间跨度长、事件类型多样、地点分布广，信息量庞大且交织。传统方式下，研究者需要逐条查阅、比对、整理，耗时巨大。引入「智能体」后，研究方式发生了转变。研究者可以直接通过【数据智能问答】与知识库进行直接交互。比如：