普通视图

Received before yesterday2 - 北京大学公众号

从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络

2026年1月12日 19:00

2026-01-12 19:00 北京

编者按:

本文是北京大学数字人文研究中心副主任杨浩,在“数智时代古籍研究前沿论坛暨‘我用 AI 校古籍’(2025 年)总结会”上的主旨报告发言稿,主题为《从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络》。现将全文呈现,以飨读者。

杨浩老师梳理了“识典古籍”平台的构建逻辑与学术根基:平台深植于北大“整理国故,再造文明”的传统,借鉴《儒藏》工程的编纂经验,同时吸纳王军教授多年深耕于数字人文的理念,实现了传统学术与数字技术的深度融合。文中详解平台的创新范式、资源建设策略与国际合作格局,展现AI时代古籍整理的传承与革新。原文如下:

尊敬的各位来宾、各位学界同仁:

从燕京引得的一张张卡片,到如今云端的亿万字符,已经走过了一百年。识典古籍平台,不仅是新技术的练兵场,更是北京大学“整理国故,再造文明”精神在AI时代的重生。在这里,算法不再是冰冷的代码,因为其间流动着学术的温热;技术不再是机械的工具,因为其下奠基着深厚的传统;平台不再是静止的库房,因为其上正演绎着文明的重生。

一百年前,胡适先生振臂一呼,提出了“整理国故,再造文明”的宏愿,以“历史的眼光”、“系统的整理”和“比较的研究”,为中华典籍寻求新的研究方法论。他所构想的“系统的整理”,一为“索引式的整理”,要使古书人人能用;二为“结账式的整理”,要使古书人人能读。后世的古籍整理工作,皆是接踵此两条路径而展开。三为“专史式的整理”,构建全新的文化史体系,要“再造文明”。


随后的洪业先生的燕京引得编纂,实际上就是“索引式的整理”。1930年,他在燕京大学主持成立哈佛燕京学社引得编纂处,以标准化的严密流程,编纂了64种“汉学引得”。虽然那些泛黄的纸质索引如今已被数据库取代,但它们作为“史学现代化第一步”的功勋,永不磨灭。


百年后的今天,文明传承的责任依旧沉重,但AI技术的浪潮为“整理国故”带来了新的曙光。光学字符识别(OCR)、自然语言处理(NLP)等技术,使得高效、规模化地整理古籍成为现实。

“识典古籍”整理平台的设计并非无本之木。上世纪80年代成立的全国高等院校古籍整理研究工作委员会(简称“古委会”),在国家层面统筹规划,为高校古籍整理事业奠定了坚实的制度磐石。正是在这一深厚的学术土壤中,汤一介先生于2003年倾力开启《儒藏》工程,工程汇集五百学人,历时二十载,终成精华编二百八十二册。“识典古籍”整理平台正是直接汲取了这一宏大实践的宝贵经验。


《儒藏》编纂严格依据底本的“存真原则”,是识典古籍平台“图文对照、一字一据”的根本法则。《儒藏》编纂采用统一的体例,13道工序,批量整理的思路,是平台规模化运作的理论基础。此外《儒藏》编纂的校勘规范、标点体例、校点说明撰写、工作流程、质量控制等多个维度上,也都为识典古籍平台构建提供了最稳固的支撑。

《儒藏》的恢弘实践,是识典古籍整理平台“整理国故”的“道”,而北大王军教授在数字图书馆近二十年的深耕,则是走向这个目标的“术”。王军教授所提出的“从文献库到知识服务引擎”的理念,所设计的“图像化-文本化-数据化-知识化-智能化”的全链路升级方案,所倡导的“人机协同与大众参与”的开放生态构想,为“识典古籍”搭建起了数字世界的骨架。而字节跳动卓越的产品打磨与平台工程能力,则是将此蓝图落地的坚实底座。正是得益于这种强大的技术实现力,复杂的编纂设计思路才得以真正化为触手可及的现实。因此,识典古籍平台始终坚持“两条腿走路”:一条腿深植于传统古籍整理的学术土壤,另一条腿则坚实地踏在数字人文研究的前沿阵地。

更令人感动的是一种反哺。识典古籍整理平台脱胎于《儒藏》的经验,而今,成熟的技术又将回馈《儒藏》工程本身。2024年12月,字节跳动助力北京大学“《儒藏》数字化项目”正式启动,全本《儒藏》的编纂将利用识典古籍整理平台全面展开,这正是技术与学术最美好的双向奔赴。

在识典古籍阅读平台的设计上,也广泛借鉴了各类先行者的智慧。纵观现有的古籍数据库,可谓各擅胜场:有的专注于“纯文本”,以精审的文字和规范的编码见长;有的深耕于“商业图文”,以丰富的资料和先进的对照体验取胜;有的致力于“纯图像”,最大限度保留古籍原貌与版本价值;有的立足于“整理本”,在精准文字的基础上提供深度的阅读功能;更有的探索“众包协作”,汇聚大众之力共建共享。


识典古籍的野心,便在于博采众长,试图将这五种模式的精髓融于一炉,实现一场集大成的“融合创新”。

这一创新,具体体现为一场全方位的范式革命:

在作为基石呈现形式上,不仅坚守“左图右文”的学术严谨,更将右文创新为现代标点横排,彻底打破了“存真”与“普及”之间的坚冰;


在作为骨架文本结构上,不仅遵循国际通用的学术标准,更将每一个数字字符与原始图像字形精确锚定,真正实现了“字字有据”的深度关联;


在作为血肉阅读功能上,不仅满足基础的检索需求,更利用AI技术让静态文本“活”了起来,人名可点、古文可译、疑问可答,赋予了古籍以鲜活的生命;


在作为灵魂参与模式上,不仅提供单向的知识服务,更通过“我是校书官”平台,将被动的阅读者转变为主动的校勘者,让每一位参与者都成为文明传承的在场者。

为了支撑这一革命,平台上设计了贯穿全程的八大核心环节,并设立了“AI整理、粗校、精校”三级标准,实现了“先快速上线、后持续优化”的迭代模式。这彻底改变了传统出版“一经刊印、难以更改”的静态范式,让古籍整理从“刻石成碑”进化为“生生不息”的动态过程。


为将这一理念落到实处,我们探索出了一套多元化的资源建设策略,针对不同古籍的特性,施以最合适的工序。其一为“AI整理”,如同先锋部队,利用成熟的OCR与自动结构识别技术,以雷霆万钧之势,迅速将海量文献转化为可用的数字底本。其二为“批量加工”,如同机械化军团,将线下批量处理的数字化成果,通过自动化脚本,快速、成建制地导入平台。其三为“精校加工”,如同特种部队,在平台上对重要典籍进行多轮次、出版级别的精细打磨,攻克学术难关。最后,也是最具活力的一环,是“众包校对”,也即“我是校书官”模式,则如星火大军,聚则一团火,散则满天星,汇集天下之智,积众力以成浩瀚。


通过这四种建设路径,平台已完成4万余种古籍的数字化,其中对《四库全书》、《四部丛刊》、汉文大藏经(六种版本)、百衲本二十四史等核心文献进行了精准的文字校对,并施以现代标点。平台还系统收录《永乐大典》、《道藏》以及藏外道书,以及CADAL项目的上万种古籍。从通用典籍到特藏资源,一个完整的古籍数字体系已初具规模。

“学术乃天下之公器”。2023年,哈佛燕京图书馆将馆藏9000余种珍贵中文善本古籍的全部数字化书影无偿捐赠给北京大学。这不仅是数据的交接,更是洪业先生与哈佛燕京学社合作历史的延续。这些数据整理后将无偿回馈全球,真正实现了资源的闭环。继哈佛之后,普林斯顿大学、法国国立国会图书馆、CADAL项目等海内外重磅机构也纷纷加入。数据的流动,让全球汉学界紧密相连,一个开放、共享、互利、共赢的国际合作网络已然成形。


回望来路,可以清晰地看到一条学术演进的脉络:从胡适的倡导,到洪业的实践,再到汤一介先生的规模化探索,最终汇入今日识典古籍的智能化浪潮。

然而,“整理国故”并非终点,其目的在于“再造文明”。未来,平台将持续加强资源建设的数量与质量,推动全球中华古籍的数字化回归,开发各类面向学术研究的智能工具,支持跨学科、跨机构的协作研究。平台的愿景,是将识典古籍建设成为全球汉学研究的枢纽。在这里,资源得以汇聚,学者得以协作,思想得以碰撞,文明得以赓续。

《诗》云:“周虽旧邦,其命维新。”

识典古籍,正是以今日之技术,激活传统之血脉,在继承中创新,在开放中前行,在共享中致远。

谢谢大家。


北京大学数字人文研究中心副主任杨浩



阅读原文

跳转微信打开

“我用 AI 校古籍” (2025年)总结会圆满落幕,“法藏敦煌大众整理”计划同步启动!

2026年1月11日 15:47

2026-01-11 15:47 北京

2025年1月10日,由全国高等院校古籍整理研究工作委员会(简称“古委会”)主办,北京大学中国语言文学系古典文献教研室、北京大学数字人文研究中心与字节跳动公益联合承办的数智时代古籍研究论坛暨 “我用 AI 校古籍”(2025年)总结会在京圆满落幕。该会议由字节跳动公益团队策划并筹办,核心聚焦“我用AI校古籍:‘我是校书官’古籍大众智能整理计划”的亮眼成果,同步总结近三年“识典古籍”平台建设成果。来自全国各地高校、图书馆、出版社的近300名学者及古籍爱好者报名参会,北京大学党委副书记姜国华,教育部社科司、文旅部公服司、北京市委宣传部、古委会秘书处及抖音集团相关领导出席大会并致辞。


在字节跳动公益基金的资助下,北京大学与字节跳动联合打造的“识典古籍”平台,既是“我用 AI 校古籍”活动的核心支撑,也是全球规模领先的古籍智能化整理与数字化阅读平台。经过近三年建设,平台PC端网站与移动端小程序同步向全球开放,已上线4.7万部古籍资源,月服务用户超240万人,日均检索量达35万人次,总访问量突破1.47亿次。

平台深度整合人工智能技术,构建起从OCR文字识别、自动标点、专名提取到多版本智能校勘的全流程解决方案,彻底打破古籍整理的专业门槛,让普罗大众参与文化传承成为可能。

2024年7月,由古委会主办、北大数字人文研究中心与字节跳动公益联合发起的“我是校书官”古籍大众智能整理活动正式启动。依托“识典古籍”平台的技术支撑,活动累计吸引近3.8人参与,其中高校学生近2万人、覆盖全国近1500所高校,社会公众近1.8万人,形成学界与社会同频共振的参与格局。

截至目前,活动已完成2万余部古籍的整理工作,粗校字数达15亿,精校字数达1亿,整理效率较传统模式提升数十倍。活动全程获得新华社、人民网等权威媒体聚焦报道,成功让古籍整理从“冷门绝学”转变为全民关注、全民践行的文化热潮。

目前,已有四千余个团队通过平台参与在线古籍整理,既包括北京大学《儒藏》编委会、清华大学人文学院、暨南大学文学院等专业科研力量,也涵盖多家古籍出版社及民间爱好者团队。“人机协作”的古籍整理模式,不仅有效提升了古籍整理效率,拓展了古籍整理参与主体的范围,也为专业人才培养和跨界协作提供了新的实践空间。部分高校已将“识典古籍”平台引入相关课程教学,让学生在实操中培养古籍整理技能;社会公众的持续参与也汇聚起推动古籍数字化整理与传播的社会力量,让古籍文化以更贴近当代生活的方式走进公众视野。

北京大学党委副书记姜国华在致辞中指出,作为全国首个设立古典文献学专业的高校,北京大学始终坚守古籍整理学术高地。新时代北大携手字节跳动公益打造“识典古籍”平台,以科技搭建传统与现代、专业与大众的桥梁,为古籍数字化筑牢技术底座并推动大众参与。由古委会、北大数字人文研究中心与字节跳动公益联合主办的“我用 AI 校古籍”计划,打破专业壁垒,让学子与大众共同守护文脉,既提升了整理效率与质量,也探索出专业教育与社会参与深度融合的新路径。

古委会秘书长卢伟在欢迎致辞中表示,古委会成立40余年来,统筹高校古籍整理、研究与人才培养。 “我用 AI 校古籍” 活动开辟人机协同新途径,希望未来秉承坚守传统、跨界融合的理念,共推新时代古籍事业高质量发展。

抖音集团企业社会责任部总经理杨洁在欢迎致辞中表示,字节跳动秉持务实的公益理念,聚焦古籍修复、数字化与活化传播,构建了从古籍修复、数字化到活化传播的全链条,通过抖音等平台让古籍内容触达大众,形成技术赋能与大众传播的良性生态,推动传统文化融入现代生活。

北京大学数字人文研究中心常务副主任杨浩的主旨报告《从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络》,深情回顾百年学术传承:从胡适先生倡导“整理国故、再造文明”,到洪业先生创办“燕京大学引得编纂处”,再到汤一介先生主持《儒藏》工程,北大始终坚守文脉守护的使命。到如今北大数字人文中心联合字节跳动公益打造“识典古籍”平台,并发动 “我是校书官” 大众整理活动,正是这份传承在AI时代的创新延续。

“识典古籍”已成为全球规模最大的古籍智能化整理与数字化阅读平台。凭借平台在古籍保护与传播领域的广泛影响力,继哈佛燕京图书馆将所藏全部善本古籍数字化拷贝捐赠北大数字人文研究中心之后,法国国家图书馆于2025年11月也将所藏全部敦煌文献的数字化拷贝捐赠予北大数字人文研究中心。

敦煌遗书是中华文化的瑰宝,也是习近平总书记十分关心的流失海外典籍。姜国华副书记在致辞之后郑重宣布:“千年敦煌、指尖重光”——法藏敦煌大众智能整理计划正式启动!该计划将依托“识典古籍”平台,邀请广大志愿者参与敦煌写卷的智能整理,为全球学界提供开放共享的优质文化资源,助力敦煌学研究再上新台阶。

在全场瞩目下,北京大学党委副书记姜国华、教育部社科司科研处长卢丽君、古委会秘书长卢伟、北大数字人文中心主任王军、抖音集团企业社会责任部总经理杨洁共同为“千年敦煌、指尖重光——法藏敦煌大众智能整理计划” 按下启动键。

在发言最后,姜国华副书记倡议到:老师们、同学们、朋友们,面向未来,古籍事业的发展既需要专业学者的深耕、技术力量的赋能,也需要企业的公益担当,更离不开社会公众的广泛参与。北京大学将继续发挥学科交叉优势,与古委会、字节跳动及社会各界携手并进,推动古籍保护事业迈向新高度,让千年文脉在智能时代绽放出更加璀璨的光芒!


阅读原文

跳转微信打开

讲座回顾:AI时代的人文研究如何重构研究流程?

2026年1月9日 10:01

2026-01-09 10:01 北京

数智时代,ChatGPT等大模型呼啸而来。微软报告中 “历史学家91%的工作技能可被AI辅助” 的数据,焦虑似乎在所难免。当技术浪潮席卷,传统的治学方式是否即将被颠覆?在刚刚结束的教育部虚拟教研室“AI赋能课程建设”系列公益讲座中,北京大学数字人文研究中心主任王军教授中国社科院大学数字史学研究中心主任向静老师,联袂带来了一场关于“数智时代史学重构”的深度对话。

王军教授在开场便直击核心:这91%并非替代,而是解放。如果学者能将繁重的资料清洗、整理工作交给AI,便能从文献资料的“伏案梳理者”,转型为研究逻辑的“框架构建者”。而实现这一身份跨越的关键,正是一套能让人文材料与 AI 技术精准衔接的专业工具 。本场对话的核心载体吾与点智能数据平台,恰为人文研究在数智时代的转型发展提供了这样的全新路径。

祛魅与赋能


AI是概率而非真理

面对ChatGPT等通用大模型的普及,王军教授首先为AI时代的焦虑祛魅。这些看似无所不能的工具,本质上是“文字接龙”的概率模型。它们追求语言的通顺连贯,却缺乏对事实的敬畏与考证意识。但这并不意味着人文研究要对技术敬而远之。恰恰相反,大模型基于海量数据的“涌现”能力,能将学者从资料搬运、清洗、整理等繁重的机械劳动中解放出来,让研究者回归问题意识与价值判断这一人文学科不可替代的主体性。

吾与点智能数据平台正是为这种人机协作的赋能需求而构建的。不同于通用大模型,它深度融合大模型技术,形成专属人文研究的技术解决方案:既能高效处理图像、PDF、青铜器拓片等多模态信息,又能将零散的非结构化文本转化为结构化数据与知识库,更创新性地搭载了智能体(Agent)封装功能。研究者可将自有史料上传至平台处理,生成专属智能研究助手。智能体既能基于材料回应学术问题,又能提供完整的信源索引,还能实现关系网络、地理空间等多维可视化呈现,让静态的研究成果具备可交互性,助力学术探索。

实践见真章

D

从史料到洞见的智能跃迁

工具的价值,终究要在实践中检验。向静老师带领团队利用吾与点智能数据平台开展的两项数字史学研究,生动展现了平台如何助力人文研究从材料处理迈向洞见生成。

明代宦官墓志铭研究中,面对晦涩难懂的文言文本和海量信息,传统手工摘抄往往耗时数月且易遗漏关键细节。而通过「吾与点」平台的多模态OCR,平台能直接识别墓志图片,自动提取墓主姓名、籍贯、官职升迁路径等核心字段,快速生成结构化表格。

更令人惊艳的是其推理性考证能力:当史料仅记载某宦官 “早以俊秀”却无具体年份时,平台会调用大模型,结合墓主生卒年及明代选拔惯例,推算出入宫年龄约为4-20岁,并明确标记为 “推测”,填补了史料阙如。对于宦官复杂的官职迁转记录,平台还能自动生成嵌套列表,清晰呈现每一次升迁的时间、职位与部门,为后续量化统计做好充分准备。


《明代名人传》的研究中,研究团队先在平台中定义了“同乡”“门生”“政敌”等关系类型,平台自动抽取人物实体并用小程序功能实现关系网络,直观呈现出15世纪江西籍官员政治集团。那些隐匿在浩如烟海史料中的地缘纽带与政治关联,在可视化图谱中一目了然,不仅验证了传统史学关于地缘政治的定性描述,更让隐性的历史网络成为可分析、可佐证的研究对象,推动研究从表层文本解读走向深层关系挖掘。

这场技术赋能的背后,是人文研究范式的深刻变革。王军教授在讲座中提出的观点引人深思:如果说传统学术传承强调“把思想写下来”,那么在智能体时代,更重要的,或许是把思想转化为可重复运行、持续演化的智能结构。「吾与点」的目标,就是将学者的治学材料、知识积累,乃至思考方式,固化为智能体,进而分享复用并持续迭代,使学术智慧突破时间与空间的限制,成为可交互、可演化的知识系统。

这种变革正在重塑做学问的方式:原本耗时数月的资料处理,现在经前期规则设定后,借助平台即可大幅压缩机械劳动耗时。研究过程从静态的个体探索,转变为“提取 - 校验 - 修正 - 再提取”的迭代式人机协作。研究成果也从单一的静态论文,延伸为可随时调用、随时问答的智能知识载体。正如向静老师所说,对于人文研究者而言,技术的价值在于让我们能将最核心的精力集中在创造性、开拓性的学术探索上,在坚守人文精神与学术底线的同时,高效实现从材料到“洞见”的跨越。

🔗 相关资源

  • 平台体验:吾与点智能数据平台

  • 讲座来源:教育部信息化教学能力提升课程群虚拟教研室“AI赋能课程建设系列公益讲座”

  • 讲座回放:敬请关注“中国高等教育培训中心订阅号”


Widen Your Data


让「吾与点」成为你的学术伙伴

吾与点智能数据平台目前已面向全网开放,无需复杂的技术基础,即可轻松上手体验材料处理、知识库构建、智能体定制等核心功能,让AI真正服务于学术研究与教学创新,助力每一位研究者高效挖掘材料价值、产出深度洞见。

平台网址:

https://www.wuyudian.net/

注册登录即可开启你的智能探索之旅。在这里,传统与创新碰撞,让人文研究在数智时代焕发新的生机与活力。

更多精彩案例与教程请关注 北京大学数字人文中心 B站账号:


阅读原文

跳转微信打开

工作坊回顾:用「吾与点」解锁数字人文研究新可能

2025年12月31日 19:49

2025-12-31 19:49 北京

2025年12月20日-21日,北京大学数字人文研究中心团队受邀赴内蒙古师范大学,成功举办“从材料到洞见——基于「吾与点」的数字人文实践”专题工作坊。

为推动智能技术与数字人文研究的深度融合,破解传统人文研究中的数据处理瓶颈,2025年12月20日至21日,北京大学数字人文研究中心团队受邀赴内蒙古师范大学,成功举办“从材料到洞见——基于「吾与点」的数字人文实践”专题工作坊。本次工作坊面向科学技术史的十几位同学们,以实操教学与学术研讨相结合的形式,系统分享了智能数据工具在人文研究中的应用路径,为参会师生提供了兼具理论性与实践性的学术指导。


工作坊聚焦「吾与点」智能数据平台在数字人文领域的实战应用,通过核心案例手把手教学,最终实现智能数据生成与数字人文可视化双重目标。本次工作坊以数据生成、分析阐释、成果输出为清晰实践路径,通过理论讲解、跟做示范 、自主实践、汇报点评的四步教学法,助力学员实现从技术零基础到独立完成小型数字人文项目的实践。

智能表格数据处理


工作坊伊始,北京大学数字人文研究中心团队首先对「吾与点」智能数据平台进行全景介绍,细致演示智能数据生成全流程,指导学员完成示范项目创建、导入与字段设计,讲解提示词(prompt)撰写技巧,帮助大家通过精准指令实现关键信息抽取。

随后,授课团队围绕墓志铭信息抽取、PDF文本识别、宋代画作元素抽取、嵌套表格信息抽取四大高频研究场景展开深度演练,针对性解决非结构化文本处理、PDF信息抽取、图像元素分析、复杂关联信息挖掘等人文研究痛点,让学员直观感受智能工具的学术赋能价值。

tips:「吾与点」帮助中心的“应用案例”中有工作坊案例详情与相应配置,吾与点新手用户可前往查看

全链路学术辅助工具


除基础数据处理外,工作坊还向学员们深度讲解了平台智能研究助手功能,构建完整研究闭环:

数据集:可将多个项目的表格数据集中管理,支持字符匹配、语义搜索、混合搜索等智能检索方式,还能自定义显示/隐藏列、查看版本信息,快速定位核心研究资料

知识库:可实现多个数据集的跨项目整合,无论是公开共享还是私有管理均能灵活适配,且操作界面与数据集保持一致,降低跨功能学习成本。

智能体创建:基于用户自主构建的数据集与知识库,打造专属学术问答助手,实现以自有材料为基础,精准响应个性化研究需求的智能交互。用户可将前期处理完成的结构化数据,或跨项目整合的知识库构建为智能体,让问答完全基于自身研究材料展开。

小程序生成:可关联多元数据集与知识库,通过自然语言描述需求即可生成独立可视化应用,支持柱状图、折线图、地图展示等多种呈现形式,且内接CBDBCHGIS主流数字人文数据库,能够适配学术论文发表、项目汇报、成果展览等多元场景。

除了吾与点智能数据平台,团队还向学员讲授数字人文核心分析方法,详细拆解了社会网络分析(Gephi)与地理空间分析(QGIS)的基础操作与理论应用。此外,在知识图谱构建模块,依托吾与点智能标注平台https://wyd.pkudh.net/),团队讲解了图谱本体的核心概念,指导学员标注数据后自动构建知识图谱,用于梳理概念关联、还原知识脉络。

自主实践阶段,学员们围绕自选主题设计字段、导入材料,并对进一步数据处理与研究展开讨论,授课团队全程巡回辅导,及时解答技术操作与研究思路疑问。

本次工作坊的成功举办,搭建了北京大学数字人文研究中心与内蒙古师范大学在数字人文领域的学术交流桥梁,有效推广了智能数据处理技术在科技史研究中的应用经验。参会师生普遍反馈,通过本次活动系统掌握了「吾与点」平台的核心操作方法,拓宽了数字人文研究的技术视野,为后续开展相关研究提供了重要的技术支撑与学术思路。

吾与点智能数据平台:

为数字人文研究提供全流程服务


本次工作坊以「吾与点」作为基础培训平台,主要基于以下原因:

多模型适配:提供多款先进模型选择,根据任务复杂度(文本/视觉/推理)灵活搭配,平衡效率与成本

功能全面性:覆盖数据处理、分析、可视化、成果展示全链路,支持数据集、知识库、智能体、小程序一站式构建

适配性优化:面向专业研究场景,操作逻辑贴合学术研究流程,需掌握基础操作规范,可依托操作指南等配套资源,高效跨越学习门槛,实现零代码完成专业级数据处理任务

让研究流程更“轻一点”

让问题本身更“重一点”

吾与点智能数据平台:

https://www.wuyudian.net/

吾与点帮助手册:

https://help.wuyudian.net/docs/user-guide.html

更多关于吾与点的使用教程与使用技巧,敬请关注北京大学数字人文中心B站、小红书账号。

阅读原文

跳转微信打开

「原境·入梦牡丹亭」亮相北京大学“游园听梦”牡丹亭新媒体沉浸式数字艺术展

2025年12月11日 17:30

2025-12-11 17:30 北京

pkudh“原境智生”系列之“原境·入梦牡丹亭”,亮相江西抚州文昌里——北京大学“牡丹亭”新媒体沉浸式数字艺术展!

2025年12月9日,北京大学“游园听梦”牡丹亭新媒体沉浸式数字艺术展在江西抚州文昌里历史文化街区美术馆开幕!本次展览由北京大学文化传承与创新研究院主办,北京大学数字人文研究中心参与协办与数字交互内容呈现。

在这场以《牡丹亭》为核心的数字艺术实践中,北大数字人文研究中心带来了自研的AI生成式互动体验——「原境·入梦牡丹亭」,尝试让观众在汤显祖故里完成一次从“看画”到“入画”的旅程。我们尝试用更贴近古典审美的生成方法,把《牡丹亭》的历史图像与当代公众的参与体验连接起来,让经典在当下变得可理解、可进入、可传播。

版画为径:

在长廊里与《牡丹亭》相遇

走进抚州文昌里历史文化街区的沉浸式展览,观众会先进入一条颇具叙事氛围的长走廊。这里不是普通的图片展示区域,而是以晚明刊本徽派刻书家黄鸣岐《牡丹亭还魂记》版画为视觉线索的版画长廊。图像在空间中铺陈出人物、场景与情感张力,也为观众打开一种更直观的入戏路径:先在视觉上抵达《牡丹亭》的梦境结构,再在展览动线中逐步靠近叙事核心。

「原境·入梦牡丹亭」就设置在这条长廊之中。观众一边穿行于古代版画构成的叙事空间里,一边被邀请走向长廊中的一台竖屏一体机。在这里,观众不再只是“看画的人”,而是可以选择成为“画中之人”,把自身作为进入经典的一条当代通道。

杜丽娘入梦(左)、杜丽娘寻梦(右)

十秒入梦:

一次简单的生成式体验

「原境·入梦牡丹亭」的操作方式非常直观。参与者站在竖屏一体机前,面对外接摄像头,轻触屏幕上的“入梦”按钮,系统捕捉人物图像并进行生成。随后屏幕上出现一幅新的画面,观众被“转绘”进了与《牡丹亭》相关的版画场景中。

首页(左)、交互动画与讲解(右)

为强化人物与情境的对应关系,团队依据参与者的性别在多幅底图中进行匹配与呈现,其中包括“杜丽娘入梦”“杜丽娘寻梦”“柳梦梅借住”3个典型情境。短时交互由此获得明确的角色联想与情境指向,使观众能够在有限时间内建立“我在《牡丹亭》里”的体验认知。

入梦:杜丽娘入梦(左)杜丽娘寻梦(中)柳梦梅借住(右)

不止古风感:

我们为何选择“转绘”路径

古风AI在大众经验中常被理解为对现代照片加上笔触与色彩的复古滤镜。然而,中国古画在空间组织、人物动作与面部表达上具有自身的审美技法。若将现代摄影的焦点透视、写实面部与动作幅度直接叠加在古画笔触之上,往往会产生视觉违和。

基于这一判断,「原境·入梦牡丹亭」选择以“转绘”作为主要实现路径。项目通过人物特征的锚点建立识别关联,同时给予模型更大的创作自由,使生成结果更贴近中国古画散点透视、含蓄动作与重神韵的表达传统。为维护版画长廊的整体古韵与审美一致性,生成形象保留参与者现代服饰,但在面部与整体气质上更强调古画写意风格。这一选择兼顾了当代身份的可识别度与历史图像语境的整体协调。

现代装扮(左)转绘为古画风格(右)

面向特定文化对象的活化


作为“原境”系列的一次新实践,「原境·入梦牡丹亭」并不只是一个好玩的互动装置。我们更希望它回应几个更具体、也更贴近真实展陈的问题:

1

AIGC如何不止停留在通用审美,而能深入具体的文化与艺术传统?

2

生成式互动怎样与既有史料与展陈叙事协同?

3

当项目面向图书馆、博物馆、景区等公共文化场景时,能否形成可复制、可运营的技术与叙事实践路径?

在抚州文昌里,「原境·入梦牡丹亭」给出的一个答案是:让AIGC从通用生成转向特定文化对象的定制化活化。在充分尊重文本与图像传统的前提下,我们尝试把技术力量更温和、也更细致地嵌入地方文化与公共记忆之中,让观众的参与成为理解经典、感知美学的一种当代方式。

对北京大学数字人文研究中心而言,本次展览既是一场落在具体地点的展陈实践,也是一次面向未来的路径验证。我们期待把特定文化的定制化生成继续推进到更多公共文化空间之中,为不同的地方文化资源、不同的经典文本设计更贴合其审美语法与传播需求的生成式体验。

在汤显祖的故乡,《牡丹亭》的梦境与至情通过新媒体再次被点亮。观众与古画、与故事、与自我,也在十几秒钟的“入梦”中重新关联。这一次,观众不再只是看一场梦,而是被邀请走进梦里,成为梦境叙事的一部分。


撰稿、排版 | 田梦怡


阅读原文

跳转微信打开

【成果亮相】北大数字人文研究中心创新成果亮相中国数字人文年会(CDH2025)

2025年12月4日 19:00

2025-12-04 19:00 北京

pkudh自研创新成果——「原境智生」入画体验项目、吾与点智能数据平台,亮相2025年中国数字人文年会数字集市!

11月28日至12月1日,“人文智变:数字人文的智慧奇点”学术研讨会暨2025年中国数字人文年会在中山大学隆重召开。作为中国数字人文领域年度规模最大、影响力最广的学术盛会,本届年会吸引了来自全国高校、科研机构、文化机构的400余位专家学者参加。

北京大学数字人文研究中心受邀参会,中心团队在“数字集市”展区展示了两项创新成果,以技术实践回应“人文智变”主题,引发广泛关注与热烈反响。

CDH2025

数字集市:

两大创新成果集中展示

在善思堂“数字集市”展区,北大数字人文研究中心展示的「吾与点」智能数据平台「原境·入画」两项自研成果吸引了众多参会者驻足体验与交流。

吾与点智能数据平台:

让数据“活过来”!

展台前人流不息,参会者对「吾与点」平台的智能体和小程序功能表现出浓厚兴趣。中心团队现场演示了「吾与点」这一专为数字人文研究打造的通用型智能数据和知识服务平台。

平台的核心能力在于深度整合大语言模型(LLM)与多模态AI技术,实现对文本、图像等多元材料的结构化信息抽取(如文本关键信息提取、古籍插图元素识别等)。在此基础上,平台支持将用户数据快速构建为可检索的知识库,并提供用户专属的个性化交互智能体,实现基于自然语言的精准信息获取和智能问答服务。同时,「吾与点」支持用户使用自然语言快速生成小程序,把复杂的数据转化为直观的可视化表达,让研究成果“看得见”!

原境智生:

古今共生的沉浸式文化体验

「原境·入画」交互装置同样引发热烈反响。这个基于《韩熙载夜宴图》等传统绘画资源开发的多模态互动系统,让参会者能够跨越千年,与古画中的人物同框共生。

体验者只需站在交互屏幕前拍摄照片,系统即可将现代影像实时转换为夜宴图风格人物形象,并融入听乐、观舞、歇息、清吹、送别五幕场景。这种古今共生的体验设计,让观众不仅看见历史,更能参与历史,成为古画叙事的一部分。

step1:转绘为夜宴图风格人物形象

step2:形象融入《韩熙载夜宴图》的场景

两天展示期间,超过一百位观众亲身体验了这项技术, 对装置的高度沉浸感和交互设计的新颖性表示赞赏。这项成果将前沿的AIGC技术与中华传统文化进行创造性结合,为古籍活化和文化遗产展示提供了面向未来、重视用户体验的创新思路。


技术赋能,共绘数字人文未来


北京大学数字人文研究中心的两项展示,从知识服务深化与文化互动创新两个维度,呼应了本届年会“人文智变”的主题。从「吾与点」平台的智能化工具链,到原境智生的多模态交互体验,中心始终坚持“以技术赋能人文,让文化走向大众”的理念。

未来,中心将继续深化平台建设,拓展应用场景,与全国数字人文同仁一道,在智能时代为文化传承与创新贡献力量,推动中国数字人文事业迈向新高度。

撰稿 | 张诗曼

排版 | 田梦怡

阅读原文

跳转微信打开

「吾与点」智能研究助手功能发布!

2025年12月1日 18:01

2025-12-01 18:01 北京

北京大学数字人文研究中发布「吾与点」智能研究助手功能!

11月22日上午,北京大学数字人文研究中心举办了「吾与点」智能研究助手功能发布会。发布会通过功能讲解与精英学者案例分享,系统展示了基于数据集、知识库、智能体与小程序构建的智能研究助手。

发布会回顾

发布会以从材料到洞见:智能工具赋能的人文研究为主题,由北京大学数字人文研究中心主任王军教授开场致辞,他指出需将通用大模型能力转化为人文研究、智慧图书馆的场景化工具,并强调「吾与点」聚焦私有数据与专属需求,为学者打造从材料处理到洞见生成的全流程智能助手。

随后,中心研究助理刘凯然介绍并演示了「吾与点」围绕数据集、知识库、智能体、小程序四个模块搭建的研究助手。

随后,三位专家学者为我们展示了智能研究助手在不同人文场景中的实践

一、《明代名人传》智能分析


主讲人:向静(中国社科院大学数字史学研究中心主任)

以《明代名人传》为素材,展示从纸质文本→OCR 识别→结构化数据→智能体问答→小程序可视化的完整流程。重点分析15世纪江西籍名人的社会网络(亲属/政治/师承关系)与地理分布,对比吾与点2.0与3.0在数据编码、消歧上的优化。

点评人:陈松(巴克内尔大学东亚研究系副教授)

肯定「吾与点」在结构化数据提取、关联分析上的优势,同时提出疑问:如何解决同名人物消歧、地理可视化中本地近距离关系的呈现问题,为后续功能优化提供方向。

二、《论语义疏》智能分析


主讲人:金珠玉(首尔大学中文系博士生)

聚焦南北朝皇侃《论语义疏》,核心解决两大问题:一是知不足斋本与怀德堂本的版本对读(文字差异、引用文献比对);二是提取亡佚文献。通过智能体快速定位引用内容,生成差异分析表格,直接服务博士论文研究。

点评人:许喆(釜山大学占毕斋研究所研究员)

围绕 “「吾与点」对研究的实际帮助”“功能改进建议” 提问。

金珠玉老师回应:智能体极大提升文献提取效率,期待未来优化引用内容识别功能。

三、哈佛燕京图书馆书目智能体


主讲人:杨浩(北大数字人文研究中心副主任)

基于哈佛燕京图书馆善本古籍书目,演示结构化数据的智能应用:查询宋辽善本、女性作者作品、地方志中的自然灾害记载,甚至分析明代小说出版中心分布。借助CBDB与CHGIS,实现作者社会关系、出版地等的可视化呈现。

点评人:黄晨(浙江大学图书馆副馆长)

黄晨馆长点赞「吾与点」实现众包从在地到在线、知识组织从离散到关联,契合图书馆 “辨章学术、考镜源流” 的核心需求。

此外,复旦史地所李爽老师分享复旦史地所CHGIS数据升级计划,将持续为「吾与点」提供更精准的历史地理支持。

回放提示:

发布会回放已上线“北京大学数字人文中心”B站账号,大家可以关注查看!

优秀案例征集活动

现面向所有用户与研究者,征集基于「吾与点」完成的研究案例。

 提交内容:


  1. 吾与点数据集/知识库/小程序等的链接或关键界面截图;

  2. 约 1000 字的文字说明,包括:

● 研究背景与问题;

● 材料与数据来源;

● 阶段性结果或初步发现。

投稿方式


欢迎将案例投递至邮箱 

contact@wendianyidu.com

● 入选展示的案例将获得 20000 积分奖励,并在吾与点官网案例页面展示;

● 后续工作坊、实践分享、实习招募等活动中,我们也会在同等条件下优先考虑有入选案例的同学与团队。

期待看到更多围绕真实研究问题、结合数据集、知识库、智能体和小程序展开的实践!


让研究流程更“轻一点”

让问题本身更“重一点”

如果你已经有一个正在思考的问题,或者手边有一批尚未整理完的材料,不妨就从现在开始——

打开「吾与点」,数据集、知识库、智能体小程序为你的问题搭建一个研究小项目。

期待在不久的将来,在吾与点官网看到你的项目出现在优秀案例之中。

「吾与点」“帮助手册”与“智能研究助手视频教程”说明置于本篇推文下方,欢迎大家查看!

撰稿 | 田梦怡

排版 | 梅紫萱 田梦怡

阅读原文

跳转微信打开

速览!「吾与点」智能研究助手视频教程&帮助手册

2025年12月1日 18:01

2025-12-01 18:01 北京

如果你刚刚通过发布会认识「吾与点」,或者已经注册但还没来得及认真摸索,这篇就是专门为你准备的入门索引!

我们把目前已经上线的学习资源整理在一起,方便你一次收藏、慢慢使用。

图文帮助手册

一步一步操作

吾与点帮助中心(用户手册)

https://help.wuyudian.net/

在「吾与点」官网的「帮助中心-使用指南」中,我们提供了图文版用户手册进行按模块整理的操作步骤示例。

用户手册适合愿意“按图索骥”的使用者:每个功能点都有对应的说明与截图,可以边看边操作,一步步搭建属于自己的项目。

B站教程视频

看着操作更轻松

如果你更习惯“看别人点哪里、自己跟着点”

可以前往 

北京大学数字人文中心 B站账号

  • 已上线的「吾与点」使用教程 视频合集,将带你完成一个完整的数据智能处理流程;

  • 后续还会根据大家的问题和需求,陆续补充更多“使用小技巧”和场景化教程。

公众号连载

功能解读 + 案例分享

 数字人文开放实验室 

及 吾与点智能数据平台 公众号中

我们陆续发布或即将发布:

  • 智能研究助手功能的细化解读

  • 真实研究场景中的案例分享

  • 活动通知与优秀案例征集信息

这部分内容更接近研究者视角,既保留方法论的严谨,又尽量呈现工具在具体项目中的作用。


上面这些手册、教程和案例,希望为研究者在使用「吾与点」时提供若干入口。

你可以从帮助手册或教程视频开始,慢慢搭建起属于自己的智能工作台,并在真实的研究实践中,持续修正和丰富它。

期待在未来的优秀案例与学术项目中,看到你如何使用「吾与点」,回应人文与社科提出的新问题!


撰稿 | 田梦怡

排版 | 邓茜珈

阅读原文

跳转微信打开

「吾与点」智能研究助手发布会预告!

2025年11月20日 19:00

2025-11-20 19:00 北京

随着人工智能技术的飞速发展,大语言模型正在深刻变革学术研究的范式。人文研究领域拥有海量的非结构化材料,如何利用智能工具辅助研究者更高效地从繁杂的“材料”中挖掘深层的“洞见”,已成为人工智能时代数字人文发展的关键所在。

为应对这一挑战,北京大学数字人文中心历经数月研发,正式推出「吾与点」零代码智能体构建平台。用户只需准备好自己的材料,无需任何编程即可生成专属知识库与智能体,让人人都能拥有自己的智能助手。

本次发布会旨在正式推出智能研究助手功能,展示其如何赋能人文研究,并邀请精英学者分享前沿研究案例,与学界同仁共同展望 AI 技术与人文学术深度融合的未来。

       发布会议程

发布时间


2025年11月22日(周六) 

9:00-11:00

现场直播


哔哩哔哩

搜索“北京大学数字人文中心”

观看直播

小红书

搜索“北京大学数字人文研究中心”

观看直播

会议议程


9:00-9:05   致辞

王军(北京大学数字人文研究中心主任)

9:05-9:20 「吾与点」智能研究助手功能展示

刘凯然(北京大学数字人文研究中心研究助理)

9:20-9:40   《明代名人传》智能分析

主讲:向静(中国社会科学院大学数字史学研究中心主任)

点评:陈松(巴克内尔大学东亚研究系中国史副教授)

9:45-10:05   《论语集注义疏》智能分析

主讲:金珠玉(韩国首尔大学中文系博士生)

点评:许喆(韩国釜山大学占毕斋研究所研究员)

10:10-10:30   哈佛燕京图书馆书目智能体

主讲:杨浩(北京大学数字人文研究中心副主任)

点评:黄晨(浙江大学图书馆副馆长)

10:35-10:45   「吾与点」未来开发计划

王兆基(北京大学数字人文研究中心博士生)

10:45-11:00   在线答疑

主持人:

田梦怡(北京大学数字人文研究中心研究助理)

功能展示

智能研究助手不是单一的AI工具,而是由数据集、知识库、智能体、小程序构成的全流程研究工具。它可以将复杂的学术资料转化为可检索、可对话、可视化的智能资源,改变学者与文献资料的交互方式。

智能数据检索让数据“找得到”

「吾与点」的数据集知识库功能,支持用户基于自己的项目和数据自定义构建数据集合 。通过全文搜索、语义搜索和混合搜索,实现对用户数据的精准检索和多维度快速匹配,大幅提升数据管理与查询效率。

自然语言问答:让数据“会说话”

「吾与点」的智能体功能集成了大模型技术,基于用户知识库进行深度自然语言问答。智能体支持联网搜索、生成图像、代码等创造性内容,并允许用户调节输出的创意度,实现更个性化的智能交互。

可视化小程序:让数据“看得见”

「吾与点」小程序允许用户通过自然语言对话快速生成独立的可视化应用或展示PPT,并且以交互式网页呈现。基于知识库数据,用户可高效创建多种可视化效果,包括但不限于:

  • 数据图表

  • 地理分布

  • WEB检索系统

  • 轻量小游戏

  • 思维导图

凭借灵活易用的特性,用户可零代码生成图表、地图等可视化小程序与PPT,直观理解复杂数据,实现高效创新。

更多功能演示,尽在发布会现场!


「吾与点」网址

让我们一起见证

「数据拓展智能」的精彩未来!




来源 | 北京大学数字人文研究中心

排版 | 梅紫萱


阅读原文

跳转微信打开

从“材料”到“洞见”:智能工具赋能的人文研究 ——暨「吾与点」智能研究助手线上发布会

2025年11月17日 19:00

2025-11-17 19:00 北京

随着人工智能技术的飞速发展,大语言模型正在深刻变革学术研究的范式。人文研究领域拥有海量的非结构化材料,如何利用智能工具辅助研究者更高效地从繁杂的“材料”中挖掘深层的“洞见”,已成为人工智能时代数字人文发展的关键所在。

为应对这一挑战,北京大学数字人文中心历经数月研发,正式推出「吾与点」零代码智能体构建平台。用户只需准备好自己的材料,无需任何编程即可生成专属知识库与智能体,让人人都能拥有自己的智能助手。

本次发布会旨在正式推出智能研究助手功能,展示其如何赋能人文研究,并邀请精英学者分享前沿研究案例,与学界同仁共同展望 AI 技术与人文学术深度融合的未来。

学术圆桌&发布会议程

发布时间


2025年11月22日(周六) 

9:00-11:00

现场直播


哔哩哔哩

搜索“北京大学数字人文中心”

观看直播

小红书

搜索“北京大学数字人文研究中心”

观看直播

会议议程


9:00-9:05   致辞

王军(北京大学数字人文研究中心主任)

9:05-9:20 「吾与点」智能研究助手功能展示

刘凯然(北京大学数字人文研究中心研究助理)

9:20-9:40   《明代名人传》智能分析

主讲:向静(中国社会科学院大学数字史学研究中心主任)

点评:陈松(巴克内尔大学东亚研究系中国史副教授)

9:45-10:05   《论语集注义疏》智能分析

主讲:金珠玉(韩国首尔大学中文系博士生)

点评:许喆(韩国釜山大学占毕斋研究所研究员

10:10-10:30   哈佛燕京图书馆书目智能体

主讲:杨浩(北京大学数字人文研究中心副主任)

点评:马小鹤(哈佛燕京图书馆资深馆员)

10:35-10:45   「吾与点」未来开发计划

王兆基(北京大学数字人文研究中心博士生)

10:45-11:00   在线答疑

功能展示

智能研究助手不是单一的AI工具,而是由数据集、知识库、智能体、小程序构成的全流程研究工具。它可以将复杂的学术资料转化为可检索、可对话、可视化的智能资源,改变学者与文献资料的交互方式。

智能数据检索让数据“找得到”

「吾与点」的数据集知识库功能,支持用户基于自己的项目和数据自定义构建数据集合 。通过全文搜索、语义搜索和混合搜索,实现对用户数据的精准检索和多维度快速匹配,大幅提升数据管理与查询效率。

自然语言问答:让数据“会说话”

「吾与点」的智能体功能集成了大模型技术,基于用户知识库进行深度自然语言问答。智能体支持联网搜索、生成图像、代码等创造性内容,并允许用户调节输出的创意度,实现更个性化的智能交互。

可视化小程序:让数据“看得见”

「吾与点」小程序允许用户通过自然语言对话快速生成独立的可视化应用或展示PPT,并且以交互式网页呈现。基于知识库数据,用户可高效创建多种可视化效果,包括但不限于:

  • 数据图表

  • 地理分布

  • WEB检索系统

  • 轻量小游戏

  • 思维导图

凭借灵活易用的特性,用户可零代码生成图表、地图等可视化小程序与PPT,直观理解复杂数据,实现高效创新。

更多功能演示,尽在发布会现场!


「吾与点」网址

让我们一起见证

「数据拓展智能」的精彩未来!




来源 | 北京大学数字人文研究中心

排版 | 梅紫萱

阅读原文

跳转微信打开

洪业|试为中国古籍编引得

2025年11月5日 19:02

上海书评 2025-11-05 19:02 北京

编者按:北京大学数字人文研究中心于2023年获得哈佛燕京图书馆藏善本古籍数字书影授权。2024年,中心联合字节跳动公益发起“我是校书官”古籍大众智能整理活动,将7000余种哈燕馆藏善本古籍全部文本化,并通过识典古籍平台向全网提供无条件的公益访问。在此基础上,原计划筹办专题展览以集中展示整理成果。筹展期间,我们有幸采访了陈毓贤先生,先生的回忆为我们勾勒出洪业先生与哈燕馆的深厚渊源。遗憾的是,展览因故中止。为纪念此次整理历程,并表达对前辈学人的敬意,我们特此转载陈毓贤先生此文,以飨读者。

洪业

(1893-1980)

去两年间,经哈佛燕京图书馆授权,北京大学数字人文研究中心系统地整理了该馆珍藏的七千余种善本古籍,包括稀见的宋元刻本、地方史志、宝卷、韩南教授捐赠的通俗戏曲小说等。影像与电子文本已在线上公开,供学者阅读与检索。这项浩大的工程自然依赖最新的智能工具,繁琐的校对工作却由上万名“校书官”在网上义务完成。

大图书馆将在今年11月举办为期一个月的“燕京古籍旧藏与哈燕馆藏合璧展”,不仅展示文献本身,也梳理那段以哈佛燕京学社,以及洪业主持的引得编纂处为代表的中美学术交流史,主题之一是“从引得到数字人文”。主办单位问我有没有相关资料可提供,我想起上世纪七十年代末我在麻省康桥带了录音机到洪业的厨房,和他一起边喝茶吃叉烧包,边录他的回忆。他送了一本薄薄的册子给我,是他1930年12月12日在北平中国社会及政治学会(Chinese Political and Social Science Association)上用英语发表的报告。此学会成员大概是欧美留学归国学人及在各院校教书的外籍人士,待查。那时他得哈佛燕京学社资助,成立引得编纂处才三个月。替古籍编引得,是他在脑海中已酝酿了十多年的构想,终于有机会付诸行动,欣喜中带几分忧虑,我们可借以窥探当年的学术大环境。

——陈毓贤

《试为中国古籍编引得——1930年12月12日中国社会及政治学会上发表》

文︱洪  业

文︱陈毓贤

新近出现了一支新的学派叫sinology,国内称为“国学”;名称无论中西都相当别扭。顾名思义,它指一切有关古今中国的研究,但“国学”家至今聚焦于受西方文明冲击前的中国思想与制度。准确地说,所谓的sinology或国学,应被理解为以科学态度研究中国语文和历史的学问,因其一手资料不外于中国历史遗存和文献。

在中国境内,有两个原因令我们对这门学问的前景感到乐观,一是批判性研究方法的崛起,一是古籍的普及化。

校勘学在中国清代早已兴盛。卢文弨、戴震、汪中、孙星衍、严可均和顾广圻等学者把许多古籍的文本恢复原貌,功不可没。相对而言,深层历史批评却是最近才有的。此前虽说有胡应麟、阎若璩、姚际恒和崔述等少数勇者向尊崇的传统挑战,但都不敢打破砂锅问到底,而且号召力有限,跟从者不多。一直到十多年前胡适博士《中国哲学史大纲(卷上)》(商务印书馆,1919年)出版,我们才能在他的序言中看到类似西方过去一个世纪来发展的那种历史批判。胡适是中国声誉最高的学府里最出名的教授,影响波及全国知识分子。现在年轻学子纷纷用批判的眼光审视文本的作者与他们创作的动机,应归功于胡适。而追随胡适的学者中最杰出的是燕京大学的顾颉刚教授,他几乎天天都在揭发中国浩如烟海的历史资料中隐藏的骗局和圈套。

恰恰在这时候,古籍突然普及了。中国虽以发明印刷术为傲,但从西方引进新印刷技术后,尤其是引进石印后,古籍才从奢侈品变成普通人买得起的物品。有生意头脑的出版商大量复制了许多以前是珍版的稀见书目。举个例子,商务印书馆出版的《四部丛刊》,是上一代富有藏书家须花一辈子的功夫才能凑齐的,现在中上人家就能购得起一套,囊中羞涩的书生则可到图书馆借阅。根据《中华图书馆协会学报》的统计,中国的公共图书馆1925年至1930年间从五百零二所骤增至一千四百三十八所。虽然大多没有达到可供学者做研究的水平,但都在朝这一方向发展,尤其是走在前沿的大学图书馆。

总的来说,目前学者要从事学术研究基本上很少有障碍,也许最烦人的是缺乏德国人称为Hilfsmittel(直译为“辅助工具”)的学术工具;依我看,我们最急需各种书目与引得。受过学术训练的学者即使坐拥书城,找资料仍然不易,找到和他题目相关的著作后,又要花许多时间在书里寻检他所需要的段落。虽说勤奋和耐心是每位读书人都应具备的素养,然而精神长期被这种费时费事的操作消耗,研究成果也会受影响。

幸而编书目的工作已开了个头。有数所图书馆把馆藏目录出版,让学者知道书在什么地方可找得到。国立北平图书馆准备把北平数所图书馆收藏的丛书做个联合目录,将为学者提供一个很大的便利,因其中有些丛书现在已很罕见;而燕京大学的陈垣教授正着手把这些丛书涵盖的数千种书的书名另行顺序编排,让学者更容易找到他们所需要的书。至于以题材分类的书目,愈来愈多学者发表论文时列出所参考的书本和文章,而不少专业学刊,尤其是国立北平图书馆和中华图书馆协会出的刊物,不时登载些以题材分类的书目。近来还有人把不同期刊上的文章以题材分类后,将标题汇集出版,希望日后会演变成似美国Reader’s Guide to Periodical Literature(《期刊文献读者指南》)那样的参考工具。

学者找到书本后,须在书中寻检有关段落,这时若有“引得”(index)或“堪靠灯”(concordance)便事半功倍。其实书目愈齐全,提及的书愈多,引得和堪靠灯便愈有用,可为学者节省更多的时间和精力。

譬如学者要找《诗经》内某一句,如果他有大把时间,当然可把《诗经》从头读起,直到见这一句。他若想省点时间,可试查字典或类书,看看有没有提及该句,是《诗经》哪一篇,但很少会幸运碰上,只好又把《诗经》拿出来从头翻。如果他会看英文,就可用理雅各(James Legge)英译本附录的引得,那引得编排得不理想,但仍然可省许多时间。又譬如我们想找《史记》里一段话,可先查沙畹(Emmanuel-Edouard Chavanes)法译本附录的引得——虽然他只译了最初的七十五篇——然后便可据此轻易查到这话在《史记》原文的位置。可见有时最快捷的途径是绕远路,读中文书竟须借助外文译本。

当然,被译成外文的中文书非常少,而会读各种译本的中国学者也非常少。极少数古籍的西文译本附有引得,大体说来无济于事。传统中国教育基本上只要求读书人把几部经书及最有名的文艺著作背得滚瓜烂熟,无需用引得之类的工具。我们现在感到有需要,但除了蔡廷干1922年刊印的《老解老》(非卖品)之外,这种工具始终没有出现。这可归咎于替中文书编引得有许多难以克服的困难,远不如替西文书编引得那么容易。

我对克服所有的困难并不乐观,然而我也不认为这意味着我们应该放弃。许多年来,我总盼望有一批人集合起来选几本书做个试验。今天我可心存感激地向大家报告:哈佛燕京学社已同意拨一笔可观的款项让我们做这么一个试验。我在原有的职务外,主导一个包括编辑和助理的小团队从事这项工作。这三个月来,我们逐渐摸清楚应怎样处理最棘手的问题,希望半年后哈佛燕京学社汉学引得丛刊就有数种引得面世。

现在略谈我们编纂引得的十个步骤:

第一,选书。经编辑和有关领域的学者商讨后,我们定下以下几个原则:(甲)不选已有引得的书;(乙)目前不选伪书;(丙)暂不选二手资料;(丁)暂不选外文译本附有引得的书;(戊)暂不选需两个月以上处理的大书。提最后一条,是因为这既然是个试验,我们应尽快出几个样本送到国内外学者请他们评估,希望获得他们坦诚的批评,告诉我们如何改善。

第二,选择版本。我们尽量选最通行、最可靠的版本。可是为了拥有其他版本的学者也能用我们的引得,须作推算表,让他们算得出某句在他们拥有的版本里大约在哪一页。举个例子:《说苑》(著者刘向,公元前77-公元6年)我们选的版本是《四部丛刊》的单行本。仅我们所知道的,就另有十二个版本。于是我们替每个版本制造一个方程式,让读者可算出某句的相应页数。这些方程式相当精准,最多差一两页。

第三,钩标目注。这是流程中最关键而又最具挑战性的一环。先由两位编辑在各自的文本上下功夫,再由第三位编辑和他们协调商定。牵涉到三个问题:(甲)读者若知道文本中有哪些异文,往往可帮助他们了解内容,异文本身也有学术价值。一般古籍将异文在书后列出,我们所用的《说苑》版本则在另一册上,都不注明异文在文本的哪一页出现,在文本上也没有标志。我们提供读者的引得,附有加入标点符号重新排印的文本,遇上异文,就在文本上加注脚。若相关字眼被选入引得,在该录中也把异文的信息纳入括号里。(乙)传统古籍是没有标点符号的,编辑须把文本读通,明白作者的原意以及文中指涉的名物制度,才能够正确地断句。我们的编辑都是受过学术训练的大学毕业生,但每天都遇到一些怎么读都无法读得通的段落,若寻专家请教后仍无法读通,只好把这些段落列出,希望后人有所发现。标点的同时,编辑们随手做些笔记。如书上提到人物往往不用姓名,而用该人的字或号;而有些地方有两个不同的名称,都须顾及。幸而编纂处现在就设在燕京大学图书馆里,用各种参考书很方便。(丙)文本断句后,就可钩标出引得的目注,决定须不须和另一目注互见等等。我影印了经我们钩标后的《说苑》卷十五第十四页(见图一),上面的校对符号与西方用的大同小异。我们的编辑对西方引得的操作很熟悉,什么东西值得重见于引得中以供读者寻检,中西方的原则是一样的。

第四,把每一条录抄在一张卡片上。卡片上注明其录,及其录所涵盖的目注与异文,在文本的哪一卷、哪一章、哪一页出现,在版心的右边或左边。用其他版本的人可据卷码章码检到其在文本的位置。

第五,卡片经至少两位编辑细心校对。校雠这个词很有意思,就是当为仇敌频频试探的意思。我们曾三校后仍发现错误,所以坚持把每张卡片都假定为有误,有必要证明它是无辜的。

第六,编码。把卡片按次序排列,令读者可按次序便捷地找到有关段落。然而顺什么次序呢?这就是为中文书编引得最棘手的问题了。汉字不似英文字用字母拼成。英文有二十六个字母,可轻易地顺着惯常次序排下去,不懂发音不懂意思都可依序做。汉字没有简单的惯常次序。历来字典不是依诗韵排列就是依二百十四个部首排列,引发的麻烦众所周知。我十一年前便开始思虑如何解开这死结,所以一直关注他人这方面的努力,其中以上海商务印书馆王云五先生的四角号码最成功,但我认为用它来编引得仍不理想。我把自己的方法称为“中国字庋撷”,比起王先生的方法对初学的人来说更容易记,替一个字编码只须三个步骤(见图二),而且几乎每一个号码只有一个字,排列起来又较整齐,这对引得来说是相当要紧的。目前有多所图书馆已用王先生的方法编目录,所以我对要不要推广自己的方法相当犹豫,最终仍坚持用它编引得是因我深信这方法有许多优点,而没有相应的缺点。C. C. Wang去年在Chinese Political and Social Science Review(《中国社会及政治学报》)指出汉字电报码有种种问题。庋撷法几乎每一个号码只有一个字,也许亦可解决电报这个问题。言归正传,所有与“孔子”有关的目注自然都应放在“孔子”这一条录下。我们替“孔”和“子”编了码,便可依码把该录排列在他录之间。该录下所有的目注也可依码排列。若某目注在文本中多处出现,则依其在文本中出现的先后排列。我们有个“号片柜”,每个汉字的庋撷号码都写在一张卡片上,并注明该字的各种发音(用韦氏拼音法),依号码排列。替一部书编引得时,助理甲替一条录编码后,助理丙和助理丁便参照“号片柜”卡片上的汉字校对,以防有失误;之后把“号片柜”的这张卡片放在一旁,待下个步骤使用。

第七,具有庋撷号码的卡片排列整齐后便可依次抄到排版稿上,构成引得的前半部。引得的后半部是按韦氏拼音依英文字母次序排列的,用的正是“号片柜”的那些搁置的卡片,排列后也可抄到排版稿上了。而这后半部的引得虽按发音排列,但每一条都有汉字及其庋撷号码,可让读者便捷地找到文本中有关段落。这不但为习惯用韦氏拼音的西方汉学家提供了方便,并且有些学术功用,因为有些同音的汉字本来是同源的。我目前仍不确定是否应纳入古音,欢迎赐教。

第八,印刷。用什么格式什么字体,都是学问,这里就不细谈了。

第九,印本校对。印本须参照以上第三步骤所完成的稿件校对,一点都不能放松。当下许多中文书附录了很长的勘误表,一点用处都没有。

第十,加序。序里包含文本的来历,版本的源流,以及引得的用途等。

即使是优秀的学者,也得积累许多经验才能成为一位优秀的引得编纂者,因编引得涉及主观判断力。决定什么东西应录,须顾及广大读者的兴趣和研究方向,又须避免太滥,浪费了读者的时间与精神。引得编纂者必须把自己置于读者的立场上,而中国的学术范畴仍未定型,故这些决定远比在西方困难;我们乐得有西方的经验可借鉴。

我不认为哈佛燕京学社有意图或有责任资助我们替所有重要的中国古籍都编引得。这试验若不成功,事情自然不了了之。成功的话,相信将有出版商接手办。至于要多久才能证实行得通,很难说,有赖于引得编得好不好,有多少人期盼它成功。英人H. B. Wheatley曾戏称:“出版没有引得的书的人该被打入地狱底下十英里,到一个连魔鬼都害怕的地方。”在能证实引得从学术到盈利都成功之前,我们不敢奢望有出版商参与。目前这试验的目的,仅仅要证明就学术而言,替古籍编引得是值得做的。

图一:经钩标后的《说苑》卷十五第十四页。


译者按:洪业1932年12月出版的《引得说》(引得编纂处《引得特刊》之四,44-45页)对此图片有相当详细的解说:

我们读《说苑》时,防它里面的讹夺,故先取卢文弨的校勘记来参考着读。在第二行和第五行所钩标之“28b”就是指明校勘记页二十八下对于这二段文有点议论,可供参考……我们读《说苑》时,随读随标出引得中之目注。这一页上有三段:每段我们先撮取其大意,为编目注。第一段有一录,以“治道”为目,以“宜除逆贼”为注。第二段有一录,以“道”为目,以“须藉权势乃行”为注。第三段有二录:一为“子贡问孔子诛少正卯之故”,一为“孔子答子贡诛少正卯之故”。次就各段中标出应录目注,有时且须增益字句,以使其录较为明晰。

此页钩标的目注依次有:诛四凶、四凶被尧诛、周公杀管蔡、管【叔鲜】被周公诛、蔡【叔度】被周公诛、子产杀邓析、邓析被子产诛、孔子斩少正卯、少正卯被孔子诛、、引、五帝三王孔子颜渊孺悲为道所凭藉、为道所凭藉、孔子诛少正卯、少正卯被孔子诛、司寇东观【端木】赐(见子贡)、王者之五诛、五诛、王者之。

图二: 中国字庋撷



·END·


图片

本文首发于《澎湃新闻·上海书评》,点击左下方“阅读原文”访问《上海书评周刊》。如需投稿,请后台私信“投稿”。

阅读原文

跳转微信打开

吾与点 | 使用技巧(四):可视化小程序

2025年10月17日 19:01

2025-10-17 19:01 北京

「吾与点」是一款服务于文科学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。


本篇推文介绍「吾与点」平台可视化小程序功能:学者研究中巨量的复杂数据,可以一键变得直观可交互。在「吾与点」中,用户可以使用自然语言快速生成小程序,把复杂的数据转化为直观的可视化表达,让研究成果“看得见”!

PART1 介绍

研究助手概览


「吾与点」研究助手由四大核心模块组成:数据集知识库智能体小程序。它们互相衔接,共同构建出完整的数据管理和研究生态。

小程序


「吾与点」的小程序功能,允许用户通过智能体生成独立的可视化应用,以网页形式提供直观的交互体验。

1

通过智能体即可快速生成独立可视化小程序;

2

以网页形式呈现,便于快速访问与分享;

3

提供直观的交互体验,降低理解和操作门槛。


可视化小程序让数据“看得见”,让研究者获得直观反馈,将研究成果以交互形式向公众发布。


PART2 操作

步骤1:对话生成


进入「智能体」模块,研究者用自然语言描述想要生成的小程序,包括主题、呈现形式、功能需求等;在初步生成后,研究者可以通过反复对话不断优化,比如调整图表类型、修改布局、增加交互等。

技巧:

  • 调用 CHGIS 实现可视化地图;

  • 调用 ECharts 绘制多样化图表。

可视化小程序可实现的形式包括但不限于:图表、关系图谱、地图等,灵活满足不同研究场景与展示需求。

步骤2:保存管理


当小程序符合预期后,在对话框右上方点击【保存】,即可得到该小程序的网址。随后可在「小程序」模块中查看与管理,随时调用与展示。

PART3 案例

古籍知识案例

在对古籍内容进行研究时,研究者往往需要处理大量影印文献资料,将其中的数据结构化,如图像、人物、事件、地理信息等。通过「小程序」,研究者能够将这些数据快速转化为可视、可交互的页面:

  • 地图直观呈现人物籍贯的地理分布;

  • 时间轴展示人物的人生跨度;

  • 知识图谱呈现人物之间的关系网络;

  • 构建可检索的系统化人物档案,实现多维度信息的快速查询。

「小程序」不仅方便研究者自身观察和分析数据,也可作为学术展示和公众传播的窗口,让研究成果更具传播性和影响力。


「吾与点」小程序

让数据“看得见”

你的研究成果“触手”可及

「吾与点」网址


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 王心宇 刘凯然


阅读原文

跳转微信打开

吾与点 | 使用技巧(三):数据智能问答

2025年10月11日 19:02

2025-10-11 19:02 北京

「吾与点」【智能体】模块,让你的数据开口说话。

「吾与点」是一款服务于文科学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。

本篇推文介绍「吾与点」平台数据智能问答功能:当学者们进行研究时,面对庞杂的知识和数据,能否用对话的方式高效获取答案?「吾与点」内置的【智能体】模块可以与任一知识库深度关联,让你的数据开口说话

PART1 介绍

研究助手概览


「吾与点」研究助手由四大核心模块组成:数据集知识库智能体小程序。它们互相衔接,共同构建出完整的数据管理和研究生态。

智能体


智能体集成了大模型技术,能够对知识库进行自然语言问答交互。

1

可选择联网搜索以丰富回答内容;

2

支持生成图像、代码等创造性内容;

3

支持调节输出内容多样性程度,以适应不同的研究需求和创意场景。


智能体让知识库“会说话”,不再只是静态存储,而是能够实时响应研究者思考的智慧助手。

PART2 操作

步骤1:创建智能体


进入「智能体」模块,点击右上角【+创建智能体】,根据指引对智能体进行初步设置,包括基本信息、关联知识库、对话配置、能力配置和主题配置。

步骤2:数据智能问答


这是智能体的核心功能。研究者无需掌握复杂的检索指令,只需用自然语言提出问题,就能获得即时而有条理的回答。

在这一过程中,研究者可以:

  • 快速获取知识库中的核心信息;

  • 进行多维度的比较与综合分析;

  • 持续追问以逐步深入研究主题;

  • 调用多模态能力,生成图表、摘要或文本内容。

PART3 案例

《盎格鲁-撒克逊编年史》

在《盎格鲁-撒克逊编年史》的研究中,研究者往往需要处理跨世纪、涵盖多个王国的大量历史事件:时间跨度长、事件类型多样、地点分布广,信息量庞大且交织。传统方式下,研究者需要逐条查阅、比对、整理,耗时巨大。引入「智能体」后,研究方式发生了转变。研究者可以直接通过【数据智能问答】与知识库进行直接交互。比如:

  • 当研究者想要梳理某一时期的整体历史事件,向智能体描述梳理对象,智能体即可从知识库中提炼关键信息,生成条理化的总结

  • 当研究者想梳理诺曼征服相关的史实时,只需提出问题,智能体即可整理关键信息,并在地图上可视化相关地点与事件,直观呈现历史脉络

  • 在研究诺曼征服相关史实时,智能体可整理事件脉络,并将涉及的事件整理成时间轴清晰呈现

  • 智能体可整理《盎格鲁-撒克逊编年史》事件数据,生成可视化图表,绘制柱状图或折线图,直观展示历史事件分布与趋势

  • 通过事件标签化整理,智能体建立历史事件查询档案,便于快速检索、对比和分析各类历史信息。

研究者通过连续的自然语言问答,就能逐步搭建研究框架,获得新的学术启发。最终,「智能体」成为陪伴研究者思考的得力伙伴,大幅提升信息提炼和知识整合的效率,使学术研究更专注于核心问题。


「吾与点」智能体让数据“会说话”

研究者轻松提问

即刻获得答案与启发

「吾与点」网址


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 王心宇 刘凯然


阅读原文

跳转微信打开

吾与点 | 使用技巧(二):搭建个人数据库

2025年9月24日 19:01

吾与点 2025-09-24 19:01 北京

「吾与点」是一款服务于文科学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。

「吾与点」现已开放公开注册并提供服务,欢迎访问平台网址:


https://www.wuyudian.net/

本篇推文介绍「吾与点」平台个人数据库功能:在文科学者的研究中,时常存在研究资料纷繁复杂的情况,如何快速定位资料中的关键信息?「吾与点」研究助手通过 数据集—知识库 的有机结合,实现智能化的数据检索与查询,为研究者搭建属于自己的数据库

PART1 介绍

研究助手概览


「吾与点」研究助手由四大核心模块组成:数据集知识库智能体小程序。它们互相衔接,共同构建出完整的数据管理和智能研究流程。本次推送将介绍数据集和知识库两个功能。

数据集


数据集是研究助手的基础模块,它将项目中的表格信息集中管理。

支持字符匹配、语义搜索及混合搜索等多种检索方式

提供版本管理功能,让数据更新、迭代和历史追溯都清晰可控

通过筛选、排序和导出功能,满足不同场景下的信息查找需求

知识库


知识库将一个或多个数据集汇总整合,形成跨项目的统一资源检索入口。

支持可见性设置、主题自定义和访问链接生成,使数据共享更加灵活便捷

打造个人数据库,集中展示、查询和分享您的智能数据


在数据集和知识库的基础上,「吾与点」让数据“找得到”,帮助研究者在海量数据中快速定位目标信息。

PART2 操作

步骤1:创建数据集


进入数据集模块

点击右上角的【+创建数据集】

在数据集详情页面,包含 概览、版本管理、智能搜索、数据浏览、设置 五大板块。研究者不仅能管理数据集的内容和版本,进行检索和查询,还能设置数据的可见性。

步骤2:创建知识库


进入知识库模块
点击右上角的【+创建知识库】

知识库详情页面包含 基本设置、数据集管理、主题配置、预览 四大板块。研究者可以填写介绍信息、关联需要的数据集、设置展示主题,最终可生成一个可共享的知识库页面。

步骤3:数据浏览


在数据集和知识库中,都可以进行数据浏览。知识库可以对指定的数据集进行数据浏览,分为【简单筛选】和【高级筛选】两种模式:

  • 简单筛选:在所有字段中检索目标信息。

  • 高级筛选:在特定字段中查找包含指定信息的记录。

通过筛选、排序与分页,研究者能在庞杂数据中迅速聚焦目标,再一键导出结果,节省大量时间。

步骤4:智能搜索


在数据集和知识库中,都可以进行智能搜索。知识库可以对指定的数据集进行智能搜索,分为混合搜索、语义搜索和全文搜索三种方式:

  • 全文搜索:基于关键词的精确匹配。

  • 语义搜索:通过语义向量相似度匹配的方式,从高到低对搜索记录进行排序。

  • 混合搜索:结合关键词与语义搜索,既保证准确性,又具备灵活性。

智能搜索融合多种检索方式,并且支持跨数据集检索,为用户搭建搜索海量异源数据的个人数据库。

PART3 案例

墓志铭数据

墓志铭数据往往涉及时间、地域、人物、家族关系等多个字段的内容,在「吾与点」的数据集和知识库功能中,能够对这些信息进行快捷精准的查询。

1数据浏览:全局掌握,快速筛选


研究者在「吾与点」中将墓志资料生成结构化数据后,可以利用【数据浏览】功能进行多维度筛选:

  • 在“简单筛选”中,输入关键词“唐代”,即可快速查看所有唐代墓志。

  • 借助“高级筛选”,可以限定条件,例如“葬地历史地名:京兆府”,“年龄:六十”,瞬间缩小范围,得到精准的子集。

  • 浏览结果还能导出为 Excel 或 CSV,方便进一步统计与图表分析。


2智能搜索:语义关联,深度发现


相比于数据浏览的“定向筛选”,【智能搜索】则提供了“探索发现”的维度。

  • 全文搜索:输入“开元年间”,立即返回所有包含这一关键词的墓志记录。

  • 语义搜索:搜索“唐代文官”,不仅能返回直接标注“文官”的条目,还能识别“进士”“主簿”等语义相关的记录,避免遗漏。

  • 混合搜索:当模糊输入“唐代士人”,系统既能精确命中“唐代”“士人”,又能扩展到“儒生”“书生”等语义相近内容。

这让学者能够从不同角度切入资料,找到明确所需的信息,还可能在“语义搜索”结果中获得关联数据,拓展研究思路。


「吾与点」研究助手

为每位学者搭建个人数据库

让你的数据“找得到”


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 王心宇 刘凯然

阅读原文

跳转微信打开

亮相中国图书馆年会!北大数字人文研究中心用技术让古籍“活”起来

2025年9月18日 19:00

2025-09-18 19:00 北京

9月6日,2025年中国图书馆年会在古韵悠长的陕西榆林圆满落幕。本届年会以“高质量发展:面向未来的中国图书馆事业”为主题,汇聚了海内外图书馆界、科技界和文化界的思想精粹,其中,人工智能(AI)与图书馆发展的深度融合,无疑是贯穿始终的热点议题。 

北京大学数字人文研究中心受邀参与陕西省图书馆展位展示,向全国图书馆同仁展示了基于吾与点智能数据平台的智能问答、可视化小程序文化遗产AI活化两项创新项目。这两个项目利用陕西省图书馆提供的《晚笑堂画传》和唐代仕女图资源,分别从知识服务深化文化互动创新两个维度,将人工智能技术与图书馆服务场景深度结合,回应年会对智慧图书馆建设与传统文化传播的双重期待。

Agent

知识智能体:

AI重构知识服务新范式

针对年会关注的“AI赋能知识组织与检索效率提升”议题,北京大学数字人文研究中心团队以《晚笑堂画传》为素材,基于吾与点智能数据平台完成三大关键实践,形成可复用的古籍智能服务方案:

结构化知识库:

破解古籍“知识碎片化”痛点

团队首先对《晚笑堂画传》全书内容进行深度解构,利用吾与点智能表格抽取功能,自动抽取书中人物生平、事迹、图像元素等核心信息,再将碎片化信息转化为相互关联的结构化数据,构建起一个兼具学术性与实用性的可信知识库。将传统典籍从线性文本转化为可关联、可检索的知识单元,为后续智能服务奠定基础。

智能问答系统:

实现 “对话式”智能查询

基于知识库开发的自然语言问答系统,支持读者以日常语言提问。在用户交互层面,读者无需再记忆复杂的关键词或检索规则,只需用口语化提问,智能问答系统就能从知识库中精准提取信息并给出条理清晰的答案,真正实现了从 “人找书” 到 “书懂人” 的服务变革。

智能问答小助手

更关键的是,系统接入国家版本馆海量版本数据,可以根据不同的读者身份(如向五年级小学生推荐科普读物),为其推荐同主题、同人物的延伸读物,形成查询、理解、拓展的闭环服务。

智能推荐书籍

小程序生成:

零代码智能生成可视化成果

依托吾与点平台的智能体生成能力,团队为《晚笑堂画传》快速搭建可视化小程序:无需任何代码基础,用户通过自然语言指令,就能快速生成人物关系图谱、历史时间轴、地理分布图、人物档案卡片等多样化可视化成果。

自动生成人物关系图谱

平台接入CBDB(中国历代人物传记数据库)与 CHGIS(中国历史地理信息系统)数据,可以让静态典籍转化为动态的时空可视化历史场景。这些动态直观的呈现方式,不仅让古籍中的“冷知识”变得生动易懂,也为图书馆开展学术支持服务提供了有力工具,推动图书馆从“文献仓库”转变为“知识中枢”。

《晚笑堂画传》可视化小程序首页

《画传》人物籍贯分布地图(基于CHGIS)

《画传》人物生卒时间轴(基于CBDB)

《画传》人物历史档案(基于知识库)

左右滑动查看小程序页面

此外,图书馆也可以直接接入自有馆藏数据(如地方典籍、特色文献),快速搭建专属智能问答与可视化系统(如地方史志智能查询、非遗文献图谱展示),呼应了本次年会“智慧服务下沉到馆”的实践导向。

Multimodal

原境・唐风:

让文化遗产可感知、可参与

知识智能体项目聚焦知识挖掘,原境・唐风项目则主要聚焦于文化传播。中心团队以唐代仕女图为核心素材,开发多模态互动系统,探索古籍图像资源活化的新路径。这不仅是一种图像数字化,更是一种视觉层面的“活化”实践。它超越了古籍保护中的传统修复和影印,将古籍中的图像转化为可互动、可生成的艺术载体,赋予了古老画作全新的生命力。

选词生图:

定制化唐风美学

团队基于陕西省图书馆提供的唐代仕女图资源,结合自有搜集的唐代图像素材,通过模型微调与工作流优化,训练出专属于唐代仕女风格的生图模型。读者只需选择关键词,系统即可生成符合唐风美学的原创图像,让古画中的服饰、场景、审美通过现代技术再现,成为图书馆开展传统文化美育的新工具。



古风换脸:

降低文化体验门槛

“原境·唐风”平台新增 “一键焕颜” 功能,读者上传个人照片后,可一键融入现有唐代仕女图场景,生成个人专属仕女图。现场体验中,该功能不仅吸引大量观众参与,更让不少图书馆从业者意识到多模态互动能打破古籍与大众的距离感,让传统文化从被动观看变为主动参与。这种功能看似娱乐,实则蕴含深刻的文化传播逻辑。它将抽象的“传统之美”具象化、个人化,让用户成为文化体验的参与者而非旁观者。这种沉浸式、个性化的服务,为图书馆创新文化服务形式提供了可落地的参考。



以技术实践助力图书馆高质量发展


北京大学数字人文研究中心的两个项目,聚焦古籍资源与AI技术结合的具体落地,在陕西省图书馆展位展出期间,吸引了不少图书馆同仁、行业研究者驻足体验与交流。从实践价值来看,两大项目不仅是数字人文技术的展示,更是对图书馆高质量发展主题的具体回应:

对古籍资源:

推动从数字化存藏向智能化服务升级,让珍贵典籍从库房走向读者。

对图书馆服务:

提供零代码、可定制的技术方案,降低智慧服务建设门槛,适配不同图书馆的需求。

对文化传播:

以多模态互动重构传统文化体验场景,助力图书馆成为公众与传统对话的桥梁。

未来,北京大学数字人文研究中心将持续深化与图书馆界的合作,以吾与点智能数据平台为核心,将《晚笑堂画传》智能体、唐风多模态平台的实践经验,复制到更多地方典籍、特色馆藏的活化项目中,与全国图书馆同仁共同探索“技术赋能文化传承”的新路径,为智慧图书馆建设贡献力量。


阅读原文

跳转微信打开

吾与点 | 使用技巧(一):如何从大段文本中提取多行结构化数据?

2025年9月12日 20:32

吾与点 2025-09-12 20:32 北京

「吾与点」是一款服务于学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。

本篇推文是介绍「吾与点」使用技巧的第一篇,后续将持续推出使用技巧、重点功能、案例展示相关系列内容,助力各位学者、文化机构与企业用户高效运用平台开展数据智能处理。

「吾与点」现已开放公开注册并提供服务,欢迎访问平台网址:

https://www.wuyudian.net/


在学术研究中,有时需要从一大段文本或者PDF页面中提取多条表格信息,例如从一长段人物生平描述中生成多行表格的人物履历。

在「吾与点」的字段描述/规则提示词中加入“用TSV格式的表格输出*”,就能实现“一个单元格生成多行表格”的功能,适应特定场景的数据处理需求。

*TSV(Tab-Separated Values)格式是一种以制表符作为分隔符来存储表格数据的纯文本文件格式。

让我们通过几个真实的研究场景,看看它是如何帮助学者们“破壁”整合信息的:

场景一

墓志碑刻  人物生平表

以墓志PDF文本为例,人物的生平轨迹分布在不同页面:如果按段落或者页面切分文本再进行处理,那么人物出生、入仕、迁官、卒葬等信息就会被拆散在数个单元格里。这样一来,研究者难以快速建立一条清晰的编年线索。

如果改用“单元格生成表格”的方式,先识别每一页PDF的文字,再将多页文本合并为一段文本,最后在一个单元格内让「吾与点」按“编号—年份—时间—官职”的结构输出TSV格式的表格,就能得到一张时间清晰、条理分明的年谱表。

场景二

人物传记 → 人物关系表

人物传记中亲属、师友、社会关系错综复杂,密集分布于不同段落。研究者往往需要从一个段落中抽取出多条人物关系数据,并且每一条数据都输出为表格中的一行。通过让「吾与点」按“人物 A-关系-人物 B-原文出处”的结构在一个单元格内输出TSV格式的表格,就可以将一段文本中密集分布的人物关系信息抽取为多行表格。

场景三

史料叙述  地名对照表

在史料中,一段文本可能包含多个地名。如果在「吾与点」上按“旧称—现指—时代—地理位置—原文”的结构在一个单元格内输出TSV格式的表格,研究者可以迅速建立起一份时空对照表。通过「吾与点」智能体功能*进一步结合现代地图坐标,便能实现地理信息的直观可视化。

*关于「吾与点」智能体的介绍将在近期发布,请持续关注。

场景四

考古报告 → 器物知识库

在多页考古报告中,每一页可能都包含多个器物信息。在对考古报告PDF文件实现全文识别与文本合并后,让「吾与点」在一个单元格内按“器物名-材质-出土单位-数量-描述”的结构输出TSV格式的表格,将考古报告中的每个器物信息都变成数据表格中的一行,就可以建立一个清晰、详实的考古器物知识库*

*关于「吾与点」知识库的介绍将在近期发布,请持续关注。

这些场景其实有一个共同点:那就是文本较长且信息密集用户往往需要从大段文本中输出连续、直观的明细表格。通过在一个单元格中生成TSV格式的纯文本表格,用户就可以实现“一对多”的数据处理需求。

操作指南

识别PDF文字具体过程


实现“一对多”表格抽取具体过程


导出单元格为多行表格



我们始终相信

工具的存在

是为了让研究者更从容地面对复杂文本

希望这个小技巧

能为你省下一些翻检之苦

多留一分思考之乐


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 刘凯然

阅读原文

跳转微信打开

交流合作 | 伦敦大学亚非学院来访北大数字人文研究中心

2025年9月11日 19:00

2025-09-11 19:00 北京

2025年8月27日,英国伦敦大学亚非学院(SOAS)人文学院院长Graeme Earl教授与Linda Hallback女士访问北京大学数字人文研究中心。中心成员对来访学者表示热烈欢迎,中心副主任、外国语学院与人工智能院兼聘的长聘副教授苏祺老师负责接待,双方围绕文化遗产数字化等议题展开深度交流,共同探索数字时代人文研究的新范式。

伦敦大学亚非学院(SOAS)是欧洲唯一专注亚洲、非洲和中东研究的高等学府。Graeme Earl教授作为该校人文学院院长、艺术史与考古学系考古学教授,同时兼任南安普敦大学数字人文教授,长期深耕数字文化遗产领域。他主导的 “PATINA 项目” 联合微软、诺基亚与维多利亚和阿尔伯特博物馆(V&A),依托混合现实、物联网技术探索文物互动新叙事;Graeme Earl教授还推进 “Portus 古罗马海港遗址” 的数字化记录与研究等跨学科项目,以技术创新为亚非中东文化遗产构建新的数字表达。


为全面展现中心在数字人文领域的多元探索,中心成员向来访学者系统介绍了4项代表性成果:

中心成员首先介绍了「识典古籍」平台。「识典古籍」目前已收录超过30,000种古籍,涵盖儒释道核心典籍。其技术架构融合了高清古籍影像比对、AI自动标点、智能校勘等先进功能,不仅为研究者提供字典释义、语义关联查询等深度工具,更通过线上众包的方式进行人工校勘,构建了人机协作的整理模式。

“我是校书官” 线上志愿者活动打破了古籍整理的专业壁垒,平台通过简化操作流程、提供基础培训,邀请古籍爱好者参与古籍OCR校对等轻量级任务,志愿者完成的成果经北大团队审核后,将同步更新至阅读平台。来访嘉宾对平台在古籍数字化整理方面的技术实力与开放协作理念予以认可,对其推动古籍资源普及、助力文化传承的价值表示肯定。



在智能工具展示环节,中心成员展示了“吾与点”智能平台在处理古典文献方面的强大功能,以及“原境·唐风”项目的最新进展,获得了来访嘉宾的高度评价。

展示中,中心成员首先演示了如何运用“吾与点”智能数据平台智能表格抽取功能,将英文版《盎格鲁-撒克逊编年史》高效地转化为结构化数据。基于这些精准提炼的数据,平台在数秒内自动构建了关于盎格鲁-撒克逊历史的知识库。这一知识库不仅支持多维度、可分享的检索查询,更实现了与平台内置智能体(AI Agent)的无缝对接。来访嘉宾现场体验了通过自然语言与智能体互动,精准问询并获得《盎格鲁-撒克逊编年史》相关知识的便捷功能。此外,中心成员还展示了智能体的AI编程能力,通过自然语言交互的方式,即时生成了用于数据分析与展示的可视化小程序面板,充分展现了AI在降低技术门槛、赋能研究者方面的巨大潜力。

智能表格抽取

知识库构建

智能体生成可视化小程序


另一项“原境·唐风”项目利用深度学习技术,通过对大量唐代仕女画的学习与训练,构建了一个图像生成模型。

在现场演示中,中心成员展示了该模型的卓越能力:将一幅外国人的肖像照片,与唐代古画中的仕女形象进行融合。模型精准地捕捉了唐代画作的独特风格与笔触,同时保留了肖像的原始特征,最终生成了一幅既有唐代神韵又兼具个人特色的艺术作品。这场“跨越千年,相隔万里”的隔空艺术对话,生动地再现了唐代风华,其惊艳的视觉效果与深厚的文化意蕴赢得了在场嘉宾的一致赞叹,充分肯定了该技术在艺术史研究、文化遗产保护及跨文化交流领域的创新价值。

(「原境智生」平台实现唐代仕女图换脸)

最后,双方的交流集中在"典籍新生・AI 创意"分论坛的成果展示上。作为第四届东亚古籍数字人文国际论坛的亮点环节,该分论坛汇集了全球133所高校的228支团队报名,最终评选出的28件优秀作品生动诠释了AI技术与文化遗产的创新融合。来访嘉宾对分论坛所展现的多元创意与技术实力表示赞叹,认可其在推动古籍活化方面的积极探索。

本次分论坛以技术赋能古籍活化为核心,所有获奖作品已通过 "典藏新生・AI创意" 线上展览正式呈现,创作覆盖文学戏剧、科技工艺、生活民俗、历史场景等多元维度,所有作品可访问网址在线观看: https://ai-creative.2025.dheac.org/ 


此次访问不仅是技术与资源的对话,更彰显了数字人文无界合作的魅力。在文明的数字化传承之路上,跨越洲际的携手正让更多文化遗产 “活” 在当下、流向未来。


数字人文开放实验室

阅读原文

跳转微信打开

第四届东亚古籍数字人文国际论坛成果速递!

2025年9月8日 19:00

2025-09-08 19:00 北京

DHEAC 2025

Annual International Conference on 

Digital Humanities for East Asia Classics

第四届东亚古籍数字人文国际论坛成果

2025年7月20日至22日,第四届东亚古籍数字人文国际论坛(DHEAC2025)在北京城市图书馆顺利举办,这场由北京大学数字人文研究中心与首都图书馆联合主办的学术盛会,聚焦东亚古籍与数字技术的理论与实践,为国内外研究者搭建交流协作平台。

论坛闭幕后,其产出的学术成果与实践探索成果迅速引发国内外学界广泛关注:多所国际知名高校及研究机构通过官方渠道发布专题报道,相关社交媒体话题广泛传播。与此同时,国内外多家期刊择优收录多篇会议论文,进一步推动成果转化。这场论坛的后续影响,助力东亚古籍所蕴含的千年智慧,借助数字载体的强大传播力走向国际视野。


学术理论与实践:

覆盖古籍数字研究全维度

本次论坛的核心成果集中体现于“高质量研究、落地性探索”的双重突破。论坛共收到128篇投稿,最终61个单位的优质论文脱颖而出:涵盖国内48所高校(如北京大学、清华大学、复旦大学等)、海外9所高校(如日本早稻田大学、韩国高丽大学等)及4家公共文化机构(国家图书馆、故宫博物院等),研究方向覆盖古籍智能处理、文化遗产数字化、大模型应用等核心领域。

在学术交流环节,13个子论坛围绕“大模型与古籍信息处理”“数字东亚文化传承”“古籍活化”等主题展开深度研讨,形成了问题、方法、路径的完整学术闭环。4个会前工作坊聚焦实操领域,从“智能数据生成与管理” “大规模文化遗产图像资源数据化”到“面向文科生的AI编程教学”,再到“大语言模型在古籍处理中的应用”,工作坊为东亚古籍数字人文研究输出了一批可复用、可推广的技术方案。13篇优秀论文、多项AI创意作品获奖,及20份学术海报展示,进一步展现了本次会议内容的多元性。

国际影响力:

多国学者共筑东亚古籍学术共同体

本次论坛的国际属性在本届成果中尤为凸显。本次共有220人参会,其中48位海外学者来自日本、韩国、越南、泰国、美国、德国、英国、希腊、法国9个国家,与国内172位学者(含港澳台10人)共同构建了无国界的学术对话场景。

论坛参与机构覆盖全球87个单位:国内70所高校(北大、清华、复旦等顶尖学府均在列)、国外13所高校(日本京都大学、韩国成均馆大学、英国爱丁堡大学等知名机构参与)及5家国内公共文化机构(国家图书馆、上海图书馆、浙江图书馆等),进一步筑牢了东亚古籍数字人文学术共同体。


会后,越南河内大学、希腊克里特大学、香港理工大学等机构纷纷通过官方渠道报道论坛成果,Twitter、LinkedIn等平台的话题传播也让更多国际同仁关注到东亚古籍的数字创新实践,让东亚古籍数字人文通过数字载体走向更广阔的国际视野。

越南河内国家大学官方报道

希腊克里特大学官方报道

香港理工大学官方报道

左右滑动查看官方报道


成果转化:

多家期刊择优录用

本次论坛的价值不止于思想碰撞,更在于成果转化。截至2025年8月25日,已有多篇优秀论文被国内外权威期刊拟录用,实现学术价值的进一步落地。各期刊收录情况及作者来源如下,充分体现了成果的多元性与高质量:

《图书馆论坛》

拟录用3篇,成果来源包括北京大学、武汉大学、中山大学,聚焦古籍知识组织体系重构、平台建设等方向

《数字人文研究》

拟录用21篇,来源单位覆盖清华大学、北京大学、复旦大学、南京大学、武汉大学、同济大学、华东师大、北京师范大学等,研究领域涵盖古代城市规划知识挖掘、古籍版面数字化整理、多语言词汇系统比较等

《数字人文》

拟录用2篇,成果来自中国科学院文献情报中心、北京师范大学、清华大学、天津大学,涉及清诗总集研究、古代城市规划专题挖掘

《南京师范大学文学院学报》

拟录用4篇,来源学校包括黑龙江大学、复旦大学、北京师范大学、北京大学,聚焦 AIGC 古籍实践、古文运动转型研究等主题

《Publications》

(MDPI 旗下开源期刊)

已经收到自山东大学、延安大学、四川大学、黑龙江大学等4家单位投稿,涵盖东亚历史数字研究、古典遗产活化框架等方向

《中国图书馆学报》亦就大会主旨报告相关成果进行约稿。


本次论坛的成果,不是终点而是新的起点。第四届东亚古籍数字人文国际论坛虽已落下帷幕,但这场跨越地域与学科的学术盛会,留下的不仅是即时性的成果产出,更构建了成果落地、协作延续、人才赋能的长效价值。

从思想碰撞到成果落地,从个体研究到国际协作,第四届东亚古籍数字人文国际论坛的价值已远超会议本身。感谢所有参会者的贡献,也期待未来有更多同仁加入,共同推动东亚古籍在数字时代焕发新生!

更多关于“第四届东亚古籍数字人文国际论坛”的信息请点击“阅读原文”,或访问官网:https://dheac.org/

数字人文开放实验室


阅读原文

跳转微信打开

❌