阅读视图

论文 | 从公共图书馆到公共智能:公共知识媒介演化及人文学术范式转型

原创 PKUDH 2026-04-01 11:49 北京

北京大学数字人文研究中心的研究论文《从公共图书馆到公共智能:公共知识媒介演化及人文学术范式转型》近期发表于知网。

北京大学数字人文研究中心主任王军老师的研究论文《从公共图书馆到公共智能:公共知识媒介演化及人文学术范式转型》近日发表于《中国图书馆学报》。该文从知识媒介演化的历史视角出发,辨析人工智能技术,特别是大语言模型出现的历史条件。梳理了自古腾堡印刷术以来人类信息环境的三次历史性跃迁:从印刷文献时代的“公共图书馆”,到网络化信息时代的“公共知识”,再到人工智能时代的“公共智能”。通过对印刷技术、互联网与Web 2.0、开放数据文化及大语言模型等公共知识媒介演化的分析,结合北京大学数字人文研究中心的实践案例,探讨智能技术对人文学科研究资料、研究工具与研究议题的重构作用。人工智能的出现并非偶然,而是开放文化、知识共建与技术演进长期交互作用的历史必然。在“公共智能”的支撑下,人文研究呈现出资料获取的穷尽化、形态的结构化及处理单元的原子化趋势,不仅极大地扩展了研究的问题空间,也推动了方法论层面上诠释与计算的深度融合,预示着学术范式正朝向“人机共生”的模式演化。

以下摘录论文的主要内容,全文请见:

王军. 从公共图书馆到公共智能:公共知识媒介演化及人文学术范式转型[J]. 中国图书馆学报, 1-12[2026-03-27].

https://link.cnki.net/urlid/11.2746.G2.20260325.1017.002.

从公共图书馆到公共智能:

公共知识媒介演化及人文学术范式转型

王军

01

引言

2022年ChatGPT横空出世,使人工智能(Artificial Intelligence, AI)进入全球公众的视野,也迅速成为跨学科讨论的焦点。尽管人工智能的研究早在20世纪中期便已起步,但大语言模型(Large Language Models, LLMs)的自然语言生成能力,使公众第一次直观感受到机器“理解”与“回应”人类语言的可能性。由此,学界与产业界均提出了一系列关切问题:人工智能的知识来源何在,它与人类认知的关系如何,会在多大程度上重塑学术研究,尤其是人文学科的研究范式。

本文从知识媒介演化的长时段视角来回答这些问题。可以预期,人工智能技术在未来数年内将逐渐成为继互联网之后人类社会的信息基础设施。与印刷术和互联网技术类似,大语言模型正日益成为获取信息的重要载体和入口,并重塑我们获取和学习知识的方式。随着这一趋势的发展,它将像印刷术和互联网曾经引发的那样,推动知识生产与学术范式的深刻变革。换言之,人工智能正在展现出成为新一代“泛在媒介”的潜能。而媒介不仅是信息传递的技术载体,更是塑造知识结构、社会组织与文化认同的深层动力。因此,理解人工智能的出现,需要回溯前两次重大信息环境转型:15世纪的印刷文献信息环境与20世纪末的数字化、网络化信息环境。

本文回顾印刷术对现代科学与学术制度的奠基作用,以及“公共图书馆”知识共享机制的形成过程;分析互联网与Web 2.0所孕育的“公共知识空间”,强调开放数据文化的奠基性作用;讨论大语言模型技术是如何依托开放数据文化而发展起来的,并提出“公共智能”概念;探讨智能信息环境下人文研究范式的转变,重点分析研究工具、研究材料与研究尺度的变化;结合北京大学数字人文研究中心的案例,展示智能技术在人文学科的具体应用;最后强调批判性思维的人文学术传统在智能时代不可替代的价值,以及传统人文训练是构建“人机共生”的学术生态不可或缺的条件。

02

印刷文献信息环境与公共图书馆

从人类文明史的长时段视角来看,媒介演化不仅仅是技术的迭代,更是知识生产方式与社会结构的重构动力。15世纪中叶,古腾堡(Johannes Gutenberg)活字印刷术的普及,被视为“现代性”的重要起点之一。印刷术的出现,将知识的生产和传播从手工抄写的局限中解放出来,标志着纸本印刷信息环境的确立。

在印刷术出现之前的中世纪欧洲,知识的保存和传播主要依赖修道院和教会机构,教育的主要内容是神学,核心文本是拉丁文《圣经》,且只有少数受教育的精英阶层有能力阅读拉丁原文。普通民众对宗教与世界的认识,依赖神职人员的口头解释。这种知识解释权和传播渠道的垄断不仅限制了信息的传播速度,也造成了知识获取在不同社会阶层的不平等。活字印刷术的推广改变了这一局面。印刷技术实现了文本的大规模复制,使知识的传播速度与覆盖范围前所未有地扩大。不同民族语言的《圣经》译本相继问世,识字率显著提高,人们有机会直接面对本民族语言的圣经文本,而非通过神职人员来传达“上帝的旨意”,思想解放成为可能。

机械印刷的社会影响可从出版规模的增长窥见一斑。据史料统计,1480年前后,西欧约有110家印刷坊;至1500年,这一数字增长至271家,印刷品总量达两千万册;到1500年时,西欧各地印刷机已累计印制两千多万册印刷品;进入16世纪后,产量更是增长十倍,达到约1.5亿至两亿册。而当时西欧人口仅7300万,人均印刷品2—3册。16世纪,欧洲的活字印刷机单日可完成1500至3600张的印刷。如此高的日均效率,是同期东亚雕版印刷工匠手工刷印难以企及的。

机械印刷不仅改变了知识传播的速度与规模,还推动了学术制度化的形成。手抄本因抄写者的主观添加或疏漏,往往导致同一本书的不同版本存在差异。机械印刷保证了同一版本书籍在结构、内容与分页上的一致性,这是现代学术体系中至关重要的“引用”“著作权”等概念产生的技术前提,出版、评审、引用等一系列现代学术规范,正是在这种标准化的印刷环境下逐渐形成的。正如爱森斯坦(Elizabeth Eisenstein)在The Printing Press as an Agent of Change一书中所论述的,机械印刷带来了抄写手稿所无法实现的稳定性与一致性,这种标准化为现代学术实践提供了技术基础,是现代科学与现代学术规范的制度性前提。

随着19世纪工业化印刷的普及与出版物成本的下降,欧洲逐步建立起现代意义上的公共图书馆体系,其核心特征是由公共财政支持并向社会大众免费开放,不论读者的身份和阶层差别。相比之下,中国古代虽有皇家藏书楼与私人藏书阁,但多不向公众开放,直到辛亥革命后,现代公共图书馆制度才逐步建立。公共图书馆的出现,标志着人类社会第一次在制度层面确认了知识的公共属性,并致力于为所有社会成员提供平等的图书资源。这一制度创新,不仅推动了大众教育与思想启蒙,也成为了以物理载体为核心的“公共文献资源共享”的象征。它构成了现代社会知识基础设施的重要组成部分,塑造了长达五个世纪的知识传播基本范式。

历经数百年的发展,纸本印刷信息环境孕育并推动了出版发行、新闻传播、全民教育、学术研究等诸多行业的形成与繁荣,为人类社会全面发展和平等进步提供了坚实的基础。随着通信技术和计算机技术的不断突破和普及渗透,到20世纪末,人类信息环境经历了由纸本印刷向数字化、网络化的重大转型。这一转型以互联网的普及为标志,使信息得以脱离物理载体,以二进制形式在全球范围内实时传播。

2.1互联网的兴起与信息去载体化

互联网技术产生于20世纪60年代末。到了90年代中期万维网出现,以及图形界面操作系统(如Windows)的流行,使得普通用户无需掌握复杂指令,在网页上移动鼠标、点击链接即可访问全网信息。万维网不仅改变了信息获取的速度与范围,更改变了社会运行的基本方式:购物、交通、通信、教育等服务机构逐步将业务迁移至线上,形成全新的数字社会形态。互联网的核心特征之一,是信息的“去载体化”。在纸本环境下,知识要依附于书籍、期刊等物理载体来传播,而在数字化环境中,文字、图像、音视频等内容均以数字形式存储与传输,突破了空间限制,实现了“足不出户而知天下事”的信息平权。

2.2Web 2.0与用户生成内容(UGC)

互联网早期的知识生产主要由机构主导,用户的角色是“信息消费者”。然而,2000年前后兴起的Web 2.0运动,使用户得以通过博客、视频网站(YouTube、优酷等)、社交媒体(Twitter、微博等)、大众书签(Delicious)等平台直接生成内容。2006年,《时代周刊》将年度人物授予“You”,象征每一位网民都是信息的生产者与传播者,这就是Web 2.0所标志的核心模式——用户生成内容(UGC),自此引发网络信息量的爆炸式增长。全球范围内,无论是个人还是团体,政府还是企业,纷纷在互联网上发布信息。各种语言、各个行业、各个学科的知识和资讯,以及其中所蕴含的丰富的操作过程、组织方式和处理逻辑,由此汇集于网路空间,共同绘制出一幅全球网民协力编织“世界知识”的壮丽图景。这为随后兴起的以数据驱动为核心的大模型技术提供了规模空前的数据基础和文化准备。

2.3“公共知识体”与开放数据文化

Web 2.0时代的UGC,不仅引发了信息量的爆炸式增长,也催生了集体协作的知识生产方式和开放数据文化。维基百科(Wikipedia)是最具代表性的案例。与传统由专家编纂百科全书不同,维基百科允许任何用户参与词条撰写与编辑,形成一种基于网络协作的知识生产模式。这一机制体现了“集体智慧”(collective intelligence)的理念,即无论个体的专业背景或社会地位如何,都可以参与到知识共建的活动中来。与纸本印刷时代依托公共图书馆实现知识共享相比,维基百科依托互联网平台展开的知识众包模式,使得知识共享的范围大幅扩展、更新时效性显著提升、协作的粒度也得以延伸到更细微的知识单元。这一转型意味着人类社会的知识共享机制从“公共图书资料”进入到“公共知识空间”(public knowledge space)的新时代。与前者依赖物理场所提供载体共享不同,公共知识空间以网络平台为媒介,直接实现知识内容本身的开放与共享。Web 2.0孕育了互联网的“开放数据”(open data)文化——全球范围内,无论是个人还是团体、政府还是企业,都可以在网络上访问、分享、再利用信息资源,使得知识跨越地理与文化边界,以全球化方式流动与扩散,促成了跨国、跨语种的全球知识共同体的形成。这种由网络推动的“公共知识”机制,成为大语言模型等人工智能技术得以构建的文化基础。它不仅实现了信息获取的平权化,更为机器学习提供了规模空前的开放数据资源,为数据驱动的大语言模型的出现准备好了数据基础。

03

大语言模型与“公共智能”的兴起

3.1 书目统计及典籍存佚

进入21世纪第三个十年,人工智能,尤其是基于大语言模型的生成式AI,成为继印刷术与互联网之后又一次重塑知识结构的关键技术。

虽然互联网与Web 2.0实现了知识生产前所未有的开放与共享,但知识的呈现方式仍以静态为主。即便用户能够快速检索到所需信息,仍需依靠自身的阅读与理解,将其转化为对具体问题的答案。以ChatGPT为代表的大语言模型的突破在于,它们可以直接以自然语言与用户交互,根据提示生成连贯且贴合语境的回答,从而省去了传统的“查找—阅读—整合”的过程。流畅的自然语言生成,再加上强大的上下文学习能力和广泛的世界知识,使用户第一次直观感受到机器所展现出的类似智能的表现。

(1)所谓上下文学习(contextual learning),是指大语言模型能够利用用户提供的上下文信息,包括对话历史、任务指令、文本语境,甚至示例与反馈,动态调整生成内容。这种能力使其在交互中表现出高度的适应性与针对性。

(2)所谓世界知识(world knowledge),是指大语言模型通过对大规模语料的训练,汇聚了跨语言、跨文化、跨学科的世界知识储备,涵盖自然科学与人文社会科学的广泛领域。这些知识构成了自然语言生成与理解的基础,使其能够处理从常识性问题到专业性任务的多样需求。

无论是自然语言生成,还是上下文学习,大语言模型之所以能够展现出超越性的自然语言能力,根本上依赖于其所汇聚的“世界知识”,亦即训练数据的规模与开放性。自20世纪90年代互联网普及以来,全球用户与机构持续上传文本、图像、音视频等多模态数据。这些数据在个体层面或许零散、琐碎,但在超大规模的聚合下,通过深度神经网络的模式学习与参数化表示,得以产生“智能涌现”(emergent intelligence)现象。这一现象与人类的知识积累过程具有类比性:正如学者的创造性往往源于广泛的阅读与跨领域的交流,大语言模型的创造性亦建立在对多元数据的整合与再生成之上。

因此,从人文社会的视角来看,人工智能的诞生并非偶然的技术奇点,更不是单一企业或机构的孤立创新,而是自活字印刷术发明以来,开放文化、知识共建与技术演进共同推动的历史必然。开放数据驱动的大模型技术,通过互联网平台与移动终端实现全民可及、即时交互,成为全社会成员皆可使用的“公共智能体”(public intelligence)。如果说“公共知识”阶段实现了信息与知识的获取平权,那么“公共智能”阶段则进一步推动了认知能力与思考力的平权,使人人皆可借助智能工具获得理解、分析、推理与创作的能力。由此,人类社会的知识共享机制进入了新的阶段,“公共智能”将成为继公共图书馆与公共知识空间之后,人类社会知识共享的新型基础设施。

04

智能信息环境下人文研究资料的重构

自15世纪中叶印刷术诞生以来的近六个世纪,人类信息环境的演进轨迹为我们理解智能时代的人文研究提供了重要的历史视角。现代人文学术研究的基本范式是在纸质印刷环境下逐渐确立的:通过标准化出版程序,形成了“资料收集—写作发表—出版引用—同行评议”的学术流程和相应的评价体系。这一学术范式赖以存在的基础,是以公共图书馆和学术出版体系为代表的人类知识共享机制,它为以图书与期刊为主要载体的知识进行系统性的收集、整理、传播与再生产,提供了社会性与制度性的保障。进入网络化数字化的信息环境后,信息检索效率显著提升,知识传播的速度和范围空前拓展。然而,资料的阅读、理解和消化最终仍依赖研究者个体,其阅读量和认知容量仍受限于个体生命历程与个人精力。因此,尽管网络技术极大提升了知识的可及性和流通性,学术研究的基本范式在本质上依然延续着纸本文明时期所形成的传统路径。相比之下,智能信息环境则预示着一种全新的研究格局。凭借上下文学习、世界知识储备和自然语言生成的能力,LLMs使人机协作模式发生根本性转变,从而重塑人文学科的研究工具、研究材料与研究方法。这种变革不仅体现在研究规模和效率方面,更在资料规模的穷尽性、知识单元的细粒度化,以及人机协作的共生化等方面,为人文研究开辟了前所未有的可能性。下文将结合北京大学数字人文研究中心的实践予以阐释。

4.1 资料获取的穷尽化

传统人文研究依赖学者个人所掌握的档案、文献、田野记录,其数量和范围受制于研究者的时间、精力和认知容量。在智能技术的辅助下,人文学者能够驾驭的资料规模、类型和语种得以超越个体能力的限制。具备多模态理解能力的大模型,使得对超大规模语料、图像、影音资料的检索、比对和综合成为可能,从而极大地扩展了研究的认知边界。在古典文献、古代历史等特定领域,研究者得以在几乎“全量”的资料空间中展开工作,这为学者观察宏观趋势、探索长时段历史和回应重大跨学科议题提供了新的可能。

为了全面系统地反映中国古代书目的建设和发展情况,北京大学数字人文研究中心与孙显斌合作研发了“经籍指掌:中国历代典籍目录分析系统1。它将上始《汉书·艺文志》,下讫《清史稿》的八朝官修目录加以集成,跨越汉、隋、唐、宋、元、明、清等朝代,再加上《四库全书总目》和现代编撰的《中国古籍总目》,累计299 206条古籍书目,是对中国古籍目录的一次系统整合。该系统中,在宏观层面,研究者可以观察不同历史时期生产和收藏古籍的总量变化(见图1),进而直观考察古籍总量的增长轨迹和知识体系的长时段演化,这种全景式的观察,唯有在全量数据的支持才可以实现。在微观层面,研究者可以考察任一古籍两千余年来的版本流变,追踪它在历朝目录中的记载、更名或重编;可以分析任一类目在后世的演化情况,乃至通过共现关系而关联在一起的书群的聚散离合现象。借助大数据和可视化手段,可以方便地观察中国古代两千年来古籍类目演化、版本流变和知识谱系的结构变更。

图1 历代官修典籍目录数量分布

“经籍指掌”系统汇集的是古代典籍的书目元数据信息。存世的中国古代文献数量毕竟有限的,若能将存世古代文献全部汇集起来,研究者便能在完整的资料空间中考察中国古代思想观念发生、发展与演化,从而避免个体阅读范围有限所造成的偏差。“《论语》复用可视化分析平台”2展示了这一可能性。该平台在《中国学术名著提要˙哲学卷》所收录的全部语料基础上构建,利用语义相似度计算,穷尽式地将后世文献中与《论语》原词或原句意思一致或相似的文本片段无一遗漏地找出来,既包括对原词原句的直接引用,也包括词形句形虽有变化但是意思一致或相近的间接引用,从而观察它们在后世的演化轨迹。在这一框架下,复用数据越完整,越能真实反映思想观念的历史流传全貌。据此还可以观察某一观念乃至某篇章节在不同时代的复用情形,从而揭示其在不同时代所受到的重视程度及其思想史意义(见图2)。

图2 《论语》各篇章在各时代的复用统计

4.2 资料的结构化与图谱化

人文学科的研究对象大多属于人类历史与文化的记忆材料,如史料、典籍、书画等,原本是以人类的阅读、欣赏和记忆为前提而制作与流传的。然而,当研究追溯至历史深处,需要处理考古遗存、古代文献与艺术典籍等文化遗产材料时,它们往往因年代久远、语言艰深、结构复杂而含义隐晦,即便是专业学者,也常常需要多年训练才能加以解读与阐释。资料的智能处理,核心在于将原本面向人类理解的材料重构为面向机器处理的数据。这一过程可以借助多模态大模型的文字识别、图像处理、命名实体识别与语义标注等手段,把文字、图像、影像等传统文史资料统统转化为结构化数据,并进一步构建富含语义关系的知识图谱。通过这种方式,研究者得以在大规模数据集上开展统计分析、比较研究,乃至进行推理与阐释。这为人文学科中难以直接解读的文化遗产材料开辟了新的研究路径。基于这一理念,北京大学数字人文研究中心研发了“吾与点”智能人文平台3,其核心目标在于实现人文学科研究材料的结构化与图谱化。平台内置了多种主流大语言模型的接口,研究者可以根据任务需求灵活调用合适的模型,对文本或图像等原始资料进行处理。在具体操作上,用户首先将材料上传系统,并依据研究目的自定义所需的数据结构。例如,可以设定从文本中抽取人名、地名、官职等字段,或为图像建立标注与描述的维度。平台随后调用指定模型,自动完成信息抽取与标识,随后生成二维表格,或构建包含丰富语义关系的知识图谱。这样,原本以顺序书写形式存在的文史材料,便可转化为结构化数据,实现从线性文本到表格、再到知识图谱的多层次转换(见图3)。

图3 “吾与点”平台智能生成的《史记˙孟子荀卿列传》知识图谱

更为关键的是,这一过程并不仅仅是形式上的转换,而是对材料的重新组织与语义重构(见图4)。传统文史典籍是面向人类阅读的线性文本,而研究往往需要按概念或关系进行聚合与比较。“吾与点”能够利用大语言模型的语义理解能力,从资料中抽取并关联信息,例如,识别史料中同朝为官且具父子关系的人物,汇总《三国志》中涉及战争的所有段落,或集中整理关于某一学者的记载。通过这种方式,材料得以打破原有的书写顺序,依据研究者的需求重新组合,最终形成可供计算分析的知识图谱。这不仅显著提升了人文学科的数据处理能力,也为资料的重构与深层解读提供了新的可能。

图4 吾与点平台基于“人—出生—某国”的关系对《三国志》文本聚类

4.3 知识处理单元的微细化和原子化

搜索引擎时代,机器返回文档级或篇章级的结果以响应用户查询。研究者需要进一步细读来筛选所需要的内容。进入智能时代,大语言模型凭借其语义解析能力,将分析从书籍、章节等宏观单元,进一步细化到段落、句子、词语甚至词元(token)的原子级别,从而赋予研究者精确识别跨文本的细粒度语义关联,并在大规模语料中展开定量分析和计算建模。例如,思想史研究中可追踪特定概念在不同历史语境中的微妙差异,文本学研究能够捕捉跨文本的复用、改写和风格变异,而文化传播研究则能够刻画概念、隐喻或叙事单元在跨地域与跨语种中的迁移和扩散。这种从宏观视角对大规模文化现象的考察,正体现了莫莱蒂(Franco Moretti)所倡导的“远读”(distant reading)范式——即通过计算方法揭示传统文本分析难以察觉的文学演进规律与全球性文化联系。

这一理念可追溯至基于词频统计的数字概念史研究,例如金观涛与刘青峰在“中国近现代思想史专业数据库(1830—1930)”中,对“公理”“社会”“个人”“世界”等关键概念的词频进行统计,考察它们在百年间相关文献中的传递与嬗变,进而分析词义变化所折射出的社会心理特质与时代变迁。更复杂更精细的方法是利用词嵌入表征检测跨文献的 n-gram 互文,使文本分析的尺度能够从整部文献或篇章级别下沉至段落、句子乃至词语的“原子化”层级。北京大学数字人文研究中心在一个涵盖唐以前大多数典籍及部分后世经典的大规模语料库上,检测出千万级别的互文,并通过上下文语境分析,描绘观念在超长时段中的语义演化轨迹。

例如,从《论语》中的“一箪食一瓢饮”出发,经《孟子》《新语》《盐铁论》《汉书》《论衡》等典籍不断被引用、缩写与转化,最终凝练为流传广泛的典故(见图5)。这一追踪过程展示了观念如何由具体叙事逐渐抽象化为符号化表达。又如,通过互文计算追溯《韩诗外传》中的“伪诈不可长,空虚不可守,朽木不可雕,情亡不可久”一语,发现其子句构成分别来自对《韩非子》原句“矜伪不长,盖虚不久”的化用,及《论语》原句“朽木不可雕也”的直接引用,再附上《韩诗外传》作者自撰的“情亡不可久”而形成,从而揭示了思想观念的复杂源流。

图5 采用互文计算追溯“箪食瓢饮”典故的形成

05

智能时代的研究范式

人工智能在工具层面与材料层面带来的根本性变化,必然推动人文研究范式的转型。首先,近乎全量的资料规模将极大拓展研究问题的空间,研究者得以在更大范围内提出和检验新的问题;其次,智能处理能力正在重构方法论格局,使传统人文学术依赖的“诠释”方法与算法化的“计算”分析趋向互补与融合;最后,工具的智能化发展意味着人机协作机制的演进,其终极形态将走向“人机共生”。

5.1问题空间的极大扩展

受限于个体精力与认知负荷,传统人文学者一般选择具体而微的研究问题,通过对局部材料的精读,从个案出发,以“小中见大”“一叶知秋”的方式,推演宏观结构与历史脉络。

而在智能工具的加持下,研究者能够从大规模数据集中识别模式、发现问题,并提出过去因资料规模过大而难以驾驭的问题。美国学者安德伍德(Ted Underwood)通过分析数万本文学作品,用计算方法来回答关于文学史演变的大问题,例如小说体裁如何随着时间的推移而变化、批评家对文学作品的接受模式如何演变。他在著作Distant Horizons: Digital Evidence and Literary Change中指出,通过在数以千计的文本中汇聚证据,研究者能够发现个别作品层面无法呈现的长期变化与宏观模式。

这表明,数字与智能工具使得学者能够在大规模数据集中识别规律,进而探索“大趋势”“大历史”层面的学术问题。基于大趋势的观察,研究者又可以筛选出对应的具体文本,深入细读和分析诠释,随时在宏观把握和微观诠释之间灵活切换,从而既能把握整体大势,又能穷究细节。这一范式的转型,将赋予每个研究者“致广大而尽精微”的研究能力。

5.2 诠释和计算的复合运用

传统的人文学科强调“精读”与解释。然而,正如莫莱蒂所言:“精读并不是一种可扩展的方法……远读则使我们能够聚焦于比文本更小或更大的单元:如修辞手法、主题、母题,或是文类与体系。”在人工智能技术的加持下,基于大数据的远读模式将更加流行。面对超越个体消化能力的庞大资料集,研究者需要将传统的诠释学方法与统计建模、机器学习等计算手段相结合,从而形成“量化统计—质性解释—智能辅助”相融合的研究路径。换言之,纯粹依赖解释的研究模式仍然不可或缺,但质性与量化相结合的研究范式正在逐步成为主流。这不仅要求人文学者具备一定的量化分析能力,成为具有跨学科素养的研究者,也意味着人文研究将越来越强调团队协作,人文学者与计算机科学家、数据工程师的合作将逐渐成为常态。

5.3 人机共生的协作范式

如果说搜索引擎时代的人机关系是“人机协作”,即计算机收集和提供信息并提供创作工具,而用户则理解、消化信息并自主生成知识,那么,在大语言模型的三大能力——自然语言生成、上下文理解与世界知识整合——的支撑下,人机关系将进化为“人机共生”,即人与AI共同参与知识生成,形成“增强式研究”范式。基本协作流程是:学者提出问题→ AI进行初步分析→ 学者批判性判断→ AI根据反馈进一步优化。如此循环迭代,研究者与AI不断交互从而构成一种动态的知识共创机制,显著提升知识生产的速度与质量,并拓展学术创新的可能空间。

北京大学数字人文研究中心研发的“吾与点”平台,在数据智能处理的基础上,已经升级为智能体开发平台,其核心目标是支持用户在私有数据集之上构建个性化的专属智能体。用户上传私有资料库之后,平台首先智能生成结构化表格或知识图谱,继而根据用户需求创建多功能智能体:既可作为智能助手协助用户对数据集做深度分析,亦可作为小程序向他人提供基于私有数据集的知识服务。与传统的信息传递和知识共享不同,这种“资料集—知识库—智能体”的全链路转化,为用户提供了将自己独有的分析视角、研究思路和处理逻辑也分享给他人的通道。借助这样的智能平台,用户不仅能打造学习和科研的智能助手,还可以化身为“微图书馆”,为大众提供特色服务。

06

结语

综上所述,智能时代的来临为人文学科带来了前所未有的工具与方法,使研究能够在更大规模的资料、更细微的知识单元上展开,并推动学术范式的深刻变革。然而,真正的学术洞见仍然依赖于人类所独具的历史感、价值判断、批判精神与创造性思维——这些都是任何算法无法替代的。在未来的人机共生模式中,机器的优势在于规模、速度与模式识别,而人类学者的价值则体现在问题的提出、意义的阐释以及文化与伦理的关怀。正因如此,传统人文学科的训练依旧不可或缺,文本细读、历史语境的把握、逻辑与修辞的训练,都是塑造人文学者的基本功夫,也是人机协作得以真正发挥作用的前提。换言之,人工智能的繁荣是否会削弱人文学科,在很大程度上取决于我们对人文学术根本价值的理解与坚守。如果仅把人文学科视为文字生产的工具或特定思想的附属装饰,那么其式微几乎不可避免。但如果承认并珍视人文学科在探寻人类存在意义、反思文化价值与提供伦理关怀方面的不可替代作用,就应当在智能时代更加珍视人文学术的传统价值,善用智能技术打造符合人文学术特质的数字人文研究平台,从而充分发挥人类心智与文化创造的独特力量。

*本文原标题《从公共图书馆到公共智能:公共知识媒介演化及人文学术范式转型》,有删节,网络首发于知网,参考文献从略,下载全文请登录中国知网首页检索。

阅读原文

跳转微信打开

  •  

从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络

2026-01-12 19:00 北京

编者按:

本文是北京大学数字人文研究中心副主任杨浩,在“数智时代古籍研究前沿论坛暨‘我用 AI 校古籍’(2025 年)总结会”上的主旨报告发言稿,主题为《从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络》。现将全文呈现,以飨读者。

杨浩老师梳理了“识典古籍”平台的构建逻辑与学术根基:平台深植于北大“整理国故,再造文明”的传统,借鉴《儒藏》工程的编纂经验,同时吸纳王军教授多年深耕于数字人文的理念,实现了传统学术与数字技术的深度融合。文中详解平台的创新范式、资源建设策略与国际合作格局,展现AI时代古籍整理的传承与革新。原文如下:

尊敬的各位来宾、各位学界同仁:

从燕京引得的一张张卡片,到如今云端的亿万字符,已经走过了一百年。识典古籍平台,不仅是新技术的练兵场,更是北京大学“整理国故,再造文明”精神在AI时代的重生。在这里,算法不再是冰冷的代码,因为其间流动着学术的温热;技术不再是机械的工具,因为其下奠基着深厚的传统;平台不再是静止的库房,因为其上正演绎着文明的重生。

一百年前,胡适先生振臂一呼,提出了“整理国故,再造文明”的宏愿,以“历史的眼光”、“系统的整理”和“比较的研究”,为中华典籍寻求新的研究方法论。他所构想的“系统的整理”,一为“索引式的整理”,要使古书人人能用;二为“结账式的整理”,要使古书人人能读。后世的古籍整理工作,皆是接踵此两条路径而展开。三为“专史式的整理”,构建全新的文化史体系,要“再造文明”。


随后的洪业先生的燕京引得编纂,实际上就是“索引式的整理”。1930年,他在燕京大学主持成立哈佛燕京学社引得编纂处,以标准化的严密流程,编纂了64种“汉学引得”。虽然那些泛黄的纸质索引如今已被数据库取代,但它们作为“史学现代化第一步”的功勋,永不磨灭。


百年后的今天,文明传承的责任依旧沉重,但AI技术的浪潮为“整理国故”带来了新的曙光。光学字符识别(OCR)、自然语言处理(NLP)等技术,使得高效、规模化地整理古籍成为现实。

“识典古籍”整理平台的设计并非无本之木。上世纪80年代成立的全国高等院校古籍整理研究工作委员会(简称“古委会”),在国家层面统筹规划,为高校古籍整理事业奠定了坚实的制度磐石。正是在这一深厚的学术土壤中,汤一介先生于2003年倾力开启《儒藏》工程,工程汇集五百学人,历时二十载,终成精华编二百八十二册。“识典古籍”整理平台正是直接汲取了这一宏大实践的宝贵经验。


《儒藏》编纂严格依据底本的“存真原则”,是识典古籍平台“图文对照、一字一据”的根本法则。《儒藏》编纂采用统一的体例,13道工序,批量整理的思路,是平台规模化运作的理论基础。此外《儒藏》编纂的校勘规范、标点体例、校点说明撰写、工作流程、质量控制等多个维度上,也都为识典古籍平台构建提供了最稳固的支撑。

《儒藏》的恢弘实践,是识典古籍整理平台“整理国故”的“道”,而北大王军教授在数字图书馆近二十年的深耕,则是走向这个目标的“术”。王军教授所提出的“从文献库到知识服务引擎”的理念,所设计的“图像化-文本化-数据化-知识化-智能化”的全链路升级方案,所倡导的“人机协同与大众参与”的开放生态构想,为“识典古籍”搭建起了数字世界的骨架。而字节跳动卓越的产品打磨与平台工程能力,则是将此蓝图落地的坚实底座。正是得益于这种强大的技术实现力,复杂的编纂设计思路才得以真正化为触手可及的现实。因此,识典古籍平台始终坚持“两条腿走路”:一条腿深植于传统古籍整理的学术土壤,另一条腿则坚实地踏在数字人文研究的前沿阵地。

更令人感动的是一种反哺。识典古籍整理平台脱胎于《儒藏》的经验,而今,成熟的技术又将回馈《儒藏》工程本身。2024年12月,字节跳动助力北京大学“《儒藏》数字化项目”正式启动,全本《儒藏》的编纂将利用识典古籍整理平台全面展开,这正是技术与学术最美好的双向奔赴。

在识典古籍阅读平台的设计上,也广泛借鉴了各类先行者的智慧。纵观现有的古籍数据库,可谓各擅胜场:有的专注于“纯文本”,以精审的文字和规范的编码见长;有的深耕于“商业图文”,以丰富的资料和先进的对照体验取胜;有的致力于“纯图像”,最大限度保留古籍原貌与版本价值;有的立足于“整理本”,在精准文字的基础上提供深度的阅读功能;更有的探索“众包协作”,汇聚大众之力共建共享。


识典古籍的野心,便在于博采众长,试图将这五种模式的精髓融于一炉,实现一场集大成的“融合创新”。

这一创新,具体体现为一场全方位的范式革命:

在作为基石呈现形式上,不仅坚守“左图右文”的学术严谨,更将右文创新为现代标点横排,彻底打破了“存真”与“普及”之间的坚冰;


在作为骨架文本结构上,不仅遵循国际通用的学术标准,更将每一个数字字符与原始图像字形精确锚定,真正实现了“字字有据”的深度关联;


在作为血肉阅读功能上,不仅满足基础的检索需求,更利用AI技术让静态文本“活”了起来,人名可点、古文可译、疑问可答,赋予了古籍以鲜活的生命;


在作为灵魂参与模式上,不仅提供单向的知识服务,更通过“我是校书官”平台,将被动的阅读者转变为主动的校勘者,让每一位参与者都成为文明传承的在场者。

为了支撑这一革命,平台上设计了贯穿全程的八大核心环节,并设立了“AI整理、粗校、精校”三级标准,实现了“先快速上线、后持续优化”的迭代模式。这彻底改变了传统出版“一经刊印、难以更改”的静态范式,让古籍整理从“刻石成碑”进化为“生生不息”的动态过程。


为将这一理念落到实处,我们探索出了一套多元化的资源建设策略,针对不同古籍的特性,施以最合适的工序。其一为“AI整理”,如同先锋部队,利用成熟的OCR与自动结构识别技术,以雷霆万钧之势,迅速将海量文献转化为可用的数字底本。其二为“批量加工”,如同机械化军团,将线下批量处理的数字化成果,通过自动化脚本,快速、成建制地导入平台。其三为“精校加工”,如同特种部队,在平台上对重要典籍进行多轮次、出版级别的精细打磨,攻克学术难关。最后,也是最具活力的一环,是“众包校对”,也即“我是校书官”模式,则如星火大军,聚则一团火,散则满天星,汇集天下之智,积众力以成浩瀚。


通过这四种建设路径,平台已完成4万余种古籍的数字化,其中对《四库全书》、《四部丛刊》、汉文大藏经(六种版本)、百衲本二十四史等核心文献进行了精准的文字校对,并施以现代标点。平台还系统收录《永乐大典》、《道藏》以及藏外道书,以及CADAL项目的上万种古籍。从通用典籍到特藏资源,一个完整的古籍数字体系已初具规模。

“学术乃天下之公器”。2023年,哈佛燕京图书馆将馆藏9000余种珍贵中文善本古籍的全部数字化书影无偿捐赠给北京大学。这不仅是数据的交接,更是洪业先生与哈佛燕京学社合作历史的延续。这些数据整理后将无偿回馈全球,真正实现了资源的闭环。继哈佛之后,普林斯顿大学、法国国立国会图书馆、CADAL项目等海内外重磅机构也纷纷加入。数据的流动,让全球汉学界紧密相连,一个开放、共享、互利、共赢的国际合作网络已然成形。


回望来路,可以清晰地看到一条学术演进的脉络:从胡适的倡导,到洪业的实践,再到汤一介先生的规模化探索,最终汇入今日识典古籍的智能化浪潮。

然而,“整理国故”并非终点,其目的在于“再造文明”。未来,平台将持续加强资源建设的数量与质量,推动全球中华古籍的数字化回归,开发各类面向学术研究的智能工具,支持跨学科、跨机构的协作研究。平台的愿景,是将识典古籍建设成为全球汉学研究的枢纽。在这里,资源得以汇聚,学者得以协作,思想得以碰撞,文明得以赓续。

《诗》云:“周虽旧邦,其命维新。”

识典古籍,正是以今日之技术,激活传统之血脉,在继承中创新,在开放中前行,在共享中致远。

谢谢大家。


北京大学数字人文研究中心副主任杨浩



阅读原文

跳转微信打开

  •  

“我用 AI 校古籍” (2025年)总结会圆满落幕,“法藏敦煌大众整理”计划同步启动!

2026-01-11 15:47 北京

2025年1月10日,由全国高等院校古籍整理研究工作委员会(简称“古委会”)主办,北京大学中国语言文学系古典文献教研室、北京大学数字人文研究中心与字节跳动公益联合承办的数智时代古籍研究论坛暨 “我用 AI 校古籍”(2025年)总结会在京圆满落幕。该会议由字节跳动公益团队策划并筹办,核心聚焦“我用AI校古籍:‘我是校书官’古籍大众智能整理计划”的亮眼成果,同步总结近三年“识典古籍”平台建设成果。来自全国各地高校、图书馆、出版社的近300名学者及古籍爱好者报名参会,北京大学党委副书记姜国华,教育部社科司、文旅部公服司、北京市委宣传部、古委会秘书处及抖音集团相关领导出席大会并致辞。


在字节跳动公益基金的资助下,北京大学与字节跳动联合打造的“识典古籍”平台,既是“我用 AI 校古籍”活动的核心支撑,也是全球规模领先的古籍智能化整理与数字化阅读平台。经过近三年建设,平台PC端网站与移动端小程序同步向全球开放,已上线4.7万部古籍资源,月服务用户超240万人,日均检索量达35万人次,总访问量突破1.47亿次。

平台深度整合人工智能技术,构建起从OCR文字识别、自动标点、专名提取到多版本智能校勘的全流程解决方案,彻底打破古籍整理的专业门槛,让普罗大众参与文化传承成为可能。

2024年7月,由古委会主办、北大数字人文研究中心与字节跳动公益联合发起的“我是校书官”古籍大众智能整理活动正式启动。依托“识典古籍”平台的技术支撑,活动累计吸引近3.8人参与,其中高校学生近2万人、覆盖全国近1500所高校,社会公众近1.8万人,形成学界与社会同频共振的参与格局。

截至目前,活动已完成2万余部古籍的整理工作,粗校字数达15亿,精校字数达1亿,整理效率较传统模式提升数十倍。活动全程获得新华社、人民网等权威媒体聚焦报道,成功让古籍整理从“冷门绝学”转变为全民关注、全民践行的文化热潮。

目前,已有四千余个团队通过平台参与在线古籍整理,既包括北京大学《儒藏》编委会、清华大学人文学院、暨南大学文学院等专业科研力量,也涵盖多家古籍出版社及民间爱好者团队。“人机协作”的古籍整理模式,不仅有效提升了古籍整理效率,拓展了古籍整理参与主体的范围,也为专业人才培养和跨界协作提供了新的实践空间。部分高校已将“识典古籍”平台引入相关课程教学,让学生在实操中培养古籍整理技能;社会公众的持续参与也汇聚起推动古籍数字化整理与传播的社会力量,让古籍文化以更贴近当代生活的方式走进公众视野。

北京大学党委副书记姜国华在致辞中指出,作为全国首个设立古典文献学专业的高校,北京大学始终坚守古籍整理学术高地。新时代北大携手字节跳动公益打造“识典古籍”平台,以科技搭建传统与现代、专业与大众的桥梁,为古籍数字化筑牢技术底座并推动大众参与。由古委会、北大数字人文研究中心与字节跳动公益联合主办的“我用 AI 校古籍”计划,打破专业壁垒,让学子与大众共同守护文脉,既提升了整理效率与质量,也探索出专业教育与社会参与深度融合的新路径。

古委会秘书长卢伟在欢迎致辞中表示,古委会成立40余年来,统筹高校古籍整理、研究与人才培养。 “我用 AI 校古籍” 活动开辟人机协同新途径,希望未来秉承坚守传统、跨界融合的理念,共推新时代古籍事业高质量发展。

抖音集团企业社会责任部总经理杨洁在欢迎致辞中表示,字节跳动秉持务实的公益理念,聚焦古籍修复、数字化与活化传播,构建了从古籍修复、数字化到活化传播的全链条,通过抖音等平台让古籍内容触达大众,形成技术赋能与大众传播的良性生态,推动传统文化融入现代生活。

北京大学数字人文研究中心常务副主任杨浩的主旨报告《从燕京引得到识典古籍:现代科学方法整理中国古籍的学术脉络》,深情回顾百年学术传承:从胡适先生倡导“整理国故、再造文明”,到洪业先生创办“燕京大学引得编纂处”,再到汤一介先生主持《儒藏》工程,北大始终坚守文脉守护的使命。到如今北大数字人文中心联合字节跳动公益打造“识典古籍”平台,并发动 “我是校书官” 大众整理活动,正是这份传承在AI时代的创新延续。

“识典古籍”已成为全球规模最大的古籍智能化整理与数字化阅读平台。凭借平台在古籍保护与传播领域的广泛影响力,继哈佛燕京图书馆将所藏全部善本古籍数字化拷贝捐赠北大数字人文研究中心之后,法国国家图书馆于2025年11月也将所藏全部敦煌文献的数字化拷贝捐赠予北大数字人文研究中心。

敦煌遗书是中华文化的瑰宝,也是习近平总书记十分关心的流失海外典籍。姜国华副书记在致辞之后郑重宣布:“千年敦煌、指尖重光”——法藏敦煌大众智能整理计划正式启动!该计划将依托“识典古籍”平台,邀请广大志愿者参与敦煌写卷的智能整理,为全球学界提供开放共享的优质文化资源,助力敦煌学研究再上新台阶。

在全场瞩目下,北京大学党委副书记姜国华、教育部社科司科研处长卢丽君、古委会秘书长卢伟、北大数字人文中心主任王军、抖音集团企业社会责任部总经理杨洁共同为“千年敦煌、指尖重光——法藏敦煌大众智能整理计划” 按下启动键。

在发言最后,姜国华副书记倡议到:老师们、同学们、朋友们,面向未来,古籍事业的发展既需要专业学者的深耕、技术力量的赋能,也需要企业的公益担当,更离不开社会公众的广泛参与。北京大学将继续发挥学科交叉优势,与古委会、字节跳动及社会各界携手并进,推动古籍保护事业迈向新高度,让千年文脉在智能时代绽放出更加璀璨的光芒!


阅读原文

跳转微信打开

  •  

讲座回顾:AI时代的人文研究如何重构研究流程?

2026-01-09 10:01 北京

数智时代,ChatGPT等大模型呼啸而来。微软报告中 “历史学家91%的工作技能可被AI辅助” 的数据,焦虑似乎在所难免。当技术浪潮席卷,传统的治学方式是否即将被颠覆?在刚刚结束的教育部虚拟教研室“AI赋能课程建设”系列公益讲座中,北京大学数字人文研究中心主任王军教授中国社科院大学数字史学研究中心主任向静老师,联袂带来了一场关于“数智时代史学重构”的深度对话。

王军教授在开场便直击核心:这91%并非替代,而是解放。如果学者能将繁重的资料清洗、整理工作交给AI,便能从文献资料的“伏案梳理者”,转型为研究逻辑的“框架构建者”。而实现这一身份跨越的关键,正是一套能让人文材料与 AI 技术精准衔接的专业工具 。本场对话的核心载体吾与点智能数据平台,恰为人文研究在数智时代的转型发展提供了这样的全新路径。

祛魅与赋能


AI是概率而非真理

面对ChatGPT等通用大模型的普及,王军教授首先为AI时代的焦虑祛魅。这些看似无所不能的工具,本质上是“文字接龙”的概率模型。它们追求语言的通顺连贯,却缺乏对事实的敬畏与考证意识。但这并不意味着人文研究要对技术敬而远之。恰恰相反,大模型基于海量数据的“涌现”能力,能将学者从资料搬运、清洗、整理等繁重的机械劳动中解放出来,让研究者回归问题意识与价值判断这一人文学科不可替代的主体性。

吾与点智能数据平台正是为这种人机协作的赋能需求而构建的。不同于通用大模型,它深度融合大模型技术,形成专属人文研究的技术解决方案:既能高效处理图像、PDF、青铜器拓片等多模态信息,又能将零散的非结构化文本转化为结构化数据与知识库,更创新性地搭载了智能体(Agent)封装功能。研究者可将自有史料上传至平台处理,生成专属智能研究助手。智能体既能基于材料回应学术问题,又能提供完整的信源索引,还能实现关系网络、地理空间等多维可视化呈现,让静态的研究成果具备可交互性,助力学术探索。

实践见真章

D

从史料到洞见的智能跃迁

工具的价值,终究要在实践中检验。向静老师带领团队利用吾与点智能数据平台开展的两项数字史学研究,生动展现了平台如何助力人文研究从材料处理迈向洞见生成。

明代宦官墓志铭研究中,面对晦涩难懂的文言文本和海量信息,传统手工摘抄往往耗时数月且易遗漏关键细节。而通过「吾与点」平台的多模态OCR,平台能直接识别墓志图片,自动提取墓主姓名、籍贯、官职升迁路径等核心字段,快速生成结构化表格。

更令人惊艳的是其推理性考证能力:当史料仅记载某宦官 “早以俊秀”却无具体年份时,平台会调用大模型,结合墓主生卒年及明代选拔惯例,推算出入宫年龄约为4-20岁,并明确标记为 “推测”,填补了史料阙如。对于宦官复杂的官职迁转记录,平台还能自动生成嵌套列表,清晰呈现每一次升迁的时间、职位与部门,为后续量化统计做好充分准备。


《明代名人传》的研究中,研究团队先在平台中定义了“同乡”“门生”“政敌”等关系类型,平台自动抽取人物实体并用小程序功能实现关系网络,直观呈现出15世纪江西籍官员政治集团。那些隐匿在浩如烟海史料中的地缘纽带与政治关联,在可视化图谱中一目了然,不仅验证了传统史学关于地缘政治的定性描述,更让隐性的历史网络成为可分析、可佐证的研究对象,推动研究从表层文本解读走向深层关系挖掘。

这场技术赋能的背后,是人文研究范式的深刻变革。王军教授在讲座中提出的观点引人深思:如果说传统学术传承强调“把思想写下来”,那么在智能体时代,更重要的,或许是把思想转化为可重复运行、持续演化的智能结构。「吾与点」的目标,就是将学者的治学材料、知识积累,乃至思考方式,固化为智能体,进而分享复用并持续迭代,使学术智慧突破时间与空间的限制,成为可交互、可演化的知识系统。

这种变革正在重塑做学问的方式:原本耗时数月的资料处理,现在经前期规则设定后,借助平台即可大幅压缩机械劳动耗时。研究过程从静态的个体探索,转变为“提取 - 校验 - 修正 - 再提取”的迭代式人机协作。研究成果也从单一的静态论文,延伸为可随时调用、随时问答的智能知识载体。正如向静老师所说,对于人文研究者而言,技术的价值在于让我们能将最核心的精力集中在创造性、开拓性的学术探索上,在坚守人文精神与学术底线的同时,高效实现从材料到“洞见”的跨越。

🔗 相关资源

  • 平台体验:吾与点智能数据平台

  • 讲座来源:教育部信息化教学能力提升课程群虚拟教研室“AI赋能课程建设系列公益讲座”

  • 讲座回放:敬请关注“中国高等教育培训中心订阅号”


Widen Your Data


让「吾与点」成为你的学术伙伴

吾与点智能数据平台目前已面向全网开放,无需复杂的技术基础,即可轻松上手体验材料处理、知识库构建、智能体定制等核心功能,让AI真正服务于学术研究与教学创新,助力每一位研究者高效挖掘材料价值、产出深度洞见。

平台网址:

https://www.wuyudian.net/

注册登录即可开启你的智能探索之旅。在这里,传统与创新碰撞,让人文研究在数智时代焕发新的生机与活力。

更多精彩案例与教程请关注 北京大学数字人文中心 B站账号:


阅读原文

跳转微信打开

  •  

工作坊回顾:用「吾与点」解锁数字人文研究新可能

2025-12-31 19:49 北京

2025年12月20日-21日,北京大学数字人文研究中心团队受邀赴内蒙古师范大学,成功举办“从材料到洞见——基于「吾与点」的数字人文实践”专题工作坊。

为推动智能技术与数字人文研究的深度融合,破解传统人文研究中的数据处理瓶颈,2025年12月20日至21日,北京大学数字人文研究中心团队受邀赴内蒙古师范大学,成功举办“从材料到洞见——基于「吾与点」的数字人文实践”专题工作坊。本次工作坊面向科学技术史的十几位同学们,以实操教学与学术研讨相结合的形式,系统分享了智能数据工具在人文研究中的应用路径,为参会师生提供了兼具理论性与实践性的学术指导。


工作坊聚焦「吾与点」智能数据平台在数字人文领域的实战应用,通过核心案例手把手教学,最终实现智能数据生成与数字人文可视化双重目标。本次工作坊以数据生成、分析阐释、成果输出为清晰实践路径,通过理论讲解、跟做示范 、自主实践、汇报点评的四步教学法,助力学员实现从技术零基础到独立完成小型数字人文项目的实践。

智能表格数据处理


工作坊伊始,北京大学数字人文研究中心团队首先对「吾与点」智能数据平台进行全景介绍,细致演示智能数据生成全流程,指导学员完成示范项目创建、导入与字段设计,讲解提示词(prompt)撰写技巧,帮助大家通过精准指令实现关键信息抽取。

随后,授课团队围绕墓志铭信息抽取、PDF文本识别、宋代画作元素抽取、嵌套表格信息抽取四大高频研究场景展开深度演练,针对性解决非结构化文本处理、PDF信息抽取、图像元素分析、复杂关联信息挖掘等人文研究痛点,让学员直观感受智能工具的学术赋能价值。

tips:「吾与点」帮助中心的“应用案例”中有工作坊案例详情与相应配置,吾与点新手用户可前往查看

全链路学术辅助工具


除基础数据处理外,工作坊还向学员们深度讲解了平台智能研究助手功能,构建完整研究闭环:

数据集:可将多个项目的表格数据集中管理,支持字符匹配、语义搜索、混合搜索等智能检索方式,还能自定义显示/隐藏列、查看版本信息,快速定位核心研究资料

知识库:可实现多个数据集的跨项目整合,无论是公开共享还是私有管理均能灵活适配,且操作界面与数据集保持一致,降低跨功能学习成本。

智能体创建:基于用户自主构建的数据集与知识库,打造专属学术问答助手,实现以自有材料为基础,精准响应个性化研究需求的智能交互。用户可将前期处理完成的结构化数据,或跨项目整合的知识库构建为智能体,让问答完全基于自身研究材料展开。

小程序生成:可关联多元数据集与知识库,通过自然语言描述需求即可生成独立可视化应用,支持柱状图、折线图、地图展示等多种呈现形式,且内接CBDBCHGIS主流数字人文数据库,能够适配学术论文发表、项目汇报、成果展览等多元场景。

除了吾与点智能数据平台,团队还向学员讲授数字人文核心分析方法,详细拆解了社会网络分析(Gephi)与地理空间分析(QGIS)的基础操作与理论应用。此外,在知识图谱构建模块,依托吾与点智能标注平台https://wyd.pkudh.net/),团队讲解了图谱本体的核心概念,指导学员标注数据后自动构建知识图谱,用于梳理概念关联、还原知识脉络。

自主实践阶段,学员们围绕自选主题设计字段、导入材料,并对进一步数据处理与研究展开讨论,授课团队全程巡回辅导,及时解答技术操作与研究思路疑问。

本次工作坊的成功举办,搭建了北京大学数字人文研究中心与内蒙古师范大学在数字人文领域的学术交流桥梁,有效推广了智能数据处理技术在科技史研究中的应用经验。参会师生普遍反馈,通过本次活动系统掌握了「吾与点」平台的核心操作方法,拓宽了数字人文研究的技术视野,为后续开展相关研究提供了重要的技术支撑与学术思路。

吾与点智能数据平台:

为数字人文研究提供全流程服务


本次工作坊以「吾与点」作为基础培训平台,主要基于以下原因:

多模型适配:提供多款先进模型选择,根据任务复杂度(文本/视觉/推理)灵活搭配,平衡效率与成本

功能全面性:覆盖数据处理、分析、可视化、成果展示全链路,支持数据集、知识库、智能体、小程序一站式构建

适配性优化:面向专业研究场景,操作逻辑贴合学术研究流程,需掌握基础操作规范,可依托操作指南等配套资源,高效跨越学习门槛,实现零代码完成专业级数据处理任务

让研究流程更“轻一点”

让问题本身更“重一点”

吾与点智能数据平台:

https://www.wuyudian.net/

吾与点帮助手册:

https://help.wuyudian.net/docs/user-guide.html

更多关于吾与点的使用教程与使用技巧,敬请关注北京大学数字人文中心B站、小红书账号。

阅读原文

跳转微信打开

  •  

「原境·入梦牡丹亭」亮相北京大学“游园听梦”牡丹亭新媒体沉浸式数字艺术展

2025-12-11 17:30 北京

pkudh“原境智生”系列之“原境·入梦牡丹亭”,亮相江西抚州文昌里——北京大学“牡丹亭”新媒体沉浸式数字艺术展!

2025年12月9日,北京大学“游园听梦”牡丹亭新媒体沉浸式数字艺术展在江西抚州文昌里历史文化街区美术馆开幕!本次展览由北京大学文化传承与创新研究院主办,北京大学数字人文研究中心参与协办与数字交互内容呈现。

在这场以《牡丹亭》为核心的数字艺术实践中,北大数字人文研究中心带来了自研的AI生成式互动体验——「原境·入梦牡丹亭」,尝试让观众在汤显祖故里完成一次从“看画”到“入画”的旅程。我们尝试用更贴近古典审美的生成方法,把《牡丹亭》的历史图像与当代公众的参与体验连接起来,让经典在当下变得可理解、可进入、可传播。

版画为径:

在长廊里与《牡丹亭》相遇

走进抚州文昌里历史文化街区的沉浸式展览,观众会先进入一条颇具叙事氛围的长走廊。这里不是普通的图片展示区域,而是以晚明刊本徽派刻书家黄鸣岐《牡丹亭还魂记》版画为视觉线索的版画长廊。图像在空间中铺陈出人物、场景与情感张力,也为观众打开一种更直观的入戏路径:先在视觉上抵达《牡丹亭》的梦境结构,再在展览动线中逐步靠近叙事核心。

「原境·入梦牡丹亭」就设置在这条长廊之中。观众一边穿行于古代版画构成的叙事空间里,一边被邀请走向长廊中的一台竖屏一体机。在这里,观众不再只是“看画的人”,而是可以选择成为“画中之人”,把自身作为进入经典的一条当代通道。

杜丽娘入梦(左)、杜丽娘寻梦(右)

十秒入梦:

一次简单的生成式体验

「原境·入梦牡丹亭」的操作方式非常直观。参与者站在竖屏一体机前,面对外接摄像头,轻触屏幕上的“入梦”按钮,系统捕捉人物图像并进行生成。随后屏幕上出现一幅新的画面,观众被“转绘”进了与《牡丹亭》相关的版画场景中。

首页(左)、交互动画与讲解(右)

为强化人物与情境的对应关系,团队依据参与者的性别在多幅底图中进行匹配与呈现,其中包括“杜丽娘入梦”“杜丽娘寻梦”“柳梦梅借住”3个典型情境。短时交互由此获得明确的角色联想与情境指向,使观众能够在有限时间内建立“我在《牡丹亭》里”的体验认知。

入梦:杜丽娘入梦(左)杜丽娘寻梦(中)柳梦梅借住(右)

不止古风感:

我们为何选择“转绘”路径

古风AI在大众经验中常被理解为对现代照片加上笔触与色彩的复古滤镜。然而,中国古画在空间组织、人物动作与面部表达上具有自身的审美技法。若将现代摄影的焦点透视、写实面部与动作幅度直接叠加在古画笔触之上,往往会产生视觉违和。

基于这一判断,「原境·入梦牡丹亭」选择以“转绘”作为主要实现路径。项目通过人物特征的锚点建立识别关联,同时给予模型更大的创作自由,使生成结果更贴近中国古画散点透视、含蓄动作与重神韵的表达传统。为维护版画长廊的整体古韵与审美一致性,生成形象保留参与者现代服饰,但在面部与整体气质上更强调古画写意风格。这一选择兼顾了当代身份的可识别度与历史图像语境的整体协调。

现代装扮(左)转绘为古画风格(右)

面向特定文化对象的活化


作为“原境”系列的一次新实践,「原境·入梦牡丹亭」并不只是一个好玩的互动装置。我们更希望它回应几个更具体、也更贴近真实展陈的问题:

1

AIGC如何不止停留在通用审美,而能深入具体的文化与艺术传统?

2

生成式互动怎样与既有史料与展陈叙事协同?

3

当项目面向图书馆、博物馆、景区等公共文化场景时,能否形成可复制、可运营的技术与叙事实践路径?

在抚州文昌里,「原境·入梦牡丹亭」给出的一个答案是:让AIGC从通用生成转向特定文化对象的定制化活化。在充分尊重文本与图像传统的前提下,我们尝试把技术力量更温和、也更细致地嵌入地方文化与公共记忆之中,让观众的参与成为理解经典、感知美学的一种当代方式。

对北京大学数字人文研究中心而言,本次展览既是一场落在具体地点的展陈实践,也是一次面向未来的路径验证。我们期待把特定文化的定制化生成继续推进到更多公共文化空间之中,为不同的地方文化资源、不同的经典文本设计更贴合其审美语法与传播需求的生成式体验。

在汤显祖的故乡,《牡丹亭》的梦境与至情通过新媒体再次被点亮。观众与古画、与故事、与自我,也在十几秒钟的“入梦”中重新关联。这一次,观众不再只是看一场梦,而是被邀请走进梦里,成为梦境叙事的一部分。


撰稿、排版 | 田梦怡


阅读原文

跳转微信打开

  •  

【成果亮相】北大数字人文研究中心创新成果亮相中国数字人文年会(CDH2025)

2025-12-04 19:00 北京

pkudh自研创新成果——「原境智生」入画体验项目、吾与点智能数据平台,亮相2025年中国数字人文年会数字集市!

11月28日至12月1日,“人文智变:数字人文的智慧奇点”学术研讨会暨2025年中国数字人文年会在中山大学隆重召开。作为中国数字人文领域年度规模最大、影响力最广的学术盛会,本届年会吸引了来自全国高校、科研机构、文化机构的400余位专家学者参加。

北京大学数字人文研究中心受邀参会,中心团队在“数字集市”展区展示了两项创新成果,以技术实践回应“人文智变”主题,引发广泛关注与热烈反响。

CDH2025

数字集市:

两大创新成果集中展示

在善思堂“数字集市”展区,北大数字人文研究中心展示的「吾与点」智能数据平台「原境·入画」两项自研成果吸引了众多参会者驻足体验与交流。

吾与点智能数据平台:

让数据“活过来”!

展台前人流不息,参会者对「吾与点」平台的智能体和小程序功能表现出浓厚兴趣。中心团队现场演示了「吾与点」这一专为数字人文研究打造的通用型智能数据和知识服务平台。

平台的核心能力在于深度整合大语言模型(LLM)与多模态AI技术,实现对文本、图像等多元材料的结构化信息抽取(如文本关键信息提取、古籍插图元素识别等)。在此基础上,平台支持将用户数据快速构建为可检索的知识库,并提供用户专属的个性化交互智能体,实现基于自然语言的精准信息获取和智能问答服务。同时,「吾与点」支持用户使用自然语言快速生成小程序,把复杂的数据转化为直观的可视化表达,让研究成果“看得见”!

原境智生:

古今共生的沉浸式文化体验

「原境·入画」交互装置同样引发热烈反响。这个基于《韩熙载夜宴图》等传统绘画资源开发的多模态互动系统,让参会者能够跨越千年,与古画中的人物同框共生。

体验者只需站在交互屏幕前拍摄照片,系统即可将现代影像实时转换为夜宴图风格人物形象,并融入听乐、观舞、歇息、清吹、送别五幕场景。这种古今共生的体验设计,让观众不仅看见历史,更能参与历史,成为古画叙事的一部分。

step1:转绘为夜宴图风格人物形象

step2:形象融入《韩熙载夜宴图》的场景

两天展示期间,超过一百位观众亲身体验了这项技术, 对装置的高度沉浸感和交互设计的新颖性表示赞赏。这项成果将前沿的AIGC技术与中华传统文化进行创造性结合,为古籍活化和文化遗产展示提供了面向未来、重视用户体验的创新思路。


技术赋能,共绘数字人文未来


北京大学数字人文研究中心的两项展示,从知识服务深化与文化互动创新两个维度,呼应了本届年会“人文智变”的主题。从「吾与点」平台的智能化工具链,到原境智生的多模态交互体验,中心始终坚持“以技术赋能人文,让文化走向大众”的理念。

未来,中心将继续深化平台建设,拓展应用场景,与全国数字人文同仁一道,在智能时代为文化传承与创新贡献力量,推动中国数字人文事业迈向新高度。

撰稿 | 张诗曼

排版 | 田梦怡

阅读原文

跳转微信打开

  •  

「吾与点」智能研究助手功能发布!

2025-12-01 18:01 北京

北京大学数字人文研究中发布「吾与点」智能研究助手功能!

11月22日上午,北京大学数字人文研究中心举办了「吾与点」智能研究助手功能发布会。发布会通过功能讲解与精英学者案例分享,系统展示了基于数据集、知识库、智能体与小程序构建的智能研究助手。

发布会回顾

发布会以从材料到洞见:智能工具赋能的人文研究为主题,由北京大学数字人文研究中心主任王军教授开场致辞,他指出需将通用大模型能力转化为人文研究、智慧图书馆的场景化工具,并强调「吾与点」聚焦私有数据与专属需求,为学者打造从材料处理到洞见生成的全流程智能助手。

随后,中心研究助理刘凯然介绍并演示了「吾与点」围绕数据集、知识库、智能体、小程序四个模块搭建的研究助手。

随后,三位专家学者为我们展示了智能研究助手在不同人文场景中的实践

一、《明代名人传》智能分析


主讲人:向静(中国社科院大学数字史学研究中心主任)

以《明代名人传》为素材,展示从纸质文本→OCR 识别→结构化数据→智能体问答→小程序可视化的完整流程。重点分析15世纪江西籍名人的社会网络(亲属/政治/师承关系)与地理分布,对比吾与点2.0与3.0在数据编码、消歧上的优化。

点评人:陈松(巴克内尔大学东亚研究系副教授)

肯定「吾与点」在结构化数据提取、关联分析上的优势,同时提出疑问:如何解决同名人物消歧、地理可视化中本地近距离关系的呈现问题,为后续功能优化提供方向。

二、《论语义疏》智能分析


主讲人:金珠玉(首尔大学中文系博士生)

聚焦南北朝皇侃《论语义疏》,核心解决两大问题:一是知不足斋本与怀德堂本的版本对读(文字差异、引用文献比对);二是提取亡佚文献。通过智能体快速定位引用内容,生成差异分析表格,直接服务博士论文研究。

点评人:许喆(釜山大学占毕斋研究所研究员)

围绕 “「吾与点」对研究的实际帮助”“功能改进建议” 提问。

金珠玉老师回应:智能体极大提升文献提取效率,期待未来优化引用内容识别功能。

三、哈佛燕京图书馆书目智能体


主讲人:杨浩(北大数字人文研究中心副主任)

基于哈佛燕京图书馆善本古籍书目,演示结构化数据的智能应用:查询宋辽善本、女性作者作品、地方志中的自然灾害记载,甚至分析明代小说出版中心分布。借助CBDB与CHGIS,实现作者社会关系、出版地等的可视化呈现。

点评人:黄晨(浙江大学图书馆副馆长)

黄晨馆长点赞「吾与点」实现众包从在地到在线、知识组织从离散到关联,契合图书馆 “辨章学术、考镜源流” 的核心需求。

此外,复旦史地所李爽老师分享复旦史地所CHGIS数据升级计划,将持续为「吾与点」提供更精准的历史地理支持。

回放提示:

发布会回放已上线“北京大学数字人文中心”B站账号,大家可以关注查看!

优秀案例征集活动

现面向所有用户与研究者,征集基于「吾与点」完成的研究案例。

 提交内容:


  1. 吾与点数据集/知识库/小程序等的链接或关键界面截图;

  2. 约 1000 字的文字说明,包括:

● 研究背景与问题;

● 材料与数据来源;

● 阶段性结果或初步发现。

投稿方式


欢迎将案例投递至邮箱 

contact@wendianyidu.com

● 入选展示的案例将获得 20000 积分奖励,并在吾与点官网案例页面展示;

● 后续工作坊、实践分享、实习招募等活动中,我们也会在同等条件下优先考虑有入选案例的同学与团队。

期待看到更多围绕真实研究问题、结合数据集、知识库、智能体和小程序展开的实践!


让研究流程更“轻一点”

让问题本身更“重一点”

如果你已经有一个正在思考的问题,或者手边有一批尚未整理完的材料,不妨就从现在开始——

打开「吾与点」,数据集、知识库、智能体小程序为你的问题搭建一个研究小项目。

期待在不久的将来,在吾与点官网看到你的项目出现在优秀案例之中。

「吾与点」“帮助手册”与“智能研究助手视频教程”说明置于本篇推文下方,欢迎大家查看!

撰稿 | 田梦怡

排版 | 梅紫萱 田梦怡

阅读原文

跳转微信打开

  •  

速览!「吾与点」智能研究助手视频教程&帮助手册

2025-12-01 18:01 北京

如果你刚刚通过发布会认识「吾与点」,或者已经注册但还没来得及认真摸索,这篇就是专门为你准备的入门索引!

我们把目前已经上线的学习资源整理在一起,方便你一次收藏、慢慢使用。

图文帮助手册

一步一步操作

吾与点帮助中心(用户手册)

https://help.wuyudian.net/

在「吾与点」官网的「帮助中心-使用指南」中,我们提供了图文版用户手册进行按模块整理的操作步骤示例。

用户手册适合愿意“按图索骥”的使用者:每个功能点都有对应的说明与截图,可以边看边操作,一步步搭建属于自己的项目。

B站教程视频

看着操作更轻松

如果你更习惯“看别人点哪里、自己跟着点”

可以前往 

北京大学数字人文中心 B站账号

  • 已上线的「吾与点」使用教程 视频合集,将带你完成一个完整的数据智能处理流程;

  • 后续还会根据大家的问题和需求,陆续补充更多“使用小技巧”和场景化教程。

公众号连载

功能解读 + 案例分享

 数字人文开放实验室 

及 吾与点智能数据平台 公众号中

我们陆续发布或即将发布:

  • 智能研究助手功能的细化解读

  • 真实研究场景中的案例分享

  • 活动通知与优秀案例征集信息

这部分内容更接近研究者视角,既保留方法论的严谨,又尽量呈现工具在具体项目中的作用。


上面这些手册、教程和案例,希望为研究者在使用「吾与点」时提供若干入口。

你可以从帮助手册或教程视频开始,慢慢搭建起属于自己的智能工作台,并在真实的研究实践中,持续修正和丰富它。

期待在未来的优秀案例与学术项目中,看到你如何使用「吾与点」,回应人文与社科提出的新问题!


撰稿 | 田梦怡

排版 | 邓茜珈

阅读原文

跳转微信打开

  •  

「吾与点」智能研究助手发布会预告!

2025-11-20 19:00 北京

随着人工智能技术的飞速发展,大语言模型正在深刻变革学术研究的范式。人文研究领域拥有海量的非结构化材料,如何利用智能工具辅助研究者更高效地从繁杂的“材料”中挖掘深层的“洞见”,已成为人工智能时代数字人文发展的关键所在。

为应对这一挑战,北京大学数字人文中心历经数月研发,正式推出「吾与点」零代码智能体构建平台。用户只需准备好自己的材料,无需任何编程即可生成专属知识库与智能体,让人人都能拥有自己的智能助手。

本次发布会旨在正式推出智能研究助手功能,展示其如何赋能人文研究,并邀请精英学者分享前沿研究案例,与学界同仁共同展望 AI 技术与人文学术深度融合的未来。

       发布会议程

发布时间


2025年11月22日(周六) 

9:00-11:00

现场直播


哔哩哔哩

搜索“北京大学数字人文中心”

观看直播

小红书

搜索“北京大学数字人文研究中心”

观看直播

会议议程


9:00-9:05   致辞

王军(北京大学数字人文研究中心主任)

9:05-9:20 「吾与点」智能研究助手功能展示

刘凯然(北京大学数字人文研究中心研究助理)

9:20-9:40   《明代名人传》智能分析

主讲:向静(中国社会科学院大学数字史学研究中心主任)

点评:陈松(巴克内尔大学东亚研究系中国史副教授)

9:45-10:05   《论语集注义疏》智能分析

主讲:金珠玉(韩国首尔大学中文系博士生)

点评:许喆(韩国釜山大学占毕斋研究所研究员)

10:10-10:30   哈佛燕京图书馆书目智能体

主讲:杨浩(北京大学数字人文研究中心副主任)

点评:黄晨(浙江大学图书馆副馆长)

10:35-10:45   「吾与点」未来开发计划

王兆基(北京大学数字人文研究中心博士生)

10:45-11:00   在线答疑

主持人:

田梦怡(北京大学数字人文研究中心研究助理)

功能展示

智能研究助手不是单一的AI工具,而是由数据集、知识库、智能体、小程序构成的全流程研究工具。它可以将复杂的学术资料转化为可检索、可对话、可视化的智能资源,改变学者与文献资料的交互方式。

智能数据检索让数据“找得到”

「吾与点」的数据集知识库功能,支持用户基于自己的项目和数据自定义构建数据集合 。通过全文搜索、语义搜索和混合搜索,实现对用户数据的精准检索和多维度快速匹配,大幅提升数据管理与查询效率。

自然语言问答:让数据“会说话”

「吾与点」的智能体功能集成了大模型技术,基于用户知识库进行深度自然语言问答。智能体支持联网搜索、生成图像、代码等创造性内容,并允许用户调节输出的创意度,实现更个性化的智能交互。

可视化小程序:让数据“看得见”

「吾与点」小程序允许用户通过自然语言对话快速生成独立的可视化应用或展示PPT,并且以交互式网页呈现。基于知识库数据,用户可高效创建多种可视化效果,包括但不限于:

  • 数据图表

  • 地理分布

  • WEB检索系统

  • 轻量小游戏

  • 思维导图

凭借灵活易用的特性,用户可零代码生成图表、地图等可视化小程序与PPT,直观理解复杂数据,实现高效创新。

更多功能演示,尽在发布会现场!


「吾与点」网址

让我们一起见证

「数据拓展智能」的精彩未来!




来源 | 北京大学数字人文研究中心

排版 | 梅紫萱


阅读原文

跳转微信打开

  •  

从“材料”到“洞见”:智能工具赋能的人文研究 ——暨「吾与点」智能研究助手线上发布会

2025-11-17 19:00 北京

随着人工智能技术的飞速发展,大语言模型正在深刻变革学术研究的范式。人文研究领域拥有海量的非结构化材料,如何利用智能工具辅助研究者更高效地从繁杂的“材料”中挖掘深层的“洞见”,已成为人工智能时代数字人文发展的关键所在。

为应对这一挑战,北京大学数字人文中心历经数月研发,正式推出「吾与点」零代码智能体构建平台。用户只需准备好自己的材料,无需任何编程即可生成专属知识库与智能体,让人人都能拥有自己的智能助手。

本次发布会旨在正式推出智能研究助手功能,展示其如何赋能人文研究,并邀请精英学者分享前沿研究案例,与学界同仁共同展望 AI 技术与人文学术深度融合的未来。

学术圆桌&发布会议程

发布时间


2025年11月22日(周六) 

9:00-11:00

现场直播


哔哩哔哩

搜索“北京大学数字人文中心”

观看直播

小红书

搜索“北京大学数字人文研究中心”

观看直播

会议议程


9:00-9:05   致辞

王军(北京大学数字人文研究中心主任)

9:05-9:20 「吾与点」智能研究助手功能展示

刘凯然(北京大学数字人文研究中心研究助理)

9:20-9:40   《明代名人传》智能分析

主讲:向静(中国社会科学院大学数字史学研究中心主任)

点评:陈松(巴克内尔大学东亚研究系中国史副教授)

9:45-10:05   《论语集注义疏》智能分析

主讲:金珠玉(韩国首尔大学中文系博士生)

点评:许喆(韩国釜山大学占毕斋研究所研究员

10:10-10:30   哈佛燕京图书馆书目智能体

主讲:杨浩(北京大学数字人文研究中心副主任)

点评:马小鹤(哈佛燕京图书馆资深馆员)

10:35-10:45   「吾与点」未来开发计划

王兆基(北京大学数字人文研究中心博士生)

10:45-11:00   在线答疑

功能展示

智能研究助手不是单一的AI工具,而是由数据集、知识库、智能体、小程序构成的全流程研究工具。它可以将复杂的学术资料转化为可检索、可对话、可视化的智能资源,改变学者与文献资料的交互方式。

智能数据检索让数据“找得到”

「吾与点」的数据集知识库功能,支持用户基于自己的项目和数据自定义构建数据集合 。通过全文搜索、语义搜索和混合搜索,实现对用户数据的精准检索和多维度快速匹配,大幅提升数据管理与查询效率。

自然语言问答:让数据“会说话”

「吾与点」的智能体功能集成了大模型技术,基于用户知识库进行深度自然语言问答。智能体支持联网搜索、生成图像、代码等创造性内容,并允许用户调节输出的创意度,实现更个性化的智能交互。

可视化小程序:让数据“看得见”

「吾与点」小程序允许用户通过自然语言对话快速生成独立的可视化应用或展示PPT,并且以交互式网页呈现。基于知识库数据,用户可高效创建多种可视化效果,包括但不限于:

  • 数据图表

  • 地理分布

  • WEB检索系统

  • 轻量小游戏

  • 思维导图

凭借灵活易用的特性,用户可零代码生成图表、地图等可视化小程序与PPT,直观理解复杂数据,实现高效创新。

更多功能演示,尽在发布会现场!


「吾与点」网址

让我们一起见证

「数据拓展智能」的精彩未来!




来源 | 北京大学数字人文研究中心

排版 | 梅紫萱

阅读原文

跳转微信打开

  •  

洪业|试为中国古籍编引得

上海书评 2025-11-05 19:02 北京

编者按:北京大学数字人文研究中心于2023年获得哈佛燕京图书馆藏善本古籍数字书影授权。2024年,中心联合字节跳动公益发起“我是校书官”古籍大众智能整理活动,将7000余种哈燕馆藏善本古籍全部文本化,并通过识典古籍平台向全网提供无条件的公益访问。在此基础上,原计划筹办专题展览以集中展示整理成果。筹展期间,我们有幸采访了陈毓贤先生,先生的回忆为我们勾勒出洪业先生与哈燕馆的深厚渊源。遗憾的是,展览因故中止。为纪念此次整理历程,并表达对前辈学人的敬意,我们特此转载陈毓贤先生此文,以飨读者。

洪业

(1893-1980)

去两年间,经哈佛燕京图书馆授权,北京大学数字人文研究中心系统地整理了该馆珍藏的七千余种善本古籍,包括稀见的宋元刻本、地方史志、宝卷、韩南教授捐赠的通俗戏曲小说等。影像与电子文本已在线上公开,供学者阅读与检索。这项浩大的工程自然依赖最新的智能工具,繁琐的校对工作却由上万名“校书官”在网上义务完成。

大图书馆将在今年11月举办为期一个月的“燕京古籍旧藏与哈燕馆藏合璧展”,不仅展示文献本身,也梳理那段以哈佛燕京学社,以及洪业主持的引得编纂处为代表的中美学术交流史,主题之一是“从引得到数字人文”。主办单位问我有没有相关资料可提供,我想起上世纪七十年代末我在麻省康桥带了录音机到洪业的厨房,和他一起边喝茶吃叉烧包,边录他的回忆。他送了一本薄薄的册子给我,是他1930年12月12日在北平中国社会及政治学会(Chinese Political and Social Science Association)上用英语发表的报告。此学会成员大概是欧美留学归国学人及在各院校教书的外籍人士,待查。那时他得哈佛燕京学社资助,成立引得编纂处才三个月。替古籍编引得,是他在脑海中已酝酿了十多年的构想,终于有机会付诸行动,欣喜中带几分忧虑,我们可借以窥探当年的学术大环境。

——陈毓贤

《试为中国古籍编引得——1930年12月12日中国社会及政治学会上发表》

文︱洪  业

文︱陈毓贤

新近出现了一支新的学派叫sinology,国内称为“国学”;名称无论中西都相当别扭。顾名思义,它指一切有关古今中国的研究,但“国学”家至今聚焦于受西方文明冲击前的中国思想与制度。准确地说,所谓的sinology或国学,应被理解为以科学态度研究中国语文和历史的学问,因其一手资料不外于中国历史遗存和文献。

在中国境内,有两个原因令我们对这门学问的前景感到乐观,一是批判性研究方法的崛起,一是古籍的普及化。

校勘学在中国清代早已兴盛。卢文弨、戴震、汪中、孙星衍、严可均和顾广圻等学者把许多古籍的文本恢复原貌,功不可没。相对而言,深层历史批评却是最近才有的。此前虽说有胡应麟、阎若璩、姚际恒和崔述等少数勇者向尊崇的传统挑战,但都不敢打破砂锅问到底,而且号召力有限,跟从者不多。一直到十多年前胡适博士《中国哲学史大纲(卷上)》(商务印书馆,1919年)出版,我们才能在他的序言中看到类似西方过去一个世纪来发展的那种历史批判。胡适是中国声誉最高的学府里最出名的教授,影响波及全国知识分子。现在年轻学子纷纷用批判的眼光审视文本的作者与他们创作的动机,应归功于胡适。而追随胡适的学者中最杰出的是燕京大学的顾颉刚教授,他几乎天天都在揭发中国浩如烟海的历史资料中隐藏的骗局和圈套。

恰恰在这时候,古籍突然普及了。中国虽以发明印刷术为傲,但从西方引进新印刷技术后,尤其是引进石印后,古籍才从奢侈品变成普通人买得起的物品。有生意头脑的出版商大量复制了许多以前是珍版的稀见书目。举个例子,商务印书馆出版的《四部丛刊》,是上一代富有藏书家须花一辈子的功夫才能凑齐的,现在中上人家就能购得起一套,囊中羞涩的书生则可到图书馆借阅。根据《中华图书馆协会学报》的统计,中国的公共图书馆1925年至1930年间从五百零二所骤增至一千四百三十八所。虽然大多没有达到可供学者做研究的水平,但都在朝这一方向发展,尤其是走在前沿的大学图书馆。

总的来说,目前学者要从事学术研究基本上很少有障碍,也许最烦人的是缺乏德国人称为Hilfsmittel(直译为“辅助工具”)的学术工具;依我看,我们最急需各种书目与引得。受过学术训练的学者即使坐拥书城,找资料仍然不易,找到和他题目相关的著作后,又要花许多时间在书里寻检他所需要的段落。虽说勤奋和耐心是每位读书人都应具备的素养,然而精神长期被这种费时费事的操作消耗,研究成果也会受影响。

幸而编书目的工作已开了个头。有数所图书馆把馆藏目录出版,让学者知道书在什么地方可找得到。国立北平图书馆准备把北平数所图书馆收藏的丛书做个联合目录,将为学者提供一个很大的便利,因其中有些丛书现在已很罕见;而燕京大学的陈垣教授正着手把这些丛书涵盖的数千种书的书名另行顺序编排,让学者更容易找到他们所需要的书。至于以题材分类的书目,愈来愈多学者发表论文时列出所参考的书本和文章,而不少专业学刊,尤其是国立北平图书馆和中华图书馆协会出的刊物,不时登载些以题材分类的书目。近来还有人把不同期刊上的文章以题材分类后,将标题汇集出版,希望日后会演变成似美国Reader’s Guide to Periodical Literature(《期刊文献读者指南》)那样的参考工具。

学者找到书本后,须在书中寻检有关段落,这时若有“引得”(index)或“堪靠灯”(concordance)便事半功倍。其实书目愈齐全,提及的书愈多,引得和堪靠灯便愈有用,可为学者节省更多的时间和精力。

譬如学者要找《诗经》内某一句,如果他有大把时间,当然可把《诗经》从头读起,直到见这一句。他若想省点时间,可试查字典或类书,看看有没有提及该句,是《诗经》哪一篇,但很少会幸运碰上,只好又把《诗经》拿出来从头翻。如果他会看英文,就可用理雅各(James Legge)英译本附录的引得,那引得编排得不理想,但仍然可省许多时间。又譬如我们想找《史记》里一段话,可先查沙畹(Emmanuel-Edouard Chavanes)法译本附录的引得——虽然他只译了最初的七十五篇——然后便可据此轻易查到这话在《史记》原文的位置。可见有时最快捷的途径是绕远路,读中文书竟须借助外文译本。

当然,被译成外文的中文书非常少,而会读各种译本的中国学者也非常少。极少数古籍的西文译本附有引得,大体说来无济于事。传统中国教育基本上只要求读书人把几部经书及最有名的文艺著作背得滚瓜烂熟,无需用引得之类的工具。我们现在感到有需要,但除了蔡廷干1922年刊印的《老解老》(非卖品)之外,这种工具始终没有出现。这可归咎于替中文书编引得有许多难以克服的困难,远不如替西文书编引得那么容易。

我对克服所有的困难并不乐观,然而我也不认为这意味着我们应该放弃。许多年来,我总盼望有一批人集合起来选几本书做个试验。今天我可心存感激地向大家报告:哈佛燕京学社已同意拨一笔可观的款项让我们做这么一个试验。我在原有的职务外,主导一个包括编辑和助理的小团队从事这项工作。这三个月来,我们逐渐摸清楚应怎样处理最棘手的问题,希望半年后哈佛燕京学社汉学引得丛刊就有数种引得面世。

现在略谈我们编纂引得的十个步骤:

第一,选书。经编辑和有关领域的学者商讨后,我们定下以下几个原则:(甲)不选已有引得的书;(乙)目前不选伪书;(丙)暂不选二手资料;(丁)暂不选外文译本附有引得的书;(戊)暂不选需两个月以上处理的大书。提最后一条,是因为这既然是个试验,我们应尽快出几个样本送到国内外学者请他们评估,希望获得他们坦诚的批评,告诉我们如何改善。

第二,选择版本。我们尽量选最通行、最可靠的版本。可是为了拥有其他版本的学者也能用我们的引得,须作推算表,让他们算得出某句在他们拥有的版本里大约在哪一页。举个例子:《说苑》(著者刘向,公元前77-公元6年)我们选的版本是《四部丛刊》的单行本。仅我们所知道的,就另有十二个版本。于是我们替每个版本制造一个方程式,让读者可算出某句的相应页数。这些方程式相当精准,最多差一两页。

第三,钩标目注。这是流程中最关键而又最具挑战性的一环。先由两位编辑在各自的文本上下功夫,再由第三位编辑和他们协调商定。牵涉到三个问题:(甲)读者若知道文本中有哪些异文,往往可帮助他们了解内容,异文本身也有学术价值。一般古籍将异文在书后列出,我们所用的《说苑》版本则在另一册上,都不注明异文在文本的哪一页出现,在文本上也没有标志。我们提供读者的引得,附有加入标点符号重新排印的文本,遇上异文,就在文本上加注脚。若相关字眼被选入引得,在该录中也把异文的信息纳入括号里。(乙)传统古籍是没有标点符号的,编辑须把文本读通,明白作者的原意以及文中指涉的名物制度,才能够正确地断句。我们的编辑都是受过学术训练的大学毕业生,但每天都遇到一些怎么读都无法读得通的段落,若寻专家请教后仍无法读通,只好把这些段落列出,希望后人有所发现。标点的同时,编辑们随手做些笔记。如书上提到人物往往不用姓名,而用该人的字或号;而有些地方有两个不同的名称,都须顾及。幸而编纂处现在就设在燕京大学图书馆里,用各种参考书很方便。(丙)文本断句后,就可钩标出引得的目注,决定须不须和另一目注互见等等。我影印了经我们钩标后的《说苑》卷十五第十四页(见图一),上面的校对符号与西方用的大同小异。我们的编辑对西方引得的操作很熟悉,什么东西值得重见于引得中以供读者寻检,中西方的原则是一样的。

第四,把每一条录抄在一张卡片上。卡片上注明其录,及其录所涵盖的目注与异文,在文本的哪一卷、哪一章、哪一页出现,在版心的右边或左边。用其他版本的人可据卷码章码检到其在文本的位置。

第五,卡片经至少两位编辑细心校对。校雠这个词很有意思,就是当为仇敌频频试探的意思。我们曾三校后仍发现错误,所以坚持把每张卡片都假定为有误,有必要证明它是无辜的。

第六,编码。把卡片按次序排列,令读者可按次序便捷地找到有关段落。然而顺什么次序呢?这就是为中文书编引得最棘手的问题了。汉字不似英文字用字母拼成。英文有二十六个字母,可轻易地顺着惯常次序排下去,不懂发音不懂意思都可依序做。汉字没有简单的惯常次序。历来字典不是依诗韵排列就是依二百十四个部首排列,引发的麻烦众所周知。我十一年前便开始思虑如何解开这死结,所以一直关注他人这方面的努力,其中以上海商务印书馆王云五先生的四角号码最成功,但我认为用它来编引得仍不理想。我把自己的方法称为“中国字庋撷”,比起王先生的方法对初学的人来说更容易记,替一个字编码只须三个步骤(见图二),而且几乎每一个号码只有一个字,排列起来又较整齐,这对引得来说是相当要紧的。目前有多所图书馆已用王先生的方法编目录,所以我对要不要推广自己的方法相当犹豫,最终仍坚持用它编引得是因我深信这方法有许多优点,而没有相应的缺点。C. C. Wang去年在Chinese Political and Social Science Review(《中国社会及政治学报》)指出汉字电报码有种种问题。庋撷法几乎每一个号码只有一个字,也许亦可解决电报这个问题。言归正传,所有与“孔子”有关的目注自然都应放在“孔子”这一条录下。我们替“孔”和“子”编了码,便可依码把该录排列在他录之间。该录下所有的目注也可依码排列。若某目注在文本中多处出现,则依其在文本中出现的先后排列。我们有个“号片柜”,每个汉字的庋撷号码都写在一张卡片上,并注明该字的各种发音(用韦氏拼音法),依号码排列。替一部书编引得时,助理甲替一条录编码后,助理丙和助理丁便参照“号片柜”卡片上的汉字校对,以防有失误;之后把“号片柜”的这张卡片放在一旁,待下个步骤使用。

第七,具有庋撷号码的卡片排列整齐后便可依次抄到排版稿上,构成引得的前半部。引得的后半部是按韦氏拼音依英文字母次序排列的,用的正是“号片柜”的那些搁置的卡片,排列后也可抄到排版稿上了。而这后半部的引得虽按发音排列,但每一条都有汉字及其庋撷号码,可让读者便捷地找到文本中有关段落。这不但为习惯用韦氏拼音的西方汉学家提供了方便,并且有些学术功用,因为有些同音的汉字本来是同源的。我目前仍不确定是否应纳入古音,欢迎赐教。

第八,印刷。用什么格式什么字体,都是学问,这里就不细谈了。

第九,印本校对。印本须参照以上第三步骤所完成的稿件校对,一点都不能放松。当下许多中文书附录了很长的勘误表,一点用处都没有。

第十,加序。序里包含文本的来历,版本的源流,以及引得的用途等。

即使是优秀的学者,也得积累许多经验才能成为一位优秀的引得编纂者,因编引得涉及主观判断力。决定什么东西应录,须顾及广大读者的兴趣和研究方向,又须避免太滥,浪费了读者的时间与精神。引得编纂者必须把自己置于读者的立场上,而中国的学术范畴仍未定型,故这些决定远比在西方困难;我们乐得有西方的经验可借鉴。

我不认为哈佛燕京学社有意图或有责任资助我们替所有重要的中国古籍都编引得。这试验若不成功,事情自然不了了之。成功的话,相信将有出版商接手办。至于要多久才能证实行得通,很难说,有赖于引得编得好不好,有多少人期盼它成功。英人H. B. Wheatley曾戏称:“出版没有引得的书的人该被打入地狱底下十英里,到一个连魔鬼都害怕的地方。”在能证实引得从学术到盈利都成功之前,我们不敢奢望有出版商参与。目前这试验的目的,仅仅要证明就学术而言,替古籍编引得是值得做的。

图一:经钩标后的《说苑》卷十五第十四页。


译者按:洪业1932年12月出版的《引得说》(引得编纂处《引得特刊》之四,44-45页)对此图片有相当详细的解说:

我们读《说苑》时,防它里面的讹夺,故先取卢文弨的校勘记来参考着读。在第二行和第五行所钩标之“28b”就是指明校勘记页二十八下对于这二段文有点议论,可供参考……我们读《说苑》时,随读随标出引得中之目注。这一页上有三段:每段我们先撮取其大意,为编目注。第一段有一录,以“治道”为目,以“宜除逆贼”为注。第二段有一录,以“道”为目,以“须藉权势乃行”为注。第三段有二录:一为“子贡问孔子诛少正卯之故”,一为“孔子答子贡诛少正卯之故”。次就各段中标出应录目注,有时且须增益字句,以使其录较为明晰。

此页钩标的目注依次有:诛四凶、四凶被尧诛、周公杀管蔡、管【叔鲜】被周公诛、蔡【叔度】被周公诛、子产杀邓析、邓析被子产诛、孔子斩少正卯、少正卯被孔子诛、、引、五帝三王孔子颜渊孺悲为道所凭藉、为道所凭藉、孔子诛少正卯、少正卯被孔子诛、司寇东观【端木】赐(见子贡)、王者之五诛、五诛、王者之。

图二: 中国字庋撷



·END·


图片

本文首发于《澎湃新闻·上海书评》,点击左下方“阅读原文”访问《上海书评周刊》。如需投稿,请后台私信“投稿”。

阅读原文

跳转微信打开

  •  

吾与点 | 使用技巧(四):可视化小程序

2025-10-17 19:01 北京

「吾与点」是一款服务于文科学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。


本篇推文介绍「吾与点」平台可视化小程序功能:学者研究中巨量的复杂数据,可以一键变得直观可交互。在「吾与点」中,用户可以使用自然语言快速生成小程序,把复杂的数据转化为直观的可视化表达,让研究成果“看得见”!

PART1 介绍

研究助手概览


「吾与点」研究助手由四大核心模块组成:数据集知识库智能体小程序。它们互相衔接,共同构建出完整的数据管理和研究生态。

小程序


「吾与点」的小程序功能,允许用户通过智能体生成独立的可视化应用,以网页形式提供直观的交互体验。

1

通过智能体即可快速生成独立可视化小程序;

2

以网页形式呈现,便于快速访问与分享;

3

提供直观的交互体验,降低理解和操作门槛。


可视化小程序让数据“看得见”,让研究者获得直观反馈,将研究成果以交互形式向公众发布。


PART2 操作

步骤1:对话生成


进入「智能体」模块,研究者用自然语言描述想要生成的小程序,包括主题、呈现形式、功能需求等;在初步生成后,研究者可以通过反复对话不断优化,比如调整图表类型、修改布局、增加交互等。

技巧:

  • 调用 CHGIS 实现可视化地图;

  • 调用 ECharts 绘制多样化图表。

可视化小程序可实现的形式包括但不限于:图表、关系图谱、地图等,灵活满足不同研究场景与展示需求。

步骤2:保存管理


当小程序符合预期后,在对话框右上方点击【保存】,即可得到该小程序的网址。随后可在「小程序」模块中查看与管理,随时调用与展示。

PART3 案例

古籍知识案例

在对古籍内容进行研究时,研究者往往需要处理大量影印文献资料,将其中的数据结构化,如图像、人物、事件、地理信息等。通过「小程序」,研究者能够将这些数据快速转化为可视、可交互的页面:

  • 地图直观呈现人物籍贯的地理分布;

  • 时间轴展示人物的人生跨度;

  • 知识图谱呈现人物之间的关系网络;

  • 构建可检索的系统化人物档案,实现多维度信息的快速查询。

「小程序」不仅方便研究者自身观察和分析数据,也可作为学术展示和公众传播的窗口,让研究成果更具传播性和影响力。


「吾与点」小程序

让数据“看得见”

你的研究成果“触手”可及

「吾与点」网址


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 王心宇 刘凯然


阅读原文

跳转微信打开

  •  

吾与点 | 使用技巧(三):数据智能问答

2025-10-11 19:02 北京

「吾与点」【智能体】模块,让你的数据开口说话。

「吾与点」是一款服务于文科学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。

本篇推文介绍「吾与点」平台数据智能问答功能:当学者们进行研究时,面对庞杂的知识和数据,能否用对话的方式高效获取答案?「吾与点」内置的【智能体】模块可以与任一知识库深度关联,让你的数据开口说话

PART1 介绍

研究助手概览


「吾与点」研究助手由四大核心模块组成:数据集知识库智能体小程序。它们互相衔接,共同构建出完整的数据管理和研究生态。

智能体


智能体集成了大模型技术,能够对知识库进行自然语言问答交互。

1

可选择联网搜索以丰富回答内容;

2

支持生成图像、代码等创造性内容;

3

支持调节输出内容多样性程度,以适应不同的研究需求和创意场景。


智能体让知识库“会说话”,不再只是静态存储,而是能够实时响应研究者思考的智慧助手。

PART2 操作

步骤1:创建智能体


进入「智能体」模块,点击右上角【+创建智能体】,根据指引对智能体进行初步设置,包括基本信息、关联知识库、对话配置、能力配置和主题配置。

步骤2:数据智能问答


这是智能体的核心功能。研究者无需掌握复杂的检索指令,只需用自然语言提出问题,就能获得即时而有条理的回答。

在这一过程中,研究者可以:

  • 快速获取知识库中的核心信息;

  • 进行多维度的比较与综合分析;

  • 持续追问以逐步深入研究主题;

  • 调用多模态能力,生成图表、摘要或文本内容。

PART3 案例

《盎格鲁-撒克逊编年史》

在《盎格鲁-撒克逊编年史》的研究中,研究者往往需要处理跨世纪、涵盖多个王国的大量历史事件:时间跨度长、事件类型多样、地点分布广,信息量庞大且交织。传统方式下,研究者需要逐条查阅、比对、整理,耗时巨大。引入「智能体」后,研究方式发生了转变。研究者可以直接通过【数据智能问答】与知识库进行直接交互。比如:

  • 当研究者想要梳理某一时期的整体历史事件,向智能体描述梳理对象,智能体即可从知识库中提炼关键信息,生成条理化的总结

  • 当研究者想梳理诺曼征服相关的史实时,只需提出问题,智能体即可整理关键信息,并在地图上可视化相关地点与事件,直观呈现历史脉络

  • 在研究诺曼征服相关史实时,智能体可整理事件脉络,并将涉及的事件整理成时间轴清晰呈现

  • 智能体可整理《盎格鲁-撒克逊编年史》事件数据,生成可视化图表,绘制柱状图或折线图,直观展示历史事件分布与趋势

  • 通过事件标签化整理,智能体建立历史事件查询档案,便于快速检索、对比和分析各类历史信息。

研究者通过连续的自然语言问答,就能逐步搭建研究框架,获得新的学术启发。最终,「智能体」成为陪伴研究者思考的得力伙伴,大幅提升信息提炼和知识整合的效率,使学术研究更专注于核心问题。


「吾与点」智能体让数据“会说话”

研究者轻松提问

即刻获得答案与启发

「吾与点」网址


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 王心宇 刘凯然


阅读原文

跳转微信打开

  •  

吾与点 | 使用技巧(二):搭建个人数据库

吾与点 2025-09-24 19:01 北京

「吾与点」是一款服务于文科学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。

「吾与点」现已开放公开注册并提供服务,欢迎访问平台网址:


https://www.wuyudian.net/

本篇推文介绍「吾与点」平台个人数据库功能:在文科学者的研究中,时常存在研究资料纷繁复杂的情况,如何快速定位资料中的关键信息?「吾与点」研究助手通过 数据集—知识库 的有机结合,实现智能化的数据检索与查询,为研究者搭建属于自己的数据库

PART1 介绍

研究助手概览


「吾与点」研究助手由四大核心模块组成:数据集知识库智能体小程序。它们互相衔接,共同构建出完整的数据管理和智能研究流程。本次推送将介绍数据集和知识库两个功能。

数据集


数据集是研究助手的基础模块,它将项目中的表格信息集中管理。

支持字符匹配、语义搜索及混合搜索等多种检索方式

提供版本管理功能,让数据更新、迭代和历史追溯都清晰可控

通过筛选、排序和导出功能,满足不同场景下的信息查找需求

知识库


知识库将一个或多个数据集汇总整合,形成跨项目的统一资源检索入口。

支持可见性设置、主题自定义和访问链接生成,使数据共享更加灵活便捷

打造个人数据库,集中展示、查询和分享您的智能数据


在数据集和知识库的基础上,「吾与点」让数据“找得到”,帮助研究者在海量数据中快速定位目标信息。

PART2 操作

步骤1:创建数据集


进入数据集模块

点击右上角的【+创建数据集】

在数据集详情页面,包含 概览、版本管理、智能搜索、数据浏览、设置 五大板块。研究者不仅能管理数据集的内容和版本,进行检索和查询,还能设置数据的可见性。

步骤2:创建知识库


进入知识库模块
点击右上角的【+创建知识库】

知识库详情页面包含 基本设置、数据集管理、主题配置、预览 四大板块。研究者可以填写介绍信息、关联需要的数据集、设置展示主题,最终可生成一个可共享的知识库页面。

步骤3:数据浏览


在数据集和知识库中,都可以进行数据浏览。知识库可以对指定的数据集进行数据浏览,分为【简单筛选】和【高级筛选】两种模式:

  • 简单筛选:在所有字段中检索目标信息。

  • 高级筛选:在特定字段中查找包含指定信息的记录。

通过筛选、排序与分页,研究者能在庞杂数据中迅速聚焦目标,再一键导出结果,节省大量时间。

步骤4:智能搜索


在数据集和知识库中,都可以进行智能搜索。知识库可以对指定的数据集进行智能搜索,分为混合搜索、语义搜索和全文搜索三种方式:

  • 全文搜索:基于关键词的精确匹配。

  • 语义搜索:通过语义向量相似度匹配的方式,从高到低对搜索记录进行排序。

  • 混合搜索:结合关键词与语义搜索,既保证准确性,又具备灵活性。

智能搜索融合多种检索方式,并且支持跨数据集检索,为用户搭建搜索海量异源数据的个人数据库。

PART3 案例

墓志铭数据

墓志铭数据往往涉及时间、地域、人物、家族关系等多个字段的内容,在「吾与点」的数据集和知识库功能中,能够对这些信息进行快捷精准的查询。

1数据浏览:全局掌握,快速筛选


研究者在「吾与点」中将墓志资料生成结构化数据后,可以利用【数据浏览】功能进行多维度筛选:

  • 在“简单筛选”中,输入关键词“唐代”,即可快速查看所有唐代墓志。

  • 借助“高级筛选”,可以限定条件,例如“葬地历史地名:京兆府”,“年龄:六十”,瞬间缩小范围,得到精准的子集。

  • 浏览结果还能导出为 Excel 或 CSV,方便进一步统计与图表分析。


2智能搜索:语义关联,深度发现


相比于数据浏览的“定向筛选”,【智能搜索】则提供了“探索发现”的维度。

  • 全文搜索:输入“开元年间”,立即返回所有包含这一关键词的墓志记录。

  • 语义搜索:搜索“唐代文官”,不仅能返回直接标注“文官”的条目,还能识别“进士”“主簿”等语义相关的记录,避免遗漏。

  • 混合搜索:当模糊输入“唐代士人”,系统既能精确命中“唐代”“士人”,又能扩展到“儒生”“书生”等语义相近内容。

这让学者能够从不同角度切入资料,找到明确所需的信息,还可能在“语义搜索”结果中获得关联数据,拓展研究思路。


「吾与点」研究助手

为每位学者搭建个人数据库

让你的数据“找得到”


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 王心宇 刘凯然

阅读原文

跳转微信打开

  •  

亮相中国图书馆年会!北大数字人文研究中心用技术让古籍“活”起来

2025-09-18 19:00 北京

9月6日,2025年中国图书馆年会在古韵悠长的陕西榆林圆满落幕。本届年会以“高质量发展:面向未来的中国图书馆事业”为主题,汇聚了海内外图书馆界、科技界和文化界的思想精粹,其中,人工智能(AI)与图书馆发展的深度融合,无疑是贯穿始终的热点议题。 

北京大学数字人文研究中心受邀参与陕西省图书馆展位展示,向全国图书馆同仁展示了基于吾与点智能数据平台的智能问答、可视化小程序文化遗产AI活化两项创新项目。这两个项目利用陕西省图书馆提供的《晚笑堂画传》和唐代仕女图资源,分别从知识服务深化文化互动创新两个维度,将人工智能技术与图书馆服务场景深度结合,回应年会对智慧图书馆建设与传统文化传播的双重期待。

Agent

知识智能体:

AI重构知识服务新范式

针对年会关注的“AI赋能知识组织与检索效率提升”议题,北京大学数字人文研究中心团队以《晚笑堂画传》为素材,基于吾与点智能数据平台完成三大关键实践,形成可复用的古籍智能服务方案:

结构化知识库:

破解古籍“知识碎片化”痛点

团队首先对《晚笑堂画传》全书内容进行深度解构,利用吾与点智能表格抽取功能,自动抽取书中人物生平、事迹、图像元素等核心信息,再将碎片化信息转化为相互关联的结构化数据,构建起一个兼具学术性与实用性的可信知识库。将传统典籍从线性文本转化为可关联、可检索的知识单元,为后续智能服务奠定基础。

智能问答系统:

实现 “对话式”智能查询

基于知识库开发的自然语言问答系统,支持读者以日常语言提问。在用户交互层面,读者无需再记忆复杂的关键词或检索规则,只需用口语化提问,智能问答系统就能从知识库中精准提取信息并给出条理清晰的答案,真正实现了从 “人找书” 到 “书懂人” 的服务变革。

智能问答小助手

更关键的是,系统接入国家版本馆海量版本数据,可以根据不同的读者身份(如向五年级小学生推荐科普读物),为其推荐同主题、同人物的延伸读物,形成查询、理解、拓展的闭环服务。

智能推荐书籍

小程序生成:

零代码智能生成可视化成果

依托吾与点平台的智能体生成能力,团队为《晚笑堂画传》快速搭建可视化小程序:无需任何代码基础,用户通过自然语言指令,就能快速生成人物关系图谱、历史时间轴、地理分布图、人物档案卡片等多样化可视化成果。

自动生成人物关系图谱

平台接入CBDB(中国历代人物传记数据库)与 CHGIS(中国历史地理信息系统)数据,可以让静态典籍转化为动态的时空可视化历史场景。这些动态直观的呈现方式,不仅让古籍中的“冷知识”变得生动易懂,也为图书馆开展学术支持服务提供了有力工具,推动图书馆从“文献仓库”转变为“知识中枢”。

《晚笑堂画传》可视化小程序首页

《画传》人物籍贯分布地图(基于CHGIS)

《画传》人物生卒时间轴(基于CBDB)

《画传》人物历史档案(基于知识库)

左右滑动查看小程序页面

此外,图书馆也可以直接接入自有馆藏数据(如地方典籍、特色文献),快速搭建专属智能问答与可视化系统(如地方史志智能查询、非遗文献图谱展示),呼应了本次年会“智慧服务下沉到馆”的实践导向。

Multimodal

原境・唐风:

让文化遗产可感知、可参与

知识智能体项目聚焦知识挖掘,原境・唐风项目则主要聚焦于文化传播。中心团队以唐代仕女图为核心素材,开发多模态互动系统,探索古籍图像资源活化的新路径。这不仅是一种图像数字化,更是一种视觉层面的“活化”实践。它超越了古籍保护中的传统修复和影印,将古籍中的图像转化为可互动、可生成的艺术载体,赋予了古老画作全新的生命力。

选词生图:

定制化唐风美学

团队基于陕西省图书馆提供的唐代仕女图资源,结合自有搜集的唐代图像素材,通过模型微调与工作流优化,训练出专属于唐代仕女风格的生图模型。读者只需选择关键词,系统即可生成符合唐风美学的原创图像,让古画中的服饰、场景、审美通过现代技术再现,成为图书馆开展传统文化美育的新工具。



古风换脸:

降低文化体验门槛

“原境·唐风”平台新增 “一键焕颜” 功能,读者上传个人照片后,可一键融入现有唐代仕女图场景,生成个人专属仕女图。现场体验中,该功能不仅吸引大量观众参与,更让不少图书馆从业者意识到多模态互动能打破古籍与大众的距离感,让传统文化从被动观看变为主动参与。这种功能看似娱乐,实则蕴含深刻的文化传播逻辑。它将抽象的“传统之美”具象化、个人化,让用户成为文化体验的参与者而非旁观者。这种沉浸式、个性化的服务,为图书馆创新文化服务形式提供了可落地的参考。



以技术实践助力图书馆高质量发展


北京大学数字人文研究中心的两个项目,聚焦古籍资源与AI技术结合的具体落地,在陕西省图书馆展位展出期间,吸引了不少图书馆同仁、行业研究者驻足体验与交流。从实践价值来看,两大项目不仅是数字人文技术的展示,更是对图书馆高质量发展主题的具体回应:

对古籍资源:

推动从数字化存藏向智能化服务升级,让珍贵典籍从库房走向读者。

对图书馆服务:

提供零代码、可定制的技术方案,降低智慧服务建设门槛,适配不同图书馆的需求。

对文化传播:

以多模态互动重构传统文化体验场景,助力图书馆成为公众与传统对话的桥梁。

未来,北京大学数字人文研究中心将持续深化与图书馆界的合作,以吾与点智能数据平台为核心,将《晚笑堂画传》智能体、唐风多模态平台的实践经验,复制到更多地方典籍、特色馆藏的活化项目中,与全国图书馆同仁共同探索“技术赋能文化传承”的新路径,为智慧图书馆建设贡献力量。


阅读原文

跳转微信打开

  •  

吾与点 | 使用技巧(一):如何从大段文本中提取多行结构化数据?

吾与点 2025-09-12 20:32 北京

「吾与点」是一款服务于学者、文化机构和企业的智能数据平台,其核心能力是将原始材料处理为智能数据。平台集成了多种先进的AI模型,支持文本、图像等多种材料的智能处理,能够完成图文表格信息抽取等多种专业任务。此外,平台支持将用户数据快速构建为可供检索、查询与分享的知识库和交互智能体,实现基于自然语言的精准信息获取与智能问答,为用户提供便捷、专业、高效的智能服务。

本篇推文是介绍「吾与点」使用技巧的第一篇,后续将持续推出使用技巧、重点功能、案例展示相关系列内容,助力各位学者、文化机构与企业用户高效运用平台开展数据智能处理。

「吾与点」现已开放公开注册并提供服务,欢迎访问平台网址:

https://www.wuyudian.net/


在学术研究中,有时需要从一大段文本或者PDF页面中提取多条表格信息,例如从一长段人物生平描述中生成多行表格的人物履历。

在「吾与点」的字段描述/规则提示词中加入“用TSV格式的表格输出*”,就能实现“一个单元格生成多行表格”的功能,适应特定场景的数据处理需求。

*TSV(Tab-Separated Values)格式是一种以制表符作为分隔符来存储表格数据的纯文本文件格式。

让我们通过几个真实的研究场景,看看它是如何帮助学者们“破壁”整合信息的:

场景一

墓志碑刻  人物生平表

以墓志PDF文本为例,人物的生平轨迹分布在不同页面:如果按段落或者页面切分文本再进行处理,那么人物出生、入仕、迁官、卒葬等信息就会被拆散在数个单元格里。这样一来,研究者难以快速建立一条清晰的编年线索。

如果改用“单元格生成表格”的方式,先识别每一页PDF的文字,再将多页文本合并为一段文本,最后在一个单元格内让「吾与点」按“编号—年份—时间—官职”的结构输出TSV格式的表格,就能得到一张时间清晰、条理分明的年谱表。

场景二

人物传记 → 人物关系表

人物传记中亲属、师友、社会关系错综复杂,密集分布于不同段落。研究者往往需要从一个段落中抽取出多条人物关系数据,并且每一条数据都输出为表格中的一行。通过让「吾与点」按“人物 A-关系-人物 B-原文出处”的结构在一个单元格内输出TSV格式的表格,就可以将一段文本中密集分布的人物关系信息抽取为多行表格。

场景三

史料叙述  地名对照表

在史料中,一段文本可能包含多个地名。如果在「吾与点」上按“旧称—现指—时代—地理位置—原文”的结构在一个单元格内输出TSV格式的表格,研究者可以迅速建立起一份时空对照表。通过「吾与点」智能体功能*进一步结合现代地图坐标,便能实现地理信息的直观可视化。

*关于「吾与点」智能体的介绍将在近期发布,请持续关注。

场景四

考古报告 → 器物知识库

在多页考古报告中,每一页可能都包含多个器物信息。在对考古报告PDF文件实现全文识别与文本合并后,让「吾与点」在一个单元格内按“器物名-材质-出土单位-数量-描述”的结构输出TSV格式的表格,将考古报告中的每个器物信息都变成数据表格中的一行,就可以建立一个清晰、详实的考古器物知识库*

*关于「吾与点」知识库的介绍将在近期发布,请持续关注。

这些场景其实有一个共同点:那就是文本较长且信息密集用户往往需要从大段文本中输出连续、直观的明细表格。通过在一个单元格中生成TSV格式的纯文本表格,用户就可以实现“一对多”的数据处理需求。

操作指南

识别PDF文字具体过程


实现“一对多”表格抽取具体过程


导出单元格为多行表格



我们始终相信

工具的存在

是为了让研究者更从容地面对复杂文本

希望这个小技巧

能为你省下一些翻检之苦

多留一分思考之乐


撰稿 | 梅紫萱

排版 | 梅紫萱

审核 | 刘凯然

阅读原文

跳转微信打开

  •  

交流合作 | 伦敦大学亚非学院来访北大数字人文研究中心

2025-09-11 19:00 北京

2025年8月27日,英国伦敦大学亚非学院(SOAS)人文学院院长Graeme Earl教授与Linda Hallback女士访问北京大学数字人文研究中心。中心成员对来访学者表示热烈欢迎,中心副主任、外国语学院与人工智能院兼聘的长聘副教授苏祺老师负责接待,双方围绕文化遗产数字化等议题展开深度交流,共同探索数字时代人文研究的新范式。

伦敦大学亚非学院(SOAS)是欧洲唯一专注亚洲、非洲和中东研究的高等学府。Graeme Earl教授作为该校人文学院院长、艺术史与考古学系考古学教授,同时兼任南安普敦大学数字人文教授,长期深耕数字文化遗产领域。他主导的 “PATINA 项目” 联合微软、诺基亚与维多利亚和阿尔伯特博物馆(V&A),依托混合现实、物联网技术探索文物互动新叙事;Graeme Earl教授还推进 “Portus 古罗马海港遗址” 的数字化记录与研究等跨学科项目,以技术创新为亚非中东文化遗产构建新的数字表达。


为全面展现中心在数字人文领域的多元探索,中心成员向来访学者系统介绍了4项代表性成果:

中心成员首先介绍了「识典古籍」平台。「识典古籍」目前已收录超过30,000种古籍,涵盖儒释道核心典籍。其技术架构融合了高清古籍影像比对、AI自动标点、智能校勘等先进功能,不仅为研究者提供字典释义、语义关联查询等深度工具,更通过线上众包的方式进行人工校勘,构建了人机协作的整理模式。

“我是校书官” 线上志愿者活动打破了古籍整理的专业壁垒,平台通过简化操作流程、提供基础培训,邀请古籍爱好者参与古籍OCR校对等轻量级任务,志愿者完成的成果经北大团队审核后,将同步更新至阅读平台。来访嘉宾对平台在古籍数字化整理方面的技术实力与开放协作理念予以认可,对其推动古籍资源普及、助力文化传承的价值表示肯定。



在智能工具展示环节,中心成员展示了“吾与点”智能平台在处理古典文献方面的强大功能,以及“原境·唐风”项目的最新进展,获得了来访嘉宾的高度评价。

展示中,中心成员首先演示了如何运用“吾与点”智能数据平台智能表格抽取功能,将英文版《盎格鲁-撒克逊编年史》高效地转化为结构化数据。基于这些精准提炼的数据,平台在数秒内自动构建了关于盎格鲁-撒克逊历史的知识库。这一知识库不仅支持多维度、可分享的检索查询,更实现了与平台内置智能体(AI Agent)的无缝对接。来访嘉宾现场体验了通过自然语言与智能体互动,精准问询并获得《盎格鲁-撒克逊编年史》相关知识的便捷功能。此外,中心成员还展示了智能体的AI编程能力,通过自然语言交互的方式,即时生成了用于数据分析与展示的可视化小程序面板,充分展现了AI在降低技术门槛、赋能研究者方面的巨大潜力。

智能表格抽取

知识库构建

智能体生成可视化小程序


另一项“原境·唐风”项目利用深度学习技术,通过对大量唐代仕女画的学习与训练,构建了一个图像生成模型。

在现场演示中,中心成员展示了该模型的卓越能力:将一幅外国人的肖像照片,与唐代古画中的仕女形象进行融合。模型精准地捕捉了唐代画作的独特风格与笔触,同时保留了肖像的原始特征,最终生成了一幅既有唐代神韵又兼具个人特色的艺术作品。这场“跨越千年,相隔万里”的隔空艺术对话,生动地再现了唐代风华,其惊艳的视觉效果与深厚的文化意蕴赢得了在场嘉宾的一致赞叹,充分肯定了该技术在艺术史研究、文化遗产保护及跨文化交流领域的创新价值。

(「原境智生」平台实现唐代仕女图换脸)

最后,双方的交流集中在"典籍新生・AI 创意"分论坛的成果展示上。作为第四届东亚古籍数字人文国际论坛的亮点环节,该分论坛汇集了全球133所高校的228支团队报名,最终评选出的28件优秀作品生动诠释了AI技术与文化遗产的创新融合。来访嘉宾对分论坛所展现的多元创意与技术实力表示赞叹,认可其在推动古籍活化方面的积极探索。

本次分论坛以技术赋能古籍活化为核心,所有获奖作品已通过 "典藏新生・AI创意" 线上展览正式呈现,创作覆盖文学戏剧、科技工艺、生活民俗、历史场景等多元维度,所有作品可访问网址在线观看: https://ai-creative.2025.dheac.org/ 


此次访问不仅是技术与资源的对话,更彰显了数字人文无界合作的魅力。在文明的数字化传承之路上,跨越洲际的携手正让更多文化遗产 “活” 在当下、流向未来。


数字人文开放实验室

阅读原文

跳转微信打开

  •