普通视图

Received before yesterday5 - 武汉大学数字人文公众号

会议通知丨中国历史文献研究会数字文献分会第四届年会

2026年4月3日 08:30

2026-04-03 08:30 湖北

为深入贯彻落实国家相关战略部署,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月在武汉举办“中国历史文献研究会数字文献分会第四届年会”。

2026

国历史文献研究会数字文献分会

第四届年会

中国·武汉

在数字人文蓬勃发展的时代背景下,古籍文献的整理、研究与传承已步入数智赋能的新阶段。国家高度重视古籍资源的转化利用,明确以体系化整理、知识化构建、智能化应用为导向,系统推进古籍数字化进程。

为深入贯彻落实国家相关战略部署,进一步探讨数智时代传统文献研究的理论前沿与实践路径,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月武汉举办“中国历史文献研究会数字文献分会第四届年会”。

会议拟围绕数智赋能下的传统文献本体研究、数据库及数据平台建设、数字人文教育教学理论与实践、人文学科高水平实验室建设等问题展开深入研讨,旨在推动古籍整理研究的理论、方法与实践创新,促进古籍资源的当代传承与活化利用。诚邀海内外专家学者与青年学子踊跃投稿、莅临研讨,携手推进古籍数字化研究与传承创新,共促数字文献研究高质量发展。

1

会议时间

2026年10月下旬

2

会议地点

湖北武汉

3

会议议题

共设置7个议题

1. 中国古典文献文本分析

2. 雅学与传统语言学研究

3. 中国古典文献的数字化整理与研究

4. 古籍大数据构建及智能体辅助研究

5. 数字人文理论与方法探索

6. 数字人文人才培养与教学实践

7. 人文学科高水平实验室建设

4

参会与投稿

请有意参会者于2026年6月30日前扫码提交参会回执;

2026年8月31日前提交会议论文全稿至会议邮箱shuziwenxian@ancientbooks.cn。

扫码填写参会回执

5

会议费用

1. 会议不收会务费;

2. 交通费、住宿费自理;

  1. 承办方负责会期餐食及会议其他费用。

6

会议联系

杜老师 :027-88661842

朱老师 :010-63311541

会议邮箱:

shuziwenxian@ancientbooks.cn

中国历史文献研究会数字文献分会

湖北大学文学院

中华书局古联公司

2026年 2月14日

END

来源 | 数字人文专业发展联盟

阅读原文

跳转微信打开

案例征集 | 面向全球!2026年世界互联网大会文化遗产数字化案例征集即日启动!

2026年4月3日 08:30

世界互联网大会 2026-04-03 08:30 湖北

以下文章来源于:世界互联网大会

世界互联网大会

世界互联网大会国际组织总部设在中国北京,宗旨是搭建全球互联网共商共建共享平台,推动国际社会顺应数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。

三星堆青铜神树借助裸眼3D技术动态呈现纹饰密码;应县木塔的榫卯结构在数字世界里实现完整“重生”;永乐宫壁画穿越700多年时空,“衣袂飘飘、裙裾飞扬”……2025年7月,世界互联网大会首次面向全球启动文化遗产数字化案例征集,最终遴选出40项案例,汇编成《世界互联网大会文化遗产数字化案例集(2025)》,为相关领域工作提供了可借鉴的实践经验。

今年,世界互联网大会继续面向全球征集文化遗产数字化优秀案例,促进数字技术赋能文化遗产保护,推动文化与科技高度交融,历史与现代深入交织,在数字浪潮中拓展文化遗产的崭新边界。

1

参与征集能获得哪些机遇

1. 入选《世界互联网大会文化遗产数字化案例集(2026)》,获颁证书。

2. 受邀出席世界互联网大会乌镇峰会等重要会议活动,与全球政企学研大咖交流合作。

3. 在世界互联网大会重要活动中对案例进行展览展示

4. 多语种媒体平台宣传曝光。

2

如何参与征集

01

面向对象

  • 本次案例征集面向政府部门、国际组织、社会团体、文博单位、科研机构、高等院校、企业等多种机构开放。

  • 鼓励跨领域联合申报

02

申报地址及截止时间

  • 申报机构请于北京时间2026年4月20日18:00前登录在线申报系统(文化遗产数字化项目)完成申报。

03

案例类型

    • 案例征集分文化遗产保护”“考古”“展示利用三个方向。

    • 依据文化遗产数字化工作特性,每一大类又下设若干小类,请结合案例实际情况选择适合的类别。详细分类标准见附件

    3

    评选如何进行

    将邀请全球文化遗产数字化领域的权威专家对申报材料进行多轮评审,最终确定入选案例。

    4

    申报要注意哪些事项

    1.申报案例符合时间要求

    申报案例开始实施或部署的时间应在2023年之后。

    2.申报信息准确、清晰

    申报方须保证申报内容真实、准确,避免虚构。案例实施过程中,如有其他参与机构,须如实完整填写。

    3.内容契合申报类别

    申报单位可选择一个领域或多个领域下的分类进行申报,每个领域选择一个具体案例。案例须与所选申报类型相契合。

    4.上传文件及时,大小适中

    • 正式评审前,案例申报方须按形式审核要求及时完善申报材料。

    • 建议上传文件大小适中的材料,以便评委下载查看。

    5.材料可公开

    确认所有申报材料中的数据、内容可公开。

    05

    征集咨询

    联系人

    陈先生 86-13187127549

    常女士86-18811567609

    张女士 86-15210397801

    邮  箱

    media@wicinternet.org

    digitalCH2025@163.com

    附件:《世界互联网大会文化遗产数字化案例集(2026)》征集分类

    点击文末“阅读原文”

    进入世界互联网大会官网

    来源 | 世界互联网大会公众号

    阅读原文

    跳转微信打开

    专业资讯|识别历史人物、地点及其他实体(HIPE)测评任务介绍

    2026年3月27日 08:31

    2026-03-27 08:31 湖北

    识别历史人物、地点及其他实体(HIPE,Identifying Historical People, Places and other Entities),是一个专门针对历史报纸、档案等历史文献中命名实体识别(NER)和实体链接(EL)的国际评测任务系列。该任务通常作为评测论坛会议与实验室(CLEF,Conference and Labs of the Evaluation Forum)会议的一部分举行。其历届评测活动如下:

    一、HIPE-2020

    (1)任务背景

    命名实体(NE)处理自二十年前提出以来,已成为几乎所有文本挖掘应用的核心组件,并经历了重大发展。近年来其发展呈现两大趋势:深度学习架构的应用,以及对历史与文化遗产藏品文本的处理。前者带来全新可能,后者则因输入文本异构、历史化、含噪声等特点带来全新挑战。

    尽管命名实体处理工具已越来越多地应用于历史文本,但其效果远低于现代文本,且难以横向对比。在此背景下,impresso项目推出CLEF2020评测实验室识别历史人物、地点及其他实体(HIPE)任务,面向法、德、英三语历时性历史报纸文本,开展命名实体识别与链接任务。

    本共享任务目标有三:

    • 提升现有方法在非标准输入上的鲁棒性;

    • 实现历史文本命名实体处理效果的横向对比;

    • 长期推动历史文档的高效语义标引,支撑数字文化遗产藏品的学术研究。

    (2)任务概览

    HIPE共享任务包含两大核心命名实体处理任务:

    • 实体提及识别与分类(分两种难度)

    • 实体链接

    任务语料选自瑞士、卢森堡、美国的多家历史报纸,按时间跨度采样。注册团队可参与部分或全部任务。

    (3)组织方

    HIPE是CLEF2020评测实验室任务,由「impresso——往昔媒体监测」项目主办。impresso是跨学科研究项目,由计算语言学家、设计师与历史学家合作,面向大规模多语种数字化历史报纸开展语义标引。项目由瑞士国家科学基金会(SNSF)资助,项目编号:CR-SII5_173719。

    (4)任务内容

    任务1:命名实体识别与分类(NERC)

    1.概览

    ①子任务1:粗粒度NERC:按粗粒度类型识别并分类实体提及(见下图第1列)。

    ②子任务2:细粒度NERC:按细粒度类型识别并分类实体提及(见下图第2列),同时检测并分类1层嵌套实体与实体组成部分(头衔、职务等)。

    图:任务1要求系统输出的标注类型

    任务2:命名实体链接(EL)

    1.概览

    本任务将命名实体提及链接至知识库(KB)中的唯一指代;若知识库中无对应指代,则链接至标注为NIL。

    本次任务选用维基数据(Wikidata),使用2019年11月13日的固定快照数据(latest-all.nt.bz2)。

    图:需标注(任务1)与链接(任务2)的实体类型

    2.EL系统标注规范

    • 系统需对人物(PERS)、机构(ORG)、产品(PROD)、地点(LOC)类提及进行链接,输出对应维基数据ID(Q号);

    • 若知识库无对应实体,标注为NIL;禁止使用维基百科消歧义页;

    • 实体链接需同时覆盖字面义与转喻义(若存在)提及标注。转喻义的分类、识别与链接对人机均有难度,因转喻非HIPE核心任务,转喻链接为「可选优化项」,评估将采用灵活方案;转喻链接具体规则见附录A;

    • 实体组成部分与嵌套实体不参与链接。

    3.EL任务设置

    • 实体链接分两种模式:已知/未知实体提及边界。

    • 评估期分为两轮独立阶段:

    • 第一轮:无提及边界信息的实体链接(NEL)

    • 第二轮:已知提及边界(无实体类型信息)的实体链接

    (5)数据

    1.术语定义

    • 内容项(可简写为item):报纸版面以下的文本单元,本次任务仅指报纸文章,二者混用;

    • 时间桶:HIPE中以十年为单位,桶内所选文章均属于该十年的首年。

    2.语料

    评估语料为瑞士、卢森堡、美国多家历史报纸的历时性采样文章。

    • 语料选取:采用系统抽样与目的抽样结合。每家报纸按以下规则随机采样:

    • 覆盖报纸生命周期内预设十年段的首年;

    • 含标题、字符数超50、不限版面;

    • 人工筛选仅保留新闻内容,剔除副刊、表格、填字游戏、天气预报、时刻表、讣告及OCR噪声过大无法阅读的内容。

    • 语料特征:OCR质量为真实场景水平,随数字化时间与档案材质差异波动;不提供同一文本的多版本OCR,随文提供OCR质量评估值与行段图片链接。语料时间跨度为1798年—2018年,完整统计数据将于2020年2月随数据发布。

    • 语料标注:由母语者通过INCEpTION标注平台,按HIPE标注规范人工标注。标注前需在「迷你参考语料」(每语言10个内容项)上培训并校验标注一致性(IAA)。测试集部分样本、训练集与开发集随机样本将进行双标注与仲裁。

    3.数据格式

    数据采用IOB格式(Inside-Outside-Beginning,块内-块外-块首标注),格式类似CoNLL-U。

    (6)评估

    1.NERC评估

    采用宏平均/微平均精确率(P)、召回率(R)、F1值,分两种评估场景:

    • 严格模式:实体边界完全匹配;

    • 宽松模式:实体边界至少1个词元重叠。

      评估维度

    • 实体级(非词元级)微平均P/R/F1:按实体类型单独统计+全类型汇总;

    • 文档级宏平均P/R/F1:按单文档微平均结果取平均(区别于常规宏平均,按文档而非实体类型聚合,适配历史文本长度差异、缓解类别不平衡)。

    严格模式下边界错误会同时计为1个假阴性(漏检)+1个假阳性(误检),与CoNLL评估标准一致;宽松模式适用于边界不重要的场景。

    槽位错误率(SER)不再用于本次任务评估。

    2.NEL评估

    评估逻辑与NERC一致,将实体链接视为标签,连续相同链接视为单一实体;仅采用宽松模式(系统输出与标准答案有1个重叠链接标签即算正确)。

    转喻提及链接分两种评估场景:

    • 严格模式:仅计算转喻义链接;

    • 宽松模式:合并字面义+转喻义链接计算。

    该逻辑将在下一版评分工具中实现。

    二、HIPE-2022

    (1)任务背景

    HIPE-2022是自然语言处理与数字人文领域为研发高效的数字化历史文本信息检索与挖掘方法所开展的持续工作之一。经过文化遗产机构多年大规模数字化,人文学者对数字化历史文档的语义索引需求迫切,各类跨学科研究正推动仿真文档处理、文本转录中复杂信息的抽取、链接与表示。其中,命名实体(NE)的识别、分类与消歧是最核心的处理环节之一。

    然而,历史文本中的命名实体处理难度较大,效果远不及现代规范英文新闻文本。历史文档的实体处理主要面临领域异构性、输入噪声、语言动态变化、资源匮乏四大挑战。

    首届CLEF-HIPE-2020赛事针对约200年历史的英、法、德三种语言历史报纸,开展了命名实体识别与分类(NERC)、实体链接(EL)任务。该赛事结论表明:在训练数据充足的情况下,神经网络方法在历史文本NERC任务中可取得良好效果,但仍需在性能提升、OCR噪声处理、小样本场景适配、实体链接优化等方面进一步突破。HIPE-2022旨在推动这些方向的研究,并为参赛系统设置新挑战。

    (2)任务概览

    HIPE-2022聚焦18至20世纪多语言历史文档的命名实体处理,基于多套已标注实体数据集构建。相较于首届赛事,本届新增三大创新点:

    • 在历史报纸基础上,新增古典评论文档类型;

    • 拓展语言覆盖范围,历史报纸支持5种语言,古典评论支持3种语言;

    • 直面标注标签集与标注规范异构性问题。

    HIPE-2022要求参赛系统应对多语言、领域专属实体、多样标注规范等挑战,目标是探索命名实体处理方法在语言、时间、文档类型、标注类型间的迁移能力。

    (3)任务设置

    HIPE-2022沿用CLEF-HIPE-2020任务类型

    (4)实验数据

    1.基础数据集

    HIPE-2022数据整合6套基础命名实体标注数据集,源自欧洲多个文化遗产项目、主办方前期研究及HIPE-2020赛事,部分为首次公开。

    数据集涵盖历史报纸、古典评论两类文本,时间跨度约200年,多语言、多标签集、多标注规范。

    历史报纸数据集

    包含英、芬、法、德、瑞典五种语言,源自欧洲多国项目与国家图书馆:

    • HIPE-2020数据:首届赛事数据集,含瑞士、卢森堡、美国的法/德/英历史报纸(19–20世纪),约1万个链接实体,作为本届训练/验证集;测试集沿用首届测试集与未公开新数据,现有测试集不得用于训练。

    • NewsEye数据:法/德/芬/瑞典语历史报纸数据集,已公开部分含约3万个实体,作为训练/验证集;未公开部分(约20%)作为测试集。

    • SoNAR数据:德国柏林国家图书馆藏德语历史报纸数据集,已公开部分为验证集,预留部分为测试集,仅验证集可用于训练。

    • Le Temps数据:瑞士法语历史报纸历时数据集,未公开,约1万个实体提及,纳入训练/验证/测试集。

    • Living With Machines数据:英国图书馆藏18–19世纪英语报纸地名标注数据集,已公开部分含约3300个地名标注,作为训练/验证集;未公开部分为测试集。

      古典评论文档

    • AJMC数据集:源自Ajax多评论项目,为19世纪法/德/英古典评论,为本届新增数据。

    所有数据集文本来自不同OCR工具,质量参差不齐。

    2.实体标签集

    各基础数据集标签集与标注规范不同,HIPE-2022仅统一格式,保留原始标签集。各数据集实体类型见附录B,详情查看数据仓库中各数据集说明。

    数据集按标注类型适配对应任务(粗粒度NERC、细粒度NERC、EL)

    3.HIPE-2022数据发布

    HIPE-2022发布包为格式统一、结构规整的整合数据集,处理流程:

    • 转换为制表符分隔的HIPE格式(修正数据不一致、整合元数据);

    • 重新划分训练集与验证集。

    (5)HIPE格式与标注方案

    HIPE格式为制表符分隔文本格式,采用IOB标注规范(起始-内部-外部),类似CoNLL-U格式。

    1.文件结构

    文件包含三类行:

    • 空行:分隔文档;

    • 注释行:以 # 开头,补充信息;

    • 标注行:token与对应标注信息,以制表符分隔。

    单个文件包含一个数据集-语言-划分的所有文档,文档以空行分隔,前附元数据注释行。文档定义因数据集而异,详见各数据集说明。

    2.文档元数据

    基础数据集元数据粒度不同,HIPE-2022以元数据块保留信息,通过命名空间区分强制元数据与数据集专属元数据:

    3.文件内容

    每行共10列:

    • TOKEN:待标注词元

    • NE-COARSE-LIT:字面义粗粒度实体类型(IOB格式)

    • NE-COARSE-METO:转喻义粗粒度实体类型(IOB格式)

    • NE-FINE-LIT:字面义细粒度实体类型(IOB-子类型)

    • NE-FINE-METO:转喻义细粒度实体类型(IOB-子类型)

    • NE-FINE-COMP:实体组成类型

    • NE-NESTED:嵌套实体粗粒度类型(如有)

    • NEL-LIT:字面义维基数据Q号,无对应实体为NIL,无标注为_

    • NEL-METO:转喻义维基数据Q号,无对应实体为NIL

    • MISC:标记位,取值:

    • NoSpaceAfter:词元后无空格

    • EndOfLine:排版行结束

    • EndOfSentence:句子结束

    • Partial-START:STOP:非完整词元的实体起止偏移(Python切片规则)

    • 未指定值以_表示。

    (6)评估方案

    1.评估指标

    NERC采用宏平均/微平均精确率、召回率、F1值,分两种评估模式:

    • 严格模式:实体边界完全匹配

    • 宽松模式:实体至少1个词元重叠

    按实体级(非词元级)计算:

    • 微平均:全文档统一计算精确率、召回率、F1值,分类型与整体统计;

    • 宏平均:按文档级微平均得分取平均,适配历史文档长度差异,而非类别不平衡。

    严格模式下边界错误会同时计为假阴性与假阳性,与CoNLL标准一致;宽松模式放宽边界要求。

    实体链接(EL)评估逻辑同NERC,链接视为标签,无IOB编码,连续相同链接视为单一实体,仅采用宽松模式,与金标准至少1个重叠链接即为正确。

    本届评估沿用CLEF-HIPE-2020评估工具(仓库可能变更)。

    2.任务包、赛道与挑战赛

    为适配多维度任务设置(任务、语言、文档类型、标签集),本届以挑战赛+赛道组织评估,推动跨场景迁移能力研究。

    本届设3项挑战赛:

    第一项:多语言报纸挑战赛(MNC)

    目标:研发多语言历史报纸实体处理方法。

    要求:仅限报纸数据集;至少2种语言同任务;最多选2个任务包。

    第二项:多语言古典评论挑战赛(MCC)

    目标:适配数字人文专属领域实体处理。

    要求:仅限AJMC数据集;至少3种语言同任务;最多选2个任务包。

    第三项:全局适配挑战赛(GAC)

    目标:评估系统跨语言、跨文档、跨规范的适配能力。

    要求:同时包含报纸与AJMC数据;至少2种语言同任务;最多选2个任务包。

    三、HIPE-2026

    (1)任务背景

    在HIPE-2020和HIPE-2022的成功基础上,第三届HIPE大会聚焦于一个新的共享任务:从多语言历史文本中提取人物与地点之间的关系。参与者将开发帮助揭示隐性与显性问题的系统跨越时间的人与地之间的联系,促进研究历史知识图谱、空间人文学科与传记重建。人物-地点关系指文献中体现的个体与地点之间的语义关联,这类关系可揭示人物在特定时间所处位置、居住或工作地点,以及与其人生重要事件相关的地点,如出生地、常住地、到访地、旅行目的地。通过整合这些关系,可以有效还原人物的时空轨迹与人生历程。

    这类隐含或显式的时空关系无法仅通过实体在文档中的共现简单识别,需要结合时间推理、地理推断,并对含噪声的历史文本进行解读——这类文本通常线索稀疏或间接——才能以合理置信度检测并判定人物-地点关系。

    HIPE-2026的目标是推动此类关系的自动检测技术发展,实现人物时空移动轨迹还原,为数字人文研究提供支持。本任务同时适配生成式AI系统(大语言模型)与传统分类模型。

    (2)任务说明

    简言之,参赛团队需开发系统,判定历史文献中每一组人物-地点对所隐含的关系类型。每组对包含一个人物实体与一个地点实体,二者在文本中各有一处或多处提及。系统需判断:文本是否表明人物在文献时间范围内处于该地点(即时在场isAt关系)、人物在过去某一时间曾处于该地点(通用在场at关系),或无有效证据关联该人物与地点。

    如下图所示,isAt关系受时间约束,贴近文献发布时间;at关系仅以发布时间为右边界,可指向过去任意时间,不包含未来。下文将给出更详细、正式的任务定义。

    1.术语定义

    在定义子任务前,先明确术语:

    • 上下文(context):文献或段落全文及其元数据(如报刊名称、语言、发布日期)。

    • 人物(person):文献中由一组提及项聚合而成、指向特定人物的实体。

    • 地点(location/place):文献中由一组提及项聚合而成、指向特定地点的实体,二者可互换使用。

    • (人物,地点)对:同一文献中一个人物实体与一个地点实体组成的配对,为避免候选集过大,并非所有可能组合都会纳入。

    • at:关系类型,文本有证据表明人物曾在某一时间处于该地点。

    • isAt:更严格的时间限定关系类型,文本表明人物在文献报道的时间范围内处于该地点。

    •  系统(system):参赛团队开发的模型,输入上下文、人物-地点对与候选关系类型,输出关系标签。

    2.子任务

    本评测包含两个子任务,分别对应两类需分类的关系:

    子任务1:at关系分类

    给定上下文与人物-地点对,通用at关系判定文本是否隐含人物在过去任意时间曾处于该地点。系统需完成三分类:

    • TRUE:文本有明确证据支持

    • PROBABLE:可通过上下文隐含线索推断

    • FALSE:无证据或文本否定该关系

    子任务2:isAt关系分类

    给定上下文与人物-地点对,限时isAt关系判定文本是否隐含人物在文献时间窗口内处于该地点。系统需完成二分类:

    • TRUE:人物在文献发布前约一个月内处于该地点

    • FALSE:不符合上述时间条件

    isAt时间窗口:isAt为TRUE的条件是人物在文献发布日期前约一个月内身处该地,超出该窗口则为FALSE。

    at与isAt的关系:isAt是at的时间细化,判定at关系是否成立于发布前后。约束规则:若at为FALSE,则isAt不能为TRUE;若at为TRUE或PROBABLE,isAt进一步限定是否在文献时间窗口内。

    示例:

    • 报道美国总统当前访问柏林→at与isAt均为TRUE

    • 报道“去年总统访问柏林”→仅at为TRUE,isAt为FALSE

    为简化流程,评测时两个关系独立计分。

    (3)数据

    1.数据概览

    HIPE-2026数据包含两类:

    • 核心数据:法、德、英三语种历史报刊文献,覆盖19—20世纪约200年,划分为训练集、开发集、测试集(测试集A)。

    • 盲测集:法语文学文献(测试集B),用于评估模型跨领域泛化能力。

    报刊数据源自欧洲与美国图书馆馆藏,基于HIPE-2022已标注实体数据整理并重新标注;文学数据为全新curated数据,评测结束后公布制备细节。

    2.数据格式与内容

    数据采用专属JSON模式存储为JSON Lines(.jsonl)文件,这种格式将每篇文献的相关信息作为独立的一行,便于逐行读取和处理大规模数据集。文件按语言划分,每种语言对应一个独立的.jsonl文件。每篇文献包含四大核心部分:

    • 元数据(metadata)

    • document_id:文献唯一标识

    • 媒体信息:报刊名、时间跨度、来源类型、原始数据路径

    • 语言:de(德)/fr(法)/en(英)

    • 发布日期

    • 文本(text):文献全文,即关系推理的上下文。

    • 采样对(sampled_pairs):筛选后的人物-地点对,每条包含:

    • 人物/地点实体ID、维基数据QID(如有)

    • 人物/地点提及列表

    •  at/isAt标签(训练/开发集为金标准,测试集为null)

    • 可选的at/isAt标注说明

    3.数据划分与统计

    历史报刊数据分为训练、开发、测试集;文学数据仅发布盲测集。

    4.数据发布

    • 按数据集、版本、语言组织目录

    • 单语言、单划分对应一个UTF-8编码的.jsonl文件

    • 文件名规则:HIPE-2026-<版本>-impresso-<划分>-<语言>.jsonl

    • 所有提交文件遵循同一JSON模式

    (4)评测方法

    设置三类评测维度:

    • 准确率维度:鼓励高性能模型、前沿提示工程、智能体方法

    • 效率维度:鼓励轻量、可扩展方法(小参数量LLM、专用分类器)

    • 泛化维度:测试模型在盲测集(非新闻领域)的表现,仅评估at关系

    1.准确率评测维度

    ①指标

    采用宏召回率(平衡准确率),公式:

    • 计算每个标签的召回率:正确预测该标签样本数/该标签金标准样本数

    • 宏召回率=所有标签召回率的算术平均值

      该指标确保各类别权重均等,不受类别不平衡影响。

    ②空值处理

    at/isAt为null时,评测时转为FALSE。

    ③测试集A评测

    • at:三分类,宏召回率(|L|=3)

    • isAt:二分类,宏召回率(|L|=2)

    • 测试集A总分:GlobalScore_A=(at宏召回率+isAt宏召回率)/2

    2.准确率-效率评测维度

    试点评测,平衡准确率与资源消耗,需上报两项效率指标:

    • 参数总量(Params)

    • 模型磁盘大小(Size)

    ①计分与排名

    • 对准确率(Acc)、参数、大小三个维度分别排名(1=最优),效率维度数值越小排名越高。

    • 综合得分:R(s)=(r_Acc+r_Param+r_Size)/3按综合得分升序排名。

    • 示例:小参数量、小体积模型即使准确率略低,仍可能综合排名更高。

    3.泛化维度:盲测集B

    评估模型跨新闻领域到文学领域的泛化能力,仅评测at三分类,指标为宏召回率。

    4.可选大模型说明文本

    说明字段(*_explanation)不计分,仅用于模型可解释性分析,官方可能在综述论文中引用。

    5.技术计分流程

    官方GitHub提供“输出校验器”检查格式与模式合规与“计分工具”计算指标并生成评测报告。

    以上内容来自HIPE官方网站:

    https://hipe-eval.github.io

    经数字人文资讯小编翻译整理而成

    如需转载请后台私信联系

    编译丨洪冰凤

    校对丨罗斯鹏

    排版丨魏翔

    阅读原文

    跳转微信打开

    会议通知 | “大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

    2026年3月20日 14:38

    2026-03-20 14:38 湖北

    2026年7月31日-8月3日,内蒙古师范大学,“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

    ——CDH2026——

     “大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

    会议通知(第一号)

    2026年7月31日-8月3日

    内蒙古师范大学

    2026期待与您相聚

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

    01

    会议议题

    包括但不限于:

    1. 典籍重光

    科技古籍与多民族文献的智慧化整理

    2. 时空重构

    GIS与时空大数据驱动的文明演进研究

    3. 协智重塑

    多智能体与具身智能的人文社会仿真

    4. 谱系重绘

    知识图谱与智能注释驱动的知识重组

    5. 记忆重述

    AIGC赋能下的文化遗产与艺术创新

    6. 文脉重析

    计量方法与主题模型的文本深度挖掘

    7. 伦理重思

    数字人文中的算法批判与负责任创新

    8. 素养重育

    数字人文课程体系与跨学科人才培养

    9. 数字人文学科建设

    02

    会议信息

    会议时间

    2026年7月31日至8月3日

    会议地点

    内蒙古师范大学

    (呼和浩特市赛罕区昭乌达路81号)

    会议注册

    本次会议将于2026年6月开放注册报名。

    注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

    03

    征文征集

    1、会议征文对象为数字人文相关专业的专家、学者与在读学生。

    2、论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

    3、征文分为两轮,第一轮为论文摘要征集,第二轮为入选论文全文提交,具体要求如下:

    (1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

    (2)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

    4、组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

    5、论文提交邮箱:

    20250051@imnu.edu.cn。邮件标题格式为CDH2026论文摘要/全文-姓名-单位

    6、摘要提交截止时间:

         2026年4月30日

         摘要录用通知时间:

         2026年5月30日

         论文全文提交截止时间:

         2026年6月30日

    04

    项目征集

    1、本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

    2、所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

    3、请将报名表和相关附件压缩,以CDH2026项目-项目名称命名,发送至邮箱20250051@imnu.edu.cn

    项目征集截止时间:

    2026年5月20日

    05

    会议组织

    主办单位

    中国索引学会

    内蒙古师范大学

    承办单位

    中国索引学会数字人文专业委员会

    内蒙古师范大学科学技术史研究院

    内蒙古自治区科技文化遗产认知智能重点实验室

    内蒙古师范大学蒙古学学院

    协办单位(按笔画顺序排列)

    山西数字人文研究院

    上海大学数字人文研究与发展中心

    上海外国语大学中国国际舆情研究中心

    上海师范大学数字人文研究中心

    上海社会科学院信息研究所

    上海图书馆历史人文大数据中心

    中国人民大学数字人文研究院

    中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

    中山大学信息管理学院

    中山大学数字人文实验室

    北京大学数字人文研究中心

    电子科技大学数字文化与传媒研究中心

    华东师范大学数字文化发展协同创新中心

    齐鲁工业大学 (山东省科学院) 数字人文研究中心

    云南大学历史与档案学院 “数字人文” 工作室

    云南省图书馆数字资源与信息技术部

    武汉大学数字人文研究中心、武汉大学文化遗产智能计算实验室

    复旦大学大数据研究院人文社科数据研究所

    清华大学中国古典文献研究中心

    南京大学高研院数字人文创研中心

    南京师范大学数字与人文研究中心

    南京农业大学数字人文研究中心

    南京大学中华文明创新实验室  (持续更新中)

    媒体支持(按笔画顺序排列)

    《全国报刊索引》

    「全国报刊索引」公众号

    上海师范大学数字人文网

    上海社科院信息所社科智能实验室(AI4SS Lab)

    《中国数字人文》

    「中国索引学会」公众号

    「SHNU 数字人文」公众号

    「比特人文」公众号

    《数字人文》

    《数字人文研究》

    「数字人文」公众号

    「数字人文开放实验室」公众号

    「数字人文研究」公众号

    「数字人文资讯」公众号

    南京大学中华文明数智创新实验室

     (持续更新中)

       有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

    06

    会议联络

    会议邮箱:20250051@imnu.edu.cn

    会务咨询:周老师 13191432051

    附件

    CDH2026论文格式规范与要求

    2026年中国数字人文年会项目报名表

    阅读原文

    跳转微信打开

    新书推荐 | 《数字文本历史隐喻论纲(Theses on the Metaphors of Digital-Textual History)》

    2026年3月13日 10:57

    2026-03-13 10:57 湖北

    2024年7月在斯坦福大学出版社出版的《数字文本历史隐喻论纲》为斯坦福文本技术丛书的一部分,以开放获取的形式面世,不仅契合了作者素来倡导的开放学术理念,更为数字人文领域的理论建构提供了深邃的省思空间。

    一、书籍简介

    英国学者马丁·保罗·伊夫(Martin Paul Eve)于 2024 年 7 月在斯坦福大学出版社出版的《数字文本历史隐喻论纲》(Theses on the Metaphors of Digital-Textual History是一部备受瞩目的学术专著。该书列入斯坦福文本技术丛书 (Stanford Text Technologies),且以开放获取的形式面世,不仅契合了作者素来倡导的开放学术理念,更为数字人文领域的理论建构提供了深邃的省思空间。

    就其学术定位而言,此书并非传授文本挖掘、数据可视化或程序实现等操作技能的实用指南,而是驻足于数字人文、书籍史、文本研究、新媒体与出版研究的交汇处,倾力剖析那些形塑人们数字空间感知且与物质文化史深度纠缠的数字文本隐喻。伊夫的洞见在于,他未将页面、窗口、站点、空白、图书馆或是保存等词汇视作毫无生气的技术术语,而是将其还原为承载着历史负荷与意识形态的隐喻系统。人们在数字环境中习以为常的翻页与留白等日常表述,实则潜藏着印刷文化、建筑空间、政治制度、音乐书写乃至档案观念的旧有肌理。据此,作者提出核心论断,即数字文本绝非纯粹虚拟、抽象或去历史化的存在,它始终与纸介质、软硬件接口、底层协议、基础设施、数据存储乃至全球技术秩序紧密相连。全书所探讨的并非单纯的命名之争,而是数字文本性究竟如何被语言机制所建构,又如何反过来受制于这些语言的深层追问。

    在叙述架构上,该书凭借一组彼此呼应又各自圆足的命题层层推进。纵览其旨归,诸如虚拟页面几乎从未真正存在、数字留白乃是音乐性静默的延续、数字文本内蕴地缘政治结构、数字文本是多维的、窗口实为政治自由主义的寓言、图书馆是可重组的焦虑碎片集合,以及凡未保存者皆将丢失等核心论题,皆彰显出作者将日常数字经验重新历史化、政治化与物质化的学术雄心。书内对数字页面的探讨,深究了其对纸质书页逻辑的承袭;对屏幕空白的剖析,将其置于更为悠久的媒介感知史中;而关于地缘政治的论述,则将数字文本还原至统一码标准、互联网治理与全球技术权力的博弈场域内;至于涉及图书馆与数据存储的篇章,更是直指数字档案、数据脆弱性与保存政治的深层隐忧。

    综上所论,此书的要旨不在于贡献新颖的数字人文工具,而是督促学界反思,当人们谈论数字文本时,究竟沿用了哪些源自纸本时代、现代制度与西方技术文化的阐释框架,这些隐性框架又如何潜移默化地左右着数据库设计、数字版本构建、界面理解、阅读组织以及对文本物质性的描述。对于从事 TEI 文本编码、数字校勘、数字版本、书籍史、界面史乃至文本物质性研究的学者而言,该书具有极强的启示意义,它无时无刻不在提醒研究者,所谓的数字呈现从来不是中立的容器,而是裹挟着历史前提的释读结构。正是由于成功地将数字文本研究的重心从操作层面的技术实现引向了认识论层面的学理反思,该书荣获了2025年SHARP Book History Book Prize,足见其在方法论推进上所确立的学术标尺地位。

    二、作者简介

    Martin Paul Eve

    Martin Paul Eve是活跃于数字人文与开放学术出版领域的英国学者,目前担任伦敦大学伯贝克学院文学、技术与出版教授,同时兼任美国密歇根州立大学 MESH 研究中心知识共享项目的技术负责人。他曾在萨塞克斯大学取得博士学位并担任导师,此后历任林肯大学英语讲师、伯贝克学院高级讲师,并在 2019 至 2022 年间担任谢菲尔德哈勒姆大学数字人文客座教授。此外,他还在 2023 至 2024 年间出任 Crossref 的首席研发工程师,并于 2022 至 2025 年间担任剑桥大学哲学硕士学位的外部审查员。

    他的核心学术愿景在于理解不同知识体系在书写中的呈现方式,探讨文学阅读技巧如何帮助人们接触历史的、科学的、数字事实的以及文学的等多种知识形态。其研究广泛涉及当代英美小说、技术历史与哲学、学术评价文化以及学术出版的技术变革。在数字人文领域,他不仅进行理论批判,还亲自投入计算项目的开发,并指导涵盖数字人文、当代小说与学术传播等诸多方向的博士生。

    在学术出版生态方面,他长期大力倡导人文学科的开放出版模式,曾受邀出席英国下议院商业、创新与技能特别委员会的开放获取调查,担任 S 计划大使,并参与创立了人文开放图书馆。他还负责统筹由英国研究英格兰机构与阿卡迪亚基金会资助的 COPIM 项目核心工作。作为一位兼具程序开发能力与深切人文关怀的学者,他迄今已撰写或主编 10 余部学术著作,其中包括 2024 年出版的《数字文本历史隐喻论纲》、2022 年的《数字人文与文学研究》、2019 年的《使用计算机细读》以及 2014 年的《开放获取与人文学科》等重要文献。

    他的卓越学术贡献与公共倡导使其屡获殊荣,不仅在 2017 年入围英国《卫报》高等教育最具启发性领袖最终 5 强,还在 2018 年获得鲁汶大学人文社会科学荣誉奖章,并于 2019 年荣获利弗休姆文学研究奖。2020 年,他当选为英国英语协会会士,次年又被肖氏信托基金评为英国最具影响力的 100 位残障人士之一。2024 年与 2025 年,他又分别斩获大学出版社协会 StandUP 奖以及新型阅读与出版史学会书籍史图书奖。这种跨越代码技术、文本物质性与当代文化批判的多元学术背景,使其能够极其敏锐地捕捉并剖析数字时代文本生产的深层逻辑,在理论建构与技术实践层面均展现出极高的专业水准。

    在数字人文的具体实践中,他不仅进行媒介理论层面的批判反思,还亲自投入底层技术与代码的构建,致力于研发用于文本挖掘与文学分析的计算工具。在学术出版生态方面,他长期研究并大力倡导人文学科的开放出版模式,主张对二十一世纪的学术交流与传播方式进行彻底的重构与技术支持。他的学术关怀同样体现在对技术基础设施的细致审视上,他持续关注学术机构如何摆脱大型科技巨头的垄断、去中心化网络的建设以及开源底层技术的实现等前沿议题。

    更多作者信息请参考:https://eve.gd/

    三、书籍目录 

    Chapter 1 Theses on the Metaphors of Digital-Textual History

    Chapter 2 The Virtual Page Almost Never Existed

    Chapter 3 Digital Whitespace Is the Seriality of Musical Silence

    Chapter 4 Digital Text Is Geopolitically Structured

    Chapter 5 Digital Text Is Multidimensional

    Chapter 6 Windows Are Allegories of Political Liberalism

    Chapter 7 Libraries Are Assemblages of Recombinable Anxiety Fragments

    Chapter 8 Everything Not Saved Will Be Lost

    Chapter 9 Conclusion

    第一章 数字文本历史的隐喻论纲

    第二章 虚拟页面几乎从未存在

    第三章 数字留白即音乐性静默的序列延续

    第四章 数字文本具有地缘政治结构

    第五章 数字文本是多维的

    第六章 窗口是政治自由主义的寓言

    第七章 图书馆是可重组焦虑碎片的聚合体

    第八章 凡未保存者,终将丢失

    第九章 总结

    四、章节概要

    1.数字文本历史的隐喻论纲 Theses on the Metaphors of Digital-Textual History

    作为全书的开篇,Theses on the Metaphors of Digital-Textual History 并不只是一般意义上的导论,更接近一篇方法论宣言。它的作用并不仅仅在于交代研究背景、章节安排和问题意识,而是直接将整本书最核心的理论框架、材料范围与论证方式提前铺陈出来。伊夫在本章中首先完成的工作,是把数字文本从一种仿佛轻盈、透明、去物质化的存在,重新拉回到技术史、媒介史与文本史的连续谱系之中。他明确指出,本书真正关注的是数字文本隐喻发生断裂的时刻,因为也正是在这些地方,我们才能看见,今天的文本软件与数字环境究竟如何被一套已经脱离原始语境的隐喻体系所规定。本章极具启发性的地方,在于作者并未从抽象定义入手,而是通过博尔赫斯、数值系统以及计算环境之间的关系,迅速将读者带入一个更深层的问题之中。数字文本表面上看似由文字、页面、界面与阅读构成,但在更底层的层面上,它同时又涉及编码、数值、存储与计算。因此,当我们今天讨论文本历史时,实际上已经无法只沿着传统书籍史的路径,去谈抄写、印刷、装帧、流通与阅读,而必须同时处理数字对象的生成机制、技术实现以及界面组织方式。本章的重要贡献,正是在于它将文本史的问题从物理载体扩展到数字条件之中,并提醒读者,数字文本并不是传统文本史之外的例外。恰恰相反,它只是将文本的媒介条件暴露得更加彻底。

    在此基础上,作者提出了整本书最关键的判断之一,即数字文本环境之所以显得自然,并不是因为它真的天然如此,而是因为它已经被一整套隐喻语言组织过。我们平时习惯说页面、窗口、站点、保存、图书馆、留白、滚动、下载,这些词表面看来像是中性的技术术语,实际上却都携带着深厚的历史背景,来自纸本文化、建筑空间、行政制度、日常办公,甚至身体动作的经验结构。本章真正要处理的,并不是这些词是否形象,而是这些词为什么会成为理解数字文本的主要通道,以及它们在什么时刻已经不再准确,却仍然继续支配我们的认知。作者特别强调,本书就是要寻找这些隐喻失效的节点,因为隐喻的失效点恰恰暴露了数字文本环境中的历史缝隙与认知惯性。

    为了说明这一点,本章实际上提出了一个非常清楚的三阶段模型。作者认为,数字文本隐喻通常会先经历一个描述性阶段。在这一阶段,隐喻是有帮助的,因为新技术刚刚出现,人们需要借助旧有经验去理解陌生对象。随后,它会进入一个脱锚阶段,也就是隐喻开始偏离其原本对应的现实基础,逐渐失去准确性。到了最后,隐喻却并不会因为失准而退出,反而会进入一个规定性阶段,变成行业标准、设计逻辑和用户预期的一部分,进而反过来塑造未来的发展方向。这个模型十分重要,因为它说明了作者为什么如此关心那些看似琐碎的术语问题。对他而言,这些词绝不只是修辞装饰,而是会沉淀为设计选择与技术路径的认知基础。也正是在这个意义上,他援引斯图尔特·霍尔和德里达的说法,强调隐喻不仅会影响实践,也会固定研究结果。

    本章还有一个十分值得注意的理论推进,即作者并不满足于将研究对象理解成狭义上的文本本身,而是把目光转向数字文本周围的副文本装置,或者更准确地说,转向那些使文本得以生产、显示与被理解的条件系统。从方法上说,本章明显承接了概念隐喻理论的脉络。作者接受莱考夫与约翰逊那种较强的立场,即人类并不是先拥有一个完全中性的概念,然后再用隐喻去修饰它。恰恰相反,很多概念本来就是通过隐喻组织起来的。

    在这种分析中,作者还特别强调了一个问题,即数字隐喻的风险并不在于它完全虚假,而在于它部分有效,因此更容易被误认为是整体真实。某些术语在最初阶段确实帮助人们理解了新媒介,但随着技术环境发生变化,它们与对象之间的对应关系已经越来越薄弱。问题在于,一旦这些词进入系统设计和用户习惯,它们就会变得极难摆脱,甚至会反过来影响未来技术应当被设计成什么样子。

    本章另一个重要的推进,在于它并没有将界面简单理解为对现实对象的模仿,而是更接近于一种有选择的幻象建构。作者借助用户幻觉这一脉络提醒读者,数字纸张、数字窗口或数字桌面之所以看起来亲切,并不是因为它们严格复制了现实中的纸张、窗户和桌面,而是因为它们保留了足以让用户迅速识别的那部分特征,同时又赋予这些对象在现实世界中并不具备的能力。

    此外,本章还有一点尤其值得注意,那就是它将问题从语言延伸到了身体实践。数字书写与阅读并不只是观念活动,也不只是一个看见界面并完成点击的过程,而是会在长期使用中沉淀为习惯、姿态与肌肉记忆。作者在方法自述中明确提到,这本书也受到文化现象学视角的影响,不仅关心概念系统如何构成数字文本环境,也关心这些环境如何在真实生活中被经验、被操练、被身体化。也正因为如此,本章既谈历史考古,也谈当下实践;既谈术语来源,也谈数字环境如何成为我们日常经验的一部分。这个维度使全书避免沦为纯粹的术语批评,而始终保持着对技术生活世界的敏感。

    至于本章的学术意义,作者其实处理得相当谨慎。他并没有简单宣称,只要知道某种界面隐喻的来源,就足以解释文学文本风格的变化或阅读方式的全部转型。相反,他对这种直接的技术决定论始终保持距离。但他也坚持认为,追索这些隐喻依然十分重要,因为这有助于我们辨认当代数字文本环境是如何被历史性地生产出来的。

    总的来说,这一开篇章节的任务,并不是简单告诉读者这本书接下来会讲什么,而是先行确立一种极具辨识度的研究姿态。它要做的,是把数字文本从一种被自然化的技术现实重新陌生化,把那些最常见、最不起眼、也最容易被忽略的界面语言重新变成需要解释的历史对象。也正因如此,本章其实已经完成了整本书最核心的理论预备工作。它告诉读者,数字文本的问题从来不只是文本进入了电脑,而是文本如何在电脑之中被重新命名、重新组织、重新想象。若不先拆解这些支撑数字环境的隐喻系统,后面关于页面、留白、地缘政治、窗口、图书馆和保存的讨论就都无法真正展开。

    2.虚拟页面几乎从未存在 The Virtual Page Almost Never Existed

    The Virtual Page Almost Never Existed 集中处理了全书中极具代表性、也极易被日常经验自然化的一个议题,也就是数字文本中的页面究竟为何物。伊夫在这里试图拆解的,并不是页面一词本身是否可用,而是人们为什么会理所当然地将数字文本组织成页面,又为什么会误把数字页面视为纸页在屏幕上的自然延伸。就其基本立场而言,所谓虚拟页面绝不是一种稳定、单线并且可以直接追溯至印刷书页的媒介形式,而是一种后起的、混杂的、由多重技术条件共同塑造的视觉与操作产物。

    作者切入这一问题的视角相当精准,首先将目光投向计算机底层的分页机制,也就是内存管理语境中的 memory page。计算机内部的 page 可以断裂,可以被调度,甚至根本不在主内存之中,它本质上是一种逻辑分割,而不是读者能够始终翻阅的实体叶片。通过揭示这种内部分页与阅读页面之间的根本差异,作者有力地撕开了笼罩在数字页面表层的基础误解,打破了将所有被称为 page 的对象都视作纸页自然变体的幻觉。

    顺着这一逻辑,作者进一步抛出了一个极具穿透力的问题。在一个既缺乏真实翻页动作,也不存在纸张物理边界的媒介中,所谓 turn a page 究竟指代何种行为。他借用 Dennis Tenen 的提问指出,尽管人们在数字空间中仍然频繁调用 page、pagination、page up 与 page down 等指令,仿佛页面仍是天经地义的基础度量,但这种不加思索的理所当然,恰恰是最值得追问的地方。

    他明确反对将数字页面视为物理页面直系后裔的粗糙史观。尽管文字处理软件在很长一段时间里确实致力于模拟书籍或印刷文稿的形貌,这种倾向在桌面出版与 WYSIWYG 的发展轨迹中尤其明显,但即便处于这种高度逼真的模拟环境之中,数字页面仍然表现出极强的不稳定性。不同字体、字号、边距、屏幕分辨率、缩放比例乃至滚动条等功能变量,无一不在持续重塑页面的内容布局与流动结构。页面不再是先天锚定于文本的恒定容器,而是设备、软件与显示条件实时交互所形成的表面结果。文本并不真正栖居于某个固定的页面之中,而只是暂时显影为某种页面样态。

    这也正好解释了,为什么 WYSIWYG 原则在历史上始终伴随着难以调和的矛盾。该原则在表面上承诺,屏幕所见即输出所得,但在真实运作中,屏幕显示与打印成品之间往往始终存在落差。作者以 Xerox Bravo 为例,说明早期系统的屏幕分辨率与打印分辨率常常彼此脱节,从而使 what you see is what you get 屡屡滑向 what you see is not what you get。PDF 格式的出现,正是在可写性、滚动信息流以及显示与打印脱节之间,试图强行寻求一种新的稳定机制。PDF 的重要性不仅在于它作为通用格式的普及,更在于它彻底暴露了数字页面始终面临的根本难题,也就是页面的边界究竟应当如何固定,视觉呈现如何跨设备保持一致,以及数字文本如何在流变性与封装性之间取得平衡。

    在此基础上,作者并没有草率地断言数字页面只是一场失败的纸页模仿。他的论证更细致之处在于,他层层说明,所谓数字页面自其诞生之初就不可避免地混入了其他媒介传统,其中 scroll 与 tablet 隐喻的渗入尤为关键。

    这又进一步将视野拉回到长时段的书籍史。作者特别提醒,不应将 codex 页面的历史想象得过于纯粹,仿佛它从一开始就与 scroll 完全对立。事实上,手抄本与早期 codex 本身就潜藏着流动与断裂并存的双重特征。页面固然提供了间断,为跳转、索引和定位带来便利,但它同时也在垂直方向上维系着某种连续性,而这种连续性与 scroll 所体现的展开性并非毫无关联。作者借 Manuel Portela 等人的讨论阐明,codex 本身就不是一台完全纯粹的页面机器,而是一种混合着 scroll 历史的新媒介形态。这样一来,数字语境中 scrolling 与 pagination 的并存,便不再显得像某种异常拼贴,反而更像是媒介历史中旧有混合性的再次显现。数字页面之所以显得怪异,并不是因为它背离了某种纯正的页面传统,而是因为我们错误地将 codex 页面神话成了一种原本就不存在的纯粹形式。

    本章在这里完成了一个重要修正,也就是反对把数字页面的历史书写成单纯的 print replication。作者承认,在报纸生产或印刷排版等场景中,数字文件确实常常服务于印刷输出,这种跨媒介的分页延续也因其实用性、权威性和可移植性而持续占据主导地位。但他同时提醒,如果将这种延续误认为数字页面的全部历史,就会错判其真正的形成机制。

    因此,本章并不是在消灭页面,而是在重新定义页面。数字页面之所以几乎从未真正存在,是因为屏幕上那些看起来像页面的东西,实际上根本缺乏传统页面最基本的 boundness,也就是那种由物质边界、装订结构与固定顺序共同赋予的页性。在许多场景中,数字页面只是暂时性的视觉截面,是由显示设备、分辨率、缩放、滚动、软件布局规则与输出格式共同决定的局部状态。它在这个设备上是一页,在另一个设备上可能变成两页、半页,甚至成为连续流的一部分。此刻还可以被视为离散单位,下一刻却又被滚动逻辑抹平成连续信息流。页面不再是文本的天然单位,而成为技术系统临时生产出的阅读幻觉。也正是在这个意义上,作者才会断言,虚拟页面几乎从未存在。

    这种页面幻觉并未停留在屏幕显示层面,而是早已渗入硬件设计与用户操作想象之中。键盘上的 PgUp 与 PgDown 就是极佳的例子。这两个按键表面上似乎说明,人们仍以页面为单位理解文档移动,但其实际行为并不等同于书本中的左右翻页,而更接近一种被离散化的纵向滚动。与此同时,键盘上又保留着 ScrLk 这种与滚动相关的功能,以及 Print Screen 这种由打印逻辑转化而来的截图功能。输入设备本身就同时承载着 page、scroll、screen 与 print 等多种媒介隐喻。页面不再是独占性的主导逻辑,而是与其他历史层叠的媒介词汇一起,共同构成了今天的日常交互。

    在阅读设备的发展上,页面中心主义同样正在逐渐松动。电子阅读器引入了 Kindle 的 location 等新型位置标记,取代了固定页码,这说明阅读经验完全可以从 page imaginary 中被解开,重新锚定到文本本身的段落、位置或可计算序列之上。作者并未将这种变化写成对页面的彻底超越,而是谨慎指出,页面作为象征与习惯依然极其顽强,但它已经不再是数字阅读中唯一有效的组织原则。数字阅读技术一方面仍然借助页面维持用户的熟悉感,另一方面又不断通过新的定位机制、响应式布局与设备差异性,侵蚀页面原本的中心地位。正是这种一边保留、一边松动的状态,构成了数字页面最典型的历史特征。

    抛开技术细节的罗列,这一整段推演极好地展现了伊夫的整体方法论。他并没有简单宣布页面已经过时,也没有以技术史的方式堆砌格式演化,而是通过不断追问一个日常词语在不同层级中的异质性,揭示了数字文本历史内部的断裂。

    3.数字留白即音乐性静默的序列延续 Digital Whitespace Is the Seriality of Musical Silence

    本章深入解构了数字文本处理中早已被视为理所当然的 whitespace 概念。作者首先针对空白天然等同于白色这一视觉直觉提出质疑。他指出,数字书写空间中的白底黑字并非技术演进的必然起点,而是一种文化与意识形态共同塑造的结果。早期计算机显示器往往以绿字、琥珀色字或蓝底灰字呈现,甚至在更早的打孔卡系统中,物理上的孔洞反而代表正值。因此,将数字留白命名为 white,实际上是将纸张时代的文化逻辑强行迁移到数字介质中的产物。

    论述随即转向纸张的物质史。作者认为,纸张的白化并不是回归某种自然状态,而是一个涉及生产技术、宗教象征与道德观念的社会化过程。

    在讨论显示技术史时,作者进一步使问题的结构变得更复杂。电视与显示器的发展史并不是一条线性朝向白色背景推进的道路。早期彩色技术成本高昂且不稳定,单色显示长期占据主流。在 CRT 技术阶段,屏幕甚至表现出一种透明性,前端是玻璃,后端则是黑暗的机器内部。当承载虚拟页面的基底从实体颜色转变为光学投射的透明效果时,人们却依然坚持使用 whitespace 这一术语,这恰恰说明了视觉隐喻对技术现实具有极强的覆盖力。

    为了定义数字留白的本质,作者转而借助音乐与声音哲学,重点分析约翰·凯奇的 4′33″。他提出,要理解数字文本中的空白,必须将其视为一种被结构化的无。正如 4′33″ 并不是制造绝对寂静,而是通过环境音的介入,使静默变得可感知、有边界并且可以被记谱,数字留白同样具有形式与结构。凯奇的文本实践表明,空白页面会受到材料性、格式与偶然性的共同塑形。作者借此暗示,静默与空白都不是抽象观念,而是由具体媒介条件所规定的技术产物,例如唱片时长的限制,或编码系统本身的组织方式。

    本章最后将视觉空白与声音静默统一到 seriality 的框架之下。这种序列性强调,空白与静默都依赖于可重复、可计量且可分割的机制。静默可以被划分为乐章与停顿,而数字留白则在 Unicode 系统中被精细编码为空格、换行、制表以及各种具有特定宽度和功能的不可见字符。作者以艾米莉·狄金森的诗歌排版为例,展示那些难以标准化的横线与空隙如何在数字环境中被转化为高度可计算的差异系统。

    4.数字文本具有地缘政治结构 Digital Text Is Geopolitically Structured

    本章系统揭示了那些看似中立的技术标准,如何深深嵌入全球权力格局之中。作者避开了宏大而抽象的推演,转而以二十世纪八九十年代欧洲 DemoScene 亚文化中的 ASCII 艺术与 NFO 文件作为切入点。这些利用文本字符构成的视觉图像,实际上高度依赖 Unicode 字符集中的特定块状字符。当字体库缺乏对非拉丁语系字符的精确支持时,这些字符往往会被降格为单纯的视觉填充物。这个现象说明,那些原本承载特定文化传统的字符,在英语主导的数字生态中被进一步工具化。由此,作者指出,数字排版与字符编码并不只是技术细节,而是内含着语言等级与书写特权的权力逻辑。

    在梳理 Unicode 的演进史时,作者挑战了它作为普遍主义理想准则的公共形象。借用 Bowker 与 Star 关于标准化的论述,作者强调了标准一旦确立之后所产生的锁定效应。早期设计中的偏差,在后续演进中极难修正,往往只能通过不断打补丁的方式去延宕矛盾。这种演进路径使拉丁字母稳居核心地位,而汉字文化圈等非拉丁语系在早期则长期面临被边缘化或被粗暴处理的处境。作者认为,这种优先级排序并不是技术的必然结果,而是殖民扩张与历史支配地位在数字时代的延续。

    随后,论述的视野从微观编码扩展到互联网的物理基础设施。作者通过分析域名系统、自治系统与边界网关协议,论证数字文本的流通始终必须依托于具体的物理路径。尽管互联网常常被感知为一种去地域化的云端结构,但其底层实际上是铺设在地缘政治版图上的海底光缆与交换枢纽。作者指出,互联网的连通性并不是均匀分布的,而是高度集中于少数寡头供应商手中。在治理逻辑上,BGP 协议所体现出的自治、边界与对等拨接等概念,在话语结构上与国家主权高度同构。此外,自治系统的确立又高度依赖传统的行政审批与商业斡旋,这说明高科技基础设施的运行,依然深深嵌套在世俗官僚制度与人情网络之中。

    在讨论区块链技术时,作者将其视为一种试图通过算法共识来解决数字空间信任危机的治理方案。通过分析双重支出问题,他说明区块链如何利用分布式账本与加密技术,在没有中心权威的条件下建立秩序。然而,区块链在追求去中心化的同时,也人为制造了数字稀缺性,而这恰恰与数字内容易于复制的本性相违背。作者强调,这种治理尝试不仅伴随着高昂的能源成本,更关键的问题在于,谁有权定义合法秩序与共识。这再次说明,任何技术方案最终都会回落到政治问题之上。

    5.数字文本是多维的 Digital Text Is Multidimensional

    本章处理的,是数字文本在空间组织、阅读路径与界面定向上的复杂结构。作者开头先从一个极为日常、却也很容易被忽视的现象谈起,也就是浏览器历史记录、网页访问路径以及多窗口操作的经验。表面看来,用户似乎总是在按顺序阅读和浏览,先打开一个页面,再跳转到下一个页面,最后又回到前一个页面,于是整个过程仿佛可以被整理为一条线性的时间轴。但作者指出,这种线性叙述只是表面的结果。实际上,用户的访问记录往往不断分叉、折返与重组,真正支撑这些操作的并不是一条单线,而是一种复杂的链接结构。即便这些复杂路径最终仍然可以被重新编排为按时间排列的访问序列,也无法改变这样一个事实,即数字文本环境本身始终建立在多维结构之上,只是界面常常将这种多维性压平为一维或二维的可读表面。作者在这里明确提出,我们的界面不只是制造非物质性的幻觉,同时也制造单维性的幻觉。

    在此基础上,本章转向对 dimension 这一概念本身的说明。作者先从最基础的笛卡尔坐标讲起,也就是长度、宽度与深度,接着再将时间作为第四维引入,以说明任何对象不仅可以被放置在空间坐标中,也可以被放置在某一时刻之中。随后,他继续往上推进,提出第五维、第六维乃至更多维度,并不一定必须是几何意义上的额外空间方向,它们也可以是任何能够区分对象的分类轴。作者用狗和鱼的例子说明,腿的数量、尾巴的数量、耳朵的数量都可以成为额外维度。这一段的作用,是为后文讨论数字文本做准备。因为数字文本之所以是多维的,并不是说屏幕真的存在我们肉眼看不见的立体深度,而是说它同时被排布在多条性质不同的轴线上,例如时间轴、空间轴、链接轴、格式轴、代码轴与界面导航轴。

    为了使这种多维性更容易被想象,本章接着借用了十九世纪关于 tesseract 的讨论,也就是超立方体的观念史。作者提到 Howard Hinton 对高维空间的兴趣,说明十九世纪的人们已经在尝试训练自己去理解超出日常三维经验的空间结构。Hinton 甚至制作了一整套辅助想象高维空间的立方体模型,试图让学生获得某种更高维的感知能力。作者在这里并不是单纯回顾数学史,而是要借这一历史线索说明,人类经验天然倾向于将对象压缩到少数熟悉的维度之中,因此凡是多维结构,往往都必须通过投影、剖面或简化图像来呈现。数字文本也是如此。我们在屏幕上看到的是一个平面的文档界面、一个网站页面,或一个滚动窗口,但这都只是更复杂结构的可见投影。换言之,用户面对的并不是数字文本的全部,而只是其多维组织在某一时刻的一种投影形态。作者随后明确指出,从 home 到 end 这样的文本方向轴,到 Microsoft Word 所依赖的标记格式,数字文本处理从根本上说就是多维的。

    围绕阅读路径,本章还将注意力放在 nonlinearity 的问题上。作者明确表示,他会借助电子文学中关于非线性的理论讨论,但尽量避免那种已经过于陈词滥调的 hypertext 叙事。也就是说,他并不是简单重复早期数字文学研究中关于超文本打破线性阅读的说法,而是要更具体地说明,数字文本环境中的非线性究竟是如何被实际界面、导航与操作方式组织起来的。这里的重点并不只是读者可以跳转,而是所谓从开头到结尾的单向阅读隐喻,在数字环境中本来就已经不再充分。网页、超链接、历史记录、多标签、多窗口以及平台层级,共同造成了一种阅读路径的解绑。文本不再稳固地被装订在从第一页到最后一页的顺序之中,而是不断被嵌入其他路径、其他返回机制以及其他层级关系之中。作者因此将本章与前面关于虚拟页面的讨论联系起来,认为这里处理的同样是一种 unbinding,只不过前一章拆解的是页的边界,而本章拆解的是阅读路径的边界。

    为了说明这种解绑并不只属于数字环境,本章还引入了 B. S. Johnson 的 The Unfortunates。作者将这部以盒装散页形式出现的作品视为一种 multidimensional text 的例子,因为这部作品并不把阅读顺序固定在单一路径上,而是要求读者在一组彼此相关、但顺序并不稳定的文本单元之间移动。本章接下来又转向 home 这一组空间隐喻。作者特别指出,他要推进前一章中稍微触及的 home 与 away 的问题,进一步讨论界面与软件设计如何在想象层面安置读者与文本生产者。这里的提问方式很有意思。作者并不是单纯分析 Home 键在键盘上的功能,而是更广泛地追问,为什么在数字文本环境中,不同的空间会被命名为 home,谁有权决定何处是 home,以及为什么在许多数字文本语境中,home 的反义词不是 away,而是 end。这个问题看上去像是词汇层面的细究,但作者实际上是在讨论空间方向感如何被界面预先规定。换言之,当一个文档允许用户通过 Home 键回到开头,通过 End 键跳到结尾时,文本空间就被想象成某种可以居住、可以返回、也可以抵达的场域,而这套想象本身并非天然成立。它赋予数字文本一种居所式结构,也在无形之中规定了用户如何理解自己与文本之间的位置关系。

    顺着这个问题,本章后面进一步将 home 的隐喻推向平台与网络空间。作者提到 WordPress 这类平台提供给用户的空间会被称为 homes,而这些 home 又同时建立在更下层的平台维度之上。也就是说,用户所拥有的那个网站、博客或页面,表面上看仿佛是自己的 home,但它其实始终依附于另一个平台结构之内,是一种建立在租佃关系之上的空间所有感。作者在这里将这种结构与新自由主义语境中的 home 和 ownership 观念联系起来,指出数字 home 并不只是一个温馨的回返之地,它同时还与财产、阶层、归属以及平台依附关系纠缠在一起。数字家园既像私有空间,却又不是完全自治的私有空间;它带有强烈的 proprietorial 色彩,同时又受制于上层平台的规则与基础设施。因此,home 在本章中便不再只是光标移动的起点,也成为数字文本发布、存储与传播过程里一个带有社会与经济意味的空间隐喻。

    6.窗口是政治自由主义的寓言 Windows Are Allegories of Political Liberalism

    本章所围绕的核心对象,是数字界面中极为日常、却又很少被认真追问的 window 隐喻。作者一开始便从 Microsoft 这一品牌语言切入,指出 Windows、Vista、Outlook、Paint、Visual Studio 这一整套命名,本身就高度依赖视觉、开敞、观看与景观的意象。也就是说,微软不仅是在生产软件,同时也不断通过命名策略,将自己的产品包装为一组与视野、透明性和通达性相关的对象。不过,作者紧接着便指出,这种隐喻在技术层面其实并不成立。我们在屏幕上看到的窗口,并不是一个真正向外开启的透明孔洞,它并不使用户直接看见某种内部实在,而只是复杂的渲染、合成与显示过程所形成的表面结果。换言之,本章在开头便先将 window 从一个看似自然的界面术语,重新拉回到一种有待拆解的视觉修辞之中。

    紧接着,本章将讨论集中到 transparency 和 vision 这两个关键词上。作者明确说明,本章要分析的,正是窗口这一隐喻如何将透明、可见与可进入这些观念附着到数字文本处理之上,并进一步将这种分析推进到数字可访问性的问题。也就是说,本章的结构本身分为两个部分。前半部分主要拆解窗口隐喻与开放、关闭、锁定、解锁之间的关系,尤其会联系微软与开源社群之间在历史上复杂的纠葛。后半部分则转向 critical disability studies,从视觉中心主义的角度重新思考数字文本的可访问性。因此,本章并不只是单纯书写窗口的历史,也不只是讨论界面设计,而是在考察一个界面隐喻如何同时牵连出政治观念与身体政治的问题。

    在分析窗口本身时,作者先回到更早的 desktop metaphor,并将 window 重新放回 desktop 这一整体场景中来理解。他先提到早期对于桌面隐喻的一些批评,例如桌子本身并不是纸张信息的直接容器,也不是一种通常会被携带和分享的对象,人们一般也不会说自己在阅读一张桌子。随后,作者将这种批评平行地转移到窗口之上,指出所谓 window 其实同样很难真正成立。真实的窗户会使人透过它看见外部,而数字窗口却并不会揭示系统的内部机制。恰恰相反,它是在原本的屏幕表面之上,进一步叠加一层图标化、框架化、功能化的元素,使用户离机器底层更远,而不是更近。因此,作者提出了一个很有意思的修正,认为这些窗口与其说像透明的窗,不如说更像 heads-up display。它们并不是让世界显现出来,而是在表面之上增加更多操作层。于是,window 这一隐喻在本章中首先被改写为一种加层机制,而非一种透明机制。

    在此基础上,作者又提出了另一个视角。也就是,如果不把用户想象为站在屏幕之外向内看进一个窗口,而是反过来将用户设想为坐在桌前、从室内向外看,那么微软的桌面与窗口隐喻就会呈现出另一层含义。这里作者引入了 Windows XP 那张极为著名的默认桌面背景 Bliss。按照他的分析,这张蓝天绿丘的照片使用户坐在桌面前时,仿佛不是在面对一组程序与文档,而是在朝向一个自然风景外望。也就是说,微软给予用户的并不只是一个工作界面,同时也是一种从劳动空间中暂时逸出的田园式幻景。但作者紧接着指出,这种外望实际上并不发生在程序窗口本身,而只是发生在桌面背景这一层面。真正的应用窗口依旧高度面向业务、管理与工作。于是,这里便形成了一种十分有意思的分裂:背景承诺的是自然、休憩与浪漫性的外部世界,而具体的窗口却又将用户重新拉回到组织化、功能化的劳动秩序之中。

    从这里继续往下,作者进一步将 window 与 opening 这一动作联系起来,但并不是简单地将其理解为打开某物,而是把 opening 和 closing 放到微软与 open source 社群之间的关系中来观察。也就是说,窗口之开并不只是一个视觉动作,它同时也被延伸为制度与产业层面的开放与关闭问题。本章导言已经明确指出,这一部分会将 window 的逻辑放入微软历史上与开源运动之间复杂的张力之中来考察。窗口在语言上象征开放、透明与可进入,但微软作为商业软件公司,其制度实践却常常与封闭、专有和控制相关。这种落差使作者能够将 window 这一术语从界面层面推进到软件政治层面。用户以为自己面对的是一个向外开启的界面,但在公司层面被维护的,往往却是对于代码、标准与平台生态的严格控制。因此,window 的开放性在这里便不再是一种无需辩证的正面价值,而是一种始终伴随着封闭、筛选与权限结构的复杂姿态。

    本章进入中段之后,作者又将窗口问题进一步转向 rendering 与 style 的层面,尤其通过 X11、Wayland、macOS、Aqua、Quartz 等系统之间的差异,来讨论界面的统一与分散。这里的关键问题在于,窗口究竟应该由系统统一装饰和规范,还是应当由单个应用程序自行决定其呈现风格。作者先说明,在传统的 X11 模式中,许多渲染与布局的控制权掌握在服务器端,应用程序通过请求让 X Server 代为处理显示更新,因此窗口外观与交互方式更容易被统一管理。相较之下,在 Wayland 中,客户端程序本身承担了更多渲染职责,应用程序可以自行绘制自己的内容,再将图形缓冲交给 compositor 呈现在屏幕上。这种架构差异使得 Wayland 中的程序在风格上获得了更大的自主性,也使统一的窗口装饰不再显得天经地义。

    作者真正感兴趣的并不是这些技术细节本身,而是 rendering 权力分配背后所隐含的政治想象。他明确指出,Wayland 的兴起中存在一种 political liberalism 的隐喻。因为当应用程序可以自由决定自身外观时,这套系统就更像一种鼓励 self-identity 的秩序。相反,在 X11 式环境中,外观与布局的更多部分由服务器统一决定,则更像一种 socially determined identity。作者甚至直接将这一问题类比到当代西方公共讨论中的身份问题,也就是一个身份究竟主要是自我宣告的结果,还是必须在社会验证、制度框架与公共规范中获得承认。换言之,本章将窗口样式是否统一的问题,写成了个体自我塑形与集体规范之间持续不断的谈判。窗口不再只是一个小矩形界面,而成为自由主义政治哲学在计算架构中的可视化表现。

    接着,作者进一步讨论这种自由并不会自动带来更好的共享理解。因为如果每个应用都可以任意重新设计自己的菜单、状态栏以及其他界面部件,那么用户赖以识别这些元素的共同隐喻基础便会被削弱。作者在这一部分明确提出了一个问题,也就是一个 menu 在被重新样式化到何种程度之后,我们还会继续把它称作 menu。也就是说,界面元素的自我表达与个体风格虽然表面上提高了自由度,但同时也会削弱共同的可识别性。这里的焦点并不只是美学差异,而是隐喻共享本身是否还能继续成立。当不同程序各自发展出自己的视觉语言时,原本支撑 user interface familiarity 的那套共同符号系统便会开始松动。因此,作者通过 Wayland 的个体化 rendering,将自由、身份、自主与公共可读性之间的矛盾具体化了。

    与 Wayland 相对,本章也专门讨论了苹果系统在相反方向上的努力。作者指出,macOS 长期以来都特别强调视觉设计的一致性,Aqua 既是图形界面,也是设计语言与视觉主题,Quartz 等底层系统则在技术层面保证了这种风格统一。这样做的结果,一方面固然是在维护品牌识别度,另一方面则是在制造 intuitive 的使用经验。这里作者并没有将这种一致性简单赞美为友好设计,而是将其放入另一个问题之中,也就是规范化的界面是否会压制个体风格,是否会将用户训练为更顺从某一 corporate agenda 的主体。随后,他又将这种 styling 问题与 subcultural studies 联系起来,讨论 style 在 CCCS 传统中曾被视为抵抗主流秩序的一种方式,但在 post-subcultural studies 的语境之中,这种关于风格抵抗的浪漫化想象又受到了质疑。这样一来,窗口风格问题就被写成了一场围绕同质化、品牌、次文化表达与抵抗幻觉展开的讨论。

    在章节后段,作者将讨论转向 The Politics of Digital Accessibility,也就是把窗口与视觉隐喻直接放入 disability studies 的框架中重新审视。他指出,更普遍适用的设计原则之所以逐渐成为必要,并不是界面设计自然进化的结果,而是与 disability rights movements 长期争取平等使用权密切相关。随着这些运动的发展,界面设计所预设的那个默认 human,也不再能够继续被理解为一个拥有完整视力、完全健全、并且能够自然适应一切视觉安排的抽象主体。作者在这里借用经典例子说明,台阶之所以会将轮椅使用者排除在外,并不是因为使用者本身天然无法进入,而是因为社会选择了台阶,而非坡道。也就是说,障碍并不单纯来自身体缺陷,而是在身体与环境的关系之中被主动制造出来的。作者将这一思路直接带入数字文本环境之中,这意味着窗口、视觉层次、透明性与可见性这些在主流界面设计中看似理所当然的东西,也应当被视为可能制造排斥的结构。

    这一部分还继续借助 Rosemarie Garland-Thomson 的工作,概括了社会中关于残障的几种主导叙事,包括将残障理解为必须被矫正的生物医学叙事、怜悯性叙事、克服叙事、灾难叙事以及污名化叙事。作者将这些分类引入本章,并不是为了做一篇一般性的残障理论导论,而是要说明,数字界面设计如果依旧以视觉中心、透明观看与无障碍操控为理想,就很容易在无意识中重演这些关于健全主体的默认设定。换言之,本章后半部分实际上是将前面所有关于 vision、transparency 与 window 的讨论都翻转了过来。前面分析的是为什么窗口并不真正透明,后面分析的则是为何这种以看见为中心的设计本身就可能构成排斥。也就是说,数字文本的可访问性问题并不是后来附加上的伦理补丁,而是会反过来挑战整套窗口隐喻得以成立的认识论前提。

    7.图书馆是可重组焦虑碎片的聚合体 Libraries Are Assemblages of Recombinable Anxiety Fragments

    Libraries Are Assemblages of Recombinable Anxiety Fragments 处理的,是数字环境中 library 这个词究竟如何从现实世界的图书馆经验,转移到代码库、数字借阅系统、机器学习训练语料以及 Stack Overflow 这类平台之上。作者一开头就提醒读者,library 从来不是一个没有政治、没有历史、也没有冲突的温和名词。图书馆在现代想象中,常常被描述为开放、公平、公共且有益的知识空间,但这类理想化叙述实际上遮蔽了图书馆制度本身复杂而并不那么纯粹的历史。作者引用图书馆史研究指出,早期图书馆经常采取订阅制,公共借阅并不是其原初形态;图书馆与阶级教育、殖民治理以及自我改善伦理之间,也始终存在深刻纠缠。因此,当数字文化将 library 这个词直接移植到 code library 或 digital library 之上时,它实际上也把一整套带有历史负荷的制度想象一并带了过去。作者在本章中明确表示,他要分析的正是 code library 这一概念内部几个关键的隐喻断裂点,尤其是 borrowing、learning 和 improvement 这三条线索,此外还补充了一个始终贯穿其间的 compatibility 问题。

    章节一开始,作者便将 compatibility 单独提出来,作为理解代码库的底层前提。作者指出,现实中的图书馆经常被想象成一种普遍开放的空间,只要进入馆藏,理论上任何读者都可以借阅、阅读并使用其中资源。但 code library 从一开始就并非如此。一个代码库是否可用,首先取决于它与何种语言、何种版本以及何种运行环境兼容。一个 Python 的库并不会天然与 Java 程序互通,甚至同样是 Python,不同版本之间也可能并不兼容。也就是说,代码库从一开始就被写进了排斥关系之中。它不是一个面向普遍公众开放的借阅空间,而是一个只对特定技术生态开放的可调用对象。作者在这里的意思非常明确,library 一词在现实图书馆语境中所承载的开放性、普遍性与公共性,一旦进入代码语境,便会立刻发生明显断裂。所谓 code library,并不是图书馆的自然数字延续,而更像是一种只在有限技术共同体内部成立的专业资源系统。

    接着,本章转入 borrowing 这条线索。作者先提出一个非常基础、却又经常被数字文化遮蔽的问题,也就是数字对象的借用并不遵循物理对象那种竞争性占有的逻辑。一本纸质书如果被某位读者借走,其他读者在同一时间便无法再借;但数字文件从技术上说却完全可以被无限复制,也可以同时被多人访问。这意味着 borrowing 在数字环境中实际上已经发生了性质变化。作者正是在这里重新拉回现实图书馆的历史,指出所谓图书馆,也并不总是以自由流通借阅为核心。历史上长期存在只供馆内阅览、不允许外借的收藏,也存在订阅制与研究型图书馆,它们本来就不等于普遍开放的公共借阅场所。作者借助这段历史说明,图书馆的核心并不只是借出,而是一整套围绕访问权限、空间限制与资源稀缺性不断调整而成的制度安排。换言之,当数字世界继续使用 borrow、loan 和 checkout 这些词时,它们并不只是技术层面的沿用,而是在重新制造某种原本可能已经被数字复制性冲击掉的稀缺结构。

    也正因为如此,本章相当详细地讨论了 controlled digital lending。作者指出,面对现实世界中物理馆藏空间越来越紧张、许多图书馆不得不 de-acquisition 纸本书籍的处境,一个看上去十分直观的方案,就是将书数字化,然后让用户像借纸本书一样,一次只能借出一份电子副本。这种做法就是 controlled digital lending。表面上看,它似乎只是将传统图书馆逻辑平移到电子环境之中,但作者立刻指出,问题恰恰在这里。因为数字文本本来可以无损复制,也可以被多人同时访问,CDL 却必须人为制造稀缺性,限定同一时间只有特定数量的用户可以借阅,而且借出之后还必须模拟归还。为了做到这一点,系统通常需要依赖 DRM,也就是通过加密与授权机制,将文件锁定在特定软件和特定用户身上。这样一来,数字借阅并不真正是借阅,而更像是通过技术手段强制模拟纸本世界的排他性。作者并没有简单地将 CDL 视为坏事,而是在这里展示出一种更复杂的局面:数字环境天然倾向于复制与开放,而图书馆制度却又试图将借阅、排队、归还与稀缺重新引入数字文本之中。

    在讨论 CDL 时,本章也顺带处理了另一个问题,也就是数字借阅系统如何在版权、开放获取与终端用户权利之间形成张力。作者指出,controlled digital lending 在政治上几乎两边都难以讨好。对于更激进的版权批评者以及部分开放获取支持者而言,它依旧是 DRM 技术的延伸,会限制再利用、复制与传播,并带来隐私与法律层面的担忧。另一方面,从现行制度的角度来看,图书馆又必须借此证明自己并未让数字复制无限扩张。因此,这一部分讨论的并不只是某一种图书馆技术,而是在说明 borrowing 这一概念进入数字环境之后,其背后已经不再是单一行为,而是一整套围绕复制、稀缺、版权与软件控制展开的制度博弈。作者还补充指出,DRM 对终端设备与软件客户端的要求,也会引发可访问性问题,因为某些辅助技术和非主流操作系统未必能够顺利使用这些受限文件。也就是说,数字借阅一旦被设计成模拟纸本借阅,它便会同时引出控制、封闭与排斥。

    从 borrowing 往下,本章的第二条主线是 learning。这里的切入点很有意思,因为作者指出,code library 这个词虽然会让人联想到学习资源、知识储备与可供调用的经验积累,但在实际编程实践中,借用现成代码库往往并不会增进使用者对底层原理的理解。作者以密码学库作为最典型的例子。程序员圈子里常有一句老话,意思是不要自己重复发明密码学工具,而应直接调用经过审计的成熟库。这个建议当然现实,也很合理,因为密码学实现极易出错,自己重写反而可能更不安全。但作者关心的是,在这种实践中,borrowing 与 learning 实际上已经脱钩。程序员借用了库,却不一定学会其中原理;库的存在反而使其内部机制变得更加黑箱化。于是,现实图书馆中那种通过借书实现自我教育与自我提升的理想图景,在 code library 这里便出现了显著断裂。调用越方便,理解反而可能越少。library 这个词继续承诺学习,但代码实践却越来越倾向于在无需理解的前提下直接使用。

    作者接着将这种 learning 的问题扩大到机器学习模型所依赖的训练语料,也就是另一种形态的 library。在这一部分,所谓 library 已经不再只是代码函数的集合,而是一个庞大的文本输入库,模型会从中抽取统计模式并生成输出。作者明确指出,大语言模型并不会一对一地保存输入图书馆中的全部内容,否则它就真的会变成一个博尔赫斯式的总图书馆;它所做的,是对输入库进行统计压缩,从中生成可采样的概率结构。这里,library 的意义再次发生变化,因为它不再是等待读者进入阅读的馆藏,而是变成一个供模型训练、被抽样、被压缩并最终转化为参数权重的底层资源池。文本在这里不再以书目、馆藏或目录的形式存在,而是被打碎、重新加权,成为生成系统的一部分。作者借此说明,library 这一隐喻一旦进入机器学习语境,便已经远离现实图书馆的阅读与借阅经验,而转变成一种统计性的摄入机制。

    而当 library 进入机器学习之后,本章最值得注意的一个问题,就是 de-acquisition 的幽灵。现实图书馆里,一本书被撤架或剔除之后,它大体上会离开流通系统,最多只留下借阅记录、目录残迹或物理痕迹。但在语言模型中,情况却并非如此。作者在这里引入 Tiffany C. Li 所说的 algorithmic shadow,指出一旦某些文本进入训练过程,它们对模型参数的影响便会持续保留下来,即使后来再将这些文本从训练数据集中删除,也未必能够真正清除其痕迹。模型训练是一个单向过程,输入库并不能从模型中被完整逆推出,而已经摄入文本的权重却会留在模型内部。因此,机器学习中的 de-acquisition 并不等同于现实图书馆中的剔除。被移除的文本仍然会以幽灵般的方式潜伏在输出机制之中。作者在这里实际上是将图书馆学中的撤藏问题,重新写成了一个算法记忆问题。数字图书馆一旦转化为训练库,删除与遗忘便不再同步。

    这一部分还继续延伸到更大的伦理争论。作者指出,如果将大规模网络文本都视为可训练的 library,那么问题就不再只是收集得是否足够多,而是这些库中究竟包含了怎样的偏见、歧视与仇恨材料。作者讨论说,企业常常辩称模型只是在反映网络内容,但批评者则强调,平台与公司仍然有责任对其摄入材料进行伦理筛选与语境处理。这里最关键的一点在于,现实图书馆即便收藏了充满问题的文本,通常仍会为读者提供目录、分类、标签、警示与语境说明;而训练后的模型输出,却会将输入材料的来源与语境熔成一体,生成结果本身往往不再带着这些框架。因此,那些在现实图书馆中仍可通过编目与语境化进行管理的有害内容,在模型中却可能以去语境化的方式重新出现。本章在这里处理的,已经不再只是单纯的图书馆隐喻,而是 library 作为训练资源时所引发的一种新的责任结构。

    在 borrowing 与 learning 之外,本章的第三条主线是 improvement。作者在这一部分将讨论转向一种更当代的 library 形态,也就是 Stack Overflow。之所以将它视为一种 library,并不只是因为它储存了大量问答,而是因为它已经成为程序员日常工作中最重要的可检索知识库之一。作者甚至指出,Stack Overflow 可以被看作未来的提喻性图书馆,也就是未来 library 的某种缩影。它不是由完整书籍构成,而是由大量可重组的代码片段、问题、答案与修订记录所构成。用户来到这里,并不是为了读完某一部作品,而是为了迅速获取一个能够直接拿来使用的 fragment。于是,这里便出现了章节标题中的 recombinable fragments。library 不再是整全知识的保存空间,而是转变成一个能够被即时调用、局部拼装与重新组合的碎片仓库。知识从册页与馆藏单位,转向了片段与可执行段落,这也是作者理解数字 library 变化的重要角度。

    8.凡未保存者,终将丢失 Everything Not Saved Will Be Lost

    本章围绕的,是数字文本世界中保存、保护、归档与丢失之间那组看似常识、实则高度矛盾的观念。作者开头先借博尔赫斯的一则故事引入问题。故事里有一本被视为神圣对象的书,它被严密封存在一个近似棺椁的容器之中,目的在于确保它不受湿气、火、风、鼠害以及公众触碰的损害。负责保管这本书的是一群类似祭司的知识守护者,而随着越来越多普通人要求接触这本书,这套守护机制反而发展出越来越复杂的理由,来证明为什么必须阻止公众靠近它。作者借这个故事展开本章的核心问题,也就是一种文本如果被保存到几乎无法接近,那么这种保存究竟还有什么意义。随着保护越来越成功,文本的社会功能反而越来越低,因为即便是保管者自己,也未必真正阅读和理解它的内容。这里被提出的,并不是一个简单的 archive problem,而是保存本身会在何时转化为一种去使用化的机制。

    从这则故事转到现实之后,作者首先讨论的是英国以及其他地区有关 nonprint legal deposit 的制度,也就是将传统上针对纸本出版物的国家呈缴义务扩展到数字对象之上。按理说,这类制度的目标,是让国家图书馆能够系统性地保存数字时代的文化产物,避免大量 born-digital material 随着商业平台更替和网页失效而迅速消失。但作者指出,现实中的数字呈缴制度往往具有一种非常矛盾的性质。它们一方面宣称要保存数字文化遗产,另一方面却常常严格限制这些数字对象的访问方式。例如某些法律要求,数字呈缴材料只能在特定馆舍现场访问,不能进行远程开放,这使得原本可以全球即时传播的数字文本,被重新压回一种类似纸本阅览室的模式。作者在这里明确写道,这样的系统制造出一种 fetishization of an inaccessible archive,也就是把无法接近的档案本身变成某种被神圣化的对象。保存于是变成了目的本身,而不再是为了持续的阅读、传播与使用。

    围绕 legal deposit,本章很快就触及了保护逻辑与版权逻辑之间的纠缠。作者指出,数字呈缴制度之所以限制远程访问,一个重要原因就在于保护出版商利益,避免数字馆藏对市场销售造成冲击。但这也意味着,所谓 preservation 在制度上并不是一个纯粹中性的文化目标,而总是嵌在围绕收入、产权、国家利益与资源控制的谈判之中。作者还特别提到,英国相关法律中甚至存在一种极为巧妙的设计,使某些呈缴的数字对象即便随着时间推移,也不必自然进入公共领域。也就是说,保护机制在这里不仅防止文本消失,也可能延缓甚至阻断文本真正成为公共文化资源的过程。于是,本章从一开始就将 preservation 写成了一个双面结构。一面是长期保存的合理性,另一面则是保存与封闭、保存与延迟开放,以及保存与民族性保护主义之间的紧密联系。

    作者将问题扩大到更一般的数字保存语境之中,并提出一个非常尖锐的追问,也就是今天的社会为什么会将尽可能多地保存一切,当作一种几乎无需辩护的自然原则。作者在这一部分直接提到,Google 所代表的 collect everything and store it forever 这一思路,已经在当代文化中被自然化了。换言之,人们似乎越来越少追问为什么要保存,而更倾向于默认,只要技术上能够存,就应当把它存下来。与此同时,作者又将这一问题与当代流行文化中 decluttering 的话语联系起来,指出像 Marie Kondo 这种主张丢弃不再带来快乐之物的生活哲学,在普遍保存主义的背景下反而显得像一种激进姿态。但问题恰恰在于,我们并不知道今天看似无用的对象,在未来是否会成为他者文化、后代历史学家或新的知识共同体眼中具有价值的材料。于是,本章在这里形成了一种持续摇摆的局面。一边是保存冲动被不断放大,另一边则是没有人能够给出完全可靠的标准,判断什么值得保留,什么可以放弃。

    作者明确提出,数字文本保存最根本的问题之一,是保存究竟应当发生在什么地方,又应当由谁来承担。在纸本世界中,legal deposit、国家图书馆与文化遗产保存之间,常常被视为几乎同义的事情。但到了数字文本时代,这一等式已经不再稳定。因为数字对象可以被多点复制、异地保存、跨平台迁移,也可以由私人平台、商业公司、学术机构、影子档案和非正式社群同时保存。作者在这里的论述重点,并不是简单比较哪一种更好,而是指出 access 与 preservation 在数字世界里往往会形成一种平行而非重叠的关系。某些系统极擅长保存,却极不擅长开放;另一些系统则极擅长开放,却未必能够承担长期稳定保存的责任。也正因此,本章后面才会同时讨论 formal archives、shadow archives、pirate libraries 以及更边缘的数字存储实践,因为作者真正关心的并不是一种理想化的保存制度,而是多种保存机制如何在现实中彼此竞争、彼此补位。

    在更广泛的数字保存讨论中,本章也专门处理了一个常见误解,也就是认为纸本之所以能够长久保存,是因为它天然比数字更耐久。作者借 Kathleen Fitzpatrick 的观点指出,这种看法其实并不成立。印刷书籍之所以能够保存下来,并不是因为它们在本体上天然更容易幸存,而是因为社会在漫长时间里持续投资了图书馆、馆藏制度、修复体系与流通网络。换言之,纸本能够活得久,并不是材料本身的奇迹,而是社会基础设施运作的结果。没有图书馆,书籍同样会腐烂、虫蛀、褪色与散佚。作者借这一点提醒读者,数字保存的问题不能被写成物理 versus 虚拟的简单对立。所谓可保存性从来都不是某种天然属性,而是一套资源配置、制度建设与劳动投入共同作用的结果。只不过在数字环境中,这套投入的形式发生了变化,从书库、修复与编目,转向服务器、异地备份、完整性校验和格式迁移。

    围绕这一点,作者随后介绍了现实中主流数字保存系统的工作方式。他指出,大多数成熟的数字保存机制,其实与纸本世界一样,依赖的同样是冗余副本、地理分散与周期性检查。像 LOCKSS、CLOCKSS、Portico 这样的系统,会在世界不同地点保存多个副本,定期检查文件完整性,一旦某个副本受损,就从另一份已知良好的副本中将其修复。表面上看,这种机制当然十分合理,因为它确保用户在未来仍然能够访问文件内容。但作者立刻指出,这种修复逻辑本身也预设了一个价值判断,即未来的人更在意文本内容能否被读取,却未必同样在意我们这个时代的计算系统本身究竟会发生怎样的腐坏与衰败。也就是说,这类系统在努力消除损伤痕迹的时候,同时也抹去了数字媒介自身衰败史的证据。于是,保存可读性与保存媒介受损历史之间,便形成了一种张力。为了保证内容继续存在,我们可能必须主动消除那些原本能够告诉后人数字媒介如何老化的痕迹。

    正因为如此,本章特别引入了数字 decay 的问题。作者以 computer viruses 为例,说明病毒当然是破坏性代码,可能损毁档案、删除内容并扰乱系统,因此从保存的角度看,似乎理应尽快清除。但他同时指出,病毒本身又是数字文化史的一部分,是特定时代技术条件、攻击形式与计算想象的历史产物。换言之,数字档案中的病毒,在某种程度上就像纸本书籍中的蛀虫或霉斑。它们一方面破坏对象,另一方面也构成对象历史的一部分。作者在这里还借用 bookworms 的研究作类比,指出书虫留下的孔洞与痕迹,长期以来本身就是书史研究的对象,因为它们能够反向揭示纸张材质、保存环境与阅读条件。因此,如果数字档案将所有病毒与损伤都彻底抹除,那么在某种意义上,我们也同时抹除了数字对象作为历史媒介所经历的具体生命过程。这里的难题并不在于是否清除病毒,而在于 preservation 与 historical trace 并不总能完全兼容。

    本章还进一步处理了网络化可访问性带来的另一重悖论。作者指出,在当代网络环境中,一部分内容会因为复制与传播过于迅速而变得异常难以删除,例如诽谤、丑闻或隐私材料,即便有所谓 right to be forgotten,也未必真能从搜索、缓存与镜像中被彻底抹去。但与此同时,网络中的 hyperlinks 又会频繁死亡,地址体系不断腐烂,网页失效与链接断裂已经司空见惯。作者用一个很形象的类比来说明这种情况,就像现实中每年书的副本数量都在翻倍增长,但告诉你这些书在哪里的目录系统却在持续腐烂。于是,数字世界并不是简单地更容易遗忘,或更容易记住,而是同时出现了过度留存与快速消失这两种相反趋势。某些内容顽固到难以移除,另一些内容却脆弱得几乎立刻蒸发。这样一来,本章中所谓 Everything Not Saved Will Be Lost 便不再是一句单线的警告语,而更像是在描述数字文本环境中记忆与遗忘错位运行的状态。

    在更具政治性的层面上,本章也持续将保存与民族主义、国家边界以及软权力联系在一起。作者指出,国家级数字保存计划往往并不是纯粹中立的文化善举,它们深深受制于国家资助、文化主权与地方性保护逻辑。以 UK Web Archive 为例,仅仅界定什么叫 UK website 就已经非常困难,因为网站的服务器位置、域名、内容面向对象以及实际读者群体都可能跨越国界。在分布式数字环境中,所谓国家文化遗产已经不再天然对应某个可以被清晰圈定的领土空间。也正因如此,保存并不是简单地将对象收进某个国家容器,而是在持续围绕边界划定、归属界定与文化代表性进行选择。因此,数字保存从来不只是技术工作,同时也是一套关于国家身份、领土想象与文化范围的政治实践。本章将视野扩展到 shadow archives 与 pirate libraries。作者在这里并不是简单地把它们当作非法替代品来处理,而是将它们纳入整个保存生态之中加以考察。因为许多正式档案系统出于版权、地理限制、经费不足或制度封闭,往往无法保证真正广泛的可访问性,于是一些非正式、半地下甚至明显违法的系统,反而承担起了实际上的 access function。

    9.结论 Conclusion

    本章首先回到一个贯穿全书的问题,也就是,既然数字文本世界中的许多隐喻其实并不那么准确,为什么还要如此认真地讨论它们。作者在开头引用 Merlin Sheldrake 和 Richard Lewontin 的观点,先将问题放到更一般的知识生产层面来处理。其基本意思是,人类几乎不可能在完全没有隐喻的前提下理解复杂对象,尤其是那些无法被直接经验、却又必须被解释和操作的事物。从这个意义上说,隐喻并不是数字时代特有的问题,而是科学、技术与知识表达的基本条件之一。然而,作者紧接着又指出,隐喻从来不只是中性的翻译工具。它在帮助理解的同时,也会将整套人类价值、偏见与叙事方式一并带入。因此,本章开头并不是要否定隐喻本身,而是要说明,问题不在于我们是否使用隐喻,而在于我们正在使用怎样的隐喻,以及这些隐喻在多大程度上已经脱离了它们最初声称要指涉的对象。

    顺着这个问题,作者随后回到用户界面设计中一种极为常见的看法,也就是界面隐喻能够帮助用户凭借现实经验更快上手系统。按照这种说法,窗口、桌面、鼠标、文件夹、页面、图书馆这些名称之所以有效,是因为它们在现实世界中本来就有参照,用户只需要将熟悉的物理经验迁移过来,就能够理解数字操作。但本章接着明确表示,整本书前面的分析已经显示,这种解释过于简单。因为很多界面隐喻并不能真正为用户提供可靠的现实参照。作者举例说,一个从未接触过电脑的人,很难仅凭现实经验真正理解为什么屏幕中的 framed rectangle 会被称作 window,为什么程序运行在 shell 里,为什么没有尾巴的鼠标仍然叫 mouse。甚至连 QWERTY 键盘最常见的一些历史解释,也往往并不准确。也就是说,界面隐喻并不像设计者理想中那样,总能将陌生技术自然翻译为熟悉现实。相反,它们更像是在某些已经能够运作的技术现象之上重新贴了一个听起来可理解的标签,而不是提供了真正扎实的现实基础。

    在这里,作者重新援引 Theodor Holm Nelson 的批评,指出隐喻的麻烦在于,它会将设计绑在某个现成模型之上。技术原本可以发展出并不类似任何现实物体的新形式,但一旦某种隐喻先行制度化,设计者便会倾向于让后续细节也服从这套模型。于是,窗口就必须继续像某种可以开关的东西,桌面就必须继续像一个可以容纳文件的平面,图书馆就必须继续像一个可以借阅和检索的场所。作者在本章中的意思非常清楚。他并不是说隐喻完全无用,而是说隐喻一旦从描述性阶段进入规定性阶段,就会反过来限制设计想象与技术未来。这一点与开篇部分提出的三阶段模型首尾呼应,也就是描述、脱锚与规定。结论部分并没有重新长篇论证这一点,而是将其收束为一个总体判断:真正值得关注的,并不是隐喻曾经如何帮助我们理解,而是它们在失去现实对应之后,为什么仍然继续组织我们的技术选择。

    接下来,本章还专门处理了一个可能的误解,也就是如果这些隐喻并不准确,是否意味着它们其实无关紧要。作者对此给出的答案是否定的。他明确指出,问题恰恰不在于这些隐喻是否能够完美对应现实,而在于它们已经变成日常语言与系统设计的一部分。一旦我们接受了 mouse、window、keyboard 这些词作为理所当然的描述,它们就会逐渐变成技术未来的可想象边界。作者在本章中再次强调,隐喻会被日常化、惯常化,随后开始规定未来可能性。本章随后将视野拉回整本书已经分析过的各类对象,但不再逐章展开,而是将它们放在一个共同框架中来理解。作者指出,无论是页面、留白、地缘政治、多维性、窗口、图书馆还是保存,这些对象都显示出同一种模式,也就是最初出于描述目的而形成的隐喻,后来逐渐与原始现实基础脱开,最终却仍然以标准、规范和默认值的形式继续运作。页面不再真正等于纸页,但数字排版仍不断被页性组织。留白不再只是白纸逻辑的直接延续,却依旧继续被称作 whitespace。窗口并不真正透明,却仍然以视觉与开放之名塑造界面。图书馆不再只是物理馆舍,却依旧承载着借阅、学习与改进的道德想象。保存也不再只是收存实物,而是变成一套与访问限制、国家边界和数字冗余相关的复杂制度。作者在结论中真正要做的,是将这些个案收束为同一个认识论图景,也就是数字文本环境并不是由中性术语构成的,而是由一整套已经逐渐变薄、却仍然顽强发挥作用的隐喻外壳构成的。

    同时,本章还处理了历史意识与当代设计之间的关系。作者明确指出,今天的软件设计者很可能并不知道古代中国彩纸的历史,也不知道 Fourdrinier 机器的技术背景,更未必真正清楚为什么白纸会成为现代书写的默认背景。很多设计决定,从设计者自己的角度看,似乎只是顺手取用了当代最普通的纸张颜色、界面样式或操作习惯。但作者接着指出,这种表面的去历史化并不意味着设计真正摆脱了历史。恰恰相反,今天所谓最自然、最普通、最无需解释的设计感,本身就是长时段历史积累的结果。人们即使不知道自己为何如此设计,也仍然在不断被过去塑造。也就是说,本章并不将历史影响理解为设计者有意识地继承前人,而是理解为当代界面的 presentness 本身就是历史生产出来的结果。

    在这里,作者对 metaphors 与 history 的关系说得非常直接。他认为,隐喻在某种意义上塑造了我们能够谈论的一切,因为几乎不存在完全脱离隐喻的表达。可是,当某些隐喻与对象之间不再保持任何字面上的贴合时,我们就必须追问,这会如何影响文本技术的发展。也就是说,作者在结尾并不是要发出一个简单号召,让大家立刻发明一套完全没有隐喻的新技术语言,而是要提醒读者持续注意那些已经空转、却仍然发挥制度力量的术语。结论部分在这里呈现出一种相当克制的姿态。它既不认为可以彻底摆脱隐喻,也不认为既然摆脱不了就不必分析。作者真正主张的是,至少应当识别隐喻在哪里断裂,在哪里变薄,又在哪里只剩下一层几乎撑不住的表皮。

    结论后段还进一步说明,整本书的方法其实是一种带有福柯式 genealogy 色彩的做法。作者明确说,追问隐喻在何处分解,实际上能够帮助我们识别历史断裂与知识断裂的时刻。换言之,分析隐喻并不是为了词语考据本身,而是为了借由这些词语的变形,看见技术史中那些表面连续、实则已经发生重大变化的节点。数字文本隐喻从局部拟像走向脱离原物,再走向规定未来的过程,恰恰提供了一种理解历史连续性与断裂性如何交织的方法。这样一来,结论部分所做的,便不只是总结前文个案,而是再次将整本书的方法论抽象出来,说明为何研究那些看似细小、甚至略带学究气的术语问题,最终仍然能够通向技术史与知识史层面的判断。

    此外,本章也保留了作者一贯的谨慎。他承认,这类研究常常带有某种 nonutility,也就是无法立即转化为明确实用结论。知道 Adobe 曾经差一点取消 PDF 的虚拟分页,并不会直接告诉我们人们如何写作,也很难量化这种内部争论究竟怎样影响了文本接受。作者并不回避这一点。相反,他坦率承认,这类知识往往不能直接导向某种简单而强烈的现实功用。然而他同时又坚持,人们仍然宁愿知道这些事情,而不是不知道。因为即便它们不能立刻拿来解释一切,也依然能够丰富我们对当代技术环境如何形成的理解。

    以上内容来自书籍官网

    经数字人文资讯小编翻译整理而成,章节介绍部分内容系原创

    如需转载,请后台私信联系

    编辑丨魏翔

    校对丨洪冰凤

    排版丨罗斯鹏

    阅读原文

    跳转微信打开

    会议通知 | 第五届东亚古籍数字人文国际论坛(DHEAC 2026)

    2026年3月6日 09:38

    2026-03-06 09:38 湖北

    会议旨在促进古籍资源在数字化、智能化信息环境下的整理、开发与应用,搭建古籍研究者与信息技术工作者沟通与协作的平台,并加强全球范围内古籍相关机构、团体与个人的合作,为东亚古典学的研究提供全新的视角和更广...

    第五届东亚古籍数字人文国际论坛
    (2026)

    会议征稿通知

    DHEAC: Annua l International Conference on Dig ita l Humanities for East Asia Classics

    宗旨

    Objectives

    历经千载流传至今的古代典籍是人类文明最重要的载体。在漫长的历史时期中,包括中国、日本、韩国等国家在内的东亚地区,以汉字文化为基础,形成了数量巨大的古籍文献并保留至今。这些古籍文献是学术界认识、理解、诠释、研究东方文明的依据,也是东西方文化交流最重要的媒介。东亚古籍也是欧洲及北美学术界研究的重要材料,尤其是国际汉学界。西方对东亚古籍的研究对东亚本土学术也产生了巨大影响。随着时代的进步,数字技术,尤其是OCR、深度学习、知识图谱等智能技术深刻改变了古籍的整理、阅读、研究及传播的模式和方法,同时,网络环境将全球的古籍研究者和爱好者更加紧密地连接在一起,使得古籍学有关人文成为一个特定的研究领域。 

    会议旨在促进古籍资源在数字化、智能化信息环境下的整理、开发与应用,搭建古籍研究者与信息技术工作者沟通与协作的平台,并加强全球范围内古籍相关机构、团体与个人的合作,为东亚古典学的研究提供全新的视角和更广阔的研究空间。

    日期  Date

        时间:2026.7.22 —2026.7.28

    注:日程表暂定

    工作坊为选择性参加(需另付注册费)。有意参与者请于在线报名期间(2026年4月20日 - 4月30日)选择以下三项工作坊之一。

    报名学员不足十人的工作坊将予以取消。 

    •  工作坊(一):吾与点工作坊 (北京大学数字人文研究中心主持) 

    •  工作坊(二):DocuSky 工作坊 (台湾大学数字人文中心、台湾数字人文学会主持) 

    •  工作坊(三):古籍整理与智能化实践 (中华书局古联公司主持)

    地点 Venue

    • 韩国首尔

    • 成均馆大学(Sungkyunkwan University,SKKU)

    会议组织Organizer

    01 主办单位

    成均馆大学中国文化研究所

    02 联合主办单位

    成均馆大学校 中国文化研究所 

    成均馆大学校 中语中文学科

    东亚知识文化教育研究所 

    翰林大学 翰林科学院

    03 协办单位

    • 北京大学数字人文研究中心

    • 南京农业大学人文与社会计算研究中心 南

    • 京师范大学文学院语言大数据与计算人文研究中心

    • 辽宁大学东北数字人文研究中心

    • 鲁东大学区域国别学院 

    • 高丽大学汉字汉文研究所 

    • 清华大学-同方知网数字人文联合研究中心 

    • 香港浸会大学中国传统文化研究中心 

    • 香港城市大学中文及历史学系 

    • 中国台湾 法鼓文理学院 

    • 中国台湾数位人文学会 

    • 浙江大学文学院数字人文研究中心 

    •  中华书局•古联(北京)数字传媒科技有限公司 

    •  中山大学数字人文联合研究院

    名单持续更新中 ......

    04 赞助

    韩国研究财团

    大会主题 Conference Theme

    数智赋能

    未来东亚古典研究的新范式与新趋势

    Digital-Intelligence Empowerment: New Paradigms and Trends in Future East Asian Classical Studies

    Proposed Tracks

    征稿主题

    • 语料库及语义资源构建 (Corpus and Semantic Resource Development)

    • 大模型与生成式人工智能在古典学中的应用 (LLMs and Generative AI for Ancient Classics)

    • 语义技术与知识工程 (Semantic Technologies and Knowledge Engineering)

    •  文化分析及数据运算 (Cultural Analysis and Computation)

    • 数字平台及资源开发 (Platform and Resource Development)

    • 医学・农业古书研究 (Specialized Domains in Classics)

    •  各类文化遗产的数字保护及活化利用 (Digitization and Revitalization of Cultural Heritage)

    • 智慧图书馆及出版融合 (Smart Libraries and Integrated Publishing)

    • 教育及课程开发 (Curriculum and Discipline Development)

    •  空间人文学与数字地图 (Spatial Humanities and Digital Mapping)

    • 多模态融合与沉浸式体验 (Multimodal Data Fusion and Immersive Experiences)

    • 众包、数字传播与公共人文 (Crowdsourcing, Digital Communication, and Public Humanities)

    • 其他 古典文献的智能化开发及活化利用相关主题 (Other Related Topics)

    Important Dates 

    主要日程

    • 摘要提交开始日: 2026 年 2 月 20 日 23:59

       https://forms.cloud.microsoft/r/TADbKPhTcn

    • 摘要提交截止日: 2026 年 3 月 30 日 23:59

    • 录取结果通知: 2026 年 4 月 20 日 (通过第一作者电子邮件)

    • 在线报名: 2026 年 4 月 20 日 - 4 月 30 日

       https://forms.cloud.microsoft/r/07kCABGZxw

    • 邀请函发送: 2026 年 5 月 20 日 - 5 月 30 日 (发送至每位参与者的电子邮件)

    • 论文全文提交截止: 2026 年 7 月 1 日

    【注意事项】

    • 为提高质量,录取篇数限制在 80 篇以下,其中包括研究生论坛 20 篇。

    • 摘要可使用英语汉语英语与韩语,亦可用英语与母语撰写。在线提交摘要链接:https://forms.cloud.microsoft/r/TADbKPhTcn

    • 在线报名链接:https://forms.cloud.microsoft/r/07kCABGZxw(4 月 20 日开放)

    • 论文全文可使用发表者所选语言撰写。摘要被录取者,请于 7 月 1 日前按论文格式提交全文。

    • 摘要将印刷于会议手册,全文将存放于 U 盘,报到时发放。

    住宿  Accommodation

    参与者可自行安排住宿。

    会务组将提供优惠酒店信息,如需代为预订,请在线上报名时提交预订信息。预订优惠酒店需支付定金,请注意支付定金后取消将产生30%的违约金。线上报名截止后如需变更信息,请参与者直接联系酒店。

    • 酒店名:宜必思首尔仁寺洞大使酒店(双人间、大床房每晚价格相同,以下为入住日价格)

    • 7月21日~23日:含早餐(韩币)146,300元,不含早餐 132,000元。

    • 7月24日~26日:含早餐(韩币)179,300元,不含早餐 165,000元。

    https://j.map.baidu.com/e8/6aI

    https://maps.app.goo.gl/HibLjaMJbh4ewP4F6

    Conference Fee

    会议费用

    (1)住宿费、交通费自理。

    (2)工作坊、论坛注册费如下表:

    【备注】

    • 缴纳方式将于线上报名时另行通知;

    • 工作坊注册费包含茶点、材料费(不含午餐);

    • 论坛注册费包含午餐、茶点、材料费及晚宴;

    • 学生请在线上报名时提交学生证扫描件。

    Presentation Language

    汇报语言

    • 推荐使用汉语、英语、韩语之一,亦可使用母语。

    •  汇报当天,为便于与听众沟通,发表者务必准备英语或汉语PPT。

    咨询    Inquiry

    联系人

    許喆 博士

     联系方式

    邮箱:heochul@gmail.com 

     微信: chulheo

    Call for Sponsors and Co-organizers

    赞助与合办单位征集

    十一

    欢迎相关研究机构、高校、企业成为大会合办单位或提供赞助。对于赞助单位,大会期间将安排独立展位,展示赞助企业产品。并提供在大会网站、会议手册和背景板上显示企业LOGO、在会议资料包中发放企业介绍资料、安排大会报告或分会报告、分会场独家冠名等权益。

    详情请咨询許喆 博士。

    转载来源 | 京狮人文DH

    已获转载授权

    阅读原文

    跳转微信打开

    专业资讯 |施密特科学人文与人工智能虚拟研究院(HAVI)介绍

    2026年2月27日 08:30

    2026-02-27 08:30 湖北

    施密特科学旗下的HAVI,人文与人工智能虚拟研究院)是一项公益倡议,旨在通过系统性运用 AI相关工具与技术,推动人文学者产出具有领域针对性的创新研究成果,同时从人文学科中提炼洞见,反哺人工智能技术的发展。

    一、人文与人工智能虚拟研究院(HAVI)简介

    施密特科学(Schmidt Sciences)旗下的HAVI(Humanities and Artificial Intelligence Virtual Institute,人文与人工智能虚拟研究院)是一项公益倡议,旨在通过系统性运用 AI相关工具与技术,推动人文学者产出具有领域针对性的创新研究成果,同时从人文学科中提炼洞见,反哺人工智能技术的发展。

    01

    施密特科学机构简介

    施密特科学是由谷歌前首席执行官、前执行董事长、Alphabet前执行主席埃里克·施密特(Eric Schmidt)与施密特家族基金会及施密特海洋研究所主席温迪·施密特(Wendy Schmidt)创立并资助的公益组织及倡议的一部分,其宗旨是为全人类构建一个健康、有韧性、安全的世界。

    其团队致力于寻找从事早期、高风险假说研究,且研究范围涵盖从基础科学问题到地球亟待解决的各类难题的科研人员。该团队重点支持五大研究中心的相关探索:

    人工智能与先进计算(AI & Advanced Computing)、天体物理与空间科学(Astrophysics & Space)、生物科学(Biosciences)、气候科学(Climate)和科学系统(Science Systems)。

    在每个研究中心内部,该团队通过各类项目与计划提供科学支持。

    其计划旨在应对五大研究中心内的广泛挑战与宏观问题,提供资金支持、与内部员工的协作机会,以及受资助者之间的定期会议。该团队将其核心计划称为虚拟研究院,是一种长期全球性协作模式,汇聚不同学科的科学家共同应对社会挑战。另一方面,项目指的是该团队资助、由其机构外部运营的各类研究工作。

    通过这些载体,该团队旨在:

    (1)加快突破性研究进程

    • 支持科研人员运用新技术,推动高影响力科学研究的实现,并降低其达成难度。

    • 为新技术的原型设计、测试及规模化应用提供资源支持。

    (2)助力高风险、资金不足的研究工作

    • 发掘那些研究假说原本难以获得资助的科研人员。

    • 与国际网络共享知识并召集相关力量,推动科学进步。

    (3) 跨越传统学术边界开展合作

    • 汇聚来自不同学科和网络的科学家,共同应对特定挑战。

    • 通过全球科研人员与技术专家之间的理念和资源交流,构建紧密联系的合作网络。

    02

    HAVI项目背景

    当前AI模型在多语言场景、多模态数据集,以及历史文化差异的细微表达上仍存在明显短板,制约了其在人文学科领域的应用。HAVI旨在破解这些局限,推动AI与人文研究者开展跨学科合作,专注研发并应用新的AI技术,回应人文学科中复杂且具有重要价值的研究问题。

    在本项目模式中,人文学者将深度参与AI研发过程,而AI研究者则从人文视角深化对数据、模型与问题域的理解。这一协作框架力求产出突破性成果,同步提升AI能力与人文学术研究水平。

    HAVI旨在应对两大核心领域的挑战:人文学术研究与人工智能发展

    (1) 面向人文学术研究

    人文研究本就充满挑战,需投入大量时间、精力与资源对海量文献资料进行分析,方能得出富有洞见的结论。然而,当前人工智能工具对人文研究者而言仍存在局限:这类技术往往追求标准化与统一性,却常常抹去人文研究至关重要的文化差异、物质形态差异与认知感知差异。我们坚信,将传统研究方法与人工智能及数据驱动路径相结合,能够大幅拓展学术资源的获取渠道,助力人文学界产出更为严谨、更具数据支撑的研究成果。

    (2)面向人工智能发展

    人工智能模型在人文学科常见的多语言、多模态场景中仍面临诸多难题。当下的人工智能同样难以适配人文研究中普遍存在的多元历史情境、文化视角、语言体系、审美形态与模糊性表达。反之,人文学科在人工智能薄弱环节拥有深厚知识积淀,例如复杂的人类推理、叙事风格、隐喻理解,以及在艺术、文学等充满不确定性的领域中对价值与优劣的评判能力。我们认为,融入此类人文知识,将显著推动人工智能技术的迭代与完善。

    03

    HAVI项目目标

    (1)借助人工智能工具,推动人文学术研究实现突破性进展

    (2)融入人文研究洞见,促进人工智能技术迭代升级

    (3)推动深度且公平的跨学科合作

    (4) 构建全球化、多元化的研究共同体

    二、HAVI特色项目

    01

    人工智能助力法律及其演进研究

    人工智能助力法律及其演进研究项目汇聚法学学者、历史学家与计算机科学家,共同研发开源人工智能工具,用以支持跨语种、大规模的法律与历史研究,涵盖海量判例、成文法、口头辩论及历史文献。借助这些工具,研究团队将探究新的法律思想如何产生与传播、法官如何解释法条,以及此类解释习惯如何随时间推移、在不同司法辖区中发生演变。

    该项目同时将目光投向人工智能本身。随着法官与律师在工作中开始运用大语言模型及相关系统,这类工具可能潜移默化地影响法律的解读与适用方式。团队将测试不同人工智能模型对法条的解释逻辑、其内嵌的法律预设,以及它们强化或忽略了哪些文化与历史视角。项目产出的工具与研究成果,将助力学界及社会公众更深刻地理解法律的演进历程,以及人工智能可能如何塑造其未来发展。

    02

    闭环社群:面向多模态档案中文化与语境的人工智能应用

    本项目通过社群协作与人工智能技术,重新打开早期非裔美国人报刊的历史篇章,开发全新数字工具,对这些至关重要却长期被忽视的零散、碎片化档案进行重构与活化。正如早期黑人报刊所坚定宣告的——“他人代我们发声,已然太久”“我们需要一份报刊,一份属于我们自己的报刊”——19世纪黑人报刊是美国民主与自由抗争史上的关键篇章,但其档案或分散于各机构、或被付费墙阻隔,难以获取,致使这段历史长期被遮蔽。一支来自六所高校与阿德勒天文馆(Adler Planetarium)、屡获殊荣的跨学科团队,将融合历史学、机器学习与教育学专长,开发页面布局分割与光学字符识别的计算工具,为19世纪非裔美国人期刊在全球领先的众包研究平台Zooniverse上开展公众众包项目做好准备。志愿者将参与文本转录与内容语境解读,校验并优化机器生成的转录结果,推动以社群为中心的“人在回路(human in the loop)”人工智能模型发展。

    该公众众包项目将于2027年道格拉斯日(Douglass Day)正式启动。道格拉斯日为每年2月14日,是全球纪念弗雷德里克・道格拉斯自选生日的转录盛会。届时,数以万计的学生与志愿者将通过Zooniverse定制化移动端界面,参与整理早期黑人报刊中的数十万篇文献。团队并非简单套用现有人工智能基础模型,而是从黑人报刊自身传统中汲取养分,探索全新人工智能方法,借鉴黑人社群在奴隶制与吉姆・克劳法( Jim Crow)时期所创造的信息收集、传播与转化的创新智慧。本项目植根于对新闻自由与向权力讲真话之重要性的坚定信念,将建成首个早期黑人报刊综合性数字馆藏,并证明:更具公正性、以社群为核心的人工智能不仅可行,而且至关重要。

    03

    SETS:面向知识结构的集合式架构

    人工智能对人文学者的价值仍存在局限。人文学者的专长不仅在于还原历史事实,更在于理解如何恰当处理复杂且层次丰富的档案文献。本项目探讨:若将人工智能训练至能够向史料提出学者所关注的同类问题,将会带来怎样的改变——以此同时推动人工智能与人文学术研究的发展。该思路旨在突破当前黑箱预测模型的不可解释性,为学者探究人类相关议题构建更丰富的语境。项目团队汇聚人文学者、物理学家、计算机科学家、开发人员与设计师,包括妮可・科尔曼(Nicole Coleman,旧金山)、米歇尔・毛里(Michele Mauri,米兰理工大学)、理查德・罗伯茨(Richard Roberts,斯坦福大学)、艾伦・罗马诺(Allen Romano,可汗学院)、杨迪伊(斯坦福大学)与阿里・亚伊奇奥卢(Ali Yaycıoğlu,斯坦福大学)。

    项目坚信,构建此类人工智能需要将知识表示、人文学科长期秉持的评价标准与具备严谨认识论的软件设计进行全新融合,因此采用既非纯概率性、亦非完全确定性,而是兼具人文性与情境依赖性的研究路径。其核心基础是一套结构化的集合式框架,能够允许思想与定义动态演进,同时清晰记录其来源与提出者——这是保障学术阐释可靠的必要条件。项目的最终目标,是为后代保留完整理解与接触复杂知识体系的能力。

    04

    档案智能:人工智能能否拯救濒危档案

    小型档案馆藏有独一无二、别处无存的历史文献。然而,关注此事者都在目睹它们不断消亡。财力雄厚的机构能够承担专业保存成本,小型社群档案馆却无力负担,其影响真切而沉重:后人与先辈的故事日渐失联,社群与自身的文化根脉被迫割裂。就连历史学家也无法书写完整的历史,因为原始史料正在风化损毁,部分甚至永久消失。一份1919年的新奥尔良报纸(下图)逐年变得难以辨认,仅存的照片中,破损褶皱的一角隐没在阴影里。小型历史协会深知正在失去什么,但专业保存设备与档案人员的费用高不可及。

    一支由人工智能研究者、档案科学家、爵士乐史学家与新奥尔良文化专家组成的团队正全力抢救这些遗产。他们的目标是:仅用一张智能手机拍摄的照片,借助人工智能复原史料中因损毁而丢失的部分。团队还将为复原后的文献注入智能,跨文档、跨语言、跨格式关联信息,让研究者与后人能够精准检索所需内容,甚至催生新的学术发现。这项为期18个月的新奥尔良试点项目,聚焦历史档案中长期被系统性忽略的声音——包括记载克里奥尔与卡津社群的多语种报刊,以及早期爵士乐相关资料,直面最棘手的抢救难题。若试点成功,成千上万的小型档案馆将终于拥有守护正在消逝史料的可行之路。

    05

    破译失传的速记艺术

    “破译失传的速记艺术(Decoding the Lost Art of Shorthand)”项目聚焦一批目前难以利用的重要历史文献:以加贝尔斯贝格速记法(Gabelsberger shorthand)书写的手稿。这套速记体系在19世纪至20世纪初被广泛使用,见于库尔特・哥德尔(Kurt Gödel)、埃尔温・薛定谔(Erwin Schrödinger)、卡尔・施米特(Carl Schmitt)、埃里希・凯斯特纳(Erich Kästner)、福尔哈贝尔枢机主教(Cardinal Faulhaber)等众多名人的文稿之中。尽管这些手稿具有明确的历史与思想价值,如今却极少有人能够识读,致使大量档案文献实际上处于无法利用的状态。

    本项目整合书籍史与计算机视觉领域的专业力量,探索现代手写识别技术在加贝尔斯贝格速记法解读上所能达到的效果。通过精心构建训练数据、优化适配识别算法,并将全部数据与模型开源发布,项目旨在为这批珍贵文献(包括哥德尔的部分笔记)搭建切实可行的利用基础,为后续研究提供便利。

    06

    基于人工智能计算机视觉的印刷品研究

    “印刷品智能视觉研究”项目汇聚曼彻斯特大学、牛津大学的文本学者、书籍史专家、计算机科学家、图书馆数据专家与研究软件工程师,共同探索人工智能计算机视觉如何为早期印刷文献与艺术品研究带来全新视角。项目通过训练机器识别同一印版不同印次之间的细微差异,探究算法是否能以人类方式“看待”书籍与印刷品,以及当计算视觉被应用于文本器物时,将产生何种新知。

    该研究将揭示历史印刷工艺的新信息,如印次顺序与相对年代,并助力重构印刷工坊及其受众的社会图景。最终目标是让人工智能模型以接近人类描述的自然语言,回答“这些印刷品差异何在”,从而开发新型人文辅助技术,揭示早期人机互动的物质成果,进一步发掘人类历史的多元面向。

    07

    中世纪司法判例:基于人工智能的获取与分析

    “中世纪司法判例:基于人工智能的获取与分析”项目聚焦收藏于欧洲各地图书馆的数千封教皇书信——这些文献真实展现了中世纪民众的生活、争辩方式以及对是非正义的理解。这些书信是中世纪欧洲各地向教皇求教后的回复,因以拉丁文书写、散见于数百份手写抄本且各版本略有差异,长期以来难以被广泛利用。本项目借助人工智能解锁这一尚未深入研究的法学史料库,并构建一款与商业系统截然不同的对话机器人:它会明确引用所依据的中世纪原始文本,并解释推理过程,以此证明面向学术、非商业用途的本地化定制人工智能具备可行性。

    该对话机器人将拉丁语视为一种历经数百年演变的活语言,而非被强行塞入英语中心模型的静态低资源语言(resource-poor language)。它正视中世纪拉丁语所依托的世界观无法简单对应现代概念范畴这一事实,不追求将文本毫无偏差地转译为当代语言,而是帮助使用者以中世纪自身的逻辑理解当时人们对法律、道德与社会的思考,强调文化敏感性,揭示翻译与时过境迁带来的解读偏差。通过这一路径,项目树立了以追求真理而非便捷为目标的人工智能典范,也为技术如何更好地服务于英语主流市场之外的语言与文化提供重要启示。

    08

     从分子到杰作

    从分子到杰作(From Molecules to Masterpieces)跨学科合作项目融合分子成像与光谱技术、数学建模、机器学习、文物保护与艺术史等领域,旨在揭示艺术品的创作过程、原始面貌及其随时间发生的变化。绘画与文化器物通常包含多层物质材料,这些材料不仅决定其视觉外观,还隐藏着早期构图,记录着艺术家的创作选择与当时可用的物料。随着时间推移,颜料与黏合剂会因光照和环境影响发生改变,而这类层积形成的历史信息,传统分析手段往往难以触及。

    项目将开发前沿分子成像技术与先进人工智能方法,用以融合多模态数据、建模降解过程,并揭示老化如何改变颜料样貌。研究将构建一套可预测的分析框架,能够虚拟“时光回溯”,还原艺术品最初色彩,为更科学的修复工作提供依据,优化可视化呈现,并深化历史解读,甚至可为作者归属等问题提供新证据。本研究将为艺术史学者与文物保护专家提供强大的新型研究与保护工具,同时,针对复杂多模态数据的机器学习方法,未来也有望在生物成像等其他领域得到广泛应用。

    09

    印刷与概率:运用人工智能识别秘密铅印书籍的印刷者

    《印刷与概率:运用人工智能识别秘密铅印书籍的印刷者》是一项具有开创性的“悬案破解”项目,借助人工智能揭开近代早期欧洲那些出版争议性书籍的秘密印刷者身份。数百年来,那些彻底改变历史进程的禁书与政治高危作品究竟出自何人之手,一直困扰着历史学家。本团队将前沿人工智能与深厚人文学术专长相结合,致力于破解这些历史谜团。

    项目方法融合两类证据:大规模语言数据与印刷器物留下的物理痕迹。大语言模型(LLMs)极少能达到历史学家所要求的精度,但这并不意味着它们毫无用处。本项目利用大语言模型分析法庭记录、书信、书目及二手研究文献等史料,对哪些印刷者具备动机、手段与机会印制秘密书籍与小册子,生成概率性假设。随后,基于图像的模型对印刷本身的细微物质特征——如破损活字的形态、纸张纤维的纹理等——进行检测,以验证这些假设。

    本项目将探案的趣味性与人工智能的强大能力相结合,为审视审查时代下思想如何传播打开了全新视角,揭示出由印刷者、出版商与读者构成的隐秘网络。他们不惜一切代价,将那些危险思想化为实体文本。

    10

    精微音乐

    音乐本质上是多模态的,但现有人工智能系统仍难以理解音乐中多模态关系的基本规律。精微音乐(Musica Subtilior)项目旨在弥补这一缺口,通过两条互补路径研发稳健的多模态音乐人工智能。

    其一,项目构建大规模数据集与创新人工智能方法,训练模型在音乐模态(音频、乐谱图像、MIDI、MusicXML)之间实现可靠转换,以期为音乐家的日常创作流程提供支持,并在长期内推动通用人工智能对音乐理解能力的整体提升。

    其二,项目运用人文学术研究方法探究音乐家如何解读多模态关系,并以图形记谱法为案例,揭示音乐背景、训练经历与文化语境如何塑造解读方式。通过参与式设计、数据分析以及人类与人工智能音乐理解的对比研究,本项目既致力于提升人工智能性能,也试图揭开音乐技艺背后直觉过程的奥秘,从而为更能支撑人类创作活动的人工智能系统提供理论依据。

    11

    基于强化学习人工智能模型的破损手稿文本修复

    绝大多数古代文献未能留存至今:它们或因疏于保管而湮灭,或因刻意销毁而消失,偶尔也毁于洪水、火山喷发等自然灾害。少数文献虽历经劫难却奇迹般保存下来,或掩埋于沙土之中,或化为炭化遗存,但都已严重破损。近几十年来,多光谱成像、摄影测量、反射变换成像、X射线断层扫描等先进成像技术极大提升了我们识读这类文献的能力,让残存墨迹更为清晰可辨。但核心难题依然存在:文献本体破损严重,墨迹缺失、孔洞与撕裂随处可见,导致许多区域无法恢复为连续可读的文本。人工校勘者虽已掌握破损或缺损文本的复原技艺,但此类问题规模庞大,唯有借助人工智能工具,整合更多相关证据、高效提出多种修复方案,才能显著优化复原流程。

    本项目聚焦三大古代破损藏书库——它们自被发现以来,数十甚至数百年都未能被全面释读:以希腊文为主,少量拉丁文的赫库兰尼姆炭化纸草卷(the carbonized Herculaneum Papyrus Rolls),拉丁文的赫库兰尼姆与庞贝木简(the Wooden Tablets from Herculaneum and Pompeii)以及科普特文(Coptic)的麦地奈特・马迪摩尼教文献馆藏(the Medinet Madi Library of Manichaean Texts)。项目将利用已能显现隐文的增强成像资料,对褪色、残断、损毁的字母、词语与语句进行修复,进一步提升破损区域的可读性。该方法继承悠久的人文校勘学传统,在文本修复各环节训练人工智能应用,通过基于前沿用户界面的强化学习,融入学者的语言与文化知识,并制定评估标准,将计算机科学最佳实践与人文学者校勘古代文献的方法相结合。具体而言,这些新型人工智能工具将判定手稿破损类型,补全褪色与残断字母,借助各类增强成像显现肉眼不可见的细节,并最终对完全缺失文字的空白部分进行复原。

    12

    玩天堂:以人工智能重绘近世东亚新儒家世界

    “玩天堂(Playing Heaven)”项目旨在通过一套面向特定领域的复合型人工智能系统,丰富近世东亚的思想史与文化史研究。该系统将学派、文学思潮与践行之学视为历史形成的产物,而非预先设定、直接套用于语料库的概念范畴。

    项目以“胸有成竹(the complete bamboo in the breast)”为理念隐喻——即对竹子完整生命历程的内化理解,能够自然流畅地呈现于笔下。借助人工智能技术,本项目将揭示在同等规模与复杂度下,人类研究者难以察觉的结构与演变轨迹;同时将人工智能产出视为启发性参考,而非终极定论。

    13

    超越翻译:开放人类文明记录

    “超越翻译:开放人类文明记录”项目将彻底改变我们跨语言、跨文化接触文本的方式。如今,大语言模型(LLMs)已能对古今语言提供较为准确的翻译,但研究团队强调:翻译仅仅是起点。他们的研究思路是,利用大语言模型不仅进行翻译,更进行阐释——将字词、短语与语法、词典、百科、地图及注疏相互关联,从而搭建通往原始文献的动态通道,呈现翻译中常被丢失的细微语义与文化语境。

    该项目依托珀尔修斯数字图书馆开放数据、哈佛大学与谷歌合作的百万册图书OCR语料库,以及新型对齐模型,将生成从荷马到莎士比亚的注释语料、集注本与比较研究成果。通过融合文献学与人工智能技术,项目旨在让人类文明记录的获取更加普惠,推动多语文学术研究,并为人文学科中可解释人工智能的应用树立标杆。

    14

     欧亚语言检索增强

    当前人工智能系统在处理需要依托专家整理数据库的历史文献时仍存在明显不足,这限制了人文学者跨世纪、跨语言追溯思想脉络的研究。“文本传统中的关联性与个体性”项目提出核心问题:欧亚文本传统如何作为动态网络,实现知识的传播、转化与论争?面向领域的人工智能如何在大规模揭示这些网络的同时,保留语言与历史的独特性?

    本项目开展五项案例研究,涵盖希腊语、拉丁语、阿拉伯语与希伯来语的亚里士多德评注、亚美尼亚语奥斯曼助产登记文献、梵语、汉语与藏语佛教典籍,以及汉语古典文论与现代引文研究,为八种资源匮乏语言提供高质量标注语料库。专项计算机科学团队将完成三项工作:

    ·预训练中小型多语言基础模型;

    ·构建图谱检索增强生成(Graph‑RAG)工作流,追踪跨时空、跨译本的互文关系、语料形成与概念流变;

    ·发布一套融合专家判断与量化指标的评估框架。

    15

    大规模计算分析与影视细读的融合

    在视频计算方法成熟、研究级大数据可及、以及致力于拓展图像分析边界的学者群体不断壮大的推动下,人工智能研究正在为影视研究开辟全新前沿。本项目汇聚数据科学、计算机科学与电影/媒介研究领域专家,围绕四个案例展开研究,将大规模计算分析的优势与传统人文学术研究相结合。

    这些案例将对特写镜头与摄影机运动进行量化分析,利用多模态信息拆解叙事脉络,并探究影视作品中视觉与听觉时序的关系。本项目最终将产出兼具人文与人工智能价值的前沿学术成果、开源软件,对Kinolab平台进行升级以支持非计算背景的电影学者使用研究结果,并举办专题研讨会,邀请影视领域专家与计算学者共同探讨新兴人工智能研究方法。

    三、人文与人工智能虚拟研究院(HAVI)项目征集

    (一) 概述

    施密特科学现面向人文与人工智能虚拟研究院(HAVI)开放项目申请,旨在支持以人工智能为核心的数字人文研究。理想项目应由人文学科与人工智能领域的共同首席研究员牵头合作,同时回应两大领域的研究问题。本次征集面向全球高校与非营利机构开放。

    (二) 关键时间

    提案截止日期:2026年3月13日,美国东部时间晚上11:59

    结果通知时间:2026年夏季

    (三) 资助等级

    I类:100000–299,999美元

    II类:300,000–800,000美元

    (四) 预计资助数量

    15–25项

    (五) 执行周期

    I类项目:1–2年

    II类项目:1–3年

    (六) 联系邮箱

    havi@schmidtsciences.org

    (七) 资助等级说明

    申请人可选择以下任一资助等级:

    I类:100,000–299,999美元

    面向尚无成熟成果的新研究项目,可为新建合作团队或已有团队,但研究尚处早期阶段。研究内容可包括:新方法试点、原型开发等。顺利完成的I类项目可在未来申请II类资助。

    II类:300,000–800,000美元

    面向已较为成熟、可规模化拓展的项目。申请人需说明前期筹备或原型阶段成果,并论证追加资助如何助力项目达成目标。

    (注:II类申请人无需曾获得HAVII类资助,但须证明研究前期成果。)

    (八) 关于“人文研究问题”的定义——传统研究vs工具/方法/基础设施研究

    许多人文类基金不支持以开发新工具、方法、设备或基础设施为主要目标的研究,但HAVI明确欢迎此类项目。

    在描述人文研究问题时可以聚焦于:

    • 传统人文问题(如:美国内战期间的粮食短缺如何影响南方饮食文化?)

    • 方法学问题(如:能否研发一种新型人工智能传感器,帮助考古学家确定发掘地点?)

    多数项目可同时包含两类问题。以工具或方法开发为核心研究问题的项目,需充分论证:

    • 该工具的必要性

    • 如何惠及人文学科

    • 如何支持学者解决传统人文问题

    • 团队须具备相关人文领域与计算机科学专长,鼓励为所开发工具/方法提供清晰测试案例。

    (九) 不纳入资助范围(Out-of-Scope)

    以下主题虽具重要性,但本次征集暂不支持:

    • 人工智能辅助艺术创作

    • 政策、政策相关及倡导类项目

    • 以人工智能历史/批判为核心的项目

    • 以教学法与课程开发为核心的项目

    • 无人文导向的人工智能方法开发;或不使用人工智能的纯人文项目

    • 纯数字化项目

    • 人工智能非技术层面研究(包括伦理、政策、治理等)

    (十) 评审标准

    申请将由施密特科学工作人员与外部评审人依据以下标准审核资格与质量:

    • 执行方案的清晰度与可行性

    • 方案是否在周期内可行、技术可靠

    • 项目范围与所选资助等级是否匹配

    • 团队适配性

    • 团队是否适合开展本研究

    • 是否同时具备高质量人文与计算机科学方向的代表与领导力对人文学科领域的潜在影响

    能否通过人工智能工具与方法催生领域特定的突破性研究体现在:

    • 开辟全新研究路径;

    • 突破学术瓶颈对人工智能发展的潜在影响

    能否从人文学科中产出洞见与技术,推动人工智能整体发展体现在:

    • 构建能缓解现有AI缺陷的数据集/方法;

    • 针对多模态理解等AI短板提供人文数据、理论与知识;

    • 产出由人文场景驱动的创新模型架构(如联合嵌入、新型无监督模型等)

    (十一) 申请方式

    文件须通过Survey Monkey Apply平台提交,需提交材料如下:

    (1)项目信息

    提案提交人姓名、邮箱及职称资金接收机构/单位(请确保填写机构法定全称。若有财务托管机构,此处应填写该托管机构)项目总预算(美元)项目开始日期( 月/ 年)项目结束日期(月 / 年)

    I类项目周期不超过2年,II类项目周期不超过3年。

    (2)项目类别

     I类还是II类资助?

    (3)关键词

     提供5个描述本项目的关键词,以逗号分隔。

    (4)学科领域

    列出本项目涉及的核心学术学科,以逗号分隔(例如:法国文学、法国历史、计算机科学、东亚研究、计算语言学等)。

    (5)项目摘要

     为非专业读者撰写一段简短的项目摘要(最多1000字符,含空格)。

    (6) 人文学科研究问题

    简要概括人文学科研究问题,帮助非专业读者理解本项目将如何推动人文学科发展(最多1000字符,含空格)。

    (7)人工智能研究问题

    简要概括人工智能研究问题,帮助非专业读者理解本项目将如何推动人工智能发展(最多1000字符,含空格)。

    (8) 算力需求

    说明项目所需的算力时长(例如:以配备80GB显存的标准H100 GPU为例)。可直接向施密特科学中心申请免费算力。该申请不保证获批,若获批,其分配权完全归施密特科学中心所有,并遵循其不时更新的条款与条件,包括第三方算力提供商可能要求的条款。

    (9) 项目陈述(最多8页)

    描述拟立项项目,并回答以下问题(文档中请为每个问题单独设立章节)。提案总页数不得超过8页,含图表不含参考文献。预算需单独提交。参考文献请列在文档末尾。(陈述文件必须以PDF格式上传)

    • 研究问题:本提案拟解决的挑战/问题是什么?该挑战及拟开展工作与HAVI项目重点方向有何具体关联?拟回答的具体人文学科研究问题是什么?为何人工智能是解决该人文学科问题的合适工具?拟回答的具体人工智能研究问题是什么?人文学科将如何帮助解决该问题?

    • 研究思路与方法:本项目将采用何种研究思路?为何该思路能有效推进问题解决?说明为何您的项目适合所申请的预算等级(I类vs II类)。该思路存在哪些风险?您将如何应对?将采取哪些措施确保数据收集、分析与使用符合伦理规范?

    • 领域现状分析:本项目与该领域现有研究如何衔接?本研究思路有哪些创新与独特之处?

    • 项目影响:若项目成功,将带来哪些改变?尽可能清晰、具体地阐述预期影响。说明项目如何同时推动人文学科领域进步,并为人工智能发展提供参考或改进方向。

    • 研究团队:介绍项目团队,说明为何他们是牵头开展本研究的最佳人选。重点突出团队在人文学科与人工智能领域的专业能力。说明计划如何在多元文化或机构背景下营造包容、协作的研究环境(例如如何指导团队内学生)。每位团队成员将如何主导及/或参与本项目工作?请详细说明团队成员在拟开展活动中的具体分工。

    • 推广与传播:详细说明预期最终成果及其与项目目标的对应关系。制定面向目标受众的传播推广计划,确保工具与成果能在申请机构之外推广应用。

    (10)团队简历

    请仅通过Survey Monkey Apply系统上传首席研究员及合作研究员的简历,每份简历不超过2页。(必须以PDF格式上传)

    (11)预算及说明模板

    现阶段需提交按类别汇总、并按项目各年度拆分的总费用清单。简要说明每项预算条目对实现项目目标的必要性。

    间接费用(IC):项目全程间接费用不得超过总预算的10%。例如10万美元资助的间接费用不得超过1万美元。项目全程间接费用总额不得超过预算的 10%。即提案团队内各机构可执行高于10%的间接费用,只要所有机构整体间接费用不超过总预算上限即可。部分通常被申请机构视为间接费用的支出,若与项目直接相关且在预算中单独列项,施密特科学中心可将其认定为直接费用——例如:薪资、医疗及退休等附加福利、实验室使用费、网络或数据存储使用费、其他算力费用等,只要合理且可归属于项目或项目团队即可。

    (12)受资助方信息表

    提交受资助方信息表(必须以PDF格式上传)。若资金接收机构位于美国及其领地之外,请同时提交非美国受资助方信息表(可电子签名后上传PDF,或打印手写签名、扫描后上传PDF)。

    以上内容来自施密特科学官方网站:

    https://www.schmidtsciences.org/about/

    经数字人文资讯小编翻译整理而成

    如需转载请后台私信联系

    编译丨洪冰凤

    校对丨罗斯鹏

    排版丨魏翔

    阅读原文

    跳转微信打开

    专题荐读 | 全流程文本处理管线中的语料生产与语义挖掘

    2026年2月21日 16:18

    原创 数字人文资讯 2026-02-21 16:18 湖北

    本文所构建的数字化路径遵循先文本提取、后数字化处理的逻辑:即首先利用OCR技术与BERT架构模型完成字符与语义信息的获取,随后依托Python计算管线与TEI编码体系实施语料的深度处理与结构化构建。

    在数字人文研究中,文本数字化(Text Digitization)不仅是将纸质文献转化为PDF格式的图像扫描,更是一个将纸本、影像或非结构化电子文档系统性转化为可计算、可追溯、可复核、可长期保存及可互操作语料的全过程。从技术栈角度审视,该过程由四个相互依赖且可迭代优化的环节构成:首先是获取与预处理阶段,涵盖高质量采集、图像去噪、倾斜校正及版面分析,为识别提供稳定输入;其次是识别环节,通过OCR(Optical Character Recognition,光学字符识别)或HTR(Handwritten Text Recognition,手写文字识别)技术将图像信号映射为字符序列并保留置信度数据;第三是结构化与语义显式化环节,利用TEI等标记体系将文本结构与解释编码为可交换数据模型;第四是统计建模与表示学习阶段,通过BERT等上下文表征模型习得语义结构,实现从检索到推断的范式转变。

    基于此,本文所构建的数字化路径遵循先文本提取、后数字化处理的逻辑:即首先利用OCR技术与BERT架构模型完成字符与语义信息的获取,随后依托Python计算管线与TEI编码体系实施语料的深度处理与结构化构建。

    图1:文本数字化流水线工程的流程图

    (一)

    OCR/HTR——图像到可计算文本

    1

    OCR的定位与目标

    在此框架下,OCR 应被视为一套将图像转化为可计算文本证据链的技术体系,而非单纯的格式转换工具。其功能目标主要包含三个维度:首先是可读性转换,即把页面图像中的文字转写为可编辑的字符序列;其次是可索引性与可定位性,即在输出结果中保留字符、行、文本块与页面坐标的对齐信息,便于检索回指、校勘复核及 TEI 标记锚定;最后是质量可度量性,即输出置信度、候选集与错误分布,确保语料质量可通过量化指标监控,并建立必要的回溯机制。

    2

    工程流水线

    在工程实践中,这构成了一条严密的流水线:图像获取与质量控制(分辨率、对焦、畸变、光照与色彩空间)、预处理(去噪、去阴影、纠偏、增强)、版面分析与区域分割(检测文本块、表格、图像、脚注及旁注)、阅读顺序恢复(处理多栏、跨栏、竖排)、文本行检测与裁切、字符识别、以及语言统计后处理(规范化、纠错)。对于数字人文项目而言,版面分析、阅读顺序恢复及行切分等上游环节的准确性往往决定了最终数据的可用性。若区域分割或阅读顺序出现偏差,即便识别模型输出的字符序列表面流畅,其文本结构也已受损,进而系统性地干扰后续 TEI 层级构建、引文注释归属以及下游 NLP 任务的断句与实体边界判定。因此,文本准备环节的重要性往往高于具体模型的选择。

    3

    技术沿革与可迭代评估

    从历史沿革来看,OCR技术的工业化应用并非始于学术场景,而是与大规模文档处理的自动化需求紧密相关。以邮政领域为例,早期的自动化技术即将机器读取地址并自动分拣作为核心功能,美国邮政署(U.S. Postal Service)在 20 世纪 60 年代中期引入光学字符读取设备,显著推动了地址识别与分拣自动化的规模化落地。受限于应用场景,早期的 OCR 范式多基于规则系统,即在相对受控的字体与版式条件下,通过模板匹配与特征工程实现识别。进入深度学习时代后,OCR技术发生了关键跃迁:其核心任务从单点字符分类演变为面向复杂文档的检测、识别与结构恢复系统工程。当代 OCR 技术的竞争焦点在于模型化与系统化能力的整合,涵盖从检测到识别、从端到端处理到后处理的全流程。在数字人文研究中,这一阶段的技术红利不仅体现为识别准确率的提升,更在于增强了对复杂版式的适配能力,提供了可控的误差分析手段,以及更易于纳入人机回环(human-in-the-loop)的校对与迭代机制。研究者需将 OCR 视为语料生产线的一环,持续追踪字符错误率(CER)与词错误率(WER)及版面召回率,监控形近字、缺字、错行、乱序等错误类型,并据此调整扫描预处理策略、优化分割模型或扩充训练数据。

    4

    繁体中文材料处理工具推介

    针对繁体中文材料的 OCR 处理需作专门讨论。这不仅源于其庞大的字符集,更在于其特有的错误特征与简体现代印刷体存在显著差异:形近字密集与笔画结构复杂,使得低分辨率或墨迹不均导致的系统性混淆更为常见;史料与古籍中高频出现的竖排、夹注、圈点及复杂版心,使得版面分析与阅读顺序恢复成为技术瓶颈;此外,异体字、罕见字及历史用字的分布往往超出通用模型的训练范围,易导致特定字符的持续性识别偏差。基于上述特性,工具选型应优先考量两点:一是工具是否具备针对繁体中文及特定语言环境的模型配置;二是能否输出包含文本、坐标及置信度的结构化结果,以确保下游 TEI 编码与模型训练中证据链的完整性与可复核性。在繁体中文处理工具的选择上,若研究目标侧重于构建可复现、可微调且能整合至 Python 工作流的方案,PaddleOCR 是较为理想的选择。

    图2

    在配置层面,PaddleOCR 明确支持繁体中文识别(如通过 参数启用),并支持针对罕见字与特定文献材料进行微调,以覆盖长尾字符。此外,其模型库中包含面向繁体中文的专用识别模型(在模型卡中明确标注 Traditional-Chinese-specific 及其性能指标),这对需要固定模型版本、开展对比实验及误差分析的数字人文作流至关重要。

    该技术路线的标准实施范式为:以页为单位输出结构化JSON数据(包含每个文本行或文本块的坐标框、置信度及识别文本),将其作为 TEI 标记与 BERT 训练及推理的共同上游数据,从而确保同一证据链在不同处理路径中的共享与一致性。相对而言,若项目材料以现代繁体印刷文档为主,且主要诉求在于版面还原、段落与表格保真以及降低工程整合成本,商用 OCR 方案则更具效率优势。

    针对中国古典文本的开放式 OCR 平台(如“云聪”“如是”等)虽有其应用场景,但在研究型项目中通常不作为首选。主要基于两点考量:其一,此类平台通常对调用数量设有配额限制;其二,云端处理在数据隐私与保密性方面存在不可控风险。

    PaddleOCR这一工具在定位上并非仅限于图像到字符串转换的基础 OCR 库,而是面向生产环境的 OCR 与文档智能(Document AI)引擎。其功能覆盖从文本抽取到文档理解的端到端方案,并支持将 PDF 或图像转化为结构化、机器友好的数据形态(如 JSON、Markdown),以支撑后续的检索、RAG(检索增强生成)及信息抽取等应用链路。

    从工程接口与可复现性角度审视,PaddleOCR 的优势在于其模块化但统一的调用方式。在安装层面,该工具区分了基础 OCR 能力与文档解析理解等扩展能力:仅需常规OCR(返回文本位置坐标与内容)时,可安装基础包;若涉及文档解析、文档理解、文档翻译及关键信息抽取(KIE),则可安装包含全量特性的扩展包。这种按需分层的安装模式对研究型管线具有重要意义:研究者可先以最小依赖构建识别与评估基线,随后根据材料复杂度逐步引入解析模块,并通过环境锁定(固定版本号、模型版本及依赖库)确保实验的可复现性,从而满足方法学部分的规范要求。

    在推理层面,PaddleOCR 提供 API 与命令行(CLI)两种交互模式,便于在快速测试、批处理与集群任务间灵活切换。其 API 设计体现了清晰的“预测—打印—落盘”范式:初始化实例后,对输入图像或 URL 执行预测,并将结果可视化保存或输出为结构化 JSON 文件。对于数字人文工作流,这种“落盘 JSON”的设计对应了证据链策略:以页为单位输出包含文本、坐标及置信信息的结构化文件,作为 TEI 编码与 BERT 数据准备的共享基准,避免了因两条路径各自进行二次清洗与切分而导致的数据不可比与不可追溯问题。此外,PaddleOCR 在同一库中提供了文档结构解析管线示例(如 PP-StructureV3),其输出支持保存为 Markdown 格式。Markdown 与 JSON 可作为轻量级中间层,协助研究者在正式进入 TEI 编码前完成页面级结构抽取、抽样校对及误差统计;待结构稳定后,再将标题、段落、脚注、表格等关键层级映射至语义更为严格的 TEI 标记。

    针对古籍与史料影印本的处理,PaddleOCR 的接口显式暴露了若干面向文档畸变与方向矫正的参数(如文档方向分类、去扭曲展平及文本行方向处理)。这表明该工具将拍摄或扫描导致的旋转、透视及弯曲视为工作流内部的核心问题,而非依赖外部预处理脚本。在方法论层面,这强化了一个核心判断:对于历史材料,版面与几何纠正的成败往往先于字符识别本身。若能将这些步骤纳入同一条可记录、可配置的管线,将有助于在论文中明确可复现的实验条件(包括统一的参数开关、模型版本及输出格式)。

    值得注意的是,PaddleOCR 3.x 版本引入了显著的接口变更,导致基于 2.x 版本编写的代码可能无法直接兼容。因此,在撰写数字人文项目的方法论部分时,必须明确记录使用的 PaddleOCR 版本号、关键依赖版本及模型版本(尤其是涉及微调或更换识别器/检测器时),并将运行参数(如方向分类启用状态、去扭曲设置、输出格式等)以配置文件形式固化。这与云端平台的局限性形成了鲜明对照:本地可控管线不仅解决了隐私与配额问题,更将方法的可复核性从理论原则落实为可执行的工程实现。

    5

    西洋历史手稿(HTR)——Transkribus与Kraken

    对于西洋手稿识别,更准确的表述是 HTR而非通用 OCR:手稿的关键困难来自书写体变异(字体、时代、书写速度、非标准拼写),因此最可靠的路线往往是:领域训练 + 人机协同校对 + 指标驱动迭代。在此类项目里,你不仅需要一个能识别的模型,更需要一个能组织训练数据、管理模型版本、提供质量评估(尤其是 CER)并支撑校对闭环的工作流环境。

    基于这种需求,如果你希望采用平台化、偏生产与协作的一体化方案,推荐 Transkribus:其产品定位就是以 AI 驱动的手写与历史文献识别,并支持训练面向特定手稿的自定义模型(custom AI models),适合团队协作与长期项目治理。关于Transkribus的详细介绍请参考本公众号上一篇文章《手稿研究中的数据集及其研究用途》(https://mp.weixin.qq.com/s/X15GN2b_E7jRaUJevG5Nng) 它对 CER 的解释、ground truth 与自动转写之间的距离度量,也有明确的官方说明,便于你把系列文本的识别质量从主观印象变成可报告的研究指标。

    图3

    6

    Kraken:域适配、版面/行训练与互操作输出

    若研究路径倾向于脚本化编排与深度改造,Kraken 是更为理想的方案。具体而言,Kraken 不仅具备字符识别能力,更将分割与版面分析纳入核心功能范畴:其版面区域、基线与文本行以及阅读顺序恢复等模块,均支持在项目内进行训练与域适配。此外,Kraken 在脚本与排版处理上对历史材料具有显著的适应性:它明确支持从右向左(RTL)、双向文字(BiDi)及自上而下(Top-to-Bottom)的排版方向,并具备多脚本识别(multi-script recognition)能力,这对处理拉丁字母与希伯来语、阿拉伯语混排,或排版复杂的历史印刷品与手稿尤为关键。

    基于 Kraken 以文本行(text line)为基本单位的技术特质,其在训练与识别阶段支持使用未做字符级切分的输入,即不依赖逐字形切分(glyph segmentation)。其训练文档明确指出,模型可在未分割输入上习得从行图像到字符序列的映射关系。对于连笔手稿、草写体及字符边界不稳定的历史字体,这一特性显著降低了由“先切分后识别” 模式带来的耦合误差与标注成本。该机制与数字人文项目的可持续性直接相关:将真值(ground truth)生产锚定在行级对齐转写而非高成本的逐字形切分上,更易于构建稳定的人机协同闭环——通过追加少量高信息量的标注行进行微调或复训,观察字符错误率(CER)与词错误率(WER)及错误类型(如错行、漏行、形近混淆、缩写展开失败)的变化,进而决策下一轮训练样本的补充策略。在工程实施层面,Kraken 支持批量执行“版面/行检测→识别→输出带坐标的结构化转写”流程,并兼容 ALTO、PageXML、abbyyXML、hOCR 等通用格式。其输出的对齐结果可作为共享上游,无缝对接后续的 TEI 标记(语义显式化与校勘)或 BERT 下游任务(实体识别、断句、相似性检索)。

    (二)

    编码与再造——从OCR输出到结构化语料

    编码与再造环节位于OCR与最终研究问题之间,是把字符输出重建为可计算语料的关键。其核心任务包括:统一中间表示、可逆清洗与规范化、结构层级重建、锚定与ID体系、交换格式导出。

    1

    数字化阶段面向可复现

    具体到文本数字化(不涉及高层分析),Python 的功能高度集中于构建可靠数据的基础任务:

    • 影像与PDF的获取、规整与预处理:包括批量拆分 PDF 页面、统一分辨率与色彩空间、纠偏、去阴影、裁边及生成多分辨率衍生文件,为 OCR/HTR 与人工标注提供标准输入

    • OCR/HTR调用与输出统一:无论是采用 PaddleOCR、Kraken 或者是其他引擎,Python将其输出规范化为统一的页面对象模型(page/region/line/token),并保留 bbox 坐标、阅读顺序、置信度与来源信息(模型版本、参数、运行时间、硬件环境)。

    • 文本规范化与可逆清洗:涵盖 Unicode 归一化(NFC/NFKC 策略)、全半角与标点统一、空白与换行处理、常见 OCR 噪声(页眉页脚、版心、装订痕迹)剔除。关键在于保持可逆性,即确保清洗后仍能回溯至原始 OCR 字符串与页面坐标,避免数据不可审计。

    • 结构对齐与锚定:将 OCR/HTR 的行、栏、段落与页面坐标映射至 TEI 的 facsimile、surface、zone 或其他锚点体系;若采用 standoff 标注,还可生成稳定的 ID 与偏移映射,使注释或读法精确指向原文片段与影像位置。

    • 格式互转与交换包生成:将同一份数字化成果导出为 TEI XML(学术权威版)、JSON(工程交换版)、PageXML/ALTO/hOCR(文档影像生态通用版),并生成 Manifest/Metadata(如 IIIF Manifest 或项目自定义清单),确保数据可被不同工具链接入。

    • 质量控制与版本化:数字化阶段的质量控制是一套可执行的指标与抽检机制。Python 可在批处理中自动统计字符数异常、行数异常、非字字符比例、低置信 token 密度、疑难字清单及结构一致性(如多栏排版检测),并将结果写入日志与报表作为流转门禁;同时利用 Git/DVC 记录输入输出与参数,确保同一管线可重复产出同一版本。

    2

    产物形态:中间表示、交换包与质控证据

    Python 的最终产出并非单一文件格式,而是一组可复现产物(artifacts)与可交换中间表示(intermediate representations)。其本质是一个将图像或扫描件加工为标准化数据包的生产系统,典型产物包括以下几类:

    (1)可复现管线本体

    第一类:可复现的管线本体(Pipeline) 通常以 Python 脚本或包的形式存在,辅以配置文件(YAML/JSON/TOML)固化关键参数(如输入目录、分辨率、纠偏阈值、OCR 引擎版本、输出格式及质量门禁阈值)。其核心意义在于将数字化方法从论文描述转化为代码与配置,确保在不同环境下复跑可获得一致的数据产品。

    (2)页面级结构化结果

    第二类:页面级结构化结果(Page-level Structured Outputs) 这是 Python 在数字化中最核心的可交换数据模型。无论后端采用何种 OCR 引擎,Python 通常会将输出统一为结构化格式(常见为 JSON、JSONL 或 Parquet)。

    典型的单页 JSON 包含:页面元数据(页码、图像路径、宽高、DPI)、区域/栏信息(region/column 的 bbox 与阅读顺序)、文本行(line 的 bbox、基线、置信度)以及行内 token/字符(text、候选集、置信度)。如当我们处理如图4中的繁体中文手稿时,脚本如图5所示。

    注意这里的重点不在字段名字,而在信息结构:Python 把“文本 + 坐标 + 阅读顺序 + 置信度 + 来源信息”作为一等对象固化下来。这一层的数据包就是你后续 TEI 锚定、人工校对、再跑 OCR、以及(未来)进入 BERT 任务的共同上游。

    (3)互操作交换格式与发布衍生物

    第三类:交换格式与发布衍生物(interoperability artifacts)。为了让数据能进入不同工具生态,Python 常会把上面的统一中间表示导出为行业通用格式,例如 PageXML、ALTO、hOCR(文档影像生态常用),或导出为 TEI XML(学术权威版),再配套生成 manifest(例如 IIIF manifest 或项目自定义清单)与文件索引。此时呈现出来的东西会变成一套目录:alto/、pagexml/、hocr/、tei/、manifest/。读者在文件夹里看到的是一整套同源但面向不同消费方的交换包,而不是一份孤立的文本文件。

    (4)质量控制与校对材料

    第四类:质量控制与校对材料(QA & review artifacts)。数字化阶段非常需要可复核的质量证据,Python 通常会自动生成:统计报表(CSV/HTML/Markdown)、抽样清单、低置信行/疑难字列表、以及可视化覆盖图(把识别框画回页面图像以便快速 spot-check)。

    (三)

    标准化语义编码与可复现管线

    1

    工程流水线TEI:作为可交换的学术语义数据模型

    TEI(Text Encoding Initiative)并非特定的软件工具,而是一套由 TEI 联盟(TEI Consortium)长期维护的文本编码指南与社群实践。其核心目标是构建一种机器可解析、跨平台可交换的数据模型,将人文学术中文本的结构与解释进行显式编码。TEI 目前通用的实现形态为 TEI XML:即通过一套语义明确的元素与属性,将章节、段落、行、页/栏、引文、注释、校勘异文、缺字损坏、实体(人物、地名、书名)及时间事件等信息,映射为层级化的结构树(tree-structured document)。这种范式确保了文本的本体结构与研究者的解释性标注能够被长期保存、验证与复用,并可系统性地转化为数据库、JSON、索引或机器学习训练集。TEI 自创立以来即确立了软硬件独立的编码与交换原则:数据不应锁定于专有软件或一次性工作流,而应依托公开的语法与语义约定,在不同机构、工具与项目间实现稳定流通。

    (1)TEI的核心特征:可验证、语义显式与可定制

    • 自描述性(Self-describing)与可验证性(Validatable):一份 TEI 文档不仅包含正文,还必须包含系统化的头部(<teiHeader>),用于记录来源、责任者、出版信息、编码原则及版本历史等元数据。同时,TEI 文档支持使用 Schema(如 Relax NG、W3C XML Schema)进行结构约束与验证,从而保障数据的形式质量与项目内部的一致性。

    • 语义显式化(Semantically Expressive):TEI 的编码重点不在于排版复刻,而在于文本对象的机器可解释性。例如,同一字符串是章标题还是旁注、是引文还是编者注、是底本原文还是后人补写、是否存在异文或暂拟读法,均被编码为明确的数据结构,而非依赖视觉表征(如字体大小或位置)进行模糊推导。

    • 可定制性(Customizable):TEI 不强制所有项目使用全量元素集,而是通过 ODD(One Document Does it all)机制支持自定义。研究者可通过 ODD 定义项目的特定规范(如可用元素、嵌套规则、属性值域),并据此自动生成对应的 Schema 与项目文档说明(documentation),从而将解释学决策与编码规则固化为可供机器检验的标准。

    下面图4为基础的TEI骨架中示例:

    (2)影像证据链、校勘机制与结构化建模

    在数字人文实践中,TEI 的典型应用场景在于历史文献、古籍与手稿的可复核转写与结构化建模。以手稿或古籍影像处理为例,研究者需同时处理文字转写、页面结构(页、栏、行、阅读顺序)、材料特征(缺损、涂抹、重写、异体字)以及解释层(实体标注、引文归属、校勘异文)。TEI 提供了一套成熟机制将上述信息整合于同一可交换模型:利用 <facsimile>、<surface> 及 <zone> 将文本片段锚定至图像的具体坐标区域,建立“文本—图像证据链”;利用 <choice>、<unclear>、<gap> 等结构表达候选读法、不确定性与不可辨识区域;利用专门的校勘模块(Critical Apparatus)区分底本、校订本与异文证据。由此生成的 TEI 不仅是可读文本,更是一份可审计的数据集:转写内容、结构判断与解释边界均以显式标记存在,支持后续的修订、对照与计算分析。

    (3)标准演进与工具生态

    从标准化进程来看,TEI 始于 1987 年,旨在解决人文学术文本电子化中长期存在的数据不兼容问题。其当前的主线版本 P5 发布于 2007 年并持续迭代。这种长期且稳定的演进策略,使 TEI 成为图书馆、档案馆及数字版本项目的基础设施:它既具备规范性以支撑互操作,又保持开放性以吸纳不同文献类型与研究需求。因此,采用 TEI 并非仅是选择一种数据格式,而是将文本数字化工作置于可持续的标准生态中,确保数据在项目周期结束后仍具备可读性与可迁移性。

    在学习资源与工具生态方面,TEI 已形成成熟的支持体系。推荐的入门路径包括 TEI by Example,该教程提供从基础概念到具体编码情境的模块化指导,适合将文本结构、注释与校勘需求转化为编码实践。TEI Guidelines 官方手册则是权威的参考索引。对于需要裁剪或约束 TEI 规范的项目,Roma 与 Oxygen XML Editor 是标准的定制工具,支持通过图形界面生成 ODD 及 Schema,以验证文件是否符合项目预设规范。

    就文件形态而言,TEI 是可被标准 XML 工具处理的文本文件,具有清晰的信息分层:顶层为 <TEI> 根节点;<teiHeader> 承载元数据;正文位于 <text> 的 <body> 中,利用 <div>(章节)、<p>(段落)、<lb/>(换行)、<pb/>(分页)等元素组织内容。在影像驱动的项目中,通常引入 <facsimile> 模块,在 <surface> 下通过 <graphic> 引用图像,并用 <zone> 定义区域坐标,从而将文字结构与图像证据绑定于同一文档对象中。这种自描述的数据形态,使得结构层级、解释层与责任归属均以可解析的标记显式呈现。

    (4)TEI的呈现:编辑、发布与多视图派生

    TEI 的可视化呈现通常不依赖于其本体。TEI 本质上是语义数据模型而非排版格式,因此其呈现方式主要分为三种:第一,研究工作流内部视角,即直接在 XML 编辑器中进行读写,并配合 Schema 校验以确保规范性;第二,发布与阅读视角,通过 XSLT 或其他转换规则将 TEI 渲染为 HTML 或 PDF,以供普通读者阅读;第三,面向数字版本的应用视角,将 TEI 作为权威数据源,提供检索、导航、影像对照及注释层开关等功能(在此模式下,TEI 是源数据,界面仅为一种可更改的视图)。对于读者而言,这体现了 TEI 的核心优势:同一份数据可派生出教学版、校勘版、简化阅读版及实体高亮版等多种视图,无需维护多份内容互斥的文本副本。

    2

    Python:作为生产管线与外置数据模型语言

    在文本数字化语境中,Python 首先不应被狭隘地定义为数据分析语言,而是一种将文本加工为“可交换、可复现、可验证数据对象”的通用编程语言与生态系统。若将 TEI 视为面向学术语义的内嵌式数据模型(将结构与解释嵌入文本),那么 Python 则构成了一套面向工程实现的外置式数据模型与流水线语言。它支持定义输入(影像、PDF、OCR/HTR 输出、人工转写、TEI XML)、转换规则(预处理、规范化、分割与对齐、格式互转、质量评估)及输出(结构化 JSON、表格、索引、TEI 回写、可视化对齐证据),并将全过程固化为可重复运行的程序与配置。对于数字化阶段(暂不涉及高层文本分析),Python 的核心价值在于可控性:确保每一步骤均可版本化、自动化、审计与回滚。

    (1)Python的发展与被DH采用的原因

    从历史沿革来看,Python 由 Guido van Rossum 于 1989 年末开始设计,1991 年发布 0.9.0 版本,随后分别于 2000 年与 2008 年发布 2.0 及 3.0 版本。其在数字人文与文献数字化领域被广泛采用,主要归因于语法简洁、文本处理能力强、跨平台特性,以及庞大的第三方库生态。这使其尤其适合将 OCR、XML 处理、PDF 解析、图像处理、数据序列化、数据库与索引等碎片化工具链串联为可复现的生产管线。

    (2)TEI与Python:内嵌语义与外置结构的互补关系

    Python 与 TEI 的共性在于二者均能将文本结构与解释编码为可交换的数据模型,但实现路径截然不同。TEI 通过标准化标记将结构与解释内嵌于文档之中,形成自描述的 XML;而 Python 则通常将结构与解释外置为数据结构与序列化格式(如 JSON/JSON-LD、CSV/Parquet、SQLite/PostgreSQL,或面向文档图像的 PageXML/ALTO/hOCR)。尽管两者均能表达“页—栏—行—段—注释—实体”等层级及“不确定/不可辨/异文”等状态,但 TEI 倾向于使用规范化的语义标签,而 Python 更倾向于利用字段(fields)、类型(types)、ID 与链接(links)。例如,TEI 使用 <unclear cert= “low” > 表达低置信读法,使用 <choice> 表达候选读法;而 Python 则常在 token 对象中存储 text、candidates、confidence、source、bbox 及 note 等字段,并通过 Schema(如 JSON Schema 或 Pydantic 模型)约束其合法性。简言之,TEI 的互操作性依赖于共同的语义词汇表与社群约定,而 Python 的互操作性则取决于是否定义并公开了稳定的交换格式与 Schema。下面图5和图6将作为示例呈现Python的工作流程(部分)。

    图5

    图6

    (3)TEI的权威表示与Python的规模化生产

    两者的差异在数字化阶段尤为关键,决定了项目分工的边界。TEI 的优势在于长期语义保存与学术责任链,适合作为权威版本(source of truth),使结构与解释随文本一同被引用、校验与发布,尤其适用于表达复杂的文本学现象(校勘、异文、缺损、不确定读法、注释责任)并建立与影像证据的可追溯锚点。Python 的优势在于规模化生产与跨格式互转,适合清洗规范化 OCR/HTR 输出、统一图像与页面结构表示、实现 TEI 与其他格式的相互转换、执行大批量一致性检查,并在项目迭代中快速更新数据产品(如更新版面分割规则或 OCR 模型后,自动重跑管线并产出新版本 TEI/JSON,同时保留版本差异与日志)。因此,在严肃的文本数字化项目中,常见的架构为:TEI 承担语义权威表示,Python 承担生产、验证、转换与版本化,两者通过稳定的映射规则(mapping)保持一致。

    (三)

    语义挖掘与表示学习(以BERT系列模型为中心)

    在利用 OCR 完成文本提取、并通过 TEI 与 Python 建立结构化语料之后,数字人文研究的重心即由数字化转向计算分析。在此阶段,BERT 与 RoBERTa 等预训练编码器模型构成了连接底层数据与高层研究问题的核心环节。相对于前序的 OCR 技术以及生成式大语言模型,BERT类模型在文本分析任务中的优势主要体现在四个方面。

    (1)上下文消歧与语义增强。

        BERT 利用深度双向上下文表征(contextual representations)弥补了 OCR 的语义缺失。OCR 本质上是基于局部视觉特征的模式识别,缺乏语义约束;而 BERT 能够根据上下文区分同一字词在不同语境下的功能(如专名、官职、地名、术语或虚词结构),从而显著提升了针对多义词与特定领域术语的解析精度。

    (2)分析任务的统一范式化。

        BERT 将传统上依赖规则、词典或独立统计模型的离散任务(如实体识别、断句、引文检测、段落分类、相似性检索)统一转化为“预训练编码器 + 任务头”的微调(fine-tuning)问题。这使得研究者可在同一编码器表示空间内对多任务进行建模,并利用 F1 值、准确率、召回率、MRR 等标准指标,将人文学术中的文本分析转化为可验证、可重复的实验过程。

    (3)对 OCR 噪声的鲁棒性与纠错能力。

        在与上游 OCR 的耦合机制中,BERT 显著提升了数据的下游可用性。它既可作为 OCR 后纠错(post-OCR correction)的核心模型,利用语言模型概率修复字级错误;亦可直接在含噪文本上进行鲁棒抽取(如容忍一定比例错字进行实体识别),从而降低了对 OCR 完美准确率的刚性依赖。

    (4)相对于生成式大语言模型(LLM)的特定优势。

        尽管 LLM 在通用生成任务上表现优异,但在数字人文的特定分析场景中,BERT 类模型依然具有不可替代性。其优势在于:

    • 结果确定性:BERT 的输出是稳定的概率分布或分类标签,而非 LLM 的概率生成文本,这避免幻觉风险,保证了学术分析所需的严格可复现性;

    • 可解释性与探测(Probing):BERT 的中间层注意力机制与向量空间更易于被可视化与探测,,从而服务于文本细读与理论验证;

    • 领域微调的低成本与高适配:在处理古籍、方言或特定历史时期文献时,在有限标注数据上微调一个 BERT 模型的成本远低于训练或微调 LLM,且往往能获得更高的领域任务精度。

    1

    BERT与RoBERTa 的优势

    相对于将图像域转换为字符序列域的 OCR 技术,BERT 与 RoBERTa 的优势主要体现在三点。

        (1)利用上下文表征实现消歧:字词在不同语境下的功能(如专名、官职、地名、术语、虚词结构)可通过上下文加以区分,弥补了 OCR 本质上基于局部视觉判断且缺乏语义约束的缺陷。

        (2)将传统依赖规则或词典的任务(如实体识别、断句分句、引文互文检测、章节段落分类、相似检索与聚类)统一转化为“预训练编码器 + 任务头”的微调问题。这使得研究者可在同一编码器表示空间内对多任务进行并行建模,并利用 F1 值、准确率、召回率、MRR 等可重复指标,将文本分析转化为可验证的实验过程。

        (3)在与 OCR 的耦合机制上,BERT 与 RoBERTa 显著提升了下游可用性:它们既可作为 OCR 后纠错与规范化(post-OCR correction)的核心模型(利用上下文进行字词级修复),亦可直接在含噪文本上实现鲁棒抽取(如容忍一定错字的实体识别)。

    2

    BERT预训练编码器模型

    BERT的核心贡献在于将 Transformer 编码器堆叠作为通用文本编码器,并通过自监督预训练习得深度双向的上下文表示:模型在所有层同时利用左右上下文编码每个 token,突破了传统语言模型仅关注单侧信息的局限。经典 BERT 的预训练目标包含掩码语言模型(Masked Language Modeling, MLM)与下一句预测(Next Sentence Prediction, NSP)。MLM 通过随机掩码部分 token 并要求模型预测被遮盖内容,迫使模型结合局部词形与全句乃至跨句信息;NSP 则通过判断两段文本的相邻关系,注入句间与篇章级的训练信号。在工程实现上,BERT 的输入由 token embedding、position embedding 与 segment embedding 组成,配合 [CLS]、[SEP] 等特殊符号处理句对任务;输出则包含每个 token 的上下文向量及用于句级分类的聚合向量(通常取 [CLS] 位置)。其方法论价值在于确立了“预训练—微调”范式:先利用海量无标注文本习得通用表示,下游阶段仅需添加轻量级任务头(如分类、序列标注、span 预测)并在领域数据上微调,即可实现单一底座对多类任务的适配。这对数字人文文本识别具有重要意义:研究者无需为每种识别任务(人名、地名、官职、书名、引文、段落功能)单独构建规则系统,而是将其统一为可评估的监督任务,并将 TEI 的结构与标注转化为训练数据(如将 <persName>、<placeName>、<title> 映射为序列标注标签,将 <quote>、<note> 映射为片段检测标签)。

    3

    RoBERTa预训练编码器模型

    RoBERTa(Robustly Optimized BERT Pretraining Approach)作为 BERT 架构的变体,其核心逻辑建立在对 BERT 训练不足的系统性复现与优化之上。RoBERTa 的关键改进包括移除 NSP 目标、增加训练步数与批次大小、扩充训练数据、延长序列长度、采用动态掩码(同一文本在不同 step 应用不同掩码模式)以及使用 byte-level BPE。在本文的论述框架下,这一改进将模型效果差异从不可控因素回归为工程可控变量。在数字人文项目中选择 RoBERTa,不仅因其在微调任务中表现更为稳健,更因其对训练配方(如训练步数、batch、max length、掩码策略、学习率调度)更为敏感。这要求在方法论部分对上述参数进行详尽记录,从而显著提升研究的可复核性。

    在此基础上,下文将重点探讨一个面向繁体及传统中文生态、便于直接在数字人文语料上微调的 BERT 基线,以及一个在中文任务社区广泛应用、适用于实体与断句等序列任务的 RoBERTa 变体(注:许多中文 RoBERTa 模型仍沿用 BERT 编码器结构,但其预训练配方更接近 RoBERTa 或 WWM 策略)。

    此处,考虑到篇幅限制,本文将重点介绍Jihuai/bert-ancient-chinese:(https://github.com/Jihuai-wpy/bert-ancient-chinese)。

    4

    bert-ancient-chinese 项目

    在古汉语文本处理领域,核心难点并非仅限于标注数据的匮乏,更深层次的挑战在于语言本体的复杂性:繁简异体字与生僻字导致严重的未登录词(OOV)问题及字形归一化困难;词边界与词类划分在学界内部存在分歧,致使标注体系难以统一;且不同体裁与时代的语言差异显著,模型极易出现跨域失配。鉴于此,bert-ancient-chinese 项目将现实需求精准定位为国学、史学、文献学与传统文化教育对大规模语料结合高性能工具的共同诉求,并将预训练模型确立为提升古文文本挖掘精度的关键基础设施。在技术谱系上,BERT 通过掩码语言模型等目标学习上下文表示,能够在小规模标注数据上实现高效微调,从而成为低资源领域不可或缺的计算基座。

    (1)bert-ancient-chinese技术

    就技术路线而言,bert-ancient-chinese 并非从零开始训练,而是遵循领域自适应预训练(Domain-Adaptive Pretraining)的典型路径,即在 bert-base-chinese 的基础上引入古汉语语料进行继续训练。这一策略旨在先获取通用语言知识,再利用领域语料校正数据分布与词汇覆盖。该项目的一个核心贡献在于词表的显著扩展:其词表大小达到 38,208,不仅远超 bert-base-chinese 的 21,128,亦优于 siku-bert 的 29,791。这种面向繁体与生僻字的扩容策略对人文文本处理至关重要,因为当语料中包含大量专名、官名、地名及异体字时,Token 的覆盖率将直接决定模型学到的表示质量,尤其是在序列标注任务中。此外,项目声称其预训练数据规模约为《四库全书》的六倍,覆盖经、史、子、集及宗教、医学等多个门类,在体裁广度上超越了仅基于单一语料库的模型。然而,值得注意的是,公开材料并未详细披露语料的清单、版本来源、清洗策略及时代分布,这在一定程度上限制了训练数据的可审计性。

    (2)bert-ancient-chinese评测

    在评测表现方面,该模型在 EvaHan 2022 相关数据集上,以 BERT+CRF 为基线,针对古汉语自动分词(CWS)与词性标注(POS)任务进行了 K 折交叉验证。实验结果显示,在《左传》与《史记》两套数据上,bert-ancient-chinese 相比 siku-bert 与 siku-roberta 均取得了小幅但稳定的 F1 值提升(例如《左传》CWS 提升至 96.33%,POS 提升至 92.50%)。这种增益幅度虽未达数量级跃迁,但在领域继续预训练中具有典型性:当基线模型已具备较强能力时,继续预训练的主要收益往往体现在提升鲁棒性及减少 OOV 和稀有字损失上。

    (3)bert-ancient-chinese模型的主要价值

    对于人文学者而言,该模型的主要价值体现在四个维度。首先,其扩大的词表有效降低了由罕见字形与专名密集导致的系统性信息损失,为碑志、方志及佛典等复杂文本提供了更稳定的上下文表示。其次,其语料门类覆盖广泛,理论上更利于模型在史传、诗文、宗教文献等不同体裁间的迁移应用。第三,其在分词与词性标注任务上的明确证据,证明了其作为数字人文管线基础预处理工具的可靠性,能够为后续的实体识别、关系抽取及计量分析提供高质量上游数据。最后,项目采用 Apache-2.0 许可证并在 Hugging Face 上开源,极大地降低了工具集成与二次开发的门槛。

    (4)bert-ancient-chinese的局限性与潜在风险

    然而,在学术应用中必须审慎对待其局限性与潜在风险。首先,由于训练语料与预处理流程披露不足,研究者难以准确判断模型是否存在时代或体裁偏置,也难以在论文中构建严格的数据谱系说明。建议在应用时明确标注公开材料未披露,并通过在自有语料上进行继续预训练或引入外部基准测试来规避风险。其次,目前的公开评测主要局限于分词与词性标注,对于实体识别、典故检索、年代判别等更复杂的人文任务,模型表现仍需额外验证。相关研究表明,古汉语预训练模型虽能提升 NER 效果,但往往需要任务化微调与特定领域的标注体系相匹配。再者,古汉语的词边界与词性高度依赖训诂与语境,并不存在绝对的标准答案。模型输出受数据集、超参数及随机种子影响,应被视为可重复的计算近似,而非不可置疑的权威结论。关键的人文学判断仍需保留在人工校勘与抽样复核环节。最后,该模型未显式建模时代演化,若研究问题与语义变迁或断代差异强相关,应谨慎使用单一静态模型作为跨时代的统一尺度。

    综上所述,对人文学者而言,bert-ancient-chinese 最合适的定位是古汉语语料结构化与表示学习的基础层,尤其是作为分词、词性标注及实体识别等序列标注任务的编码器,而非直接生成历史解释的终端工具。其优势在于词表与语料域适配带来的稳定增益与易用性,短板则在于训练语料披露不足、评测覆盖面有限以及古汉语本体争议导致的解释风险。在实践中,建议遵循三条硬性约束:第一,如实报告数据谱系与预处理细节;第二,坚持抽样人工复核并进行错误分析;第三,将模型限于辅助角色,将最终解释权留给可读的证据链与严谨的语文学方法。

    以上内容由“数字人文资讯”原创

    如需转载,请后台私信联系

    编译丨魏翔

    校对丨洪冰凤

    排版丨罗斯鹏

    阅读原文

    跳转微信打开

    新书推荐|数字人文:中国历代人物传记资料库使用教程

    2026年2月13日 08:31

    2026-02-13 08:31 湖北

    中国历代人物传记资料库使用教程

    一、 中国历代人物传记资料库(CBDB)介绍

    中国历代人物传记资料库(the China Biographical Database Project,简称CBDB)是由哈佛大学(Harvd University)、北京大学( Peking University)台湾中央研究院(Academia Sinica)历史语言研究所联合开发的大型关系型数据库。自20世纪80年代启动以来,CBDB持续系统收录中国历史记载中的核心传记资料,供学界无偿使用。截至2025年5月,库内已积累约649,533名历史人物信息,主要覆盖7至19世纪。该数据库不仅是传记查询的参考工具,更是进行计量史学、社会网络与空间分析的关键平台,代表了当前国际数字人文领域的前沿研究范式。

    网址:

    https://chinesecbdb.hsites.harvard.edu/

    发展历程与核心团队

    CBDB项目奠基于郝若贝(Robert M. Hartwell, 1932–1996)的开创性研究。在其将学术遗产及数据库初版遗赠予哈佛燕京学社后,项目由包弼德(Peter K. Bol)主持,并经傅君劢(Michael A. Fuller)重新架构设计。目前,该项目由王鸿秀担任高级项目经理。

    核心机构

    • 哈佛大学费正清研究中心 (Fairbank Center for Chinese Studies,Harvard University)

    • 中央研究院历史语言研究所 (Institute of History and Philology of Academia Sinica)

    • 北京大学中国古代史研究中心 (Center for Research on Ancient Chinese History at Peking University)

    资助机构

    • 中文在线(2018年至今)

    • James P. Geiss and Margaret Y. Hsu 基金会(2022年)

    • 唐研究基金会(2015–2017年)

    • 亨利·卢斯基金会(Henry Luce Foundation,2012–2015年)

    • 中央研究院历史语言研究所(2006年至今)

    • 北京大学中国古代史研究中心(2010年)

    • 哈佛大学及哈佛大学亚洲中心(2008年,2009–2011年)

    • 美国国家人文基金会(2009–2011年)

    • 蒋经国国际学术交流基金会(2011–2018年)

    • 加拿大社会科学与人文研究理事会(2011–2015年)

    合作项目与数据拓展

    CBDB致力于通过跨机构合作与技术创新,持续推动数据资源的扩充与深度应用:

    (1)北美中国研究图书馆员学会合作项目

         通过与学会合作,深入挖掘明代人物资料,系统整理官制树状图与职官表,并在此基础上构建了中英双语的《明代官名辞典》众包系统。

    (2)MARKUS 文本标记与提取平台

         开发开源文本挖掘工具MARKUS,实现了从地方志、书信、笔记等各类历史文献中自动提取人名、地名及职官等关键信息的功能。

    (3)明清妇女著作数字化项目

         与麦吉尔大学(McGill University)合作,对明清女性著作进行数字化处理并建立检索数据库,实现了该库与 CBDB 的数据互联互通。

    (4)国际学术资源整合

         积极推进与国际权威数据库的互操作性,包括苏黎世大学的“China and the West”数据库及京都大学的“唐代人物研究信息系统”,有效促进了跨平台的传记资料整合。

    (5)学者贡献与社区协作

         广泛接收经同行评议的高质量外部数据与工具支持。典型案例包括:

     o工具支持:Frank Lin 开发的“殆知阁”为 CBDB 提供了前端查询界面及维基数据(WikiData)关联;陈逸云的“搜韵网”通过收录古今诗词,支持了相关知识图谱的分析。

        o 数据补充:整合了邹嘉俊的“明代举人数据库”及方秀洁(Grace Fong)主持的“明清妇女著作”项目数据,为 CBDB 补充了重要的专项传记资料。

    CBDB 的核心数据构建体系主要涵盖以下五类文献资源:

        •权威工具书与索引: 现代学者编纂的各代人物传记索引(涵盖宋、元、明、清等核心朝代)。

        •基础史料文献: 正史本传、墓志铭、神道碑、行状、年谱及地方志等一手传记资料。

        •政书与档案: 历代职官年表、会要、实录、登科录及缙绅录。

        •社会关系文本: 提取自别集、书信、笔记及日记中关于社会交往与人际网络的记录。

        •学术数据库整合: 接入明清妇女著作数据库、唐代人物知识库等多源异构的专业数据集。

    建设目标: 旨在构建一个全面覆盖中国历史记载的传记资料库,在持续深化唐、宋、元、明、清等断代人物数据颗粒度的同时,不断拓展收录范围与数据维度。

    功能与研究应用

    CBDB 提供在线检索(https://inindex.com/biog)与离线数据库(https://cbdb.hsites.harvard.edu/download-cbdb-standalone-database)下载两种访问模式:

        •量化史学分析: 支持对官员地域分布特征、科举社会流动趋势等进行多维统计;

        •时空可视化: 具备动态地图生成能力(如重现明代高层官员的仕宦迁徙轨迹);

        •社会网络与空间分析(SNA & GIS): 基于籍贯地理、宗族亲属及社会交往(交游)数据,构建多层次的历史人物关系网络。

    注:CBDB建议用户在此系统中注册账号(免费)

    注册用户可获得查询数据的详细信息功能、使用可视化功能,使用以及文本库。如果用户在注册页(https://cbdb.hsites.harvard.edu/accessing-cbdb-online)中发现自己的机构名不在“机构”列表中,请联络朱厚权先生(zhuhq@ecbdb.com),并在邮件中附上您的机构名称及国家/地区名。您的机构会被尽快添加到注册页面的机构列表中。中国大陆外的用户请在「邮箱/手机」中使用邮箱进行注册。

    图: CBDB中已知籍贯的190,000位历史人物的地理分布图

    社区参与

    CBDB鼓励学者通过众包项目参与数据录入(如地方志人物提取、明代书信计划),并提供开源代码库(GitHub),推动社区共同建设。

    开源社区:https://github.com/cbdb-project

    二、书籍介绍

    作为国际汉学研究的重要数据库资源,中国历代人物传记资料库(CBDB)已收录64万余人的传记数据,由哈佛大学、北京大学等机构联合开发维护。本书系统梳理了数据库的开发历史、核心设计理念与方法论基础,详解关系型数据结构、实体编码逻辑及查询功能,并通过实例演示如何利用CBDB开展群体传记学研究,系统传授该数据库的使用方法、多种功能和应用前景。目的是为文史研究者提供基本的数字人文知识和技能训练。无论是历史学者、数字人文研究者,还是相关专业学生,都能通过本书快速掌握从基础检索到高级数据分析的全流程技能,开启数字时代历史研究的新可能。

    作者: 刘江

    出版社: 上海教育出版社

    出版时间: 2025年-11月

    ISBN: 9787572023125

    三、作者介绍

    刘江,北京大学历史学学士、博士,哈佛大学东亚语言文明系访问学者(联合培养),中国宋史研究会会员。现任上海师范大学人文学院副教授、硕士生导师(宋史、学科教学—历史),兼任历史学系副系主任、上海老年大学国学经典学部教师。主要从事宋代政治制度史、数字人文研究。目前重点关注宋代地方公文行政,并承担《资治通鉴》的大众普及工作。

    主持并完成国家社科基金青年项目“宋代地方公文形态及政务运作研究”,先后参与国际合作项目“中国历代人物传记资料库”、国家社科基金中华学术外译项目“钱穆《中国历代政治得失》”、国家社科基金重大项目“《宋会要》的复原、校勘与研究”、教育部人文社科重点研究基地重大项目“7—16世纪的信息沟通与国家秩序”等多项课题研究。在《北京大学学报》《文史》《中华文史论丛》《档案学研究》等刊物发表学术论文多篇,并在《光明日报》《解放日报》等报刊撰写史学普及类文章十余篇。编著《〈资治通鉴〉精读》《中古文明研究(第一辑)》,另有译著《历史学的使命》。

    开设过“中国历史文选”“历史学论文选题与写作(合上)”“中国古代政治文化”“宋史专题”“中国古代官制史料选读”“《四库全书总目》研读”“宋代史料选读”“宋代官僚政治制度史研究”等课程。

    四、目录

    第一章 CBDB 的基本概念与方法

        第一节 群体传记学

        第二节 关系型数据库

        第三节 数据采集与输入

        第四节 API 与关联数据

    第二章 CBDB 的数据结构

        第一节 CBDB 中的实体

        第二节 CBDB 的主要编码表

    第三章 CBDB 的数据查询功能与示例

        第一节 导航界面

        第二节 基本查询

        第三节 高级查询

    附录一 CBDB 单机版的安装与调试

    附录二 介绍 CBDB 及利用 CBDB 开展研究的成果目录

    附录三 CBDB 的资料来源及版本更新说明

    五、书摘

    群体传记学

    群体传记学是启发构建CBDB的重要概念和方法论基础,也是郝若贝教授搜集大量传记数据以服务于个人研究的重要学术资源。“群体传记学”这一概念最早出现于1897年出版的《罗马帝国人物志》(Prosopographia Imperii Romani)一书。从20世纪二三十年代起,西方学术界对欧洲史的研究多采用这一方法。何谓“群体传记学”?学界通常引用英国史名家劳伦斯·斯通(Lawrence Stone,1919一1999)的定义:

    “群体传记学”是对人物群体生平的集体性研究,以探讨他们共同的背景特征。其采用的方法:先建立一个研究范围,然后提出一系列相同的问题关于出生与死亡、婚姻与家庭、社会出身与其所继承的经济地位、居住地、教育、个人财富的数量与来源、职业、宗教信仰、仕宦经历等等。再对比、组合这一范围内个人的不同信息,探究其重要的变量。研究者将分析这些信息的内在相关性及其与其他类型的行为与活动的相关性。

    斯通进而指出,群体传记学的方法可用于观察两个重要的历史问题:其一是政治行为的根源,即试图揭示隐藏于政治修辞之下的深层利益关系,政治团体的社会、经济关系,政治机器的运作机制和掌权者的身份认同;其二是社会结构与社会流动。从20世纪六七十年代开始,随着人文研究引入计算机技术,群体传记学的价值逐渐凸显。简而言之,群体传记学关注和探索的不是个体问题,而是人物群体的一般性、普遍性和共性的特征,解释群体性的问题,以便于学者更好地理解个体和群体之间的关系。在计算机技术辅助下,研究者得以更有效地利用群体传记学的方法,探索历史上人物关系的特征及其演变。郝若贝教授为自己研究创建的数据库可谓预此学术潮流。

    在浩如烟海的中国文献中,无论是正史、传记、方志,还是家谱、僧传、登科录,各类典籍都收录了丰富的人物传记资料,传记写作与研究在中国也有着悠久的传统。据魏根深(Endymion Wilkinson)《中国历史研究手册》第5版统计,今日所见中国各类史料中保存了约60万篇人物传记,为传记学研究提供了海量的资料基础。群体传记学与个体传记研究,在议题和方法上有明显不同。对个体传记研究而言,研究者通常选择史料类型丰富、记载翔实的杰出人物作为研究对象,而历史上大部分人物,由于其记载零星分散,难以利用个体传记研究的方法开展有效研究。群体传记学的特点,也是其不同于个体传记研究的优势,即关注群体而不是个人。群体传记学研究的基本方法是汇总散见于大量资料中的传记信息,进而揭示特定人群的共同特征及其内部关系。这一研究方法特别契合包括CBDB在内的关系型数据库(Relational Database)的系统设计。

    以上内容来自“语文学习”公众号、CBDB官网

    以及上海师范大学人文学院官网

    经数字人文资讯小编翻译整理而成

    如需转载,请后台私信联系

    编辑 丨罗斯鹏

    校对 丨魏翔

    排版 丨洪冰凤

    阅读原文

    跳转微信打开

    学术前沿丨《文化遗产杂志(JCH)》第三、四季度论文荐读

    2026年2月6日 08:31

    2026-02-06 08:31 湖北

    本期内容选取《文化遗产杂志》2025年第三、四季度的10篇论文进行介绍。

    《文化遗产杂志》(Journal of Cultural Heritage,简称JCH)是一份涵盖多学科领域的科技期刊,致力于广泛探讨文化遗产保护与认知的相关议题。该期刊旨在提出创新性的方法,推动遗产科学的发展,从而提升文化遗产的研究水平与知识积累。主要聚焦于以下领域:

    • 保护、保存和利用文化遗产;

    • 遗产管理和经济分析;

    • 文化遗产中的计算机科学;

    • 可持续发展和文化遗产;

    • 气候变化对文化遗产的影响及其变化的管理。

    本期内容将选取《文化遗产杂志》2025年第三、四季度的10篇论文进行介绍。

    01

    文化遗产保护面临的新人工智能挑战:综述

    New AI challenges for cultural heritage protection: A general overview

    Francesco Colace, Rosario Gaeta, Angelo Lorusso, Michele Pellegrino, Domenico Santaniello

    摘要:文化遗产在维系集体身份认同与历史传承方面发挥着重要的社会作用,是连接过去、现在与未来的纽带。在这一背景下,技术创新的贡献至关重要,它为应对文化遗产保护与价值提升中的各类问题提供了必要的工具与解决方案。本研究全面综述了机器学习(ML)技术在文化遗产(CH)保护领域的应用,重点凸显了近年来的重要发展与创新成果。研究分析了机器学习与人工智能方法的主要应用场景,包括文物分析、修复工作、保护策略制定以及游客体验提升等。根据应用领域、所采用的数据类型与技术以及关注的文化遗产类型,对现有研究进行了分类梳理。该分类同时指出了潜在的研究挑战,并为未来研究方向提供了参考。研究表明,将机器学习、人工智能与传统保护修复工具相结合的多学科方法正日益得到广泛应用。通过重新解读多个案例研究,本文深入探讨了这些技术的实际应用意义,包括建筑预防性维护、文物数字化与三维重建以及通过虚拟现实和增强现实技术提升游客体验等。这一研究结果凸显了技术人员、修复师与文化工作者加强合作的必要性,以确保这些技术能够以审慎、符合伦理且有效的方式融入文化遗产保护工作。

    关键词:机器学习;深度学习;预测性维护;物联网;模式识别;调查

    Abstract:Cultural heritage plays an important social role in preserving collective identity and history, acting as a link between past, present and future. In this same context, the contribution of technological innovations plays a fundamental role as it provides the tools and solutions needed to address the issues of cultural heritage preservation and enhancement. This study presents a comprehensive review of the application of machine learning (ML) techniques in the field of cultural heritage (CH) protection, highlighting important developments and innovations in recent years. The main applications of ML and AI methodologies are analyzed, including artefact analysis, restoration, conservation strategies, and enhancing the visitor experience. The available studies are classified according to the areas of application, the types of data and technologies employed and the types of cultural heritage assets they focus on. The classification also highlights potential research challenges and provides indications for future directions. The study shows the increasing adoption of the multidisciplinary approach combining ML and AI with traditional tools of protection and conservation. The discussion is articulated through the reinterpretation of several case studies that demonstrate the real implications of such technologies, including the preventive maintenance of buildings, as well as the digitalization and three-dimensional recreation of artefacts and visitor experiences through virtual and augmented reality. This highlights the need for closer collaboration between technicians, conservators, and cultural workers to ensure thoughtful, ethical, and effective integration of these technologies into cultural heritage conservation.

    Keywords:Machine learning;Deep learning;Predictive maintenance;IoT;Pattern recognition;Survey

    图:文献耦合网络

    Fig .  Bibliographic coupling network.

    02

    基于迁移学习与数据增强的文化遗产建筑分类深度学习方法

    A deep learning approach for cultural heritage building classification using transfer learning and data augmentation

    André Luiz Carvalho Ottoni , Lara Toledo Cordeiro Ottoni

    摘要:历史建筑中建筑构件的检测对于文化遗产的数字化建档与保护过程至关重要。对此,近年来已有研究探索将人工智能与计算机视觉相结合,以提升古迹关键构件的检测效果。然而,该研究领域仍缺乏关于利用迁移学习与数据增强改善机器学习模型性能的相关探究。此外,现有文献中关于人工智能在巴西殖民时期建筑中应用的研究也较为匮乏。鉴于此,本研究提出一种基于迁移学习与数据增强的文化遗产建筑分类深度学习新方法。为此,构建了ImageMG数据集,该数据集包含来自巴西米纳斯吉拉斯州94座历史建筑的6449张图像,分为三角楣、教堂、门、窗和塔楼五类。同时,本研究评估了迁移学习对提升MobileNet架构在历史建筑构件检测任务中分类结果的影响。该方法还探究了64种数据增强组合的效果,利用六种几何变换(缩放、宽度偏移、高度偏移、垂直翻转、水平翻转和旋转)生成合成图像,用于训练深度学习模型。结果表明,迁移学习的优化与数据增强相结合,在文化遗产建筑分类性能方面取得了显著进展。使用ImageMG数据集进行的实验显示,迁移学习与垂直翻转相结合的方式在验证集(92.37%)、测试集1(90.22%)和测试集2(87.33%)中均取得了最佳准确率。

    关键词:人工智能;文化遗产;数据增强;机器学习;迁移学习

    Abstract:The detection of architectural components in historic buildings is essential for digital documentation and the conservation process of cultural heritage. In this regard, recent studies have explored artificial intelligence with computer vision to enhance the detection of key components in monuments. However, this field of research still lacks investigation into the influence of using transfer learning and data augmentation to improve the performance of machine learning models. Moreover, the literature still requires research on Artificial Intelligence applied to Brazilian colonial architecture. Thus, this study proposes a new deep learning approach for cultural heritage building classification using transfer learning and data augmentation. For this purpose, the ImageMG dataset is proposed, containing 6449 images of 94 historic buildings from the state of Minas Gerais (Brazil), categorized into five classes: fronton, church, door, window, and tower. Additionally, the influence of using transfer learning to enhance the classification results of the Mobilenet architecture in the task of detecting components of historic buildings is evaluated. The proposed approach also investigates the effects of 64 combinations of data augmentation, utilizing six geometric transformations (zoom, width shift range, height shift range, vertical flip, horizontal flip, and rotation) for generating synthetic images to train the deep learning models. The results showed that the optimization of transfer learning in conjunction with data augmentation demonstrated significant advances in the performance of cultural heritage building classification. Experiments with the ImageMG dataset using transfer learning and vertical flip achieved the best accuracy results in validation (92.37 %), test 1 (90.22 %), and test 2 (87.33 %).

    Keywords:Artificial intelligence ;Cultural heritage ;Data augmentation ;Machine learning ;Transfer learning

    图:基于迁移学习与数据增强的文化遗产建筑分类深度学习方法

    Fig .  A deep learning approach for cultural heritage building classification using transfer learning and data augmentation.

    03

    PyPotteryInk:基于单步扩散模型的考古陶器草图向出版级绘图转换工具

    PyPotteryInk:One-step diffusion model for sketch to publication-ready archaeological drawings

    Lorenzo Cardarelli

    摘要:传统考古陶器建档需经历耗时的人工流程,即将铅笔草图转化为符合出版要求的墨线图。本文提出一种开源自动化流程工具PyPotteryInk,该工具基于改进的img2img-turbo架构,采用单步扩散模型,可将考古陶器草图转化为标准化的出版级绘图。该系统通过单次前向传播处理绘图,同时保留关键形态细节,并符合考古建档标准与分析价值要求。模型采用高效的动态重叠补丁分割方法,无论输入绘图尺寸大小,均可生成高分辨率输出结果。在意大利史前陶器绘图数据集上的测试验证了该方法的有效性,其成功捕捉到了装饰纹样等精细细节以及器型轮廓、柄部等结构元素。专家评估表明,生成的绘图符合出版标准,同时将单张绘图的处理时间从数小时大幅缩短至数秒。该模型仅需少量训练数据即可进行微调,以适应不同的考古场景,因此适用于多种陶器建档风格。研究提供了预训练模型、Python库及详细说明文档,以促进考古研究领域的推广应用。

    关键词:陶器;考古绘图;生成式人工智能;图像到图像转换;扩散模型

    Abstract:Archaeological pottery documentation traditionally requires a time-consuming manual process of converting pencil sketches into publication-ready inked drawings. This paper presents PyPotteryInk, an open-source automated pipeline that transforms archaeological pottery sketches into standardised publication-ready drawings using a one-step diffusion model. Built on a modified img2img-turbo architecture, the system processes drawings in a single forward pass while preserving crucial morphological details and maintaining archaeologic documentation standards and analytical value. The model employs an efficient patch-based approach with dynamic overlap, enabling high-resolution output regardless of input drawing size. The effectiveness of the approach is demonstrated on a dataset of Italian protohistoric pottery drawings, where it successfully captures both fine details like decorative patterns and structural elements like vessel profiles or handling elements. Expert evaluation confirms that the generated drawings meet publication standards while significantly reducing processing time from hours to seconds per drawing. The model can be fine-tuned to adapt to different archaeological contexts with minimal training data, making it versatile across various pottery documentation styles. The pre-trained models, the Python library and comprehensive documentation are provided to facilitate adoption within the archaeological research community.

    Keywords:Pottery ;Archaeological drawing ;Generative AI ;Image-to-image translation ;Diffusion models

    图:示例图像的推理补丁分割过程

    Fig .  Inference patching for an example image.

    04

    基于高光谱成像的古代壁画颜料无损分类方法

    Non-destructive classification of ancient mural pigments by hyperspectral imaging

    Tingting Li , Lihong Li, Ziru Yu, Bo Ning , Yong He, Wenxiu Wan, Zhiyuan Liu , Xiangyang Yu

    摘要:古代壁画具有脆弱性与珍贵价值,其颜料的识别、修复与保护工作迫在眉睫。本研究提出一种融合高光谱成像、优化超像素分割与光谱处理的图像光谱融合(ISF)方法,实现对颜料的快速、无损分类。将该方法应用于云冈石窟壁画,基于ISF的支持向量机模型实现了古代壁画颜料的超像素级分类,准确率达87%。外部验证结果表明,该方法在不同保存状态的壁画中均表现出优异的分类性能。光谱特征分析显示,该方法通过光谱匹配和混合颜料分类,具备颜料识别的潜力。这种无损、非接触式检测方法可为壁画颜料识别提供方法论参考。

    关键词:古代壁画颜料;高光谱成像;图像光谱融合;云冈石窟;超像素分割

    Abstract:Given the vulnerability and value of ancient murals, there is an urgent need to identify, restore and preserve their pigments. This study develops an image spectral fusion (ISF) method integrating hyperspectral imaging with optimized superpixel segmentation and spectral processing to achieve rapid, non-destructive pigment classification. Applied to the Yungang Grottoes murals, the Support Vector Machine model based on ISF realizes the superpixel-level classification of ancient mural pigments with an accuracy of 87 %. External validation demonstrates its excellent classification performance across diverse mural preservation states. Spectral characterization analyses reveal the potential of the method in pigment identification through spectral matching, and pigment mixtures classification. This non-destructive, contactless detection method can serve as a methodological foundation for pigment identification in murals.

    Keywords:Ancient mural pigments;Hyperspectral imaging;Image spectral fusion;Yungang Grottoes;Superpixel segmentation

    图:ISF 方法流程图。步骤包括:(a)采用遗传算法优化参数的 Quickshift 算法提取图像数据纹理特征;(b)通过归一化和直方图均衡化增强光谱数据;(c)利用 Savitzky-Golay 平滑法和一阶导数对光谱数据进行预处理;(d)获取基于超像素块重新定义的光谱数据。

    Fig . Flowchart of ISF method. The steps include: (a) Quickshift algorithm extracts the texture features of the image data, with parameters optimized by Genetic algorithm; (b) Normalization and Histogram Equalization enhance the spectral data; (c) Savitzky-Golay Smoothing and First Derivative preprocess the spectral data; (d) Gain the spectral data redefined according to the superpixel block.

    05

    基于高光谱成像数据的中国古代绢画霉变光谱指数

    A mildew spectral index of ancient Chinese silk paintings based on hyperspectral imaging data

    Sa Wang, Yi Cen , Liang Qu , Xiaojie Gao , Guanghua Li , Yao Chen

    摘要:书画作品承载着重要的历史价值,是人类文化遗产传承的重要载体。然而,霉变的滋生会严重影响书画的保存状态,进而损害其文化价值与传承延续。传统霉变检测方法以人工目视检查和 / 或化学分析为主,存在检测效率低、结果主观性强、难以满足无损检测要求且准确率偏低等局限。本研究针对上述问题,结合高光谱成像技术与中国古代绢画的霉变特征,构建了一种新型霉变光谱指数(MSIndex),为中国古代绢画霉变区域的快速、精准、无损提取与识别提供了技术支撑。研究首先对中国古代绢画上的霉变光谱特征展开分析,并基于高光谱数据优化霉变的光谱特征指标;在此基础上构建霉变光谱指数,实现对霉变的检测识别。研究以清代(1796-1805 年)《沈清岚铁络图》的高光谱数据集为样本,对所提霉变检测方法进行验证,同时选取乾隆二十一年(1756 年)《宾头卢尊者像》的高光谱数据集作为独立验证集,检验方法的泛化能力。结果表明,本研究构建的霉变光谱指数检测性能稳健、效果良好,霉变检测的总体准确率达 94.17%;即便在存在其他颜料干扰、画作伴生其他病害等复杂场景下,该指数仍能有效识别霉变区域。本研究提出的检测方法可为文物保护工作者制定精准的中国古代绢画修复方案提供依据,为文化遗产的保护传承提供技术支持。

    关键词:高光谱遥感;光谱特征;特征选择;中国古代绢画;霉变光谱指数

    Abstract:Painting and calligraphy possess significant historical value and play a crucial role in the transmission of human cultural heritage. However, the presence of mildew greatly impacts the preservation of painting and calligraphy, thereby affecting their cultural value and legacy. Traditional mildew detection methods rely on manual visual inspection and/or chemical analysis, which are limited by inefficiency, subjectivity, the need for nondestructiveness, and low accuracy. Here, we overcome these limitations by developing a new mildew spectral index (MSIndex) using hyperspectral imaging technology and the mildew characteristics of ancient Chinese silk paintings. This approach provides support for the rapid, accurate, and nondestructive extraction and identification of mildew in ancient Chinese silk paintings. We first analyzed the mildew spectra on ancient Chinese silk paintings and optimized the spectral characteristics of mildew based on the hyperspectral data. Then, using this analysis, we constructed the MSIndex to detect mildew. We tested the proposed mildew detection method on the hyperspectral dataset of Shen Qinglan Tieluo on Qing Dynasty (1796–1805), followed by the evaluation of its generalization ability using the hyperspectral dataset of the Portrait of Pañcika Arhat (dated 1756) as an independent validation set. The results suggested that the proposed MSIndex was robust and effective with an overall accuracy of 94.17 % in mildew detection. The MSIndex was also capable of detecting mildew regions even in complex environments, such as those involving other pigments or diseases. This method can help professionals make accurate restoration plans for ancient Chinese silk paintings and support the preservation of cultural heritage.

    Keywords:Hyperspectral remote sensing; Spectral characteristics; Feature selection; Ancient Chinese silk paintings; Mildew spectral index

    图:基于霉变光谱指数的霉变检测结果

    Fig .  Mildew detection results based on the MSIndex.

    06

    地下建成遗产实时可视化增强方法

    Methods for real-time underground built heritage visualization enhancement

    Robert Olbrycht, Alfonso Bahillo Martínez, Ernesto Marcheggiani, Müge Akkar Ercan, Pinar Karagöz, Karol Kropidłowski, Giuseppe Pace

    摘要:本论文旨在解决地下遗产地实时可视化增强所面临的挑战。针对地下环境中光线不足和人类色彩感知受限等问题,研究提出一种融合图像处理技术与增强现实(AR)理念的解决方案。该系统采用集成立体视觉相机的虚拟现实(VR)头显捕捉实时图像,为提升图像质量,评估了多尺度视网膜增强算法(MultiScale Retinex)和对比度受限自适应直方图均衡化等多种图像处理算法。结果表明,所提出的方法能有效提升地下遗产地的观光体验,图像处理算法成功提亮了阴暗区域、提高了图像清晰度,并呈现出细微的色彩差异。论文详细阐述了系统架构与技术要求,并在地下遗产地进行了原型测试。总体而言,该系统显著改善了地下遗产地的实时可视化效果,为游客提供了更具沉浸感和丰富度的视觉体验。该研究为该领域的未来应用与研究提供了宝贵见解,对地下遗产可视化领域的发展具有重要意义。

    关键词:地下遗产;图像处理;立体视觉;增强现实

    Abstract:This scientific paper aims to address the challenges that come with enhancing the real-time visualization of underground heritage sites. The study seeks to overcome the limitations of low-light conditions and human color perception in underground environments by proposing a solution that combines image processing techniques and augmented reality (AR) concepts. The system utilizes a virtual reality (VR) headset integrated with a stereovision camera to capture live images. To improve image quality, the study evaluates various image processing algorithms, such as MultiScale Retinex and Contrast Limited Adaptive Histogram Equalization. The results show that the proposed methods are effective in enhancing the sightseeing experience of underground heritage sites. The image processing algorithms successfully brighten dark areas, increase clarity, and reveal subtle color differences. The paper discusses the system architecture and requirements, along with prototype testing in underground heritage sites. Overall, the developed system significantly improves the visualization of underground heritage sites in real-time, providing visitors with a more immersive and enhanced visual experience. The research offers valuable insights for future applications and research in this domain, contributing to the field of underground heritage visualization.

    Keywords:Underground Heritage;Image processing;Stereovision;Augmented reality

    图:代林库尤地下城(土耳其)的单张图像:(a)未处理图像;(b)色彩真实化处理后图像;(c)色彩自然化处理后图像;(d)色彩丰富化处理后图像

    Fig . Single image from Derinkuyu Underground City (Türkiye): (a) without processing; (b) with color-realistic processing; (c) with color-natural processing, (d) with color-enriched processing.

    07

    基于可见光谱与成像技术的壁画无机红色颜料人工智能半定量分析方法

    An artificial intelligence-based semiquantitative method based on visible spectroscopy and imaging to analyse inorganic red pigments in wall paintings

    Roberto Sáez-Hernández, Jordi Cruz, Manel Alcalà-Bernàrdez, Ángel Morales-Rubio a, M. Luisa Cervera

    摘要:人工智能(AI)与机器学习(ML)正在革新数据分析领域,带来了创新且高效的数据处理方法。本文提出一种基于可见光谱与数字图像比色法的化学计量学半定量模型,用于估算无机颜料中的金属含量。该模型采用支持向量机(SVM)和人工神经网络(ANN)回归方法,建立光谱、比色数据与元素组成之间的关联。研究制备了复制品,并使用三种无机红色颜料(朱砂、赤铁矿和铅丹)进行绘制,随后通过便携式X射线荧光光谱、可见反射光谱和数字成像技术对其进行分析。利用支持向量回归和人工神经网络实现元素信息与比色信息的交叉验证,并通过Venetian-blinds交叉验证法对模型进行验证。在校准阶段,铁(Fe)、铅(Pb)和汞(Hg)的均方根误差(RMSE)分别为0.03%、3.5%和3.0%,相关系数(R²)分别为0.99、0.90和0.94;在预测集阶段,铁、铅和汞的均方根误差(RMSE)分别为3.0%、2.6%和2.3%,相关系数(R²)分别为0.83、0.92和0.81。研究表明,创新的数据处理模型与无损便携式技术相结合,能够实现对文化遗产样本中无机颜料元素含量的估算。

    关键词:人工神经网络;色度学;机器学习;壁画;颜料;预测

    Abstract:Artificial Intelligence (AI) and Machine Learning (ML) are revolutionizing data analysis by introducing innovative and enhanced methods for data processing. In this article, a chemometric semiquantitative model based on visible spectroscopy and digital image colorimetry was applied to estimate the metal content in inorganic pigments. The model utilized Support Vector Machines (SVM) and Artificial Neural Networks (ANN) regression methods to correlate spectral and colorimetric data with elemental composition. Replicas were prepared and painted with three red inorganic pigments (cinnabar, hematite and minium), and they were analysed using portable X-ray fluorescence, visible reflectance spectroscopy, and digital imaging. Cross-reference between elemental and colorimetric information was performed using Support Vector Regression and Artificial Neural Networks, and the models were validated through Venetian-blinds cross-validation. In the calibration step, Root Mean Square Errors (RMSE) for Fe, Pb, and Hg were 0.03, 3.5, and 3.0 %, respectively, with correlation values (R2) of 0.99, 0.90, and 0.94. For the prediction set, RMSE was 3.0, 2.6, and 2.3 %, for Fe, Pb, and Hg, respectively, with R2 of 0.83, 0.92 and 0.81. This article demonstrates that innovative data treatment models, coupled with non-invasive and portable techniques, allow us to estimate the content of elements in inorganic pigments in Cultural Heritage samples.

    Keywords:Artificial neural networks;Colorimetry;Machine learning;Mural paintings;Pigments;Prediction

    图:各类颜料的反射光谱。蓝色曲线为平均光谱,浅灰色区域为标准偏差范围

    Fig . Reflectance spectra for each kind of pigment. In blue, the average spectra. In light grey, the standard deviation.

    08

    气候规划中的文化遗产:基于挪威国家气候文件与指南的分析

    Cultural heritage in climate planning: An analysis of the Norwegian national climate documents and guidelines

    Paloma Guzman

    摘要:文化遗产管理日益被视为气候行动与可持续发展的有机组成部分。然而,关于社会文化要素如何在协调统一的气候战略中落地实施的相关研究仍较为有限。本文构建了一个分析框架,用以评估文化遗产在气候政策话语体系中的融合程度,并以挪威 20 份国家气候政策文件为案例展开实证检验。本研究将转型治理方法应用于气候治理领域,强调文化遗产管理在支撑系统性变革中的作用。该分析框架揭示了文化遗产范式推动下,政策话语体系发生的两大核心转变:其一,文化遗产融入气候政策的愿景制定、行动实施与成效监测全流程;其二,跨部门协作范围进一步拓展,为政府层面的转型协同治理开辟了路径。研究发现,文化遗产在气候政策中的角色呈现逐步演进的特征,从最初关注气候影响引发的遗产保护冲突,转变为将文化遗产视作适应战略中亟需开展知识体系构建的重要领域。本文分析还表明,研究界对文化遗产的价值认知进一步拓展,认为其能够依托共有的社会文化价值提升民众生活品质,这也凸显出文化遗产的角色有望从技术咨询方,向治理网络中具备战略意义的关联型参与主体延伸。本研究以挪威为案例,明确了文化遗产作为跨部门协作、适应性治理与包容性决策催化剂的潜在切入点,为探索可持续发展治理中文化遗产在地方层面的融合应用及跨学科协作奠定了基础。

    关键词:气候规划;文化遗产管理;政策融合;挪威

    Abstract:Cultural heritage management is increasingly recognized as integral to climate action and sustainable development. Yet, limited research has explored how sociocultural elements are operationalized within coherent climate strategies. This paper proposes an analytical framework to evaluate the integration of cultural heritage within climate policy discourses, tested through a case study of twenty Norwegian national climate policy documents. Applying transformative approaches to climate governance, this study emphasizes cultural heritage management’s role in supporting systemic change. The framework identifies two primary shifts in policy discourse driven by cultural heritage paradigms: (1) integration across three stages—from visions and actions to monitoring—and (2) expanded sectoral collaboration, opening pathways for transformative governmental coordination. Findings reveal an evolution in cultural heritage’s role, from initial concerns about conservation conflicts due to climate impacts to recognizing cultural heritage as a sector requiring knowledge-building in adaptation strategies. The analysis further suggests an expanded view of cultural heritage’s contribution to the quality of life through shared sociocultural values, highlighting opportunities to extend its role from technical advisor to a strategic, relational actor within governance networks. By examining the case of Norway, this study concretizes entry points for cultural heritage’s potential as a catalyst for cross-sectoral collaboration, adaptive governance, and inclusive decision-making, setting a foundation for exploring local-level integration and interdisciplinary collaboration in sustainability governance.

    Keywords:Climate planning; Cultural heritage management; Policy integration; Norway

    图:挪威适应规划中文化遗产融合现状概述

    Fig . Overview of cultural heritage integration in Norway's adaptation planning.

    09

    通过虚拟展卷解析佛教陀罗尼经卷,考释蒙古祭祀圣地的历史源流

    Revealing the history of a Mongolian shrine by virtually unrolling Buddhist Dharanis

    T.Arlt,B.Kantzenbach

    摘要:蒙古佛教祭祀圣龛(蒙古语:gungervaa)形制各异,一如祭祀圣龛的概念存在于不同宗教体系之中。这类圣龛是佛教造像的护藏容器,其内供奉佛陀、菩萨、圣僧及德高望重僧众的画像与造像。圣龛主尊旁通常陈列着高僧的舍利,亦有信众敬献的各类供饰。由于蒙古佛教圣龛为家族世代传承之物,且供品会不断添置,历经数代便会累积品类繁多的藏品。因此,对圣龛内部的藏品构成展开考析、厘清每件藏品的源流与内涵,具有重要的研究价值。陀罗尼经卷(密咒经文)是蒙古佛教圣龛中常见的一类藏品,这类经卷多为丝帛裹护的微型纸卷,若对其进行实体展卷,会对文物本体的保存造成损害,故而并非理想的研究方式。研究工作亟需一种无损检测手段,以解读经卷内的文字信息。X射线断层扫描技术为探究这类易损文物的内部信息提供了可行路径。通过构建经卷的三维虚拟模型,研究人员可借助计算机软件对经卷内容展开分析与数字化操作,全程不会对经卷本体造成任何损伤。最终,研究团队成功从陀罗尼经卷中提取出文字内容,并完成了释译工作。

    关键词:同步辐射断层扫描;成像技术;虚拟展卷;蒙古经卷;隐匿文字

    Abstract:Mongolian Buddhist shrines (mong.: gungervaa) come in a variety of designs, just as the concept of shrines exists across different religions. These shrines are protective containers for icons, such as images or statues of Buddhist teachers, deities, saints, or revered clergy. The central figure is usually surrounded by relics from high-ranking lamas as well as decorative offerings presented by worshippers. Since gungervaas are inherited within the family and offerings are added constantly, they can accumulate diverse sets of items over several generations. It is therefore important to examine and analyze the composition inside and understand each single component. One type of object that is found in gungervaas are Dharanis (spell scriptures). Physically opening these tiny paper scrolls wrapped in silk poses a risk to their preservation, so it is generally not the preferred method. A non-destructive method is needed to decipher the written messages inside. X-ray tomography provides a way to examine the interiors of these fragile objects. By creating a three-dimensional virtual copy, it was possible to analyze and manipulate the content using computer software without harming the scrolls. Finally, text from inside the Dharanis scrolls was successfully extracted and translated.

    Keywords:Synchrotron tomography; Imaging; Virtual unfolding; Mongolian scrolls; Hidden text

    图:经卷 I(a-d)、经卷 II(e-h)及经卷 III(i-l)的横截面与放大视图。第一列为右侧细节信息的方位标注,第二列(棕色)为后续子图的横截面概览,第三列(蓝色)为经卷的纵向切片,第四列为横向切片,最后一列(绿色)为放大视图。

    Fig . Cross-sections and magnification of scroll “I” (a-d), scroll “II” (e-h) and scroll “III” (i-l). The first column contains orientation information for the details on the right. The second column (brown) shows cross-sections overviews of the following subfigures. The third column (blue) shows vertical slices of the scrolls, while the fourth column shows horizontal slices. The last column (green) gives magnification.

    10

    文化遗产文物X射线计算机断层扫描数据在交互式网络应用中的嵌入——古老技术仪器的新型虚拟活化

    Embedding of X‐ray computed tomography data of cultural heritage objects in interactive web applications -- old technical instruments brought back to novel virtual life

    Pia Götz, David Melamed, Hendrik Bohling, Christine Brovkina, Istabraq Hussain, Nils Reims, Luca Junge, Dennis Hoffmann, Karolin Wiskandt, Ruth Schilling, Martin Hering-Bertram, Lucio Colombi Ciacchi

    摘要:X射线计算机断层扫描(CT)已成为修复师、历史学家和考古学家无损检测博物馆文物内部结构的常用方法。本文展示了CT数据集的另一项应用,即如何对数据进行处理并转换为嵌入网络应用中的交互式计算机动画模型,使历史文物实现新型虚拟活化。这一方法为博物馆游客提供了一种新的互动方式,使其能够在现场展览和线上展览中与虚拟文物进行互动。研究全过程采用免费可获取的软件,确保相关成本对于公共机构而言具有可及性。该方法通过三件具有历史意义的航海技术仪器进行演示,这三件仪器跨越三个世纪,分别是18世纪的袖珍日晷、19世纪的航海天文钟和20世纪初的袖珍气压计。每件文物都具有独特的属性与特征,需要在数据处理流程中采用不同的方法与解决方案。这些处理流程的成果是能够展示古老仪器功能的交互式应用程序,有助于人们更好地理解其工作原理,并能引导游客关注单个技术细节、材料组成与外观特征或其他具有历史意义的属性。虚拟文物的可及性与吸引力带来了更具沉浸感的互动体验,有助于实现知识的有效传递。

    关键词:海洋史;技术仪器;计算机断层扫描;摄影测量;数字保存;互动展览

    Abstract:X-ray computed tomography (CT) has become a common method for conservators, historians and archaeologists to examine the interior of museum objects in a non-destructive way. This paper demonstrates an additional application of CT data sets. We namely show how the data can be processed and converted to interactive, computer-animated models embedded in web applications to bring back the historical objects to novel virtual life. This opens up a new way for museum visitors to interact with the virtual objects in both on-site and online exhibitions. The use of freely accessible software at all stages ensures that the involved costs remain accessible to public institutions. The approach is demonstrated using three technical instruments of historical significance spanning three centuries of maritime navigation: a pocket sundial, a maritime chronometer, and a pocket barometer manufactured in the 18th, 19th and early 20th centuries. Each object presents its own attributes and characteristics that require different approaches and solutions along the data process chains. The outcomes of these chains are interactive applications demonstrating the functionalities of the old instruments. This contributes to a better understanding of their modes of operation, and can focus the attention of the visitors to individual technical details, material composition and appearance, or other attributes of historical significance. The accessibility and appeal of the virtual objects results in a more immersive interaction experience facilitating a better transfer of knowledge to the visitors.

    Keywords: Maritime history; Technical instruments;Computertomography;Photogrammetry;Digital preservation;Interactive exhibition

    图:基于CT扫描的袖珍气压计无液气压盒表面模型局部特写(不同处理状态),以实体表面形式呈现。放大图像突出显示了三角形排列方式。左列:二次简化率为0%(初始状态)、50%、75%和99%后的未平滑网格;中列:经过一次拉普拉斯平滑后的相同表面;右列:一次拉普拉斯平滑后应用50%、75%和99%二次简化率的结果

    Fig. Close-up of a part of the surface model of the aneroid cell of the pocket barometer derived from the CT scan at different manipulation states, rendered as solid surfaces. The zoomed-in images highlight the triangle arrangement. Left column: unsmoothed meshes after a Quadric Decimation of 0 % (initial), 50 %, 75 %, and 99 %. Centre column: same surfaces after one iteration of Laplacian Smoothing. Right column: Quadric Decimation of 50 %, 75 %, and 99 % applied after one iteration of Laplacian Smoothing.

    以上内容来自JCH官方网站

    https://www.sciencedirect.com/journal/journal-of-cultural-heritage

    经数字人文资讯小编翻译整理而成

    如需转载请后台私信联系

    编译丨洪冰凤

    校对丨罗斯鹏

    排版丨魏翔

    阅读原文

    跳转微信打开

    会议征稿 | 第六届数字人文自然语言处理国际会议——NLP4DH2026

    2026年1月30日 15:43

    2026-01-30 15:43 湖北

    第六届数字人文自然语言处理国际会议(NLP4DH 2026)将与ACL2026联合举办。本次会议的论文集将收录于 ACL Anthology

    一、会议简介


    NLP4DH(Natural Language Processing for Digital Humanities)是一系列专注于“数字人文 × 自然语言处理”深度交叉的国际学术会议/工作坊。其核心使命在于将自然语言处理(NLP)的前沿方法与数字人文的核心议题(如历史学、文学研究、文化遗产及档案学等)进行深度对等衔接。通过构建跨学科的对话空间,NLP4DH 旨在利用自然语言技术赋能历史与当代文本的深层解析,从而弥合计算技术与人文阐释之间的逻辑鸿沟。

    在组织形态与学术声望上,NLP4DH 具有显著的“强联合”特征:它通常与 ACL、EMNLP、NAACL 等主流计算语言学顶会联合举办。这种模式不仅吸引了顶级 NLP 专家与资深人文学者的同场交流,更确保了研究成果能通过标准学术评审进入ACL Anthology 数据库。

        历届纪录显示其稳健的发展脉络:

    • 2021 年与 ICON 联合(线上);

    • 2022 年与 AACL 联办;

    • 2023 年在日本早稻田大学与 IWCLUL 联合举行;

    • 2024 年与 EMNLP 在迈阿密联办;

    • 2025 年则与 NAACL 在阿尔伯克基联办。

        稳定的出版渠道使其在计算语言学社群中具备极高的可见度与引证价值。

        在学术议题的深度上,NLP4DH 拒绝“工具的机械化套用”,而强调问题驱动的算法创新。其关注点涵盖了从底层技术到高层阐释的全栈路径:

    • 语料治理与加工:针对历史文献的 OCR 噪声修复、版面分析,以及历时性语料的词法解析与语义漂移建模。

    • 语义与结构挖掘:复杂实体识别(人物、地名、机构)与知识图谱构建;主题、体裁及风格的量化分析。

    • 叙事与交叉评估:计算叙事学视角下的叙事结构提取、长文本建模,以及低资源或多语言人文语料的特殊适配。会议特别鼓励那些既具备严谨方法论(可复现的数据、模型与评测),又能回应人文解释效度(Interpretative Validity)的研究——即探讨计算结果如何进入诠释学论证,并与传统细读法(Close Reading)形成互补。

    评审与交流机制上,NLP4DH 遵循严格的同行评审准则,近年普遍采用 OpenReview 平台进行双盲评审。作为顶会的官方工作坊,它与主会议的注册体系无缝衔接,确保了参会者的跨学科多样性。相比于传统数字人文活动,其最大的学术优势在于方法与数据资源论文能被 NLP 主流社群检索并引用,极大提升了交叉学科成果的传播力。

    从社群生态视角来看,NLP4DH 实质上扮演着“学科翻译者”的角色。它将人文学者关心的历史报刊、文学档案、口述史等异构材料转化为可操作的计算任务;同时,它又将计算产出的实体网络、风格表征与语义向量重新嵌入到人文学术写作的证据链中。对于数字人文研究者,这里是接触大语言模型等前沿技术在人文场景适配的最前线;对于NLP研究者,这里则提供了更具复杂性、真实性与理论挑战性的问题空间。

    二、主会轨道


    本会议聚焦于将自然语言处理技术应用于数字人文研究。征稿主题可涵盖任何数字人文相关议题,但需包含自然语言处理或自然语言生成的研究内容。

    适合的议题包括但不限于以下方面:


    • 机制可解释性相关技术应用于数字人文研究

    • 利用大语言模型及其他自然语言处理系统生成或评估人类书写的叙事文本

    • 评估模型输出与行为中的文化偏见问题,尤其是在多语言环境下的表现。

    • 数据来源与数据谱系研究,包括对训练前与训练后数据集的分析。

    • 面向文化遗产馆藏的自然语言处理研究,以及与美术馆、图书馆、档案馆和博物馆相关的研究工作。

    • 光学字符识别相关研究,包括文本数据中自动化错误检测与清洗方法。

    三、专题轨道:重新审视自然语言处理


    本专题征集对大语言模型训练数据特征进行批判性分析的研究工作,鼓励将机制可解释性相关方法创造性地引入人文研究语境,并以人文学科的研究直觉反向强化自然语言处理技术的发展。该专题强调从数字人文出发服务自然语言处理,即以数字人文推动自然语言处理研究。

    相关议题包括但不限于以下方面:


    • 用于解释大语言模型行为的关键方法。

    • 在不同社会语境中对自然语言处理技术(包括大语言模型)应用进行情境化分析的研究。

    • 受人文学科启发的预训练与后训练方法。

    • 从预训练大语言模型中挖掘并恢复具有研究价值的潜在结构

    • 对自然语言处理技术(包括大语言模型)的哲学层面思考

    • 其他相关研究方向。

    四、论文投稿


    NLP4DH2026征集与数字人文和自然语言处理(NLP4DH)相关的原创且未发表研究成果。

    短论文篇幅不超过4页,长论文不超过8页;两种投稿类型的参考文献页数均不设上限。所有投稿须遵循 ACL 官方模板。

    投稿论文必须为匿名稿件,并由程序委员会进行同行评审,评审方式为双盲评审。

    论文须在投稿截止日期前通过 OpenReview系统提交。被接收论文的作者中至少有一位需出席会议并进行论文报告。会议注册费用由 ACL 2026 统一收取。

    NLP4DH2026同样接受已通过ACL Rolling Review(ARR)评审、但尚未承诺投向其他会议或期刊的论文。已通过 ARR 获得评审意见的论文不得再通过 NLP4DH 的直接投稿通道进行评审,而须选择 ARR 投稿通道,并提供对应 ARR 投稿在 OpenReview 上的论坛链接:

    https://openreview.net/forum?id=XXXXXXXXXXX

    所有被接收的论文(短论文与长论文)将收录于会议论文集,并发表于 ACL Anthology。此外,作者将获得额外一页篇幅用于回应审稿意见。最终定稿版本中,短论文最多可为5页,长论文最多可为9页,参考文献页数仍不设上限。

    被接收论文的作者还将受邀向 Journal of Data Mining & Digital Humanities 的专题专刊提交论文扩展版本。

    五、时间信息


    • 直接投稿(长论文与短论文):2026年3月5日


    • ARR 承诺投稿截止日期:2026年3月24日


    • 录用结果通知:2026年4月28日


    • 最终定稿提交截止日期:2026年5月12日


    • 会议时间:2026年7月2日至3日

      所有时间均以AoE时间为准。

      有任何疑问可通过电子邮件联系Sil Hamilton:srh255@cornell.edu

    六、特邀发言人


    01

    Sophie Hao 

    Boston University

    现任波士顿大学(Boston University)语言学与数据科学系 Moorman-Simon 助理教授。

    (1)

    教育与职业背景

    Sophie Hao 于耶鲁大学(Yale University)获得语言学与计算机科学博士学位,导师为 Dana Angluin 与 Bob Frank;此前于芝加哥大学获得数学与语言学双学士学位。在加入波士顿大学前,她曾任纽约大学(NYU)数据科学中心助理教授/教职研究员(Faculty Fellow),并与 Tal Linzen 等知名学者开展博士后阶段的合作研究。此外,她曾拥有 Apple 自然语言机器学习实习及 Epic 软件开发等业界经验。

    (2)

    研究方向与领域贡献

    她的核心研究聚焦于自然语言处理的可解释性(Interpretability for NLP),致力于构建一套跨学科的深度神经语言模型科学(Science of Deep Neural Language Models)。其研究兴趣广泛,涵盖了以下前沿领域:


    • 模型探测与分析:包括探测(Probing)、神经表征(Neural Representations)及特征归因(Feature Attribution)。

    • 计算语言学理论:计算理论、神经架构分析、形式语言识别与电路复杂度(Circuit Complexity)。

    • 生成语言学与数学语言学:涉及语法学、音系学及生成语法与大语言模型的交叉研究。

    • 评估与心理语言学:语言学评估、心理语言学建模及模型接受度判断的影响因子分析。

    • 数字人文与社会公正:偏见与公平性研究、数字人文、数字社会科学以及社区声音在在线安全中的表征。

    (3)

    代表性学术成果

    Sophie Hao 在 TACL、EMNLP、NAACL 等 NLP 顶级会议与期刊上发表了多篇具有影响力的论文。其代表作探讨了 Transformer 模型在处理形式语言时的电路复杂度,以及 Transformer 如何通过线性编码确定动词屈折变化。她多次受邀在 ETH Zürich、Flatiron Institute 等顶尖科研机构及“语言数学”等国际会议上发表主题演讲。


    02

    Luca Soldaini

    现任艾伦人工智能研究所(Ai2)首席研究科学家(Lead Research Scientist),隶属于 Olmo 团队。在加入 Ai2 之前,他曾担任亚马逊Alexa 部门的高级应用科学家。他于 2018 年在乔治城大学信息检索实验室获得计算机科学博士学位,师从Nazli Goharian。

    (1)

    研究方向与领域贡献

    Luca 近期的研究核心在于提升大语言模型在构建、训练及评估全链路中的透明度。主要科研成就包括:

    • Olmo 项目联席主管:他与Kyle Lo共同领导 Ai2 旗舰开源语言模型项目Olmo的数据团队。Olmo 是目前顶尖的完全开源模型,旨在推动大模型科学研究。他主导发布了稠密(Dense)与混合专家(MoE)架构的多个版本,并公开了所有训练数据、代码、训练配方(Recipes)及模型权重(Checkpoints)。其最新发布的 Olmo 3 包含 7B 和 32B 规模的指令微调(Instruct)与推理(Thinking)模型,性能直面竞争对手 Qwen 3。

    • 模型对齐与适配:他与团队共同开发了多套语言模型适配方案。2024年推出了Tulu 3,这是一套支持高达405B参数规模的顶尖后训练(Post-training)流水线。此外,他还参与开发了开源多模态模型家族 Molmo,其性能足以媲美闭源视觉语言模型(VLMs)。近期,他发布了DR Tulu,这是一套用于构建深度研究系统的全开源配方,其实测性能超越了Gemini 3 Pro与GPT-5。

    • 数据治理工具链:他协作开发了多项预训练数据清洗工具。其中包括高性能PDF文本提取模型 olmOCR(其第二版本通过可验证单元测试的强化学习得到了显著增强),以及能够按主题和格式对大规模网页数据进行划分的 WebOrganizer。

    七、组织者


    01

    Sil Hamilton 

    Cornell University

    康奈尔大学(Cornell University)信息科学系博士研究生,师从David Mimno与Matthew Wilkens教授,在“文化与计算实验室”开展研究。同时担任 Epiq AI Labs 的 AI 研究科学家,于2025 年获得加拿大自然科学与工程研究委员会(NSERC)为期三年的奖学金资助,专注于从神经网络中提取知识。

    (1)

    研究方向与领域贡献

    Sil 的研究致力于界定人类与语言模型在认知与知识论(Epistemologically)上的差异。他结合叙事理论(Narrative Theory)与模型可解释性(Model Interpretability),深入调查大语言模型在法理学、新闻学及文学创作等领域中如何(以及为何无法)精准捕捉文化概念。

    作为NLP4DH研讨会的核心组织者之一,他曾多次担任会议分论坛主席。在哈佛大学 CS50 课程中,他讲授 了GPT-4 的工作原理,并为全球数万名记者开发了“生成式人工智能应用”课程,涵盖英语、西班牙语和葡萄牙语多个版本。除了在 Epiq AI Labs 担任研究科学家,他还开发了 DocPlot(浏览器端私密语义搜索)和 feature-space-explorer(3D 句子嵌入可视化)等开源软件工具。

    (2)

    代表性学术成果

    他在 NLP 与DH的交叉领域发表了多篇高质量论文,主要涵盖以下三个维度:

    • 叙事与基准测试:代表作 NarraBench(被 EACL 2026 接收)构建了评估大语言模型创意表现的综合框架。此外,他在 COLM 2025 上发表了关于大语言模型感官语言使用的探测研究(The Zero Body Problem)。

    • 可解释性与模型分析:研究涉及强化学习(RLHF)导致的模型叙事模式坍塌(Mode Collapse)、结构化输出对模型准确性的损害,以及利用情感分析识别小说章节边界。

    • 模拟与社会科学应用:利用 GPT 模拟最高法院判决(Agent-Based Modeling),以及利用反事实新闻(Counterfactual Journalism)评估模型对特定事件的先验概率。

    02

    Emily Öhman 

    Waseda University

    现任早稻田大学国际教养学部(SILS)副教授。同时,她还拥有赫尔辛基大学(University of Helsinki)语言技术与数字人文领域的“Docent”头衔(类似于北欧/德国体系的特许任教资格),并担任拉普兰塔-拉赫蒂理工大学(LUT University)计算媒体与传播研究方向的访问教授及兼职副教授。

    (1)

    教育与职业背景

    于 2021 年在赫尔辛基大学获得数字人文-语言技术博士学位,其博士论文题目为《情感语言:构建并应用英语及其他语言情感检测的计算资源》。此前,她于林奈大学获得英语语言学硕士学位。

    (2)

    研究方向与领域贡献

    Ohman 教授的研究处于自然语言处理NLP与人文社会科学的交叉地带,主要研究方向包括:

    • 情感分析与检测:特别是跨语言环境下的情感建模,以及文学作品中的情感曲线分析。

    • 数字人文:致力于数字人文研究基地的创建、计算文学研究及数字研究伦理。

    • 计算社会科学:涵盖宣传检测、仇恨言论检测以及社交媒体分析。

    • 语言技术应用:利用机器学习、词嵌入和 OCR 技术处理文化遗产收藏及多语言数据集。

    (3)

    代表性学术成果

    • 重要出版物:在TACL、ICWSM、Language and Cognition 等国际期刊和会议上发表了多篇论文。2024年由Sage出版了专著《文本分析》(Text Analytics)。

    • 开源贡献:开发了多项重要学术资源,包括芬兰语情感强度词典(FEIL)、多语言情感标注数据集(XED)以及Docker化的情感标注工具 Sentimentator。

    • 研究课题:目前主持或参与多项由日本学术振兴会(JSPS)及芬兰研究理事会资助的项目,如“语义空间中的情感地图(EmoMap)”和“文学作品中的负面情感计算研究”。

    • 会议组织:担任NLP4DH的程序委员会主席。

    • 学术审稿:担任 IEEE Transactions on Affective Computing、Digital Humanities Quarterly 等顶级学术期刊的审稿人。

    • 教学获奖:因在大型在线编程课程中实施“个体化最近发展区”教学法,荣获第12届早稻田大学 e-Teaching 个人奖。

    03

    Rebecca M. M. Hicke 

    Cornell University

    康奈尔大学计算机科学系四年级博士候选人,在 C2L 实验室(Culture and Computation Lab)从事研究,导师为 David Mimno。她于 2022 年以优等成绩毕业于卡尔顿学院(Carleton College),获得计算机科学与英语双学士学位,并辅修数字艺术与人文。

    研究领域涵盖计算人文、自然语言处理及文化分析。曾在CHR 2025(计算人文研究会议)发表了关于大规模视角分析及基督教小说自动叙事分析的研究。在 NLP4DH 2025上发布了一个包含约7万个文学社交网络的大型语料库,其关于大语言模型感官语言使用的研究被COLM 2025接收,关于计算识别隐喻的研究曾入围CHR 2024最佳短论文奖提名。



    04

    Yuri Bizzoni 

    Aarhus University


    现任奥胡斯大学文化与社会学院高级研究员,供职于人文计算中心(Center for Humanities Computing)。

    (1)

    研究方向与领域贡献

    他的研究高度跨学科,主要利用深度学习和定量方法解决人文领域的复杂问题。

    • 计算叙事学与文学分析:重点研究文学文本的动态演变,包括情感曲线建模、叙事结构自动评估,以及文学作品中“质感”与“风格”的量化。

    • 情感分析:致力于开发适用于文学和多语言语料库的持续性情感评分系统。

    • 数字人文下的大语言模型应用:探索大语言模型在人文研究中的局限与潜力,例如他在 2025 年参与了关于 GPT 助手研究平台的开发项目。

    • 性别与偏见分析:曾通过大规模观测研究,分析书籍评论评价中的系统性性别不对称。

    (2)

    代表性学术成果

    • Fabula-NET 项目:这是一项利用深度神经网络对文学虚构作品和叙事进行多维度自动评估的重大项目(2021-2024)。

    • 跨领域合作:他的学术产出非常丰富,在 LREC-COLING、ACL、CHR(计算人文研究会议)等顶尖学术场合频繁发表论文。

    • NLP4DH 深度参与者:不仅是NLP4DH 2025的论文作者之一,还主编过多本关于数字人文自然语言处理的会议论文集。

    05

    Axel Bax

    Cornell University

    现为康奈尔大学信息科学系博士研究生。他同样效力于 C2L 实验室(Culture and Computation Lab),由 David Mimno 与 Matthew Wilkens 两位教授共同指导。

    (1)

    研究方向与领域贡献

    Axel 的研究专注于利用计算方法探索文学趋势及文学接受史(Literary Reception)。其研究特色在于:

    • 地理空间分析:特别关注文学中的地理因素。通过地图可视化与计算地理模型,研究文学作品如何呈现空间感,以及读者的接收习惯如何受地理位置影响。

    • 文化计算:通常涉及大规模书目数据分析,利用 NLP 技术提取文学文本中的时空线索。

    06

    Jacob A. Matthews

    Cornell University

    现为康奈尔大学罗曼语研究(Romance Studies)博士候选人,辅修认知科学。于2019 年在哥伦比亚大学获得法语与法语区研究学士学位。

    (1)

    研究方向与领域贡献

    Jacob 的研究高度融合了实验心理学、计算语言学与人文理论。他致力于将计算与实验方法应用于人文领域,特别是文学与区域研究。其核心研究领域包括:

    • 语言模型表征分析:深入探讨语言模型与嵌入模型的内在表征机制。

    • 人类与机器语言处理差异:对比人工智能与人类在大脑认知层面的语言处理异同。

    • 文学理论与认知:利用 Gilles Deleuze(德勒兹)和 Michel Serres(塞雷斯)等思想家的理论探讨认知科学问题。

    (3)

    代表性学术成果

    他活跃于康奈尔大学的多个顶尖实验室,包括 C.Psyd(计算心理语言学实验室)、Humanities Lab 以及 Cornell NLP 组。

    • 顶会论文:在 ACL 2024 (Findings) 上发表关于正字法噪声(Orthographic Noise)如何影响上下文词嵌入的研究。

    • 网络嵌入:在 PEER 2024 及 Text as Data (TADA) 2023 上提出了利用属性网络嵌入增强语言模型表征的简易高效方法。

    • 心理语言学实验:在第 36 届人类句子处理年会上展示了关于“Wug Vectors”理解机制的研究,探索模型在处理虚构词汇时的泛化能力。

    07

    Mika Hämäläinen Metropolia

    University of Applied Sciences

    博士毕业于赫尔辛基大学(University of Helsinki),是 NLP 领域的资深研究员和开发者。他是一位典型的“代码与人文”实践者,研究范围从尖端的深度学习技术一直延伸到濒危语言的保护。

    (1)

    研究方向与领域贡献

    Mika的科研工作具有极强的原创性和工具性,主要集中在以下方向:

    • 计算创意:探索如何利用 AI 进行文学创作、隐喻生成以及非标准语言的处理。

    • 乌拉尔语自然语言处理(Uralic NLP):他是该领域的权威专家,致力于为芬兰语及其他少数/濒危乌拉尔语种构建计算资源。他开发的 UralicNLP Python 库是该领域的标准工具。

    • 非规范化数据处理:研究如何处理历史文献、方言及社交媒体等不符合标准语法规范的数据。

    • 开源科学倡导者:他强调科学研究的透明度,主张公开所有的研究代码和数据集(Kaggle/UralicNLP),并在学术界积极推广开放研究数据。

    八、项目委员会


    • Hale Sirin, Johns Hopkins University

    • Thibault Clérice, INRIA Paris - Almanach

    • Noémi Ligeti-Nagy, Hungarian Research Centre for Linguistics

    • Anna Dmitrieva, University of Helsinki

    • Frederik Arnold, Humboldt Universität Berlin

    • Dongqi Liu, Universität des Saarlandes

    • Won Ik Cho, Samsung Advanced Institute of Technology

    • Konstantin Schulz, Humboldt Universität Berlin

    • Aynat Rubinstein, Hebrew University of Jerusalem

    • Alejandro Sierra Múnera, Hasso Plattner Institute

    • Tim Fischer, University of Hamburg

    • Shu Okabe, Technische Universität München

    • Ronja Laarmann-Quante, Ruhr-Universtät Bochum

    • Yoshifumi Kawasaki, The University of Tokyo

    • Klara Venglarova, Universität Graz

    • Youngsook Song, Sionic AI

    • Joshua Wilbur, University of Tartu

    • Keito Inoshita, Shiga University

    • Kenichi Iwatsuki, Mirai Translate

    • Piper Vasicek, Brigham Young University

    • Mohammed Attia, Google

    • Laura Manrique-Gómez, Universidad de Los Andes

    • Craig Messner, Johns Hopkins University

    • Abhai Pratap Singh, Carnegie Mellon University

    • Balázs Indig, Eötvös Lorand University

    • Anton Eklund, Umeå University

    • Jouni Tuominen, University of Helsinki

    • Jesse Roberts, Tennessee Technological University

    • Nikita Neveditsin, St. Mary's University

    • William Thorne, University of Sheffield

    • Lev Kharlashkin, Metropolia University of Applied Sciences

    • Jonne Sälevä, Brandeis University

    • Gleb Schmidt, Radboud University

    • Erik Henriksson, University of Turku

    • Amanda Myntti, University of Turku

    • Erkki Mervaala, University of Helsinki

    • Jay Park, Nanyang Technological University

    • Lama Alqazlan, University of Warwick

    • Pascale Moreira, Aarhus University

    • Enrique Manjavacas, Arevalo University of Leiden

    • Chahan Vidal-Gorène, École Nationale des Chartes

    • Lucija Krusic, Karl-Franzens-Universität Graz

    • Lidia Pivovarova, University of Helsinki

    • Iana Atanassova, University of Franche-Comté

    • Sebastian Oliver Eck, University of Oxford

    • Shuo Zhang, Bose Corporation

    • Tomasz Walkowiak, Wroclaw University of Science and Technology

    • Elissa Nakajima, Wickham Waseda University

    • Nicolas Gutehrlé, University Bourgogne Franche-Comté

    • Hanna-Mari Kupari, University of Turku

    • Sourav Das, Indian Institute of Information Technology Kalyani

    • Antti Kanner, University of Helsinki

    • Julie-Anne Meaney, University of Edinburgh

    • Eetu Mäkelä, University of Helsinki

    • Fotini Koidaki, University of Crete

    • Yuzuki Tsukagoshi, University of Tokyo

    • Quanqi Du, Ghent University

    • Hugo Gonçalo Oliveira, Universidade de Coimbra

    • Maciej Kurzynski, Lingnan University

    • Xinmeng Hou, Columbia University

    • Sijia Ge, University of Colorado at Boulder

    • Mary Ogbuka Kenneth, Imperial College London

    • Mina Rajaei Moghadam, Northern Illinois University

    • Quan Duong, University of Helsinki

    • Mohamed Hannani, Universität Siegen

    • Pascale Feldkamp, Aarhus University

    • Eiaki Morooka, Metropolia University of Applied Sciences

    • Jahnavi Anilkumar Kachhia, Facebook

    • Rynaa Grover, Google

    • Milavkumar Sha, IEEE

    • Pratik Aher, Meta

    • Kunal Chhabaria, Walmart Connect

    • Elena Klyachko, HSE University

    • Yulia Badryzlova, Higher School of Economics

    • Mariia Fedorova, University of Oslo


    以上内容来自会议官方网站:

    https://www.nlp4dh.com/nlp4dh-2026

    经数字人文资讯小编翻译整理而成

    如需转载,请后台私信联系

    编译 丨魏翔

    校对 丨洪冰凤

    排版 丨罗斯鹏


    阅读原文

    跳转微信打开

    专业资讯丨欧洲时光机项目(Time Machine)最新介绍

    2026年1月23日 15:40

    2026-01-23 15:40 湖北

    迄今为止使用“历史大数据”进行研究的项目中意义最深远、规模最宏大的一个。

    项目简介

    时光机项目(Time Machine)是迄今为止使用“历史大数据”进行研究的项目中意义最深远、规模最宏大的一个。该项目致力于将欧洲丰富的过往与前沿数字技术及基础设施相结合,构建一个庞大的分布式数字信息系统,以描绘欧洲经济、社会、文化与地理的时空演进历程。在该构想中,数字化仅是漫长提取过程的第一步,后续步骤包括通过增强现实/虚拟现实(AR/VR)应用强化的文档分割与理解,最终实现假设性时空四维重建的模拟。

    图:“时光机”项目官网

    时光机项目通过推动信息通信技术(ICT)与社会科学及人文科学(SSH)的前沿交叉研究,将深度赋能欧洲经济的关键领域:驱动ICT软件(尤其是AR/VR应用)的创新,助力创意产业与旅游业的转型升级。此外,该项目还将为城市规划、土地管理及智慧城市建设提供全新的维度与视角。

    图:构建历史大数据(A)现状。(B)基于新资源数字化与处理的扩展。(C)基于模拟的扩展。


    图:时光机数字内容处理器与三大模拟引擎

    时间机器组织

    时光机组织(Time Machine Organization, TMO)是致力于技术、科学与文化遗产合作的重要国际组织,也是确保“时光机”项目可持续性与经济独立性的机构治理框架。

    该组织依据奥地利法律成立的国际性协会,总部设在维也纳。因此,协会向任何从事科学、技术及文化遗产相关工作的法律实体开放。此外,个人也可以通过成为“时光机支持者”加入时光机网络。

    时光机组织的目标与愿景

    •提供一个平台,支持与不同联盟在不同的资助计划中执行各类项目(在资助工具咨询、寻找合适伙伴、项目管理等方面提供支持)。

    •开发技术,以进一步推动文化遗产的数字利用与再利用。

    •建设一套基础设施,以实现时光机的目标与活动(服务器、数据库、平台等),同时增强时光机组织及其成员的实际能力。

    •创造一个持续交流知识、最佳实践和专业技能的环境,以促进当前及未来的发展(在线知识库、时光机活动,如2019年时光机大会、研讨会、国家利益相关者会议、专题社交活动等)。

    •提供开源工具与技术。

    •在不同领域提供支持(技术与基础设施的使用、项目构建等)。


    团队成员与合作伙伴

    时光机团队由时光机组织(Time Machine Organization,简称TMO)执行董事会、运营团队以及时光机形象大使共同组成,总部于维也纳(奥地利),并在洛桑(瑞士)、布达佩斯(匈牙利)、耶拿(德国)和赫尔辛基(芬兰)设有办事处。

    执行董事会

    弗雷德里克·卡普兰(Frédéric Kaplan)

    时光机组织主席

    弗雷德里克·卡普兰教授是时光机组织主席,同时担任瑞士洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne,EPFL)人文学院院长。他著有十余本被翻译成多种语言的书籍,并发表了超过一百篇科学出版物。他的工作成果还在多个重要博物馆展出,包括威尼斯建筑双年展、巴黎大皇宫、蓬皮杜中心以及纽约现代艺术博物馆。

    伊莎贝拉·迪·莱纳尔多(Isabella di Lenardo)

    地方时光机项目负责人

    伊莎贝拉·迪·莱纳尔多博士是威尼斯时光机项目经理。自威尼斯时光机项目启动以来,她主导了该城市的所有城市建模模拟工作,并担任所有相关展览(威尼斯双年展、大皇宫、数据广场-艺术实验室等)的内容策展人。她还负责“复制品(Replica)”项目,该项目旨在数字化威尼斯乔治·奇尼基金会(Fondazione Giorgio Cini)的100万件艺术品照片,并通过一个视觉相似性搜索引擎提取其图案特征。

    伊莎贝拉·迪·莱纳尔多学习考古学和城市研究,拥有艺术史博士学位。她发表了大量关于威尼斯艺术和城市史的论文和文章,并参与了欧洲多家博物馆的多次艺术展览。她定期协调关于艺术史和城市史数字工具的暑期学校和研讨会,并在威尼斯国际大学及洛桑联邦理工学院(EPFL)建筑、土木与环境工程学院等多所大学授课。


    马丁娜·博洛姆-科塔里(Martina Bolom-Kotari)

    时光机组织副秘书长

    马丁娜·博洛姆-科塔里是一位档案管理员和历史学家,目前工作于赫拉德茨-克拉洛韦大学哲学院辅助历史科学与档案学系。她的主要研究领域是印章学,同时也涉及教会史、古文书学和近代早期历史。

    罗伯特·萨布拉特尼格(Robert Sablatnig)

    时光机组织财务主管

    罗伯特·萨布拉特尼格教授博士领导着维也纳工业大学(TU Wien)的计算机视觉实验室。他的研究兴趣包括3D计算机视觉(涵盖测距仪、立体视觉、从X恢复形状、配准、标定)、机器人视觉、用于计算机视觉的机器学习和深度学习、视频数据分析(运动与跟踪)、自动化文档分析、多光谱成像、虚拟现实与增强现实,以及在工业和文化遗产保护中的应用。

    他编辑了17部会议论文集,并在期刊、多个国际会议和研讨会上发表或合著了300多篇经同行评审的科学出版物。他是国际模式识别协会(IAPR)文化遗产应用计算机视觉技术委员会(第19技术委员会)的创始主席,奥地利模式识别协会(AAPR/ÖAGM,IAPR奥地利分会)的财务主管,并在IAPR理事会担任职务。


    桑德·明斯特(Sander Münster)

    项目探索服务首席战略师兼时光机组织秘书长

    桑德·明斯特博士是德国耶拿弗里德里希·席勒大学(Friedrich Schiller Universität Jena)的数字人文(图像/对象)领域青年教授。他于德国德累斯顿工业大学(Technische Universität Dresden)获得教育技术学博士学位,并在该校学习了历史、教育和商业。截至2019年,他领导了德累斯顿工业大学媒体中心的媒体设计部门以及城市历史4D(UrbanHistory4D)青年研究小组,并曾是德累斯顿工业大学教育学院的青年研究员。

    他的研究领域包括移动3D界面、数字人文与文化遗产领域的科学计量学和研究方法。他在研究传播和创新支持领域有丰富的工作经验。他曾担任的相关职务包括:德国数字遗产协会数字重建工作组联合召集人、德国“建筑史3D重建方法”网络发言人,以及欧盟虚拟多模态博物馆网络“与国际组织合作”工作组负责人。


    托马斯·艾格纳(Thomas Aigner)

    时光机组织副主席

    托马斯·艾格纳博士(MAS)是历史学家和档案管理员。他曾担任与文化遗产和数字化相关的高级管理职务:2008年至2023年任国际档案研究中心(ICARUS)主席,现任秘书长,是其国际活动(包括支持数字化活动和数字内容开放获取的跨境及欧盟资助项目)的主要推动者。自2023年起,他成为文化遗产战略和数字化转型各方面的独立顾问。


    瓦莱丽·古埃-布鲁内(Valérie Gouet-Brunet)

    时光机组织副财务主管

    瓦莱丽·古埃-布鲁内博士是法国生态部的研究主任,在法国国家地理研究所(IGN)和古斯塔夫·埃菲尔大学(University Gustave Eiffel)的LaSTIG实验室进行研究工作。她负责领导关于大规模、长期多媒体馆藏内容描述、匹配与索引的研究,重点在于图像及其结构化、探索和空间化,并应用于文化和自然遗产领域。她曾领导一个关于计算机视觉、摄影测量和遥感技术用于地面与航空影像(MATIS)的研究小组,并在18个欧盟和国家研究项目中担任领导角色,其中大多数项目致力于推广地理图像遗产、智慧城市和土地利用,合作伙伴包括国家博物馆、中小企业以及信息和通信技术与航空航天领域的大型集团。

    目前,她正协调ALEGORIA项目(法国国家研究机构ANR,2018-2021),并担任法国模式识别与解释协会(AFRIF)指导委员会成员以及巴黎圣母院修复科学基地“数字数据”工作组成员。

    运营团队成员

    阿格内什·泰莱克 (Ágnes Telek)

    社交媒体专员


    安东尼娅·博比克 (Antonia Bobik)

    传播专员


    阿蒂尔·布于克布尔克 (Atil Büyükburc)

    项目经理


    贝亚特丽切·瓦伊恩特 (Beatrice Vaient)

    地方时光机项目经理

    卡罗琳·马克西莫夫 (Caroline Maximoff)

    行政专员 / 传播专员


    丹尼尔·耶勒 (Daniel Jeller)

    首席技术官


    尤哈·亨里克松 (Juha Henriksson)

    合作伙伴关系经理


    克尔斯廷·穆夫 (Kerstin Muff)

    首席传播官


    凯文·鲍默 (Kevin Baumer)

    项目经理


    曼努埃尔·埃伦费尔德 (Manuel Ehrenfeld)

    软件工程师


    理查德·约斯 (Richard Joos)

    项目经理

    合作团队

    “时光机”的项目合作者为该项目提供了最精尖的专业知识、技术和创新思维。该项目得到了来自50多个国家、超过700家机构的支持,其中不乏顶尖的学术研究机构、文化遗产机构、民间社会组织、GLAM机构(美术馆、图书馆、档案馆、博物馆)以及私营企业等。他们共同应对项目实施中的挑战,提供文化、历史和地理方面的素材和专业知识,同时也推动“时光机”的架构和服务等方面的发展。


    最新项目与资源

    1

    文化遗产数据空间的3D大数据——“3DBigDataSpace”

    • 运行时间:2025年2月1日 – 2026年7月31日

    • 征集计划:DIGITAL-2023-CLOUD-DATA-AI-05

    • 行动类型:DIGITAL Simple Grants

    • 项目编号:101173385

    多年来,高质量3D内容的稀缺一直是文化遗产领域扩展现实与3D应用发展的瓶颈。尽管大规模数据集变得更容易获取,但由于质量参差不齐、元数据碎片化以及互操作性不足,其可用性仍然受限。

    3DBigDataSpace项目旨在通过显著增加欧洲共同文化遗产数据空间中高质量3D模型的可用性,彻底改变3D文化遗产的格局。 通过整合来自多个提供方和聚合机构的数据集,该项目将为3D模型及其相关数据(如原始模型、传感器原始数据和3D查看器衍生文件)建立稳定、长期的存储解决方案。

    为了最大限度地提升这些海量3D资源的可用性,项目将采用人工智能驱动的数据增强技术,以提升内容的可检索性、情境化和可复用性。这些增强后的数据集将成为3D虚拟与增强现实查看器以及4D世界应用的基础,为沉浸式遗产体验开辟新的可能性。

    2

    3D-4CH:文化遗产3D在线能力中心

    • 项目运行时间:2025年2月1日 – 2028年1月31日

    • 征集计划:DIGITAL-2024-CLOUD-DATA-AI-06

    • 行动类型:DIGITAL-DATA

    • 项目编号:101195149

    “文化遗产3D在线能力中心”项目由欧盟资助,是一项雄心勃勃且具有前瞻性的倡议,旨在彻底改变文化遗产的保存、数字化和共享方式,以造福教育与社会。这一开创性项目将欧盟和乌克兰丰富的历史文化多样性与尖端技术相结合,为数字遗产创新树立了新标杆。该项目以众多有影响力的项目为基础,如先前的欧盟资助项目4CH、欧洲共同文化遗产数据空间项目,以及5Dculture项目,目标在于提升3D数字化和先进技术在文化遗产保护中的作用,并着眼于未来的合作,确保工具、服务和专业知识的生态系统持续发展。

    3D在线能力中心不仅仅是一个资源库——它旨在成为一个充满活力的创新、协作与学习枢纽。作为一个完全在线的平台,它将汇聚领先的文化遗产机构、研究人员和实践者,共同释放3D技术的全部潜力。通过利用遗产科学欧洲研究基础设施的广泛网络及4CH项目建立的国家节点,该中心将在四个关键支柱领域产生变革性影响:


    • 培训与能力建设:通过一系列互动在线课程、线下研讨会和沉浸式季节学校,赋能文化遗产专业人士。这些与大学和培训中心合作开发的课程将提供认证,确保参与者既能获得知识,又能得到对其专业能力的正式认可。

    • 服务与工具:提供一系列精心策划的尖端资源,包括3D数字化、人工智能和扩展现实领域的指南、最佳实践和最先进工具。这些资源将支持从教育、研究到旅游和公众参与等广泛的应用,确保广泛的社会影响。

    • 3D部署:倡导创建新的高质量3D文化资产,并提升现有资产的质量。通过整合元数据、衍生数据标准和可持续归档标准,该中心将为构建统一、可访问的欧洲文化数据空间做出贡献。

    • 研究与开发:通过与领先的研究计划合作,并持续探索和采用下一代技术,中心将确保新的方法论能够无缝应用于解决现实世界中的文化遗产挑战。

    3

    作为网络构建、能力建设和区域间投资创新方法的元宇宙与遗产路线——“MetaHeritage”

    • 运行时间:2025年1月1日 – 2026年12月31日

    • 征集计划:区域间创新投资工具

    • 项目编号:101180388

    MetaHeritage项目以虚拟和智慧遗产旅游为主要框架,探索“突破常规”的方法和区域间网络构建的创新可能。从而提升欠发达地区区域创新生态系统的能力,并协调和互联区域间的投资吸引策略与战术。这项由欧盟资助的元遗产项目,将元宇宙等尖端技术与文化遗产相结合,旨在创造新的商业模式、强化区域创新生态系统并促进可持续旅游业发展。

    该项目的关键目标包括:

    • 促进可持续增长:将数字创新与遗产旅游及创业相结合。

    • 加强区域协作:连接企业、学术界、政府机构和民间社会,以促进区域间和跨部门的合作。

    • 应对区域差异:为代表性不足的地区提供工具和资源,帮助其接入欧盟创新网络和获得资助机会。

    4

    ARCHE——欧洲文化遗产研究联盟

    • 项目运行时间:2022年9月1日 – 2025年8月30日

    • 征集计划:Horizon-CL2-2021-HERITAGE-02

    • 行动类型:HORIZON-CSA(协调与支持行动)

    • 项目编号:101060054

    ARCHE项目旨在创建一个欧洲范围内的整体性文化遗产研究与创新框架,具体方式是建立“欧洲文化遗产研究联盟”。该联盟将是一个由研究人员、创新者、遗产专业人士、机构组织和公民组成的先锋协调网络。

    项目将首先对下一个十年的研究与创新差距和需求进行详细评估,并以此为基础,设计一份“战略研究与创新议程”,旨在提高公众对遗产的认知和欧洲的归属感。同时,将提出一个全新的、量身定制的治理结构,以有效吸纳来自相关科学学科和行业的现有网络与新伙伴。

    5

    遗产监测器Heritage Monitor

    Heritage Monitor 是一个基于科学计量分析的情报平台,旨在通过数据可视化和分析,描绘并推动欧洲文化遗产研究的发展。该平台汇聚了来自 CORDIS、OpenAIRE、ArXiv 和 CORE 等数据源的庞大数据,涵盖超过 17.6 万家机构、9.1 万个研究项目以及 85.6 万项研究成果,以解决文化遗产研究领域长期存在的数据碎片化问题。

    网址:https://heritagemonitor.org/

    核心目标与功能

    其核心目标是将这些数据转化为可操作的战略情报,帮助政策制定者、研究者和机构做出数据驱动的决策,从而塑造文化遗产的未来。

    平台围绕5个分析场景构建其功能,以满足不同需求:

    • 资助追踪 :分析欧盟资助的分配模式、地理分布和随时间变化的趋势。这是目前唯一可公开探索的功能。

    • 合作网络 :可视化机构间的合作伙伴关系与差距。

    • 专家发现 :根据可衡量的影响力识别特定文化遗产领域的领先机构。

    • 少数群体研究 :监测与少数群体文化遗产相关的研究代表性。

    • 主题情报 :监测趋势并预测新兴研究领域。


    学习资源——时光机学院

    时光机学院是旨在促进时光机社群里发展的知识与专业技能交流的学习活动。学院为参与者提供理论及实践培训,指导他们如何将特定工具或流程应用于自身项目数据,学院提供的培训可能涵盖以下内容:

    • 指导制定精准高效档案文献数字化策略的方法;

    • 演示如何运用VR软件解决方案提升博物馆藏品的参观体验;

    • 介绍用于数据提取、分析与存储的前沿工具及代码。

    学院结构

    每个学院课程包含两到三节独立课节,让参与者能够使用自身项目数据集对工具或软件进行测试,从而实现从理论到实践的过渡。课程安排充足的答疑时间,学员可获得讲师的针对性指导。学院开放给时光机组织成员及本地时光机项目合作伙伴参加。

    往期课程

    • 构建你的4D时光机地图集——历史地图数字化

    • 时光机学院:利洛1640——虚拟重建的方法与工作流程

    • Recogito:实现协作式文献标注的在线开源工具

    • IIIF:数字资产库中实现互操作功能的开放标准

    • dhSegment:面向文献分割的通用深度学习方法

    最新活动

    1.MetaHeritage系列网络研讨会(第三场)

    • 主题:企业欧洲网络(EEN)——通过个性化支持服务实现业务增长

    • 日期: 2026年1月29日,中欧时间10:00 – 11:00

    • 地点: 线上

    • 语言: 英语

    该会议将向与会者介绍企业欧洲网络(EEN)——一个帮助各类组织及中小企业实现创新、寻找合作伙伴、获取融资机会并在国际舞台上发展壮大的重要支持平台。通过实际案例和专家见解,重点阐述EEN的服务如何使文化遗产机构及相关企业受益。

    2.ECSA 2026:第六届欧洲公民科学社群盛会

    • 主题:中心与边缘之间的公民科学

    • 日期:2026年3月3日至6日

    • 地点:芬兰奥卢,奥卢大学

    • 网址:https://www.ecsa2026.ngo/

    • 语言:英语   

    第六届欧洲公民科学协会(ECSA)会议是欧洲最具启发性的公民科学研究者、从业者及倡导者盛会之一。2026年恰逢奥卢市荣膺“欧洲文化之都”称号,由奥卢大学主办的ECSA 2026将汇聚公民科学领域的多元视角,共同探讨科学如何连接跨区域、跨学科、跨传统的社群。

    ECSA 2026的核心主题是“中心与边缘之间的公民科学”。该议题彰显了公民科学在不同语境下的丰富多样性——从人口密集的大都市中心到偏远地区及乡村景观。讨论将审视公民科学如何与可持续性、文化、历史、公共卫生、政策、法律体系等领域相交融。

    会议详情

    • 会前日(3月2日):ECSA工作组专题会议

    • 学术议程(3月3–6日):通过专题讨论、工作坊及圆桌会议探讨公民科学最新趋势与研究

    • 闭幕式暨主旨演讲(3月6日下午):公开主旨演讲及会议总结

    • 公民科学节(3月6日晚):免费开放的全民庆典,通过互动展览、活动及鼓舞人心的项目展示来庆祝公民科学

    • 考察活动(3月7日):为希望在正式议程结束后探索奥卢及周边地区的参会者提供的自选活动

    更多项目介绍请查看往期内容:

    以上信息来自时光机项目官方网站:

    https://timemachine.eu/

    经数字人文资讯小编翻译整理而成

    未经许可请勿转载

    编译 | 罗斯鹏

    校对 | 魏翔

    排版 | 洪冰凤


    阅读原文

    跳转微信打开

    专业资讯 | Odeuropa嗅觉遗产项目

    2026年1月16日 08:03

    2026-01-16 08:03 湖北

    Odeuropa项目运用前沿人工智能技术,对横跨四个世纪的欧洲文化遗产文本与图像数据集进行分析,旨在厘清“嗅觉”这一概念在不同语言中的表达形式、与之相关的地域空间、其所表征的各类事件与习俗,以及其所联结的情感内涵。


    认知不仅仅是大脑的过程,而是由身体的感官和运动系统共同参与的一种整体性体验。在数字人文研究领域,这一观点更是为研究提供了全新的方法和视角,可用于揭示人类认知与文本、图像、声音等数据体之间的复杂互动。现今时代,数字人文研究已不再局限于文本中心主义,而是向具身认知方向进行探索。

    感官是我们通往过往的门户。而所有感官中,嗅觉与人类的情感和记忆有着最为直接的关联。尽管博物馆正逐步意识到多感官展示模式的独特优势,但目前我们仍缺乏相应的科学标准、工具及数据,无法有效界定、整合并阐释嗅觉在人类文化遗产中所扮演的多元角色。正因如此,无论是在物质文化遗产还是非物质文化遗产的范畴内,嗅觉遗产作为一种宝贵资源,其价值都远未得到充分发掘。

    所幸,解决这一问题的部分关键先决条件已初步具备。近年来,欧洲文化遗产机构在大规模数字化领域投入了大量资源,如今我们已拥有海量的器物、文本及图像数据,这些数据均可借助先进的计算机科学技术展开分析。目前亟待弥补的短板,是进一步发掘这些数据中蕴藏的丰富历史嗅觉描述、体验与记忆。这既是一项挑战,更是一次机遇。


    01 项目简介

    Odeuropa项目运用前沿人工智能技术,对横跨四个世纪的欧洲文化遗产文本与图像数据集进行分析,旨在厘清“嗅觉”这一概念在不同语言中的表达形式、与之相关的地域空间、其所表征的各类事件与习俗,以及其所联结的情感内涵。项目团队将依据语义网标准,对这些多模态信息进行整理,并存入“欧洲嗅觉知识图谱(EOKG)”,再结合文化史研究成果,构建全新的“叙事脉络”。

    这些叙事资源将针对不同受众,以多样化形式呈现:包括线上版《欧洲嗅觉遗产百科全书》、交互式实验手册演示版本,以及介绍嗅觉博物馆学最佳实践的工具包与培训资料。Odeuropa还将研发全新的、基于实证的方法论,用以量化多感官访客体验的影响,并依托相关数据,推动制定关于嗅觉遗产的认定、推广、展示与保护的政策建议。

    Odeuropa项目的核心目标在于证明:深度唤醒嗅觉感知、发掘嗅觉遗产的价值,是串联并推广欧洲物质与非物质文化遗产的重要且可行的途径。

    具体目标:

    1.  开发研究方法,用于识别并追踪17世纪至20世纪初欧洲多地区、多语言的大规模数字图像与文本资料中有关嗅觉的记载。

    2.  创建数字化多感官资源,使不同利益相关方和受众能够自由访问并与项目数据及叙事线索进行互动。

    3.  确立并推广可衡量的嗅觉遗产科学标准与最佳实践方案。

    4.  为文化遗产专业人员提供嗅觉遗产策略运用的教育与培训。

    5.  制定面向文化遗产机构、非政府组织及决策者的政策建议,以助力保护和传承历史与未来的嗅觉遗产。

    02 团队成员

    项目成员

    KNAW人文集群–荷兰,阿姆斯特丹


    弗里德里希-亚历山大大学埃尔朗根-纽伦堡(FAU)–德国

    布鲁诺·凯斯勒基金会(FBK)–意大利,特伦托

    EURECOM–法国,索菲亚安提波利斯

    约克大学 – 英国,约克

    约瑟夫·斯特凡研究所(JIS)–斯洛文尼亚,卢布尔雅那

    伦敦大学学院 – 英国,伦敦

    数据标注团队

    顾问委员会

    Nancy Bell,英国国家档案馆

    Rowan Boyson,伦敦国王学院(英国)

    Peter de Cupere,哈塞尔特大学(比利时)

    Holly Dugan,乔治华盛顿大学(美国)

    Alison Heritage,国际文化遗产保护与修复研究中心

    Mark Jenner,约克大学近代早期历史(英国)

    Asifa Majid,牛津大学(英国)

    Karina Rodriguez,英国布莱顿大学

    John Shawe Taylor,伦敦大学学院 & 联合国教科文组织(英国)


    03 项目介绍

    1. Odeuropa Smell Explorer

    Odeuropa气味探索器

    Odeuropa气味探索器是一款全新的网络工具,专为将气味作为文化现象进行探索而开发。这个可检索的网站能让用户探寻往昔的气味,理解它们如何塑造了欧洲的历史与文化。该气味探索器是由计算机科学家、人工智能专家和人文学者组成的国际团队历时三年深入研发而成。其目标受众包括学者、调香师、遗产保护从业者、艺术家,以及所有对气味世界、嗅觉语言与意象,以及气味在日常生活中所扮演的重要角色感兴趣的人。

    (1)  获取方式

    网址:https://explorer.odeuropa.eu

    其背后的开放获取数据和开源软件可在Odeuropa的GitHub代码仓库中找到。


    (2)开发内容

    气味探索器中的数据包含来自43,679件绘画、版画、素描等作品的92,149个气味实例,同时还分析了167,029份六种语言(英语、意大利语、法语、荷兰语、德语和斯洛文尼亚语)的公开领域文本资源,总计收录240万个气味实例。

    Odeuropa的计算机视觉团队研发了检测图像中气味相关物体的技术。在对5000张图像进行手动标注后,团队训练计算机识别类似的气味相关元素,并运用机器学习技术扩充数据库。由此,计算机能够捕捉“气味来源”(气味物质及带有气味的物体,如香水瓶)、芳香场所和气味相关动作(嗅闻、捏鼻子)。

    为了给图像补充气味相关描述及气味体验的记载,Odeuropa的计算机科学团队手动标注了数千本历史书籍,包括小说、剧本、游记、植物学教科书、法庭记录、卫生报告、布道文和医学手册。借助这些示例,Odeuropa开发了一套自动化系统,能够模拟人工标注流程,从文本中识别气味相关信息(谁在何处闻到了什么,以及用哪些特征描述该气味),包括与气味相关的情绪。

    Odeuropa的语义网专家利用这些成果开发了用户友好型界面,方便用户检索和浏览气味相关的文本与图像。为此,他们先设计了一套基于事件的本体论,并以知识图谱的形式构建该探索器,按照语义网标准对多模态信息进行整理和存储。


    (3)可获取内容

    Odeuropa作为首个可以嗅觉为切入点进行查询的数据库,可帮助用户了解有关气味的一系列问题:欧洲最具代表性的气味和气味景观是什么?历史文本中最常提及哪些气味,它们引发了怎样的反响?香丸或混合干花(香薰包)中会使用哪些气味物质?绘画和版画中最常呈现哪些气味相关物品和芳香场所?木质气味是否比果香或动物性气味更受欢迎?“气味见证者”如何描述他们的嗅觉体验?意大利语中的气味词汇与英语、法语、斯洛文尼亚语或荷兰语中的对应词汇是否具有可比性?18世纪在哪里能闻到灵猫香或硫磺的气味?薰香的气味能引发哪些情绪?气味是如何分类的?

    大多数网站聚焦于高级香水,而该探索器则能带用户深入探寻各类具有重要意义的气味景观——无论是难闻的还是芬芳的。它能帮助调香师了解气味如何被归类为不同香调家族,以及各类香气承载着怎样的情感;能协助科学家绘制气味分布图;艺术史学家或许能从中发现新的嗅觉寓意与图像志;芳香疗法师可以探寻古老配方。该探索器还会生成关于气味价值的富有见地的引言。总的来说,它为人们汲取往昔的气味智慧提供了独一无二的机会。


    (4)数据库浏览与检索

    气味探索器提供两种主要的查询方式:

    按气味来源和芳香场所浏览

    探索器支持浏览550多种气味来源、115个芳香场所和35种嗅觉相关动作,每种类别均设有专门的检索入口页面。“气味来源”页面列出了所有被确认会散发气味的物体和物质,访客可按字母顺序或出现频次排序。点击某一气味来源,将进入该来源的专属页面,包含以下内容:

    1.该来源的描述时间线;

    2.提及该来源的地理分布图;

    3.汇总描述该来源最常用特征的词云;

    4.该来源所有文本和视觉呈现的概况。

    使用精密搜索环境

    在开放式搜索环境中,访客可选择检索文本、图像,或同时检索两者。用户可以搜索“incense(香)”一词(结果将以英语内容为主),也可以搜索“玫瑰”类别(结果将涵盖探索器收录的其他六种语言的相关内容)。搜索范围可进一步按语言、收藏机构、地点(气味被提及的场景)、时间(年份、时期或季节)或情绪等类别缩小。

    探索器以卡片或文本片段形式展示搜索结果。每份“气味见证报告”(无论是文本还是图像形式)均会呈现其原始语境:引文出处的书籍,或呈现该气味来源的绘画。通过永久链接,用户可以跳转至收藏该资源的原始数字遗产收藏库。


    (5)结果下载与复杂检索

    可注册成会员,将搜索结果保存到个人气味图书馆并导出。此外,作为探索器“数据核心”的欧洲嗅觉知识图谱,可通过SPARQL查询端点进行查询。Odeuropa在知识图谱中纳入的词汇表和分类法概述,可为开展风味分析类查询提供切入点。通过运用这些数据集,用户可以提出诸如“在Flavornet数据库的‘气味’列或德拉夫涅克斯146种气味描述词中,能找到哪些与气味特质描述相符的内容?”“山羊的气味在林奈分类法中更常被描述为辛酸味,还是在德拉夫涅克斯描述词中更常被定义为酸败味?”等问题。


    (6)数据计算

    Odeuropa团队开发了交互式“气味笔记”(Nosebooks),让气味分析变得更加简便。例如,这些气味笔记可生成包含某一特定气味来源相关所有引文的电子表格,列有:气味词汇、气味来源、特质、地点、感知者、时间、影响、前一句、原句、后一句、年份。用户还可以查看这些词汇随时间变化的n元语法使用相对频次可视化图表。此外,用户也可以从个人文本或图像中提取气味信息。

    网址:https://odeuropa.eu/nosebooks/ 


    2.Encyclopedia of Smell History and Heritage

    嗅觉历史与遗产百科全书

    “嗅觉历史与遗产百科全书”是一款在线参考工具,汇集了关于嗅觉作为一种文化现象的学术与创意领域专业知识。该百科全书呈现了气味与嗅觉在人类文化遗产及历史中所扮演的广泛角色相关知识。其中精心编撰的关于气味、气味场景、嗅觉主体、嗅觉感受及相关实践的内容,可作为探索嗅觉世界及其文化表征的切入点。条目还链接至Odeuropa Smell Explorer平台,用户可通过与过往的“嗅觉见证者”互动,进一步探索气味轨迹。

    (1)获取方式

    (2)呈现内容

    本百科全书旨在梳理、整合并推广关于气味与嗅觉在人类文化遗产及历史中广泛作用的相关知识。百科全书中的条目与主题脉络均基于“Odeuropa项目”(Odeuropa project)处理的历史文本与图像数据库。项目从这些资料中提取的气味描述可通过其“气味探索者”(Smell Explorer)应用程序查看。因此,百科全书的核心聚焦于1600年至1920年间的欧洲历史。然而,气味无国界之分,许多被视为“欧洲遗产气味”的气息源自世界其他地区,并已融入当地的历史实践之中。为此,百科全书的作者们力求以全球视野审视嗅觉历史。

    图:百科全书设计草案

    (3)知识组织

    百科全书主要包含两类资源:

    条目(Entries):由不同领域专家撰写的类似维基百科的描述性内容。每个条目均按核心类别(气味、场所、实践、感受、嗅觉主体)构建,包含可探索的文本、图像及关联数据。

    主题脉络(Storylines):即“循嗅探索”式叙事,通过一系列相互关联的主题引领读者探索嗅觉历史。在阅读过程中,用户可切入新的主题,并借助全景地图在过往的气味场景中定位自身。


    (4)面向人群

    这两类资源均面向学生、教师、学术研究者、博物馆与遗产领域从业者、香水与风味领域专家,以及所有希望深入了解过往气味的人士。同时,它们也旨在成为推动进一步研究的动力,帮助人们思考嗅觉历史所揭示的人与场所、事物之间的隐秘关联。


    (5)用户投稿

    百科全书倡导关于过往气味及其当代意义的免费开放知识传播。它并非关于嗅觉历史与遗产的完备封闭定论,而是旨在成为支持并推动该领域进一步研究的基石。


    3.Olfactory Storytelling Toolkit

    嗅觉叙事工具包

    图:《嗅觉叙事工具包:博物馆与文化遗产机构气味运用实操指南》封面

    书名: Olfactory Storytelling Toolkit: A ‘How-To’ Guide for Working with Smells in GLAMs and Heritage Institutions(嗅觉叙事工具包:博物馆与文化遗产机构气味运用实操指南)

    合著者:Sofia Collette Ehrich、Inger Leemans、Cecilia Bembibre、William Tullett、Caro Verbeek、Georgios Alexopoulos、Lizzie Marx、Victoria-Anne Michel

    Odeuropa推出的《嗅觉叙事工具包:文博机构与文化遗产机构气味运用实操指南》,专为文物保护人员、策展人、教育工作者、导游、博物馆馆长、档案管理员、图书管理员,以及所有有意在文化遗产场景中运用气味元素的人士打造。该指南是一份实用资源,为从业者在策展实践中以气味为叙事手法提供理论基础,同时提供一套完整流程方法,助力从业者将馆藏实物中的嗅觉元素转化为可与访客互动的嗅觉叙事体验。

    指南不仅分享了构建优质嗅觉叙事的技巧(以及发掘相关叙事线索的切入点),还详细阐述了嗅觉叙事的实操要点,包括:借助气味漫步活动与驻馆气味研究员发掘嗅觉相关展品及空间;在博物馆场景中呈现与散发气味的最佳实践;与调香师合作创制文化遗产主题气味;以及在文博机构环境中开展风险评估的具体方法。整份指南由Mijke Wondergem设计。

    图:《嗅觉叙事工具包》实物图

    嗅觉叙事工具包内容主要包括“嗅觉叙事策展/气味与馆藏的关联构建”“文化遗产主题气味创制”“嗅觉主题活动设计”与“风险评估”四大方面。这份可下载的实操指南配套11项实用资源,包括可填写的工作表单与操作准则,为文化遗产从业者提供了一套有力工具,帮助他们通过气味解读馆藏价值。

    图:《嗅觉叙事工具包》内容概览


    4.Odeuropa Heritage Smell Library

    遗产气味图书馆

    遗产气味图书馆是Odeuropa项目的一项倡议,旨在记录和保护具有历史意义的气味,助力具有重要文化价值的气味资源实现保存、记录与传播。馆内收藏着一系列被认定为对特定文化群体、社群及个人具有重要意义的气味。国际香水档案馆 Osmothèque负责实体气味样本的储存,并为日后研究提供样本查阅服务。遗产气味图书馆于2023年11月28日正式启用,旨在。Odeuropa并非唯一致力于遗产气味研究的项目:近年来,国际香水档案馆奥斯莫泰克、各大高校科研团队、文化遗产机构、调香师及嗅觉艺术家均已开始探索气味复原方法,尝试还原历史气味的风貌。相关案例包括“气味档案库”“寻觅消逝的芬芳”“遗产之味”等项目,以及海牙莫瑞泰斯皇家美术馆、马德里普拉多博物馆、巴黎卢浮宫等机构举办的嗅觉主题特展。

    图书馆首期馆藏包含19种由Odeuropa项目研发并分析的气味。开馆后,将由专门成立的顾问委员会对新增气味藏品的申请进行审核评议。其中12款馆藏气味样本,还将纳入Odeuropa×国际香料香精公司(IFF)联名气味套装对外展出。

    遗产气味图书馆不仅收藏历史气味的实体样本,还为每一款气味复原品提供详尽说明,阐释其背后的文化价值。国际香水档案馆Osmothèque会应申请,向访客开放气味样本体验服务;各类文化遗产机构也可将这些气味复原品用于展览展示。

    (1)研究方法

    Odeuropa项目的核心目标,是提升公众对(非物质)文化遗产的认知,并扩大其社会影响力。因此,馆内所有遗产气味藏品均需附带详细的文化历史价值说明文档。这一要求至关重要,原因如下:

    • 档案留存:Odeuropa致力于为未来的学术研究,留存具有文化意义的气味样本。

    • 资源复用:未来,美术馆、图书馆、档案馆与博物馆等文化机构(GLAMs)及其他相关方,均可合理利用这些保存完好的遗产气味资源。

    • 科普传播:帮助公众更系统地积累嗅觉知识,而非仅仅提供沉浸式的气味体验。

    上述目标的实现,需要建立一套统一的气味研发标准。目前的挑战在于,遗产气味及其研发流程尚无公认的专业术语体系。为此,Odeuropa正牵头构建相关框架体系,国际香水档案馆奥斯莫泰克也同步开展气味命名规范的研究工作。


    (2)遗产气味图书馆——首期馆藏(2023年)

    • Waterloo (滑铁卢)  

    • Beuning Room (伯宁房间)  

    • Canal (运河)  

    • Cheese (奶酪)  

    • Civet (灵猫香)  

    • Frankincense (乳香)  

    • Helene’s Gloves (海伦的手套)  

    • Hell (地狱)  

    • Liberty Smells (自由的气味)  

    • Linden Tree (椴树)  

    • Myrrh (没药)  

    • Odeuropa Olfactory Logo (欧德欧罗帕嗅觉标志)  

    • Orange/Blue (橙蓝调)  

    • Piège (陷阱)  

    • Pleasure Garden (乐游园)  

    • Pomander (香丸)  

    • Rosemary (迷迭香)  

    • Royal Car PB5 (皇家座驾PB5)  

    • Tanned Leather (鞣制皮革)

    以上内容来自Odeuropa官方网站:

    https://odeuropa.eu/

    经数字人文资讯小编翻译整理而成

    如需转载请后台私信联系

    编译丨洪冰凤

    校对丨罗斯鹏

    排版丨魏翔


    阅读原文

    跳转微信打开

    专业资讯| 法之善友(Dharmamitra):古亚洲语言翻译与数字文献学的开放工具

    2026年1月9日 08:31

    2026-01-09 08:31 湖北

    法之善友(Dharmamitra)是一个元平台(meta-platform),整合了最先进的自然语言处理(NLP)、光学字符识别(OCR)、信息检索与互文性探索等模块,旨在为研究古代亚洲语言——包括梵语、巴利语、文言文与藏文——的学者与研究者提供开放支持。

    01 项目简介

    法之善友(Dharmamitra)是一个元平台(meta-platform),整合了最先进的自然语言处理(NLP)、光学字符识别(OCR)、信息检索与互文性探索等模块,旨在为研究古代亚洲语言——包括梵语、巴利语、文言文与藏文——的学者与研究者提供开放支持。本组织下的所有代码均以宽松的开源许可协议发布,并提供以公共领域或知识共享许可方式开放的大规模数据集。

    02  法之善友(Dharmamitra)团队介绍

    现任核心成员


    Sebastian Nehrdich

    联合创办人、项目主任与首席研究员


    Kurt Keutzer
    联合创办人、战略顾问


    David Zorg Allport

    人工智能模型开发、自然语言处理研究、数据收集与准备


    Hubert Dworczyński
    高级全栈工程师


    Aminah Borg-Luck
    网站开发

    前任成员(Former Members)

    Vladimir Angirov
    梵文数据收集、项目基础设施建设


    Shivam Dewan
    产品设计师


    Jivnesh Sandhan
    梵文数据收集与梵文自然语言处理研究


    Sujeet Jaiswal
    梵文数据收集与梵文自然语言处理研究


    现任学生志愿者

    Kush Bhardwaj
    Kayshav Bhardwaj
    Devansh Ojha
    Pragun Seth
    Pranav Tandra
    Vikrant Venkatesan


    前任学生志愿者

    Frances Belleza
    Om Chandran
    Aarnav Srivastava
    Rohan Sarakinti
    Varun Rao
    Devika Gopakumar
    Miranda Zhu
    Siya Mehta
    Sanjana Srinivasan
    Sai Srinivasan
    Rhea Mehta
    Raj Mehta
    Daksh Parikh
    Laksh Patel


    03 功能介绍

    平台提供了一整套强大且完全免费的工具,专为从事佛典研究、翻译与教学的学者、译者与学生设计。这些工具基于最先进的人工智能(AI)与自然语言处理(NLP)模型,可实现高水平的翻译、语法分析、语义检索等多种研究功能。每项工具都兼具直观性与学术深度,既适合初学者,也能满足资深研究者的专业需求。用户可以浏览各个工具的页面,了解其主要特性与使用方法。

    可用工具


    a) MITRA Translate(翻译):适用于梵文、巴利语、藏语和古典汉语的神经机器翻译。

    b) MITRA Sanskrit Grammar(梵语语法分析):对梵文文本的详细语法分析。

    c) MITRA OCR(文字识别):从文献中高精度提取文本。

    d) MITRA Search(语义搜索):跨多语言文本集合的语义搜索。

    e) MITRA Deep Research(深度研究模式):一种融合上下文的先进翻译模式。

    (一)

     法之善友(Dharmamitra)翻译


    法之善友(Dharmamitra)平台上提供免费的机器翻译服务。目前,主模型结合了上下文学习与 Gemini API,以实现高质量的古典语言翻译。支持语言方向:

    梵语 → 英语

    巴利语 → 英语
    藏语 → 英语
    文言文 → 英语


    法之善友(Dharmamitra)主要以英语为目标语言,但对其他语言的支持也在不断扩展。值得注意的是,由于拥有庞大的用户基数,韩语的支持力度也较强。用户可直接上传图片,系统将自动识别图中文字并进行翻译。

    英语解释模式当目标语言设为English (Explained) 时,翻译结果会基于专用语法预处理模型,补充额外的语法解析内容。包括:

    • 分词

    • 词形还原(lemmatization)

    • 形态句法分析(morpho-syntactic analysis)

    • 结合上下文的词义注解

    独立的多对一翻译模型已开放托管于 Hugging Face平台供研究与使用。

    网址:https://huggingface.co/buddhist-nlp/gemma-2-mitra-it


    (二)

     MITRA梵语语法分析

    (MITRA Sanskrit Grammar)


    在法之善友(Dharmamitra)平台上,用户可使用基于ByT5-Sanskrit模型的梵语高级语法分析工具,该功能支持连音分割(Sandhi segmentation)、词形还原(lemmatization)与详细的形态标注(morphological annotation)。

    该模型代表了当今梵语自然语言处理(Sanskrit NLP)的最新水平,其错误率较以往模型降低约 50%,接近人类专家标注的准确度。


    主要功能

    • 连音分割(Sandhi Segmentation):自动识别并拆分复合词及连音结构。
    • 词形还原(Lemmatization):确定每个词的基本词形与词典对应条目。
    • 语法标注(Grammatical Tags):提供包括格(case)、性(gender)、数(number)、时态(tense)、语气(mood)与语态(voice)等详细形态分析。
    • 词汇候选(Lexical Candidates):展示各词可能的多重语义与解释。
    • 交互式界面(Interactive Interface):输入梵语文本后点击“grammar”按钮,即可查看完整语法标注结果。

    使用方法

    1.在法之善友(Dharmamitra)的翻译框中输入一条梵语句子。

    2.点击出现的“grammar” 按钮。

    3.系统会自动打开侧边菜单,显示包括连音分割、词形还原及语法标注在内的综合语法分析。

    4.用户可进一步探索每个词的多义项及形态细节。

    技术说明

    ByT5-Sanskrit 模型基于Oliver Hellwig所构建的数字梵语语料库进行训练,是当前最先进的梵语语法标注模型之一。

    (三)

    MITRA 光学字符识别

    (MITRA OCR)


    在法之善友(Dharmamitra)平台上,用户可使用由Gemini引擎驱动的高速OCR工具,对梵文、藏文与中文印刷体文献进行高精度文字识别与提取。


    主要功能

     支持上传最大 100MB 的 PDF 文件。
    • 自动转换为 IAST 或 Wylie 转写格式(根据语言类型自动识别)。
    • 可直接上传图片,实现截图到翻译的工作流程。
    • 与 MITRA Translate 无缝集成,实现从 OCR 到翻译的自动化处理。

    团队目前正在研发专为佛典文献优化的定制化 OCR 模型,以进一步提升识别精度与文献适应性。

    (四)

      MITRA搜索 

    ( MITRA Search) 


    MITRA Search 是一款专为佛典与古代亚洲文献研究设计的语义搜索引擎。它不同于对话式 AI(如 ChatGPT),更像是一位高度智能化的研究助理。它不仅匹配关键词,还能理解查询背后的语义与概念,从而在庞大的巴利语、梵语、藏语与中文文献库中定位相关段落与思想。

    它旨在帮助研究者发现文本之间的关联,定位传统检索方式几乎无法触及的思想线索。


    主要功能

    •  超越关键词匹配:基于意义与概念进行检索,而非单纯的文字比对。

    • 跨语言发现:可用英文查询找到梵文段落,或以藏文经句检索中文平行文。

    • 概念与思想导向:可检索抽象观念、隐喻、定义等。

    • 即时解释:快速生成每条结果的语义摘要与相关性说明。

    • 强大筛选功能:精准锁定特定语言、文献集或著作。

    • 与 DharmaNexus 集成:结果可直接跳转至 DharmaNexus 平台,进一步探索文本间的互文关系与上下文。

    三步骤使用说明

    1. 提出问题或概念:以清晰的问题或概念描述开始,例如“cetanā 的定义”或“凡夫之苦如掌中毛的比喻”。

    2. 筛选搜索范围(可选但强烈推荐):通过“Show options”菜单限定搜索语言、文献集(如巴利三藏、瑜伽行派文献)或具体著作。这一步是获得高质量结果的关键。

    3. 探索结果:MITRA 将展示相关原文段落。点击每条结果下的“Explanation”按钮,可查看由 AI 生成的摘要、上下文与该段落和查询的关联。点击右上角“expand context”可展开更多上下文内容。

    MITRA Search与传统搜索的区别

    MITRA Search 并非取代数据库搜索或本地搜索工具(如 GREP),而是提供一种全新的研究体验。它最适合与传统方法结合使用,在语义层面上扩展研究视野。

    多语种语义检索的强大能力:凭借广泛的跨语言训练语料,MITRA Search 能在不同语言间识别平行文本。例如,可用中文查询找到对应的藏文段落。通过梵文或藏文查询定位巴利语文本能快速定位巴利《经藏》与汉译《阿含经》中的对应引文——这在过去往往是极为耗时的工作。


    获取最佳搜索结果的方式

    ✅ 效果良好的查询示例
    • 定义类查询:如 “the definition of cetanā(意业的定义)”,可调出不同语种中对该术语的定义。
    • 具体概念:如 “the 37 wings of awakening(菩提分法)”,可查到经典中有关三十七道品的阐述。若想专看世亲观点,可筛选“Vasubandhu”文献。
    • 比喻与譬喻:如 “consciousness compared to a flowing river(识如流水)”,系统能找到语义上类似的段落,即使措辞不同。
    • 平行段落:输入整句或整段梵文、巴利文、藏文或中文,系统会检索出意义相近的段落。

     不适用的查询类型与改进方法
    • 宽泛的哲学性问题:如 “Summarize the sākāra/nirākara debate(概述有相与无相之争)”。
    改进方式:聚焦具体概念,如“外境显现”并限定特定学派。

    • 带历史分期的问题:如 “Early Buddhist view on ordination(早期佛教对出家的看法)”。
    改进方式:筛选“早期文献集”(如巴利《经藏》或汉译《阿含经》)后再搜索“出家的功德”。

    • 探讨思想演变的问题:如 “Development of ālayavijñāna in Yogācāra(瑜伽行派中藏识思想的发展)”。
    改进方式:分多次搜索相关概念,如“种子与藏识”、“染污与藏识”,并限定“瑜伽行派”语料。

    💡使用技巧
    • 黄金法则:使用筛选器。若不设定筛选条件,系统会在全部语料中搜索,可能掩盖高相关内容。
    • 精确匹配与语义匹配:如需查找原句,可打开“exact matches”;若要挖掘语义关联,保持关闭状态。
    • 正确使用变音符号(Diacritics):如输入“cetanā”优于“cetana”,可提高匹配精度。
    • 研究者的主动性:MITRA Search 提供可能性,而非确定答案。它为你捕捉思想关联,但真正的学术判断仍依赖你的专业理解。


    MITRA Search的学术定位

    MITRA Search 是数字人文学研究中面向佛典语料的一种跨语言语义发现工具,它不生成文本,而通过智能匹配帮助研究者在浩瀚语料中发现、比对与验证思想脉络,为经论间的互文关系、术语演化与观念传播研究提供新的方法论支持。

    (五)

      MITRA 深度研究模式

    (MITRA Deep Research)

    MITRA Deep Research 是一种高级翻译模式,通过在全语料库中执行深度语义检索,为用户提供整合研究语境的翻译体验。它不仅仅是文本的直译,而是将 MITRA Search 与 DharmaNexus 的强大功能结合,为研究者提供更全面的语义分析与文本关联信息。

    当在 MITRA Translate 中将目标语言设置为 Deep Research 时,系统将输出带有语义分析、平行语句与学术语境的综合翻译结果。

    MITRA Deep Research 尤其适合较短的输入文本。建议每次输入控制在三至四句诗偈,或一段相对完整的散文段落之内。较短的输入通常能获得更高质量的结果。


    主要功能

    • 综合翻译(Comprehensive Translation):在翻译过程中融合多语言语料库中的语义检索结果,提升文本理解深度。

    • 平行发现(Parallel Discovery):自动识别不同语言中的平行段落、对应译文与相关文本

    • 语境分析(Contextual Analysis):通过深层语义搜索,揭示概念在整个语料中的表达方式与语义分布。

    • DharmaNexus 集成(DharmaNexus Integration):提供直接跳转链接,探索跨语种的互文关系与思想对应。

    • 专题检索(Topical Queries):支持主题式查询,如“cetanā 的定义”,并提供系统化的文献证据。

    • 基于证据的结果(Evidence-Based Results):所有补充信息均源自 DharmaNexus 的大型数据库。

    • 学术引用整合(Integration of Relevant Secondary Literature):自动检索并引用相关二手文献段落,以强化研究证据。

    此模式为研究者提供了远超传统翻译的体验。它结合了潜在相关文献、跨语种平行文本与深层语义上下文,特别适合于严肃的学术翻译、经论研究与跨文本比较工作。

    04 MITRA浏览器扩展(MITRA Browser Extensions)

    法之善友(Dharmamitra)语言工具浏览器扩展,让用户能够在任意网页上即时访问 Dharmamitra 的机器翻译、语法分析与 MITRA 深度研究(Deep Research) 功能,实现对梵语、巴利语、藏语及佛教汉语文本的无缝翻译与分析。


    主要功能

    • 即时翻译(Instant Translation):可直接将网页中选定的梵语、巴利语、藏语或佛教汉语文本翻译为英文。

    • 语法分析(Grammatical Analysis):获取所选文本的详细形态与句法分析。

    • 跨平台支持(Cross-Platform Support):适用于 Chrome 与 Firefox 浏览器。

    • 隐私保护(Privacy-Focused):无任何数据收集与跟踪,所有处理均通过 Dharmamitra API 在本地完成。

    • 便捷集成(Easy Integration):支持任意网页文本选择,包括浏览器内 PDF 文件。

    安装方式

    Chrome扩展:可 Chrome Web Store下载。
    Firefox扩展:可于Firefox Add-ons页面获取。

    使用方法

    1. 为浏览器安装 Dharmamitra 扩展程序。

    2. 在任意网页上选择梵语、巴利语、藏语或佛教汉语文本。

    3. 右键点击并选择“Translate with Dharmamitra”,或使用扩展的菜单选项,即可即时查看翻译结果与语法分析信息。


      该扩展以GNU通用公共许可证第 3.0 版(GPL v3.0) 发布,确保其持续开放源代码并永久免费使用。


    05 MITRA词典(MITRA Dictionaries)

      梵语-藏语词典(Sanskrit ↔ Tibetan)由60万对平行句(约400万词条)自动生成的梵语↔藏语双向词典,采用StarDict格式,可用于GoldenDict等兼容词典软件。词条来源于大规模平行语料对齐,旨在辅助梵藏对译研究。


    可用词典

    • MITRA sa-bo:梵语 → 藏语词典
      下载地址:mitra-dictionary-skt-tib.zip


    • MITRA bo-sa:藏语 → 梵语词典
      下载地址:mitra-dictionary-tib-skt.zip

    其他

    格式:StarDict(兼容 GoldenDict、StarDict、SDCV 等)
    解压后大小:每个方向约10GB
    许可协议:CC BY-SA 4.0
    下载位置:GitHub仓库dharmamitra-stardict-dictionaries

    主要特征

    • 从大规模平行语料中自动抽取的双语术语与短语翻译示例
    • 采用通用 StarDict 格式,兼容多种词典应用程序
    • 基于广泛语料的高覆盖率双语对应关系

    使用限制

    • 所有短语词条为自动生成,未经人工校订,不保证完全准确或覆盖全面。
    • 词边界识别算法仍有局限,部分条目可能存在错误切分。
    • 并非人工编辑词典,请谨慎使用。
    • 词典体量巨大,总计约 170 万句对生成的数百万词条。

    使用方法

    1. 从 GitHub 仓库下载所需词典文件。

    2. 解压至任意文件夹。

    3. 安装兼容 StarDict 格式的词典阅读器(如 GoldenDict、StarDict 或 SDCV)。

    4. 将词典文件所在文件夹添加至阅读器路径即可开始查词。

    兼容软件

    可与以下软件配合使用:
    • GoldenDict
    • StarDict
    • SDCV(StarDict 控制台版)
    • 其他兼容 StarDict 格式的词典程序

    适配 Apple Dictionary 的版本正在开发中,即将发布。

    梵语-中文词典(Sanskrit ↔ Chinese)梵汉双向词典目前正在编制中。

    06  法之善友(Dharmamitra)Emacs 扩展工具

    此扩展将法之善友(Dharmamitra)的翻译与语法分析功能直接集成进 Emacs 编辑环境,让用户在写作、研究与文本处理时即时调用梵语、藏语、巴利语与汉语的智能分析与翻译。

    主要功能

    • 梵语语法分析
    • 梵语、汉语、藏语、巴利语文本的英文翻译
    • 自动分词与词形还原
    • 详细语法标注与词义解析

    安装方法

    使用方法

    1. 选中要分析的文本。

    2. 按下C-c g或自定义快捷键)。

    3. 结果将显示在名为Dharmamitra Text Grammar的独立缓冲区中,内容包括:

    • 原文
    • 分词结果
    • 词形还原形式
    • 翻译(如已启用)
    • 详细语法分析

    系统要求

    • Emacs 版本 26.1 或以上
    • curl(用于 API 请求)
    • 可访问 dharmamitra.org 的网络连接

    MITRA Search for Emacs

    dharmamitra-search.el 扩展允许用户在任何缓冲区中选中任意文本,按下一个快捷键,即可通过 Dharmamitra 语义搜索 API 查询跨语言结果(梵语 · 藏语 · 汉语 · 巴利语)。

    此功能将 MITRA Search 的主要能力直接引入 Emacs,支持即时浏览 DharmaNexus 全语料库中的平行文本与语义结果。

    安装说明

    07 MITRA模型(MITRA Models)与API

    ByT5-Sanskrit是一款专为梵语自然语言处理(Sanskrit NLP)任务设计的统一型字节级语言模型(byte-level model),在分词、词形还原、形态句法标注、依存句法分析等任务上均达到当前最先进水平。

    该模型基于ByT5架构构建,能够直接处理字节序列,无需复杂的分词算法,因而在处理未见词汇或多样化输入时具有极高的鲁棒性。模型训练数据来自 Oliver Hellwig 构建的 Digital Corpus of Sanskrit (DCS),并严格遵循该语料库的注释标准。

    论文出处:One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks(发表于 EMNLP 2024)

    主要特征

    • 字节级处理(Byte-level Processing):无需复杂分词,对未登录词表现稳定。
    • 多任务学习(Multitask Capabilities):在同一模型中联合训练分词、词形还原与形态句法标注任务。
    • 顶尖性能(State-of-the-Art Performance):在多项梵语 NLP 基准测试中超越既有方法。
    • 多领域应用(Versatile Applications):可用于语言学标注、信息检索与机器翻译流程中。

    模型版本

    • 基础模型(Base Model):预训练的 ByT5-Sanskrit 模型已上线 Hugging Face。
    • 多任务模型(Multitask Model):针对联合 NLP 任务微调后的模型版本,同样可在 Hugging Face 获取。

    Python 软件包

    完整推理脚本与应用示例可在 ByT5-Sanskrit Analyzers 仓库中获取,内含多种下游任务实现与使用。


    08 DharmaNexus

    DharmaNexus 是一个多语种的古典亚洲语言文本数据库,是法之善友(Dharmamitra)平台的基础。它收录并持续扩展巴利语、梵语、汉语与藏语的海量文献,与 MITRA Search 和 MITRA Deep Research 深度集成,提供高级的模糊检索、语义检索与跨语言检索能力。它也是少数能够对大规模梵文文本集合提供检索能力的数据库之一。

    除数据库功能之外,DharmaNexus 还提供一个用于探索这些文本互文关系的网页平台,既支持单语环境,也支持多语环境。该功能及其技术基础延续并发展自 BuddhaNexus 项目,采用了现代化算法,将多语匹配与来自 Gemma 2 MITRA-E 的深度语义相似度相结合。


    快速入门

    DharmaNexus 提供一种简洁直观的方式来探索庞大的巴利语、梵语、汉语与藏语佛典文献集。


    1. 选择语言:用户从主界面选择偏好的阅读语言。

    2. 选择文本:通过可用的菜单快速定位目标文本。无论是明确知道要找的文献,还是仅进行探索式浏览,DharmaNexus 都提供便捷导航。用户可以按各文献集的类别层级浏览进入,也可以直接输入文本名称或目录编号快速跳转。对于全文与语义检索,用户也可以使用 MITRA Search,直接跳至感兴趣的具体段落。

    3. 阅读与导航:平台会在一个清爽的阅读视图中打开用户选定的文本。用户可以通过滚动浏览内容;按标准编号系统跳转到具体章节(例如 SuttaCentral 编号、Taishō 大正编号,或德格版页码编号);通过“change text”选项再次打开主菜单并切换到其他文本。

    4. 视图自定义:可在原文字体与罗马化转写之间切换阅读。


    互文关系探索的工作方式

    (How Intertextuality Exploration Works)

    DharmaNexus 帮助用户在巴利语、梵语、汉语与藏语文本的内部及相互之间发现互文联系。


    1. 查看匹配:阅读时,用户可以切换“Show Matches”开关来显示互文匹配。启用后,DharmaNexus 会在文本中高亮与数据库中其他文本相似的段落。

    高亮采用颜色编码,形成“热度图”,用来展示文本任一点位的互文密度。从冷色到暖色表示匹配的密集程度递增;高亮内的数字显示该片段的匹配条数:数字“1”表示存在一处匹配,“2”表示两处,以此类推。它能让用户快速把握全篇互文的“厚度”。

    Heat map themes in DharmaNexus(热度图主题示例)


    点击一段高亮文字后,系统会在新的列中显示与之匹配的其他文本。将鼠标悬停在某条平行段上,会同步高亮源文本中的对应片段。点击某一条具体的平行段,将在第三列打开该文本,便于并排比读。


    2. 过滤结果:可以通过以下筛选器收窄匹配范围。

    • 相似度分数(Similarity Score):控制判定为匹配所需的相似程度。100 表示逐字一致的完美匹配;分数越低,差异越大,从而展示语义相似但并非逐字对应的段落。
    • 匹配长度(Match Length):设定作为平行段的最小字符数。查找偈颂可设置较短阈值;检索散文可设置较长阈值,以确保匹配具有实质性。
    • 限定或排除(Limit or Exclude):通过包含或排除特定文献集或文本来聚焦范围。例如,可以排除所有注疏,只查看正藏内部的平行关系。


    3. 选择视图:DharmaNexus 提供多种结果呈现方式:

    • 文本视图(Text View):默认模式,在原文中直接高亮显示匹配。
    • 表格视图(Table View):将所有匹配以可排序表格展示,并可导出为电子表格。
    • 图形视图(Graph View):以直方图可视化所选文本的匹配分布,展示哪些其他文本或文献集包含最多的平行段,帮助你一眼识别最相关的关联。
    • 编号视图(Numbers View):使用标准编号系统来定位巴利与汉文文本中的匹配。

    其他说明

    • 在默认设置下,DharmaNexus 的匹配高亮是关闭的;需要手动打开相应开关才能看到匹配。
    • DharmaNexus 采用更适合阅读的默认配色方案,与 BuddhaNexus 的配色不同。可以在侧边栏菜单将主题设置为“vivid”,以恢复 BuddhaNexus 的配色风格。
    • 与 BuddhaNexus 不同,DharmaNexus 本身不再内置搜索引擎,而是依赖 MITRA Search,从而可以对整个 DharmaNexus 数据集进行精确与语义层面的检索。
    • 目前 DharmaNexus 尚未包含CBETA大藏经中的X部分;此部分将于未来版本加入。
    • 在藏文方面,未来数月内将陆续新增 rin chen gter mdzod、rNying ma rgyud ’bum、rNying ma bka’ ma 等诸多资料。


    底层数据

    巴利语(Pāli)
    • 核心三藏文本(经、律、论)来自 SuttaCentral 的 bilara-data 分段文本,这使得与 SuttaCentral 的精确链接成为可能。
    • 注疏文献(Aṭṭhakathā)、疏(Ṭīkā)与其他作品(Anya)采用 Vipassana Research Institute(VRI)发布的 Chaṭṭha Saṅgāyana 版本。
    • 完整的巴利语数据可在GitHub获取。

    梵语(Sanskrit)
    • 语料来自多个学术项目:
    – Göttingen Register of Electronic Texts in Indian Languages(GRETIL)
    – Digital Sanskrit Buddhist Canon(DSBC)
    –Muktabodha Indological Research Institute
    – SuttaCentral

      法之善友项目内还开展了独立的数据收集工作,因此梵文语料正在持续增长。项目团队正集中开发一个元数据目录,将为每一部文本提供详细的来源标注。

    汉语(Chinese)
    • 汉文语料来自中华电子佛典协会(CBETA)。
    • 完整的汉文数据可在 GitHub 获取。

    藏语(Tibetan)
    • 藏文语料来自多个来源,包括 Asian Classics Input Projects(ACIP)的藏传佛教大藏以及 Tsadra Foundation 的 Dharma Cloud。
    • 我们与 Tsadra Foundation 紧密协作,将在后续逐步加入如 rin chen gter mdzod、rNying ma rgyud ’bum、rNying ma bka’ ma 等大型文献集。
    • 完整的藏文数据可在 GitHub 获取。


    技术背景

    • 对于来自多个文本集合的梵语文本,DharmaNexus 使用 ByT5-Sanskrit 模型进行分词(详见梵语数据说明);这些文本随后被索引到MITRA Search,而后者能够访问DharmaNexus的所有数据。

    • 对于藏语,团队采用一种基于替换规则的词干提取器,该方法以Paul Hackett的《Tibetan Verb Lexicon》为基础工作。
    • 对于巴利语,我们使用略作改动的 ByT5-Sanskrit 模型来进行分词。
    • 对于汉语,团队使用 Elasticsearch 提供的标准分析器。
    • 除了基于词元的检索,DharmaNexus 还可通过 MITRA Search 在句子与段落层级使用深度语义嵌入进行检索。

    有关DharmaNexus的常见问题,参见主FAQ文档中的 DharmaNexus专章。网址:https://dharmamitra.github.io/dharmamitra-guides/faq/#mitra-search-dharmanexus


    09  数据集

    法之善友(Dharmamitra)开发并托管了多个大规模数据集,这些数据集不仅是训练本平台模型的核心资源,也为其他研究者提供了可用于文献学研究、机器翻译与语义分析的开放数据基础。


    MITRA-parallel

    MITRA-parallel 是一个面向梵语、佛教汉语与藏语的大规模句对齐平行语料库。该数据集包含 174 万对平行句,专为机器翻译与语义检索研究设计。

    出版信息(筹备中):MITRA: A Large-Scale Parallel Corpus and Multilingual Pretrained Language Model for Machine Translation and Semantic Retrieval for Pāli, Sanskrit, Buddhist Chinese, and Tibetan

    许可协议:CC BY-SA 4.0

    代码仓库:dharmamitra/mitra-parallel


    SansTib

    SansTib 是一个梵语—古典藏语平行语料库,通过自动化句级对齐构建。语料约含 31.7 万对平行句(317,000 sentence pairs),是开发双语句子嵌入模型的重要基础资源。

    出版信息:SansTib,a Sanskrit–Tibetan Parallel Corpus and Bilingual Sentence Embedding Model(LREC 2022)

    许可协议:CC BY-SA 4.0

    代码仓库:sebastian-nehrdich/sanstib


    10  相关出版

    2025

    · MITRAzheval: Using a Buddhist Chinese Language Evaluation Dataset to Assess Machine Translation and Evaluation Metrics. Sebastian Nehrdich, Avery Chen, Marcus Bingenheimer, Lu Huang, Rouying Tang, Xiang Wei, Leijie Zhu, Kurt Keutzer. Proc. 5th Intl. Conf. on NLP for Digital Humanities, Albuquerque, pp. 129–137. ACL Anthology · DOI: 10.18653/v1/2025.nlp4dh-1.12


    2024

    · Breakthroughs in Tibetan NLP & Digital Humanities. Marieke Meelen, Sebastian Nehrdich, Kurt Keutzer. Revue d’Études Tibétaines, No. 72 (July 2024, Proceedings of the IATS 2022 Panel), pp. 5–25.

    · One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks. Sebastian Nehrdich, Oliver Hellwig, Kurt Keutzer. Findings of the Association for Computational Linguistics: EMNLP 2024, Miami, pp. 13742–13751. ACL Anthology


    2023

    · Observations on the Intertextuality of Selected Abhidharma Texts Preserved in Chinese Translation. Sebastian Nehrdich. Religions, Vol. 14, No. 7, Art. 911. DOI

    · MITRAzh: An efficient, open machine translation solution for Buddhist Chinese. Sebastian Nehrdich, Marcus Bingenheimer, Justin Brody, Kurt Keutzer. Proceedings of the Joint 3rd Intl. Conf. on NLP for Digital Humanities & 8th IWCLUL, Tokyo, pp. 266–277. ACL Anthology


    2022

    · SansTib, a Sanskrit - Tibetan Parallel Corpus and Bilingual Sentence Embedding Model. Sebastian Nehrdich. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), Marseille, pp. 6728–6734. ACL Anthology


    2020

    · A Method for the Calculation of Parallel Passages for Buddhist Chinese Sources Based on Million-scale Nearest Neighbor Search. Sebastian Nehrdich. Journal of the Japanese Association for Digital Humanities (Special Issue: Buddhism and Technology), Vol. 5, No. 2, pp. 132–153. J-STAGE


    以上内容来自官方网站:

    https://dharmamitra.org/

    经数字人文资讯小编翻译整理而成

    如需转载,请后台私信联系


    编译丨魏翔

    校对丨洪冰凤

    排版丨罗斯鹏

    阅读原文

    跳转微信打开

    年终总结 | 请查收2025年数字人文资讯年度报告

    2025年12月31日 13:36

    2025-12-31 13:36 湖北

    “数字人文资讯”公众号2025年度总结报告

    截至2025年12月31日,“数字人文资讯”公众号已经发布501篇推送(其中2025年发布52篇),拥有16890粉丝量,开设了学术前沿、专业资讯、会议通知、新书推荐以及专题荐读五个栏目。

    学术前沿


    学术前沿板块转载了《“模型落地”和“语境转换”——数字技术赋能下的历史研究》《古籍数字化与传统诗学的范式革新》《古籍数字版本:概念内涵与类型扩展》《大规模文化遗产图像数据化研究》《漫步长安:数字人文时代历史城市的复原与想象》《系统综述:关于文化遗产保护中数字技术应用的现状、趋势和挑战的科学计量分析(2019-2024)》等智慧数据与文化遗产活化利用专题系列文章。

    《数字人文与文学批评的互文性表达及AI生成式诗学构建》《从数字人文到AI人文:人文研究范式的变革》《生成式人工智能驱动的哲学社会科学研究范式转型》《超越数字摇篮本:AI时代出版物创新的基本要求与技术逻辑》《超越文本中心主义:多模态技术驱动下的中文数字人文转型》等文章聚焦于AI驱动的范式革新与前沿探索,体现学科交叉特性的创新研究。

    《转型与破局:建设面向哲学社会科学的数智学术基础设施》《专家知识数据化与文科智能》《21世纪的数字人文学科:以数字材料驱动》《数字技术赋能古典知识传播——访英国伦敦大学学院数字人文荣休教授西蒙·马奥尼》等文章重点关注了支撑人文社科研究的底层技术架构、数据资源建设和知识体系重构,进行了数字学术基础设施与数据化基础等全新探索。

    《文化遗产中气味景观的信息揭示与数字营造:概念、框架与方法》《设计、数字人文与文化遗产的信息可视化》《数字出版叙事的量化方式及应用初探》则在多模态表达与可视化叙事方向有了新的发现。

    与此同时,“数字人文资讯”进一步拓展了国际视野,聚焦领域内高质量国际期刊,选取了相关文章,并整理介绍研究主要内容。除《数字人文季刊(DHQ)》《数字人文学刊(DSH)》《文化遗产杂志(JCH)》等数字人文领域期刊以外,本年度新增了《数字研究(Digital Studies/Le champ numérique)》《国际数字人文期刊(IJDH)》系列文章的推介,体现出数字技术在文化遗产保护等跨学科领域,以及数字人文实践等相关议题中的深度应用,展示了数字人文的学科交叉特性。


    图:前沿期刊logo、封面总览(部分)

    专业资讯


    专业资讯板块介绍了多个数字人文研究中心,本年度依旧关注国内外人文社会科学实验室建设。围绕实验室资源、核心成员、典型科研项目、学术出版物成果介绍了罗格斯大学数字人文中心(Rutgers DHI),从成立背景、团队成员、核心服务、突出项目与学术出版物的角度介绍了德国图宾根大学(University of Tübingen)数字人文中心,并结合最新活动内容,从现行团队、服务内容、重要项目的角度介绍了比利时根特大学数字人文中心(GhentCDH)的最新动态。此外,该板块还介绍了谢菲尔德大学数字人文研究所(DHI),内容涵盖研究所核心服务、成员简介、技术与基础设施、出版物以及各类数字人文项目等多个方面。

    图:谢菲尔德大学数字人文研究所logo

    数字人文协会在该板块也是不可忽视的重点。基于往年的内容,今年新增对欧洲数字人文协会(The European Association for Digital Humanities)的介绍,介绍内容从协会的目标、出版物拓展到协会的关联与合作组织,此外,还涉及协会的突出项目,展现了欧洲数字人文协会作为欧洲数字人文领域汇聚者和代表者的特点

    图:欧洲数字人文协会(EADH)logo

    该板块亦详细介绍了多个数字人文项目。如:

    1


    非营利组织CyArk通过数字化技术保护和传承世界文化遗产,通过构建基于地理位置的网络平台、移动应用和沉浸式体验,让更多人与文化遗产建立深度连接。

    2


    2024年数字人文奖数据可视化项二等奖(DH Awards 2024 DH data visualization)作品第二名——见树亦见林(To See the Tree and the Forest)项目运用数字人文技术,对安东尼奥·拉莫斯·罗萨(António Ramos Rosa,1924-2013)的全部作品实施文本计算分析与可视化呈现。

    3


    南洋华人宗教遗址GIS数据库项目系统地整合、保存并开放有关东南亚及相关地区华人宗教与社会文化史迹的空间信息数据(GIS),帮助研究者直观探索、分析华人宗教网络、庙宇分布及社群活动在“南洋”这一历史地理图景中的演变与现状。

    4


    用于文化遗产数据空间的3D大数据(3D Big Data for the Data Space for Cultural Heritage)项目则整合欧洲5万余件3D模型,利用人工智能为3D文化内容构建稳定、长期且可互操作的存储解决方案。

    5


    被CVPR2025收录的视觉骨干模型vHeat则利用“热传导”的物理原理来模拟图像中语义信息的扩散与关联,为古籍文献的自动识别、版面分析,与碑刻拓片、壁画、佛像、绘画、手稿等文化遗产的数字化研究提供了智能化支撑。


    图:用于文化遗产数据空间的3D大数据(3D Big Data for the Data Space for Cultural Heritage)项目


    与此同时,“数字人文资讯”紧跟数字人文国际动向,收集并宣介了数字人文国内外资讯,包括DH Awards 2024国际数字人文奖获奖情况,2025大学生 “AI × 国学” 创新实践大赛通知,武汉大学首席数据官(CDO)高级研修班招生简章等重磅通知,为公众了解数字人文领域资讯提供了重要窗口。

    会议通知


    在会议通知方面,转载分享了:

    • “数字摇篮本:当代电子书的功能、结构与形式景观”工作坊

    •  “2025第四届东亚古籍数字人文国际论坛”“2025年数字人文全球华人博士生论坛”的会议资讯

    • “DH2026:Engagement联结”的征稿通知

    • 在中国索引学会指导下,2025中国数字人文年会以“人文智变:数字人文的智慧奇点”为主题,于12月1日在中山大学举行并圆满落幕

    新书推荐


    新书推荐板块介绍了《多语言数字人文》(Multilingual Digital Humanities)、《数字文化遗产:挑战、解决方案与未来方向》(Digital Cultural Heritage:Challenges,Solutions and Future  Directions)、《数字时代的记忆研究:跨学科视角》(Memory Studies in the Digital Age: An Interdisciplinary Perspective)、《文化遗产领域的3D研究挑战 第五册——数字化中的副数据、元数据和数据》(3D Research Challenges in Cultural Heritage V——Paradata, Metadata and Data in Digitisation)、《副数据:记录数据创建、管理和使用》(Paradata:Documenting Data Creation, Curation and Use)、《算法史学:人工智能与历史研究的未来》 (History by Algorithms: AI and the Future of Historical Research)、《二十一世纪的数字化文本编辑与出版》(Digital Editing and Publishing in the Twenty-First Century)共7部书籍。

    图:《算法史学:人工智能与历史研究的未来》封面


    其中,由施普林格卡姆出版社(Springer Cham)于2024年12月出版的文化遗产领域的3D研究挑战——第五册数字化中的副数据、元数据和数据(3D Research Challenges in Cultural Heritage V——Paradata, Metadata and Data in Digitisation)一书,作为系列丛书《计算机科学讲义》(Lecture Notes in Computer Science)的一部分,收录了一系列聚焦于文化遗产领域3D数字化技术的论文,聚焦于数字化过程记录的各个方面,即与元数据(metadata)伴随的“副数据”(paradata),对数字遗产资源的科学严谨性、可重复性和可持续性至关重要,极大地帮助了保存与传播人类历史。

    图:《文化遗产领域的3D研究挑战 第五册——数字化中的副数据、元数据和数据》书籍封面


    《二十一世纪的数字化文本编辑与出版》(Digital Editing and Publishing in the Twenty-First Century)则针对超越纸本范式、技术整合与方法论革新、可及性与受众拓展、协作模型与新型编辑角色等数字化文本编辑与出版领域的核心议题与挑战,收录了二十篇论文,内容涵盖数字编辑实践中的具体设计流程、对“生于数字环境”(born-digital)材料的多种概念性编辑方法等不同方面,通过强调学术数字版本所蕴含的洞见与知识,以及它们在创新使用中所展现的可能性,进一步凸显了数字编辑成果如何在学术界之外的多种情境中被更广泛地使用、理解与赋予意义。

    图:《二十一世纪的数字化文本编辑与出版》书籍封面

    专题荐读


    专题荐读板块包括“人工智能在古代文本、古典文学及古代文献处理中的应用”以及“手稿研究中的数据集及其研究用途”共2期内容。

    其中,人工智能在古代文本、古典文学及古代文献处理中的应用专题收获了广泛关注,该专题选取了10篇代表性外文文章,从生成式神经网络为文本提供语境,到深度模型助力修复与归属判定,从迁移学习破解小众文字翻译难题,到合成数据与深度学习攻克字符识别瓶颈……聚焦人工智能在古代文本、古典文学及古代文献处理中的创新应用,旨在促进数字技术与文化遗产保护领域的交叉融合,激发跨领域合作的新思路与实践。“手稿研究中的数据集及其研究用途”专题同样备受瞩目,在此专题内,小编通过介绍六个手稿研究工具与数据集,为学者们分享了从手稿的物理形态分析到文字识别和信息标注的多层面研究工具,有利于促进跨学科的交流与进步,为数字人文研究所提供视野前瞻与创新思路。

    在过去一年中,我们坚定脚步,专注于数字人文领域的前沿理论与实践,传播了丰富而生动的专业资讯。数字人文的兴起正在带来人文研究的范式变革,期待能够与各位同仁在新的一年里,秉承叙事精神,把握时代脉搏,延展文化图景,携手为数字人文研究注入新的活力!

    「数字人文资讯」公众号

    2025年12月31日

    主编 | 王晓光

      

    编辑 丨 罗斯鹏

    校对 丨 魏翔

    排版 丨 洪冰凤


    阅读原文

    跳转微信打开

    专题荐读 | 手稿研究中的数据集及其研究用途

    2025年12月26日 13:59

    2025-12-26 13:59 湖北

    本文介绍六个从手稿的物理形态分析到文字识别和信息标注的工具,以协助学者进行多层面的研究。

    Working with Manuscripts: A Guide for Textual Scholars中,Liv Ingeborg Lied与Brent Nongbri将手稿研究的意义放在一个远超文本校勘或版本比较的理论框架中加以阐释,明确指出手稿之所以值得研究,并不是因为它们更接近某个理想化的原文,而是因为它们本身记录了文本在现实世界中被生产、被使用和被理解的具体方式。Lied与Nongbri反复强调,手稿是一种具有物质形态的历史对象,它的纸张、书写材料、版式结构、字形变化、修订痕迹、页边批注、磨损与残缺,都不是可以被轻易忽略的附属现象,而是文本生命史的重要组成部分。正是在这些物质细节中,研究者才能看到文本如何在不同时间、地点和社会环境中被不断重塑。在手稿文化中,文本的稳定性并非默认前提,变化、差异和不一致才是常态,这种状态反映的并不是书写者的失误或技术不足,而是文本在具体实践中被灵活使用的结果。手稿所呈现的文本往往并非封闭完成的成果,而是处于持续生成之中的过程性存在,它们可能因朗读、教学、仪式使用或个人修习的需要而被调整、删减或扩展。

    研究手稿的意义在于理解知识是如何在实践中被构建的,而非简单地被复制或传递。通过手稿,研究者可以进入文本的使用史与阅读史,观察哪些段落被反复标注,哪些页面因频繁翻阅而磨损严重,哪些内容被突出强调或悄然忽略,这些现象都揭示了文本在特定群体中的功能与价值。

    因此,手稿研究迫使学者重新审视“文本”“作者”和“作品”的概念,因为在手稿文化中,文本往往并非由单一作者在单一时刻完成,而是在多重抄写、修改与再使用的过程中逐渐形成,其边界本身就是开放且可变的。正因如此,两位作者认为手稿研究不仅提供了关于过去文本实践的经验性知识,更具有方法论上的意义,它挑战了以稳定文本为中心的研究模式,促使学者承认差异、噪声与不确定性本身也是历史证据的一部分。数字化与技术手段高度发达的当下,手稿研究的重要性并未减弱,反而更加凸显,因为数字图像与编辑工具虽然扩大了可访问性,却同时可能遮蔽手稿作为物质对象的复杂性。只有在充分理解手稿的物质性与历史处境的前提下,研究者才能避免将数字再现误认为文本本身。

    故而,手稿研究视为一种能够不断提醒学者警惕抽象化与简化倾向的实践,其核心意义在于通过具体、脆弱且不稳定的物质对象,揭示文本与知识始终嵌入历史世界之中的事实。目前,多数人文学者在处理手稿时,仍然习惯于使用“一般”的OCR工具来进行初步的文字识别;如前所述,仅仅使用和依赖OCR的缺陷在于学者很容易将文本数字化误认为是再现文本,故而忽略了数字方法在手稿研究领域的深层体现。

    基于这些考量,本文将介绍六个从手稿的物理形态分析到文字识别和信息标注的工具,以协助学者进行多层面的研究。

    01


    VisColl (VCEditor):手稿作为物理的对象

    主页:https://viscoll.org/

    VisColl (VisColl,Coplation Visualization)是一个用于构建手稿物理装订结构模型并以多种方式对其进行可视化的系统。VisColl 并不以文字识别为起点,而是从手稿的物理形态入手,对写本的装订结构、折页方式与页面关系进行建模与可视化。通过对书帖(quire)、双叶(bifolium)和页序的重构,研究者得以直观理解一部手稿在制作、传抄和后期重组过程中所经历的物理变化。这种以“物”为中心的视角,使文本差异不再只是抽象的校勘结果,而是被重新置于具体的书写与装订实践之中,从而为版本关系、文本流动以及抄写行为提供了更具历史深度的解释框架。VisColl的核心是其数据模型,该模型定义了单部手稿的结构特征,并可由不同工具进行构建与可视化呈现。

    目前,VisColl数据模型的最新版本为2.0,于2021年秋季正式发布。VisColl 项目由宾夕法尼亚大学肖恩伯格手稿研究所(Schoenberg Institute for Manuscript Studies)的Dot Porter,以及比利时鲁汶天主教大学(Université catholique de Louvain)的Alberto Campagnolo共同主持,并与多伦多大学图书馆及Old Books New Science实验室合作开展。该项目的现任及前任合作者包括Lynn Ransom、Doug Emery、Patrick Perkins、Jeff Chiu、Gregor Middell和Conal Tuohy。VCEditor是一款基于VisColl数据模型2.0创建手稿结构模型及其可视化的应用软件。该软件免费向公众开放,任何人均可注册账户使用。VCEditor的源代码由宾夕法尼亚大学Kislak特藏中心托管,并发布于GitHub平台 。

    VisColl并不是一个以“上传图像并立即得到结果”为目标的即用型平台,而是一套围绕手稿物理装订结构的数据建模与再利用框架,其核心在于将传统文献学中对装订、折页与页序的描述转化为结构化、可计算的数据形式。在实际使用中,研究者首先需要根据手稿的实物或数字影像,手动构建一份装订模型数据,该模型以JSON等机器可读格式记录写本的基本物理单元,如叶片、双叶、书帖及其相互关系。这一过程并不依赖文字内容本身,而是完全建立在对写本物理形态的观察与判断之上,从而确保模型能够忠实反映手稿的制作逻辑与历史状态。

    在完成装订模型构建之后,VisColl要求研究者准备相应的图像清单,用以将模型中抽象定义的页码、叶片或折页,与实际的数字图像一一对应。这一“模型—图像”映射步骤在技术上看似简单,但在研究层面具有关键意义,因为它迫使研究者明确区分物理结构、编号系统与数字影像之间的关系,从而避免在分析过程中无意识地将现代编页方式等同于历史装订现实。通过这种方式导入材料,VisColl使图像不再只是被动的视觉证据,而是成为结构化数据的一部分,可被反复调用、对照和重组。

    基于已导入的装订模型与图像数据,VisColl提供多种可视化生成方式,将原本只能通过文字描述或脑内想象理解的装订关系转化为可视图形。这些可视化结果本身并不被视为研究终点,而是作为中介工具,用于检验装订假设、发现潜在不一致之处,或比较不同手稿之间在物理结构上的异同。由于所有可视化均直接源自同一套数据模型,研究者可以在修改模型后快速生成新的结果,从而形成一种“假设—建模—验证—修订”的循环式研究流程。

    更重要的是,VisColl所采用的数据模型具有高度的可复用性与可移植性。通过将装订信息以标准化数据形式保存,研究者不仅能够在不同项目或工具之间重复使用同一套材料,还可以将这些结构数据与其他数字人文工具或分析方法相结合,例如与版本校勘、书手分析或空间布局研究相衔接。这种以数据模型为中心的导入与使用方式,使VisColl超越了单一软件的范畴,成为一种将手稿物理形态系统性地纳入数字研究流程的方法论工具。

    从研究意义上看,VisColl在数据与材料导入层面的设计,明确强调了手稿作为物质对象的优先性,并将这一优先性内嵌于数字工作流程之中。它要求研究者在进入文字识别、内容分析或语义标注之前,先对写本的物理结构做出清晰、可追溯的判断,从而为后续一切文本层面的分析奠定坚实的文献学基础。这种以结构数据为起点的研究路径,也为跨项目比较和长期数据保存提供了可能,使手稿研究不再局限于单次解读,而能够积累为可持续利用的数字知识资源。

    02


    Dataset Card for CATMuS Modern and Contemporary (McCATMuS)

    主页:https://huggingface.co/CATMuS

    CATMuS关注的不是单个字符或行文细节,而是文本在手稿中的整体组织方式。它允许研究者标注段落划分、标题、仪式性单元、功能性区块等结构层级,从而揭示文本如何被设计为可阅读、可诵读或可执行的整体。通过强调文本结构而非字词本身,CATMuS有助于将研究重心从“文本内容是什么”转向“文本如何被组织和使用”,这一点在仪式文本、规范性文献或宗教写本的研究中尤为重要。

    CATMuS数据集旨在覆盖多种历史时期与书写传统的手稿类型,能够处理从中世纪到近现代的多样化写本材料。其中,medieval数据集主要面向中世纪手稿,涵盖拉丁文及其他历史语言的抄本,适用于研究复杂版面、多书手书写和高度异质的书写传统;modern数据集则聚焦近现代手稿与文书材料,包括行政文献、私人书信及其他近代书写形式,反映了较为稳定但在字体、书写技术和媒介上仍具差异性的文本实践。此外,medieval-segmentation数据集针对版面与行文本分割任务,适合处理多栏布局、边注、插写等中世纪写本中常见的复杂页面结构;medieval-samples则提供精选样本,用于方法验证、教学演示或小规模实验。

    此外,该数据集基于多个秉持开放科学理念的机构与研究项目所提供的数据集构建,形成了一个具备良好互操作性的综合语料库,涵盖180余部手稿,涉及8种不同语言。数据集中包含超过118,000行文本、近400万个字符,时间跨度从16世纪早期一直延续至当代。所有数据集均经过自动处理,或在必要时进行人工校正,以确保其符合CATMuS标注规范,相关指南可参见:https://catmus-guidelines.github.io/

    03


    SOFER STAM / סופר סתם

    主页:https://sofer.info/

    SOFER STAM项目旨在通过基于文本复用检测的反馈,优化机器学习和再训练流程。主要利用eScriptorium,通过机器学习技术提供手写文档的数字识别功能。eScriptorium是一款基于网页的虚拟研究环境,旨在为手稿与印刷文献的转写工作提供一个整合式的操作空间,用以管理一项完整的转写流程。从图像导入、版面分割到文字转写,各个步骤既可以通过人工方式完成,也可以借助自动化模型加以辅助,并且同样适用于印刷文本与手写文献。该平台以 Kraken作为核心的版面分割与文字识别引擎,使研究者能够在保留书写与版面复杂性的前提下,对文献进行可控的半自动或自动处理。自2019年启动以来,eScriptorium由巴黎高等实践研究院(École Pratique des Hautes Études,隶属于巴黎文理研究大学Université Paris Sciences et Lettres)的AOROC实验室团队负责开发维护,其设计初衷即是服务于手稿文化研究中对方法透明性与学术可控性的需求。

    围绕eScriptorium的使用与研究背景,已有学者对其作为手稿文化虚拟研究环境的理论与实践意义进行了系统阐述,例如Stokes、Kiessling、Stökl Ben Ezra、Tissot与Gargem在2021年发表于Classics@Journal的论文中,详细讨论了该平台在手稿研究中的定位及其方法论价值。与之配套的官方文档则旨在帮助不同阶段的使用者逐步掌握平台功能,从初学者到进阶研究者均可根据自身需求进行学习。文档首先通过“快速入门”部分引导新用户理解基本操作逻辑,作为进入更为详尽的功能讲解的入口;随后在“操作指南”中按模块系统介绍各项功能,例如数据导入、模型使用、版面预测与文字转写等关键步骤,以应对平台功能复杂、应用场景多样的实际情况。此外,文档还专设术语说明与常见问题板块,对手写文本识别相关概念及平台中特有的功能进行解释,从而为研究者在具体转写实践中建立清晰而一致的技术与方法认知。

    eScriptorium提供了一套围绕转写项目的数据管理与导入机制,使研究者能够在同一工作环境中整合图像、转写文本与识别模型,从而系统性地推进手稿或印刷文献的数字化处理。在实际使用中,研究者可以将手稿或文献图像作为项目的基础材料导入平台,这些图像既可以是单页扫描,也可以是多页文献的批量文件;在此基础上,eScriptorium允许同时导入已有的转写文本(如 TEI、PAGE-XML或其他结构化格式),从而支持从“已有转写再利用”到“从零开始标注”的多种研究路径。此外,平台还支持导入已经训练好的版面分割或文字识别模型,使用户能够直接对新材料进行自动预测,并在结果基础上进行人工校正与迭代优化。

    这种导入机制的核心特点在于其高度的灵活性与可追溯性。无论是图像、文本还是模型,所有数据都被明确关联到具体项目之中,使不同阶段的处理结果能够被保存、回溯和比较。在实践中,这意味着研究者可以在同一批材料上反复尝试不同的分割策略或识别模型,并清楚地区分哪些结果来自人工操作,哪些来自自动预测,从而保持方法上的透明度。更重要的是,eScriptorium 并不假设一种固定的工作流程,而是允许研究者根据材料类型(手写或印刷)、版面复杂度以及研究目标,自行决定在何处引入自动化、在何处保留人工判断。

    从研究角度来看,这种以“导入—预测—修正—再利用”为核心的数据使用方式,使eScriptorium不仅是一个转写工具,更是一个支持实验性与反思性研究的平台。它鼓励研究者将转写视为一个可被拆解和分析的过程,而非单一结果,从而在处理不同类型手稿时,更清楚地意识到版面结构、书写习惯与技术模型之间的相互作用。这一点对于需要面对复杂书写传统、多书手文本或非标准版面的手稿研究尤为关键。

    04


    Transkribus

    主页:https://www.transkribus.org/

    Transkribus是一个用于历史文献数字化、AI赋能的文本识别、转录与检索的综合平台。该平台在两项欧盟资助的研究项目中开发而成,自2019年7月起,由READ-COOP SCE负责维护与持续开发。通过Transkribus可以:

    •轻松转录文档(支持手动与自动两种方式);

    •训练定制化AI模型;

    •使用强大工具检索转录内容;

    •为文档添加标签注释;

    •开展协同工作;

    •将文档导出为多种格式。

    Transkribus的突出贡献在于将手稿转写转化为一种可训练、可复用的模型过程,使大规模手写文本的处理成为可能。通过构建针对特定书手或书写传统的识别模型,平台显著降低了长时段、同质性文献的转写成本,并为跨文本检索与统计分析提供了条件。然而,这种效率的提升也伴随着对书写差异与版面复杂性的压缩,因此Transkribus的价值不仅在于其技术能力本身,也在于它促使研究者反思从手稿到“可计算文本”的抽象过程所隐含的认识论前提。

    在Transkribus的工作流程中,数据集与材料的导入是整个研究过程的起点,也是其方法论设计的关键所在。研究者首先需要将手稿或印刷文献的数字影像导入平台,这些影像通常以单页扫描或摄影文件的形式组织为文档集合(collections),从而构成一个可被系统管理与分析的材料单元。Transkribus并不将影像视为孤立的输入文件,而是将其明确纳入文档结构之中,使每一页图像都与后续生成的版面信息、文本行和转写内容保持稳定关联。这种导入方式为大规模文献的系统化处理提供了基础,也使材料在不同处理阶段之间保持可追溯性。

    在影像导入之后,Transkribus允许研究者基于同一批材料逐步积累和完善转写数据,即所谓的ground truth。这些人工校正后的转写文本不仅作为研究成果的一部分存在,同时也被视为可再利用的数据资源,可直接用于训练新的手写文本识别模型。由此,材料导入不再是一次性的准备步骤,而是一个可以不断“反哺”系统的过程:同一数据集在反复使用中逐渐提高自动识别的准确度,使研究者能够在保持方法一致性的前提下扩展研究规模。

    更重要的是,Transkribus在数据导入层面隐含了一种特定的抽象逻辑。通过将原始影像转化为标准化的文本行与字符序列,平台为跨文档检索、统计分析和量化研究创造了条件,但同时也不可避免地弱化了书写差异、版面复杂性和物理特征。这种取舍并非缺陷,而是一种明确的研究立场:Transkribus的数据导入机制本质上是为“可计算文本”服务的,它假定研究者已经接受将手稿材料暂时抽象为文本数据,以换取规模化处理和比较分析的可能性。

    从研究意义上看,Transkribus通过其数据集与材料导入方式,使手稿研究第一次在技术层面真正实现了积累效应。文献不再只是被逐页阅读和个别转写的对象,而是可以在同一框架下不断扩展、复用和训练的研究数据。这一转变使历史文献研究得以进入一种介于传统细读与计算分析之间的中间状态,在保持学术可控性的同时,显著提升了处理大规模手稿材料的能力。


    05


    T-PEN

    主页:http://www.t-pen.org/TPEN/

    T-PEN并不追求高度自动化,而是强调以人为中心的转写与协作机制。通过行对齐的转写界面和在线协作功能,它为教学、工作坊以及集体标注项目提供了低门槛的实践环境。在这一平台中,转写被视为一种训练研究者阅读手稿、判断不确定性并进行学术协商的过程,而非单纯的技术步骤,从而在数字化流程中保留了传统文献学所重视的细读与讨论环节。

    T-PEN的设计初衷是使研究者能够将手稿图像与转写文本数据直接建立明确对应关系,从而在浏览、校对与生成可用文本数据的过程中保持视觉与语义的连贯性。用户在平台中首先选择或创建一个项目,然后将手稿的数字影像作为基础材料调用或上传到系统中,这些图像可能来自与T-PEN联合的数字馆藏,也可以是研究者自行获得且有权使用的图像集合,通过这种方式研究者可以直接在浏览器界面中查看具体的页面图像并围绕每一行文本开展转写工作。T-PEN过自动解析页面版面结构(如自动识别列与行)来辅助用户初步划定文本行,同时也支持用户对这些版面分割进行手动校正,确保转写文本与图像行之间的准确映射,这种行级别的图像–文本结合方式是平台在数据导入阶段的核心机制。

    在实际研究过程里,这种导入方式具有重要的学术意义。首先,它将高质量的原始图像与转写内容牢固绑定,使生成的文本不仅是抽象的字符序列,而是可回溯到具体视觉证据的研究数据,这对于古籍校勘、诠释性注释或版本比较具有基础性作用。其次,T-PEN在数据导入与解析阶段即允许对版面结构进行调整,体现了对手稿物理文本布局差异性的尊重,使得研究者在转写过程中能够处理倾斜、密集或不规则的手写文本而非被迫接受单一版式假设。最后,平台提供了多种转写数据导出格式(包括XML/纯文本、PDF、RTF等),使得标注好的文本数据能够被进一步导入到其他文本分析或发布系统中,避免了研究成果被“锁定”在某一工具之内,从而增强了数据的互操作性与长期可利用性。

    总体而言,T-PEN的数据集与材料导入设计强调的是以图像为中心的转写路径,它要求研究者在生成文本之前始终保持对视觉源材料的关注,并在此基础上生成可验证、可复用的文本数据,这不仅提升了转写质量,也为后续的语义标注、版本分析或跨项目比较奠定了坚实的数据基础。

    06


    Recogito

    主页:https://recogito.pelagios.org/

    Recogito是由Pelagios Network推动开发的开放式语义标注在线平台,用于协作式文档注释,曾荣获2019年开放出版奖(Open Publishing Awards )“最佳开源软件(Awarded Best Open Source Software)”及2018年数字人文奖(Digital Humanities Awards)“最佳数字人文工具(Best DH Tool)”奖项。Recogito为用户提供了一个个人工作区,用户可以上传、收集并整理原始资料(包括文本、图像和表格数据),并协作进行注释与解读。此外,Recogito能帮助用户更轻松地在网络上提升工作的可见度,并以开放数据的形式分享研究成果。其核心目标并非生成新的文本内容,而是将既有的文本与图像材料转化为可链接、可复用的结构化研究数据。

    Recogito的研究重点并不局限于文本本身,而是文本如何指向并构建其所处的历史世界。通过对地名、人名和事件的标注与关联,平台将文本内容嵌入到空间与语义网络之中,使研究者能够追踪地理想象、移动路径与知识传播的空间维度。尤其是在处理历史地名、模糊地点或多重指涉时,Recogito提供了一种将不确定性本身纳入分析的方式,从而推动文本研究向空间人文与历史网络分析的方向延展。

    在使用流程上,Recogito将“材料导入”视为整个研究工作的起点:研究者首先在个人或项目工作区中创建文档集合,然后将原始研究材料导入平台,这些材料既可以是纯文本文件(如历史文献、旅行记、铭文转录等),也可以是图像文件(如历史地图、手稿页面或其他视觉文献)。导入后的材料会被完整保留其原始形态,并以可视化方式呈现在浏览器界面中,为后续的人工标注提供直接的语境支持。

    在数据导入完成后,Recogito并不对文本或图像进行自动分析,而是强调由研究者主导的语义标注过程。对于文本材料,用户可以在原文中直接选取词语或段落,并将其标注为地点、人名、事件或其他自定义实体;对于图像材料,尤其是地图类文献,平台提供了点、矩形与多边形等标注工具,使研究者能够在图像中精确圈定具有语义意义的区域,并为其附加描述性信息。这种“导入即保留原貌”的设计,使 Recogito中的数据始终与其原始语境紧密相连,避免了在研究早期就对材料进行过度抽象或简化。

    Recogito在材料导入层面的一个重要特征,是其对外部知识资源的开放连接能力。研究者在导入文本并进行地名标注时,可以将文本中的地点与多个权威地名词典(gazetteers)进行关联,从而将模糊、历史性或多义的地理指称映射到可识别的空间实体。这一过程并不强制消除不确定性,相反,平台允许研究者保留歧义、标注多个可能对应或记录判断过程,使导入的数据集能够真实反映历史文本中空间指涉的复杂性。由此,材料导入不仅是数据输入,更是语义判断与历史解释开始介入的关键环节。

    从数据集构建的角度来看,Recogito将导入的材料逐步转化为一种“可扩展的数据层”。每一次标注都会生成结构化的注释数据,这些数据可以被导出为多种通用格式,如CSV、GeoJSON或RDF,用于后续的空间分析、网络分析或与其他数字人文工具的整合。由于这些结构化数据始终指向最初导入的文本或图像材料,研究者可以在不同分析阶段反复回到原始证据,对既有标注进行修订或补充,从而形成一种可持续演进的数据集,而非一次性生成的研究结果。

    在研究意义层面,Recogito的数据与材料导入机制体现了一种以“关联”为核心的数字人文方法论。它并不试图取代传统的文本解读,而是通过对材料的结构化导入,使文本中的空间、人物与事件得以被显性标注和系统整理,从而为跨文本、跨媒介的比较研究创造条件。尤其是在涉及旅行、迁徙、宗教传播或知识流动的研究中,Recogito通过其导入与标注流程,使文本不再只是线性叙述,而成为可以被放置在更大空间与语义网络中的研究对象。这种从材料导入阶段就强调可链接性与可复用性的设计,使 Recogito成为连接文本研究与空间人文的重要枢纽。


    以上内容由数字人文资讯小编翻译整理而成

    部分内容系独立撰写

    如需转载,请后台私信联系

    编译 丨 魏翔

    校对 丨 罗斯鹏

    排版 丨 洪冰凤

    阅读原文

    跳转微信打开

    学术前沿丨《数字人文学刊 (DSH)》2025年第4期论文荐读

    2025年12月19日 13:58

    2025-12-19 13:58 湖北

    本期内容选取《数字人文学刊》2025年第4期(Volume 40, Issue 4, December 2025)中的10篇论文进行介绍。

    《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2025年第4期(Volume 40, Issue 4, December 2025)中的10篇论文进行介绍。

    Research on the authorship identification of The Tale of Genji based on quantitative analysis Purchased

    基于定量分析的《源氏物语》作者身份研究

    Huimin Xu , Mingxu Zhu , Shoufeng Sun

    01

    Abstract: Numerous scholarly contributions have enriched our understanding of The Tale of Genji; however, the question of its authorship remains a subject of debate, with no definitive resolution to date. This study addresses this controversy by employing a rigorous quantitative statistical approach. We conducted a comprehensive analysis of various linguistic indicators within The Tale of Genji, encompassing aspects such as distribution of part-of-speech, function words, word length, N-Grams, and sentence-segments. These characteristic parameters were subsequently utilized to perform principal component analysis, perform non-parametric tests, calculate relative entropy, and assess relative distances. The findings of this analysis reveal a remarkable consistency in writing style between Chapters 43–54 and the preceding Chapters 1–42 of The Tale of Genji. Consequently, the quantitative statistical examination presented in this study provides robust evidence to support the conclusion that a single authorship underlies the entire text of The Tale of Genji, refuting the hypothesis of a second author.

    摘要:尽管众多学术成果极大地增进了我们对《源氏物语》的理解,但其作者归属问题至今仍存争议,未有定论。本研究采用严谨的定量统计方法,旨在回应这一争议。我们对《源氏物语》中的多项语言学指标进行了全面分析,涵盖词性分布、功能词、词长、N元语法(N-Grams)和句子片段等方面。随后,利用这些特征参数进行主成分分析、非参数检验、计算相对熵,评估相对距离。分析结果揭示,《源氏物语》第43-54章与之前第1-42章在写作风格上表现出显著的一致性。因此,本研究呈现的定量统计分析为支持《源氏物语》全文为单一作者创作的结论提供了有力证据,驳斥了存在第二作者的假说。

    Figure. Non-parametric test of part-of-speech distribution

    图.词性分布的非参数检验


    Can AI replace experts in the evaluation of cultural heritage? Based on the controlled experiments conducted on six architectural heritages Purchased

    人工智能能否取代专家进行文化遗产评估?——基于对六处建筑遗产的对照实验

    Yuchuan Wang , Yi Yang , Xueqing Tian , Tao Zhu

    02

    Abstract:This study investigates the potential of artificial intelligence (AI) to replace human experts in evaluating the conservation status of architectural heritage. Five mainstream AI models were employed to assess six architectural heritage sites in Kunming, Yunnan, China, using 18 evaluation indicators. The AI Evaluation Team (AET) and Expert Evaluation Team (EET) conducted comprehensive assessments, and the results were compared using the entropy weight method (EWM), independent sample t-tests, and kernel density estimations. The findings revealed no significant differences between the AET and EET outcomes, demonstrating that the AI’s assessment capability reached expert-level performance. Moreover, AI exhibits higher efficiency in information acquisition and work processes than human expertise. The objectivity of the AI-generated results was enhanced by the data-driven approach and the use of the EWM for indicator weighting. This study highlights the potential of AI in architectural heritage preservation, enabling the assessment of a larger number of heritage buildings within a shorter timeframe and overcoming the limitations of manual evaluation. The proposed method can be extended to assess various types of cultural heritage and predict future trends, providing a more efficient basis for heritage protection.

    摘要:本研究探讨了人工智能(AI)在评估建筑遗产保护状况时取代人类专家的潜力。研究采用了五种主流AI模型,使用18项评估指标对中国云南昆明的六处建筑遗产进行评估。AI评估团队(AET)和专家评估团队(EET)进行了全面评估,并使用熵权法(EWM)、独立样本t检验和核密度估计对结果进行比较。研究结果显示,AET与EET的评估结果无显著差异,表明AI的评估能力达到了专家水平。此外,AI在信息获取和工作流程方面比人类专家效率更高。数据驱动的方法以及使用EWM进行指标权重分配,增强了AI生成结果的客观性。本研究凸显了AI在建筑遗产保护中的潜力,能够在更短时间内评估更多遗产建筑,突破人工评估的局限性。所提出的方法可扩展应用于评估各种类型的文化遗产并预测未来趋势,为遗产保护提供更高效的依据。

    Figure. Research process

    图.研究流程


    Quantifying the faithfulness of poetry translations in four closely related Slavic languages Purchased

    量化四种密切相关的斯拉夫语诗歌翻译的忠实度

    Martina Rybová , Arthur M Jacobs , Stefan Blohm , Paul Widmer , Barbara Sonnenhauser

    03

    Abstract:Translating poetry is notoriously difficult—some would claim impossible—because it inherently requires making triage decisions what to preserve and what to sacrifice if necessary. Both form and meaning contribute to the esthetic effects of the original, but translations that faithfully preserve the metrical versification principles of the original might struggle to fully preserve lexically conveyed meanings and connotations, and vice versa. Other esthetically relevant sound-related features (e.g. phonemic patterns) are particularly challenging to preserve. This paper presents a pilot study to empirically test this intuition by assessing the faithfulness of translations to their original. Quantifying aspects of the beauty of sound and meaning, that is, the sonority and the esthetic affective potential, of selected poems and their translations in/from Russian, Polish, Czech, and Slovak, that is, a sample controlled for linguistic and cultural context, we measure the degree to which translations correspond to their originals along these dimensions. The results suggest that, for the poems and languages considered, the beauty of sound and meaning are preserved to varying degrees, which can be sensibly interpreted against specific features of the poems, linguistic distances, and cultural prestige. The study thus serves as a proof of concept that demonstrates the basic feasibility of the method applied and foreshadows its potential for advancing empirical studies in the field of comparative poetics.

    摘要:诗歌翻译以困难著称——有人甚至声称不可能——因为它本质上需要进行取舍决策:在必要时保留什么、牺牲什么。形式和意义都对原作的美学效果有所贡献,但忠实保留原作格律的翻译可能难以完全保留词汇传达的意义和内涵,反之亦然。其他与声音相关的美学特征(如音位模式)尤其难以保留。本文通过评估翻译对其原作的忠实度,对这一普遍认知进行了实证检验的试点研究。我们选取了俄语、波兰语、捷克语和斯洛伐克语的诗歌及其互译文本作为受控于语言与文化背景的样本,量化了其声音之美(即音响性)与意义之美(即审美情感潜力),并测量了翻译在这些维度上与原作的契合程度。结果表明,就所考虑的诗歌和语言而言,声音之美与意义之美在不同程度上得到了保留,这可以结合诗歌的具体特征、语言距离和文化声望进行合理解释。因此,本研究作为概念验证(proof-of-concept),证明了所应用方法的基本可行性,并预示了其在推动比较诗学领域实证研究方面的潜力。

    Figure. Jitter and violin plots of centered PCC values (y-axis) of modified translations obtained by inverting the order of two successive lines in each modified translation. Red diamonds indicate the mean.

    图.通过颠倒每个修改译文中连续两行的顺序所获得的修改译文的中心化PCC值(y轴)的抖动图与小提琴图。红色菱形表示均值。


    Application of deep learning for symbol detection on historical maps to explore spatiotemporal changes in the regional tea industry of early 20th-century Taiwan Open Access

    深度学习在历史地图符号检测中的应用——探索20世纪初台湾地区茶产业的时空变化

    Pi-Ling Pai , Chan-Yu Liu , Chiao-Ling Kuo , Ta-Chien Chan

    04

    Abstract:Focusing on the early history of the tea industry in Tamsui, Taiwan, this study uses land used data extracted from maps of the 1900s and 1920s to explore the regional characteristics and changes in the distribution of tea plantations. Map symbol detection modeling was performed using Artificial Intelligence deep learning techniques, which have been growing in the field of map research in recent years. Through the constructed symbol detection model, the land use annotation data of historical maps can be automatically retrieved for GIS-based spatiotemporal analysis. Thus, the study presents the impact of global economic panic and the failure of tea exportation in the 1920s on the local tea industry and reflects the tea plantation landscape in response strategies.

    摘要:本研究聚焦台湾淡水早期茶产业历史,利用从1900年代和1920年代地图中提取的土地利用数据,探索茶园分布的区域特征与变化。采用近年来在地图研究领域日益增长的人工智能深度学习技术进行地图符号检测建模。通过构建的符号检测模型,可以自动检索历史地图的土地利用标注数据,用于基于GIS的时空分析。因此,本研究呈现了1920年代全球经济恐慌和茶叶出口受挫对当地茶产业的影响,并反映了茶园景观在应对策略中的变化。

    Figure. (a) The eight land use symbols of the 1904 map and the 1921 map; (b) the tea plantation symbol detection results in the 1904 and 1921 maps for northern and southern Tamsui, respectively; (c) an error case of model detection symbols: tea plantation; (d) an error case of model detection symbols: cemetery.

    图. (a) 1904年地图和1921年地图的八种土地利用符号;(b) 分别为1904年和1921年地图中淡水北部和南部的茶园符号检测结果;(c) 模型检测符号的错误案例:茶园;(d) 模型检测符号的错误案例:墓地。


    Natural language processing as Digital Veda (डिजिटल वेद): a humanistic framework for language, ethics, and AI Open Access

    自然语言处理作为数字吠陀(डिजिटलवेद):一个关于语言、伦理与人工智能的人文框架

    Akshi Kumar , Saurabh Raj Sangwan

    05

    Abstract:This article conceptualizes Natural Language Processing (NLP) as the Digital Veda (डिजिटल वेद), framing it as a culturally rooted communicative infrastructure inspired by the Vedic tradition of structured knowledge preservation and ethical discourse. Drawing on India’s linguistic and philosophical heritage, it positions NLP not as a neutral tool, but as an evolving ecosystem shaped by human values, language ideologies, and socio-cultural narratives. By mapping the four Vedas to key NLP domains, Rigveda (language modelling), Yajurveda (syntax and pipelines), Samaveda (phonetics and speech), and Atharvaveda (applied AI), the study illustrates how contemporary language technologies mirror ancient systems of meaning-making. It offers a critical, decolonial lens on mainstream NLP, highlighting digital language hierarchies, the marginalization of low-resource Indian languages, and biases embedded in large language model (LLM) training data. The article further proposes a Vedic-inspired ethical AI framework, grounded in the principles of Dharma (righteous design), Ahimsa (non-harm), and Moksha (AI for truth and well-being). This interdisciplinary perspective contributes to a more inclusive, context-aware vision for language technologies, with practical applications in multilingual NLP, bias mitigation, and ethically aligned AI governance. It is particularly relevant for AI ethicists, digital humanists, NLP researchers, and policymakers committed to culturally informed, responsible innovation.

    摘要:本文将自然语言处理(NLP)概念化为数字吠陀(डिजिटलवेद),将其构建为一个植根于文化的交流基础设施,其灵感源于吠陀传统中结构化知识保存和伦理话语的理念。借鉴印度的语言和哲学遗产,本文将NLP定位为一个非中性工具,而是一个由人类价值观、语言意识形态和社会文化叙事塑造的、不断发展的生态系统。通过将四部吠陀经映射到关键的NLP领域——梨俱吠陀(语言建模)、夜柔吠陀(语法与流程)、娑摩吠陀(语音学与语音)、阿闼婆吠陀(应用型AI)——本研究阐释了当代语言技术如何映照古老的意指系统(meaning-making systems)。它为主流NLP提供了一个批判性的、去殖民化的视角,揭示了数字语言等级制度、低资源印度语言的边缘化以及嵌入在大语言模型(LLM)训练数据中的偏见。文章进一步提出了一个受吠陀启发的伦理AI框架,其基础是正法(Dharma,合乎道义的设计)、不害(Ahimsa,非伤害)和解脱(Moksha,追求真理与福祉的AI)的原则。这种跨学科视角为语言技术贡献了一个更具包容性、更注重语境的愿景,在多语言NLP、偏见缓解和符合伦理的AI治理方面具有实际应用价值。它对于致力于文化知情、负责任创新的AI伦理学家、数字人文学者、NLP研究者和政策制定者尤为重要。

    Figure 5.Hierarchical mapping of Vedic knowledge to NLP: a conceptual diagram showing how the four Vedas align with core NLP domains: speech (Rigveda → language modelling), structure (Yajurveda → syntax), sound (Samaveda → speech processing), and application (Atharvaveda → real-world AI systems).

    图5. 吠陀知识到NLP的层级映射:一个概念图,展示四部吠陀如何与核心NLP领域对齐:语音(梨俱吠陀 → 语言建模)、结构(夜柔吠陀 → 语法)、声音(娑摩吠陀 → 语音处理)、应用(阿闼婆吠陀 → 现实世界AI系统)。


    On audiences’ feelings and needs of Hero: a digital-intelligent humanities perspective Purchased

    论观众对《英雄》的感受与需求:一个数字-智能人文视角

    Yiyi Hu

    06

    Abstract:Audiences’ reviews are critical to the reception study of movies. This article takes the reviews of Hero as an example, and analyzes the reception effect from a digital-intelligent humanities perspective with transformer-based models, especially bidirectional encoder representations from transformers (BERT)-based sentiment analysis and BERTopic modeling, which are generally regarded as the state-of-the-art deep learning models. The results of sentiment analysis show that positive comments of Hero account for 74.42 per cent, while the proportion of negative comments is 25.58 per cent. Besides, the Maslow’s hierarchy of needs theory is employed to further reveal the actual feelings and needs of audiences, including physiological needs (visual and auditory needs), safety needs, social needs (discussion on plots and cultural sharing), esteem needs (themes and emotional expressions), and self-actualization needs (cultural participation, aesthetics, and knowledge extension).

    摘要:观众评论对电影的接受研究至关重要。本文以《英雄》的评论为例,从数字-智能人文视角,采用基于Transformer的模型,特别是基于双向编码器表示来自Transformer(BERT)的情感分析和BERTopic主题建模(二者通常被视为最先进的深度学习模型),分析其接受效果。情感分析结果显示,《英雄》的正面评论占74.42%,负面评论比例为25.58%。此外,研究还运用马斯洛需求层次理论进一步揭示观众的实际感受与需求,包括生理需求(视听需求)、安全需求、社交需求(情节讨论与文化分享)、尊重需求(主题与情感表达)以及自我实现需求(文化参与、审美体验与知识拓展)。

    Figure. Diagram of the research procedure

    图. 研究流程图


    Addressing TikTok’s multimodal complexity: a multi-level annotation scheme for the audio-visual design of short video content Open Access

    应对TikTok的多模态复杂性:短视频内容视听设计的多级标注方案

    Maciej Grzenkowicz , Janina Wildfeuer

    07

    Abstract:Recent years have seen a growing number of studies devoted to short video platforms, including TikTok. Due to their unprecedented popularity, the question of how meaning is produced in these videos is becoming increasingly important in terms of its social implications. However, systematic approaches to the analysis of these meanings are still scarce. In this article, we present a multi-level, multimodal annotation scheme for the genre of short videos that allows examining of both formal and functional meaning-making elements in these videos. To build this scheme on a firm theoretical and methodological basis, we first characterize the semiotic landscape of TikTok. We then proceed to explain how a combination of several approaches to the analysis of dynamic audio-visual artifacts and multimodal discourses can be useful for the study of short videos. The main part of this article presents a comprehensive annotation scheme for short videos on TikTok, focusing both on the analysis of formal audio-visual elements such as shots, visual objects, sound, and filters, as well as providing annotation categories for the description of content-based units such as events/eventualities and represented participants. We show the reliability of the scheme by testing and evaluating it on a corpus of twenty TikTok videos representing Ukrainian President Volodymyr Zelensky. We conclude the article by sketching possible future applications of the scheme in studies on larger corpora.

    摘要:近年来,关于短视频平台(包括TikTok)的研究日益增多。由于其前所未有的流行度,这些视频中的意义如何产生,在社会影响层面变得愈发重要。然而,分析这些意义的系统性方法仍然稀缺。本文提出了一种针对短视频类型的多级、多模态标注方案,可用于考察这些视频中的形式和功能意义构建元素。为了将此方案建立在坚实的理论和方法基础上,我们首先描述了TikTok的符号景观。接着,我们解释了如何结合多种动态视听制品和多模态话语分析方法来研究短视频。本文的主要部分呈现了一个针对TikTok短视频的综合标注方案,既关注对镜头、视觉对象、声音和滤镜等形式视听元素的分析,也提供了对事件/事件性(events/eventualities)和被表征参与者(represented participants)等内容单元进行描述的标注类别。我们通过在一个包含代表乌克兰总统泽连斯基(Volodymyr Zelensky)的二十个TikTok视频的语料库上测试和评估该方案,展示了其可靠性。最后,我们勾勒了该方案在更大规模语料库研究中可能的未来应用。

    Figure: Example screenshots for (a) natural adjustment (@therrmann_mom, 21 June 2023, https://www.tiktok.com/@therrmann_mom/video/7247148837897276699); (b) extended adjustment (@tldr360, 31 October 2023, https://www.tiktok.com/@tldr360/video/7295910644715392286); c) extended and cropped adjustment (@politifact, 10 September 2022, https://www.tiktok.com/@politifact/video/7141484403678678318).

    示例截图:(a) 自然调整 (@therrmann_mom, 2023年6月21日, https://www.tiktok.com/@therrmann_mom/video/7247148837897276699);(b) 扩展调整 (@tldr360, 2023年10月31日, https://www.tiktok.com/@tldr360/video/7295910644715392286);© 扩展与裁剪调整 (@politifact, 2022年9月10日, 

    https://www.tiktok.com/@politifact/video/7141484403678678318)。


    A statistical reassessment of rongorongo texts I, Gv, and T: implications for genre and content Purchased

    对朗格朗格(rongorongo)文本I、Gv和T的统计再评估:对体裁与内容的启示

    Jonas Gregorio de Souza

    08

    Abstract:The content of rongorongo texts I (Santiago Staff), Gv (verso of the Small Santiago Tablet), and T (Honolulu Tablet) has been debated, with hypotheses ranging from name lists and genealogies to cosmogonic chants. This study analyses glyph collocations in these texts, focusing on their relationship with sign 76. Segmentation of text I reveals that it can be divided into at least two segments, with the second segment sharing glyphs with short inscriptions on personal adornments, indicating the presence of personal names. Additionally, structural and content similarities between Gv and the Atua-Mata-Riri creation chant suggest a need to reassess Steven Fischer’s hypothesis for this specific text. This reassessment implies that text I may similarly contain lists of parents and offspring but including personal names. Finally, it is emphasized that categorizing these inscriptions as genealogies or cosmogonies is not contradictory, as these genres often intermingle in Polynesia.

    摘要:朗格朗格文本I(圣地亚哥杖)、Gv(小圣地亚哥板背面)和T(檀香山板)的内容一直存在争议,假说范围从姓名列表和家谱拓展到宇宙创世颂歌。本研究分析了这些文本中的字符搭配(glyph collocations),重点关注它们与字符76的关系。对文本I的分割显示,它至少可分为两个片段,其中第二个片段与个人饰品上的短铭文共享字符,表明其中包含人名。此外,Gv与《阿图阿-马塔-里里》(Atua-Mata-Riri)创世颂歌在结构和内容上的相似性,表明需要重新评估史蒂文·费舍尔(Steven Fischer)针对该特定文本的假说。这一再评估意味着文本I可能同样包含父母与后代的列表,且含有人名。最后,本文强调,将这些铭文归类为家谱或宇宙创世说并非矛盾,因为在波利尼西亚,这些体裁常常相互交融。

    Figure. Rongorongo glyphs mentioned in the text and their respective codes (as per the encoding adopted here, adapted from Horley (2021). Drawings by Horley (2021).

    图.文中提及的朗格朗格字符及其相应代码(依据此处采用的编码,改编自Horley (2021))。绘图:Horley (2021)。


    AIGC empowers the sustainable development of traditional Chinese paper-cut Purchased

    AIGC赋能中国传统剪纸的可持续发展

    Daoling Chen , Pengpeng Cheng

    09

    Abstract:This research aims to explore the application of artificial intelligence-generated content (AIGC) technology in traditional Chinese paper-cut design and promote the protection and inheritance of traditional Chinese paper-cut culture. First, the paper-cut works of paper-cut artist are analyzed to extract the characteristic factors of her design styles. Second, based on the characteristics of the paper-cut style, a dedicated dataset for model training is constructed and passed into the fine-tuning network to train and generate a Low-Rank Adaptation (LoRA) fine-tuning model with the design style characteristics of the paper-cut artists. Finally, the paper-cut LoRA model is combined with the stable diffusion model to complete the intelligent design practice of traditional paper-cut. Through experimental verification, the paper-cut model trained in this research can effectively realize the migration design of traditional paper-cut artists’ design style and improve the efficiency of paper-cut design. This research proposes a paper-cut style generation method based on AIGC, which provides a new perspective for the protection and development of paper-cut culture. This method reduces the difficulty of paper-cut design, optimizes the design process, and improves design efficiency, providing technical support for the sustainable development of paper-cut art. At the same time, it also has important significance and value for the digital inheritance and innovation of other intangible cultural heritage.

    摘要:本研究旨在探索人工智能生成内容(AIGC)技术在中国传统剪纸设计中的应用,促进中国传统剪纸文化的保护与传承。首先,分析剪纸艺术家的剪纸作品,提取其设计风格的特色因素。其次,基于剪纸风格特征,构建专用于模型训练的专用数据集,并输入微调网络进行训练,生成具有剪纸艺术家设计风格特征的低秩适应(LoRA)微调模型。最后,将剪纸LoRA模型与稳定扩散(Stable Diffusion)模型结合,完成传统剪纸的智能化设计实践。通过实验验证,本研究训练的剪纸模型能有效实现传统剪纸艺术家设计风格的迁移设计,提高剪纸设计效率。本研究提出了一种基于AIGC的剪纸风格生成方法,为剪纸文化的保护与发展提供了新视角。该方法降低了剪纸设计难度,优化了设计流程,提高了设计效率,为剪纸艺术的可持续发展提供了技术支持。同时,它对其他非物质文化遗产的数字化传承与创新也具有重要意义和价值。

    Figure. The effect of stylized paper-cut LoRA model generating images under different weights.

    图.不同权重下风格化剪纸LoRA模型生成图像的效果

    Synergizing structure and semantics: a knowledge graph-transformer framework for narrator disambiguation in hadith networks Purchased

    协同结构与语义:一个用于圣训网络中叙述者消歧的知识图谱-Transformer框架

    Mohamed Atef Mosa

    10

    Abstract:Historical transmission chains (isnads) are fundamental to verifying authenticity in Hadith literature, yet narrator identity resolution is a persistent challenge due to onomastic ambiguity and complex naming conventions. While traditional methods lack scalability and modern language models overlook crucial network structures, this study bridges the gap by synergizing structural and semantic information. We introduce a novel hybrid framework that integrates a Knowledge Graph (KG) representing the narrator network topology with a Transformer-based model for deep contextual understanding. Our approach first leverages the KG to generate a high-probability set of candidate identities, then employs a hybrid scoring model to evaluate them based on both global network prominence and local semantic compatibility. Evaluated on the AR-Sanad 280K-v2 benchmark, our method establishes a new state-of-the-art, achieving 97.8% accuracy and significantly outperforming existing baselines. This work provides a scalable, high-fidelity solution for narrator disambiguation, advancing computational methods in Hadith studies and historical identity resolution.

    摘要:历史传承链(isnads)是验证圣训(Hadith)文献真实性的基础,然而,由于命名歧义和复杂的命名惯例,叙述者身份解析一直是一个持续的挑战。传统方法缺乏可扩展性,而现代语言模型则忽略了关键的网络结构。本研究通过协同结构与语义信息弥合了这一差距。我们引入了一种新颖的混合框架,将代表叙述者网络拓扑的知识图谱(KG)与基于Transformer的深度上下文理解模型相结合。我们的方法首先利用KG生成一组高概率的候选身份,然后采用混合评分模型,基于全局网络显著性和局部语义兼容性对它们进行评估。在AR-Sanad 280K-v2基准测试上评估,我们的方法树立了新的最先进(state-of-the-art)水平,达到了97.8%的准确率,显著优于现有基线。这项工作为叙述者消歧提供了一个可扩展、高保真度的解决方案,推进了圣训研究和历史身份解析的计算方法。

    Figure. System model of the proposed framework.

    图. 所提出框架的系统模型


    以上内容来自《数字人文学刊(DSH)》官方网站:

    https://academic.oup.com/dsh/issue/40/4#2310456-8275996

    经数字人文资讯小编翻译整理而成

    如需转载,请后台私信联系

    编译 丨 洪冰凤

    校对 丨 罗斯鹏

    排版 丨 魏翔

    阅读原文

    跳转微信打开

    学术前沿 | 古籍数字版本:概念内涵与类型扩展

    2025年12月12日 08:01

    秦翠玉 等 2025-12-12 08:01 湖北

    文章探讨了由载体介质、符号形式、复制技术驱动的古籍数字版本的概念内涵,作为出版物的古籍数字版本与作为数据资源的古籍数字版本的三个层次,体现出独特特征,包括古籍数字化后的版本与古籍原生数字版本类型。

    ◎ 秦翠玉  雷珏莹  翁梦娟 王晓光*

    摘要:中华古籍版本因其载有中华文明印记,具有重要历史文化传承价值,是中华文明与历史的表征,成为透视各阶段文明发展的重要窗口。随着印刷文明逐渐步入数字文明,在古籍数字化工程的推动下,古籍版本在数智时代也经历了概念内涵与类型的扩展。文章探讨了由载体介质、符号形式、复制技术驱动的古籍数字版本的概念内涵,作为出版物的古籍数字版本与作为数据资源的古籍数字版本具有数据层、处理层、呈现层三个层次,体现出符号与载体非依附性、版本整理的开放性、版本数据的智慧化、版本阅读的交互性等特征,包括古籍数字化后的版本与古籍原生数字版本类型。进而探讨了古籍数字版本在支撑古籍版本智慧循证、促进古籍版本活化传播中的意义。

    关键词:古籍 数字版本 概念扩展 古籍版本

    中图分类号:G255.1

    中华古籍版本因其载有中华文明印记,具有重要历史文化传承价值,是中华文明与历史的表征,成为透视各阶段文明发展的重要窗口。从农业文明、工业文明到数字文明,古籍版本也在文明的变换互动中不断发展。古人云“藏之名山,传之其人”,讲的是物质书籍形态古籍版本的收藏与流传。随着古籍数字化的推进,古籍的载体由竹简、纸张转向磁、光、电、芯片等介质,古籍的呈现由书籍印本转向窗口界面为媒介的数字版本,传统古籍版本的概念内涵、类型特征相应发生了扩展。随之也出现了“数字古籍”[1]“数字版本学”[2]“数字文献学”[3]“数字人文”[4]“E考据”[5-6]等新研究领域。以窗口界面呈现的古籍数字版本创新了古籍表达方式与研究范式,并随着数智技术的发展不断呈现新的特征。

    一、古籍数字版本概念扩展的驱动

    (一)载体介质的演变

    古籍版本是载体介质与内容符号的结合体,体现了物质性与文本性的结合。在文明的传承中,物质性的载体与抽象性的内容符号同等重要,通过这些载体在组织化与制度化机制中的物性运作与互动,古籍所蕴含的历史与文化得以在当代社会中固定、传续与延展。从人类出版发展的整体脉络来看,出版载体介质从依赖自然材料的实物形态逐步演变为以数字编码为核心的技术载体,实现了信息记录与跨空间传播的提升。在人类早期的文明中,各类硬质介质如陶片、泥板、甲骨、青铜器、竹简、木牍等被广泛用于记录信息。[7]诸如《论语》《墨子》《老子》《孙子兵法》等春秋战国时期的典籍就是以竹简为载体流传于世。随着社会技术的发展,人类又探索出更便于书写、保存、传播的载体介质,如绢帛、兽皮、植物纤维纸等载体。公元105年,东汉蔡伦改进了造纸术,纸张的发明使得书籍文献能够被大规模复制,极大促进了知识的传播。20世纪80年代,计算机存储技术取得显著进展,只读光盘(Compact Disc Read-Only Memory,简称CD-ROM)等高容量存储媒介开始广泛应用,图书内容也逐渐以二进制代码形式存储于硬盘、光盘、软盘、闪存、云存储及其他计算机存储介质中,借助计算机或类似设备进行信息处理与传递,最终通过屏幕、显示器等数字界面呈现,存储介质与信息呈现界面之间的关系呈现出一种明显的分离特征。伴随着数字技术的不断演化,承载古籍版本的载体介质经历了从传统静态、固定物理实体转向具备“液态”化、动态性及“流质可塑性”[8-9]的数字介质,体现了古籍从“版”到“窗”的版本呈现界面的变革[10],古籍有了多样化的数字版本,如缩微胶卷版、光盘版、电子书、网页版等多种表现形式。

    (二)符号形式的变化

    版本研究不仅关注书籍的物质形态,更关注版本的内容构成,即文本。通常,一部作品往往存在多个版本,版本数量多于文本数量。在文本的出版传播过程中,经由不同的抄写者、编辑者或出版者可能形成多个版本。在西方校勘学中,“version”一词常指同一文本的几个变体,比如作者出于新的表达意图,对先前的作品进行细微修改,就形成一个新的“version”。由于“变本”(version)的出现[11-12],不同的版本可能已是不同的文本。

    书目记录的功能需求(Functional Requirements of Bibliographic Records,简称FRBR)模型明确了作品(work)、内容表达(expression)、载体表现(manifestation)、单件(item)之间的关系,揭示了古籍如何在不同的媒介上以多样的形式呈现。[13-14]根据FRBR模型,作品是指某一部古籍的原始文本或思想,是内容表达的基础。内容表达则是任何形式或性质的符号的独特组合,用以传达古籍内容,并以此进行识别。FRBR模型中内容表达之间的关系分为同一作品内容表达之间的关系和不同作品内容表达之间的关系,前者包括节略、修订、翻译、乐曲改编等,后者包括了作品层面的书目关系类型。[15-16]当内容表达具有显著差异会产生新的作品,如将四大名著改编为影视作品,这种影视作品与古籍原典是一种衍生关系。载体表现则涉及古籍如何在具体的物理或数字媒介中进行呈现,同一著作的版本是在此层面表现,单件则指具体的实例。对于模态不同的同种古籍,一般出现在某种古籍实体的“载体表现”及“单件”层级。[17]依据FRBR模型,任意内容表达可以通过一个或多个载体表现来具体化,一个载体表现也可以具体化为一个或多个内容表达。古籍的数字化使得古籍具有数字版本形态,对于一部古籍,其不同版本的实体经过数字化后形成了不同的数字版本,同一版本的实体经过不同的数字化技术手段处理形成了不同的数字版本。在古籍数字化产生的诸多数字版本的基础上,经过进一步的数字化编辑加工、复制传播,又形成了具有多媒体、多格式、多粒度的多模态特征的原生数字版本。

    (三)复制技术的发展

    复制技术将表意符号与载体介质深度结合,古籍数字版本也在复制技术的更新迭代中呈现出新的形态。书籍的复制大致可划分为人工抄写、手工印刷、工业印刷和数字生产四个阶段。印刷术之前的书籍复制主要依靠手抄,出现了抄写员、佣书等职业抄书活动。雕版印刷是中国古代的传统印刷技术,人们用这种方法大量刻印佛经、诗集、日历和占卜书等。咸通九年(868年)的《金刚经》是存世最早的带有明确纪年的雕版印刷品,卷首有精美的扉画,技法已相当纯熟。[18-19]随着活字印刷术的发明和普及,尤其是近代西方铅印、石印、胶印等印刷技术的引入,书籍制作所依赖的印版类型不再局限于传统的木刻雕版这一种形式,出版形式更加多样,书籍的版本及其复本复制规模随之显著增长,这一变革标志着现代书籍形式的确立与发展。数字印刷技术的出现超越了物理印版的范畴,其制版工艺与活字印刷有着本质区别,印刷所使用的文字和印版实为展现在计算机屏幕上的数字文件,数字印本得以发展成为图书版本的新类型。[20]随着信息技术的崛起,人类从工业文明走向数字文明,书籍的复制也从传统印刷转向“录入—显示”模式,书籍实现由“版”到“窗”阅读界面的转变[21],数字版本得以直接以数字形态在互联网、终端设备上复制传播。相较于印刷实体的书籍版本,数字版本摆脱了实体的限制与束缚,灵活适应“屏幕”传播,具有磁盘或光盘、网络在线、移动App等表现形式。如《国学宝典》为满足不同读者的差异化需求,提供了光盘版、U盘版、单机版、网络版等表现形式。“识典古籍”针对某一古籍数字版本提供了手机竖屏与电脑横屏两种表现形式。从书写工具、印刷设备到数字编码系统,复制工具的物质性变化引起了书籍实践活动的变化。古籍版本不再仅仅是以印刷为基础的表现形态,更关注被数字媒介所塑造的实践,体现了数字复制技术的特殊性以及在可编程、可计算介质上书籍生产与传播的新方法。

    二、古籍数字版本的概念内涵

    (一)古籍数字版本的概念梳理

    根据国家标准《古籍著录规则》,古籍主要是指“书写或印刷于1911年以前、反映中国古代文化、具有古典装订形式的书籍”。古籍版本,狭义上特指雕版印刷制作的刻本;广义上泛指通过手抄或印刷等复制方法制作而成的古代图书的各种本子,包括写本、抄本、印本等。[22]随着古籍数字化工作的开展,磁、光等介质成为古籍内容的载体材料,出现了“电子古籍”[23],“电子版”的出现拓宽了数字时代古籍版本学研究的视野。[24]构成古籍版本的符号系统、载体材料、复制工具在数字时代也出现了变动,原来以写本、刻本、抄本等形态存在的各式古籍版本,出现了数字版本,古籍版本的概念不再局限于有形之“书”,扩展到可读、可听、可计算的虚拟空间中。

    古籍数字版本的概念内涵也逐渐得到学者们的探讨,广义上的古籍数字版本既包括缩微胶卷版、扫描图像版,也包括光盘版、电子版、网络版等文本字符版本,而狭义上的古籍数字版本仅指文本字符型的古籍版本,强调其可编辑性与可检索性。[25]古籍数字化后的版本类型可分为文本型、图像型、图文型三种。[26]可以看到,以上对古籍数字版本概念的理解多从数字版本的表现形式层面进行辨析,探讨古籍版本从书籍实物形态向数字介质的转变。中国国家版本馆指出,“古今中外一切载有文明印记的各类资源,都可以称为版本”[27]。从媒介性来看,版本馆所称的“版本”突破了印刷文明中“书籍印本”的边界,延展至数字文明中的“介质形态”,是以技术形式调节人类文明的重要接口,并最终将其定性为“文明资源”[28]

    萨赫尔(Sahle)[29]将数字学术版本定义为“历史文献的批判性表征,无法在不损失信息的前提下被复制”,从这个定义中可得出数字学术版本需包含三个要素:一是历史文献;二是表征,涵盖表示和呈现;三是批判性,对历史文献没有经过批判性审视的复制行为不视为学术编辑。在此定义中,影印版不是数字学术版本。此外,皮拉佐(Pierazzo)[30]从两方面对“表征”进行了进一步的阐述,一是跨媒介化,通过数据实现表示;二是媒介化,通过媒介实现呈现。从以上定义可见,萨赫尔和皮拉佐区分了数字化版本和数字版本,前者只是对印刷版本的简单再现,不能称为真正意义上的数字版本,后者则超越了传统印刷范式的“页面”,是更具探索性的数字版本发展路径。本文参考数字学术版本的概念与FRBR模型的思想,探讨古籍数字版本的概念内涵。

    (二)古籍数字版本的两种表现形态:出版物和数据资源

    1.作为出版物的古籍数字版本

    图书版本与图书之间存在着内在的统一性,因为图书版本就是表现为具体形式的图书[31],本质上是图书在特定表现形式中的再现。古籍的数字化使得古籍具有数字版本形态,表现为具体形式的古籍数字出版物。一部古籍的不同版本的实体,或同一版本的实体经过不同的数字化技术手段处理后形成的数字古籍可视为原始古籍版本的数字版本,而这种数字版本具体以出版物形式存在。在此基础上,经过进一步地编辑、加工、复制传播,又形成了该数字版本的多种表现形式,即原生数字版本。在古籍版本制作过程中,印刷材料依赖于物理实体印版,通常采用“刻”“铸”“抄”“印”等复制印刷技术,印版一旦制成,便无法更改,体现了传统印刷的固定化与稳定性。古籍数字版本的制作省略了传统制版的过程,不像传统手抄、印刷版本那样一经制作便最终定型,而是在其整个数字化制作和传播过程中保持动态性。在数字化编辑过程中,随着新发现的文献资料、修订的文字内容、专家学者的考证以及语义标注、语义关联等处理,古籍数字版本的内容会不断进行更新和调整,如一部古籍数字化初始制作时期,仅发布了图像扫描版本与转录文字版本,随着研究的深入,会在初始数字版本基础上添加注释、白话翻译、文本对比、文字修正等,这些新增的内容借由数字界面实时呈现,体现了数字时代古籍数字版本的整理。古籍数字版本作为出版物的特征超越了传统意义上固定的、静态的最终产品,体现出实时更新与多次发布的特征。

    2.作为数据资源的古籍数字版本

    我们正步入数字文明时代,数据成为数字文明时代的第一要素。[32-33]萨赫尔[34]将数字学术版本概念特性归纳为可以脱离其特定媒介而存在的能力,体现了从作为媒介产品的版本向作为数据资源的版本的转变,本质上是对知识的抽象建模与表征。作为数据资源的古籍数字版本,除了关注书籍印本的古籍版式、装帧、载体材料等物理特征,更关注如何抽象化表示古籍文本符号、编码文本结构和意义,即建模。从编辑复制过程来看,古籍数字版本的构成包括源文件、脚本、输出、样式文件等组件。源文件包含光学字符识别(Optical Character Recognition,OCR)转录的古籍文本。目前可扩展标记语言(Extensible Markup Language,XML)、文本编码倡议(Text Encoding Initiative,TEI)是古籍文本编码的最佳实践,TEI-XML可以捕捉古籍版本的细节,如版本的变化、脚注等情境信息,其结构化标注的古籍文本可以被各种数字工具分析与处理,最终以一种可下载的XML源代码、超文本标记语言(Hyper Text Markup Language,HTML)在线等形式呈现。脚本用来读取并转换源文件,生成特定“视图”的版本呈现形式。这些脚本通常使用扩展样式表转换语言(Extensible Stylesheet Language Transformations,XSLT)或XQuery,将文本中的标记转换为可展示的格式。输出即根据目标需求呈现数字版本,样式文件用于控制古籍文本内容的显示方式,比如古籍数字版本以HTML网页形式呈现,通常由层叠样式表(Cascading Style Sheets,CSS)和JavaScript组合来实现。这意味着需要区分数据模型与发布模型,前者表示古籍数字版本资源的存储,后者是古籍数字版本的呈现。古籍数字版本可以通过多种编码方式呈现同一原始来源的不同表现形式,即同一古籍数字版本表现为多元化的输出形式。

    (三)古籍数字版本的三个层次

    当古籍数字版本基于抽象数据构建并能够以不同形式重构时,面临一个问题:古籍数字版本是否仍可归类为传统意义上的出版物,抑或应视为承载这些出版物的底层数据?在数字时代,数据与出版物之间的界限日渐模糊。数字版本的特性在于其可以根据数据源随时重新生成并呈现,一部古籍通过数字化技术转化为电子文本后,能够在不同的媒介平台上以多种形式发布,如网页、应用程序,随着沉浸式技术的发展,虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)、混合现实(Mixed Reality,MR)也成为古籍数字版本呈现的新方式。此时所呈现的古籍数字版本是基于该数据的具象化表达,而这种表现形式会随着数字介质的不同而发生变化。从这一视角出发,可以划分古籍数字版本的层次。首先是数据层。在古籍登记领出后,对古籍进行文本的精准转录、古籍图像的扫描、重要的注释和脚本的编写等,这些基础数据不仅是古籍数字版本的核心内容,也为后续编辑工作提供了可靠的原材料。其次是中间处理层。主要对古籍数据进行组织、标注等结构化与语义化处理,包括版面与图像分割,标记古籍版本的标题、章节、段落、页码等元素,以便于古籍数字文本的检索和分析;制作双层图文格式,形成图文整体对照与单句图文对照等表现形式;添加古籍版本的作者、出版者、出版时间等元数据信息,以及利用TEI-XML进行文本格式化等操作。中间层次不仅关注古籍数字版本的数据化,还要确保在最终呈现层次中的信息准确性。最后是呈现层。其是将古籍数据转化为可交付的出版物,即古籍数字版本的具体表现形式,涉及古籍数字版本的结构布局、交互功能设置、展示方式等,旨在满足读者个性化需求与提升阅读体验。如“识典古籍”针对某一古籍数字版本提供了简体字、繁体字、底本原字等多种文字模式,并适用于手机竖屏与电脑横屏等不同数字界面,体现了古籍数字版本作为数据资源在多样化载体上的多元表达形式。数字技术的发展突破了传统“刻”“铸”“抄”“印”等复制技术知识生产的局限,磁、光、电、芯片等存储介质与屏幕显示技术的出现,使得古籍从书籍印本转向数字版本。古籍数字版本是指通过数字化技术将古籍转化为数字形式,并在此基础上进行标注、修订、注释等编辑加工,存储在数字介质中并通过数字界面呈现的各种表现形式。

    三、古籍数字版本的特征与类型

    从古籍数字版本的概念内涵来看,数字技术不仅是将传统书籍印本的古籍转化为电子格式,而是在内容呈现、数据编码、交互功能等方面开辟了全新的文本表现、学术研究与大众传播的可能性,具有符号与载体的非依附性、版本整理的开放性、版本数据的智慧化、版本阅读的交互性等特征,包括古籍数字化产生的版本类型与原生古籍数字版本类型。

    (一)古籍数字版本的特征

    1.符号与载体的非依附性

    传统古籍版本依附于实体介质,其物理特性决定了内容符号与载体介质之间的强依附性关系,形式与内容高度依存。刻字在碑,便有碑文,碑文不可分;印图在纸,便成图书,图纸不可分。古籍版本的存储介质即为读者的阅读界面。古籍数字版本记录信息的存储介质与呈现内容符号的阅读界面具有非依附性,读者最终所见内容与计算机内存储的数据之间是有区别的。阿尔塞斯(Aarseth)[35]的文本中的字符串(textons)和读者所看到的字符串(scriptons)之间的区分对于理解古籍数字版本这一特征具有重要启发。与传统古籍“所见即所印”的特性不同,古籍数字版本的数据源与其呈现给读者的输出结果之间存在着区别。读者看到的是通过某种编辑加工方式处理过的古籍版本数据,并根据特定需求添加样式,形成最终符合读者需求的古籍数字版本。如国家古籍数字化工程专项经费资助项目《永乐大典》的数字版本在原书内容数字化的基础上,通过数字技术手段,提供了原本影像与数字化文本相互对照、繁简体文字随时切换等呈现形式,并支持智能标注、全文检索等功能。此外,符号与载体的非依附性使得古籍数字版本具有可触、可观、可感等特征[36],束之高阁的古籍开始走向大众。数字技术的发展使得古籍数字版本可以在多种载体介质中呈现,以电子书、数据库、知识图谱、VR/AR/MR图书等为表现形态,实现从图文符号到音视频、虚拟现实等复合多媒体符号,从细读到远读再到具身体验的跃迁。

    2.版本整理的开放性

    古籍数字版本打破了印刷时代以纸张为载体的出版模式,重新定义了古籍整理的参与者和过程。古籍数字版本的整理不再是单一的专业活动,而是一个集体协作的成果。不同于传统的古籍整理,专家学者、普通读者都可以成为古籍数字版本的贡献者与参与者,从而实现了知识生产和再生产的社会化。例如,中华书局的古籍整理众包平台通过开放式任务发布和协作机制,已成功发布了超过4万个任务,核校文字量高达14.84亿字。《中华大藏经续编》更是在全球900多位业余审校者的参与下,仅用两年时间便完成了两轮校对与审核工作,最终校对字数接近2亿字。这种以社会化和众包为核心的编辑方式,极大提高了古籍整理的效率和质量,赋予了古籍数字版本以开放性与互动性,确保了古籍数字版本的持续更新与扩展,为古籍数字版本研究、学术协作与知识共享提供了新路径。

    3.版本数据的智慧化

    作为数据资源的古籍数字版本,能够被机器识别、处理与计算,形成数字化、数据化等多种数据形态,并可进一步发展为具有可操作性、语义关联性、情境化的、可信性的版本智慧数据。[37-38]以数据为基础的古籍数字版本不仅能够统一建模,还支持不同模态数据之间进行转换与活化。随着古籍数字版本从单纯的数字化向更加复杂的数据化与智慧化转型,衍生出如古籍语义数据、关联数据、智能数据及智慧数据等层层递进的“数据增强”过程。古籍版本资源的智慧化能够更好地支持古籍数智循证研究,如上海图书馆中文古籍联合目录及循证平台是版本智慧数据的典型案例,体现了多版本并存的特征。借鉴FRBR模型构建“作品—版本—单件”+“注释”+“分类”古籍数据模型,能够聚集同一古籍的所有版本,并利用责任者、出版地点、时代、版式、文本内容等元数据,对版本进行聚类、比对、统计和分析。

    4.版本阅读的交互性

    作为数据资源的古籍数字版本与作为出版物的古籍数字版本体现出非依附性、开放性、智慧化特征,也带来读者版本阅读体验的交互性与个性化。首先,古籍数字文本具有超文本特性,为读者提供了多样性与动态性的阅读路径,打破了传统书籍印本的线性阅读结构。不同于书籍印本的隐性链接,基于超链接的数字版本明确标识了古籍文本间的关联,允许读者点击跳转到相关联的古籍文献,从而实现了跨文本的知识探索。其次,古籍数字版本支持全文搜索、跨设备阅读、文本对比等功能,并以白话文翻译、学术注释、可视化等形式展示古籍信息,丰富读者的阅读视角。如历代古籍目录可视化分析系统以史志目录的数字版本为数据源,对其进行细粒度统计分析,采用可视化手段呈现古籍目录分类演变轨迹与各类目的典籍源流,促进了阅读的直观化并为古籍研究提供了新方法。

    更进一步,古籍数字版本能够以图文、音频,甚至3D虚拟景观等多媒体符号呈现,为读者提供阅读的沉浸式体验。如中国国家图书馆“阅见美好”小程序上线的《孟子》原文朗读版,使得读者可以随时随地收听。随着VR/AR/MR技术的发展,古籍数字版本的表现形式与阅读方式趋向沉浸式与具身化[39],如湖南岳麓书社推出的四大名著VR版本、杭州国家版本馆数字馆的版本数字展厅,以“数字版本+沉浸多媒体空间”的形式展现中华版本内涵。此外,古人在阅读古籍过程中进行圈点、批注、题跋等阅读行为,产生了注本、评本、批校本、圈点本等不同版本。古籍数字版本的阅读相应地也产生了数字阅读痕迹[40],读者基于古籍数字阅读平台进行划线、高亮等标注、添加和查看注释、分享书摘等信息行为,展现了数字时代古籍版本阅读的意义构建。

    (二)古籍数字版本的类型

    正如McCarty所言:“数字人文将实验精神带入了人文学科。”[41]这一观点同样也适用于古籍数字版本。它将实验性引入古籍文献学研究中,其本身亦作为一种实验性的产物,致力于探索新媒介中古籍文本呈现的多种可能。这种实验性超越了单纯的数字化转换,通过数字媒介的再构建与互动,开辟了文本解读的新路径,推动了学术研究方法的创新。古籍数字版本包括古籍数字化后的版本与古籍原生数字版本。古籍数字化后的版本类型指将古籍实物版本通过扫描、录入完成数字化,这类数字版本是随着文字处理器等早期数字技术的应用开始出现的,依旧是古籍书籍版本的搬运与模仿,体现为载体介质平移与符号再现。从存储介质来看,可分为离线和在线两种版本。前者也可以称为单机型版本,主要以封装型的软磁盘、移动磁盘和CD-ROM光盘等为载体介质;后者也可称为网络型版本,其载体介质通常是计算机硬盘,古籍内容通常制作为网页或直接以某种形式存储在互联网服务器上。

    古籍原生数字版本则是在古籍数字化基础上,进一步编辑加工、复制传播形成的以数字界面或窗口呈现的版本类型。这类版本应作为古籍文献的“实验室”而存在,不仅仅是古籍的数字复制与呈现,而且为古籍研究提供了新路径,使得古籍文本能够以多种方式被探索、编辑与再创作,也体现了古籍数字版本的开放性,力求挖掘书籍印本所无法承载的新功能与体验,推动古籍利用与活化传播。

    四、古籍数字版本的意义

    (一)支撑古籍版本智慧循证

    古籍数字版本具有数据层、处理层、呈现层三个层次,是同一版本资源的各种表现形式。将不同古籍版本及其数字版本汇聚融合,将为古籍版本学研究以及相关的书籍史、目录学、校勘学等研究提供更为多元、更具智慧的数据来源。古籍版本学的研究内容涉及古籍版本鉴定与古籍版本源流两个核心方面。[42]根据地域、时间将古籍数字版本进行聚类,对古籍数字版本进行时空、出版者、责任者等信息统计分析,可以发现古籍版本间的传承关系与演变模式,揭示不同版本的流传脉络和地域分布,促进古籍的版本鉴定与版本源流的研究与考证。如面向循证研究的古籍数据模型[43]、以“书目”“版本”“责任者”“地名”四种实体为基础构建的大规模古籍知识图谱[44]、将“分类”与“作品”“版本”和“单件”概念关联的《国家珍贵古籍名录》知识模型[45],均构成了古籍版本学研究中的智慧数据,助力古籍版本的智慧循证。在版本地域性研究方面,考察不同地区古籍刻印数量、类型、特色及其形成因素,亦是古籍版本学与书籍史研究的重要内容。“明代古籍版刻地理信息系统”[46]则借助地理信息系统(Geographic Information System,GIS)从时空两个维度深入分析了明代古籍版刻数据,通过可视化手段展现了明代刻书系统、刻书机构、刻书中心的地理分布与变迁,揭示了明代版刻活动的时空演进特征。

    古籍数字版本的聚类可以促进古籍校勘工作,古籍数字版本的汇聚既有助于研究人员找到同一种古籍的不同版本进行多个版本之间的对校,又可以根据人、地、时、事、物等对古籍数字文本进行关联,通过文本分析与智能推理帮助研究人员发现不同古籍版本及同种古籍各版本之间的关联关系,实现他校与理校。同时,目前也出现了诸多古籍整理与标注工具与平台支持研究人员在线标注,通过同行审核认可后可以成为古籍循证的新证据。此外,古人在古籍研究整理过程中形成的批注校勘,利用语义标注与关联技术将这些注解、注释、注疏或不同古籍版本内容上的变化差异进行展示与关联,将为古籍研究提供丰富的参考与研究视角。[47]

    (二)促进古籍版本活化传播

    古籍传承性保护不仅包括古籍文本内容与知识的保存,也涵盖了古籍印刷工艺、材料和技术的学习、延续与传播。其本质在于将古籍中承载的思想、文化、故事传递到人们的头脑之中,实现文明的代际延续。[48-49]古籍数字版本的多样化形态促进了古籍的传承与弘扬,为古籍从“小众”走向“大众”提供了新的途径。在古籍数字化版本的基础上,结合展陈交互、可视化呈现以及VR/AR/MR等数智技术,可以将版本智慧数据资源映射到读者用户对古籍版本的体验,促进古籍版本的数字化阐释与艺术化表达。[50]如上海图书馆基于家谱智慧数据设计多个展示项目,以可视化的方式从地域、姓氏、个人、时间段等多个维度生动呈现了中华民族三千年来的迁徙演变历史,并创建了触屏交互版和大屏演示版两种呈现形式,以适应多终端环境与用户交互需求。故宫博物院数字文物库提供了珍贵古籍的数字化版本,读者可以在线浏览文物图片,并获得详细的说明信息,部分项目还支持3D模型查看,增强了读者体验。除此之外,古籍数字版本也促进了“多感官体验”式的书籍装帧设计,古籍版本的装帧、制版、版式等形式特征,借由VR/AR/MR等数智技术给读者带来虚实融合的亲身体验,诸多图书馆也尝试提供版本工艺流程VR虚实融合体验、古籍修复虚拟展示等服务,促进公众对古籍物理形态与传统工艺的理解与认知,推动古籍版本在数字时代的活化利用与传承。

    五、结语

    数字版本作为古籍的一种新型表现形式,具有符号与载体的非依附性、版本整理的开放性、版本数据的智慧化、版本阅读的交互性等特征,并支持传统古籍版本学、书籍史、目录学、校勘学等文献研究的智慧循证,以及古籍版本的大众传播与文化传承。但同时也应意识到,古籍版本向数字版本转化的过程是一个知识增强、真实减弱的抽象过程,这个过程会损失一些信息。[51]当不同古籍数字版本的差异被缩减为数据格式上的差异,需要思考古籍数字版本是否真实完整地捕获了原始古籍版本的全部特征,那些数字版本所无法捕获的物理特征是否会影响读者对古籍内容的认知与理解,是否导致古籍珍贵文物与文献价值被忽略。古籍数字版本的多样性还易出现格式转换、版本兼容等问题。同时,由于软件过时、存储数字文本的介质故障、无意或恶意更改数字文本内容、数字版本传输不可靠等风险,古籍数字版本也存在易消逝性、不易长期保存等问题,这些成为当下古籍数字版本面临的挑战。当前,我们仍处于数字摇篮本时期[52],古籍数字版本的编辑、制作、生产尚处于不确定、不规范、不成熟的阶段。而随着数智技术的发展,尤其是通用大模型的突破,古籍数字版本的类型与功能有望得到进一步扩展,创造出超越书籍印本的全新形式,不仅为古籍研究提供新方法,也为古籍活化传播提供新路径。

    (作者信息:秦翠玉,武汉大学信息管理学院出版发行学博士生;雷珏莹,河南大学新闻与传播学院讲师;翁梦娟,武汉大学新闻与传播学院博士后;王晓光,武汉大学信息管理学院院长,教授、博士生导师,文化遗产智能计算教育部哲学社会科学实验室主任,武汉大学数字人文研究中心主任)

    本文系国家社会科学基金重大项目“文化遗产智慧数据资源建设与服务研究”(项目编号:21&ZD334)的阶段性研究成果。

    * 通讯作者:王晓光。

    参考文献 

    参考文献与注释

    [1][26]刘冰,李广龙.数字古籍“版本”商榷[J].河北科技图苑,2012,25(5):91-93,92.

    [2]鞠明库.古籍数字化与传统文献学[J].清华大学学报(哲学社会科学版),2011,26(5):154-158,161.

    [3]杨清虎.数字文献学的概念与问题[J].黑龙江史志,2013(13):203.

    [4]刘炜,叶鹰.数字人文的技术体系与理论结构探讨[J].中国图书馆学报,2017,43(5):32-41.

    [5]黄一农.对清代端慧皇太子永琏讳例的e考据[J].数字人文研究,2023,3(1):61-78.

    [6]张治.“e考据”与近代中西文学交流研究[J].山东社会科学,2022(5):45-54.

    [7]万安伦,王剑飞,李宜飞.出版载体视角下中外出版史分期新论[J].中国出版,2018(4):42.

    [8]BOLTER J D. Writing space:Computers,hypertext,and the remediation of print[M].London:Routledge,2001.

    [9]梁旭艳.流动性:屏读时代书籍的新特征[J].出版发行研究,2016(5):46.

    [10][21]胡易容,周野.从“版”到“窗”:数字出版阅读界面形象嬗变的符号学分析[J].编辑之友,2024(6):23,29.

    [11]金宏宇.新文学研究的版本意识[J].文艺研究,2005(12):57-62,167.

    [12]金宏宇,杭泰斌.中国现代文学版本研究的新路径[J].华中师范大学学报(人文社会科学版),2017,56(3):87.

    [13]金华.认知计算视角下文献资源书目著录研究[J].图书馆杂志,2022,41(9):47.

    [14]许磊.CNMARC数据中作品的识别与建模[J].图书馆杂志,2022,41(1):69.

    [15]金正贤,董桂存.“四书五经”书目关系的FRBR应用研究[J].古籍保护研究,2023(1):42.

    [16]高红.书目关系的综合研究[J].图书情报工作,2006(9):111.

    [17]刘沛鹞,罗卓然,魏家泽,等.多模态内容资源编目及知识表示研究[J].数字图书馆论坛,2022(11):28.

    [18]张懋学,万安伦.从早期印品遗存看雕版印刷术的起源[J].现代出版,2023(1):109.

    [19]何朝晖.以全球视角重估雕版印刷[J].文史哲,2025(3):54.

    [20]郑晓霞.中国图书版本的新类型:数字印本[J].出版与印刷,2012(3):19.

    [22]严佐之.古籍版本学概论[M].上海:华东师范大学出版社,1989:1.

    [23]毛建军.电子古籍的版本生成及其应用研究[J].图书馆学研究,2014(6):94.

    [24]杜泽逊.文献学概要[M].北京:中华书局,2001:131.

    [25]常娥,李慧芳.古籍数字版本的权威定本问题探究:以《老子·道德经》为例[J].图书馆,2021(12):108.

    [27]中国国家版本馆.努力建成赓续中华文明的“种子库”[EB/OL].(2023-09-07)[2025-07-08].http://www.zgjx.cn/2023-09/07/c_1310740338.htm.

    [28]周海晏.发掘通往数字文明的媒介性:“版本馆”中“版本”的媒介学研究[J].现代出版,2022(6):99.

    [29]SAHLE P. What is a scholarly digital edition?[M]// PIERAZZO E. Digital scholarly editing:Theories and practices.Cambridge:Open Book Publishers,2016:23.

    [30]PIERAZZO E. Digital scholarly editing:Theories,models and methods[M].London:Routledge,2016:212.

    [31]姚伯岳.中国图书版本学[M].北京:北京大学出版社,2004:10.

    [32]戎珂,黄成.掌握数字文明时代第一要素 迈向社会主义现代化强国[EB/OL].(2023-08-01)[2025-07-08].https://www.tioe.tsinghua.edu.cn/info/1111/2375.htm.

    [33]金佳丽,潘晶,张紫徽,等.AI驱动的未来图书馆范式重构与创新路径[J].中国图书馆学报,2025,51(5):67-78.

    [34]SAHLE P. Digitale Editionsformen[D].Köln:Universität zu Köln,2013:270.

    [35]AARSETH E. Cybertext:perspectives on ergodic literature[M].Norway:University of Bergen,1995:62.

    [36]李莎莎.古籍活化的现状、问题与对策初探[J].出版发行研究,2022(12):37.

    [37]曾蕾,王晓光,范炜.图档博领域的智慧数据及其在数字人文研究中的角色[J].中国图书馆学报,2018,44(1):20.

    [38]雷珏莹,王晓光.智慧数据视角下古籍数字出版的创新路径研究[J].出版发行研究,2023(8):22.

    [39]张建,于爽.具身认知理论视域下VR/AR图书阅读方式的变革[J].出版发行研究,2017(7):83.

    [40]袁桐.数字书评:概念及变迁[J].出版发行研究,2024(11):74-80.

    [41]McCARTY W. Collaborative research in the digital humanities[M]//Collaborative Research in the Digital Humanities. London:Routledge,2016:1-10.

    [42]黄永年.古籍整理概论[M].上海:上海书店出版社,2001.

    [43]夏翠娟,林海青,刘炜.面向循证实践的中文古籍数据模型研究与设计[J].中国图书馆学报,2017,43(6):16-34.

    [44]欧阳剑,梁珠芳,任树怀.大规模中国历代存世典籍知识图谱构建研究[J].图书情报工作,2021,65(5):131.

    [45]王林旭,王军,史睿,等.紬理群籍:《国家珍贵古籍名录》数字平台构建[J].中国图书馆学报,2025,51(1):10.

    [46]李明杰,杨璐嘉.基于GIS的明代古籍版刻地理信息系统的设计与实现[J].信息资源管理学报,2020,10(3):128.

    [47]王晓光,翁梦娟,侯西龙,等.古籍注疏的知识表示与语义化建模研究[J].中国图书馆学报,2023,49(3):88.

    [48]姚伯岳,周余姣,王鸷嘉.古籍传承性保护再认识[J].中国图书馆学报,2023,49(1):58-67.

    [49]周飞亚.让中华古籍真正“活起来”[N].人民日报,2022-04-30(8).

    [50]王晓光,侯西龙.面向活化利用的文化遗产智慧数据建设论纲[J].信息资源管理学报,2023,13(5):9.

    [51]夏翠娟.数字人文的理论沿革和范式转向:从“人文研究的数字方法”到“后数字时代的人文研究”[J].中国图书馆学报,2024,50(5):89.

    [52]王晓光,简华.超越数字摇篮本:AI时代出版物创新的基本要求与技术逻辑[J].出版发行研究,2025(1):29.



    阅读原文

    跳转微信打开

    新书推荐 |《二十一世纪的数字化文本编辑与出版》

    2025年12月5日 14:00

    2025-12-05 14:00 湖北

    《二十一世纪的数字化文本编辑与出版》收录了二十篇论文,内容涵盖数字编辑实践中的具体设计流程,以及对“生于数字环境”(born-digital)材料的多种概念性编辑方法。

    一、内容简介


    尽管近年来学界不断呼吁应充分发掘数字文本的潜能,但数字学术编辑与出版仍深受纸本文化与结构逻辑的限制。本书汇聚了多种视角,以呈现该领域在当前与未来的发展状况,期望推动这一讨论更进一步,并鼓励持续探索在数字时代中知识与意义的生产与传播方式。

    《二十一世纪的数字化文本编辑与出版》(Digital Editing and Publishing in the Twenty-First Century)收录了二十篇论文,内容涵盖数字编辑实践中的具体设计流程,以及对“生于数字环境”(born-digital)材料的多种概念性编辑方法。论文集同时讨论了一系列及时而重要、但常被忽视的议题,包括可访问性(accessibility)、人工智能以及“数据版本”(data edition)等。

    通过强调学术数字版本所蕴含的洞见与知识,以及它们在创新使用中所展现的可能性,本书进一步凸显了数字编辑成果如何在学术界之外的多种情境中被更广泛地使用、理解与赋予意义。

    核心议题与挑战

    (1) 超越纸本范式

    当前许多数字出版物仍延续纸本逻辑(如 PDF 电子书)。该领域强调应充分发挥数字技术的潜能,包括超文本结构、多媒体呈现、交互式界面与计算分析,以构建更开放、动态、可探索的数字学术版本。

    (2) 技术整合与方法论革新

    数字编辑与出版正在逐步吸纳多种关键技术和标准,包括:

    • TEI(Text Encoding Initiative):数字人文最广泛使用的 XML 文本标记框架,是构建数字学术版本的核心标准。

    • 人工智能与机器学习:用于辅助文本校勘、语义分析、自动分类与版本比较等任务。

    • IIIF(International Image Interoperability Framework):实现跨机构图像的比对、共享与注释,促进数字收藏的互操作性。


    (3) 可及性与受众拓展

    数字版本的目标不仅是开放获取,还包括提升可用性,让学者、学生乃至公众都能更便捷地接触与理解文本及其数据结构。

    (4) 协作模型与新型编辑角色

    当前许多项目依赖共享平台与合作机制,为学者主导的小型计划提供更可持续的出版路径。在这一过程中,编辑的角色发生扩展,包括数据管护、算法与技术的选择,以及透明度与可复现性的维护。


    二、编者简介



    James O'Sullivan(主编)

    詹姆斯・奥沙利文(James O’Sullivan)任教于科克大学学院(University College Cork)数字人文学系,现任该校英语与数字人文学院研究主任,同时担任艺术、凯尔特研究与社会科学学院研究与创新委员会成员。他担任未来人文研究所(Future Humanities Institute)董事会成员,并主持该研究所数字文化、新媒体与文化分析研究小组的工作。著有《走向数字诗学》(Towards a Digital Poetics,帕尔格雷夫・麦克米伦出版社 2019 年版),主编多部学术论文集,包括《布卢姆斯伯里数字人文学手册》(The Bloomsbury Handbook to the Digital Humanities,布卢姆斯伯里出版社 2023 年版)与《爱尔兰文学与文化中的技术》(Technology in Irish Literature and Culture,剑桥大学出版社 2023 年版)。他是 “21 世纪文献:数字时代的编辑与出版”(C21 Editions: Editing and Publishing in the Digital Age)项目的爱尔兰方首席研究员,该项目由英爱数字人文合作计划资助。

    可访问网址: https://jamesosullivan.org/


    Michael Pidd

    迈克尔・皮德(Michael Pidd)现任谢菲尔德大学(University of Sheffield)数字人文研究所(Digital Humanities Institute, DHI)所长。他在人文与遗产领域开展、管理和实施大型合作研究项目及技术研发工作,拥有近 30 年经验。期间,该研究所已作为技术合作方参与 120 余个国内外项目,合作客户超 100 家。他是 “21 世纪文献:数字时代的编辑与出版”(C21 Editions: Editing and Publishing in the Digital Age)项目的英国方首席研究员,该项目由英爱数字人文合作计划(UK-Ireland Collaboration in the Digital Humanities)资助。

    迈克尔曾担任以下项目的首席研究员:“联结莎士比亚”(Connecting Shakespeare,HEIF 资助)、“露珠计划”(Dewdrop,Jisc 资助)、“重塑地方公共图书馆”(Reinventing Local Public Libraries,HEIF 资助)及 “在线手稿库”(Manuscripts Online,Jisc 资助);同时担任 “麻醉品与早期现代性”(Intoxicants and Early Modernity,ESRC/AHRC 资助)、“语言基因”(Linguistic DNA,AHRC 资助)、“超越多元影院”(Beyond the Multiplex,AHRC 资助)及 “数字时代的生存方式”(Ways of Being in the Digital Age,ESRC 资助)等项目的联合首席研究员。他还曾担任多个项目的技术负责人,例如 “数字圆形监狱”(Digital Panopticon,AHRC 资助)。


    Sophie Whittle

    索菲・惠特尔(Sophie Whittle)是“21 世纪文献:数字时代的编辑与出版”(C21 Editions: Editing and Publishing in the Digital Age)项目的研究员,负责采用机器辅助方法开发杰弗雷・乔叟(Geoffrey Chaucer)《赎罪券贩子的开场白与故事》(Pardoner’s Prologue and Tale)的在线教学版原型。

    索菲曾讲授英语史、历史语用学、研究方法及句法学等课程模块,协调组织过多场以 “语言学课程体系中反种族主义研究为核心” 的跨学科研讨会,邀请全球学者分享其在后殖民社群语用学、语言与文化共享及人权领域的研究成果。此后,她加入英国语言学会(Linguistic Association of Great Britain)种族正义小组委员会。此外,她还担任谢菲尔德女权主义档案馆(Sheffield Feminist Archive)组织者,近期参与创建了数字档案 “封锁时期的女性”(Women in Lockdown)—— 该项目通过口述史、亲历陈述、日记条目及艺术作品投稿等形式,收录女性在新冠疫情期间的故事与经历。


    Bridgette Wessels

    布里奇特・韦塞尔(Bridgette Wessels)现任英国格拉斯哥大学(University of Glasgow)社会学与社会不平等领域教授。其研究聚焦数字技术与服务在社会文化生活中的发展与应用,具体包括公共领域、日常生活及公民生活中的数字服务与沟通实践、社会与数字不平等问题,以及远程医疗、移动通信、数字通信隐私保护等特定研究方向。

    她担任英国经济与社会研究理事会(ESRC)生产力研究所苏格兰论坛联合负责人,同时是欧洲大学联盟 CIVIS 网络 “数字技术与社会变革” 研究中心创始成员。韦塞尔教授在科研经费申请方面成果显著,曾获英国研究与创新署(UKRI)、欧盟及其他研究基金会的资助。此外,她还是 “21 世纪文献:数字时代的编辑与出版”(C21 Editions: Editing and Publishing in the Digital Age)项目的联合首席研究员,该项目由英爱数字人文合作计划(UK-Ireland Collaboration in the Digital Humanities)资助。


    Michael Kurzmeier

    迈克尔・库茨迈尔(Michael Kurzmeier)是“21 世纪文献:数字时代的编辑与出版(C21 Editions: Editing and Publishing in the Digital Age)项目的博士后研究员。其研究聚焦于技术与社会的交叉领域,由爱尔兰研究委员会(IRC)资助的博士论文《网站篡改中的政治表达》(Political Expression in Web Defacements),探究了通过黑客行为进行的政治表达,并针对这类特殊归档网络资源的检索与分析提出了新颖方法。

    库茨迈尔博士担任由奥胡斯大学牵头的 “网络档案研究网络”(Web ARChive studies network, WARCnet)研究方法工作组主席,同时是 “网络档案应用”(Engaging with Web Archives, EWA)会议的创始人之一,该会议是爱尔兰首个专门的网络档案领域会议。


    Órla Murphy

    奥拉・墨菲(Órla Murphy)现任科克大学学院(University College Cork)英语与数字人文学院院长。其在欧盟层面的国际领导及服务职务包括:人文艺术数字研究基础设施(Digital Research Infrastructure for the Arts and Humanities)国家协调员、欧盟科学技术合作组织(Cooperation in Science and Technology, CoST-EU)科学委员会国家代表兼副主席,以及欧洲研究基础设施战略论坛(European Strategy Forum on Research Infrastructures, ESFRI)社会科学与人文战略工作组国家代表。

    在爱尔兰国内,她担任爱尔兰数字知识库(Digital Repository of Ireland)董事会成员、艺术与文化教育研究知识库(The Arts and Culture in Education Research Repository)联合主席。此外,墨菲还是 “21 世纪文献:数字时代的编辑与出版”(C21 Editions: Editing and Publishing in the Digital Age)项目的联合首席研究员,该项目由英爱数字人文合作计划(UK-Ireland Collaboration in the Digital Humanities)资助。


    三、引言


    这本书关注的是一种“超越传统书籍”的未来。更确切地说,它探讨的是数字学术版本(digital scholarly editions)的未来,以及它们如何在当代被出版与阅读。

    学术版本(scholarly editions)指由专家精心整理的手稿或文献材料,通过提供批注体系(critical apparatus)——如导言、背景说明等辅助性内容——帮助读者理解作品的内容与其社会脉络。换句话说,学术版本就是文本或文献的批判性呈现(critical representation)。数字学术版本(digital scholarly editions)则是利用数字技术(如今通常指网页技术)制作与发布的学术版本。

    如果读者需要更全面的数字版本定义,这一领域已有丰富的理论与实践(Shillingsburg 1996; Price 2008; Gabler 2010; Earhart 2012; Schreibman 2013; Driscoll and Pierazzo 2016; Pierazzo 2016; Apollon, Bélisle and Régnier 2017; Boot et al. 2017; Kelly 2017; Ohge 2021)。其中最具代表性的是 Patrick Sahle 的定义:“数字学术版本是那些在理论、方法与实践上受数字范式(digital paradigm)引导的学术版本”(2016)。所谓“受数字范式引导”,意味着数字生成物和被动数字化的材料之间存在明显差别:例如,一份纸本版本的 PDF 复制品并不受数字范式引导,它只是遵循纸本范式的版本在数字形式上的替身。

    因此,本书讨论的是那些真正“数字化”的未来版本——它们是文本或文献的批判性呈现,并受数字范式引导(或者,在某些论者看来,是刻意不受数字范式引导)。

    在学术版本语境中,“critical”(批判性)一词有时含义模糊,也常伴随争议。传统上,“critical”指的是以文本真实性为核心目标的历史性版本(如古代或中古文本),试图确定文本最“正确”、最接近作者原意的形态。这类版本通常成为学界和读者的标准参照,因为它们可靠,由专家投入大量时间解决文本在传抄、翻译或各种干预过程中出现的差异。

    但如今,“critical”一词的使用范围正在扩大,它也可以指任何具备补充性材料、能够帮助读者更好理解文本的版本。为避免混淆,Frederike Neuber 建议使用“enriched”(增益版)来表达这一更广泛意义,将“critical”保留给其传统含义(Neuber 2014)。本书不会进一步进入这一术语争论。

    如前所述,本书旨在探讨数字学术版本与出版的未来,并从更宽广的视角理解学术版本——即对各种文化材料,无论时代,都进行批判性呈现的方式。学术版本、批判性版本,不论名称如何,都是已经经过专家审慎处理与诠释的可靠第一手资料,服务于研究者、学生与公众。

    如果想知道数字版本是什么样子,只需检索 The Catalogue of Digital Editions 这一优秀资源(Franzini, Terras and Mahony 2016)。撰写本书时,该目录中已收录 323 个数字版本。在资讯错乱的时代,它们的重要性前所未有。

    然而,数字版本有时似乎并未真正带来“新的东西”。尽管计算机技术具备各种潜能,许多数字版本的制作仍像是一种“工业手艺(industrial craft)”,往往“手工且定制化(manual and bespoke)”(Whittle, O’Sullivan and Pidd 2023),更像是纸本资源的“再现”(re-creations)而非“重生”(reincarnations)。数字出现之前的学术版本与近年来的数字学术版本,看似拥有几乎一致的呈现方式,深受传统书籍形式的逻辑所牵引。

    但或许本该如此——编辑本质上是精读(close reading)的实践,而优秀的编辑始终是一项精密的活动。尽管书籍(codex)形式有限,却自中世纪以来一直是高效阅读与引用的有力媒介。考虑到数字编辑与其前身之间的“真实延续性(real continuity)”(Robinson 2002),数字版本的形式如此稳定也就不足为奇了。

    然而,这种稳定至少值得被重新思考。正如 Peter Robinson 所指出,数字媒介“完全适合于将版本展现为编辑、读者、文献、文本与作品之间持续协商的过程”(2013, 127)。这种协商仍有许多课题尚待处理:原生数字版本(born-digital editions)、作为文化分析(cultural analytics)形态的数字版本、人工智能(AI)在文本编辑中的应用、阅读与注意力方式的变化、“critical”一词性质的变化,以及数字版本的出版方式等。

    用于数字编辑的方法论似乎未能跟上表达方式的变化,也未能回应当下文化中占主导地位的原生数字形式(如社交媒体与电子游戏)所急需的批判性版本。

    编辑实践同样未能跟上自然语言处理(natural language processing)与机器学习(machine learning)所提供的可能性。Katherine Bode 批评数字人文中存在“分工文化”,即收集材料、整理版本的人与进行统计或分析的人相互分离(2019)。编辑的细致工艺被视为与文化分析的机械、科学部分截然不同。然而,如果我们认为数字学术版本须“受数字范式引导”,那么真正的数字版本而非被动数字化的版本,就理应吸收机器阅读(machine reading)与计算式认识方式(computational ways of knowing)。

    此外,我们该如何出版这些全新的、基于数据驱动、原生数字化、实验性的成果?这些成果本质上“反基础设施”(anti-infrastructure),而现行出版体系又高度倚赖规范化。书名中特意包含“and publishing”,正是因为“编辑工作从根本上植根于出版”(Ohge 2021, 16)。

    这一切的关涉的重要性(stakes)远比许多人想象得高。批判性版本仍然是人文研究的核心,是我们理解过去与现在的重要方式。如果这个领域无法“实现一种能够真正呈现文本流动性(textual fluidity)与文本关系(text relations),并在学术层面可行、在计算上可处理(computationally tractable)的超文本”,那么如 Joris van Zundert 所言,我们将“几乎无法超越书籍”,并“将数字学术版本的存在意义降格为媒介形式的简单转换”(2016, 106)。这本书,正是面向“超越书籍”的未来。

    本书的内容分为五个部分:“Contexts”(语境与背景)、“Platforms and pragmatics”(平台与实践方法)、“Automation and analytics”(自动化与分析)、“Possibilities”(可能性探索)与“Projects”(项目与案例)。这些主题分类只是大致的指引,因为许多章节完全可以归入多个类别。作为跨学科的论文集,其中一些论文扎根于数字学术编辑传统,而另一些则来自其他学科视角;有些论文极为务实,源于实际编辑工作的经验,而另一些则更具前瞻性,探讨真实或想象中的可能技术。

    当然,任何书籍都存在局限。例如,本书对于编辑与版本中的数据伦理(data ethics)讨论略显不足;若能纳入更多来自全球南方(Global South)及边缘社群的声音,亦会更为丰富。

    贯穿全书的,是作者们对于数字版本与其前身之间延续性的深刻理解,以及这样的认识:关于数字版本的讨论“必须根植于过去数十年来的学术编辑(scholarly editing)论争”(Robinson 2013, 107)。这样的讨论,是数字编辑与出版在未来继续服务学术界与公众的前提。


    This book is a book that looks to a future beyond the book. To be slightly more specific, this is a book about the future of digital scholarly editions and how they are published and consumed. Scholarly editions are expert-curated versions of a manuscript or set of documentary materials which, through the provision of critical apparatus – helpful aids such as introductions or contextual notes – allow readers to engage with and better understand a work’s content and social contexts. Scholarly editions are, quite simply, the critical representation of a text or documents. Digital scholarly editions, then, are scholarly editions which have been developed and published using digital (which these days, typically means web) technologies.

    Readers hoping for a more expansive definition of digital editions are fortunate, for this is a field that has been well served by excel- lent theory and practice (Shillingsburg 1996; Price 2008; Gabler 2010; Earhart 2012; Schreibman 2013; Driscoll and Pierazzo 2016; Pierazzo 2016; Apollon, Bélisle and Régnier 2017; Boot et al. 2017; Kelly 2017; Ohge 2021). But there is perhaps no better starting point than Patrick Sahle’s definition, which reads: ‘Scholarly digital editions are scholarly editions that are guided by a digital paradigm in their theory, method and practice’ (2016). To be ‘guided by a digital paradigm’ means that there is a marked difference between that which is digital and that which has merely been digitised: a PDF-copy of a print edition, for example, is not guided by a digital paradigm, it is a digital surrogate of an edition guided by a print paradigm. This book is about the future of editions which are digital, editions which are the critical representation of a text or documents and have been guided by a digital paradigm (or, as some may argue, have intentionally not been guided by a digital paradigm).

    The term ‘critical’ in the context of scholarly editions can sometimes be ambiguous, and it is often contentious. Traditionally, ‘critical’ denotes historical – say, ancient or premodern – editions curated with a focus on textual authenticity, on determining ‘correct’ version of a text, the version most aligned with the author’s ‘intent’. Such editions usually become the standard reference for scholars and readers because they are reliable, compiled by experts who have dedicated considerable time and effort to resolving the many alter- ations that appear as texts pass through time and are repeatedly transcribed or translated or interfered with in some fashion. But the term ‘critical’ is increasingly being used in a broader sense to refer to any edition which offers supplementary materials designed to make its content more intellectually accessible. To avoid confusion, Frederike Neuber suggests that the term ‘enriched’ should be used to evoke this broader meaning, with ‘critical’ being reserved for its traditional meaning, but adding further to this particular debate is not the purpose of this book (Neuber 2014).

    This book is intended, as noted, to explore the future of digital scholarly editions and publishing, and it does so from that broader perspective that scholarly editions are critical representations of cultural materials, really any kind of cultural material from any period (but of course, much of the emphasis will be on text, because so much of our documentary disciplines and cultures are concerned with text). Scholarly editions, critical editions – whatever you want to call them – are trustworthy primary sources that have been finessed and interpreted by experts for the benefit of researchers, students and readers. If one wants an example of what a digital edition looks like, a quick web search for the wonderful digital resource called The Catalogue of Digital Editions will provide just that (Franzini, Terras and Mahony 2016). There were 323 editions listed in The Catalogue at the time of writing. And in this age of misinformation, they have never been more important.

    But it sometimes feels as though the digital edition has given us nothing new. Despite all the affordances of computers, the making of digital editions remains a largely ‘industrial craft’, often ‘manual and bespoke’ (Whittle, O’Sullivan and Pidd 2023), often web-based re- creations, rather than reincarnations, of print resources. Scholarly editions as they existed before the digital and digital scholarly editions, even those developed in recent years, often seem like almost identical modes of representation, intrinsically connected to logic of the codex. But maybe this is the way it should be, a recognition that digital schol- arly editing is, in essence, an exercise in close reading. Editing, done well, should be an intimate endeavour. And the codex format, for all its limitations, has served efficient reading and referencing since the early Middle Ages. Considering the ‘real continuity’ between digital editing and its antecedents (Robinson 2002), it is perhaps unsurprising that we have seen such stability in the forms that editions take.

    But at the very least that stability warrants problematisation, and as Peter Robinson contends, the digital ‘is perfectly adapted to enactment of editions as an ever-continuing negotiation between editors, readers, documents, texts and work’ (2013, 127). That nego- tiation still has much to reckon with: born-digital editions, digital editions as cultural analytics, the use of AI and editing, the changing nature of reading and attention, the changing nature of the word ‘critical’, the ways in which we publish the digital editions we craft.

    The methodologies with which we approach digital editing do not seem to have kept pace with the changing nature of expression, with the desperate need for critical editions of born-digital forms which dominate the contemporary cultural conversation – for example, social media and video games.

    Editorial practice has not kept pace with the affordances of Natural Language Processing and Machine Learning. Katherine Bode criticises the digital humanities for a culture of separating those who gather and edit from those who do statistics and analyse (2019). The thoughtful craft of editing is seen as something other to the mechan- ical, scientific work of cultural analytics. But if we are to view digital scholarly editions as being ‘guided by a digital paradigm’, then it stands to reason that truly digital editions, rather than digitised editions, would make use of machine reading, of computational ways of knowing.

    And how do we publish any of these new, data-driven, born-digital, experimental things that are inherently anti-infrastructure and poorly served by a publishing industry that insists on standardisation? The ‘and publishing’ part of this book’s title is quite intentional, because ‘editing is fundamentally grounded in publishing’ (Ohge 2021, 16).

    In all these matters, the stakes are higher than some might think. Critical editions remain central to arts and humanities research, to authoritative explorations and analysis of our past and present. If the field fails to ‘implement a form of hypertext that truly represents textual fluidity and text relations in a scholarly viable and compu- tational [sic] tractable manner’, then we will get, as Joris van Zundert puts it, ‘barely beyond the book’; we will ‘relegate the raison d’être for the digital scholarly edition to that of a mere medium shift’ (2016, 106), leaving us with digitised, rather than digital, editions. This book is a book that looks to a future beyond the book.

    Its contributions have been divided across five sections: ‘Contexts’, ‘Platforms and pragmatics’, ‘Automation and analytics’, ‘Possibilities’ and ‘Projects’. These thematic divisions are only intended to serve as the faintest of guides through the collection, as many of the chapters could easily have been situated under a few if not all these categories. It is an inherently interdisciplinary collection of essays, some of which are firmly rooted in digital scholarly editing as a discipline and existing body of knowledge, while some essays offer alternative disciplinary perspectives. Some essays are wholly prag- matic, born of the functional experience that one only gets from getting the exhausting but rewarding work of real edition making, while some are speculative, exploring the possibilities of practices both real and imagined. There are, as with any book, certain limita- tions. Data ethics in the context of editing and editions, for example, might warrant greater discussion in this collection, while a greater number of perspectives from the Global South and marginalised communities would have been welcome.

    Across all chapters, readers will find a deep appreciation and respect for the aforementioned continuity between digital editions and their predecessors, an acknowledgement that debates around digital editions ‘must be rooted in the debates about scholarly editing which have unrolled over the last decades’ (Robinson 2013, 107). Such debate is a precondition for a future in which digital editing and publishing continue to serve both scholarly and general publics.


    四、章节目录


     第一部分:语境 

     Section I. Contexts 


    第1章

    “过去朝那边走了”:后视镜中的编辑?

     'The past went that-a-way': editing in the rearview mirror?

    Andrew Prescott

    本章以 McLuhan 的“后视镜效应(rearview effect)”为隐喻,讨论编辑实践如何在面对数字技术时习惯性地以旧媒介为参照。作者通过印刷初期模仿手稿、摄影借鉴绘画等例子,说明文本技术史上“以旧塑新”的倾向同样影响数字版——许多在线版本仍只是纸本版的网页翻版或影像替身。文章呼吁编辑者正视这种“开车只看后视镜”的危险,重新思考数字环境中版本应如何突破 codex 逻辑,真正利用网络的连通性、动态性与多视角展示能力。

    第2章

    我们为谁而编辑?数字出版如何改变学术版本的作用 

    Who are we editing for? How digital publication changes the role of the scholarly edition

    Cathy Moran Hajo

    本章从“读者是谁?”这一问题出发,反思数字出版如何重塑学术版本的功能与责任。作者以 Jane Addams 及其他文献项目为例,指出数字环境打破“只为学者服务”的传统定位,使编辑必须同时考虑学生、公众、家族后代、社群组织等多元受众。章节讨论开放获取、教学使用、社群参与与说明性写作之间的平衡,并强调编辑者在数字时代不再只是“文本校勘者”,而是需要主动设计界面、解释语境与策划阅读路径的公共人文中介者。

    第3章

    数字学术编辑与知识技术危机 

    Digital scholarly editing and the crisis of knowledge technology

    作者:Helen Abbott, Michelle Doran, Jennifer Edmond, Rebecca Mitchell, Aengus Ward 

    本章把数字学术编辑置于更大的“知识技术危机”之中考察:当科研评价、开放科学、商业平台与数据资本主义重塑知识生产,数字版本究竟扮演什么角色。作者们从多学科视角出发,分析数字基础设施的集中化如何影响项目可持续性、学术自主性与数据主权,并探讨开放数据、协作网络与公共基础设施对版本未来的重要性。章节主张以批判的技术意识重新设计编辑工作流程,使数字版本既能服务研究,又能抵抗对知识的过度商品化,提出了“激进迭代编辑”(Radical Iterative Editing)的概念。

    第4章:反基础设施:数字学术编辑的全球方法 Against infrastructure: global approaches to digital scholarly editing

    Raffaele Viglianti, Gimena del Rio Riande

    本章以“反基础设施(against infrastructure)”为题,批判当前数字人文界对大型、昂贵、欧美中心化基础设施的迷恋 。作者通过拉美与全球南方案例,展示在不稳定网络、有限经费与多语种环境下,学术社群如何发展轻量、分散、在地化的编辑实践。他们主张,与其追求单一、统一的平台,不如承认多中心、多标准、多语种的生态,以开放协议、小工具组合与社区维护的方式推动数字学术版本的全球合作。


     第二部分:平台与实用主义 

     Section II. Platforms and Pragmatics 

    第5章

    构建可访问性:开发数字版本与项目的平台和方法 

    Building accessibility: platforms and methods for the development of digital editions and projects

    Erica F. Cavanaugh, Jennifer E. Stertzer

    本章聚焦“可访问性(accessibility)”,从 Washington Papers 与 Center for Digital Editing 的实践出发,讨论如何在平台与工作流设计初期就纳入无障碍原则。内容涵盖对屏幕阅读器友好的标记、可感知的导航结构、语义化 HTML/TEI、色彩与对比度规范以及移动端适配等。作者强调,可访问性并非后期“加一个插件”的问题,而是关乎编辑伦理与公共责任,决定数字版本能否真正服务有障碍的读者与更广泛的社会公众。

    第6章

    浏览、搜索与偶遇:构建可获取的数字版本 

    Browse, search and serendipity: building approachable digital editions

    Alison Chapman et al.

    本章以 Digital Victorian Periodical Poetry Project (DVPP) 为核心案例,本章探讨如何在界面设计中平衡浏览(browse)、检索(search)与偶得(serendipity)。作者分析用户如何通过策展子集、标签系统、可视化入口与多层检索逐步深入诗歌语料,并展示 DVPP 首页与诗歌记录页的设计理念。章节强调,“可亲近的版本(approachable editions)”不仅要提供复杂学术功能,还要让初次进入的学生与非专业读者也能通过探索与偶然发现建立兴趣与理解。

    第7章

    在FAIR数据原则语境下预测数字学术版本的未来 Predicting the future of digital scholarly editions in the context of FAIR data principles

    Bartłomiej Szleszyński, Agnieszka Szulińska, Marta Błaszczyńska

    本章将数字学术版本置于 FAIR 数据原则(Findable, Accessible, Interoperable, Reusable)的框架下,讨论如何使版本数据真正“可发现、可获取、可互操作、可重用”。作者结合波兰数字项目(如TEI PANORAMA)经验,分析元数据规范、开放许可、持续标识符(如 DOI)、开放 API 与长期保存策略等环节,并借此“预测”未来版本若要融入开放科学生态,必须在结构与政策上同时满足 FAIR 要求,使数据能够被人类学者与机器双重使用。

    第8章

    版本数据的再利用 

    Re-using data from editions

    Elena Spadini, José Luis Losada Palenzuela

    本章专门探讨“二次利用(re-use)”问题:数字版本中的文本、标注与元数据如何在其他研究中被重新组合。作者通过 DEAF 词典与 Topostext 等案例,展示如何利用对外开放的 TEI、RDF 或特定 API 进行跨版本比对、地理可视化与语义网联结,同时也指出技术碎片化、许可不清与缺乏文档常常阻碍数据再利用。章节最后呼吁编辑者把“可复用性”作为设计目标之一,在建库初期就考虑格式、标注粒度与开放策略。

    第9章

    基于领域特定语言制作数字学术版本 

    Making digital scholarly editions based on Domain Specific Languages

    Simone Zenzaro, Federico Boschetti, Angelo Mario Del Grosso

    本章提出利用领域专用语言(Domain Specific Languages, DSL)构建数字学术版本的思路。作者以古典文本与铭文项目为例,说明如何将文本模型、编辑规则与用户界面抽象为 DSL,再自动生成 TEI/EpiDoc 文档与工具,从而减少手工编码,提高一致性与可维护性。该章试图打通形式化建模与人文学科实践,主张通过 DSL 让编辑者更清晰地表达版本的结构与解释假设,并为协作开发与长远扩展打下基础。

    第10章

    作为小版本合作社的21世纪数字编辑与出版 Digital editing and publishing in the twenty-first century as a cooperative for small-scale editions

    Juniper Johnson, Serenity Sutherland, Neal Millikan, Ondine Le Blanc

    本章基于 NHPRC 与 Mellon 资助的三大数字出版合作体,提出把数字编辑视为一种合作社式(cooperative)出版模式。作者以 Primary Source Cooperative 等项目为例,说明小型或中型文献项目如何通过共享技术平台、编辑经验与运营架构,获得以前只有大型项目才能享有的基础设施与可见度。章节强调合作模式的三大优势:资源共享、跨主题的内容协作与社群支持,并指出这种自下而上的出版生态有助于降低门槛、扩大学者主导项目的多样性与包容性。


     第三部分:自动化与分析 

     Section III. Automation and Analytics 

    第11章

    学术数据版本:21世纪的大数据出版 

    The scholarly data edition: publishing big data in the twenty-first century

    Gábor Mihály Tóth

    本章提出“学术数据版本(scholarly data edition)”概念,将数字版本从单一文本扩展到大型数据集,特别是口述证词与历史记录等“巨量档案”。作者借其 Holocaust 证词项目经验,讨论如何在结构化数据库、可视化接口与叙事文档之间取得平衡,使研究者既能进行宏观数据分析,又能回到具体个案。章节强调,数据版本需要在建模、标注与界面层面保持透明与可解释,以免“大数据”抹平个体经历的复杂性。

    第12章

    探索性版本中的精读与远读:分布式认知与交互式可视化 

    Close and distant reading in explorative editions: distributed cognition and interactive visualisations

    Peter Boot

    本章将“精读(close reading)”与“远读(distant reading)”视为同一探索性版本中的两极,通过交互式可视化与网络图等工具,在读者与界面之间形成“分布式认知(distributed cognition)”。作者结合多种数字版项目,展示如何用时间轴、网络、地理与主题聚类等视图引导读者发现模式,再回到文本细节进行解释。章节主张,真正的“探索式版本(explorative editions)”不是给出唯一的权威阅读,而是提供一个认知环境,鼓励读者在可视化与文本之间来回穿梭。

    第13章

    共乐性与标准:人工智能之后的开放获取出版

    Conviviality and standards: open access publishing after AI

    Will Luers

    本章从“共乐性(conviviality)”与开放标准的角度思考 AI 时代的开放获取出版。作者关注的是,当生成式 AI 与自动化工具大量介入文本生产后,小型实验性期刊与数字版如何在不被平台逻辑吞噬的前提下,维持社区感与手工策展。章节探讨以轻量标准、可互操作格式与去中心化协议构建友好而可持续的开放出版生态,让编辑、作者与读者之间保持人际互动与批判空间,而不仅仅是算法驱动的内容分发。


     第四部分:可能性 

     Section IV. Possibilities 


    第14章

    超越再现:关于创造性批判数字编辑的思考

    Beyond representation: some thoughts on creative-critical digital editing

    Christopher Ohge

    本章以 Melville Electronic Library 等项目为例,本章思考数字编辑如何超越“再现文本”的传统目标,转向更具创造性的“创意—批评(creative-critical)”实践。作者讨论版本中的修订叙事、可视化重排、跨版本对读以及实验性界面如何参与到解释工作中,而非只是中性的展示工具。章节认为,数字版可以成为一种批评写作的形式,通过对文本物质性与传承过程的可视化,激发新的诠释与读者体验。

    第15章

    重编码支配:TEI标记的酷儿方法 

    Re-encoding dominance: queer approaches to TEI markup

    Filipa Calado

    本章从酷儿理论出发,批判 TEI 标注规范背后隐含的权力与规范性假设,例如二元性别、异性恋中心与作者/文本的单一身份建模。作者通过具体编码例子,展示如何在标记层面“重新编码支配结构(re-encoding dominance)”,为非二元与边缘主体留下空间。章节强调,标注并非中性技术选择,而是一种底层代码的实践;酷儿式编辑要求我们在 schema、标签命名与层级结构中反思何种经验被记录、何种经验被抹除。

    第16章

    游戏化版本:数字学术编辑的游戏化未来 

    The ludic edition: playful futures for digital scholarly editing

    Jason Boyd

    本章提出“游戏式版本(ludic edition)”概念,探讨如何将游戏机制、互动叙事与玩家角色引入数字学术版 。作者回顾了其在 queer digital humanities 与互动小说方面的实践,设想版本可以通过任务、成就、分支路径与角色扮演等方式,让读者以“玩家”的身份参与到文本探索与诠释中。章节认为,这种玩法并非浅薄娱乐,而是一种新的学习与批评模式,尤其适合在教学与公众人文项目中吸引多元受众。

    第17章

    无缝版本:用于学习和公众参与的数字版本的未来构想 

    Seamless editions: a future imaginary of digital editions for learning and public engagement

    Aodhán Kelly

    本章描绘了“无缝版本(seamless editions)”的未来想象:版本不再被局限于学术网站,而是嵌入课堂教学、博物馆展览与公共讨论的多种场景。作者结合教育科技与高等教育数字转型的经验,讨论如何通过响应式设计、学习分析、协作标注与多语种界面,使数字版在学生、教师与公众之间流动。章节强调,无缝的关键不在于“隐形技术”,而在于把版本当作社会—教育基础设施来规划。


     第五部分:项目 

     Section V. Projects 

    第18章

    早期现代课程中的数字学术编辑 

    Digital scholarly editing in the early modern curriculum

    Lindsay Ann Reid, Justin Tonra

    本章介绍作者在 University of Galway 以早期现代戏剧数字版为核心设计课程的经验。学生分组负责转录、标注、版本比较与界面策划,在一个学期内共同完成一部戏剧的在线学术版本。作者详细分析了项目如何培养学生的研究能力、项目管理、团队协作与批判性决策能力,并回顾了近年数字学术编辑教学的国际趋势,主张将数字版本制作纳入早期现代文学课程的常规教学工具。

    第19章

    调解与连接:爱迪生论文集中的多功能数字出版

    Mediating and connecting: versatile digital publishing in the Edison Papers

    Caterina Agostini, Paul Israel

    本章以 Thomas A. Edison Papers 为例,展示一个长期文献项目如何在多种数字出版形式之间“居中调解(mediating)”并建立连接。作者说明项目如何从传统文献集扩展到影像版、全文检索数据库、教学资源与专题展览,并利用标准化元数据与互操作协议,使不同平台之间可以互相链接 。章节强调,“多用途出版(versatile publishing)”能让同一批档案服务于学术研究、教育与公众历史记忆,是大型文献工程在数字时代的重要策略。

    第20章

    “现在似乎不可能,未来最不确定”:通过夏洛特·伦诺克斯的《女士博物馆》超越学术界

    ‘The present therefore seems improbable, the future most uncertain’: transcending academia through Charlotte Lennox's Lady's Museum

    Kelly J. Plante, Karenza Sutton-Bennett

    本章围绕《Lady’s Museum》数字版,探讨如何通过开放、女性主义与公共人文导向的编辑实践 “超越学院”(transcending academia) 。作者回顾这一18世纪女性刊物的历史与性别政治,并说明数字项目如何在注释、教学资源与公众线上活动中凸显女性知识生产。章节特别关注编辑团队与当代读者、课堂、社群之间的互动,将数字版视为重新激活被忽视文本、连接过去与现在女性经验的平台。

    结语

    数字编辑与出版的未来 

    Conclusion: The future of digital editing and publishing

    James O’Sullivan, Sophie Whittle 

    结语综述了全书各章节的贡献,强调数字学术编辑在形式上虽与传统纸本编辑存在“真实延续性”,但若停留在媒介转换层面,就无法实现数字范式所承诺的文本流动性与关系可视化。作者重申:未来版本需要同时回应数据伦理、全球南方与边缘社群的需求,以及AI与自动化带来的新机遇与风险 。只有在继承数十年学术编辑争论成果的基础上,继续反思基础设施、受众与出版模式,数字编辑与出版才能在未来真正服务学术共同体与更广泛公众。


    参考文献

    [1]. Apollon, Daniel, Claire Bélisle, and Philippe Régnier, eds. Digital Critical Editions. University of Illinois Press, 2017.

    [2]. Bode, Katherine. “Computational Literary Studies: Participant Forum Responses, Day 2.” In the Moment (blog). https://critinq.wordpress.com/2019/04/02/computational-literary-studies-participant-forum-responses-day-2-3/. 2019.

    [3]. Boot, Peter, Angelo Cappellotto, Wout Dillen, Frank Fischer, Alan Kelly, Annemieke Mertgens, Anna-Maria Sichani, Elena Spadini, and Dirk van Hulle, eds. Advances in Digital Scholarly Editing: Papers Presented at the DiXiT Conferences in The Hague, Cologne, and Antwerp. Sidestone Press. https://www.sidestone.com/books/advances-in-digital-scholarly-editing. 2017.

    [4]. Driscoll, Matthew J., and Elena Pierazzo, eds. Digital Scholarly Editing: Theories and Practices. Open Book Publishers. https://doi.org/10.11647/OBP.0095. 2016.

    [5]. Earhart, Amy E. “The Digital Edition and the Digital Humanities.” Textual Cultures 7, no. 1: 18–28. https://doi.org/10.2979/textcult.7.1.18. 2012.

    [6]. Franzini, Greta, Melissa Terras, and Simon Mahony. “A Catalogue of Digital Editions.” In Digital Scholarly Editing: Theories and Practices, edited by Matthew J. Driscoll and Elena Pierazzo. Open Book Publishers. 2016.

    [7]. Gabler, Hans Walter. “Theorizing the Digital Scholarly Edition.” Literature Compass 7, no. 2: 43–56. https://doi.org/10.1111/j.1741-4113.2009.00675.x. 2010.

    [8]. Kelly, Alan. “Disseminating Digital Scholarly Editions of Textual Cultural Heritage.” PhD diss., University of Antwerp. https://hdl.handle.net/10067/1558180151162165141. 2017.

    [9]. Neuber, Frederike. “Defining Scholarly Editions, Pt. 1: Critical vs. Enriched.” Billet. DiXiT (blog). https://dixit.hypotheses.org/356. 2014.

    [10]. Ohge, Christopher. Publishing Scholarly Editions: Archives, Computing, and Experience. Cambridge University Press. https://doi.org/10.1017/9781108766739. 2021.

    [11]. Pierazzo, Elena. Digital Scholarly Editing: Theories, Models and Methods. Routledge. 2016.

    [12].  Price, Kenneth M. “Electronic Scholarly Editions.” In A Companion to Digital Literary Studies, edited by Ray Siemens and Susan Schreibman. Oxford: Blackwell. https://companions.digitalhumanities.org/DLS/?chapter=content/9781405148641_chapter_24.html. 2008.

    [13]. Robinson, Peter. “What Is a Critical Digital Edition?” Variants: The Journal of the European Society for Textual Scholarship 1: 43–62. https://doi.org/10.5281/zenodo.6533168. 2002.

    [14]. “Towards a Theory of Digital Editions.” Variants: The Journal of the European Society for Textual Scholarship 10: 105–31. https://doi.org/10.1163/9789401209021_009. 2013.

    [15]. Sahle, Patrick. “What Is a Scholarly Digital Edition?” In Digital Scholarly Editing: Theories and Practices, edited by Matthew J. Driscoll and Elena Pierazzo. Open Book Publishers. https://doi.org/10.11647/OBP.0095.02. 2016.

    [16]. Schreibman, Susan. “Digital Scholarly Editing.” In Literary Studies in the Digital Age: An Evolving Anthology. Modern Language Association. https://doi.org/10.1632/lsda.2013.4. 2013.

    [17].  Shillingsburg, Peter L. Scholarly Editing in the Computer Age: Theory and Practice. University of Michigan Press. 1996.

    [18]. van Zundert, Joris J. “Barely Beyond the Book?” In Digital Scholarly Editing: Theories and Practices, edited by Matthew J. Driscoll and Elena Pierazzo. Open Book Publishers. 2016.

    [19].  Whittle, Sophie, James O’Sullivan, and Michael Pidd. “AI and the Editor.” The Future of Text 4: 106–9. 2023.



    注:本文对各章节的介绍与摘要系编辑独立撰写,版权归原作者所有,未经书面许可,严禁转载或用于商业用途


    以上部分内容来自书籍发布官网:

    https://books.sup.ac.uk/sup/catalog/book/sup-9781917341073

    经数字人文资讯小编翻译整理而成

    如需转载,请后台私信联系

    编译 丨魏翔

    校对 丨洪冰凤

    排版 丨罗斯鹏


    阅读原文

    跳转微信打开

    ❌