普通视图

Received before yesterday5 - 武汉大学数字人文公众号

会议征稿 | DHd2027:Mind the Gap!—— 知识、不确定性与责任

2026年6月6日 08:30

2026-06-06 08:30 湖北

德语区数字人文协会“DHd2027:Mind the Gap!—— 知识、不确定性与责任”会议征稿

DHd2027介绍

德语区数字人文协会(DHd,Association for Digital Humanities in the German Speaking Areas)成立于2013年,主要为所有在德语国家数字人文领域从事研究和教学的各学科人士的平台和利益的正式代表。截至2026年4月,DHd共有528名研究人员。作为一个区域性协会,DHd既隶属于欧洲数字人文协会(EADH, European Association of Digital Humanities),也是数字人文组织联盟(ADHO, Alliance of Digital Humanities Organizations)的成员协会。DHd会员同时也是EADH的正式会员。

DHd2027是由马尔堡大学承办的德语区数字人文协会年度会议,会议主题为“Mind the Gap!——关注间隙:知识、不确定性与责任”。

间隙”(gap)是知识构成中的重要组成部分。它们既标示出尚未被填补的空白,也提出新的问题,并推动认知过程的展开。对于数字人文而言,这一点尤为关键:当知识被数字化编码、建模,并转化为机器可读的形式时,翻译、简化与中介性的灰色地带便不可避免地出现。无论是将非数字对象转化为数据、模型或数字表征,还是处理原生数字材料,研究者都必须先对材料进行采集、组织、归档与整理,才能使其成为可分析的研究对象。在这一过程中,各种形式的“间隙”不断生成。

间隙DHd2027聚焦于这些具有生产性、问题性以及责任意义的间隙、不确定性与差异,并反思隐藏其中的关于数据完整性和确定性的理想化假设,以及支撑这些假设的解释过程。会议关注以下问题:

•空白如何成为知识生产的认识论前提?

•不确定性如何成为数字人文的方法论挑战?

•数据处理中的责任应如何承担?

•缺失与差异如何催生新的解释与理解?

重点讨论内容包括:

•物质和历史遗产中的缺失

•算法黑箱问题

•数据缺口

•建模决策

•知识与基础设施获取的不平等

会议背景与理念

(1)会议背景

与人类文化相关的数据往往是不完整的:文献可能残缺不全,资料可能已经散佚,原始语境可能不复存在,或仅以碎片化的形式流传下来。与此同时,数字化与建模过程本身也会产生新的筛选与简化。每一种数据表征(representation)、分类(classification)或可视化(visualization),都意味着研究者必须决定什么被展示、什么被强调,以及什么被省略。特别是在数据驱动方法与人工智能技术广泛应用的背景下,透明性、可解释性、不确定性与责任等问题变得愈发重要。

“Mind the Gap!”这一主题还进一步指向数字知识生产中的各种不平等现象。尽管数字技术具有促进知识民主化的潜力,但在数据获取、工具使用、基础设施建设和学术发表机会等方面,仍然存在显著差异。这些差异可能受到地理位置、机构背景、社会条件以及其他结构性因素的影响。因此,DHd2027会议希望为讨论数字人文领域中的参与、责任与可持续发展提供空间。

(2)会议理念

DHd2027会议强调,“间隙”(gap)并不只是知识生产中的缺陷,也可以被理解为反思、解释与批判得以发生的生产性空间。如果知识不是一个已经完成的最终成果,而是一个持续建构的过程,那么不确定性、空白与差异便构成了科学认识生成的重要前提。

DHd2027希望与学界共同探讨:

• 如何实现负责任的数字知识生产;

• 如何建立反思性的研究实践;

• 如何推动数字人文的可持续发展。

征稿主题

DHd2027欢迎数字人文及相关学科领域的研究者投稿,特别鼓励以下主题:

(1)文化遗产与历史资料中的空缺

  • 历史、文化和物质遗产中的空缺与不确定性

  • 来源(Provenance)研究

  • 碎片化(Fragmentation)

  • 去语境化(Decontextualization)

  • 元数据缺失

(2)不确定性的建模

  • 模糊性(Vagueness)建模

  • 不确定性建模

  • 多义性建模

(3)数字化与数据处理中的局限

  • 数字化过程中的选择机制

  • 数据建模中的筛选问题

  • 标注(Annotation)的边界

(4)数字化缺失问题

  • “数字暗场(Digital Dark Field)”

  • 未被数字化的文化资源

(5)人工智能与算法透明性

  • 黑箱问题(Black Box)

  • AI方法

  • 可解释人工智能(XAI)

(6)大模型中的知识偏差

  • 大语言模型训练数据缺陷

  • 图像模型训练数据偏差

  • 知识空缺与算法偏见

(7)数字重建

  • 数字复原

  • 推测与证据之间的平衡

(8)科研成果呈现中的不确定性

  • 可视化中的不确定性

  • 数据聚合中的误差

  • 研究成果展示中的风险

(9)数据伦理

  • FAIR原则

  • CARE原则

  • 数据伦理问题

(10)隐私与敏感数据处理

  • 匿名化(Anonymization)

  • 假名化(Pseudonymization)

  • 有意识的数据省略

(11)数字能力与基础设施

  • 数据素养

  • DH教育与培训

  • 基础设施不平等

(12)文化数据与社会责任

  • 后殖民主义视角

  • 文化数据治理责任

(13)方法论创新

  • 混合研究方法(Mixed      Methods)

  • AI与诠释学(Hermeneutics)

(14)机构协同

  • GLAM机构(Galleries, Libraries, Archives, Museums)网络化

  • 数字研究基础设施建设

(15)数字人文的未来角色

  • 技术与社会不确定时代中的数字人文反思

投稿类型与字数要求

类型

字数要求

学术报告(Vorträge)

1500–2000词

博士论坛(Vorträge im Doctoral Consortium)

500–750词

专题讨论(Panel)

1200–1500词

海报(Poster)

500–750词

工作坊(Workshop)

1200–1500词

投稿与评审

(1)投稿平台

投稿通过ConfTool提交。

作者需:

  • 注册ConfTool账户;

  • 使用FidusWriter撰写并提交dhc格式文件;

  • 填写100–150词摘要。

所有录用摘要将发布于DHd协会Zenodo社区,收录于会议论文摘要集,并发布于会议官网与会议手册。

(2)重要时间

时间

事项

2026年8月1日23:59(德国夏令时)

投稿截止

2026年11月初

录用通知

2026年12月5日

提交修改终稿

2027年3月1–5日

会议召开

注意:投稿截止日期不会延期。

(3)评审方式

此次会议采用开放同行评审(Open Peer Review)

  • 作者与评审人身份互相公开(Open Identities)

  • 评审意见不公开

联系邮箱:dhd2027@uni-marburg.de

(4)语言要求

DHd2027主要交流语言:德语、英语

投稿可使用:德语、英语

会议鼓励使用德语报告,但英语报告同样欢迎。

(5)参会要求

会议为:线下会议(In-Person Conference)

要求:

  • 录用论文原则上需作者本人到场报告;

  • 不设混合参会模式(Hybrid);

  • Keynote主旨报告将提供直播。

会议关注方向

对于文化遗产数字化、智慧数据资源建设、古籍数字人文研究领域的研究者而言,此次会议主题与以下研究高度契合:

  • 文化遗产数据缺失与不确定性表达

  • 古籍知识组织与语义建模

  • AI驱动的文化遗产知识发现

  • 文化遗产智慧数据资源建设

  • 数字重建与数字孪生遗产

  • 文化数据伦理治理

  • GLAM机构协同创新

  • 人工智能与数字人文方法论融合

涉及“文化遗产智慧数据资源建设模式”“古籍智慧数据平台”“文化遗产数字化—数据化—智慧化转型”等主题的研究将与DHd2027的会议议题具有很高的契合度。

以上会议征稿内容来自DHd2027官方网站:

https://digitalhumanities.de/en/2026/06/01/call-for-papers-dhd2027/

更多征稿详情请进官网查询,如需转载请后台私信联系

编译|罗斯鹏

校对|魏翔

排版|洪冰凤

阅读原文

跳转微信打开

会议征稿|CHR 2027:第七届计算人文学研究会议 (Seventh Conference on Computational Humanities Research)

2026年5月30日 07:30

2026-05-30 07:30 日本

一、 CHR介绍

随着计算方法、统计方法和数学方法的日益普及,艺术与人文学科的研究格局已经发生了显著转变。这一新兴研究范式使用形式化方法和明确的计算模型,涵盖从定量分析技术到复杂数据处理方法的多种路径,同时也对这些方法进行批判性的理论反思。CHR认识到,处于这一交叉领域的学者往往缺乏合适的平台,来展示和发表既具有计算性、又立足于传统人文学科问题意识的研究。正是基于这一痛点,CHR应运而生。计算人文学研究学会(Computational Humanities Research Society,CHR)是一个国际性、跨学科的学术社群,汇聚了对人文学科计算方法感兴趣的研究者。CHR 成立于COVID-19疫情期间,最初以线上形式起步,后逐渐发展并在欧洲各地举办年度会议,如安特卫普会议(2022)、巴黎会议(2023)和奥胡斯会议(2024),目前已成为该跨学科学术领域的核心阵地。

CHR通过发布代码与数据以支持透明度与可复现性、预注册研究设计,以及为与人文相关的跨学科计算研究重新设计评审流程等方式分享 “研究故事” ,以推广良好学术实践。该学会打造了专属的专业学术平台,推动创新计算方法与严谨人文研究的深度融合,在坚守人文学科传统内核的同时,助力整个领域的方法论创新与可持续发展。

CHR致力于构建一个由运用各类计算与定量方法研究人文问题的学者组成的社群,将这一社群视为数字人文领域的补充。CHR积极欢迎拥有不同背景、经历与身份的人士,包括未被充分代表群体的学者,以及为计算人文领域贡献新颖视角的研究者。CHR2027将于2027年1月5日至8日英国曼彻斯特大学数字人文、文化与媒体中心主办,线下地点有待通知。

二、征稿要求

CHR2027有两个核心目标:

一是构建一个包容性的研究者社群,将计算与定量方法应用于各种形式的人文数据研究。CHR将该社群视为更广泛数字人文领域格局的有益补充,并积极鼓励所有能为计算人文带来全新视角的人士参与。

二是推动卓越研究。具体而言,指通过开放代码与数据促进研究的透明度与可复现性,支持能够明确理论框架与方法论的研究设计,以及更好地适配融合了计算方法与人文导向问题的跨学科研究工作。

相关主题

会议欢迎涵盖广泛主题的原创研究论文,包括但不限于:

  • 将统计方法和机器学习应用于人文学科数据的处理、扩充和分析,包括新媒体数据和文化遗产数据;

  • 假设驱动的人文学科研究、模拟研究和生成模型;

  • 为人文学科研究发展新的定量方法和实证方法;

  • 对人文学科中的偏见、不确定性和相互冲突的解释进行建模;

  • 评估方法、评估数据集和标准制定;

  • 对人文学科数据的分类和分期进行形式化、统计化或定量化评估;

  • 定量方法和计算人文学路径的理论框架与认识论;

  • 从其他学科转译和迁移方法,以及连接人文学解释与统计学解释的路径;

  • 计算人文学中的可视化、传播,包括开放科学,以及教学;

  • 人工智能在人文学科研究中的应用潜力与挑战。

四、投稿类型

(1)长论文

最多6000词,约12页。不包括参考文献、摘要、表格和插图。长论文应报告已经成的且尚未发表的原创成果。会议更倾向于论证简洁的论文。允许附录,以提高研究的可重复性。附录可包括预处理决策、模型参数、提示词、伪代码、补充数据或输入/输出示例,以及其他相关细节。不过,评审人在评审过程中没有义务阅读附录和补充材料。每篇论文的正文必须能够独立成立,论证充分,并且在不依赖附录信息的情况下也能被理解。允许提供指向外部信息、代码仓库和数据存储位置的链接,但在评审过程中,必要时必须进行匿名化处理。

(2)短论文(包括海报)

最多6000词,约12页。不包括短论文,包括海报:最多3000词,约6页。不包括参考文献、摘要、表格和插图。短论文应报告聚焦明确的研究贡献,也可以呈现正在进行中的研究。短论文将以短口头报告或海报的形式展示。作者可以选择自己偏好的展示形式,但最终展示形式将由程序委员会决定。允许附录,以提高研究的可重复性。附录可包括预处理决策、模型参数、提示词、伪代码、补充数据或输入/输出示例,以及其他相关细节。不过,评审人在评审过程中没有义务阅读附录和补充材料。每篇论文的正文必须能够独立成立,论证充分,并且在不依赖附录信息的情况下也能被理解。允许提供指向外部信息、代码仓库和数据存储位置的链接,但在评审过程中,必要时必须进行匿名化处理。

(3)快速报告

提交一份最多750词的摘要,不包括参考文献、表格和插图,用于在快速报告环节进行3分钟展示。这一形式很适合报告正在进行中的研究、介绍研究想法、初步结果,或围绕特定问题与回答展开的聚焦型研究。报告将在线下现场进行。

(4)工作坊

工作坊:最多1500词。工作坊应比主会议更具互动性。工作坊将在会议前举行,时间为2027年1月5日。工作坊提案应说明:

  • 工作坊的目标与组织形式;

  • 相关工作的学术背景;

  • 拟定时长,例如半天或全天;

  • 当天流程安排,包括活动类型;

  • 预期的主要成果;

  • 每位组织者或报告人的简短简介,包括姓名、所属机构和电子邮箱地址;

  • 吸引参与者的宣传计划;

  • 具体需求,包括但不限于特殊设备,例如音频/视频设备、软件、实体空间布置;

  • 参与者在参加工作坊之前应具备的任何技术知识、技能或经验。

  • 具体需求,包括但不限于特殊设备,例如音频/视频设备、软件、实体空间布置;

  • 参与者在参加工作坊之前应具备的任何技术知识、技能或经验。

五、投稿须知

会议欢迎来自不同背景的学者投稿。目前没有计划延长投稿截止日期。

投稿要求

  • 投稿应以英文撰写,并必须按照ACH制作的LaTeX模板排版,点击即可下载 ach-latex-en.zip。建议使用Overleaf在线环境进行写作。若要开始使用 Overleaf,请打开以下模板文件,选择 “Open as Template”,然后登录或创建新账户:LaTeX Overleaf template。

  • 投稿必须匿名提交。所有投稿都将经过双盲同行评审,最终录用决定由程序主席作出。未使用指定模板、未匿名化,或缺少参考文献的投稿将不经评审直接拒稿。

  • 每篇被录用的投稿至少须有一位作者注册参加会议,并展示论文或海报。

  • 被录用的论文将提交至Anthology of Computers and the Humanities在线出版。

投稿方式

论文应以PDF文件形式通过EasyChair会议管理系统提交,投稿链接目前尚未发布,需要持续关注会议信息。

投稿匿名说明

任何可能有助于识别作者身份的信息都应进行匿名化处理。为此,请注意:

  • 不要包含作者姓名和所属机构;

  • 代码和数据仓库应使用占位链接,例如 https://anonymous.4open.science/、https://zenodo.org/record/xxxxx;

  • 不要以可能暴露作者身份的方式提及自己的既有研究。例如,不要写 “We previously demonstrated (Smith, 2002)”,而应写 “Smith (2022) previously demonstrated”;

  • 致谢部分留空。

匿名期将持续到录用通知公布之日,即2026年10月23日。为支持双盲评审,作者在此期间不得公开宣传自己的投稿,例如通过社交媒体、博客或邮件列表进行推广。不过,CHR也认识到早期可见度的重要性,尤其是对于早期职业研究者和跨学科合作而言。因此,作者可以在投稿前发布预印本,例如发布在arXiv、Zenodo、HAL或机构知识库上,但不得在匿名论文中链接这些预印本。

评审人将被要求忽略任何外部身份标识,并严格聚焦于匿名提交的论文。学会同时鼓励实证反馈:将询问评审人是否认为自己能够识别出作者身份及其原因,以帮助CHR评估匿名机制的实际运行效果。

AI使用说明

新兴技术正在改变一些研究者开展研究的方式。作者可以使用任何工具来开展研究和准备论文,但作者有责任确保所有提交内容正确、可靠且具有原创性。如果作者在研究实践中使用了生成式AI和/或智能体式AI,例如用于文献检索、编程和写作,会议鼓励作者在投稿中加入一段关于其AI使用情况的反思说明。

六、CHR2027评审指南

如果评审人发现自己无法按时完成评审、评审任务分配存在问题,或对EasyChair的使用有任何疑问,应尽快联系会议组织方。

如果投稿不符合模板要求、匿名化要求或参考文献要求,评审人不应继续评审,而应联系CHR2027程序主席。

另,为促进跨学科交流、确保多元性以及推动社群参与,会议将安排少量社群成员评审和非专家评审。

涉及投稿范围

  • 研究结果为负面或尚无定论的论文;

  • 小型个案研究;

  • 原型系统和概念验证研究。

评审意见撰写

评审意见应当清晰、具体,并使用建设性的语言。评审人应确保评审意见能够:

  • 尊重作者及其研究投入;

  • 帮助作者改进论文,无论是为了最终定稿版,还是为了未来再次投稿。

评审核心要素

(1)贡献

评审人应清楚指出论文的核心贡献,包括:

  • 论文如何推进该领域的发展,或如何有益于 CHR 社群;

  • 论文可能在哪些方面产生影响;

  • 论文引出的有价值的后续研究问题;

  • 论文与人文学科相关研究之间的关联。

(2)优点

评审人应说明论文做得较好的方面,例如:

  • 研究问题或研究假设的表述是否清楚;

  • 方法论是否新颖且可靠;

  • 实验设计与执行是否合理;

  • 是否充分比较了既有研究;

  • 研究结果是否具有启发性;

  • 是否具有对学术社群产生影响的潜力;

  • 是否考虑了相关的社会与伦理问题。

(3)缺点

评审人应指出论文的不足,并提出改进建议。相关意见应当:

  • 具体而具有建设性;

  • 提供清晰、可操作的修改建议;

  • 有助于促进跨学科知识交流,而不是仅从单一学科标准出发进行否定。

补充指南:

除非评审人确实难以判断,否则应使用数字评分明确表达自己的评审立场。

在评审截止日期之前,评审意见可以随时修改。

送审论文属于保密材料,不得在同行评审流程之外分享或讨论。

评审人不得将论文上传至第三方商业工具。这种行为会违反评审保密原则,并构成同行评审不端行为。

组织者联系方式:pc@computational-humanities-research.org

以上内容来自CHR 2027官方网站:

https://2027.computational-humanities-research.org/cfp/

由数字人文资讯编辑而成

更多征稿详情请进官网查询,如需转载请后台私信联系

编译|魏翔

校对|洪冰凤

排版|罗斯鹏

阅读原文

跳转微信打开

新书推荐丨《数字人文引论》:全面呈现数字人文“新理念、新领域、新方法、新设施”

2026年5月23日 08:30

2026-05-23 08:30 湖北

《数字人文引论》

作者:李飞跃、桑海  主编

出版社:中华书局

书号:978-7-101-17674-2

出版时间:2026年4月

字数:454千字

定价:92.00

/ 内容简介 /

《数字人文引论》以“新理念、新领域、新方法、新设施”为总体框架,系统阐释数字时代人文研究的范式跃迁。全书围绕大模型与人文研究、数字史学、数字文献学等领域核心议题展开,深入探讨自然语言处理、主题模型、网络文本分析等技术方法,并对数字基础设施建设、数字媒介发展、知识范式变革及海外数字人文前沿动态进行全面论述,为理解数字时代人文研究的转型路径与未来发展提供系统而清晰的指引。

/ 作者介绍 /

主编

李飞跃,清华大学人文学院长聘教授、博士生导师,北京大学文学博士。兼任清华大学和中华书局《数字人文》、中国人民大学《数字人文研究》编委,中国索引学会数字人文专业委员会委员、中国古籍保护协会古籍整理与开发专业委员会委员等。主要从事诗歌文献、音乐文学与数字人文研究,开设“数字人文”“诗词曲经典研读”等本科课程、“诗歌文献的跨学科研究”等研究生课程。在《中国社会科学》、EMNLP等发表论文60多篇,主持国家社科基金重点项目等数项,曾获教育部高等学校科学研究优秀成果奖、清华大学教学成果奖一等奖等。

桑海,清华大学文学博士,《澳门理工学报》编辑、《数字人文》副主编。主要从事文艺理论、新媒体、数字传播研究,在《文史哲》《南京大学学报》《清华大学学报》《人民日报》等报刊发表多篇论文或评论。

作者团队

作者团队由清华大学、北京大学等十余所国内知名高校及科研机构的19位数字人文专家组成。他们在数字人文领域深耕多年,兼具理论深度与技术应用,并且长期从事一线的科研与教学工作。

(按章节先后顺序排列)

刘  石/ 清华大学人文学院

李飞跃/ 清华大学人文学院

孙茂松/ 清华大学计算机科学与技术系

孔存良/ 清华大学计算机科学与技术系

梁  晨/ 南京大学历史学院

李林芳/ 北京大学中国语言文学系

许  可/ 华东师范大学中国语言文学系

邱伟云/ 南京大学历史学院暨学衡研究院

左家莉/ 江西师范大学人工智能学院

张辰麟/ 昆明学院人文学院、教育部语言文字应用研究所

胡韧奋/ 北京师范大学国际中文教育学院数字人文系

苏  祺/ 北京大学外国语学院、北京大学人工智能研究院

赵  薇/ 中国社会科学院文学研究所

唐  宸/ 清华大学人文学院

姜文涛/浙江大学国际联合学院

饶高琦/ 北京语言大学国际中文教育研究院

李  斌/ 南京师范大学文学院语言大数据与计算人文研究中心、澳门大学人文学院

桑  海/ 澳门理工大学《澳门理工学报》编辑部

肖  爽/ 清华大学人文学院

/ 编辑推荐语 /

“清华数字人文丛书”中的第一本教材,以“四新”为框架,理论与研究成果相结合,全面阐述数字人文领域的主要研究方向。

目  录

《数字人文引论》

试  读

《数字人文引论》

END

转自“数字人文专业发展联盟”

已获转载授权

阅读原文

跳转微信打开

学术前沿 | 文化分析学刊(Journal of Cultural Analytics,JAC)介绍及论文荐读

2026年5月23日 08:30

2026-05-23 08:30 湖北

《文化分析学刊》(Journal of Cultural Analytics,简称 JCA)由普林斯顿大学数字人文中心出版,这是一份倡导开放获取的学术期刊,致力于发表计算方法在文化研究领域的前沿应用成果。该刊聚焦于人文学科、社会科学与计算机科学的交叉融合,探讨如何运用数字技术分析文化文本、历史文献、视觉艺术以及声音档案等多元文化样态。该刊特别鼓励具有全球视野、跨学科方法以及多语言、多文化背景的研究,推动计算人文学科的发展,并促进学界对文化数据化时代的新认识。

核心主题:

  • 计算与量化方法能否为我们理解数据化时代提供新的视角?

  • 如何在数据驱动的研究和分析实践构建理论?计算方法不应也不能替代严谨的研究方法论思考。

  • 人文学者能否在计算方法的标准化以及数据的文化语境化过程中发挥核心作用?

  • 如何融合批判性数据研究、批判性档案研究、计算人文学科与传统人文学术方法?

栏目设置:

  • 论文(Articles):发表经过同行评审的学术研究。

  • 数据论文(Data Essays):刊发经过同行评审的数据论文,并附上与文化研究相关的精选数据集。

  • 专题特写(Special Features):刊发更简短、更具时效性的文章,介入文化的计算分析议题,行文风格通俗易懂,面向非专业读者。这些短篇文章可以集体提交(例如围绕特定主题的圆桌讨论或专题集群),也可以采用“致编辑信”或评论文章的形式,亦或是旨在开启关于新方法、新数据集或新文章讨论的独立文章。

此外,期刊提供专题研究(Thematic Clusters),可按关键词进行检索,并接受特刊(Special Issues)的提案。

本期内容将选取《文化分析学刊》近两年间与数字人文相关的10篇论文进行介绍。

01

作为关系数据的书目元数据:一项跨学科方法论反思

Bibliographic metadata as relational data: A cross-disciplinary methodological reflection

Rossana Scebba

摘要:本文中反思了在数字/计算史学与定量经济史研究中,将书目元数据作为经验材料使用这一日益增长的跨学科共识。结合两个领域的实例,概述了预处理图书馆目录元数据的主要挑战。以旧鲁汶大学学术藏书为试点案例,展示了数据转换与准备的关键步骤,旨在协调通用流程并创建跨学科可复用资源。随后探讨了元数据如何应用于历史网络分析,讨论了其基本前提、潜在陷阱及关键建模决策。基于此分析,提出将多层网络表示作为表征书目元数据的结构忠实基础。最后,通过与定量经济史实践的比较,该文展示了采用假设驱动建模和统计推断如何回应学界对数字方法的质疑,从而推动数字史学的计算发展。

关键词:书目数据科学,数字史学,经济史,网络分析,多层网络

Abstract:In this paper, I reflect on the growing cross-disciplinary convergence around the use of bibliographic metadata as empirical material in digital/computational history and quantitative economic history. I outline the main challenges in preprocessing library catalog metadata, drawing on examples from both fields. A pilot case on the academic collection of the Old University of Louvain demonstrates key steps in data transformation and preparation, with the aim of aligning common routines and creating reusable resources across disciplines. I then examine how metadata can be applied in historical network analysis, discussing underlying premises, potential caveats, and key modeling decisions. Based on this examination, I propose a multilayer network representation as a structurally faithful base to represent bibliographic metadata. Finally, by drawing a comparison to practices in quantitative economic history, I show how adopting hypothesis-driven modeling and statistical inference can address skepticism toward digital approaches and thereby advance the computational development of digital history.

Keywords: bibliographic data science, digital history, economic history, network analysis, multilayer networks

图:地图显示了低地国家及周边地区每五十年间隔的印刷中心。气泡面积与每个城市相关的“旧藏学术藏书”中的印刷藏品数量成正比。历史边界随时间变化,数据来源于《世纪历史地图集》。

Figure:The maps show printing centers in the Low Countries and surroundings at fifty-year intervals. Bubble area is proportional to the number of printed holdings from the Collectio academica antiqua associated with each city. Historical boundaries are time-varying and drawn from the Centennia Historical Atlas.

02

微调史学家的宏观镜:Neo4j 中的中世纪韩国传记数据重用

Fine-Tuning the Historian's Macroscope: Data Reuse and Medieval Korean Biographical Records in Neo4j

Javier Cha

摘要:本文探讨了史学家“宏观镜”(macroscope)的开发与应用——这是一个基于 Neo4j 的计算框架,能够对中世纪韩国传记记录进行多尺度探索。虽然数字化极大地扩展了历史资料的获取渠道,但现有方法论难以在整合大型异构数据集的同时,保持阐释的严谨性与语境特异性。本研究展示了图数据库模型如何通过动态追踪庇护网络和亲属网络来增强历史探究。与通常会在个体细节与宏观结构模式之间造成生硬割裂的传统网络可视化工具不同,Neo4j 能够在不同分析层次之间实现无缝切换。本文阐述“宏观镜”如何帮助史学家发现被遮蔽的关系、优化分析焦点并生成新的研究问题。更广泛地,本文强调数字史学需要发展超越大规模可视化、能够批判性介入历史资料复杂性的方法论。

关键词:数字史学,韩国史,中世纪史,Neo4j,集体传记学,图数据库,宏观镜,数据重用

Abstract:This article explores the development and application of a historian’s macroscope, a computational framework that enables multiscalar exploration of medieval Korean biographical records using Neo4j. While digitization has greatly expanded access to historical sources, existing methodologies struggle to integrate large, heterogeneous datasets while maintaining interpretive rigor and contextual specificity. This research demonstrates how a graph database model enhances historical inquiry by enabling the dynamic traversing of patronage and kinship networks. Unlike conventional network visualization tools, which often impose a rigid divide between individual detail and macrostructural patterns, Neo4j facilitates seamless transitions across different levels of analysis. This discussion illustrates how the macroscope helps historians uncover obscured relationships, refine analytical focus, and generate new research questions. More broadly, it highlights the need for methodologies in digital history that move beyond large-scale visualization to critically engage with the complexities of historical sources.

Keywords:digital history, korean history, medieval history, neo4j, prosopography, graph database, macroscope, data reuse

图:截图显示了1469年与1589年功勋人物之间跨越两个节点距离的所有链接,通过类别节点进行分解以生成简化视图。

Figure:The screenshot shows all the links between merit subjects of 1469 and 1589 spanning two node distances, decomposed using category nodes to produce a simplified view.

03

量化古希腊罗马经典在现代早期英国的存在

Quantifying the Presence of Ancient Greek and Latin Classics in Early Modern Britain

Margherita Fantoli,Jukka Suomela,Toon Van Hal,Mark Depauw,Lari Virkki,Mikko Tolonen

摘要:本文探讨了在手摇印刷机时代(1470年代至1790年代)古典作品在现代早期英国的接受情况。研究考察了经典形成、知识传播以及数字档案在定量书籍史中的整合。研究通过量化方式描绘了古典经典在不同时期被认知的变化,提供了“变动中的经典”的全景视图。分析基于三个数据档案:《英文短标题目录》(ESTC)、《早期英文图书在线》(EEBO)和《十八世纪作品在线》(ECCO)。我们得出结论:可以观察到现代早期英格兰印刷的古典作者群体经历了一个“经典化”过程,这体现在出版物的多样性显著丧失,尽管古典作品的出版总量总体增加。偏好也发生了变化:古代希腊作者在18世纪获得了显著更多的空间。然而,这一发现需要与另一个观察相平衡:这一时期古希腊语原版著作的流通量并未增加。这种多维方法有助于全面理解古典学在现代早期英国的接受情况,并揭示文化和智识的转型。

关键词:古典学,现代早期英国,元数据,手摇印刷机

Abstract:This paper explores the reception of classical works in Early Modern Britain during the hand press era, between the 1470s and 1790s. It investigates canon formation, knowledge transmission, and the integration of digital archives in quantitative book history. The study quantitatively maps changing perceptions of the classical canon across time, offering a panoramic view of 'shifting canons'. The analysis is based on three data archives: the English Short Title Catalogue (ESTC), Early English Books Online (EEBO), and Eighteenth Century Collections Online (ECCO). We conclude that we can observe a “canonization” of the set of classical authors printed in Early Modern England, which is reflected in a significant loss of diversity in publications, despite a general increase of the publication of classical works. Preferences also shift, with ancient Greek authors of the early centuries gaining significantly more space in the 18th century. This finding however is balanced by the observation that the circulation of Ancient Greek editions in the original language does not increase during this time. This multidimensional approach contributes to a comprehensive understanding of the reception of Classics in Early Modern Britain, shedding light on cultural and intellectual transformations.

Keywords:Classics, Early Modern Britain, Metadata, Hand press

图:从17世纪到18世纪,28位最频繁出现的作者(蓝线)与其他作者(红线)的版本预测。点表示每十年间印刷最多的20位作者(蓝色)和其他作者(黄色)的实际计数。

Figure:Prediction of the editions of 28 most frequent authors (blue line) vs the rest of the authors (red line) from the 17th to the 18th century. The dots represent the real counts per decade of the 20 most printed authors (blue) and the others (yellow).

04

超越计算形式主义,或架构的重要性

Beyond Computational Formalism or, Architecture Matters

James E. Dobson

摘要:本文指出,尽管计算文学研究(CLS)常常宣称奉行形式主义方法论,但它并未充分重视其使用的计算模型——尤其是深度学习神经网络——形式化架构的重要性。针对学界倾向于对神经网络的运作进行流于表面的抽象概括、或将注意力过分集中在输出结果上的倾向,本文提出:架构不仅是技术细节,更是意义生成与历史性得以铭刻的关键场所。通过考察神经网络架构的谱系——从 Frank Rosenblatt 的感知机到当代基于 Transformer 的模型——本文展示了这些架构如何从物质性层面塑造机器学习模型的能力、输出结果和阐释可能性。

关键词:神经网络,形式主义,机器学习,人工智能,计算文学研究

Abstract:Despite frequently avowed commitments to formalist methodologies, computational literary studies (CLS) has insufficiently accounted for the importance of the formal architectures of the computational models it employs—particularly deep learning neural networks. Arguing against the tendency to treat neural networks with an abstract gloss of their operation or to focus attention on the outputs, this article posits that architecture is not merely a technical detail but a crucial site where meaning is made and historicity registered. By examining the genealogy of neural network architectures—from Frank Rosenblatt’s Perceptron to contemporary transformer-based models—this article demonstrates how these architectures materially shape the capacities, outputs, and interpretive possibilities of machine learning models.

Keywords:neural networks, formalism, machine learning, artificial intelligence, computational literary studies

06

生成美学:论AI诗歌中的形式僵化

Generative Aesthetics: On formal stuckness in AI verse

Ryan Heuser

摘要:本文通过一系列计算实验,考察了AI生成诗歌的形式与美学模式。通过对韵律和节奏的分析,揭示了大语言模型在其输出中表现出一种顽固的形式固着。本文证明,大语言模型往往使诗歌形式僵死,它们生成的文本在形式上趋于保守,甚至比文学史上形式最严格的时期更刻板地遵循传统诗歌惯例。本文将这一发现解释为一种追求理想化形态的计算逻辑——这种逻辑将满足形式期待置于对期待的巧妙挫败之上,将规则性置于变化之上,将趋同置于矛盾之上。本文提出“生成形式主义”作为一个批评框架,该框架扩展了传统以及量化和形式主义方法,用以理解生成系统如何处理、扁平化并物化文化生产。

关键词:人工智能,数字人文,批评理论,诗律学与诗学

Abstract:This paper examines the formal and aesthetic patterns of AI-generated poems through a series of computational experiments. Through analyses of rhyme and rhythm, it reveals how large language models (LLMs) exhibit a stubborn, formal stuckness in their outputs. The paper demonstrates that LLMs often ossify poetic forms by producing formally conservative texts that adhere more rigidly to traditional poetic conventions than even the most formally strict periods of literary history. The paper interprets these findings as evidence of a computational logic of idealization that privileges the satisfaction of formal expectation over its artful frustration, regularity over variation, and conformity over contradiction. It proposes “generative formalism” as a critical framework that extends traditional as well as quantitative and formalist methods to understand how generative systems process, flatten, and reify cultural production.

Keywords:artificial intelligence, digital humanities, critical theory, prosody and poetics

图:Chadwyck-Healey 语料库中押韵诗歌的频率与 LLM 生成诗歌的比较。生成模型被提示生成三种类型的诗歌:押韵诗、不押韵诗以及未指定是否押韵的诗。点表示平均概率;点的大小表示每个数据点对应的诗歌数量;须线表示标准误差。

Figure:Frequency of rhymed poems in the Chadwyck-Healey corpora compared with LLM-generated verse. Generative models were prompted for three types of poems: rhyming poems, unrhyming poems, and poems without specifying whether to rhyme. Points indicate mean likelihood; size indicates the number of poems per data point; whiskers show standard error.

07

情感的拉锯战:1967–2023 年中文流行歌词中情感周期的测量与建模

Tug-of-War of Emotion: Measuring and Modeling Sentiment Cycles in Chinese-Language Pop Song Lyrics, 1967-2023

Xiaolu Wang

摘要:流行音乐学者通常认为,流行歌词情感的趋势(随时间变得更积极或更消极)会“镜像”反映听众偏好或社会精神风貌的变化。例如,英文流行歌词中检测到的单调递减趋势通常被解读为“反映了”听众群体情感和精神状态的恶化,以及/或者对更消极(或更不积极)歌词偏好的增长。本研究通过提出一种替代性的“均衡解释”来挑战这种“镜像解释”。均衡解释认为,听众的平均情感偏好可能在几十年间保持大体稳定,而均衡过程要么使流行歌词的情感趋同于听众偏好,要么使歌词情感围绕听众偏好波动。为探索这一替代性解释,本研究测量并对超过26万首中文流行歌曲(1967-2023)的歌词情感运动进行了建模。为量化大量歌词的情感,本文开发了一种结合大语言模型和基于词典的情感分析的新方法,用以提取歌词中的情感信息。测量得到的平均歌词情感轨迹呈现出(阻尼)正弦波样式的模式,估计周期为34至35年。此外,本研究并未止步于识别情感模式,而是进一步构建了一个数学模型,解释形成此类模式的潜在文化过程——音乐听众与词作者之间的互动。一个简洁的阻尼谐振荡(DHO)模型能够解释中文歌词(周期性)和英文歌词(非周期性)中的歌词情感运动模式,并且模型参数经过统计估计。DHO模型对经验数据的解释力为均衡解释提供了支持。总体而言,本研究使任何试图将大众文化产品特征变化作为潜在社会心理趋势代理变量的尝试变得更为复杂。

关键词:流行音乐,情感分析,文化周期,大语言模型,自然语言处理,阻尼简谐振荡

Abstract:Scholars of popular music often assume that trends in the sentiment of pop song lyrics (becoming more positive or negative over time) “mirror” those in listeners’ preferences or the ethos of societies. For example, the detected monotone downward trend in the sentiment of English-language pop lyrics is typically interpreted as “reflecting” the deteriorating emotional and mental state in listener populations and/or the increasing demand for more negative (or less positive) lyric sentiment. This study challenges this “mirror interpretation” with an alternative “equilibration interpretation,” which posits that the average listener sentiment preference may remain largely stable across decades, and it is the equilibrating process that either brings the sentiment of pop lyrics closer to the listener preference or make the lyric sentiment oscillate around the listener preference. Exploring this alternative interpretation, this study measures and models the movement of lyric sentiment in more than 260,000 Chinese-language pop songs over six decades (1967–2023). To quantify the sentiment of a large volume of lyrics, a novel approach of combining large language model (LLM) and lexicon-based sentiment analysis is developed to extract affective information from lyrics. The resulting trajectory of measured average lyric sentiment exhibits a (damped) sine-wave-like pattern with an estimated period of 34 to 35 years. Moreover, this study does not stop at identifying sentiment patterns but goes further to build a math model that explains the possible cultural process—interactions between music listeners and lyricists—underlying the formation of such patterns. A parsimonious Damped Harmonic Oscillation (DHO) model can explicate both the periodic (in Chinese lyrics) and nonperiodic (in English lyrics) patterns of lyric sentiment movements, and the model parameters are estimated statistically. The explanatory power of the DHO model over empirical data lends support to the equilibration interpretation. In general, this study complicates any attempt to use changing features of mass cultural products as proxies for some underlying socio-psychological trends.

Keywords:popular music, sentiment analysis, cultural cycles, LLM, NLP, damped harmonic oscillation

图:年度平均歌词情感的周期性轨迹(计算过程借助 ChatGPT)。曲线周围的灰色带是 LOESS 预测情感值的 95% 置信区间。

Figure:Periodic trajectory of the yearly average lyric sentiment (calculations assisted by ChatGPT).

The gray band around the curve is the 95% confidence interval for the LOESS-predicted sentiment values.

08

莎士比亚公司项目数据集 2.0 版

Shakespeare and Company Project Data Sets, Version 2.0

Joshua Kotin, Rebecca Sutton Koeser

摘要:“莎士比亚公司项目”数据集详细描绘了两次世界大战之间 Sylvia Beach 经营的“莎士比亚公司”书店及借阅图书馆的面貌。本文概述了促成数据集重大更新的研究、数据策展和开发工作。2.0 版对 1.2 版中包含的数据集进行了细化和扩充,并新增了两个数据集,分别关注借阅图书馆流通图书的作者以及借阅图书馆成员的地址。本文应作为 2022 年发表于《文化分析学刊》的《莎士比亚公司项目数据集》一文的补充。

关键词:现代主义,文学,书籍史,图书馆,接受史,阅读,地图,人口统计,读者

Abstract:The Shakespeare and Company Project data sets provide a detailed portrait of Shakespeare and Company, Sylvia Beach’s bookshop and lending library in interwar Paris. This article outlines the research, data curation, and development that led to a major update of the data sets. Version 2.0 refines and augments the data sets included in Version 1.2, and adds two new datasets, focused on the authors of the books that circulated in the lending library and the addresses of lending library members. The article should be read as a supplement to "Shakespeare and Company Project Data Sets," published in the Journal of Cultural Analytics in 2022.

Keywords:modernism, literature, book history, libraries, reception history, reading, maps, demographics, readers

图:这张巴黎地图按区显示了成员分布,以及左岸成员占主导的情况。

Figure:This map of Paris shows members by arrondissement and the predominance of members on the Left Bank.

09

折衷主义读者

The Eclectic Reader

James English,J. D. Porter

摘要:近三十年来,折衷主义(Eclecticism)一直是文化消费社会学最核心的关注点之一,但关于读者阅读折衷主义的研究却几乎付诸阙如。我一直利用 Goodreads 的数据来弥补这一研究盲区。这项研究使我得以描述高度活跃的 Goodreads 用户在阅读习惯上呈现出的宽窄模式,这些模式在很大程度上类似于其他文化实践领域学者所发现的“杂食者(Omnivores)与单食者(Univores)”的社会分层图式。然而,我的分析也凸显了该定量模型的局限性,以及折衷主义概念本身在社会学文献中常被忽视的诸多弊端。这些问题具体涉及:折衷主义与时间性的内在关系;研究中对偏好(品味)与实践(习惯)的混淆与滑动;以及对文学和文化作品进行分类时,存在多种同样合理但不可通约(Incommensurable)的分类范式。

关键词:折衷主义,文化消费,文学社会学,经验读者研究,Goodreads,体裁,杂食者论题,阅读的时间性,文学数据研究

Abstract:Eclecticism has been among the most central concerns in the sociology of cultural consumption for 30 years, but hardly any research has been done on the eclecticism of readers. We have been using data from Goodreads to address this blind spot. Our research enables us to describe some general patterns of breadth vs narrowness in the reading habits of highly active Goodreads users, which largely resemble the socially hierarchized schema of omnivore vs univore discerned by scholars in other fields of cultural practice. But our analysis also highlights the limitations of our model, and indeed of eclecticism itself, a concept rife with problems that have have often gone unremarked in the sociological literature. These problems involve the relationship of eclecticism to temporality; the slippages between preference (taste) and practice (habit); and the sheer variety of equally legitimate but incommensurate ways to classify works of literature and culture.

Keywords:Eclecticism, cultural consumption, sociology of literature, empirical reader studies, Goodreads, genre, omnivore thesis, temporality of reading, literary data studies

图:3,209 位用户的距离得分(所有成对书籍之间平均距离)与香农得分(香农多样性指数)对比图,线条显示中位数和拟合线。颜色对应每个用户收藏中排名靠前的体裁簇。圆圈大小对应于每个用户收藏中用于计算得分的书籍数量。

Figure:Distance Score (mean of all pairwise distances between books) vs Shannon Score (Shannon diversity index) for 3,209 users, with lines showing median and fit. Color corresponds to the top genre cluster in a user’s collection. The size of a circle corresponds to the number of books in each user’s collection that were used to calculate their scores.

10

“德语虚构作品翻译映射”数据集:数据收集、范围与数据质量

The “Mapping German fiction in translation” dataset: Data collection, scope, and data quality

Lisa Teichmann

摘要:“德语虚构作品翻译映射”数据集包含 35,972 种翻译虚构作品的条目,这些作品原版以德语出版于 1980-2020 年间,作者共计 6,457 位,涉及 86 种语言。它是首个从德国国家图书馆提取的、可自由获取的书目翻译数据集(提取于 2021 和 2023 年)。该数据集是一个更大项目的一部分,该项目旨在通过翻译来映射德语虚构作品的地理与语言踪迹。项目开发了用于地理制图和网络分析的可视化工具,可在 GitHub 仓库中获得。本文中,我记录并评估了数据提取过程、编目与收藏实践以及数据质量,特别关注了所用方法的挑战与局限。

关键词:翻译,德国国家图书馆,书目数据,数据集,数字翻译史,数据质量

Abstract:The “Mapping German fiction in translation” dataset consists of 35,972 translated titles of fiction originally published in German between 1980-2020 by 6,457 authors in 86 languages. It represents the first freely available dataset of bibliographic translation data extracted from the German National Library in 2021 and 2023. The dataset is part of a project that aims at mapping the geographic and linguistic traces of German fiction by means of translation. Visualization tools for geographic mapping and network analysis have been developed which are available in a Github repository. In this paper I document and evaluate the data extraction process, cataloguing and collection practices, and data quality, with special attention to the challenges and limitations of the applied approach.

Keywords:translations, German National Library, bibliographic data, dataset, digital translation history, data quality

图:“德语虚构作品翻译映射”数据集的编译与文档工作流程。

Figure:Workflow for compiling and documenting the Mapping German fiction in translation dataset.

以上内容来自官方网站:

https://culturalanalytics.org/

经数字人文资讯小编翻译整理而成

如需转载请后台私信联系

编译丨罗斯鹏

校对丨魏翔

排版丨洪冰凤

阅读原文

跳转微信打开

专业资讯 | 欧洲文化遗产通用数据空间 (Common European Data Space for Cultural Heritage) 介绍

2026年5月15日 08:30

2026-05-15 08:30 湖北

欧洲文化遗产通用数据空间(Common European Data Space for Cultural Heritage,CE-DSH)是欧盟委员会于2021年11月10日正式启动的旗舰数字倡议,是欧盟数据战略框架下14个战略和公共利益领域数据空间之一。

该数据空间建立在Europeana欧洲数字文化平台之上,旨在为欧洲各地的博物馆、画廊、图书馆和档案馆提供一个可信、可互操作且包容的基础设施,实现文化遗产数据的跨边界、跨部门共享与再利用。它由Europeana基金会领导的联盟负责部署,通过欧盟数字欧洲计划(the DIGITAL Europe programme)提供资金支持。

一、 政策背景

2021年,欧盟数据战略提出构建单一数据市场的愿景,旨在提升欧洲全球竞争力与数据主权。在重点战略领域搭建欧盟通用、可互操作的数据空间,是该战略的核心支柱。数据空间整合各类数据基础设施与治理框架,助力数据共享,释放数据在创新、经济与社会领域的潜力。

这也是欧盟打造服务公共利益的数字基础设施、追求技术卓越与数字主权整体愿景的重要组成部分,同时坚守隐私安全、网络安全、数据伦理等欧洲核心价值观。文化遗产数据空间,正是欧盟战略性经济领域与公共事业领域可互操作数据空间生态体系的重要一环。

2021年《欧洲文化遗产通用数据空间建议书》正式发布,旨在鼓励并加速欧盟成员国文化遗产数字化与保护工作,提升数据空间内文化遗产内容供给,尤其是三维资源与高清数字资源。助力文化遗产机构把握数字化转型机遇,设定2030年高质量数据发展目标,为跨领域数据复用、创意创新奠定基础。

该政策延续了欧盟自2006年以来的文化遗产数字化投入与规划布局,彼时数字图书馆与欧洲数字文化平台倡议已初具雏形。

当下,多元包容发展,可靠、均衡的信息普惠面临挑战,而欧洲文化遗产承载着历史记忆与价值内核,为欧洲自主塑造未来发展道路提供资源支撑与灵感源泉。欧盟委员会主席冯德莱恩发布的《2024-2029年欧盟委员会政策指导方针》明确提出,要简化民众尤其是年轻一代接触、享用欧洲多元文化遗产的渠道。

地缘政治格局演变、气候环境持续恶化,促使欧洲提前布局,从网络安全与实体安全双重维度完善文化遗产数据韧性保障体系,守护各国数字化建设形成的文化遗产数据资源。

“数据开放”是欧盟2025年发布的《人工智能大陆行动计划》核心要义。该计划旨在挖掘人工智能潜力、防范技术风险,提升欧洲创新竞争力,捍卫民主价值观,保护文化与语言多样性。同时强调,可信、高质量、可互操作的数据集是人工智能安全合规落地的关键支撑。作为2025年11月《数据联盟战略》中“人工智能优质数据计划”的重要内容,欧洲超3000万件文化机构数字化藏品将向人工智能研发开放,扩充欧盟文化与语言资源库。

此外,欧洲文化遗产通用数据空间建设,被纳入欧盟文化战略框架《文化罗盘》20项旗舰行动之一,助力提升欧盟竞争力、发展韧性与社会凝聚力。

二、 发展历史——从“欧洲数字文化平台”到“欧洲文化遗产通用数据空间”

“欧洲文化遗产通用数据空间”是欧盟旗舰项目,旨在推动欧洲文化领域数字化转型,赋能数字文化遗产内容创作与复用。其建设深度依托过去二十年间欧洲数字文化平台倡议在欧盟委员会及各成员国政资支持下取得的各项成果。

“欧洲数字文化平台”构想始于2005年,由六国国家元首及政府首脑向欧盟委员会提议打造欧洲数字图书馆。2008年,欧洲数字文化平台官方门户正式上线,成为欧洲数字文化遗产统一访问入口。欧洲数字文化平台基金会作为独立非营利机构在荷兰成立,负责统筹项目建设与运营。

伴随文化遗产行业数字化转型,该平台不断迭代升级,如今已成为欧盟官方标杆性数字文化遗产门户,支持欧盟所有官方语言访问。

2017-2022年,依托欧洲联通设施计划资助,欧洲数字文化平台数字服务基础设施完成搭建与扩容。除门户资源访问功能外,应用程序编程接口及其他机器可读接口,支持数据提供商的元数据与数字资产在教育、科研及其他场景中复用。

多年来,欧洲文化遗产行业联合制定完善数据模型、授权发布规范等标准框架,实现元数据互操作、高质量数据归集与版权信息明晰化。相关标准不仅获得欧洲行业认可,更在全球范围内推广应用。

2022年,依托欧洲数字文化平台数字服务基础设施及2020-2025年战略规划,在欧洲数字化计划资金支持下,“欧洲文化遗产通用数据空间”正式启动建设。凭借深厚发展积淀,该数据空间成为欧盟为数不多的已投入实际运营的行业数据空间。

截至2025年,该数据空间已汇聚欧洲3200余家博物馆、图书馆、档案馆、美术馆的6100余万件数字化文化遗产资源,涵盖艺术品、历史文献、古迹遗址、文物藏品等类型。文化机构共享的数字资产中,约80%可实现不同形式的二次复用。

欧洲数字文化平台成熟的行业社群为数据空间发展提供坚实支撑:数千家文化遗产机构开放数字资源;平台聚合商论坛汇聚国家级、区域级、专题类认证聚合机构,助力中小机构数据共享与经验交流;欧洲数字文化平台网络协会集结近6000名行业专业人士,跨领域提供专业建议,深度参与数据空间建设。

各成员国积极参与并支持数据空间建设,其代表与欧盟委员会共同组成专家组,主导数据空间治理工作。同时成员国联合开展全欧文化推广活动,如“文化三维复刻计划”,汇聚欧洲标志性古迹、遗址与文物的高精度三维模型,欧盟轮值主席国持续为项目提供支持。

图:欧洲数字技术栈灵感源自欧洲栈(EuroStack)——数字主权的欧洲替代方案

图源:denkschets.nl

三、 发展现状与未来方向

欧洲文化遗产通用数据空间发展环境持续演变,机遇与挑战并存,深刻影响其2030年发展愿景与核心布局。

1. 发展机遇

(1) 创新技术赋能数据空间扩容,深挖文化遗产数据价值;丰富多元的数据资源催生全新应用场景,为数据持有方与跨行业使用者创造经济价值。

(2) 大数据、人工智能、三维建模、沉浸式技术等新兴技术门槛持续降低,可精准匹配文化遗产行业发展需求。

(3) 欧洲各国、欧盟层面及国际文化遗产相关倡议生态持续壮大;强化协同联动与系统互操作性,是实现大规模数据可持续复用、巩固数据空间标杆地位的关键。

(4) 围绕数据空间形成的文化遗产机构、认证聚合商、数字文创从业者社群不断壮大,成为推动行业数字化转型的重要助力。

相关配套倡议:欧洲文化遗产协作云、欧洲开放科学云、欧洲语言技术联盟、时光机器组织、欧洲创新与技术研究院文化创意板块,以及旅游、传媒等领域专项数据空间。

2. 现存挑战

(1) 人工智能等颠覆性技术快速迭代,对高质量数据需求激增;文化遗产机构愈发希望自主掌控数字数据复用规则,尤其是可商业化变现的数据使用权限。

(2) 中小文化遗产机构缺乏新兴技术应用能力,亟需常态化科普宣传、能力建设与技能培训,缩小数字技能鸿沟。

(3) 各类文化遗产相关倡议各自为战、壁垒森严,难以联动发展;需深化跨界合作,打破行业隔阂,实现资源协同与互联互通。

(4) 部分成员国未将文化遗产数字化纳入国家重点规划、资金投入不足,导致2030年数据空间资源建设目标进度滞后。

2030年前,数据空间将立足机遇、破解挑战:持续归集可信高质量文化遗产内容,依托欧洲数字文化平台门户开放资源,通过应用程序编程接口拓宽大众及行业复用渠道;搭建统一数据目录,实现多源异构数据集溯源式检索;建立数据供需方去中心化交换机制,打通与其他数据空间、行业倡议的互操作通道,适配多类型数据流转与多元使用规则。

四、 发展愿景

打造欧洲文化遗产通用数据空间,实现四大目标:

(1) 持续开放文化遗产资源,推动全民普惠访问;

(2) 优化数据流转体系,赋能欧洲价值创造、产业创新与竞争力提升;

(3) 适配参与主体需求与前沿技术发展趋势,动态迭代升级;

(4) 凝聚多元行业社群,依托可信治理模式、坚守伦理准则与以人为本的数字理念,助力文化遗产行业数字化转型。

五、 三大核心优先事项

2025-2030年战略围绕三大核心优先事项展开,同时贯穿三大横向核心主题,全面支撑数据空间落地、扩容与长效发展:

1. 横向主题

(1) 人工智能:挖掘人工智能在文化遗产数据应用的潜力,同时以文化遗产数据赋能欧洲人工智能产业发展;

(2) 三维与扩展现实:三维数字化是受损文化遗产保护修复的核心手段,结合扩展现实技术可打造沉浸式体验,活化欧洲文化遗产;

(3) 多语言服务:坚守欧洲文化与语言多样性,保障所有民众可使用母语无障碍访问数据空间资源。

2. 优先事项一:构建稳健可互操作的数据空间基础设施,提升数据多样性与质量

聚焦数据空间扩容升级,筑牢基础设施、标准框架与治理体系,丰富高质量、多类型文化遗产数据供给。

核心痛点

(1) 文化遗产及其他领域数据空间需适配全球化、分布式、跨学科数据交互,实现不同主体、数据类型、语言体系、法律伦理规则的融合互通;

(2) 数字化进程中数据类型迭代加快,老旧数据淘汰、新型数据涌现,需丰富数据粒度、数据类型与共享机制;

(3) 数据开放与人工智能普及背景下,数据溯源、完整性保护、防滥用需求凸显,同时需挖掘文化遗产数据商业价值,助力机构创新商业模式;

(4) 需简化机构数据共享流程,制定可落地的数据共享与融合规范,遵循FAIR数据原则(可检索、可访问、可互操作、可复用)与CARE数据原则(集体普惠、管控权属、责任担当、伦理合规)。

发展目标

(1) 完善并扩容基础设施、标准框架与工具,创新数据共享模式,兼容多元文化遗产数据类型

维护现有数据归集基础设施与标准工具,依托聚合商网络助力机构上传高质量资源;搭建统一数据目录,适配多领域、多用户差异化需求,兼顾数据互联互通与国家数据主权;落地去中心化溯源共享机制,扩大参与主体范围;增设人工智能专用机器可读标识,明确资源版权、来源与使用范围,规范人工智能内容生成与解读行为。

(2) 完善治理机制,保障基础设施、数据、工具与服务的互操作性

优先对接欧盟其他通用数据空间及各国、区域相关倡议,依托通用标准、协议与中间件平台,搭建永久标识符体系,确保数据可溯源、可信任;完善统一政策法规与访问权限保护规则,衔接数据保护、知识产权、竞争法、网络安全等通用法律框架,制定公平可扩展的数据共享规范,适配多元数据、工具与服务场景。

(3) 扩充多语言、高质量、三维及特色数据集

联合全球文化机构、博物馆、图书馆、档案馆及科研院所,持续供给权威可溯源、多语言、高质量文化遗产资源;重点收录濒危文化遗产、热门古迹遗址的三维数字模型,加大数字化程度较低的文化领域资源建设力度;对标2021年建议书2030年发展目标,新增高清数字档案与三维资产,通过数据空间目录开放溯源数据集共享。

3. 优先事项二:简化文化遗产数据访问渠道,推动跨领域复用

聚焦释放数据空间价值,提供多语言便捷访问服务,依托场景化应用,实现文化遗产可信数据跨行业复用。

核心痛点

(1) 技术壁垒、版权限制、授权规则模糊,制约数据访问与二次复用;缺乏统一技术标准与机器可读版权元数据;

(2) 欧盟拥有24种官方语言,语言隔阂严重影响文化遗产资源普惠访问;

(3) 欧洲各类文化数据倡议林立,需强化跨界协作,释放海量数据的创新价值。

发展目标

(1) 打造多语言便捷访问通道,开放可信文化遗产数据

依托欧洲数字文化平台门户,持续面向文化从业者、科研人员、数据科学家及普通民众开放多元文化馆藏;打造专题内容与线上数字展览,拉近民众与欧洲共同历史文化的距离;优化应用程序编程接口与数字工具包,强化检索发现功能,赋能开发者、创作者二次开发;运用人工智能翻译技术,完善24种官方语言全场景服务,实现民众母语无障碍访问。

(2) 以需求为导向打造全新应用场景,拓宽数据复用边界

开放多元可信文化遗产数据,围绕市场需求定制数据集与工具包;借助人工智能、机器学习实现文化数据智能富集、语义检索优化,提升数据可发现性;依托文化遗产数据训练欧洲人工智能模型,留存欧洲文化与语言多样性;通过三维建模与扩展现实技术打造古迹、文物、艺术品沉浸式虚拟体验;兼顾开放数据与授权受限数据的融合复用,创新商业模式与应用场景。

(3) 构建跨界合作生态,赋能数据复用创新

联动文化遗产机构、科研院所、文创产业,对接旅游、传媒、教育、文娱、科技等行业及普通民众;搭建长期可信伙伴关系,依托数据治理、资源适配与工具支撑,匹配不同用户数据需求;引导文创产业将遗产数据融入数字叙事、游戏开发、沉浸式体验,挖掘经济与教育价值;通过黑客马拉松、行业竞赛等形式,推动数据可视化、扩展现实开发、人工智能数据分析等技术创新;深化与其他数据空间及大型行业倡议的联动协作。

4. 优先事项三:通过能力建设、网络联动与创新赋能文化遗产行业数字化转型

以实操化、体系化、可持续方式推进行业数字化转型,为机构与社会带来切实经济与社会效益。

核心痛点

(1) 文化遗产数字化缺乏统一的数据采集、元数据架构、长期保存标准,无成熟认证工作流程保障数字资产真实性、精准性与长效可访问性;

(2) 机构数字技能鸿沟突出,中小机构、民间组织缺乏数字化馆藏、数字保护、人工智能及三维技术应用能力;

(3) 欧洲各国、区域、机构间存在数字发展失衡,行业、学术、文创、科技领域协作碎片化,经验共享不足,创新受阻;

(4) 政策制定者对数字化转型价值认知参差不齐,资金投入规划缺乏长期性与稳定性;欧盟战略与各国落地实施衔接不畅,难以规模化推广创新成果。

发展目标

(1) 牵头制定数字化、数据保护与共享通用标准框架

出台数字化采集、元数据标注、辅助元数据架构、数字资源保存统一标准;适配新兴技术需求,制定人工智能内容策划、数字叙事、非物质文化遗产数字化呈现等认证工作流程;对接欧盟法律法规,保障欧盟资助文化遗产项目标准统一、长期可用与互操作;以通用标准支撑去中心化数据共享,规范目录编撰、数据质量合规、参与者身份认证,融入欧盟数据空间生态体系。

(2) 合规普及人工智能、扩展现实、三维建模、关联开放数据等新兴技术

坚持让新兴技术赋能文化遗产保护传承,而非取而代之;制定人工智能、三维建模、扩展现实在文化遗产领域应用指南与关键绩效指标;搭建人工智能伦理治理框架,规范自动化技术、人工智能元数据生成、数字叙事的合规应用;面向行业从业者推出多语言培训课程与工具,推动文化机构、科研院校、文创产业跨界知识流转与技术普及。

(3) 以包容性建设补齐能力短板

面向全规模机构普及数字工具与技能培训,重点扶持中小机构、资金不足组织及小众社群;根据各成员国机构数字化成熟度,推行分阶段技术落地;依托欧洲数字文化平台网络协会,搭建行业交流、导师帮扶、同业学习机制,缩小机构间数字发展差距。

(4) 联动成员国落实2021年建议书发展目标

依托国家级、区域级、专题级数据聚合商、文化遗产机构及各国项目工作组,深化成员国协作;深入拓展数据空间本地网络,强化区域社群支撑,加大小语种资源建设力度,提升行业规模化、可持续发展能力;联合欧盟轮值主席国,持续开展全欧文化推广活动,放大政策落地成效。

(5) 探索长期投资、制度保障与可持续运营模式

搭建欧盟及各国文化遗产数字化永久治理架构,争取成员国稳定政策与资金支持;探索可持续运营与商业模式,依托场景化应用实现价值共创与收益闭环,保障数据空间长效运转。

六、 收藏介绍

1. 迁徙

人类一直在从一个地方迁移到另一个地方。了解著名移民的故事,以及普通人往返欧洲、在欧洲境内的旅程与生活。

2. 时尚

探索历史与当代时尚,以及它们如何影响我们的服装、鞋子、配饰和风格。探索草图、设计和服装,以及T台照片、目录和视频。

3. 考古学

探索文物和发掘,了解考古学家对人类历史和史前史的研究。

4. 艺术

探索艺术家和艺术运动,发现艺术及其绘画、素描、版画和雕塑的历史故事。

5. 工业遗产

探索技术与工业的历史,从工业革命到工业家、经济学家及普通职场生活的故事。

6. 手稿

探索手工制作的书面材料,从纸莎草到纸张。探索从古代到早期印刷时代的文本、插图及其背后人物。

7. 地图与地理

探索地球的物理和人类特征。发现地图和制图者、风景以及那些曾经探索过这些景观的人们。

8. 音乐

探索录音、乐谱、乐器和音乐风格,以及作曲家和表演者。

9. 自然历史

通过绘画、照片和标本的文字,以及研究它们的生物学家和植物学家,探索对动植物的研究。

10. 报纸

探索1618年至1980年代的印刷出版物。了解标题、全文文章、广告及其背后的作者。

11. 摄影

探索摄影的历史,发现令人惊叹的影像,并了解背后那些摄影师。

12. 体育

探索体育和运动员的历史,通过照片、影片、声音录音和文字记录从日常经历到奥运荣耀的高峰。

13. 第一次世界大战

通过官方历史、政治和宣传,探索1914-1918年的事件,以及前线和后方未被讲述的个人故事。

以上内容来自官方网站:

https://www.dataspace-culturalheritage.eu/en

经数字人文资讯小编翻译整理而成

如需转载请后台私信联系

编译丨洪冰凤

校对丨罗斯鹏

排版丨魏翔

阅读原文

跳转微信打开

专业资讯 | 宗教书籍规范索引(CRTA)介绍

2026年5月8日 08:00

2026-05-08 08:00 湖北

CRTA,即Chinese Religious Text Authority(宗教书籍规范索引),是一个面向中国宗教文献研究的开放式书目与学术信息平台。

一、CRTA简介

CRTA,即Chinese Religious Text Authority(宗教书籍规范索引),是一个面向中国宗教文献研究的开放式书目与学术信息平台。它的核心目标并不是提供单一文本的全文阅读,而是为1949年以前产生的中国宗教文献建立可靠、可检索、可关联的资料索引。该项目提供有关中国宗教文本的可靠书目和学术信息,重点关注1949年前的中国宗教文献;截至2026年4月,平台已收录超过6230条记录。

1.CRTA的意义

CRTA的重要性首先体现在它对中国宗教文献的规范化整理。中国宗教文本,尤其是晚明以来的善书、宝卷、道教文献、民间宗教经卷、佛教期刊、寺观志及各类地方性宗教印刷品,长期分散在不同丛书、图书馆、私人收藏和数字资源中。研究者常常面对同一文本多种题名、不同版本、不同收藏地点和复杂出版信息的问题。CRTA试图通过统一的条目结构,将题名、拼音、出版年代、出版地点、文本格式、作者或编者、出版者、所属丛书和馆藏来源等信息集中起来,使研究者能够跨越单一馆藏或单一丛书的限制,对宗教文本进行系统检索和比较。其高级检索页面也显示,用户可以按题名、拼音、出版地点、文本形态、作者、出版者和年代等字段检索条目。

CRTA将传统文献学中的目录、版本、题名和馆藏信息转化为结构化数据。传统研究往往依赖个别目录、馆藏记录或研究者手工比对,而CRTA把这些信息放入一个可查询的数据库环境中,使文本之间的关系可以被系统观察。其次,CRTA的目标之一是连接不同收藏、档案和私人图书馆中的书目信息,并进一步描绘宗教文本生产者、出版者和传播者之间的关系网络。项目说明称,CRTA旨在连接跨收藏、跨档案、跨私人图书馆的书目信息,以呈现宗教文本生产、出版和流通者之间更细致的关系网络。这正是数字人文方法的典型方向:不是只阅读单篇文本,而是通过结构化资料揭示大规模文本群中的模式、关系和流动路径。

2.CRTA的研究范围

从研究范围看,CRTA覆盖中国宗教书籍文化。首页列出的资料来源包括《道藏》《藏外道书》《民间宝卷》《明清民间宗教经卷文献》《善书宝卷研究丛书》《中国民间信仰资料汇编》《中国佛教期刊》等多个大型文本集合,也包括哈佛燕京图书馆、法国国家图书馆、德国巴伐利亚州立图书馆、日本国立国会图书馆、中国国家图书馆、韩国藏书阁、早稻田大学图书馆等机构馆藏。这说明CRTA的对象不是某一种宗教传统内部的经典目录,而是中国宗教出版、流通和收藏网络中的文本整体。

3.CRTA的数据开放

其开放数据页面说明,CRTA wiki的内容以XML格式提供下载,并在每月月初打包更新。这使CRTA不只是一个线上查询工具,也可以成为数字研究的基础数据源。研究者可以下载XML数据,对条目进行再加工,例如统计某类宗教文本的出版年代分布、分析不同地域的出版中心、追踪某类宝卷或善书的传播路径,或者结合GIS、网络分析和数据库技术考察文本、人物、机构、地点之间的关系。

二、用户指南

基础功能应用

1. 为新条目创建红色链接

(1) 首先在已有合集页面上创建新条目的链接。

(2) 在包含目标文本的合集页面点击编辑按钮。

(3) 进入编辑界面后,在编辑窗口内滚动文本,找到待新增条目的对应行。

(4) 如需新建链接,请依照以下规范,将文本标题替换为新条目名称:

  • 使用文本标题作为条目标题。

  • 不要加入朝代、编者姓名、卷数,或文献集页面上可能出现的其他附加信息。

  • 例如,潘公免灾宝卷 应写作:
    潘公免灾宝卷 - J202
    即:标题、一个空格、短横线、一个空格、文献集与索引号。

(5) 使用双方括号包裹条目名称与编号,即为站内页面链接代码,示例:[[潘公免灾寶卷 - J202]]。

(6) 滑动至编辑页面底部,点击保存修改。

(7) 此时将返回合集页面,原黑色文字位置会变为红色链接;红色链接代表该条目页面尚未创建。

2. 创建新条目

(1) 点击新条目的红色链接,会进入一个标题为“Creating[你的条目标题]”的页面。

(2) 在新的浏览器标签页中打开Guide:Mock Entry,点击Edit,选中编辑框中的全部代码并复制。Windows系统使用Ctrl+C,Mac系统使用Command+C。

(3) 回到新条目的浏览器标签页,将复制的代码粘贴到编辑框中。之后可以关闭Mock Entry的标签页。

(4) 现在已经有了一个条目的基本结构,但还需要加入自己的数据,并替换所有占位数据。

3. 添加信息框数据

信息框数据会显示在条目右上角的一个小框中。这里输入的数据会被加入数据库,并可通过关键词检索。没有证据支持的数据不建议加入。如果某些贡献者只是推测的,或不确定的出版日期,可把这些内容加入下一节。括号中的附加信息也不支持加入,例如贡献者的朝代名,如(唐)。

在编辑框中,找到Item_infobox部分,并按以下说明逐行替换占位数据。不要更改每一行开头的代码,只需要在等号“=”后添加数据。列举多个字符串时,避免使用中文顿号或中文逗号,应使用英文逗号。

4. 添加条目数据

Item Data部分包含关于文本的自由格式信息。贡献者可以在这里对Item Infobox模板中列出的基本数据作进一步说明。

点击页面顶部的Edit链接,回到编辑窗口。在已经完成的信息框模板之后、__TOC__这一行之前,添加一段简短的条目描述,说明该文本的基本信息。长度不要超过三句话。

之后,可按照以下指南,用来自文本本身的数据替换Item Data模板中的占位内容。如果某个字段没有清晰资料,可留空,不建议填写“No information”或类似表述。这些条目可以很简略,也可以很详细。最低限度上,它们应说明信息框中数据所涉及的任何歧义或复杂情况。

Item_data字段说明:

5. 上传并添加图片

理想情况下,如果有合适图片,条目应提供一张代表性图像作为作品的封面或题名页。

(1) 截取文本封面页或题名页的图片,选择其中更具代表性的一种。将图片缩放,或转换为索引色,大小小于1MB,并保存为jpg或png文件。

(2) 在浏览器新标签页中打开Special : Upload页面。也可以在另一个标签页或窗口中打开主页,然后点击页面最左侧的Upload File。如果需要在上传页面和条目页面之间来回切换,这种方式会更方便。

(3) 点击Browse,在电脑中找到该图片。

(4) 在Destination filename中,可以把文件名从普通的默认文件名改成更便于之后使用的名称,例如:
PanGongBaojuan1865.jpg

(5) 在Summary中,可以简要说明这张图片是什么。如果它只是书籍封面,则不一定需要说明。但如果以后想添加更多图片,在这里说明图片内容和来源会有帮助。

(6) 点击Upload File。上传完成后,会被带到该文件新建的wiki页面。

(7) 编辑新条目,滚动到条目开头附近信息框代码中的|image=这一行。

(8) 将信息框中的No cover.png替换为上传图片的文件名。注意保留开头的File:。

(9) 保存条目,以提交这些更改。

用户创建新条目

1. 点击红色链接到新作品,将进入一个名为“创建[您的作品标题]”的页面。

2. 在新的浏览器标签页中,打开“Guide:Mock Entry”,点击编辑,选择编辑框中的所有代码并复制(Windows上按Ctrl+C;Mac上的Command+C)

3. 返回浏览器标签页,带着新条目,并将代码粘贴到编辑框中;可以关闭带有模拟条目功能的标签页

4. 有了条目的基本结构,但需要添加自己的数据并替换任何占位数据

5. 回到正在创建新条目的浏览器标签页,将刚才复制的代码粘贴到编辑框中。完成粘贴后,可以关闭Mock Entry的标签页。

6. 新条目已经具备了一个基本结构,但这只是模板结构。接下来还需要加入自己的文本资料,并替换模板中的所有占位内容。

这一步的目的不是完成条目,而是先把CRTA条目的标准框架复制到新页面中。之后的工作才是根据手中的纸本文献或扫描本,逐项填写题名、拼音、出版地点、作者、年代、馆藏来源和其他说明信息

7. 操作提示:在复制Mock Entry时,需要选中编辑框中的全部代码,然后把这些代码完整复制并粘贴到新条目页面中。不要只复制页面显示出来的普通文字,因为条目格式依赖MediaWiki源代码。

条目页面示例

三、当前文本集

四、数据开源

CRTA wiki的内容以XML格式提供下载。数据会在每月月初打包更新,供用户下载。

可复制并粘贴以下链接,并将其中的 YYYY 和 MM 替换为最近的年份和月份:

五、MediaWiki

MediaWiki是一种用于建立wiki网站的开源软件。简单说,它不是一个普通网页编辑器,而是一套可以让多人共同创建、编辑、修订、链接和管理知识内容的平台。最著名的例子就是Wikipedia。MediaWiki官方说明也指出,Wikipedia正是建立在MediaWiki软件之上的;它是免费的、基于服务器运行的wiki软件,并以GNU GPL协议授权。

从技术层面看,MediaWiki用PHP处理网页内容,并把页面数据储存在数据库中,例如MySQL。它的核心特点是:页面可以不断被编辑,但旧版本不会被直接删除。每一次修改都会留下历史记录,因此用户可以查看版本差异,也可以在出错、误删或遭到破坏性编辑时恢复旧版本。MediaWiki还可以管理图片和多媒体文件,并通过扩展功能处理更复杂的内容,例如结构化数据。

MediaWiki最重要的功能之一是它的wikitext语法。用户不一定需要懂HTML或CSS,也可以通过相对简单的标记语言编辑页面。例如,双方括号可以创建内部链接,单方括号可以创建外部链接,撇号可以控制斜体或粗体,表格、脚注、分类、模板等也都有固定写法。这一点对CRTA这类学术资料平台很重要,因为它让研究者可以在不直接写网页代码的情况下,创建规范化条目、加入书目信息、上传图片、建立文本之间的链接。

MediaWiki的官方帮助页把使用功能分成几个主要部分:阅读、编辑、高级编辑、协作、个人设置和wiki管理。阅读功能包括搜索、导航、页面历史、版本差异和打印;编辑功能包括登录、编辑页面、预览、撤销、编辑摘要、新建页面、格式设置、链接、用户页、讨论页和签名;高级编辑则包括图片、列表、URL、脚注、表格、分类、子页面、文件管理、页面移动、复位向、保护页面、模板、特殊页面和导出等功能。

因此,MediaWiki的价值不只是“可以编辑网页”。它真正强大的地方在于,它把网页内容变成一个可追踪、可协作、可链接、可扩展的知识系统。一个普通网站通常由管理员发布内容,读者只能阅读;而MediaWiki允许授权用户持续补充、修订、讨论和维护内容。每个页面都不是孤立的,而是可以通过内部链接、分类、模板和页面历史加入一个更大的知识网络。

放到CRTA的语境中,MediaWiki的作用尤其清楚。CRTA的条目创建依赖典型的MediaWiki机制:红色链接表示页面尚未创建;点击红色链接可以新建条目;条目通过模板和信息框录入结构化资料;内部链接把文本、文献集、作者、馆藏和用户页面连接起来;图片上传功能可以加入封面或题名页;页面历史则可以记录不同贡献者对条目的修改过程。换言之,CRTA不是简单地把资料放在网上,而是利用MediaWiki建立一个可以持续扩充、修订和互相链接的宗教文献知识平台。

从数字人文角度看,MediaWiki很适合文献目录、知识库、项目手册和协作型数据库。它既保留传统文献学所重视的条目、版本、题名、馆藏、注释和参考书目,又通过数字平台把这些信息组织成可检索、可维护、可链接的资料网络。它的弱点也很明确:如果缺乏统一规范,条目格式容易混乱;如果没有编辑规则,资料质量会不稳定;如果权限管理过松,也可能出现误改或破坏性编辑。所以,一个成功的MediaWiki项目通常不仅需要软件本身,还需要清楚的编辑指南、字段规范、引用规则和维护机制。

对Wikipedia来说,它支撑百科知识的开放编辑;对CRTA来说,它支撑宗教文献书目资料的规范化整理;对数字人文项目来说,它提供了一种成本较低、可扩展性强、适合多人协作的知识管理框架。

六、最近更新

1.最近更新的文本条目

密乘课本-I121

密宗法语-I120

妙绘赞释-I117

上师无上供养观行法-I116

觉世新新-H169

吕祖本愿经-H168

孚佑帝君真经-H167

指路宝筏-H166

2. 最近更新的神明页面

赤松道人

启窍星君

石真官

丽农夫子

普济真人

玄真古佛

慈悲大仙

黄龙真人

西眉古佛

铁骨禅师

梧桐古佛

长寿古佛

文通古佛

福禄寿星

长眉大仙

灵祖大帝

镇魔大帝

玉液真人

皓月当空佛

无量度世古佛

无极天尊

吕祖

以上内容来自官网

https://crta.info/wiki/Main_Page

经数字人文资讯小编翻译整理而成

如需转载,请后台私信联系

编辑丨魏翔

校对丨洪冰凤

排版丨罗斯鹏

阅读原文

跳转微信打开

论文征集|第四届粤港澳大湾区跨学科博士论坛:数字驱动的社会公平:技术、身份与人文的研究

2026年5月8日 08:00

澳大高研院 2026-05-08 08:00 湖北

第四届粤港澳大湾区跨学科博士论坛现已正式启动征稿

由澳门大学人文社科高等研究院主办的第四届粤港澳大湾区跨学科博士论坛现已正式启动征稿。本届论坛以「数字驱动的社会公平:技术、身份与人文的研究」为主题,延续前三届论坛推动跨学科对话的宗旨,致力于搭建一个响应全球性挑战、探索未来发展方向的重要学术平台。在数字化快速发展的当代,「数字驱动的社会公平」已成为我们共同面对的重大课题。我们需要深入剖析技术系统中隐含的权力结构,审视数字身份如何重塑公民权利,并在工具理性之外重新确立人文关怀与社会责任的价值坐标。本届论坛将继续促进跨学科视野的融合,汇聚人文、社会、科技等多元领域的智慧与方法,共同探索兼具有创新意义与实践可能的研究方案,为建设可持续、公平且包容的未来社会贡献学术力量。

论坛目标

本届论坛面向在读及即将毕业的博士生,议题涵盖人文、社会科学、自然科学与技术科学等多个学科领域,旨在为青年学者提供一个跨学科交流与合作的平台。参与者将有机会展示研究成果、交流学术思想,并与不同领域的青年学者及知名专家深入对话,获得宝贵的建设性意见。论坛不仅能促进学术思想的碰撞,还致力于构建跨学科的学术网络,拓展青年研究者的学术视野,建立长期合作关系,并以创新观点响应全球面临的挑战。

论坛分议题

(包括但不限于以下方向)

  • 数字素养

  • 数字公平与政府治理

  • 数字身份与公民权利

  • 数字正义与平台劳动

  • 数字福祉与社会

  • 算法偏见与排斥

  • 公平机器学习实践

  • 量子计算与法律

鉴于议题的广泛性,论坛将设置中英文双语分论坛,以确保来自全球的学者能充分参与与交流。

投稿与参会指南

1. 投稿对象

欢迎所有在人文、社会科学、自然科学、技术科学等领域从事研究的在读及即将毕业的博士生投稿。

2. 论文要求

  • 语言:英文或中文

  • 篇幅:7,000 – 10,000字

  • 格式要求

  • 英文稿件请遵循『牛津格式』(Oxford Style)。相关写作规范请阅读全文。

  • 中文稿件请参照『南国学术-澳门大学学报』。相关写作规范请阅读全文。

  • 投稿形式:请扫海报上的二维码,填写个人资料并提交论文全文及个人简介。

  • 原创性:论文须为原创且未发表,组委会保留查重与学术审核之权利。

  • 入选优秀论文将有机会在人文社科高等研究院出版之刊物『数字素养研究』中审议发表。

3. 个人简介

  • 字数:150-200字

  • 语言须与论文一致(英文或中文)

  • 含作者学术背景、研究兴趣及近期成果

4. 保密条款

组委会承诺对所有提交的论文与个人资料严格保密。

参会事宜

1. 免费参会

本次论坛对所有参与者免费开放,不收取任何参会费用。

2. 优秀论文评选与现场报告

组委会将评选出优秀论文,并邀请作者于论坛期间在澳门大学现场汇报研究成果。受邀报告者之在澳期间住宿及餐饮费用将由组委会承担。

重要日期

  • 5月31日:征稿截止日期

  • 6月15日:入选通知

  • 8月26日至27日: 论坛举辩日期

联络方式

本文转载自澳门大学人文社科高等研究院官方推送,有关论坛更多内容,请点击阅读全文。如果您有任何疑问,请通过电子邮件的方式随时与我们联系:iash@mail.sysu.edu.cn。

我们诚挚邀请各位博士生踊跃投稿与参与,共同在技术与人文的交汇处,探寻数字时代的公平与未来。

来源|澳大高研院UMIAS

已获转载授权

阅读原文

跳转微信打开

会议通知|“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)会议通知(第二号)

2026年5月1日 15:56

2026-05-01 15:56 湖北

摘要与海报征集5月10日截止

点击蓝字 关注我们

时间:2026年7月31日-8月3日

地点:内蒙古师范大学

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

一、 会议议题

包括但不限于:

1.典籍重光:科技古籍与多民族文献的智慧化整理

2.时空重构:GIS与时空大数据驱动的文明演进研究

3.协智重塑:多智能体与具身智能的人文社会仿真

4.谱系重绘:知识图谱与智能注释驱动的知识重组

5.记忆重述:AIGC赋能下的文化遗产与艺术创新

6.文脉重析:计量方法与主题模型的文本深度挖掘

7.伦理重思:数字人文中的算法批判与负责任创新

8.素养重育:数字人文课程体系与跨学科人才培养

9.数字人文学科建设

二、 会议信息

1.会议时间:

2026年7月31日至2026年8月3日

2.会议地点:

内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

3.会议注册:

本次会议将于2026年6月开放注册报名。

注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

三、 征文征集

1.会议征文对象为数字人文相关专业的专家、学者与在读学生。

2.论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3.征文分为两轮,第一轮为论文摘要和海报征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

(2)海报需以PPT格式制作,页面设置为90cm*120cm,纵向布局。

(3)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

4.组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5.论文提交邮箱:20250051@imnu.edu.cn。邮件标题格式为“CDH2026论文摘要/全文-姓名-单位”。

6.摘要提交截止时间:2026年5月10日

摘要录用通知时间:2026年5月30日

论文全文提交截止时间:2026年6月30日

四、 项目征集

1.本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2.所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3.请将报名表和相关附件压缩,以“CDH2026项目-项目名称”命名,发送至邮箱20250051@imnu.edu.cn。

4.项目征集截止时间:2026年5月30日

五、 会议组织

1.主办单位

中国索引学会

内蒙古师范大学

2.承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

3.协办单位(按笔画顺序排列)

IMR Press

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海财经大学“中文+数智经济”研究中心

上海财经大学国际文化交流学院

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

山西数字人文研究院

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

中山大学信息管理学院

中山大学数字人文实验室

中山大学数字人文联合研究院

中国人民大学数字人文研究院

中国社会科学院大学数字史学研究中心

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

东华大学纺织遗产与数字人文实验室

北京大学数字人文研究中心

北京师范大学文理学院中文系

北京师范大学珠海校区图书馆数字人文中心

电子科技大学数字文化与传媒研究中心

兰州理工大学文学院

华中科技大学汉籍数字化实验室

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

启元实验室战略研究中心

武汉大学文化遗产智能实验室

武汉大学数字人文研究中心

南京大学中华文明数智创新实验室

南京大学高研院数字人文创研中心

南京师范大学语言大数据与计算人文研究中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

首都师范大学初等教育学院

清华大学中国古典文献研究中心

淮阴师范学院文学院

湖北中医药大学医学人文学院

湖南女子学院文学与传播学院

(持续更新中)

4.媒体支持(按笔画顺序排列)

《Knowledge Organization》

《中国数字人文》

《古籍数字人文》

《全国报刊索引》

《南通大学学报(社会科学版)》

《信息与管理研究》

《烟台大学学报(哲学社会科学版)》

《数字人文》

《数字人文研究》

「DH数字人文」公众号

「DH数字人文动态」公众号

「IMR 图书情报学」公众号

「SHNU 数字人文」公众号

「三明学院学报」公众号

「山东大学」公众号

「广东省国学学会」公众号

「比特人文」公众号

「中国索引学会」公众号

「古代汉语信息处理」公众号

「立行数字人文」公众号

「全国报刊索引」公众号

「京狮人文DH」公众号

「科技古籍整理研究所」公众号

「域外汉籍与汉学研究」公众号

「揆古察今科史哲」公众号

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

AI & Innovation (《人工智能与创新》)

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

广东财经大学《智能高教》

社科大数字史学实验室

南京大学中华文明数智创新实验室

(持续更新中)

有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

六、 会议联络

1.会议邮箱:20250051@imnu.edu.cn

2.会务咨询:周老师 13191432051/18852850582(微信同号)

附件

2026年中国数字人文年会项目报名表

CDH2026论文格式规范与要求

阅读原文

跳转微信打开

专业资讯 | 2025年数字人文奖(DH Awards 2025)——突出数字人文中的资源

2026年4月25日 07:30

2026-04-25 07:30 韩国

数字人文年度奖项于2012年设立,获奖资源可以向公众可以提名,以表彰数字人文相关的人才和专业知识。提名与投票环节全面面向公众,每人限投票一次。最终获奖名单由提名委员会(Nominations Committee)参考票选结果综合评定。设立该奖项旨在提升公众关注度,推介有趣的数字人文资源,并吸引更多人参与社群工作。提名资源不限语言、文字体系及研究领域。我们特别欢迎少数民族语言、文化及相关领域的代表性资源参选。所有被提名的资源都具有研究价值,有助于深入了解数字人文的边界。

数字人文数据可视化项目

01

(例如:对数字人文数据资源进行可视化呈现的作品)

第一名

香港流行文化地图

(Hong Kong Pop Culture Map)

https://digital.lib.hkbu.edu.hk/culture-map/

第二名

Thiep 3D

https://thiep3d.univ-littoral.fr/

第三名

数字幽灵展览

(Digital Ghosts exhibition)

https://inspace.ed.ac.uk/digital-ghosts/

其他提名项目(按字母顺序排列):

数字人文数据集或模型

02

(例如:用于数字人文研究的文本语料库、数据表、模型或类似内容)

第一名

哥伦比亚互联网与网络史:1988-1996年多人讲述的故事

(History of the Internet and the Web in Colombia. A story told in many voices 1988-1996)

https://historiasinternet.uniandes.edu.co/

第二名

数字萨福

(Sappho Digital)

https://sappho-digital.com/index.html

第三名

诗树——11种语言的诗歌语料库

(PoeTree – Poetry corpora in 11 languages)

https://poetree.org

其他提名项目(按字母顺序排列):

数字人文短篇出版物

03

(例如:数字人文领域的博客、文章、影片)

第一名
 沃尔什,梅兰妮等.《熊会是男孩》

The Pudding (Walsh, Melanie (et al.). ‘Bears Will Be Boys’, The Pudding) https://pudding.cool/2025/07/kids-books/

第二名
 东布罗夫斯基,奎因.《别再对自己撒谎:集体错觉与数字人文资助》,载《重新框架数字学术中的失败》

(Dombrowski, Quinn. ‘Stop lying to yourself: Collective delusion and Digital Humanities grant funding’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/reframing-failure-in-digital-scholarship-a56118ab-e4eb-4eb4-9dca-e8c343c6441b/section/9bbd0f75-6d96-48e2-bcc1-e8e5a6d07ce9#ch1

第三名
 丘拉,阿里安娜.《在包容性研究文化中与破碎共处:我们能从数字人文实验室的失败和过程中学到什么》,载《重新框架数字学术中的失败》

(Ciula, Arianna. ‘Living well with brokenness in an inclusive research culture: what we can learn from failures and processes in a digital humanities lab’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/316fdea1-5051-4f50-8957-afbc51342998/section/2e8944d9-ba98-4ef9-bcb8-159fa546e237#ch7

其他提名项目(按字母顺序排列):

数字人文工具或工具套件

04

(例如:用于构建数字人文资源的工具)

第一名
 ArtVis——艺术史可视化

(ArtVis – Art History visualized)

https://artvis.cvast.tuwien.ac.at/

第二名
 多民族语言智能数据处理与知识服务系统

(Multilingual Intelligent Data Processing and Knowledge Service System)

http://106.12.154.220:15001/

第三名
 RelicarIA

https://relicaria.streamlit.app/

其他提名项目(按字母顺序排列):

数字人文训练材料

05

(例如:各种形式的讲座、幻灯片、练习、视频或操作指南)

第一名
 情境中的负责任数据集:协作设计伦理人文学科数据教育

(Responsible Datasets in Context: Collaboratively Designing for Ethical Humanities Data Education)

https://www.responsible-datasets-in-context.com

第二名
 照亮过去——低成本多光谱成像培训

(Illuminating the Past — Training for low cost multispectral imaging)

https://grants.uccs.edu/illuminating-the-past/

第三名
 古代文本课程教材的大语言模型 (LLM-for-Ancient-Text-Coursebook)

https://github.com/chowshelly101-jpg/LLM-for-Ancient-Text-Coursebook/tree/main

其他提名项目(按字母顺序排列):

数字人文资源

06

(例如:数字人文数字学术出版物、档案库或资源库)

第一名
 看不见的东方数字语料库

(Invisible East Digital Corpus)

https://www.invisible-east.org/

第二名
 19世纪奥里诺科河旅行者

(Viajeros del Orinoco Siglo XIX)

https://biblioteca.uniandes.edu.co/proyectos/viajeros-orinoco/index.html

第三名
 20世纪印度建筑档案,PAHA(浦那建筑史档案馆)

(Architectural Archives of 20th century India, PAHA (Pune Architectural History Archive))

https://paha.site

其他提名项目(按字母顺序排列):

数字人文娱乐化应用

07

(例如:以娱乐为目的应用数字人文的项目)

第一名
 图钉故事

(Pin the Tale)

https://pinthetale.co.uk/

第二名
 Gamaikus

https://yohannawaliya.itch.io/gamaikus

第三名
 中国艺术史与3D绘画电子学习平台

(E-Learning Platform of Chinese Art History and 3D Paintings)

https://digital.lib.hkbu.edu.hk/history/3d-paintings/index.html

其他提名项目(按字母顺序排列):

以上信息来自“DH Awards 2025”官方网站:
 http://dhawards.org/dhawards2025/results/

经数字人文资讯小编翻译整理而成
 未经许可请勿转载

编辑 | 罗斯鹏

校对 | 魏翔

排版 | 洪冰凤

阅读原文

跳转微信打开

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026年4月19日 08:30

2026-04-19 08:30 湖北

本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的9篇论文进行介绍。

01

识读不可读文本:基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要:奥斯卡・王尔德曾言:“文学与新闻的区别在于,新闻不堪卒读,文学无人问津。” 遗憾的是,王尔德所处的 19 世纪数字化存档新闻文本,其光学字符识别(OCR)结果往往缺失或质量低劣,既降低了档案的可获取性,也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题,本研究采用预训练图像转文本语言模型 Pixtral 12B,对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》(NCSE)开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比,结果显示其字符错误率中位数仅为1%,较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果,具备高质量字符识别文本,并将文本划分为4个类别与17个主题,包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放,旨在助力历史学与社会学研究,让21世纪的读者得以足不出户识读这份“不可读文本”,共情王尔德对19世纪新闻水准的遗憾。

Abstract:Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图:边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框,重叠区域以深蓝色标注

Figure:Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

02

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要:剪纸艺术是中华传统文化中独具特色的非物质文化遗产,当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失,部分剪纸品类濒临消亡,其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值,结合Grab-Cut算法,实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理,提升图像质量;其次采用改进遗传算法优化后的Canny算子,提取剪纸纹样整体轮廓;随后设计Grab-Cut算法,针对性分割剪纸设计元素轮廓,并借助CDR软件处理矢量图像,生成独立可编辑矢量文件;最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明,本研究提出的方法可有效检测剪纸图像纹样真实边缘,完成轮廓提取,纹样各设计元素的像素分割精度达96%以上,为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract:As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图:剪纸图像平滑去噪处理 (a) 原始图像;(b) 增强后图像

Figure:Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

03

丈量东方之声:华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要:1978年改革开放以来,中国流行音乐产业高速发展,成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法,对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数,从静态与动态双维度揭示了歌词文本的高活跃度,佐证了其叙事性的文体本质。歌词情感分析结果显示,文本整体呈现积极基调,而2000年成为重要分水岭,前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明,不同时期歌词的主题分布模式呈现多元化特征,既体现了流行文化的普世性,也彰显了文化与时代语境塑造下的中国本土特质。

Abstract:Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图:潜在狄利克雷分配模型评估:一致性与困惑度对比

Figure:LDA model evaluation: Coherence vs. Perplexity.

04

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要:本研究选取三位代表性诗人,从词汇意象、时空解构、主题演变与情感表达四个维度,对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法,融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术,辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论:其一,两类诗歌均以自然与禅意为核心,共享相似的词汇与意象体系;其二,二者均体现永恒视角与历史意识的交织,以及宇宙宏大性与人世现实性的辩证关系;其三,主题演变层面,江南禅诗“自然与禅”的核心内核,在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架;其四,江南禅诗侧重超脱与空寂的审美表达,高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实,该方法可有效提升古典诗歌文本的中文分词精度,彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract:This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图:禅诗名词词云图 (a)雪窦重显;(b)杨杰;(c)义天

Figure:Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

05

近代早期英语的善恶语义空间:道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要:本文提出一种创新研究方法,通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》(EEBO-TCP)语料库,构建语义模型,梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法,设定善恶、女性-男性两大启发式坐标轴,将词汇映射至坐标轴中,挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标,揭示了概念与性别道德化宏观范式的适配规律。研究发现,多数词汇集中于“女性/邪恶”象限,而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数,可无监督挖掘文本潜在二元对立关系,识别塑造近代早期话语体系的文化维度,涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景:道德对立并非静态固化,而是相互重叠、动态流变;该模型打破了固定二元对立的认知框架,证实语言是构建与重塑文化价值的动态高维场域。

Abstract:This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图:核心词汇语义邻域图(左上:死亡;右上:戏剧;左下:牙买加;右下:信用)

Figure:The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

06

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要:汉字在东方文明发展进程中具有核心地位,其构形体系具备系统性特征,而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此,本研究基于复杂网络方法,探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边,构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络;通过17项通用网络指标量化分析网络特征,深入阐释汉字构形系统的内在属性。研究结果表明,相较于随机网络,汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征;这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性,分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract:Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图:真实网络与随机网络全局拓扑图(a、c、e:真实网络;b、d、f:随机网络)

Figure:Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

07

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要:当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象,探究大学生群体的审美反馈,聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法:其一,运用混合设计方差分析与语义差异量表,分析四大主题作品,通过因子分析与聚类分析提取审美潜在维度;其二,开展眼动实验,记录注视时长与注视次数,量化分析眼动指标与主观评分的相关性。研究结果表明:第一,园林主题灯彩画的喜爱度评分显著最高(P<0.001),主题与专业的交互效应不显著(P=0.094),说明不同专业群体的审美偏好具有一致性;第二,研究提取出情绪效价、形式审美、认知唤醒三大潜在维度,揭示了非遗审美的多层级体验结构;第三,潜在审美偏好与喜爱度呈极强正相关(r=0.94,P<0.01),而眼动注视指标与喜爱度无显著相关性(P=0.174;P=0.234)。研究证实,晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性,由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据,深化了对晚期Z世代非遗审美认知的理解,为非遗传承与美育推广提供理论支撑。

Abstract:There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图: 《黛玉葬花》眼动热力图

Figure: Daiyu Burying the Fallen Flowers eye-tracking heatmap.

08

从浪漫到现实:数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要:本研究探究2000-2025年华语流行歌词的词汇与主题演变,映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库,本研究填补这一空白,构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法,融合词频分析、可读性指标与BERTopic主题建模,追踪歌词词汇与主题的历时演变。研究发现,歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心;类符形符比显著提升,表明歌词词汇丰富度持续增长,文本复杂度呈波动变化,反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题,主题结构从自然与时间的抽象表达,逐步转向情感具象化与心理内省化书写;近年来,负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架,彰显了数字人文工具在大规模歌词分析中,描摹集体情感与文化变迁的核心价值。

Abstract:This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图:各项指标历年变化趋势

Figure:Trends of various metrics over the years.

09

文化分析与表征政治:埃及《箴言》杂志中犹太群体形象的呈现研究(1933-1953)

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要:本文融合文化分析与后殖民理论,探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法,识别并解读期刊档案中犹太形象的建构范式,揭示两次世界大战之间及战后初期,阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合,精准剖析文化生产机制,呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于,对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究:随着阿拉伯犹太人大规模撤离埃及,《箴言》中犹太形象的动态演变,折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分:第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中,阐释其成为阿拉伯现代性多元理念博弈平台的历史背景;第二部分结合远读与阐释性分析,梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存,更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合,为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract:This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图:《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译|洪冰凤

校对|罗斯鹏

排版|魏翔

阅读原文

跳转微信打开

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026年4月18日 08:30

2026-04-18 08:30 湖北

本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

01

识读不可读文本:基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要:奥斯卡・王尔德曾言:“文学与新闻的区别在于,新闻不堪卒读,文学无人问津。” 遗憾的是,王尔德所处的 19 世纪数字化存档新闻文本,其光学字符识别(OCR)结果往往缺失或质量低劣,既降低了档案的可获取性,也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题,本研究采用预训练图像转文本语言模型 Pixtral 12B,对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》(NCSE)开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比,结果显示其字符错误率中位数仅为1%,较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果,具备高质量字符识别文本,并将文本划分为4个类别与17个主题,包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放,旨在助力历史学与社会学研究,让21世纪的读者得以足不出户识读这份“不可读文本”,共情王尔德对19世纪新闻水准的遗憾。

Abstract:Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图:边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框,重叠区域以深蓝色标注

Figure:Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

02

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要:剪纸艺术是中华传统文化中独具特色的非物质文化遗产,当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失,部分剪纸品类濒临消亡,其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值,结合Grab-Cut算法,实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理,提升图像质量;其次采用改进遗传算法优化后的Canny算子,提取剪纸纹样整体轮廓;随后设计Grab-Cut算法,针对性分割剪纸设计元素轮廓,并借助CDR软件处理矢量图像,生成独立可编辑矢量文件;最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明,本研究提出的方法可有效检测剪纸图像纹样真实边缘,完成轮廓提取,纹样各设计元素的像素分割精度达96%以上,为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract:As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图:剪纸图像平滑去噪处理 (a) 原始图像;(b) 增强后图像

Figure:Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

03

丈量东方之声:华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要:1978年改革开放以来,中国流行音乐产业高速发展,成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法,对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数,从静态与动态双维度揭示了歌词文本的高活跃度,佐证了其叙事性的文体本质。歌词情感分析结果显示,文本整体呈现积极基调,而2000年成为重要分水岭,前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明,不同时期歌词的主题分布模式呈现多元化特征,既体现了流行文化的普世性,也彰显了文化与时代语境塑造下的中国本土特质。

Abstract:Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图:潜在狄利克雷分配模型评估:一致性与困惑度对比

Figure:LDA model evaluation: Coherence vs. Perplexity.

04

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要:本研究选取三位代表性诗人,从词汇意象、时空解构、主题演变与情感表达四个维度,对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法,融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术,辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论:其一,两类诗歌均以自然与禅意为核心,共享相似的词汇与意象体系;其二,二者均体现永恒视角与历史意识的交织,以及宇宙宏大性与人世现实性的辩证关系;其三,主题演变层面,江南禅诗“自然与禅”的核心内核,在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架;其四,江南禅诗侧重超脱与空寂的审美表达,高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实,该方法可有效提升古典诗歌文本的中文分词精度,彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract:This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图:禅诗名词词云图 (a)雪窦重显;(b)杨杰;(c)义天

Figure:Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

05

近代早期英语的善恶语义空间:道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要:本文提出一种创新研究方法,通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》(EEBO-TCP)语料库,构建语义模型,梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法,设定善恶、女性-男性两大启发式坐标轴,将词汇映射至坐标轴中,挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标,揭示了概念与性别道德化宏观范式的适配规律。研究发现,多数词汇集中于“女性/邪恶”象限,而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数,可无监督挖掘文本潜在二元对立关系,识别塑造近代早期话语体系的文化维度,涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景:道德对立并非静态固化,而是相互重叠、动态流变;该模型打破了固定二元对立的认知框架,证实语言是构建与重塑文化价值的动态高维场域。

Abstract:This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图:核心词汇语义邻域图(左上:死亡;右上:戏剧;左下:牙买加;右下:信用)

Figure:The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

06

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要:汉字在东方文明发展进程中具有核心地位,其构形体系具备系统性特征,而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此,本研究基于复杂网络方法,探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边,构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络;通过17项通用网络指标量化分析网络特征,深入阐释汉字构形系统的内在属性。研究结果表明,相较于随机网络,汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征;这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性,分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract:Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图:真实网络与随机网络全局拓扑图(a、c、e:真实网络;b、d、f:随机网络)

Figure:Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

07

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要:当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象,探究大学生群体的审美反馈,聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法:其一,运用混合设计方差分析与语义差异量表,分析四大主题作品,通过因子分析与聚类分析提取审美潜在维度;其二,开展眼动实验,记录注视时长与注视次数,量化分析眼动指标与主观评分的相关性。研究结果表明:第一,园林主题灯彩画的喜爱度评分显著最高(P<0.001),主题与专业的交互效应不显著(P=0.094),说明不同专业群体的审美偏好具有一致性;第二,研究提取出情绪效价、形式审美、认知唤醒三大潜在维度,揭示了非遗审美的多层级体验结构;第三,潜在审美偏好与喜爱度呈极强正相关(r=0.94,P<0.01),而眼动注视指标与喜爱度无显著相关性(P=0.174;P=0.234)。研究证实,晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性,由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据,深化了对晚期Z世代非遗审美认知的理解,为非遗传承与美育推广提供理论支撑。

Abstract:There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图: 《黛玉葬花》眼动热力图

Figure: Daiyu Burying the Fallen Flowers eye-tracking heatmap.

08

从浪漫到现实:数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要:本研究探究2000-2025年华语流行歌词的词汇与主题演变,映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库,本研究填补这一空白,构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法,融合词频分析、可读性指标与BERTopic主题建模,追踪歌词词汇与主题的历时演变。研究发现,歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心;类符形符比显著提升,表明歌词词汇丰富度持续增长,文本复杂度呈波动变化,反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题,主题结构从自然与时间的抽象表达,逐步转向情感具象化与心理内省化书写;近年来,负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架,彰显了数字人文工具在大规模歌词分析中,描摹集体情感与文化变迁的核心价值。

Abstract:This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图:各项指标历年变化趋势

Figure:Trends of various metrics over the years.

09

解码人工智能话语:基于机器学习的中德语境媒体表征对比研究(2018-2023)

Decoding AI discourse: contrastive analysis of media representations in German and Chinese contexts (2018–23) using machine learning techniques

Kuanyong Qiu , Noah Bubenhofer , Timo Hackel

摘要:现有研究多聚焦单一语言媒体中的人工智能(AI)话语,缺乏跨文化语境的对比分析。本研究优化露丝・沃达克话语分析框架,结合前沿机器学习方法,分析 2018-2023 年中德两国媒体话语中的人工智能表征。研究发现,中德媒体均聚焦本土相关的人工智能议题:中国媒体频繁援引政治人物言论(尤以习近平主席为核心),采用视角建构策略,对人工智能始终持积极立场;德国媒体则侧重科技人物叙事,尤其在ChatGPT发布后,对人工智能持更为批判与审慎的态度。两国媒体话语的差异,源于本土语境塑造的差异化媒介文化体系:中国媒体隶属于政党体系,将人工智能定位为推动经济发展的国家战略核心,传递政府核心立场;德奥瑞三国媒体则呈现多元视角,高度关注人工智能的潜在风险。本研究为各国人工智能政策的解读与制定提供了重要参考依据。

Abstract:Previous studies have primarily focused on artificial intelligence (AI) discourse within specific language media, with limited contrastive analyses across different cultural contexts. This study analyzes the representation of AI in German and Chinese media discourses from 2018 to 2023, employing a modified version of Ruth Wodak’s discourse analysis framework alongside advanced machine learning methods. Our findings indicate that both German and Chinese media concentrate on AI issues pertinent to their regions. Chinese media adopt a perspective strategy by frequently quoting political figures, particularly President Xi Jinping, and consistently maintain a positive stance on AI. Conversely, German media, especially after the launch of ChatGPT, highlight high-tech figures and adopt a more critical and cautious approach toward AI. These differences in media discourses arise from distinct media cultural systems shaped by their respective contexts. In China, media outlets are party-affiliated and promote a narrative framing AI as a national strategic endeavor crucial for economic growth, reflecting governmental viewpoints. In contrast, media from Germany, Austria, and Switzerland present diverse perspectives on AI, expressing significant concerns about its potential risks. This study offers valuable insights for interpreting and formulating AI policies across different nations.

图: 2018-2023 年中国媒体人工智能语料库十大子主题历时变化

Figure:Top ten subtopics over time 2018–2023 in Chinese media AI-related corpus (Color version of the figure is available in the supplementary data).

10

文化分析与表征政治:埃及《箴言》杂志中犹太群体形象的呈现研究(1933-1953)

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要:本文融合文化分析与后殖民理论,探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法,识别并解读期刊档案中犹太形象的建构范式,揭示两次世界大战之间及战后初期,阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合,精准剖析文化生产机制,呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于,对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究:随着阿拉伯犹太人大规模撤离埃及,《箴言》中犹太形象的动态演变,折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分:第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中,阐释其成为阿拉伯现代性多元理念博弈平台的历史背景;第二部分结合远读与阐释性分析,梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存,更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合,为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract:This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图:《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译|洪冰凤

校对|罗斯鹏

排版|魏翔

阅读原文

跳转微信打开

新书推荐 |《面向大数据的社会网络分析与文本挖掘:语言与网络的力量》

2026年4月10日 08:31

2026-04-10 08:31 湖北

Social Network Analysis and Text Mining for Big Data: The Power of Words and Networks提出了前沿的方法和工具,弥合了文本挖掘与社交网络分析研究之间的鸿沟,同时也为分析大规模文本和网络数据提供了新的见解。

《面向大数据的社会网络分析与文本挖掘:语言与网络的力量》(Social Network Analysis and Text Mining for Big Data: The Power of Words and Networks)提出了前沿的方法和工具,弥合了文本挖掘与社交网络分析研究之间的鸿沟,同时也为分析大规模文本和网络数据提供了新的见解。这些工具旨在满足商业分析师和研究人员的需求,以助力开创性分析结果的产生。

本书首先对社会网络分析和文本挖掘给出了明确定义,并融合了作者在该领域广泛研究中精心挑选的方法和工具。随后,重点演示了词汇与网络之间的相互作用如何释放大数据分析的全部潜力。书中的核心亮点是 Semantic Brand Score (SBS),这是一种通过文本分析评估品牌重要性的多功能且强大的指标。以上内容均通过实际应用和案例研究得到了证实与阐述,展示了这些分析方法在支持变革和优化管理决策方面的价值。书中还介绍了一款专门的软件工具,帮助用户执行文中详述的各项分析。

该书是商业领袖、营销专业人士、政策制定者、研究人员和大学生的必读之作。它为提升公司绩效和社会行动成效提供了实用的洞察和可操作的建议。全书写作风格兼顾了专业性与易读性,使资深研究人员和初涉该领域的读者都能理解其中的复杂概念。

作者介绍

安德烈亚·弗龙泽蒂·科拉东

Andrea Fronzetti Colladon

Andrea Fronzetti Colladon在罗马第三大学(Roma Tre University)担任教授,并负责领导商业与集体智能实验室(Business and Collective Intelligence Lab)。他致力于研究组织与个人的沟通、决策及变革模式,通过解码复杂系统为管理决策提供科学依据。他的研究融合了网络科学、自然语言处理和机器学习方法,并与社会科学、心理学和人文学科理论相结合,体现了深厚的跨学科底蕴。他发明了语义品牌评分(Semantic Brand Score)和OCEAN™变革管理模型(OCEAN™ Change Management Model),旨在将学术洞察转化为组织领导者可用的实践工具。其学术足迹涵盖了与麻省理工学院集体智能中心(MIT Center for Collective Intelligence)、东北大学(Northeastern University)和西奈山医院(Mount Sinai Hospital)等国际顶尖机构的广泛合作。作为多部学术著作的作者,他的代表作品包括本书以及《引领有意义的变革》(Leading Meaningful Change),这些著作为理解语言与网络在数据分析中的力量提供了重要框架。此外,他还通过教学与咨询服务于TIM(TIM)、Enel(Enel)和萨奇广告(Saatchi & Saatchi)等知名企业,助力团队应用创新管理工具并在复杂环境中提升竞争力。

罗伯托·韦斯特雷利

Roberto Vestrelli

Roberto Vestrelli现为意大利佩鲁贾大学(University of Perugia)工业与信息工程专业的博士候选人。他与安德烈亚·弗龙泽蒂·科拉东教授(Andrea Fronzetti Colladon)合著了《大数据的社会网络分析与文本挖掘:词汇与网络的力量》(Social Network Analysis and Text Mining for Big Data: The Power of Words and Networks)一书,展示了其在大数据分析领域的学术造诣。罗伯托·韦斯特雷利(Roberto Vestrelli)的研究方向集中于社会网络分析、文本挖掘及其在商业、环境治理与社会科学中的应用。他的研究成果涵盖了气候风险信息披露对企业价值的影响、媒体在塑造能源叙事中的作用,以及大语言模型在评估新闻自由时的表现等前沿课题。此外,他还参与开发了针对GDELT数据库(GDELT)的文本重构工具,并致力于通过大数据方法分析非洲地区的外国直接投资决定因素。通过将语义品牌评分等量化指标应用于数字营销与服务管理,他为理解复杂网络中的言论力量提供了重要的技术支持与理论视角。

出版信息

书名:《面向大数据的社会网络分析与文本挖掘:语言与网络的力量》(Social Network Analysis and Text Mining for Big Data: The Power of Words and Networks)

作者:Andrea Fronzetti Colladon, Roberto Vestrelli

出版时间:2025年6月20日

出版社:Routledge

DOI:

https://doi.org/10.4324/9781003504849

内容简介

本书系统展示了语言与社会网络相互交织所产生的深刻影响。该书的核心论点在于,文本与社会联系并非彼此孤立的两类对象,而是在持续互动中共同塑造人的观念、态度乃至更广泛的历史进程。作者以跨学科的研究视野,将社会网络分析(social network analysis, SNA)与文本挖掘加以整合,旨在揭示大数据表象之下更为复杂的社会关系结构与意义生成机制。

在方法层面,本书首先从社会网络分析的基本概念出发,细致介绍了节点、边、中心性和社群发现等关键工具,并说明这些分析框架如何被用于识别非正式领导者、追踪信息传播路径以及刻画群体内部的互动模式。随后,论述转向文本挖掘领域,涉及语料预处理、命名实体识别、情感分析等核心技术。全书最具特色之处,在于将二者加以有机结合:作者不仅将文本转化为词汇共现网络,还提出了语义品牌评分(Semantic Brand Score, SBS)这一指标,用以衡量某一品牌、概念或议题在社会话语中的重要性、关联性与记忆度。

本书试图回应的一个关键问题,是传统大数据分析中结构维度与语义维度之间长期存在的割裂。在海量非结构化文本的处理中,单纯依赖词频统计往往难以揭示更深层的意义关系,而复杂的机器学习模型虽然具有较强的预测能力,却常常因其“黑箱”特征而缺乏充分的可解释性。针对这一局限,本书提出了一条兼具理论解释力与方法可操作性的研究路径,即通过考察词语之间的连接关系来界定其意义生成方式。与此同时,它也在一定程度上克服了传统问卷调查中常见的响应偏差问题:通过对电子邮件流、社交媒体评论等自然生成数据的分析,研究者能够更接近群体行为与决策过程中的“诚实信号”,从而获得对社会互动模式更为真实的把握。

对于数字人文研究而言,这本书具有明显的方法论启发意义。它既可被视为连接计算分析与人文解释的桥梁,也可被视为重新审视文化、历史与社会现象的一种分析透镜。借助书中所提供的工具与案例,研究者得以超越传统质性细读的单一路径,在大规模文本数据中识别潜在的主题演变、话语结构与权力关系。无论是分析媒体报道、法律文献,还是文学文本——例如书中讨论的《爱丽丝梦游仙境》——这种方法都展示出较强的解释潜力。它不仅有助于重构历史语境中话语如何被策略性地使用,例如俾斯麦对电报文本的修辞性处理,也能够用于考察当代社会在气候风险、人工智能等议题上的认知偏向与舆论形成机制。

章节目录

一、 语言与网络的隐藏力量:统一分析方法

二、网络分析:核心概念与指标

1 社会网络分析

2 基础术语

3 从头构建网络

4 全网络指标

5 聚类与社区

  5.1 聚类

  5.2 社区发现

      5.2.1 Louvain 算法

6 相似性度量

  6.1 Jaccard 相似性

  6.2 SimRank 与其他度量

  6.3 同质性与同类匹配

7 网络拓扑结构

8 网络鲁棒性与韧性

  8.1 碎裂化度量

  8.2 网络拓扑对其鲁棒性的影响

9 节点中心性

  9.1 度中心性

  9.2 接近中心性

  9.3 中介中心性与结构洞

  9.4 特征向量中心性

  9.5 独特中心性

10 关键角色

11 考虑时间:互动性度量

  11.1 轮换领导力

  11.2 贡献的响应性与平衡

  11.3 同步性

三、文本挖掘

1 语料库预处理

  1.1 描述性统计

2 命名实体识别

3 关键词提取与文档分类

  3.1 文档分类的特征提取

  3.2 文档相似性

  3.3 寻找同义词和相关词汇

4 内容分析

  4.1 新颖性与信息量

  4.2 可读性与数值强度

  4.3 情绪挖掘

  4.4 代词与关系词

5 构建自定义度量:效度与信度

四、从语言到网络

1 构建词网络

2 语义品牌评分

  2.1 品牌形象与联想

  2.2 提高品牌连接性

3 网络主题模型

五、文本挖掘与社会网络分析的集成:案例研究与应用

1 媒体报道揭示了领先科技公司的品牌重要性吗?

  1.1 理解语料库特征

  1.2 寻找最相关的语料库内容

  1.3 衡量科技巨头的语义重要性

  1.4 理解品牌重要性的驱动因素

  1.5 区分语义重要性的正负驱动因素

2 评估工作的未来:哪些工作最容易受到人工智能颠覆?

  2.1 从在线新闻中识别 AI 技术

  2.2 AI 的角色

  2.3 衡量暴露程度

  2.4 创新度量

3 数据驱动的职场文化提升方法

  3.1 区分正面评论与负面评论的因素是什么?

  3.2 主题模型与多语言分析

  3.3 内容分析

4 通过 Airbnb 评论的文本挖掘评估纽约市的城市体验

  4.1 空间自相关与价格相关性

  4.2 城市特征相关性

  4.3 品牌形象

章节摘要

第一章

语言与网络的隐藏力量:统一分析方法

语言和网络在塑造历史、文化和人类行为方面拥有巨大的力量。本引言章节探讨了词汇如何通过精心构建的叙事产生激发情感反应、驱动社会变革或引发冲突的潜力,正如 Franco-Prussian War 期间的 Ems Dispatch 所证明的那样。与此同时,通过 Social Network Analysis (SNA) 描绘的人类联系揭示了维系社会、影响领导力并推动运动的隐藏结构。当 Text Mining 与 SNA 的技术工具相结合时,会产生极具价值的洞见,从而使人们能够更深入地理解决策过程和社会动态。基于这一观点,本章介绍了支持复杂系统研究的分析工具,阐明了语言和网络如何塑造人类互动以及社会结果。

Words and networks hold immense power in shaping history, culture, and human behavior. This opening chapter explores how words, through carefully crafted narratives, have the potential to evoke emotional responses, drive societal change, or initiate conflicts, as demonstrated by the Ems Dispatch during the Franco-Prussian War. At the same time, (human) connections – mapped through social network analysis (SNA) – reveal the hidden structures that bind societies, influence leadership, and drive movements. Invaluable insights emerge when the techniques and tools of text mining and SNA are combined, enabling a deeper understanding of decision-making processes and social dynamics. In line with this view, this chapter introduces analytical tools to support the study of complex systems, shedding light on how words and networks shape human interaction and societal outcomes.

第二章 

网络分析:核心概念与指标

本章介绍了(社会)网络分析的基础与高级概念,为理解网络如何辅助研究复杂现象奠定了坚实基础。内容从定义网络及其核心组成部分(如节点与边)展开,解释了如何利用来自访谈或非结构化来源的数据来表述和分析社会现象。通过引入中心性指标,本章使读者能够识别网络中处于战略位置的节点,并探讨了聚类与社区,重点介绍了在图谱中检测这些结构的技术。讨论进一步延伸至识别社会系统中的关键角色,以及理解网络位置变迁所带来的影响。此外,本章还探索了动态网络分析,概述了考察随时间演变的互动动态的方法,并引入了诸如轮换领导力等指标。依托作者的专业积累,本章对其实际科研工作中应用最广、影响最大的指标和技术进行了实用的、以研究为导向的综述。本章并不追求面面俱到,而是旨在为读者提供掌握并应用基础与高级概念所需的核心工具。

This chapter introduces fundamental and advanced (social) network analysis concepts and builds a foundation for understanding how networks help study complex phenomena. It begins with defining networks and their main components, such as nodes and edges. The chapter explains how to represent and analyze social phenomena using data from interviews or unstructured sources. It introduces centrality metrics, enabling readers to identify strategically positioned nodes within a network, and examines clusters and communities, focusing on techniques to detect them in a graph. The discussion extends to identifying key roles within a social system and understanding the implications of positional changes in a network. The chapter also explores dynamic network analysis, outlining methods for examining time-evolving interaction dynamics and introducing metrics such as rotating leadership. Building on the authors’ expertise, this chapter offers a practical, research-driven overview of the most impactful metrics and techniques used in their scientific work. Rather than aiming for exhaustive coverage, it focuses on equipping readers with essential tools needed to grasp and apply both foundational and advanced concepts.

第三章 

文本挖掘

本章全面介绍了文本挖掘与自然语言处理(NLP),重点探讨了分析大规模非结构化文本数据的实用技术。内容涵盖了数据预处理、情感分析和命名实体识别等核心方法,并特别侧重于词网络的构建与解读。文中展示了评估文本特征(如新颖性、信息量和复杂性)的基础及高级方法。此外,本章还突出了社会网络分析在考察词汇关系中的创新应用,为文本数据分析提供了独特的视角。

This chapter offers a comprehensive introduction to text mining and natural language processing (NLP), emphasizing practical techniques for analyzing large-scale unstructured text data. It covers core methods like data preprocessing, sentiment analysis, and named entity recognition, with a particular focus on constructing and interpreting word networks. We present basic and advanced approaches for evaluating textual features, such as novelty, informativeness, and complexity. We also highlight the innovative application of social network analysis to examine word relationships, offering a unique perspective on textual data analysis.

第四章

从语言到网络

本章探讨了将文本数据转化为网络的方法,以及利用社会网络分析技术对其进行分析的优势。文中强调了结合文本挖掘与网络分析以理解词汇间关系的强大力量,并阐述了该方法在市场营销和自然语言处理等领域的应用。本章还介绍了 Semantic Brand Score,这是一种通过网络分析衡量文本数据中品牌或概念重要性及记忆度的综合指标。最后,我们展示了这些方法的实际应用,包括品牌形象分析以及一种新颖的主题模型构建方法。

This chapter explores the transformation of textual data into networks and the benefits of analyzing them using social network analysis techniques. The chapter emphasizes the power of combining text mining and network analysis to understand relationships between words and how this approach can be applied to fields such as marketing and natural language processing. The chapter also introduces the Semantic Brand Score, a composite indicator designed to measure the importance and memorability of brands or concepts within textual data by leveraging network analysis. Lastly, we demonstrate practical applications of these methods, including brand image analysis and a novel approach to topic modeling.

第五章

文本挖掘与社会网络分析的集成:案例研究与应用

本章通过四个案例研究阐明了整合网络分析与文本挖掘技术的价值。第一个案例研究利用 New York Times 的在线新闻文章,评估了四个科技品牌的 Semantic Brand Score。第二个案例研究探讨了人工智能对劳动力动态的影响,其数据基础源于专利和职位描述。第三个案例研究聚焦于从 Glassdoor 收集的某全球咨询公司员工评论,展示了识别组织优劣势感知的有效方法。最后一个案例研究则通过挖掘 New York City 的 Airbnb 住客评论,利用非结构化文本勾勒出该市的各类城市特征。虽然目前已有大量用于 Social Network Analysis 和 Text Mining 的软件包,以及 R 和 Python 等编程语言的函数库,但能有效融合这些方法的图形界面应用仍较为匮乏。由本书作者之一开发的 SBS BI 软件集成了前述章节讨论的网络分析、文本挖掘及词网络分析技术,为研究者提供了针对这些方法的集成化解决方案。

This chapter presents four case studies that illustrate the value of integrating network analysis and text mining techniques. The first case study assesses the Semantic Brand Score of four technology brands by analyzing online news articles from the New York Times. The second case study explores the influence of artificial intelligence on workforce dynamics, using textual data from patents and job descriptions. The third case study focuses on employee reviews for a global consulting firm collected from Glassdoor, showcasing methods to effectively identify perceived organizational strengths and weaknesses. The final case study examines Airbnb guest reviews in New York City, leveraging unstructured text to map various urban characteristics of the city. While numerous tools and software packages are available for social network analysis and text mining, along with extensive libraries for programming languages like R and Python, few graphical interface applications effectively combine these methodologies. The SBS BI software, developed by one of the book’s authors, incorporates the network analysis, text mining, and word network analysis techniques discussed in the previous chapters, providing an integrated approach to these methods.

章节选读

第一章

语言与网络的隐藏力量:统一分析方法

社会网络分析(SNA)是一种方法论路径,用于描绘由相互连接的实体所构成网络的结构、关系与动态从根本上说,SNA 关注的是对个体、组织,或任何一种(社会)系统之间关系的映射与测量。这些连接通常被称为“边”(edges),它们将各个实体——也就是“节点”(nodes)——连接起来,形成网络框架。SNA 的历史根源可以追溯到社会学与人类学。当时,研究者试图理解社会结构与亲属体系。然而,直到计算工具和图论出现之后,SNA 才真正发展成为一门坚实而有前景的分析学科。随着我们所处的世界日益互联互通,分析和解释周围复杂系统的能力也变得愈发重要。今天,SNA 的应用已经远远超出社会科学本身,延伸到诸如生物学领域——例如研究蛋白质相互作用;流行病学领域——例如追踪疾病传播;商业领域——例如识别关键影响者;以及网络安全领域——例如检测计算机网络中的脆弱点。

当某一现象被以网络形式分析和表征时,对其结构和连接的考察能够揭示大量关于其运作方式的信息。例如,在一个社会系统中,高度连接的个体,亦即“中心节点”,可能在影响信息扩散方面发挥关键作用。而系统中的边缘节点虽然看似不那么重要,却可能提供接触新信息的机会,或在不同社群之间充当桥梁。同样,SNA 还可以用于评估复杂系统的韧性、适应性与脆弱性。例如,在一个高度中心化的网络中,移除一个关键节点便可能导致整个系统碎裂。相反,在一个更加去中心化的结构中,失去单一节点对整体功能的影响则较小。想一想,在对抗流行病或病毒时,正确切断一个人际网络中的连接是何等关键。

另一方面,文本挖掘是从大量非结构化文本中提取有价值信息和模式的过程。在一个被电子邮件、社交媒体帖子、文章、评论、访谈转录稿等数字内容所充斥的世界里,文本挖掘为我们提供了一套工具,使我们能够将海量文本数据转化为结构化数据。文本挖掘植根于自然语言处理(NLP)、计算语言学和信息检索。起初,它的应用相对有限,主要涉及一些较为简单的任务,例如从文献语料中提取关键词,或进行文档分类。然而,随着机器学习和人工智能的进步,文本挖掘已经扩展到更广泛的复杂技术之中,例如情感分析、主题建模以及实体识别。文本挖掘的应用几乎没有边界。企业利用它分析顾客评论和社交媒体讨论,从而依据消费者反馈调整策略。法律专业人士借助它筛查成千上万份文件,识别与案件相关的信息。在学术界,研究者则可以利用文本挖掘分析科学论文或文学作品,发现那些本来可能被忽略的趋势与洞见。

文本挖掘真正的挑战,在于人类语言的非结构化本质。语言丰富、复杂,并且高度依赖语境,这使其难以用传统统计方法加以分析。词语常常具有多重意义,语境会深刻影响理解,而不同语言之间的语法结构又可能存在巨大差异。本书讨论了多种文本预处理、分类和分析技术,旨在将表面上的混乱转化为有意义的结构化信息。我们也强调文本挖掘在不同领域中的实际应用,通过现实案例展示文本数据如何能够被有效利用。例如,我们表明,只要分析得当,文本就能够揭示潜在情绪、识别新兴趋势,并为理解人类行为提供有价值的洞见。到目前为止,我们已经介绍了两门看似彼此分离的学科。前者聚焦于从人类语言中分析并组织信息内容,后者则聚焦于组织和解释社会关系与互动。那么,这两个领域之间的连接究竟是什么?语言研究与网络研究之间的联系又在哪里?对此,我们已经可以从一个应用场景中找到部分答案:思考我们的大脑如何运作,以及为什么我们能够记住所读到或听到的内容。

正如前文所示,当词语变得令人难忘时,它们就拥有塑造命运或引发革命的力量。那么,究竟是什么决定了可记忆性?可记忆性并非纯属偶然;它是语言、结构和内容经过有意识选择之后,与人类心智发生共鸣的结果。词语和话语的可记忆性,对于理解它们如何影响人类行为至关重要。当令人难忘的词语被内化时,它们会塑造我们的感知,并驱使我们以某种特定方式行动。长期以来,研究者一直试图解释,为什么有些事物会被记住,而另一些则不会。很多人能够立刻认出某个鞋类品牌,或准确回忆起自己在商店里与谁交谈过,却很难记住购物清单上的项目。一个多世纪以来,心理学家始终在试图理解,究竟是什么因素决定了词语与文本的可记忆性。人类语言是表达和传递复杂思想的一种极其强大的工具。它的力量在于其组合性本质:意义不仅由单个词语决定,也由它们的线性结构和相互关系共同决定。对这两个方面——即词语意义及其连接关系——进行分析,有助于回答一个关键问题:为什么有些概念比其他概念更容易被记住,为什么某些词语更具可记忆性。Aka 及其同事发现,可记忆性的一个关键因素,在于我们的大脑会将词语与特定的语义类别联系起来。例如,像 uhm 和 damn 这样的口语词与俚语更容易被记住;与死亡相关的词语,如 bury 和 kill,也更容易被记住;与宗教相关的词语,如 altar,也同样如此。

语义记忆,也就是对一般知识与事实的记忆,在词语记忆中发挥着重要作用。我们的大脑和记忆是以联想方式运作的;也就是说,一个词之所以能留在我们脑中,是因为它与记忆中已经存储的某个概念发生了连接。因而,那些意义深厚、带有情感负荷、或与个人经验相关的词语,更容易被记住,这一点并不奇怪。按照 Tulving 的说法,语义记忆就像一个巨大的关于世界一般知识的存储系统,其中包括事实、概念和意义。因此,语义的认知层面,关涉的是大脑如何借助通过语言被调取和操控的储存信息,来表征抽象与具体概念。词语之所以会变得令人难忘,是因为它们在我们内心深处激起了某种共鸣——要么唤起与经验相连的情感,要么连接到先前获得的知识。传统观点通常认为,词语的结构(以及连接关系)与其意义是在大脑中分开处理的:前者由额叶区域处理,后者由颞叶区域处理。然而,Shain 等人在一项最新研究中发现,这两个要素实际上是通过同一个广泛分布的额颞脑网络来处理的。人脑的这种运作方式意味着:当我们阅读或聆听一个句子或一段话语时,大脑并不会把结构与意义分离开来;二者是同时并且整合地被处理的。

语义学研究的是语言中的意义,研究词语和短语如何表达思想、传达观念。但正如前文所指出的,人类语言不仅具有语义,也具有结构,也就是词语彼此如何关联、如何连接。词语会受到其所处语境、句法和语法结构的塑造。例如,请看这个句子:The bank closed at 5 PM。bank 这个词可以指金融机构、河岸,甚至可以指飞机的一个倾斜动作。语义学帮助我们识别这些可能的意义,但句子的结构及其中其他词语,尤其是动词 closed,则提示这里所说的是一家金融机构。类似 at 5 PM 这样的时间表达,又进一步澄清了这一解释。由此可见,一个词的意义,是通过它与其他词语的互动而形成的。因此,文本分析不能排除对词语连接关系的研究,因为词语的意义往往与其关系网络不可分割。

那么,有哪些工具可以用统一的方式分析词语的意义及其连接关系?本书最后几章试图回答这一问题,我们提出了一些分析方法,将词语与其关系纳入同一个统一框架之中加以考察。

例如,当我们把网络分析应用于文本时,就可以揭示词语之间的关系,以及这种相互连接性如何影响它们的可记忆性与影响力。网络分析使我们能够对术语、短语以及更广泛文本结构之间的连接进行可视化与量化。通过研究语义网络,我们学会把语言视为一个由相互连接元素构成的复杂系统,正如社会网络将人与人之间的关系加以映射一样。在这种网络中,节点可以代表词语或短语,边则代表它们之间的连接,例如共现关系。借助这一视角,我们能够识别出那些在传统分析中并不容易显现的模式与结构。例如,通过绘制一篇演讲或一段文字的语义网络,我们可以识别出那些充当“枢纽”的关键词——即在整个话语中高度连接、并对整体信息产生显著影响的词语。这些枢纽词对于文本的可记忆性可能至关重要,因为它们能够锚定内容,并促进回忆。同样地,应用于文本的网络分析还可能揭示文本的模块化结构,呈现不同主题或议题如何相互连接,并共同服务于一则信息的整体意义。本书表明,网络分析一旦与文本分析结合,就会成为剖析语言复杂性的强有力工具;它不仅使我们能够以统一方式理解各个组成部分,也使我们能够理解这些组成部分如何共同生成意义。

将社会网络分析与文本挖掘整合起来,为理解人类行为带来了一个新的维度。网络并不仅仅关乎谁与谁发生连接,正如词语也绝不仅仅是孤立的发声。二者结合起来,构成了一幅由互动、影响与意义交织而成的复杂织锦。通过同时分析个体、组织,甚至观念之间的关系,以及它们所使用的语言,我们就能够以前所未有的方式洞察信息如何流动、决策如何形成,以及人们如何回应其周围世界。例如,通过结合网络与词语的力量,我们就能够描绘、分析并理解媒体如何塑造某一位领导人或某一政治党派的形象。当某个政治人物在语义网络中处于中心位置时,他可能会在公民心中留下强烈印象。设想一个政治品牌频繁出现在新闻报道中,并经常与深嵌于媒体话语中的多样化主题或概念联系在一起,例如慈善、可持续性或移民议题。这个政治品牌就可能在潜在选民心中脱颖而出。实际上,只要观察媒体话语所生成的词语网络,便有可能预测选举结果。然而,网络分析与语义分析的结合,并不限于政治领域。这种方法可以应用于广泛的行业与场景。以推动能源转型这一挑战为例:我们如何确保像 energy community 或 green transition 这样的概念能够在消费者心中引发共鸣,并进而影响其行为?如果仅仅依赖这些术语出现的频率,一场单纯的媒体宣传攻势可能远远不够。真正使这些概念具有影响力的,是意义与词语连接方式的结合——也就是,这些信息如何与共同价值、日常关切或未来愿景发生联系。某些词语被如何、有意识地安放在媒体话语结构之中,往往决定了一场行为变革是否能够成功;正如精确校准过的修辞既可能引发冲突,也可能促进和平。

同样,企业传播材料,如新闻发布会或年度报告,也可以被分析,以揭示企业在大流行病、气候风险或社会议题参与等关键问题上的关注程度。这些文档中所形成的词语网络,不仅有助于衡量企业讨论这些问题时的强度,也有助于衡量其承诺的一致性与深度。总之,本书从理论与实践两个层面,为如何运用词语与网络的力量提供指导,重点讨论社会网络分析、文本挖掘及其整合应用。

以上内容来自书籍官网

https://www.taylorfrancis.com/books/mono/10.4324/9781003504849/social-network-analysis-text-mining-big-data-andrea-fronzetti-colladon-roberto-vestrelli

经数字人文资讯小编翻译整理而成

如需转载,请后台私信联系

编辑 丨魏翔

校对 丨洪冰凤

排版 丨罗斯鹏

阅读原文

跳转微信打开

会议通知丨中国历史文献研究会数字文献分会第四届年会

2026年4月3日 08:30

2026-04-03 08:30 湖北

为深入贯彻落实国家相关战略部署,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月在武汉举办“中国历史文献研究会数字文献分会第四届年会”。

2026

国历史文献研究会数字文献分会

第四届年会

中国·武汉

在数字人文蓬勃发展的时代背景下,古籍文献的整理、研究与传承已步入数智赋能的新阶段。国家高度重视古籍资源的转化利用,明确以体系化整理、知识化构建、智能化应用为导向,系统推进古籍数字化进程。

为深入贯彻落实国家相关战略部署,进一步探讨数智时代传统文献研究的理论前沿与实践路径,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月武汉举办“中国历史文献研究会数字文献分会第四届年会”。

会议拟围绕数智赋能下的传统文献本体研究、数据库及数据平台建设、数字人文教育教学理论与实践、人文学科高水平实验室建设等问题展开深入研讨,旨在推动古籍整理研究的理论、方法与实践创新,促进古籍资源的当代传承与活化利用。诚邀海内外专家学者与青年学子踊跃投稿、莅临研讨,携手推进古籍数字化研究与传承创新,共促数字文献研究高质量发展。

1

会议时间

2026年10月下旬

2

会议地点

湖北武汉

3

会议议题

共设置7个议题

1. 中国古典文献文本分析

2. 雅学与传统语言学研究

3. 中国古典文献的数字化整理与研究

4. 古籍大数据构建及智能体辅助研究

5. 数字人文理论与方法探索

6. 数字人文人才培养与教学实践

7. 人文学科高水平实验室建设

4

参会与投稿

请有意参会者于2026年6月30日前扫码提交参会回执;

2026年8月31日前提交会议论文全稿至会议邮箱shuziwenxian@ancientbooks.cn。

扫码填写参会回执

5

会议费用

1. 会议不收会务费;

2. 交通费、住宿费自理;

  1. 承办方负责会期餐食及会议其他费用。

6

会议联系

杜老师 :027-88661842

朱老师 :010-63311541

会议邮箱:

shuziwenxian@ancientbooks.cn

中国历史文献研究会数字文献分会

湖北大学文学院

中华书局古联公司

2026年 2月14日

END

来源 | 数字人文专业发展联盟

阅读原文

跳转微信打开

案例征集 | 面向全球!2026年世界互联网大会文化遗产数字化案例征集即日启动!

2026年4月3日 08:30

世界互联网大会 2026-04-03 08:30 湖北

以下文章来源于:世界互联网大会

世界互联网大会

世界互联网大会国际组织总部设在中国北京,宗旨是搭建全球互联网共商共建共享平台,推动国际社会顺应数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。

三星堆青铜神树借助裸眼3D技术动态呈现纹饰密码;应县木塔的榫卯结构在数字世界里实现完整“重生”;永乐宫壁画穿越700多年时空,“衣袂飘飘、裙裾飞扬”……2025年7月,世界互联网大会首次面向全球启动文化遗产数字化案例征集,最终遴选出40项案例,汇编成《世界互联网大会文化遗产数字化案例集(2025)》,为相关领域工作提供了可借鉴的实践经验。

今年,世界互联网大会继续面向全球征集文化遗产数字化优秀案例,促进数字技术赋能文化遗产保护,推动文化与科技高度交融,历史与现代深入交织,在数字浪潮中拓展文化遗产的崭新边界。

1

参与征集能获得哪些机遇

1. 入选《世界互联网大会文化遗产数字化案例集(2026)》,获颁证书。

2. 受邀出席世界互联网大会乌镇峰会等重要会议活动,与全球政企学研大咖交流合作。

3. 在世界互联网大会重要活动中对案例进行展览展示

4. 多语种媒体平台宣传曝光。

2

如何参与征集

01

面向对象

  • 本次案例征集面向政府部门、国际组织、社会团体、文博单位、科研机构、高等院校、企业等多种机构开放。

  • 鼓励跨领域联合申报

02

申报地址及截止时间

  • 申报机构请于北京时间2026年4月20日18:00前登录在线申报系统(文化遗产数字化项目)完成申报。

03

案例类型

    • 案例征集分文化遗产保护”“考古”“展示利用三个方向。

    • 依据文化遗产数字化工作特性,每一大类又下设若干小类,请结合案例实际情况选择适合的类别。详细分类标准见附件

    3

    评选如何进行

    将邀请全球文化遗产数字化领域的权威专家对申报材料进行多轮评审,最终确定入选案例。

    4

    申报要注意哪些事项

    1.申报案例符合时间要求

    申报案例开始实施或部署的时间应在2023年之后。

    2.申报信息准确、清晰

    申报方须保证申报内容真实、准确,避免虚构。案例实施过程中,如有其他参与机构,须如实完整填写。

    3.内容契合申报类别

    申报单位可选择一个领域或多个领域下的分类进行申报,每个领域选择一个具体案例。案例须与所选申报类型相契合。

    4.上传文件及时,大小适中

    • 正式评审前,案例申报方须按形式审核要求及时完善申报材料。

    • 建议上传文件大小适中的材料,以便评委下载查看。

    5.材料可公开

    确认所有申报材料中的数据、内容可公开。

    05

    征集咨询

    联系人

    陈先生 86-13187127549

    常女士86-18811567609

    张女士 86-15210397801

    邮  箱

    media@wicinternet.org

    digitalCH2025@163.com

    附件:《世界互联网大会文化遗产数字化案例集(2026)》征集分类

    点击文末“阅读原文”

    进入世界互联网大会官网

    来源 | 世界互联网大会公众号

    阅读原文

    跳转微信打开

    专业资讯|识别历史人物、地点及其他实体(HIPE)测评任务介绍

    2026年3月27日 08:31

    2026-03-27 08:31 湖北

    识别历史人物、地点及其他实体(HIPE,Identifying Historical People, Places and other Entities),是一个专门针对历史报纸、档案等历史文献中命名实体识别(NER)和实体链接(EL)的国际评测任务系列。该任务通常作为评测论坛会议与实验室(CLEF,Conference and Labs of the Evaluation Forum)会议的一部分举行。其历届评测活动如下:

    一、HIPE-2020

    (1)任务背景

    命名实体(NE)处理自二十年前提出以来,已成为几乎所有文本挖掘应用的核心组件,并经历了重大发展。近年来其发展呈现两大趋势:深度学习架构的应用,以及对历史与文化遗产藏品文本的处理。前者带来全新可能,后者则因输入文本异构、历史化、含噪声等特点带来全新挑战。

    尽管命名实体处理工具已越来越多地应用于历史文本,但其效果远低于现代文本,且难以横向对比。在此背景下,impresso项目推出CLEF2020评测实验室识别历史人物、地点及其他实体(HIPE)任务,面向法、德、英三语历时性历史报纸文本,开展命名实体识别与链接任务。

    本共享任务目标有三:

    • 提升现有方法在非标准输入上的鲁棒性;

    • 实现历史文本命名实体处理效果的横向对比;

    • 长期推动历史文档的高效语义标引,支撑数字文化遗产藏品的学术研究。

    (2)任务概览

    HIPE共享任务包含两大核心命名实体处理任务:

    • 实体提及识别与分类(分两种难度)

    • 实体链接

    任务语料选自瑞士、卢森堡、美国的多家历史报纸,按时间跨度采样。注册团队可参与部分或全部任务。

    (3)组织方

    HIPE是CLEF2020评测实验室任务,由「impresso——往昔媒体监测」项目主办。impresso是跨学科研究项目,由计算语言学家、设计师与历史学家合作,面向大规模多语种数字化历史报纸开展语义标引。项目由瑞士国家科学基金会(SNSF)资助,项目编号:CR-SII5_173719。

    (4)任务内容

    任务1:命名实体识别与分类(NERC)

    1.概览

    ①子任务1:粗粒度NERC:按粗粒度类型识别并分类实体提及(见下图第1列)。

    ②子任务2:细粒度NERC:按细粒度类型识别并分类实体提及(见下图第2列),同时检测并分类1层嵌套实体与实体组成部分(头衔、职务等)。

    图:任务1要求系统输出的标注类型

    任务2:命名实体链接(EL)

    1.概览

    本任务将命名实体提及链接至知识库(KB)中的唯一指代;若知识库中无对应指代,则链接至标注为NIL。

    本次任务选用维基数据(Wikidata),使用2019年11月13日的固定快照数据(latest-all.nt.bz2)。

    图:需标注(任务1)与链接(任务2)的实体类型

    2.EL系统标注规范

    • 系统需对人物(PERS)、机构(ORG)、产品(PROD)、地点(LOC)类提及进行链接,输出对应维基数据ID(Q号);

    • 若知识库无对应实体,标注为NIL;禁止使用维基百科消歧义页;

    • 实体链接需同时覆盖字面义与转喻义(若存在)提及标注。转喻义的分类、识别与链接对人机均有难度,因转喻非HIPE核心任务,转喻链接为「可选优化项」,评估将采用灵活方案;转喻链接具体规则见附录A;

    • 实体组成部分与嵌套实体不参与链接。

    3.EL任务设置

    • 实体链接分两种模式:已知/未知实体提及边界。

    • 评估期分为两轮独立阶段:

    • 第一轮:无提及边界信息的实体链接(NEL)

    • 第二轮:已知提及边界(无实体类型信息)的实体链接

    (5)数据

    1.术语定义

    • 内容项(可简写为item):报纸版面以下的文本单元,本次任务仅指报纸文章,二者混用;

    • 时间桶:HIPE中以十年为单位,桶内所选文章均属于该十年的首年。

    2.语料

    评估语料为瑞士、卢森堡、美国多家历史报纸的历时性采样文章。

    • 语料选取:采用系统抽样与目的抽样结合。每家报纸按以下规则随机采样:

    • 覆盖报纸生命周期内预设十年段的首年;

    • 含标题、字符数超50、不限版面;

    • 人工筛选仅保留新闻内容,剔除副刊、表格、填字游戏、天气预报、时刻表、讣告及OCR噪声过大无法阅读的内容。

    • 语料特征:OCR质量为真实场景水平,随数字化时间与档案材质差异波动;不提供同一文本的多版本OCR,随文提供OCR质量评估值与行段图片链接。语料时间跨度为1798年—2018年,完整统计数据将于2020年2月随数据发布。

    • 语料标注:由母语者通过INCEpTION标注平台,按HIPE标注规范人工标注。标注前需在「迷你参考语料」(每语言10个内容项)上培训并校验标注一致性(IAA)。测试集部分样本、训练集与开发集随机样本将进行双标注与仲裁。

    3.数据格式

    数据采用IOB格式(Inside-Outside-Beginning,块内-块外-块首标注),格式类似CoNLL-U。

    (6)评估

    1.NERC评估

    采用宏平均/微平均精确率(P)、召回率(R)、F1值,分两种评估场景:

    • 严格模式:实体边界完全匹配;

    • 宽松模式:实体边界至少1个词元重叠。

      评估维度

    • 实体级(非词元级)微平均P/R/F1:按实体类型单独统计+全类型汇总;

    • 文档级宏平均P/R/F1:按单文档微平均结果取平均(区别于常规宏平均,按文档而非实体类型聚合,适配历史文本长度差异、缓解类别不平衡)。

    严格模式下边界错误会同时计为1个假阴性(漏检)+1个假阳性(误检),与CoNLL评估标准一致;宽松模式适用于边界不重要的场景。

    槽位错误率(SER)不再用于本次任务评估。

    2.NEL评估

    评估逻辑与NERC一致,将实体链接视为标签,连续相同链接视为单一实体;仅采用宽松模式(系统输出与标准答案有1个重叠链接标签即算正确)。

    转喻提及链接分两种评估场景:

    • 严格模式:仅计算转喻义链接;

    • 宽松模式:合并字面义+转喻义链接计算。

    该逻辑将在下一版评分工具中实现。

    二、HIPE-2022

    (1)任务背景

    HIPE-2022是自然语言处理与数字人文领域为研发高效的数字化历史文本信息检索与挖掘方法所开展的持续工作之一。经过文化遗产机构多年大规模数字化,人文学者对数字化历史文档的语义索引需求迫切,各类跨学科研究正推动仿真文档处理、文本转录中复杂信息的抽取、链接与表示。其中,命名实体(NE)的识别、分类与消歧是最核心的处理环节之一。

    然而,历史文本中的命名实体处理难度较大,效果远不及现代规范英文新闻文本。历史文档的实体处理主要面临领域异构性、输入噪声、语言动态变化、资源匮乏四大挑战。

    首届CLEF-HIPE-2020赛事针对约200年历史的英、法、德三种语言历史报纸,开展了命名实体识别与分类(NERC)、实体链接(EL)任务。该赛事结论表明:在训练数据充足的情况下,神经网络方法在历史文本NERC任务中可取得良好效果,但仍需在性能提升、OCR噪声处理、小样本场景适配、实体链接优化等方面进一步突破。HIPE-2022旨在推动这些方向的研究,并为参赛系统设置新挑战。

    (2)任务概览

    HIPE-2022聚焦18至20世纪多语言历史文档的命名实体处理,基于多套已标注实体数据集构建。相较于首届赛事,本届新增三大创新点:

    • 在历史报纸基础上,新增古典评论文档类型;

    • 拓展语言覆盖范围,历史报纸支持5种语言,古典评论支持3种语言;

    • 直面标注标签集与标注规范异构性问题。

    HIPE-2022要求参赛系统应对多语言、领域专属实体、多样标注规范等挑战,目标是探索命名实体处理方法在语言、时间、文档类型、标注类型间的迁移能力。

    (3)任务设置

    HIPE-2022沿用CLEF-HIPE-2020任务类型

    (4)实验数据

    1.基础数据集

    HIPE-2022数据整合6套基础命名实体标注数据集,源自欧洲多个文化遗产项目、主办方前期研究及HIPE-2020赛事,部分为首次公开。

    数据集涵盖历史报纸、古典评论两类文本,时间跨度约200年,多语言、多标签集、多标注规范。

    历史报纸数据集

    包含英、芬、法、德、瑞典五种语言,源自欧洲多国项目与国家图书馆:

    • HIPE-2020数据:首届赛事数据集,含瑞士、卢森堡、美国的法/德/英历史报纸(19–20世纪),约1万个链接实体,作为本届训练/验证集;测试集沿用首届测试集与未公开新数据,现有测试集不得用于训练。

    • NewsEye数据:法/德/芬/瑞典语历史报纸数据集,已公开部分含约3万个实体,作为训练/验证集;未公开部分(约20%)作为测试集。

    • SoNAR数据:德国柏林国家图书馆藏德语历史报纸数据集,已公开部分为验证集,预留部分为测试集,仅验证集可用于训练。

    • Le Temps数据:瑞士法语历史报纸历时数据集,未公开,约1万个实体提及,纳入训练/验证/测试集。

    • Living With Machines数据:英国图书馆藏18–19世纪英语报纸地名标注数据集,已公开部分含约3300个地名标注,作为训练/验证集;未公开部分为测试集。

      古典评论文档

    • AJMC数据集:源自Ajax多评论项目,为19世纪法/德/英古典评论,为本届新增数据。

    所有数据集文本来自不同OCR工具,质量参差不齐。

    2.实体标签集

    各基础数据集标签集与标注规范不同,HIPE-2022仅统一格式,保留原始标签集。各数据集实体类型见附录B,详情查看数据仓库中各数据集说明。

    数据集按标注类型适配对应任务(粗粒度NERC、细粒度NERC、EL)

    3.HIPE-2022数据发布

    HIPE-2022发布包为格式统一、结构规整的整合数据集,处理流程:

    • 转换为制表符分隔的HIPE格式(修正数据不一致、整合元数据);

    • 重新划分训练集与验证集。

    (5)HIPE格式与标注方案

    HIPE格式为制表符分隔文本格式,采用IOB标注规范(起始-内部-外部),类似CoNLL-U格式。

    1.文件结构

    文件包含三类行:

    • 空行:分隔文档;

    • 注释行:以 # 开头,补充信息;

    • 标注行:token与对应标注信息,以制表符分隔。

    单个文件包含一个数据集-语言-划分的所有文档,文档以空行分隔,前附元数据注释行。文档定义因数据集而异,详见各数据集说明。

    2.文档元数据

    基础数据集元数据粒度不同,HIPE-2022以元数据块保留信息,通过命名空间区分强制元数据与数据集专属元数据:

    3.文件内容

    每行共10列:

    • TOKEN:待标注词元

    • NE-COARSE-LIT:字面义粗粒度实体类型(IOB格式)

    • NE-COARSE-METO:转喻义粗粒度实体类型(IOB格式)

    • NE-FINE-LIT:字面义细粒度实体类型(IOB-子类型)

    • NE-FINE-METO:转喻义细粒度实体类型(IOB-子类型)

    • NE-FINE-COMP:实体组成类型

    • NE-NESTED:嵌套实体粗粒度类型(如有)

    • NEL-LIT:字面义维基数据Q号,无对应实体为NIL,无标注为_

    • NEL-METO:转喻义维基数据Q号,无对应实体为NIL

    • MISC:标记位,取值:

    • NoSpaceAfter:词元后无空格

    • EndOfLine:排版行结束

    • EndOfSentence:句子结束

    • Partial-START:STOP:非完整词元的实体起止偏移(Python切片规则)

    • 未指定值以_表示。

    (6)评估方案

    1.评估指标

    NERC采用宏平均/微平均精确率、召回率、F1值,分两种评估模式:

    • 严格模式:实体边界完全匹配

    • 宽松模式:实体至少1个词元重叠

    按实体级(非词元级)计算:

    • 微平均:全文档统一计算精确率、召回率、F1值,分类型与整体统计;

    • 宏平均:按文档级微平均得分取平均,适配历史文档长度差异,而非类别不平衡。

    严格模式下边界错误会同时计为假阴性与假阳性,与CoNLL标准一致;宽松模式放宽边界要求。

    实体链接(EL)评估逻辑同NERC,链接视为标签,无IOB编码,连续相同链接视为单一实体,仅采用宽松模式,与金标准至少1个重叠链接即为正确。

    本届评估沿用CLEF-HIPE-2020评估工具(仓库可能变更)。

    2.任务包、赛道与挑战赛

    为适配多维度任务设置(任务、语言、文档类型、标签集),本届以挑战赛+赛道组织评估,推动跨场景迁移能力研究。

    本届设3项挑战赛:

    第一项:多语言报纸挑战赛(MNC)

    目标:研发多语言历史报纸实体处理方法。

    要求:仅限报纸数据集;至少2种语言同任务;最多选2个任务包。

    第二项:多语言古典评论挑战赛(MCC)

    目标:适配数字人文专属领域实体处理。

    要求:仅限AJMC数据集;至少3种语言同任务;最多选2个任务包。

    第三项:全局适配挑战赛(GAC)

    目标:评估系统跨语言、跨文档、跨规范的适配能力。

    要求:同时包含报纸与AJMC数据;至少2种语言同任务;最多选2个任务包。

    三、HIPE-2026

    (1)任务背景

    在HIPE-2020和HIPE-2022的成功基础上,第三届HIPE大会聚焦于一个新的共享任务:从多语言历史文本中提取人物与地点之间的关系。参与者将开发帮助揭示隐性与显性问题的系统跨越时间的人与地之间的联系,促进研究历史知识图谱、空间人文学科与传记重建。人物-地点关系指文献中体现的个体与地点之间的语义关联,这类关系可揭示人物在特定时间所处位置、居住或工作地点,以及与其人生重要事件相关的地点,如出生地、常住地、到访地、旅行目的地。通过整合这些关系,可以有效还原人物的时空轨迹与人生历程。

    这类隐含或显式的时空关系无法仅通过实体在文档中的共现简单识别,需要结合时间推理、地理推断,并对含噪声的历史文本进行解读——这类文本通常线索稀疏或间接——才能以合理置信度检测并判定人物-地点关系。

    HIPE-2026的目标是推动此类关系的自动检测技术发展,实现人物时空移动轨迹还原,为数字人文研究提供支持。本任务同时适配生成式AI系统(大语言模型)与传统分类模型。

    (2)任务说明

    简言之,参赛团队需开发系统,判定历史文献中每一组人物-地点对所隐含的关系类型。每组对包含一个人物实体与一个地点实体,二者在文本中各有一处或多处提及。系统需判断:文本是否表明人物在文献时间范围内处于该地点(即时在场isAt关系)、人物在过去某一时间曾处于该地点(通用在场at关系),或无有效证据关联该人物与地点。

    如下图所示,isAt关系受时间约束,贴近文献发布时间;at关系仅以发布时间为右边界,可指向过去任意时间,不包含未来。下文将给出更详细、正式的任务定义。

    1.术语定义

    在定义子任务前,先明确术语:

    • 上下文(context):文献或段落全文及其元数据(如报刊名称、语言、发布日期)。

    • 人物(person):文献中由一组提及项聚合而成、指向特定人物的实体。

    • 地点(location/place):文献中由一组提及项聚合而成、指向特定地点的实体,二者可互换使用。

    • (人物,地点)对:同一文献中一个人物实体与一个地点实体组成的配对,为避免候选集过大,并非所有可能组合都会纳入。

    • at:关系类型,文本有证据表明人物曾在某一时间处于该地点。

    • isAt:更严格的时间限定关系类型,文本表明人物在文献报道的时间范围内处于该地点。

    •  系统(system):参赛团队开发的模型,输入上下文、人物-地点对与候选关系类型,输出关系标签。

    2.子任务

    本评测包含两个子任务,分别对应两类需分类的关系:

    子任务1:at关系分类

    给定上下文与人物-地点对,通用at关系判定文本是否隐含人物在过去任意时间曾处于该地点。系统需完成三分类:

    • TRUE:文本有明确证据支持

    • PROBABLE:可通过上下文隐含线索推断

    • FALSE:无证据或文本否定该关系

    子任务2:isAt关系分类

    给定上下文与人物-地点对,限时isAt关系判定文本是否隐含人物在文献时间窗口内处于该地点。系统需完成二分类:

    • TRUE:人物在文献发布前约一个月内处于该地点

    • FALSE:不符合上述时间条件

    isAt时间窗口:isAt为TRUE的条件是人物在文献发布日期前约一个月内身处该地,超出该窗口则为FALSE。

    at与isAt的关系:isAt是at的时间细化,判定at关系是否成立于发布前后。约束规则:若at为FALSE,则isAt不能为TRUE;若at为TRUE或PROBABLE,isAt进一步限定是否在文献时间窗口内。

    示例:

    • 报道美国总统当前访问柏林→at与isAt均为TRUE

    • 报道“去年总统访问柏林”→仅at为TRUE,isAt为FALSE

    为简化流程,评测时两个关系独立计分。

    (3)数据

    1.数据概览

    HIPE-2026数据包含两类:

    • 核心数据:法、德、英三语种历史报刊文献,覆盖19—20世纪约200年,划分为训练集、开发集、测试集(测试集A)。

    • 盲测集:法语文学文献(测试集B),用于评估模型跨领域泛化能力。

    报刊数据源自欧洲与美国图书馆馆藏,基于HIPE-2022已标注实体数据整理并重新标注;文学数据为全新curated数据,评测结束后公布制备细节。

    2.数据格式与内容

    数据采用专属JSON模式存储为JSON Lines(.jsonl)文件,这种格式将每篇文献的相关信息作为独立的一行,便于逐行读取和处理大规模数据集。文件按语言划分,每种语言对应一个独立的.jsonl文件。每篇文献包含四大核心部分:

    • 元数据(metadata)

    • document_id:文献唯一标识

    • 媒体信息:报刊名、时间跨度、来源类型、原始数据路径

    • 语言:de(德)/fr(法)/en(英)

    • 发布日期

    • 文本(text):文献全文,即关系推理的上下文。

    • 采样对(sampled_pairs):筛选后的人物-地点对,每条包含:

    • 人物/地点实体ID、维基数据QID(如有)

    • 人物/地点提及列表

    •  at/isAt标签(训练/开发集为金标准,测试集为null)

    • 可选的at/isAt标注说明

    3.数据划分与统计

    历史报刊数据分为训练、开发、测试集;文学数据仅发布盲测集。

    4.数据发布

    • 按数据集、版本、语言组织目录

    • 单语言、单划分对应一个UTF-8编码的.jsonl文件

    • 文件名规则:HIPE-2026-<版本>-impresso-<划分>-<语言>.jsonl

    • 所有提交文件遵循同一JSON模式

    (4)评测方法

    设置三类评测维度:

    • 准确率维度:鼓励高性能模型、前沿提示工程、智能体方法

    • 效率维度:鼓励轻量、可扩展方法(小参数量LLM、专用分类器)

    • 泛化维度:测试模型在盲测集(非新闻领域)的表现,仅评估at关系

    1.准确率评测维度

    ①指标

    采用宏召回率(平衡准确率),公式:

    • 计算每个标签的召回率:正确预测该标签样本数/该标签金标准样本数

    • 宏召回率=所有标签召回率的算术平均值

      该指标确保各类别权重均等,不受类别不平衡影响。

    ②空值处理

    at/isAt为null时,评测时转为FALSE。

    ③测试集A评测

    • at:三分类,宏召回率(|L|=3)

    • isAt:二分类,宏召回率(|L|=2)

    • 测试集A总分:GlobalScore_A=(at宏召回率+isAt宏召回率)/2

    2.准确率-效率评测维度

    试点评测,平衡准确率与资源消耗,需上报两项效率指标:

    • 参数总量(Params)

    • 模型磁盘大小(Size)

    ①计分与排名

    • 对准确率(Acc)、参数、大小三个维度分别排名(1=最优),效率维度数值越小排名越高。

    • 综合得分:R(s)=(r_Acc+r_Param+r_Size)/3按综合得分升序排名。

    • 示例:小参数量、小体积模型即使准确率略低,仍可能综合排名更高。

    3.泛化维度:盲测集B

    评估模型跨新闻领域到文学领域的泛化能力,仅评测at三分类,指标为宏召回率。

    4.可选大模型说明文本

    说明字段(*_explanation)不计分,仅用于模型可解释性分析,官方可能在综述论文中引用。

    5.技术计分流程

    官方GitHub提供“输出校验器”检查格式与模式合规与“计分工具”计算指标并生成评测报告。

    以上内容来自HIPE官方网站:

    https://hipe-eval.github.io

    经数字人文资讯小编翻译整理而成

    如需转载请后台私信联系

    编译丨洪冰凤

    校对丨罗斯鹏

    排版丨魏翔

    阅读原文

    跳转微信打开

    会议通知 | “大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

    2026年3月20日 14:38

    2026-03-20 14:38 湖北

    2026年7月31日-8月3日,内蒙古师范大学,“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

    ——CDH2026——

     “大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

    会议通知(第一号)

    2026年7月31日-8月3日

    内蒙古师范大学

    2026期待与您相聚

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

    01

    会议议题

    包括但不限于:

    1. 典籍重光

    科技古籍与多民族文献的智慧化整理

    2. 时空重构

    GIS与时空大数据驱动的文明演进研究

    3. 协智重塑

    多智能体与具身智能的人文社会仿真

    4. 谱系重绘

    知识图谱与智能注释驱动的知识重组

    5. 记忆重述

    AIGC赋能下的文化遗产与艺术创新

    6. 文脉重析

    计量方法与主题模型的文本深度挖掘

    7. 伦理重思

    数字人文中的算法批判与负责任创新

    8. 素养重育

    数字人文课程体系与跨学科人才培养

    9. 数字人文学科建设

    02

    会议信息

    会议时间

    2026年7月31日至8月3日

    会议地点

    内蒙古师范大学

    (呼和浩特市赛罕区昭乌达路81号)

    会议注册

    本次会议将于2026年6月开放注册报名。

    注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

    03

    征文征集

    1、会议征文对象为数字人文相关专业的专家、学者与在读学生。

    2、论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

    3、征文分为两轮,第一轮为论文摘要征集,第二轮为入选论文全文提交,具体要求如下:

    (1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

    (2)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

    4、组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

    5、论文提交邮箱:

    20250051@imnu.edu.cn。邮件标题格式为CDH2026论文摘要/全文-姓名-单位

    6、摘要提交截止时间:

         2026年4月30日

         摘要录用通知时间:

         2026年5月30日

         论文全文提交截止时间:

         2026年6月30日

    04

    项目征集

    1、本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

    2、所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

    3、请将报名表和相关附件压缩,以CDH2026项目-项目名称命名,发送至邮箱20250051@imnu.edu.cn

    项目征集截止时间:

    2026年5月20日

    05

    会议组织

    主办单位

    中国索引学会

    内蒙古师范大学

    承办单位

    中国索引学会数字人文专业委员会

    内蒙古师范大学科学技术史研究院

    内蒙古自治区科技文化遗产认知智能重点实验室

    内蒙古师范大学蒙古学学院

    协办单位(按笔画顺序排列)

    山西数字人文研究院

    上海大学数字人文研究与发展中心

    上海外国语大学中国国际舆情研究中心

    上海师范大学数字人文研究中心

    上海社会科学院信息研究所

    上海图书馆历史人文大数据中心

    中国人民大学数字人文研究院

    中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

    中山大学信息管理学院

    中山大学数字人文实验室

    北京大学数字人文研究中心

    电子科技大学数字文化与传媒研究中心

    华东师范大学数字文化发展协同创新中心

    齐鲁工业大学 (山东省科学院) 数字人文研究中心

    云南大学历史与档案学院 “数字人文” 工作室

    云南省图书馆数字资源与信息技术部

    武汉大学数字人文研究中心、武汉大学文化遗产智能计算实验室

    复旦大学大数据研究院人文社科数据研究所

    清华大学中国古典文献研究中心

    南京大学高研院数字人文创研中心

    南京师范大学数字与人文研究中心

    南京农业大学数字人文研究中心

    南京大学中华文明创新实验室  (持续更新中)

    媒体支持(按笔画顺序排列)

    《全国报刊索引》

    「全国报刊索引」公众号

    上海师范大学数字人文网

    上海社科院信息所社科智能实验室(AI4SS Lab)

    《中国数字人文》

    「中国索引学会」公众号

    「SHNU 数字人文」公众号

    「比特人文」公众号

    《数字人文》

    《数字人文研究》

    「数字人文」公众号

    「数字人文开放实验室」公众号

    「数字人文研究」公众号

    「数字人文资讯」公众号

    南京大学中华文明数智创新实验室

     (持续更新中)

       有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

    06

    会议联络

    会议邮箱:20250051@imnu.edu.cn

    会务咨询:周老师 13191432051

    附件

    CDH2026论文格式规范与要求

    2026年中国数字人文年会项目报名表

    阅读原文

    跳转微信打开

    新书推荐 | 《数字文本历史隐喻论纲(Theses on the Metaphors of Digital-Textual History)》

    2026年3月13日 10:57

    2026-03-13 10:57 湖北

    2024年7月在斯坦福大学出版社出版的《数字文本历史隐喻论纲》为斯坦福文本技术丛书的一部分,以开放获取的形式面世,不仅契合了作者素来倡导的开放学术理念,更为数字人文领域的理论建构提供了深邃的省思空间。

    一、书籍简介

    英国学者马丁·保罗·伊夫(Martin Paul Eve)于 2024 年 7 月在斯坦福大学出版社出版的《数字文本历史隐喻论纲》(Theses on the Metaphors of Digital-Textual History是一部备受瞩目的学术专著。该书列入斯坦福文本技术丛书 (Stanford Text Technologies),且以开放获取的形式面世,不仅契合了作者素来倡导的开放学术理念,更为数字人文领域的理论建构提供了深邃的省思空间。

    就其学术定位而言,此书并非传授文本挖掘、数据可视化或程序实现等操作技能的实用指南,而是驻足于数字人文、书籍史、文本研究、新媒体与出版研究的交汇处,倾力剖析那些形塑人们数字空间感知且与物质文化史深度纠缠的数字文本隐喻。伊夫的洞见在于,他未将页面、窗口、站点、空白、图书馆或是保存等词汇视作毫无生气的技术术语,而是将其还原为承载着历史负荷与意识形态的隐喻系统。人们在数字环境中习以为常的翻页与留白等日常表述,实则潜藏着印刷文化、建筑空间、政治制度、音乐书写乃至档案观念的旧有肌理。据此,作者提出核心论断,即数字文本绝非纯粹虚拟、抽象或去历史化的存在,它始终与纸介质、软硬件接口、底层协议、基础设施、数据存储乃至全球技术秩序紧密相连。全书所探讨的并非单纯的命名之争,而是数字文本性究竟如何被语言机制所建构,又如何反过来受制于这些语言的深层追问。

    在叙述架构上,该书凭借一组彼此呼应又各自圆足的命题层层推进。纵览其旨归,诸如虚拟页面几乎从未真正存在、数字留白乃是音乐性静默的延续、数字文本内蕴地缘政治结构、数字文本是多维的、窗口实为政治自由主义的寓言、图书馆是可重组的焦虑碎片集合,以及凡未保存者皆将丢失等核心论题,皆彰显出作者将日常数字经验重新历史化、政治化与物质化的学术雄心。书内对数字页面的探讨,深究了其对纸质书页逻辑的承袭;对屏幕空白的剖析,将其置于更为悠久的媒介感知史中;而关于地缘政治的论述,则将数字文本还原至统一码标准、互联网治理与全球技术权力的博弈场域内;至于涉及图书馆与数据存储的篇章,更是直指数字档案、数据脆弱性与保存政治的深层隐忧。

    综上所论,此书的要旨不在于贡献新颖的数字人文工具,而是督促学界反思,当人们谈论数字文本时,究竟沿用了哪些源自纸本时代、现代制度与西方技术文化的阐释框架,这些隐性框架又如何潜移默化地左右着数据库设计、数字版本构建、界面理解、阅读组织以及对文本物质性的描述。对于从事 TEI 文本编码、数字校勘、数字版本、书籍史、界面史乃至文本物质性研究的学者而言,该书具有极强的启示意义,它无时无刻不在提醒研究者,所谓的数字呈现从来不是中立的容器,而是裹挟着历史前提的释读结构。正是由于成功地将数字文本研究的重心从操作层面的技术实现引向了认识论层面的学理反思,该书荣获了2025年SHARP Book History Book Prize,足见其在方法论推进上所确立的学术标尺地位。

    二、作者简介

    Martin Paul Eve

    Martin Paul Eve是活跃于数字人文与开放学术出版领域的英国学者,目前担任伦敦大学伯贝克学院文学、技术与出版教授,同时兼任美国密歇根州立大学 MESH 研究中心知识共享项目的技术负责人。他曾在萨塞克斯大学取得博士学位并担任导师,此后历任林肯大学英语讲师、伯贝克学院高级讲师,并在 2019 至 2022 年间担任谢菲尔德哈勒姆大学数字人文客座教授。此外,他还在 2023 至 2024 年间出任 Crossref 的首席研发工程师,并于 2022 至 2025 年间担任剑桥大学哲学硕士学位的外部审查员。

    他的核心学术愿景在于理解不同知识体系在书写中的呈现方式,探讨文学阅读技巧如何帮助人们接触历史的、科学的、数字事实的以及文学的等多种知识形态。其研究广泛涉及当代英美小说、技术历史与哲学、学术评价文化以及学术出版的技术变革。在数字人文领域,他不仅进行理论批判,还亲自投入计算项目的开发,并指导涵盖数字人文、当代小说与学术传播等诸多方向的博士生。

    在学术出版生态方面,他长期大力倡导人文学科的开放出版模式,曾受邀出席英国下议院商业、创新与技能特别委员会的开放获取调查,担任 S 计划大使,并参与创立了人文开放图书馆。他还负责统筹由英国研究英格兰机构与阿卡迪亚基金会资助的 COPIM 项目核心工作。作为一位兼具程序开发能力与深切人文关怀的学者,他迄今已撰写或主编 10 余部学术著作,其中包括 2024 年出版的《数字文本历史隐喻论纲》、2022 年的《数字人文与文学研究》、2019 年的《使用计算机细读》以及 2014 年的《开放获取与人文学科》等重要文献。

    他的卓越学术贡献与公共倡导使其屡获殊荣,不仅在 2017 年入围英国《卫报》高等教育最具启发性领袖最终 5 强,还在 2018 年获得鲁汶大学人文社会科学荣誉奖章,并于 2019 年荣获利弗休姆文学研究奖。2020 年,他当选为英国英语协会会士,次年又被肖氏信托基金评为英国最具影响力的 100 位残障人士之一。2024 年与 2025 年,他又分别斩获大学出版社协会 StandUP 奖以及新型阅读与出版史学会书籍史图书奖。这种跨越代码技术、文本物质性与当代文化批判的多元学术背景,使其能够极其敏锐地捕捉并剖析数字时代文本生产的深层逻辑,在理论建构与技术实践层面均展现出极高的专业水准。

    在数字人文的具体实践中,他不仅进行媒介理论层面的批判反思,还亲自投入底层技术与代码的构建,致力于研发用于文本挖掘与文学分析的计算工具。在学术出版生态方面,他长期研究并大力倡导人文学科的开放出版模式,主张对二十一世纪的学术交流与传播方式进行彻底的重构与技术支持。他的学术关怀同样体现在对技术基础设施的细致审视上,他持续关注学术机构如何摆脱大型科技巨头的垄断、去中心化网络的建设以及开源底层技术的实现等前沿议题。

    更多作者信息请参考:https://eve.gd/

    三、书籍目录 

    Chapter 1 Theses on the Metaphors of Digital-Textual History

    Chapter 2 The Virtual Page Almost Never Existed

    Chapter 3 Digital Whitespace Is the Seriality of Musical Silence

    Chapter 4 Digital Text Is Geopolitically Structured

    Chapter 5 Digital Text Is Multidimensional

    Chapter 6 Windows Are Allegories of Political Liberalism

    Chapter 7 Libraries Are Assemblages of Recombinable Anxiety Fragments

    Chapter 8 Everything Not Saved Will Be Lost

    Chapter 9 Conclusion

    第一章 数字文本历史的隐喻论纲

    第二章 虚拟页面几乎从未存在

    第三章 数字留白即音乐性静默的序列延续

    第四章 数字文本具有地缘政治结构

    第五章 数字文本是多维的

    第六章 窗口是政治自由主义的寓言

    第七章 图书馆是可重组焦虑碎片的聚合体

    第八章 凡未保存者,终将丢失

    第九章 总结

    四、章节概要

    1.数字文本历史的隐喻论纲 Theses on the Metaphors of Digital-Textual History

    作为全书的开篇,Theses on the Metaphors of Digital-Textual History 并不只是一般意义上的导论,更接近一篇方法论宣言。它的作用并不仅仅在于交代研究背景、章节安排和问题意识,而是直接将整本书最核心的理论框架、材料范围与论证方式提前铺陈出来。伊夫在本章中首先完成的工作,是把数字文本从一种仿佛轻盈、透明、去物质化的存在,重新拉回到技术史、媒介史与文本史的连续谱系之中。他明确指出,本书真正关注的是数字文本隐喻发生断裂的时刻,因为也正是在这些地方,我们才能看见,今天的文本软件与数字环境究竟如何被一套已经脱离原始语境的隐喻体系所规定。本章极具启发性的地方,在于作者并未从抽象定义入手,而是通过博尔赫斯、数值系统以及计算环境之间的关系,迅速将读者带入一个更深层的问题之中。数字文本表面上看似由文字、页面、界面与阅读构成,但在更底层的层面上,它同时又涉及编码、数值、存储与计算。因此,当我们今天讨论文本历史时,实际上已经无法只沿着传统书籍史的路径,去谈抄写、印刷、装帧、流通与阅读,而必须同时处理数字对象的生成机制、技术实现以及界面组织方式。本章的重要贡献,正是在于它将文本史的问题从物理载体扩展到数字条件之中,并提醒读者,数字文本并不是传统文本史之外的例外。恰恰相反,它只是将文本的媒介条件暴露得更加彻底。

    在此基础上,作者提出了整本书最关键的判断之一,即数字文本环境之所以显得自然,并不是因为它真的天然如此,而是因为它已经被一整套隐喻语言组织过。我们平时习惯说页面、窗口、站点、保存、图书馆、留白、滚动、下载,这些词表面看来像是中性的技术术语,实际上却都携带着深厚的历史背景,来自纸本文化、建筑空间、行政制度、日常办公,甚至身体动作的经验结构。本章真正要处理的,并不是这些词是否形象,而是这些词为什么会成为理解数字文本的主要通道,以及它们在什么时刻已经不再准确,却仍然继续支配我们的认知。作者特别强调,本书就是要寻找这些隐喻失效的节点,因为隐喻的失效点恰恰暴露了数字文本环境中的历史缝隙与认知惯性。

    为了说明这一点,本章实际上提出了一个非常清楚的三阶段模型。作者认为,数字文本隐喻通常会先经历一个描述性阶段。在这一阶段,隐喻是有帮助的,因为新技术刚刚出现,人们需要借助旧有经验去理解陌生对象。随后,它会进入一个脱锚阶段,也就是隐喻开始偏离其原本对应的现实基础,逐渐失去准确性。到了最后,隐喻却并不会因为失准而退出,反而会进入一个规定性阶段,变成行业标准、设计逻辑和用户预期的一部分,进而反过来塑造未来的发展方向。这个模型十分重要,因为它说明了作者为什么如此关心那些看似琐碎的术语问题。对他而言,这些词绝不只是修辞装饰,而是会沉淀为设计选择与技术路径的认知基础。也正是在这个意义上,他援引斯图尔特·霍尔和德里达的说法,强调隐喻不仅会影响实践,也会固定研究结果。

    本章还有一个十分值得注意的理论推进,即作者并不满足于将研究对象理解成狭义上的文本本身,而是把目光转向数字文本周围的副文本装置,或者更准确地说,转向那些使文本得以生产、显示与被理解的条件系统。从方法上说,本章明显承接了概念隐喻理论的脉络。作者接受莱考夫与约翰逊那种较强的立场,即人类并不是先拥有一个完全中性的概念,然后再用隐喻去修饰它。恰恰相反,很多概念本来就是通过隐喻组织起来的。

    在这种分析中,作者还特别强调了一个问题,即数字隐喻的风险并不在于它完全虚假,而在于它部分有效,因此更容易被误认为是整体真实。某些术语在最初阶段确实帮助人们理解了新媒介,但随着技术环境发生变化,它们与对象之间的对应关系已经越来越薄弱。问题在于,一旦这些词进入系统设计和用户习惯,它们就会变得极难摆脱,甚至会反过来影响未来技术应当被设计成什么样子。

    本章另一个重要的推进,在于它并没有将界面简单理解为对现实对象的模仿,而是更接近于一种有选择的幻象建构。作者借助用户幻觉这一脉络提醒读者,数字纸张、数字窗口或数字桌面之所以看起来亲切,并不是因为它们严格复制了现实中的纸张、窗户和桌面,而是因为它们保留了足以让用户迅速识别的那部分特征,同时又赋予这些对象在现实世界中并不具备的能力。

    此外,本章还有一点尤其值得注意,那就是它将问题从语言延伸到了身体实践。数字书写与阅读并不只是观念活动,也不只是一个看见界面并完成点击的过程,而是会在长期使用中沉淀为习惯、姿态与肌肉记忆。作者在方法自述中明确提到,这本书也受到文化现象学视角的影响,不仅关心概念系统如何构成数字文本环境,也关心这些环境如何在真实生活中被经验、被操练、被身体化。也正因为如此,本章既谈历史考古,也谈当下实践;既谈术语来源,也谈数字环境如何成为我们日常经验的一部分。这个维度使全书避免沦为纯粹的术语批评,而始终保持着对技术生活世界的敏感。

    至于本章的学术意义,作者其实处理得相当谨慎。他并没有简单宣称,只要知道某种界面隐喻的来源,就足以解释文学文本风格的变化或阅读方式的全部转型。相反,他对这种直接的技术决定论始终保持距离。但他也坚持认为,追索这些隐喻依然十分重要,因为这有助于我们辨认当代数字文本环境是如何被历史性地生产出来的。

    总的来说,这一开篇章节的任务,并不是简单告诉读者这本书接下来会讲什么,而是先行确立一种极具辨识度的研究姿态。它要做的,是把数字文本从一种被自然化的技术现实重新陌生化,把那些最常见、最不起眼、也最容易被忽略的界面语言重新变成需要解释的历史对象。也正因如此,本章其实已经完成了整本书最核心的理论预备工作。它告诉读者,数字文本的问题从来不只是文本进入了电脑,而是文本如何在电脑之中被重新命名、重新组织、重新想象。若不先拆解这些支撑数字环境的隐喻系统,后面关于页面、留白、地缘政治、窗口、图书馆和保存的讨论就都无法真正展开。

    2.虚拟页面几乎从未存在 The Virtual Page Almost Never Existed

    The Virtual Page Almost Never Existed 集中处理了全书中极具代表性、也极易被日常经验自然化的一个议题,也就是数字文本中的页面究竟为何物。伊夫在这里试图拆解的,并不是页面一词本身是否可用,而是人们为什么会理所当然地将数字文本组织成页面,又为什么会误把数字页面视为纸页在屏幕上的自然延伸。就其基本立场而言,所谓虚拟页面绝不是一种稳定、单线并且可以直接追溯至印刷书页的媒介形式,而是一种后起的、混杂的、由多重技术条件共同塑造的视觉与操作产物。

    作者切入这一问题的视角相当精准,首先将目光投向计算机底层的分页机制,也就是内存管理语境中的 memory page。计算机内部的 page 可以断裂,可以被调度,甚至根本不在主内存之中,它本质上是一种逻辑分割,而不是读者能够始终翻阅的实体叶片。通过揭示这种内部分页与阅读页面之间的根本差异,作者有力地撕开了笼罩在数字页面表层的基础误解,打破了将所有被称为 page 的对象都视作纸页自然变体的幻觉。

    顺着这一逻辑,作者进一步抛出了一个极具穿透力的问题。在一个既缺乏真实翻页动作,也不存在纸张物理边界的媒介中,所谓 turn a page 究竟指代何种行为。他借用 Dennis Tenen 的提问指出,尽管人们在数字空间中仍然频繁调用 page、pagination、page up 与 page down 等指令,仿佛页面仍是天经地义的基础度量,但这种不加思索的理所当然,恰恰是最值得追问的地方。

    他明确反对将数字页面视为物理页面直系后裔的粗糙史观。尽管文字处理软件在很长一段时间里确实致力于模拟书籍或印刷文稿的形貌,这种倾向在桌面出版与 WYSIWYG 的发展轨迹中尤其明显,但即便处于这种高度逼真的模拟环境之中,数字页面仍然表现出极强的不稳定性。不同字体、字号、边距、屏幕分辨率、缩放比例乃至滚动条等功能变量,无一不在持续重塑页面的内容布局与流动结构。页面不再是先天锚定于文本的恒定容器,而是设备、软件与显示条件实时交互所形成的表面结果。文本并不真正栖居于某个固定的页面之中,而只是暂时显影为某种页面样态。

    这也正好解释了,为什么 WYSIWYG 原则在历史上始终伴随着难以调和的矛盾。该原则在表面上承诺,屏幕所见即输出所得,但在真实运作中,屏幕显示与打印成品之间往往始终存在落差。作者以 Xerox Bravo 为例,说明早期系统的屏幕分辨率与打印分辨率常常彼此脱节,从而使 what you see is what you get 屡屡滑向 what you see is not what you get。PDF 格式的出现,正是在可写性、滚动信息流以及显示与打印脱节之间,试图强行寻求一种新的稳定机制。PDF 的重要性不仅在于它作为通用格式的普及,更在于它彻底暴露了数字页面始终面临的根本难题,也就是页面的边界究竟应当如何固定,视觉呈现如何跨设备保持一致,以及数字文本如何在流变性与封装性之间取得平衡。

    在此基础上,作者并没有草率地断言数字页面只是一场失败的纸页模仿。他的论证更细致之处在于,他层层说明,所谓数字页面自其诞生之初就不可避免地混入了其他媒介传统,其中 scroll 与 tablet 隐喻的渗入尤为关键。

    这又进一步将视野拉回到长时段的书籍史。作者特别提醒,不应将 codex 页面的历史想象得过于纯粹,仿佛它从一开始就与 scroll 完全对立。事实上,手抄本与早期 codex 本身就潜藏着流动与断裂并存的双重特征。页面固然提供了间断,为跳转、索引和定位带来便利,但它同时也在垂直方向上维系着某种连续性,而这种连续性与 scroll 所体现的展开性并非毫无关联。作者借 Manuel Portela 等人的讨论阐明,codex 本身就不是一台完全纯粹的页面机器,而是一种混合着 scroll 历史的新媒介形态。这样一来,数字语境中 scrolling 与 pagination 的并存,便不再显得像某种异常拼贴,反而更像是媒介历史中旧有混合性的再次显现。数字页面之所以显得怪异,并不是因为它背离了某种纯正的页面传统,而是因为我们错误地将 codex 页面神话成了一种原本就不存在的纯粹形式。

    本章在这里完成了一个重要修正,也就是反对把数字页面的历史书写成单纯的 print replication。作者承认,在报纸生产或印刷排版等场景中,数字文件确实常常服务于印刷输出,这种跨媒介的分页延续也因其实用性、权威性和可移植性而持续占据主导地位。但他同时提醒,如果将这种延续误认为数字页面的全部历史,就会错判其真正的形成机制。

    因此,本章并不是在消灭页面,而是在重新定义页面。数字页面之所以几乎从未真正存在,是因为屏幕上那些看起来像页面的东西,实际上根本缺乏传统页面最基本的 boundness,也就是那种由物质边界、装订结构与固定顺序共同赋予的页性。在许多场景中,数字页面只是暂时性的视觉截面,是由显示设备、分辨率、缩放、滚动、软件布局规则与输出格式共同决定的局部状态。它在这个设备上是一页,在另一个设备上可能变成两页、半页,甚至成为连续流的一部分。此刻还可以被视为离散单位,下一刻却又被滚动逻辑抹平成连续信息流。页面不再是文本的天然单位,而成为技术系统临时生产出的阅读幻觉。也正是在这个意义上,作者才会断言,虚拟页面几乎从未存在。

    这种页面幻觉并未停留在屏幕显示层面,而是早已渗入硬件设计与用户操作想象之中。键盘上的 PgUp 与 PgDown 就是极佳的例子。这两个按键表面上似乎说明,人们仍以页面为单位理解文档移动,但其实际行为并不等同于书本中的左右翻页,而更接近一种被离散化的纵向滚动。与此同时,键盘上又保留着 ScrLk 这种与滚动相关的功能,以及 Print Screen 这种由打印逻辑转化而来的截图功能。输入设备本身就同时承载着 page、scroll、screen 与 print 等多种媒介隐喻。页面不再是独占性的主导逻辑,而是与其他历史层叠的媒介词汇一起,共同构成了今天的日常交互。

    在阅读设备的发展上,页面中心主义同样正在逐渐松动。电子阅读器引入了 Kindle 的 location 等新型位置标记,取代了固定页码,这说明阅读经验完全可以从 page imaginary 中被解开,重新锚定到文本本身的段落、位置或可计算序列之上。作者并未将这种变化写成对页面的彻底超越,而是谨慎指出,页面作为象征与习惯依然极其顽强,但它已经不再是数字阅读中唯一有效的组织原则。数字阅读技术一方面仍然借助页面维持用户的熟悉感,另一方面又不断通过新的定位机制、响应式布局与设备差异性,侵蚀页面原本的中心地位。正是这种一边保留、一边松动的状态,构成了数字页面最典型的历史特征。

    抛开技术细节的罗列,这一整段推演极好地展现了伊夫的整体方法论。他并没有简单宣布页面已经过时,也没有以技术史的方式堆砌格式演化,而是通过不断追问一个日常词语在不同层级中的异质性,揭示了数字文本历史内部的断裂。

    3.数字留白即音乐性静默的序列延续 Digital Whitespace Is the Seriality of Musical Silence

    本章深入解构了数字文本处理中早已被视为理所当然的 whitespace 概念。作者首先针对空白天然等同于白色这一视觉直觉提出质疑。他指出,数字书写空间中的白底黑字并非技术演进的必然起点,而是一种文化与意识形态共同塑造的结果。早期计算机显示器往往以绿字、琥珀色字或蓝底灰字呈现,甚至在更早的打孔卡系统中,物理上的孔洞反而代表正值。因此,将数字留白命名为 white,实际上是将纸张时代的文化逻辑强行迁移到数字介质中的产物。

    论述随即转向纸张的物质史。作者认为,纸张的白化并不是回归某种自然状态,而是一个涉及生产技术、宗教象征与道德观念的社会化过程。

    在讨论显示技术史时,作者进一步使问题的结构变得更复杂。电视与显示器的发展史并不是一条线性朝向白色背景推进的道路。早期彩色技术成本高昂且不稳定,单色显示长期占据主流。在 CRT 技术阶段,屏幕甚至表现出一种透明性,前端是玻璃,后端则是黑暗的机器内部。当承载虚拟页面的基底从实体颜色转变为光学投射的透明效果时,人们却依然坚持使用 whitespace 这一术语,这恰恰说明了视觉隐喻对技术现实具有极强的覆盖力。

    为了定义数字留白的本质,作者转而借助音乐与声音哲学,重点分析约翰·凯奇的 4′33″。他提出,要理解数字文本中的空白,必须将其视为一种被结构化的无。正如 4′33″ 并不是制造绝对寂静,而是通过环境音的介入,使静默变得可感知、有边界并且可以被记谱,数字留白同样具有形式与结构。凯奇的文本实践表明,空白页面会受到材料性、格式与偶然性的共同塑形。作者借此暗示,静默与空白都不是抽象观念,而是由具体媒介条件所规定的技术产物,例如唱片时长的限制,或编码系统本身的组织方式。

    本章最后将视觉空白与声音静默统一到 seriality 的框架之下。这种序列性强调,空白与静默都依赖于可重复、可计量且可分割的机制。静默可以被划分为乐章与停顿,而数字留白则在 Unicode 系统中被精细编码为空格、换行、制表以及各种具有特定宽度和功能的不可见字符。作者以艾米莉·狄金森的诗歌排版为例,展示那些难以标准化的横线与空隙如何在数字环境中被转化为高度可计算的差异系统。

    4.数字文本具有地缘政治结构 Digital Text Is Geopolitically Structured

    本章系统揭示了那些看似中立的技术标准,如何深深嵌入全球权力格局之中。作者避开了宏大而抽象的推演,转而以二十世纪八九十年代欧洲 DemoScene 亚文化中的 ASCII 艺术与 NFO 文件作为切入点。这些利用文本字符构成的视觉图像,实际上高度依赖 Unicode 字符集中的特定块状字符。当字体库缺乏对非拉丁语系字符的精确支持时,这些字符往往会被降格为单纯的视觉填充物。这个现象说明,那些原本承载特定文化传统的字符,在英语主导的数字生态中被进一步工具化。由此,作者指出,数字排版与字符编码并不只是技术细节,而是内含着语言等级与书写特权的权力逻辑。

    在梳理 Unicode 的演进史时,作者挑战了它作为普遍主义理想准则的公共形象。借用 Bowker 与 Star 关于标准化的论述,作者强调了标准一旦确立之后所产生的锁定效应。早期设计中的偏差,在后续演进中极难修正,往往只能通过不断打补丁的方式去延宕矛盾。这种演进路径使拉丁字母稳居核心地位,而汉字文化圈等非拉丁语系在早期则长期面临被边缘化或被粗暴处理的处境。作者认为,这种优先级排序并不是技术的必然结果,而是殖民扩张与历史支配地位在数字时代的延续。

    随后,论述的视野从微观编码扩展到互联网的物理基础设施。作者通过分析域名系统、自治系统与边界网关协议,论证数字文本的流通始终必须依托于具体的物理路径。尽管互联网常常被感知为一种去地域化的云端结构,但其底层实际上是铺设在地缘政治版图上的海底光缆与交换枢纽。作者指出,互联网的连通性并不是均匀分布的,而是高度集中于少数寡头供应商手中。在治理逻辑上,BGP 协议所体现出的自治、边界与对等拨接等概念,在话语结构上与国家主权高度同构。此外,自治系统的确立又高度依赖传统的行政审批与商业斡旋,这说明高科技基础设施的运行,依然深深嵌套在世俗官僚制度与人情网络之中。

    在讨论区块链技术时,作者将其视为一种试图通过算法共识来解决数字空间信任危机的治理方案。通过分析双重支出问题,他说明区块链如何利用分布式账本与加密技术,在没有中心权威的条件下建立秩序。然而,区块链在追求去中心化的同时,也人为制造了数字稀缺性,而这恰恰与数字内容易于复制的本性相违背。作者强调,这种治理尝试不仅伴随着高昂的能源成本,更关键的问题在于,谁有权定义合法秩序与共识。这再次说明,任何技术方案最终都会回落到政治问题之上。

    5.数字文本是多维的 Digital Text Is Multidimensional

    本章处理的,是数字文本在空间组织、阅读路径与界面定向上的复杂结构。作者开头先从一个极为日常、却也很容易被忽视的现象谈起,也就是浏览器历史记录、网页访问路径以及多窗口操作的经验。表面看来,用户似乎总是在按顺序阅读和浏览,先打开一个页面,再跳转到下一个页面,最后又回到前一个页面,于是整个过程仿佛可以被整理为一条线性的时间轴。但作者指出,这种线性叙述只是表面的结果。实际上,用户的访问记录往往不断分叉、折返与重组,真正支撑这些操作的并不是一条单线,而是一种复杂的链接结构。即便这些复杂路径最终仍然可以被重新编排为按时间排列的访问序列,也无法改变这样一个事实,即数字文本环境本身始终建立在多维结构之上,只是界面常常将这种多维性压平为一维或二维的可读表面。作者在这里明确提出,我们的界面不只是制造非物质性的幻觉,同时也制造单维性的幻觉。

    在此基础上,本章转向对 dimension 这一概念本身的说明。作者先从最基础的笛卡尔坐标讲起,也就是长度、宽度与深度,接着再将时间作为第四维引入,以说明任何对象不仅可以被放置在空间坐标中,也可以被放置在某一时刻之中。随后,他继续往上推进,提出第五维、第六维乃至更多维度,并不一定必须是几何意义上的额外空间方向,它们也可以是任何能够区分对象的分类轴。作者用狗和鱼的例子说明,腿的数量、尾巴的数量、耳朵的数量都可以成为额外维度。这一段的作用,是为后文讨论数字文本做准备。因为数字文本之所以是多维的,并不是说屏幕真的存在我们肉眼看不见的立体深度,而是说它同时被排布在多条性质不同的轴线上,例如时间轴、空间轴、链接轴、格式轴、代码轴与界面导航轴。

    为了使这种多维性更容易被想象,本章接着借用了十九世纪关于 tesseract 的讨论,也就是超立方体的观念史。作者提到 Howard Hinton 对高维空间的兴趣,说明十九世纪的人们已经在尝试训练自己去理解超出日常三维经验的空间结构。Hinton 甚至制作了一整套辅助想象高维空间的立方体模型,试图让学生获得某种更高维的感知能力。作者在这里并不是单纯回顾数学史,而是要借这一历史线索说明,人类经验天然倾向于将对象压缩到少数熟悉的维度之中,因此凡是多维结构,往往都必须通过投影、剖面或简化图像来呈现。数字文本也是如此。我们在屏幕上看到的是一个平面的文档界面、一个网站页面,或一个滚动窗口,但这都只是更复杂结构的可见投影。换言之,用户面对的并不是数字文本的全部,而只是其多维组织在某一时刻的一种投影形态。作者随后明确指出,从 home 到 end 这样的文本方向轴,到 Microsoft Word 所依赖的标记格式,数字文本处理从根本上说就是多维的。

    围绕阅读路径,本章还将注意力放在 nonlinearity 的问题上。作者明确表示,他会借助电子文学中关于非线性的理论讨论,但尽量避免那种已经过于陈词滥调的 hypertext 叙事。也就是说,他并不是简单重复早期数字文学研究中关于超文本打破线性阅读的说法,而是要更具体地说明,数字文本环境中的非线性究竟是如何被实际界面、导航与操作方式组织起来的。这里的重点并不只是读者可以跳转,而是所谓从开头到结尾的单向阅读隐喻,在数字环境中本来就已经不再充分。网页、超链接、历史记录、多标签、多窗口以及平台层级,共同造成了一种阅读路径的解绑。文本不再稳固地被装订在从第一页到最后一页的顺序之中,而是不断被嵌入其他路径、其他返回机制以及其他层级关系之中。作者因此将本章与前面关于虚拟页面的讨论联系起来,认为这里处理的同样是一种 unbinding,只不过前一章拆解的是页的边界,而本章拆解的是阅读路径的边界。

    为了说明这种解绑并不只属于数字环境,本章还引入了 B. S. Johnson 的 The Unfortunates。作者将这部以盒装散页形式出现的作品视为一种 multidimensional text 的例子,因为这部作品并不把阅读顺序固定在单一路径上,而是要求读者在一组彼此相关、但顺序并不稳定的文本单元之间移动。本章接下来又转向 home 这一组空间隐喻。作者特别指出,他要推进前一章中稍微触及的 home 与 away 的问题,进一步讨论界面与软件设计如何在想象层面安置读者与文本生产者。这里的提问方式很有意思。作者并不是单纯分析 Home 键在键盘上的功能,而是更广泛地追问,为什么在数字文本环境中,不同的空间会被命名为 home,谁有权决定何处是 home,以及为什么在许多数字文本语境中,home 的反义词不是 away,而是 end。这个问题看上去像是词汇层面的细究,但作者实际上是在讨论空间方向感如何被界面预先规定。换言之,当一个文档允许用户通过 Home 键回到开头,通过 End 键跳到结尾时,文本空间就被想象成某种可以居住、可以返回、也可以抵达的场域,而这套想象本身并非天然成立。它赋予数字文本一种居所式结构,也在无形之中规定了用户如何理解自己与文本之间的位置关系。

    顺着这个问题,本章后面进一步将 home 的隐喻推向平台与网络空间。作者提到 WordPress 这类平台提供给用户的空间会被称为 homes,而这些 home 又同时建立在更下层的平台维度之上。也就是说,用户所拥有的那个网站、博客或页面,表面上看仿佛是自己的 home,但它其实始终依附于另一个平台结构之内,是一种建立在租佃关系之上的空间所有感。作者在这里将这种结构与新自由主义语境中的 home 和 ownership 观念联系起来,指出数字 home 并不只是一个温馨的回返之地,它同时还与财产、阶层、归属以及平台依附关系纠缠在一起。数字家园既像私有空间,却又不是完全自治的私有空间;它带有强烈的 proprietorial 色彩,同时又受制于上层平台的规则与基础设施。因此,home 在本章中便不再只是光标移动的起点,也成为数字文本发布、存储与传播过程里一个带有社会与经济意味的空间隐喻。

    6.窗口是政治自由主义的寓言 Windows Are Allegories of Political Liberalism

    本章所围绕的核心对象,是数字界面中极为日常、却又很少被认真追问的 window 隐喻。作者一开始便从 Microsoft 这一品牌语言切入,指出 Windows、Vista、Outlook、Paint、Visual Studio 这一整套命名,本身就高度依赖视觉、开敞、观看与景观的意象。也就是说,微软不仅是在生产软件,同时也不断通过命名策略,将自己的产品包装为一组与视野、透明性和通达性相关的对象。不过,作者紧接着便指出,这种隐喻在技术层面其实并不成立。我们在屏幕上看到的窗口,并不是一个真正向外开启的透明孔洞,它并不使用户直接看见某种内部实在,而只是复杂的渲染、合成与显示过程所形成的表面结果。换言之,本章在开头便先将 window 从一个看似自然的界面术语,重新拉回到一种有待拆解的视觉修辞之中。

    紧接着,本章将讨论集中到 transparency 和 vision 这两个关键词上。作者明确说明,本章要分析的,正是窗口这一隐喻如何将透明、可见与可进入这些观念附着到数字文本处理之上,并进一步将这种分析推进到数字可访问性的问题。也就是说,本章的结构本身分为两个部分。前半部分主要拆解窗口隐喻与开放、关闭、锁定、解锁之间的关系,尤其会联系微软与开源社群之间在历史上复杂的纠葛。后半部分则转向 critical disability studies,从视觉中心主义的角度重新思考数字文本的可访问性。因此,本章并不只是单纯书写窗口的历史,也不只是讨论界面设计,而是在考察一个界面隐喻如何同时牵连出政治观念与身体政治的问题。

    在分析窗口本身时,作者先回到更早的 desktop metaphor,并将 window 重新放回 desktop 这一整体场景中来理解。他先提到早期对于桌面隐喻的一些批评,例如桌子本身并不是纸张信息的直接容器,也不是一种通常会被携带和分享的对象,人们一般也不会说自己在阅读一张桌子。随后,作者将这种批评平行地转移到窗口之上,指出所谓 window 其实同样很难真正成立。真实的窗户会使人透过它看见外部,而数字窗口却并不会揭示系统的内部机制。恰恰相反,它是在原本的屏幕表面之上,进一步叠加一层图标化、框架化、功能化的元素,使用户离机器底层更远,而不是更近。因此,作者提出了一个很有意思的修正,认为这些窗口与其说像透明的窗,不如说更像 heads-up display。它们并不是让世界显现出来,而是在表面之上增加更多操作层。于是,window 这一隐喻在本章中首先被改写为一种加层机制,而非一种透明机制。

    在此基础上,作者又提出了另一个视角。也就是,如果不把用户想象为站在屏幕之外向内看进一个窗口,而是反过来将用户设想为坐在桌前、从室内向外看,那么微软的桌面与窗口隐喻就会呈现出另一层含义。这里作者引入了 Windows XP 那张极为著名的默认桌面背景 Bliss。按照他的分析,这张蓝天绿丘的照片使用户坐在桌面前时,仿佛不是在面对一组程序与文档,而是在朝向一个自然风景外望。也就是说,微软给予用户的并不只是一个工作界面,同时也是一种从劳动空间中暂时逸出的田园式幻景。但作者紧接着指出,这种外望实际上并不发生在程序窗口本身,而只是发生在桌面背景这一层面。真正的应用窗口依旧高度面向业务、管理与工作。于是,这里便形成了一种十分有意思的分裂:背景承诺的是自然、休憩与浪漫性的外部世界,而具体的窗口却又将用户重新拉回到组织化、功能化的劳动秩序之中。

    从这里继续往下,作者进一步将 window 与 opening 这一动作联系起来,但并不是简单地将其理解为打开某物,而是把 opening 和 closing 放到微软与 open source 社群之间的关系中来观察。也就是说,窗口之开并不只是一个视觉动作,它同时也被延伸为制度与产业层面的开放与关闭问题。本章导言已经明确指出,这一部分会将 window 的逻辑放入微软历史上与开源运动之间复杂的张力之中来考察。窗口在语言上象征开放、透明与可进入,但微软作为商业软件公司,其制度实践却常常与封闭、专有和控制相关。这种落差使作者能够将 window 这一术语从界面层面推进到软件政治层面。用户以为自己面对的是一个向外开启的界面,但在公司层面被维护的,往往却是对于代码、标准与平台生态的严格控制。因此,window 的开放性在这里便不再是一种无需辩证的正面价值,而是一种始终伴随着封闭、筛选与权限结构的复杂姿态。

    本章进入中段之后,作者又将窗口问题进一步转向 rendering 与 style 的层面,尤其通过 X11、Wayland、macOS、Aqua、Quartz 等系统之间的差异,来讨论界面的统一与分散。这里的关键问题在于,窗口究竟应该由系统统一装饰和规范,还是应当由单个应用程序自行决定其呈现风格。作者先说明,在传统的 X11 模式中,许多渲染与布局的控制权掌握在服务器端,应用程序通过请求让 X Server 代为处理显示更新,因此窗口外观与交互方式更容易被统一管理。相较之下,在 Wayland 中,客户端程序本身承担了更多渲染职责,应用程序可以自行绘制自己的内容,再将图形缓冲交给 compositor 呈现在屏幕上。这种架构差异使得 Wayland 中的程序在风格上获得了更大的自主性,也使统一的窗口装饰不再显得天经地义。

    作者真正感兴趣的并不是这些技术细节本身,而是 rendering 权力分配背后所隐含的政治想象。他明确指出,Wayland 的兴起中存在一种 political liberalism 的隐喻。因为当应用程序可以自由决定自身外观时,这套系统就更像一种鼓励 self-identity 的秩序。相反,在 X11 式环境中,外观与布局的更多部分由服务器统一决定,则更像一种 socially determined identity。作者甚至直接将这一问题类比到当代西方公共讨论中的身份问题,也就是一个身份究竟主要是自我宣告的结果,还是必须在社会验证、制度框架与公共规范中获得承认。换言之,本章将窗口样式是否统一的问题,写成了个体自我塑形与集体规范之间持续不断的谈判。窗口不再只是一个小矩形界面,而成为自由主义政治哲学在计算架构中的可视化表现。

    接着,作者进一步讨论这种自由并不会自动带来更好的共享理解。因为如果每个应用都可以任意重新设计自己的菜单、状态栏以及其他界面部件,那么用户赖以识别这些元素的共同隐喻基础便会被削弱。作者在这一部分明确提出了一个问题,也就是一个 menu 在被重新样式化到何种程度之后,我们还会继续把它称作 menu。也就是说,界面元素的自我表达与个体风格虽然表面上提高了自由度,但同时也会削弱共同的可识别性。这里的焦点并不只是美学差异,而是隐喻共享本身是否还能继续成立。当不同程序各自发展出自己的视觉语言时,原本支撑 user interface familiarity 的那套共同符号系统便会开始松动。因此,作者通过 Wayland 的个体化 rendering,将自由、身份、自主与公共可读性之间的矛盾具体化了。

    与 Wayland 相对,本章也专门讨论了苹果系统在相反方向上的努力。作者指出,macOS 长期以来都特别强调视觉设计的一致性,Aqua 既是图形界面,也是设计语言与视觉主题,Quartz 等底层系统则在技术层面保证了这种风格统一。这样做的结果,一方面固然是在维护品牌识别度,另一方面则是在制造 intuitive 的使用经验。这里作者并没有将这种一致性简单赞美为友好设计,而是将其放入另一个问题之中,也就是规范化的界面是否会压制个体风格,是否会将用户训练为更顺从某一 corporate agenda 的主体。随后,他又将这种 styling 问题与 subcultural studies 联系起来,讨论 style 在 CCCS 传统中曾被视为抵抗主流秩序的一种方式,但在 post-subcultural studies 的语境之中,这种关于风格抵抗的浪漫化想象又受到了质疑。这样一来,窗口风格问题就被写成了一场围绕同质化、品牌、次文化表达与抵抗幻觉展开的讨论。

    在章节后段,作者将讨论转向 The Politics of Digital Accessibility,也就是把窗口与视觉隐喻直接放入 disability studies 的框架中重新审视。他指出,更普遍适用的设计原则之所以逐渐成为必要,并不是界面设计自然进化的结果,而是与 disability rights movements 长期争取平等使用权密切相关。随着这些运动的发展,界面设计所预设的那个默认 human,也不再能够继续被理解为一个拥有完整视力、完全健全、并且能够自然适应一切视觉安排的抽象主体。作者在这里借用经典例子说明,台阶之所以会将轮椅使用者排除在外,并不是因为使用者本身天然无法进入,而是因为社会选择了台阶,而非坡道。也就是说,障碍并不单纯来自身体缺陷,而是在身体与环境的关系之中被主动制造出来的。作者将这一思路直接带入数字文本环境之中,这意味着窗口、视觉层次、透明性与可见性这些在主流界面设计中看似理所当然的东西,也应当被视为可能制造排斥的结构。

    这一部分还继续借助 Rosemarie Garland-Thomson 的工作,概括了社会中关于残障的几种主导叙事,包括将残障理解为必须被矫正的生物医学叙事、怜悯性叙事、克服叙事、灾难叙事以及污名化叙事。作者将这些分类引入本章,并不是为了做一篇一般性的残障理论导论,而是要说明,数字界面设计如果依旧以视觉中心、透明观看与无障碍操控为理想,就很容易在无意识中重演这些关于健全主体的默认设定。换言之,本章后半部分实际上是将前面所有关于 vision、transparency 与 window 的讨论都翻转了过来。前面分析的是为什么窗口并不真正透明,后面分析的则是为何这种以看见为中心的设计本身就可能构成排斥。也就是说,数字文本的可访问性问题并不是后来附加上的伦理补丁,而是会反过来挑战整套窗口隐喻得以成立的认识论前提。

    7.图书馆是可重组焦虑碎片的聚合体 Libraries Are Assemblages of Recombinable Anxiety Fragments

    Libraries Are Assemblages of Recombinable Anxiety Fragments 处理的,是数字环境中 library 这个词究竟如何从现实世界的图书馆经验,转移到代码库、数字借阅系统、机器学习训练语料以及 Stack Overflow 这类平台之上。作者一开头就提醒读者,library 从来不是一个没有政治、没有历史、也没有冲突的温和名词。图书馆在现代想象中,常常被描述为开放、公平、公共且有益的知识空间,但这类理想化叙述实际上遮蔽了图书馆制度本身复杂而并不那么纯粹的历史。作者引用图书馆史研究指出,早期图书馆经常采取订阅制,公共借阅并不是其原初形态;图书馆与阶级教育、殖民治理以及自我改善伦理之间,也始终存在深刻纠缠。因此,当数字文化将 library 这个词直接移植到 code library 或 digital library 之上时,它实际上也把一整套带有历史负荷的制度想象一并带了过去。作者在本章中明确表示,他要分析的正是 code library 这一概念内部几个关键的隐喻断裂点,尤其是 borrowing、learning 和 improvement 这三条线索,此外还补充了一个始终贯穿其间的 compatibility 问题。

    章节一开始,作者便将 compatibility 单独提出来,作为理解代码库的底层前提。作者指出,现实中的图书馆经常被想象成一种普遍开放的空间,只要进入馆藏,理论上任何读者都可以借阅、阅读并使用其中资源。但 code library 从一开始就并非如此。一个代码库是否可用,首先取决于它与何种语言、何种版本以及何种运行环境兼容。一个 Python 的库并不会天然与 Java 程序互通,甚至同样是 Python,不同版本之间也可能并不兼容。也就是说,代码库从一开始就被写进了排斥关系之中。它不是一个面向普遍公众开放的借阅空间,而是一个只对特定技术生态开放的可调用对象。作者在这里的意思非常明确,library 一词在现实图书馆语境中所承载的开放性、普遍性与公共性,一旦进入代码语境,便会立刻发生明显断裂。所谓 code library,并不是图书馆的自然数字延续,而更像是一种只在有限技术共同体内部成立的专业资源系统。

    接着,本章转入 borrowing 这条线索。作者先提出一个非常基础、却又经常被数字文化遮蔽的问题,也就是数字对象的借用并不遵循物理对象那种竞争性占有的逻辑。一本纸质书如果被某位读者借走,其他读者在同一时间便无法再借;但数字文件从技术上说却完全可以被无限复制,也可以同时被多人访问。这意味着 borrowing 在数字环境中实际上已经发生了性质变化。作者正是在这里重新拉回现实图书馆的历史,指出所谓图书馆,也并不总是以自由流通借阅为核心。历史上长期存在只供馆内阅览、不允许外借的收藏,也存在订阅制与研究型图书馆,它们本来就不等于普遍开放的公共借阅场所。作者借助这段历史说明,图书馆的核心并不只是借出,而是一整套围绕访问权限、空间限制与资源稀缺性不断调整而成的制度安排。换言之,当数字世界继续使用 borrow、loan 和 checkout 这些词时,它们并不只是技术层面的沿用,而是在重新制造某种原本可能已经被数字复制性冲击掉的稀缺结构。

    也正因为如此,本章相当详细地讨论了 controlled digital lending。作者指出,面对现实世界中物理馆藏空间越来越紧张、许多图书馆不得不 de-acquisition 纸本书籍的处境,一个看上去十分直观的方案,就是将书数字化,然后让用户像借纸本书一样,一次只能借出一份电子副本。这种做法就是 controlled digital lending。表面上看,它似乎只是将传统图书馆逻辑平移到电子环境之中,但作者立刻指出,问题恰恰在这里。因为数字文本本来可以无损复制,也可以被多人同时访问,CDL 却必须人为制造稀缺性,限定同一时间只有特定数量的用户可以借阅,而且借出之后还必须模拟归还。为了做到这一点,系统通常需要依赖 DRM,也就是通过加密与授权机制,将文件锁定在特定软件和特定用户身上。这样一来,数字借阅并不真正是借阅,而更像是通过技术手段强制模拟纸本世界的排他性。作者并没有简单地将 CDL 视为坏事,而是在这里展示出一种更复杂的局面:数字环境天然倾向于复制与开放,而图书馆制度却又试图将借阅、排队、归还与稀缺重新引入数字文本之中。

    在讨论 CDL 时,本章也顺带处理了另一个问题,也就是数字借阅系统如何在版权、开放获取与终端用户权利之间形成张力。作者指出,controlled digital lending 在政治上几乎两边都难以讨好。对于更激进的版权批评者以及部分开放获取支持者而言,它依旧是 DRM 技术的延伸,会限制再利用、复制与传播,并带来隐私与法律层面的担忧。另一方面,从现行制度的角度来看,图书馆又必须借此证明自己并未让数字复制无限扩张。因此,这一部分讨论的并不只是某一种图书馆技术,而是在说明 borrowing 这一概念进入数字环境之后,其背后已经不再是单一行为,而是一整套围绕复制、稀缺、版权与软件控制展开的制度博弈。作者还补充指出,DRM 对终端设备与软件客户端的要求,也会引发可访问性问题,因为某些辅助技术和非主流操作系统未必能够顺利使用这些受限文件。也就是说,数字借阅一旦被设计成模拟纸本借阅,它便会同时引出控制、封闭与排斥。

    从 borrowing 往下,本章的第二条主线是 learning。这里的切入点很有意思,因为作者指出,code library 这个词虽然会让人联想到学习资源、知识储备与可供调用的经验积累,但在实际编程实践中,借用现成代码库往往并不会增进使用者对底层原理的理解。作者以密码学库作为最典型的例子。程序员圈子里常有一句老话,意思是不要自己重复发明密码学工具,而应直接调用经过审计的成熟库。这个建议当然现实,也很合理,因为密码学实现极易出错,自己重写反而可能更不安全。但作者关心的是,在这种实践中,borrowing 与 learning 实际上已经脱钩。程序员借用了库,却不一定学会其中原理;库的存在反而使其内部机制变得更加黑箱化。于是,现实图书馆中那种通过借书实现自我教育与自我提升的理想图景,在 code library 这里便出现了显著断裂。调用越方便,理解反而可能越少。library 这个词继续承诺学习,但代码实践却越来越倾向于在无需理解的前提下直接使用。

    作者接着将这种 learning 的问题扩大到机器学习模型所依赖的训练语料,也就是另一种形态的 library。在这一部分,所谓 library 已经不再只是代码函数的集合,而是一个庞大的文本输入库,模型会从中抽取统计模式并生成输出。作者明确指出,大语言模型并不会一对一地保存输入图书馆中的全部内容,否则它就真的会变成一个博尔赫斯式的总图书馆;它所做的,是对输入库进行统计压缩,从中生成可采样的概率结构。这里,library 的意义再次发生变化,因为它不再是等待读者进入阅读的馆藏,而是变成一个供模型训练、被抽样、被压缩并最终转化为参数权重的底层资源池。文本在这里不再以书目、馆藏或目录的形式存在,而是被打碎、重新加权,成为生成系统的一部分。作者借此说明,library 这一隐喻一旦进入机器学习语境,便已经远离现实图书馆的阅读与借阅经验,而转变成一种统计性的摄入机制。

    而当 library 进入机器学习之后,本章最值得注意的一个问题,就是 de-acquisition 的幽灵。现实图书馆里,一本书被撤架或剔除之后,它大体上会离开流通系统,最多只留下借阅记录、目录残迹或物理痕迹。但在语言模型中,情况却并非如此。作者在这里引入 Tiffany C. Li 所说的 algorithmic shadow,指出一旦某些文本进入训练过程,它们对模型参数的影响便会持续保留下来,即使后来再将这些文本从训练数据集中删除,也未必能够真正清除其痕迹。模型训练是一个单向过程,输入库并不能从模型中被完整逆推出,而已经摄入文本的权重却会留在模型内部。因此,机器学习中的 de-acquisition 并不等同于现实图书馆中的剔除。被移除的文本仍然会以幽灵般的方式潜伏在输出机制之中。作者在这里实际上是将图书馆学中的撤藏问题,重新写成了一个算法记忆问题。数字图书馆一旦转化为训练库,删除与遗忘便不再同步。

    这一部分还继续延伸到更大的伦理争论。作者指出,如果将大规模网络文本都视为可训练的 library,那么问题就不再只是收集得是否足够多,而是这些库中究竟包含了怎样的偏见、歧视与仇恨材料。作者讨论说,企业常常辩称模型只是在反映网络内容,但批评者则强调,平台与公司仍然有责任对其摄入材料进行伦理筛选与语境处理。这里最关键的一点在于,现实图书馆即便收藏了充满问题的文本,通常仍会为读者提供目录、分类、标签、警示与语境说明;而训练后的模型输出,却会将输入材料的来源与语境熔成一体,生成结果本身往往不再带着这些框架。因此,那些在现实图书馆中仍可通过编目与语境化进行管理的有害内容,在模型中却可能以去语境化的方式重新出现。本章在这里处理的,已经不再只是单纯的图书馆隐喻,而是 library 作为训练资源时所引发的一种新的责任结构。

    在 borrowing 与 learning 之外,本章的第三条主线是 improvement。作者在这一部分将讨论转向一种更当代的 library 形态,也就是 Stack Overflow。之所以将它视为一种 library,并不只是因为它储存了大量问答,而是因为它已经成为程序员日常工作中最重要的可检索知识库之一。作者甚至指出,Stack Overflow 可以被看作未来的提喻性图书馆,也就是未来 library 的某种缩影。它不是由完整书籍构成,而是由大量可重组的代码片段、问题、答案与修订记录所构成。用户来到这里,并不是为了读完某一部作品,而是为了迅速获取一个能够直接拿来使用的 fragment。于是,这里便出现了章节标题中的 recombinable fragments。library 不再是整全知识的保存空间,而是转变成一个能够被即时调用、局部拼装与重新组合的碎片仓库。知识从册页与馆藏单位,转向了片段与可执行段落,这也是作者理解数字 library 变化的重要角度。

    8.凡未保存者,终将丢失 Everything Not Saved Will Be Lost

    本章围绕的,是数字文本世界中保存、保护、归档与丢失之间那组看似常识、实则高度矛盾的观念。作者开头先借博尔赫斯的一则故事引入问题。故事里有一本被视为神圣对象的书,它被严密封存在一个近似棺椁的容器之中,目的在于确保它不受湿气、火、风、鼠害以及公众触碰的损害。负责保管这本书的是一群类似祭司的知识守护者,而随着越来越多普通人要求接触这本书,这套守护机制反而发展出越来越复杂的理由,来证明为什么必须阻止公众靠近它。作者借这个故事展开本章的核心问题,也就是一种文本如果被保存到几乎无法接近,那么这种保存究竟还有什么意义。随着保护越来越成功,文本的社会功能反而越来越低,因为即便是保管者自己,也未必真正阅读和理解它的内容。这里被提出的,并不是一个简单的 archive problem,而是保存本身会在何时转化为一种去使用化的机制。

    从这则故事转到现实之后,作者首先讨论的是英国以及其他地区有关 nonprint legal deposit 的制度,也就是将传统上针对纸本出版物的国家呈缴义务扩展到数字对象之上。按理说,这类制度的目标,是让国家图书馆能够系统性地保存数字时代的文化产物,避免大量 born-digital material 随着商业平台更替和网页失效而迅速消失。但作者指出,现实中的数字呈缴制度往往具有一种非常矛盾的性质。它们一方面宣称要保存数字文化遗产,另一方面却常常严格限制这些数字对象的访问方式。例如某些法律要求,数字呈缴材料只能在特定馆舍现场访问,不能进行远程开放,这使得原本可以全球即时传播的数字文本,被重新压回一种类似纸本阅览室的模式。作者在这里明确写道,这样的系统制造出一种 fetishization of an inaccessible archive,也就是把无法接近的档案本身变成某种被神圣化的对象。保存于是变成了目的本身,而不再是为了持续的阅读、传播与使用。

    围绕 legal deposit,本章很快就触及了保护逻辑与版权逻辑之间的纠缠。作者指出,数字呈缴制度之所以限制远程访问,一个重要原因就在于保护出版商利益,避免数字馆藏对市场销售造成冲击。但这也意味着,所谓 preservation 在制度上并不是一个纯粹中性的文化目标,而总是嵌在围绕收入、产权、国家利益与资源控制的谈判之中。作者还特别提到,英国相关法律中甚至存在一种极为巧妙的设计,使某些呈缴的数字对象即便随着时间推移,也不必自然进入公共领域。也就是说,保护机制在这里不仅防止文本消失,也可能延缓甚至阻断文本真正成为公共文化资源的过程。于是,本章从一开始就将 preservation 写成了一个双面结构。一面是长期保存的合理性,另一面则是保存与封闭、保存与延迟开放,以及保存与民族性保护主义之间的紧密联系。

    作者将问题扩大到更一般的数字保存语境之中,并提出一个非常尖锐的追问,也就是今天的社会为什么会将尽可能多地保存一切,当作一种几乎无需辩护的自然原则。作者在这一部分直接提到,Google 所代表的 collect everything and store it forever 这一思路,已经在当代文化中被自然化了。换言之,人们似乎越来越少追问为什么要保存,而更倾向于默认,只要技术上能够存,就应当把它存下来。与此同时,作者又将这一问题与当代流行文化中 decluttering 的话语联系起来,指出像 Marie Kondo 这种主张丢弃不再带来快乐之物的生活哲学,在普遍保存主义的背景下反而显得像一种激进姿态。但问题恰恰在于,我们并不知道今天看似无用的对象,在未来是否会成为他者文化、后代历史学家或新的知识共同体眼中具有价值的材料。于是,本章在这里形成了一种持续摇摆的局面。一边是保存冲动被不断放大,另一边则是没有人能够给出完全可靠的标准,判断什么值得保留,什么可以放弃。

    作者明确提出,数字文本保存最根本的问题之一,是保存究竟应当发生在什么地方,又应当由谁来承担。在纸本世界中,legal deposit、国家图书馆与文化遗产保存之间,常常被视为几乎同义的事情。但到了数字文本时代,这一等式已经不再稳定。因为数字对象可以被多点复制、异地保存、跨平台迁移,也可以由私人平台、商业公司、学术机构、影子档案和非正式社群同时保存。作者在这里的论述重点,并不是简单比较哪一种更好,而是指出 access 与 preservation 在数字世界里往往会形成一种平行而非重叠的关系。某些系统极擅长保存,却极不擅长开放;另一些系统则极擅长开放,却未必能够承担长期稳定保存的责任。也正因此,本章后面才会同时讨论 formal archives、shadow archives、pirate libraries 以及更边缘的数字存储实践,因为作者真正关心的并不是一种理想化的保存制度,而是多种保存机制如何在现实中彼此竞争、彼此补位。

    在更广泛的数字保存讨论中,本章也专门处理了一个常见误解,也就是认为纸本之所以能够长久保存,是因为它天然比数字更耐久。作者借 Kathleen Fitzpatrick 的观点指出,这种看法其实并不成立。印刷书籍之所以能够保存下来,并不是因为它们在本体上天然更容易幸存,而是因为社会在漫长时间里持续投资了图书馆、馆藏制度、修复体系与流通网络。换言之,纸本能够活得久,并不是材料本身的奇迹,而是社会基础设施运作的结果。没有图书馆,书籍同样会腐烂、虫蛀、褪色与散佚。作者借这一点提醒读者,数字保存的问题不能被写成物理 versus 虚拟的简单对立。所谓可保存性从来都不是某种天然属性,而是一套资源配置、制度建设与劳动投入共同作用的结果。只不过在数字环境中,这套投入的形式发生了变化,从书库、修复与编目,转向服务器、异地备份、完整性校验和格式迁移。

    围绕这一点,作者随后介绍了现实中主流数字保存系统的工作方式。他指出,大多数成熟的数字保存机制,其实与纸本世界一样,依赖的同样是冗余副本、地理分散与周期性检查。像 LOCKSS、CLOCKSS、Portico 这样的系统,会在世界不同地点保存多个副本,定期检查文件完整性,一旦某个副本受损,就从另一份已知良好的副本中将其修复。表面上看,这种机制当然十分合理,因为它确保用户在未来仍然能够访问文件内容。但作者立刻指出,这种修复逻辑本身也预设了一个价值判断,即未来的人更在意文本内容能否被读取,却未必同样在意我们这个时代的计算系统本身究竟会发生怎样的腐坏与衰败。也就是说,这类系统在努力消除损伤痕迹的时候,同时也抹去了数字媒介自身衰败史的证据。于是,保存可读性与保存媒介受损历史之间,便形成了一种张力。为了保证内容继续存在,我们可能必须主动消除那些原本能够告诉后人数字媒介如何老化的痕迹。

    正因为如此,本章特别引入了数字 decay 的问题。作者以 computer viruses 为例,说明病毒当然是破坏性代码,可能损毁档案、删除内容并扰乱系统,因此从保存的角度看,似乎理应尽快清除。但他同时指出,病毒本身又是数字文化史的一部分,是特定时代技术条件、攻击形式与计算想象的历史产物。换言之,数字档案中的病毒,在某种程度上就像纸本书籍中的蛀虫或霉斑。它们一方面破坏对象,另一方面也构成对象历史的一部分。作者在这里还借用 bookworms 的研究作类比,指出书虫留下的孔洞与痕迹,长期以来本身就是书史研究的对象,因为它们能够反向揭示纸张材质、保存环境与阅读条件。因此,如果数字档案将所有病毒与损伤都彻底抹除,那么在某种意义上,我们也同时抹除了数字对象作为历史媒介所经历的具体生命过程。这里的难题并不在于是否清除病毒,而在于 preservation 与 historical trace 并不总能完全兼容。

    本章还进一步处理了网络化可访问性带来的另一重悖论。作者指出,在当代网络环境中,一部分内容会因为复制与传播过于迅速而变得异常难以删除,例如诽谤、丑闻或隐私材料,即便有所谓 right to be forgotten,也未必真能从搜索、缓存与镜像中被彻底抹去。但与此同时,网络中的 hyperlinks 又会频繁死亡,地址体系不断腐烂,网页失效与链接断裂已经司空见惯。作者用一个很形象的类比来说明这种情况,就像现实中每年书的副本数量都在翻倍增长,但告诉你这些书在哪里的目录系统却在持续腐烂。于是,数字世界并不是简单地更容易遗忘,或更容易记住,而是同时出现了过度留存与快速消失这两种相反趋势。某些内容顽固到难以移除,另一些内容却脆弱得几乎立刻蒸发。这样一来,本章中所谓 Everything Not Saved Will Be Lost 便不再是一句单线的警告语,而更像是在描述数字文本环境中记忆与遗忘错位运行的状态。

    在更具政治性的层面上,本章也持续将保存与民族主义、国家边界以及软权力联系在一起。作者指出,国家级数字保存计划往往并不是纯粹中立的文化善举,它们深深受制于国家资助、文化主权与地方性保护逻辑。以 UK Web Archive 为例,仅仅界定什么叫 UK website 就已经非常困难,因为网站的服务器位置、域名、内容面向对象以及实际读者群体都可能跨越国界。在分布式数字环境中,所谓国家文化遗产已经不再天然对应某个可以被清晰圈定的领土空间。也正因如此,保存并不是简单地将对象收进某个国家容器,而是在持续围绕边界划定、归属界定与文化代表性进行选择。因此,数字保存从来不只是技术工作,同时也是一套关于国家身份、领土想象与文化范围的政治实践。本章将视野扩展到 shadow archives 与 pirate libraries。作者在这里并不是简单地把它们当作非法替代品来处理,而是将它们纳入整个保存生态之中加以考察。因为许多正式档案系统出于版权、地理限制、经费不足或制度封闭,往往无法保证真正广泛的可访问性,于是一些非正式、半地下甚至明显违法的系统,反而承担起了实际上的 access function。

    9.结论 Conclusion

    本章首先回到一个贯穿全书的问题,也就是,既然数字文本世界中的许多隐喻其实并不那么准确,为什么还要如此认真地讨论它们。作者在开头引用 Merlin Sheldrake 和 Richard Lewontin 的观点,先将问题放到更一般的知识生产层面来处理。其基本意思是,人类几乎不可能在完全没有隐喻的前提下理解复杂对象,尤其是那些无法被直接经验、却又必须被解释和操作的事物。从这个意义上说,隐喻并不是数字时代特有的问题,而是科学、技术与知识表达的基本条件之一。然而,作者紧接着又指出,隐喻从来不只是中性的翻译工具。它在帮助理解的同时,也会将整套人类价值、偏见与叙事方式一并带入。因此,本章开头并不是要否定隐喻本身,而是要说明,问题不在于我们是否使用隐喻,而在于我们正在使用怎样的隐喻,以及这些隐喻在多大程度上已经脱离了它们最初声称要指涉的对象。

    顺着这个问题,作者随后回到用户界面设计中一种极为常见的看法,也就是界面隐喻能够帮助用户凭借现实经验更快上手系统。按照这种说法,窗口、桌面、鼠标、文件夹、页面、图书馆这些名称之所以有效,是因为它们在现实世界中本来就有参照,用户只需要将熟悉的物理经验迁移过来,就能够理解数字操作。但本章接着明确表示,整本书前面的分析已经显示,这种解释过于简单。因为很多界面隐喻并不能真正为用户提供可靠的现实参照。作者举例说,一个从未接触过电脑的人,很难仅凭现实经验真正理解为什么屏幕中的 framed rectangle 会被称作 window,为什么程序运行在 shell 里,为什么没有尾巴的鼠标仍然叫 mouse。甚至连 QWERTY 键盘最常见的一些历史解释,也往往并不准确。也就是说,界面隐喻并不像设计者理想中那样,总能将陌生技术自然翻译为熟悉现实。相反,它们更像是在某些已经能够运作的技术现象之上重新贴了一个听起来可理解的标签,而不是提供了真正扎实的现实基础。

    在这里,作者重新援引 Theodor Holm Nelson 的批评,指出隐喻的麻烦在于,它会将设计绑在某个现成模型之上。技术原本可以发展出并不类似任何现实物体的新形式,但一旦某种隐喻先行制度化,设计者便会倾向于让后续细节也服从这套模型。于是,窗口就必须继续像某种可以开关的东西,桌面就必须继续像一个可以容纳文件的平面,图书馆就必须继续像一个可以借阅和检索的场所。作者在本章中的意思非常清楚。他并不是说隐喻完全无用,而是说隐喻一旦从描述性阶段进入规定性阶段,就会反过来限制设计想象与技术未来。这一点与开篇部分提出的三阶段模型首尾呼应,也就是描述、脱锚与规定。结论部分并没有重新长篇论证这一点,而是将其收束为一个总体判断:真正值得关注的,并不是隐喻曾经如何帮助我们理解,而是它们在失去现实对应之后,为什么仍然继续组织我们的技术选择。

    接下来,本章还专门处理了一个可能的误解,也就是如果这些隐喻并不准确,是否意味着它们其实无关紧要。作者对此给出的答案是否定的。他明确指出,问题恰恰不在于这些隐喻是否能够完美对应现实,而在于它们已经变成日常语言与系统设计的一部分。一旦我们接受了 mouse、window、keyboard 这些词作为理所当然的描述,它们就会逐渐变成技术未来的可想象边界。作者在本章中再次强调,隐喻会被日常化、惯常化,随后开始规定未来可能性。本章随后将视野拉回整本书已经分析过的各类对象,但不再逐章展开,而是将它们放在一个共同框架中来理解。作者指出,无论是页面、留白、地缘政治、多维性、窗口、图书馆还是保存,这些对象都显示出同一种模式,也就是最初出于描述目的而形成的隐喻,后来逐渐与原始现实基础脱开,最终却仍然以标准、规范和默认值的形式继续运作。页面不再真正等于纸页,但数字排版仍不断被页性组织。留白不再只是白纸逻辑的直接延续,却依旧继续被称作 whitespace。窗口并不真正透明,却仍然以视觉与开放之名塑造界面。图书馆不再只是物理馆舍,却依旧承载着借阅、学习与改进的道德想象。保存也不再只是收存实物,而是变成一套与访问限制、国家边界和数字冗余相关的复杂制度。作者在结论中真正要做的,是将这些个案收束为同一个认识论图景,也就是数字文本环境并不是由中性术语构成的,而是由一整套已经逐渐变薄、却仍然顽强发挥作用的隐喻外壳构成的。

    同时,本章还处理了历史意识与当代设计之间的关系。作者明确指出,今天的软件设计者很可能并不知道古代中国彩纸的历史,也不知道 Fourdrinier 机器的技术背景,更未必真正清楚为什么白纸会成为现代书写的默认背景。很多设计决定,从设计者自己的角度看,似乎只是顺手取用了当代最普通的纸张颜色、界面样式或操作习惯。但作者接着指出,这种表面的去历史化并不意味着设计真正摆脱了历史。恰恰相反,今天所谓最自然、最普通、最无需解释的设计感,本身就是长时段历史积累的结果。人们即使不知道自己为何如此设计,也仍然在不断被过去塑造。也就是说,本章并不将历史影响理解为设计者有意识地继承前人,而是理解为当代界面的 presentness 本身就是历史生产出来的结果。

    在这里,作者对 metaphors 与 history 的关系说得非常直接。他认为,隐喻在某种意义上塑造了我们能够谈论的一切,因为几乎不存在完全脱离隐喻的表达。可是,当某些隐喻与对象之间不再保持任何字面上的贴合时,我们就必须追问,这会如何影响文本技术的发展。也就是说,作者在结尾并不是要发出一个简单号召,让大家立刻发明一套完全没有隐喻的新技术语言,而是要提醒读者持续注意那些已经空转、却仍然发挥制度力量的术语。结论部分在这里呈现出一种相当克制的姿态。它既不认为可以彻底摆脱隐喻,也不认为既然摆脱不了就不必分析。作者真正主张的是,至少应当识别隐喻在哪里断裂,在哪里变薄,又在哪里只剩下一层几乎撑不住的表皮。

    结论后段还进一步说明,整本书的方法其实是一种带有福柯式 genealogy 色彩的做法。作者明确说,追问隐喻在何处分解,实际上能够帮助我们识别历史断裂与知识断裂的时刻。换言之,分析隐喻并不是为了词语考据本身,而是为了借由这些词语的变形,看见技术史中那些表面连续、实则已经发生重大变化的节点。数字文本隐喻从局部拟像走向脱离原物,再走向规定未来的过程,恰恰提供了一种理解历史连续性与断裂性如何交织的方法。这样一来,结论部分所做的,便不只是总结前文个案,而是再次将整本书的方法论抽象出来,说明为何研究那些看似细小、甚至略带学究气的术语问题,最终仍然能够通向技术史与知识史层面的判断。

    此外,本章也保留了作者一贯的谨慎。他承认,这类研究常常带有某种 nonutility,也就是无法立即转化为明确实用结论。知道 Adobe 曾经差一点取消 PDF 的虚拟分页,并不会直接告诉我们人们如何写作,也很难量化这种内部争论究竟怎样影响了文本接受。作者并不回避这一点。相反,他坦率承认,这类知识往往不能直接导向某种简单而强烈的现实功用。然而他同时又坚持,人们仍然宁愿知道这些事情,而不是不知道。因为即便它们不能立刻拿来解释一切,也依然能够丰富我们对当代技术环境如何形成的理解。

    以上内容来自书籍官网

    经数字人文资讯小编翻译整理而成,章节介绍部分内容系原创

    如需转载,请后台私信联系

    编辑丨魏翔

    校对丨洪冰凤

    排版丨罗斯鹏

    阅读原文

    跳转微信打开

    会议通知 | 第五届东亚古籍数字人文国际论坛(DHEAC 2026)

    2026年3月6日 09:38

    2026-03-06 09:38 湖北

    会议旨在促进古籍资源在数字化、智能化信息环境下的整理、开发与应用,搭建古籍研究者与信息技术工作者沟通与协作的平台,并加强全球范围内古籍相关机构、团体与个人的合作,为东亚古典学的研究提供全新的视角和更广...

    第五届东亚古籍数字人文国际论坛
    (2026)

    会议征稿通知

    DHEAC: Annua l International Conference on Dig ita l Humanities for East Asia Classics

    宗旨

    Objectives

    历经千载流传至今的古代典籍是人类文明最重要的载体。在漫长的历史时期中,包括中国、日本、韩国等国家在内的东亚地区,以汉字文化为基础,形成了数量巨大的古籍文献并保留至今。这些古籍文献是学术界认识、理解、诠释、研究东方文明的依据,也是东西方文化交流最重要的媒介。东亚古籍也是欧洲及北美学术界研究的重要材料,尤其是国际汉学界。西方对东亚古籍的研究对东亚本土学术也产生了巨大影响。随着时代的进步,数字技术,尤其是OCR、深度学习、知识图谱等智能技术深刻改变了古籍的整理、阅读、研究及传播的模式和方法,同时,网络环境将全球的古籍研究者和爱好者更加紧密地连接在一起,使得古籍学有关人文成为一个特定的研究领域。 

    会议旨在促进古籍资源在数字化、智能化信息环境下的整理、开发与应用,搭建古籍研究者与信息技术工作者沟通与协作的平台,并加强全球范围内古籍相关机构、团体与个人的合作,为东亚古典学的研究提供全新的视角和更广阔的研究空间。

    日期  Date

        时间:2026.7.22 —2026.7.28

    注:日程表暂定

    工作坊为选择性参加(需另付注册费)。有意参与者请于在线报名期间(2026年4月20日 - 4月30日)选择以下三项工作坊之一。

    报名学员不足十人的工作坊将予以取消。 

    •  工作坊(一):吾与点工作坊 (北京大学数字人文研究中心主持) 

    •  工作坊(二):DocuSky 工作坊 (台湾大学数字人文中心、台湾数字人文学会主持) 

    •  工作坊(三):古籍整理与智能化实践 (中华书局古联公司主持)

    地点 Venue

    • 韩国首尔

    • 成均馆大学(Sungkyunkwan University,SKKU)

    会议组织Organizer

    01 主办单位

    成均馆大学中国文化研究所

    02 联合主办单位

    成均馆大学校 中国文化研究所 

    成均馆大学校 中语中文学科

    东亚知识文化教育研究所 

    翰林大学 翰林科学院

    03 协办单位

    • 北京大学数字人文研究中心

    • 南京农业大学人文与社会计算研究中心 南

    • 京师范大学文学院语言大数据与计算人文研究中心

    • 辽宁大学东北数字人文研究中心

    • 鲁东大学区域国别学院 

    • 高丽大学汉字汉文研究所 

    • 清华大学-同方知网数字人文联合研究中心 

    • 香港浸会大学中国传统文化研究中心 

    • 香港城市大学中文及历史学系 

    • 中国台湾 法鼓文理学院 

    • 中国台湾数位人文学会 

    • 浙江大学文学院数字人文研究中心 

    •  中华书局•古联(北京)数字传媒科技有限公司 

    •  中山大学数字人文联合研究院

    名单持续更新中 ......

    04 赞助

    韩国研究财团

    大会主题 Conference Theme

    数智赋能

    未来东亚古典研究的新范式与新趋势

    Digital-Intelligence Empowerment: New Paradigms and Trends in Future East Asian Classical Studies

    Proposed Tracks

    征稿主题

    • 语料库及语义资源构建 (Corpus and Semantic Resource Development)

    • 大模型与生成式人工智能在古典学中的应用 (LLMs and Generative AI for Ancient Classics)

    • 语义技术与知识工程 (Semantic Technologies and Knowledge Engineering)

    •  文化分析及数据运算 (Cultural Analysis and Computation)

    • 数字平台及资源开发 (Platform and Resource Development)

    • 医学・农业古书研究 (Specialized Domains in Classics)

    •  各类文化遗产的数字保护及活化利用 (Digitization and Revitalization of Cultural Heritage)

    • 智慧图书馆及出版融合 (Smart Libraries and Integrated Publishing)

    • 教育及课程开发 (Curriculum and Discipline Development)

    •  空间人文学与数字地图 (Spatial Humanities and Digital Mapping)

    • 多模态融合与沉浸式体验 (Multimodal Data Fusion and Immersive Experiences)

    • 众包、数字传播与公共人文 (Crowdsourcing, Digital Communication, and Public Humanities)

    • 其他 古典文献的智能化开发及活化利用相关主题 (Other Related Topics)

    Important Dates 

    主要日程

    • 摘要提交开始日: 2026 年 2 月 20 日 23:59

       https://forms.cloud.microsoft/r/TADbKPhTcn

    • 摘要提交截止日: 2026 年 3 月 30 日 23:59

    • 录取结果通知: 2026 年 4 月 20 日 (通过第一作者电子邮件)

    • 在线报名: 2026 年 4 月 20 日 - 4 月 30 日

       https://forms.cloud.microsoft/r/07kCABGZxw

    • 邀请函发送: 2026 年 5 月 20 日 - 5 月 30 日 (发送至每位参与者的电子邮件)

    • 论文全文提交截止: 2026 年 7 月 1 日

    【注意事项】

    • 为提高质量,录取篇数限制在 80 篇以下,其中包括研究生论坛 20 篇。

    • 摘要可使用英语汉语英语与韩语,亦可用英语与母语撰写。在线提交摘要链接:https://forms.cloud.microsoft/r/TADbKPhTcn

    • 在线报名链接:https://forms.cloud.microsoft/r/07kCABGZxw(4 月 20 日开放)

    • 论文全文可使用发表者所选语言撰写。摘要被录取者,请于 7 月 1 日前按论文格式提交全文。

    • 摘要将印刷于会议手册,全文将存放于 U 盘,报到时发放。

    住宿  Accommodation

    参与者可自行安排住宿。

    会务组将提供优惠酒店信息,如需代为预订,请在线上报名时提交预订信息。预订优惠酒店需支付定金,请注意支付定金后取消将产生30%的违约金。线上报名截止后如需变更信息,请参与者直接联系酒店。

    • 酒店名:宜必思首尔仁寺洞大使酒店(双人间、大床房每晚价格相同,以下为入住日价格)

    • 7月21日~23日:含早餐(韩币)146,300元,不含早餐 132,000元。

    • 7月24日~26日:含早餐(韩币)179,300元,不含早餐 165,000元。

    https://j.map.baidu.com/e8/6aI

    https://maps.app.goo.gl/HibLjaMJbh4ewP4F6

    Conference Fee

    会议费用

    (1)住宿费、交通费自理。

    (2)工作坊、论坛注册费如下表:

    【备注】

    • 缴纳方式将于线上报名时另行通知;

    • 工作坊注册费包含茶点、材料费(不含午餐);

    • 论坛注册费包含午餐、茶点、材料费及晚宴;

    • 学生请在线上报名时提交学生证扫描件。

    Presentation Language

    汇报语言

    • 推荐使用汉语、英语、韩语之一,亦可使用母语。

    •  汇报当天,为便于与听众沟通,发表者务必准备英语或汉语PPT。

    咨询    Inquiry

    联系人

    許喆 博士

     联系方式

    邮箱:heochul@gmail.com 

     微信: chulheo

    Call for Sponsors and Co-organizers

    赞助与合办单位征集

    十一

    欢迎相关研究机构、高校、企业成为大会合办单位或提供赞助。对于赞助单位,大会期间将安排独立展位,展示赞助企业产品。并提供在大会网站、会议手册和背景板上显示企业LOGO、在会议资料包中发放企业介绍资料、安排大会报告或分会报告、分会场独家冠名等权益。

    详情请咨询許喆 博士。

    转载来源 | 京狮人文DH

    已获转载授权

    阅读原文

    跳转微信打开

    专业资讯 |施密特科学人文与人工智能虚拟研究院(HAVI)介绍

    2026年2月27日 08:30

    2026-02-27 08:30 湖北

    施密特科学旗下的HAVI,人文与人工智能虚拟研究院)是一项公益倡议,旨在通过系统性运用 AI相关工具与技术,推动人文学者产出具有领域针对性的创新研究成果,同时从人文学科中提炼洞见,反哺人工智能技术的发展。

    一、人文与人工智能虚拟研究院(HAVI)简介

    施密特科学(Schmidt Sciences)旗下的HAVI(Humanities and Artificial Intelligence Virtual Institute,人文与人工智能虚拟研究院)是一项公益倡议,旨在通过系统性运用 AI相关工具与技术,推动人文学者产出具有领域针对性的创新研究成果,同时从人文学科中提炼洞见,反哺人工智能技术的发展。

    01

    施密特科学机构简介

    施密特科学是由谷歌前首席执行官、前执行董事长、Alphabet前执行主席埃里克·施密特(Eric Schmidt)与施密特家族基金会及施密特海洋研究所主席温迪·施密特(Wendy Schmidt)创立并资助的公益组织及倡议的一部分,其宗旨是为全人类构建一个健康、有韧性、安全的世界。

    其团队致力于寻找从事早期、高风险假说研究,且研究范围涵盖从基础科学问题到地球亟待解决的各类难题的科研人员。该团队重点支持五大研究中心的相关探索:

    人工智能与先进计算(AI & Advanced Computing)、天体物理与空间科学(Astrophysics & Space)、生物科学(Biosciences)、气候科学(Climate)和科学系统(Science Systems)。

    在每个研究中心内部,该团队通过各类项目与计划提供科学支持。

    其计划旨在应对五大研究中心内的广泛挑战与宏观问题,提供资金支持、与内部员工的协作机会,以及受资助者之间的定期会议。该团队将其核心计划称为虚拟研究院,是一种长期全球性协作模式,汇聚不同学科的科学家共同应对社会挑战。另一方面,项目指的是该团队资助、由其机构外部运营的各类研究工作。

    通过这些载体,该团队旨在:

    (1)加快突破性研究进程

    • 支持科研人员运用新技术,推动高影响力科学研究的实现,并降低其达成难度。

    • 为新技术的原型设计、测试及规模化应用提供资源支持。

    (2)助力高风险、资金不足的研究工作

    • 发掘那些研究假说原本难以获得资助的科研人员。

    • 与国际网络共享知识并召集相关力量,推动科学进步。

    (3) 跨越传统学术边界开展合作

    • 汇聚来自不同学科和网络的科学家,共同应对特定挑战。

    • 通过全球科研人员与技术专家之间的理念和资源交流,构建紧密联系的合作网络。

    02

    HAVI项目背景

    当前AI模型在多语言场景、多模态数据集,以及历史文化差异的细微表达上仍存在明显短板,制约了其在人文学科领域的应用。HAVI旨在破解这些局限,推动AI与人文研究者开展跨学科合作,专注研发并应用新的AI技术,回应人文学科中复杂且具有重要价值的研究问题。

    在本项目模式中,人文学者将深度参与AI研发过程,而AI研究者则从人文视角深化对数据、模型与问题域的理解。这一协作框架力求产出突破性成果,同步提升AI能力与人文学术研究水平。

    HAVI旨在应对两大核心领域的挑战:人文学术研究与人工智能发展

    (1) 面向人文学术研究

    人文研究本就充满挑战,需投入大量时间、精力与资源对海量文献资料进行分析,方能得出富有洞见的结论。然而,当前人工智能工具对人文研究者而言仍存在局限:这类技术往往追求标准化与统一性,却常常抹去人文研究至关重要的文化差异、物质形态差异与认知感知差异。我们坚信,将传统研究方法与人工智能及数据驱动路径相结合,能够大幅拓展学术资源的获取渠道,助力人文学界产出更为严谨、更具数据支撑的研究成果。

    (2)面向人工智能发展

    人工智能模型在人文学科常见的多语言、多模态场景中仍面临诸多难题。当下的人工智能同样难以适配人文研究中普遍存在的多元历史情境、文化视角、语言体系、审美形态与模糊性表达。反之,人文学科在人工智能薄弱环节拥有深厚知识积淀,例如复杂的人类推理、叙事风格、隐喻理解,以及在艺术、文学等充满不确定性的领域中对价值与优劣的评判能力。我们认为,融入此类人文知识,将显著推动人工智能技术的迭代与完善。

    03

    HAVI项目目标

    (1)借助人工智能工具,推动人文学术研究实现突破性进展

    (2)融入人文研究洞见,促进人工智能技术迭代升级

    (3)推动深度且公平的跨学科合作

    (4) 构建全球化、多元化的研究共同体

    二、HAVI特色项目

    01

    人工智能助力法律及其演进研究

    人工智能助力法律及其演进研究项目汇聚法学学者、历史学家与计算机科学家,共同研发开源人工智能工具,用以支持跨语种、大规模的法律与历史研究,涵盖海量判例、成文法、口头辩论及历史文献。借助这些工具,研究团队将探究新的法律思想如何产生与传播、法官如何解释法条,以及此类解释习惯如何随时间推移、在不同司法辖区中发生演变。

    该项目同时将目光投向人工智能本身。随着法官与律师在工作中开始运用大语言模型及相关系统,这类工具可能潜移默化地影响法律的解读与适用方式。团队将测试不同人工智能模型对法条的解释逻辑、其内嵌的法律预设,以及它们强化或忽略了哪些文化与历史视角。项目产出的工具与研究成果,将助力学界及社会公众更深刻地理解法律的演进历程,以及人工智能可能如何塑造其未来发展。

    02

    闭环社群:面向多模态档案中文化与语境的人工智能应用

    本项目通过社群协作与人工智能技术,重新打开早期非裔美国人报刊的历史篇章,开发全新数字工具,对这些至关重要却长期被忽视的零散、碎片化档案进行重构与活化。正如早期黑人报刊所坚定宣告的——“他人代我们发声,已然太久”“我们需要一份报刊,一份属于我们自己的报刊”——19世纪黑人报刊是美国民主与自由抗争史上的关键篇章,但其档案或分散于各机构、或被付费墙阻隔,难以获取,致使这段历史长期被遮蔽。一支来自六所高校与阿德勒天文馆(Adler Planetarium)、屡获殊荣的跨学科团队,将融合历史学、机器学习与教育学专长,开发页面布局分割与光学字符识别的计算工具,为19世纪非裔美国人期刊在全球领先的众包研究平台Zooniverse上开展公众众包项目做好准备。志愿者将参与文本转录与内容语境解读,校验并优化机器生成的转录结果,推动以社群为中心的“人在回路(human in the loop)”人工智能模型发展。

    该公众众包项目将于2027年道格拉斯日(Douglass Day)正式启动。道格拉斯日为每年2月14日,是全球纪念弗雷德里克・道格拉斯自选生日的转录盛会。届时,数以万计的学生与志愿者将通过Zooniverse定制化移动端界面,参与整理早期黑人报刊中的数十万篇文献。团队并非简单套用现有人工智能基础模型,而是从黑人报刊自身传统中汲取养分,探索全新人工智能方法,借鉴黑人社群在奴隶制与吉姆・克劳法( Jim Crow)时期所创造的信息收集、传播与转化的创新智慧。本项目植根于对新闻自由与向权力讲真话之重要性的坚定信念,将建成首个早期黑人报刊综合性数字馆藏,并证明:更具公正性、以社群为核心的人工智能不仅可行,而且至关重要。

    03

    SETS:面向知识结构的集合式架构

    人工智能对人文学者的价值仍存在局限。人文学者的专长不仅在于还原历史事实,更在于理解如何恰当处理复杂且层次丰富的档案文献。本项目探讨:若将人工智能训练至能够向史料提出学者所关注的同类问题,将会带来怎样的改变——以此同时推动人工智能与人文学术研究的发展。该思路旨在突破当前黑箱预测模型的不可解释性,为学者探究人类相关议题构建更丰富的语境。项目团队汇聚人文学者、物理学家、计算机科学家、开发人员与设计师,包括妮可・科尔曼(Nicole Coleman,旧金山)、米歇尔・毛里(Michele Mauri,米兰理工大学)、理查德・罗伯茨(Richard Roberts,斯坦福大学)、艾伦・罗马诺(Allen Romano,可汗学院)、杨迪伊(斯坦福大学)与阿里・亚伊奇奥卢(Ali Yaycıoğlu,斯坦福大学)。

    项目坚信,构建此类人工智能需要将知识表示、人文学科长期秉持的评价标准与具备严谨认识论的软件设计进行全新融合,因此采用既非纯概率性、亦非完全确定性,而是兼具人文性与情境依赖性的研究路径。其核心基础是一套结构化的集合式框架,能够允许思想与定义动态演进,同时清晰记录其来源与提出者——这是保障学术阐释可靠的必要条件。项目的最终目标,是为后代保留完整理解与接触复杂知识体系的能力。

    04

    档案智能:人工智能能否拯救濒危档案

    小型档案馆藏有独一无二、别处无存的历史文献。然而,关注此事者都在目睹它们不断消亡。财力雄厚的机构能够承担专业保存成本,小型社群档案馆却无力负担,其影响真切而沉重:后人与先辈的故事日渐失联,社群与自身的文化根脉被迫割裂。就连历史学家也无法书写完整的历史,因为原始史料正在风化损毁,部分甚至永久消失。一份1919年的新奥尔良报纸(下图)逐年变得难以辨认,仅存的照片中,破损褶皱的一角隐没在阴影里。小型历史协会深知正在失去什么,但专业保存设备与档案人员的费用高不可及。

    一支由人工智能研究者、档案科学家、爵士乐史学家与新奥尔良文化专家组成的团队正全力抢救这些遗产。他们的目标是:仅用一张智能手机拍摄的照片,借助人工智能复原史料中因损毁而丢失的部分。团队还将为复原后的文献注入智能,跨文档、跨语言、跨格式关联信息,让研究者与后人能够精准检索所需内容,甚至催生新的学术发现。这项为期18个月的新奥尔良试点项目,聚焦历史档案中长期被系统性忽略的声音——包括记载克里奥尔与卡津社群的多语种报刊,以及早期爵士乐相关资料,直面最棘手的抢救难题。若试点成功,成千上万的小型档案馆将终于拥有守护正在消逝史料的可行之路。

    05

    破译失传的速记艺术

    “破译失传的速记艺术(Decoding the Lost Art of Shorthand)”项目聚焦一批目前难以利用的重要历史文献:以加贝尔斯贝格速记法(Gabelsberger shorthand)书写的手稿。这套速记体系在19世纪至20世纪初被广泛使用,见于库尔特・哥德尔(Kurt Gödel)、埃尔温・薛定谔(Erwin Schrödinger)、卡尔・施米特(Carl Schmitt)、埃里希・凯斯特纳(Erich Kästner)、福尔哈贝尔枢机主教(Cardinal Faulhaber)等众多名人的文稿之中。尽管这些手稿具有明确的历史与思想价值,如今却极少有人能够识读,致使大量档案文献实际上处于无法利用的状态。

    本项目整合书籍史与计算机视觉领域的专业力量,探索现代手写识别技术在加贝尔斯贝格速记法解读上所能达到的效果。通过精心构建训练数据、优化适配识别算法,并将全部数据与模型开源发布,项目旨在为这批珍贵文献(包括哥德尔的部分笔记)搭建切实可行的利用基础,为后续研究提供便利。

    06

    基于人工智能计算机视觉的印刷品研究

    “印刷品智能视觉研究”项目汇聚曼彻斯特大学、牛津大学的文本学者、书籍史专家、计算机科学家、图书馆数据专家与研究软件工程师,共同探索人工智能计算机视觉如何为早期印刷文献与艺术品研究带来全新视角。项目通过训练机器识别同一印版不同印次之间的细微差异,探究算法是否能以人类方式“看待”书籍与印刷品,以及当计算视觉被应用于文本器物时,将产生何种新知。

    该研究将揭示历史印刷工艺的新信息,如印次顺序与相对年代,并助力重构印刷工坊及其受众的社会图景。最终目标是让人工智能模型以接近人类描述的自然语言,回答“这些印刷品差异何在”,从而开发新型人文辅助技术,揭示早期人机互动的物质成果,进一步发掘人类历史的多元面向。

    07

    中世纪司法判例:基于人工智能的获取与分析

    “中世纪司法判例:基于人工智能的获取与分析”项目聚焦收藏于欧洲各地图书馆的数千封教皇书信——这些文献真实展现了中世纪民众的生活、争辩方式以及对是非正义的理解。这些书信是中世纪欧洲各地向教皇求教后的回复,因以拉丁文书写、散见于数百份手写抄本且各版本略有差异,长期以来难以被广泛利用。本项目借助人工智能解锁这一尚未深入研究的法学史料库,并构建一款与商业系统截然不同的对话机器人:它会明确引用所依据的中世纪原始文本,并解释推理过程,以此证明面向学术、非商业用途的本地化定制人工智能具备可行性。

    该对话机器人将拉丁语视为一种历经数百年演变的活语言,而非被强行塞入英语中心模型的静态低资源语言(resource-poor language)。它正视中世纪拉丁语所依托的世界观无法简单对应现代概念范畴这一事实,不追求将文本毫无偏差地转译为当代语言,而是帮助使用者以中世纪自身的逻辑理解当时人们对法律、道德与社会的思考,强调文化敏感性,揭示翻译与时过境迁带来的解读偏差。通过这一路径,项目树立了以追求真理而非便捷为目标的人工智能典范,也为技术如何更好地服务于英语主流市场之外的语言与文化提供重要启示。

    08

     从分子到杰作

    从分子到杰作(From Molecules to Masterpieces)跨学科合作项目融合分子成像与光谱技术、数学建模、机器学习、文物保护与艺术史等领域,旨在揭示艺术品的创作过程、原始面貌及其随时间发生的变化。绘画与文化器物通常包含多层物质材料,这些材料不仅决定其视觉外观,还隐藏着早期构图,记录着艺术家的创作选择与当时可用的物料。随着时间推移,颜料与黏合剂会因光照和环境影响发生改变,而这类层积形成的历史信息,传统分析手段往往难以触及。

    项目将开发前沿分子成像技术与先进人工智能方法,用以融合多模态数据、建模降解过程,并揭示老化如何改变颜料样貌。研究将构建一套可预测的分析框架,能够虚拟“时光回溯”,还原艺术品最初色彩,为更科学的修复工作提供依据,优化可视化呈现,并深化历史解读,甚至可为作者归属等问题提供新证据。本研究将为艺术史学者与文物保护专家提供强大的新型研究与保护工具,同时,针对复杂多模态数据的机器学习方法,未来也有望在生物成像等其他领域得到广泛应用。

    09

    印刷与概率:运用人工智能识别秘密铅印书籍的印刷者

    《印刷与概率:运用人工智能识别秘密铅印书籍的印刷者》是一项具有开创性的“悬案破解”项目,借助人工智能揭开近代早期欧洲那些出版争议性书籍的秘密印刷者身份。数百年来,那些彻底改变历史进程的禁书与政治高危作品究竟出自何人之手,一直困扰着历史学家。本团队将前沿人工智能与深厚人文学术专长相结合,致力于破解这些历史谜团。

    项目方法融合两类证据:大规模语言数据与印刷器物留下的物理痕迹。大语言模型(LLMs)极少能达到历史学家所要求的精度,但这并不意味着它们毫无用处。本项目利用大语言模型分析法庭记录、书信、书目及二手研究文献等史料,对哪些印刷者具备动机、手段与机会印制秘密书籍与小册子,生成概率性假设。随后,基于图像的模型对印刷本身的细微物质特征——如破损活字的形态、纸张纤维的纹理等——进行检测,以验证这些假设。

    本项目将探案的趣味性与人工智能的强大能力相结合,为审视审查时代下思想如何传播打开了全新视角,揭示出由印刷者、出版商与读者构成的隐秘网络。他们不惜一切代价,将那些危险思想化为实体文本。

    10

    精微音乐

    音乐本质上是多模态的,但现有人工智能系统仍难以理解音乐中多模态关系的基本规律。精微音乐(Musica Subtilior)项目旨在弥补这一缺口,通过两条互补路径研发稳健的多模态音乐人工智能。

    其一,项目构建大规模数据集与创新人工智能方法,训练模型在音乐模态(音频、乐谱图像、MIDI、MusicXML)之间实现可靠转换,以期为音乐家的日常创作流程提供支持,并在长期内推动通用人工智能对音乐理解能力的整体提升。

    其二,项目运用人文学术研究方法探究音乐家如何解读多模态关系,并以图形记谱法为案例,揭示音乐背景、训练经历与文化语境如何塑造解读方式。通过参与式设计、数据分析以及人类与人工智能音乐理解的对比研究,本项目既致力于提升人工智能性能,也试图揭开音乐技艺背后直觉过程的奥秘,从而为更能支撑人类创作活动的人工智能系统提供理论依据。

    11

    基于强化学习人工智能模型的破损手稿文本修复

    绝大多数古代文献未能留存至今:它们或因疏于保管而湮灭,或因刻意销毁而消失,偶尔也毁于洪水、火山喷发等自然灾害。少数文献虽历经劫难却奇迹般保存下来,或掩埋于沙土之中,或化为炭化遗存,但都已严重破损。近几十年来,多光谱成像、摄影测量、反射变换成像、X射线断层扫描等先进成像技术极大提升了我们识读这类文献的能力,让残存墨迹更为清晰可辨。但核心难题依然存在:文献本体破损严重,墨迹缺失、孔洞与撕裂随处可见,导致许多区域无法恢复为连续可读的文本。人工校勘者虽已掌握破损或缺损文本的复原技艺,但此类问题规模庞大,唯有借助人工智能工具,整合更多相关证据、高效提出多种修复方案,才能显著优化复原流程。

    本项目聚焦三大古代破损藏书库——它们自被发现以来,数十甚至数百年都未能被全面释读:以希腊文为主,少量拉丁文的赫库兰尼姆炭化纸草卷(the carbonized Herculaneum Papyrus Rolls),拉丁文的赫库兰尼姆与庞贝木简(the Wooden Tablets from Herculaneum and Pompeii)以及科普特文(Coptic)的麦地奈特・马迪摩尼教文献馆藏(the Medinet Madi Library of Manichaean Texts)。项目将利用已能显现隐文的增强成像资料,对褪色、残断、损毁的字母、词语与语句进行修复,进一步提升破损区域的可读性。该方法继承悠久的人文校勘学传统,在文本修复各环节训练人工智能应用,通过基于前沿用户界面的强化学习,融入学者的语言与文化知识,并制定评估标准,将计算机科学最佳实践与人文学者校勘古代文献的方法相结合。具体而言,这些新型人工智能工具将判定手稿破损类型,补全褪色与残断字母,借助各类增强成像显现肉眼不可见的细节,并最终对完全缺失文字的空白部分进行复原。

    12

    玩天堂:以人工智能重绘近世东亚新儒家世界

    “玩天堂(Playing Heaven)”项目旨在通过一套面向特定领域的复合型人工智能系统,丰富近世东亚的思想史与文化史研究。该系统将学派、文学思潮与践行之学视为历史形成的产物,而非预先设定、直接套用于语料库的概念范畴。

    项目以“胸有成竹(the complete bamboo in the breast)”为理念隐喻——即对竹子完整生命历程的内化理解,能够自然流畅地呈现于笔下。借助人工智能技术,本项目将揭示在同等规模与复杂度下,人类研究者难以察觉的结构与演变轨迹;同时将人工智能产出视为启发性参考,而非终极定论。

    13

    超越翻译:开放人类文明记录

    “超越翻译:开放人类文明记录”项目将彻底改变我们跨语言、跨文化接触文本的方式。如今,大语言模型(LLMs)已能对古今语言提供较为准确的翻译,但研究团队强调:翻译仅仅是起点。他们的研究思路是,利用大语言模型不仅进行翻译,更进行阐释——将字词、短语与语法、词典、百科、地图及注疏相互关联,从而搭建通往原始文献的动态通道,呈现翻译中常被丢失的细微语义与文化语境。

    该项目依托珀尔修斯数字图书馆开放数据、哈佛大学与谷歌合作的百万册图书OCR语料库,以及新型对齐模型,将生成从荷马到莎士比亚的注释语料、集注本与比较研究成果。通过融合文献学与人工智能技术,项目旨在让人类文明记录的获取更加普惠,推动多语文学术研究,并为人文学科中可解释人工智能的应用树立标杆。

    14

     欧亚语言检索增强

    当前人工智能系统在处理需要依托专家整理数据库的历史文献时仍存在明显不足,这限制了人文学者跨世纪、跨语言追溯思想脉络的研究。“文本传统中的关联性与个体性”项目提出核心问题:欧亚文本传统如何作为动态网络,实现知识的传播、转化与论争?面向领域的人工智能如何在大规模揭示这些网络的同时,保留语言与历史的独特性?

    本项目开展五项案例研究,涵盖希腊语、拉丁语、阿拉伯语与希伯来语的亚里士多德评注、亚美尼亚语奥斯曼助产登记文献、梵语、汉语与藏语佛教典籍,以及汉语古典文论与现代引文研究,为八种资源匮乏语言提供高质量标注语料库。专项计算机科学团队将完成三项工作:

    ·预训练中小型多语言基础模型;

    ·构建图谱检索增强生成(Graph‑RAG)工作流,追踪跨时空、跨译本的互文关系、语料形成与概念流变;

    ·发布一套融合专家判断与量化指标的评估框架。

    15

    大规模计算分析与影视细读的融合

    在视频计算方法成熟、研究级大数据可及、以及致力于拓展图像分析边界的学者群体不断壮大的推动下,人工智能研究正在为影视研究开辟全新前沿。本项目汇聚数据科学、计算机科学与电影/媒介研究领域专家,围绕四个案例展开研究,将大规模计算分析的优势与传统人文学术研究相结合。

    这些案例将对特写镜头与摄影机运动进行量化分析,利用多模态信息拆解叙事脉络,并探究影视作品中视觉与听觉时序的关系。本项目最终将产出兼具人文与人工智能价值的前沿学术成果、开源软件,对Kinolab平台进行升级以支持非计算背景的电影学者使用研究结果,并举办专题研讨会,邀请影视领域专家与计算学者共同探讨新兴人工智能研究方法。

    三、人文与人工智能虚拟研究院(HAVI)项目征集

    (一) 概述

    施密特科学现面向人文与人工智能虚拟研究院(HAVI)开放项目申请,旨在支持以人工智能为核心的数字人文研究。理想项目应由人文学科与人工智能领域的共同首席研究员牵头合作,同时回应两大领域的研究问题。本次征集面向全球高校与非营利机构开放。

    (二) 关键时间

    提案截止日期:2026年3月13日,美国东部时间晚上11:59

    结果通知时间:2026年夏季

    (三) 资助等级

    I类:100000–299,999美元

    II类:300,000–800,000美元

    (四) 预计资助数量

    15–25项

    (五) 执行周期

    I类项目:1–2年

    II类项目:1–3年

    (六) 联系邮箱

    havi@schmidtsciences.org

    (七) 资助等级说明

    申请人可选择以下任一资助等级:

    I类:100,000–299,999美元

    面向尚无成熟成果的新研究项目,可为新建合作团队或已有团队,但研究尚处早期阶段。研究内容可包括:新方法试点、原型开发等。顺利完成的I类项目可在未来申请II类资助。

    II类:300,000–800,000美元

    面向已较为成熟、可规模化拓展的项目。申请人需说明前期筹备或原型阶段成果,并论证追加资助如何助力项目达成目标。

    (注:II类申请人无需曾获得HAVII类资助,但须证明研究前期成果。)

    (八) 关于“人文研究问题”的定义——传统研究vs工具/方法/基础设施研究

    许多人文类基金不支持以开发新工具、方法、设备或基础设施为主要目标的研究,但HAVI明确欢迎此类项目。

    在描述人文研究问题时可以聚焦于:

    • 传统人文问题(如:美国内战期间的粮食短缺如何影响南方饮食文化?)

    • 方法学问题(如:能否研发一种新型人工智能传感器,帮助考古学家确定发掘地点?)

    多数项目可同时包含两类问题。以工具或方法开发为核心研究问题的项目,需充分论证:

    • 该工具的必要性

    • 如何惠及人文学科

    • 如何支持学者解决传统人文问题

    • 团队须具备相关人文领域与计算机科学专长,鼓励为所开发工具/方法提供清晰测试案例。

    (九) 不纳入资助范围(Out-of-Scope)

    以下主题虽具重要性,但本次征集暂不支持:

    • 人工智能辅助艺术创作

    • 政策、政策相关及倡导类项目

    • 以人工智能历史/批判为核心的项目

    • 以教学法与课程开发为核心的项目

    • 无人文导向的人工智能方法开发;或不使用人工智能的纯人文项目

    • 纯数字化项目

    • 人工智能非技术层面研究(包括伦理、政策、治理等)

    (十) 评审标准

    申请将由施密特科学工作人员与外部评审人依据以下标准审核资格与质量:

    • 执行方案的清晰度与可行性

    • 方案是否在周期内可行、技术可靠

    • 项目范围与所选资助等级是否匹配

    • 团队适配性

    • 团队是否适合开展本研究

    • 是否同时具备高质量人文与计算机科学方向的代表与领导力对人文学科领域的潜在影响

    能否通过人工智能工具与方法催生领域特定的突破性研究体现在:

    • 开辟全新研究路径;

    • 突破学术瓶颈对人工智能发展的潜在影响

    能否从人文学科中产出洞见与技术,推动人工智能整体发展体现在:

    • 构建能缓解现有AI缺陷的数据集/方法;

    • 针对多模态理解等AI短板提供人文数据、理论与知识;

    • 产出由人文场景驱动的创新模型架构(如联合嵌入、新型无监督模型等)

    (十一) 申请方式

    文件须通过Survey Monkey Apply平台提交,需提交材料如下:

    (1)项目信息

    提案提交人姓名、邮箱及职称资金接收机构/单位(请确保填写机构法定全称。若有财务托管机构,此处应填写该托管机构)项目总预算(美元)项目开始日期( 月/ 年)项目结束日期(月 / 年)

    I类项目周期不超过2年,II类项目周期不超过3年。

    (2)项目类别

     I类还是II类资助?

    (3)关键词

     提供5个描述本项目的关键词,以逗号分隔。

    (4)学科领域

    列出本项目涉及的核心学术学科,以逗号分隔(例如:法国文学、法国历史、计算机科学、东亚研究、计算语言学等)。

    (5)项目摘要

     为非专业读者撰写一段简短的项目摘要(最多1000字符,含空格)。

    (6) 人文学科研究问题

    简要概括人文学科研究问题,帮助非专业读者理解本项目将如何推动人文学科发展(最多1000字符,含空格)。

    (7)人工智能研究问题

    简要概括人工智能研究问题,帮助非专业读者理解本项目将如何推动人工智能发展(最多1000字符,含空格)。

    (8) 算力需求

    说明项目所需的算力时长(例如:以配备80GB显存的标准H100 GPU为例)。可直接向施密特科学中心申请免费算力。该申请不保证获批,若获批,其分配权完全归施密特科学中心所有,并遵循其不时更新的条款与条件,包括第三方算力提供商可能要求的条款。

    (9) 项目陈述(最多8页)

    描述拟立项项目,并回答以下问题(文档中请为每个问题单独设立章节)。提案总页数不得超过8页,含图表不含参考文献。预算需单独提交。参考文献请列在文档末尾。(陈述文件必须以PDF格式上传)

    • 研究问题:本提案拟解决的挑战/问题是什么?该挑战及拟开展工作与HAVI项目重点方向有何具体关联?拟回答的具体人文学科研究问题是什么?为何人工智能是解决该人文学科问题的合适工具?拟回答的具体人工智能研究问题是什么?人文学科将如何帮助解决该问题?

    • 研究思路与方法:本项目将采用何种研究思路?为何该思路能有效推进问题解决?说明为何您的项目适合所申请的预算等级(I类vs II类)。该思路存在哪些风险?您将如何应对?将采取哪些措施确保数据收集、分析与使用符合伦理规范?

    • 领域现状分析:本项目与该领域现有研究如何衔接?本研究思路有哪些创新与独特之处?

    • 项目影响:若项目成功,将带来哪些改变?尽可能清晰、具体地阐述预期影响。说明项目如何同时推动人文学科领域进步,并为人工智能发展提供参考或改进方向。

    • 研究团队:介绍项目团队,说明为何他们是牵头开展本研究的最佳人选。重点突出团队在人文学科与人工智能领域的专业能力。说明计划如何在多元文化或机构背景下营造包容、协作的研究环境(例如如何指导团队内学生)。每位团队成员将如何主导及/或参与本项目工作?请详细说明团队成员在拟开展活动中的具体分工。

    • 推广与传播:详细说明预期最终成果及其与项目目标的对应关系。制定面向目标受众的传播推广计划,确保工具与成果能在申请机构之外推广应用。

    (10)团队简历

    请仅通过Survey Monkey Apply系统上传首席研究员及合作研究员的简历,每份简历不超过2页。(必须以PDF格式上传)

    (11)预算及说明模板

    现阶段需提交按类别汇总、并按项目各年度拆分的总费用清单。简要说明每项预算条目对实现项目目标的必要性。

    间接费用(IC):项目全程间接费用不得超过总预算的10%。例如10万美元资助的间接费用不得超过1万美元。项目全程间接费用总额不得超过预算的 10%。即提案团队内各机构可执行高于10%的间接费用,只要所有机构整体间接费用不超过总预算上限即可。部分通常被申请机构视为间接费用的支出,若与项目直接相关且在预算中单独列项,施密特科学中心可将其认定为直接费用——例如:薪资、医疗及退休等附加福利、实验室使用费、网络或数据存储使用费、其他算力费用等,只要合理且可归属于项目或项目团队即可。

    (12)受资助方信息表

    提交受资助方信息表(必须以PDF格式上传)。若资金接收机构位于美国及其领地之外,请同时提交非美国受资助方信息表(可电子签名后上传PDF,或打印手写签名、扫描后上传PDF)。

    以上内容来自施密特科学官方网站:

    https://www.schmidtsciences.org/about/

    经数字人文资讯小编翻译整理而成

    如需转载请后台私信联系

    编译丨洪冰凤

    校对丨罗斯鹏

    排版丨魏翔

    阅读原文

    跳转微信打开

    专题荐读 | 全流程文本处理管线中的语料生产与语义挖掘

    2026年2月21日 16:18

    原创 数字人文资讯 2026-02-21 16:18 湖北

    本文所构建的数字化路径遵循先文本提取、后数字化处理的逻辑:即首先利用OCR技术与BERT架构模型完成字符与语义信息的获取,随后依托Python计算管线与TEI编码体系实施语料的深度处理与结构化构建。

    在数字人文研究中,文本数字化(Text Digitization)不仅是将纸质文献转化为PDF格式的图像扫描,更是一个将纸本、影像或非结构化电子文档系统性转化为可计算、可追溯、可复核、可长期保存及可互操作语料的全过程。从技术栈角度审视,该过程由四个相互依赖且可迭代优化的环节构成:首先是获取与预处理阶段,涵盖高质量采集、图像去噪、倾斜校正及版面分析,为识别提供稳定输入;其次是识别环节,通过OCR(Optical Character Recognition,光学字符识别)或HTR(Handwritten Text Recognition,手写文字识别)技术将图像信号映射为字符序列并保留置信度数据;第三是结构化与语义显式化环节,利用TEI等标记体系将文本结构与解释编码为可交换数据模型;第四是统计建模与表示学习阶段,通过BERT等上下文表征模型习得语义结构,实现从检索到推断的范式转变。

    基于此,本文所构建的数字化路径遵循先文本提取、后数字化处理的逻辑:即首先利用OCR技术与BERT架构模型完成字符与语义信息的获取,随后依托Python计算管线与TEI编码体系实施语料的深度处理与结构化构建。

    图1:文本数字化流水线工程的流程图

    (一)

    OCR/HTR——图像到可计算文本

    1

    OCR的定位与目标

    在此框架下,OCR 应被视为一套将图像转化为可计算文本证据链的技术体系,而非单纯的格式转换工具。其功能目标主要包含三个维度:首先是可读性转换,即把页面图像中的文字转写为可编辑的字符序列;其次是可索引性与可定位性,即在输出结果中保留字符、行、文本块与页面坐标的对齐信息,便于检索回指、校勘复核及 TEI 标记锚定;最后是质量可度量性,即输出置信度、候选集与错误分布,确保语料质量可通过量化指标监控,并建立必要的回溯机制。

    2

    工程流水线

    在工程实践中,这构成了一条严密的流水线:图像获取与质量控制(分辨率、对焦、畸变、光照与色彩空间)、预处理(去噪、去阴影、纠偏、增强)、版面分析与区域分割(检测文本块、表格、图像、脚注及旁注)、阅读顺序恢复(处理多栏、跨栏、竖排)、文本行检测与裁切、字符识别、以及语言统计后处理(规范化、纠错)。对于数字人文项目而言,版面分析、阅读顺序恢复及行切分等上游环节的准确性往往决定了最终数据的可用性。若区域分割或阅读顺序出现偏差,即便识别模型输出的字符序列表面流畅,其文本结构也已受损,进而系统性地干扰后续 TEI 层级构建、引文注释归属以及下游 NLP 任务的断句与实体边界判定。因此,文本准备环节的重要性往往高于具体模型的选择。

    3

    技术沿革与可迭代评估

    从历史沿革来看,OCR技术的工业化应用并非始于学术场景,而是与大规模文档处理的自动化需求紧密相关。以邮政领域为例,早期的自动化技术即将机器读取地址并自动分拣作为核心功能,美国邮政署(U.S. Postal Service)在 20 世纪 60 年代中期引入光学字符读取设备,显著推动了地址识别与分拣自动化的规模化落地。受限于应用场景,早期的 OCR 范式多基于规则系统,即在相对受控的字体与版式条件下,通过模板匹配与特征工程实现识别。进入深度学习时代后,OCR技术发生了关键跃迁:其核心任务从单点字符分类演变为面向复杂文档的检测、识别与结构恢复系统工程。当代 OCR 技术的竞争焦点在于模型化与系统化能力的整合,涵盖从检测到识别、从端到端处理到后处理的全流程。在数字人文研究中,这一阶段的技术红利不仅体现为识别准确率的提升,更在于增强了对复杂版式的适配能力,提供了可控的误差分析手段,以及更易于纳入人机回环(human-in-the-loop)的校对与迭代机制。研究者需将 OCR 视为语料生产线的一环,持续追踪字符错误率(CER)与词错误率(WER)及版面召回率,监控形近字、缺字、错行、乱序等错误类型,并据此调整扫描预处理策略、优化分割模型或扩充训练数据。

    4

    繁体中文材料处理工具推介

    针对繁体中文材料的 OCR 处理需作专门讨论。这不仅源于其庞大的字符集,更在于其特有的错误特征与简体现代印刷体存在显著差异:形近字密集与笔画结构复杂,使得低分辨率或墨迹不均导致的系统性混淆更为常见;史料与古籍中高频出现的竖排、夹注、圈点及复杂版心,使得版面分析与阅读顺序恢复成为技术瓶颈;此外,异体字、罕见字及历史用字的分布往往超出通用模型的训练范围,易导致特定字符的持续性识别偏差。基于上述特性,工具选型应优先考量两点:一是工具是否具备针对繁体中文及特定语言环境的模型配置;二是能否输出包含文本、坐标及置信度的结构化结果,以确保下游 TEI 编码与模型训练中证据链的完整性与可复核性。在繁体中文处理工具的选择上,若研究目标侧重于构建可复现、可微调且能整合至 Python 工作流的方案,PaddleOCR 是较为理想的选择。

    图2

    在配置层面,PaddleOCR 明确支持繁体中文识别(如通过 参数启用),并支持针对罕见字与特定文献材料进行微调,以覆盖长尾字符。此外,其模型库中包含面向繁体中文的专用识别模型(在模型卡中明确标注 Traditional-Chinese-specific 及其性能指标),这对需要固定模型版本、开展对比实验及误差分析的数字人文作流至关重要。

    该技术路线的标准实施范式为:以页为单位输出结构化JSON数据(包含每个文本行或文本块的坐标框、置信度及识别文本),将其作为 TEI 标记与 BERT 训练及推理的共同上游数据,从而确保同一证据链在不同处理路径中的共享与一致性。相对而言,若项目材料以现代繁体印刷文档为主,且主要诉求在于版面还原、段落与表格保真以及降低工程整合成本,商用 OCR 方案则更具效率优势。

    针对中国古典文本的开放式 OCR 平台(如“云聪”“如是”等)虽有其应用场景,但在研究型项目中通常不作为首选。主要基于两点考量:其一,此类平台通常对调用数量设有配额限制;其二,云端处理在数据隐私与保密性方面存在不可控风险。

    PaddleOCR这一工具在定位上并非仅限于图像到字符串转换的基础 OCR 库,而是面向生产环境的 OCR 与文档智能(Document AI)引擎。其功能覆盖从文本抽取到文档理解的端到端方案,并支持将 PDF 或图像转化为结构化、机器友好的数据形态(如 JSON、Markdown),以支撑后续的检索、RAG(检索增强生成)及信息抽取等应用链路。

    从工程接口与可复现性角度审视,PaddleOCR 的优势在于其模块化但统一的调用方式。在安装层面,该工具区分了基础 OCR 能力与文档解析理解等扩展能力:仅需常规OCR(返回文本位置坐标与内容)时,可安装基础包;若涉及文档解析、文档理解、文档翻译及关键信息抽取(KIE),则可安装包含全量特性的扩展包。这种按需分层的安装模式对研究型管线具有重要意义:研究者可先以最小依赖构建识别与评估基线,随后根据材料复杂度逐步引入解析模块,并通过环境锁定(固定版本号、模型版本及依赖库)确保实验的可复现性,从而满足方法学部分的规范要求。

    在推理层面,PaddleOCR 提供 API 与命令行(CLI)两种交互模式,便于在快速测试、批处理与集群任务间灵活切换。其 API 设计体现了清晰的“预测—打印—落盘”范式:初始化实例后,对输入图像或 URL 执行预测,并将结果可视化保存或输出为结构化 JSON 文件。对于数字人文工作流,这种“落盘 JSON”的设计对应了证据链策略:以页为单位输出包含文本、坐标及置信信息的结构化文件,作为 TEI 编码与 BERT 数据准备的共享基准,避免了因两条路径各自进行二次清洗与切分而导致的数据不可比与不可追溯问题。此外,PaddleOCR 在同一库中提供了文档结构解析管线示例(如 PP-StructureV3),其输出支持保存为 Markdown 格式。Markdown 与 JSON 可作为轻量级中间层,协助研究者在正式进入 TEI 编码前完成页面级结构抽取、抽样校对及误差统计;待结构稳定后,再将标题、段落、脚注、表格等关键层级映射至语义更为严格的 TEI 标记。

    针对古籍与史料影印本的处理,PaddleOCR 的接口显式暴露了若干面向文档畸变与方向矫正的参数(如文档方向分类、去扭曲展平及文本行方向处理)。这表明该工具将拍摄或扫描导致的旋转、透视及弯曲视为工作流内部的核心问题,而非依赖外部预处理脚本。在方法论层面,这强化了一个核心判断:对于历史材料,版面与几何纠正的成败往往先于字符识别本身。若能将这些步骤纳入同一条可记录、可配置的管线,将有助于在论文中明确可复现的实验条件(包括统一的参数开关、模型版本及输出格式)。

    值得注意的是,PaddleOCR 3.x 版本引入了显著的接口变更,导致基于 2.x 版本编写的代码可能无法直接兼容。因此,在撰写数字人文项目的方法论部分时,必须明确记录使用的 PaddleOCR 版本号、关键依赖版本及模型版本(尤其是涉及微调或更换识别器/检测器时),并将运行参数(如方向分类启用状态、去扭曲设置、输出格式等)以配置文件形式固化。这与云端平台的局限性形成了鲜明对照:本地可控管线不仅解决了隐私与配额问题,更将方法的可复核性从理论原则落实为可执行的工程实现。

    5

    西洋历史手稿(HTR)——Transkribus与Kraken

    对于西洋手稿识别,更准确的表述是 HTR而非通用 OCR:手稿的关键困难来自书写体变异(字体、时代、书写速度、非标准拼写),因此最可靠的路线往往是:领域训练 + 人机协同校对 + 指标驱动迭代。在此类项目里,你不仅需要一个能识别的模型,更需要一个能组织训练数据、管理模型版本、提供质量评估(尤其是 CER)并支撑校对闭环的工作流环境。

    基于这种需求,如果你希望采用平台化、偏生产与协作的一体化方案,推荐 Transkribus:其产品定位就是以 AI 驱动的手写与历史文献识别,并支持训练面向特定手稿的自定义模型(custom AI models),适合团队协作与长期项目治理。关于Transkribus的详细介绍请参考本公众号上一篇文章《手稿研究中的数据集及其研究用途》(https://mp.weixin.qq.com/s/X15GN2b_E7jRaUJevG5Nng) 它对 CER 的解释、ground truth 与自动转写之间的距离度量,也有明确的官方说明,便于你把系列文本的识别质量从主观印象变成可报告的研究指标。

    图3

    6

    Kraken:域适配、版面/行训练与互操作输出

    若研究路径倾向于脚本化编排与深度改造,Kraken 是更为理想的方案。具体而言,Kraken 不仅具备字符识别能力,更将分割与版面分析纳入核心功能范畴:其版面区域、基线与文本行以及阅读顺序恢复等模块,均支持在项目内进行训练与域适配。此外,Kraken 在脚本与排版处理上对历史材料具有显著的适应性:它明确支持从右向左(RTL)、双向文字(BiDi)及自上而下(Top-to-Bottom)的排版方向,并具备多脚本识别(multi-script recognition)能力,这对处理拉丁字母与希伯来语、阿拉伯语混排,或排版复杂的历史印刷品与手稿尤为关键。

    基于 Kraken 以文本行(text line)为基本单位的技术特质,其在训练与识别阶段支持使用未做字符级切分的输入,即不依赖逐字形切分(glyph segmentation)。其训练文档明确指出,模型可在未分割输入上习得从行图像到字符序列的映射关系。对于连笔手稿、草写体及字符边界不稳定的历史字体,这一特性显著降低了由“先切分后识别” 模式带来的耦合误差与标注成本。该机制与数字人文项目的可持续性直接相关:将真值(ground truth)生产锚定在行级对齐转写而非高成本的逐字形切分上,更易于构建稳定的人机协同闭环——通过追加少量高信息量的标注行进行微调或复训,观察字符错误率(CER)与词错误率(WER)及错误类型(如错行、漏行、形近混淆、缩写展开失败)的变化,进而决策下一轮训练样本的补充策略。在工程实施层面,Kraken 支持批量执行“版面/行检测→识别→输出带坐标的结构化转写”流程,并兼容 ALTO、PageXML、abbyyXML、hOCR 等通用格式。其输出的对齐结果可作为共享上游,无缝对接后续的 TEI 标记(语义显式化与校勘)或 BERT 下游任务(实体识别、断句、相似性检索)。

    (二)

    编码与再造——从OCR输出到结构化语料

    编码与再造环节位于OCR与最终研究问题之间,是把字符输出重建为可计算语料的关键。其核心任务包括:统一中间表示、可逆清洗与规范化、结构层级重建、锚定与ID体系、交换格式导出。

    1

    数字化阶段面向可复现

    具体到文本数字化(不涉及高层分析),Python 的功能高度集中于构建可靠数据的基础任务:

    • 影像与PDF的获取、规整与预处理:包括批量拆分 PDF 页面、统一分辨率与色彩空间、纠偏、去阴影、裁边及生成多分辨率衍生文件,为 OCR/HTR 与人工标注提供标准输入

    • OCR/HTR调用与输出统一:无论是采用 PaddleOCR、Kraken 或者是其他引擎,Python将其输出规范化为统一的页面对象模型(page/region/line/token),并保留 bbox 坐标、阅读顺序、置信度与来源信息(模型版本、参数、运行时间、硬件环境)。

    • 文本规范化与可逆清洗:涵盖 Unicode 归一化(NFC/NFKC 策略)、全半角与标点统一、空白与换行处理、常见 OCR 噪声(页眉页脚、版心、装订痕迹)剔除。关键在于保持可逆性,即确保清洗后仍能回溯至原始 OCR 字符串与页面坐标,避免数据不可审计。

    • 结构对齐与锚定:将 OCR/HTR 的行、栏、段落与页面坐标映射至 TEI 的 facsimile、surface、zone 或其他锚点体系;若采用 standoff 标注,还可生成稳定的 ID 与偏移映射,使注释或读法精确指向原文片段与影像位置。

    • 格式互转与交换包生成:将同一份数字化成果导出为 TEI XML(学术权威版)、JSON(工程交换版)、PageXML/ALTO/hOCR(文档影像生态通用版),并生成 Manifest/Metadata(如 IIIF Manifest 或项目自定义清单),确保数据可被不同工具链接入。

    • 质量控制与版本化:数字化阶段的质量控制是一套可执行的指标与抽检机制。Python 可在批处理中自动统计字符数异常、行数异常、非字字符比例、低置信 token 密度、疑难字清单及结构一致性(如多栏排版检测),并将结果写入日志与报表作为流转门禁;同时利用 Git/DVC 记录输入输出与参数,确保同一管线可重复产出同一版本。

    2

    产物形态:中间表示、交换包与质控证据

    Python 的最终产出并非单一文件格式,而是一组可复现产物(artifacts)与可交换中间表示(intermediate representations)。其本质是一个将图像或扫描件加工为标准化数据包的生产系统,典型产物包括以下几类:

    (1)可复现管线本体

    第一类:可复现的管线本体(Pipeline) 通常以 Python 脚本或包的形式存在,辅以配置文件(YAML/JSON/TOML)固化关键参数(如输入目录、分辨率、纠偏阈值、OCR 引擎版本、输出格式及质量门禁阈值)。其核心意义在于将数字化方法从论文描述转化为代码与配置,确保在不同环境下复跑可获得一致的数据产品。

    (2)页面级结构化结果

    第二类:页面级结构化结果(Page-level Structured Outputs) 这是 Python 在数字化中最核心的可交换数据模型。无论后端采用何种 OCR 引擎,Python 通常会将输出统一为结构化格式(常见为 JSON、JSONL 或 Parquet)。

    典型的单页 JSON 包含:页面元数据(页码、图像路径、宽高、DPI)、区域/栏信息(region/column 的 bbox 与阅读顺序)、文本行(line 的 bbox、基线、置信度)以及行内 token/字符(text、候选集、置信度)。如当我们处理如图4中的繁体中文手稿时,脚本如图5所示。

    注意这里的重点不在字段名字,而在信息结构:Python 把“文本 + 坐标 + 阅读顺序 + 置信度 + 来源信息”作为一等对象固化下来。这一层的数据包就是你后续 TEI 锚定、人工校对、再跑 OCR、以及(未来)进入 BERT 任务的共同上游。

    (3)互操作交换格式与发布衍生物

    第三类:交换格式与发布衍生物(interoperability artifacts)。为了让数据能进入不同工具生态,Python 常会把上面的统一中间表示导出为行业通用格式,例如 PageXML、ALTO、hOCR(文档影像生态常用),或导出为 TEI XML(学术权威版),再配套生成 manifest(例如 IIIF manifest 或项目自定义清单)与文件索引。此时呈现出来的东西会变成一套目录:alto/、pagexml/、hocr/、tei/、manifest/。读者在文件夹里看到的是一整套同源但面向不同消费方的交换包,而不是一份孤立的文本文件。

    (4)质量控制与校对材料

    第四类:质量控制与校对材料(QA & review artifacts)。数字化阶段非常需要可复核的质量证据,Python 通常会自动生成:统计报表(CSV/HTML/Markdown)、抽样清单、低置信行/疑难字列表、以及可视化覆盖图(把识别框画回页面图像以便快速 spot-check)。

    (三)

    标准化语义编码与可复现管线

    1

    工程流水线TEI:作为可交换的学术语义数据模型

    TEI(Text Encoding Initiative)并非特定的软件工具,而是一套由 TEI 联盟(TEI Consortium)长期维护的文本编码指南与社群实践。其核心目标是构建一种机器可解析、跨平台可交换的数据模型,将人文学术中文本的结构与解释进行显式编码。TEI 目前通用的实现形态为 TEI XML:即通过一套语义明确的元素与属性,将章节、段落、行、页/栏、引文、注释、校勘异文、缺字损坏、实体(人物、地名、书名)及时间事件等信息,映射为层级化的结构树(tree-structured document)。这种范式确保了文本的本体结构与研究者的解释性标注能够被长期保存、验证与复用,并可系统性地转化为数据库、JSON、索引或机器学习训练集。TEI 自创立以来即确立了软硬件独立的编码与交换原则:数据不应锁定于专有软件或一次性工作流,而应依托公开的语法与语义约定,在不同机构、工具与项目间实现稳定流通。

    (1)TEI的核心特征:可验证、语义显式与可定制

    • 自描述性(Self-describing)与可验证性(Validatable):一份 TEI 文档不仅包含正文,还必须包含系统化的头部(<teiHeader>),用于记录来源、责任者、出版信息、编码原则及版本历史等元数据。同时,TEI 文档支持使用 Schema(如 Relax NG、W3C XML Schema)进行结构约束与验证,从而保障数据的形式质量与项目内部的一致性。

    • 语义显式化(Semantically Expressive):TEI 的编码重点不在于排版复刻,而在于文本对象的机器可解释性。例如,同一字符串是章标题还是旁注、是引文还是编者注、是底本原文还是后人补写、是否存在异文或暂拟读法,均被编码为明确的数据结构,而非依赖视觉表征(如字体大小或位置)进行模糊推导。

    • 可定制性(Customizable):TEI 不强制所有项目使用全量元素集,而是通过 ODD(One Document Does it all)机制支持自定义。研究者可通过 ODD 定义项目的特定规范(如可用元素、嵌套规则、属性值域),并据此自动生成对应的 Schema 与项目文档说明(documentation),从而将解释学决策与编码规则固化为可供机器检验的标准。

    下面图4为基础的TEI骨架中示例:

    (2)影像证据链、校勘机制与结构化建模

    在数字人文实践中,TEI 的典型应用场景在于历史文献、古籍与手稿的可复核转写与结构化建模。以手稿或古籍影像处理为例,研究者需同时处理文字转写、页面结构(页、栏、行、阅读顺序)、材料特征(缺损、涂抹、重写、异体字)以及解释层(实体标注、引文归属、校勘异文)。TEI 提供了一套成熟机制将上述信息整合于同一可交换模型:利用 <facsimile>、<surface> 及 <zone> 将文本片段锚定至图像的具体坐标区域,建立“文本—图像证据链”;利用 <choice>、<unclear>、<gap> 等结构表达候选读法、不确定性与不可辨识区域;利用专门的校勘模块(Critical Apparatus)区分底本、校订本与异文证据。由此生成的 TEI 不仅是可读文本,更是一份可审计的数据集:转写内容、结构判断与解释边界均以显式标记存在,支持后续的修订、对照与计算分析。

    (3)标准演进与工具生态

    从标准化进程来看,TEI 始于 1987 年,旨在解决人文学术文本电子化中长期存在的数据不兼容问题。其当前的主线版本 P5 发布于 2007 年并持续迭代。这种长期且稳定的演进策略,使 TEI 成为图书馆、档案馆及数字版本项目的基础设施:它既具备规范性以支撑互操作,又保持开放性以吸纳不同文献类型与研究需求。因此,采用 TEI 并非仅是选择一种数据格式,而是将文本数字化工作置于可持续的标准生态中,确保数据在项目周期结束后仍具备可读性与可迁移性。

    在学习资源与工具生态方面,TEI 已形成成熟的支持体系。推荐的入门路径包括 TEI by Example,该教程提供从基础概念到具体编码情境的模块化指导,适合将文本结构、注释与校勘需求转化为编码实践。TEI Guidelines 官方手册则是权威的参考索引。对于需要裁剪或约束 TEI 规范的项目,Roma 与 Oxygen XML Editor 是标准的定制工具,支持通过图形界面生成 ODD 及 Schema,以验证文件是否符合项目预设规范。

    就文件形态而言,TEI 是可被标准 XML 工具处理的文本文件,具有清晰的信息分层:顶层为 <TEI> 根节点;<teiHeader> 承载元数据;正文位于 <text> 的 <body> 中,利用 <div>(章节)、<p>(段落)、<lb/>(换行)、<pb/>(分页)等元素组织内容。在影像驱动的项目中,通常引入 <facsimile> 模块,在 <surface> 下通过 <graphic> 引用图像,并用 <zone> 定义区域坐标,从而将文字结构与图像证据绑定于同一文档对象中。这种自描述的数据形态,使得结构层级、解释层与责任归属均以可解析的标记显式呈现。

    (4)TEI的呈现:编辑、发布与多视图派生

    TEI 的可视化呈现通常不依赖于其本体。TEI 本质上是语义数据模型而非排版格式,因此其呈现方式主要分为三种:第一,研究工作流内部视角,即直接在 XML 编辑器中进行读写,并配合 Schema 校验以确保规范性;第二,发布与阅读视角,通过 XSLT 或其他转换规则将 TEI 渲染为 HTML 或 PDF,以供普通读者阅读;第三,面向数字版本的应用视角,将 TEI 作为权威数据源,提供检索、导航、影像对照及注释层开关等功能(在此模式下,TEI 是源数据,界面仅为一种可更改的视图)。对于读者而言,这体现了 TEI 的核心优势:同一份数据可派生出教学版、校勘版、简化阅读版及实体高亮版等多种视图,无需维护多份内容互斥的文本副本。

    2

    Python:作为生产管线与外置数据模型语言

    在文本数字化语境中,Python 首先不应被狭隘地定义为数据分析语言,而是一种将文本加工为“可交换、可复现、可验证数据对象”的通用编程语言与生态系统。若将 TEI 视为面向学术语义的内嵌式数据模型(将结构与解释嵌入文本),那么 Python 则构成了一套面向工程实现的外置式数据模型与流水线语言。它支持定义输入(影像、PDF、OCR/HTR 输出、人工转写、TEI XML)、转换规则(预处理、规范化、分割与对齐、格式互转、质量评估)及输出(结构化 JSON、表格、索引、TEI 回写、可视化对齐证据),并将全过程固化为可重复运行的程序与配置。对于数字化阶段(暂不涉及高层文本分析),Python 的核心价值在于可控性:确保每一步骤均可版本化、自动化、审计与回滚。

    (1)Python的发展与被DH采用的原因

    从历史沿革来看,Python 由 Guido van Rossum 于 1989 年末开始设计,1991 年发布 0.9.0 版本,随后分别于 2000 年与 2008 年发布 2.0 及 3.0 版本。其在数字人文与文献数字化领域被广泛采用,主要归因于语法简洁、文本处理能力强、跨平台特性,以及庞大的第三方库生态。这使其尤其适合将 OCR、XML 处理、PDF 解析、图像处理、数据序列化、数据库与索引等碎片化工具链串联为可复现的生产管线。

    (2)TEI与Python:内嵌语义与外置结构的互补关系

    Python 与 TEI 的共性在于二者均能将文本结构与解释编码为可交换的数据模型,但实现路径截然不同。TEI 通过标准化标记将结构与解释内嵌于文档之中,形成自描述的 XML;而 Python 则通常将结构与解释外置为数据结构与序列化格式(如 JSON/JSON-LD、CSV/Parquet、SQLite/PostgreSQL,或面向文档图像的 PageXML/ALTO/hOCR)。尽管两者均能表达“页—栏—行—段—注释—实体”等层级及“不确定/不可辨/异文”等状态,但 TEI 倾向于使用规范化的语义标签,而 Python 更倾向于利用字段(fields)、类型(types)、ID 与链接(links)。例如,TEI 使用 <unclear cert= “low” > 表达低置信读法,使用 <choice> 表达候选读法;而 Python 则常在 token 对象中存储 text、candidates、confidence、source、bbox 及 note 等字段,并通过 Schema(如 JSON Schema 或 Pydantic 模型)约束其合法性。简言之,TEI 的互操作性依赖于共同的语义词汇表与社群约定,而 Python 的互操作性则取决于是否定义并公开了稳定的交换格式与 Schema。下面图5和图6将作为示例呈现Python的工作流程(部分)。

    图5

    图6

    (3)TEI的权威表示与Python的规模化生产

    两者的差异在数字化阶段尤为关键,决定了项目分工的边界。TEI 的优势在于长期语义保存与学术责任链,适合作为权威版本(source of truth),使结构与解释随文本一同被引用、校验与发布,尤其适用于表达复杂的文本学现象(校勘、异文、缺损、不确定读法、注释责任)并建立与影像证据的可追溯锚点。Python 的优势在于规模化生产与跨格式互转,适合清洗规范化 OCR/HTR 输出、统一图像与页面结构表示、实现 TEI 与其他格式的相互转换、执行大批量一致性检查,并在项目迭代中快速更新数据产品(如更新版面分割规则或 OCR 模型后,自动重跑管线并产出新版本 TEI/JSON,同时保留版本差异与日志)。因此,在严肃的文本数字化项目中,常见的架构为:TEI 承担语义权威表示,Python 承担生产、验证、转换与版本化,两者通过稳定的映射规则(mapping)保持一致。

    (三)

    语义挖掘与表示学习(以BERT系列模型为中心)

    在利用 OCR 完成文本提取、并通过 TEI 与 Python 建立结构化语料之后,数字人文研究的重心即由数字化转向计算分析。在此阶段,BERT 与 RoBERTa 等预训练编码器模型构成了连接底层数据与高层研究问题的核心环节。相对于前序的 OCR 技术以及生成式大语言模型,BERT类模型在文本分析任务中的优势主要体现在四个方面。

    (1)上下文消歧与语义增强。

        BERT 利用深度双向上下文表征(contextual representations)弥补了 OCR 的语义缺失。OCR 本质上是基于局部视觉特征的模式识别,缺乏语义约束;而 BERT 能够根据上下文区分同一字词在不同语境下的功能(如专名、官职、地名、术语或虚词结构),从而显著提升了针对多义词与特定领域术语的解析精度。

    (2)分析任务的统一范式化。

        BERT 将传统上依赖规则、词典或独立统计模型的离散任务(如实体识别、断句、引文检测、段落分类、相似性检索)统一转化为“预训练编码器 + 任务头”的微调(fine-tuning)问题。这使得研究者可在同一编码器表示空间内对多任务进行建模,并利用 F1 值、准确率、召回率、MRR 等标准指标,将人文学术中的文本分析转化为可验证、可重复的实验过程。

    (3)对 OCR 噪声的鲁棒性与纠错能力。

        在与上游 OCR 的耦合机制中,BERT 显著提升了数据的下游可用性。它既可作为 OCR 后纠错(post-OCR correction)的核心模型,利用语言模型概率修复字级错误;亦可直接在含噪文本上进行鲁棒抽取(如容忍一定比例错字进行实体识别),从而降低了对 OCR 完美准确率的刚性依赖。

    (4)相对于生成式大语言模型(LLM)的特定优势。

        尽管 LLM 在通用生成任务上表现优异,但在数字人文的特定分析场景中,BERT 类模型依然具有不可替代性。其优势在于:

    • 结果确定性:BERT 的输出是稳定的概率分布或分类标签,而非 LLM 的概率生成文本,这避免幻觉风险,保证了学术分析所需的严格可复现性;

    • 可解释性与探测(Probing):BERT 的中间层注意力机制与向量空间更易于被可视化与探测,,从而服务于文本细读与理论验证;

    • 领域微调的低成本与高适配:在处理古籍、方言或特定历史时期文献时,在有限标注数据上微调一个 BERT 模型的成本远低于训练或微调 LLM,且往往能获得更高的领域任务精度。

    1

    BERT与RoBERTa 的优势

    相对于将图像域转换为字符序列域的 OCR 技术,BERT 与 RoBERTa 的优势主要体现在三点。

        (1)利用上下文表征实现消歧:字词在不同语境下的功能(如专名、官职、地名、术语、虚词结构)可通过上下文加以区分,弥补了 OCR 本质上基于局部视觉判断且缺乏语义约束的缺陷。

        (2)将传统依赖规则或词典的任务(如实体识别、断句分句、引文互文检测、章节段落分类、相似检索与聚类)统一转化为“预训练编码器 + 任务头”的微调问题。这使得研究者可在同一编码器表示空间内对多任务进行并行建模,并利用 F1 值、准确率、召回率、MRR 等可重复指标,将文本分析转化为可验证的实验过程。

        (3)在与 OCR 的耦合机制上,BERT 与 RoBERTa 显著提升了下游可用性:它们既可作为 OCR 后纠错与规范化(post-OCR correction)的核心模型(利用上下文进行字词级修复),亦可直接在含噪文本上实现鲁棒抽取(如容忍一定错字的实体识别)。

    2

    BERT预训练编码器模型

    BERT的核心贡献在于将 Transformer 编码器堆叠作为通用文本编码器,并通过自监督预训练习得深度双向的上下文表示:模型在所有层同时利用左右上下文编码每个 token,突破了传统语言模型仅关注单侧信息的局限。经典 BERT 的预训练目标包含掩码语言模型(Masked Language Modeling, MLM)与下一句预测(Next Sentence Prediction, NSP)。MLM 通过随机掩码部分 token 并要求模型预测被遮盖内容,迫使模型结合局部词形与全句乃至跨句信息;NSP 则通过判断两段文本的相邻关系,注入句间与篇章级的训练信号。在工程实现上,BERT 的输入由 token embedding、position embedding 与 segment embedding 组成,配合 [CLS]、[SEP] 等特殊符号处理句对任务;输出则包含每个 token 的上下文向量及用于句级分类的聚合向量(通常取 [CLS] 位置)。其方法论价值在于确立了“预训练—微调”范式:先利用海量无标注文本习得通用表示,下游阶段仅需添加轻量级任务头(如分类、序列标注、span 预测)并在领域数据上微调,即可实现单一底座对多类任务的适配。这对数字人文文本识别具有重要意义:研究者无需为每种识别任务(人名、地名、官职、书名、引文、段落功能)单独构建规则系统,而是将其统一为可评估的监督任务,并将 TEI 的结构与标注转化为训练数据(如将 <persName>、<placeName>、<title> 映射为序列标注标签,将 <quote>、<note> 映射为片段检测标签)。

    3

    RoBERTa预训练编码器模型

    RoBERTa(Robustly Optimized BERT Pretraining Approach)作为 BERT 架构的变体,其核心逻辑建立在对 BERT 训练不足的系统性复现与优化之上。RoBERTa 的关键改进包括移除 NSP 目标、增加训练步数与批次大小、扩充训练数据、延长序列长度、采用动态掩码(同一文本在不同 step 应用不同掩码模式)以及使用 byte-level BPE。在本文的论述框架下,这一改进将模型效果差异从不可控因素回归为工程可控变量。在数字人文项目中选择 RoBERTa,不仅因其在微调任务中表现更为稳健,更因其对训练配方(如训练步数、batch、max length、掩码策略、学习率调度)更为敏感。这要求在方法论部分对上述参数进行详尽记录,从而显著提升研究的可复核性。

    在此基础上,下文将重点探讨一个面向繁体及传统中文生态、便于直接在数字人文语料上微调的 BERT 基线,以及一个在中文任务社区广泛应用、适用于实体与断句等序列任务的 RoBERTa 变体(注:许多中文 RoBERTa 模型仍沿用 BERT 编码器结构,但其预训练配方更接近 RoBERTa 或 WWM 策略)。

    此处,考虑到篇幅限制,本文将重点介绍Jihuai/bert-ancient-chinese:(https://github.com/Jihuai-wpy/bert-ancient-chinese)。

    4

    bert-ancient-chinese 项目

    在古汉语文本处理领域,核心难点并非仅限于标注数据的匮乏,更深层次的挑战在于语言本体的复杂性:繁简异体字与生僻字导致严重的未登录词(OOV)问题及字形归一化困难;词边界与词类划分在学界内部存在分歧,致使标注体系难以统一;且不同体裁与时代的语言差异显著,模型极易出现跨域失配。鉴于此,bert-ancient-chinese 项目将现实需求精准定位为国学、史学、文献学与传统文化教育对大规模语料结合高性能工具的共同诉求,并将预训练模型确立为提升古文文本挖掘精度的关键基础设施。在技术谱系上,BERT 通过掩码语言模型等目标学习上下文表示,能够在小规模标注数据上实现高效微调,从而成为低资源领域不可或缺的计算基座。

    (1)bert-ancient-chinese技术

    就技术路线而言,bert-ancient-chinese 并非从零开始训练,而是遵循领域自适应预训练(Domain-Adaptive Pretraining)的典型路径,即在 bert-base-chinese 的基础上引入古汉语语料进行继续训练。这一策略旨在先获取通用语言知识,再利用领域语料校正数据分布与词汇覆盖。该项目的一个核心贡献在于词表的显著扩展:其词表大小达到 38,208,不仅远超 bert-base-chinese 的 21,128,亦优于 siku-bert 的 29,791。这种面向繁体与生僻字的扩容策略对人文文本处理至关重要,因为当语料中包含大量专名、官名、地名及异体字时,Token 的覆盖率将直接决定模型学到的表示质量,尤其是在序列标注任务中。此外,项目声称其预训练数据规模约为《四库全书》的六倍,覆盖经、史、子、集及宗教、医学等多个门类,在体裁广度上超越了仅基于单一语料库的模型。然而,值得注意的是,公开材料并未详细披露语料的清单、版本来源、清洗策略及时代分布,这在一定程度上限制了训练数据的可审计性。

    (2)bert-ancient-chinese评测

    在评测表现方面,该模型在 EvaHan 2022 相关数据集上,以 BERT+CRF 为基线,针对古汉语自动分词(CWS)与词性标注(POS)任务进行了 K 折交叉验证。实验结果显示,在《左传》与《史记》两套数据上,bert-ancient-chinese 相比 siku-bert 与 siku-roberta 均取得了小幅但稳定的 F1 值提升(例如《左传》CWS 提升至 96.33%,POS 提升至 92.50%)。这种增益幅度虽未达数量级跃迁,但在领域继续预训练中具有典型性:当基线模型已具备较强能力时,继续预训练的主要收益往往体现在提升鲁棒性及减少 OOV 和稀有字损失上。

    (3)bert-ancient-chinese模型的主要价值

    对于人文学者而言,该模型的主要价值体现在四个维度。首先,其扩大的词表有效降低了由罕见字形与专名密集导致的系统性信息损失,为碑志、方志及佛典等复杂文本提供了更稳定的上下文表示。其次,其语料门类覆盖广泛,理论上更利于模型在史传、诗文、宗教文献等不同体裁间的迁移应用。第三,其在分词与词性标注任务上的明确证据,证明了其作为数字人文管线基础预处理工具的可靠性,能够为后续的实体识别、关系抽取及计量分析提供高质量上游数据。最后,项目采用 Apache-2.0 许可证并在 Hugging Face 上开源,极大地降低了工具集成与二次开发的门槛。

    (4)bert-ancient-chinese的局限性与潜在风险

    然而,在学术应用中必须审慎对待其局限性与潜在风险。首先,由于训练语料与预处理流程披露不足,研究者难以准确判断模型是否存在时代或体裁偏置,也难以在论文中构建严格的数据谱系说明。建议在应用时明确标注公开材料未披露,并通过在自有语料上进行继续预训练或引入外部基准测试来规避风险。其次,目前的公开评测主要局限于分词与词性标注,对于实体识别、典故检索、年代判别等更复杂的人文任务,模型表现仍需额外验证。相关研究表明,古汉语预训练模型虽能提升 NER 效果,但往往需要任务化微调与特定领域的标注体系相匹配。再者,古汉语的词边界与词性高度依赖训诂与语境,并不存在绝对的标准答案。模型输出受数据集、超参数及随机种子影响,应被视为可重复的计算近似,而非不可置疑的权威结论。关键的人文学判断仍需保留在人工校勘与抽样复核环节。最后,该模型未显式建模时代演化,若研究问题与语义变迁或断代差异强相关,应谨慎使用单一静态模型作为跨时代的统一尺度。

    综上所述,对人文学者而言,bert-ancient-chinese 最合适的定位是古汉语语料结构化与表示学习的基础层,尤其是作为分词、词性标注及实体识别等序列标注任务的编码器,而非直接生成历史解释的终端工具。其优势在于词表与语料域适配带来的稳定增益与易用性,短板则在于训练语料披露不足、评测覆盖面有限以及古汉语本体争议导致的解释风险。在实践中,建议遵循三条硬性约束:第一,如实报告数据谱系与预处理细节;第二,坚持抽样人工复核并进行错误分析;第三,将模型限于辅助角色,将最终解释权留给可读的证据链与严谨的语文学方法。

    以上内容由“数字人文资讯”原创

    如需转载,请后台私信联系

    编译丨魏翔

    校对丨洪冰凤

    排版丨罗斯鹏

    阅读原文

    跳转微信打开

    ❌