阅读视图

中共党史研究语料智能体的构建经验与思考

原创 马思宇 等 2026-05-11 09:01 北京

党史研究;史料转化;知识库构建;数字人文

“AI驱动下的中国近现代史研究新范式”专题

导言

张燚明

中国人民大学历史学院

2025年11月1日,由中国人民大学中华文明研究院、历史学院、数字人文研究院共同主办,民国史研究院、数字清史实验室协办的“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”学术研讨会在中国人民大学通州校区召开。来自中国人民大学、北京大学、清华大学、中国社会科学院、国家图书馆、上海图书馆等高校与科研机构,以及国内领先科技企业的70余位专家学者与会,围绕人工智能如何深度赋能中国近现代史研究展开深入研讨。

本次学术研讨会全面响应国家文化数字化战略,深入关注新技术驱动下中国近现代史研究的新面向,以中国近现代史、计算机技术、信息资源管理等多学科交叉为依托,旨在回应时代发展、科技变革对历史学研究产生的深刻影响。主题演讲环节,学者们围绕“智能体与中国近现代史研究”“新一代中国近现代历史文献数据库开发”“数字人文的教育实践”三大核心议题,呈现出在AI技术赋能下的中国近现代史研究新工具与新方法。六个平行分会场报告显示,AI技术已不再停留于概念,而是在盘活海量史料,催生新的问题意识与研究路径,切实地融入研究流程。在圆桌讨论中,学者们一致认为:人工智能时代的到来,正推动中国近现代史研究经历一场从方法论到认识论的“智识重构”。一个深度融合技术思维与史学素养,兼具宏观量化洞察与微观深度解读的新阶段正在开启。

感谢《数字人文研究》为本次会议提供的学术平台支持,使得会上的三篇文章得以发表,以飨读者。南开大学历史学院马思宇副教授以《中共党史研究语料大模型的构建经验与思考》介绍了他的团队在中共党史文献OCR识别、父子分段性模型知识库构建上的探索,提出了推动大模型从“辅助工具”向“党史研究新基础设施”演进的目标。陕西师范大学历史文化学院张光伟老师以《〈盛宣怀档案〉智能分析系统的构建与史学应用——从检索增强到智能体推理》一文,展现了基于 Agentic RAG(代理增强检索)范式的多个智能体在意图理解、资料检索、资料总结、问题评估与文章撰写等历史学研究过程中的协同与合作,为AI构建了历史学者“对抗性伙伴”的未来图景。华中师范大学历史文化学院安高怡同学的《本地化智能史料管理系统的构建方法与实践》依据个人实践经验,为历史学研究者和小型学术团队提供了一种结合Obsidian知识管理软件、OCR识别软件和私有云服务等技术的私属化数字人文研究工作平台,具有很强的实操性和可复制性。

三篇文章都清晰地呈现出,中国近现代史学界正在借助以AI技术为代表的信息技术新工具,透视其中前所未见的结构、关联与模式,并在用实际行动,共同缔造走向人机协同、互为启迪的研究新范式

与此同时,我们欣喜地看到,正是在以完整自主知识产权的国产大语言模型为代表的人工智能技术实现历史性突破的2025年,一批跨学科、跨媒介、跨领域的研究成果问世,为传统史学研究注入新的生命力。我们满怀期待,一个在史学专用智能体主导下、在基础大语言模型辅助下、在智能化史学数据库服务下,中国近现代史研究的新未来,正向我们阔步走来!


中共党史研究语料智能体的构建经验与思考

马思宇 王亚星 肖桐月 李庚辰

摘要

中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属 OCR 适配方案与父子分段式知识库构建模式,形成 “以 OCR 适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑” 的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

关 键 词   党史研究;史料转化;知识库构建;数字人文

作者简介  马思宇,南开大学历史学院副教授,Email:masynku@126.com; 王亚星,南开大学计算机学院副教授; 肖桐月,南开大学历史学院2022级本科生; 李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。

中共党史作为一门兼具历史与政治属性的重要学科,其研究、传播与教育工作始终面临时代提出的新挑战。随着信息技术高速发展,传统党史研究工作模式在多个层面暴露出局限性,形成亟待解决的痛点。

中共党史研究以史料为根基,数字时代下,研究者面临“数据洪流”与“信息孤岛”并存的矛盾困境。中共党史的文献资料、档案、口述史、回忆录等史料浩如烟海,分散于各级档案馆、图书馆、研究机构乃至个人收藏中,给研究者和学习者开展系统性、跨机构资料整合带来巨大挑战——需耗费大量时间进行“寻宝式”资料搜集。而复杂历史事件的脉络梳理、人物关系构建、思想演变追踪等深度研究工作,常因史料不全或关联性难发现而受阻。历史学面临的大数据挑战既是机遇,也对传统研究方法提出挑战,需新工具处理和分析。面对海量非结构化文本史料,传统的人工阅读、手动摘录等处理方式效率低下,无法支撑大规模文本挖掘与量化分析。关键词提取、命名实体识别、事件关联分析等是深化研究的关键步骤。尽管已有研究探讨利用深度学习技术在中共党史文献中进行命名实体识别的可能性,但目前尚未出现公开、广为人知且专门用于整合分散中共党史研究语料的平台。

党史学习和研究的核心目标是把握历史发展宏观脉络、理解事件间因果联系、形成深刻历史洞察与分析能力。传统教学模式与以考试为导向的评估方式,使学习停留于“事件表层”的死记硬背,难以引导学生开展批判性思考与深层次分析。无论是专业研究者还是普通学习者,常只能被动接受既定知识框架,对历史的理解易停留在“时间—地点—事件—人物”的表层记忆,缺乏对背后深层原因、复杂关联及长远影响的深度解读与批判性思考。

针对上述痛点,以人工智能和知识库技术为核心的语料智能体,为中共党史研究的范式革新带来巨大潜力。

语料智能体构建的第一步,是大规模史料的数字化与结构化。通过OCR技术,将数以亿计“不可检索”的图像文字转化为“可复制、可检索、可分析”的结构化文本,彻底打破信息获取的物理壁垒,为后续所有智能分析奠定数据基石。  

智能问答、知识图谱等功能,可帮助研究者和学习者摆脱繁重的史料查找与初步整理工作。使用者能像与专家对话般,快速定位特定信息、自动梳理人物关系网络、生成事件发展脉络图,从而将更多精力投入更高层次的分析、阐释与创新性研究,显著提升研究效率与深度。  

词云图、思维导图等可视化形式,能将枯燥的文字史料转化为生动、直观、可交互的知识形态,增强党史内容的吸引力。语料智能体按需生成、千人千面的特性,可提供定制化学习路径与知识解读,引导用户从“被动看”转向“主动问”,从“记事件”转向“懂逻辑”,有效深化对党史的系统性认知。

南开大学马思宇副教授

1 中共党史研究语料智能体的

核心技术基础

构建高质量党史研究语料智能体,首要任务是将海量纸质或扫描版文献转化为机器可读的文本数据,这一过程的核心是OCR技术。

1.1 OCR技术方案的适配性设计

通用OCR工具处理格式复杂、图文混排的历史文献时,常因丢失版面结构信息导致上下文语境割裂,表现欠佳。本研究选用在复杂文档处理中表现优异的MinerU方案,并针对党史文献特性进行深度适配。

图1 MinerU方案流程示意图

在结构分析方面,党史文献具有严谨编撰逻辑与特定内容形式,如中央文件选集中的层级标题、正文段落、注释及嵌入的档案缩影等。MinerU方案能精准识别并还原这些结构信息,有效维持文献的逻辑完整性与上下文连贯性。该系统具备良好的元素拆分能力,可将正文文本与图片、表格、手写批注等非文本内容有效分离,在提取文本的同时保留其原始位置信息,为后续多模态分析与知识关联奠定基础。

在输出与验证机制上,系统支持将识别结果输出为Markdown、JSON、LaTeX等多种格式,满足从人工阅读到程序化处理等不同下游任务需求。更重要的是,针对历史文献识别中难以避免的误差,MinerU提供可视化验证后台,通过Layout与Span视图辅助人工校对,让审核人员能直观比对原始图像与识别文本在版面、层级及内容上的一致性,显著提升OCR转化的数据质量与可信度。

此外,系统具备涵盖84种语言的多语言识别能力,这对处理涉及共产国际等相关史料中的俄文、德文、英文等外文文献尤为重要。该特性确保多语种党史资料能被完整、准确地转化为文本并纳入统一知识体系,为后续深度分析与智能化研究提供坚实基础。

1.2 OCR转化的系统性成果

在MinerU方案技术支持下,中共党史研究语料智能体在文献数字化转化方面取得系统性、规模化成果。目前已完成752册核心党史文献的OCR转化,共生成351240615个有效字符,为构建覆盖广泛、内容翔实的党史智能知识库奠定坚实数据基础。

转化成果全面覆盖党史研究多个核心领域:在中央文件方面,完成《中共中央文件选集》(58册)及长江局、香港分局、西北局等各大中央局的文件汇集,为研究党中央决策过程与组织运作提供权威一手材料;在专题史料类方面,转化内容涉及财经、军事、区域史等方向,如《中国革命根据地 北海银行史料》《山东革命根据地财政史料选编》等,为特定领域深入探索提供结构化素材;在研究著作与编年史料类方面,处理《中国共产党编年史》《中共党史参考资料》等系统性较强的学术成果,助力构建清晰历史脉络;此外,《星火燎原》系列等红色经典文献也被完整转化,其中包含大量革命亲历者的珍贵回忆,大幅丰富史料的表现维度与情感厚度。

大规模OCR转化的核心价值,在于实现党史文献从“静态图像”到“智能文本”的质变。转化后的文本具备可检索、可复制、可计算的特征,让研究者能在亿级字数中快速定位目标内容,显著提升资料利用效率。这些高质量文本为后续知识抽取、关系挖掘、智能问答乃至多模态党史知识图谱的构建,提供标准化、结构化的数据原料,标志着党史研究在方法论层面迈入数字化与智能化新阶段。

2  中共党史研究语料智能体的

开发与功能实现

2.1 核心问题与解决策略

在中共党史研究语料智能体构建过程中,研究团队着力解决三个制约系统效能与可靠性的核心问题。

一是针对用户提问多样性与统一处理困境的调度策略。党史研究用户需求呈现高度异质性,涵盖从具体史实查询到宏观脉络梳理等多种类型。为同时满足不同任务需求,研究引入智能问题分类与调度机制。该机制的核心是内置语义意图识别器,能将用户自然语言提问自动归类至“思维导图生成”“知识图谱构建”“词云图制作”及“知识库问答”四大预设任务类型。分类完成后,系统随即调用适配的专用处理引擎。例如,针对概念关联性分析请求,系统会优先启动知识图谱构建模块,而非通用问答流程。这种基于分类的智能调度策略,既有效化解多样化需求与统一处理模型间的张力,又通过专业化分工显著提升任务执行准确性与系统整体响应效率。

二是针对长文本史料碎片化局限的层级处理方法。中共党史文献普遍篇幅长、逻辑结构复杂,直接进行端到端整体处理易导致关键信息丢失与语义连贯性断裂。为解决长文本分析中的“碎片化”难题,研究设计层级拆分整合方法:系统先对每个文本片段进行深度的实体、关系及事件抽取,再通过融合算法将片段层级的分析结果进行整合与逻辑校验,还原文本的整体叙事脉络。这一“分而治之,合而为一”的多轮迭代处理流程,有效保障从庞大文献中抽取知识的完整性与逻辑一致性,为后续深度分析奠定可靠基础。

三是针对生成式AI过度依赖与质量风险的控制流程。尽管生成式AI在内容生成上展现出强大能力,但其固有的“幻觉”现象、信息冗余及格式不确定性等风险,直接关乎研究的严谨性与准确性。为避免过度依赖原始生成结果,本研究平台建立“自动筛选—格式化—迭代增强”三阶段严格质量控制管道:首先对生成式AI的初始输出进行事实性错误筛查与冗余信息过滤;其次利用预设标准化模板对内容进行强制性结构化重组,确保输出符合学术规范;最后支持基于用户反馈或自检规则的多轮迭代优化,持续修正与提高内容质量。这套流程将生成式AI的创造力与可控规范化处理相结合,显著降低质量风险,确保最终输出结果的可靠性、可用性与严肃性。

2.2 父子分段式模型知识库构建

知识库构建质量是决定中共党史研究语料智能体效能的核心基础。为实现史料价值的高效挖掘与精准呈现,研究设计“父子分段式知识流水线模型”。该模型的核心是通过语义层级的精细划分与智能关联,平衡检索精准性与语境连贯性,满足党史研究对细节考证与宏观脉络分析的双重需求。

模型的核心逻辑建立在语境连贯与精准匹配的平衡机制上。该模型将文献在结构上划分为“父块”与“子块”两个层级:父块以完整语义章节(如文件全文、书籍章节)为单位,核心作用是充当“背景知识库”,确保回答任何具体问题时都能获得充分上下文信息支持,维持叙事逻辑的完整性与准确性;子块是对父块内容的深化,从父块中提取高密度关键语义片段(如核心论述、事件要点),专门服务于精准语义匹配。当用户提出问题时,系统先在子块层面快速定位,实现关键信息“精准匹配”;锁定相关子块后,立即回溯并加载其所属的整个父块原文,完成“上下文补全”。这种“子块定位、父块补全”的协作机制,是从碎片化信息中还原历史原貌、避免断章取义的关键。

在技术实现上,模型的存储与检索机制依赖向量化嵌入与双向检索的深度融合。具体流程始于“高质量语义索引”:所有文本块均通过向量化嵌入技术转化为数值向量,建立丰富的语义关联网络;子块向量被存入向量数据库,实现基于语义相似度的高效检索。检索过程并非单一模式,而是结合关键词匹配与向量语义搜索的“双向检索”策略,灵活适配用户对史实的精确查询与对脉络的关联探索等不同需求。最终通过“自适应知识响应引擎”,系统能将检索到的结构化知识智能调度至问答、词云、知识图谱或思维导图等不同功能模块,生成符合用户指令的最终成果。这套从索引、检索到响应的完整技术链,共同支撑语料智能体对党史知识进行多维度、深层次挖掘与呈现的能力。

图2 知识库构建流程示意图

2.3 四大功能模块的实践应用

在构建坚实的结构化史料知识库后,平台集成多种人工智能与自然语言处理技术,开发出四项核心功能模块(智能问答、词云图、知识图谱、思维导图),从不同维度提升党史研究的效率与深度。

智能问答模块是高效直接查询的核心工具。其工作机制是先在专属党史史料向量知识库中进行语义检索,锁定最相关的原始文献片段,再将这组经过验证的史料作为上下文提供给大语言模型整合与精炼,生成既有针对性又有文献支撑的答案。例如,当问及“唯物史观的基本原理”时,系统能精准援引《中共党史参考资料》中的具体论述,明确指出经济基础决定上层建筑等核心观点,有效避免通用模型可能产生的事实谬误,增强答案的可靠性与可溯源性。

词云图模块通过高频要素的可视化呈现文献重点。该功能对文献进行全文本分析,自动统计人物、地点、关键术语的频率,生成以字体大小代表权重的视觉图表。例如,分析早期共产主义运动文献时,能迅速凸显“毛泽东”“陈独秀”“共产主义小组”等核心词汇,帮助研究者快速捕捉文献的核心议题与关键历史角色,适用于对陌生文献集的初步评估。

知识图谱模块致力于揭示历史进程中隐含的复杂关联。它运用知识图谱实体抽取技术,自动从史料中识别并建立“人物—事件”“事件—地点”等多种实体关系对,以可视化网络图谱呈现。以研究“武汉共产主义小组”早期活动为例,系统能自动构建关系网络,清晰展示陈独秀作为主要联系人,及董必武、陈潭秋等核心成员的构成谱系,并链接至相关事件节点,辅助研究者洞察组织动力学与广泛的社会连接。

思维导图模块专注于对文献脉络进行系统性总结。该功能通过解析文献的内在逻辑结构或事件演进序列,自动生成层级清晰的树状导图。在处理《中国共产党组织史资料》这类宏大文献时,系统能以“文献编纂背景”“核心内容体系”“史料价值”等作为主干,拓展出“组织沿革”“领导成员”等次级分支,将巨量文本信息浓缩为逻辑严谨的“认知地图”,助力研究者高效把握全局,并为学术汇报和教学提供结构化底稿。

2.4 应用实例:国民革命中工人阶级作用的多维度智能分析

假设我们想运用《中共党史研究》《党史研究资料》《中共党史参考资料》《中共党史大事年表(1921-1981)》等史料开展关于工人阶级在国民革命中作用的相关研究,但不知从何入手,中共党史研究语料智能体能通过以下几个步骤,形成工作流界面,将静态的史料转化为动态、可视、可深挖的研究资源,为研究者提供研究灵感、核心思路与体系化支撑。

图3 中共党史研究语料智能体工作流示意图

第一步,从智能问答切入,快速定位核心观点。用户首先可以在模型的智能问答框中输入一个具体问题,例如:“近代工人阶级在国民革命中扮演了什么样的角色?”模型会立刻在内部语料库中进行检索和智能分析,并生成一段凝练、准确的摘要(图4)。

图4  智能问答界面示例

这段输出不仅提炼了工人阶级的阶级特性、力量来源,还指出了核心策略。几秒钟内,用户就从模糊主题获得了基于《党史研究资料第2集》《党史研究资料第3集》等史料库内史料的结构化观点,远比逐篇翻阅高效,为后续研究奠定立论起点与史料依据。

第二步,利用知识图谱功能,构建历史关联网络。核心观点明确后,我们希望更深入地理解“工人阶级”与当时其他历史要素如人物、组织、事件等的复杂关联。这时,用户可以利用模型的知识图谱功能。针对知识库中的指定史料,如《中共党史研究》2005年第3期,智能体能自动识别并抽取文本中的关键事件及要素,并通过连线反映它们之间的关联性。这张图谱不仅将线性的文本论述转化为一张可视化的网络,而且通过密集的节点和连线,直观地展示了工人阶级的发展与壮大是如何与政治力量、关键事件等各个因素紧密相连的。这种可视化方式有助于用户发现单篇阅读中容易忽略的间接关联,能够更全面地理解工人阶级在国民革命中的作用和影响,从而激发新的研究思路。

第三步,深入解析指定史料,构建脉络框架。在明确了核心观点并构建了历史关联网络后,用户可以进一步利用智能体深入解析指定史料,构建详细的脉络框架。以《中共党史研究》2005年第3期为例,模型将自动提取该史料中的关键章节和主题,生成一份思维导图,以树状结构展示史料的主要内容及其相互关系,每个分支代表一个主题或子主题,分支间的连线表示它们之间的逻辑联系。通过这种结构化的展示,用户能够一目了然地了解史料的总体框架,更清晰地理解单一史料的内容和结构,为后续研究提供坚实的基础。

图5 解析史料形成思维导图

总结而言,通过这个具体的案例,我们可以看到中共党史研究语料智能体如何将一个研究主题的研究过程重塑为一条高效、深入的路径:从智能问答快速聚焦,到知识图谱揭示深层关联,再到思维导图整合脉络。它不再是简单的文献检索工具,而是一位能够与研究者进行深度互动、提供认知支持的“智能研究助理”,极大地提升了中共党史研究的深度与效率。

2.5 中共党史研究语料智能体的构建经验总结

通过本次构建实践,研究团队深刻认识到,成功打造适用于中共党史研究的专业语料智能体,需在技术适配性、知识结构化与需求导向性三个层面进行系统化设计。

在技术适配性层面,核心经验是必须以党史文献的独有性为出发点进行技术选型与优化。以OCR技术为支撑,重点针对党史文献中常见的多格式混排、结构复杂、图文并杂等特点,选用并优化具备结构还原与元素拆分能力的专业方案,在数字化过程中有效保留文献的原始语境与逻辑层次。通过知识库构建环节,突破传统存储模式局限,创新性引入“父子分段”模型,兼顾党史研究把握整体脉络与考证微观史实的双重需要。

在知识结构化层面,语料智能体的关键价值是将原本分散、非结构化的海量史料,转化为系统化、可关联、可推理的知识体系。通过层级化处理,以“父—子”分段策略从技术上弥合史料碎片化与研究系统性之间的张力,使每一次查询结果都能兼顾细节准确与语境完整。通过文本向量化与知识图谱技术的结合,不仅实现语义层面的关联计算,更显式构建人物、事件、组织之间的复杂关系网络,支持研究者进行脉络推演与跨文献关联挖掘,大幅提升党史知识的组织效率和智能水平。

在需求导向性层面,语料智能体的生命力体现在对研究、传播、教育等多元场景需求的精准响应。在研究侧,智能问答与知识图谱功能有效缓解传统研究中信息检索慢、脉络梳理难的问题,助力学者聚焦深层分析与理论创新;在传播侧,通过词云、可视化图谱等交互形式,将党史内容转化为生动、可参与的数字体验,显著增强对年轻学习群体的吸引力;在教育侧,依托思维导图与个性化学习路径生成功能,支持学习者开展自主探究,推动党史学习从被动接受转向主动建构,有效促进深层次认知与价值内化。

3  现存问题与发展方向

尽管中共党史研究语料智能体的构建已取得初步成果,在史料处理、知识检索与脉络梳理等方面展现出一定优势,但发展仍处于初级阶段,面临来自数据基础、技术深度等方面的挑战。清醒认识这些现存问题,据此规划未来发展方向,是推动该语料智能体从“可用”走向“好用”“实用”的关键。

3.1 语料库建设的核心难题

语料库是语料智能体运行的根基,其质量直接决定语料智能体认知的准确性与深度。当前,语料库建设面临的核心难题集中于数据清洗与标准化环节。

首先,数据清洗与标识工作异常复杂。中共党史文献时间跨度大、来源广泛,其中充斥大量历史专有名词,如“苏维埃”“赤维埃”“边区”等。还有异体字、旧式标点及特定历史时期的表述方式等。对这些内容进行精准识别和标准化处理,是确保语料智能体正确理解史料语义的前提。例如,若不能将“赤维埃”准确映射为标准术语“苏维埃”,会导致相关史料在检索和关联时被遗漏。更为棘手的是敏感信息的标识问题:党史研究具有高度的政治性和严肃性,部分文献内容涉及需谨慎处理的历史细节或个人评价,这要求在语料入库前建立一套精细、符合学术规范与相关规定的标识体系,实现对特定信息的自动化识别与管理,避免生成内容出现偏差。

其次,缺乏适配党史文献特点且高效的专业化校对工具。目前,OCR转化后的文本校对工作仍高度依赖人工,成本高昂且效率低下。通用OCR校对工具难以有效识别上述历史术语和特殊表述的错误。因此,亟待开发一套融合“历史术语库”与“上下文语义校验”的智能校对系统。该系统能基于党史知识的上下文逻辑,自动提示或修正可能的识别错误,将研究人员从繁重的基础校对劳动中解放出来,大幅提升语料构建的效率与准确性。

3.2 知识库的深化方向

现有知识库主要以文本史料为核心,为实现从“文献检索工具”到“综合研究平台”的跨越,知识库的深化需向多模态融合与跨库关联迈进。

多模态融合是提升认知维度的必然要求。党史是立体而鲜活的,仅依靠文本难以全面呈现其丰富内涵。将历史照片、档案手迹、领导人讲话录音、纪录片等图像、音频、视频资料纳入知识库,并进行有效多模态关联,能大幅丰富语料智能体的知识体系。例如,当研究者查询“开国大典”时,语料智能体不仅能提供文字报告,还能关联展示相关历史影像、照片和新闻公报,构建更全面、更生动的历史场景,助力具象化的历史感知与研究。

跨库联动是打破数据壁垒、拓展史料边界的关键路径。当前,各级党史研究机构与革命纪念馆多建有特色数字资源库,但彼此独立,形成“数据孤岛”。未来,语料智能体应致力于构建统一的数据接口标准,实现与这些权威外部数据库的有机联动。通过安全、规范的协议,语料智能体可检索并调用外部库的专有资源,在不重复建设的前提下大幅拓展史料覆盖范围,为研究者提供“一站式”党史资料服务,真正实现研究资源的整合与共享。

3.3 未来展望

面向未来,中共党史研究语料智能体应在解决现存问题的基础上,朝着功能深化、技术融合与生态构建的方向持续演进。

在功能深化上,可探索个性化推荐机制:基于用户的研究兴趣和行为数据(如专注于“延安时期经济史”或“早期工人运动”),主动推送相关的史料、研究成果乃至分析工具模块,实现从“人找资料”到“资料找人”的转变。进一步可发展辅助研究生成功能:自动生成论文提纲、文献综述初稿,并自动完成史料引文的标注与校对,将语料智能体从研究助手升级为研究伙伴。

在技术融合上,可积极探索人工智能与党史研究的深度结合,特别是引入数字人文的研究方法。例如,对长时段的党报社论进行文本挖掘与情感分析,以量化方式观察特定政治概念或表述的演变趋势;利用社会网络分析技术,自动梳理历史人物、事件、组织之间的复杂关系网络,发现传统定性研究中难以察觉的模式与规律,为党史研究开辟新范式。

在生态构建上,最终目标是形成可持续的研究逻辑闭环。一方面,建立党史学者深度参与机制,将语料标注、模型优化与功能设计各环节的党史学者参与融入平台开发全链条,贴合学术前沿与实际需求,提升学术严谨性;另一方面,打造成果共享平台:鼓励用户将基于语料智能体产生的研究笔记、可视化图谱、分析报告等,在遵守规范的前提下进行分享与协同,汇聚集体智慧,形成开放、协作、共进的党史研究新生态。

4  结语

中共党史研究语料智能体通过“史料OCR转化—知识库构建—功能模块实现”的技术路径,有效破解传统党史研究中的效率与深度难题,为技术赋能数字人文研究提供实践范式。其核心经验在于“技术适配党史特性、知识服务研究需求”,而语料处理、跨模态融合等问题仍需持续突破。未来,需以“学术严谨性”为前提、“用户需求”为导向,推动语料智能体从“辅助工具”向“党史研究新基础设施”演进,助力中共党史研究的数字化、体系化、创新化发展。

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:马思宇,王亚星,肖桐月,等.中共党史研究语料智能体的构建经验与思考[J].数字人文研究,2026,6(01):32-42.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

科技遗产与数字人文工作坊(第一号通知)

数字人文研究中心 2026-05-10 20:25 北京

以下文章来源于:中华方志物语

中华方志物语

中国地方志物产知识挖掘、分析、数据化、可视化及应用

点击上方蓝字关注我们了解教育动态

为深入贯彻落实中共中央办公厅、国务院办公厅《关于推进实施国家文化数字化战略的意见》精神,响应党的二十大关于 “推进文化和科技融合,推动文化建设数智化赋能” 的战略部署,紧扣《“十四五” 文物保护和科技创新规划》中 “加强文物数字化保护、大力发展数字考古” 的工作要求,立足新质生产力驱动下文化遗产保护利用的时代需求,中国科技史学会数字人文专委会联合南京农业大学人文与社会发展学院、数字人文研究中心,定于 2026 年 7 月 12—18 日举办 “科技遗产与数字人文研究工作坊”。

本次工作坊聚焦中国古代科技遗产的数字化保护与创新性研究,以 “方法导向、过程透明、结果可复现” 为核心原则,直面当前科技遗产研究中数字技术应用碎片化、实操能力薄弱、跨学科融合不足等痛点。工作坊将系统整合数据预处理、生成式 AI 辅助编程、知识图谱构建、社会网络分析、历史 GIS 时空建模、大语言模型微调等前沿技术模块,构建 “理论筑基 — 技术实操 — 案例落地 — 成果孵化” 的全链条培养体系。通过拆解完整研究流程、强化上机实操训练、同步产出阶段成果,助力人文社科领域师生与青年学者打通 “人文问题 — 数字方法 — 学术产出” 的转化通道,培养一批兼具科技遗产学术素养与数字人文技术能力的复合型人才,为国家文化大数据体系建设与科技遗产的活化传承提供人才支撑与方法借鉴。

基本信息

(一)指导单位:中国科技史学会数字人文专委会

(二)主办单位:南京农业大学人文与社会发展学院

(三)承办单位:南京农业大学数字人文研究中心

(四)实施保障

项目

内容说明

课程材料

每日课件、步骤讲义、Notebook 模板、课堂操作截图与问题排查说明。

课堂数据

相关 TXT 文本、CSV 表格、关系边表、地理数据、图数据库样例及必要的模型演示材料。

软件工具

Python、Jupyter Notebook、Pandas、Matplotlib、Neo4j、Gephi、ArcGIS,以及必要的生成式 AI 与大模型实验环境。

课堂支持

教师完整演示、助教巡回答疑、统一问题汇总与课后材料打包。

组织建议

建议学员自带电脑;开课前统一发送软件安装说明;原则上每 10—15 名学员配备 1 名助教。

课后服务

建立专门群组,长期进行课后答疑与专业服务。

工作坊定位

本工作坊面向科技遗产、科学技术史、数字人文及相关人文社会科学领域的师生与青年学者开展科技遗产数字人文研究培训,突出“方法导向、过程透明、结果可复现”。与偏重成果展示的学习活动不同,本工作坊强调把研究过程拆解清楚、演示完整,并让学员在课堂中同步完成关键步骤。

结合本次工作坊的主题与受众特点,课程案例以中国古代科技遗产为主线材料,贯穿数据预处理、生成式 AI 辅助编程、知识图谱与语义组织、社会网络分析、历史 GIS 与时空分析以及大语言模型专题等模块,尽量使技术训练与具体研究对象紧密衔接。

整体结构遵循“导论—数据预处理—生成式 AI 辅助编程—专题工具训练—综合实践”的逻辑,既确保入门门槛可控,也保证各专题模块有完整的上手时间和课堂产出。

参会形式和主要日程

每天分为上午(9:00—12:00)与下午(14:00—17:00)两个单元。上午侧重问题导入、概念说明、案例拆解与教师完整演示,下午侧重学员同步操作、助教巡回指导与课堂成果提交。

所有模块统一采用“案例说明—教师演示—学员复现—问题纠偏—结果保存”的组织流程,避免只讲结果、不讲步骤。

课堂统一提供已整理好的 TXT、CSV、关系边表、地理数据和图数据库样例,尽量减少繁杂前处理对学习节奏的干扰。

每个模块都要求形成可见成果,学员在结课时可以带走代码模板、数据样例、步骤讲义与个人成果文件。

招募对象及培训目标

(一)招募对象

1.科学技术史、科技遗产、数字人文、历史学、考古学、博物馆学、古籍整理、文化遗产保护等方向的教师、研究生与高年级本科生;

2.希望把数字人文研究方法真正引入研究流程,但缺少系统训练的人文社科学者;

3.已具备明确研究主题,希望通过工作坊迅速形成可操作技术路线的青年学者。

(二)培训目标

1.建立科技遗产与数字人文研究的整体方法框架,理解不同技术模块在研究中的分工与连接方式;

2.掌握研究数据预处理、生成式 AI 辅助编程、结构化分析与结果展示的基本流程;

3.能够完成知识图谱、社会网络分析、历史 GIS 与大语言模型专题中的基础操作与结果解释;

4.形成至少一个可延展到个人论文、课题或课程设计中的研究雏形。

培训相关事宜

1.培训费用:

人员身份

培训费用

教师及职业研究者

8000元/人

在读学生(本科生、研究生、博士生)

4000元/人

※ 培训费用包含全程课程、课程材料、讲义及数据包,不含食宿及往返交通费用,以上费用均由学员自理。

※ 缴费方式将在录取通知中另行告知。

报名方式

请于2026年6月20日(星期六)前,扫描下方二维码或点击报名链接报名。

工作坊组委会将综合考虑报名时间及申请人专业背景进行遴选,以保证课堂质量。录取结果将于报名截止后7个工作日内以邮件形式通知,请申请人注意查收。

联系信息

联系人:张老师

电 话:13295221109

邮 箱:zhangqiang@njau.edu.cn

授课教师简介

专委会领导(待定)

1.包平

南京农业大学人文与社会发展学院二级研究员,博士生导师,国家社科基金重大项目首席专家,中华物产与文明探源协同创新中心负责人。致力于古籍文献的收集、整理与研究工作,综合运用信息技术开展地方志物产文献的智能整理与知识挖掘研究,形成了可共享的体系化方法和数智化资源。获部省级教学科研奖励7项,出版专著7部,发表学术论文120余篇;获软件著作权6项。现任中国科技史学会数字人文专业委员会副主任委员,中国古籍保护协会古籍智能开发与利用专业委员会委员,中国索引学会数字人文专业委员会委员。

2.王东波

南京农业大学信息管理学院副院长、教授、博士生导师、南京大学“术语与翻译跨学科研究基地”兼职研究员、国家社科基金重大项目首席专家。主要从事自然语言处理与大语言模型、科技文本知识挖掘研究,主导或参与完成了荀子古籍大语言模型、中国非物质文化遗产大语言模型、中华物产大语言模型和司农大语言模型等垂直大语言模型的构建。主持国家社科基金、国家自然科学基金及其他省部级项目共计12项。以第一完成人分别获得第九届高等学校科学研究优秀成果奖(人文社会科学)青年成果奖、江苏省哲学社会科学优秀成果一等、二等和三等奖各一次。

3.朱锁玲

南京农业大学人文与社会发展学院教授,硕士生导师,美国伊利诺伊大学香槟分校信息学院访问学者。研究方向为数字人文、古籍智能整理与开发利用。近年来主持国家社科基金项目、农业部重点实验室课题、江苏省社科基金项目等多项国家级和省部级课题,在《中国图书馆学报》《大学图书馆学报》《中国农史》《Library Hi Tech》等期刊发表学术论文30余篇,出版学术专著1部,参编教材及专著4部,获得省部级奖项1项,入选南京农业大学第四批“钟山学术新秀”。现任南京农业大学数字人文研究中心负责人,兼任中国科学技术史学会数字人文专委会副秘书长。

4.陈涛

工学博士,中山大学信息管理学院副教授,“百人计划”引进人才,硕士生导师。上海图书馆、南京大学信息管理学院联合培养博士后,中山大学国家文化遗产与文化发展研究院研究员,中山大学数字人文实验室首席专家。长期从事数字人文、人工智能、文化遗产方面的研究,主持国家社科重大项目子课题1项“基于数智融合技术的重要非遗数字基因提取与文化基因库构建(2025)”,国家社科基金一般项目2项“文化遗产多模态数据知识表示模型及智慧系统构建研究(2023)与数字人文中图像文本资源的语义化建设与开放图谱研究(2019)”,以及中国博士后科学基金、中宣部古籍工作重点课题、中国图书馆学会重点课题等多项省部级课题;作为核心人员参与国家自然科学基金3项、国家社科基金重大项目2项、国家社科基金一般项目2项,国家社科青年项目1项,以及江苏省哲社基金、上海市哲社基金、国家863、科技部项目等十余项;负责过近三十项知识图谱与数字人文领域相关的横向课题。近几年以第一/通讯作者在DSH、JOI、《中国图书馆学报》《大学图书馆学报》《图书情报工作》等核心期刊发表论文五十余篇,兼任国内外图情和数字人文领域十余种核心期刊评审专家、复旦大学中国开放数林指数评估专家委员会委员、中国科学技术史学会数字人文专业委员会会员、中国索引学会数字人文专委会委员等职务。

5.尚平

历史学博士,现任湖北师范大学历史文化学院副教授、湖北师范大学计算史学与数字人文研究实验室主任。目前主要研究方向是宋史、历史GIS和数字人文。编著有《历史地理信息系统基础操作教程》(合著)(华中科技大学出版社2024年),发表论述十余篇。

6.李惠

南京农业大学人文与社会发展学院副教授,负责历史文献的数字化整理与建设的技术方案支持。兼任《数字人文》集刊编辑、《信息与管理研究》期刊编委、中国历史文献研究会·数字文献分会会员等。主要研究领域包括:深度学习、网络科学、自然语言处理等前沿技术在数字人文领域的应用研究。

7.李娜

理学博士,南京林业大学人文社会科学学院副教授,硕士生导师,2019年度江苏省优秀博士学位论文获得者,CSC公派英国剑桥大学访问学者,现任南京林业大学人文社会科学学院广播电视与新媒体系主任、国家林业和草原局林业遗产与森林环境史研究中心林业史料数字化研究室主任,主要研究方向为科学技术史、数字人文、文化传播。主持国家社科基金青年项目、江苏省社科基金青年项目、国家林业和草原局软科学项目、中国博士后基金特别资助项目和中国博士后基金面上项目等多项国家和省部级项目,在《中国农史》《图书馆论坛》《图书馆》《中国科技史杂志》等期刊发表学术论文十余篇,出版专著一部。

8.徐晨飞

理学博士,南通大学商学院(管理学院)副教授,硕士生导师,美国伊利诺伊大学香槟分校信息学院访问学者。研究方向为数字人文,文化遗产知识组织与人工智能应用。主持国家社科基金项目、教育部人文社科项目、江苏省社科基金项目及各类市厅级课题共8项。在《大学图书馆学报》《图书情报工作》《数据分析与知识发现》《图书馆论坛》《中国农史》等期刊上发表学术论文 30 余篇,出版专著2 部,主编教材2部,获软件著作权2项,2024、2025中国知网高被引学者TOP1%。现任中国科学技术史学会数字人文专业委员会委员,南京农业大学数字人文研究中心特聘研究员。

9.周树斌

管理学博士,内蒙古师范大学科学技术史研究院特聘研究员、内蒙古师范大学科技古籍整理研究所研究员、内蒙古自治区科技文化遗产认知智能重点实验室研究员、中国索引学会数字人文专业委员会委员、中国科学技术史学会会员、内蒙古自治区人工智能学会青年工作委员会及数智文旅专委会委员、《Knowledge Organization》青年编委。研究方向为科技遗产与数字人文、科学技术史、知识组织。主持内蒙古自治区社会科学基金、内蒙古自治区教育科学“十四五”规划专项课题、用友基金会“商的长城”项目等项目4项,在《大学图书馆学报》《图书情报工作》《情报资料工作》《图书馆论坛》《Knowledge Organization》等国内外期刊发表论文20余篇,2025中国知网高被引学者TOP5%。

10.张强

管理学博士,淮阴师范学院文学院数字人文系主任,南京农业大学人文与社会发展学院博士后,南京农业大学数字人文研究中心研究员,中国计算机学会专业会员,中国科学技术史学会数字人文专委会委员。研究方向为数字人文、科学技术史、科技遗产知识组织。主持中国博士后面上资助项目、江苏省社科联精品工程地方志专项重点项目、江苏省科技智库青年项目等。《Knowledge Organization》《中国农史》青年编委,在《情报学报》《图书情报工作》《数据分析与知识发现》《Digital Scholarship in the Humanities》等国内外核心期刊发表论文30余篇,授权发明专利2项,2025中国知网高被引学者TOP1%。曾获2022年中国数字人文年会优秀论文奖、最具人气项目奖等。

阅读原文

跳转微信打开

  •  

DH无界谈 | 曾蕾:AI时代文化遗产数据资源的采集和数智活化

数字人文研究院 2026-05-07 08:23 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

中国人民大学数字人文研究院

"DH无界谈"015

AI时代文化遗产数据资源的

采集和数智活化

内容简介

本次讲座将讨论文化遗产数据资源处理的不同层次和功能,并探讨一些跨国实例带来的启发,涉及AI时代数据资源数智活化的速度,深度,广度,质量,以及能联合使用的服务等。

时间:2026/05/09 14:00

地点:立德楼B1数字人文实验室

主办单位

中国人民大学数字人文研究院

学术媒体支持

《数字人文研究》

主讲人 曾蕾

美国肯特州立大学(KentState University)信息学院终身教授,荣获国际信息科学与技术协会(ASiS&T)2024年度杰出贡献奖(ASIS&T Award of Merit),是该奖1964年设立以来的首位华人获奖学者。

主持人 夏翠娟

中国人民大学信息资源管理学院教授

数字人文研究院研究员

撰稿/图片/排版:邱晨昱

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

  •  

历史游戏研究文献汇总(至2026年初)

西瓜好吃 2026-05-06 16:39 北京

以下文章来源于:漫谈穿越

漫谈穿越

漫谈穿越。分享有趣的穿越作品。分析故事背后的思想观念与历史

历史游戏研究,即以历史游戏为对象的相关研究。

历史游戏研究文献汇总

至2026年初

作者简介

庞昊,毕业于中国社会科学院世界历史研究所,师从俞金尧教授,世界史博士,从事西方史学理论与史学史研究,目前工作于中山大学历史学系,关注历史游戏研究与人工智能时代的历史学议题。

| 小红书账号:西瓜好吃 |

      “历史游戏”是指游戏内容包含历史元素,且这些元素或是能够影响玩家游戏体验,或是能够促使玩家思考过去的电子游戏。历史游戏研究,即以历史游戏为对象的相关研究。

       历史游戏为什么如此有吸引力?历史游戏又是如何建构历史的?这一历史表现形式有什么特殊之处,尤其是相比历史专著和历史电影来说?历史游戏有可能成为探索历史问题的工具吗?2000年前后,为了回答这些问题,一些欧美研究者将目光投向历史游戏,开启了“历史游戏研究”领域。2013年,Adam Chapman提出了历史游戏研究宣言,宣称历史游戏是历史,历史游戏研究是一个独立的研究领域。2017年,历史游戏研究是一个独立研究领域已经是很多研究者的共识。经过近25年的发展,它已逐渐成熟,而且渐渐融入欧美主流史学研究,时至今日,已有近300份历史游戏研究成果,包括学术论文、学术专著、学术论文集。这份整理以英语世界的研究为主的,并收录了国内和法、德的有限成果,未能涵盖日语、韩语、葡萄牙语、西班牙语、意大利语的相关研究

1992

1. Keith Ferrell, Sid Meier's Civilization, Compute, Vol.14, No.1 (Jan.,1992), pp.86-87.

2. Roger-Tzu, Strategies for Sid Meier's Civilization: The 6000-year-old Man Gives Sage Advice, Computing Gaming World,No.93 (April,1992), p.88, p.90.

3. Alan Emrich, Getting Civilized:What's Happening to Sid Meier's Civilization?,Computing Gaming World, No.94 (May,1992), p.108, p.110.

1993

1. J.Stallabrass, Just Gaming: Allegory and Economy  in Computer Games, New Left Review, No.198, pp.83-106.

2. Pierre Corbell, Review on Civilization, Simulation  &Gaming, Vol.24, No.3(September, 1993), pp.388-390.

1997

1. Bill Bigelow, On the Road to Cultural Bias: A Critique of the Oregon Trail CD-ROM, Language Arts, Vol.74, No.2(Feb.,1997), pp.84-93.

2. Janet H.Murray, Hamlet on the Holodeck: The Future of Narrative in Cyberspace, Cambridge: The MIT Press, 1997.

3. Douglas Rushkoff, Children of Chaos: Surviving the  End of the World as We Know It, London:Flamingo,1997.

1999

1. Ted Friedman, Civilization and Its Discontents: Simulation,Subjectivity,and Space, Greg M.Smith,ed.,On a Silver Platter:CD-ROMs and the Promises of a New Technology,New York and London:New York University Press, 1999, pp.132-150.

2001

1. David Kushner, In Historical Games, Truth Gives Way to Entertainment, The New York Times, September 6, 2001, https://archive.nytimes.com/www.nytimes.com/learning/teachers/featured_articles/20010906t hursday.html.

2002

1. Christopher Douglas, You Have Unleashed a  Horde of Barbarians! : Fighting Indians, Playing  Games, Forming Disciplines, Postmodern Culture, Vol.13, No.1 (September,2002), https://pmc.iath.virginia.edu/issue. 902/13.1douglas.html.

2. Kacper Poblocki, Becoming-State:The Bio-Cultural Imperialism of Sid Meier's Civilization, Focaal-European Journal of Anthropology, No.39 (2002), pp.163-177.

3. Matthew Kapell, Civilization and Its Discontents: American Monomythic Structure as Historical Simulacrum, Popular Culture Review, Vol.13, No.2(Jun.,2002), pp.129-135.

4. Kurt Squire, Cultural Framing of Computer/Video Games, Game Studies, Vol.2, No.1 (July,2002), https://www.gamestudies.org/0102/squire/.

5. Tom Lenoir and Henry Lowood, Theaters of  War: The Military-Entertainment of Complex, Stanford University Library, 2002,  https://web.stanford.edu/class/sts145/Library/LenoirLowood_TheatersOfWar.pdf.

2003

1. Henry Jenkins and Kurt Squire, Understanding Civilization II: The Pros and Cons of Using Computer Games in the Classroom, Computer Games, (September,2003), p.92.

2. Kenneth Chen, Civilization and Its Disk Contents, Radical Society, Vol.30, No.2(2003), pp. 95-107.

3. Patrick Crogan, "Gametime: History, Narrative, and Temporality in Combat Flight Simulator 2", Mark J. P. Wolf and Bernard Perron, eds., The Video Game Theory Reader, London and New York: Routledge, 2003, pp.275-302.

4. Shawn Miklaucic, "God Games and Governmentality: Civilization I and    Hypermediated Knowledge", Jack Z. Bratich, Jeremy Packer and Cameron McCarthy, Foucault, Cultural Studies, and Governmentality, New York: State University of New York Press, 2003, pp. 317-336.

5. Sybille Lammes, On the Border: Pleasures of Exploration and Colonial Mastery in Civilization Ⅲ Play the World, Proceedings of DiGRA 2003 Conference: Level Up, Utrecht: Utrecht University and Digital Games Research Association, 2003, pp.120-129.

6. Tom Taylor, Historical Simulations and the Future of the Historical Narrative, Journal of the Association for History and Computing, Vol.6, No. 2, September, 2003,  https://quod.lib.umich.edu/j/jahc/3310410.0006.203?rgn=main;view=fulltext,  2003-9, 2021-2-22.

2004

1. Kurt D. Squire, Replaying History: Learning World History through Playing Civilization II, Ph.D., Indiana University, 2004.

2. Dennis G. Charsky, Evaluation of the Effectiveness of  Integrating Concepts Maps and Computer Games to Teach Historical Understanding, Doctoral Dissertation, University of Northern Colorado, 2004.

2005

1. D.Machin and T. van Leeuwen, Computer Games as Political Discourse: The Case of Black Hawk Down, Journal of Language and Politics, Vol.4, No.1(2005), pp.119-141.

2. William Uricchio, "Simulation,History,and Computer Games", Joost Raessens and Jeffrey Goldstein eds, Handbook of Computer Game Studies, Massachusets: The MIT Press, 2005, pp.327-338.

2006

1. David B. Nieborg, Mods,Nay!Tournaments, Yay!-The Appropriation of Contemporary Game Culture by the U.S.Millitary, The Fibreculture Journal, Vol.8(2006) , https://eight.fibreculturejournal.org/fcj-051-mods-nay-tournaments-yay-the-appropriation-of-contemporary-game-culture-by-the-u-S-military/.

2. Jerome De Groot, Empathy and Enfranchisement: Popular Histories, Rethinking History, Vol.10, No.3(2006), pp.391-413.

3. Joost Raessens, Reality Play: Documentary Computer Games Beyond Fact and Fiction, Popular Communication: The International Journal of Media and Culture, Vol.4, No.3(2006), pp.213-224.

4. Kurt Squire, From Content to Context: Videogames as Designed Experience, Educational Researcher, Vol.35, No.8, pp.19-29.

5. Niall Ferguson, How to Win a War, New York Magazine, Oct.12, 2006, https://nymag.com/news/features/22787/.

6. Thomas Apperley, Virtual Unaustralia: Videogames and Australia's Colonial History, The Cultural Studies Association of Australasia's Annual Conference, 2006, https://www.academia.edu/385987/Virtual_UnAustralia_Videogames_and_Australias_colonial_history.

2007

1. Diane Carr, "The Trouble with Civilization", Barry Atkins and Tanya Krzywinska, eds., Videogame, Player, Text, Manchester and New York: Manchester Uiversity Press, 2007, pp.222-236.

2. Brian Rejact, Toward a Virtual Reenactment of History: Video Games and the Recreation of the Past, Rethinking History, Vol.11, No.3(September, 2007), pp.411-425.

3. Esther MacCallum-Stewart and Justin Parsler, Controversies: Historicising the Computer Game, Situated Play, Proceedings of DiGRA2007 Conference, pp.203-210.

4. Eva Kingsepp, Fighting Hyperreality with Hyperrealtiy: History and Death in World War II Digital Games, Games and Culture, Vol.2, No.4(October,2007), pp.366-375.

5. Kevin Schut, Strategic Simulations and Our Past: The Bias of Computer Games in the Presentation of History, Games and Culture, Vol.2, No.3 (July,2007), pp.213-235.

6. Trent Cruz, "It's Almost Too Intense:" Nostalgia and Authenticity in Call of Duty 2, The Journal of the Canadian Game Studies Association, Vol.1 No.1(2007), https://loading.journals.publicknowledgeproject.org/index.php/loading/article/view/7.

2008

1. Beth A. Dillon, Signifying the West: Colonialist Design in Age of Empire II: The WarChiefs, Computer Game Culture, Vol.2, No.1(2008), pp.129-144.

2. Harry J. Brown, Videogames and Education, New York and London: M. E. Sharpe, 2008, pp.117-35.

3. J. Pixel Wills, Cowboys and Silicon Gold Mines: Video Games of the American West, Pacific Historical Review, 77.2.2008, pp.273-303.

4. Matthew Jason Weise, Bioshock: A Critical  Historical Perspective, Eludamos, Journal for Computer Game Culture, Vol.2, No.1(2008), pp.151-155.

5. Matthew Thomson, Military Computer Games and the New American Militarism: What Computer Games Teach Us About War, University of Nottingham for the Degree of Doctor of Philosophy, 2008

6. Reichert Ramón, "Government-Games und Gouverntainment", Rolf F. Nohr and Serjoscha Wiemer, eds., Strategie Spielen: Medialität, Geschichte und Politik des Strategiespiels, LIT, 2008, pp.189-212.

7. James Campbell, "Just Less than Total War: Simulating World War I as Ludic Nostalgia", Z.Whalen and L. N. Taylor, Playing the Past: History and Nostalgia in Video Games, Nashville: Vanderbilt University Press, 2008, pp.183-200.

8. Tracy Fullerton, "Documentary Games: Putting the Player in the Path of History", Z.Whalen and L. N. Taylor, Playing the Past: History and Nostalgia in Video Games, Nashville: Vanderbilt University Press, 2008, pp.215-238.

2009

1. Annette Vowinckel, Past Futures: From Re-Enactment to the Simulation of History in Computer Games, Historical Social Research/Historische Sozialforshung, 2009, Vol.34, No. 2(2009), pp.322-332.

2. Cindy Poremba, Frames and Simulated Documents:Indexicality in Do cumentary Videogames, The Journal of the Canadian Game Studies Association, Vol.3, No.4, https://loading.journals.publicknowledgeproject.org/index.php/loading/article/view/61.

3. Claudio Fogu, Digitalizing Historical Consciousness, History and Theory, Vol.48, No.2 (May,2009), pp.103-121.

4. Filipe M. Penicheiro, History Reloaded: Perspectives on Historical  Based  Games, Brazilian Symposium on Games and Digital Entertainment, pp.52-56.

5. Gerald  A. Voorhees, I Play Therefore I Am: Sid Meier's Civilization, Turn-Based Strategy Games and the Cogito, Games and Culture, Vol.4,  No.3(July,2009), pp.254-275.

6. Jerome de Groot, Consuming History: Historians and Heritage in Contemporary Popular Culture, London and New York: Routledge, 2009.

7. Kevin Kee et al., Toward a Theory of Good History Through Gaming, The Canadian Historical Review, Vol.90, No.2(2009), pp.303-326.

8. Kevin Kee and John Bachynski, Outbreak: Lessons Learned from Developing a 'Hist ory Game", Vol.3, No.4 (2009), https://loading.journals.publicknowledgep roject.org/loading/index.php/loading/article/view/64/58.

2010

1. Cynthia Katherine Poremba, Real/Unreal: Crafting Actuality in the Documentary Videogame, Doctoral Humanities Program at Concordia University, 2010.

2. Gozda Dogramacilar, Play and History: Authenticity and Experience in Virtual Reconstructions and Video Games, Master of Science in Architecture of the University of Cincinnati, 2010.

3. Harrison Gish, Playing the Second World War: Call of Duty and the Telling of History, Eludamos, Journal for Computer Game Culture, Vol.4, No.2(2010), pp.167-180.

4. Jaimie Baron, Digital Historicism: Archival Footage, Digital Interface, and Historiographic Effects in Call of Duty: World at War, Eludamos, Journal for Computer Game  Culture, Vol.4, No.2(2010), pp.303-314.

5. Luke Brett Jacobs, An Analysis of Medal of Honor: Pacific Assault, Master of Arts in Screen and Media Studies, The University of Waikato, 2010.

6. Joel Penney, "No Better Way to 'Experience' World War II: Authenticity and Ideology in the Call of Duty and Medal of Honor Player Communities", Nina B. Huntemann and Matthew Thomas Payne, eds., Joystick Soldiers: The Politics of Play in Military Video Games, New York and London: Routledge, 2010, pp.191-205.

7. Rudolph Glitz, "Making World Historical: The Political Aesthetics of Sid Meier's Civilization Series", Ansgar Nünning, Vera Nünning and Birgit Neumann, eds., The Aesthetics and Politics of Cultural Worldmaking, Trier: WVT Wissenschaftlicher Verlag Trier, 2010, pp. 161-180.

8. Tanine Allison, The World WarⅡVideo Game: Adaption and Postmodern History, Literary Film Quarterly, Vol.38, No.3(July,2010), pp.183-193.

2011

1. Jaakko Suominen, Game Reviews as Tools in the Construction of Game Historical Awareness in Finland, 1984-2010: Case MikroBitti Magazine, Proceedings of DiGRA 2011 Conference: Think Design Play, pp.1-17.

2. Kevin Kee, Computerized History Games: Narrative Options, Simulation & Gaming, Vol.42, No.4(2011), pp.423-440.

3. Geoffrey M. Rockwell and Kevin Kee, The Leisure of Serious Game: A Dialgue, Game Studies, Vol.11, No.2(May,2011), https://gamestudies.org/1102/articles/geoffrey_rockwell_kevin_kee.

4. Stephanie Fisher, Playing with the World War II: A Small-Scale Study of Learning in Video Games, The Journal of the Canadian Game Studies Association, Vol.5, No.8(2011), pp.71-89.

2012

1. Adam Chapman, Privileging Form Over Content: Analysing Historical Videogames, Journal of Digital Humanities, Vol.1, No.2(Spring,2012), https://journalofdigitalhumanities.org/1-2/privileging-form-over-content-by-adam-chapman/.

2. Catia Ferreira, Memory and Heritage in Second Life: Recreating Lisbon in a Virtual World, Journal of Gaming & Virtual Worlds, Vol.4, No.1(Mar.,2012), pp.63-79.

3. Greg Gillespie and Darren Crouse, There and Back Again: Nostalgia, Art, and Ideology in Old-School Dungeons and Dragons, Games and Culture, Vol.7, No.6(2012), pp.441-470.

4. Jerremie Clyde, Howard Hopkins, Glenn Wilkinson, Beyond the "Historical" Simulation: Using Theories of History to Inform Scholarly Game Design, The Journal of the Canadian Game Studies Association, Vol.6, No.9 (January,2012), pp.3-16.

5. Rachel Wagner, First-Person Shooter Religion: Algorithmic Culture and Inter-Religious Encounter, Cross Currents, Vol.62, No.2(June, 2012), pp.181-203.

2013

1. Adam Chapman, The Great Game of History: An Analytical Approach to and Analysis of the Videogame as a Historical Form, Doctor Thesis, University of Hull, 2013.

2. Adam Chapman, Is Sid Meier's Civilization History, Rethinking History, Vol.17, No.3, pp. 312-332.

3. Alan F. Meades, Infectious Pleasures: Ethnographic Perspectives on the Production and Use of Illicit Videogame Modifications on the Call of Duty Franchise, Journal of Gaming & Virtual World, Vol.5, No.1(Mar.,2013), pp.59-76.

4. Benjamin Wai-Ming NG, "The Adaptation of Chinese History into Japanese Popular Culture: A Study of Japanese Manga, Animated Series and Video Games Based on The Romance of the Three Kingdoms", Roman Rosenbaum, ed., Manga and the Representation of Japanese History, London and New York: Routledge, 2013, pp.234-250.

5. Laura  Zucconi, Ethan Watrall, Hannah Ueno and Lisa Rosner, Pox and the City: Challenges in Writing a Digital History GameJack Dougherty and Kristen Nawrotzki, eds., Writing History in the Digital Age, Ann Arbor: University of Michigan Press, Digital culture books, 2013, pp.199-206.

6. Thomas Rabino, Jeux Vidéo et Histoire, Le Débat, No.177(Novembre-Décembre,2013), pp. 110-116.

7. Matthew Wilhelm Kapell and Andrew B. R. Elliott eds., Playing with the Past: Digital games and the Simulation of History, New York: Bloomsbury, 2013.

Part One: History as a Process

Rolfe Daus Peterson,Andrew Justin Miller, Sean Joseph Fedorko, The Same River Twice: Exploring  Historical Representation and the Value of  Simulation in the Total War, Civilization, and patrician Franchises, pp.33-48Daniel Reynolds, What is "Old"in Video Games?, pp.49-60.

Adam Chapman, Affording History: Civilization and the Ecological Approach, pp.61-74.

Part Two: History Written by the West

Emily Joy Bembeneck, Phantasm of Rome: Video Games and Cultural Identity, pp.77-90.

Rebecca Mir and Trevor Owens, Modeling  Indigenous Peoples: Unpacking Ideology in Sid Meier's Colonization, pp.91-106.

Joshua D. Holdenried with Nicolas Trepanier, Dominance and the Aztec Empire: Representations in Age of Empires I and Medieval II: Total War, pp.107-120.

Hyuk-Chan Kwon, Historical Novel Rivived: The Heyday of Romance of the Three Kingdoms Role-Playing Games, pp.121-134.

Kazumi Hasegawa, Falling in Love with History: Japaneses Girls'Otome Sexuality and Queering Historical Imagination, pp.135-150.

Part Three: User-Generated History

Andrew J. Salvati and Jonathan M. Bullinger, Selective Authenticity and the Playable Past, pp.153-168.

Josef Kostlbauer, The Strange Attraction of Simulation: Realism, Authenticity, Virtuality, pp.169-184.

Tom Apperley, Modding the  Historians'Code: Historical Verisimilitude and the Counterfactual Imagination, pp.185-198.

Gareth Crabtree, Modding as Digital Reenactment: A Case Study of the Battlefield Series, pp.199-212.

Part Four: The Politics of Representation

Douglas N. Dow, Historical Veneers: Anachronism, Simulation, and Art History in Assasin's Creed II, pp.215-232.

Andrew Wackerfuss, This Game of Sudden Death":Simulating Air Combat of the First World War,pp.233-246.

Clemens Reisner, The Reality Behind it All is Very True: Call of Duty: Black Ops and the Remembrance of the Cold War, pp.247-260.

Marcus Schulzke, Refighting the Cold War: Video Games and Speculative History, pp.261-276.

Part Five: Looking Back on the End of the World

William M. Knoblauch, Strategic Digital Defense: Video Games and Reagan's "Star Wars" Program, 1980-1987, pp.279-296.

Joseph A. November, Fallout and Yesterday's Impossible Tomorrow, pp.297-312.

Tom Cutterham, Irony and American Historical Consciousness in Fallout 3, pp.313-326.

Robert Mejia and Ryuta Komaki, The Historical Conception of Biohazard in Biohazard/Resident Evil, pp.327-342.

Erin Evans, The Struggle with Gnosis: Ancient Religion and Future Technology in the Xnoaga Series, pp.343-356.

Matthew Wilhelm Kapell and Andrew B. R. Elliott, Conclusion(s): Playing at True Myths, Engaging with Authentic Histories, pp.357-369.

2014

1. A.Martin Wainwright, Teaching Historical Theory through Video Games, The History Teacher, Vol.47, No.4(August,2014), pp.579-612.

2. Daniel T. Kline, ed., Digital Gaming Re-imagines the Middle Ages, London and New York: Routledge, 2014.

Amazon.com: Digital Gaming Re-imagines the Middle Ages (Routledge ...

Daniel T. Kline, Introduction: "All Your History Are Belong to Us": Digital Gaming Re-imagines the Middle Ages, pp.1-11.

Part I  Prehistory of Medieval Gaming

William J. White, The Right to Dream of the Middle Ages: Simulating the Medieval in Tabletop RPGs, pp.15-27.

Part II  Gaming Re-images Medieval Traditions

Candace Barrington and Timothy English, Best and Only Bulwark: How Epic Narrative Redeems Beowulf: The Game, pp.31-42.

Jason Pitruzzello, Systematizing Culture in Medievalism: Geography, Dynasty, Culture, and Imperialism  in Crusader Kings: Deus Vult, pp.43-52.

Gregory Fedorenko, The Portrayal of Medieval Warfare in Medieval: Total War and Medieval2: Total War, pp.53-66.

Angela Tenga, Gabriel Knight: A Twentieth-Century Chivalric Romance Hero, pp.67-77.

Part III Case Study  1-World  of Warcraft

Elysse T. Meredith, Coloring Tension: Medieval and Contemporary Concept in Classifying and Using Digital Objects in World of Warcraft, pp.81-92.

Kristin Noone and Jennifer Kavetsky, Sir Thomas Malory and the Death Knights of New Avalon: Imaging Medieval Identities in World of Warcraft, pp.93-106.

Jennifer C. Stone, Peter Kudenov and Teresa Combs, Accumulating Histories: A Social Practice Approach to Medievalism in High-Fantasy MMORPGs, pp.107-118.

Kim Wilkins, "Awesome Cleavage": The Genred Body in World of Warcraft, pp.119-129.

Part IV  Case  Study  2-Dante's Inferno

Bruno Lessard, The Game's Two Bodies, or the Fate of Figura in Dante's Inferno, pp.133-147.

Oliver Chadwick, Courtly Violence, Digital Play: Adapting Medieval Courtly Masculinities in Dante's Inferno, pp.148-161.

Timothy J. Welsh and Josh T. Sebastian, Shades of Dante:Virtual Bodies in Dante's Inferno, pp.162-174.

Angela Jane Weisl and Kevin J. Stevens, The Middle Ages in the Depths of Hell: Pedagogical Possibility and the Past in Dante's Inferno, pp.175-185.

Part V  Theoretical and Representational Issues in Medieval Gaming

Thomas Rowland, We Will Travel by Map: Maps as Narrative Spaces in Video Games and Medieval Texts, pp.189-201.

Michelle Dipietro, Author, Text, and Medievalism in The Elder Scrolls, pp.202-213.

Nick Webber, Technophilia and Technophobia in Online Medieval Fantasy Games, pp.214-226.

Harry J. Brown, The Consolation of Paranoia: Conspiracy, Epistemology,and the Templars in Assassin's Creed, Deus Ex, and Dragon Age, pp.227-239.

Part VI  Sociality and Social Media in Medieval Gaming

Serina Patterson, Casual Medieval Games, Interactivity, and Social Play in Social Network and Mobile Applications, pp.243-251.

3. Eva VRTAČIČ, The Grand Narrative of Video Games: Sid Meier's Civilization, TEORIJA IN PRAKSA, Vol.51, No.1(2014), pp.91-105.

4. Florian Kerschbaumer and Tobias Winnerling, eds., Frühe Neuzeit Im Videospiel, Bielefield: Transcript-Verl, 2014.

5. Stefan Donecker, Civilization Un Der Geist Des Jahres 1991, pp.269-288.

6. Harry Turtledove and Others, Europa Universalis IV: What If? The Anthology of Alternate History, Stockholm: Paradox Books, 2014.

7. Marco Antonio Rodriguez, From the Periphery to Center Stage: The Effects and Exploitation of the Other in Titus Andronicus and Assassin's Creed II, The Communication Review, Vol.17, No.3(2014), pp.245-255.

8. Mirt Komel, Orientalism in Assassin's Creed: Self-Orientalizing the Assassins from Forerunners of Modern Terrorism into Occidentalized Heroes, Tertija in Praksa, Vol.51, No. 1(2014), pp.71-90.

9. Pastplay: Teaching and Learning History with Technology.

10. Robert Houghton, It's What You Do with It That Counts: Factual Accuracy and Mech anical Accuracy in Crusader Kings II, The Public Medievalist,(30 September,2014), https://www.publicmedievalist.com/ckii-houghton/.

11. Tobias Winnerling, The Eternal Recurrence of All Bits: How Historicizing Video Game Series Transform Factual History into Affective Historicity, Eludamos: Journal for Computer Game Culture, Vol.8, No.1(2014), pp.151-170.

12. T. Winnerling and F. Kerschbaumer, Early Modernity and Video Games, Cambridge: Cambridge Scholars Publishing, 2014.

Early Modernity and Video Games

Florian Kerschbaumer and Tobias Winnerling, Introduction: The Devil is in the Details: Why Video Game Analysis is Such A Hard Work for Historians,and How We Nevertheless Try, pp.X-XX.

Section One: Methodology and Theory

Rolf Nohr, The Game is a Medium: The Game is a Message, pp.2-23.

Josef Köstlbauer, Do Computers Play History?, pp.24-37.

Adam Rowan Chapman, The History Beyond the Frame: Off-Screen Space in the Historical First-Person Shooter, pp.38-51.

René Schallegger, Homo Ex Machina?-Cyber-Renaissance and Transhumanism in Deus Ex: Human Revolution, pp.52-63.

Simon Maria Hassemer, Does History Play the Role of Storyline Historiographical Periodization as Theme in Video Game Series, pp.64-75.

Lutz Schröder, Research the Spinning Jenny, Gain+8%Wealth by Textile  Industries: The Transformation of Historiacl Technologies into the Virtual World of Empire: Total War, pp.76-90.

Marc Bonner, Construction as a Condition to Win: Depiction and Function of Early Modern Architecture and Urban Landscapes in Strategy and Economic Simulation Games, pp.91-104.

Stefan Donecker, Pharaoh Mao Zedong and the Musketeers of  Babylon: The Civilization Series between Primordialist Nationalism and Subversive Parody, pp.105-122.

Tim Raupach, Towards an Analysis of Strategies of Authenticity Production in World War II First-Person Shooter Games, pp.123-137.

2015

1. Adrienne Shaw, The Tyranny of Realism:Historical Accuracy and Politics of Representation in Assassin's Creed I, The Journal of the Canadian Game Studies Association, Vol.9, No.14(2015), pp.4-24.

2. Bertrand Lucat, Ideological Narratives of Play in Tropico 4 and Crusader King II, Proceedings of DiGRA2015: Diversity of Play: Games-Cultures-Identities, pp.1-15.

3. Bertrand Lucat and Mads Haahr, "What Makes a Successful Emergent Narrative: The Case of Crusader Kings IIHenrik Schoenau-Fog", Luis Emilio Bruni, Sandy Louchart and Sarune Baceviciute, eds., Interactive Storytelling: 8th International Conference on Interactive Digital Storytelling, London: Springer, 2015, pp.259-267.

4. Daniel Ante-Contreras, Bioshock's Paranoid States: The Gamer within a History of White Male Victimization, Journal of Gaming & Virtual World, Vol.7, No.3(Sep.,2015), pp.225-241.

5. Dawn Spring, Gaming History: Computer and Video Games as Historical Scholarship, Rethinking History,Vol.19, No.2(2015), pp.207-221.

6. David S. Heineman, Public Memory and Gamer Identity: Retrogaming as Nostalgia, Journal of Games Criticism, Vol.1, No.1(January,2014), https://gamescriticism. org/wp-content/uploads/2023/07/heineman-1-1.pdf.

7. Derek Fewster, The Witcher 3: A Wild and Modern Hunt to Medievalise Eastern and Northern Europe, Gamevironments, Vol.2(2015), pp.159-180.

8. Jason Begy, Board Games and the Construction of Cultural Memory, Games and Culture, Vol.12, No.7-8(2015), pp.1-15.

9. Robin J. S. Sloan, Videogames as Remediated Memories: Commodified Nostalgia and Hypperality in Far Cry 3: Bood Dragon and Gone Home, Games and Culture, Vol.10, No.6(2015), pp.525-550.

10. Sofia Pereira Garcia and Fernando Gómez Gonzalvo, La reconstrucción del paso del tiempo en el videojuego Sid Meier's Civilization IV. Una perspectiva educativa, LifePlay: Revista académica internacional sobre videojuegos, No.4(2015), pp.13-27.

11. Adam Chapman and Jonas Linderoth, "Exploring the Limits of Play: A Case Study of Representations of Nazism in Games Torill Elvira Mortensen", Jonas Linderoth and Ashley ML Brown, eds., The Dark Side of Game Play: Controversial Issue in Playful Environments, New York and London: Routledge, 2015, pp.137-153.

12. Alan Meades, Boosting, "Glitching and Modding Call of Duty: Assertive Dark-Play Manifestations, Communities, Pleasures, and Organic Resilience", Jonas Linderoth and Ashley ML Brown, eds., The Dark Side of Game Play: Controversial Issue in Playful Environments, New York and London: Routledge, 2015, pp.242-260.

13. Vincenzo Idone Cassone and Mattia Thibault, The HGR Framework: A Semiotic Approach to the Representation of History in Digital Games, Gamevironments, Vol.6(2016), pp.156-204.

14. 史旻昱:《游戏对文化的重构与传承——以游戏<三国志>为个案》,《新闻大学》2015 年第2期,第32-38页。

2016

1. A. Chapman, Digital Games as History: How Videogames Represent the Past and Offer Access to Historical Practice, London: Routledge, 2016.

2. Christos Sintoris, Nikoleta Yiannoutsou and Nikolaos Avouris, The Fortress of Monemvasia as Play-ground for a Location Based Game, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-6.

3. D. Saber and N. Webber, That is Our Call of Duty: Hegemony, History and Resistant Video Games in the Middle East, Media Culture & Society, 39.1.2016, pp.1-17.

4. Dan Golding, Lineages: Historicising the Videogame, Proceedings of It International Joint Conference of DiGRA and FDG(2016), pp.1-2.

5. Daniel Livingstone, Sandy Louchart and Stuart Jeffrey, Archaeological Storytelling in Games, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-8.

6. Daniela De Angeli and Eamonn O'Neill, Tell-A-Dyrham-Tale, a Storytelling Board Game, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-2.

7. Derek Fewster and Ylva Grufstedt, Introduction: Gamevironments of the  Past-A Broad Take on Games and History, Gameviroments, No.5(2016), pp.1-7.

8. Dom Ford, eXplore, eXpand, eXploit, eXterminate: Affective Writing of Postcolonial History and Education in Civilization V, Game Studies: The International Journal of Computer Game Research, Vol.16, No.2  (December,2016).

9. Edwige Lelievre, OFabulis and Versailles 1685: a Comparative Study of the Creation Process Behind Video Games on Historical Monuments, DiGRA/FDG Workshop on Playing with History: Games,Antiquity and History(2016), pp.1-11.

10. Elisabeta Toma and Cosima Rughinis, Playing with Herstory. Representing Femininity in Historical Video Games, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-4.

11. Erin McNeil, Ludic Spolia in Sid Meier's Civilization:Beyond Earth, Journal of Games Criticism, Vol.3, Bonus Issue A(July,2016), https://gamescriticism.org/wp-conten t/uploads/2023/07/mcneil-3-a.pdf.

12. Frank G. Bosman, The Poor Carpenter: Reinterpretating Christian Mythology in the Assassin's Creed Game Series, Gamevironments,  Vol.4(2016), pp.61-88.

13. Jeremiah McCall, Teaching History with Digital Historical Games: An Introduction to the Field and Best Practices, Simulation & Gaming, Vol.47, No.4(August,2016), pp.517-542.

14. Jonathan Westin and Ragner Hedlund, Polychronia-Negotiating the Popular Representation of a Common Past in Assassin's Creed, Journal of Gaming & Virtual Worlds, Vol.8, No.1(Mar.,2016), pp.3-20.

15. Manuel Alejandro Cruz Martinez, Playing with History's Otherness.A Framework for Exploring Historical Games, DiGRA/FDG Workshop on   Playing with History: Games, Antiquity and History(2016), pp.1-4.

16. Nick Webber, Public History, Game Communities and Historical Knowledge, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

17. Razvan Rughinis and Stefania Matei, History, Biography and Empathy in Inkle's 80 Days, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-8.

18. Richard Eberhardt and Kyrie Eleison Caldwell, The Challenges of Using Commercial-Off-the-Shelf Narrative Games in History Classrooms, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

19. Robert Whitaker, Backward Compatible: Games as a Public History Audience, Perspec tives on History, Vol.54, No.1(January,2016), https://www.historians.org/perspectives-article/backward-compatible-gamers-as-a-public-history-audience-january-2016/.

20. Scott Alan Metzger and Richard J. Paxton, Gaming History: A Framework for What Video Games Teach About the Past, Theory & Research in Social Education, Vol.44, No.4(2016), pp.532-564.

21. Sian Beavers and Elizabeth Fitzgerald, Perceptions, Perspectives and Practices: A Study of the Players of Historical Games, Proceedings of 1st International Joint Conference of DiGRA and FDG (2016).

22. Souvik Mukherjee, The SEGA and Microsoft History of India: The British Raj in Videogames, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

23. Souvik Mukherjee, Playing Subaltern: Video Games and Postcolonialism, Games and Culture, No.13(2016), pp.504-520.

24. Souvik Mukherjee, Video Games and Slavery, Transactions of the Digital Games Research Association, Vol.2, No.3(2016), pp.243-260.

2017

1. Andrew B. R. Elliott, Simulations and Simulacra:History in Video Games, Práticas da História, No.5(2017), pp.11-41.

2. Angus A. A. Mol, Aris Politopoulos and Csilla E. Ariese-Vandemeulebroucke, From the Stone Age to the Information Age: History and Heritage in Sid Meier's Civilization VI, Advances in Archaeological Practice 5, No.2(May,2017), pp.214-219.

3. D. Saber and N. Webber, This is Our Call of Duty: Hegemony, History and   Resistant Videogames in the Middle East, Media, Culture and Society, Vol.39, No.1(2017), pp.77-91.

4. F. Penate Dominguez, Heute Gehört uns die Galaxie' Music and Historical  Credibility in Wolfenstein: The New Order's Nazi Dystopia, Game, Vol.6(2017), pp.71-89.

5. Juan Luis Gonzalo Iglesia, Simulating History in Contemporary Board Games: The Case of the Spanish Civil War, Catalan Journal of Communiaction & Cultural Studies, Vol.8, No.1 (Apr.,2016), pp.143-158.

6. Julian Wolterink, Authentic Historical Imagery: A Suggested Approach for Medieval Videogames, Gamevironments, Vol.6(2017), pp.1-33.

7. Greg Koebel, Simulating the Ages of Man: Periodization in Civilization V and Europa Universalis IV, The Journal of the Canadian Game  Studies Association, Vol.10, No.17(2017), pp.60-76.

8. Nicolas de Zamaroczy, Are We What We Play? Global Politics in Historical Strategy Computer Games, International Studies Perspectives, Vol.18(2017), pp.155-174.

9. Soraya Murray, The Poetics of Form and the Politics of Identity in Assassin's Creed Ⅲ: Liberation, Kinephanos,Special Issue: Gender Issues in Video Games(July,2017), pp. 77-102.

10. Tom Van Nuenen, Touring the Animus: Assassin's Creed and Ludotopical Movement, The Journal of the Canadian Game Studies Association, Vol.10, No.17(2017), pp. 22-39.

11. Vinicius Marino Carvalho, Videogames as Tools for Social Science History, The Historian, Vol.79, No.4(Winter,2017), pp.794-819.

12. 高东旭:《网络游戏亟需重塑历史观》,《中国文艺评论》2017年第8期,第24-27页。

13. Adam Chapman, Anna Foka and Jonathan Westin, Introduction: What is Historical Game Studies? Rethinking History, Vol.21, No.3(2017),pp.358-371.

14. Emil Lundedal Hammar, Counter-Hegemonic Commemorative Play: Marginalized Pasts and the Politics of Memory in the Digital Game Assasin's Creed: Freedom Cry,  Rethinking History, Vol.21, No.3(2017),pp.372-395.

15. Johannes Koski, Reflections of  History: Representations of the Second World War in Valkyria Chronicles, Vol.21, No.3(2017), pp.396-414.

16. Tara Jane Copplestone, But That's Not Accurate: the Differing Perceptions of Accuracy in Cultural-Heritage Videogames between Creators, Consumers and Critics, Rethinking History, Vol.21, No.3(2017), pp.415-438.

2018

1. 赵天鹭:《“游戏史学”初探》,《中国公共史学集刊》2018年第一集,第78-104 页。

2. Cat Fergusson Baugh, Haptic Insights: Model Making as Historical Methodology, Theatre and Performance Design, Vol.4, No.1-2(2018),  pp.83-100.

3. Esther Wright, On the Promotional Context of Historical Video Games, Rethinking History, Vol.22, No.4(2018), pp.598-608.

4. J. McCall, Video Games as Participatory Public History, D. A. Dean, A  Companion to Public History, New Jersey: Wiley-Blackwell, 2018, pp.405-416.

5. Juan Francisco Jiménez and Alcázary Gerardo F. Rodriguez, eds., Videojuegos e Historia: Entre El Ocio y La Cultura, Murcia: Universidad de Murcia, 2018.

6. Marina Hassapopoulou, Playing with History: Collective Memory, National Trauma, and Dark Tourism in Virtual Reality Docugames, New Review of Film and Television Studies, Vol.16, No.4(2018), pp.365-392.

7. Marina Krcmar, Rory McGloin and Shu Scott Li, What is My Call of Duty?: Exploring the Importance of Player Experience in a First-Person  Shooter Video Game, Journal of Gaming & Virtual Worlds, Vol.10, No.2(Jun.,2018), pp.167-187.

8. Robert Houghton, World, Structure and Play: A Framework for Games as Historical Research Outputs, Tools, and Process, Práticas da História, No.7(2018), pp.11-43.

9. S. Harrer, Casual Empire: Video Games as Neocolonial Praxis, Open Library of Humanities, Vol.4, No.1(January,2018), pp.1-28.

10. Tom Apperley, Counterfactual Communities: Strategy Games, Paratexts and the Player's Experience of History, Open Library of Humanities, Vol.4, No.1(2018), https://olh.openlibhums.org/article/id/4472/.

2019

1. A. M. Wainwright, Virtual History: How Videogames Portray the Past, New York: Routledge, 2019.

2. A. Politopoulos, A. A. A. Boom, K. H. J. & C. E. Ariese, History is Our Playground: Action and Authenticity in Assassin's Creed Odyssey, Advances in  Archaeological Practice, Vol.7, No.3(2019), pp.317-323.

3. Holger Pötzsch and Vit Sisler, Playing Cultural Memory: Framing History in Call of Duty: Black Ops and Czechoslovakia 38-89: Assassination, Games and Culture, Vol.14, No.1(2019), pp.3-25.

4. James Andrew John Piggott, The Impact of Censorship on the “Historical” Video-Game, Reinvention: An International Journal of Undergraduate Research, Vol.12, No.2(2019), https://reinventionjournal.org/index.php/reinvention/article/view/360.

5. Jeffrey Lawler and Seean Smith, Creating a Playable History: Digital Games, Historical Skills and Learning, IDEAH, Vol.2, No.1(2019&2020).

6. Kirk Lundblade, How the West(was)Won: Unit Operations and Emergent Procedural Rhetorics of Colonialism in Europa Universalis IV, Journal of Gaming & Virtual Worlds, Vol.11, No.3(Oct.,2019), pp.251-270.

7. Lisa Gilbert, Assassin's Creed Reminds Us that History is Human Experience: Students' Senses of Empathy while Paying a Narrative Video Game, Theory & Research in  Social Education, Vol.47, No.1(2019), pp.119-128.

2020

1. Alexander von Lünen, Katherine J. Lewis, Benjamin Litherland and Pat Cullum, eds., Historia Ludens: the Playing Historian, London: Routledge, 2020.

Historia Ludens

Part 1: History of Gaming

Yannick Rochat, A Quantitative Study of Historical Video Games(1981-2015), pp.3-19.

Holly Nielsen, "The British Empire Would Gain New Strength from Nursery Floors": Depictions of Travel and Place in Nineteenth-Century British Board Games, pp.20-31.

Part 2: Gaming in History Education

Juan  Hiriart, Designing and Using Digital Games as Historical Learning Context for Primary School Classrooms, pp.37-53.

Katherine J. Lewis, Grand Theft Longboat: Using Video Games and Medievalism to Teach Medieval History, pp.54-70.

Alex Moseley, The Great History Conundrum: Could Immersive Games Enhance an Undergraduate Skills' Course?, pp.71-88.

Pat Cullum, Play as a Technique for History in Higher Education, pp.89-99.

Part 3: Computer Games and Public History

Luke Holmes, The Heritage Game, pp.105-118.

Robert Whitaker, Respawning the Past, pp.119-127.

Part 4: Reflections on Gaming and History

Adam Chapman, Playing Against the Past?: Representing the Play Element of Historical Cultures in Video Games, pp.133-154.

Andrew J. Salvati, Fantasies of Control:Modding for Ethnic Violence and Nazi Fetishism in Historical Strategy Games, pp.155-169.

Andrew B. R. Elliott, Charlemagne at the Battle of  Gettysburg: Video Games and the Middle Ages, pp.170-183.

Part 5: Fan Cultures of Historical Games

Nick Webber and E. Charlotte Stevens, History, Fandom, and Online Game Communities, pp.189-203.

Alexander von Lünen,  Ye Olde  FAQ: The Darklands Game, Immersiveness  and  Fan Fiction, pp.204-227.

Matt Barton and Arnold J. Hendrick, Arnold Hendrick on Darklands, pp.228-237.

Part 6: "Accuracy" in Computer Games

Lisa Traynor and Johathan Ferguson, Shooting for Accuracy: Historicity and   Video Gaming, pp.243-254.

Chris Kempshall, Modern Warfare: Call of Duty, Battlefield, and the World Wars, pp.255-266.

Eugen Pfister, "Man Spielt Nicht Mit Hakenkreuzen!": Imaginations of the Holocaust and Crimes Against Humantiy During World War II in Digital Games, pp.267-281.

2. Bryan Banker, Black Egyptians and White Greeks?: Historical Speculation and Rececraft in the Video Game Assassin's Creed: Origins, Humanities, Vol.9, No.4, https://www.mdpi.com/2076-0787/9/4/145.

3. Christian Rollinger, ed., Classical Antiquity in Video Games: Playing with the Ancient World, London: Bloomsbury Academic, 2020.

4.Clément Dussarps, Le Jeu Vidéo Médiateur de Savoirs En Histoire: L'exemple de Cru sader King 2 et Europa Universalis 4, Sciences Du Jeu, No.13(14 July,2020), https: //journals.openedition.org/sdj/2696.

5. Eugen Pfister, Martin Tschiggerl, "The Führer’s Facial Hair and Name can Also be Reinstated in the Virtual World": Taboos,Authenticity and the Second World War in Digital Game, Game, Vol.9(2020), pp.51-71.

6. Fede Penate Domínguez, Spanish Colonial Architecture as Selective Authenticity in Historical Digital Games, Culture & History, Vol.9, No.1(June,2020), https://cultureandhistory.revistas.csic.es/index.php/cultureandhistory/article/view/180/588.

7. Jaakko Suominen, Popular History: Historical Awareness of Digital Gaming in Finland from the 1980s to the 2010s, Proceedings of DiGRA 2020(2020), pp.1-14.

8. Jeremiah McCall, The Historical Problem Space Framework: Games as a Historical Medium, Game Studies: The International Journal of Computer Game Research,Vol.20,No.3(September,2020), https://gamestudies.org/2003/articles/mccall.

9. Kirk Lundblade, Civilizing Civilization(and beyond), FDG'20: Proceedings of the 15th International Conference on the Foundations of Digital Games, Bugibba, 2020, pp.1-9.

10. Martin Lorber and Felix Zimmermann, eds., History in Games - Contingencies of an Authentic Past, Bielefeld: Transcript, 2020.

Felix Zimmermann, Introduction: Approaching the Authenticites of Late Modernity, pp.9-21.

History as Told by the Game

Angela Schwarz, Quarry-Playground-Brand, Popular History in Video Games, pp.25-46.

Eugen Pfister, Why History in Digital Games Matters-Historical Authenticity as a Language for Ideological Myths, pp.47-72.

Nico Nolden, Social Practices of History in Digital Possibility Spaces: Historicity, Mediality, Performativity, Authenticity, pp.73-92.

Rüdiger Brandis, Tracing the Past with Digital Games: Historical Procedural Rhetorics, pp.93-115.

Authenticity in and of History

Angela Schwarz, History in Video Games and the Craze for the Authentic, pp.117-136.

Andrew B. R., Eliott & Mike Horswell, Crusading Icons: Medievalism and  Authenticity in Historical Digital Games, pp.137-156.

Andra Ivanescu, The Auteur and the 80s Mixtape: Popular Music and Authenticity in Metal Gear Solid V: The Phantom Pain, pp.157-178.

Lara Keilbart, Queer Authenticity in the History of Games: Experiences of Knowing, Performing and Portraying Queerness in Games throughout the Last Four Decades, pp.179-197.

The Politics of Authenticity

Aurelia Brandenburg, "If It's a Fantasy World,Why Bother Trying to Make It Realistic?" Constructing and Debating the Middle Ages of The Witcher 3: Wild Hunt, pp.201-220.

Tobias Winnerling, How to Get Away with Colonialism: Two Decades of Discussing the Anno Series, pp.221-236.

Angus A. A., Mol, Toying with History: Counterplay, Counterfactuals, and the Control of the Past, pp.237-258.

Jörg Friedrich, You Do Have Responsibility! How Games Trivialize Fascism, Why This Should Concern Us and How We could Change It, pp.259-273.

11. Samuel McCready, Re-Thinking History Teaching: Historical Making and   Learning in Digital Culture, Proceedings of DiGRA 2020(2020).

12. Regina Seiwald, Play Ameica Great Again: Manifestations of Americanness in Cold War Themed Video Games, Gamevironments, Vol.13(2020), pp.223-256.

13. Ruth Garcia Martín, Begona Cadinanos Martinez and Pablo Martín Dominguez, The Face of Authority through Sid Meier's Civilization Series, Gamevironments, Vol.13(2020), pp.139-173.

14. 王昊:《历史、现在与未来:数字游戏档案的社会记忆功能——以Sid  Meier's  Civilization 为例》,《兰台世界》2020年第4期,第24-29页。

15. A. Denning, Deep Play? Video Games and the Historical Imaginary, AHR, Vol.126, No.1 (March,2021), pp.180-198.

2021

1. A. Hartman, R. Tulloch and H. Young, Video Games as Public History: Archives, Empathy and Affinity, Game Studies, Vol.21, No.4(December,2021), https://gamestudies.org/2104/articles/hartman_tulloch_young.

2. A. Spanos, Games of History: Games and Games as Historical Sources, London: Routledge, 2021.

3. Alexander Simons, Isabell Wohlgenannt, Markus Weinmann and Stefan Fleischer, Good Gamers, Good Managers? A Proof-of-Concept Study with Sid-Meier's Civilization, Review of Managerial Science, Vol.15(2021), pp.957-990.

4. Alyssa Goldstein Sepinwall, Slave Revolt on Screen: The Haitian Revolution in Film and Video Games, University Press of Mississippi, 2021.

5. Andrew P. Young, The Limits of Memory in Disavowed: Interference, Military Execution, and the Dishonored Dead, Games and Culture, Vol.16, No.7(2021), pp.932-946.

6. Angus Mol and Aris Politopoulos, Persia's Victory, Near Eastern Archaeology, Vol.84, No. 1(March,2021), pp.44-51.

7. Aris Politopoulos and Angus Mol, Video Games as Concepts and Experiences of the Past, Erik Malcolm Champion, ed., Virtual Heritage: A Guide, Ubiquity Press, 2021.

8. Christian Casey, Assassin's Creed Origins, Near Eastern Archaeology, Vol.84, No.1 (March,2021), pp.71-78.

9. C. P. Magra, Review of Assassin's Creed IV: Black Flag, AHR, 126.1.2021。

10. Eve Stirling, Actual History Doesn't Take Place: Digital Gaming, Accracy and Authenticity, Game Studies, Vol.21, No.1.

11. Felipe Augusto Ribeiro, Uma Teoria Digital Do Feudalismo: Dinastia, Poder, Vassalagem e Estado no Game Crusader Kings(2012-2020), Medievalia, Vol.53, No.1(19 May,2021), pp.191-219.

12. J. Bazile, Review of Assassin's Creed: Freedom Cry, The American Historical Review, Vol.126, Issue1, 2021, pp.217-219.

13. Jakub Sindelar, "Video-Gamers as Recipients and Creators of Public History: Let’s Play Videos as Public History", Joanna Wojdon and Dorota Wisniewska, eds., Public in Public History, New York and London: Routledge, 2022, pp.180-198.

14. John Herman, A Review of Assassin's Creed: Valhalla's Sensationalized History, Gamevironments, Vol.14(2021), pp.257-262.

15. John Majewski, What Do Players Learn  from Video Games? Historical  Analysis and Sid Meier's Civilization, The Public Historian, Vol.43, No.1(2021), pp.62-81.

16. Robert Houghton,If You're Going to be the King,You'd Better Damn Well  Act Like the King, Karl Alvestad and Robert Houghton, The Middle Ages in Modern Culture: History and Authenticity in Contemporary  Medievalism, I. B. Tauris, 2021, pp.186-210.

17. K. Lundblade, Crowning Achievements: A Historioludic Analysis of the   Achievement Metagame in Historical Simulation Games, Proceedings of the 16ᵗ International Conference on the Foundations of Digital Games, 2021.

18. L. NA, Playing the Past: Historical Video Games as Participatory Public History in China, Convergence, Vol.27, Issue3, 2021, pp.746-767.

19. M. D. Hattem, Review of Assassin's Creed III, The American Historical Review, Vol.126, Issue1, 2021, pp.214-216.

20. M. Steenbakker, A Power Shrouded in Petticoats and Lace: The Representation of Gender Roles in Assassin's Creed Ⅲ: Liberation, New Horizons in English Studies, Vol.6, No.1(2021), pp.92-110.

21. Matthew Winter, Beyond Tomb and Relic, Near Eastern Archaeology, Vol.84, No.1 (March,2021), pp.12-21.

22. Megan Ward, Ghosts, Spooks, and Martyrs: Historical Hauntings in Tom Clancy's Ghost Recon Wildlands, Gamevironments, Vol.14 (2021), pp.85-118.

23. Na Li, Playing the Past: Historical Video Games as Participatory Public History in China, Convergence: The International Journal of Research into New Media Technologies, Vol.27, No.3(2021), pp.746-767.

24. Perrine Poiron, Assassin's Creed Origins Discovery Tour, Near Eastern Archaeology, Vol.84, No.1(March,2021), pp.79-85.

25. R. Clare, Ancient Greece and Rome in Videogames: Representation, Play, Transmedia, London: Bloomsbury Academic, 2021.

26. R. Fordyce, Play, History and Politics: Conceiving Futures beyond Empire, Games and Culture, Vol.16, No.3(2021), pp.294-304.

27. R. Loban, Europa Universalis IV and Deep Learning Historical Accuracy, Counterfactual Themes, The Journal of Canadian Game Studies  Association, Vol.14, No.24(2021), pp.26-47.

28. Rhett Loban, Europa Universalis IV and Deep Learning: Historical Accuracy, Counterfactuals and Historical Themes, The Journal of the  Canadian Game Studies Association, Vol.14, No.24(2021), pp.26-47.

29. Robert Houghton, ed., Playing the Crusades, London: Routledge,2021.

Playing the Crusades

Robert Houghton, Introduction:Crusaders and Crusaing in Modern Games, pp.1-11.

Roland Wenkus, A Sacred Task, No Cross Required: the Image of Crusading in Computer Gaming-Related Non-Christian Science Fiction Universes, pp.12-29.

Katherine J. Lewis, I’m not Responsible for the Man You are!: Crusading and Masculinities in Dante's  Inferno, pp.30-52.

Oana-Alexandra Chirila, Show This Fool Knight What It is to Have No Fear: Freedom and Oppression in Assasin's Creeed (2007), pp.53-70.

Robert Houghton, Crusader Kings Too? (Mis) Representations of the Crusaders in Grand Strategy Games, pp.71-92.

Andreas Korber, Johannes Meyer-Hamme, and Robert Houghton, Learning    to Think Historically: Some Theoretical Challenges when Playing the Crusaders, pp.93-110.

30. Robert Houghton, History Games for Boys? Gender, Genre and the Self-Perceived Impact of Historical Games on Undergraduate Historians, Gamevironments, Vol.14(2021), pp.1-49.

31. Samuel Calvin Paul McCready, Playing and Making History: How Game Design and Gameplay Afford Opportunities for a Critical Engagement with the Past, Graduate Program in Communication and Culture, York University, 2021.

32. Souvik Mukherjee, Crab-Rangoons in Kyrat: (Re)Writing South-Asian History in Far Cry 4, Games and Culture, Vol.16, No.8(2021), pp.1065-1086.

33. Tine Rassalle, Archaeogaming, Near Eastern Archaeology, Vol.84, No.1(March,2021), pp.4-11.

34. Video Games Reviews: Introductions, The American Historical Review, Vol.126, Issue1, 2021, p.214.

35. Ylva Grufstedt, Counterfactual History and Game Design Practice in Digital Strategy Games, Ennen Ja Nyt: Historian Tietosanomat, No.2(2021), pp.86-91.

2022

1. Andrés Bijsterveld Munoz, National Identity in Historical Video Games: An Analysis of How Civilization V Represents the Past, Nations and Nationalism, Vol.28, No.4(Oct.,2022), pp.1311-1325.

2. C. HOgsbjerg, Review of Alyssa Goldstein Sepinwall, Slave Revolt on Screen: the Haitian Revolution in Film and Video Games, The American Historical Review, Vol.127, Issue.3, 2022, pp.1503-1504.

3. Claire Stocks and Barbara Birley, Gaming and Hadrian's Wall: A Future of Digital Possibilities, Marta Albeti and Katie Mountain, eds., Hadrian's Wall: Exploring Its Past  to Protect Its Future, Oxford: Archaeopress, 2022, pp.92-99.

4. Olaf Kühne, Representations of Landscape in the Strategy Game Civilization Dennis Edler, Olaf Kühne and Corinna Jenal, eds., The Social Construction of Landscapes in Europe Games, Wiesbaden: Springer VS, 2022, pp.261-272.

5. Dmitriy A.Belyaev & Ulyana P. Belyaeva, Historical Video Games in the Context of Public History: Strategies for Reconstruction, Deconstruction and Politization of History, Galactica Media: Journal of Media Studies, Vol.1(2022), pp.51-70.

6. Estrid Sorensen and Jan Schank, Categorizations of World War II in Videogames, Eludamos, Journal for Computer Game Culture, Vol.13, No.1(2022), pp.81-110.

7. F. Jankowski, Playing(Against) the Heritage: Absolutism and the French Revolution in French Digital Games before 2000, Games and Culture, Vol.17, No.6(2022), pp.843-854.

8. Ian Williams and Samuel Tobin, The Practice of Oldhammer: Re-Membering a Past Through Craft and Play, Games and Culture, Vol.17, No.4(2022), pp.576-592.

9. Jacob Mertens, Broken Games and the Perpetual Update Culture: Revising Failure with Ubisoft's Assassin's Creed Unity, Games and Culture, Vol.17, No.1(2022), pp.70-88.

10. Jacqueline Burgess and Christian Jones, Exploring Player Understandings of Historical Accuracy and Historical Authenticity in Video Games, Games and Culture, Vol.17, No.5(2022), pp.816-835.

11. James Coltrain, Historians and Video Games: How the Profession Can Better Engage in Play, The Journal of American History, Jeremiah McCall, Gaming the Past: Using Video Games to Teach Secondary History, New York: Routledge, 2022.

12. Joanna Kaniewska, The Moon, the Play and the End of History: A Study of   Lunar Temporality in Cyberpunk 2077, Journal of Gaming & Virtual Worlds, Vol.14, Issue Cyberpunk 2077(Apr.,2022), pp.7-25.

13. Jorn Weines, Exploring Fishery History in Game Form: "Never Again April 18!", Rethinking History, Vol.26, No.1(2022), pp.1-31.

14. Lawrence May, Virtual Heterotopias and the Contested Histories of Kowloon Walled City, Games and Culture, Vol.17, No.6(2022), pp.885-900.

15. Nico Nolden and Eugen Pfister, Gaming and Digital Public History, Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin: De Gruyter,  2022, pp.309-316.

16. Jere Kyyrö, "Particulariying the Universal: Medievalist Constructions of Cultural and Religious Difference in Crusader Kings II", Reima Välimäki, ed., Medievalism in Finland and Russia: Twentieth and Twenty-First Century Aspects, London: Bloomsbury Academic, 2022, pp.137-151.

17. David Dean, "Living History: Performing the Past", Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin/Boston: Walter de Gruyter, 2022, pp.349-358.

18. Yannick Rochat, "History and Video Games, Serge Noiret", Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin/Boston: Walter de Gruyter, 2022, pp.475-484.

19. Siyu Yao and Yumin Chen, Reconstructing History and Culture in Game Discourse: A Linguistic Analysis of Heroic Stories in Honor of Kings, Games and Culture, Vol.17, No.7-8(2022), pp.977-996.

20. Souvik Mukherjee, Pathfinding Affect: Reading Maps, Bodies and the Affective in Colonial Videogames, Parallax, Vol.28, No.2(2022), pp.166-178.

21. Yannick Rochat, "History and Games", Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of  Digital Public History, Berlin: De Gruyter, 2022, pp.475-484.

22. Ylvq Grufstedt, Shaping the Past: Counterfactual History and Game Design Practice in Digital Strategy Games, Berlin: De Gruyter, 2022.

23. Games with History(特刊), Heritage,and Provocation, Games and Culture, Vol.17, Issue 6, 2022.

24. Adam F. Bierstedt, Livestreaming History: The Streamer-Historian and Historical Games Outreach, Games and Culture, Vol.17, No.6(September,2022), pp.871-884.

25. Filip Jankowski, Playing(Against) the Heritage: Absolutism and the French Revolution in French Digital Revolution in French Digital Games Before 2000, Games and Culture, Vol.17, No.6(September,2022), pp.846-854.

26. Julien A. Bazile, An “Alternative to the Pen”? Perspectives for the Design of Historiographical Videogames, Games and Culture, Vol.17, No.6(September,2022), pp. 855-870.

27. Lawrence May, Virtual Heterotopias and the Contested Histories of  Kowloon Walled City, Games and Culture, Vol.17, No.6(September,2022), pp.885-900.

28. M. Mochocki, Editorial: Games with History, Heritage, and Provocation, Games and Culture, Vol.17, No.6(September,2022), pp.839-842.

29. Rhett Loban, I Never Asked for It, But I Got It and Now I Feel that My Knowled ge about History is Even Greater!: Play, Encounter and Research in Europa Universalis IV, Journal of Games Criticism, Vol.5, No.1(2022), https://gamescriticism.org/wp -content/uploads/2023/07/loban-5-3.pdf.

30. Richard Cole, Mashing Up History and Heritage in Assasin's Creed Odyssey, Games and Culture, Vol.17, No.6(September,2022), pp.915-928.

31. Vít Šisler, Holger Pötzsch, Tereza Hannemann, Jaroslav Cuhra and Jaroslav Pinkas, History, Heritage, and Memory in Video Games: Approaching the Past in Svoboda 1945: Liberation and Train to Sachsenhausen, Games and Culture, Vol.17, No.6(September,2022), pp. 901-914.

2023

1. Andrei Zanescu, Making Antiquity Resonate in Assassin's Creed: Origins,Odyssey & Articulated Resonance, Proceedings of DiGRA2023(2023).

2. Brian T. Erickson, Playing with the Past: The Importance of Historical Video Games for the Field of History, Master of Arts in History, University of Houston, 2023.

3. Iain Donald, Nick Webber and Esther Wright, Video Games, Historical Representation and Soft Power, Journal of Gaming & Virtual Worlds, Vol.15, Issue China and the World: Navigating Video Game Localization and Copyright Challenges(Jun.,2023), pp.105-127.

4. Katrina HB Keefer, Becoming Bayek: Blackness, Egypt, and Identity in Assassin's Creed: Origins, Games and Culture, Vol.18, No.7(Nov.,2023), pp.940-958.

5. Krista Bonello Rutter Giappone, Stefano Caselli, Local Practices in Digital Gaming Heritage: An Interview with Maurizio Banavage and Andrea Dresseno, Journal of Games Criticism, Vol.5, No.1(April,2023), https://gamescriticism.org/wp-content/uploads/ 2023/07/giappone-caselli-5-1.pdf.

6. Nick Webber, The Past as (Para)text-Relating Histories of Game Experience to Games as Texts, Proceedings of DiGRA 2023(2023).

7. Robert Houghton, ed., Playing the Middle Ages: Pitfalls and Potential in Modern Games, London and New York and Oxford and New Delhi and Sydney: Bloomsbury Academy, 2023.

Playing the Middle Ages cover

Robert Houghton, The Middle Ages in Modern Games: An Adolescent Field, pp.1-28.

Ylva Grufstedt, Unbending Medievalisms-Finding Counterfactual History in Sandbox Games Set in the Middle Ages, pp.29-50.

Mariana Lopez, Playing the Sonic Past: Reflections on Sound in Medieval-Themed Video Games, pp.51-74.

Karen M. Cook, Medieval Sounds, Sounding Medieval, pp.75-88.

Gordon Smith, All on Board for the Crusades, pp.89-102.

Liam McLeod, Subverting the Valiant Crusader:The Sarafan in the Legacy of Kain:Soul Reaver Series, pp.103-130.

Adam Bierstedt, Making Friendships, Breaking Friendships: Exploring Viking-Age Social Roles through Player Strategy in A Feast for Odin, pp.130-148.

Robert Houghton, Abandoning Civilization: Medieval Rulership in Crusader Kings I, Reigns and Mount & Blade: Warband, pp.149-166.

Jonathan Bloch, Joan of Arc, the Meme of Orleans: The Playful Liberties Taken with History by the Age of Empires I Gaming Community, pp.167-182.

Neil Nagwekar, On the Postcolonial Analysis of "Indians" in Age of Empires II: A Theory of “Ethical Programs” Behind Postcolonial Criticisms of Video Games, pp.183-194.

Johansen Quijano, Virtually(de) Colonized: Racial Identity and Colonialism in the Middle Ages and as Depicted in Kingdom Come: Deliverance, A Plague Tale: Innocence, The Elder Scrolls, and Black Desert Online, pp.195-210.

Eldegard Minderbo, Representations of Medieval Gender Archetypes in Fantasy Role-Playing Games, pp.211-226.

Patrick Butler, Ashen, Hollow, Cursed: Fragile Knighthood in the Dark Souls Series and Its Medieval Antecedents, pp.227-244.

Blair Apgar, Matilda of Canossa and Crusader Kings II: (Papal) Warrior Princess, pp.245-264.

8. Stefano Caselli, Krista Bonello Rutter Giappone, Tomasz Z.Majkowski, Ten Years of Historical Game Studies, Game, Vol.10(2023), pp.29-50.

9. Tara Sewell-Lasater, Eternally Maglined as the Power-Hungry Femme Fatale: Kleopatra VII in Assasin's Creed Origins and Other Video Games, Abraham I, Fernández Pichel, ed., How Pharaohs Became Media Stars: Ancient Egypt and Popular Culture, Oxford: Archaeopress Publishing, 2023, pp.185-204.

2024

1. 卢雅怀:《历史游戏研究: 作为数字史学发展新方向》,《数字人文研究》2024年第2期,第3-26页。

2. Benjamin Hanussek, Ubisoft's Notre-Dame: Digital Gaming for Material Heritage's Sake, The Journal of the Canadian  Game Studies Association, Vol.16, No.26(Spring, 2024), pp.1-15.

3. D. Reid, Game Development as Public History: Practical Reflections on Making a Video Game for Historical Public Engagement, The Public Historian, Vol.46, No.1(2024), pp.74-107.

4. Conor Heffernan, It's in the Game: FIFA Videogames and the Misuse of History, Sport in History, Vol.44, No.4(2024), pp.590-611.

5. Dragos M. Obreja, She was Using Bayek for Sex: Hegemonic Feminity  and the Identity Play in Assasin's Creed Origins, Feminist Media Studies, Latest Articles(2024), pp.1-15.

6. Kirk M Lundblade, Gods, Kings, and Historians: History and the Dual Diegesis of Crusader Kings in the Assemblage of Play, Proceedings of DiGRA2024(2024).

7. Hanjun Shi, Game as History: How Does Pentiment Recreate a Vivid Sixteenth-Century Central European Everyday Life?, Proceedings of DiGRA2024(2024).

8. Michal Dawid Zmuda, Historizing Remediation: How Games Represent History through Media, Rethinking History, Vol.28, No.1(2024), pp.130-153.

9. Nicholas David Bowman, Alexander Vandewalle, Rowan Daneels, Yoon Lee, and Siyang Chen, Animating a Plausible Past: Perceived Realism and   Sense of Place Influence Entertainment of and Tourism Intentions From Historical Video Games, Games and Culture, Vol.19, No.3(2024), pp.286-308.

10. Robert Houghton, The Middle Ages in Computer Games: Ludic Approaches to the Medieval and Medievalism, Cambridge: D. S. Brewer, 2024.

11. Ömer Kemal Buhari, Dates, Carpets, and Pearl Necklaces: The Case of Anno  1404s Exotic Orientalism, Games and Culture, Vol.19, No.2(2024), pp.139-157.

12. Pieter J. B. J. Van den Heede, Replaying Wartime Résistence? Studying Ludic Memory-Making in the Open World Game The Saboteur, Games and Culture, Vol.19, No.2 (2024), pp.178-198.

2025

1. Bard Swallow, High Fantasy RPGs and the Materiality of the Medieval Book, Games and Culture, Vol.20, No.5(2025), pp.657-668.

2. Cahit Mete Oguz, The Byzantine Army in Video Games: Common Misconceptions Shaping Popular Perceptions, Gamevironments, Vol.23(2025), pp.1-36.

3. Christopher McMahon, Nerfing My Religion: A Cognitive Mapping of Faiths in Crusader Kings II and Europa Universalis IV, Gamevironments, Vol.22(2025), pp.22-57.

4. Li Na, The Specter of the Virtual: Historical Video Games as Complex Public History, Digital Scholarship in the Humanities (2025).

5. Mauro Mola, Playing World War II: Designing a Simulation Game on the Resistance in Turin in Collaboration with the Historical Archive, Proceedings of DiGRA 2025.

6. Robon Scarassati Bello, The Problem of Memory in the Assassin's Creed Series(2007-2020), Games and Culture, Vol.20, No.3(2025), pp.298-315.

7. Stefania Matei, The Technological Mediation of Collective Memory  Through Historical Video Games, Games and Culture, Vol.20, No.4(2025), pp.477-498.

8. 梁亦昆:《游戏如何讲述历史?数字游戏中的历史演进与现实映射》,《学习与实践》2025年第3期,第131-139页。

9. 梁亦昆:《数字游戏的历史观问题需引起关注》,《历史评论》2025年第3期,第109-110页。

10. 欧阳敏:《历史模拟类电子游戏如何构建玩家的文化记忆》,《数字出版研究》2025 年第4期,第110-120页。

11. 庞昊:《历史游戏<文明7>与三阶段的人类文明史分期》,《数字人文研究》2025年第2期,第16-30页。

12. 许伟旭:《跨媒介·游戏化·历史寓言:<唐探1990>的新主流电影工业美学实践》, 《视听》2025年第19期,第64-68页。

13. 郑汉、石浩铮、肖谦、刘家豪:《从历史再现到数字共鸣:文化遗产元素在游戏中的传播机制研究》,《全球传媒学刊》2025年第5期,第54~71页。

2026

1. Lina Eklund and Andrei Zanescu, Times They Are A-Changin'? Evolving Representations of Women in Assassin's Creed Franchise, Games and Culture, Vol.21, No.2(2026), pp.192-212.

2. Jessica Iolanda Costa Bispo, A Contemporary Take on Victorian Lunacy: Representati ons of the Asylum in the Neo-Victorian Video Game Alice: Madness Returns, Journal of Games Criticism, Vol.6, No.1(2026), https://gamescriticism.org/wp-content/upload s/2025/11/bispo-6-1.pdf.

3. 曹文婧:《以图为媒:UGC游戏地图对重大历史事件的记忆建构》,《传媒论坛》2026年第2期,第25-27页。

图片

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

摘要征集5月10日截止|“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)会议通知(第二号)

2026-05-02 12:12 北京

该会议预告转自揆古察今科史哲公众号时间:2026年7月31日-8月3日地点:内蒙古师范大学 当前,人工智

该会议预告转自揆古察今科史哲公众号

时间:2026年7月31日-8月3日

地点:内蒙古师范大学

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

一、 会议议题

包括但不限于:

1.典籍重光:科技古籍与多民族文献的智慧化整理

2.时空重构:GIS与时空大数据驱动的文明演进研究

3.协智重塑:多智能体与具身智能的人文社会仿真

4.谱系重绘:知识图谱与智能注释驱动的知识重组

5.记忆重述:AIGC赋能下的文化遗产与艺术创新

6.文脉重析:计量方法与主题模型的文本深度挖掘

7.伦理重思:数字人文中的算法批判与负责任创新

8.素养重育:数字人文课程体系与跨学科人才培养

9.数字人文学科建设

二、 会议信息

1.会议时间:

2026年7月31日至2026年8月3日

2.会议地点:

内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

3.会议注册:

本次会议将于2026年6月开放注册报名。

注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

三、 征文征集

1.会议征文对象为数字人文相关专业的专家、学者与在读学生。

2.论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3.征文分为两轮,第一轮为论文摘要和海报征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

(2)海报需以PPT格式制作,页面设置为90cm*120cm,纵向布局。

(3)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

4.组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5.论文提交邮箱:20250051@imnu.edu.cn。邮件标题格式为“CDH2026论文摘要/全文-姓名-单位”。

6.摘要提交截止时间:2026年5月10日

摘要录用通知时间:2026年5月30日

论文全文提交截止时间:2026年6月30日

四、 项目征集

1.本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2.所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3.请将报名表和相关附件压缩,以“CDH2026项目-项目名称”命名,发送至邮箱20250051@imnu.edu.cn。

4.项目征集截止时间:2026年5月30日

五、 会议组织

1.主办单位

中国索引学会

内蒙古师范大学

2.承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

3.协办单位(按笔画顺序排列)

IMR Press

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海财经大学“中文+数智经济”研究中心

上海财经大学国际文化交流学院

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

山西数字人文研究院

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

中山大学信息管理学院

中山大学数字人文实验室

中山大学数字人文联合研究院

中国人民大学数字人文研究院

中国社会科学院大学数字史学研究中心

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

东华大学纺织遗产与数字人文实验室

北京大学数字人文研究中心

北京师范大学文理学院中文系

北京师范大学珠海校区图书馆数字人文中心

电子科技大学数字文化与传媒研究中心

兰州理工大学文学院

华中科技大学汉籍数字化实验室

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

启元实验室战略研究中心

武汉大学文化遗产智能实验室

武汉大学数字人文研究中心

南京大学中华文明数智创新实验室

南京大学高研院数字人文创研中心

南京师范大学语言大数据与计算人文研究中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

首都师范大学初等教育学院

清华大学中国古典文献研究中心

淮阴师范学院文学院

湖北中医药大学医学人文学院

湖南女子学院文学与传播学院

(持续更新中)

4.媒体支持(按笔画顺序排列)

《Knowledge Organization》

《中国数字人文》

《古籍数字人文》

《全国报刊索引》

《南通大学学报(社会科学版)》

《信息与管理研究》

《烟台大学学报(哲学社会科学版)》

《数字人文》

《数字人文研究》

「DH数字人文」公众号

「DH数字人文动态」公众号

「IMR 图书情报学」公众号

「SHNU 数字人文」公众号

「三明学院学报」公众号

「山东大学」公众号

「广东省国学学会」公众号

「比特人文」公众号

「中国索引学会」公众号

「古代汉语信息处理」公众号

「立行数字人文」公众号

「全国报刊索引」公众号

「京狮人文DH」公众号

「科技古籍整理研究所」公众号

「域外汉籍与汉学研究」公众号

「揆古察今科史哲」公众号

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

AI & Innovation (《人工智能与创新》)

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

广东财经大学《智能高教》

社科大数字史学实验室

南京大学中华文明数智创新实验室

(持续更新中)

有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

图片

六、 会议联络

1.会议邮箱:20250051@imnu.edu.cn

2.会务咨询:周老师 13191432051/18852850582(微信同号)

附件

2026年中国数字人文年会项目报名表

CDH2026论文格式规范与要求

阅读原文

跳转微信打开

  •  

从探听“修辞回声”走向数字文学史——以定量分析松尾芭蕉在日本近代的接受为例

原创 日比嘉高、江晖 2026-04-24 09:01 北京

数字人文; 接受研究; 松尾芭蕉; 近代俳句; 正冈子规

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:日比嘉高,江晖从探听“修辞回声”走向数字文学史——  以定量分析松尾芭蕉在日本近代的接受为例[J].数字人文研究,2025,5(4):99-117.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

从探听“修辞回声”走向数字文学史

——以定量分析松尾芭蕉在日本近代的接受为例

摘 要  研究旨在通过对近代俳句中松尾芭蕉的接受情况进行定量分析,探索数字人文方法在文学史研究中的潜力。利用日本国立国会图书馆的数字收藏,统计了明治至昭和战前期间文献中芭蕉俳句的引用频率,并运用Jaccard系数对明治、大正、昭和战前期的大规模俳句集进行了相似性分析。研究发现,随着时代变迁,芭蕉对俳句的影响逐渐降低,而以芭蕉批评者著称的正冈子规的俳句却比明治时期一般俳句更接近芭蕉的风格。可见计算机定量分析能够捕捉人类难以察觉的表达差异,提取出人类和时代的“无意识修辞”。数字人文方法能够揭示传统研究难以触及的深层规律,为“数字文学史”的构建提供新路径。

关键词   数字人文;接受研究;松尾芭蕉;近代俳句;正冈子规

作者简介   日比嘉高,名古屋大学人文学研究科教授;江晖(译者,通讯作者),中山大学外国语学院副教授,Email:jianghui6@mail.sysu.edu.cn。

0  文学作品接受研究中的定性研究和定量研究

数字人文(Digital Humanities)是否能够为文学的接受研究带来革新?如今,全世界每天都在产生海量的数据,其中包含大量与文学相关的内容。有面向业余创作者的小说投稿网站、有与短诗形式文艺相关的线上活动,还有像X(原推特)、微博、脸书等社交网络服务。此外,各类博客平台也在以多种形式持续产出文学作品的创作、评论和读者的感想。不仅如此,过去的文学作品以及与文学相关的各类资料正在快速地从纸质媒介向数字数据转移。例如,日本国立国会图书馆的数字收藏中包含了253万本图书(网络公开37万件)、140万册杂志(公开2万件)和32万篇博士论文(公开1.2万件)等数据。如果使用该图书馆的“下一代数字图书馆”,其中已过版权保护期、被标记为“网络公开”且被归类为“保护期限届满”的约29万件数据,用户可以获得文本的全文数据。就与日本文学相关情况而言,国文学研究资料馆一直在推进古典文学相关文献的数字典藏项目,通过其运营的“国书数据库”,用户“可以一次性检索和使用国内外众多机构和国文学研究资料馆收藏的古籍(即江户时代以前的书籍)等资料的书目信息以及部分高清图像”,据悉该网站在2025年3月公开的原始图像已超过30万张。

如此产生的海量数字化资料群,构建了一个由电子数据组成的文学话语空间,它与人们在数字空间和在物质空间的活动复杂地交织在一起,共同塑造了当代文学的生态系统。本文认为在文学的接受研究领域,数字人文式的方法同样有效。人们在创作、交流和享受文学作品时所留下的痕迹,不仅留存于纸张等物理媒介中,也大量保存在电子资料里。我们已经进入了一个新的时代,可以通过数字数据来探究某部作品是如何被阅读,以及从中获得的文学创意、词汇及修辞等遗产又是如何传承给下一代的。

文学接受研究——探讨既有的文学作品及其创作者如何被后继的读者和创作者所接受——这一领域拥有丰富的研究历史。回顾其理论框架,大致可以分为两大体系:一类是关注读者阅读行为的读者反应论体系,另一类是关注读者群体及其解释框架的接受论体系。关于前者,沃尔夫冈·伊瑟尔(Wolfgang Iser)在著作《阅读行为》中使用“空白(blank)”和“空缺(gap)”等术语论述了阅读行为的本质并在全球产生了深远影响;提出“作者之死”并强调读者能动性的罗兰·巴特(Roland Barthes)或许也可归入此类。在文化研究理论中,斯图亚特·霍尔(Stuart Hall)的编码/解码模型是广为人知的。

在关注阅读群体及其解释框架的接受论研究者中,汉斯·罗伯特·姚斯(Hans Robert Jauss)无疑是一位杰出代表。他在著作《文学史作为向文学理论的挑战》中提出了“期待视野”(Horizon of Expectations)这一概念,探讨了某一时代的读者对文学作品的理解范式是如何被更新的。该理论在数字人文时代依然具有丰富的启示意义。在当今时代,评论家与读者的感想通过网络媒体及社交平台等途径被大量生成并留存。数字时代的接受研究正是借助这一类新型资料,获得了重构“期待视野”的线索。关于“期待视野”的理论前景,本文将在结论部分再做探讨。

关于读者共同体的分析,斯坦利·费什(Stanley Fish)提出的“阐释共同体”(Interpretive Communities)概念,可定义为共享特定阐释框架的群体。这个观点认为文本的意义并非内在于文本本身,而是由读者所持有的理解框架生成的,就这一点而言与上述的读者反应论在问题意识上是相通的。

这些关于读者反应论或接受论的著名研究,虽然都诞生于纸质资料的时代,但随着互联网的出现,它们也与讨论数字空间中阅读行为的研究成果产生了关联。在这一领域的早期成果中,大卫·博尔特(David Bolter)的《写作空间》(Writing Space)值得一提。该书出版于1991年,是探讨超文本时代表达方式和读者参与方式转变的开创性著作。此外,尽管与接受研究略有不同,霍伊特·朗(Hoyt Long)和理查德·J·索(Richard J. So)的论文使用机器学习对比了英译俳句和英语原创俳句的风格、特征和形式,是在数字人文与文学研究的交汇点上进行的俳句研究和翻译研究的新尝试。

然而,在博尔特的时代尚未出现大量的文学电子资料。可如今,博尔特所讨论的那些通过超链接连接起来的以及由公共或私人档案库收藏的正在等待读者访问的巨大数据空间,在世界文学环境中占据了重要的地位。这些数据的积累如何应用于文学的接受研究,正是本文想要关注的问题。若参照前文提出的两种分类,即“聚焦阅读行为的读者反应理论”与“关注阅读共同体的接受理论”,本研究当归于后者——接受理论的学术谱系。

1  俳句的接受研究与本研究的意义

需要说明的是,本次研究的目的也并非要描绘出其全貌,我们分析的对象仅限于日本近代俳句集的文本数据,根据日本著作权法,这些作品已过版权保护期。本文将探讨江户时期俳人松尾芭蕉的作品在近代言论空间以及近代俳句中的接受情况。数字人文对文本资料的定量分析能在俳句的接受研究中发挥怎样的作用呢?

在此之前,有必要确认一下既有研究是如何进行相关讨论的。活跃于17世纪后半叶的松尾芭蕉是日本文学史上最著名的俳句诗人,其影响力一直延续至今。当然,相关研究也颇为丰富。由于审视其全貌超出了本文的能力范围,在这里仅对主要成果进行概述,尤其是与本文后半部分涉及的正冈子规相关的内容。关于近代对松尾芭蕉的接受,研究成果众多,早先有山下一海和大野林火的论述,近年黄慧君的论文以“古池”一句为例探讨了大正时期对芭蕉的评价。除俳句诗人对芭蕉的接受以外,久保田晴次有两部重要的成果还考察了小说家们的看法。

关于近代俳句诗人个人对芭蕉的接受研究,可以以正冈子规为例。他是明治时期俳句革命运动的推动者,不仅在俳句创作有所建树,还经常发表评论并创办杂志《杜鹃》(『ホトトギス』),是近代俳句史上划时代的人物。并且他本人也多次论及芭蕉,相关研究十分丰富。早在战前,宫本三郎就出版了《子规在芭蕉批评史中的地位》,复本一郎也有相关著作。简而言之,在关于二者关系的讨论中,有的分析了子规对芭蕉的“理解”或“评论”,有的则追踪了除二者之外的谱系,还有的比较了二人的俳句作品,方法多种多样。但是关键在于,许多评论和研究中都存在一种共通的论述“模式”,即使用“继承—革新”“接受—排斥”“影响—创造(进化)”等词语去描述他们之间的继承关系,或者是作为其变体的反叛亦或是创新的轨迹

这些接受研究中所体现的“模式”与哈罗德·布鲁姆(Harold Bloom)提出的“影响”问题不无关联。布鲁姆指出,英国浪漫派诗人在阅读前人作品时,虽然从中获得了文学上的刺激,但同时也因此对自身的独创性感到不安,他将这种现象上升为理论,称为“影响的焦虑”。路易斯·A·伦扎(Renza, Louis A.)对布鲁姆的观点进行了解释,他认为这种影响关系可以被视为疑似亲子关系,即俄狄浦斯式的焦虑,其背后是基于文献学的历史研究观。伦扎指出了重要的一点,就是对这种影响关系的考察虽然在讨论传承或反叛,最终不过是维护了确认文本传承关系的传统主义意识形态。无论称之为传承还是对传统的叛离,归根结底,只是换一种说法在讨论如何强化文学史的延续性罢了。

与此相比,数字人文的方法则采取了完全不同的思路。它并非从人与人之间的传承关系切入,而是通过测算词与词、句与句之间的相似性等方式,来探寻“影响”或“接受”的痕迹。如果将关注人际关系、挖掘作品表达方式的研究称为“质”的接受史,那么基于大量分析文本数据的字面内容去考察表达特征及其相互关系的研究,则可称之为“量”的接受史。

本文对“相似性”的判定标准是通过比较俳句A与俳句B中相同字符连续出现的程度。如第三节所述,本研究采用2-gram对诗句进行分割,并使用Jaccard系数将匹配度量化。在注重质性分析的传统接受史研究中,仅凭词语的简单相似自然不足以证明前代作家/作品与后代作家/作品之间的影响关系。然而,数字人文领域的文学研究通过对海量文本进行词语一致性检测,即基于“字面”层面的相似性计算,能够捕捉人类难以察觉的细微变化,并提取远超人类分析能力规模的文本特征。文学表达中的表层相似性——本文称之为“修辞回声”——是通过多重分析的交叉叠加进行探测的。“修辞回声”是借助数字人文方法捕捉到的“接受”痕迹或其潜在的可能性。基于定量分析的接受研究,通过持续检测“修辞回声”并深入剖析其内涵,进而尝试重构“期待视野”的图景。

如后文所述,基于字面相似性的量化接受研究方法,对于探讨俳句这一文类的接受史而言同样有效。俳句严格遵循十七音节的格律规范(若使用汉字而非假名,则实际字符数更少),因此每个字符在字面层面都承载着更为厚重的意义密度。

基于上述问题意识,本文将对俳句的数字资料进行定量分析,去探究日本近代对松尾芭蕉的接受情况。

2  从国立国会图书馆数字馆藏资料看近代对芭蕉的接受

首先,基于笔者2022年的研究对本文的前期成果进行简要整理。本研究对二战前的近代文献中对芭蕉俳句的引用情况进行了定量分析,从新的视角讨论了这个问题。这里所说的二战前的近代文献,具体是指可以在日本国立国会图书馆“下一代数字图书馆”进行全文检索的所有类别的图书文献,数量约为33.6万件(截至2022年)。利用全文检索功能,可以统计出这些资料中引用芭蕉俳句的数量,以此勾勒出“接受”的样态。检索的时间范围为1868年至1945年,因为芭蕉的俳句约有1000句,为了尽可能避免因表述差异造成的遗漏,本研究在检索时使用了三种文本。图1展示了引用率前30的句子(由于存在引用率相同的情况,实际为31句)。

图1 近代文献中芭蕉俳句的引用情况(前30位)

可以将此结果与人们所熟知的芭蕉佳句进行比较。引领明治俳句革命的正冈子规在1893年撰写的《芭蕉杂谈》中列举了“尤为出众、广为传颂”的11句芭蕉名句,包括:

  1. “古池や蛙とびこむ水の音”(古池呀,青蛙跃入水中的声响)

  2. “道のべの木槿は馬にくはれけり”(道边木槿,马儿啃食)

  3. “物いへば唇寒し秋の風”(张口欲言,唇寒于秋风)

  4. “あかあかと日はつれなくも秋の風”(艳阳当头,秋风已起)

  5. “辛﨑の松は花よりおぼろにて”(辛崎之松,比花更显朦胧)

  6. “春もややけしきととのふ月と梅”(春意渐浓,月与梅相映成趣)

  7. “年々や猿に着せたる猿の面”(年复一年,猴戴猴面)

  8. “風流のはじめや奥の田植うた”(风雅之始,远处传来插秧歌)

  9. “白菊のめにたてて見る塵もなし”(凝视白菊,纤尘不染)

  10. “枯枝に烏のとまりけり秋のくれ”(鸦栖枯枝,秋日将暮)

  11. “梅の木に猶やとり木や梅の花”( 梅树插新枝,梅花共盛开)

      可以看到,与图1中列举的31句仅有1、3、5、10这四句是重合的。

从33万余册的图书资料中,找出超过1000句的芭蕉俳句引用,其工作量之巨大,超出了人力所能及的范围。然而借助计算机技术便使之成为可能,让我们得以开启那些以往难以追踪的接受研究。并且,如本章所示,计算机辅助分析往往能呈现出与人们所认知的世界图景不同的结果,例如子规认为“广为传颂”的俳句与实际被频繁引用的俳句之间存在差异。但是这里也会出现一个问题,即“引用”是否等同于“接受”?关于这一点,我们将在后续章节中进一步讨论。

3  从近代俳句集看对芭蕉的接受

3.1 数据预处理与相似性的计算方法

本章将进一步探讨关于近代对松尾芭蕉的接受。在此,我们将研究对象限定于俳句集,通过分析近代俳句集中的作品特征来揭示芭蕉的接受情况。关于芭蕉的俳句,我们仍使用与前章相同的三个数据集,本章中分析的近代俳句作品来自以下三种句集:

A《明治句集》:共4冊(新年卷、春之卷、夏之卷、秋之卷),27084句,选录自报纸杂志。

B《大正百家选》:共1冊,12516句,收录德岛县当地俳句诗人作品。

C《现代综合大句集》:共1冊,12526句,选录自“最近发行的数百本俳句杂志”中的优秀作品。

首先,对本研究的数据预处理过程进行简要说明。ABC各句集的数据来自从国立国会图书馆“下一代数字图书馆”获取的JSON Lines文件,从中删除了正文以外的页面(如封面、目录、版权页、广告等),保留了页码、页眉、章节标题等信息。由于原始文件中有部分字符顺序混乱,因此使用JSON Lines文件中的位置信息标签进行了调整。在此基础上,提取“contenttext”(文本内容)中字符数大于9的字符串,以此删除通常小于8个字符的页码、章节标题等副文本信息。至此,正文数据的构建基本完成。此外,根据分析的需要,将正文数据中的汉字旧字体转为了新字体。除最后这一步以外,上述的预处理工作基本都是通过Chat-GPT4完成的,笔者随时跟进了这个过程。

      关于正文数据的识别率,通过对比笔者核对过的句集与上述经过预处理的正文数据,发现A的平均误识别率小于1%,但存在部分句子缺失的现象,B和C的误识别率分别为1.5%、0.4%,同样都出现了信息缺失的情况。

本研究采用了N-gram(本次使用了2-gram)的方法,通过Jaccard系数计算了文本的相似度。本研究的独特之处并非在于追踪俳句作品的语义承继,而在于对表层字面一致性的量化考察。鉴于此研究目的以及俳句文本篇幅极短这一特性,本研究认为,与 Word2vec 或 BERT 等方法相比,N-gram具有更高的适用性。

N-gram是指字符串中连续的“N个单词”或“N个字符”的组合,2-gram就是两个连续的单词或字符。例如,以字符为单位的2-gram将“雲の峰いくつ崩れて月の山”分解,可以得到“雲の”“の峰”“峰い”“いく”“くつ”“つ崩”“崩れ”“れて”“て月”“月の”“の山”共11个二字字符组。Jaccard系数是用于测算两个集合之间相似度的指标。具体计算方法是用两个集合的共同元素数量(交集)除以元素总数(并集),所得数值介于0到1之间,越接近1表示相似度越高。

例如,将“干網に蜻蛉吹かるゝ野分かな”与“猪もともに吹かるゝ野分かな”这两句俳句用2-gram分解后,可按照以下步骤计算Jaccard系数:

首先,将每句俳句分解为2-gram。

  「干網に蜻蛉吹かるゝ野分かな」的2-gram:干網、網に、に蜻、蜻蛉、蛉吹、吹か、かる、るゝ、ゝ野、野分、分か、かな;

  「猪もともに吹かるゝ野分かな」的2-gram:猪も、もと、とも、もに、に吹、吹か、かる、るゝ、ゝ野、野分、分か、かな。

两者之间有7个共同的2-gram,即“吹か”“かる”“るゝ”“ゝ野”“野分”“分か”“かな”。以此计算Jaccard系数,计算公式为:(共同元素数量[交集])÷(元素总数[并集])。这里的交集为7,关于并集的计算,两句都有12个2-gram,但需要从两者的和中减去共同元素数量7,即(12+12)-7=17。因此,上述两句的Jaccard系数约为0.41。

       基于此方法,以(1)《芭蕉俳句全集》和A《明治句集》为例,使用2-gram和Jaccard系数进行了初步调查。将结果按照相似度从高到低排序,并经过笔者的确认,可以发现当相似度高于0.3时,即使由人来判断也会感受到其相似性;数值在0.2左右时,仅是出现部分相同的季语,就俳句这一文学体裁而言,难以称之为相似。因此,本研究将相似度高于0.3的情况定义为相似。

3.2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的比较结果

为了把握整体趋势,我们首先将《芭蕉俳句全集》与《明治句集》(1909年)、《大正百家选》(1918年)、《现代综合大句集》(1935年)进行了逐句比较。这些句集分别收集了明治、大正和昭和战前时期多位俳句诗人的作品,规模宏大。其中,《明治句集》收录约2.7万句,《大正百家选》和《现代综合大句集》各约1.2万句。

图2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的相似度

与初步调查的步骤相同,我们将句子分解为2-gram,并使用Jaccard系数测算了它们的相似度,然后将结果按照从高到低进行了排序,图2即为三组不同时期句集相似性比较结果的前5000项。由于《明治句集》中存在与芭蕉完全相同的句子,因此图中显示出了极端高的数值(相似度为1.0)。但是,将比较对象扩大至前5000项,仍然可以清楚地看到《明治句集》的相似度始终显著高于《大正百家选》和《现代综合大句集》。同样,《大正百家选》的相似度也始终略高于《现代综合大句集》。通过将总计约5.1万句俳句与芭蕉作品进行比较,可以发现从1909年到1918年,再到1935年,随着时间的推移,其相似度、即“修辞回声”在逐渐降低。尽管这项调查未能提供关于季语或词汇使用、类型化表达等具体信息,但基于5万句规模的考察,能够得出以下结论:后期的俳句作品与芭蕉俳句在字面上的相似度随着时代变迁而不断降低,即在字句层面上渐行渐远。

在此基础上,我们比较了《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》中相似度最高的前30句作品(表1至表3)。可以发现,从明治、大正到昭和,此前相似度较低的句子也有可能逐渐上升到较高位置。正如在初步调查中也讨论过的,当相似度超过0.3时,即使通过人为判断也能感受到其相似性。如表1至表3所示,相似表现的关键在季语,当季语和切字的组合超过四个字符时,相似度就能达到0.3。在相似度高于0.4的句子里,除季语之外,还有其他词语的重合,使得其相似性更为显著。但相似度在0.2左右的句子中,重合的季语大多仅有三个字符,人为判断就较为困难。

此外,还可以看到,在相似度高于0.3的句子里,其相似性随着时代变化呈现出下降的趋势。不仅如此,有趣的是,即便是相似度低于0.2的句子也显示出了类似的结果,即相似性从明治、大正到昭和逐渐降低。若仅依据人为判断,相似度低于0.2时是很难发现这三个时期的俳句的表达差异的,无法感知其相似性也就难以进行比较。换言之,计算机通过将相似性量化的方法,捕捉到了人类肉眼无法比较的表达层面上的差异,并展示了其变化趋势。尽管是非常细微的差异,但确实可以看到后期的俳句创作在不断远离芭蕉式的表达。通过对近代俳句的大规模分析,揭示出了人力所不易察觉的长期且细微的“修辞回声”的变化。

表1 《芭蕉俳句全集》与《明治句集》中的高相似度作品

表2 《芭蕉俳句全集》与《大正百家选》中的高相似度作品

表3 《芭蕉俳句全集》与《现代综合大句集》中的高相似度作品

4 从正冈子规看芭蕉的接受

本章将以正冈子规的俳句为例,进一步考察日本近代对芭蕉的接受情况。

在此有必要指出本次定量分析的局限性。首先,用于对照的正文数据有一定局限。若要追求文学研究的精确性,原本需要在“全句”范围内进行详细考察,而且机器的文字识别准确性显然远未达到完美。其次,无论是芭蕉还是子规,其俳句风格均存在变化,文学研究向来是重视这种变化本身的[32],而以“全句”作为比较对象的量化分析就忽略了这种风格上的变化。但是,通过更细致的数据分类、文本校对和预处理等方法,或许能够在一定程度上克服这些问题。

正冈子规的俳句数据来源于子规纪念博物馆的“俳句检索”系统。本研究对其收录的25097句俳句进行了整理,将片假名转换为平假名,并分别准备了旧体字和新体字的数据。下文中将这个数据集称为“子规全句”。

我们首先将子规全句与《芭蕉俳句全集》和《明治句集》分别进行了比较,采用了与前一章相同的方法,结果如图3所示。观察图中曲线可以注意到两个特点:一是相比《芭蕉俳句全集》,《明治句集》和子规全句的相似度明显更高,这一点可以与图2进行对照,其差异一目了然;第二点是,相比《明治句集》,子规全句和《芭蕉俳句全集》的相似度更高。

      其中第二点似乎与一般认知相悖,因为致力于推动俳句近代化改革的子规,是以严厉批评芭蕉而闻名的。在《芭蕉杂谈》中,他曾以激烈的言辞说道:“芭蕉的俳句大半为劣句废话所充斥,能称为上乘之作的不过几十分之一”,还称“与其说芭蕉的作品受到肯定,不如说其品行为人所钦慕”,认为是芭蕉的人品而非其作品本身获得了评价。

      需要说明的是,子规并非单纯的芭蕉批评者。他对芭蕉的批判很大程度上源于对那些盲目崇拜芭蕉的旧派俳句诗人的否定态度。通过接受斯宾塞美学等思想,他也基于重视写实的现代自然描写意识对芭蕉简洁明快的表现方式予以了正面评价。

图3 《芭蕉俳句全集》《明治句集》与子规全句的相似度比较

这些是通过仔细解读子规的评论所掌握的他对芭蕉的具体解读。因此,就直觉而言,在将子规俳句与明治时期的大规模句集进行比较时,得出子规的作品反而更接近芭蕉这一结果,很难不让人感到困惑。在俳句革命中,正冈子规对被偶像化的芭蕉的批判广为人知。

      然而分析的结果确实如图3所示。那么,二人的作品究竟在哪些方面显示出相似呢?在讨论这个问题之前,还需要回顾一下图3的另一个特点,即明治句集与子规全句的相似性。与芭蕉作品相比,子规作品与《明治句集》之间的距离明显更为接近。

为了探其究竟,笔者制作了《芭蕉俳句全集》和《明治句集》、子规全句相似性对照一览表(表4)。可以看到,相似度为0.3的句子在《明治句集》中排第17位,而在子规全句中排第27位(有5句的相似度同为0.3),这意味着子规全句与《芭蕉全集》的相似性更高。通过对比,能够看出子规似乎是有意识地借鉴了芭蕉的俳句。而在《明治句集》收录的俳句中,虽然也有类似的受到芭蕉影响的例子,但也有一些作品,虽然在字面上看似有诸多相似之处,实际上并非真正借鉴了芭蕉,例如“胡麻蒔や風なきに散る栗の花”(明治)与“風なきに散るや若木の花櫻”(芭蕉),以及“吹風をうしろにしたり羽抜鳥”(明治)与“秋の夜をうしろにしたる法師哉”(芭蕉)等。

表4 《芭蕉俳句全集》和《明治句集》、子规全句中的高相似度句

相比之下,子规俳句中与芭蕉相似的句子,显然是有意识地进行了借鉴,并且在保持距离感的同时试图展现出一种幽默与机智。例如,子规的“春之山畠となつてしまひけり”很可能借鉴了芭蕉的“春の夜は櫻に明けてしまひけり”。芭蕉吟咏的是令人沉醉忘返、不觉夜明的樱花之美,而子规则以一种轻松而幽默的笔触,描写了本应繁花盛放的春山被开垦为农田的当下社会变化。正因为子规借鉴了芭蕉描绘樱花之美时那种超脱了世俗与时光的意境,才让他对人类的贪婪之举逐渐改变自然景观的现世景象的观察显得尤为独特而深刻。

此外,子规还将芭蕉以佛教悟理为主题的俳句“稻妻に悟らぬ人の尊さよ”改写为“長き夜を寐足らぬ人の尊さよ”。此句创作于1895年,当时子规尚未因病卧床,这一句或许只是单纯地表达了对能够安睡之人的羡慕之情吧。还有“肥壺や蛙とびこむ夕まぐれ”这一句,显然是以诙谐的口吻模仿了芭蕉的名句“古池や蛙とびこむ水の音”。

本章将子规俳句的全部数据与芭蕉俳句进行了对比分析。芭蕉与子规的关系一直以来受到了较多的关注,也有研究深入探讨了二人的个别俳句作品,但是将其所有俳句进行全面比较应该是此前尚未有过的尝试。当然,其中可能存在偶然的相似,也有一些可能仅是戏谑之作,并且如前章所述,即使仅有个别文字的重合,计算机也会统计在列。但是,正是通过如此这般机械化的比对,不放过任何字面上的外在相似性,并且全面展示了相似度从高到低的所有内容,我们才能够开辟出一条新的道路从整体上去思考有关相似性的问题,包括那些可能会被忽略的俳句。

当然,本研究也存在一定局限。本次分析以松尾芭蕉的俳句为起点,将芭蕉作品为单一中心点与数万首其他俳句进行对比,在形式性相似的层面上呈现出芭蕉与后世不同时期、不同作品之间的距离,但是无法涵盖俳句传统中多源并行的影响脉络。具体而言,近代俳句所受影响并不局限于芭蕉,而芭蕉本人亦承续了前代诸家的创作传统,此类复线性的继承关系未能在本研究中得到充分讨论。若能选取其他俳人为起点重复同样的分析,或许能够勾勒出新的影响关系网络。通过多重视角反复展开类似研究,俳句的接受史将得以进一步深化和拓展。

5 基于定量分析的接受研究的可能性

如上所述,基于国立国会图书馆“下一代数字图书馆”的馆藏资料,本文对明治、大正和昭和战前时期的大规模俳句集和《芭蕉俳句全集》进行了比较分析,还考察了正冈子规的俳句和芭蕉作品、《明治句集》的相似性。

目前,依靠计算机进行的质性内容分析还远远无法达到人类研究者的水平。无论是芭蕉、子规,还是大规模俳句集,都需要参考时代语境、作为借鉴的先前文学遗产,以及创作者的个人经历和经验等。这些的外部信息广泛存在于多种形式,需要细致解读并结合作品进行深入挖掘、论证。但是目前能够做到这一点的,仍然只有人类研究者。

但也有一些任务是只能通过计算机的数据解析完成的。无论如何,其工作内容的规模和效率都是压倒性的。近年来,随着技术的进步和大环境的变化,文艺作品的文本数字化进程加快,分析技术也不断提升。计算机的数据分析速度让人力不可企及的海量资料读取成为可能。由于工作量和速度的限制,人类通常需要根据文学家的重要性或文学史上的价值去预先筛选分析对象。这不仅导致了资料数量的局限,还可能产生先入为主的偏见。与此相比,计算机的工作则可以无视现有的文学史价值判断,将一切转化为数字进行处理。

就文学接受研究而言,除以往人类研究者探讨较多的创作者之间或作品之间的相互影响关系之外,如今还可以借助计算机对作品数据进行定量分析,追踪作品之间的相似性、潜在的共同主题以及作品主题的变化等。

关于“接受”和“影响”的既有讨论,大多基于某些重要的资料或优秀作品提取出抽象的主题,或者从某文学家或文艺群体使用的概念和理念(例如芭蕉及其门派提出的“风雅”“轻妙”等)的传承角度展开论述。例如,研究芭蕉近代接受史的权威学者久保田晴次如此描述他的研究目标:“本书的意图在于探讨众多的芭蕉论究的意义所在,以及从一种芭蕉论到另一种芭蕉论的流变所具有的意义。”久保田分析了芥川龙之介等近代作家对芭蕉的评价,考察其中的“意义”并揭示了芭蕉论的“流变”。最终,久保田选择以“实存”一词作为总结其研究的关键词。

从这种传统的文学研究的角度来看,本文在第二章的论述中将“引用”视为“接受”,以及在第三章和第四章中使用N-gram将俳句分解、通过句中词语的匹配数量来计算相似性的方法,可能会显得过于肤浅。因为“引用”是否等同于“接受”、用语的“相似”是否意味着“接受”,这些质疑是不可避免的

1918年,高浜虚子曾写道:“从德川初期到如今的明治大正,尽管俳句经历了或多或少的盛衰与变化,但可以说俳句就是芭蕉的文学。换言之,自松尾芭蕉这个人物出现并给传统俳句带来一场革命,在此后的二百余年间,虽涌现出俳人无数,但大多不过是步芭蕉后尘而已。”从江户到近代的两百多年里,俳人们的创作只是继承了芭蕉的文学事业,而虚子所指的“芭蕉的事业”,恐怕并非指芭蕉俳句的字面形式。字面的相似只是表面问题,更重要的应该是芭蕉的精神形态或世界观。若非如此,虚子也不可能做出这样的论断。

然而,在使用计算机进行大量数据分析的方法逐渐被引入文学研究领域的今天,真正需要重新审视的并非精神、思想或看待事物的方法。更重要的在于倾听并审视这些“修辞回声”,即坚持从字面层面入手的阅读实践,探索区别于人类传统阅读方式的其他可能性,重新构建“质”所无法衡量的、基于“量”的文学史。当然,这并不意味着思想的传承或文学观念的接受毫无意义。这些探索,如同过往一样,今后仍将是重要的研究课题。但是,贴近文本的分析同样重要。定量研究,即便不称之为“细读”,确是能够做到“贴近文本的分析”。它能够摈弃先入之见,忠实地追随文字,统计数量,计算概率、频率和字数。

尤其是在俳句中,文字的力量显得尤为巨大。在这种文学形式里,作品最多不会超过20个字,因此每一个字所承担的角色自然就变得举足轻重。桑原武夫曾经提出一个挑战性的问题:如果将作者的名字隐去,我们是否能够分辨出哪些是当代名家的俳句?他在这篇著名的评论中指出:俳句所面临的宿命就是,作品实际能够呈现的,与作者的理念或理想相比,总是显得言不尽意。因此,桑原认为,“就现代俳句而言,仅凭作品本身(即单独的一首俳句)去判定作者的地位是非常困难的”。芭蕉提出的俳谐世界固然所见高远,但这种高度抽象的概念性问题是否能在一个具体作品中得到充分的展现呢,现实未必如此。然而,正是这种局限,反而赋予了文字更多吸引读者深入解读的力量。面对通常只有十几个字的俳句作品时,读者会认真揣摩句中的每一个字词,在脑海中描绘这一句所构建的世界,甚至试图从芭蕉、芜村或子规的只言片语中推究他们的理念或理想。因此在俳句研究中,文字是至关重要的。而计算机的数据分析能力,让这种贴近文本的俳句分析、即对“修辞回声”的解构成为可能。这种能力,无疑将在未来的俳句和俳谐研究中发挥巨大作用。不过,计算机所追随的,终究是数字,而非理念。

文学作品的定量分析并非总能收获丰硕的成果,在很多时候,它可能只是验证了人们大致预料到的结果。例如,本研究中关于芭蕉的影响力从明治时期到昭和战前期间逐渐减弱的部分结论,也体现了这一点。当然,用明确的数字去证实那些隐约的猜想,这本身也是有意义的事情。但是,当计算机辅助的定量研究得出与预期相悖或完全未曾预想到的结果、以及发现人类未能发现的变化和特征时,就会产生较大的冲击力。例如,在松尾芭蕉与后世俳句作品相似性的经年变化中,当相似度低于0.2时,仅靠人力难以察觉,但计算机却检测到了这些细微的变化。此外,计算机还发现正冈子规的俳句比明治末年出版的大规模俳句选集在文字表达上更接近松尾芭蕉。这一结果有悖于我们对正冈子规——俳句近代化革命的旗手,同时亦是芭蕉的批评者——的直觉判断和先入之见。

6  结语——从“无意识修辞”到“数字文学史”

本文以接受研究为例进行了相关考察,可以认为,计算机辅助的文学定量研究是一种新的话语分析方法。就文学接受研究的历史而言,这种方法有可能在理论上更新姚斯提出的“期待视野”概念。姚斯试图从传统的文学创作和叙述美学转向接受和影响的维度重写文学史。从读者来看,文学作品并非出现在真空之中。读者心中始终有着判断的标准,会通过该文学体裁的内在规范、与名著之间的关系、诗性语言与实用语言的差异等来衡量对作品的接受方式。并且,文学作品本身也是在“广告、公开或非公开的信号、熟悉的标志或隐含的指令”中被创作出来的,这些因素极大地影响了读者对作品的接受方式。因此,新创作的文学作品都是基于“阅读的记忆”被接受的,同时又是被置于所谓的“期待”——“这部作品应该是这样的吧”——之中被解读的。这就是姚斯所说的同时代读者的“期待视野”。然而,优秀的原创作品是不同的,它们能够打破读者的“期待视野”,将文学史推向新的境地。

姚斯希望能从接受和影响的角度重新审视文学史,其重要性不容置疑,但是问题仍在于研究者应该借助何种资料与分析手段,才能有效重构这一“期待视野”仍然是一个尚未解决的问题。尽管在回顾文学史时,我们可以在一定程度上进行描述,但若谈及同时代的文学(研究)却显得困难重重。然而,随着大量数字文本的出现,如今重构“期待视野”正在成为可能——以一种与不同于以往的方式。过去和当代读者的阅读痕迹沉睡在数字档案和网络上的各类数据之中。如何挖掘这些痕迹,正是数字人文的文学接受研究所面临的课题,亦是可能性所在。通过对特定时代可获取的阅读数据进行大规模计算分析,并由研究者对分析结果进行解读,便能够揭示出该时代特有的阅读方式,而这理应构成“期待视野”的重要组成部分。

本文以接受研究为例进行了探讨,但这种方法的潜在可能性并不局限于该领域。海量数字化文本及各类信息分析技术的涌现,为多种文学类型的修辞分析带来了新的启示。关键在于,这种量化分析方法具备两大特质——其精细度超越了人类的感知能力,且在规模上又超出人类的处理极限。更值得关注的是,文学家创造的修辞本身往往延伸到创作者有意识控制的范围之外。文本中存在着作者本人未曾察觉的句式与引用,流淌着同时代其他创作者与评论家未能识别的互文链。这些无意识的修辞痕迹,早已深深镌刻在文本的字里行间。而精微且大规模的计算分析,正是从这些字面纹理中解析出“修辞回声”。笔者认为,基于定量的数据分析方法能够提炼出个体乃至时代中潜藏的“无意识修辞”。

文字所编织的图案,即为修辞。如今,修辞的矿脉正在大规模地转移到数字文本之中。不仅是文豪和诗圣的作品,那些被遗忘的小说家、小众诗人、无名的业余文学爱好者的创作,也都构成了这座矿山的一部分。著名评论家撰写的有影响力的评论、匿名的时事评论,以及地方读者的读后感,都平等地埋藏其中。计算机不会区别对待文豪、业余创作者、专业评论家或普通读者,而是通过挖掘将所有内容转化为数字的话语=数据的矿脉,即探听“修辞回声”,从而让我们得以从仅由著名文学家之间的相互关系来论述的俄狄浦斯式的文学史中逃离。数据挖掘揭示了人们与时代的无意识修辞,而新的“数字文学史”也将随之诞生。

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

莫莱蒂:远读是个玩笑

远读 2026-04-23 12:19 北京

远读是针对世界文学这个新研究对象提出的方法,在一定程度上也是认识论层面的探索

本文转载自华东师范大学远读批评中心公众号“远读”

图片

活动现场

远读是个玩笑

2026年4月17日晚6点,斯坦福大学荣休教授弗朗哥·莫莱蒂、清华大学中文系教授格非、《上海书评》主编丁雄飞来到华东师范大学普陀校区,以“远读实验:反思文学批评的量化转向”为主题展开对谈。本场活动为北山讲堂高端系列讲座第2讲、远读讲座第56讲,由华东师范大学国际汉语文化学院、华东师范大学中国语言文学系主办,华东师范大学远读批评中心承办,商务印书馆协办。

弗朗哥·莫莱蒂1950年出生于意大利松德里奥,1972年毕业于罗马大学现代文学专业,先后任教于美国哥伦比亚大学、斯坦福大学,美国科学与艺术学院院士,美国国家书评人协会奖最佳评论类书籍奖获得者。2000年,莫莱蒂教授于《新左评论》上发表《世界文学猜想》一文,首次提出“远读”(distant reading)的观念。2010年,他创建了斯坦福文学实验室。代表作包括《世界之路:欧洲文化中的成长小说》《现代史诗:从歌德到加西亚·马尔克斯的世界体系》《布尔乔亚:在历史与文学之间》《远读》等。今年,他刚刚出版了新作《黑旗:悲剧形式与内战》。

以下为对谈内容:

图片

丁雄飞

丁雄飞:纵观莫莱蒂教授的研究生涯,我们似乎可以辨认出两个莫莱蒂:一个是“细读的莫莱蒂”,一个是“远读的莫莱蒂”;一个是“作为文本阐释者的莫莱蒂”,一个是“作为量化形式分析者的莫莱蒂”。但归根结底,只有一位莫莱蒂教授,他是文学史家,是文学理论家,也是文学批评家,并且始终是一个唯物主义者。我想先请莫莱蒂教授谈谈什么是“远读”:您提出这个说法的契机是什么?它与世界文学、与您组织编纂的五卷本文集《小说》有什么关系?

图片

弗朗哥·莫莱蒂

莫莱蒂:“远读”的来源有二。它最初是个玩笑,当年美国学界言必称“细读”,我开玩笑说还有“远读”。我没把它当真,可大家都当真了,后来真成了学术术语。“远读”还有一个由来:我独自去看电影,喜欢坐后排,因为坐得远,看得全,但和我太太一起时,就要迁就她坐前排。显然,坐在前排和坐在后排看到的东西是不一样的。这也对“远读”适用——拉开距离,就能看到不一样的内容。

我们当时出的那套文集有五千页,希望从各个角度讨论世界各地的小说;同时,《新左评论》还约我写一篇二十页的文章,讨论世界文学。显然,要在有限的篇幅内讨论数量庞大的文学,需要一种和以往不同的方法,所以“远读”首先是为了分析海量文学或文化作品而提出的。

其次,远读是针对世界文学这个新研究对象提出的方法,在一定程度上也是认识论层面的探索。就像去博物馆看画,靠近画作和远离画作看到的内容不同,远离画作时看不到细节,但能看到整体的几何结构。远读就是这样,更注重文学中的模式,而非细节。

丁雄飞:请您举个远读的具体例子吧。远读和细读,或者说,量化研究与经典阐释之间,是什么关系?

图片

弗朗哥·莫莱蒂

莫莱蒂:远读的实践方式是多样的。比如《尤利西斯》这本书中有几章由意识流构成,我在研究时特意关注这些意识流段落的共性:有多少处意识流描写?在段落中处于什么位置?起了什么作用?通过聚焦“意识流”这一元素,我希望去把握某种更大的东西。

远读和细读是对立关系,非此即彼。同样,定量研究和阐释学也是对立的。定量研究绝对尊重数据,比如分析《尤利西斯》时,统计意识流段落的共性就必须如实计数,不改动数据;而阐释学是对数据的改造,比如我认为《尤利西斯》的意识流和意识无关,而和社会化有关。把此解读为彼,就是一种阐释方法,这和定量研究的逻辑完全不同。需要强调的是,这种对立无法形成某种综合。

丁雄飞:如今,数字人文和定量研究在全球遍地开花。回望来路,您觉得远读和量化研究的贡献和局限是什么?您退休回到欧洲后开始研究悲剧,这种转向是否也体现了您对量化研究态度的微妙变化?

图片

弗朗哥·莫莱蒂

莫莱蒂:首先,我认为量化研究是一个很好的探索方向,也提供了重要成果,比如用网络理论分析情节、对戏剧结构产生新认知、在更广阔的文学语境中理解“正典”的形成。这些成果都来自量化研究,更准确地说,是来自为了做量化研究而形成的概念建构。正是这些新的文学概念,让我们对许多传统话题有了新理解。

然而从大约十年前开始,一种不好的苗头出现了:与文学理论紧密相关的概念建构工作被抛弃了,取而代之的是极其复杂的统计分析。复杂统计本身是好的,但它不能替代文学、文化理论。现在有很多优秀的数学类文章,但其文学价值却很有限。我和这类研究拉开了距离。

丁雄飞:格非老师读过莫莱蒂教授的什么书?

图片

格非

格非:我前不久刚看完《布尔乔亚:在历史与文学之间》这本书,非常好看,触发了我很多思考。莫莱蒂教授在书中提出了一些非常重要的问题。第一,当代资本主义在全球范围内取得了巨大成功,但资本主义的主人公是谁?是否存在世俗意义上的主人公?他认为这个主人公是缺席的,如果一定要寻找,主人公既不是过去的贵族,也不是一般意义上的底层工人阶级,而是作为庞大中间群体的资产阶级市民。莫莱蒂先生用“布尔乔亚”这个概念来涵盖这个中间阶层。另外,他认为真正的主人公或许是散文。他引用了黑格尔有关“散文的心智”的论述。书中说,散文通过原因和结果、目的和手段来理解我们所面临的世界。资本主义是这样理解世界的,散文也是如此。

第二,莫莱蒂先生对小说的研究是远读视角下的历史学分析,而非新批评意义上的文本细读。他把小说放到社会变迁、历史进程以及不同文本中展开研究,其中也包含我一直以来思考的问题,比如他提到“填充物”(filler)这个概念。莫莱蒂先生认为,西方小说自十八世纪以后,尤其是1719年《鲁滨逊漂流记》问世后,才真正开始了我们今天的时代。在这类作品以及后来的现实主义、现代主义作品中,存在一个显著的变化:会话性描写开始大量增加。他把这些新增的描写称为“填充物”。

图片

格非

现代小说中为什么会有这么多“填充物”?他认为这和资本主义的内在逻辑是一致的。一方面是主客体倒置,“物”的世界开始被放大。另一方面,他认为资本主义追求的是准确性而非意义,他提出“精确性远胜于意义”的说法,这也是填充物产生的重要原因。

此外,就是“真实性”的问题。莫莱蒂先生认为,真实性被奉为小说的最高原则,评判小说的核心标准就是“是否真实”,而这种真实性与科学的要求是一致的,因为科学最强调“真”。他引用了马克斯·韦伯的话:“一个东西可以不美、不善、不够神圣,但它真。”这一点和我的个人思考不谋而合。

莫莱蒂:感谢格非老师。很高兴您对“填充物”的讨论感兴趣。作为文学教授,在授课时难免要把一本五百页的小说总结成三四个核心情节,这样一来,小说的大部分内容就被忽略了,这是我面临的现实问题。而研究“填充物”的目的,就是为了还原小说中那百分之九十九被忽视的部分,让这些平时无人谈及的内容重新被讨论。“填充物”的一大特点就是不被记住,小说用散文(prose)写成,而“prosaic”作为形容词本身就有“平庸、日常”的含义,这些散文性的内容往往无法让人留下深刻印象。当年编纂《小说》这部研究文集时,编辑团队曾讨论是否要收入《一千零一夜》。有位编者反对,理由是它的故事太精彩了,没有平淡无聊的部分,而小说需要一定的平庸感和无聊感。所以我想问格非老师,作为小说家,您是否愿意写这些无聊的内容?您希望自己的小说全程精彩,还是觉得需要保留“填充物”?

格非:我的创作过程有一个缓慢的变化,不知不觉间,我作品中的“填充物”开始显著增加。不是我刻意要写“填充物”,而是它好像自然出现了。比如《隐身衣》中就有大量“填充物”。所以我也在思考,该如何重新描述当代创作中的“填充”。我最爱的书是《左传》,许多年来反复读,从来读不厌。《左传》里没有一句废话,所有看似浅显的文字都非常深刻,每一句话都值得玩味。我对“填充物”的态度是中立的,一方面,没有“填充物”就无法完整呈现今天的社会现实;但另一方面,我也对大量“填充物”的存在感到困扰,这两者之间存在一种紧张的关系。

图片

丁雄飞

丁雄飞:我在莫莱蒂教授来中国前,把格非老师《隐身衣》的意大利文版发给他读。能说说您的读后感吗?

莫莱蒂:我非常喜欢这部小说。我的疑问是,这部作品是“长篇小说” (novel)还是“中篇小说”(novella)?这两个概念在英文里不只是篇幅差异,更是两种不同的文类。中篇小说通常只有一个核心,而长篇小说像“群岛”一样,有多个核心。您如何在文类上界定这部作品?另外,我了解到您是先锋派作家,但《隐身衣》这部小说的情节性很强。通常大家对乔伊斯这类先锋派作家的抱怨是“小说里什么都没发生”。因此作为先锋派作家,您是如何组织协调先锋派技巧与叙事情节需求的?

图片

格非

格非:我最初想把这部小说写得更短,大约是现在篇幅的一半,但写着写着,有一种莫名的力量推着我继续。莫莱蒂先生提到的“群岛”概念很符合我当时的创作状态,这部作品里涉及了很多不同的话题,创作过程中我不断扩充、重写,完全超出最初的构想。当然,从我的原始动机来说,我想把它写成一部不太长的中篇小说。

上世纪八十年代的中国带有强烈的理想主义和浪漫主义色彩,很多作家都深受西方现代主义影响,毫不避讳地说,我们当时狂热地迷恋乔伊斯、卡夫卡、福楼拜这些作家。

转折发生在九十年代初。我的一个好朋友邀请我去他家吃饭,他全程只和我谈了一件事:“你们的小说受西方现代主义影响,这没问题,但你有没有想过中国古典叙事和西方完全不同?”他给我推荐了《左传》《史记》等中国传统叙事作品,以及一些明清小说,还严肃地说:“如果你三十多岁还不关注这些,我认为是不对的。”这件事对我的影响非常大。之后很长一段时间,我开始回归中国古典叙事,这也是促成我创作转变的重要原因,比如《人面桃花》中已经有了古典叙事的影子。

我认为西方现代主义有两种不同类型,一种相对激进,比如伍尔夫、乔伊斯等,就像您说的“小说里什么都没发生”;但也有不那么激进的现代主义作家,比如我反复推荐的德国浪漫派作家克莱斯特,他只写过八篇小说,还有亨利·詹姆斯、福楼拜等等。所以在激进的现代主义、不那么激进的现代主义,以及中国传统之间,我需要做出选择。《隐身衣》和后来的很多作品都是在这几者之间权衡选择的结果。

莫莱蒂:您在写作中融合中国传统与西方现代主义传统时,最难的部分是什么?最大的困扰是什么?

格非:最难的部分是“转换”。阅读西方作品时需要经过一次转换,反过来,中国传统叙事也需要经过一次转换,而且这个转换必须由我自己完成,才能让二者在同一个层面上进行讨论。我们无法回到过去的年代,只能立足当下的社会现实、自身处境,以及全球化带来的影响,重新阐释中国传统叙事。比如我今天读《左传》,和九十年代读完全不一样,有了西方文学的大量参考和探索作为基础,再回头讨论它的叙事,情况就完全不同了。中国传统叙事和西方现代主义小说不能生硬地拼接,需要在不同语境中适当转换,才能实现真正的交流与对话。

丁雄飞:《远读》里有一章《小说:历史与理论》,对比了中西方小说。莫莱蒂老师问了一个问题:为什么小说在十八世纪的欧洲兴起,而中国却没有出现同样意义上的兴起?

莫莱蒂教授给出的解释是,中西方小说传统都很悠久,像是两个并行发展的实验室。到了《金瓶梅》时期,中国小说出现了很强的评点传统,他认为这体现了一种审美转向。当时中国人读小说带着审美化、诗化的视角,而欧洲小说的审美转向要到十九世纪末才出现,比中国晚了三百年。他还认为,十八世纪欧洲小说的兴起与消费社会有关,当时小说印刷数量大幅增长,但人口并没有增长那么多。于是,人们只会泛读小说。这形成了一个悖论:小说变多了,人们的注意力却变少了。而同一时期的中国小说,在某种意义上说是作为审美对象被阅读的。格非老师,您怎么看这个论述?莫莱蒂教授,您是否仍然坚持这个判断?

图片

弗朗哥·莫莱蒂

莫莱蒂:我坚持。我当时在美国的学术会议上提出这个观点时,美国学者对中国传统小说和欧洲小说是“不同物种”的说法难以接受。但又没有人能说服我改变看法。我想,至少文化物种的多样性对地球和人类文化是好事。当然,我可能是错的。

格非:这是个很有意思的观点,我也同意。我读《左传》时,会在某一瞬间觉得它非常现代,因为里面写的全是秘密,直接呈现出来的内容反而没那么重要。德勒兹评价亨利·詹姆斯时说过一句话:“他一辈子都在写秘密。”《左传》《史记》也是如此,呈现的部分是为了让读者理解隐藏在背后的内容,这就是中国叙事的重要特点,作家似乎忙着“藏”,而非“显”。这种特点在中国叙事中非常早熟,而大概要到十九世纪以后才成为西方现代主义文学的重要特征。

莫莱蒂:我读的中国小说不多,主要有《红楼梦》《金瓶梅》,还有一部分《三国演义》。这些中国小说中存在审美对象,或者说“美”的概念,而且这种特质在中国出现得比西方早得多。另外,中国小说有大量评点,中国人把读小说当成一件严肃的事情,而直到十九世纪末,西方的人们才开始严肃地对待小说。

分享一个故事。1971年,我参加了一场英国文学考试,其中有一道题是“乔治·艾略特对小说的贡献是什么”,我写了很多答案都被老师否定了。最后的答案是:“乔治·艾略特的贡献,是把小说变成了一件艺术作品。”——这发生在十九世纪七十年代,而中国小说完成这种转变的时间要早得多。

格非:这种观点在中国现代作家中很普遍。比如四川作家李劼人有一个观点能和莫莱蒂先生相互印证:像《金瓶梅》,甚至《水浒传》《红楼梦》这样的作品,西方要一直等到托尔斯泰、司汤达等大师出现,才有资格与之相提并论。

丁雄飞:我们来聊聊《现代史诗》。请教莫莱蒂教授:这本书在您所有作品中的定位是什么?这是您赴美后出版的第一部作品,其中已经非常娴熟地用进化论来讨论文学形式的变迁。

莫莱蒂:这本书的最终形态和我最初的构想很不一样。我一开始想写二十世纪初的先锋文学,重点讨论《尤利西斯》等作品。后来我发现,《尤利西斯》之于二十世纪的意义,相当于《浮士德》之于十九世纪的意义。于是我猜想,从《浮士德》到《尤利西斯》,可能构成一种特殊的“文类”。这类作品的共同特点在于,它们在一部作品中讨论整个世界。传统史诗关注民族,而这类作品则关注世界。有一次我听瓦格纳的歌剧时,突然觉得瓦格纳的歌剧也在尝试构建整个世界,所以我把瓦格纳也纳入了《现代史诗》的范畴。

在一本书里书写整个世界,本身就是不可能的事,所以无论是《浮士德》《尤利西斯》,还是瓦格纳的歌剧,这些作品都存在很多缺陷,篇幅冗长、部分内容枯燥、质量参差不齐。历来的批评家都知道这些问题,也对此感到不适,但我觉得这是为了再现世界所必须付出的代价。世界本身就是不完美的,充满不平等和斗争,所以试图再现世界的作品自然也会有缺陷。或许所有文学形式本质上都是有缺陷的,而研究文学形式的真正难点,不是发现其中的重复模式,而是理解什么不在这些模式之中,这才是最有挑战性的部分。

格非:我想请教莫莱蒂先生一个问题。您刚才提到乔伊斯的作品以整个世界为描述对象。您是否关注过“叙事速度”这个概念?它在您所研究的小说中是如何演变的?比如乔伊斯的作品,从表面情节看似乎是停滞的,因为他会把想象中的内容、各种语言文化元素都拉扯进来。但我认为,这体现了一种无与伦比的速度,因为它可以在任何一个点与世界建立连接,不再遵循古典小说或戏剧的线性逻辑。这种叙事速度的变化在十八、十九世纪以来的作品中非常明显,我认为和资本主义世界的“加速主义”变化是相关联的。您对这个问题怎么看?

莫莱蒂:乔伊斯作品中的加速感非常明显。一开始读,你会觉得它是一部关于小说本身的作品,聚焦个体心理、意识流、前意识等内容。但随着章节推进,它逐渐变成体制化语言的小说。因此,这部小说在风格上浓缩了西方资本主义近一百年的发展历程,这是一种非凡的“加速”。

丁雄飞:《现代史诗》里一个贯穿始终的形式线索是“复调”。格非老师,您的创作,比如《江南三部曲》里,有没有复调?

格非:我们在八九十年代或多或少都关注过“复调”的问题,包括巴赫金讨论的陀思妥耶夫斯基的复调,米兰·昆德拉也在他的小说中尝试用复调结构创作。我当然也关注过复调,尤其是陀思妥耶夫斯基在《卡拉马佐夫兄弟》等作品中呈现了复杂多声部,以及不同声部之间的关联。但现在我对复调已经没有那么关心了,因为现代小说已经提供了足够多的创作方法。我们可以直接进行文本意义的生成,自由表达不同的声音、场景和想法,已经不依赖复调这种结构性的东西来呈现了。

图片

活动现场

撰稿|庞雅文

摄影|陈榆菲

编辑|周正颜

阅读原文

跳转微信打开

  •  

会议预通知丨2026年首届大学生国际数字人文节(IDHFUS 2026)

RUC信息资源管理 2026-04-21 09:01 北京

以下文章来源于:RUC信息资源管理学院

RUC信息资源管理学院

中国人民大学信息资源管理学院官方微信平台,发布学院动态,致力于为每一个信管人构建与学院沟通的桥梁。

2026年9月18日—9月20日,中国人民大学

数字技术正以前所未有的力量重塑人类文明的记忆与表达。从古籍善本的数字复原到非物质文化遗产的交互再现,从海量历史数据的智能挖掘到跨文化叙事的可视化构建——数字人文正成为这个时代最富活力的交叉学科之一。

如果你对技术与人文的碰撞充满好奇,如果你有一个关于文化遗产、历史记忆或人文数据的创意构想,首届大学生国际数字人文节(IDHFUS 2026)正是为你而来!

为响应国家文化数字化战略,促进全球青年在数字人文领域的深度交流与创新实践,中国人民大学信息资源管理学院与数字人文研究院将于2026年9月18日至20日在中国人民大学中关村校区举办本次盛会。我们诚邀全球在校大学生携作品参展,同时欢迎青年教师、研究人员及数字人文相关行业专家参会交流,共同探索数字文明的无限可能。

组织单位

主办单位:

中国人民大学信息资源管理学院

中国人民大学数字人文研究院

指导单位:

世界顶级信息学院联盟(iSchools联盟)  

世界绿色设计组织(WGDO)

亚太数字人文教育协作委员会

国家文化科技创新服务联盟  

(指导单位持续更新中)

活动安排

时间

2026年9月18日—9月20日

地点

中国人民大学中关村校区(北京)

语言

官方语言为中英双语

参与对象

本次活动开放两类参与方式:

参展者:

全球在校大学生(个人或团队均可),   提交数字人文相关作品参加展览与评奖。

参会者:

青年教师、研究人员及数字人文相关行业专家,欢迎莅临交流。

参展要求

作品形式

参展作品须具备数字人文属性,鼓励提交以下类型的数字作品:

1. 数据可视化成果、扩展现实(XR)作品、交互式网站或应用

2. 数据集、软件工具、动画、游戏、视频等数字创作

语言要求

参展作品须以中文或英文呈现。为便于国际交流,所有作品(无论中英文)均须同时提交一份300字以内的英文摘要。

 基本规范

参展作品须为原创,内容健康积极,遵守中国及作者所在国家(地区)相关法律法规,须随附一份简短的AI使用说明,参考格式如下:

是否使用AI: 是 / 否

使用环节与工具:(例:用ChatGPT翻译英文摘要 / 用Midjourney生成配图 / 用Python+AI库辅助数据清洗)

人工贡献确认:本人保证核心观点、史料分析及最终结论均由本人完成,未由AI直接生成。

赛道设置

参展者可选择以下任一赛道:

赛道1:自选主题(围绕“遗产·记忆·视界”自由创作)

赛道2:(企事业单位命题赛道,待发布)

赛道3:(企事业单位命题赛道,待发布)

获奖权益

本次活动设有多项奖项,评委团由全球知名数字人文专家学者组成,为获奖作品颁发获奖证书。其它获奖权益如下:

1

奖金支持:评选设置奖金奖励

2

专业资源:专业工具授权与算力资源支持

3

专家辅导:学术+技术专家一对一指导深度打磨作品

4

专家辅导:学术+技术专家一对一指导深度打磨作品

5

成果转化:对接文化数字化落地场景与成果孵化平台

6

案例入库:优秀获奖作品将纳入数字人文优秀案例库

7

学术发表:优秀获奖作品的相关研究论文将在《数字人文研究》期刊发表

学术期刊支持单位

《数字人文研究》

(更多支持单位持续征集中)

重要时间节点

作品提交及挑战赛报名截止

2026年7月20日

早鸟报名截止(优惠票)

2026年8月20日

普通参会报名截止

2026年9月8日

活动举办

2026年9月18日

—9月20日

初步日程安排

时间

安排

9月18日

开幕式及主旨报告;

数字记忆联盟成立大会

及联盟成员项目展演;

工作坊1;闭门会;学生作品展

9月19日

工作坊2;

数字人文实验室开放日;

青年沙龙;学生作品展

9月20日

闭幕式及颁奖典礼

学生作品展

详细议程见正式通知

联系方式

联系人:胡老师

联系电话:13021941288

电子邮箱:(详见正式通知)

官方网站:(详见正式通知)

数字人文不仅是技术与人文的简单相遇,更是一代青年对文明传承与创新使命的主动回应。期待与你相聚北京,共赴这场数字人文的国际盛会!

中国人民大学信息资源管理学院

中国人民大学数字人文研究院

2026年4月

排版:欧阳振伟

初审:任明

核发:韩曙光 闫慧

阅读原文

跳转微信打开

  •  

批判性数字人文|机器学习时代的代码认识论

DHLR Ray编 2026-04-20 11:40 北京

以下文章来源于:左手数字右手人文

左手数字右手人文

About Digital Humanities, what is right and what is left. 分享全球数字人文相关学术论文译文、会议通知等资讯内容。

随着全局优化与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识

栏目简介:批判性数字人文(Critical Digital Humanities, CDH),通常指的是在数字人文基础上,引入批判理论、社会理论、后殖民研究、性别研究、媒介研究、科技社会学等视角,对“数字技术如何介入知识生产、文化记忆、权力结构与社会不平等”进行反思性研究的方向。


The Epistemology of Code in the Age of Machine Learning

机器学习时代的代码认识论

DOI:https://doi.org/10.63744/mtgy4d9qn78k

作者: Evan Buswell

期刊: Digital Humanities Quarterly (DHQ)  Volume 20 Number 4, 2026

作者 Evan Buswell 是一位独立学者及软件工程师,博士毕业于加州大学戴维斯分校,从事人工智能研究。其研究横跨计算机科学、数字人文与批判性理论。他关注计算机技术的历史演变及其背后的哲学意涵,特别是计算架构如何塑造人类对知识的认知。

1. 摘要

代码是一种以“压制状态”(Repression of state)为前提的认识系统。然而,随着全局优化(Global optimization)与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识。代码的形成回应了二十世纪知识型(Episteme)的两个特征:其一,知识被表征为一种过程(Process);其二,这种表征必须是自足的,即其意义由表征形式本身构成。代码与状态虽存在关联,但为了将代码建构为认识论对象,状态被持续限制与压制。这一建构始于1940年代代码的最初形成,并在1960年代末结构化编程运动中达到现代形态。然而如今,随着全局优化和机器学习算法在计算领域日益占据主导地位,状态的关键重要性已无可回避,而我们理解状态的工具却极为匮乏。这一认识论困境反而为那些罔顾后果、规避责任的行为者提供了庇护。

2. 文章内容

本文从科学技术研究(STS)与批判性代码研究的视角,追溯"代码"概念的历史形成,论证代码与状态的分离并非中立的技术选择,而是特定历史认识型的产物。

作者将论证分为三个层次展开:

  • 代码作为认识论对象:代码诞生于一种将知识理解为"过程"的知识型(约形成于1930年代)。在这一认识型中,意义的合法性来自符号系统内部的自足性,而非外部指涉。代码因此被要求不仅描述算法,更要"实例化"算法本身。然而这一要求内含矛盾——动态过程无法被静态文本完整构成,由此产生了代码与状态的结构性分裂。

  • 状态的压制史:作者通过对早期计算机代码的细读,追踪这一分裂的具体历史轨迹:从Mark I的系统性路由范式,到ENIAC的时序化结构,再到EDSAC条件跳转指令的出现,最终经由Fortran、ALGOL等语言演进,抵达1960年代结构化编程运动对GO TO语句的驱逐。每一次编程范式的更迭,本质上都是将状态进一步压入不可见的角落——先是隐入符号地址,再是隐入语法结构,最终隐入状态变量。

  • 机器学习与认识论危机:全局优化算法的兴起使上述压制走向历史性破产。这类算法在数学意义上已知其效果依赖于代码与状态的内在关系,然而代码范式依然将状态处理为非认识论对象。"黑箱"的比喻并非描述技术限制,而是这一历史性压制的文化症状。更危险的是,状态的不可知性正在成为资本与权力规避责任的结构性工具——算法推荐系统、自动驾驶责任归咎,莫不如此。

3. 理论框架与方法论

本文方法论融合批判性代码研究(critical code studies)的文本细读传统与知识考古学式的历史分析。作者并置不同历史时期的代码片段(EDSAC、A-2、Fortran、ALGOL等),通过比较性近读(comparative close reading)追踪条件跳转指令的语法演变,将技术史细节与认识论命题直接挂钩——这是本文方法论上最具说服力之处。

论证结构遵循一条清晰的辩证线索:外部化—压制—压抑物的回归—新形式的再压制,并以全局优化算法作为当下历史节点,将这一循环推至其内在矛盾最为显露的临界时刻。引入"无免费午餐"定理,使技术论证与认识论批判形成精准呼应,避免了此类研究常见的泛泛而论。

简  评

对于从事AI认识论、数字人文与STS研究的读者而言,这篇文章提供了一个罕见的分析框架:它拒绝将"黑箱问题"处理为机器学习的技术局限,而将其还原为一段有据可查的观念史。这种将代码语法演变与权力/责任问题直接相连的论证路径,对于思考AI治理的文化与语言基础尤具启发性。

看到这篇文章的时候,就不得不想起本杰明·M·施密特在2016年发表的本杰明·M·施密特《数字人文主义者需要了解算法吗?》(2016)。这两篇文章之间构成了一种跨越十年的“互文”关系,像同一个认识论困境的两个不同截面——施密特从实践层面发现了症状,Buswell从历史层面追溯了病因。如果说施密特的核心诊断是:数字人文学者把算法当黑箱,满足于用经验性测试("符不符合常识")来评估工具,却没有去理解算法背后的转换逻辑。他的药方是:不需要懂算法的实现细节,但必须懂它试图做什么——也就是理解 "transformation" 而非 "algorithm" 。Buswell的回答实际上是:施密特说得对,但他没有问为什么黑箱会存在。答案是:黑箱不是技术局限,而是代码范式的历史性产物。Buswell通过对计算机史的详细考据,在认识论层面指出,在机器学习与全局优化算法主导的今天,施密特所寄望的那种“可理解的转换”的认识论就随之坍塌。

文章对中文语境同样具有延伸价值:中文对"代码"与"状态"的概念处理方式是否内嵌了不同的认识论预设?在"算法黑箱"的本土讨论中,状态的不可知性是否同样承担了类似的责任规避功能?这些问题值得进一步探究。

撰文、编辑:丁怡瑞(剑桥大学数字人文系硕士研究生)

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

段玉裁《说文解字注》知识库的构建与应用

原创 沈小妮  等 2026-04-16 19:30 北京

段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:沈小妮,彭炜明,胡佳佳.段玉裁《说文解字注》知识库的构建与应用[J].数字人文研究,2025,5(4):68-83.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

段玉裁《说文解字注》知识库的构建与应用

沈小妮  彭炜明  胡佳佳

摘   要:段玉裁《说文解字注》是“说文学”研究的巅峰之作,集中体现了乾嘉学派的学术成就。当前有关《说文解字注》的数字化工作多停留于文本化阶段,尚未实现对其知识体系的深度挖掘与系统呈现。研究以《说文解字注》及其稿本《说文解字读》为底本构建知识库,设计了涵盖五大知识范畴、十个知识集、五十六个知识点的三层分类体系,完成了数万条知识实例的标注与结构化表示;在此基础上,开发了具备原文检索、知识导览与标注管理功能的交互式平台;并以对段玉裁的谐声归部研究为例,验证了知识库的应用潜力。这是数字人文方法在传统语言文字学领域的一次系统实践,为古籍深度数字化与人文研究范式创新提供了重要参考。

关键词:段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

作者简介:沈小妮,北京师范大学第二附属中学语文教师; 彭炜明,北京师范大学汉字汉语研究与社会应用实验室研究人员; 胡佳佳(通讯作者),北京师范大学文学院副教授,hjj81@126.com。

0

引 言

2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,再次强调推进古籍的数字化工作,“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级”。在我国古典目录学的著录中,有一类被系统归为“小学”类的特殊文献,即中国传统的语言文字学著作。“中国的传统语言学因为负载着三千年的文化信息,包涵着中华民族的世界观、价值观、民族观,所以,它不仅是一种学术资源,而且是一种知识资源;不仅是一种知识资源,而且是一种人文资源,一种道德资源。” 《说文解字》(以下称《说文》)是中国传统语言文字学最重要的著作。黄侃谓治“小学”须读十部书,而“《说文》一书,于小学实主中之主也”。段玉裁的《说文解字注》(以下称《段注》)是《说文》研究著作中最重要的一本,也是中国传统语言文字研究巅峰——乾嘉学术的代表。段氏的卓越成就,“不仅在于他‘究其微恉,通其大例’,对许书做了细密全面的校勘整理,更在于他通过对许书的注释,提出并初步解决了一系列有关汉语音韵学、文字学、词汇学、训诂学的重大问题,他能初步运用历史发展的观点和一些科学的方法来研究语言现象。换言之,他使《说文解字》的研究,从纯粹校订、考证的旧框子里解放出来,在某种意义上走上了科学语言学的轨道”。

在建设中国特色哲学社会科学学术体系的今天,系统梳理和总结以《段注》为代表的中国传统语言学研究高峰的学术思想与方法论,对总结和升华中国特色的语言文字学原创理论,具有特别重要的意义。从清代到当代,对《段注》的研究一直持续不断,但进入21世纪之后,研究成果却并没有极大丰富,对《段注》挖掘的广度与深度也不够充分。《段注》体大思精,其深刻的思想与科学的方法是散布在丰富的注释中的。《段注》知识库的建设,旨在将这些散布的知识与前人对《段注》的研究结合起来,通过多维联系来展现和揭示其中蕴含的科学内涵,辅助研究者从中提炼出具有现代价值的理论范式,实现对传统学术资源的创造性转化;为构建具有中国特色的理论体系提供重要的数字化研究资源和技术支撑。

目前对于《段注》的数字化工作大多仍处于影像化与文本化的阶段。如国家图书馆建设的中国古籍资源库(http://read.nlc.cn/thematDataSearch/toGujiIndex)里汇聚了多个古籍版本的《段注》高清数字影像;北京时代瀚堂科技有限公司的瀚堂典藏库(https://www.hytung.cn/)提供了经韵楼本《段注》的数字化文本和影像,可以进行字头与全文的字符串检索。北京师范大学的《说文解字》研究与应用平台(https//szsw.bnu.edu.cn),则在影像化和文本化的基础上,对《说文》小篆的形音义知识点进行了提取和结构化存储(如部首、义符、声符……)。我们把这种将知识点单独提取后再进行结构化存储的数据库称作知识库。与之前仅包含了影像、文本、著述信息与目录的古籍数据库不同,知识库是对古籍数字资源的更深层次和更细粒度的加工,它包含了根据前人研究,从原典中抽取、提炼出的具有意义的独立的知识成果,并按照一定的逻辑体系进行关联和组织,从而实现对原典内容的理解、重组和再造。如图 1所示,由于此平台提取和存储了《说文》关于每个小篆构形直接构件的知识点,用户就可以直接搜索到《说文》中以“七”为直接构件的所有小篆,这实际上就是平台为用户提供了关于小篆构形的知识服务。该平台同时提供了上海古籍出版社影印的经韵楼本《段注》的数字影像与文本,也涉及到《段注》个别知识点的提取,如为每个字头标注了段玉裁的古音归部。

图1 北师大《说文解字》研究与应用平台应用示例

知识库的构建是在平台已有《段注》文本与个别知识点的基础上,聚焦《段注》全体系知识点的系统提取与深度标注,最终构建的《段注》知识库具备双重应用价值——既可独立开发为专用应用平台(详见下文),也能作为《说文》研究的资源,通过对应字头链接至该平台的相关说解部分,为使用者提供更为精准的知识服务。

图2呈现了构建《段注》知识库与开发应用平台的实施路线图。本文第1、第2部分将围绕此路线图展开具体论述,第3部分则结合一个基于该知识库及平台的研究实例,进一步说明其应用价值。

图2《段注》知识库构件与应用平台开发实施路线图

1

《段注》知识库的构建

1.1  文本的数字化与结构化

知识库的构建首先还是需要文本的数字化。文本数字化的第一步则是选择合适的底本。段玉裁注《说文》,经历了长达近四十年的准备、撰写和修订,终于嘉庆二十年(1815)全部刊刻完成,是为经韵楼刻本。“除《清经解》所收的少数本子是重排本外,其余都是经韵楼本的复刻本,不但内容相同,每页的行数、起迄字也都相同。”  段氏自己曾在《段注》中提及,著此书前,先有长编《说文解字读》(以下称《说文读》),始为五百四十卷,既乃檃括成《注》。今北京图书馆藏有《说文读》抄本残卷七册(一至六,八),经朱小健、张和生整理,于1995年由北京师范大学出版社影印刊行[7]。尽管残缺,但它对于研究段玉裁的学术思想、《段注》的形成过程以及清代小学方法都具有极高的价值。

因此,用于知识库构建的基础文本有两种:一是上海古籍出版社1988年影印经韵楼本《段注》,二是北京师范大学出版社1995年出版的《说文读》。对于数字化后的文本,则采用关系数据库技术进行结构化存储。基于《段注》的特点,分卷、部首、字头三层设计数字化文本结构。卷表(Volume)(表1)关注《段注》的卷次结构。部首表(Radical)(表2)聚焦于《说文》部首,全书总计540个部首,每个部首分布于特定卷中,并统领若干字头。字头表是《段注》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。由于《说文》字头有正篆(位于每条说解之首的字形)和重文(位于每条说解之末的字形)之分,而《段注》亦对书中的重文进行了注释,所以字头表分正篆表(表3)和重文表(表4),两张表的字段类型基本相同。但重文表中包含对应正篆字段,以标示正篆与其重文的对应关系。

《说文读》与《段注》体例不同,是札记性质的,属于段玉裁长期研读《说文》心得的汇总。它不是依《说文》逐字做注,故多有未注之字,也有重出之字。行文格式上,低一格抄录许书正篆及说解全文,也有仅出重文;字头皆以楷书录之,但也存有篆书的情况,另起顶格作注;论及一字古音尚未使用古韵十七部,而是标以古韵韵目,但也有例外。《说文读》的结构亦分卷、部首、字头三个层次。卷表(du_volume)和部首表(du_radical)字段保持不变。字头表是《说文读》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。

两书字头之间的对应关系,通过《读》《注》关系(duzhu_relation)表(表5)的两个外键来实现。其中,“duanzhu_id”实现两书字头的对应关系,以便从《说文读》直接链接到《段注》的相应解释,进行文本比较。

1.2 《段注》知识体系的建构

不同领域的知识要素和结构各不相同。《段注》自成体系,在注释《说文》时采用了很多的术语与条例,如“浑言析言”“古今字”等,集中体现段玉裁的学术思想和理论,也是本研究要提取的“知识点”。具体操作上,我们选取《段注》研究专著中形成共识的术语条例 ,以《传统语言学辞典》中关于段玉裁的术语为补充,选择实例数超过十条的知识点,并按照传统语言文字学的研究框架,构建了含文字、训诂、音韵、校勘和引书五大知识范畴、十个知识集、五十六个知识点的三级分类知识体系(见表6)。

需要说明的是,本研究将《段注》知识点分为五大范畴,主要出于系统整理的需要,并非意味着知识点之间存在不可逾越的界限,例如“双声”“叠韵”属于训诂学中的声训术语,但是也体现了音韵学研究的内容;“音义同”包含训诂和音韵两个角度的内容。 范畴之间的交叉渗透,也体现了段氏综合形、音、义注解《说文》的特点。

1.3 《段注》知识点实例的提取

创建好知识分类体系,就可以逐个开展各知识点实例的提取工作了。《段注》中的知识点实例一般都存在形式化的术语,譬如,段氏谈论“引申”的术语有:“引申(引伸)、因、故、因之、因以为、故以为、引申(伸)假(叚)借、引申......凡、义之相因” 。这就便于采取正则表达式进行匹配提取后再进行人工校对与补充、完善(详见图 2知识提取部分)。《段注》中一个字头下的文本中可能蕴含多个知识点实例,而一类知识点可能在多个字头下文本中都有体现,如图 3所示。甚至在一个字头下的注释中包含了另一个字头的知识点。如:

“艸,百卉也。”卉下曰:“艸之总名也。”是谓转注。二屮、三屮,一也。引伸为艸稿、艸具之艸。“从二屮。”仓老切。古音在三部。俗以草为艸。乃别以皁为草。凡艸之属皆从艸。(《段注·艸部·艸》)

段氏在“艸”字下的注释就涉及转注、引申、古音、俗字等多个知识点,其中俗字知识点实例,还涉及到字头“草”。这就要求合理设计知识库的存储结构。

图3 《段注》文本与知识点及其实例的关系

1.4 《段注》知识库的结构

在知识库的实际构建中,我们采用关系数据库来存储知识体系与知识点实例。表6中的知识点范畴、知识集和知识点可以看作一套有层级的分类标签,这些标签间的层级关系就存储在知识体系表(Knowledge)中(表7)。“parent_id”是标识知识点层级结构的关键字段,通过外键约束机制与该表的“tag_id”字段形成自反引用关系,从而可以表示树状的分类模型。该字段在层级结构中的具体表现为:

第一层级,知识范畴(如“文字类”)的“parent_id”设为 NULL,作为根节点存在;

第二层级,知识集(如“六书”)通过“parent_id”指向其所属顶级分类的“tag_id”;

第三层级,知识点(如“象形”)则通过“parent_id”关联对应的二级分类“tag_id”。

除根节点外,每个知识节点必须有一个唯一的父节点(“parent_id”),形成“知识范畴→知识集→知识点”的严格层级架构。该设计方便数据更新和管理,当删除父标签时数据库会自动删除所有子标签;更新父标签ID时,相关引用自动更新。

在知识库中,每个知识点都有一张对应的实例表,存储所提取的该知识点的实例。根据实例所关联的对象类型,我们将知识点分为两类,不同类型的知识点实例在知识库中也采用不同的结构表示。

(1)单对象描述型知识点,内容仅涉及段玉裁对单个对象的特征、属性、状态的具体描述。“韵部”“构意”等均为此类。如“韵部”知识点实例“莹”的韵部是“十一部”,“构意”知识点实例“”的“构意”描述为“有物在一之下也”。对于此类知识点,实例表结构如表8所示。

(2)多对象关系型知识点,内容涉及对两个或多个对象(字头)间关系的描述,“音义同”“行废字”“古今字”“之言”等属此类。如段氏在“枼”字下注“叶与世音义俱相通”,表述了“叶”“世”两个词的“音近义通”的关系,属于“音义同”知识点实例;在“丕”字下注“故古多用不为丕”,沟通了“不”和“丕”的古今使用关系,属于“古今字”知识点实例。对于此类知识点,除了表8中的三个核心字段外,还增设了“对象1”(duixiang1)和“对象2”(duixiang2)两个字段,来表示对象间的关系(三个以上的对象关系则拆解为两两关系),如表9所示。

2

《段注》知识库应用平台的开发

《段注》知识库建设的目标在于促进学术资源的共享,以数字化技术赋能传统学术研究。为此,我们开发了一个交互式的《段注》知识库应用平台,提供三大功能模块:(1) 原文阅读与检索,(2)知识导览与检索,(3)知识标注与管理

2.1 原文阅读与检索

“原文阅读与检索”模块提供了两类检索:“字头检索”与“全文检索”。“字头检索”允许用户通过楷字搜索《段注》和《说文读》中的正篆或重文字头,检索结果是匹配到的字头及字头下的许氏说解(大字显示)和段氏注释(小字显示),见图4。“全文检索”允许用户在包括字头、说解和注释的全部文本内容中搜索字符或字符组合,检索结果是包含匹配内容的字头及字头下的说解和注释,并对匹配内容进行了高亮显示,见图5。点击检索结果中的字头,会跳转到该字头的原文阅读页面,见图6。

图 4  字头检索结果页面

原文阅读页面采取三栏式布局(图6)。页面左侧是目录区域,遵循原书结构,以“卷—部—字”为三级树形导航结构,使用户能够快速定位跳转至目标字头。中间的文本展示区,包含字头、字形、《段注》、《说文读》等信息,并提供高清原图链接。右侧的知识索引区,分为“文字”“音韵”“训诂”“校勘”“引书”五大类,呈现《段注》中该字头下的知识点实例。页面顶部也提供了便捷的检索框,输入内容后,直接重新搜索。

图 5 全文检索结果页面

图 6 原文阅读页面

2.2  知识导览与检索

“知识导览与检索”模块页面下方是整理的《段注》三层分类知识体系。段玉裁在注释《说文》时,可能有不同的用语来描述相同的语言现象;我们则在每组表达相同语言现象的用语中选择一个代表形式作为知识点的名称,而将其他用语作为其同义关联项。页面上方搜索框,可以帮助用户通过模糊的用语关联到对应的知识点。如,在搜索框键入“因”,用语中可能包含“因”的知识点(包括其解释和关联用语)会在页面底部出现(图7)。点击搜索结果,可以进入知识导览页面,并定位到该知识点(图8)。

图 7  知识检索结果页面示例

图8  知识导览页面示例(单对象描述性知识点)

       知识导览页面同样采用三栏式布局(图8)。左侧导航区采用“知识范畴—知识集—知识点”三级目录结构,通过渐进式交互,帮助用户定位知识点。中间区域,呈现该知识点的具体实例。实例的呈现是以字头为单位的,内容包括字头下的许氏说解(大字显示)和段氏注释(小字显示),注释中与知识点匹配的内容以红色突出显示。对于多对象关系型知识点,还会呈现与之相关联的字头信息(图9)。右侧是知识点说明,提供概念说明以及相关研究文献的索引。

图9 知识导览页面示例(多对象关系性知识点)

说明:此处,页面内容显示的是“音义同”知识点。段玉裁在“皋”字下注释“葢古告皋嗥號四字音義皆同。”在知识点实例中,就存储了“告—皋”“告—嗥”“告—號”三组对象关系型实例。因此,在“告”字下,还显示与其“音义同”的“皋”“嗥”“號”三字。

2.2 知识标注与管理

“知识管理与标注”提供了三个功能:知识点的修改、知识点的增加和知识点实例的标注(图10)。点击“管理知识点”按钮,进入知识点修改功能,选择待修改的知识点,弹出对话框,可以修改该知识点所属的范畴(每一个知识范畴对应的知识集保持不变)和实例类型(图11)。点击“新增知识点”按钮,弹出对话框,可以添加新增知识点的各种属性(图12)。点击“开始标注”按钮,进入知识点实例标注功能。

图10  知识管理与标注页面

图11  修改知识点功能

图12  新增知识点功能

知识标注页面也是三栏式布局。左侧顶部检索框支持关键词或正则表达式检索,可以搜索注文中包含特定用语的字头。点击字头,中间栏显示该字头下的原文。对于单对象描述型知识点,可以选择相应的文字复制到右侧标注工作区的知识描述框,保存标注后,添加为该知识点的一个新增实例(图13);对于多对象关系型知识点,还增加了对象组管理框,用以添加符合关系的对象组(图14),对象组是两两添加的,如果遇到三个或三个以上的对象关系,可以通过“新增对象组”利用将其分解为两两关系进行添加。

图13  知识标注页面(单对象描述型知识点)

图14  知识标注页面(多对象关系型知识点)

3

《段注》知识库应用举例

基于构建的《段注》知识库与应用平台,通过知识点间的关联与比照,可以系统展现段玉裁的研究成果,深入挖掘蕴含的学术思想。

以段玉裁的谐声归部为例。在完成了《段注》字头古韵归部与形声字声符的知识点标注后,我们将《段注》中所有形声字按其声符归入其所属的谐声系中,每一谐声系以“声首”为代表。如“照”的声符是“昭”;“昭”的声符是“召”;“召”的声符是“刀”;“刀”是一个非形声字,没有声符了,它就是“召”“昭”“照”的声首。以“刀”为直接声符(如“召”)或间接声符(如“昭”“照”)的所有形声字就构成了一个以“刀”为“声首”的谐声系,这个谐声系是有层次的。将“声首”按所属的古音韵部(即段玉裁的第一至十七部)进行排列,每个声首下按其声符层次展现谐声字,并在与“声首”不同韵部的谐声字后以括号标注其所属韵部(没有标注的谐声字与“声首”的韵部相同),这样就可以一览每个谐声系中的古韵韵部分布,如图15所示。

图 15 《段注》谐声系中韵部分布示例

说明:在《六书音韵表·古十七部谐声表》中,段玉裁将“求”放在第三部,以“求”为声符的形声字都被段玉裁归入第三部,但“求”字是被归入第一部的。此处根据“声首”韵部排列谐声系中,将其排在第一部中。

通过谐声系内韵部间的合韵次数计算,可以绘制出《段注》谐声偏旁分部互用的合韵热力矩阵(见图16)。段玉裁合韵说解释的是“音值相近的韵部,在古人用韵、文字使用、语词派生等方面会经常发生相通”的情况。此处计算的谐声系内韵部间的合韵次数是指谐声字与其声所属韵部不同的情况,如“弭”在第一部,以“弭”为声符的谐声字“麛”在十六部,则第一部与第十六部算作合韵一次。图16 矩阵中的数值就表示对应行、列所代表的韵部在谐声网络中发生合韵的次数,是一个沿主对角线对称的矩阵,次数越多,颜色越深。

段玉裁是第一个打破《广韵》次第,按古音远近关系排列韵部次序的。两个韵部之间的合韵的次数越多,则古音就可能就越相近,越应该相邻排列。反映在图16中,合韵次数多的颜色较深的区域就主要集中在主对角线的两侧,可见段氏古音框架构建的科学性。其中比较特殊的是第一部与第二部,第五部和第六部,第八部与第九部,虽然相邻,但几乎不发生合韵。段玉裁在《古十七部分合用类分表》中,将十七部分为六类(第一部为第一类;第二部至第五部为第二类,第六部至第八部为第三类,第九部至第十一部为第四类,第十二部至第十四部为第五类,第十五部至第十七部为第六类),各大类的区分主要以同韵尾为标准。其中第一和第二部第五和第六部,第八和第九部就是前四类的分界。合韵次数最多的是第十五和第十六部,第十二和第十三部,第十四部和十五部,第七和第八部。

段氏的十五部和十六部就是被钱大昕赞誉为“凿破混沌”的“支之脂三分”中的“脂”部和“支”部,一部则为“之”部。戴震对段氏“支脂之三分”的发现也是赞不绝口,认为“此说为确论”,但同时认为“支”“脂”“之”三部应该放在一起,不应“之”部列第一,而“脂”“支”远在第十五部和第十六部。从图16数据来看,第一部和第十五部、第十六部合韵次数均较少。第十二部和十三部则对应段氏古韵分部的另一贡献“真文分部”中的“真”部和“文”部。江有诰评价“真文分部”时说道:“段氏之分真、文,人皆疑之,有诰初亦不之信也,细抽绎之,真与耕通用为多,文与元合用较广,此真、文之界限也。”其中与“真”通用为多的“耕”部就是段氏第十一部,而与“元”合用为广的“文”部则是段氏第十四部,江有诰之说也可以从图16中得到验证。第七部和第八部则是十七部中唯二的收唇韵,以-m、-p为韵尾。十七部中与其他韵部发生合韵最多的是第十五部(每行合韵次数相加),这与段氏对第十五部的界分过宽有关。在段氏的异平同入框架下,第十五部是包含入声韵的,且第十三部和第十四部皆以十五部之入为入。

图16 《段注》谐声偏旁分部互用的合韵热力矩阵

前人关于段玉裁谐声归部的研究主要集中于三个方面:一,《段注》字下所注韵部与《六书音韵表》的差异比较,如周祖谟、何九盈等;二,段氏对谐声字古音归部的处理原则与方法,如刘忠华;三,“谐声偏旁分别部居”所体现的韵部间的远近关系,如郭必之。较全面的研究有张道俊的《<说文解字注>古韵订补》与《<说文解字注>古韵归部》,前者对《段注》中韵部未标、错标以及游移字的情况进行了订补校勘;后者通过对比,探讨了段氏古音归部的依据以及归部标准的变化。

《段注》知识库的构建,不仅可以贮存前人的研究成果,还可以推动相关研究路径的三重突破:其一,支持对段氏谐声归部体系的系统性检验,通过批量比对与统计分析,揭示其内在逻辑与潜在矛盾;其二,借助关联查询与可视化技术,为其理论与方法提供直观的数据支撑;其三,知识库的开放性与可扩展性,有利于后续整合构形、音韵、训诂等多维数据,拓展研究的深度与广度。

4

结 语

段玉裁《说文解字注》知识库以段玉裁《说文解字注》与《说文解字读》为底本,系统梳理其内在的结构,构建了涵盖文字、音韵、训诂、校勘和引书五大范畴的三层分类知识体系,并完成了五十六个知识点、数万条实例的结构化提取与存储。在此基础上开发的交互式应用平台,不仅支持原文检索与知识导览功能,更提供了开放式标注与管理功能,支持知识库的可持续建设。

展望未来,研究仍有多方面的深化空间。知识层面,可进一步扩充专题知识集,构建更为丰富、立体的学术语境;技术层面,可探索引入自然语言处理技术,辅助知识点实例的半自动标注与关系抽取,提升知识库构建的智能化水平;应用层面,可开发面向不同用户群体的接口,如为专业学者提供网络分析等深度研究工具,推动数字化研究范式的转型。此外,知识库的可持续发展机制也需进一步探索,如建立协同标注模式,吸引领域专家通过在线平台参与审核、补充与讨论、保障知识库的活力与权威性。我们期望《段注》知识库能够逐步成长为一个动态演进、持续完善的数字学术基础设施,为中国传统语言文字学传承、发展与创新提供扎实资源支撑与方法赋能。

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

中国人民大学数字人文研究院发布《全球视野下的中国古籍数智化演进与未来趋势报告》

数字人文研究院 2026-04-15 19:09 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

该报告对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结

2026年4月14日,世界互联网大会亚太峰会“典籍数智化与传播论坛”在香港举行。本次论坛的主题为“从‘藏诸名山’到‘传于指尖’:数智时代的典籍记忆与文明互鉴”,旨在探讨在人工智能技术背景下,传统典籍如何实现从物理保存到数字化传播的转型。在论坛成果发布环节,中国人民大学信息资源管理学院数字人文系教授、数字人文研究院研究员夏翠娟代表研究院发布了《全球视野下的中国古籍数智化演进与未来趋势报告》(以下简称报告)。该报告作为世界互联网大会文化遗产数字化专委会系列研究成果,由夏翠娟教授带领中国人民大学数字人文研究院多位研究员共同编制,基于对全球范围内多个国家、文化记忆机构及科研机构的调研,对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结。

报告首先明确了调研的范围与对象。参考了《古籍定级标准》(WH/T 20-2006/GB/T31076.1-2014),界定了“中国古籍”的定义和范围。报告认为,古籍作为以文本、图像、实物等形式承载知识与思想的文化记忆媒介,其数智化转化不仅关乎文献本身的保存,更涉及中华传统知识生产方式与文化传承机制在现代技术环境下的延续。

在调研内容方面,报告的第一部分聚焦于全球数字化存量与增量的考察。通过对海外文化记忆机构的深度调研,报告提炼了中国古籍载体形态的演进历程——数字化、数据化、语义化、智能化,即从物理纸本到数字影像,到可计算文本和结构化数据,再到关联数据和知识图谱,以及当前的垂直领域模型训练数据集和语料库。研究发现,古籍的利用方式经历了从信息孤岛向开放互联转变,正处于从数字化到数智化转型的窗口期。这种演进轨迹反映了技术在跨越时空阻隔、推动文化资源在全球范围内流动中的作用,同时也揭示了当前数字化资源在开放度与互操作性方面存在的差异。

技术路线的演进和提升建议是本报告的核心内容之一。第二部分通过对典型案例的分析,评估了技术的迭代对古籍开发利用模式的影响,提出了从载体数字化,到文本结构化,再到数据语义化和资源向量化的数智化开发技术演进路径,并总结了不同类型的案例在技术应用上的共性和差异性,对技术应用的问题进行了分析,并提出了技术提升的建议。报告提出,技术的应用伴随着伦理治理、版权保护及算法偏见等问题,建议在技术开发过程中保持审慎,支持人在回路机制,以确保技术手段与文化传承的目标保持一致。

国际合作与人智协同标准的制订是报告关注的第三个重点。报告调研了IIIF(国际图像互操作框架)、关联数据以及MCP(模型上下文协议)等标准规范在古籍领域的应用现状。研究认为,领域内广泛认同的标准规范的共同制订和落地应用是打破数据壁垒、实现国际共建共享的基础,但类似IIIF和关联数据这样能促进全球中国古籍资源共享和利用的国际标准也遇到了运维成本和技术门槛高、本地化应用水土不服的问题。而在人工智能背景下,类似模型上下文协议(MCP)这样的规范有望将全球范围内已有的中国古籍数智化成果与人工智能技术结合起来,为解决人工智能技术的幻觉问题和多源数据互证提供一定的解决方案,值得关注并促进本地化和垂直领域应用。报告分析了当前国际合作中的瓶颈,如数据主权、技术壁垒以及发展不均等,并建议未来应进一步完善兼具前瞻性、包容性和本地化的技术标准,以应对人机关系重构为中国古籍数智化开发利用带来的新机遇。

在结语部分,报告指出,中国古籍的数智化转型是一场涉及文明传承方式的深刻变革。在人工智能重塑社会生产力的趋势下,古籍的保护已不再局限于传统的扫描、存储、检索、阅览,而是向以资源、数据和知识为基石的智能利用阶段迈进。尽管技术飞跃显著,但全球范围内仍面临算法偏见、学术伦理以及文化主体性保护等共同挑战。为此,中国人民大学数字人文研究院在报告中发出倡议,呼吁全球学界、文化记忆机构与技术界开展跨界协作,推动中国古籍数字资源库、知识库、语料库的建设融入人工智能技术的发展议程,将典籍转化为碳基人类与硅基智能共同的文化记忆。

该报告的编制工作由中国人民大学数字人文研究院夏翠娟研究员带领多名师生共同完成。参与编制的人员包括:中国人民大学信息资源管理学院教授夏翠娟,讲师龙家庆、严承希、胡云怡;信息资源管理学院博士生郑振魏、曲梓萌、孟令国;文学院博士生居思微,硕士生吴世强、祝章霞。期望这份跨学科团队共同完成的报告,能为中国古籍在数智时代的保护、研究与传播提供参考。

撰稿/图片:夏翠娟

排版:任佳悦

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

  •  

《数字人文研究》2026年第1期目录及摘要

数字人文研究 2026-04-13 12:26 北京

第6卷,总第21期

批判性再谈“数字人文”

许喆

摘要

数字人文作为人文研究中的新兴领域,其学科属性迄今仍较为模糊,并伴随持续争议。文章从方法论视角出发,综合分析各国学者关于数字人文在克服传统人文研究局限方面的论述,并批判性地指出当前数字人文研究中“重数据建设、轻实质研究”的倾向。文章主张,数字人文本质上应被理解为人文研究的方法论,而非独立学科,并强调数据准确性、研究的科学性和论证逻辑的严密性。与此同时,文章批判了当前数字人文教育过分关注技术工具的使用,而忽视人文问题意识以及发现问题和解决问题能力的培养,因而有必要从“技术中心”转向“问题中心”和“批判思维”导向。

关键词

数字人文; 方法论; 学科建设; 批判性思维; 数据准确性; 研究范式

作者简介 

许喆(HEO Chul),韩国釜山大学佔毕斋研究所研究员,鲁东大学区域国别学院特聘教授。

叙事责任与人工智能——AI如何挑战人类的责任与意义理解

马克·科克尔伯格   易瑶琴  杨 璇/译

摘要

多数责任论述聚焦于一种责任,即道德责任,或对道德责任的特定方面展开探讨,如能动性。文章概述了一个更广泛的责任思考框架,涵盖因果责任、关系责任,以及作者称之的“叙事责任”——作为“诠释责任”的一种形式,并将这些责任概念与不同类型的知识、学科和关于人的存在的观点相联系,阐释此框架如何有助于绘制和分析人工智能以各种方式挑战人类的责任和意义构建。文章借助最新的诠释学方法研究技术,提出除了道德责任等类型的责任外,人类还承担着叙事责任和诠释责任——一般而言,也包括对技术的责任。例如,人类的任务是了解并运用人工智能,在必要时对其加以约束。虽然从后人类主义的角度来看,技术有助于意义构建,但人类是体验者和责任承担者,在涉及此类诠释责任时,人类始终占据主导地位。面对一个充满数据要素、相关性和概率的世界,注定要去做出合理解释。此外,这一工作还涉及规范层面,有时甚至是政治层面:倘若人类希望避免自己的故事被他人借助技术手段改写,那么承认并履行诠释责任尤为重要。

关键词 

责任;  叙事责任;  诠释责任;  人工智能;  诠释学;  技术哲学

作者简介 

马克·科克尔伯格(Mark Coeckelbergh),维也纳大学哲学系教授;

易瑶琴(译者),云南大学马克思主义学院硕士研究生,Email:18000289002@163.com;

杨璇(译者),云南大学讲师。

中共党史研究语料智能体的构建经验与思考

马思宇  王亚星  肖桐月  李庚辰

摘要

中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属OCR适配方案与父子分段式知识库构建模式,形成“以OCR适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑”的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

关键词 

党史研究; 史料转化; 知识库构建; 数字人文

作者简介 

马思宇,南开大学历史学院副教授,Email:masynku@126.com;

王亚星,南开大学计算机学院副教授;

肖桐月,南开大学历史学院2022级本科生;

李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

张光伟

摘要

面对浩如烟海且高度非结构化的历史档案,传统的数字化处理与关键词检索模式已难以满足日益复杂的史学研究需求,特别是在处理如《盛宣怀档案》这类涉及晚清政治、经济、外交等多维网络的复杂史料时,研究者常陷入查不全、理不清、关联难的困境。研究在回顾数字人文从数字化、结构化向智能化转型的技术背景的基础上,引入大语言模型前沿的思维链技术与推理一行动框架,构建了一个基于AgenlicRAG的“盛宣怀档案智能分析系统”。该系统突破了传统知识图谱预定义的局限,通过“意图理解、资料检索、资料总结、评估决策、内容撰写”五个智能体的协同工作,实现了对全量档案文本的语义向量化与动态推理。系统具备主动规划检索路径、多步逻辑推演、跨文档证据互证以及自我纠错的能力,能够模拟历史学家“提出假设一史料搜集一考证辨析一形成结论”的认知过程。文章通过微观、中观和宏观三个层面的典型案例展示了该系统的应用潜力。研究实践证明,AI时代这种“人机回环"(Human-in-the-loop)的协作模式,不仅能将历史学家从繁琐的信息搜寻中解放出来,更开启了以数字文献考古与全息逻辑增强为特征的历史研究新探索的可能性。

关键词 

盛宣怀档案; 大语言模型; ReAct框架; 思维链; Agentic RAG; 人机协作

作者简介 

张光伟,陕西师范大学历史文化学院讲师,Email:zhangguangwei@ snnu.edu.cn。

本地化智能史料管理系统的构建方法与实践

安高怡

摘要

在当前数字化背景下,传统中心化在线数据库在数据自主权、持续运营和海量资料协同方面面临结构性挑战。研究旨在提出并构建一套以“数据本地化”为核心,利用Obsidian笔记软件、开源OCR技术及自建私有云同步机制的综合方案,用以建立个人化、具备高可移植性与协作性的史料数据库。该方案通过Obsidian的纯Markdown架构和插件生态,解决了史料与笔记的割裂问题,并融入AI能力进行史料对话和分析。同时,通过自建高性能私有云,突破传统网盘的带宽限制,实现数据自主权和高效团队协作。该方案为个体研究者和小型学术团队提供了一种低成本、可持续、高安全性的数字人文研究工作流,有助于推动学术积累的开放和阶梯式发展。

关键词 

史学数据库; 数字人文; 数据本地化; Obsidian

作者简介 

安高怡,华中师范大学历史与文化学院硕士研究生,Email:205959586@qq.com。

文化遗产的“游戏化生存”

——兼论数字人文研究中的可玩性

王一楠

摘要

文章以“游戏化生存”为理论命题,系统探讨文化遗产在数字原生范式中的存在方式及其认识路径。将电子游戏界定为兼具拟真系统、具身界面、可能时空与情动媒介四重属性的程序化建模/模拟系统,并揭示出其在强化联觉体验、激活身体图式、延展想象空间及引导公共行动等方面的机制潜能。基于此,进一步提炼出“可玩性”作为数字人文研究中的关键概念,将其界定为操作可能性与生成开放性的统一,并阐发其在融合表示、具身认知、动态推演与能量汇聚四个维度的方法论价值。研究指出,可玩性不仅是数字文化遗产的存续机制,更是推动人文知识生产方式从文本阐释转向模拟与体验的关键路径。

关键词 

文化遗产; 游戏化生存; 电子游戏; 数字人文; 可玩性

作者简介 

王一楠,中国人民大学信息资源管理学院讲师、数字人文研究院研究员,Email:yinan.wang@ ruc.edu.cn。

提示词对AI文学创造力的激发机制研究

李倩  吴静

摘要

随着生成式人工智能深度介入文学创作,提示词已成为影响人机协同创作效果的关键因摘素。针对提示词如何激发其文学创造力这一问题,研究设计了五类提示词在DeepSeek模型上进行生成实验,并采用主客观结合评估体系并展开量化与质性分析。实验揭示:提示词通过“语义定向一认知修辞介入”机制,将人类意图转化为AI可执行创造操作;其中,抽象概念型激活跨域类比,多元融合型促进异质语义整合。AI文化寄生性既反映人类集体无意识,又提供陌生化表达契机,推动分布式创造力涌现。提示词设计与多轮生成策略在AI文学创作中的关键作用,为数字人文语境下人机协同创作提供理论与方法参考。

关键词 

提示词; 人工智能文学创作; 创造力评估; 数字修辞学

作者简介 

李倩,南京师范大学公共管理学院哲学系博士研究生、新疆财经大学中国语言文化学院语言文学系讲师;

吴静,华东师范大学哲学系教授。

水书文字数据库和智能识别平台构建

孙治弘  谢雨霏  刘凌  叶晨

摘要

水书是中国水族独有的文字文献,蕴含丰富的民族文化信息,被誉为水族的“百科全书”。然而,受限于数据资源稀缺、手写字形繁复且非标准化、语义解读高度依赖稀缺传承人等因素,其数字化保护与智能化识别面临巨大挑战。为此,研究构建了“水书文字数据库”与“水书智能识别平台”。水书文字数据库采用“书一篇一句一字”四级架构,整合水书字形图像、注音及释文信息,并提供多路径检索功能,有效汇聚并管理分散的水书文献资源。水书智能识别平台基于两阶段深度学习模型(DBNet文本检测+CRNN文本识别),通过引入Unicode私有区编码方案并采用数据增强策略,针对水书数据的低资源特性、长尾分布及复杂版式进行优化,实现了水书手写体文本的高精度识别。实验结果表明,该方法在水书文本检测与识别任务上的性能显著优于现有通用OCR方案。研究为水书等少数民族濒危文字的数字化保护提供了有效的技术解决方案,对相关古籍文献的数字人文研究具有重要参考价值。

关键词 

水书; 数字化保护; 智能识别; 文字数据库

作者简介 

孙治弘,同济大学计算机科学与技术学院,研究生;

谢雨霏,同济大学计算机科学与技术学院,本科生;

刘凌(通讯作者),华东师范大学中国文字研究与应用中心,副教授,Email:lingliu60@163.com;

叶晨(通讯作者),同济大学计算机科学与技术学院,教授级高级工程师,Email:yechen@tongji.edu.cn.

全球虚拟货币发展的历史空间进程研究——以比特币为核心

赵佳文

摘要

在当代电子信息技术迅速发展的背景下,虚拟货币诞生并席卷全世界,搅动了全球金融市场及传统治理体系。自中本聪发表“比特币白皮书”以来,比特币就成为代表性的虚拟货币,文章依托电子历史文献学、互联网考古方法,基于互联网原生电子史料,结合国内外最新研究,从全球、长时段的角度追溯比特币的发展史,比较不同国家的监管政策,发掘比特币作为去中心化时代、逆全球化时代的新型交易通货的重要价值,并指出虚拟货币的演变是技术协议、物质载体与社会应用三者交织的产物,由此提出“三元嵌套空间生产模型”假说。文章为理解当代金融史和互联网发展史提供了一个新的角度和路径。

关键词 

虚拟货币; 区块链技术; 金融史; 互联网考古; 互联网历史; 数字人文

作者简介 

赵佳文,延边大学人文社会科学学院历史系讲师,Email:21110760017@m.fudan.edu.cn。

阅读原文

跳转微信打开

  •  

一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化

01fish 2026-04-09 16:01 北京

项目介绍

shiji-kb:一个开源的古籍知识工程项目。做了两件事:

第一,用AI将《史记》130篇、57万字全部转化为结构化知——18类实体近10万次标注、3,185个事件、7,652条关系、675项知识单元;

第二,把整个过程沉淀为26个可复用的知识库构造方法论Skill文档,覆盖从校勘到知识推理的9大阶段。换一部书,管线不变,参数调整,即可构造新的知识库。

传统文史研究的核心困境是人力瓶颈,而中国古典文献的总量以亿字计,这个宝库还没有被充分挖掘。这个项目最开始的初心是要回答一直以来的问题:AI能否把"皓首穷经"从数十年压缩到数周?AI能否把知识变为活的?

当前实践下来答案是肯定的。一个人加一群AI Agent可以完成全部工作。现成果以及方法论已开源,欢迎参与一同创造。

项目创作者为西瓜(鲍捷),一个研究人工智能知识工程30+年的文史爱好者。

Github地址(开源)

https://github.com/baojie/shiji-kb

(这个项目处于频繁更新状态,内容在不断丰富和调整,AI在把知识变为活的,这个知识库也是一个活的)

在线体验

https://baojie.github.io/shiji-kb

(文末有交流群,开放出来,非常期待收到更多反馈)


核心成果

类别

数量

说明

文本标注

130篇,57.7万字

18类实体语义标注,100%覆盖

实体

12,380词条,99,214次标注

人名4,112、地名1,861、官职2,158等18类

事件

3,185个,11类事件类型

98.7%事件已标注公元纪年(前2700年~前87年)

事件关系

7,652条,9种类型

含1,876个跨章换乘(互见/共人/共地/同期)

事件地铁图

130条线路

支持缩放/拖拽/搜索/实体链接/原文引用

知识单元

434事实 + 241技能

7,497个实体关联

方法论Skill

26个文档,9大阶段

可复用,适用于其他任何书籍

核心数据总览

内容细节详见:给《史记》加上语法高亮:一个人+一群AI的55小时


功能特性

语法高亮:18类实体,一眼看懂谁在哪里做了什么

打开任何一篇,古文不再是黑字白底的方块字——人名、地名、官职、时间、朝代、邦国、氏族、身份、制度、族群、器物、天文、生物、数量、神话、典籍、礼仪、刑法,18类实体各有颜色。平均每6个字就有一个实体被识别上色。对话也被标记——斜体加淡褐底色,让"王侯将相宁有种乎!"从叙述中浮现。

这是18类实体+年表和事件

图片

语法高亮效果

五体分布

除了语法高亮之外,我还做了语义排版,这个也处于实验状态当中,做了第一章,词和句层面的工作都开启了。

语义排版,如下图:

图片

三家注弹窗:一千年前的注释即点即现(实验中,本月上齐)

裴骃《集解》、司马贞《索隐》、张守节《正义》——已对齐到正文的具体句子。鼠标悬停,注释自动浮现。不用翻书,不用离开页面。

这目前是实验项目,只做完了第一章,本月上齐,在 labs 那个文件夹。

三家注弹窗

事件知识图谱:3,185个事件 + 7,652条关系

从130篇中提取了3,185个历史事件(战争、继位、政治、改革、家族等11类),98.7%标注了公元纪年。事件之间建立了7,652条关系——因果、延续、包含、对立、互见等9种类型,其中1,876条跨章关系让分散在不同篇章的同一段历史重新连接。

事件类型分布

事件地铁图:用地铁线路的方式看历史(实验中,本月更新)

130篇 = 130条地铁线路,3,185个事件 = 3,185个站点,跨章关系 = 换乘连线。支持缩放、拖拽、搜索,点击站点可跳转到原文。时间轴横跨公元前2700年到前87年——整部《史记》的全景图。

事件地铁图

实体索引:12,380个词条,18类分类页面

所有实体汇总为结构化索引,每类一个独立页面(人名、地名、官职、时间、朝代、邦国、器物……共18类)。含595条别名映射(刘邦=沛公=汉王=高祖=高帝=刘季),644处语义消歧。点击任何实体,看它在130篇中的全部出处。

实体索引

知识单元:434项事实 + 241项可操作的历史技能

事实层:434项知识单元,覆盖人物传记、诸侯国、军事战役等14个主题。每项含定义、上下文、关联实体、原文出处。

技能层:241项从《史记》叙事中提炼的实战案例——治国理政57项(如推恩令:用分封瓦解诸侯)、军事战略54项(如背水一战:置之死地而后生)、外交谈判24项。不是成语,是有时间、人物、过程、结果的完整案例。

知识单元

十表渲染:两千年来最难用的年表变好用了

十二诸侯年表——15列×637行,362年间14个政权——在纸质书上几乎不可用。现在:表头吸顶、交替行背景色、悬停高亮、表内实体照样标注。

十表渲染

史记争霸游戏(实验中)

基于知识图谱数据的策略游戏。人物能力值来自《史记》记载,势力版图来自标注的地名关系。

由于我本人在游戏这块技能有限,因此我只完成了第一步,这块期待游戏方面的朋友一起来创造。

游戏目前在这个仓库下:https://github.com/baojie/shiji-kb/tree/main/app/game

史记争霸游戏


26个方法论Skill:换一部书,可上手构建

这是整个项目最有价值的部分,《史记》只是一个起点。 《史记》处理过程中的skill已完整沉淀下来,是一套可复用方法论。

目前的skill整个框架,还是比较粗糙的,会慢慢改进。

26个Skill文档,覆盖从原始文本到知识应用的9大阶段:

九步管线

你可以用这套skill来分析你选定的任何书籍。

每个阶段都有详细的操作文档:

阶段

Skill数

核心文档

干什么

校勘

1

SKILL_01

多版本比对,底本校正

结构分析

6

SKILL_02~02f

章节切分、段落编号、结构语义分析

实体构建

4

SKILL_03~03e

18类NER标注、消歧、多轮反思审查

事件构建

5

SKILL_04~04e

事件提取、十表处理、纪年推断、年代审查、年份消歧

关系构建

2

SKILL_05a~05b

9种事件关系、人物关系+家谱

本体构建

1

SKILL_06a

词表→分类树→OWL/RDF

逻辑推理

1

SKILL_07

矛盾检测、规律发现

SKU构造

1

SKILL_08

知识单元化

应用构造

3

SKILL_09~09b

阅读器、地铁图、游戏化

可以看到,在这个skill框架当中,后面几个类别的skill比较少,我当前主要工作主要放在了前面,这一整套skill会持续迭代,发布出来也是期待收到更多反馈。

换一本书,需要调整的只是: 实体类型(佛经需增加"佛教术语"类)、体裁分类(编年体和纪传体提示词不同)、别名规则、年份体系。框架不变,参数变。

扩展路线:

目标

字数

现状

史记(已完成)

57万字

汉书、后汉书、三国志

~200万字

近期

二十四史全集

~4,600万字

中期

资治通鉴系列

~700万字

中期

诸子百家、四库全书

数亿字

远期

扩展路线


怎么用这个项目

一、直接在线阅读(零门槛)

打开 https://baojie.github.io/shiji-kb ,选章节即可。

推荐体验路线:

顺序

看什么

链接

1

项羽本纪——鸿门宴、乌江自刎,最精彩的叙事

007章

2

刺客列传——荆轲刺秦,对话高亮效果最佳

086章

3

十二诸侯年表——362年全景,感受表格渲染

014章

4

实体索引——按人名/地名/官职分类浏览

索引首页

5

事件地铁图——130条线路的全景历史

地铁图

6

史记争霸——策略游戏

游戏

二、搭配AI使用(研究/创作)

git clone https://github.com/baojie/shiji-kb.git 

仓库里的结构化数据(JSON/Markdown)可以直接喂给Claude、GPT等大模型:

数据目录

内容

适合问什么

kg/events/data/

3,185个事件+关系

"秦统一六国的完整时间线"

kg/entities/data/

12,380个实体+别名

"韩非和李斯的所有交集"

kg/chronology/data/

380位君主在位年+公元映射

"公元前260年发生了什么"

kg/genealogy/data/

帝王世系图

"刘邦的后代有谁当了皇帝"

kg/relations/data/

人物关系网络

"项羽阵营的核心人物关系"

ontology/skus/

675项知识单元

"《史记》中有哪些外交策略"

数据目录

三、用Skill处理其他任何书籍(开发者)

这是项目最大的复用价值。26个Skill文档在 skills/ 目录下,每个都是完整的操作手册。

最简路径:

将这些skill和你的文本,交给claude/或者任何agent,根据这一套方法论,帮我构造一个xxx知识库。

每个Skill文档包含:输入输出规范、标注规则、质检工具、常见错误、反思修正流程。直接照着做就行。

skill 你可以用在任何编程助手来调用。创作者使用的是claude code,若你没有安装,此处非常推荐上手,安装地址为 Claude Code 安装与使用教程(新手超详细版)

四、做内容创作(素材引擎)

创作场景

怎么用

历史小说/剧本

kg/events/

 查事件时间线,kg/relations/ 查人物关系

历史游戏

ontology/skus/

 的241项技能直接转化为游戏技能卡

短剧/短视频

ontology/eureka.md

 里的洞见就是现成的选题

教学备课

实体索引页面按类别浏览,配合三家注弹窗

学术研究

事件关系做一致性检验,自动发现记载矛盾

创作场景


知识结构化之后,会发生什么

项目在知识提取过程中意外发现了20多个跨章洞察——这些不是预设的研究假设,而是知识图谱结构化后自然涌现的模式:

知识涌现


写在最后

这个项目的核心价值不是"给《史记》加了颜色"——是把"书变成知识库"这件事的完整方法论开源了。

26个Skill、9大阶段、每个工序都有lint和validate工具。一个人加AI,用同一条管线,可以处理任何书籍。《史记》57万字是第一个试验田,二十四史4,600万字是下一步,列表非常长,逐步让几千年积累的文字全部结构化。

关于这个项目,只开启了1%,欢迎共同来迭代。知识工程的所有问题,在当前AI时代都已经解决,只剩下我们坚定执行和创造。

最终愿景:建立一个由AI Agent维护和持续进化的知识网络,让任何人都能以问答、可视化、推理的方式探索数千年的智慧。

在线体验:https://baojie.github.io/shiji-kb

GitHub:https://github.com/baojie/shiji-kb

非常期待和你一起探索各种 AI 增强阅读的可能性,欢迎来群里和项目创造者直接交流

图片

若群满了,可以加  18501790646 备注ai阅读


调研 & 撰写:AI(Claude)
主导 & 审校:01fish

阅读原文

跳转微信打开

  •  

经典回顾 | 数字人文主义者需要了解算法吗?(2016)

本杰明·M·施密特 2026-04-07 09:01 北京

本杰明·M·施密特:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。

图片

《傅立叶艺术》Juan López Gómez

https://www.fourierart.com/

Do Digital Humanists Need to Understand Algorithms? 

数字人文主义者需要了解算法吗?

作者:本杰明·M·施密特 (Benjamin M. Schmidt)

译者:丁怡瑞(剑桥大学数字人文系硕士研究生)

算法与转换

伊恩·博戈斯特(Ian Bogost)最近发表了一篇文章,认为对算法的过度迷恋会损害我们准确描述所处世界的能力。他写道:“像‘算法’这样的概念已经沦为草率的简写,成了将多部分复杂系统误认为简单单一系统的俚语”。他指出,即使是计算文化的批评者也难以抵挡这种诱惑,将算法描述得仿佛它们拥有某种无可辩驳的美;这导致他们对计算行为形成了一种“扭曲的、神学式的理解”,忽略了人类的能动性。

作为少数在人文学科领域内创造并应用算法的领域,数字人文拥有得天独厚的优势,能够帮助人文学者更好地理解算法的运作机制,而不是盲目地崇拜或谴责它们。然而,我们常常刻意忽略算法背后的理解和意义,转而采用一种工具化的方法,仅仅将算法视为可以凭直觉判断其效用的手段。计算机底层的复杂性使得某种程度的认知盲区在所难免。当复杂度超越临界点时,人文学者确实无需理解产出结果的算法机制;鉴于现代软件的复杂性,他们即便想理解也难以企及。

尽管软件中有些元素我们可以忽略,但要将人文数据分析作为一项学术活动而非仅仅是一项技术活动来实践,一些基本的理解标准仍然必不可少。有些算法的确是繁复冗杂、缺乏连贯性和目的性的程序,而另一些算法则包含着我们完全能够理解的假设。算法的运行方式与算法的运行方式截然不同,理解算法的运行方式更为重要。我想在此论证的是,一个成熟的人文数据分析领域不应仅仅从外部检验算法的有效性;相反,它应该探索软件所描述的流程背后假设的意义。简而言之:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。唯有如此,我们的实践才能更具成效,更可能真正实现原创性突破。

这一论点的核心在于区分算法和转换。算法是一组可精确指定的步骤,用于产生特定的输出结果。“算法”是计算机科学的核心研究对象;关于算法的主要理论问题涉及运行这些步骤所需的资源(特别是时间和内存)。另一方面,“转换”是指算法可能进行的重构。这个术语与计算机科学的联系相对较弱。其最紧密的学科联系在于数学(例如几何学中描述对形状可施加的操作)和语言学(构成诺姆·乔姆斯基“转换语法”理论的核心)。

从计算角度来看,算法创造转换。然而,从认知层面来说,人们设计算法是为了自动执行特定的转换。也就是说:转换表达了一个连贯的目标,这个目标可以独立于产生它的算法而被理解。也许最简单的例子就是排序的转换。“有序性”是一个普遍属性,任何人都可以独立于产生它的操作来理解它。在人文研究中,字母排序的用途,例如生成文本索引或整理姓名索引,与用于排序的具体算法无关。事实上,计算机排序列表的具体算法存在多种变体。某些经典的排序算法,例如快速排序,是计算机科学教学的基础。(对排序算法的经典汇编和解释是克努特经典计算机科学著作的前半部分。)如果认为人文学者需要理解像快速排序这样的算法才能使用排序后的列表,那就太荒谬了。但是, 我们确实需要理解有序性本身,才能充分利用排序列表的独特特性。

理解转换意义的另一种方法是将算法工具化地使用;例如,寄希望于潜在狄利克雷分配(LDA)之类的算法能够近似表示“主题”、“论述”或“论题”等现有对象,并探索其无法做到的细小领域。然而,这种将软件视为工具的方法,对于理解它几乎毫无益处;它寄希望于算法能够近似地表示现有意义,往往也阻碍了其创造新意义的可能性。传统人文主义者对大规模文本分析的主要批评是,它未能为学者提供任何新知。此类批评虽常有谬误,却确实触及了一个令人沮丧的缺陷:当前普遍采用的远读方法往往无法开辟理解文本的新路径。

将大规模分析与斯蒂芬·拉姆齐(Stephen Ramsay)所谓的“算法批评(algorithmic criticism)”相结合,虽然可能不那么立竿见影,但却更有趣。算法批评是指运用算法转换来开启文本的新解读方式。即便某些算法(如拉姆齐所描述的案例)在转换过程中本身不具意义,这一方法依然有效。但那些本身就蕴含某种目的的转换,更可以帮助我们创造出新的文本版本,从而提供新颖或有用的视角。探寻并描述这些转换如何运作,正是我们应该更加重视和推广的工作。

傅里叶变换与文学时间

安妮·斯沃福德(Annie Swafford)和马特·乔克斯 (Matt Jockers)就乔克斯的“Syuzhet”软件包展开的辩论。Annie Swafford 与 Matt Jockers 围绕 Jockers 的 “Syuzhet” 软件包所展开的争论,为我们提供了一个有用的案例,说明深入探讨某种“转换”本身的目的,如何能够丰富我们描述文本的词汇。尽管斯沃福德最初的批评指出了该软件包的几个问题,但她与乔克斯的后续讨论主要集中在乔克斯使用信号处理中的低通滤波器(low-pass filter)作为“平滑函数(smoothing function)”的恰当性上。乔克斯认为,这提供了一种“滤除情感轨迹中极端值”的绝佳方法。而斯沃福德则认为,这种方法常常会受到“振铃伪影(ringing artifacts)”的影响。在实践中,这意味着生成的曲线几乎只关注“最低点,而忽略了两侧的上升或下降”。

斯瓦福德和乔克斯的争论不仅围绕一个算法,更围绕一个被具体定义的“变换”展开。Jockers 用来分析情节结构的低通滤波器,其数学基础是离散傅里叶变换(Discrete Fourier Transform, DFT)。将傅里叶变换视为理解叙事结构的一种“构成方式”,这个想法本身颇具吸引力;但正如斯瓦福德所论证的,它很可能是错误的。斯瓦福德所描述的“振铃伪影”源于一个更大的问题:变换本身所蕴含的对时间的基本理解。

傅里叶变换的的目的,是通过将复杂信号拆解为其组成部分,把周期性事件表示为频率。人类经验中最基本的一些元素,尤其是光和声音,在物理上是以重复波的形式存在的。而傅里叶变换提供了一种简便的方法,可以将这些无限长的波描述为一组不断重复的短频率。例如,纯音“A(La音)”是以每秒 440 次的频率持续脉动的;但当由单簧管演奏时,这个“A”音包含大量规则的泛音(overtones)——这些泛音是频率更高、能量较低的成分音,使声音比单一纯音更丰富。像 Jockers 使用的那种滤波器会去除这些规律性;它通常用于 MP3 压缩等处理过程中,以去除人耳听不到的高频音符。如果对这样的单簧管音色应用更强烈的滤波,它会去除高频部分,保留音符“A” , 但会削弱乐器独特的音色。

将“情节”表示在频率域中,这一想法颇具吸引力,但也建立在一些高度可疑的假设之上。其中最令人惊讶的假设是:情节如同声音或光一样,由无穷无尽重复的信号组成。乔克斯使用的这种“低通滤波器”会忽略文本中任何呈现周期性重复的要素,而是聚焦于最长周期的变化,比如那些跨度超过文本长度四分之一或三分之一的趋势。这个过程类似于根据一段仅持续 1/440 秒(基频的一个节拍)的“A”音符音频片段来预测单簧管的后续音效。令人惊讶的是,这对于音符来说是可行的,但这仅仅是因为这个音调会无限重复。而Syuzhet 软件包中的默认平滑处理假设书籍也遵循同样的规律;除其他因素外,这意味着:经过平滑后的情绪曲线会把整本书开头的情绪视为结尾情绪的“延续”。(我在《Commodius Vici》一书中对此有更详细的解释。)

对于某些情节,包括乔克斯使用的主要例子《一个青年艺术家的肖像》, 这种假设并不明显错误。但对于其他文本结构,它会造成很大的问题。图 48.1 展示了 《一个青年艺术家的肖像》 和其他四部小说的情节,文本均取自古腾堡计划。威廉·迪安·豪威尔斯的 《塞拉斯·拉帕姆的发迹》讲述的是一个关于毁灭的故事; 霍瑞修·爱尔杰的 《衣衫破烂的迪克》是十九世纪典型的“白手起家”小说; 《包法利夫人》 则是经典的关于衰落的悲剧故事。图中展示了三种不同的平滑函数:加权移动平均,这是最简单的函数之一;局部加权回归散点平滑法(LOESS),这是探索性数据分析中最基本、假设最少的算法之一;以及 Syuzhet 软件自带的低通滤波器。

这里,傅里叶变换的问题显而易见。这种周期性的函数使得包法利夫人死后境况与她出轨前一样“好”。而假设较少的方法则允许她的命运在结尾崩塌,也允许衣衫破烂的迪克的命运轨迹向上而非向下倾斜。 安德鲁·派珀(Andrew Piper)指出 , 回答 “我们如何判断一条曲线是否‘错误’?”这个问题可能相当困难。但在本例中,错误之处显而易见;只有试图闭合循环才能解释小说结尾拉格德·迪克命运的下跌。(译者注:因为傅里叶变化的循环结束点必须接上开头)

这是什么类型的证据? 根据乔克斯的说法,包法利的例子仅仅是对该方法的一种“否定性验证”(negative validation),我认为他的意思是,这是一种对“该方法在所有情况下都是最佳方法”这一论断的经验性证伪(empirical falsification)。斯瓦福德的文章也暗示,逐案验证和证伪衡量方法优劣的黄金标准。用她的话来说,这套方法(或许整个数字人文领域)需要“更多的同行评审和严格的测试——旨在证实或反驳假设”。

从这个角度来看,算法的本质是一个操作过程不透明的系统;我们可以尝试或检验它是否符合我们的预期,但我们永远无法真正了解它。然而,当算法成为实现有意义变换的手段时,例如傅里叶变换,我们就能做得比“质量测试”更好;我们可以预先通过解释性分析来判断变换会在哪些方面失败。我选择 《包法利夫人》 并非随意之举,并非为了检验它是否足够好;相反,平滑方法的推论让我意识到,悲剧类小说整体上都无法被 Syuzhet 的平滑方式正确处理。我有些忐忑地承认,我从未真正读过 《包法利夫人》 或 《衣衫褴褛的迪克》 ;但它们都是情节与低通滤波器平滑完全不相容的典型例子。任何其他以死亡和绝望或非凡好运结尾的小说都会以同样的方式“被算法误读”。

图片

图 48.1  以极坐标绘制的四条轨迹图

这些问题也贯穿于乔克斯的一系列基本情节模式中:所有图表都以完全相同的情绪开始和结束。然而,在软件包推出后的头两个月里(这期间的审查力度肯定远超任何同行评审流程),这种假设的明显问题却并未被发现。这些缺陷未能立即显现的一个特别有趣的原因是 ,像图 48.1 这样的折线图并不能完全体现傅里叶变换的假设。我们用来展示结果的统计图形本身就可以被视为一种转化,它将数据带入一个新的分析领域。在这种情况下,我们用来绘制图表的几何图形和坐标系本身就带有特定的模型。这类折线图假设时间是线性且无限的。一般来说,这无疑是纸上表示时间最简单、最准确的方法。然而,它并不符合傅里叶变换所假定的频域(frequency domain)。如果傅里叶变换是观察图表的正确方法,我们应该使用极坐标系作图,因为极坐标系会循环回到起点。我在图 48.2 中重新绘制了相同的数据,其中百分比用一个角度表示,该角度从时钟的 12 点钟位置开始,而情感倾向则不是由高度而是与中心的距离来定义。

图片

图 48.2 以极坐标绘制的四条轨迹线

在这里,傅里叶变换的假设更加清晰。对于这里的所有小说而言,时间构成了一个闭合的循环;结尾点必须扭曲自身以与开头对齐,反之亦然。而其他算法则允许存在巨大的断层:《 包法利夫人》的弧线向内盘旋,仿佛坠入下水道,而 《衣衫破烂的迪克》 则向外推进飞升。

这些环形情节图不仅仅是为了证伪。以这种方式全面理解转换背后的假设,不仅凸显了模型的缺陷,也为我们思考情节提供了一种新的视角。这种观点强调了开头与结尾之间的鸿沟是小说的核心特征;由此,它挑战我们去思考情节所占据的时间究竟是不是一种单向线性的(straightforwardly linear)存在。

这场讨论之所以值得继续,部分原因在于它提醒我们重新审视自己对于情节与时间的诸多前设。笛卡尔坐标系(直角坐标系)所暗示的无限时间,在某种程度上与极坐标图一样是错误的。许多平滑方法(包括我希望在 Syuzhet 中使用的 loess 回归)很容易将时间外推到情节的开头和结尾之外。这恰恰表明,它们在某种程度上同样不适用于当前的任务。事实上, fabula(故事顺序)与syuzhet(叙述顺序)之间的区别核心在于,我们无法谈论小说“开始之前”的内容,也无法预测莎士比亚如果在 《哈姆雷特》 结尾之后再多花几个小时创作,会写出什么文字 。任何暗示存在此类短语的模型显然都是错误的。

但即便这些转变可能并非完全正确,它们或许仍能带来新的理解和分析方法。虽然这种“循环回归”的结构显然不适用于小说,但它对更广泛意义上的情节研究却具有重要意义。通过探究频域图的适用范围,我们可以从抽象层面识别出更适合应用此类方法的领域。

例如:理想的“三机位情景喜剧”剧本应该允许剧集在轮播中以任意顺序播出。也就是说,在某些方面,它们应该是循环往复的。对于情景喜剧剧集而言,循环性是一个值得牢记的有用框架。情感、主题或其他属性的契合度,对于理解商业影响如何与创作自由交织在一起,或者理解一个类型随时间的演变,都可能是一个极其有用的工具。这种信号处理的技术或许还能用于识别,例如,电视台在何时、何处允许编剧展开跨多集的剧情线。

尽管斯瓦福德和乔克斯的对话主要围绕“平滑”问题展开,但许多数字人文主义者似乎发现斯瓦福德提出的第二个批评更有意思。她认为,乔克斯软件包提供的情感分析算法(其中大部分基于带有情感评分的词典)产生的结果经常违背“常识”。第一个问题看似枯燥乏味,但第二个问题为数字人文主义者提供了一个平台,让他们探讨如何更好地理解我们运行的算法的“黑箱”。一个算法“符合常识”意味着什么?为了实用,它需要 100%正确吗?95%?还是 50.1%?如果数字人文要成为一个会采用他人创造工具的领域,那么这些正是它需要练习解答的问题。

然而,这样表述问题,就再次将算法本身视为不可知的。就像傅里叶变换一样,我们最好有意识地探究情感分析的转换究竟做了什么。例如,我们不应该将 Syuzhet 的情感分析部分视为一组待匿名受试者测试的词表,而应该思考如何以最佳方式实现情感分析背后的底层算法——或许是逻辑回归( logistic regressio)——来区分“褒贬”二元分类之外的事物。例如,乔克斯的灵感来源库尔特·冯内古特(Kurt Vonnegut)认为,情节的核心二元不是“快乐/悲伤”,而是“顺境/逆境”;也就是说,虽然情感分析提供了一个有用的捷径,但大规模平台更应创建一个真正能区分其领域中核心二元对立的分类器。安德鲁·派珀对情节结构的研究涉及小说内部的比较。这样的研究可以帮助我们更好地理解情节。他让文本与自身对话,并从其他领域中找到新的有用的转换方式。

这样做意味着,数字人文主义者可以帮助消除博戈斯特所揭示的“算法统治神话”,而不是参与构建此类神话。当历史学家将精神分析应用于历史研究时,我们并没有建议他们与精神分析学家“合作”,然后用历史记录来检验他们的论断有多少真实性;相反,历史学家会主动运用这些概念,将其视为具有解释力、本身就有意义的理论工具。当底层算法难以理解或过于复杂时,人文主义者能够深入探究算法的“黑箱”固然有益且有用。但即便如此,数字人文主义者的首要任务也应该是理解算法所服务的转换和系统的目标和意图,这样我们才能成为新思想的创造性使用者,而不是对工具的目的和前提一无所知、只是被动使用工具的人。

/来源:Gold, Matthew K., et al.“48. Do Digital Humanists Need toUnderstand Algorithms?Benjamin M. Schmidt." Debatesin the Digital Humanities 2016, 2.0, University ofMinnesota Press,13 Apr. 2016.

推荐阅读:

凯特·克劳福德、特雷弗·帕格伦《采掘人工智能:机器学习训练集中的图像政治学》(2019

凯特·克劳福德、弗拉丹·乔勒:《人工智能解剖学》(2019)

转自“左手数字右手人文”公众号

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

辅助,而非取代:声像档案的AI元数据生成模型与文化诠释

原创 魏小石 等 2026-04-03 09:10 北京

影音档案; 人工智能; 元数据生成; 文化诠释; 人机协同; 声音遗产; 检索增强生成(RAG); 民族音乐学; 知识图谱

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:魏小石,马修·詹姆斯.辅助,而非取代:声像档案的AI元数据生成模型与文化诠释[J].数字人文研究,2025,5(4):60-67.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

辅助,而非取代:声像档案的

AI 元数据生成模型与文化诠释

魏小石  马修·詹姆斯

摘要:文章探讨了在全球影音档案快速增长、文化语境日趋多元而机构资源普遍受限的背景下,如何借助AI技术实现从“数字化”到“知识化”的转型。面对资金紧缩、人才短缺及知识更新滞后等“三重困境”,传统的档案编目方式难以应对海量且多语种的声音材料。文章强调AI工具应定位于“辅助”而非“取代”人类专家的文化诠释能力。通过二位作者执行的人机协同著录案例,文章展示了如何结合RAG(检索增强生成)技术、专业标注框架与古典文献知识库,构建具备文化敏感性与语义深度的专用AI著录系统。最终,文章主张民族音乐学及相关领域学者应主动参与专用AI模型的共建,推动人机协同的编目新范式,在提升档案可及性的同时,维护文化诠释的准确性与多元性。

关键词:影音档案; 人工智能; 元数据生成; 文化诠释; 人机协同; 声音遗产; 检索增强生成(RAG); 民族音乐学; 知识图谱

作者简介:魏小石,中国音网(cdtmusic.com)总编辑,伦敦大学亚非学院客座研究员; 马修·詹姆斯(Matthew James),传统音乐智能体平台“Echo Arc”(声穹)联合创始人。

0  序言:

声像档案领域的“三重困境”

今天在此向学界同仁郑重介绍一项正处于起步阶段的研究计划——“EchoArc”(声穹)。这项计划的核心,远不止于构建一个技术性的概念原型;其更深层的旨趣,在于尝试搭建一个促进全球范围内档案馆、图书馆、博物馆(以下简称“GLAM机构”)以及相关机构之间系统性对话与协同共建的框架。我们怀揣这样一个愿景:在声音与视听档案数字化与知识化转型的关键历史节点,借助合乎伦理且智能化的技术中介,让散落于世界各个角落、承载着人类多元记忆与文化表达的声音档案收藏,能够以前所未有的深度与广度“被听见”(discoverable)、“被理解”(comprehensible),并最终更公平、更高效地“被获取”(accessible)

这一愿景的紧迫性,正源于一个我们共同面临的宏观趋势:全球声音档案(sound archives)的物理与数字存量正呈指数级增长(尤其是原生数字档案),其载体格式日益复杂,内容所涉语言与文化语境更加多元。与之形成根本张力的是,对声像影音遗产(及其文本格式的元数据及描述)进行高质量的组织与管理——包括其鉴定、著录、编目、保存与诠释,至今仍是一个深度融合了高度专业化人工判断与精细化操作的体系。这一过程不仅是劳动密集型的,其核心更在于对文化语境进行智慧密集型的解读与表征,因而难以被当前主流的自动化逻辑所简化和替代。

当下,GLAM机构正面临三种结构性的困境。首先,持续性的资金紧缩与预算不确定性已成为常态。许多GLAM机构的研究与典藏部门预算常年停滞甚至削减,而数字保存、基础设施升级与专业软件采购的成本却在不断攀升(Terras, 2015)。这使得机构在资源分配上往往陷入艰难抉择:是优先保障实体物料的物理安全,还是投资于数字化转型的长期需求?这种资源窘境直接导致了许多珍贵但“非核心”或未被充分描述的声像典藏被迫“沉睡”,难以进入整理与编目的序列。

其次,专业人才的结构性短缺与流失危机日益严峻。精通音响档案理论与实践、具备音乐人类学(民族音乐学)、语言学、民俗学知识,同时熟悉当代元数据标准(如MARC、Dublin Core、EBUCore等)的编目专家本身便是稀缺资源(Lee et al., 2021)。随着资深专家的退休,机构内部往往出现严重的知识和技能断代。与此同时,就业市场对数字技能的重塑,使得新一代信息专业人才的职业选择更加多元化,传统GLAM机构的吸引力相对下降,导致专业人力资源的补给线异常脆弱。

最后,传统知识与技能的更新速度与复杂的档案工作需求之间的落差在不断拉大。声像档案的内容包罗万象,从濒危语言录音、传统音乐表演、口述历史到环境声音景观,每一种类型都需要编目者具备相应的背景知识、文化敏感度与描述词汇表(Matusiak et al., 2019)。面对海量、多语种、多文化的待处理资料,任何单个机构、单个领域的工作团队,其知识储备都显得捉襟见肘。人工创建高质量的、具备多平台易用性的元数据,不仅要求描述事实的准确性,更要求对文化语境、表演实践、历史背景进行深度诠释,这是一项极其耗时、费力且需要持续学习与协作的智力工作。

正是这“三重困境”的交织与加剧,将一个明确而急迫的需求推至我们面前:开发具有可扩展性、可持续性的智能辅助工具,为GLAM机构的声像档案工作所用。这类工具的核心目标,并非天真的“自动化替代”,而是在尊重个体学者不可替代的核心判断力的前提下,赋能档案工作者与编目人员。在预算受限、人力不足的客观条件下,借助这些工具,能更高效地处理数据录入、格式转换、基础标引等重复性劳动,从而将宝贵且有限的人力(学者)资源释放到更需要人文洞察、批判性思维与跨文化沟通的环节中去——例如语境构建、关系关联、伦理审核与深层知识挖掘。唯有通过这种人机协同的新模式,我们才有希望系统性地整理、激活那些目前“被遗落的声景”,让这些承载着族群认同、历史记忆与生态智慧的珍贵声音,真正融入当代文化遗产网络之中,在数字(智)时代获得新生。

1  “辅助”而非“取代”

任何旨在辅助档案工作的工具,在处理那些承载社群历史、情感认同等复杂(且敏感)的民族志信息时,其设计与应用必须以维护信息的准确性与文化的细微差异为前提,而非将其作为效率的代价。这一原则构成了我们工作的基石。

为此,我们正致力于开发专门面向图书文献与文化遗产领域的特定AI模型。该模型的核心功能是辅助生成并翻译声像档案的元数据。在开发过程中,我们严格遵循MARC、Dublin Core等国际主流元数据标准,并将精准性、文化敏感度及学术协作规范嵌入模型的设计目标。通过自动生成符合这些标准的不同格式元数据文件,该工具旨在直接减少档案工作者在数据录入、格式转换等环节的重复性劳动负荷,从而有效提升档案材料在编目与收录初始阶段的处理效率和基础可访问性。我们的技术路径规划是从单个集合(及其条目)的细粒度描述入手,经过验证与迭代后,逐步扩大应用规模,从一个收藏扩展到另一个收藏。在此过程中,目标是将不同社群、不同学术传统中多层次、细节丰富的知识结构与描述逻辑,持续、可控地嵌入AI的学习过程,使其理解并尊重文化描述的复杂性

将AI技术引入高度专业化且充满诠释多样性的文化研究领域,引发疑虑是自然而然的。现实是,生成式AI已在诸多行业展现出大面积替代人力的趋势,我们亲历目睹了自由撰稿、基础编辑等领域在短时间内发生的职业重构。然而,必须清醒认识到:生成式AI虽然能够快速生成文本,但其产出在准确性、事实丰富性、真正的创造性以及具有文化说服力的叙事方面,尚未证明其能够超越受过严格训练的人类专家。它的“快”未必等同于“好”,更不意味着在理解文化深层意义方面具有优势

基于此,我们亟需明晰项目的根本定位:我们的目标绝非是利用自动化技术“取代”人类在元数据生成、翻译与著录模式整合(schema integration)等环节的专业技能。我们致力于打造的是能够与人类专家协同工作、并能在专家反馈下持续学习的智能工具。其核心价值在于,将专家学者从繁重、机械的数据处理工作中解放出来,将他们宝贵且有限的智力与时间资源,重新配置到那些无可替代、更需要人文洞察与批判性思维的任务中去。工具的价值,在于增强(而非削弱)人类知识的核心判断力。

2  如何开发AI编目工具?

——从通用模型到专用系统的路径

那么,我们该如何开始开发真正适用于文化遗产领域的AI辅助工具?首要步骤是明确认识到当前技术方案的局限性。目前,ChatGPT和DeepSeek这类通用型、“一体适用”的大型语言模型,在处理高度专业化、对文化语境极其敏感的档案编目任务时,其“表现”仍然相当粗糙。我们曾进行过一项具体测试:向DeepSeek模型输入来自一套哈萨克音乐集合的数字化音频文件、与之配套的原始档案说明文字,以及数篇经过同行审校、权威出版的民族音乐学研究文献,指令是生成符合图书馆行业标准的MARC编目记录。从表面产出看,模型在短时间内确实生成了一套结构上看似完整的MARC记录,包含了一些基础字段。然而,经过与领域专家的仔细核验,一系列明显且关键的错误与遗漏暴露无遗,这些缺陷系统性地揭示了通用模型的根本不足。

首先,在基础数据准确性与规范性层面,问题显而易见。例如,在涉及西里尔字母书写的哈萨克语人名、地名音译时,模型生成的文本并未遵循国际图书馆界通用的音译标准(如ALA-LC罗马化表)。这种细微的偏差并非无足轻重,它直接破坏了元数据在未来进行跨机构、跨数据库交叉引用与聚合时的互操作性,也严重影响了用户在检索时通过不同书写形式准确找到目标资源的能力。类似地,在地点和日期这类核心描述字段中,模型给出了“20世纪”或“阿勒泰—新疆”等极为模糊的信息。在强调精确来源出处与特定文化地理背景的档案著录语境中,此类描述非但无用,反而会引入歧义,使得后续研究者难以确定录音具体的地理归属与历史时段。

其次,在描述深度与语义丰富性层面,通用模型的输出显得过于笼统和扁平化。对于表演者的角色标注,模型通常仅列出姓名,却完全未能具体说明其在一段录音中的具体职能——某个人究竟是器乐演奏者、歌手、叙述者,还是兼而有之?此外,也未区分其贡献是表演一首经典传统曲目,还是对某个特定版本进行了个人化的诠释。在主题标引方面,模型往往只能提取最表层的、形式化的类别,如“民间音乐,哈萨克斯坦”,而完全忽视了深嵌在音乐之中的文化、信仰与生态维度,例如反映自然崇拜的“泛灵论”(animism)主题,或是录音中可能包含的特定“环境声音”(如风声、水流、牲畜叫声)。这些深层主题标签对于理解录音的文化意义至关重要,尽管它们在提供的背景文献中已有明确论述,模型却无法有效识别并转化为结构化元数据。

最后,在数据结构完整性层面,模型生成的MARC记录常常在关键字段中只保留空泛的占位符或指示性文本,而缺失了实质性的具体内容。这导致记录在形式上看似完整,在机读格式上也无错误,但在编目员和研究者看来,却缺乏进行有效知识组织与检索所必需的核心信息单元。

上述种种问题,绝不仅仅是单纯的技术瑕疵或数据训练不足。它们共同指向一个更深层、更本质的事实:元数据从来不是中性中立的;它并非是对客观事实的简单转录,而是一种文化的诠释,是特定知识体系、学术传统乃至认同观念的体现。一个主题词的选择、一种音译规则的采用、一个地理名称的表述方式,都蕴含着对文化内容的解读框架与价值判断。因此,即便是连字符的使用、主题标目的粒度、MARC字段内的分隔符,或是人名音译的标准这类最微小的细节,都会对这段录音未来如何被保存、如何被发现,以及最终如何被学术界和社会所重视,产生深远的影响。对于哈萨克音乐这类(可能)处于主流话语边缘的文化传统而言,高质量的元数据不仅仅是一种描述工具,更是一种伦理基础设施。它承担着公正表征文化身份、确保其能在全球知识体系中获得可见性与可理解性的责任

这一点,在田野录音的语境下显得尤为沉重,且紧迫。许多珍贵的实地录音,是民族音乐学者历经数十载,辗转于多个田野地点,克服重重困难才采集到的文化瑰宝;也有些录音,承载着一个家族对散居他乡或已故亲人的声音记忆,是社群情感与历史传承的非物质载体。对于这些凝结着巨大智力投入与深厚情感价值的材料,元数据的著录质量,直接决定了这些声音在未来数字环境中能否被尊重地对待、被准确理解其语境,并得以有效传承给后代。粗糙或错误的元数据,无异于在数字世界中对这些珍贵遗产进行二次损害,使其陷入新的“沉默”或“误读”之中。

3  AI技术实践的“一小步”:

赋能中国近现代声音文献检索

以下,以一项针对20世纪20—30年代78转唱片的具体研究为例,阐述我们在AI辅助编目领域的初步实践。刚才所讨论的关于AI工具设计的核心问题,并非空泛的理论推演,而恰恰源于我们此前对一项基础性测试的直接观察。在该测试中,我们系统地探究了AI如何从庞杂的、非结构化的原始信息中,自动识别并提取出符合专业编目要求的结构化元数据。这一尝试,其意义超越了单纯的技术验证;它本质上是对传统编目方法论边界的一次主动拓展,旨在探索人机协作模式下,知识组织逻辑所能延伸至的新领域与可能达到的新深度。

必须承认,当前对汉语有声文献——尤其是历史录音——进行系统化数据采集与智能化处理,面临着多层次的现实挑战。在图书馆学与信息科学领域,对文献资源进行准确、规范的描述,是一切知识组织与服务的基础。我们的实践表明,现有通用AI模型的知识库与认知框架存在显著局限。具体而言,对于具有强烈地方性特色的声音或音乐表演内容,例如那些依赖于特定地域文化、使用小众乐器或承载独特曲艺形式的录音,AI的认知表现出明显的匮乏与不确定性,其生成文本描述时常包含事实性谬误或文化误读。这种“知识盲区”使得AI难以独立承担对这类遗产进行高质量编目的任务。

正是为了应对这一核心挑战,我们与中国人民大学国学院吴洋教授的研究团队建立了跨学科合作,共同启动了名为“AI赋能中国近现代声音文献检索、深度描述与古典学研究——以北方曲艺为例”的项目。该项目旨在构建一个新颖的研究范式,即尝试利用经过严谨校勘、体系严整的中国国学经典文献所构成的权威知识库,作为AI模型理解相关文化内容的“锚点”与“基石”,进而对北方曲艺(如京韵大鼓、单弦、岔曲等)唱片中的唱词文本,进行系统化、多维度的深度语义标注。

北方曲艺的唱词文本,是一个蕴藏丰富的文化信息复合体,其中频繁用典、化用诗文、涉及大量历史人物、事件、民俗事象与地方性语言表达。然而,长期以来,这些唱词所承载的深厚文化内涵,并未与其源头的古典文献建立起深度、系统化的知识关联。传统的整理工作可能止步于唱词文本的转写与基本说明,未能将其置于更宏大的中华典籍与历史语境中进行互证与阐释,从而未能催生出经过深度考据与跨文本验证的、立体化的知识网络。

目前,我们(中国音网团队)已完成了相当规模的北方曲艺78转唱片的数字化转储,并初步整理了对应的唱词文本,形成了基础的、“结构化的”数据层。本项目当前阶段的核心任务,正是要突破这一层,致力于从历代文集、笔记小说、方志、韵书等浩瀚的“非结构化”古典文献中,提取相关知识单元(如典故出处、历史背景、词汇源流、民俗考释),并将这些提取出的知识点,精准地“编织”回北方曲艺唱词所对应的具体声音语境中去。

项目的学术核心,由人大国学院团队主导,师生们创造性地构建了一个从文献学、文学、历史学、民俗学、语言学五个核心维度出发的唱词深度标注框架与知识图谱模型。这五个维度并非孤立,而是相互交织:文献学考究版本与源流,文学分析文体与修辞,历史学定位事件与人物,民俗学解读仪式与风物,语言学辨析音韵与词汇。项目组成员需要手动标注至少1000个知识点,为AI理解提供结构化的认知地图。

在技术实现层面,中国音网团队负责提供关键的RAG技术架构。RAG,即“检索增强生成”,并非一个“开箱即用”的解决方案,而是需要精心设计和训练的技术范式。在本项目中,我们利用RAG的核心机制,为AI智能体赋能,使其能够:首先,在面对一段具体唱词时,自动识别其中可能涉及的知识点(如,某个典故、某个古地名),并触发对海量古典文献数据库的精准检索;其次,将检索到的相关文献片段作为增强的上下文信息,与原始唱词一并输入生成模型;最终,引导模型生成具有溯源依据的深度描述、注释或关联性分析。这一过程旨在系统性提升三大能力:一是语义还原能力,即准确理解唱词在古代汉语语境中的本义与引申义;二是跨域关联能力,即在曲艺唱词、历史记载、文学作品、民俗报告等多类型文本间建立有意义的链接;三是知识注释能力,即产出符合学术规范的考据性说明。

其后,更为关键的是“情境训练”。这一阶段的训练目标,是让AI模型学习并掌握“进入关联性知识图谱的路径”,实质上是教会它如何像该领域的学者那样,不仅能“回答”问题,更能帮助大众读者以符合学术探究习惯的方式“提出”问题,并自主进行知识追溯与关联分析。具体而言,这一过程高度依赖项目组成员——特别是具备文献学与曲艺研究背景的专家——进行手动的、高度情境化的问答训练。专家们并非简单地提供标准答案,而是需要模拟研究过程中真实的思维链条与探究场景。例如,他们不会直接问“《击鼓骂曹》中‘渔阳三挝’的典故出处是什么?”,而是可能从一个更开放、更具引导性的情境切入,比如:“如果我们听到一段鼓曲唱词中提到了‘祢衡’和‘曹操’,并伴有激昂的鼓点描述,我们该如何联想到汉代的相关史实与文学形象?又如何进一步探究‘鼓’在这一叙事中的象征意义及其与具体曲艺表演程式的关联?”

通过大量此类情境化、多轮次的问答“对话”,AI模型被引导去理解:一个知识点(如“祢衡”)如何作为入口,自然地关联到人物传记、历史事件、文学作品、音乐表现等多个知识图谱节点。更重要的是,它学习到人类专家在探索这些关联时所使用的语言模式、逻辑递进方式以及提问策略。这相当于为AI注入了专业领域内的“探究性思维”模板,使其能够逐渐学会从非结构化的文本中自主识别出潜在的知识关联线索,并以更贴近人类学术习惯的、连贯且富有逻辑的语言,进行深度的语义还原与知识注释。这一训练是将静态的知识库转化为动态、可推理的智能系统的核心环节。

本项目这“一小步”技术实践的长远目标,正是希望借助AI的赋能,系统性地应对声像档案著录、编目与诠释的核心挑战。将声音背后那些分散于不同典籍、隐含在表演细节中、且需极高专家素养方能建立的文化知识关联(如唱词典故、音乐程式、历史语境),转化为显性、系统、可规模化的结构化知识,我们旨在构建一座桥梁。这座桥梁连接着原始的声音资料与丰富的文化语义网络,使这些档案不仅能被听见,更能被深度理解与文化传承。

4  结语

利用AI技术构建MARC编目记录通用架构,仍存在诸多疑虑,也兼具多重利弊,但曲艺有声文献的案例,也展示了AI整合非结构化数据集(特别是源自中国古代文学经典的叙事音乐资料)的潜力。我们实践的个体项目之力难以改变整体格局,但我们坚信,唯有以具体问题为起点,启动AI智能体的领域化训练,方能切实迈出推动人文学科与AI技术深度融合、激活声音文献遗产的第一步。

我们主张,民族音乐学(及相关领域)学者必须摒弃技术旁观者心态,深度参与到数字工具与方法论的共同建构中。其核心路径在于:放弃“一体适用”的对大模型的幻想,不能坐视简单的、缺乏文化理解的通用数字工具被以“省时省钱”的名义草率地强加于文化遗产机构,最终牺牲档案工作中不可或缺的学术准确性与文化差异性;而应该转向开发本领域专用的AI模型。这要求学科专家与技术团队进行实质性协作:共同制定贴合文化语境的术语体系与受控词表,编写细致周详的描述与翻译指南,并构建由权威学术资源构成的高质量训练语料库。更为关键的是,必须建立一种持续迭代、人机协同的审校与反馈机制,使学者和档案工作者能以其专业知识直接校验输出、纠正偏差、注入文化洞察,从而驱动AI系统在“实践—反馈—优化”的循环中不断完善。因此,我们将AI模型的开发视作一个持续稳健、可协商的渐进过程。短期计划是务实而清晰的:与少数拥有特定声音典藏的机构合作,以小型馆藏为试点,全面评估实际编目挑战与人机协作模式,并以此为基石推进更系统性的工具开发。

我们深信,若此路径得以贯彻,AI技术有望成为一座关键桥梁,助力打破语言与元数据规范间的壁垒,显著提升音响档案的全球可及性。尽管前路充满风险,但我们坚信,唯有通过主动参与和积极建构,才能在人工智能的时代浪潮中,为多样的地方声音争取到应有的、公正的表征权,共同建造一个真正尊重文化差异、珍视声音内在价值的下一代编目基础设施。

“数字时代的声音档案专题”

声音档案在数字人文领域的创造性重构

民族志电影的时间维度:瓦罕走廊与南印度的案例

在博物馆中展示民间声音文献

从数字化到著录:音响档案的再语境化

图片

排版:覃子椿

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

从数字化到著录:音响档案的再语境化

原创 魏小石 2026-03-30 19:30 北京

音响档案;数字化;著录;再语境化;民间声音;声音遗产;文化传承;数字人文

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:魏小石.从数字化到著录:音响档案的再语境化[J].数字人文研究,2025,5(4):48-59.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

图片

从数字化到著录:

音响档案的再语境化

魏小石

摘 要 

文章以中国民间音响档案为研究对象,探讨了从数字化保存到深度著录与再语境化的范式转变。文章指出,当前音响档案工作的核心已从对物理载体的数字化保存,转向对声音内容的著录:文化阐释、语境重构与意义激活。通过多个案例——川江号子、穆麟德蜡筒、筝乐家传录音、哈萨克斯布孜额录音集等,阐释了如何通过挖掘录音背后的个体叙事、社会脉络与情感结构,实现声音档案的文化“再语境化”。文章强调,民间音响档案的价值不仅在于其历史或审美内容,更在于其作为“活态文本”在文化传承、身份认同与学术研究中的多维意义。最后,文章呼吁以多模态、跨学科的视角整合声音、文本与物质文化,推动民间声音遗产融入当代人文对话,从而回应“人在哪里”与“我们是谁”的根本命题。

关键词:音响档案;数字化;著录;再语境化;民间声音;声音遗产;文化传承;数字人文

作者简介:

魏小石,中国音网(cdtmusic.com)总编辑,伦敦大学亚非学院客座研究员。

0  序言

在当下技术条件与文化语境中,我们应如何理解这个时代的录音?回望1951年,阿炳的演奏被记录于钢丝录音带,成为存世较早的珍贵声音遗存。这些录音不仅是历史的回响,更是一个时代听觉文化的物质见证。然而,面对这类声音遗产,我们往往惯性地将数字化视作首要任务——试图将其转化为不易消逝的“0”与“1”。

进入21世纪第三个十年之后,声音档案的保存理念与实践重心已发生深刻转变。我们不再满足于对物理载体进行规模化数字采集,而更注重对声音内容本身进行深度描述、系统著录与语境重构。换句话说,声音档案工作的核心正从“保存介质”转向“激活意义”。这一转变的关键,在于将声音从物质形态中释放出来,置入更广阔的文化脉络与社会生命史中加以理解。

通过挖掘声音背后的个体叙事、文化逻辑与情感结构,我们致力于使那些地方性、民间性的声响,在跨文化与跨时空的传播中持续产生新的理解与联结。这不仅是一项技术任务,更是一种文化实践——其目标不在于建造永恒的声音仓库,而在于构建动态的意义场域,让每一段被重新听见的声音,都成为参与文化对话的活态资源。

1  民间的声音

录音,其范畴远不止于商业发行物。在更广阔的文化领域,留存着种类繁多的声音记录,包括档案录音、家庭录音、电台录音、文献录音,当然还有我们熟悉的实地田野录音与自然界的动物鸣响。甚至有一种颇为诗意的实践——在京剧表演前进行的“静场”,其本意虽是采集剧场的环境声响,但这过程本身,依然是在那个特定的、充满预设文化意义的表演空间内完成的。这些形态各异的录音,共同记录了社会生活的方方面面,成为文化发展长河中不可分割的一部分。我们如何将这些根植于物质生活的声响记录,与我们的内在精神世界相契合?这恰恰是音乐,抑或是更广义的“有组织的声音”所能提供的一种核心功能,而这一功能正可以在录音档案的发掘与重听中实现。

当我们尝试通过录音来理解外部世界时,一个有效的起点或许是向内探寻,了解自我。我生命中听到的最早的“档案”,便是我父亲在我出生时,用录音机录下的第一声啼哭。这盘磁带,于我而言,已不仅是一段声音,更是个体生命史的原点。类似的,一位大提琴演奏家曾与我分享,他至今珍藏着一卷童年练琴时的录音,里面不仅有稚嫩的琴声,还有他为自己鼓劲、低声打气的喃喃自语。这些例子表明,在我们的成长记忆与身份建构中,声音是无处不在的基石。它提醒我们,除了将音乐视为艺术化声音的狭义观念之外,那些充盈于我们生命历程、发生在身边的日常之声,才是塑造我们对世界最初感知、对自我最早认知的真正素材。即便是二十年后,一段微信的语音留言,同样可能成为承载情感的永恒回忆。这些,就是我们身边并最终塑造了我们的声音风景,而所谓的“民间声音”,正囊括了所有这些层面的声响

作为一名音响档案工作者,我常常自喻为“声音的搬运工”。我的工作从我能触及的每一个角落开始,去寻访和收集散落在民间的声响。在四川,我遇见了一位名叫江净乐的老船工。他使用U盘,精心收集了自己表演“川江号子”的众多录音(图1)。这些文件不仅客观记录了他的演唱,更珍贵的是,它们同时捕捉了表演场所独特的环境声景,以及他在表演时倾注的情感与态度,这些共同构成了一份独一无二的音乐语境。他整理这些声音的方式也极具个人特色——在每一个U盘上,都仔细地贴着一张写有时间信息的纸条。在新疆的一个喧闹集市上,我向一位当地人购买了一个旧的播放器,而我真正的目标,其实是播放器里的那张存储卡,因为那里面记录了许多当地人所喜爱和日常聆听的声音与音乐(图2)。在云南,我发现路上行驶的洒水车所播放的音乐也独具特色,并非千篇一律的曲调,而是融入了当地的民间旋律。而在贵州的施秉县,一位收藏家手中保存了大量抗战时期的唱片,它们同样是历史声音的见证。

图1 江净乐先生的“U盘盒子”(魏小石摄,宜宾屏山县,2024年3月)

扫码观看江净乐先生“U盘盒子”内容视频

扫码收听《坭山工书——汪洋抬工歌谣档案》收录音档选段:《开山号子》

图2 手持内嵌音乐TF卡的录音机的市集摊主(魏小石摄,伊宁县,2019年9月)

当我们真正将目光聚焦于民间,便会发现,有大量的录音仍散落在私人收藏家和普通百姓手中,它们值得被看见、被聆听。这些录音蕴含着极其丰富的语境。从纯粹的音乐形态上看,它们或许呈现出高度的重复性,但一旦置于不同的社会脉络、个人故事与空间环境中,每一次看似重复的响起,都可能承载着截然不同的表达与意义

2  民间音响档案的收集整理和著录实践

对于散落于民间的音响档案,我们究竟能展开何种研究?这些研究又能为我们带来怎样的思想启迪?归根结底,我们的研究焦点在于“人”——那些个体的表演者、录音者、收藏者以及最终的研究与使用者。我们试图以多维的视角与多元的语境,去理解并描绘社会中鲜活的人,而非用统一、体制化的语言将他们简单归类。正是这些不同的个体,为我们带来了如此丰富、异质的声音与文本。

在过往的工作中,我们接触到一批由私人藏家保存的中国古早录音,其中许多录制于新中国成立之前。这些私人与民间的保存力量,其动机与选择本身,就是一个非常值得深入探究的文化现象。例如,我们目前正在进行的一项核心工作,是关于“穆麟德蜡筒”的修复与著录项目(图3、图4)。这是一批极其珍贵的中国地方方言早期录音。穆麟德先生是普鲁士语言学家与外交官,于19世纪末来到中国。他不仅编著了关于中国方言的书籍,更可贵的是,他用蜡筒录音设备,亲自录制了16种地方方言的原始语音。由于他主要定居在宁波,这些录音以南方方言为主,每一项都聚焦于一个特定地点。“穆麟德蜡筒”被学界视为研究晚清中国南方方言的瑰宝。最终,这批珍贵的录音穆麟德交给了当时中国海关总税务司、爱尔兰人罗伯特·赫德爵士,并于1900年被带至巴黎。这在一定程度上,可以被视作中国录音历史的一个象征性起点。在贝尔法斯特的档案馆里,我们研读赫德爵士的日记,试图追溯那个时代的声音采集行为与其背后的文化仪式。然而,关于这批资料,仍有众多谜团待解,例如,录音中所使用的究竟是当时的官话,还是纯粹的当地方言?抑或是一些带有宗教色彩的唱诵?解答这些疑问,需要我们持续地对录音文本进行精深的辨析,并不断挖掘与之相关的历史文献。

图3 魏小石(左)调研穆麟德音响特藏(Patrick Feaster摄,美国新泽西州,2022年4月)

图4 穆麟德著作《中国方言分类》 (1900年)

带着类似的问题,一系列极具历史价值的早期录音也陆续进入我们的视野,例如,晚清魔术大师朱连奎于1899年访美期间录制的《梳妆台》(图5)。这份由收藏家杜军民先生提供的珍贵录音,不仅将中国声音记录的起点向前推进,更以其独特的生成语境——一位民间魔术师在异域的文化展演,打破了我们对于早期录音主体与场景的固有想象,揭示了录音史中那些被主流叙事所忽略的、流动而跨文化的民间实践。另外,1903年哥伦比亚留声机公司发行的蜡筒《六国封相》、1904年由该公司发行的《仙花调》孤本唱片,为探寻中国早期录音工业的生产模式提供了一个珍贵的切片。它所隐含的“谁在表演”“为何选用此曲目”“采用了何种演唱语言与编配”等一系列问题,正是音响档案工作者试图解答的核心问题。作为存世稀少的实物证据,该唱片连同其所处的时代网络,共同构成了我们回溯20世纪初录音生产实践、并理解其背后文化选择与技术条件的关键物质性依据。

从这些早期的录音中,我们可以窥见一个时代的录音生产方式:邀请了怎样的表演者参与录音;使用了何种语言进行演唱;采用了什么样的音乐编配;等等。作为音响档案工作者,我们的首要任务是尽可能多地搜集资料,为这些问题寻找答案。我们必须认识到,录音从来都不是绝对客观的载体,它只是记录了一个族群在特定历史节点上的某一片段。那种认为被录下来的音乐就能完全代表一个民族或一个艺术流派的观点,在很大程度上是当代话语建构下的一种误解。那么,它为何会被录下?其中又包含了多少历史的偶然?这些疑问,恰恰可以在私人收藏的录音中找到部分线索。这并非因为私人收藏在音响品质上具有绝对的独特性,而是在于追寻这些私人录音的过程中,我们能够发现许多与国家叙事不同的交叉线索,聆听到那些被宏大历史所遮蔽的个体声音叙事

对于这些早期录音,我们的工作远不止于修复播放。我们对其中的音乐形态、文本内容以及唱片本身所包含的各项元数据(如出版信息、版号等)进行了深入的分析与著录。并以这些信息点为抓手,进行大规模的文献信息检索,从而实现声音与文本史料的深度互证,为更准确地重构和传达其原始语境提供坚实的参考。

除了上述这些年代久远的唱片,还有一类发行于20世纪八九十年代的磁带,它们曾是我们日常生活中更为常见的声音载体。我曾于四川仁寿县采访过一支“抬工号子”队,他们过去抬石头,如今则主要从事抬丧仪仗。在采访结束后,我系统收集了他们的表演录音、当地农民的生活劳作故事,并对录音中的文本进行了细致解析,最终将这些围绕核心录音的周边内容,整合制作成了一套完整的档案集。

近期,我们正在推进的另一重点项目是“筝传”(图6)。该项目与上海国乐研究会江南丝竹非遗传承人何小栋老师合作,以著名古筝演奏家、上海音乐学院何宝泉与孙文妍教授夫妇的家藏录音为起点。我们始终沿着各筝乐家族保留下来的录音这条线索,去探寻、关联起与何、孙二位先生有深度交流的其他筝乐家族与学者,旨在逐步梳理出一段关于筝乐流派传承与传播的“回忆史”。这对理解当代筝乐发展尤为重要,因为这种传承往往并非建制化的学院传播,而是基于家庭成员之间的艺术连续性、延续性,乃至由家族凝聚力而形成的一种内生性传承。特别值得一提的是,在何宝泉先生留下的录音资料中,有一份用他发明的“蝶式筝”试奏的《巴赫平均律》。这段录音的面世,极大地丰富和改善了我们对于新中国乐器改革的理解——我们改革的不仅仅是乐器形制本身,更是一种对于音乐文化交融的深刻认同。

图5 唱片《稣庄台》(梳妆台)(1899年,美国贝利纳留声机公司)

图6 “筝传”项目数字化并著录的部分磁带

最后,我想援引理查德 ·K·沃尔夫(Richard K. Wolf)教授在其关于南印度Kotas族群的音乐民族志影片《小米之锅,黄金之面》中的案例。Kotas族群曾历经诸多疾病与自然灾害,其文化延续一度面临断层危机。沃夫教授通过影像记录了他们重要的仪式及音乐在其中的角色,而这部影片的完成与展映,反过来又促使该族群重新认识自身及其历史。这个案例深刻启示我们,在官方倡导的非物质文化遗产框架之外,我们更应从这些民间的、个体的声音角度出发,去认知我们文化传承的真正属性,并由此更深入地思考“我们是谁”这一永恒的人文学科命题。

3  录音的文本解析志

音响档案的解析,其根基深植于对“文本”的深度解读。今天我们的主办方是中国人民大学国学院,而国学院的研究传统向来以文献为核心。这提示我们,人类的知识体系在很大程度上是由文字和语言构建的;因此,对文献的研究,其核心便在于剖析文本是如何被组织、传播并最终成为我们集体知识的一部分的。这一过程,本质上是在追问意义如何被生成、固化与传承。

在我们音响档案工作者的观念中,音乐本身即是一种语言,一种承载着社会结构、文化逻辑与个体情感的特殊文本。在思考如何将私人的、民间的音响档案纳入公共学术认知时,有四类文本显得尤为重要,它们共同构成了理解声音意义的立体网络:

(1) 录音中的文本:声音本身所承载的内容,如唱词、旋律、仪式中的念白或环境声响。

(2) 关于录音的文本:录制者在当时或事后留下的笔记、日记、标签等,记录了录音的初衷、场景与心境。

(3) 相关文献的文本:与录音内容相关的更广阔的历史、社会与文化背景资料。

(4) 关于录音采访的文本:事后对表演者、录制者或亲历者进行的访谈记录,是重构语境的关键。

以“乔建中档案馆”的实践为例,馆藏中有两盘1983年录制的“花儿会”磁带(图7)。我们对它们的研究,便系统地贯穿了这四重文本:首先,我们誊抄并分析了表演者演唱的全部歌词录音中的文本);其次,我们研读了录制者当年手写的调研笔记,了解其采录动机与现场观察(关于录音的文本);接着,我们搜集了当时关于“花儿”民俗与地方社会的相关研究报告(相关文献的文本);最后,我们专门回访了当年的亲历者,形成了新的口述记录(关于录音采访的文本)。正是基于这种多维度的文本互证,我们才得以推出高质量的线上学术资源,并形成深入的研究总结。

图7 乔建中教授于1983年在青海省曲坛寺录制的磁带

回望我们自己的生命历程,当年录下的声音,或用手机随手拍下的视频,其选取的角度与今日的视角已然不同。其中那些不经意的喘气声、背景里的谈笑风生,都已成为那个特定时空中“你我他”最真切的写照。这提醒我们,声音档案的价值,不仅在于其“内容”,也在于其“形式”所封存的时代痕迹与个体状态。

另一个更为系统的实践,是我在北疆克烈部落哈萨克族社区长达十年的声音采集。我与哈萨克族同事一起,不仅将散落在磁带等多种载体上的家庭录音进行数字化转录,还结合大量家庭老照片,并围绕这些声音文本进行了深入的回访调研,最终形成了一份包含770分钟音轨的音响档案集(图8)。例如,哈密艺人霍夏那依就将他提供的录音视作留给子孙后代的珍贵遗产(图9)。如果我们不去深入了解这些录音背后的家庭故事与传承脉络,仅仅去购买关于斯布孜额的乐器教材,将很难直观地感受到,这些声音在当地人的家庭伦理与代际身份认同中究竟扮演着怎样不可替代的角色。

图8 《波浪:斯布孜额历史录音》的宣传海报(上海音乐学院、塔石音乐 & 档案,2023)

扫码收听《波浪:斯布孜额历史录音》音频片段

图9 民间艺人霍夏那依的家藏磁带

(开头部分的录音导语为“叶勒克拜之子霍夏那依,真名为霍思力汗别克。他于1982年2月9日,周四,四点离世,享年九十三岁。下葬于10日,周五。”这些录音作为遗产留给了家人后代)

我曾与维吾尔族都塔尔大师木沙江·肉孜紧密合作两年。我们循着他于八九十年代在库尔勒客居时与徒弟即兴录制的一批私人磁带,去探寻音乐里的唱词、背景、人物与故事。诚然,他也有正式出版物,但在新疆能买到的许多音乐出版物,往往是经过高度修饰与美化的,这背后有复杂的原因。而在这些私人的、即兴的录音中,却保存着一个更庞大、更鲜活的音乐集合体。演奏的当下,音乐更能真实地反映那个时代的审美倾向与艺术选择,有力地证明了维吾尔族与世界上任何民族一样,其传统音乐有着多元而丰富的来源。

汉民族语言人群的音乐同样极其丰富,戏曲、曲艺、民歌、器乐曲等种类繁多。这些音乐类型经常相互穿插、融合,例如某些地方的曲牌会从戏曲中吸收养分,曲艺中也常融入戏曲的片段。然而,我们当下的音乐认知框架,却并未完全遵循其内在的艺术种类逻辑,而常常不自觉地被行政区划所分割。因此,当代所谓的“民族音乐”版图,实际上是由这些在不同地域空间中流变、交融的多种传统音乐类型共同构成的。

图10 木沙江·肉孜大师(魏小石摄,伊犁,2014)

扫码收听《木沙江·肉孜:库尔勒日记》选段《宿命》音频(上海音乐学院、塔石音乐 & 档案,2015)

另一个极具启发性的案例,是一首关于印度莫卧儿帝国开创者巴布尔的歌曲。它原本是一首用察合台语写成的诗歌,在20世纪八十年代的库尔勒仍被传唱。歌曲超越了征服者的宏大叙事,深入到了巴布尔戎马一生后的内心世界,探讨他如何面对自己,充满了私人化的哲思与诘问。这种细腻的个人表达,在官方正史或正式出版的故事中往往是听不到的。

这些由民间音响档案构成的出版物,之所以引人入胜,正在于它们不仅具有历史的厚重感、精心的设计感,更凝聚了鲜明的人物性格与独特的时代气息。我们将所能收集到的这类民间档案,精心汇编进如《中国乐器总动员》这样的出版物中(图11),希望引导孩子们去接触和聆听。因为我们相信,这些来自民间、未经过度修饰的声音,相对于那些高度体系化、标准化的知识而言,提供了一种更为真实、生动且充满生命力的认知途径。

图11 《中国乐器总动员》封面,其中使用的音频案例大部分来自于历史音响档案

4 结语

最后,让我们回到那个根本性的问题:我们从民间音乐档案中汲取的养分,究竟能引领我们走向何种更深层的思考?答案依然指向那两个永恒的命题——“人在哪里”以及“我们是谁”。

对于学术研究者而言,民间音乐收藏为我们打开了一个多维度的声音世界,它促使我们走向一种多模态数据和物料的整合研究。当我们一旦脱离单一维度的、纯粹审美的艺术分析框架,转而以更整体的视角去认知声音与音乐时,便会发现那些曾被我们忽略却又至关重要的文化要素——这其中可能包括与音乐共生的味觉记忆、乐器制作的物质流程,乃至进入一场仪式前的全部身心准备。这种认知方式的转变,将极大地丰富和提升我们对音乐传统的理解,最终为我们带来一个远远广阔于当代既定学术视角的、立体而鲜活的文献集群。

回望2003年北京“保存传统音乐”研讨会(图12),当时的讨论焦点仍集中在“保存”“数字化”这些基础而紧迫的课题上,那对中国音响保存意识的觉醒起到了关键的推动作用。而今天我所展示的诸多案例,则旨在呈现中国现当代音响档案典藏在实践中的丰富样貌与多样性,希望能为这个时代的音响档案工作留下一份生动的注脚。

图12  2003年于北京举行的“保存传统音乐”研讨会的会议报告封面(Xiao等,2003)

这些源自民间的音响档案,其生命力和价值正是在于其流动与转化。它们绝非沉睡于库房的故纸堆,其用途广泛而充满活力:它们可以成为电台节目中唤醒集体记忆的声音,可以融入纪录影片等视听媒体成为叙事的灵魂,可以转化为实体出版物得以流传,可以支撑个人的深度学术研究;它们也可以是博物馆、图书馆中启迪观众的精彩展览与珍贵馆藏,更可以回归其生长的土壤,成为民俗节日活动中凝聚社区认同的鲜活力量。

即便不以音响档案为业,我也诚挚地邀请大家,能够开始多多关注并珍视环绕在我们身边的种种声音记录。去倾听、去解读这些私人或公共的录音所带来的启示。因为每一段看似微小的声音,都可能成为我们回答“我们是谁”这一终极问题的一块珍贵拼图。

“数字时代的声音档案”专题

在博物馆中展示民间声音文献

民族志电影的时间维度:瓦罕走廊与南印度的案例

声音档案在数字人文领域的创造性重构

图片

排版:樊军君

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

“DH无界谈”预告 | 文本复杂性与思想演进:格伦特维著作的计算研究

数字人文研究院 2026-03-26 09:01 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

2026年3月31日14:00,中国人民大学数字人文实验室

2105be7b116aafafc2be877edf3e7cf9.png

中国人民大学数字人文研究院

"DH无界谈"014

文本复杂性与思想演进:格伦特维著作的计算研究

内容简介:格伦特维的文学创作生涯横跨多个学科与思想流派,但其写作复杂性是否呈现出可辨识的规律?本讲座运用信息论与分形分析,系统考察海量文献中的结构与风格变迁。通过探究其后期作品究竟体现了概念的深化、认知的转型,还是文本的熵增,并以此重新审视作家长期发展轨迹研究的深层意义。这项研究以数据驱动的方法,为评估格伦特维的思想历程及其著作中连贯与嬗变并存的模式提供了全新视角。

时间:2026年3月31日 14:00

地点:中国人民大学立德教学楼负一层B149数字人文实验室

主办:中国人民大学数字人文研究院

主讲人

Katrine F. Baunvig

丹麦奥胡斯大学文化与社会学院教授、数字文本遗产中心主任及格伦特维研究中心主任、香港汉语基督教文化研究所特邀教授

主持人

王一楠

中国人民大学数字人文研究院研究员、信息资源管理学院讲师

撰稿/图片:邱晨昱   排版:段婧怡

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

  •  

token为什么今天才叫词元?

王隐言无尽 2026-03-25 11:54 北京

以下文章来源于:言辞之间

言辞之间

不讲学术黑话,不玩抽象概念。在语言、认知、思维交汇处,关注那些习以为常,却又难以道明的言辞现象。

龙虾火了之后,一个词的翻译终于被官方定下来了:token,中文叫词元

这个翻译其实并不新。早在 2021 年,国内 AI 圈就试图统一术语,将 token 译为「词元」[1],但没被广泛接受。

直到最近,「词元」开始出现在《人民日报》的经济版面,还有记者专门解释「什么是词元」。

当一个技术词进入官方口径,它就不只是翻译问题了。

token是什么?

大模型处理文字之前,要先把文本拆成小块,每一块就是一个 token。

英文有空格做天然分隔符,但切法不只是按空格劈开:词根、前缀、后缀都可能独立成块。「unbelievable」可能被拆成:un / believe / able

中文没有空格和形态变化,由训练方自己决定怎么切。同一句话进不同模型,token 数可能差出好几倍。

下图来自我们之前做的一个实验:让模型逐步生成一段中文回答,同时记录每一个 token 的概率分布。

所以,中文切分的复杂性,是 token 长期没有统一翻译的原因之一。更棘手的是:token 这个词不专属于大模型,它在不同领域有不同含义。

你用什么词称呼一件事,就是在声明它属于哪个世界,所以,token 必须要有合适、统一的中文翻译。

为什么是词元[2]

token 切分出的单位有时是字,有时是词,而更能覆盖这种范围。

那为什么是。为什么不是符、标或其他?

在中文术语里有固定语感:最小的、不可再分的基础单位。词元的意思是:这就是语言处理中最底层的东西,没必要往下切了。

以上只是语言学上的理由,但仍然没有回答一个问题:为什么最近才定下来?

token的政治语言

一个词要被记住,往往要等它先变得重要。

大模型最初是英文叙事。token、benchmark、context window……整套话语体系都来自英文世界。在那个阶段,我们能说的无非是「也追上来了」。

龙虾(AI Agent)爆发之后,变化不在技术,而在经济结构。

龙虾每一步都要重新喂上下文,极其烧 token,价格迅速变得敏感。与此同时,人们发现很多落地业务只是发邮件、整理文件、调用工具。这太讽刺了:越接近现实场景,模型越不需要聪明,便宜就行。

产业重心因此移动:从训练转向推理,从谁的模型更聪明转向谁能处理更多请求,还便宜

当 token 变成可以大规模供应的资源,它就不再只是技术指标,而开始像一种工业品,一种可以出口的东西。

于是它以这种句式,进入新闻:

国家数据局披露,中国日均词元调用量从 2024 年初的 1000 亿增长到 2025 年 9 月的 40 万亿。《人民日报》报道,当周中国大模型调用量以 4.12 万亿词元首次超过美国的 2.94 万亿。

这些 token 数字在句子里的位置,很像出口了多少吨钢材这种表达。

这和以 OpenAI、Google、Anthropic 当主语的句式不同。那里用的是 benchmark(评判基准线);而词元消耗量听起来更像产能和出货。 于是出现了两层语言变化:

第一层是命名权。谁的语言定义单位,谁就在这个领域拥有话语权。

第二层是类别归属。「词元」悄悄把大模型从「科技产品」归入了「工业产能」。

慢慢地,AI 不再只是我们也能做,而变成了我们有多少产能。一旦它被纳入制造业叙事,衡量它的语言也会随之改变。

所以真正有意思的不是这个翻译。

而是当大模型发展到今天,谁有资格用自己的语言来报这个数。

参考资料

[1] 

技术术语是否翻译有一条隐性规律:专有名称保留英文(Transformer、BERT),Token 通用是计量单位,需要有中文名。

[2] 

语言学中有一个更精确的词:语素,汉语里最小的音义结合体,是构成词的直接基础。「词元」的「元」,语感与此接近。但语素与 token 并不完全对应:语素强调意义的最小单位,token 是模型切分的最小处理单位,两者有交叉,不能画等号,而且外界对它不熟悉。

阅读原文

跳转微信打开

  •  

“Token”中文名定了:词元

人民日报 2026-03-25 11:54 北京

AI热潮中,一个概念的地位正在渐渐凸显——Token

   

    AI热潮中,一个概念的地位正在渐渐凸显——Token,它是排行榜上大模型调用量的评估标准,也是大模型厂商销售套餐的计费单位。

3月23日,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏表示,Token“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的“结算单位”,为商业模式的落地提供了可量化的可能。

这给出了Token的中文翻译:“词元”。

  • 我国日均词元Token)调用量突破140万亿

人民日报记者从国家数据局获悉:2024年初,中国日均词元(Token)调用量为1000亿;至2025年底,跃升至100万亿;今年3月,已突破140万亿,两年增长超千倍。

刘烈宏指出,今年1月底以来,有的模型企业创下20天收入超越2025年全年总收入的业绩纪录。这组数字背后,是一套以Token计费为基础的新型商业逻辑正在加速演进。

  • 什么是词元(Token)?

词元(Token)是大模型处理信息的最小信息单元,具有智能时代可计量、可定价、可交易的特征。

当下,围绕词元的调用、分发与结算,一套新的价值体系正在加速演进形成,并成为人工智能产业商业化的重要路径。

我国日均词元调用量的大幅增长也表明,随着数据要素市场化配置改革的纵深推进,人工智能高质量数据的供给体系正在形成,“数据供给—价值释放”的良性循环初显。


来源:人民日报微信(记者:王萍萍),综合《人民日报》(2026年03月24日 第 08 版 记者:王云杉)、中国发展高层论坛

图片

阅读原文

跳转微信打开

  •