普通视图

Received today — 2026年6月4日3 - 人民大学公众号

融合语义理解与图谱推理的党史文献模糊指代消解方法

2026年6月3日 12:43

原创 冉凌宇 2026-06-03 12:43 北京

模糊指代消解; 党史文献; 时序知识图谱; 图神经网络; 预训练语言模型

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:冉凌宇.融合语义理解与图谱推理的党史文献模糊指代消解方法[J].数字人文研究,2025,5(4):84-98.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

融合语义理解与图谱推理的党史文献模糊指代消解方法

冉凌宇

摘要:党史文献因广泛使用化名、代称并蕴含复杂隐性关联,其智能化处理面临严峻挑战。研究提出一种融合多策略语义理解与动态知识图谱推理的模糊指代消解方法,以解决该领域存在的语义鸿沟、时序演变与证据稀疏性三大难题。该方法构建了覆盖万余实体的党史领域词典与化名—真名映射库以注入先验知识;采用领域词典引导的负样本采样策略对预训练语言模型进行微调,增强其对特定表达的语义感知能力;最终在自建的时序知识图谱上,运用时间约束的图神经网络推理算法进行隐性关联挖掘与一致性校验。实验表明,该方法在权威评测指标上综合F1值达到80.6%,显著优于现有基线模型,并能有效发现深层历史关联。研究成果已集成至可视化原型系统,为党史研究提供了可靠的智能化工具。

关键词:模糊指代消解; 党史文献; 时序知识图谱; 图神经网络; 预训练语言模型

作者简介:冉凌宇,重庆邮电大学马克思主义学院讲师,Email:jadecrane@139.com 。

0  引言

党史文献作为记录中国共产党百年奋斗历程的珍贵宝藏,其独特的文本特征——包括高密度的化名使用、错综复杂的代称指向以及隐藏在字里行间的隐性关系网络,使其具有重要的历史价值,但也为当前的整理与研究带来了严峻挑战。习近平总书记所强调的“要用好红色资源,传承好红色基因,把红色江山世世代代传下去”,凸显了党史文献系统性整理与精准解读的极端重要性和紧迫性。虽然指代模糊是中文文献处理中普遍存在的现象,但相较于一般中文文献,党史文献中的模糊指代问题具有显著的领域特殊性与历史复杂性,主要体现在以下几个方面。

首先,化名使用的系统性与政治性。党史人物常因地下工作、政治运动等原因使用多个化名,且这些化名具有明确的时代背景与政治含义,如“伍豪”特指周恩来在大革命时期,其映射关系随时间演变,而非简单的同义词替换。其次,代称的高度语境依赖。如“井冈山部”“中央区”等代称,其指代实体随历史阶段变化,需结合具体时间、地点与组织背景才能准确解读,这与现代文献中相对稳定的命名习惯形成鲜明对比。再次,隐性关联的历史逻辑性。党史文献中的关联常隐晦表述,需通过历史事件时序、组织变迁脉络等外部知识进行推理,这对模型的时序推理与多源知识融合能力提出了更高要求。最后,语言表述的时代性。文献中大量使用特定历史时期的术语、简称与隐喻(如“教条宗派”),其语义已与现代汉语有所脱节,增加了语义理解的难度。以延安大学图书馆的实践为例,为完成早期中共中央机关报的整理,投入了大量人力耗时多年进行辨认、校对与核实,不仅进程缓慢,也难以避免疏漏。高密度代称和隐性关系的识别高度依赖专家经验,难以规模化推广,更制约了深层知识挖掘与利用。因此,如何突破当前人工处理效率的局限,实现党史文献的智能化、精准化处理,已成为一项重要而急迫的学术与工程课题。这不仅对深化党史学习、传承红色基因具有重大意义,也是新时代推进党史研究和文献开发利用的关键基础。

总结而言,党史文献智能处理的核心技术挑战集中于“模糊指代消解”与“隐性关联挖掘”两个关键问题。模糊指代消解旨在识别文本中指向同一实体的多样化表述并将其正确归类,典型如党史文献中人物化名、代称与不同称谓的统一识别问题。隐性关联挖掘则致力于发现文本中未明示但可通过逻辑推理得到的深层关系,如通过行为模式、时空交集等线索推断组织隶属或历史影响等非直接陈述的关联。

解决两个问题技术上必须克服三大难点。首先是语义复杂性,文献语言具有高度时代特定性,这要求模型必须深度融合历史背景与领域知识。其次是时序动态性,人物关系与事件影响力随历史进程动态变化,模型需具备时间感知的推理能力。最后是证据稀疏性,关键线索往往分散在大量孤立记载中,要求系统具备多跳推理和协同分析能力,同时还要应对历史信息本身的不完整性与矛盾之处。这些难题的共同根源在于领域知识的有效表示与注入困难,既要构建高质量的领域词典与实体映射库,又需解决符号化知识与向量化表示之间的语义失配问题,这是当前技术尚未完全突破的关键瓶颈。

针对党史文献中模糊指代与隐性关联挖掘所面临的以上核心挑战,本研究提出一种融合领域知识、预训练语言模型与时序知识图谱推理的多层次解决方案。其核心创新在于针对性设计领域适配的微调策略与时间约束的图谱推理算法,旨在系统性地解决党史文献模糊指代消解所面临的独特挑战。

1 相关研究述评与理论基础

本节将通过系统回顾模糊指代消解的核心技术路径及其在特定领域的应用,辨析现有成果的贡献与不足,明确本研究问题的独特性和解决思路。

1.1 指代消解的技术演进:从规则到深度语义理解

指代消解(Coreference Resolution)的研究经历了显著的方法论演进。早期基于规则的方法(如Hobbs算法)依赖语言学家的句法规则,虽具可解释性但难以适应语言多变性和大规模文本。随着机器学习发展,基于统计学习的方法(如决策树、条件随机场)通过从标注数据中学习规律,提升了处理能力,但严重依赖人工特征工程,且在历史文献等标注稀疏领域泛化能力有限。当前主流是基于深度学习与预训练模型的方法。以BERT、GPT等为代表的预训练语言模型,通过大规模语料训练获取了深层上下文语义表示,在多项通用共指消解任务上取得突破。

然而,这些通用模型在处理党史文献时面临严峻挑战:历史文本中高密度的化名、代称和时代性用语构成了显著的“语义鸿沟”,而通用模型缺乏对领域特定知识的感知能力。近年来,研究前沿进一步向融入外部知识和处理复杂指代现象(如桥接回指、语篇直指)的方向发展。同时,针对汉语特点的研究也受到关注,特别是“零指代”(即无显性语言形式的指代)现象,相关研究提出了基于修辞句法树的标注框架和分类体系,为中文篇章理解提供了新视角。这些进展为本研究设计融合领域知识的深度模型提供了重要参照。

1.2 知识图谱推理:从静态关联到时序动态挖掘

知识图谱推理旨在补全缺失事实。早期表示学习模型如TransE、ComplEx,通过向量空间运算模拟实体关系,但主要处理静态二元关系。对于党史文献中动态演变的关系,这类方法显得不足。

图神经网络(GNN)的最新进展为关系推理提供了新工具,它通过消息传递聚合邻域信息来学习节点表示。时序知识图谱推理是当前热点,旨在建模实体关系随时间的变化。部分研究尝试将时间信息嵌入图结构或GNN的消息传递过程,以捕捉动态演化。然而,现有方法多假设大规模、结构规整的图谱,而党史文献构建的图谱常面临实体稀疏、关系模糊且缺乏精确时间标注的难题,直接应用先进模型效果受限。

1.3 红色文献智能化处理:通用方法与领域局限

党史文献是“红色文献”的核心组成部分,中央及地方机构已开展了大规模的红色文献整理、出版与专题数据库建设工作。当前,红色文献研究正从基础的史料整理迈向深入的“学理化阐释”,这对其智能化、精细化处理提出了迫切需求。如何从海量文献中自动、准确地抽析人物关系、事件脉络与思想关联,成为释放红色文献丰厚价值、赋能学科建设的关键技术瓶颈。然而,针对中共党史文献这一特殊领域,智能化研究尚处于起步阶段。现有研究或偏重通用技术而忽视党史文献在化名、代称、组织沿革等方面的领域特异性;或集中于档案数字化与数据库建设,在深层语义理解与隐性关联推理层面探索不足。尤其缺乏能够同时克服语义鸿沟、时序演变和证据稀疏性三大挑战的端到端解决方案。

综上,当前研究存在如下空白:第一,技术融合不足,缺乏将深度语义理解(特别是适应领域特性的预训练模型微调)与动态时序知识图谱推理进行深度融合的端到端框架;第二,领域适配欠缺,现有共指消解模型未能有效注入和利用党史领域庞大的先验知识(如化名—真名映射、组织沿革),以解决语义鸿沟问题;第三,时序建模薄弱,在知识推理环节,多数方法未能将时间约束作为核心机制嵌入模型,难以应对党史中实体关系的动态演变。因此,本研究提出一个融合领域知识、预训练模型微调及时序图谱推理的多层次解决方案。

2  多策略融合的模糊指代消解模型构建

本研究提出的方案先采用分层递进的架构设计,通过构建党史领域专用词典与规则库为模型注入先验知识,有效应对术语与代称的领域特异性问题。继而利用经大规模语料预训练的语言模型通过领域适配的微调策略,增强对党史文本语义表示与上下文依赖的深层捕捉。最终将识别出的实体与关系置于融入了时间属性的动态知识图谱中,运用基于时序约束的图谱推理算法实现跨片段、跨文档的隐性关系挖掘与一致性校验。

这一框架的核心创新体现在两个方面:一是领域适配的微调策略,通过在预训练模型微调阶段引入党史领域词典引导的负样本构造方法和实体感知的遮蔽机制,使模型在学习过程中不仅依赖通用语义表示,更显式地关注领域内实体、化名及典型表达模式,从而有效缩小通用模型与党史文献之间的语义鸿沟。二是基于时序约束的图谱推理算法,该算法将时间信息作为“一等公民”嵌入至图神经网络的消息传递与表示学习过程中,使实体关系推理能够严格遵循历史事件发生的先后顺序与时效性约束,例如仅允许在特定时间窗口内可能存在的关系才被纳入推理路径,从而克服因时序演变而导致的关联歧义与证据断裂问题,为隐性关系的发现提供更加可靠且可解释的计算框架。

2.1 整体技术框架

本研究的整体技术框架是一个端到端的流水线系统(图1),它从原始党史文献文本的输入开始,经过一系列逐步深化的计算模块,最终输出经过消解的实体指代和挖掘出的隐性历史关联。

图1 多策略融合的模糊指代消解模型技术路线图

整个流程首先进入文本预处理与领域词典匹配模块(图1模块一),这里采用基于规则和词典的方法对原始文本进行初步清洗和结构化,包括句子分割、词汇切分以及词性标注等基础自然语言处理操作,更重要的是利用事先构建的党史领域实体词典和化名—真名映射库进行快速模式匹配。例如当文本中出现“伍豪”“周翔宇”等字符串时,系统能立即将其映射到实体“周恩来”并打上相应标签,这种基于词典的快速匹配不仅为后续深度语义模型提供了强领域先验,也显著降低了模型的计算负担和歧义程度。正如信息检索领域长期验证的高效关键词匹配技术如AC自动机或多模式匹配算法所展现的那样,能够为后续复杂模型提供可靠的预处理基础。

随后经过初步标注的文本进入语义模型精细计算模块(图1模块二),这里采用经过领域适配微调的预训练语言模型如RoBERTa或ERNIE进行深度语义表示和指代消解计算。具体而言,模型会接收带有领域标签的文本序列,通过其多层Transformer结构捕获上下文敏感的词汇表示,并特别关注那些未被词典覆盖的潜在指代项和模糊表述。模型微调过程中采用领域词典引导的负样本采样策略,例如刻意构造化名—真名混淆的样本以增强模型对党史特定表达的判别能力,其核心评分函数可形式化地表示为对候选指代链的似然评估:

其中公式中符号的含义为:表示在给定输入文本的条件下预测指代链的概率分布;W代表线性变换层的权重矩阵;表示预训练模型输出的特殊标记对应的上下文表示向量,该向量捕获了整个输入序列的语义信息;b表示偏置向量。整个模型通过最大化正确指代链的似然概率进行优化,这种设计使得模型既能够利用预训练获得的通用语言理解能力,又能够通过领域微调适应党史文献的特殊语义环境。

最终,经过语义模型处理后的实体和关系被送入时序知识图谱构建与推理模块(图1模块三),在这里系统会依据实体识别结果和关系抽取结果动态构建一个包含时间属性的知识图谱,其中每个事实三元组都被赋予相应的时间戳或时间范围标签。随后基于时序约束的图神经网络推理算法开始工作,该算法通过消息传递机制沿时间轴聚合邻域信息。例如当推断某个历史人物在特定时期可能的关系网络时,算法会自动过滤掉不在该时间窗口内的关联边,从而确保推理结果既符合语义逻辑又满足时序一致性。其图卷积操作可表示为:

其中公式中符号的含义为:表示节点i在第l+1层的特征表示;σ表示非线性激活函数如ReLU;N(i)表示节点i在时序约束下的邻居节点集合;表示节点i与节点j之间的注意力权重,该权重计算融入了时间一致性约束确保只有时间上合理的邻居节点才会被考虑; 表示第l层的可学习权重矩阵; 表示邻居节点j在第l层的特征表示。这种时序感知的图推理机制能够有效克服党史文献中常见的时间证据稀疏和关系动态演化问题,从而为隐性历史关联的发现提供可靠的计算框架。

2.2 领域知识导入

领域知识导入的核心在于构建高质量、高覆盖的党史领域词典与规则库,这是整个系统能够准确识别文献中化名、代称及隐性关系的基石,其构建过程首先依赖于对权威党史资料的系统性梳理,包括但不限于《中国共产党历史大事记》《中共党史人物传记》以及中央文献出版社出版的系列丛书。通过人工精读与专家校验相结合的方式从中提取标准实体名称、历史事件名称、重要机构名称以及地理名称等形成基础实体词典,每个实体都赋予唯一标识符并关联其属性信息如出生年份、职务变动、重要活动时间等。例如从《中共党史人物别名录》中系统收录“毛润之”映射至“毛泽东”“李德胜”映射至“毛泽东”等一系列化名与真名的对应关系。同时根据《中国共产党组织史资料》建立组织机构的历史名称演变链条,如“中共中央北方局”与“中共中央华北局”在不同时期的隶属关系与职能变迁。

在化名—真名映射库的构建中不仅需要建立静态对应表,更要充分考虑历史语境下化名使用的时空特性,因此每个映射关系都会附加时间有效期字段与上下文使用场景注释。例如“伍豪”作为周恩来的化名主要在大革命时期至延安前期使用,而“胡公”则是其在上海地下工作时期的常用代称,这种时空约束的映射关系能极大提升后续推理模块的准确性。映射库的构建采用半自动化流程,首先基于已有史料建立初步映射表,然后通过算法在大量党史文献中进行匹配验证与冲突检测,当发现同一化名在不同时期可能指向不同人物时,自动标记需要人工介入校验的冲突项,其验证过程可以形式化表示为:

其中Verify表示验证函数,其输出为1或0,分别代表验证通过或不通过;alias表示待验证的化名字符串;entity表示待验证的标准实体名称;表示当前文献的时间上下文,以年份数值形式表示;K表示化名—真名知识库,是一个包含多条映射记录的数据集合;∃是存在量词符号,表示至少存在一条满足条件的记录;分别表示某条映射记录中化名使用的起始时间和结束时间,共同定义了该化名的有效使用时段。整个公式表示只有当知识库中存在一条映射记录,且当前时间上下文t处于该记录定义的有效时间范围内时,验证才会通过。

针对党史文献中频繁出现的典型指代模式还需构建一套多层级的匹配规则库,这些规则不仅包括简单的字符串匹配,如“陕北”代指“陕甘宁边区”,更包含基于上下文的推断规则,如当文本中出现“红一方面军”与“中央红军”且在1935年左右的语境中应视为同一实体。规则库采用声明式语法描述便于维护与扩展,每条规则由触发模式、约束条件与映射动作三部分组成,例如一条典型的位置代称规则可表示为:

PATTERN: ["陕北", "陕甘宁"]

CONSTRAINT: year >= 1937 AND year <= 1947

ACTION: MAP_TO("陕甘宁边区")

在这段规则代码中:PATTERN 是模式匹配关键词,后面跟着的列表["陕北", "陕甘宁"]表示需要匹配的文本模式,即当文本中出现这两个词中的任何一个时可能触发此规则。CONSTRAINT 是约束条件关键词,后面的逻辑表达式 year >= 1937 AND year <= 1947 表示此规则仅在文献时间处于1937—1947年间才会被激活,其中year是一个系统变量,表示从文献元数据或内容中提取的时间信息。ACTION 是动作关键词,MAP_TO("陕甘宁边区")表示当模式匹配且约束条件满足时,系统将把匹配到的文本映射到标准实体“陕甘宁边区”。

这套规则库与词典共同构成领域知识的核心载体,通过将其嵌入到预处理与语义计算模块中,系统能够显著提升对党史文献中复杂指代的识别精度,为后续深度学习模型提供强领域先验的同时也增强了整个系统的可解释性,这正是历史文献处理中不可或缺的可靠性保障。

2.3 基于预训练模型的语义消解模块

基于预训练模型的语义消解模块首先需要解决如何将非结构化的党史文献文本转化为模型可处理的规范化输入格式,这里的数据预处理流程在继承前序模块输出的领域词典标注基础上进一步深化。具体而言,每个文本片段都会被转换为一个带有丰富标注信息的序列结构,其中包括原始词汇、词性标注、实体类型标注,以及从文献元数据中提取的时间信息标注。特别重要的是对时间信息的处理,我们采用统一的时间标准化方法,即将所有日期表达转换为标准时间戳格式,同时为每个文档片段自动生成一个时间上下文向量:

其中表示时间上下文向量,表示该文献片段描述事件的可能最早发生时间,表示该文献片段描述事件的可能最晚发生时间,方括号表示向量封装,即这是一个包含两个时间元素的二维向量。在标注方案设计上采用BIO标注体系对实体提及进行标记,但同时扩展了时间维度的标注信息,每个实体提及不仅标注其类型,还标注其时间属性。例如“伍豪(1932)”表示这个提及在1932年上下文中出现,这样的设计使得模型能够显式地学习到指代现象随时间演变的规律。

在模型选型方面我们选择RoBERTa作为基础预训练模型而非原始BERT,这主要因为通过改进训练策略如移除Next Sentence Prediction任务,采用更大批次训练和更长时间训练等方式,RoBERTa在多项自然语言理解任务上展现出的性能优势。更重要的是,RoBERTa的动态掩码机制使得模型在多次训练周期中看到不同掩码模式的同一文本,这特别适合党史文献这种训练数据相对稀缺的场景,能够有效提升模型的泛化能力。此外,RoBERTa在大规模中文语料上的预训练效果已经得到多项研究的验证。

针对党史文献指代消解的特殊需求,我们设计了一套领域自适应的微调策略,其核心是一个多任务学习框架同时优化指代链预测和时序一致性验证两个相关任务。在损失函数设计上我们采用加权多任务损失函数:

其中 是指代消解的主损失函数,采用标准的交叉熵损失;是时序一致性验证的辅助损失函数,和 采用对比损失;为平衡两个任务重要性的超参数。指代消解损失函数具体定义为:

这里N表示训练样本数量;表示候选指代链类别数;是指示函数当样本i属于类别j时为1,否则为0; 是模型预测样本i属于类别j的概率。

在正负样本构造策略上,我们采用基于领域词典的引导式采样方法,正样本包括明确的历史人物化名对应关系,如“伍豪—周恩来”;负样本则包括刻意构造的时序冲突样本,如在1920年文本中出现“总书记”指代(此时中国共产党尚未成立);以及语义相似但实际不同的混淆样本,如“中央局”与“中央分局”这类容易混淆的组织机构名称。这种样本构造方式确保模型不仅学习语义相似性,还要学习时序约束和细粒度语义差异,从而全面提升在党史文献上的指代消解精度和鲁棒性。

2.4 时序知识图谱构建与推理模块

时序知识图谱构建与推理模块的核心在于建立一个能够捕捉历史动态演变的知识表示与推理框架,其图谱模式设计采用扩展的时间四元组结构而非传统的三元组,即每个事实表示为(头实体,关系,尾实体,时间戳),其中时间戳不仅可以是一个具体的时间点,也可以是一个时间区间。这种设计使得图谱能够准确记录诸如“毛泽东1935—1943年担任中共中央军委主席”这样的时效性事实。在存储方案上,我们采用时态图数据库进行存储,每个实体和关系都带有有效时间属性,同时建立专门的时间索引以支持高效的时间范围查询,这种存储方式使得系统能够快速检索特定时间段内的子图结构,为后续的时序推理提供数据基础。

隐性关联推理算法采用我们专门设计的时序图神经网络模型(T-GNN),该模型在传统图神经网络的基础上引入了时间感知的消息传递机制。其核心思想是在信息聚合过程中加入时间约束,确保只有时间上合理的邻居节点才能参与信息传递。具体而言,对于每个实体节点i在时间t的表示更新过程可以表示为:

其中 表示实体i在第l层神经网络、时间下的特征表示向量,l代表神经网络的层数深度;α代表非线性激活函数,如ReLU或Sigmoid,用于引入模型的非线性表达能力; 是第l层中分别用于更新节点自身状态和聚合邻居状态的可学习权重矩阵; 表示实体i的邻居节点集合; 是一个计算得到的时间感知注意力权重,用于衡量在时间下邻居节点j对当前节点i的重要性,其值介于0和1之间; 则是邻居节点j在第l层、时间t的特征表示。

是时间感知的注意力权重,计算方式为:

这里是代表时间上下文的时间特征向量;是将时间和节点特征映射到同一向量空间的可学习参数矩阵;a是注意力机制中的参数向量,用于计算注意力能量;∥表示向量拼接操作,用于将不同来源的特征信息组合在一起;Leaky Re LU是一种改进的激活函数,允许较小的负值梯度通过,有助于缓解梯度消失问题;k是求和索引,代表节点i的所有邻居节点。

在链接预测任务中我们采用时间约束的评分函数,对于候选三元组(h,r,

其存在概率得分为:

其中和  分别是在时间τ下的头实体、尾实体和关系的表示向量。这些向量通过T-GNN模型在特定时间片上的前向传播计算得到。 是一个与特定关系r相关的可学习变换矩阵; 表示向量的L2范数的平方,用于衡量向量之间的欧几里得距离。整个推理过程的伪代码实现如下:

这个算法首先从时序知识图谱中提取时间窗口内的子图确保覆盖相关时间上下文,然后通过T-GNN模型计算所有实体在时间下的表示,最后对每个候选实体计算时间约束的链接预测分数并返回最可能的结果。这种方法不仅能够进行准确的时序链接预测,还能发现诸如“某人在特定时期与哪些组织存在潜在关联”这类隐性关系,为党史研究提供深层次的洞察力支撑。

3 实验分析、案例研究与系统应用

3.1 实验设置与基线模型

为系统评估本研究提出方法的有效性,我们构建了一个专门针对党史文献模糊指代消解任务的数据集,该数据集源自中央文献出版社出版的《中国共产党历史》第一卷和第二卷、《毛泽东年谱》以及从中央档案馆精选的100份1949年前党内文件。这些文献经过重庆邮电大学马克思主义学院三位党史专家历时六个月的精细标注,不仅标注了文本中所有实体提及及其共指链关系,还额外标注了每个提及的时空上下文信息以及难以通过表面字符串匹配发现的隐性关联。最终数据集包含12,857个文档片段、45,632个实体提及和9,741条共指链,其中化名与代称的复杂案例占比达到37.5%,充分反映了党史文献处理的特殊挑战性。

数据集的划分遵循机器学习标准实践,按7:1.5:1.5的比例随机划分为训练集、验证集和测试集,并确保各集合中文档类型(著作、年谱、文件)的比例基本一致,以避免分布偏差。

在标注质量把控方面,我们实施了严格的流程:(1)规范化:编撰了详细的《党史文献实体与共指标注指南》,明确化名、代称、隐性关联的标注标准与边界案例;(2)迭代与培训:标注过程采用多轮迭代,每轮后组织专家对争议案例进行讨论并更新指南,对标注员进行统一培训;(3)交叉校验:每份文献最终由一位专家标注、另一位专家校验,并以计算随机子样本的标注者间信度达到0.85以上为标准来量化评估标注一致性。

针对专家标注不一致的情况,处理流程如下:首先由两位标注专家进行讨论协商;若无法达成一致,则提交至由第三位资深党史研究员担任仲裁专家,依据史料和指南做出最终裁定,并将此案例作为典型补充至标注指南中。

关于数据可用性,由于所涉党史文献的权威性与敏感性,原始全文语料及完整标注数据集暂不适用于公开开源,以恪守文献管理规定。但为促进学术交流与技术复现,我们计划在论文发表后,在严格遵守数据安全与隐私规范的前提下,于项目主页(网址待定)提供经脱敏处理的样例数据集、完整的标注指南及实体词典,供学界同行参考。研究者亦可通过正式学术合作途径,联系作者申请受限访问部分数据。

在评估指标选择上,我们采用共指消解研究社区广泛认可的MUC、B-CUBED和CEAF三指标综合评价体系。其中MUC指标最早由MUC-6会议提出,并由Luo(2005)系统分析了其通过计算共指链间最小链接操作数来评估mention-pair一致性的原理;B³指标由Amigó等人提出,其核心思想是基于每个项(item)的精度和召回率进行平均,该指标后被引入共指消解领域,用于评估提及(mention)层次的链接一致性;CEAF指标也由Luo提出,该指标通过寻找系统输出的实体簇与参考标注的实体簇之间的最优对齐方式(constrained entity alignment),并计算其F1值来评估性能。这三个指标从不同角度衡量共指消解性能且互为补充,我们报告每个指标的F1值并以三个F1值的平均值作为总体性能评价标准,这种综合评估方式能够全面反映模型在不同类型指代错误上的表现。

为进行公平且全面的对比实验,我们选择了三类具有代表性的基线模型:第一类是传统规则与统计方法的代表,包括Stanford CoreNLP系统提供的共指消解模块和基于特征工程的Berkeley Coreference System。第二类是深度学习方法代表,包括在CoNLL-2012共享任务上表现优异的端到端神经网络模型,以及基于标准BERT和RoBERTa的微调模型。第三类是专门针对历史文献设计的定制化方法,包括基于时序约束的规则系统和结合领域词典的统计模型。所有基线模型均使用相同的训练、验证和测试数据集,且超参数均经过网格搜索优化至最佳性能,确保对比实验的公平性和结果的可信度。

3.2 结果与分析

在主实验对比部分,我们通过系统性的量化评估证明了本文提出的多策略融合模型在党史文献模糊指代消解任务上的显著优势。如表1所示,我们的模型在MUC、B-CUBED和CEAF三个权威评测指标上全面超越了所有基线模型,其中在综合F1值上达到了82.3%的最高性能,相比最佳的基线模型RoBERTa+CRF提升了7.2个百分点,这充分证明了融合领域知识、深度学习与时序推理的整体方案的有效性。

表1 各模型在测试集上的性能对(%)

值得注意的是,本研究的模型在召回率指标上的提升尤为明显,这在党史文献处理中具有重要意义,因为发现所有潜在的指代关系往往比精确识别部分关系更具挑战性也更有价值。正如普拉丹(Pradhan)等人在探讨稳健语言分析时所指出的,在历史文献分析中高召回率通常意味着系统能够捕获更多有价值的隐性关联。

在消融实验分析中,我们通过控制变量方法逐一验证了三个核心模块的贡献度,具体设置了四个对比实验配置:完整模型、移除领域词典模块、移除预训练模型微调模块,以及移除图谱推理模块。实验结果清楚地表明每个模块都对最终性能有着不可或缺的贡献。

表2 消融实验结果(平均F1值%)

移除领域词典模块导致性能下降最为显著达到7.0个百分点,这突显了领域知识在党史文献处理中的基础性作用,特别是在处理高度领域化的化名和代称时,缺乏先验知识会导致模型产生大量误判。移除预训练模型微调策略使性能下降3.6个百分点,这表明尽管通用预训练模型提供了强大的语义表示基础,但缺乏领域适配仍然限制了其在党史文献上的表现。移除图谱推理模块带来3.1个百分点的性能下降,证明了时序推理在发现隐性关联方面的重要价值,这一发现与Luo在共指消解评估指标上的工作一致,并已被广泛引用,其核心思想表明,引入适当的约束(如时空约束)能够显著提升历史文献分析的准确性。

这些消融实验结果有力地证明了我们提出的多策略融合方案的必要性和有效性,每个模块都解决了党史文献模糊指代消解中的特定挑战,它们的有机组合才使得系统能够全面应对语义复杂性、时序动态性和证据稀疏性等多重困难,为党史文献的智能化处理提供了一个完整而高效的解决方案。

3.3 典型案例研究

一个极具代表性的案例来自对1931年《红旗周报》第24期一篇关于苏区工作报告的文本分析(表3),其中出现了“朱毛红军”“井冈山部”“中央区”等多个代称,以及“特委”“前委”等组织机构缩写。系统首先通过文本预处理与领域词典匹配模块识别出“井冈山”是一个地理位置实体,并将其与“井冈山革命根据地”这一标准实体链接,同时通过化名—真名映射库将“朱毛”分解并映射到“朱德”和“毛泽东”两个实体。随后语义模型精细计算模块基于上下文分析,发现“井冈山部”与“朱毛红军”存在共指关系,其置信度得分达到0.92。这是因为模型在微调过程中学习到“部”在军事文献中常作为“部队”的缩写,而“朱毛红军”正是井冈山时期对工农红军第四军的习惯称呼。最后时序知识图谱推理模块介入,根据文献时间1931年查询知识图谱,发现此时毛泽东同志已离开井冈山前往赣南闽西地区开辟中央苏区,因此系统推断文中“中央区”极可能指代新开辟的中央革命根据地而非传统的井冈山地区,这一推断最终通过图谱路径查询得到验证:在1931年的子图中存在“毛泽东—任职于—中央苏区”和“中央苏区—别名—中央区”两条关联边。

另一个典型案例涉及对1942年延安整风运动期间一份党内学习文件中“教条宗派”与“经验宗派”指代对象的隐性关系挖掘。系统初始分析仅能识别这两个术语为抽象概念实体,无法直接关联到具体人物。语义消解模块通过分析上下文,发现该文件多次提及“莫斯科回来的同志”和“山沟里的马克思主义”等短语,结合领域词典将其分别映射到“留苏派”和“本土派”两个群体。时序图谱推理模块随后在1942年的子图上执行多跳查询,首先通过“王明—属于—留苏派”和“毛泽东—倡导—山沟里的马克思主义”等关系找到候选人物集合,然后计算这些人物与“教条主义”“经验主义”等概念在历史文献中的共现频率及其在组织网络中的中心度指标。最终系统发现“教条宗派”与王明、博古等留苏领导人存在强关联,其关联置信度达0.87,而“经验宗派”则与周恩来、彭德怀等具有丰富实践经验的本土领导人关联密切置信度达0.79,这一发现与金冲及在《二十世纪中国史纲》中对该历史时期的分析结论高度一致。

表3 典型案例分析过程

这两个案例充分展示了系统如何通过多模块协同工作,逐步从表面文本深入到隐性关联挖掘,其推理过程不仅依赖于语义理解,更紧密结合了历史时空背景与组织网络关系,最终得出具有高度可信度的结论,为党史研究提供了传统人工阅读难以发现的深层洞察。

3.4 原型系统应用

基于前述多策略融合模型的研究成果,本研究开发了一个面向党史研究人员的可视化原型系统,该系统旨在将复杂的算法过程封装为直观易用的交互工具,真正实现人工智能辅助历史研究的落地应用。该系统核心界面采用三栏式设计,左侧为文献上传与预处理区域,支持用户批量导入TXT或PDF格式的党史文献,系统会自动解析文本并调用领域词典匹配模块完成初步的实体标注。中间主体部分为智能阅读界面,采用色彩编码技术对文本中的不同实体类型进行高亮显示。例如人物实体用蓝色、组织机构用绿色、地理位置用橙色,而化名与代称则用特殊的闪烁边框标注以引起研究者注意,当用户将鼠标悬停在任一标注实体上时,系统会实时弹出浮动窗口显示该实体的标准化名称、生平简介以及在当前文献中的所有出现位置,这种设计将显著降低研究人员交叉核验不同文献中同一实体的时间成本。

系统右侧为动态知识图谱可视化面板,这是整个原型系统的创新亮点,它能够实时展示从文本中抽取并经过推理增强的时序知识图谱,研究者可以通过顶部的时间轴滑动条自由选择特定历史时期,图谱会自动演变为该时间段的子图结构,清晰呈现人物、事件、地点之间的关联关系。例如当研究者将时间轴调整至1935年时,图谱会突出显示长征途中关键会议的组织关系,而拖动到1945年则自动转换为七大后的中央领导机构网络,这种时序动态可视化功能使得传统静态图谱难以展现的历史演变过程变得一目了然,正如贝克(Beck)等人在对动态图可视化的综述中所指出的,时变网络的交互式探索能够极大增强用户对复杂系统演进规律的理解。

该系统还提供一键生成智能分析报告的功能,能够自动汇总文献中的核心实体、关键关系及其时间分布,并标识出需要人工重点核验的潜在矛盾或不确定推断,这种设计既发挥了人工智能高效处理大规模数据的优势,又充分尊重了领域专家在最终判断中的主导地位,完美体现了人机协同的先进理念。具体的系统原型如图2所示。

图2 党史文献智能分析系统原型界面示意图

4  结论与展望

针对党史文献中因高密度化名、代称和隐性关联带来的模糊指代消解难题,本研究所提出的融合领域知识、预训练语言模型与时序图谱推理的多层次技术框架,经实验验证有效。在权威评测指标上,该方法的综合F1值达到80.6%,显著优于现有基线模型,证实了其在处理党史文献语义复杂性、时序动态性与证据稀疏性方面的优越性能。

从理论层面看,这项工作的核心价值在于构建了一套“领域知识深度耦合”的文本智能处理新范式。这一范式推动了马克思主义理论、历史学与信息科学的深度融通,将历史考据的内在逻辑转化为可计算模型的外在约束,为数字人文领域贡献了知识驱动型人工智能的一个典型案例。所采用的领域词典引导的预训练模型微调方法,为破解专业领域普遍存在的“语义鸿沟”问题提供了可迁移的技术路径,探索了符号知识与统计语义模型协同增强可解释性的新可能。进一步地,所设计的时间约束图谱推理算法,为历史这类动态演进系统的知识建模,提供了一个具备严格时序感知能力的通用计算框架,对时序知识表示与推理的基础研究具有启发意义。

在实践应用层面,该研究成果展现出多方面的拓展潜力。其可直接应用在于赋能红色文献的数字化与智能化传承,为构建下一代核心档案库提供从“数字储存”升级为“智能解读”的关键技术支持。在此基础上,能够深度支撑智慧党建与新型学习教育平台的构建,实现关联查询、智能问答与脉络溯源等深度知识服务。该框架本身具备良好的可迁移性,可扩展至军史、地方志、古籍整理等具有类似文本特征的专门领域,并为未来融合多模态史料分析奠定了基础。从更宏观的视角看,通过对海量文献中隐性关联的规模化挖掘,该方法有望为探究长时段、结构性的历史演变规律提供数据驱动的分析工具,开辟史学研究的新路径。

尽管取得了上述进展,当前研究仍存在若干可改进之处,例如对极罕见代称的处理能力、对长文档的全局连贯性建模尚有提升空间。未来的工作将着眼于引入主动学习机制以更有效地捕捉长尾案例,设计跨文档注意力模型以加强长距离依赖建模,并致力于拓展面向多源异构数据的融合推理能力,以期推动历史文献智能分析系统向更深、更广的维度演进。

图片

排版:樊军君

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

Received before yesterday3 - 人民大学公众号

批判性再谈“数字人文”

2026年5月26日 10:57

原创 许喆 2026-05-26 10:57 泰国

数字人文; 方法论; 学科建设; 批判性思维; 数据准确性; 研究范式

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:许喆.批判性再谈“数字人文”[J].数字人文研究,2026,6(01):3-13.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

批判性再谈“数字人文”

许喆

摘要

数字人文作为人文研究中的新兴领域,其学科属性迄今仍较为模糊,并伴随持续争议。文章从方法论视角出发,综合分析各国学者关于数字人文在克服传统人文研究局限方面的论述,并批判性地指出当前数字人文研究中“重数据建设、轻实质研究”的倾向。文章主张,数字人文本质上应被理解为人文研究的方法论,而非独立学科,并强调数据准确性、研究的科学性和论证逻辑的严密性。与此同时,文章批判了当前数字人文教育过分关注技术工具的使用,而忽视人文问题意识以及发现问题和解决问题能力的培养,因而有必要从“技术中心”转向“问题中心”和“批判思维”导向。

关 键 词  数字人文; 方法论; 学科建设; 批判性思维; 数据准确性; 研究范式

作者简介  许喆(HEO Chul),韩国釜山大学占毕斋研究所研究员,鲁东大学区域国别学院特聘教授

0

引 言

随着大数据、机器学习和人工智能等技术开始深刻影响我们的日常生活,不仅理工科领域,各个人文学科内部也出现了大量尝试利用这些技术开展研究的实践。相较于1949年意大利耶稣会神父罗伯托·布萨(Roberto Busa)与IBM合作启动的“托马斯·阿奎那索引”(Index Thomisticus)项目,以及随后伴随个人计算机普及而兴起的各类数字化数据建设,这一新一轮浪潮具有截然不同的意义。2004年,约翰·昂斯沃思(John Unsworth)、苏珊·施赖布曼(Susan Schreibman)和雷·西门斯(Ray Siemens)共同编辑出版的《数字人文指南》(A Companion to Digital Humanities)及其导言《数字人文与人文计算导论》中,明确采用了“Digital Humanities”这一术语,并强调数字人文并非“单纯的数字化”(mere digitization),而是与传统“人文计算”有所区分的实践。按照这一区分,修辞学与写作等领域通常被理解为“以当代人文方法研究数字对象”,而数字人文则被界定为“以数字技术研究传统人文对象”。

然而,这样看似清晰的界定之所以仍显得暧昧不明,根本原因在于:围绕数字人文的本质属性——它究竟是人文研究的方法论,还是一门独立的新兴学科——不仅在学界存在激烈争论,在更广泛的社会实践中也呈现出多重张力。有的观点将数字人文界定为“计算或数字技术与人文学科交叉的学术活动领域”,既包括对数字资源的使用,也包括对这些技术应用影响的分析;EBSCO“研究论文写作范例平台”(Research Starters)则将其视为"数字时代研究和教学中,人文学科利用数字技术的领域",涵盖计算、数据库、数字保存和多媒体等方面。

围绕“数字人文究竟是一种人文研究方法、是对既有人文学科资料的数字化整理与新研究方式,还是一种以人类视角重新统合诸学的‘新学科’”的争论,不仅影响数字人文的地位,而且直接关系到其发展方向、教育模式和研究实践。如果是新学科当然需要新专业;如果是新研究方式,在原专业上调整课程或设置微专业就可以。在这种情形下,加州大学尔湾分校图书馆指南干脆指出:“没有单一或普遍认可的定义”(no single or universally agreed-upon definition),并倾向于将数字人文理解为"计算工具与人文问题的交叉点",在某种程度上回避了学科本体论层面的正面回应。

本文将从理论争鸣与实践困境两个维度,对数字人文的学科属性与研究实践进行批判性考察,并明确提出:数字人文应被理解为人文研究的方法论,而非独立学科,更不是“AI+专业”的模式。AI就是利用数字与电脑的一种方式而已,不能覆盖数字人文的全领域。尤其是在试图克服传统人文研究中常被诟病的主观性、模糊性与碎片化时,数字人文需要以数据的准确性、研究的科学性和论证的逻辑严密性为基础,同时警惕当前数字人文教育中普遍存在的技术中心主义倾向,重新强调批判性思维与问题意识的重要性。

1

到底“数字人文”是什么——其学术争论

关于“数字人文”的属性,不管哪个国家/地区的学界均存在明显分歧。一方面,较多学者坚持将数字人文理解为人文研究的方法论创新。马修·柯申鲍姆(Matthew Kirschenbaum)在其经典文章《什么是数字人文?它在英语系中扮演着怎样的角色?》中,将数字人文界定为“关注计算与人文学科交叉的研究、教学和创新领域。它在本质上是方法论的,在范围上是跨学科的”,强调数字人文具有工具性与方法性特征。台湾数位人文学会也明确指出,数位人文领域的核心概念是将现代数位技术应用于传统人文学科,以克服传统研究方法的局限。当然,中国学界的相关研究也指出,数字人文领域呈现出“实践先于理论”的态势,“作为技术方法的数字人文”这一观点被广泛接受,其本质是一种技术工具论式的理解,尽管这一理解本身也需要批判性反思。

从更深层的动力来看,此类“方法论化”倾向至少有两重背景。第一是人类对“便利”的欲望:为了追求便利,人类不断发明并使用各种工具,计算机与数字技术不过是这一漫长历史中的最新成果,欲望始终是推动技术演进的重要动力。第二是欲望的满足逐渐被转化为一种“财富形式”,并在竞争性的社会结构中成为新的秩序基础。技术发展不仅带来生活上的便利,也与生产、消费以及财富积累紧密相连,从而成为经济收益与社会分层的重要机制。

刘圣婴等学者在《数字人文的研究范式与平台建设》中提出,数字人文研究范式由技术(Technology)、过程(Process)和行为(Behavior)三个维度构成。这一范式框架强调,数字人文平台作为基础设施的重要组成部分,是数字研究方法的载体,能够促进数字人文方法论体系的丰富和新研究范式的建立。具体而言,技术系统包括数据采集(如API、“爬虫”)、数据存储(如数据库、知识图谱)、数据分析(如文本挖掘、社会网络分析)和数据呈现(如可视化、VR/AR)等环节;方法系统则涵盖昂斯沃思提出的“学术基元”(scholarly primitives),包括发现(Discovering)、注释(Annotation)、比较(Comparing)、引用(Referring)、采样(Sampling)、说明(Illustrating)和表现(Representing)等基本研究行为。

与此同时,一些研究试图将数字人文论证为较为独立的学科或新的知识范式。通过文献计量与学科网络分析,有学者指出数字人文已经形成较为清晰的学术共同体:不仅拥有稳定的核心期刊与出版物,还有相对集中的作者群体与合作网络,因此“数字人文既是一门独立学科,又是一个高度跨学科的领域”。英文期刊《数字_人文》(Digital_Humanities)则从更具纲领性的层面把数字人文界定为“21世纪人文学的范式”,强调它并非单纯为既有学科提供辅助工具,而是通过平台建设、界面设计与数据驱动的知识生产实践,整体重塑人文知识的组织方式与呈现形态,由此被视为一种重绘人文知识空间的“元学科”(meta-discipline)。《人文社会科学传播》(Humanities and Social Sciences Communications)上的文章《比较文学与数字人文》指出,比较文学和数字人文都是复合型学科,本质上具有跨学科性质,并强调要将数字人文作为独立学科来建构,就必须界定一种能够反映学科理想的独特方法,使之成为这一学科结构的重要支柱。《数字人文研究》上有关数字人文堆栈的研究,则试图从计算思维、知识表示、基础设施、方法工具和学术界面五个方面构建数字人文的理论支撑体系。

认识这些主张,需要注意的是,“复合学科”和“跨学科”的说法本身并不新奇。从本质上看,人类留下的全部痕迹都可以被视为“人文”。而人文记录总是在人与自然、人与人以及人与群体之间的互动中呈现出复杂的属性,并以多种形式显现。虽然人类在长期知识分类过程中将其划分为众多学科,但其中几乎不存在与“人”完全无关的领域:无论是医学、音乐还是历史,都与人的经验紧密相连。换言之,作为人类行为记录的全部资料天然具有学科交叉和复合性,后来的“人文科学—社会科学—自然科学”划分强调的是研究重心的差异,而非经验本身的单一性。从这个意义上说,如果从“对象的普遍性”出发,数字人文似乎可以被描述为“统摄诸学的新学科”,但在具体实践中,大多数关于数字人文的讨论依然是在既有人文学科框架内展开,而非真正超越其边界。《信息科学与技术协会期刊》(Journal of the Association for Information Science and Technology)发表的《数字人文——一门独立的学科?》一文通过计量分析得出结论:数字人文“同时是一门独立学科和一个高度跨学科的领域,与相邻学科有着多重连接”。这种模糊性恰恰揭示了数字人文当前的困境:它既不是纯粹的工具,也尚未完全成为一门独立学科,而是处于尴尬的中间状态。

其实这个观点我们在现实研究情况下可以看到。比如,基于2020年中国数字人文大会(CDH2020)获奖项目与论文的分析,以及对国际数字人文年会主题的考察,如前文所述,刘圣婴等学者提出了一个由技术、过程和行为三个维度构成的数字人文研究范式框架 ,这一框架的核心在于强调,数字人文研究不应仅仅停留在技术应用层面,而应将技术、研究过程和学术行为有机整合,形成完整的方法论体系。在数字人文平台建设中,这三个维度与人文资源的结合构成了数字人文研究基础设施的基本组成部分。但是本质上来说看,研究维度大部分集中于人文资料数字化有关技术,而不是探讨“人文”价值的解释。

2

当代人文学者的态度、立场分化与数字人文克服传统人文研究局限的可能性

面对数字人文与生成式人工智能的兴起,传统人文研究者大致呈现出三种不同的态度。第一类可以被视为“否定者”,他们或全面否定,或部分否定数字技术的价值,认为在以汉字文献为代表的传统人文研究中,即便人工智能技术高度发展,也不可能取代人文学者;相反,依赖计算机的研究方式会阻碍研究者思维与认知的拓展,因此应当坚持传统方法,至多只在必要时使用一些最基本的功能。

第二类则是“狂热的拥护者”,他们不仅全面肯定新技术,甚至对其抱有某种幻想。在当下生成式AI和大模型迅速发展的语境中,这类声音往往认为人工智能已经在多方面超越人类,未来世界将由人工智能主导;传统的语言翻译工作将被大幅削弱,编程可以完全交给聊天机器人完成,生成式图像和虚拟演员会使真正的演员变得多余,等等。

第三类则试图在否定与迷信之间寻求“批判性接受”的道路。这一立场承认:无论是人工智能、大语言模型,还是数字人文方法,都不可能成为解决一切问题的“万能钥匙”;任何算法都不能自主做出价值判断,数字数据本身只是经由人类编码的结果,数据处理的方法也无法被一次性定型或简单标准化。因此,数字人文方法应被理解为激发新问题、补充或修正既有研究的一组“工具”,而非替代人文思考本身的终极方案。这类研究者往往会关注从数据转写、预处理、分析到可视化的完整流程,理解各种算法与软件的运行逻辑,评估它们在具体研究中的适用性与局限性,从而在实践层面提出更为具体、务实的使用策略。

当然,还有一部分人选择“观望”。他们既不积极反对,也不主动拥抱数字人文与新技术,而是选择在一旁观察事态发展,认为这与自身关系不大,即使环境发生变化也坚持原有立场。

尽管理论上数字人文有望克服传统人文研究的诸多局限,但现实中的实践往往偏离这一初衷。不过学者们仍普遍承认,数字人文在提升研究科学性、扩大研究规模、开辟新问题域以及促进学科合作方面具有重要潜力。

第一,提升研究的科学性与客观性

《数字人文:大数据时代教育研究的新图景》一文指出,在数字技术的加持下,教育研究的科学性、普适性和客观性得以提升;“基于数据”成为保证研究科学性的关键路径,帮助研究摆脱“从主观出发”的研究模式,通过海量数据的归纳和分析夯实实证基础。《澳门理工学报》发表的《“精确人文科学”的价值》则强调,数字人文并没有消解语言学和历史学,而是以量化方式对其研究方法进行批判性的拓展,在若干问题上对准确性有着严格要求。

第二,扩大研究规模与提高效率

台湾中研院数位文化中心指出,数字人文平台期望通过结合研究者、研究资料与研究工具的综效,扩大研究规模、缩短研究时间,从而提升人文研究的质量。“学术厨房”(The Scholarly Kitchen)网站上的文章《拓展数字人文的三大挑战(及解决方案)》指出,许多数字人文项目需要大量数据以获得统计上显著的结论;研究者能够调动的数据库和资料来源越多,提出新问题、发现未知趋势或通过增添证据强化论证的能力就越强。刘圣婴等学者强调,通过新技术、语义技术和知识图谱等先进技术的应用,数字人文平台能够实现资源的互联互通,为研究者提供一站式的研究支持。

第三,开辟新的研究视角与问题域

《数字人文季刊》(Digital Humanities Quarterly)上的相关研究指出,新技术不仅提供新的数据分析方法,也可用于创造新类型的数字资源,从而帮助克服传统研究方法的局限。《接受·整理·生成——“数字人文”视域下文学研究方法转型的初步探讨》一文则指出,“数字人文”作为一种新的科研方向,使得数据处理不再局限于理工科,而是逐渐渗透到人文研究之中,以数字文本的大量产生和纸质文本数字化为基础,引入理性技术手段,将定量分析与定性分析结合起来,为人文学科打开新的研究思路。该文进一步提出了“接受、整理、生成”三阶段模型,探讨数字人文研究方法的转型路径。“接受”阶段强调计算机处理与识别机制与读者接受之间的差异,揭示数字技术对文学文本的认知方式;“整理”阶段则关注大数据时代“校勘”的崛起,通过实现不同文本之间的连接来转化与重写文本意义;“生成”阶段探讨如何通过数字技术对文本的情感主题、叙事话语和人物形象进行可视化的数字生成。

第四,促进跨学科合作与知识生产

《牛津数字学术与数字人文手册》(Oxford Handbook of Digital Scholarship and Digital Humanities)指出,数字人文所面临的根本挑战之一,在于不同学科在认识论文化上的鸿沟,体现了关于数据与知识的根本性且常常相互冲突的立场。然而,这一挑战同时也是机遇:数字人文为理解、揭示和捍卫人文学科的方法提供了独特视角,使其探索性、迭代性、批判性、思辨性与对话性等复杂特征得以被重新认识,这正是我们不应失去的洞见与灵感源泉。

《数字人文的研究范式与平台建设》一文还特别强调了“方法论共同体”(Methodological Commons)的概念,认为数字人文平台不仅是技术基础设施,更是方法论实践的共享空间。通过构建开放、协作、共享的研究环境,数字人文能够打破学科壁垒,促进人文学者、计算机科学家、图书馆员和档案管理员之间的深度协作。

3

数字人文实践层面的困境与真正研究方法

当下的数字人文研究存在以下几个重要问题。

第一,基础设施建设与研究分析的脱节

曼弗雷德·塔勒(Manfred Thaller)在《数字人文领域的争议:一个议程》一文中指出,数字人文面临的首要危险之一,就是“过度关注基础设施建设,忽视分析方法”。他警告说,许多数字人文项目将所有时间和经费用于数字化和平台建设,等到资助周期结束时,却几乎没有多少真正的解释或学术论证产出。中国学界的反思也指出,早期的数字图书馆与数字典藏为当前数字人文研究提供了重要数据支持,但整体上仍缺乏系统性和规划,各学科发展不均衡,研究成果散乱而微观,多数只是对数字技术的简单应用、对既有研究的重复验证或对西方经验的模仿,缺乏具有原创性的高影响力成果,虽然CBDB(“中国历代人物传记资料库”)、DocuSky、MARKUS等平台在数据建设方面取得显著成就,但大多数项目仍停留在“资源数字化”和“工具开发”层面,真正产生学术影响力的研究成果相对有限。这一现象揭示了当前中国数字人文实践中“重平台建设、轻问题研究”的普遍倾向。

第二,“数据问题”:数据与算法盲从主义的陷阱

诺亚·沃德里普-弗鲁因(Noah Wardrip-Fruin)在《论数字人文的数据问题》中尖锐地指出,数字人文领域因被认为“仅仅是关于数据”而受到限制和边缘化。一些媒体将数字人文方法简化为“统计频率与模式分析”,并用“先跑一轮数字,再看是否能激发解释性假设”来概括其研究路径,这导致不少项目停留在频率统计与共现关系等表层描述上,而缺乏对文化语境、历史语义和思想脉络的深入阐释。

《接受·整理·生成》一文也指出了数字人文研究中普遍存在的“意义挖掘”(Meaning Digging)与“文学批评”(Literary Criticism)之间的张力问题。数据挖掘虽然能够揭示文本中的统计规律和模式,但这些模式本身并不等同于意义。如何从数据中提炼出具有人文价值的洞见,仍然需要研究者深厚的理论素养和阐释能力。

第三、工具开发与问题研究的失衡

塔勒指出,数字人文面临的另一大危险是“被动接受技术,而非主动塑造技术”,如果人文学者只是“接受”他人设计的现成软件与基础设施,那么关于何为数据、何为证据、何为有效推论等关键的认识论与伦理前提,便会被技术提供方预先设定,而不由人文学者自己把握。与此同时,许多项目虽然在工具和平台开发上投入巨大资源,却缺乏清晰的人文问题导向,结果形成“为技术而技术”的局面。《数字东方学家》(The Digital Orientalist)上的文章指出,数字人文学者工作所处的学术环境与传统学科之间,存在着真实且不断扩大的脱节。

在考察数字人文平台建设的设计原则时,刘圣婴等学者提出了“先进系统、完备资源、全面功能、丰富工具、用户友好”五大原则。然而,他们也承认,当前大多数数字人文平台在“先进系统”和“丰富工具”方面投入较多,但在“问题导向”和“用户实际需求”方面仍显不足。这种失衡导致许多平台虽然功能强大,但实际使用率不高,难以真正融入研究者的日常学术实践。

第四,可重复性危机与学术严谨性的缺失

《数字可再现时代的数字人文:建立一个最公平的后计算框架》一文强调,为了验证科学结果,研究所用数据应公开可得、具有足够且具有代表性的规模,并附有透明的元数据,同时所采用的方法必须明确且可在数据集上重复。然而,许多数字人文项目难以满足这些基本要求。《文化分析》(Cultural Analytics)上发表的《数字人文的理论驱动统计学》则指出,数字人文面临“多重假设检验”的问题:研究者不断测试越来越多的假设,直到找到所需的模式,这种“数据挖掘式”研究严重损害了研究的科学性与可信度。

因此,作为人文研究方法论的数字人文需要更慎重的考虑。基于上述历史演变与实践困境的分析,本文明确主张:数字人文本质上应被理解为人文研究的方法论,而非独立学科。这一定位既契合其知识谱系,也有助于缓解当前“重建设、轻研究”的失衡状态。

首先,从历史溯源看,数字人文起源于布萨神父为解决传统文本索引问题而引入计算机技术的尝试,其初衷并非创建全新的学科,而是为既有人文研究提供新的工具和方法;在“人文计算”到“数字人文”的术语转换过程中,其核心诉求始终是强调数字技术与人文研究的深度结合,而非简单的资源数字化。

其次,从知识特性看,数字人文并不拥有独立的研究对象,其关注的对象仍然是文学、历史、哲学、艺术、语言、文化等传统人文学科研究对象,只是研究手段发生了变化。《数字人文的方法理解及其反思》一文虽然批判了将数字人文简化为“技术工具”的倾向,但也承认“作为技术方法的数字人文”这一理解在相当程度上揭示了数字人文的根本属性:通过智能化、多样化的研究方法,发现传统方法难以察觉的问题,从而提出更优的解决路径。

再次,从实践需求看,将数字人文定位为方法论,有助于把评价标准从“建设了多少数据库、开发了多少工具”转移到“是否提出并回答了真正重要的人文问题,是否产出了具有解释力的研究成果”。正如《数字人文的方法论在哪里?》一文所指出,数字人文学者正在使用对人文学科来说基本上全新的方法,因此更需要清晰地阐明这些方法如何运作,而不是急于以“新学科”的名义寻求制度性的正当化。

在此基础上,如果把数字人文视为人文研究方法论的一部分,它就必须遵循科学研究的一般规范:数据准确、方法科学、逻辑严密。

第一,在数据准确性方面,研究者需要意识到:所谓“数字化数据”并非天然客观,而是在数字化标准、标注规范与清洗流程中被不断重构的结果。如果数据本身存在偏差或错误,再精巧的算法也只能“垃圾进,垃圾出”(garbage in, garbage out)。FAIREST原则进一步强调,在构建研究语料时,除了技术标准和语境标准之外,研究者自身的专业判断同样不可或缺。

第二,在方法的科学性方面,数字人文研究需要借鉴社会科学中“理论驱动”的研究范式,避免在缺乏明确问题和假设的情况下无目的地“挖掘”数据,而应当围绕清晰的问题选择合适的分析方法,进行严谨的统计检验,并坦诚讨论研究的局限。

第三,在解释的逻辑严密性方面,数字人文研究应当将定量分析与定性阐释有机结合,使数理逻辑和计算思维成为支撑解释的基础,而不是替代解释本身;通过预设算法逻辑对文本进行处理之后,仍需要人文学者基于整理后的数据和主题模型展开细致的解读。

刘圣婴等学者已经指出,数字人文平台设计不仅要关注系统的技术先进性,更要提取领域知识特色的内容架构,使平台能够真正服务于具体学科的研究需求。这一观点与本文主张的“数字人文作为方法论”的定位高度契合:数字人文的价值不在于技术本身,而在于技术如何有效地支持人文研究问题的提出与解决。

如果数字人文在制度上被完全学科化,一方面,它很可能自我封闭为一种“技术性学科",削弱与传统人文方法论之间本来具有生产张力的内在关系;另一方面,它也有可能失去深入介入各个人文学科内部实践、推动其方法论更新的能力。相比之下,如果将数字人文界定为人文研究的方法论创新,并在这一前提下强调数据准确性、研究的科学性和论证的逻辑严密性,同时把具体方法深度嵌入各个学科自身的理论语境之中,那么数字人文就更有可能不再沦为一座孤立的“新技术岛屿”,而是成为推动当代人文研究范式转型的内在动力。在此基础上,还需要对研究成果的产出模式进行评估。研究者应向评审者充分提供研究所使用的数据与分析工具,使之能够在同一数据集上再现实验过程和主要结论。只有在这一意义上实现可再现性,研究成果才可能被视为客观、具有清晰逻辑并能提出具有解释力的新见解。

4

数字人文教育的偏向与重构

当前数字人文教育普遍存在技术中心主义倾向:过度强调工具与软件的使用,而忽视人文问题意识与批判性思维的培养。《职业院校数字人文教育的实践路径与创新发展研究》一文指出,技术工具在教育实践中逐渐从辅助手段异化为主导力量,导致教师与学生的批判意识弱化,并被动服从技术规训,技术反而成为教育的目的本身。台湾关于数位人文方法应用于文学分析教学的研究也强调,良好的数字人文教育不应停留在“如何使用某种工具”的层面,而应使学生在课程结束后,即便掌握的具体技术并不繁多,也能具备更成熟的综合能力。系统性文献综述表明,不少数字人文课程在实践中过度强调工具、软件与项目操作,而在培养学生的理论基础与批判性思维方面投入不足,易导致学生拥有一定技术能力,却在各自人文学科的理论训练、史料训练和语言训练上出现断层。

更为根本的问题在于“思考能力”的弱化。有研究指出,在高等教育领域,传统应试教育的惯性尚未根除,学生习惯于被动接受知识,在数字化转型背景下对AI产生过度依赖,因而在批判性思维与价值判断方面日益乏力。法兰克福学派的批判理论揭示了“数字茧房效应”如何将个体塑造成缺乏反抗性和批判思维的“单向度的人”,若数字人文教育只教学生使用工具而不培养其质疑工具背后的逻辑、算法偏见与数据局限的能力,他们便难以避免沦为技术的附庸。

从素质教育角度看,AI虽然在信息检索与逻辑推理方面可能超越人类,但在可预见的未来仍难以获得人类特有的好奇心与想象力,这恰恰是教育必须守护的核心价值。数字时代的教育应着力提升学生的“精准提问能力”,避免因依赖AI提供现成答案而丧失独立探究意识。相关研究也再次强调,人文学科对培养批判性思维与问题解决能力具有不可替代的作用,它帮助学生解释复杂叙事、进行伦理思考、从多重视角应对挑战,并考虑不同解决方案对人的影响。

要纠正当前的偏向,需要在以下几个方面进行系统性改革。

第一,从“工具中心”转向“问题中心”。数字人文教育应同时涵盖计算方法、支持人文学习的数字工具与平台,以及对数字资源与实践的批判性视角,其中最后一项目前最为匮乏。推动数字人文教育从“技能培训”转向“思维培养”,注重学生批判性思维、问题意识与伦理判断能力的提升,培养既懂技术又具人文深度的复合型人才。

第二,构建“问题意识—技术能力—批判反思”三位一体的能力结构。通过信息、数字与人文三种素养,以及技术应用、数据分析、批判思维与创新实践四种能力的综合培养,形成较为完整的教育框架。批判性数字人文,即鼓励对数字技术本身进行批判性反思,关注算法背后的权力结构、数据的社会建构性以及数字实践中的伦理困境,使数字人文成为“批判性人文”的重要组成部分。法兰克福学派的批判理论为我们提供了重要的理论资源,帮助我们警惕数字技术可能带来的意识形态控制和主体性消解。

第三,重视数字人文的伦理维度。在教学中系统讨论数据伦理、算法公平与隐私保护等问题,培养学生对这些议题的敏感度和批判能力。

第四,推动跨学科深度协作。打破学科壁垒,推动人文学者与计算机科学家、数据工程师、设计师等开展实质性合作,共同构建既能满足技术标准又符合人文需求的研究工具与平台。如前文所引"方法论共同体"概念,数字人文平台应成为不同学科背景研究者协作的共享空间。

第五,支持开放科学与可重复研究。推动数字人文项目的数据、代码与方法论透明化,建立符合FAIR原则(可查找、可访问、可互操作、可重用)的研究规范,提升研究的可信度与可重复性。数据的FAIR原则和语义技术的应用,被认为是实现数字人文研究可持续发展的关键。

5

结  论

从中国以外学界的观察来看,尽管数字人文在中国起步较晚,但近年来发展迅速,已成为人文学科数字化转型的重要推动力。在实践层面,中国数字人文项目呈现出"平台驱动、数据先行、多学科协作"的特点。

综上所述,数字人文应当被视为嵌入各个人文学科内部的一套方法论创新,而非在学科版图上另起炉灶的独立学科。只有在与传统人文研究方法保持持续对话和张力的前提下,并在数据准确性、研究科学性与逻辑严密性方面不断自我要求,同时将具体方法深度内嵌于各个学科的理论语境之中,数字人文才有可能不沦为一座孤立的“新技术岛屿”,而真正成为推动人文研究转型的内在动力。

从这个意义上说,与其追求简单的“分离”与“学科化”,不如在“整合”与“批判性接受”的路径上,探索数字技术与人文传统共生共存的新可能性。数字人文的未来,不在于它是否能够成为一门独立的学科,而在于它能否有效地推动各人文学科的方法论创新,能否帮助人文学者更好地理解和阐释人类文明的复杂性,能否在数字时代延续和弘扬人文精神的核心价值。 因此,与其急于在制度层面为“数字人文”划出一块全新的学科版图,不如在具体研究实践中,以方法论更新、可重复性规范和教育改革等路径,逐步检验和拓展数字人文的实际能力边界。因此,数字人文的未来不在于是否获得一块独立的“学科领地”,而在于它能否在具体研究中持续检验和扩展自身的方法论价值。在这一意义上,数字人文与其说是一门新学科,毋宁说是当代人文研究在数字条件下进行自我反思与自我更新的重要路径:它既要求研究者保持对数据与算法的批判性态度,也要求他们在开放、可重复和跨学科协作的框架内,重新思考“何为人文研究”这一根本问题。

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

技术伦理、数字文化治理领域论著及作品推荐

2026年5月20日 09:00

原创 刘锦东 2026-05-20 09:00 北京

技术伦理、数字文化治理领域论著及作品推荐

作者

简介

刘锦东(Leo-Liu Jindong),香港教育大学教育发展与创新学院助理教授,一带一路商务传意与行政硕士课程主任,新媒体与社交媒体硕士课程副主任。先后毕业于香港中文大学和英国伦敦国王学院。研究兴趣包括人机传播、新媒体技术批判和文化研究、人工智能伴侣和虚拟现实社交等,研究成果可见于多部SSCI一区期刊、China Daily 和澎湃思想市场。

(声明:本书单仅代表个人观点,并不全面,但希望可以帮助到大家,欢迎大家多多推荐补充)

经典书籍/论文

  • 尤瓦尔・赫拉利. (2018). 今日简史:人类命运大议题 (林俊宏, 译). 中信出版集团股份有限公司.

  • 唐娜・哈拉维. (2012). 类人猿、赛博格和女人:自然的重塑 (陈静, 吴义诚, 译). 河南大学出版社.

  • 南希・凯瑟琳·海尔斯. (2017). 我们何以成为后人类:文学、信息科学和控制论中的虚拟身体 (刘宇清, 译). 北京大学出版社.

  • 雪莉・特克尔. (2014). 群体性孤独:为什么我们对科技期待更多,对彼此却不能更亲密? (周逵, 刘菁荆, 译). 浙江人民出版社.

  • 雪莉・特克尔.(2017). 重拾交谈 (王晋,边若溪,赵岭,译). 中信出版集团.

  • 何塞・范・戴克,托马斯.普尔,马丁・德・瓦尔. (2023). 平台社会:互联世界中的公共价值 (孟韬,译). 东北财经大学出版社.

  • 克里斯蒂安・福克斯. (2020). 数字劳动与卡尔・马克思 (周延云,译). 人民出版社.

  • Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417–424.

  • Mori, M. (1989). Buddha in the robot: A robot engineer’s thoughts on science and religion (C. S. Kubo, Trans.). Japan Publications.

  • Barbrook, R., & Cameron, A. (1996). The californian ideology. Science as culture, 6(1), 44-72.

  • Fuchs, C. (2014). Digital labor and Karl Marx. Routledge.

  • Withers, R., & de Peuter, G. (2011). Games of empire: Global capitalism and video games. University of Minnesota Press.

  • Zuboff, S. (2019). The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power. New York: PublicAffairs.

  • Plantin, J. C., Lagoze, C., Edwards, P. N., & Sandvig, C. (2018). Infrastructure studies meet platform studies in the age of Google and Facebook. New media & society, 20(1), 293-310.

前沿书籍/论文

  • 尤瓦尔·赫拉利. (2024). 智人之上:从石器时代到AI时代的信息网络简史 (林俊宏, 译). 中信出版集团股份有限公司.

  • 孙萍. (2024). 过渡劳动:平台经济下的外卖骑手. 华东师范大学出版社.

  • 牟怡. (2024). 传播的跃迁:人工智能如何革新人类的交流. 清华大学出版社.

  • 许煜. (2021). 论中国的技术问题 —— 宇宙技术初论 (苏子滢,卢睿洋,译). 中国美术学院出版社.

  • 布吕诺·帕蒂诺. (2021). 金鱼文明:注意力经济如何操纵我们的网络生活 (刘星驰, 译). 人民日报出版社.

  • 董晨宇, 叶蓁. (2021). 做主播: 一项关系劳动的数码民族志. 国际新闻界, 43(12), 6-28.

  • 陈昌凤, 梁亦昆. (2026). 既不亲密也不冷漠:与生成式AI日常互动中的情感光谱研究. 新闻与写作(1), 15-24.

  • 张小满. (2026). 大厂小民:我在互联网公司的1480天.文汇出版社.

  • Hao, K. (2025). Empire of AI: Dreams and nightmares in Sam Altman's OpenAI. Penguin Press.

  • Jasanoff, S., & Kim, S. H. (Eds.). (2019). Dreamscapes of modernity: Sociotechnical imaginaries and the fabrication of power. University of Chicago Press.

  • Richardson, K. (2016). Sex robot matters: slavery, the prostituted, and the rights of machines. IEEE Technology and Society Magazine, 35(2), 46-53.

  • Lin, B. (2024). The AI chatbot always flirts with me, should I flirt back: From the McDonaldization of friendship to the robotization of love. Social Media+ Society, 10(4).

  • Leo-Liu, J. (2023). Loving a “defiant” AI companion? The gender performance and ethics of social exchange robots in simulated intimate interactions. Computers in Human Behavior, Vol.141.

科幻小说

  • 阿西莫夫机器人系列

  • 亚瑟克拉克机器人系列

  • 陈楸帆《荒潮》&《刹海》

  • 金草叶《如果我们无法以光速前行》

  • 威廉·吉布森《神经漫游者》

  • 尼尔·斯蒂芬森《雪崩》

电影/电视剧

  • 《我,机器人》

  • 《黑客帝国》

  • 《黑镜》

  • 《银翼杀手2049》

  • 《攻壳机动队》

  • 《她》

  • 《流浪地球2》

  • 《西部世界》

  • 《真实的人类》

  • 《网络谜踪》

  • 《斯诺登》

  • 《少数派报告》

纪录片

  • 《监视资本主义:智能陷阱》

  • 《网络审查帝国》

  • 《谣言终结者:社交媒体与真相》

  • 《互联网之子:亚伦・斯沃茨的故事》

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

本地化智能史料管理系统的构建方法与实践

2026年5月18日 09:00

原创 安高怡 2026-05-18 09:00 北京

史学数据库;数字人文;数据本地化;Obsidian

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:安高怡.本地化智能史料管理系统的构建方法与实践[J].数字人文研究,2026,6(01):53-61.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

本地化智能史料管理系统的构建方法与实践

摘要: 在当前数字化背景下,传统中心化在线数据库在数据自主权、持续运营和海量资料协同方面面临结构性挑战。研究旨在提出并构建一套以“数据本地化”为核心,利用Obsidian笔记软件、开源OCR技术及自建私有云同步机制的综合方案,用以建立个人化、具备高可移植性与协作性的史料数据库。该方案通过Obsidian的纯Markdown架构和插件生态,解决了史料与笔记的割裂问题,并融入AI能力进行史料对话和分析。同时,通过自建高性能私有云,突破传统网盘的带宽限制,实现数据自主权和高效团队协作。该方案为个体研究者和小型学术团队提供了一种低成本、可持续、高安全性的数字人文研究工作流,有助于推动学术积累的开放和阶梯式发展。

关键词:史学数据库;数字人文;数据本地化;Obsidian

作者简介: 安高怡,华中师范大学历史文化学院硕士研究生,Email:205959586@qq.com。

 1  “中心化”的困境与本地化史料全文数据库的构建思路

在人工智能加速知识生产和传播的时代背景下,历史学界对于建设个人化、专业化史料全文数据库的必要性已形成共识。中心化数据库或平台的设计初衷是通过提供一体化、开箱即用的服务,来降低个体研究者入门数字人文的技术门槛。然而,这种依赖外部平台的解决方案并非没有隐忧,其内在的结构性弊端值得我们深入审视。

首先,中心化平台在数据交互上的系统局限,难以充分响应部分个体研究者在人工智能时代对于史料深度利用的个性化需求。近年来,一些在线数据库已逐步集成全文检索、智能问答、语义检索等前沿 AI 功能,极大地提升了文献获取与智能处理的效率。这类平台的设计初衷是提供标准化的通用服务,其内置算法与数据后台采取封装的系统架构。由于底层数据接口的限制,研究者难以将自定义的 Python 脚本或开源分析工具直接接入平台内部,根据具体课题将史料转化为“可计算的数据源”,进而自主对其进行高频的清洗、正则替换、实体标注乃至语义重组。这种系统架构的相对封闭性,在一定程度上限制了史料处理过程的算法透明度与可追溯性,也部分制约了研究者基于全文数据进行细粒度挖掘与个性化二次开发的探索空间。

其次是数据自主权与安全性隐忧。对于笔者所在的中国近现代史领域而言,这一问题尤为敏感。研究者将自己历经艰辛搜集、整理和OCR的史料上传至第三方服务器,本质上是将自身学术资产的控制权交由他人。平台运营的不确定性、未来政策变化的可能性,以及持续不断的服务器租赁、带宽购买和专业技术维护费用,给研究者带来了长期焦虑。更为关键的是,公有云平台普遍部署了自动化的内容审查机制,近代史史料往往包含大量特定历史时期的敏感表述或非公开档案信息,容易触发平台的风控策略,导致珍贵史料被误判删除甚至账号封禁。这种将学术命脉寄托于外部算法的不确定性,构成了数字人文研究中不可忽视的隐性风险。

另外,长期来看,中心化服务器模式不可避免地会延续学术积累的碎片化和个人化态势。由于现有平台的数据架构通常是高度封装且不可透视的,服务器持有端在后台看到的只是一堆代码,且用户难以快速、无损地将全部数据完整迁移出来,最终将会形成数据锁定效应。这直接导致各个数据库彼此隔绝、难以互通,严重阻碍可叠加、可继承的阶梯式学术积累的形成。

因此,“数据本地化”(Data Localization)显得尤为重要,它是解决上述所有结构性问题的关键所在。只有当史料数字化原件和OCR后的文本都以通用且标准化的文件格式储存在研究者自己的本地设备上时,数据的自主权和安全性才能得到根本保障,同时为研究者之间高效、低成本的学术合作与分享奠定基础,真正实现史学数据的自主可控。

 2  Obsidian作为史料管理容器的方法论革新与研究赋能

历史学者构建个人数据库的核心诉求,正在从单向的史料检索与消费转向深度的知识计算与生产。在这一新范式下,理想的学术数据库既需要具备私人档案室般的稳定秩序与数据自主权,以保障长周期考证的严谨性;又必须在底层架构上契合数字人文的开放性趋势——通过采用通用标准与非封闭格式,摆脱商业平台的流量逻辑与数据黑箱,确保珍贵的史料语料库能够跨越软件周期,实现与外部算法的高效互操作及学术共同体间的阶梯式共享。

在探讨 Obsidian 作为核心管理容器的优越性时,必须首先将其置于这种“数据自主权”与“标准开放”辩证统一的视域下进行审视。与优先考虑多端实时同步却将数据封装的传统云笔记不同,Obsidian 的核心仅仅是一个操作系统层面的本地文件夹。这一有些返璞归真的架构,恰恰契合了上述理论诉求:当史料以开放的 Markdown 格式存在于本地硬盘(示例见图1),不仅可让研究者获得绝对的数据控制权,规避平台锁定的风险,更确立了数字人文研究中最关键的前置条件——数据的“机器可读性”与“计算可介入性”。这意味着,史料数据不再为特定软件所“私有”,而是任何文本编辑器、脚本语言乃至操作系统都能无损读取,从而为后续大模型的深度介入预留了无障碍的计算接口。同时,Obsidian拥有充满活力的、去中心化的全球社区生态。其“核心框架+社区插件”的架构具备高度的可扩展性,允许用户像组装乐高积木一样构建专属的数字工作台,通过 GitHub 开源社区,无数开发者贡献了针对特定学术研究痛点的插件。这种开放的共生关系确保了工具的迭代速度远超传统闭源软件,为个人研究者提供了持续的技术支撑。

不过,Obsidian的原生架构遵循纯文本优先逻辑,这导致 PDF、图片等二进制文件在知识库中往往沦为“二等公民”。具体表现为:文件名难以被模糊检索,无法像 Markdown 笔记一样添加标签(Tags)或元数据(YAML Frontmatter),且无法直接参与基于属性的数据库查询。为打破这一壁垒,本方案引入 Binary File Manager 插件,构建了一套自动化的“双重表征”(Dual Representation)体系。该插件作为库的“守门人”,能够实时监测库中的文件变动。每当有一个PDF文件被导入,系统便会自动生成一个同名的 Markdown 伴生笔记。这一机制实现了档案管理的标准化跃迁:伴生笔记成为PDF文件的数字孪生体,研究者可在其 YAML 区域利用结构化数据记录档案的出处(Source)、年份(Year)、作者(Author)及分类标签(Class)。这使得原本难以被检索的PDF文件具备了被 Dataview 等插件进行结构化统计的潜力——如研究者可以一键查询“所有 1930 年至 1933 年关于土地革命的档案”,真正将非结构化的史料纳入了关系型数据库的管理范围。

实现海量史料的毫秒级全文检索,是本方案攻克的另一核心难题。对于动辄数百万字的史料库而言,Obsidian原生的搜索功能虽然强大,但针对PDF内部内容这类 GB 级中文字符时(依赖Omnisearch或Text Extractor插件),往往出现检索延迟高以及定位不精准等问题。针对此挑战,本方案采取了一种空间换时间的全量文本冗余策略:在上述“伴生笔记”的正文中,完整粘贴该PDF经 OCR 处理后的纯文本内容,并在笔记首行插入指向原始PDF的本地链接。这种看似迂回的战术,实则巧妙利用了 Obsidian对 Markdown 纯文本极致的索引优化。当需要检索时,系统瞬间定位到 Markdown 笔记中的具体段落,研究者通过首行链接即可一键跳转回PDF原文进行版式核对。这种机制以极低的操作成本,实现了“纯文本检索速度”与“原件版式保真”的完美统一。

进一步地,在微观的史料研读层面,本方案通过PDF++插件实现了从文档级到片段级的颗粒度细化,打破了传统研究过程中“史料与笔记割裂”的痛点。该插件引入了“高亮即摘录”的交互范式:当研究者在PDF中高亮一段关键史料时,插件会自动抓取选中的文字、对应的文件名以及精确的页面坐标(Page Coordinates),一键生成一张 Markdown 格式的原子化卡片笔记(示例见图2)。更为重要的是,这张卡片笔记自动与原始PDF建立了双向锚点链接。研究者点击笔记中的引用块,视图将瞬间跳转并高亮显示PDF原文中的对应位置。这种机制不仅解决了引用的规范性问题,更重要的是它将静态的PDF史料“原子化”为可被AI分析、可被双链关联的知识颗粒。坚持使用纯文本而非截图进行摘录,保证了这些史料片段能够被后续的 RAG 系统无损读取,为深度的AI辅助分析预留了数据接口。

图1 毫秒级全文检索流程示例

图2 “高亮即摘录”的交互范式示例

为了支撑上述复杂的文档管理需求,本方案构建了一个以核心插件为骨架的“微型生态系统”。除前述的 Binary File Manager 用于文件挂钩、PDF++ 用于颗粒化摘录外,还引入了 Dataview 插件以实现基于元数据的动态查询(如自动生成“待读史料清单”);利用 Linter 插件规范化 Markdown 语法,确保长文档的格式统一;以及 Templater 插件,用于在创建新史料笔记时自动填充预设的 YAML 模板(包含档号、年代、来源等字段)。这些插件的有机组合,将 Obsidian 从一个简单的文本编辑器升维成了一个具备关系型数据库特征的史学研究平台。

当需要从宏观上审视问题时,Obsidian的 Graph View(关系图谱)能够将研究者自建库中的复杂引用网络进行宏观可视化。不同于传统笔记的线性排列,关系图谱通过力导向算法(Force-directed algorithms),将引用关系紧密的文件聚类呈现,通过可视化的方式证明了基于“数据本地化”策略构建的史料库具备极高的内聚性与知识密度,直观呈现了一个完全自主可控的知识拓扑网络。图3即展示了笔者自建的中共党史史料全文数据库(含数千份PDF文档及其伴生 Markdown 笔记)内史料之间的引用关系。

图3 中共党史史料引用关系图谱局部(笔者自建库)

进一步以“中央苏区财政史”研究为例,研究者在多份原始档案中辨析出“经费短缺”与“土地分配”“扩红运动”及“反围剿战争”存在因果联系,并建立相应的概念双链后,图谱便能动态地呈现出这些概念节点之间高密度的拓扑结构。这种可视化的反馈作为一种“认知的脚手架”,帮助研究者直观地识别出哪些核心议题是连接多个历史事件的枢纽,从而在看似孤立的史料中发现潜在的结构性张力。在此基础上,研究者可选中数张关于“经费来源”的摘录卡片,通过 Copilot 插件进行多文档综合分析。如提问“根据这些材料,总结 1931—1934 年间中央苏区经费的主要来源及其面临的核心挑战”,AI 能够快速生成一份结构化的综述草稿。这虽不能替代深度的历史解释,却极大地压缩了基础性的资料整理时间,使研究者能将精力聚焦于更高维度的理论构建。

如果说上述的全文检索、智能综述与关系图谱主要解决了史料的发现、理解与关联问题,那么将大模型以命令行工具(CLI)的形式直接嵌入 Obsidian工作流,则提供了在本地文件系统中直接调用大模型处理笔记的新路径。本方案引入 Gemini Cli,配合 Obsidian的终端插件(Terminal),构建了一个驻留于本地文件系统之内的嵌入式智能体(Embedded Agent)。

在具体部署层面,本方案遵循低耦合、高复用的原则,通过“Obsidian终端插件 + Node.js 环境 + Gemini CLI”的技术栈实现嵌入。首先,利用Terminal 等插件打通 Obsidian编辑器与底层操作系统的Shell接口,打破笔记软件的封闭沙箱;其次,基于 Node.js 环境通过 NPM 部署谷歌官方的 Gemini CLI 工具,将其作为后台常驻的智能引擎;最后,通过配置全局环境变量,确保AI指令可在笔记界面的任意位置被实时调用。这种轻量化的集成方式,无需复杂的 Docker 部署,仅占用极少的系统资源,便能在现有的笔记生态中嫁接起强大的推理能力,具备极高的普适性。

值得注意的是,这种将大模型以命令行工具(CLI)形式嵌入本地工作流的尝试,其意义不仅在于当前的功能扩展,更在于确立了一种“AI 就绪”(AI-Ready)的数据架构。通过 Obsidian 提供的标准化 Shell 接口,本地史料库不再是封闭的文字堆砌,而是成了一个开放的、可被算法调用的数据池。这种底层的接口预留,为后续引入更复杂的 RAG(检索增强生成)技术和智能体分析奠定了必要的工程基础,使得个体研究者能够以最低的边际成本,平滑过渡到未来的人机协同研究阶段。

3  基于开源OCR的文本库和配套可检索PDF库构建

在确立了以Obsidian为核心的本地化管理容器后,整个史料数据库能否发挥其应有的威力,关键便在于是否能高效、低成本地为其注入高质量的文本“燃料”——将海量的图像格式史料转化为机器可读的文本数据。这一基础建设环节,是后续所有高级功能,如全文检索、概念链接、AI分析得以实现的绝对前提。若无此基石,Obsidian强大的管理能力将沦为空谈。就中国近现代史领域而言,史料版式相对规整,这为自动化、规模化的OCR处理提供了较好的条件,从而允许我们将核心目标定为追求效率与覆盖广度的统一。

在此背景下,一种务实的“80/20原则”成为技术选型的基本策略,即并非追求对每一页史料进行出版级的完美校对,而是在有限的精力投入下,快速、批量地完成80%以上资料的数字化转换,从而以最快速度搭建起一个功能强大的“可检索”史料数据库。因此可以战略性地放弃或减少使用以下两类工具:一是ABBYY、Adobe Acrobat Pro等专业商业软件,其流程繁琐、自动化程度低,不适合个人研究者用以大规模处理;二是不稳定的在线OCR服务,因其存在隐私风险和处理上限。而以PaddleOCR等先进开源引擎为核心的本地化图形工具Umi-OCR迭代快,对中英文混合及复杂版式表现优异,且完全免费,完美契合了本方案对数据自主权、低成本与高效率的追求,将其与WPS的PDF文件可搜索处理功能搭配使用,可构建一个同时拥有清洁文本和凭证原档的数据库。基于以上理念和设想,笔者构建了一套由图像预处理、核心OCR执行、智能整合质控三个阶段构成的自动化流水线。

第一阶段是标准化的图像预处理,通过ImageMagick等工具,将来源各异、质量参差的扫描件进行批量倾斜校正、去黑边、增强对比度等操作,将其“净化”为最适合OCR识别的统一格式。

第二阶段是核心的OCR批量执行。在此环节,利用Umi-OCR的多线程能力进行高速转化,输出核心文件格式——TXT纯文本文件,作为后续进行数据清洗、文本分析和AI训练的轻量化“数据原料”;同时,利用WPS的快速文件转换功能将图像性质的PDF转换成内嵌了透明文本层的可搜索PDF文件,它完整保留了史料的原始版式,是学术引用和上下文核对的“存档级凭证”。这种双重产出策略,兼顾了机器可读性与人类可读性,构成了我们数据资产的完备形态。

第三阶段是智能化的整合与质量控制。完成识别后,原始的 TXT 文本往往充斥着换行符断裂、页眉页脚残留等“噪声”。为此,本方案引入了基于 Python 的正则表达式(Regular Expression)清洗脚本,针对近代史料的排版特征进行批量处理。例如,自动合并跨页断段(通过识别句末标点符号判断段落是否结束)、剔除无意义的版心边框字符,以及统一全角/半角标点。更关键的是,依据OCR引擎生成的识别置信度,自动筛选出低置信度的页面,生成一份精确的“待复核清单.csv”。这一机制将繁重的全文校对任务,转变为对少数难点的精确打击,极大地解放了研究者的时间。

最终,通过以上工作流,研究者在完全掌握数据自主权的前提下,为自己的Obsidian知识库配备了一个清洁的文本库和一个保持原貌的可检索PDF库。这一坚实的数据基础,不仅是个人研究深入的保障,更是下一步实现团队高效协同共享的宝贵资产。

 4  自建私有云实现史料数据共享和协同工作

当史学研究从个人走向团队协作,特别是面对课题组或读书会等形式时,如何让本地化的文件实现高效同步与协作,避免重复劳动,就成了推动研究进程的核心问题。团队需要确保任何一员修改、上传文件,或完成某一批资料的OCR,其他成员能立即看到更新,从而实现动态交错分工,协同推进研究进程。从这一需求来看,市面上主流的商业网盘产品,例如百度网盘、夸克云盘、阿里云盘、OneDrive等,其核心功能定位在储存和备份,而非高强度的实时同步,因此同步功能非常孱弱,且普遍存在下载限速问题,完全不适合对数据量和实时性要求极高的学术协作场景。而在国内环境下专注于同步的云盘如“坚果云”,虽采用了“增量同步”技术以提升速度,但其免费版容量和月上传流量的严格限制,乃至付费版提供的容量,对于动辄上百GB的历史资料库来说,依然捉襟见肘,难以满足学术研究的长期需求。

同时,以 Syncthing 和 Resilio Sync 为代表的P2P(Peer-to-Peer,点对点)同步工具,虽然其去中心化的核心思想和理论上的无限容量极具吸引力,但弱点在于同步速度和稳定性高度依赖于不同设备处于同一局域网内这一条件。在远程协作场景下,数据往往需要通过中继服务器传输,速度变得极其缓慢,且任何一台参与设备关机都会导致同步中断,无法满足团队协作对服务高可用性的刚性要求。此外,NAS这类本地解决方案,其便利性也同样仅限于所有设备在同一局域网内时,无法有效解决远程学术协作的问题。

基于对现有解决方案局限性的深刻认识,在云服务器上自建私有云是目前一条可选的路径。在云服务器供应商方面可以选择直接售卖“端口速度”的产品套餐,并在其上部署开源的专业文件同步软件 Nextcloud,即可构建一个完全私有的、高性能的云同步系统。这一选择的优势是显著且根本性的。首先,它实现了无任何限制,研究者不再受制于任何第三方平台。Nextcloud开源免费,对容量、用户数量、上传/下载速度均无任何限制,同步速度仅受限于团队成员各自所用的网络带宽。其次,它确保了高性能与高可用性。服务器能够7x24小时在线,彻底排除了因个人设备关机而导致同步中断的情形。提供极高带宽的VPS,保证了多人协同工作时的流畅体验。第三,它实现了绝对的数据安全与控制,所有数据都储存在我们自己控制的服务器上,从源头上杜绝了第三方窥探或泄露的风险。最后,它具备灵活扩展的特性,服务器本身自带的存储空间未来可随时增加存储卷,即便不想扩容,也可以在本地创建不同的资料库(Library)进行同步,具备极高的灵活性。通过Nextcloud原生支持的WebDAV协议,研究者可以无缝对接Obsidian的多端同步插件,实现毫秒级的增量同步;同时,其内置的看板与在线文档功能,将单纯的文件存储升级为了集成的数字史学工作空间,打破了物理设备对学术协作的限制。这种模式彻底解决了协作中的文件同步障碍,使得团队能够将全部精力聚焦于史料的整理和研究本身。

5  结语:超越工具,回归史学研究本体

本研究探讨了一套以“数据本地化”为核心,结合Obsidian知识管理、开源OCR处理及自建私有云同步的工作流。其目的在于为有志于构建个人化、可持续史学数据库的研究者提供一个可供参考的思路。此方案的设计初衷,并非追求技术的复杂性或前沿性,而是希望通过对现有成熟工具的策略性组合,找到一条能让研究重心回归史料解读与内容创作本身的路径。这或许在一定程度上表明,当前的技术生态已经允许研究者通过合理的配置,搭建出低成本且自主可控的数字研究环境,从而将主要精力聚焦于史学研究的本体工作。

这种基于开放标准(Markdown)、强调数据自主权回归的思路,其意义或许不止于文件管理层面。它试图回应前文所述的中心化平台可能带来的数据封闭、运维成本高昂和长期不确定性等问题。通过将数据以通用格式保存在本地,学术成果的长期安全性、可迁移性与连续性得到了更好的保障。对于个人研究者或小型学术团队而言,这可能构成一种更为稳健和可持续的工作模式,有助于学术知识的长期积累与传承。

然而任何一套研究工作流都非万全之策,对其局限性的清醒认知是推动其未来发展的必要前提。本研究所构建的这套以“数据本地化”为核心的方案,在赋予研究者极大自主性的同时,伴随着相应的挑战与责任。本方案存在一定的技术门槛,且仍然有需要优化的部分。相较于商业软件提供的一站式解决方案,本方案中的OCR流水线构建与私有云的搭建和维护,都需要研究者投入额外的时间进行学习,并具备一定的自主解决问题的能力。

从发展的角度看,尤其对于中国近现代史这一史料丰富的领域,此方案具有进一步拓展的潜力。通过规模化OCR流程所形成的清洁文本库,不仅是当前研究的资料基础,也为未来可能的计算分析和AI应用预留了空间。随着人工智能技术的演进,个人史料库也可成为能够辅助进行内容分析与逻辑推断的平台。

专题文章:

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

中共党史研究语料智能体的构建经验与思考

排版:覃子椿

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

2026年5月14日 09:00

原创 张光伟 2026-05-14 09:00 北京

盛宣怀档案;大语言模型;ReAct 框架;思维链;Agentic RAG;人机协作

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:张光伟.《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理[J].数字人文研究,2026,6(01):43-52.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。


图片

《盛宣怀档案》智能分析系统的构建与史学应用

——从检索增强到智能体推理

张光伟

摘 要: 面对浩如烟海且高度非结构化的历史档案,传统的数字化处理与关键词检索模式已难以满足日益复杂的史学研究需求,特别是在处理如《盛宣怀档案》这类涉及晚清政治、经济、外交等多维网络的复杂史料时,研究者常陷入查不全、理不清、关联难的困境。研究在回顾数字人文从数字化、结构化向智能化转型的技术背景的基础上,引入大语言模型前沿的思维链技术与推理—行动框架,构建了一个基于 Agentic RAG 的“盛宣怀档案智能分析系统”。该系统突破了传统知识图谱预定义的局限,通过“意图理解、资料检索、资料总结、评估决策、内容撰写”五个智能体的协同工作,实现了对全量档案文本的语义向量化与动态推理。系统具备主动规划检索路径、多步逻辑推演、跨文档证据互证以及自我纠错的能力,能够模拟历史学家“提出假设—史料搜集—考证辨析—形成结论”的认知过程。文章通过微观、中观和宏观三个层面的典型案例展示了该系统的应用潜力。研究实践证明,AI 时代这种“人机回环”(Human-in-the-loop)的协作模式,不仅能将历史学家从繁琐的信息搜寻中解放出来,更开启了以数字文献考古与全息逻辑增强为特征的历史研究新探索的可能性。

关键词: 盛宣怀档案;大语言模型;ReAct 框架;思维链;Agentic RAG;人机协作

作者简介:张光伟,陕西师范大学历史文化学院讲师,Email:zhangguangwei@snnu.edu.cn。

0 引言

历史学的数字化转型是一场漫长而深刻的长征。在过去的几十年中,这一进程大致经历了从文献资料的数字化、信息的结构化到知识的关联化三个阶段。以“中国历代人物传记资料库”(CBDB)为代表的基础设施建设,解决了史料可检索与可统计的基础问题,通过关系型数据库和知识图谱技术,让人文学者得以在大尺度上观察历史网络的演变。然而,这一阶段的数字人文往往被诟病为远读有余而深读不足——计算机擅长处理底层的、形式化的数据分析(如词频统计、社会网络中心度计算),却始终徘徊在人文研究的核心领地之外,难以触及意义阐释、因果推断与史料考证等需要高阶认知能力的人文专业端。

近年来,随着人工智能技术的爆发式突破,特别是以 ChatGPT、DeepSeek 为代表的生成式大语言模型(LLMs)的问世,科研范式正在发生根本性的转移。在自然科学领域, “AI for Science” 已经能够独立预测蛋白质结构、发现新材料,甚至在数学证明中展现出直觉般的推理能力;在社会科学领域,基于智能体(Agent)的生成式社会科学(Generative Social Science)正在模拟复杂的人类社会行为,重构我们对社会互动的理解。这种技术浪潮不可避免地席卷历史学领域,我们惊讶地发现,新一代 AI 不仅极大地扩展了能够处理的问题规模与复杂度,更在本质上缩小了计算技术与人文理解之间的语义鸿沟。

与传统的脚本编程或关键词检索不同,当前的大语言模型已经展现出了类似人类的思维链(Chain-of-Thought, CoT)能力。它不再仅仅是一个被动的数据提取工具,而是开始表现出模仿、甚至达到人文学者初级乃至中级科研水准的能力:它能够理解晦涩的古文语境,能够在多源异构的文本间建立逻辑关联,甚至能够针对某一历史假设进行初步的证据排查与证伪。

正是在这一技术与学术转型的关键节点,晚清史研究中的一座富矿——《盛宣怀档案》(以下简称“盛档”) ——为我们提供了一个绝佳的实验场。作为中国近代史研究中体量最大、内容最复杂的私人档案之一,盛档的内容涵盖政治、外交、实业、赈灾等晚清社会的方方面面。面对如此海量且非结构化的核心史料,传统的人力阅读难以胜任,而简单的关键词检索又往往面临“查不全”(异名同指问题)、“理不清”(事件线索交织)、“关联难”(跨文档证据断裂)的困境。

本研究旨在探索一种基于 AI 技术的新范式来破解上述难题。本研究进一步引入智能体与检索增强生成(RAG)技术,构建了“盛宣怀档案智能分析系统”。我们的研究实践表明,在 AI 时代,计算机可以从底层的数据搬运工晋升为历史学者的思维伙伴,通过人机协作实现对复杂历史问题的文献考古与逻辑推演。特别值得指出的是,我们此前倡导的“支架+管道”模式在 AI 的赋能下焕发了新生:它允许学者以低代码或零代码的方式构建研究工具,从而大幅降低技术准入门槛,让研究者能更专注于核心历史问题的探索,以期真正实现数字史学研究的提质增效。

1 从远读到智能体协作

随着人工智能技术的代际跃迁,数字人文的研究范式正经历着从数据驱动的宏观描述向逻辑驱动的智能推演的深刻转型。这一过程不仅是计算规模的扩大,更是促进人文问题解决模式质变的重要驱动力。

1.1 数字人文范式的演进与局限

在前大模型时代,数字人文的主流范式建立在弗朗哥·莫雷蒂(Franco Moretti)提出的远读理论之上。面对浩如烟海的文本,莫雷蒂主张放弃对单一文本的微观审视,转而通过计算机进行宏观的统计分析,以揭示那些肉眼不可见的文学形式与演变规律。这一路径催生了以米歇尔(J. B. Michel)等人的“文化组学”(Culturomics)和马修·乔克斯(Matthew Jockers)的宏观分析(Macroanalysis)为代表的量化史学实践。

在具体方法上,学者们广泛采用主题模型、社会网络分析和地理信息系统等工具,将非结构化的历史文本转化为结构化的数据图谱。然而,这种基于词袋模型(Bag-of-Words)和共现概率的传统范式存在如下显著的局限性。

(1) 语义语境的割裂:传统的定量方法往往将文本拆解为孤立的词汇或元数据,导致“只见森林,不见树木”,难以捕捉字里行间的隐喻、反讽及复杂的社会关系。

(2) 因果推断的缺失:泰德·安德伍德(Ted Underwood)曾指出,数字人文在描述 “发生了什么” 方面表现出色,但在解释 “为什么发生” 时往往力不从心。传统算法无法像历史学家一样,通过多源证据的比对来构建因果链条。

因此,在生成式AI快速发展的当下,数字人文应当从计算转向智能转型,探索智能增强(Intelligence Augmentation, IA)的路径,即利用 AI 作为认知延伸,辅助学者处理噪声并构建证据链,而非单纯的数据统计。

1.2 大模型推理框架:从思维链到自主智能体

生成式大语言模型的出现,为突破上述局限提供了技术可能。加西亚(Garcia )与 魏尔巴赫(Weilbach) 在其最新的研究中指出,大语言模型正在成为历史研究的有力助手,如果史料能够“说话”,模型便能辅助学者进行更高效的史料挖掘与分析。与基于统计概率预测下一个词的传统模型不同,新一代模型具备了更强的推理能力,使得计算机可能真的已经可以介入到历史考证的逻辑层面。以下我们对思维链、推理与行动(Reasoning and Acting,ReAct)框架和生成式智能体(Generative Agents)进行简要介绍。

(1)思维链。 Google Research 团队提出的思维链技术,通过在提示词中诱导模型生成一系列中间推理步骤(Intermediate Reasoning Steps),显著提升了其处理复杂逻辑任务的能力。在史学研究中,这意味着 AI 不再直接从史料跳跃到结论,而是能够像人类学者一样展示 “史料→考证→辨析→结论” 的完整思维过程。这种显式的推理路径不仅提高了准确率,更重要的是赋予了算法 “可解释性” 。

(2)推理与行动框架。单纯的思维链仍受限于模型内部的静态参数知识,容易产生“幻觉”。Yao 等人提出的推理与行动框架,将推理能力与外部工具的使用相结合。在该框架下,模型遵循“观察→ 推理→ 行动”的循环。例如,当需要考证盛档中书信提到的某个人的身份时,模型会先根据上下文比如提到的其担任的官职来思考“需要查询清代职官表”,然后执行检索行动,根据检索结果修正假设,直至得出确切结论。

(3)生成式智能体。在社会科学领域,帕克(Park)等人提出的生成式智能体理论 ,展示了 AI 模拟人类社会互动的潜力。智能体具备“记忆”“规划”和“反思”三大核心模块。在本系统中,我们借鉴这一理论,将 AI 设计为具备特定角色(如 “考据助手” )的智能体,它不仅能回答问题,还能根据历史学者的反馈记忆其偏好,并在多轮对话中动态调整研究策略。这意味着 AI 从被动的 “问答机器” 进化为具备自主性的 “研究伙伴”。

1.3 人机回环与交互模式的重构

随着技术能力的提升,人机交互的模式也从传统的“指令—执行”向“意图—对齐”演变。在处理高复杂度的历史问题时,完全的自动化既不可能也不可取,必须引入“人机回环”(Human-in-the-loop)机制。

(1)从“自动化”到“共驾” 。 传统的数字人文工作流往往是线性的:人清洗数据→机器跑算法→人解读结果。而在基于RAG 和智能体的新范式中,交互变成了迭代式的协作模式。AI 负责海量信息的初筛、逻辑链的构建和初步结论的生成(Drafting),历史学者则负责高阶的价值判断、逻辑漏洞的审查(Verifying)以及方向的纠偏(Refining)。

(2)人机回环的价值升华。 在本系统中,专家的反馈不再仅仅是纠错,而是系统进化的养料。通过记录学者对 AI 推理过程的修改,系统能够通过上下文学习或微调,不断“对齐”专业史学家的思维方式。这种人机协作不仅解决了 AI 的“幻觉”问题,也有机会反向激发学者的历史想象力,实现了本·施奈德曼( Ben Shneiderman)所倡导的“以人为本的 AI”,即在保持高水平自动化的同时,确保人类对研究过程的可控性与主体性。

2 基于Agentic RAG的多智能体协作架构

本系统的核心并非传统的静态数据库查询,而是一个基于代理增强检索(Agentic RAG)范式的动态推理系统。该系统直接基于全量档案文本,通过多智能体(Multi-Agent)的分工与协作,模拟历史学家“提出问题—史料搜集—考证辨析—形成结论”的认知过程。以下我们分层次介绍一下系统的架构。

2.1 以全量文本的语义向量化构建的数据层

鉴于盛档非结构化与碎片化的特征,我们采用标准 RAG的数据预处理流程。首先对档案数字化文本进行清洗与分段,保留书信的完整上下文结构。随后,利用 bge-m3 多语言嵌入模型将文本转化为高维语义向量,并存入 ChromaDB 向量数据库。这一过程将离散的史料映射为连续的语义空间,使得系统不仅能检索关键词,更能基于语义相似度召回隐含关联的史料(如将“杏荪”与“盛宣怀”在向量空间对齐),为后续的智能体推理提供数据基座。

2.2以多智能体协同与推理—行动闭环构建的逻辑层

系统的整体架构遵循“分层解耦、动态协作”的设计原则,自下而上分为数据基础设施层、多智能体协作层与交互层(如图 1所示)。其中,核心的“多智能体协作层”摒弃了传统的线性处理模式,而是采用基于DeepSeek-R1大模型的Agentic RAG架构。该架构包含五个专门功能的智能体,通过推理—行动闭环实现对复杂历史问题的迭代求解。

图1 系统整体架构图:基于Agentic RAG的多智能体协作

五类核心智能体的角色与权限分别为:

(1)用户意图理解智能体:作为系统的“前台”,负责解析用户的自然语言提问。它不仅进行关键词提取,更对问题背后的史学意图进行解构。例如,当用户询问“石帅是谁”时,该智能体会分析出这是一个“人物考证”任务,并识别出需要关注的时间与地点等约束条件,将其转化为初始的检索目标。

(2)资料检索智能体:作为系统的“手”,负责与数据层交互。它能够根据当前的检索目标生成多组查询向量,并在向量空间中召回若干(Top-K) 相关文档片段。

(3)资料总结智能体:作为系统的“眼”,负责阅读召回的史料片段。它不仅是对文本的简单摘要,而是基于当前问题的上下文,提取关键证据(如时间戳、官职、人际关系),并过滤掉无关的噪声信息。

(4)评估智能体:系统的“大脑”,这是实现推理—行动模式的关键。该 Agent 负责比对 “当前已获取的证据” 与 “解决问题所需证据” 之间的差距(Gap Analysis)。如果证据不足或存在矛盾(如 “石帅” 指向不明),它会制定下一轮的检索策略,指示检索智能体寻找新的线索。如果证据链闭环,它将向撰写 智能体发出终止信号。

(5)撰写智能体:作为系统的“笔”,在证据链完备后,依据史学规范撰写最终回答,并自动标注每一处结论所依据的[文献ID],确保学术严谨性。

2.3 工作流:模拟历史学家的迭代研究

上述智能体中,“(2)检索—(3)总结—(4)评估”构成了一个动态的推理—行动循环。这正是本系统区别于普通搜索工具的本质所在:第一轮,检索 智能体可能仅找到模糊线索;评估智能体发现初步结论与信件背景时间不符(Gap 发现),随即调整方向,即评估与迭代。第二轮,检索智能体根据新指令查询新的信息,召回更为准确的记录。多轮迭代后,系统利用提取的增量信息不断丰富上下文,直至逻辑自洽,即证据闭环。

这种逐步逼近真相的迭代过程,本质上是对人类历史学家研究方法论的计算模拟,其详细的工作流程如图2 所示。

图 2 智能体在时间维度上的协作逻辑

3 史学应用实践:多维度的历史解析

通过对盛档的实际测试,本系统不仅验证了 Agentic RAG 架构在处理海量非结构化史料时的有效性,更在微观文本考证、中观制度复原和宏观风格分析三个层面展现了超越传统检索工具的研究智能。该系统所体现的智能体在多维度历史解析方面的能力如图3所示。

图3 智能体多维历史解析跃迁图

3.1 微观层面的反向纠错与多源批判性考证

在传统的数据库检索中,学者必须预知准确的关键词,且检索结果往往受限于用户提问的预设偏差。而在本系统的运行逻辑中,意图理解智能体与评估智能体协作,使其具备了对用户提问进行“事实核查”与“反向纠错”的能力

我们设计了一个包含误导性前置条件的提问:“盛宣怀随李鸿章西征途中,给夫人写了不少家信,其中有一首诗,这是盛宣怀档案中仅见的诗作。这首诗的内容是什么?”

如果仅以关键词“诗”进行匹配,系统极易漏掉嵌在信函正文中的无标题诗句;如果盲从“仅见一首”的预设,算法可能会在找到第一条结果后停止检索,导致史实遗漏。这是传统检索难以解决的困境。

本系统的多智能体推理过程如下

(1)全量召回与质疑(检索智能体):系统并未被“仅见”这一约束限制,而是通过语义向量检索,遍历了所有包含韵文特征的家书片段,同时召回了《端午车中七律》([ID:sxh17-0038])、《庚午季夏潼津营次藁》([ID:sxh17-0026])和《六月八日寄内诗》([ID:sxh17-0041])。

(2)矛盾检测与修正(评估智能体):评估智能体 在对比检索结果与用户提问时,触发了 “证据冲突”警告 ——事实(三首)与预设(一首)不符。系统随即启动纠错机制,判定用户预设错误。

(3)深度语义解读(撰写智能体):在确认文本后,系统进一步分析了这些诗作的情感内核。它指出,盛宣怀引用“远别胜新婚”典故体现了儒家伦理下的夫妻责任,同时用“野店孤灯”“巫峡雨”等意象流露了个体在宏大历史叙事下的脆弱感。

这一案例证明,具备思维链能力的 AI 不再是盲从指令的工具,而是能够基于史料证据有一定独立判断能力的批判性读者。

3.2 中观层面的动态时空锚定与制度逻辑重构

在中观层面,历史研究往往涉及复杂的事件演进和制度变迁。面对碎片化的公文,系统通过推理—行动循环,展示了强大的跨文档关联与逻辑链重构能力。

面对一组关于“献县借种”“本道”以及“大户捐粮”的零散公文片段,我们要求系统解析其核心内容与历史逻辑。本系统通过三轮迭代,还原了被淹没的历史真相。

第一轮思考(时空锚定与去噪):虽然文本仅提及模糊的“同光时期”,但 总结智能体敏锐地抓取到一份下级禀帖中的收文日期“光绪十六年闰二月十一日”(1890 年)[文献 73607]。评估 Agent 以此为锚点,指示系统排除了内容相似但实际发生在 1906 年的《丙午桃源章程》[文献 41428],成功完成了高难度的“史料去噪”。

第二轮思考(政策比较与身份确证):系统对比文献 [1333] 与 [1334],识别出当时存在两种截然不同的救灾模式:沧州的“强制大户捐粮”与献县的“官府借贷+大户协调”(《借种章程》)。同时,检索 Agent 通过调用职官数据库,确证了文中自称的“本道”即时任清河道道员潘骏文[文献 16276],构建了“李鸿章(决策)—潘骏文(制定)—府县(执行)”的行政链条。

第三轮思考(Gap Analysis 与灾害链重构):这是最关键的一步迭代。评估 Agent 在分析财政数据时发现了一个 Gap(逻辑缺口):如果春季的《借种章程》有效,为何次年春抚支出高达 20 万两[文献 9242]?这暗示了秋收可能遭遇了新的危机。基于此 Gap,系统发起了新一轮针对“秋灾”的检索,成功发现了“黏虫伤损”与“运河决堤”的记录[文献 1413, 56297]。

最终结论:系统最终构建了 “春旱→政策响应(借种)→秋涝/虫害(次生灾害)→财政危机” 的完整因果链条,指出该案例并非单一赈灾事件,而是晚清基层治理试图通过制度创新应对复合型灾害的典型尝试,且李鸿章的“截漕发帑”[文献 74021]在高层提供了关键的财政兜底。

这一过程展示了 AI 如何像历史学家一样,利用异构史料进行三角互证,并通过识别逻辑断裂来驱动研究的深入。

3.3 宏观层面的全量文本的风格量化与“远读”

针对“李鸿章与盛宣怀通信风格演变”这一宏观问题,本系统利用其向量化数据库的优势,对 1876 — 1900 年两人之间的数十封书信进行了动态时段切分与量化分析。

资料总结 Agent 提取了每一封信中的称谓、自称及落款格式,生成了可视化的演变图谱。系统分析指出,二人的互动经历了从“萌芽期”(盛作为下属的请示)、“鼎盛期”(共谋洋务实业)到“转折期”(甲午后政治失势)的演变。在语言风格上,系统捕捉到了李鸿章对盛宣怀称呼的细微变化(从全称“杏孙世仁弟大人阁下”简化为“杏孙仁弟”),并揭示了一个深刻的政治隐喻:即便在盛宣怀权力上升、甚至在实业领域主导话语权后,他依然在书信中严格保持“犬马”、“废材”等自谦语态的伦理话语体系。这种基于全量文本的细粒度分析,为理解晚清幕府与官僚政治中实权与礼制的张力提供了新的量化视角。

4 讨论

本研究实践表明,当大语言模型被赋予 Agentic RAG 的架构与 ReAct 的推理能力后,它可能正在重塑我们对数字史学的理解,因为这不仅仅体现效率的提升,更体现了认知维度的扩展。

4.1 数字考古与全息逻辑重构

AI 时代的史学研究正在经历一场“数字考古”。传统的考古挖掘的是埋藏于地下的实物碎片,而我们现在利用 AI 挖掘的是沉睡在海量文本碎片中被淹没的逻辑连接。

与传统的关键词检索不同,本系统展示了一种 “全息逻辑重构” 的能力。在献县赈灾的案例中,系统并非简单提取“灾害”字眼,而是像一个老练的侦探,在微观的下级禀帖日期、中观的财政报销账册与宏观的督抚奏折之间反复“跃迁”。它通过 差异评估(Gap Analysis)机制,敏锐地捕捉到“春季借种”与“次年高额支出”之间的逻辑断裂,进而主动挖掘出被史料表象掩盖的“秋季洪涝”与“运河决堤”真相。这种从碎片中重建完整因果链条的过程,似乎在表明计算机真的可以介入到历史解释的核心环节。

4.2 动态时空锚定与异构史料的三角互证

历史研究的基石是考证,而考证的核心在于对时空坐标的精确锁定。本系统最显著的技术特征在于其基于评估智能体 的动态时空锚定能力。

在处理盛档案这类非结构化史料时,时间漂移(Time Drift) 是常见的陷阱(如将 1906 年的《桃源章程》误用于 1890 年的语境)。本系统突破了单一文档的限制,能够主动检索具有确切纪年的辅助文档(如收文日期、官员任免履历、年度财政报表)作为“锚点”,对模糊的文本进行校准。同时,系统实现了异构史料的三角互证——用人事档案(潘骏文的道员履历)验证公文作者,用财政档案(春抚银两支出)验证灾害后果,用气象记录(雨泽奏报)验证事件背景[22]。这种多源证据的交叉验证,极大地降低了 AI“幻觉”的风险,提升了机器考证的史学严谨性。

4.3 从工具到“对抗性伙伴”的认知升级

本系统的应用实践中,某种程度上体现了人机关系发生的变化。AI不再仅仅是唯命是从的检索工具,而是进化为具备批判性思维的 “对抗性伙伴”。

正如我们在诗作考证案例中所见,当用户提出带有误导性预设(“仅见一首”)的问题时,系统并没有顺从用户的认知偏差,而是基于全量数据的检索结果进行了 “反向纠错”。这表明,人机交互正在从单向的“指令—执行”转变为双向的“对话—博弈”。在这种模式下,AI 承担了海量信息的梳理与初级逻辑构建工作,使历史学者得以从繁琐的资料搜寻中解放出来,专注于提出更高质量的问题、进行价值判断与伦理审视。

5 结语

《盛宣怀档案》智能分析系统的构建与应用,是一次将前沿 AI 技术(Agentic RAG、ReAct 框架)与传统史学考证深度融合的实验性探索。它证明了通过搭建合理的智能体分工与知识库基座,大语言模型完全有能力突破远读的局限,在微观、中观与宏观三个维度上展现出模拟专业学者的研究能力。当然,AI 并非要取代历史学家,而是要成为历史学家手中的思想透镜。未来,随着专家反馈数据的持续注入与模型的不断微调,我们有理由相信,本研究所探索的人机回环协作模式,将有望帮助我们在浩瀚的史料海洋中,发现那些曾被遗忘的、更具解释力与洞察力的历史真相。

专题文章:

中共党史研究语料智能体的构建经验与思考

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

“DH无界谈”回顾 | AI时代文化遗产数据资源的采集和数智活化

2026年5月14日 09:00

数字人文研究院 2026-05-14 09:00 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

5月9日下午,美国肯特州立大学(Kent State University)信息学院终身教授曾蕾受邀到访数字人文研究院,作主题为《AI时代文化遗产数据资源的采集和数智活化》的讲座。

讲座从2025年《Science》杂志关于“中国最古老星表”《石氏星表》的研究切入,并据此指出,开展文化遗产数字化研究,必须明确研究层次与起点,并充分注意不同国家和地区(如中国、美国、欧洲等)在数据标准与文化符号使用上的差异。研究的主要流程是在采集已有研究数据的基础上理解数据来源,聚焦数据层变迁,最终实现从数据到知识、再到智慧应用的转化——即采用“知识”的视角看待数据,并完成从上层到底层的整合。

文化遗产数字化的起点是字符级别的处理。基础字符处理是整个系统的基石,只有先实现字符的数字化与解释,才能建立基于字符的检索能力。目前,已有相关前沿团队开展AI光学字符识别(OCR)相关工作,利用PIF图像格式技术准确识别每个字符,使其可被人类和机器共同理解与处理。2026年2月,Unicode已新增1万余个字符,并已发布新的ISO标准,涉及更多语言文字的电子化输入输出。

字符处理支撑后续检索与文化比较,在数字化成果基础上,机器可以快速判别传统符号所属的文化体系及其相关文化属性。例如,通过分析十二生肖在不同国家(中国、韩国、越南等)的差异,可快速识别分析特定文化的传播路径。类似的,罗马帝国硬币的材料成分分析也已形成知识库,用于硬币真伪的鉴别。这些案例共同说明:在明确目标下,对数据的深度挖掘和量化研究有助于突破研究传统局限。

高质量的元数据是文化遗产数字化的前提。为实现文物的唯一标识与系统性描述,需采用国际博物馆协会的“Object ID”标准,记录文物类型、材料、技术、尺寸、颜色等元数据。此外,文物的来龙去脉、工艺制作信息或特殊材料等更多元维度的元数据也很有价值。

而后,准确处理文物的各项元数据至关重要。数据优化与预测性分析能实现大数据的最大效益,因此,搭建特定的知识组织系统(KOS)是重中之重。知识组织系统主要用于数据分析、分类,并最终有助于建成相关数字化平台,面向科研与公众应用。在搭建过程中,需要行业专家与技术员协同;前者主要负责保证元数据质量与对知识组织系统进行设计,后者负责搭建处理模板、实现知识组织系统的落地。值得注意的是,以大语言模型(LLM)为代表的各类AI语言模型虽然强大,但传统的知识库和词表方法同样必要,因为词汇表的使用可以避免平台中出现冒犯性语言或其他不利于应用的现象。

在对文物数字化流程的详细阐释后,曾蕾教授对学术界的AI使用问题进行了展望。她指出,当前AI撰写的论文已发表在《Nature》等期刊,引发学术界对学术诚信和青年科研人员培养的担忧。AI能快速处理数据,节省时间和经费,但也可能导致人们过度依赖模型而忽视对数据本身的理解。东京一个团队开发的“AI科学家”系统展示了AI在科研中的潜力,但随之而来的是管理和伦理问题。在中国,AI工具也已开始被应用于博物馆行业和文化遗产研究中;AI的分类和推荐功能可帮助用户更好地理解和利用信息,还可以用于分析艺术作品和材料数据,但使用时仍有准确度方面的风险。曾蕾教授据此总结,AI是工具,不能替代人类对文化遗产的深层阐释;对AI工具的使用必须结合准确的数据和知识库,如地理和历史资料库等。

最后,曾蕾教授展望未来,认为文化遗产的数字化与共享需要支持协作创新和开放数据。可以展望的全球知识图谱将能够整合不同领域的数据,例如将多个不同国家、行业、领域的机构的数据融合为一个综合知识库。目前芬兰的相关做法就已展示了如何通过共享知识库和本体促进跨领域合作与数据互通。

在全球知识图谱建设的视野下,利用AI工具进行的开发和应用必须遵循国际标准和质量要求,以确保数据的准确性和可共享性。当前,部分国际组织已为人工智能提供指南,帮助规范其开发与应用;在文化遗产领域内,也应需要明确数据使用和共享策略,以促进未来的跨领域合作。曾蕾教授总结指出,AI时代文化遗产数据资源的采集和数智活化,其核心并非技术本身,而是如何以知识为纽带,连接过去与未来,在标准化与创新之间找到平衡。

主要讲授部分结束后,曾蕾教授和主持人、听众进行了交流讨论。曾蕾教授针对听众针对古籍数字化实践中遇到的瓶颈、当前中国文化遗产数智活化开发等方面提出的具体问题进行了回答。主持人夏翠娟教授简要回顾了讲座内容,并再次感谢曾蕾教授带来的精彩讲座。

此后,曾蕾教授还特别介绍了哈佛大学博物馆AI探索者(AI Explorer)的主要工作原理和特征、意大利莱昂纳多互动博物馆中队达芬奇著名作品《维特鲁威人》的数字化展陈和阐释方式以及美国国家数学博物馆(MoMath)中的数字人文展示等前沿案例,并鼓励在场听众有机会亲自前往相关博物馆亲身体验、探索。

讲座结束后,曾蕾教授参观了数字人文实验室,数字人文研究院院长冯惠玲对研究院的各项研究成果作了简要介绍。

撰稿/图片/排版:任佳悦

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

中共党史研究语料智能体的构建经验与思考

2026年5月11日 09:01

原创 马思宇 等 2026-05-11 09:01 北京

党史研究;史料转化;知识库构建;数字人文

“AI驱动下的中国近现代史研究新范式”专题

导言

张燚明

中国人民大学历史学院

2025年11月1日,由中国人民大学中华文明研究院、历史学院、数字人文研究院共同主办,民国史研究院、数字清史实验室协办的“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”学术研讨会在中国人民大学通州校区召开。来自中国人民大学、北京大学、清华大学、中国社会科学院、国家图书馆、上海图书馆等高校与科研机构,以及国内领先科技企业的70余位专家学者与会,围绕人工智能如何深度赋能中国近现代史研究展开深入研讨。

本次学术研讨会全面响应国家文化数字化战略,深入关注新技术驱动下中国近现代史研究的新面向,以中国近现代史、计算机技术、信息资源管理等多学科交叉为依托,旨在回应时代发展、科技变革对历史学研究产生的深刻影响。主题演讲环节,学者们围绕“智能体与中国近现代史研究”“新一代中国近现代历史文献数据库开发”“数字人文的教育实践”三大核心议题,呈现出在AI技术赋能下的中国近现代史研究新工具与新方法。六个平行分会场报告显示,AI技术已不再停留于概念,而是在盘活海量史料,催生新的问题意识与研究路径,切实地融入研究流程。在圆桌讨论中,学者们一致认为:人工智能时代的到来,正推动中国近现代史研究经历一场从方法论到认识论的“智识重构”。一个深度融合技术思维与史学素养,兼具宏观量化洞察与微观深度解读的新阶段正在开启。

感谢《数字人文研究》为本次会议提供的学术平台支持,使得会上的三篇文章得以发表,以飨读者。南开大学历史学院马思宇副教授以《中共党史研究语料大模型的构建经验与思考》介绍了他的团队在中共党史文献OCR识别、父子分段性模型知识库构建上的探索,提出了推动大模型从“辅助工具”向“党史研究新基础设施”演进的目标。陕西师范大学历史文化学院张光伟老师以《〈盛宣怀档案〉智能分析系统的构建与史学应用——从检索增强到智能体推理》一文,展现了基于 Agentic RAG(代理增强检索)范式的多个智能体在意图理解、资料检索、资料总结、问题评估与文章撰写等历史学研究过程中的协同与合作,为AI构建了历史学者“对抗性伙伴”的未来图景。华中师范大学历史文化学院安高怡同学的《本地化智能史料管理系统的构建方法与实践》依据个人实践经验,为历史学研究者和小型学术团队提供了一种结合Obsidian知识管理软件、OCR识别软件和私有云服务等技术的私属化数字人文研究工作平台,具有很强的实操性和可复制性。

三篇文章都清晰地呈现出,中国近现代史学界正在借助以AI技术为代表的信息技术新工具,透视其中前所未见的结构、关联与模式,并在用实际行动,共同缔造走向人机协同、互为启迪的研究新范式

与此同时,我们欣喜地看到,正是在以完整自主知识产权的国产大语言模型为代表的人工智能技术实现历史性突破的2025年,一批跨学科、跨媒介、跨领域的研究成果问世,为传统史学研究注入新的生命力。我们满怀期待,一个在史学专用智能体主导下、在基础大语言模型辅助下、在智能化史学数据库服务下,中国近现代史研究的新未来,正向我们阔步走来!


中共党史研究语料智能体的构建经验与思考

马思宇 王亚星 肖桐月 李庚辰

摘要

中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属 OCR 适配方案与父子分段式知识库构建模式,形成 “以 OCR 适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑” 的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

关 键 词   党史研究;史料转化;知识库构建;数字人文

作者简介  马思宇,南开大学历史学院副教授,Email:masynku@126.com; 王亚星,南开大学计算机学院副教授; 肖桐月,南开大学历史学院2022级本科生; 李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。

中共党史作为一门兼具历史与政治属性的重要学科,其研究、传播与教育工作始终面临时代提出的新挑战。随着信息技术高速发展,传统党史研究工作模式在多个层面暴露出局限性,形成亟待解决的痛点。

中共党史研究以史料为根基,数字时代下,研究者面临“数据洪流”与“信息孤岛”并存的矛盾困境。中共党史的文献资料、档案、口述史、回忆录等史料浩如烟海,分散于各级档案馆、图书馆、研究机构乃至个人收藏中,给研究者和学习者开展系统性、跨机构资料整合带来巨大挑战——需耗费大量时间进行“寻宝式”资料搜集。而复杂历史事件的脉络梳理、人物关系构建、思想演变追踪等深度研究工作,常因史料不全或关联性难发现而受阻。历史学面临的大数据挑战既是机遇,也对传统研究方法提出挑战,需新工具处理和分析。面对海量非结构化文本史料,传统的人工阅读、手动摘录等处理方式效率低下,无法支撑大规模文本挖掘与量化分析。关键词提取、命名实体识别、事件关联分析等是深化研究的关键步骤。尽管已有研究探讨利用深度学习技术在中共党史文献中进行命名实体识别的可能性,但目前尚未出现公开、广为人知且专门用于整合分散中共党史研究语料的平台。

党史学习和研究的核心目标是把握历史发展宏观脉络、理解事件间因果联系、形成深刻历史洞察与分析能力。传统教学模式与以考试为导向的评估方式,使学习停留于“事件表层”的死记硬背,难以引导学生开展批判性思考与深层次分析。无论是专业研究者还是普通学习者,常只能被动接受既定知识框架,对历史的理解易停留在“时间—地点—事件—人物”的表层记忆,缺乏对背后深层原因、复杂关联及长远影响的深度解读与批判性思考。

针对上述痛点,以人工智能和知识库技术为核心的语料智能体,为中共党史研究的范式革新带来巨大潜力。

语料智能体构建的第一步,是大规模史料的数字化与结构化。通过OCR技术,将数以亿计“不可检索”的图像文字转化为“可复制、可检索、可分析”的结构化文本,彻底打破信息获取的物理壁垒,为后续所有智能分析奠定数据基石。  

智能问答、知识图谱等功能,可帮助研究者和学习者摆脱繁重的史料查找与初步整理工作。使用者能像与专家对话般,快速定位特定信息、自动梳理人物关系网络、生成事件发展脉络图,从而将更多精力投入更高层次的分析、阐释与创新性研究,显著提升研究效率与深度。  

词云图、思维导图等可视化形式,能将枯燥的文字史料转化为生动、直观、可交互的知识形态,增强党史内容的吸引力。语料智能体按需生成、千人千面的特性,可提供定制化学习路径与知识解读,引导用户从“被动看”转向“主动问”,从“记事件”转向“懂逻辑”,有效深化对党史的系统性认知。

南开大学马思宇副教授

1 中共党史研究语料智能体的

核心技术基础

构建高质量党史研究语料智能体,首要任务是将海量纸质或扫描版文献转化为机器可读的文本数据,这一过程的核心是OCR技术。

1.1 OCR技术方案的适配性设计

通用OCR工具处理格式复杂、图文混排的历史文献时,常因丢失版面结构信息导致上下文语境割裂,表现欠佳。本研究选用在复杂文档处理中表现优异的MinerU方案,并针对党史文献特性进行深度适配。

图1 MinerU方案流程示意图

在结构分析方面,党史文献具有严谨编撰逻辑与特定内容形式,如中央文件选集中的层级标题、正文段落、注释及嵌入的档案缩影等。MinerU方案能精准识别并还原这些结构信息,有效维持文献的逻辑完整性与上下文连贯性。该系统具备良好的元素拆分能力,可将正文文本与图片、表格、手写批注等非文本内容有效分离,在提取文本的同时保留其原始位置信息,为后续多模态分析与知识关联奠定基础。

在输出与验证机制上,系统支持将识别结果输出为Markdown、JSON、LaTeX等多种格式,满足从人工阅读到程序化处理等不同下游任务需求。更重要的是,针对历史文献识别中难以避免的误差,MinerU提供可视化验证后台,通过Layout与Span视图辅助人工校对,让审核人员能直观比对原始图像与识别文本在版面、层级及内容上的一致性,显著提升OCR转化的数据质量与可信度。

此外,系统具备涵盖84种语言的多语言识别能力,这对处理涉及共产国际等相关史料中的俄文、德文、英文等外文文献尤为重要。该特性确保多语种党史资料能被完整、准确地转化为文本并纳入统一知识体系,为后续深度分析与智能化研究提供坚实基础。

1.2 OCR转化的系统性成果

在MinerU方案技术支持下,中共党史研究语料智能体在文献数字化转化方面取得系统性、规模化成果。目前已完成752册核心党史文献的OCR转化,共生成351240615个有效字符,为构建覆盖广泛、内容翔实的党史智能知识库奠定坚实数据基础。

转化成果全面覆盖党史研究多个核心领域:在中央文件方面,完成《中共中央文件选集》(58册)及长江局、香港分局、西北局等各大中央局的文件汇集,为研究党中央决策过程与组织运作提供权威一手材料;在专题史料类方面,转化内容涉及财经、军事、区域史等方向,如《中国革命根据地 北海银行史料》《山东革命根据地财政史料选编》等,为特定领域深入探索提供结构化素材;在研究著作与编年史料类方面,处理《中国共产党编年史》《中共党史参考资料》等系统性较强的学术成果,助力构建清晰历史脉络;此外,《星火燎原》系列等红色经典文献也被完整转化,其中包含大量革命亲历者的珍贵回忆,大幅丰富史料的表现维度与情感厚度。

大规模OCR转化的核心价值,在于实现党史文献从“静态图像”到“智能文本”的质变。转化后的文本具备可检索、可复制、可计算的特征,让研究者能在亿级字数中快速定位目标内容,显著提升资料利用效率。这些高质量文本为后续知识抽取、关系挖掘、智能问答乃至多模态党史知识图谱的构建,提供标准化、结构化的数据原料,标志着党史研究在方法论层面迈入数字化与智能化新阶段。

2  中共党史研究语料智能体的

开发与功能实现

2.1 核心问题与解决策略

在中共党史研究语料智能体构建过程中,研究团队着力解决三个制约系统效能与可靠性的核心问题。

一是针对用户提问多样性与统一处理困境的调度策略。党史研究用户需求呈现高度异质性,涵盖从具体史实查询到宏观脉络梳理等多种类型。为同时满足不同任务需求,研究引入智能问题分类与调度机制。该机制的核心是内置语义意图识别器,能将用户自然语言提问自动归类至“思维导图生成”“知识图谱构建”“词云图制作”及“知识库问答”四大预设任务类型。分类完成后,系统随即调用适配的专用处理引擎。例如,针对概念关联性分析请求,系统会优先启动知识图谱构建模块,而非通用问答流程。这种基于分类的智能调度策略,既有效化解多样化需求与统一处理模型间的张力,又通过专业化分工显著提升任务执行准确性与系统整体响应效率。

二是针对长文本史料碎片化局限的层级处理方法。中共党史文献普遍篇幅长、逻辑结构复杂,直接进行端到端整体处理易导致关键信息丢失与语义连贯性断裂。为解决长文本分析中的“碎片化”难题,研究设计层级拆分整合方法:系统先对每个文本片段进行深度的实体、关系及事件抽取,再通过融合算法将片段层级的分析结果进行整合与逻辑校验,还原文本的整体叙事脉络。这一“分而治之,合而为一”的多轮迭代处理流程,有效保障从庞大文献中抽取知识的完整性与逻辑一致性,为后续深度分析奠定可靠基础。

三是针对生成式AI过度依赖与质量风险的控制流程。尽管生成式AI在内容生成上展现出强大能力,但其固有的“幻觉”现象、信息冗余及格式不确定性等风险,直接关乎研究的严谨性与准确性。为避免过度依赖原始生成结果,本研究平台建立“自动筛选—格式化—迭代增强”三阶段严格质量控制管道:首先对生成式AI的初始输出进行事实性错误筛查与冗余信息过滤;其次利用预设标准化模板对内容进行强制性结构化重组,确保输出符合学术规范;最后支持基于用户反馈或自检规则的多轮迭代优化,持续修正与提高内容质量。这套流程将生成式AI的创造力与可控规范化处理相结合,显著降低质量风险,确保最终输出结果的可靠性、可用性与严肃性。

2.2 父子分段式模型知识库构建

知识库构建质量是决定中共党史研究语料智能体效能的核心基础。为实现史料价值的高效挖掘与精准呈现,研究设计“父子分段式知识流水线模型”。该模型的核心是通过语义层级的精细划分与智能关联,平衡检索精准性与语境连贯性,满足党史研究对细节考证与宏观脉络分析的双重需求。

模型的核心逻辑建立在语境连贯与精准匹配的平衡机制上。该模型将文献在结构上划分为“父块”与“子块”两个层级:父块以完整语义章节(如文件全文、书籍章节)为单位,核心作用是充当“背景知识库”,确保回答任何具体问题时都能获得充分上下文信息支持,维持叙事逻辑的完整性与准确性;子块是对父块内容的深化,从父块中提取高密度关键语义片段(如核心论述、事件要点),专门服务于精准语义匹配。当用户提出问题时,系统先在子块层面快速定位,实现关键信息“精准匹配”;锁定相关子块后,立即回溯并加载其所属的整个父块原文,完成“上下文补全”。这种“子块定位、父块补全”的协作机制,是从碎片化信息中还原历史原貌、避免断章取义的关键。

在技术实现上,模型的存储与检索机制依赖向量化嵌入与双向检索的深度融合。具体流程始于“高质量语义索引”:所有文本块均通过向量化嵌入技术转化为数值向量,建立丰富的语义关联网络;子块向量被存入向量数据库,实现基于语义相似度的高效检索。检索过程并非单一模式,而是结合关键词匹配与向量语义搜索的“双向检索”策略,灵活适配用户对史实的精确查询与对脉络的关联探索等不同需求。最终通过“自适应知识响应引擎”,系统能将检索到的结构化知识智能调度至问答、词云、知识图谱或思维导图等不同功能模块,生成符合用户指令的最终成果。这套从索引、检索到响应的完整技术链,共同支撑语料智能体对党史知识进行多维度、深层次挖掘与呈现的能力。

图2 知识库构建流程示意图

2.3 四大功能模块的实践应用

在构建坚实的结构化史料知识库后,平台集成多种人工智能与自然语言处理技术,开发出四项核心功能模块(智能问答、词云图、知识图谱、思维导图),从不同维度提升党史研究的效率与深度。

智能问答模块是高效直接查询的核心工具。其工作机制是先在专属党史史料向量知识库中进行语义检索,锁定最相关的原始文献片段,再将这组经过验证的史料作为上下文提供给大语言模型整合与精炼,生成既有针对性又有文献支撑的答案。例如,当问及“唯物史观的基本原理”时,系统能精准援引《中共党史参考资料》中的具体论述,明确指出经济基础决定上层建筑等核心观点,有效避免通用模型可能产生的事实谬误,增强答案的可靠性与可溯源性。

词云图模块通过高频要素的可视化呈现文献重点。该功能对文献进行全文本分析,自动统计人物、地点、关键术语的频率,生成以字体大小代表权重的视觉图表。例如,分析早期共产主义运动文献时,能迅速凸显“毛泽东”“陈独秀”“共产主义小组”等核心词汇,帮助研究者快速捕捉文献的核心议题与关键历史角色,适用于对陌生文献集的初步评估。

知识图谱模块致力于揭示历史进程中隐含的复杂关联。它运用知识图谱实体抽取技术,自动从史料中识别并建立“人物—事件”“事件—地点”等多种实体关系对,以可视化网络图谱呈现。以研究“武汉共产主义小组”早期活动为例,系统能自动构建关系网络,清晰展示陈独秀作为主要联系人,及董必武、陈潭秋等核心成员的构成谱系,并链接至相关事件节点,辅助研究者洞察组织动力学与广泛的社会连接。

思维导图模块专注于对文献脉络进行系统性总结。该功能通过解析文献的内在逻辑结构或事件演进序列,自动生成层级清晰的树状导图。在处理《中国共产党组织史资料》这类宏大文献时,系统能以“文献编纂背景”“核心内容体系”“史料价值”等作为主干,拓展出“组织沿革”“领导成员”等次级分支,将巨量文本信息浓缩为逻辑严谨的“认知地图”,助力研究者高效把握全局,并为学术汇报和教学提供结构化底稿。

2.4 应用实例:国民革命中工人阶级作用的多维度智能分析

假设我们想运用《中共党史研究》《党史研究资料》《中共党史参考资料》《中共党史大事年表(1921-1981)》等史料开展关于工人阶级在国民革命中作用的相关研究,但不知从何入手,中共党史研究语料智能体能通过以下几个步骤,形成工作流界面,将静态的史料转化为动态、可视、可深挖的研究资源,为研究者提供研究灵感、核心思路与体系化支撑。

图3 中共党史研究语料智能体工作流示意图

第一步,从智能问答切入,快速定位核心观点。用户首先可以在模型的智能问答框中输入一个具体问题,例如:“近代工人阶级在国民革命中扮演了什么样的角色?”模型会立刻在内部语料库中进行检索和智能分析,并生成一段凝练、准确的摘要(图4)。

图4  智能问答界面示例

这段输出不仅提炼了工人阶级的阶级特性、力量来源,还指出了核心策略。几秒钟内,用户就从模糊主题获得了基于《党史研究资料第2集》《党史研究资料第3集》等史料库内史料的结构化观点,远比逐篇翻阅高效,为后续研究奠定立论起点与史料依据。

第二步,利用知识图谱功能,构建历史关联网络。核心观点明确后,我们希望更深入地理解“工人阶级”与当时其他历史要素如人物、组织、事件等的复杂关联。这时,用户可以利用模型的知识图谱功能。针对知识库中的指定史料,如《中共党史研究》2005年第3期,智能体能自动识别并抽取文本中的关键事件及要素,并通过连线反映它们之间的关联性。这张图谱不仅将线性的文本论述转化为一张可视化的网络,而且通过密集的节点和连线,直观地展示了工人阶级的发展与壮大是如何与政治力量、关键事件等各个因素紧密相连的。这种可视化方式有助于用户发现单篇阅读中容易忽略的间接关联,能够更全面地理解工人阶级在国民革命中的作用和影响,从而激发新的研究思路。

第三步,深入解析指定史料,构建脉络框架。在明确了核心观点并构建了历史关联网络后,用户可以进一步利用智能体深入解析指定史料,构建详细的脉络框架。以《中共党史研究》2005年第3期为例,模型将自动提取该史料中的关键章节和主题,生成一份思维导图,以树状结构展示史料的主要内容及其相互关系,每个分支代表一个主题或子主题,分支间的连线表示它们之间的逻辑联系。通过这种结构化的展示,用户能够一目了然地了解史料的总体框架,更清晰地理解单一史料的内容和结构,为后续研究提供坚实的基础。

图5 解析史料形成思维导图

总结而言,通过这个具体的案例,我们可以看到中共党史研究语料智能体如何将一个研究主题的研究过程重塑为一条高效、深入的路径:从智能问答快速聚焦,到知识图谱揭示深层关联,再到思维导图整合脉络。它不再是简单的文献检索工具,而是一位能够与研究者进行深度互动、提供认知支持的“智能研究助理”,极大地提升了中共党史研究的深度与效率。

2.5 中共党史研究语料智能体的构建经验总结

通过本次构建实践,研究团队深刻认识到,成功打造适用于中共党史研究的专业语料智能体,需在技术适配性、知识结构化与需求导向性三个层面进行系统化设计。

在技术适配性层面,核心经验是必须以党史文献的独有性为出发点进行技术选型与优化。以OCR技术为支撑,重点针对党史文献中常见的多格式混排、结构复杂、图文并杂等特点,选用并优化具备结构还原与元素拆分能力的专业方案,在数字化过程中有效保留文献的原始语境与逻辑层次。通过知识库构建环节,突破传统存储模式局限,创新性引入“父子分段”模型,兼顾党史研究把握整体脉络与考证微观史实的双重需要。

在知识结构化层面,语料智能体的关键价值是将原本分散、非结构化的海量史料,转化为系统化、可关联、可推理的知识体系。通过层级化处理,以“父—子”分段策略从技术上弥合史料碎片化与研究系统性之间的张力,使每一次查询结果都能兼顾细节准确与语境完整。通过文本向量化与知识图谱技术的结合,不仅实现语义层面的关联计算,更显式构建人物、事件、组织之间的复杂关系网络,支持研究者进行脉络推演与跨文献关联挖掘,大幅提升党史知识的组织效率和智能水平。

在需求导向性层面,语料智能体的生命力体现在对研究、传播、教育等多元场景需求的精准响应。在研究侧,智能问答与知识图谱功能有效缓解传统研究中信息检索慢、脉络梳理难的问题,助力学者聚焦深层分析与理论创新;在传播侧,通过词云、可视化图谱等交互形式,将党史内容转化为生动、可参与的数字体验,显著增强对年轻学习群体的吸引力;在教育侧,依托思维导图与个性化学习路径生成功能,支持学习者开展自主探究,推动党史学习从被动接受转向主动建构,有效促进深层次认知与价值内化。

3  现存问题与发展方向

尽管中共党史研究语料智能体的构建已取得初步成果,在史料处理、知识检索与脉络梳理等方面展现出一定优势,但发展仍处于初级阶段,面临来自数据基础、技术深度等方面的挑战。清醒认识这些现存问题,据此规划未来发展方向,是推动该语料智能体从“可用”走向“好用”“实用”的关键。

3.1 语料库建设的核心难题

语料库是语料智能体运行的根基,其质量直接决定语料智能体认知的准确性与深度。当前,语料库建设面临的核心难题集中于数据清洗与标准化环节。

首先,数据清洗与标识工作异常复杂。中共党史文献时间跨度大、来源广泛,其中充斥大量历史专有名词,如“苏维埃”“赤维埃”“边区”等。还有异体字、旧式标点及特定历史时期的表述方式等。对这些内容进行精准识别和标准化处理,是确保语料智能体正确理解史料语义的前提。例如,若不能将“赤维埃”准确映射为标准术语“苏维埃”,会导致相关史料在检索和关联时被遗漏。更为棘手的是敏感信息的标识问题:党史研究具有高度的政治性和严肃性,部分文献内容涉及需谨慎处理的历史细节或个人评价,这要求在语料入库前建立一套精细、符合学术规范与相关规定的标识体系,实现对特定信息的自动化识别与管理,避免生成内容出现偏差。

其次,缺乏适配党史文献特点且高效的专业化校对工具。目前,OCR转化后的文本校对工作仍高度依赖人工,成本高昂且效率低下。通用OCR校对工具难以有效识别上述历史术语和特殊表述的错误。因此,亟待开发一套融合“历史术语库”与“上下文语义校验”的智能校对系统。该系统能基于党史知识的上下文逻辑,自动提示或修正可能的识别错误,将研究人员从繁重的基础校对劳动中解放出来,大幅提升语料构建的效率与准确性。

3.2 知识库的深化方向

现有知识库主要以文本史料为核心,为实现从“文献检索工具”到“综合研究平台”的跨越,知识库的深化需向多模态融合与跨库关联迈进。

多模态融合是提升认知维度的必然要求。党史是立体而鲜活的,仅依靠文本难以全面呈现其丰富内涵。将历史照片、档案手迹、领导人讲话录音、纪录片等图像、音频、视频资料纳入知识库,并进行有效多模态关联,能大幅丰富语料智能体的知识体系。例如,当研究者查询“开国大典”时,语料智能体不仅能提供文字报告,还能关联展示相关历史影像、照片和新闻公报,构建更全面、更生动的历史场景,助力具象化的历史感知与研究。

跨库联动是打破数据壁垒、拓展史料边界的关键路径。当前,各级党史研究机构与革命纪念馆多建有特色数字资源库,但彼此独立,形成“数据孤岛”。未来,语料智能体应致力于构建统一的数据接口标准,实现与这些权威外部数据库的有机联动。通过安全、规范的协议,语料智能体可检索并调用外部库的专有资源,在不重复建设的前提下大幅拓展史料覆盖范围,为研究者提供“一站式”党史资料服务,真正实现研究资源的整合与共享。

3.3 未来展望

面向未来,中共党史研究语料智能体应在解决现存问题的基础上,朝着功能深化、技术融合与生态构建的方向持续演进。

在功能深化上,可探索个性化推荐机制:基于用户的研究兴趣和行为数据(如专注于“延安时期经济史”或“早期工人运动”),主动推送相关的史料、研究成果乃至分析工具模块,实现从“人找资料”到“资料找人”的转变。进一步可发展辅助研究生成功能:自动生成论文提纲、文献综述初稿,并自动完成史料引文的标注与校对,将语料智能体从研究助手升级为研究伙伴。

在技术融合上,可积极探索人工智能与党史研究的深度结合,特别是引入数字人文的研究方法。例如,对长时段的党报社论进行文本挖掘与情感分析,以量化方式观察特定政治概念或表述的演变趋势;利用社会网络分析技术,自动梳理历史人物、事件、组织之间的复杂关系网络,发现传统定性研究中难以察觉的模式与规律,为党史研究开辟新范式。

在生态构建上,最终目标是形成可持续的研究逻辑闭环。一方面,建立党史学者深度参与机制,将语料标注、模型优化与功能设计各环节的党史学者参与融入平台开发全链条,贴合学术前沿与实际需求,提升学术严谨性;另一方面,打造成果共享平台:鼓励用户将基于语料智能体产生的研究笔记、可视化图谱、分析报告等,在遵守规范的前提下进行分享与协同,汇聚集体智慧,形成开放、协作、共进的党史研究新生态。

4  结语

中共党史研究语料智能体通过“史料OCR转化—知识库构建—功能模块实现”的技术路径,有效破解传统党史研究中的效率与深度难题,为技术赋能数字人文研究提供实践范式。其核心经验在于“技术适配党史特性、知识服务研究需求”,而语料处理、跨模态融合等问题仍需持续突破。未来,需以“学术严谨性”为前提、“用户需求”为导向,推动语料智能体从“辅助工具”向“党史研究新基础设施”演进,助力中共党史研究的数字化、体系化、创新化发展。

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:马思宇,王亚星,肖桐月,等.中共党史研究语料智能体的构建经验与思考[J].数字人文研究,2026,6(01):32-42.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

科技遗产与数字人文工作坊(第一号通知)

2026年5月10日 20:25

数字人文研究中心 2026-05-10 20:25 北京

以下文章来源于:中华方志物语

中华方志物语

中国地方志物产知识挖掘、分析、数据化、可视化及应用

点击上方蓝字关注我们了解教育动态

为深入贯彻落实中共中央办公厅、国务院办公厅《关于推进实施国家文化数字化战略的意见》精神,响应党的二十大关于 “推进文化和科技融合,推动文化建设数智化赋能” 的战略部署,紧扣《“十四五” 文物保护和科技创新规划》中 “加强文物数字化保护、大力发展数字考古” 的工作要求,立足新质生产力驱动下文化遗产保护利用的时代需求,中国科技史学会数字人文专委会联合南京农业大学人文与社会发展学院、数字人文研究中心,定于 2026 年 7 月 12—18 日举办 “科技遗产与数字人文研究工作坊”。

本次工作坊聚焦中国古代科技遗产的数字化保护与创新性研究,以 “方法导向、过程透明、结果可复现” 为核心原则,直面当前科技遗产研究中数字技术应用碎片化、实操能力薄弱、跨学科融合不足等痛点。工作坊将系统整合数据预处理、生成式 AI 辅助编程、知识图谱构建、社会网络分析、历史 GIS 时空建模、大语言模型微调等前沿技术模块,构建 “理论筑基 — 技术实操 — 案例落地 — 成果孵化” 的全链条培养体系。通过拆解完整研究流程、强化上机实操训练、同步产出阶段成果,助力人文社科领域师生与青年学者打通 “人文问题 — 数字方法 — 学术产出” 的转化通道,培养一批兼具科技遗产学术素养与数字人文技术能力的复合型人才,为国家文化大数据体系建设与科技遗产的活化传承提供人才支撑与方法借鉴。

基本信息

(一)指导单位:中国科技史学会数字人文专委会

(二)主办单位:南京农业大学人文与社会发展学院

(三)承办单位:南京农业大学数字人文研究中心

(四)实施保障

项目

内容说明

课程材料

每日课件、步骤讲义、Notebook 模板、课堂操作截图与问题排查说明。

课堂数据

相关 TXT 文本、CSV 表格、关系边表、地理数据、图数据库样例及必要的模型演示材料。

软件工具

Python、Jupyter Notebook、Pandas、Matplotlib、Neo4j、Gephi、ArcGIS,以及必要的生成式 AI 与大模型实验环境。

课堂支持

教师完整演示、助教巡回答疑、统一问题汇总与课后材料打包。

组织建议

建议学员自带电脑;开课前统一发送软件安装说明;原则上每 10—15 名学员配备 1 名助教。

课后服务

建立专门群组,长期进行课后答疑与专业服务。

工作坊定位

本工作坊面向科技遗产、科学技术史、数字人文及相关人文社会科学领域的师生与青年学者开展科技遗产数字人文研究培训,突出“方法导向、过程透明、结果可复现”。与偏重成果展示的学习活动不同,本工作坊强调把研究过程拆解清楚、演示完整,并让学员在课堂中同步完成关键步骤。

结合本次工作坊的主题与受众特点,课程案例以中国古代科技遗产为主线材料,贯穿数据预处理、生成式 AI 辅助编程、知识图谱与语义组织、社会网络分析、历史 GIS 与时空分析以及大语言模型专题等模块,尽量使技术训练与具体研究对象紧密衔接。

整体结构遵循“导论—数据预处理—生成式 AI 辅助编程—专题工具训练—综合实践”的逻辑,既确保入门门槛可控,也保证各专题模块有完整的上手时间和课堂产出。

参会形式和主要日程

每天分为上午(9:00—12:00)与下午(14:00—17:00)两个单元。上午侧重问题导入、概念说明、案例拆解与教师完整演示,下午侧重学员同步操作、助教巡回指导与课堂成果提交。

所有模块统一采用“案例说明—教师演示—学员复现—问题纠偏—结果保存”的组织流程,避免只讲结果、不讲步骤。

课堂统一提供已整理好的 TXT、CSV、关系边表、地理数据和图数据库样例,尽量减少繁杂前处理对学习节奏的干扰。

每个模块都要求形成可见成果,学员在结课时可以带走代码模板、数据样例、步骤讲义与个人成果文件。

招募对象及培训目标

(一)招募对象

1.科学技术史、科技遗产、数字人文、历史学、考古学、博物馆学、古籍整理、文化遗产保护等方向的教师、研究生与高年级本科生;

2.希望把数字人文研究方法真正引入研究流程,但缺少系统训练的人文社科学者;

3.已具备明确研究主题,希望通过工作坊迅速形成可操作技术路线的青年学者。

(二)培训目标

1.建立科技遗产与数字人文研究的整体方法框架,理解不同技术模块在研究中的分工与连接方式;

2.掌握研究数据预处理、生成式 AI 辅助编程、结构化分析与结果展示的基本流程;

3.能够完成知识图谱、社会网络分析、历史 GIS 与大语言模型专题中的基础操作与结果解释;

4.形成至少一个可延展到个人论文、课题或课程设计中的研究雏形。

培训相关事宜

1.培训费用:

人员身份

培训费用

教师及职业研究者

8000元/人

在读学生(本科生、研究生、博士生)

4000元/人

※ 培训费用包含全程课程、课程材料、讲义及数据包,不含食宿及往返交通费用,以上费用均由学员自理。

※ 缴费方式将在录取通知中另行告知。

报名方式

请于2026年6月20日(星期六)前,扫描下方二维码或点击报名链接报名。

工作坊组委会将综合考虑报名时间及申请人专业背景进行遴选,以保证课堂质量。录取结果将于报名截止后7个工作日内以邮件形式通知,请申请人注意查收。

联系信息

联系人:张老师

电 话:13295221109

邮 箱:zhangqiang@njau.edu.cn

授课教师简介

专委会领导(待定)

1.包平

南京农业大学人文与社会发展学院二级研究员,博士生导师,国家社科基金重大项目首席专家,中华物产与文明探源协同创新中心负责人。致力于古籍文献的收集、整理与研究工作,综合运用信息技术开展地方志物产文献的智能整理与知识挖掘研究,形成了可共享的体系化方法和数智化资源。获部省级教学科研奖励7项,出版专著7部,发表学术论文120余篇;获软件著作权6项。现任中国科技史学会数字人文专业委员会副主任委员,中国古籍保护协会古籍智能开发与利用专业委员会委员,中国索引学会数字人文专业委员会委员。

2.王东波

南京农业大学信息管理学院副院长、教授、博士生导师、南京大学“术语与翻译跨学科研究基地”兼职研究员、国家社科基金重大项目首席专家。主要从事自然语言处理与大语言模型、科技文本知识挖掘研究,主导或参与完成了荀子古籍大语言模型、中国非物质文化遗产大语言模型、中华物产大语言模型和司农大语言模型等垂直大语言模型的构建。主持国家社科基金、国家自然科学基金及其他省部级项目共计12项。以第一完成人分别获得第九届高等学校科学研究优秀成果奖(人文社会科学)青年成果奖、江苏省哲学社会科学优秀成果一等、二等和三等奖各一次。

3.朱锁玲

南京农业大学人文与社会发展学院教授,硕士生导师,美国伊利诺伊大学香槟分校信息学院访问学者。研究方向为数字人文、古籍智能整理与开发利用。近年来主持国家社科基金项目、农业部重点实验室课题、江苏省社科基金项目等多项国家级和省部级课题,在《中国图书馆学报》《大学图书馆学报》《中国农史》《Library Hi Tech》等期刊发表学术论文30余篇,出版学术专著1部,参编教材及专著4部,获得省部级奖项1项,入选南京农业大学第四批“钟山学术新秀”。现任南京农业大学数字人文研究中心负责人,兼任中国科学技术史学会数字人文专委会副秘书长。

4.陈涛

工学博士,中山大学信息管理学院副教授,“百人计划”引进人才,硕士生导师。上海图书馆、南京大学信息管理学院联合培养博士后,中山大学国家文化遗产与文化发展研究院研究员,中山大学数字人文实验室首席专家。长期从事数字人文、人工智能、文化遗产方面的研究,主持国家社科重大项目子课题1项“基于数智融合技术的重要非遗数字基因提取与文化基因库构建(2025)”,国家社科基金一般项目2项“文化遗产多模态数据知识表示模型及智慧系统构建研究(2023)与数字人文中图像文本资源的语义化建设与开放图谱研究(2019)”,以及中国博士后科学基金、中宣部古籍工作重点课题、中国图书馆学会重点课题等多项省部级课题;作为核心人员参与国家自然科学基金3项、国家社科基金重大项目2项、国家社科基金一般项目2项,国家社科青年项目1项,以及江苏省哲社基金、上海市哲社基金、国家863、科技部项目等十余项;负责过近三十项知识图谱与数字人文领域相关的横向课题。近几年以第一/通讯作者在DSH、JOI、《中国图书馆学报》《大学图书馆学报》《图书情报工作》等核心期刊发表论文五十余篇,兼任国内外图情和数字人文领域十余种核心期刊评审专家、复旦大学中国开放数林指数评估专家委员会委员、中国科学技术史学会数字人文专业委员会会员、中国索引学会数字人文专委会委员等职务。

5.尚平

历史学博士,现任湖北师范大学历史文化学院副教授、湖北师范大学计算史学与数字人文研究实验室主任。目前主要研究方向是宋史、历史GIS和数字人文。编著有《历史地理信息系统基础操作教程》(合著)(华中科技大学出版社2024年),发表论述十余篇。

6.李惠

南京农业大学人文与社会发展学院副教授,负责历史文献的数字化整理与建设的技术方案支持。兼任《数字人文》集刊编辑、《信息与管理研究》期刊编委、中国历史文献研究会·数字文献分会会员等。主要研究领域包括:深度学习、网络科学、自然语言处理等前沿技术在数字人文领域的应用研究。

7.李娜

理学博士,南京林业大学人文社会科学学院副教授,硕士生导师,2019年度江苏省优秀博士学位论文获得者,CSC公派英国剑桥大学访问学者,现任南京林业大学人文社会科学学院广播电视与新媒体系主任、国家林业和草原局林业遗产与森林环境史研究中心林业史料数字化研究室主任,主要研究方向为科学技术史、数字人文、文化传播。主持国家社科基金青年项目、江苏省社科基金青年项目、国家林业和草原局软科学项目、中国博士后基金特别资助项目和中国博士后基金面上项目等多项国家和省部级项目,在《中国农史》《图书馆论坛》《图书馆》《中国科技史杂志》等期刊发表学术论文十余篇,出版专著一部。

8.徐晨飞

理学博士,南通大学商学院(管理学院)副教授,硕士生导师,美国伊利诺伊大学香槟分校信息学院访问学者。研究方向为数字人文,文化遗产知识组织与人工智能应用。主持国家社科基金项目、教育部人文社科项目、江苏省社科基金项目及各类市厅级课题共8项。在《大学图书馆学报》《图书情报工作》《数据分析与知识发现》《图书馆论坛》《中国农史》等期刊上发表学术论文 30 余篇,出版专著2 部,主编教材2部,获软件著作权2项,2024、2025中国知网高被引学者TOP1%。现任中国科学技术史学会数字人文专业委员会委员,南京农业大学数字人文研究中心特聘研究员。

9.周树斌

管理学博士,内蒙古师范大学科学技术史研究院特聘研究员、内蒙古师范大学科技古籍整理研究所研究员、内蒙古自治区科技文化遗产认知智能重点实验室研究员、中国索引学会数字人文专业委员会委员、中国科学技术史学会会员、内蒙古自治区人工智能学会青年工作委员会及数智文旅专委会委员、《Knowledge Organization》青年编委。研究方向为科技遗产与数字人文、科学技术史、知识组织。主持内蒙古自治区社会科学基金、内蒙古自治区教育科学“十四五”规划专项课题、用友基金会“商的长城”项目等项目4项,在《大学图书馆学报》《图书情报工作》《情报资料工作》《图书馆论坛》《Knowledge Organization》等国内外期刊发表论文20余篇,2025中国知网高被引学者TOP5%。

10.张强

管理学博士,淮阴师范学院文学院数字人文系主任,南京农业大学人文与社会发展学院博士后,南京农业大学数字人文研究中心研究员,中国计算机学会专业会员,中国科学技术史学会数字人文专委会委员。研究方向为数字人文、科学技术史、科技遗产知识组织。主持中国博士后面上资助项目、江苏省社科联精品工程地方志专项重点项目、江苏省科技智库青年项目等。《Knowledge Organization》《中国农史》青年编委,在《情报学报》《图书情报工作》《数据分析与知识发现》《Digital Scholarship in the Humanities》等国内外核心期刊发表论文30余篇,授权发明专利2项,2025中国知网高被引学者TOP1%。曾获2022年中国数字人文年会优秀论文奖、最具人气项目奖等。

阅读原文

跳转微信打开

DH无界谈 | 曾蕾:AI时代文化遗产数据资源的采集和数智活化

2026年5月7日 08:23

数字人文研究院 2026-05-07 08:23 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

中国人民大学数字人文研究院

"DH无界谈"015

AI时代文化遗产数据资源的

采集和数智活化

内容简介

本次讲座将讨论文化遗产数据资源处理的不同层次和功能,并探讨一些跨国实例带来的启发,涉及AI时代数据资源数智活化的速度,深度,广度,质量,以及能联合使用的服务等。

时间:2026/05/09 14:00

地点:立德楼B1数字人文实验室

主办单位

中国人民大学数字人文研究院

学术媒体支持

《数字人文研究》

主讲人 曾蕾

美国肯特州立大学(KentState University)信息学院终身教授,荣获国际信息科学与技术协会(ASiS&T)2024年度杰出贡献奖(ASIS&T Award of Merit),是该奖1964年设立以来的首位华人获奖学者。

主持人 夏翠娟

中国人民大学信息资源管理学院教授

数字人文研究院研究员

撰稿/图片/排版:邱晨昱

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

历史游戏研究文献汇总(至2026年初)

2026年5月6日 16:39

西瓜好吃 2026-05-06 16:39 北京

以下文章来源于:漫谈穿越

漫谈穿越

漫谈穿越。分享有趣的穿越作品。分析故事背后的思想观念与历史

历史游戏研究,即以历史游戏为对象的相关研究。

历史游戏研究文献汇总

至2026年初

作者简介

庞昊,毕业于中国社会科学院世界历史研究所,师从俞金尧教授,世界史博士,从事西方史学理论与史学史研究,目前工作于中山大学历史学系,关注历史游戏研究与人工智能时代的历史学议题。

| 小红书账号:西瓜好吃 |

      “历史游戏”是指游戏内容包含历史元素,且这些元素或是能够影响玩家游戏体验,或是能够促使玩家思考过去的电子游戏。历史游戏研究,即以历史游戏为对象的相关研究。

       历史游戏为什么如此有吸引力?历史游戏又是如何建构历史的?这一历史表现形式有什么特殊之处,尤其是相比历史专著和历史电影来说?历史游戏有可能成为探索历史问题的工具吗?2000年前后,为了回答这些问题,一些欧美研究者将目光投向历史游戏,开启了“历史游戏研究”领域。2013年,Adam Chapman提出了历史游戏研究宣言,宣称历史游戏是历史,历史游戏研究是一个独立的研究领域。2017年,历史游戏研究是一个独立研究领域已经是很多研究者的共识。经过近25年的发展,它已逐渐成熟,而且渐渐融入欧美主流史学研究,时至今日,已有近300份历史游戏研究成果,包括学术论文、学术专著、学术论文集。这份整理以英语世界的研究为主的,并收录了国内和法、德的有限成果,未能涵盖日语、韩语、葡萄牙语、西班牙语、意大利语的相关研究

1992

1. Keith Ferrell, Sid Meier's Civilization, Compute, Vol.14, No.1 (Jan.,1992), pp.86-87.

2. Roger-Tzu, Strategies for Sid Meier's Civilization: The 6000-year-old Man Gives Sage Advice, Computing Gaming World,No.93 (April,1992), p.88, p.90.

3. Alan Emrich, Getting Civilized:What's Happening to Sid Meier's Civilization?,Computing Gaming World, No.94 (May,1992), p.108, p.110.

1993

1. J.Stallabrass, Just Gaming: Allegory and Economy  in Computer Games, New Left Review, No.198, pp.83-106.

2. Pierre Corbell, Review on Civilization, Simulation  &Gaming, Vol.24, No.3(September, 1993), pp.388-390.

1997

1. Bill Bigelow, On the Road to Cultural Bias: A Critique of the Oregon Trail CD-ROM, Language Arts, Vol.74, No.2(Feb.,1997), pp.84-93.

2. Janet H.Murray, Hamlet on the Holodeck: The Future of Narrative in Cyberspace, Cambridge: The MIT Press, 1997.

3. Douglas Rushkoff, Children of Chaos: Surviving the  End of the World as We Know It, London:Flamingo,1997.

1999

1. Ted Friedman, Civilization and Its Discontents: Simulation,Subjectivity,and Space, Greg M.Smith,ed.,On a Silver Platter:CD-ROMs and the Promises of a New Technology,New York and London:New York University Press, 1999, pp.132-150.

2001

1. David Kushner, In Historical Games, Truth Gives Way to Entertainment, The New York Times, September 6, 2001, https://archive.nytimes.com/www.nytimes.com/learning/teachers/featured_articles/20010906t hursday.html.

2002

1. Christopher Douglas, You Have Unleashed a  Horde of Barbarians! : Fighting Indians, Playing  Games, Forming Disciplines, Postmodern Culture, Vol.13, No.1 (September,2002), https://pmc.iath.virginia.edu/issue. 902/13.1douglas.html.

2. Kacper Poblocki, Becoming-State:The Bio-Cultural Imperialism of Sid Meier's Civilization, Focaal-European Journal of Anthropology, No.39 (2002), pp.163-177.

3. Matthew Kapell, Civilization and Its Discontents: American Monomythic Structure as Historical Simulacrum, Popular Culture Review, Vol.13, No.2(Jun.,2002), pp.129-135.

4. Kurt Squire, Cultural Framing of Computer/Video Games, Game Studies, Vol.2, No.1 (July,2002), https://www.gamestudies.org/0102/squire/.

5. Tom Lenoir and Henry Lowood, Theaters of  War: The Military-Entertainment of Complex, Stanford University Library, 2002,  https://web.stanford.edu/class/sts145/Library/LenoirLowood_TheatersOfWar.pdf.

2003

1. Henry Jenkins and Kurt Squire, Understanding Civilization II: The Pros and Cons of Using Computer Games in the Classroom, Computer Games, (September,2003), p.92.

2. Kenneth Chen, Civilization and Its Disk Contents, Radical Society, Vol.30, No.2(2003), pp. 95-107.

3. Patrick Crogan, "Gametime: History, Narrative, and Temporality in Combat Flight Simulator 2", Mark J. P. Wolf and Bernard Perron, eds., The Video Game Theory Reader, London and New York: Routledge, 2003, pp.275-302.

4. Shawn Miklaucic, "God Games and Governmentality: Civilization I and    Hypermediated Knowledge", Jack Z. Bratich, Jeremy Packer and Cameron McCarthy, Foucault, Cultural Studies, and Governmentality, New York: State University of New York Press, 2003, pp. 317-336.

5. Sybille Lammes, On the Border: Pleasures of Exploration and Colonial Mastery in Civilization Ⅲ Play the World, Proceedings of DiGRA 2003 Conference: Level Up, Utrecht: Utrecht University and Digital Games Research Association, 2003, pp.120-129.

6. Tom Taylor, Historical Simulations and the Future of the Historical Narrative, Journal of the Association for History and Computing, Vol.6, No. 2, September, 2003,  https://quod.lib.umich.edu/j/jahc/3310410.0006.203?rgn=main;view=fulltext,  2003-9, 2021-2-22.

2004

1. Kurt D. Squire, Replaying History: Learning World History through Playing Civilization II, Ph.D., Indiana University, 2004.

2. Dennis G. Charsky, Evaluation of the Effectiveness of  Integrating Concepts Maps and Computer Games to Teach Historical Understanding, Doctoral Dissertation, University of Northern Colorado, 2004.

2005

1. D.Machin and T. van Leeuwen, Computer Games as Political Discourse: The Case of Black Hawk Down, Journal of Language and Politics, Vol.4, No.1(2005), pp.119-141.

2. William Uricchio, "Simulation,History,and Computer Games", Joost Raessens and Jeffrey Goldstein eds, Handbook of Computer Game Studies, Massachusets: The MIT Press, 2005, pp.327-338.

2006

1. David B. Nieborg, Mods,Nay!Tournaments, Yay!-The Appropriation of Contemporary Game Culture by the U.S.Millitary, The Fibreculture Journal, Vol.8(2006) , https://eight.fibreculturejournal.org/fcj-051-mods-nay-tournaments-yay-the-appropriation-of-contemporary-game-culture-by-the-u-S-military/.

2. Jerome De Groot, Empathy and Enfranchisement: Popular Histories, Rethinking History, Vol.10, No.3(2006), pp.391-413.

3. Joost Raessens, Reality Play: Documentary Computer Games Beyond Fact and Fiction, Popular Communication: The International Journal of Media and Culture, Vol.4, No.3(2006), pp.213-224.

4. Kurt Squire, From Content to Context: Videogames as Designed Experience, Educational Researcher, Vol.35, No.8, pp.19-29.

5. Niall Ferguson, How to Win a War, New York Magazine, Oct.12, 2006, https://nymag.com/news/features/22787/.

6. Thomas Apperley, Virtual Unaustralia: Videogames and Australia's Colonial History, The Cultural Studies Association of Australasia's Annual Conference, 2006, https://www.academia.edu/385987/Virtual_UnAustralia_Videogames_and_Australias_colonial_history.

2007

1. Diane Carr, "The Trouble with Civilization", Barry Atkins and Tanya Krzywinska, eds., Videogame, Player, Text, Manchester and New York: Manchester Uiversity Press, 2007, pp.222-236.

2. Brian Rejact, Toward a Virtual Reenactment of History: Video Games and the Recreation of the Past, Rethinking History, Vol.11, No.3(September, 2007), pp.411-425.

3. Esther MacCallum-Stewart and Justin Parsler, Controversies: Historicising the Computer Game, Situated Play, Proceedings of DiGRA2007 Conference, pp.203-210.

4. Eva Kingsepp, Fighting Hyperreality with Hyperrealtiy: History and Death in World War II Digital Games, Games and Culture, Vol.2, No.4(October,2007), pp.366-375.

5. Kevin Schut, Strategic Simulations and Our Past: The Bias of Computer Games in the Presentation of History, Games and Culture, Vol.2, No.3 (July,2007), pp.213-235.

6. Trent Cruz, "It's Almost Too Intense:" Nostalgia and Authenticity in Call of Duty 2, The Journal of the Canadian Game Studies Association, Vol.1 No.1(2007), https://loading.journals.publicknowledgeproject.org/index.php/loading/article/view/7.

2008

1. Beth A. Dillon, Signifying the West: Colonialist Design in Age of Empire II: The WarChiefs, Computer Game Culture, Vol.2, No.1(2008), pp.129-144.

2. Harry J. Brown, Videogames and Education, New York and London: M. E. Sharpe, 2008, pp.117-35.

3. J. Pixel Wills, Cowboys and Silicon Gold Mines: Video Games of the American West, Pacific Historical Review, 77.2.2008, pp.273-303.

4. Matthew Jason Weise, Bioshock: A Critical  Historical Perspective, Eludamos, Journal for Computer Game Culture, Vol.2, No.1(2008), pp.151-155.

5. Matthew Thomson, Military Computer Games and the New American Militarism: What Computer Games Teach Us About War, University of Nottingham for the Degree of Doctor of Philosophy, 2008

6. Reichert Ramón, "Government-Games und Gouverntainment", Rolf F. Nohr and Serjoscha Wiemer, eds., Strategie Spielen: Medialität, Geschichte und Politik des Strategiespiels, LIT, 2008, pp.189-212.

7. James Campbell, "Just Less than Total War: Simulating World War I as Ludic Nostalgia", Z.Whalen and L. N. Taylor, Playing the Past: History and Nostalgia in Video Games, Nashville: Vanderbilt University Press, 2008, pp.183-200.

8. Tracy Fullerton, "Documentary Games: Putting the Player in the Path of History", Z.Whalen and L. N. Taylor, Playing the Past: History and Nostalgia in Video Games, Nashville: Vanderbilt University Press, 2008, pp.215-238.

2009

1. Annette Vowinckel, Past Futures: From Re-Enactment to the Simulation of History in Computer Games, Historical Social Research/Historische Sozialforshung, 2009, Vol.34, No. 2(2009), pp.322-332.

2. Cindy Poremba, Frames and Simulated Documents:Indexicality in Do cumentary Videogames, The Journal of the Canadian Game Studies Association, Vol.3, No.4, https://loading.journals.publicknowledgeproject.org/index.php/loading/article/view/61.

3. Claudio Fogu, Digitalizing Historical Consciousness, History and Theory, Vol.48, No.2 (May,2009), pp.103-121.

4. Filipe M. Penicheiro, History Reloaded: Perspectives on Historical  Based  Games, Brazilian Symposium on Games and Digital Entertainment, pp.52-56.

5. Gerald  A. Voorhees, I Play Therefore I Am: Sid Meier's Civilization, Turn-Based Strategy Games and the Cogito, Games and Culture, Vol.4,  No.3(July,2009), pp.254-275.

6. Jerome de Groot, Consuming History: Historians and Heritage in Contemporary Popular Culture, London and New York: Routledge, 2009.

7. Kevin Kee et al., Toward a Theory of Good History Through Gaming, The Canadian Historical Review, Vol.90, No.2(2009), pp.303-326.

8. Kevin Kee and John Bachynski, Outbreak: Lessons Learned from Developing a 'Hist ory Game", Vol.3, No.4 (2009), https://loading.journals.publicknowledgep roject.org/loading/index.php/loading/article/view/64/58.

2010

1. Cynthia Katherine Poremba, Real/Unreal: Crafting Actuality in the Documentary Videogame, Doctoral Humanities Program at Concordia University, 2010.

2. Gozda Dogramacilar, Play and History: Authenticity and Experience in Virtual Reconstructions and Video Games, Master of Science in Architecture of the University of Cincinnati, 2010.

3. Harrison Gish, Playing the Second World War: Call of Duty and the Telling of History, Eludamos, Journal for Computer Game Culture, Vol.4, No.2(2010), pp.167-180.

4. Jaimie Baron, Digital Historicism: Archival Footage, Digital Interface, and Historiographic Effects in Call of Duty: World at War, Eludamos, Journal for Computer Game  Culture, Vol.4, No.2(2010), pp.303-314.

5. Luke Brett Jacobs, An Analysis of Medal of Honor: Pacific Assault, Master of Arts in Screen and Media Studies, The University of Waikato, 2010.

6. Joel Penney, "No Better Way to 'Experience' World War II: Authenticity and Ideology in the Call of Duty and Medal of Honor Player Communities", Nina B. Huntemann and Matthew Thomas Payne, eds., Joystick Soldiers: The Politics of Play in Military Video Games, New York and London: Routledge, 2010, pp.191-205.

7. Rudolph Glitz, "Making World Historical: The Political Aesthetics of Sid Meier's Civilization Series", Ansgar Nünning, Vera Nünning and Birgit Neumann, eds., The Aesthetics and Politics of Cultural Worldmaking, Trier: WVT Wissenschaftlicher Verlag Trier, 2010, pp. 161-180.

8. Tanine Allison, The World WarⅡVideo Game: Adaption and Postmodern History, Literary Film Quarterly, Vol.38, No.3(July,2010), pp.183-193.

2011

1. Jaakko Suominen, Game Reviews as Tools in the Construction of Game Historical Awareness in Finland, 1984-2010: Case MikroBitti Magazine, Proceedings of DiGRA 2011 Conference: Think Design Play, pp.1-17.

2. Kevin Kee, Computerized History Games: Narrative Options, Simulation & Gaming, Vol.42, No.4(2011), pp.423-440.

3. Geoffrey M. Rockwell and Kevin Kee, The Leisure of Serious Game: A Dialgue, Game Studies, Vol.11, No.2(May,2011), https://gamestudies.org/1102/articles/geoffrey_rockwell_kevin_kee.

4. Stephanie Fisher, Playing with the World War II: A Small-Scale Study of Learning in Video Games, The Journal of the Canadian Game Studies Association, Vol.5, No.8(2011), pp.71-89.

2012

1. Adam Chapman, Privileging Form Over Content: Analysing Historical Videogames, Journal of Digital Humanities, Vol.1, No.2(Spring,2012), https://journalofdigitalhumanities.org/1-2/privileging-form-over-content-by-adam-chapman/.

2. Catia Ferreira, Memory and Heritage in Second Life: Recreating Lisbon in a Virtual World, Journal of Gaming & Virtual Worlds, Vol.4, No.1(Mar.,2012), pp.63-79.

3. Greg Gillespie and Darren Crouse, There and Back Again: Nostalgia, Art, and Ideology in Old-School Dungeons and Dragons, Games and Culture, Vol.7, No.6(2012), pp.441-470.

4. Jerremie Clyde, Howard Hopkins, Glenn Wilkinson, Beyond the "Historical" Simulation: Using Theories of History to Inform Scholarly Game Design, The Journal of the Canadian Game Studies Association, Vol.6, No.9 (January,2012), pp.3-16.

5. Rachel Wagner, First-Person Shooter Religion: Algorithmic Culture and Inter-Religious Encounter, Cross Currents, Vol.62, No.2(June, 2012), pp.181-203.

2013

1. Adam Chapman, The Great Game of History: An Analytical Approach to and Analysis of the Videogame as a Historical Form, Doctor Thesis, University of Hull, 2013.

2. Adam Chapman, Is Sid Meier's Civilization History, Rethinking History, Vol.17, No.3, pp. 312-332.

3. Alan F. Meades, Infectious Pleasures: Ethnographic Perspectives on the Production and Use of Illicit Videogame Modifications on the Call of Duty Franchise, Journal of Gaming & Virtual World, Vol.5, No.1(Mar.,2013), pp.59-76.

4. Benjamin Wai-Ming NG, "The Adaptation of Chinese History into Japanese Popular Culture: A Study of Japanese Manga, Animated Series and Video Games Based on The Romance of the Three Kingdoms", Roman Rosenbaum, ed., Manga and the Representation of Japanese History, London and New York: Routledge, 2013, pp.234-250.

5. Laura  Zucconi, Ethan Watrall, Hannah Ueno and Lisa Rosner, Pox and the City: Challenges in Writing a Digital History GameJack Dougherty and Kristen Nawrotzki, eds., Writing History in the Digital Age, Ann Arbor: University of Michigan Press, Digital culture books, 2013, pp.199-206.

6. Thomas Rabino, Jeux Vidéo et Histoire, Le Débat, No.177(Novembre-Décembre,2013), pp. 110-116.

7. Matthew Wilhelm Kapell and Andrew B. R. Elliott eds., Playing with the Past: Digital games and the Simulation of History, New York: Bloomsbury, 2013.

Part One: History as a Process

Rolfe Daus Peterson,Andrew Justin Miller, Sean Joseph Fedorko, The Same River Twice: Exploring  Historical Representation and the Value of  Simulation in the Total War, Civilization, and patrician Franchises, pp.33-48Daniel Reynolds, What is "Old"in Video Games?, pp.49-60.

Adam Chapman, Affording History: Civilization and the Ecological Approach, pp.61-74.

Part Two: History Written by the West

Emily Joy Bembeneck, Phantasm of Rome: Video Games and Cultural Identity, pp.77-90.

Rebecca Mir and Trevor Owens, Modeling  Indigenous Peoples: Unpacking Ideology in Sid Meier's Colonization, pp.91-106.

Joshua D. Holdenried with Nicolas Trepanier, Dominance and the Aztec Empire: Representations in Age of Empires I and Medieval II: Total War, pp.107-120.

Hyuk-Chan Kwon, Historical Novel Rivived: The Heyday of Romance of the Three Kingdoms Role-Playing Games, pp.121-134.

Kazumi Hasegawa, Falling in Love with History: Japaneses Girls'Otome Sexuality and Queering Historical Imagination, pp.135-150.

Part Three: User-Generated History

Andrew J. Salvati and Jonathan M. Bullinger, Selective Authenticity and the Playable Past, pp.153-168.

Josef Kostlbauer, The Strange Attraction of Simulation: Realism, Authenticity, Virtuality, pp.169-184.

Tom Apperley, Modding the  Historians'Code: Historical Verisimilitude and the Counterfactual Imagination, pp.185-198.

Gareth Crabtree, Modding as Digital Reenactment: A Case Study of the Battlefield Series, pp.199-212.

Part Four: The Politics of Representation

Douglas N. Dow, Historical Veneers: Anachronism, Simulation, and Art History in Assasin's Creed II, pp.215-232.

Andrew Wackerfuss, This Game of Sudden Death":Simulating Air Combat of the First World War,pp.233-246.

Clemens Reisner, The Reality Behind it All is Very True: Call of Duty: Black Ops and the Remembrance of the Cold War, pp.247-260.

Marcus Schulzke, Refighting the Cold War: Video Games and Speculative History, pp.261-276.

Part Five: Looking Back on the End of the World

William M. Knoblauch, Strategic Digital Defense: Video Games and Reagan's "Star Wars" Program, 1980-1987, pp.279-296.

Joseph A. November, Fallout and Yesterday's Impossible Tomorrow, pp.297-312.

Tom Cutterham, Irony and American Historical Consciousness in Fallout 3, pp.313-326.

Robert Mejia and Ryuta Komaki, The Historical Conception of Biohazard in Biohazard/Resident Evil, pp.327-342.

Erin Evans, The Struggle with Gnosis: Ancient Religion and Future Technology in the Xnoaga Series, pp.343-356.

Matthew Wilhelm Kapell and Andrew B. R. Elliott, Conclusion(s): Playing at True Myths, Engaging with Authentic Histories, pp.357-369.

2014

1. A.Martin Wainwright, Teaching Historical Theory through Video Games, The History Teacher, Vol.47, No.4(August,2014), pp.579-612.

2. Daniel T. Kline, ed., Digital Gaming Re-imagines the Middle Ages, London and New York: Routledge, 2014.

Amazon.com: Digital Gaming Re-imagines the Middle Ages (Routledge ...

Daniel T. Kline, Introduction: "All Your History Are Belong to Us": Digital Gaming Re-imagines the Middle Ages, pp.1-11.

Part I  Prehistory of Medieval Gaming

William J. White, The Right to Dream of the Middle Ages: Simulating the Medieval in Tabletop RPGs, pp.15-27.

Part II  Gaming Re-images Medieval Traditions

Candace Barrington and Timothy English, Best and Only Bulwark: How Epic Narrative Redeems Beowulf: The Game, pp.31-42.

Jason Pitruzzello, Systematizing Culture in Medievalism: Geography, Dynasty, Culture, and Imperialism  in Crusader Kings: Deus Vult, pp.43-52.

Gregory Fedorenko, The Portrayal of Medieval Warfare in Medieval: Total War and Medieval2: Total War, pp.53-66.

Angela Tenga, Gabriel Knight: A Twentieth-Century Chivalric Romance Hero, pp.67-77.

Part III Case Study  1-World  of Warcraft

Elysse T. Meredith, Coloring Tension: Medieval and Contemporary Concept in Classifying and Using Digital Objects in World of Warcraft, pp.81-92.

Kristin Noone and Jennifer Kavetsky, Sir Thomas Malory and the Death Knights of New Avalon: Imaging Medieval Identities in World of Warcraft, pp.93-106.

Jennifer C. Stone, Peter Kudenov and Teresa Combs, Accumulating Histories: A Social Practice Approach to Medievalism in High-Fantasy MMORPGs, pp.107-118.

Kim Wilkins, "Awesome Cleavage": The Genred Body in World of Warcraft, pp.119-129.

Part IV  Case  Study  2-Dante's Inferno

Bruno Lessard, The Game's Two Bodies, or the Fate of Figura in Dante's Inferno, pp.133-147.

Oliver Chadwick, Courtly Violence, Digital Play: Adapting Medieval Courtly Masculinities in Dante's Inferno, pp.148-161.

Timothy J. Welsh and Josh T. Sebastian, Shades of Dante:Virtual Bodies in Dante's Inferno, pp.162-174.

Angela Jane Weisl and Kevin J. Stevens, The Middle Ages in the Depths of Hell: Pedagogical Possibility and the Past in Dante's Inferno, pp.175-185.

Part V  Theoretical and Representational Issues in Medieval Gaming

Thomas Rowland, We Will Travel by Map: Maps as Narrative Spaces in Video Games and Medieval Texts, pp.189-201.

Michelle Dipietro, Author, Text, and Medievalism in The Elder Scrolls, pp.202-213.

Nick Webber, Technophilia and Technophobia in Online Medieval Fantasy Games, pp.214-226.

Harry J. Brown, The Consolation of Paranoia: Conspiracy, Epistemology,and the Templars in Assassin's Creed, Deus Ex, and Dragon Age, pp.227-239.

Part VI  Sociality and Social Media in Medieval Gaming

Serina Patterson, Casual Medieval Games, Interactivity, and Social Play in Social Network and Mobile Applications, pp.243-251.

3. Eva VRTAČIČ, The Grand Narrative of Video Games: Sid Meier's Civilization, TEORIJA IN PRAKSA, Vol.51, No.1(2014), pp.91-105.

4. Florian Kerschbaumer and Tobias Winnerling, eds., Frühe Neuzeit Im Videospiel, Bielefield: Transcript-Verl, 2014.

5. Stefan Donecker, Civilization Un Der Geist Des Jahres 1991, pp.269-288.

6. Harry Turtledove and Others, Europa Universalis IV: What If? The Anthology of Alternate History, Stockholm: Paradox Books, 2014.

7. Marco Antonio Rodriguez, From the Periphery to Center Stage: The Effects and Exploitation of the Other in Titus Andronicus and Assassin's Creed II, The Communication Review, Vol.17, No.3(2014), pp.245-255.

8. Mirt Komel, Orientalism in Assassin's Creed: Self-Orientalizing the Assassins from Forerunners of Modern Terrorism into Occidentalized Heroes, Tertija in Praksa, Vol.51, No. 1(2014), pp.71-90.

9. Pastplay: Teaching and Learning History with Technology.

10. Robert Houghton, It's What You Do with It That Counts: Factual Accuracy and Mech anical Accuracy in Crusader Kings II, The Public Medievalist,(30 September,2014), https://www.publicmedievalist.com/ckii-houghton/.

11. Tobias Winnerling, The Eternal Recurrence of All Bits: How Historicizing Video Game Series Transform Factual History into Affective Historicity, Eludamos: Journal for Computer Game Culture, Vol.8, No.1(2014), pp.151-170.

12. T. Winnerling and F. Kerschbaumer, Early Modernity and Video Games, Cambridge: Cambridge Scholars Publishing, 2014.

Early Modernity and Video Games

Florian Kerschbaumer and Tobias Winnerling, Introduction: The Devil is in the Details: Why Video Game Analysis is Such A Hard Work for Historians,and How We Nevertheless Try, pp.X-XX.

Section One: Methodology and Theory

Rolf Nohr, The Game is a Medium: The Game is a Message, pp.2-23.

Josef Köstlbauer, Do Computers Play History?, pp.24-37.

Adam Rowan Chapman, The History Beyond the Frame: Off-Screen Space in the Historical First-Person Shooter, pp.38-51.

René Schallegger, Homo Ex Machina?-Cyber-Renaissance and Transhumanism in Deus Ex: Human Revolution, pp.52-63.

Simon Maria Hassemer, Does History Play the Role of Storyline Historiographical Periodization as Theme in Video Game Series, pp.64-75.

Lutz Schröder, Research the Spinning Jenny, Gain+8%Wealth by Textile  Industries: The Transformation of Historiacl Technologies into the Virtual World of Empire: Total War, pp.76-90.

Marc Bonner, Construction as a Condition to Win: Depiction and Function of Early Modern Architecture and Urban Landscapes in Strategy and Economic Simulation Games, pp.91-104.

Stefan Donecker, Pharaoh Mao Zedong and the Musketeers of  Babylon: The Civilization Series between Primordialist Nationalism and Subversive Parody, pp.105-122.

Tim Raupach, Towards an Analysis of Strategies of Authenticity Production in World War II First-Person Shooter Games, pp.123-137.

2015

1. Adrienne Shaw, The Tyranny of Realism:Historical Accuracy and Politics of Representation in Assassin's Creed I, The Journal of the Canadian Game Studies Association, Vol.9, No.14(2015), pp.4-24.

2. Bertrand Lucat, Ideological Narratives of Play in Tropico 4 and Crusader King II, Proceedings of DiGRA2015: Diversity of Play: Games-Cultures-Identities, pp.1-15.

3. Bertrand Lucat and Mads Haahr, "What Makes a Successful Emergent Narrative: The Case of Crusader Kings IIHenrik Schoenau-Fog", Luis Emilio Bruni, Sandy Louchart and Sarune Baceviciute, eds., Interactive Storytelling: 8th International Conference on Interactive Digital Storytelling, London: Springer, 2015, pp.259-267.

4. Daniel Ante-Contreras, Bioshock's Paranoid States: The Gamer within a History of White Male Victimization, Journal of Gaming & Virtual World, Vol.7, No.3(Sep.,2015), pp.225-241.

5. Dawn Spring, Gaming History: Computer and Video Games as Historical Scholarship, Rethinking History,Vol.19, No.2(2015), pp.207-221.

6. David S. Heineman, Public Memory and Gamer Identity: Retrogaming as Nostalgia, Journal of Games Criticism, Vol.1, No.1(January,2014), https://gamescriticism. org/wp-content/uploads/2023/07/heineman-1-1.pdf.

7. Derek Fewster, The Witcher 3: A Wild and Modern Hunt to Medievalise Eastern and Northern Europe, Gamevironments, Vol.2(2015), pp.159-180.

8. Jason Begy, Board Games and the Construction of Cultural Memory, Games and Culture, Vol.12, No.7-8(2015), pp.1-15.

9. Robin J. S. Sloan, Videogames as Remediated Memories: Commodified Nostalgia and Hypperality in Far Cry 3: Bood Dragon and Gone Home, Games and Culture, Vol.10, No.6(2015), pp.525-550.

10. Sofia Pereira Garcia and Fernando Gómez Gonzalvo, La reconstrucción del paso del tiempo en el videojuego Sid Meier's Civilization IV. Una perspectiva educativa, LifePlay: Revista académica internacional sobre videojuegos, No.4(2015), pp.13-27.

11. Adam Chapman and Jonas Linderoth, "Exploring the Limits of Play: A Case Study of Representations of Nazism in Games Torill Elvira Mortensen", Jonas Linderoth and Ashley ML Brown, eds., The Dark Side of Game Play: Controversial Issue in Playful Environments, New York and London: Routledge, 2015, pp.137-153.

12. Alan Meades, Boosting, "Glitching and Modding Call of Duty: Assertive Dark-Play Manifestations, Communities, Pleasures, and Organic Resilience", Jonas Linderoth and Ashley ML Brown, eds., The Dark Side of Game Play: Controversial Issue in Playful Environments, New York and London: Routledge, 2015, pp.242-260.

13. Vincenzo Idone Cassone and Mattia Thibault, The HGR Framework: A Semiotic Approach to the Representation of History in Digital Games, Gamevironments, Vol.6(2016), pp.156-204.

14. 史旻昱:《游戏对文化的重构与传承——以游戏<三国志>为个案》,《新闻大学》2015 年第2期,第32-38页。

2016

1. A. Chapman, Digital Games as History: How Videogames Represent the Past and Offer Access to Historical Practice, London: Routledge, 2016.

2. Christos Sintoris, Nikoleta Yiannoutsou and Nikolaos Avouris, The Fortress of Monemvasia as Play-ground for a Location Based Game, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-6.

3. D. Saber and N. Webber, That is Our Call of Duty: Hegemony, History and Resistant Video Games in the Middle East, Media Culture & Society, 39.1.2016, pp.1-17.

4. Dan Golding, Lineages: Historicising the Videogame, Proceedings of It International Joint Conference of DiGRA and FDG(2016), pp.1-2.

5. Daniel Livingstone, Sandy Louchart and Stuart Jeffrey, Archaeological Storytelling in Games, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-8.

6. Daniela De Angeli and Eamonn O'Neill, Tell-A-Dyrham-Tale, a Storytelling Board Game, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-2.

7. Derek Fewster and Ylva Grufstedt, Introduction: Gamevironments of the  Past-A Broad Take on Games and History, Gameviroments, No.5(2016), pp.1-7.

8. Dom Ford, eXplore, eXpand, eXploit, eXterminate: Affective Writing of Postcolonial History and Education in Civilization V, Game Studies: The International Journal of Computer Game Research, Vol.16, No.2  (December,2016).

9. Edwige Lelievre, OFabulis and Versailles 1685: a Comparative Study of the Creation Process Behind Video Games on Historical Monuments, DiGRA/FDG Workshop on Playing with History: Games,Antiquity and History(2016), pp.1-11.

10. Elisabeta Toma and Cosima Rughinis, Playing with Herstory. Representing Femininity in Historical Video Games, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-4.

11. Erin McNeil, Ludic Spolia in Sid Meier's Civilization:Beyond Earth, Journal of Games Criticism, Vol.3, Bonus Issue A(July,2016), https://gamescriticism.org/wp-conten t/uploads/2023/07/mcneil-3-a.pdf.

12. Frank G. Bosman, The Poor Carpenter: Reinterpretating Christian Mythology in the Assassin's Creed Game Series, Gamevironments,  Vol.4(2016), pp.61-88.

13. Jeremiah McCall, Teaching History with Digital Historical Games: An Introduction to the Field and Best Practices, Simulation & Gaming, Vol.47, No.4(August,2016), pp.517-542.

14. Jonathan Westin and Ragner Hedlund, Polychronia-Negotiating the Popular Representation of a Common Past in Assassin's Creed, Journal of Gaming & Virtual Worlds, Vol.8, No.1(Mar.,2016), pp.3-20.

15. Manuel Alejandro Cruz Martinez, Playing with History's Otherness.A Framework for Exploring Historical Games, DiGRA/FDG Workshop on   Playing with History: Games, Antiquity and History(2016), pp.1-4.

16. Nick Webber, Public History, Game Communities and Historical Knowledge, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

17. Razvan Rughinis and Stefania Matei, History, Biography and Empathy in Inkle's 80 Days, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-8.

18. Richard Eberhardt and Kyrie Eleison Caldwell, The Challenges of Using Commercial-Off-the-Shelf Narrative Games in History Classrooms, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

19. Robert Whitaker, Backward Compatible: Games as a Public History Audience, Perspec tives on History, Vol.54, No.1(January,2016), https://www.historians.org/perspectives-article/backward-compatible-gamers-as-a-public-history-audience-january-2016/.

20. Scott Alan Metzger and Richard J. Paxton, Gaming History: A Framework for What Video Games Teach About the Past, Theory & Research in Social Education, Vol.44, No.4(2016), pp.532-564.

21. Sian Beavers and Elizabeth Fitzgerald, Perceptions, Perspectives and Practices: A Study of the Players of Historical Games, Proceedings of 1st International Joint Conference of DiGRA and FDG (2016).

22. Souvik Mukherjee, The SEGA and Microsoft History of India: The British Raj in Videogames, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

23. Souvik Mukherjee, Playing Subaltern: Video Games and Postcolonialism, Games and Culture, No.13(2016), pp.504-520.

24. Souvik Mukherjee, Video Games and Slavery, Transactions of the Digital Games Research Association, Vol.2, No.3(2016), pp.243-260.

2017

1. Andrew B. R. Elliott, Simulations and Simulacra:History in Video Games, Práticas da História, No.5(2017), pp.11-41.

2. Angus A. A. Mol, Aris Politopoulos and Csilla E. Ariese-Vandemeulebroucke, From the Stone Age to the Information Age: History and Heritage in Sid Meier's Civilization VI, Advances in Archaeological Practice 5, No.2(May,2017), pp.214-219.

3. D. Saber and N. Webber, This is Our Call of Duty: Hegemony, History and   Resistant Videogames in the Middle East, Media, Culture and Society, Vol.39, No.1(2017), pp.77-91.

4. F. Penate Dominguez, Heute Gehört uns die Galaxie' Music and Historical  Credibility in Wolfenstein: The New Order's Nazi Dystopia, Game, Vol.6(2017), pp.71-89.

5. Juan Luis Gonzalo Iglesia, Simulating History in Contemporary Board Games: The Case of the Spanish Civil War, Catalan Journal of Communiaction & Cultural Studies, Vol.8, No.1 (Apr.,2016), pp.143-158.

6. Julian Wolterink, Authentic Historical Imagery: A Suggested Approach for Medieval Videogames, Gamevironments, Vol.6(2017), pp.1-33.

7. Greg Koebel, Simulating the Ages of Man: Periodization in Civilization V and Europa Universalis IV, The Journal of the Canadian Game  Studies Association, Vol.10, No.17(2017), pp.60-76.

8. Nicolas de Zamaroczy, Are We What We Play? Global Politics in Historical Strategy Computer Games, International Studies Perspectives, Vol.18(2017), pp.155-174.

9. Soraya Murray, The Poetics of Form and the Politics of Identity in Assassin's Creed Ⅲ: Liberation, Kinephanos,Special Issue: Gender Issues in Video Games(July,2017), pp. 77-102.

10. Tom Van Nuenen, Touring the Animus: Assassin's Creed and Ludotopical Movement, The Journal of the Canadian Game Studies Association, Vol.10, No.17(2017), pp. 22-39.

11. Vinicius Marino Carvalho, Videogames as Tools for Social Science History, The Historian, Vol.79, No.4(Winter,2017), pp.794-819.

12. 高东旭:《网络游戏亟需重塑历史观》,《中国文艺评论》2017年第8期,第24-27页。

13. Adam Chapman, Anna Foka and Jonathan Westin, Introduction: What is Historical Game Studies? Rethinking History, Vol.21, No.3(2017),pp.358-371.

14. Emil Lundedal Hammar, Counter-Hegemonic Commemorative Play: Marginalized Pasts and the Politics of Memory in the Digital Game Assasin's Creed: Freedom Cry,  Rethinking History, Vol.21, No.3(2017),pp.372-395.

15. Johannes Koski, Reflections of  History: Representations of the Second World War in Valkyria Chronicles, Vol.21, No.3(2017), pp.396-414.

16. Tara Jane Copplestone, But That's Not Accurate: the Differing Perceptions of Accuracy in Cultural-Heritage Videogames between Creators, Consumers and Critics, Rethinking History, Vol.21, No.3(2017), pp.415-438.

2018

1. 赵天鹭:《“游戏史学”初探》,《中国公共史学集刊》2018年第一集,第78-104 页。

2. Cat Fergusson Baugh, Haptic Insights: Model Making as Historical Methodology, Theatre and Performance Design, Vol.4, No.1-2(2018),  pp.83-100.

3. Esther Wright, On the Promotional Context of Historical Video Games, Rethinking History, Vol.22, No.4(2018), pp.598-608.

4. J. McCall, Video Games as Participatory Public History, D. A. Dean, A  Companion to Public History, New Jersey: Wiley-Blackwell, 2018, pp.405-416.

5. Juan Francisco Jiménez and Alcázary Gerardo F. Rodriguez, eds., Videojuegos e Historia: Entre El Ocio y La Cultura, Murcia: Universidad de Murcia, 2018.

6. Marina Hassapopoulou, Playing with History: Collective Memory, National Trauma, and Dark Tourism in Virtual Reality Docugames, New Review of Film and Television Studies, Vol.16, No.4(2018), pp.365-392.

7. Marina Krcmar, Rory McGloin and Shu Scott Li, What is My Call of Duty?: Exploring the Importance of Player Experience in a First-Person  Shooter Video Game, Journal of Gaming & Virtual Worlds, Vol.10, No.2(Jun.,2018), pp.167-187.

8. Robert Houghton, World, Structure and Play: A Framework for Games as Historical Research Outputs, Tools, and Process, Práticas da História, No.7(2018), pp.11-43.

9. S. Harrer, Casual Empire: Video Games as Neocolonial Praxis, Open Library of Humanities, Vol.4, No.1(January,2018), pp.1-28.

10. Tom Apperley, Counterfactual Communities: Strategy Games, Paratexts and the Player's Experience of History, Open Library of Humanities, Vol.4, No.1(2018), https://olh.openlibhums.org/article/id/4472/.

2019

1. A. M. Wainwright, Virtual History: How Videogames Portray the Past, New York: Routledge, 2019.

2. A. Politopoulos, A. A. A. Boom, K. H. J. & C. E. Ariese, History is Our Playground: Action and Authenticity in Assassin's Creed Odyssey, Advances in  Archaeological Practice, Vol.7, No.3(2019), pp.317-323.

3. Holger Pötzsch and Vit Sisler, Playing Cultural Memory: Framing History in Call of Duty: Black Ops and Czechoslovakia 38-89: Assassination, Games and Culture, Vol.14, No.1(2019), pp.3-25.

4. James Andrew John Piggott, The Impact of Censorship on the “Historical” Video-Game, Reinvention: An International Journal of Undergraduate Research, Vol.12, No.2(2019), https://reinventionjournal.org/index.php/reinvention/article/view/360.

5. Jeffrey Lawler and Seean Smith, Creating a Playable History: Digital Games, Historical Skills and Learning, IDEAH, Vol.2, No.1(2019&2020).

6. Kirk Lundblade, How the West(was)Won: Unit Operations and Emergent Procedural Rhetorics of Colonialism in Europa Universalis IV, Journal of Gaming & Virtual Worlds, Vol.11, No.3(Oct.,2019), pp.251-270.

7. Lisa Gilbert, Assassin's Creed Reminds Us that History is Human Experience: Students' Senses of Empathy while Paying a Narrative Video Game, Theory & Research in  Social Education, Vol.47, No.1(2019), pp.119-128.

2020

1. Alexander von Lünen, Katherine J. Lewis, Benjamin Litherland and Pat Cullum, eds., Historia Ludens: the Playing Historian, London: Routledge, 2020.

Historia Ludens

Part 1: History of Gaming

Yannick Rochat, A Quantitative Study of Historical Video Games(1981-2015), pp.3-19.

Holly Nielsen, "The British Empire Would Gain New Strength from Nursery Floors": Depictions of Travel and Place in Nineteenth-Century British Board Games, pp.20-31.

Part 2: Gaming in History Education

Juan  Hiriart, Designing and Using Digital Games as Historical Learning Context for Primary School Classrooms, pp.37-53.

Katherine J. Lewis, Grand Theft Longboat: Using Video Games and Medievalism to Teach Medieval History, pp.54-70.

Alex Moseley, The Great History Conundrum: Could Immersive Games Enhance an Undergraduate Skills' Course?, pp.71-88.

Pat Cullum, Play as a Technique for History in Higher Education, pp.89-99.

Part 3: Computer Games and Public History

Luke Holmes, The Heritage Game, pp.105-118.

Robert Whitaker, Respawning the Past, pp.119-127.

Part 4: Reflections on Gaming and History

Adam Chapman, Playing Against the Past?: Representing the Play Element of Historical Cultures in Video Games, pp.133-154.

Andrew J. Salvati, Fantasies of Control:Modding for Ethnic Violence and Nazi Fetishism in Historical Strategy Games, pp.155-169.

Andrew B. R. Elliott, Charlemagne at the Battle of  Gettysburg: Video Games and the Middle Ages, pp.170-183.

Part 5: Fan Cultures of Historical Games

Nick Webber and E. Charlotte Stevens, History, Fandom, and Online Game Communities, pp.189-203.

Alexander von Lünen,  Ye Olde  FAQ: The Darklands Game, Immersiveness  and  Fan Fiction, pp.204-227.

Matt Barton and Arnold J. Hendrick, Arnold Hendrick on Darklands, pp.228-237.

Part 6: "Accuracy" in Computer Games

Lisa Traynor and Johathan Ferguson, Shooting for Accuracy: Historicity and   Video Gaming, pp.243-254.

Chris Kempshall, Modern Warfare: Call of Duty, Battlefield, and the World Wars, pp.255-266.

Eugen Pfister, "Man Spielt Nicht Mit Hakenkreuzen!": Imaginations of the Holocaust and Crimes Against Humantiy During World War II in Digital Games, pp.267-281.

2. Bryan Banker, Black Egyptians and White Greeks?: Historical Speculation and Rececraft in the Video Game Assassin's Creed: Origins, Humanities, Vol.9, No.4, https://www.mdpi.com/2076-0787/9/4/145.

3. Christian Rollinger, ed., Classical Antiquity in Video Games: Playing with the Ancient World, London: Bloomsbury Academic, 2020.

4.Clément Dussarps, Le Jeu Vidéo Médiateur de Savoirs En Histoire: L'exemple de Cru sader King 2 et Europa Universalis 4, Sciences Du Jeu, No.13(14 July,2020), https: //journals.openedition.org/sdj/2696.

5. Eugen Pfister, Martin Tschiggerl, "The Führer’s Facial Hair and Name can Also be Reinstated in the Virtual World": Taboos,Authenticity and the Second World War in Digital Game, Game, Vol.9(2020), pp.51-71.

6. Fede Penate Domínguez, Spanish Colonial Architecture as Selective Authenticity in Historical Digital Games, Culture & History, Vol.9, No.1(June,2020), https://cultureandhistory.revistas.csic.es/index.php/cultureandhistory/article/view/180/588.

7. Jaakko Suominen, Popular History: Historical Awareness of Digital Gaming in Finland from the 1980s to the 2010s, Proceedings of DiGRA 2020(2020), pp.1-14.

8. Jeremiah McCall, The Historical Problem Space Framework: Games as a Historical Medium, Game Studies: The International Journal of Computer Game Research,Vol.20,No.3(September,2020), https://gamestudies.org/2003/articles/mccall.

9. Kirk Lundblade, Civilizing Civilization(and beyond), FDG'20: Proceedings of the 15th International Conference on the Foundations of Digital Games, Bugibba, 2020, pp.1-9.

10. Martin Lorber and Felix Zimmermann, eds., History in Games - Contingencies of an Authentic Past, Bielefeld: Transcript, 2020.

Felix Zimmermann, Introduction: Approaching the Authenticites of Late Modernity, pp.9-21.

History as Told by the Game

Angela Schwarz, Quarry-Playground-Brand, Popular History in Video Games, pp.25-46.

Eugen Pfister, Why History in Digital Games Matters-Historical Authenticity as a Language for Ideological Myths, pp.47-72.

Nico Nolden, Social Practices of History in Digital Possibility Spaces: Historicity, Mediality, Performativity, Authenticity, pp.73-92.

Rüdiger Brandis, Tracing the Past with Digital Games: Historical Procedural Rhetorics, pp.93-115.

Authenticity in and of History

Angela Schwarz, History in Video Games and the Craze for the Authentic, pp.117-136.

Andrew B. R., Eliott & Mike Horswell, Crusading Icons: Medievalism and  Authenticity in Historical Digital Games, pp.137-156.

Andra Ivanescu, The Auteur and the 80s Mixtape: Popular Music and Authenticity in Metal Gear Solid V: The Phantom Pain, pp.157-178.

Lara Keilbart, Queer Authenticity in the History of Games: Experiences of Knowing, Performing and Portraying Queerness in Games throughout the Last Four Decades, pp.179-197.

The Politics of Authenticity

Aurelia Brandenburg, "If It's a Fantasy World,Why Bother Trying to Make It Realistic?" Constructing and Debating the Middle Ages of The Witcher 3: Wild Hunt, pp.201-220.

Tobias Winnerling, How to Get Away with Colonialism: Two Decades of Discussing the Anno Series, pp.221-236.

Angus A. A., Mol, Toying with History: Counterplay, Counterfactuals, and the Control of the Past, pp.237-258.

Jörg Friedrich, You Do Have Responsibility! How Games Trivialize Fascism, Why This Should Concern Us and How We could Change It, pp.259-273.

11. Samuel McCready, Re-Thinking History Teaching: Historical Making and   Learning in Digital Culture, Proceedings of DiGRA 2020(2020).

12. Regina Seiwald, Play Ameica Great Again: Manifestations of Americanness in Cold War Themed Video Games, Gamevironments, Vol.13(2020), pp.223-256.

13. Ruth Garcia Martín, Begona Cadinanos Martinez and Pablo Martín Dominguez, The Face of Authority through Sid Meier's Civilization Series, Gamevironments, Vol.13(2020), pp.139-173.

14. 王昊:《历史、现在与未来:数字游戏档案的社会记忆功能——以Sid  Meier's  Civilization 为例》,《兰台世界》2020年第4期,第24-29页。

15. A. Denning, Deep Play? Video Games and the Historical Imaginary, AHR, Vol.126, No.1 (March,2021), pp.180-198.

2021

1. A. Hartman, R. Tulloch and H. Young, Video Games as Public History: Archives, Empathy and Affinity, Game Studies, Vol.21, No.4(December,2021), https://gamestudies.org/2104/articles/hartman_tulloch_young.

2. A. Spanos, Games of History: Games and Games as Historical Sources, London: Routledge, 2021.

3. Alexander Simons, Isabell Wohlgenannt, Markus Weinmann and Stefan Fleischer, Good Gamers, Good Managers? A Proof-of-Concept Study with Sid-Meier's Civilization, Review of Managerial Science, Vol.15(2021), pp.957-990.

4. Alyssa Goldstein Sepinwall, Slave Revolt on Screen: The Haitian Revolution in Film and Video Games, University Press of Mississippi, 2021.

5. Andrew P. Young, The Limits of Memory in Disavowed: Interference, Military Execution, and the Dishonored Dead, Games and Culture, Vol.16, No.7(2021), pp.932-946.

6. Angus Mol and Aris Politopoulos, Persia's Victory, Near Eastern Archaeology, Vol.84, No. 1(March,2021), pp.44-51.

7. Aris Politopoulos and Angus Mol, Video Games as Concepts and Experiences of the Past, Erik Malcolm Champion, ed., Virtual Heritage: A Guide, Ubiquity Press, 2021.

8. Christian Casey, Assassin's Creed Origins, Near Eastern Archaeology, Vol.84, No.1 (March,2021), pp.71-78.

9. C. P. Magra, Review of Assassin's Creed IV: Black Flag, AHR, 126.1.2021。

10. Eve Stirling, Actual History Doesn't Take Place: Digital Gaming, Accracy and Authenticity, Game Studies, Vol.21, No.1.

11. Felipe Augusto Ribeiro, Uma Teoria Digital Do Feudalismo: Dinastia, Poder, Vassalagem e Estado no Game Crusader Kings(2012-2020), Medievalia, Vol.53, No.1(19 May,2021), pp.191-219.

12. J. Bazile, Review of Assassin's Creed: Freedom Cry, The American Historical Review, Vol.126, Issue1, 2021, pp.217-219.

13. Jakub Sindelar, "Video-Gamers as Recipients and Creators of Public History: Let’s Play Videos as Public History", Joanna Wojdon and Dorota Wisniewska, eds., Public in Public History, New York and London: Routledge, 2022, pp.180-198.

14. John Herman, A Review of Assassin's Creed: Valhalla's Sensationalized History, Gamevironments, Vol.14(2021), pp.257-262.

15. John Majewski, What Do Players Learn  from Video Games? Historical  Analysis and Sid Meier's Civilization, The Public Historian, Vol.43, No.1(2021), pp.62-81.

16. Robert Houghton,If You're Going to be the King,You'd Better Damn Well  Act Like the King, Karl Alvestad and Robert Houghton, The Middle Ages in Modern Culture: History and Authenticity in Contemporary  Medievalism, I. B. Tauris, 2021, pp.186-210.

17. K. Lundblade, Crowning Achievements: A Historioludic Analysis of the   Achievement Metagame in Historical Simulation Games, Proceedings of the 16ᵗ International Conference on the Foundations of Digital Games, 2021.

18. L. NA, Playing the Past: Historical Video Games as Participatory Public History in China, Convergence, Vol.27, Issue3, 2021, pp.746-767.

19. M. D. Hattem, Review of Assassin's Creed III, The American Historical Review, Vol.126, Issue1, 2021, pp.214-216.

20. M. Steenbakker, A Power Shrouded in Petticoats and Lace: The Representation of Gender Roles in Assassin's Creed Ⅲ: Liberation, New Horizons in English Studies, Vol.6, No.1(2021), pp.92-110.

21. Matthew Winter, Beyond Tomb and Relic, Near Eastern Archaeology, Vol.84, No.1 (March,2021), pp.12-21.

22. Megan Ward, Ghosts, Spooks, and Martyrs: Historical Hauntings in Tom Clancy's Ghost Recon Wildlands, Gamevironments, Vol.14 (2021), pp.85-118.

23. Na Li, Playing the Past: Historical Video Games as Participatory Public History in China, Convergence: The International Journal of Research into New Media Technologies, Vol.27, No.3(2021), pp.746-767.

24. Perrine Poiron, Assassin's Creed Origins Discovery Tour, Near Eastern Archaeology, Vol.84, No.1(March,2021), pp.79-85.

25. R. Clare, Ancient Greece and Rome in Videogames: Representation, Play, Transmedia, London: Bloomsbury Academic, 2021.

26. R. Fordyce, Play, History and Politics: Conceiving Futures beyond Empire, Games and Culture, Vol.16, No.3(2021), pp.294-304.

27. R. Loban, Europa Universalis IV and Deep Learning Historical Accuracy, Counterfactual Themes, The Journal of Canadian Game Studies  Association, Vol.14, No.24(2021), pp.26-47.

28. Rhett Loban, Europa Universalis IV and Deep Learning: Historical Accuracy, Counterfactuals and Historical Themes, The Journal of the  Canadian Game Studies Association, Vol.14, No.24(2021), pp.26-47.

29. Robert Houghton, ed., Playing the Crusades, London: Routledge,2021.

Playing the Crusades

Robert Houghton, Introduction:Crusaders and Crusaing in Modern Games, pp.1-11.

Roland Wenkus, A Sacred Task, No Cross Required: the Image of Crusading in Computer Gaming-Related Non-Christian Science Fiction Universes, pp.12-29.

Katherine J. Lewis, I’m not Responsible for the Man You are!: Crusading and Masculinities in Dante's  Inferno, pp.30-52.

Oana-Alexandra Chirila, Show This Fool Knight What It is to Have No Fear: Freedom and Oppression in Assasin's Creeed (2007), pp.53-70.

Robert Houghton, Crusader Kings Too? (Mis) Representations of the Crusaders in Grand Strategy Games, pp.71-92.

Andreas Korber, Johannes Meyer-Hamme, and Robert Houghton, Learning    to Think Historically: Some Theoretical Challenges when Playing the Crusaders, pp.93-110.

30. Robert Houghton, History Games for Boys? Gender, Genre and the Self-Perceived Impact of Historical Games on Undergraduate Historians, Gamevironments, Vol.14(2021), pp.1-49.

31. Samuel Calvin Paul McCready, Playing and Making History: How Game Design and Gameplay Afford Opportunities for a Critical Engagement with the Past, Graduate Program in Communication and Culture, York University, 2021.

32. Souvik Mukherjee, Crab-Rangoons in Kyrat: (Re)Writing South-Asian History in Far Cry 4, Games and Culture, Vol.16, No.8(2021), pp.1065-1086.

33. Tine Rassalle, Archaeogaming, Near Eastern Archaeology, Vol.84, No.1(March,2021), pp.4-11.

34. Video Games Reviews: Introductions, The American Historical Review, Vol.126, Issue1, 2021, p.214.

35. Ylva Grufstedt, Counterfactual History and Game Design Practice in Digital Strategy Games, Ennen Ja Nyt: Historian Tietosanomat, No.2(2021), pp.86-91.

2022

1. Andrés Bijsterveld Munoz, National Identity in Historical Video Games: An Analysis of How Civilization V Represents the Past, Nations and Nationalism, Vol.28, No.4(Oct.,2022), pp.1311-1325.

2. C. HOgsbjerg, Review of Alyssa Goldstein Sepinwall, Slave Revolt on Screen: the Haitian Revolution in Film and Video Games, The American Historical Review, Vol.127, Issue.3, 2022, pp.1503-1504.

3. Claire Stocks and Barbara Birley, Gaming and Hadrian's Wall: A Future of Digital Possibilities, Marta Albeti and Katie Mountain, eds., Hadrian's Wall: Exploring Its Past  to Protect Its Future, Oxford: Archaeopress, 2022, pp.92-99.

4. Olaf Kühne, Representations of Landscape in the Strategy Game Civilization Dennis Edler, Olaf Kühne and Corinna Jenal, eds., The Social Construction of Landscapes in Europe Games, Wiesbaden: Springer VS, 2022, pp.261-272.

5. Dmitriy A.Belyaev & Ulyana P. Belyaeva, Historical Video Games in the Context of Public History: Strategies for Reconstruction, Deconstruction and Politization of History, Galactica Media: Journal of Media Studies, Vol.1(2022), pp.51-70.

6. Estrid Sorensen and Jan Schank, Categorizations of World War II in Videogames, Eludamos, Journal for Computer Game Culture, Vol.13, No.1(2022), pp.81-110.

7. F. Jankowski, Playing(Against) the Heritage: Absolutism and the French Revolution in French Digital Games before 2000, Games and Culture, Vol.17, No.6(2022), pp.843-854.

8. Ian Williams and Samuel Tobin, The Practice of Oldhammer: Re-Membering a Past Through Craft and Play, Games and Culture, Vol.17, No.4(2022), pp.576-592.

9. Jacob Mertens, Broken Games and the Perpetual Update Culture: Revising Failure with Ubisoft's Assassin's Creed Unity, Games and Culture, Vol.17, No.1(2022), pp.70-88.

10. Jacqueline Burgess and Christian Jones, Exploring Player Understandings of Historical Accuracy and Historical Authenticity in Video Games, Games and Culture, Vol.17, No.5(2022), pp.816-835.

11. James Coltrain, Historians and Video Games: How the Profession Can Better Engage in Play, The Journal of American History, Jeremiah McCall, Gaming the Past: Using Video Games to Teach Secondary History, New York: Routledge, 2022.

12. Joanna Kaniewska, The Moon, the Play and the End of History: A Study of   Lunar Temporality in Cyberpunk 2077, Journal of Gaming & Virtual Worlds, Vol.14, Issue Cyberpunk 2077(Apr.,2022), pp.7-25.

13. Jorn Weines, Exploring Fishery History in Game Form: "Never Again April 18!", Rethinking History, Vol.26, No.1(2022), pp.1-31.

14. Lawrence May, Virtual Heterotopias and the Contested Histories of Kowloon Walled City, Games and Culture, Vol.17, No.6(2022), pp.885-900.

15. Nico Nolden and Eugen Pfister, Gaming and Digital Public History, Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin: De Gruyter,  2022, pp.309-316.

16. Jere Kyyrö, "Particulariying the Universal: Medievalist Constructions of Cultural and Religious Difference in Crusader Kings II", Reima Välimäki, ed., Medievalism in Finland and Russia: Twentieth and Twenty-First Century Aspects, London: Bloomsbury Academic, 2022, pp.137-151.

17. David Dean, "Living History: Performing the Past", Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin/Boston: Walter de Gruyter, 2022, pp.349-358.

18. Yannick Rochat, "History and Video Games, Serge Noiret", Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin/Boston: Walter de Gruyter, 2022, pp.475-484.

19. Siyu Yao and Yumin Chen, Reconstructing History and Culture in Game Discourse: A Linguistic Analysis of Heroic Stories in Honor of Kings, Games and Culture, Vol.17, No.7-8(2022), pp.977-996.

20. Souvik Mukherjee, Pathfinding Affect: Reading Maps, Bodies and the Affective in Colonial Videogames, Parallax, Vol.28, No.2(2022), pp.166-178.

21. Yannick Rochat, "History and Games", Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of  Digital Public History, Berlin: De Gruyter, 2022, pp.475-484.

22. Ylvq Grufstedt, Shaping the Past: Counterfactual History and Game Design Practice in Digital Strategy Games, Berlin: De Gruyter, 2022.

23. Games with History(特刊), Heritage,and Provocation, Games and Culture, Vol.17, Issue 6, 2022.

24. Adam F. Bierstedt, Livestreaming History: The Streamer-Historian and Historical Games Outreach, Games and Culture, Vol.17, No.6(September,2022), pp.871-884.

25. Filip Jankowski, Playing(Against) the Heritage: Absolutism and the French Revolution in French Digital Revolution in French Digital Games Before 2000, Games and Culture, Vol.17, No.6(September,2022), pp.846-854.

26. Julien A. Bazile, An “Alternative to the Pen”? Perspectives for the Design of Historiographical Videogames, Games and Culture, Vol.17, No.6(September,2022), pp. 855-870.

27. Lawrence May, Virtual Heterotopias and the Contested Histories of  Kowloon Walled City, Games and Culture, Vol.17, No.6(September,2022), pp.885-900.

28. M. Mochocki, Editorial: Games with History, Heritage, and Provocation, Games and Culture, Vol.17, No.6(September,2022), pp.839-842.

29. Rhett Loban, I Never Asked for It, But I Got It and Now I Feel that My Knowled ge about History is Even Greater!: Play, Encounter and Research in Europa Universalis IV, Journal of Games Criticism, Vol.5, No.1(2022), https://gamescriticism.org/wp -content/uploads/2023/07/loban-5-3.pdf.

30. Richard Cole, Mashing Up History and Heritage in Assasin's Creed Odyssey, Games and Culture, Vol.17, No.6(September,2022), pp.915-928.

31. Vít Šisler, Holger Pötzsch, Tereza Hannemann, Jaroslav Cuhra and Jaroslav Pinkas, History, Heritage, and Memory in Video Games: Approaching the Past in Svoboda 1945: Liberation and Train to Sachsenhausen, Games and Culture, Vol.17, No.6(September,2022), pp. 901-914.

2023

1. Andrei Zanescu, Making Antiquity Resonate in Assassin's Creed: Origins,Odyssey & Articulated Resonance, Proceedings of DiGRA2023(2023).

2. Brian T. Erickson, Playing with the Past: The Importance of Historical Video Games for the Field of History, Master of Arts in History, University of Houston, 2023.

3. Iain Donald, Nick Webber and Esther Wright, Video Games, Historical Representation and Soft Power, Journal of Gaming & Virtual Worlds, Vol.15, Issue China and the World: Navigating Video Game Localization and Copyright Challenges(Jun.,2023), pp.105-127.

4. Katrina HB Keefer, Becoming Bayek: Blackness, Egypt, and Identity in Assassin's Creed: Origins, Games and Culture, Vol.18, No.7(Nov.,2023), pp.940-958.

5. Krista Bonello Rutter Giappone, Stefano Caselli, Local Practices in Digital Gaming Heritage: An Interview with Maurizio Banavage and Andrea Dresseno, Journal of Games Criticism, Vol.5, No.1(April,2023), https://gamescriticism.org/wp-content/uploads/ 2023/07/giappone-caselli-5-1.pdf.

6. Nick Webber, The Past as (Para)text-Relating Histories of Game Experience to Games as Texts, Proceedings of DiGRA 2023(2023).

7. Robert Houghton, ed., Playing the Middle Ages: Pitfalls and Potential in Modern Games, London and New York and Oxford and New Delhi and Sydney: Bloomsbury Academy, 2023.

Playing the Middle Ages cover

Robert Houghton, The Middle Ages in Modern Games: An Adolescent Field, pp.1-28.

Ylva Grufstedt, Unbending Medievalisms-Finding Counterfactual History in Sandbox Games Set in the Middle Ages, pp.29-50.

Mariana Lopez, Playing the Sonic Past: Reflections on Sound in Medieval-Themed Video Games, pp.51-74.

Karen M. Cook, Medieval Sounds, Sounding Medieval, pp.75-88.

Gordon Smith, All on Board for the Crusades, pp.89-102.

Liam McLeod, Subverting the Valiant Crusader:The Sarafan in the Legacy of Kain:Soul Reaver Series, pp.103-130.

Adam Bierstedt, Making Friendships, Breaking Friendships: Exploring Viking-Age Social Roles through Player Strategy in A Feast for Odin, pp.130-148.

Robert Houghton, Abandoning Civilization: Medieval Rulership in Crusader Kings I, Reigns and Mount & Blade: Warband, pp.149-166.

Jonathan Bloch, Joan of Arc, the Meme of Orleans: The Playful Liberties Taken with History by the Age of Empires I Gaming Community, pp.167-182.

Neil Nagwekar, On the Postcolonial Analysis of "Indians" in Age of Empires II: A Theory of “Ethical Programs” Behind Postcolonial Criticisms of Video Games, pp.183-194.

Johansen Quijano, Virtually(de) Colonized: Racial Identity and Colonialism in the Middle Ages and as Depicted in Kingdom Come: Deliverance, A Plague Tale: Innocence, The Elder Scrolls, and Black Desert Online, pp.195-210.

Eldegard Minderbo, Representations of Medieval Gender Archetypes in Fantasy Role-Playing Games, pp.211-226.

Patrick Butler, Ashen, Hollow, Cursed: Fragile Knighthood in the Dark Souls Series and Its Medieval Antecedents, pp.227-244.

Blair Apgar, Matilda of Canossa and Crusader Kings II: (Papal) Warrior Princess, pp.245-264.

8. Stefano Caselli, Krista Bonello Rutter Giappone, Tomasz Z.Majkowski, Ten Years of Historical Game Studies, Game, Vol.10(2023), pp.29-50.

9. Tara Sewell-Lasater, Eternally Maglined as the Power-Hungry Femme Fatale: Kleopatra VII in Assasin's Creed Origins and Other Video Games, Abraham I, Fernández Pichel, ed., How Pharaohs Became Media Stars: Ancient Egypt and Popular Culture, Oxford: Archaeopress Publishing, 2023, pp.185-204.

2024

1. 卢雅怀:《历史游戏研究: 作为数字史学发展新方向》,《数字人文研究》2024年第2期,第3-26页。

2. Benjamin Hanussek, Ubisoft's Notre-Dame: Digital Gaming for Material Heritage's Sake, The Journal of the Canadian  Game Studies Association, Vol.16, No.26(Spring, 2024), pp.1-15.

3. D. Reid, Game Development as Public History: Practical Reflections on Making a Video Game for Historical Public Engagement, The Public Historian, Vol.46, No.1(2024), pp.74-107.

4. Conor Heffernan, It's in the Game: FIFA Videogames and the Misuse of History, Sport in History, Vol.44, No.4(2024), pp.590-611.

5. Dragos M. Obreja, She was Using Bayek for Sex: Hegemonic Feminity  and the Identity Play in Assasin's Creed Origins, Feminist Media Studies, Latest Articles(2024), pp.1-15.

6. Kirk M Lundblade, Gods, Kings, and Historians: History and the Dual Diegesis of Crusader Kings in the Assemblage of Play, Proceedings of DiGRA2024(2024).

7. Hanjun Shi, Game as History: How Does Pentiment Recreate a Vivid Sixteenth-Century Central European Everyday Life?, Proceedings of DiGRA2024(2024).

8. Michal Dawid Zmuda, Historizing Remediation: How Games Represent History through Media, Rethinking History, Vol.28, No.1(2024), pp.130-153.

9. Nicholas David Bowman, Alexander Vandewalle, Rowan Daneels, Yoon Lee, and Siyang Chen, Animating a Plausible Past: Perceived Realism and   Sense of Place Influence Entertainment of and Tourism Intentions From Historical Video Games, Games and Culture, Vol.19, No.3(2024), pp.286-308.

10. Robert Houghton, The Middle Ages in Computer Games: Ludic Approaches to the Medieval and Medievalism, Cambridge: D. S. Brewer, 2024.

11. Ömer Kemal Buhari, Dates, Carpets, and Pearl Necklaces: The Case of Anno  1404s Exotic Orientalism, Games and Culture, Vol.19, No.2(2024), pp.139-157.

12. Pieter J. B. J. Van den Heede, Replaying Wartime Résistence? Studying Ludic Memory-Making in the Open World Game The Saboteur, Games and Culture, Vol.19, No.2 (2024), pp.178-198.

2025

1. Bard Swallow, High Fantasy RPGs and the Materiality of the Medieval Book, Games and Culture, Vol.20, No.5(2025), pp.657-668.

2. Cahit Mete Oguz, The Byzantine Army in Video Games: Common Misconceptions Shaping Popular Perceptions, Gamevironments, Vol.23(2025), pp.1-36.

3. Christopher McMahon, Nerfing My Religion: A Cognitive Mapping of Faiths in Crusader Kings II and Europa Universalis IV, Gamevironments, Vol.22(2025), pp.22-57.

4. Li Na, The Specter of the Virtual: Historical Video Games as Complex Public History, Digital Scholarship in the Humanities (2025).

5. Mauro Mola, Playing World War II: Designing a Simulation Game on the Resistance in Turin in Collaboration with the Historical Archive, Proceedings of DiGRA 2025.

6. Robon Scarassati Bello, The Problem of Memory in the Assassin's Creed Series(2007-2020), Games and Culture, Vol.20, No.3(2025), pp.298-315.

7. Stefania Matei, The Technological Mediation of Collective Memory  Through Historical Video Games, Games and Culture, Vol.20, No.4(2025), pp.477-498.

8. 梁亦昆:《游戏如何讲述历史?数字游戏中的历史演进与现实映射》,《学习与实践》2025年第3期,第131-139页。

9. 梁亦昆:《数字游戏的历史观问题需引起关注》,《历史评论》2025年第3期,第109-110页。

10. 欧阳敏:《历史模拟类电子游戏如何构建玩家的文化记忆》,《数字出版研究》2025 年第4期,第110-120页。

11. 庞昊:《历史游戏<文明7>与三阶段的人类文明史分期》,《数字人文研究》2025年第2期,第16-30页。

12. 许伟旭:《跨媒介·游戏化·历史寓言:<唐探1990>的新主流电影工业美学实践》, 《视听》2025年第19期,第64-68页。

13. 郑汉、石浩铮、肖谦、刘家豪:《从历史再现到数字共鸣:文化遗产元素在游戏中的传播机制研究》,《全球传媒学刊》2025年第5期,第54~71页。

2026

1. Lina Eklund and Andrei Zanescu, Times They Are A-Changin'? Evolving Representations of Women in Assassin's Creed Franchise, Games and Culture, Vol.21, No.2(2026), pp.192-212.

2. Jessica Iolanda Costa Bispo, A Contemporary Take on Victorian Lunacy: Representati ons of the Asylum in the Neo-Victorian Video Game Alice: Madness Returns, Journal of Games Criticism, Vol.6, No.1(2026), https://gamescriticism.org/wp-content/upload s/2025/11/bispo-6-1.pdf.

3. 曹文婧:《以图为媒:UGC游戏地图对重大历史事件的记忆建构》,《传媒论坛》2026年第2期,第25-27页。

图片

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

摘要征集5月10日截止|“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)会议通知(第二号)

2026年5月2日 12:12

2026-05-02 12:12 北京

该会议预告转自揆古察今科史哲公众号时间:2026年7月31日-8月3日地点:内蒙古师范大学 当前,人工智

该会议预告转自揆古察今科史哲公众号

时间:2026年7月31日-8月3日

地点:内蒙古师范大学

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

一、 会议议题

包括但不限于:

1.典籍重光:科技古籍与多民族文献的智慧化整理

2.时空重构:GIS与时空大数据驱动的文明演进研究

3.协智重塑:多智能体与具身智能的人文社会仿真

4.谱系重绘:知识图谱与智能注释驱动的知识重组

5.记忆重述:AIGC赋能下的文化遗产与艺术创新

6.文脉重析:计量方法与主题模型的文本深度挖掘

7.伦理重思:数字人文中的算法批判与负责任创新

8.素养重育:数字人文课程体系与跨学科人才培养

9.数字人文学科建设

二、 会议信息

1.会议时间:

2026年7月31日至2026年8月3日

2.会议地点:

内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

3.会议注册:

本次会议将于2026年6月开放注册报名。

注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

三、 征文征集

1.会议征文对象为数字人文相关专业的专家、学者与在读学生。

2.论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3.征文分为两轮,第一轮为论文摘要和海报征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

(2)海报需以PPT格式制作,页面设置为90cm*120cm,纵向布局。

(3)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

4.组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5.论文提交邮箱:20250051@imnu.edu.cn。邮件标题格式为“CDH2026论文摘要/全文-姓名-单位”。

6.摘要提交截止时间:2026年5月10日

摘要录用通知时间:2026年5月30日

论文全文提交截止时间:2026年6月30日

四、 项目征集

1.本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2.所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3.请将报名表和相关附件压缩,以“CDH2026项目-项目名称”命名,发送至邮箱20250051@imnu.edu.cn。

4.项目征集截止时间:2026年5月30日

五、 会议组织

1.主办单位

中国索引学会

内蒙古师范大学

2.承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

3.协办单位(按笔画顺序排列)

IMR Press

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海财经大学“中文+数智经济”研究中心

上海财经大学国际文化交流学院

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

山西数字人文研究院

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

中山大学信息管理学院

中山大学数字人文实验室

中山大学数字人文联合研究院

中国人民大学数字人文研究院

中国社会科学院大学数字史学研究中心

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

东华大学纺织遗产与数字人文实验室

北京大学数字人文研究中心

北京师范大学文理学院中文系

北京师范大学珠海校区图书馆数字人文中心

电子科技大学数字文化与传媒研究中心

兰州理工大学文学院

华中科技大学汉籍数字化实验室

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

启元实验室战略研究中心

武汉大学文化遗产智能实验室

武汉大学数字人文研究中心

南京大学中华文明数智创新实验室

南京大学高研院数字人文创研中心

南京师范大学语言大数据与计算人文研究中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

首都师范大学初等教育学院

清华大学中国古典文献研究中心

淮阴师范学院文学院

湖北中医药大学医学人文学院

湖南女子学院文学与传播学院

(持续更新中)

4.媒体支持(按笔画顺序排列)

《Knowledge Organization》

《中国数字人文》

《古籍数字人文》

《全国报刊索引》

《南通大学学报(社会科学版)》

《信息与管理研究》

《烟台大学学报(哲学社会科学版)》

《数字人文》

《数字人文研究》

「DH数字人文」公众号

「DH数字人文动态」公众号

「IMR 图书情报学」公众号

「SHNU 数字人文」公众号

「三明学院学报」公众号

「山东大学」公众号

「广东省国学学会」公众号

「比特人文」公众号

「中国索引学会」公众号

「古代汉语信息处理」公众号

「立行数字人文」公众号

「全国报刊索引」公众号

「京狮人文DH」公众号

「科技古籍整理研究所」公众号

「域外汉籍与汉学研究」公众号

「揆古察今科史哲」公众号

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

AI & Innovation (《人工智能与创新》)

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

广东财经大学《智能高教》

社科大数字史学实验室

南京大学中华文明数智创新实验室

(持续更新中)

有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

图片

六、 会议联络

1.会议邮箱:20250051@imnu.edu.cn

2.会务咨询:周老师 13191432051/18852850582(微信同号)

附件

2026年中国数字人文年会项目报名表

CDH2026论文格式规范与要求

阅读原文

跳转微信打开

从探听“修辞回声”走向数字文学史——以定量分析松尾芭蕉在日本近代的接受为例

2026年4月24日 09:01

原创 日比嘉高、江晖 2026-04-24 09:01 北京

数字人文; 接受研究; 松尾芭蕉; 近代俳句; 正冈子规

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:日比嘉高,江晖从探听“修辞回声”走向数字文学史——  以定量分析松尾芭蕉在日本近代的接受为例[J].数字人文研究,2025,5(4):99-117.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

从探听“修辞回声”走向数字文学史

——以定量分析松尾芭蕉在日本近代的接受为例

摘 要  研究旨在通过对近代俳句中松尾芭蕉的接受情况进行定量分析,探索数字人文方法在文学史研究中的潜力。利用日本国立国会图书馆的数字收藏,统计了明治至昭和战前期间文献中芭蕉俳句的引用频率,并运用Jaccard系数对明治、大正、昭和战前期的大规模俳句集进行了相似性分析。研究发现,随着时代变迁,芭蕉对俳句的影响逐渐降低,而以芭蕉批评者著称的正冈子规的俳句却比明治时期一般俳句更接近芭蕉的风格。可见计算机定量分析能够捕捉人类难以察觉的表达差异,提取出人类和时代的“无意识修辞”。数字人文方法能够揭示传统研究难以触及的深层规律,为“数字文学史”的构建提供新路径。

关键词   数字人文;接受研究;松尾芭蕉;近代俳句;正冈子规

作者简介   日比嘉高,名古屋大学人文学研究科教授;江晖(译者,通讯作者),中山大学外国语学院副教授,Email:jianghui6@mail.sysu.edu.cn。

0  文学作品接受研究中的定性研究和定量研究

数字人文(Digital Humanities)是否能够为文学的接受研究带来革新?如今,全世界每天都在产生海量的数据,其中包含大量与文学相关的内容。有面向业余创作者的小说投稿网站、有与短诗形式文艺相关的线上活动,还有像X(原推特)、微博、脸书等社交网络服务。此外,各类博客平台也在以多种形式持续产出文学作品的创作、评论和读者的感想。不仅如此,过去的文学作品以及与文学相关的各类资料正在快速地从纸质媒介向数字数据转移。例如,日本国立国会图书馆的数字收藏中包含了253万本图书(网络公开37万件)、140万册杂志(公开2万件)和32万篇博士论文(公开1.2万件)等数据。如果使用该图书馆的“下一代数字图书馆”,其中已过版权保护期、被标记为“网络公开”且被归类为“保护期限届满”的约29万件数据,用户可以获得文本的全文数据。就与日本文学相关情况而言,国文学研究资料馆一直在推进古典文学相关文献的数字典藏项目,通过其运营的“国书数据库”,用户“可以一次性检索和使用国内外众多机构和国文学研究资料馆收藏的古籍(即江户时代以前的书籍)等资料的书目信息以及部分高清图像”,据悉该网站在2025年3月公开的原始图像已超过30万张。

如此产生的海量数字化资料群,构建了一个由电子数据组成的文学话语空间,它与人们在数字空间和在物质空间的活动复杂地交织在一起,共同塑造了当代文学的生态系统。本文认为在文学的接受研究领域,数字人文式的方法同样有效。人们在创作、交流和享受文学作品时所留下的痕迹,不仅留存于纸张等物理媒介中,也大量保存在电子资料里。我们已经进入了一个新的时代,可以通过数字数据来探究某部作品是如何被阅读,以及从中获得的文学创意、词汇及修辞等遗产又是如何传承给下一代的。

文学接受研究——探讨既有的文学作品及其创作者如何被后继的读者和创作者所接受——这一领域拥有丰富的研究历史。回顾其理论框架,大致可以分为两大体系:一类是关注读者阅读行为的读者反应论体系,另一类是关注读者群体及其解释框架的接受论体系。关于前者,沃尔夫冈·伊瑟尔(Wolfgang Iser)在著作《阅读行为》中使用“空白(blank)”和“空缺(gap)”等术语论述了阅读行为的本质并在全球产生了深远影响;提出“作者之死”并强调读者能动性的罗兰·巴特(Roland Barthes)或许也可归入此类。在文化研究理论中,斯图亚特·霍尔(Stuart Hall)的编码/解码模型是广为人知的。

在关注阅读群体及其解释框架的接受论研究者中,汉斯·罗伯特·姚斯(Hans Robert Jauss)无疑是一位杰出代表。他在著作《文学史作为向文学理论的挑战》中提出了“期待视野”(Horizon of Expectations)这一概念,探讨了某一时代的读者对文学作品的理解范式是如何被更新的。该理论在数字人文时代依然具有丰富的启示意义。在当今时代,评论家与读者的感想通过网络媒体及社交平台等途径被大量生成并留存。数字时代的接受研究正是借助这一类新型资料,获得了重构“期待视野”的线索。关于“期待视野”的理论前景,本文将在结论部分再做探讨。

关于读者共同体的分析,斯坦利·费什(Stanley Fish)提出的“阐释共同体”(Interpretive Communities)概念,可定义为共享特定阐释框架的群体。这个观点认为文本的意义并非内在于文本本身,而是由读者所持有的理解框架生成的,就这一点而言与上述的读者反应论在问题意识上是相通的。

这些关于读者反应论或接受论的著名研究,虽然都诞生于纸质资料的时代,但随着互联网的出现,它们也与讨论数字空间中阅读行为的研究成果产生了关联。在这一领域的早期成果中,大卫·博尔特(David Bolter)的《写作空间》(Writing Space)值得一提。该书出版于1991年,是探讨超文本时代表达方式和读者参与方式转变的开创性著作。此外,尽管与接受研究略有不同,霍伊特·朗(Hoyt Long)和理查德·J·索(Richard J. So)的论文使用机器学习对比了英译俳句和英语原创俳句的风格、特征和形式,是在数字人文与文学研究的交汇点上进行的俳句研究和翻译研究的新尝试。

然而,在博尔特的时代尚未出现大量的文学电子资料。可如今,博尔特所讨论的那些通过超链接连接起来的以及由公共或私人档案库收藏的正在等待读者访问的巨大数据空间,在世界文学环境中占据了重要的地位。这些数据的积累如何应用于文学的接受研究,正是本文想要关注的问题。若参照前文提出的两种分类,即“聚焦阅读行为的读者反应理论”与“关注阅读共同体的接受理论”,本研究当归于后者——接受理论的学术谱系。

1  俳句的接受研究与本研究的意义

需要说明的是,本次研究的目的也并非要描绘出其全貌,我们分析的对象仅限于日本近代俳句集的文本数据,根据日本著作权法,这些作品已过版权保护期。本文将探讨江户时期俳人松尾芭蕉的作品在近代言论空间以及近代俳句中的接受情况。数字人文对文本资料的定量分析能在俳句的接受研究中发挥怎样的作用呢?

在此之前,有必要确认一下既有研究是如何进行相关讨论的。活跃于17世纪后半叶的松尾芭蕉是日本文学史上最著名的俳句诗人,其影响力一直延续至今。当然,相关研究也颇为丰富。由于审视其全貌超出了本文的能力范围,在这里仅对主要成果进行概述,尤其是与本文后半部分涉及的正冈子规相关的内容。关于近代对松尾芭蕉的接受,研究成果众多,早先有山下一海和大野林火的论述,近年黄慧君的论文以“古池”一句为例探讨了大正时期对芭蕉的评价。除俳句诗人对芭蕉的接受以外,久保田晴次有两部重要的成果还考察了小说家们的看法。

关于近代俳句诗人个人对芭蕉的接受研究,可以以正冈子规为例。他是明治时期俳句革命运动的推动者,不仅在俳句创作有所建树,还经常发表评论并创办杂志《杜鹃》(『ホトトギス』),是近代俳句史上划时代的人物。并且他本人也多次论及芭蕉,相关研究十分丰富。早在战前,宫本三郎就出版了《子规在芭蕉批评史中的地位》,复本一郎也有相关著作。简而言之,在关于二者关系的讨论中,有的分析了子规对芭蕉的“理解”或“评论”,有的则追踪了除二者之外的谱系,还有的比较了二人的俳句作品,方法多种多样。但是关键在于,许多评论和研究中都存在一种共通的论述“模式”,即使用“继承—革新”“接受—排斥”“影响—创造(进化)”等词语去描述他们之间的继承关系,或者是作为其变体的反叛亦或是创新的轨迹

这些接受研究中所体现的“模式”与哈罗德·布鲁姆(Harold Bloom)提出的“影响”问题不无关联。布鲁姆指出,英国浪漫派诗人在阅读前人作品时,虽然从中获得了文学上的刺激,但同时也因此对自身的独创性感到不安,他将这种现象上升为理论,称为“影响的焦虑”。路易斯·A·伦扎(Renza, Louis A.)对布鲁姆的观点进行了解释,他认为这种影响关系可以被视为疑似亲子关系,即俄狄浦斯式的焦虑,其背后是基于文献学的历史研究观。伦扎指出了重要的一点,就是对这种影响关系的考察虽然在讨论传承或反叛,最终不过是维护了确认文本传承关系的传统主义意识形态。无论称之为传承还是对传统的叛离,归根结底,只是换一种说法在讨论如何强化文学史的延续性罢了。

与此相比,数字人文的方法则采取了完全不同的思路。它并非从人与人之间的传承关系切入,而是通过测算词与词、句与句之间的相似性等方式,来探寻“影响”或“接受”的痕迹。如果将关注人际关系、挖掘作品表达方式的研究称为“质”的接受史,那么基于大量分析文本数据的字面内容去考察表达特征及其相互关系的研究,则可称之为“量”的接受史。

本文对“相似性”的判定标准是通过比较俳句A与俳句B中相同字符连续出现的程度。如第三节所述,本研究采用2-gram对诗句进行分割,并使用Jaccard系数将匹配度量化。在注重质性分析的传统接受史研究中,仅凭词语的简单相似自然不足以证明前代作家/作品与后代作家/作品之间的影响关系。然而,数字人文领域的文学研究通过对海量文本进行词语一致性检测,即基于“字面”层面的相似性计算,能够捕捉人类难以察觉的细微变化,并提取远超人类分析能力规模的文本特征。文学表达中的表层相似性——本文称之为“修辞回声”——是通过多重分析的交叉叠加进行探测的。“修辞回声”是借助数字人文方法捕捉到的“接受”痕迹或其潜在的可能性。基于定量分析的接受研究,通过持续检测“修辞回声”并深入剖析其内涵,进而尝试重构“期待视野”的图景。

如后文所述,基于字面相似性的量化接受研究方法,对于探讨俳句这一文类的接受史而言同样有效。俳句严格遵循十七音节的格律规范(若使用汉字而非假名,则实际字符数更少),因此每个字符在字面层面都承载着更为厚重的意义密度。

基于上述问题意识,本文将对俳句的数字资料进行定量分析,去探究日本近代对松尾芭蕉的接受情况。

2  从国立国会图书馆数字馆藏资料看近代对芭蕉的接受

首先,基于笔者2022年的研究对本文的前期成果进行简要整理。本研究对二战前的近代文献中对芭蕉俳句的引用情况进行了定量分析,从新的视角讨论了这个问题。这里所说的二战前的近代文献,具体是指可以在日本国立国会图书馆“下一代数字图书馆”进行全文检索的所有类别的图书文献,数量约为33.6万件(截至2022年)。利用全文检索功能,可以统计出这些资料中引用芭蕉俳句的数量,以此勾勒出“接受”的样态。检索的时间范围为1868年至1945年,因为芭蕉的俳句约有1000句,为了尽可能避免因表述差异造成的遗漏,本研究在检索时使用了三种文本。图1展示了引用率前30的句子(由于存在引用率相同的情况,实际为31句)。

图1 近代文献中芭蕉俳句的引用情况(前30位)

可以将此结果与人们所熟知的芭蕉佳句进行比较。引领明治俳句革命的正冈子规在1893年撰写的《芭蕉杂谈》中列举了“尤为出众、广为传颂”的11句芭蕉名句,包括:

  1. “古池や蛙とびこむ水の音”(古池呀,青蛙跃入水中的声响)

  2. “道のべの木槿は馬にくはれけり”(道边木槿,马儿啃食)

  3. “物いへば唇寒し秋の風”(张口欲言,唇寒于秋风)

  4. “あかあかと日はつれなくも秋の風”(艳阳当头,秋风已起)

  5. “辛﨑の松は花よりおぼろにて”(辛崎之松,比花更显朦胧)

  6. “春もややけしきととのふ月と梅”(春意渐浓,月与梅相映成趣)

  7. “年々や猿に着せたる猿の面”(年复一年,猴戴猴面)

  8. “風流のはじめや奥の田植うた”(风雅之始,远处传来插秧歌)

  9. “白菊のめにたてて見る塵もなし”(凝视白菊,纤尘不染)

  10. “枯枝に烏のとまりけり秋のくれ”(鸦栖枯枝,秋日将暮)

  11. “梅の木に猶やとり木や梅の花”( 梅树插新枝,梅花共盛开)

      可以看到,与图1中列举的31句仅有1、3、5、10这四句是重合的。

从33万余册的图书资料中,找出超过1000句的芭蕉俳句引用,其工作量之巨大,超出了人力所能及的范围。然而借助计算机技术便使之成为可能,让我们得以开启那些以往难以追踪的接受研究。并且,如本章所示,计算机辅助分析往往能呈现出与人们所认知的世界图景不同的结果,例如子规认为“广为传颂”的俳句与实际被频繁引用的俳句之间存在差异。但是这里也会出现一个问题,即“引用”是否等同于“接受”?关于这一点,我们将在后续章节中进一步讨论。

3  从近代俳句集看对芭蕉的接受

3.1 数据预处理与相似性的计算方法

本章将进一步探讨关于近代对松尾芭蕉的接受。在此,我们将研究对象限定于俳句集,通过分析近代俳句集中的作品特征来揭示芭蕉的接受情况。关于芭蕉的俳句,我们仍使用与前章相同的三个数据集,本章中分析的近代俳句作品来自以下三种句集:

A《明治句集》:共4冊(新年卷、春之卷、夏之卷、秋之卷),27084句,选录自报纸杂志。

B《大正百家选》:共1冊,12516句,收录德岛县当地俳句诗人作品。

C《现代综合大句集》:共1冊,12526句,选录自“最近发行的数百本俳句杂志”中的优秀作品。

首先,对本研究的数据预处理过程进行简要说明。ABC各句集的数据来自从国立国会图书馆“下一代数字图书馆”获取的JSON Lines文件,从中删除了正文以外的页面(如封面、目录、版权页、广告等),保留了页码、页眉、章节标题等信息。由于原始文件中有部分字符顺序混乱,因此使用JSON Lines文件中的位置信息标签进行了调整。在此基础上,提取“contenttext”(文本内容)中字符数大于9的字符串,以此删除通常小于8个字符的页码、章节标题等副文本信息。至此,正文数据的构建基本完成。此外,根据分析的需要,将正文数据中的汉字旧字体转为了新字体。除最后这一步以外,上述的预处理工作基本都是通过Chat-GPT4完成的,笔者随时跟进了这个过程。

      关于正文数据的识别率,通过对比笔者核对过的句集与上述经过预处理的正文数据,发现A的平均误识别率小于1%,但存在部分句子缺失的现象,B和C的误识别率分别为1.5%、0.4%,同样都出现了信息缺失的情况。

本研究采用了N-gram(本次使用了2-gram)的方法,通过Jaccard系数计算了文本的相似度。本研究的独特之处并非在于追踪俳句作品的语义承继,而在于对表层字面一致性的量化考察。鉴于此研究目的以及俳句文本篇幅极短这一特性,本研究认为,与 Word2vec 或 BERT 等方法相比,N-gram具有更高的适用性。

N-gram是指字符串中连续的“N个单词”或“N个字符”的组合,2-gram就是两个连续的单词或字符。例如,以字符为单位的2-gram将“雲の峰いくつ崩れて月の山”分解,可以得到“雲の”“の峰”“峰い”“いく”“くつ”“つ崩”“崩れ”“れて”“て月”“月の”“の山”共11个二字字符组。Jaccard系数是用于测算两个集合之间相似度的指标。具体计算方法是用两个集合的共同元素数量(交集)除以元素总数(并集),所得数值介于0到1之间,越接近1表示相似度越高。

例如,将“干網に蜻蛉吹かるゝ野分かな”与“猪もともに吹かるゝ野分かな”这两句俳句用2-gram分解后,可按照以下步骤计算Jaccard系数:

首先,将每句俳句分解为2-gram。

  「干網に蜻蛉吹かるゝ野分かな」的2-gram:干網、網に、に蜻、蜻蛉、蛉吹、吹か、かる、るゝ、ゝ野、野分、分か、かな;

  「猪もともに吹かるゝ野分かな」的2-gram:猪も、もと、とも、もに、に吹、吹か、かる、るゝ、ゝ野、野分、分か、かな。

两者之间有7个共同的2-gram,即“吹か”“かる”“るゝ”“ゝ野”“野分”“分か”“かな”。以此计算Jaccard系数,计算公式为:(共同元素数量[交集])÷(元素总数[并集])。这里的交集为7,关于并集的计算,两句都有12个2-gram,但需要从两者的和中减去共同元素数量7,即(12+12)-7=17。因此,上述两句的Jaccard系数约为0.41。

       基于此方法,以(1)《芭蕉俳句全集》和A《明治句集》为例,使用2-gram和Jaccard系数进行了初步调查。将结果按照相似度从高到低排序,并经过笔者的确认,可以发现当相似度高于0.3时,即使由人来判断也会感受到其相似性;数值在0.2左右时,仅是出现部分相同的季语,就俳句这一文学体裁而言,难以称之为相似。因此,本研究将相似度高于0.3的情况定义为相似。

3.2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的比较结果

为了把握整体趋势,我们首先将《芭蕉俳句全集》与《明治句集》(1909年)、《大正百家选》(1918年)、《现代综合大句集》(1935年)进行了逐句比较。这些句集分别收集了明治、大正和昭和战前时期多位俳句诗人的作品,规模宏大。其中,《明治句集》收录约2.7万句,《大正百家选》和《现代综合大句集》各约1.2万句。

图2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的相似度

与初步调查的步骤相同,我们将句子分解为2-gram,并使用Jaccard系数测算了它们的相似度,然后将结果按照从高到低进行了排序,图2即为三组不同时期句集相似性比较结果的前5000项。由于《明治句集》中存在与芭蕉完全相同的句子,因此图中显示出了极端高的数值(相似度为1.0)。但是,将比较对象扩大至前5000项,仍然可以清楚地看到《明治句集》的相似度始终显著高于《大正百家选》和《现代综合大句集》。同样,《大正百家选》的相似度也始终略高于《现代综合大句集》。通过将总计约5.1万句俳句与芭蕉作品进行比较,可以发现从1909年到1918年,再到1935年,随着时间的推移,其相似度、即“修辞回声”在逐渐降低。尽管这项调查未能提供关于季语或词汇使用、类型化表达等具体信息,但基于5万句规模的考察,能够得出以下结论:后期的俳句作品与芭蕉俳句在字面上的相似度随着时代变迁而不断降低,即在字句层面上渐行渐远。

在此基础上,我们比较了《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》中相似度最高的前30句作品(表1至表3)。可以发现,从明治、大正到昭和,此前相似度较低的句子也有可能逐渐上升到较高位置。正如在初步调查中也讨论过的,当相似度超过0.3时,即使通过人为判断也能感受到其相似性。如表1至表3所示,相似表现的关键在季语,当季语和切字的组合超过四个字符时,相似度就能达到0.3。在相似度高于0.4的句子里,除季语之外,还有其他词语的重合,使得其相似性更为显著。但相似度在0.2左右的句子中,重合的季语大多仅有三个字符,人为判断就较为困难。

此外,还可以看到,在相似度高于0.3的句子里,其相似性随着时代变化呈现出下降的趋势。不仅如此,有趣的是,即便是相似度低于0.2的句子也显示出了类似的结果,即相似性从明治、大正到昭和逐渐降低。若仅依据人为判断,相似度低于0.2时是很难发现这三个时期的俳句的表达差异的,无法感知其相似性也就难以进行比较。换言之,计算机通过将相似性量化的方法,捕捉到了人类肉眼无法比较的表达层面上的差异,并展示了其变化趋势。尽管是非常细微的差异,但确实可以看到后期的俳句创作在不断远离芭蕉式的表达。通过对近代俳句的大规模分析,揭示出了人力所不易察觉的长期且细微的“修辞回声”的变化。

表1 《芭蕉俳句全集》与《明治句集》中的高相似度作品

表2 《芭蕉俳句全集》与《大正百家选》中的高相似度作品

表3 《芭蕉俳句全集》与《现代综合大句集》中的高相似度作品

4 从正冈子规看芭蕉的接受

本章将以正冈子规的俳句为例,进一步考察日本近代对芭蕉的接受情况。

在此有必要指出本次定量分析的局限性。首先,用于对照的正文数据有一定局限。若要追求文学研究的精确性,原本需要在“全句”范围内进行详细考察,而且机器的文字识别准确性显然远未达到完美。其次,无论是芭蕉还是子规,其俳句风格均存在变化,文学研究向来是重视这种变化本身的[32],而以“全句”作为比较对象的量化分析就忽略了这种风格上的变化。但是,通过更细致的数据分类、文本校对和预处理等方法,或许能够在一定程度上克服这些问题。

正冈子规的俳句数据来源于子规纪念博物馆的“俳句检索”系统。本研究对其收录的25097句俳句进行了整理,将片假名转换为平假名,并分别准备了旧体字和新体字的数据。下文中将这个数据集称为“子规全句”。

我们首先将子规全句与《芭蕉俳句全集》和《明治句集》分别进行了比较,采用了与前一章相同的方法,结果如图3所示。观察图中曲线可以注意到两个特点:一是相比《芭蕉俳句全集》,《明治句集》和子规全句的相似度明显更高,这一点可以与图2进行对照,其差异一目了然;第二点是,相比《明治句集》,子规全句和《芭蕉俳句全集》的相似度更高。

      其中第二点似乎与一般认知相悖,因为致力于推动俳句近代化改革的子规,是以严厉批评芭蕉而闻名的。在《芭蕉杂谈》中,他曾以激烈的言辞说道:“芭蕉的俳句大半为劣句废话所充斥,能称为上乘之作的不过几十分之一”,还称“与其说芭蕉的作品受到肯定,不如说其品行为人所钦慕”,认为是芭蕉的人品而非其作品本身获得了评价。

      需要说明的是,子规并非单纯的芭蕉批评者。他对芭蕉的批判很大程度上源于对那些盲目崇拜芭蕉的旧派俳句诗人的否定态度。通过接受斯宾塞美学等思想,他也基于重视写实的现代自然描写意识对芭蕉简洁明快的表现方式予以了正面评价。

图3 《芭蕉俳句全集》《明治句集》与子规全句的相似度比较

这些是通过仔细解读子规的评论所掌握的他对芭蕉的具体解读。因此,就直觉而言,在将子规俳句与明治时期的大规模句集进行比较时,得出子规的作品反而更接近芭蕉这一结果,很难不让人感到困惑。在俳句革命中,正冈子规对被偶像化的芭蕉的批判广为人知。

      然而分析的结果确实如图3所示。那么,二人的作品究竟在哪些方面显示出相似呢?在讨论这个问题之前,还需要回顾一下图3的另一个特点,即明治句集与子规全句的相似性。与芭蕉作品相比,子规作品与《明治句集》之间的距离明显更为接近。

为了探其究竟,笔者制作了《芭蕉俳句全集》和《明治句集》、子规全句相似性对照一览表(表4)。可以看到,相似度为0.3的句子在《明治句集》中排第17位,而在子规全句中排第27位(有5句的相似度同为0.3),这意味着子规全句与《芭蕉全集》的相似性更高。通过对比,能够看出子规似乎是有意识地借鉴了芭蕉的俳句。而在《明治句集》收录的俳句中,虽然也有类似的受到芭蕉影响的例子,但也有一些作品,虽然在字面上看似有诸多相似之处,实际上并非真正借鉴了芭蕉,例如“胡麻蒔や風なきに散る栗の花”(明治)与“風なきに散るや若木の花櫻”(芭蕉),以及“吹風をうしろにしたり羽抜鳥”(明治)与“秋の夜をうしろにしたる法師哉”(芭蕉)等。

表4 《芭蕉俳句全集》和《明治句集》、子规全句中的高相似度句

相比之下,子规俳句中与芭蕉相似的句子,显然是有意识地进行了借鉴,并且在保持距离感的同时试图展现出一种幽默与机智。例如,子规的“春之山畠となつてしまひけり”很可能借鉴了芭蕉的“春の夜は櫻に明けてしまひけり”。芭蕉吟咏的是令人沉醉忘返、不觉夜明的樱花之美,而子规则以一种轻松而幽默的笔触,描写了本应繁花盛放的春山被开垦为农田的当下社会变化。正因为子规借鉴了芭蕉描绘樱花之美时那种超脱了世俗与时光的意境,才让他对人类的贪婪之举逐渐改变自然景观的现世景象的观察显得尤为独特而深刻。

此外,子规还将芭蕉以佛教悟理为主题的俳句“稻妻に悟らぬ人の尊さよ”改写为“長き夜を寐足らぬ人の尊さよ”。此句创作于1895年,当时子规尚未因病卧床,这一句或许只是单纯地表达了对能够安睡之人的羡慕之情吧。还有“肥壺や蛙とびこむ夕まぐれ”这一句,显然是以诙谐的口吻模仿了芭蕉的名句“古池や蛙とびこむ水の音”。

本章将子规俳句的全部数据与芭蕉俳句进行了对比分析。芭蕉与子规的关系一直以来受到了较多的关注,也有研究深入探讨了二人的个别俳句作品,但是将其所有俳句进行全面比较应该是此前尚未有过的尝试。当然,其中可能存在偶然的相似,也有一些可能仅是戏谑之作,并且如前章所述,即使仅有个别文字的重合,计算机也会统计在列。但是,正是通过如此这般机械化的比对,不放过任何字面上的外在相似性,并且全面展示了相似度从高到低的所有内容,我们才能够开辟出一条新的道路从整体上去思考有关相似性的问题,包括那些可能会被忽略的俳句。

当然,本研究也存在一定局限。本次分析以松尾芭蕉的俳句为起点,将芭蕉作品为单一中心点与数万首其他俳句进行对比,在形式性相似的层面上呈现出芭蕉与后世不同时期、不同作品之间的距离,但是无法涵盖俳句传统中多源并行的影响脉络。具体而言,近代俳句所受影响并不局限于芭蕉,而芭蕉本人亦承续了前代诸家的创作传统,此类复线性的继承关系未能在本研究中得到充分讨论。若能选取其他俳人为起点重复同样的分析,或许能够勾勒出新的影响关系网络。通过多重视角反复展开类似研究,俳句的接受史将得以进一步深化和拓展。

5 基于定量分析的接受研究的可能性

如上所述,基于国立国会图书馆“下一代数字图书馆”的馆藏资料,本文对明治、大正和昭和战前时期的大规模俳句集和《芭蕉俳句全集》进行了比较分析,还考察了正冈子规的俳句和芭蕉作品、《明治句集》的相似性。

目前,依靠计算机进行的质性内容分析还远远无法达到人类研究者的水平。无论是芭蕉、子规,还是大规模俳句集,都需要参考时代语境、作为借鉴的先前文学遗产,以及创作者的个人经历和经验等。这些的外部信息广泛存在于多种形式,需要细致解读并结合作品进行深入挖掘、论证。但是目前能够做到这一点的,仍然只有人类研究者。

但也有一些任务是只能通过计算机的数据解析完成的。无论如何,其工作内容的规模和效率都是压倒性的。近年来,随着技术的进步和大环境的变化,文艺作品的文本数字化进程加快,分析技术也不断提升。计算机的数据分析速度让人力不可企及的海量资料读取成为可能。由于工作量和速度的限制,人类通常需要根据文学家的重要性或文学史上的价值去预先筛选分析对象。这不仅导致了资料数量的局限,还可能产生先入为主的偏见。与此相比,计算机的工作则可以无视现有的文学史价值判断,将一切转化为数字进行处理。

就文学接受研究而言,除以往人类研究者探讨较多的创作者之间或作品之间的相互影响关系之外,如今还可以借助计算机对作品数据进行定量分析,追踪作品之间的相似性、潜在的共同主题以及作品主题的变化等。

关于“接受”和“影响”的既有讨论,大多基于某些重要的资料或优秀作品提取出抽象的主题,或者从某文学家或文艺群体使用的概念和理念(例如芭蕉及其门派提出的“风雅”“轻妙”等)的传承角度展开论述。例如,研究芭蕉近代接受史的权威学者久保田晴次如此描述他的研究目标:“本书的意图在于探讨众多的芭蕉论究的意义所在,以及从一种芭蕉论到另一种芭蕉论的流变所具有的意义。”久保田分析了芥川龙之介等近代作家对芭蕉的评价,考察其中的“意义”并揭示了芭蕉论的“流变”。最终,久保田选择以“实存”一词作为总结其研究的关键词。

从这种传统的文学研究的角度来看,本文在第二章的论述中将“引用”视为“接受”,以及在第三章和第四章中使用N-gram将俳句分解、通过句中词语的匹配数量来计算相似性的方法,可能会显得过于肤浅。因为“引用”是否等同于“接受”、用语的“相似”是否意味着“接受”,这些质疑是不可避免的

1918年,高浜虚子曾写道:“从德川初期到如今的明治大正,尽管俳句经历了或多或少的盛衰与变化,但可以说俳句就是芭蕉的文学。换言之,自松尾芭蕉这个人物出现并给传统俳句带来一场革命,在此后的二百余年间,虽涌现出俳人无数,但大多不过是步芭蕉后尘而已。”从江户到近代的两百多年里,俳人们的创作只是继承了芭蕉的文学事业,而虚子所指的“芭蕉的事业”,恐怕并非指芭蕉俳句的字面形式。字面的相似只是表面问题,更重要的应该是芭蕉的精神形态或世界观。若非如此,虚子也不可能做出这样的论断。

然而,在使用计算机进行大量数据分析的方法逐渐被引入文学研究领域的今天,真正需要重新审视的并非精神、思想或看待事物的方法。更重要的在于倾听并审视这些“修辞回声”,即坚持从字面层面入手的阅读实践,探索区别于人类传统阅读方式的其他可能性,重新构建“质”所无法衡量的、基于“量”的文学史。当然,这并不意味着思想的传承或文学观念的接受毫无意义。这些探索,如同过往一样,今后仍将是重要的研究课题。但是,贴近文本的分析同样重要。定量研究,即便不称之为“细读”,确是能够做到“贴近文本的分析”。它能够摈弃先入之见,忠实地追随文字,统计数量,计算概率、频率和字数。

尤其是在俳句中,文字的力量显得尤为巨大。在这种文学形式里,作品最多不会超过20个字,因此每一个字所承担的角色自然就变得举足轻重。桑原武夫曾经提出一个挑战性的问题:如果将作者的名字隐去,我们是否能够分辨出哪些是当代名家的俳句?他在这篇著名的评论中指出:俳句所面临的宿命就是,作品实际能够呈现的,与作者的理念或理想相比,总是显得言不尽意。因此,桑原认为,“就现代俳句而言,仅凭作品本身(即单独的一首俳句)去判定作者的地位是非常困难的”。芭蕉提出的俳谐世界固然所见高远,但这种高度抽象的概念性问题是否能在一个具体作品中得到充分的展现呢,现实未必如此。然而,正是这种局限,反而赋予了文字更多吸引读者深入解读的力量。面对通常只有十几个字的俳句作品时,读者会认真揣摩句中的每一个字词,在脑海中描绘这一句所构建的世界,甚至试图从芭蕉、芜村或子规的只言片语中推究他们的理念或理想。因此在俳句研究中,文字是至关重要的。而计算机的数据分析能力,让这种贴近文本的俳句分析、即对“修辞回声”的解构成为可能。这种能力,无疑将在未来的俳句和俳谐研究中发挥巨大作用。不过,计算机所追随的,终究是数字,而非理念。

文学作品的定量分析并非总能收获丰硕的成果,在很多时候,它可能只是验证了人们大致预料到的结果。例如,本研究中关于芭蕉的影响力从明治时期到昭和战前期间逐渐减弱的部分结论,也体现了这一点。当然,用明确的数字去证实那些隐约的猜想,这本身也是有意义的事情。但是,当计算机辅助的定量研究得出与预期相悖或完全未曾预想到的结果、以及发现人类未能发现的变化和特征时,就会产生较大的冲击力。例如,在松尾芭蕉与后世俳句作品相似性的经年变化中,当相似度低于0.2时,仅靠人力难以察觉,但计算机却检测到了这些细微的变化。此外,计算机还发现正冈子规的俳句比明治末年出版的大规模俳句选集在文字表达上更接近松尾芭蕉。这一结果有悖于我们对正冈子规——俳句近代化革命的旗手,同时亦是芭蕉的批评者——的直觉判断和先入之见。

6  结语——从“无意识修辞”到“数字文学史”

本文以接受研究为例进行了相关考察,可以认为,计算机辅助的文学定量研究是一种新的话语分析方法。就文学接受研究的历史而言,这种方法有可能在理论上更新姚斯提出的“期待视野”概念。姚斯试图从传统的文学创作和叙述美学转向接受和影响的维度重写文学史。从读者来看,文学作品并非出现在真空之中。读者心中始终有着判断的标准,会通过该文学体裁的内在规范、与名著之间的关系、诗性语言与实用语言的差异等来衡量对作品的接受方式。并且,文学作品本身也是在“广告、公开或非公开的信号、熟悉的标志或隐含的指令”中被创作出来的,这些因素极大地影响了读者对作品的接受方式。因此,新创作的文学作品都是基于“阅读的记忆”被接受的,同时又是被置于所谓的“期待”——“这部作品应该是这样的吧”——之中被解读的。这就是姚斯所说的同时代读者的“期待视野”。然而,优秀的原创作品是不同的,它们能够打破读者的“期待视野”,将文学史推向新的境地。

姚斯希望能从接受和影响的角度重新审视文学史,其重要性不容置疑,但是问题仍在于研究者应该借助何种资料与分析手段,才能有效重构这一“期待视野”仍然是一个尚未解决的问题。尽管在回顾文学史时,我们可以在一定程度上进行描述,但若谈及同时代的文学(研究)却显得困难重重。然而,随着大量数字文本的出现,如今重构“期待视野”正在成为可能——以一种与不同于以往的方式。过去和当代读者的阅读痕迹沉睡在数字档案和网络上的各类数据之中。如何挖掘这些痕迹,正是数字人文的文学接受研究所面临的课题,亦是可能性所在。通过对特定时代可获取的阅读数据进行大规模计算分析,并由研究者对分析结果进行解读,便能够揭示出该时代特有的阅读方式,而这理应构成“期待视野”的重要组成部分。

本文以接受研究为例进行了探讨,但这种方法的潜在可能性并不局限于该领域。海量数字化文本及各类信息分析技术的涌现,为多种文学类型的修辞分析带来了新的启示。关键在于,这种量化分析方法具备两大特质——其精细度超越了人类的感知能力,且在规模上又超出人类的处理极限。更值得关注的是,文学家创造的修辞本身往往延伸到创作者有意识控制的范围之外。文本中存在着作者本人未曾察觉的句式与引用,流淌着同时代其他创作者与评论家未能识别的互文链。这些无意识的修辞痕迹,早已深深镌刻在文本的字里行间。而精微且大规模的计算分析,正是从这些字面纹理中解析出“修辞回声”。笔者认为,基于定量的数据分析方法能够提炼出个体乃至时代中潜藏的“无意识修辞”。

文字所编织的图案,即为修辞。如今,修辞的矿脉正在大规模地转移到数字文本之中。不仅是文豪和诗圣的作品,那些被遗忘的小说家、小众诗人、无名的业余文学爱好者的创作,也都构成了这座矿山的一部分。著名评论家撰写的有影响力的评论、匿名的时事评论,以及地方读者的读后感,都平等地埋藏其中。计算机不会区别对待文豪、业余创作者、专业评论家或普通读者,而是通过挖掘将所有内容转化为数字的话语=数据的矿脉,即探听“修辞回声”,从而让我们得以从仅由著名文学家之间的相互关系来论述的俄狄浦斯式的文学史中逃离。数据挖掘揭示了人们与时代的无意识修辞,而新的“数字文学史”也将随之诞生。

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

莫莱蒂:远读是个玩笑

2026年4月23日 12:19

远读 2026-04-23 12:19 北京

远读是针对世界文学这个新研究对象提出的方法,在一定程度上也是认识论层面的探索

本文转载自华东师范大学远读批评中心公众号“远读”

图片

活动现场

远读是个玩笑

2026年4月17日晚6点,斯坦福大学荣休教授弗朗哥·莫莱蒂、清华大学中文系教授格非、《上海书评》主编丁雄飞来到华东师范大学普陀校区,以“远读实验:反思文学批评的量化转向”为主题展开对谈。本场活动为北山讲堂高端系列讲座第2讲、远读讲座第56讲,由华东师范大学国际汉语文化学院、华东师范大学中国语言文学系主办,华东师范大学远读批评中心承办,商务印书馆协办。

弗朗哥·莫莱蒂1950年出生于意大利松德里奥,1972年毕业于罗马大学现代文学专业,先后任教于美国哥伦比亚大学、斯坦福大学,美国科学与艺术学院院士,美国国家书评人协会奖最佳评论类书籍奖获得者。2000年,莫莱蒂教授于《新左评论》上发表《世界文学猜想》一文,首次提出“远读”(distant reading)的观念。2010年,他创建了斯坦福文学实验室。代表作包括《世界之路:欧洲文化中的成长小说》《现代史诗:从歌德到加西亚·马尔克斯的世界体系》《布尔乔亚:在历史与文学之间》《远读》等。今年,他刚刚出版了新作《黑旗:悲剧形式与内战》。

以下为对谈内容:

图片

丁雄飞

丁雄飞:纵观莫莱蒂教授的研究生涯,我们似乎可以辨认出两个莫莱蒂:一个是“细读的莫莱蒂”,一个是“远读的莫莱蒂”;一个是“作为文本阐释者的莫莱蒂”,一个是“作为量化形式分析者的莫莱蒂”。但归根结底,只有一位莫莱蒂教授,他是文学史家,是文学理论家,也是文学批评家,并且始终是一个唯物主义者。我想先请莫莱蒂教授谈谈什么是“远读”:您提出这个说法的契机是什么?它与世界文学、与您组织编纂的五卷本文集《小说》有什么关系?

图片

弗朗哥·莫莱蒂

莫莱蒂:“远读”的来源有二。它最初是个玩笑,当年美国学界言必称“细读”,我开玩笑说还有“远读”。我没把它当真,可大家都当真了,后来真成了学术术语。“远读”还有一个由来:我独自去看电影,喜欢坐后排,因为坐得远,看得全,但和我太太一起时,就要迁就她坐前排。显然,坐在前排和坐在后排看到的东西是不一样的。这也对“远读”适用——拉开距离,就能看到不一样的内容。

我们当时出的那套文集有五千页,希望从各个角度讨论世界各地的小说;同时,《新左评论》还约我写一篇二十页的文章,讨论世界文学。显然,要在有限的篇幅内讨论数量庞大的文学,需要一种和以往不同的方法,所以“远读”首先是为了分析海量文学或文化作品而提出的。

其次,远读是针对世界文学这个新研究对象提出的方法,在一定程度上也是认识论层面的探索。就像去博物馆看画,靠近画作和远离画作看到的内容不同,远离画作时看不到细节,但能看到整体的几何结构。远读就是这样,更注重文学中的模式,而非细节。

丁雄飞:请您举个远读的具体例子吧。远读和细读,或者说,量化研究与经典阐释之间,是什么关系?

图片

弗朗哥·莫莱蒂

莫莱蒂:远读的实践方式是多样的。比如《尤利西斯》这本书中有几章由意识流构成,我在研究时特意关注这些意识流段落的共性:有多少处意识流描写?在段落中处于什么位置?起了什么作用?通过聚焦“意识流”这一元素,我希望去把握某种更大的东西。

远读和细读是对立关系,非此即彼。同样,定量研究和阐释学也是对立的。定量研究绝对尊重数据,比如分析《尤利西斯》时,统计意识流段落的共性就必须如实计数,不改动数据;而阐释学是对数据的改造,比如我认为《尤利西斯》的意识流和意识无关,而和社会化有关。把此解读为彼,就是一种阐释方法,这和定量研究的逻辑完全不同。需要强调的是,这种对立无法形成某种综合。

丁雄飞:如今,数字人文和定量研究在全球遍地开花。回望来路,您觉得远读和量化研究的贡献和局限是什么?您退休回到欧洲后开始研究悲剧,这种转向是否也体现了您对量化研究态度的微妙变化?

图片

弗朗哥·莫莱蒂

莫莱蒂:首先,我认为量化研究是一个很好的探索方向,也提供了重要成果,比如用网络理论分析情节、对戏剧结构产生新认知、在更广阔的文学语境中理解“正典”的形成。这些成果都来自量化研究,更准确地说,是来自为了做量化研究而形成的概念建构。正是这些新的文学概念,让我们对许多传统话题有了新理解。

然而从大约十年前开始,一种不好的苗头出现了:与文学理论紧密相关的概念建构工作被抛弃了,取而代之的是极其复杂的统计分析。复杂统计本身是好的,但它不能替代文学、文化理论。现在有很多优秀的数学类文章,但其文学价值却很有限。我和这类研究拉开了距离。

丁雄飞:格非老师读过莫莱蒂教授的什么书?

图片

格非

格非:我前不久刚看完《布尔乔亚:在历史与文学之间》这本书,非常好看,触发了我很多思考。莫莱蒂教授在书中提出了一些非常重要的问题。第一,当代资本主义在全球范围内取得了巨大成功,但资本主义的主人公是谁?是否存在世俗意义上的主人公?他认为这个主人公是缺席的,如果一定要寻找,主人公既不是过去的贵族,也不是一般意义上的底层工人阶级,而是作为庞大中间群体的资产阶级市民。莫莱蒂先生用“布尔乔亚”这个概念来涵盖这个中间阶层。另外,他认为真正的主人公或许是散文。他引用了黑格尔有关“散文的心智”的论述。书中说,散文通过原因和结果、目的和手段来理解我们所面临的世界。资本主义是这样理解世界的,散文也是如此。

第二,莫莱蒂先生对小说的研究是远读视角下的历史学分析,而非新批评意义上的文本细读。他把小说放到社会变迁、历史进程以及不同文本中展开研究,其中也包含我一直以来思考的问题,比如他提到“填充物”(filler)这个概念。莫莱蒂先生认为,西方小说自十八世纪以后,尤其是1719年《鲁滨逊漂流记》问世后,才真正开始了我们今天的时代。在这类作品以及后来的现实主义、现代主义作品中,存在一个显著的变化:会话性描写开始大量增加。他把这些新增的描写称为“填充物”。

图片

格非

现代小说中为什么会有这么多“填充物”?他认为这和资本主义的内在逻辑是一致的。一方面是主客体倒置,“物”的世界开始被放大。另一方面,他认为资本主义追求的是准确性而非意义,他提出“精确性远胜于意义”的说法,这也是填充物产生的重要原因。

此外,就是“真实性”的问题。莫莱蒂先生认为,真实性被奉为小说的最高原则,评判小说的核心标准就是“是否真实”,而这种真实性与科学的要求是一致的,因为科学最强调“真”。他引用了马克斯·韦伯的话:“一个东西可以不美、不善、不够神圣,但它真。”这一点和我的个人思考不谋而合。

莫莱蒂:感谢格非老师。很高兴您对“填充物”的讨论感兴趣。作为文学教授,在授课时难免要把一本五百页的小说总结成三四个核心情节,这样一来,小说的大部分内容就被忽略了,这是我面临的现实问题。而研究“填充物”的目的,就是为了还原小说中那百分之九十九被忽视的部分,让这些平时无人谈及的内容重新被讨论。“填充物”的一大特点就是不被记住,小说用散文(prose)写成,而“prosaic”作为形容词本身就有“平庸、日常”的含义,这些散文性的内容往往无法让人留下深刻印象。当年编纂《小说》这部研究文集时,编辑团队曾讨论是否要收入《一千零一夜》。有位编者反对,理由是它的故事太精彩了,没有平淡无聊的部分,而小说需要一定的平庸感和无聊感。所以我想问格非老师,作为小说家,您是否愿意写这些无聊的内容?您希望自己的小说全程精彩,还是觉得需要保留“填充物”?

格非:我的创作过程有一个缓慢的变化,不知不觉间,我作品中的“填充物”开始显著增加。不是我刻意要写“填充物”,而是它好像自然出现了。比如《隐身衣》中就有大量“填充物”。所以我也在思考,该如何重新描述当代创作中的“填充”。我最爱的书是《左传》,许多年来反复读,从来读不厌。《左传》里没有一句废话,所有看似浅显的文字都非常深刻,每一句话都值得玩味。我对“填充物”的态度是中立的,一方面,没有“填充物”就无法完整呈现今天的社会现实;但另一方面,我也对大量“填充物”的存在感到困扰,这两者之间存在一种紧张的关系。

图片

丁雄飞

丁雄飞:我在莫莱蒂教授来中国前,把格非老师《隐身衣》的意大利文版发给他读。能说说您的读后感吗?

莫莱蒂:我非常喜欢这部小说。我的疑问是,这部作品是“长篇小说” (novel)还是“中篇小说”(novella)?这两个概念在英文里不只是篇幅差异,更是两种不同的文类。中篇小说通常只有一个核心,而长篇小说像“群岛”一样,有多个核心。您如何在文类上界定这部作品?另外,我了解到您是先锋派作家,但《隐身衣》这部小说的情节性很强。通常大家对乔伊斯这类先锋派作家的抱怨是“小说里什么都没发生”。因此作为先锋派作家,您是如何组织协调先锋派技巧与叙事情节需求的?

图片

格非

格非:我最初想把这部小说写得更短,大约是现在篇幅的一半,但写着写着,有一种莫名的力量推着我继续。莫莱蒂先生提到的“群岛”概念很符合我当时的创作状态,这部作品里涉及了很多不同的话题,创作过程中我不断扩充、重写,完全超出最初的构想。当然,从我的原始动机来说,我想把它写成一部不太长的中篇小说。

上世纪八十年代的中国带有强烈的理想主义和浪漫主义色彩,很多作家都深受西方现代主义影响,毫不避讳地说,我们当时狂热地迷恋乔伊斯、卡夫卡、福楼拜这些作家。

转折发生在九十年代初。我的一个好朋友邀请我去他家吃饭,他全程只和我谈了一件事:“你们的小说受西方现代主义影响,这没问题,但你有没有想过中国古典叙事和西方完全不同?”他给我推荐了《左传》《史记》等中国传统叙事作品,以及一些明清小说,还严肃地说:“如果你三十多岁还不关注这些,我认为是不对的。”这件事对我的影响非常大。之后很长一段时间,我开始回归中国古典叙事,这也是促成我创作转变的重要原因,比如《人面桃花》中已经有了古典叙事的影子。

我认为西方现代主义有两种不同类型,一种相对激进,比如伍尔夫、乔伊斯等,就像您说的“小说里什么都没发生”;但也有不那么激进的现代主义作家,比如我反复推荐的德国浪漫派作家克莱斯特,他只写过八篇小说,还有亨利·詹姆斯、福楼拜等等。所以在激进的现代主义、不那么激进的现代主义,以及中国传统之间,我需要做出选择。《隐身衣》和后来的很多作品都是在这几者之间权衡选择的结果。

莫莱蒂:您在写作中融合中国传统与西方现代主义传统时,最难的部分是什么?最大的困扰是什么?

格非:最难的部分是“转换”。阅读西方作品时需要经过一次转换,反过来,中国传统叙事也需要经过一次转换,而且这个转换必须由我自己完成,才能让二者在同一个层面上进行讨论。我们无法回到过去的年代,只能立足当下的社会现实、自身处境,以及全球化带来的影响,重新阐释中国传统叙事。比如我今天读《左传》,和九十年代读完全不一样,有了西方文学的大量参考和探索作为基础,再回头讨论它的叙事,情况就完全不同了。中国传统叙事和西方现代主义小说不能生硬地拼接,需要在不同语境中适当转换,才能实现真正的交流与对话。

丁雄飞:《远读》里有一章《小说:历史与理论》,对比了中西方小说。莫莱蒂老师问了一个问题:为什么小说在十八世纪的欧洲兴起,而中国却没有出现同样意义上的兴起?

莫莱蒂教授给出的解释是,中西方小说传统都很悠久,像是两个并行发展的实验室。到了《金瓶梅》时期,中国小说出现了很强的评点传统,他认为这体现了一种审美转向。当时中国人读小说带着审美化、诗化的视角,而欧洲小说的审美转向要到十九世纪末才出现,比中国晚了三百年。他还认为,十八世纪欧洲小说的兴起与消费社会有关,当时小说印刷数量大幅增长,但人口并没有增长那么多。于是,人们只会泛读小说。这形成了一个悖论:小说变多了,人们的注意力却变少了。而同一时期的中国小说,在某种意义上说是作为审美对象被阅读的。格非老师,您怎么看这个论述?莫莱蒂教授,您是否仍然坚持这个判断?

图片

弗朗哥·莫莱蒂

莫莱蒂:我坚持。我当时在美国的学术会议上提出这个观点时,美国学者对中国传统小说和欧洲小说是“不同物种”的说法难以接受。但又没有人能说服我改变看法。我想,至少文化物种的多样性对地球和人类文化是好事。当然,我可能是错的。

格非:这是个很有意思的观点,我也同意。我读《左传》时,会在某一瞬间觉得它非常现代,因为里面写的全是秘密,直接呈现出来的内容反而没那么重要。德勒兹评价亨利·詹姆斯时说过一句话:“他一辈子都在写秘密。”《左传》《史记》也是如此,呈现的部分是为了让读者理解隐藏在背后的内容,这就是中国叙事的重要特点,作家似乎忙着“藏”,而非“显”。这种特点在中国叙事中非常早熟,而大概要到十九世纪以后才成为西方现代主义文学的重要特征。

莫莱蒂:我读的中国小说不多,主要有《红楼梦》《金瓶梅》,还有一部分《三国演义》。这些中国小说中存在审美对象,或者说“美”的概念,而且这种特质在中国出现得比西方早得多。另外,中国小说有大量评点,中国人把读小说当成一件严肃的事情,而直到十九世纪末,西方的人们才开始严肃地对待小说。

分享一个故事。1971年,我参加了一场英国文学考试,其中有一道题是“乔治·艾略特对小说的贡献是什么”,我写了很多答案都被老师否定了。最后的答案是:“乔治·艾略特的贡献,是把小说变成了一件艺术作品。”——这发生在十九世纪七十年代,而中国小说完成这种转变的时间要早得多。

格非:这种观点在中国现代作家中很普遍。比如四川作家李劼人有一个观点能和莫莱蒂先生相互印证:像《金瓶梅》,甚至《水浒传》《红楼梦》这样的作品,西方要一直等到托尔斯泰、司汤达等大师出现,才有资格与之相提并论。

丁雄飞:我们来聊聊《现代史诗》。请教莫莱蒂教授:这本书在您所有作品中的定位是什么?这是您赴美后出版的第一部作品,其中已经非常娴熟地用进化论来讨论文学形式的变迁。

莫莱蒂:这本书的最终形态和我最初的构想很不一样。我一开始想写二十世纪初的先锋文学,重点讨论《尤利西斯》等作品。后来我发现,《尤利西斯》之于二十世纪的意义,相当于《浮士德》之于十九世纪的意义。于是我猜想,从《浮士德》到《尤利西斯》,可能构成一种特殊的“文类”。这类作品的共同特点在于,它们在一部作品中讨论整个世界。传统史诗关注民族,而这类作品则关注世界。有一次我听瓦格纳的歌剧时,突然觉得瓦格纳的歌剧也在尝试构建整个世界,所以我把瓦格纳也纳入了《现代史诗》的范畴。

在一本书里书写整个世界,本身就是不可能的事,所以无论是《浮士德》《尤利西斯》,还是瓦格纳的歌剧,这些作品都存在很多缺陷,篇幅冗长、部分内容枯燥、质量参差不齐。历来的批评家都知道这些问题,也对此感到不适,但我觉得这是为了再现世界所必须付出的代价。世界本身就是不完美的,充满不平等和斗争,所以试图再现世界的作品自然也会有缺陷。或许所有文学形式本质上都是有缺陷的,而研究文学形式的真正难点,不是发现其中的重复模式,而是理解什么不在这些模式之中,这才是最有挑战性的部分。

格非:我想请教莫莱蒂先生一个问题。您刚才提到乔伊斯的作品以整个世界为描述对象。您是否关注过“叙事速度”这个概念?它在您所研究的小说中是如何演变的?比如乔伊斯的作品,从表面情节看似乎是停滞的,因为他会把想象中的内容、各种语言文化元素都拉扯进来。但我认为,这体现了一种无与伦比的速度,因为它可以在任何一个点与世界建立连接,不再遵循古典小说或戏剧的线性逻辑。这种叙事速度的变化在十八、十九世纪以来的作品中非常明显,我认为和资本主义世界的“加速主义”变化是相关联的。您对这个问题怎么看?

莫莱蒂:乔伊斯作品中的加速感非常明显。一开始读,你会觉得它是一部关于小说本身的作品,聚焦个体心理、意识流、前意识等内容。但随着章节推进,它逐渐变成体制化语言的小说。因此,这部小说在风格上浓缩了西方资本主义近一百年的发展历程,这是一种非凡的“加速”。

丁雄飞:《现代史诗》里一个贯穿始终的形式线索是“复调”。格非老师,您的创作,比如《江南三部曲》里,有没有复调?

格非:我们在八九十年代或多或少都关注过“复调”的问题,包括巴赫金讨论的陀思妥耶夫斯基的复调,米兰·昆德拉也在他的小说中尝试用复调结构创作。我当然也关注过复调,尤其是陀思妥耶夫斯基在《卡拉马佐夫兄弟》等作品中呈现了复杂多声部,以及不同声部之间的关联。但现在我对复调已经没有那么关心了,因为现代小说已经提供了足够多的创作方法。我们可以直接进行文本意义的生成,自由表达不同的声音、场景和想法,已经不依赖复调这种结构性的东西来呈现了。

图片

活动现场

撰稿|庞雅文

摄影|陈榆菲

编辑|周正颜

阅读原文

跳转微信打开

会议预通知丨2026年首届大学生国际数字人文节(IDHFUS 2026)

2026年4月21日 09:01

RUC信息资源管理 2026-04-21 09:01 北京

以下文章来源于:RUC信息资源管理学院

RUC信息资源管理学院

中国人民大学信息资源管理学院官方微信平台,发布学院动态,致力于为每一个信管人构建与学院沟通的桥梁。

2026年9月18日—9月20日,中国人民大学

数字技术正以前所未有的力量重塑人类文明的记忆与表达。从古籍善本的数字复原到非物质文化遗产的交互再现,从海量历史数据的智能挖掘到跨文化叙事的可视化构建——数字人文正成为这个时代最富活力的交叉学科之一。

如果你对技术与人文的碰撞充满好奇,如果你有一个关于文化遗产、历史记忆或人文数据的创意构想,首届大学生国际数字人文节(IDHFUS 2026)正是为你而来!

为响应国家文化数字化战略,促进全球青年在数字人文领域的深度交流与创新实践,中国人民大学信息资源管理学院与数字人文研究院将于2026年9月18日至20日在中国人民大学中关村校区举办本次盛会。我们诚邀全球在校大学生携作品参展,同时欢迎青年教师、研究人员及数字人文相关行业专家参会交流,共同探索数字文明的无限可能。

组织单位

主办单位:

中国人民大学信息资源管理学院

中国人民大学数字人文研究院

指导单位:

世界顶级信息学院联盟(iSchools联盟)  

世界绿色设计组织(WGDO)

亚太数字人文教育协作委员会

国家文化科技创新服务联盟  

(指导单位持续更新中)

活动安排

时间

2026年9月18日—9月20日

地点

中国人民大学中关村校区(北京)

语言

官方语言为中英双语

参与对象

本次活动开放两类参与方式:

参展者:

全球在校大学生(个人或团队均可),   提交数字人文相关作品参加展览与评奖。

参会者:

青年教师、研究人员及数字人文相关行业专家,欢迎莅临交流。

参展要求

作品形式

参展作品须具备数字人文属性,鼓励提交以下类型的数字作品:

1. 数据可视化成果、扩展现实(XR)作品、交互式网站或应用

2. 数据集、软件工具、动画、游戏、视频等数字创作

语言要求

参展作品须以中文或英文呈现。为便于国际交流,所有作品(无论中英文)均须同时提交一份300字以内的英文摘要。

 基本规范

参展作品须为原创,内容健康积极,遵守中国及作者所在国家(地区)相关法律法规,须随附一份简短的AI使用说明,参考格式如下:

是否使用AI: 是 / 否

使用环节与工具:(例:用ChatGPT翻译英文摘要 / 用Midjourney生成配图 / 用Python+AI库辅助数据清洗)

人工贡献确认:本人保证核心观点、史料分析及最终结论均由本人完成,未由AI直接生成。

赛道设置

参展者可选择以下任一赛道:

赛道1:自选主题(围绕“遗产·记忆·视界”自由创作)

赛道2:(企事业单位命题赛道,待发布)

赛道3:(企事业单位命题赛道,待发布)

获奖权益

本次活动设有多项奖项,评委团由全球知名数字人文专家学者组成,为获奖作品颁发获奖证书。其它获奖权益如下:

1

奖金支持:评选设置奖金奖励

2

专业资源:专业工具授权与算力资源支持

3

专家辅导:学术+技术专家一对一指导深度打磨作品

4

专家辅导:学术+技术专家一对一指导深度打磨作品

5

成果转化:对接文化数字化落地场景与成果孵化平台

6

案例入库:优秀获奖作品将纳入数字人文优秀案例库

7

学术发表:优秀获奖作品的相关研究论文将在《数字人文研究》期刊发表

学术期刊支持单位

《数字人文研究》

(更多支持单位持续征集中)

重要时间节点

作品提交及挑战赛报名截止

2026年7月20日

早鸟报名截止(优惠票)

2026年8月20日

普通参会报名截止

2026年9月8日

活动举办

2026年9月18日

—9月20日

初步日程安排

时间

安排

9月18日

开幕式及主旨报告;

数字记忆联盟成立大会

及联盟成员项目展演;

工作坊1;闭门会;学生作品展

9月19日

工作坊2;

数字人文实验室开放日;

青年沙龙;学生作品展

9月20日

闭幕式及颁奖典礼

学生作品展

详细议程见正式通知

联系方式

联系人:胡老师

联系电话:13021941288

电子邮箱:(详见正式通知)

官方网站:(详见正式通知)

数字人文不仅是技术与人文的简单相遇,更是一代青年对文明传承与创新使命的主动回应。期待与你相聚北京,共赴这场数字人文的国际盛会!

中国人民大学信息资源管理学院

中国人民大学数字人文研究院

2026年4月

排版:欧阳振伟

初审:任明

核发:韩曙光 闫慧

阅读原文

跳转微信打开

批判性数字人文|机器学习时代的代码认识论

2026年4月20日 11:40

DHLR Ray编 2026-04-20 11:40 北京

以下文章来源于:左手数字右手人文

左手数字右手人文

About Digital Humanities, what is right and what is left. 分享全球数字人文相关学术论文译文、会议通知等资讯内容。

随着全局优化与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识

栏目简介:批判性数字人文(Critical Digital Humanities, CDH),通常指的是在数字人文基础上,引入批判理论、社会理论、后殖民研究、性别研究、媒介研究、科技社会学等视角,对“数字技术如何介入知识生产、文化记忆、权力结构与社会不平等”进行反思性研究的方向。


The Epistemology of Code in the Age of Machine Learning

机器学习时代的代码认识论

DOI:https://doi.org/10.63744/mtgy4d9qn78k

作者: Evan Buswell

期刊: Digital Humanities Quarterly (DHQ)  Volume 20 Number 4, 2026

作者 Evan Buswell 是一位独立学者及软件工程师,博士毕业于加州大学戴维斯分校,从事人工智能研究。其研究横跨计算机科学、数字人文与批判性理论。他关注计算机技术的历史演变及其背后的哲学意涵,特别是计算架构如何塑造人类对知识的认知。

1. 摘要

代码是一种以“压制状态”(Repression of state)为前提的认识系统。然而,随着全局优化(Global optimization)与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识。代码的形成回应了二十世纪知识型(Episteme)的两个特征:其一,知识被表征为一种过程(Process);其二,这种表征必须是自足的,即其意义由表征形式本身构成。代码与状态虽存在关联,但为了将代码建构为认识论对象,状态被持续限制与压制。这一建构始于1940年代代码的最初形成,并在1960年代末结构化编程运动中达到现代形态。然而如今,随着全局优化和机器学习算法在计算领域日益占据主导地位,状态的关键重要性已无可回避,而我们理解状态的工具却极为匮乏。这一认识论困境反而为那些罔顾后果、规避责任的行为者提供了庇护。

2. 文章内容

本文从科学技术研究(STS)与批判性代码研究的视角,追溯"代码"概念的历史形成,论证代码与状态的分离并非中立的技术选择,而是特定历史认识型的产物。

作者将论证分为三个层次展开:

  • 代码作为认识论对象:代码诞生于一种将知识理解为"过程"的知识型(约形成于1930年代)。在这一认识型中,意义的合法性来自符号系统内部的自足性,而非外部指涉。代码因此被要求不仅描述算法,更要"实例化"算法本身。然而这一要求内含矛盾——动态过程无法被静态文本完整构成,由此产生了代码与状态的结构性分裂。

  • 状态的压制史:作者通过对早期计算机代码的细读,追踪这一分裂的具体历史轨迹:从Mark I的系统性路由范式,到ENIAC的时序化结构,再到EDSAC条件跳转指令的出现,最终经由Fortran、ALGOL等语言演进,抵达1960年代结构化编程运动对GO TO语句的驱逐。每一次编程范式的更迭,本质上都是将状态进一步压入不可见的角落——先是隐入符号地址,再是隐入语法结构,最终隐入状态变量。

  • 机器学习与认识论危机:全局优化算法的兴起使上述压制走向历史性破产。这类算法在数学意义上已知其效果依赖于代码与状态的内在关系,然而代码范式依然将状态处理为非认识论对象。"黑箱"的比喻并非描述技术限制,而是这一历史性压制的文化症状。更危险的是,状态的不可知性正在成为资本与权力规避责任的结构性工具——算法推荐系统、自动驾驶责任归咎,莫不如此。

3. 理论框架与方法论

本文方法论融合批判性代码研究(critical code studies)的文本细读传统与知识考古学式的历史分析。作者并置不同历史时期的代码片段(EDSAC、A-2、Fortran、ALGOL等),通过比较性近读(comparative close reading)追踪条件跳转指令的语法演变,将技术史细节与认识论命题直接挂钩——这是本文方法论上最具说服力之处。

论证结构遵循一条清晰的辩证线索:外部化—压制—压抑物的回归—新形式的再压制,并以全局优化算法作为当下历史节点,将这一循环推至其内在矛盾最为显露的临界时刻。引入"无免费午餐"定理,使技术论证与认识论批判形成精准呼应,避免了此类研究常见的泛泛而论。

简  评

对于从事AI认识论、数字人文与STS研究的读者而言,这篇文章提供了一个罕见的分析框架:它拒绝将"黑箱问题"处理为机器学习的技术局限,而将其还原为一段有据可查的观念史。这种将代码语法演变与权力/责任问题直接相连的论证路径,对于思考AI治理的文化与语言基础尤具启发性。

看到这篇文章的时候,就不得不想起本杰明·M·施密特在2016年发表的本杰明·M·施密特《数字人文主义者需要了解算法吗?》(2016)。这两篇文章之间构成了一种跨越十年的“互文”关系,像同一个认识论困境的两个不同截面——施密特从实践层面发现了症状,Buswell从历史层面追溯了病因。如果说施密特的核心诊断是:数字人文学者把算法当黑箱,满足于用经验性测试("符不符合常识")来评估工具,却没有去理解算法背后的转换逻辑。他的药方是:不需要懂算法的实现细节,但必须懂它试图做什么——也就是理解 "transformation" 而非 "algorithm" 。Buswell的回答实际上是:施密特说得对,但他没有问为什么黑箱会存在。答案是:黑箱不是技术局限,而是代码范式的历史性产物。Buswell通过对计算机史的详细考据,在认识论层面指出,在机器学习与全局优化算法主导的今天,施密特所寄望的那种“可理解的转换”的认识论就随之坍塌。

文章对中文语境同样具有延伸价值:中文对"代码"与"状态"的概念处理方式是否内嵌了不同的认识论预设?在"算法黑箱"的本土讨论中,状态的不可知性是否同样承担了类似的责任规避功能?这些问题值得进一步探究。

撰文、编辑:丁怡瑞(剑桥大学数字人文系硕士研究生)

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

段玉裁《说文解字注》知识库的构建与应用

2026年4月16日 19:30

原创 沈小妮  等 2026-04-16 19:30 北京

段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:沈小妮,彭炜明,胡佳佳.段玉裁《说文解字注》知识库的构建与应用[J].数字人文研究,2025,5(4):68-83.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

段玉裁《说文解字注》知识库的构建与应用

沈小妮  彭炜明  胡佳佳

摘   要:段玉裁《说文解字注》是“说文学”研究的巅峰之作,集中体现了乾嘉学派的学术成就。当前有关《说文解字注》的数字化工作多停留于文本化阶段,尚未实现对其知识体系的深度挖掘与系统呈现。研究以《说文解字注》及其稿本《说文解字读》为底本构建知识库,设计了涵盖五大知识范畴、十个知识集、五十六个知识点的三层分类体系,完成了数万条知识实例的标注与结构化表示;在此基础上,开发了具备原文检索、知识导览与标注管理功能的交互式平台;并以对段玉裁的谐声归部研究为例,验证了知识库的应用潜力。这是数字人文方法在传统语言文字学领域的一次系统实践,为古籍深度数字化与人文研究范式创新提供了重要参考。

关键词:段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

作者简介:沈小妮,北京师范大学第二附属中学语文教师; 彭炜明,北京师范大学汉字汉语研究与社会应用实验室研究人员; 胡佳佳(通讯作者),北京师范大学文学院副教授,hjj81@126.com。

0

引 言

2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,再次强调推进古籍的数字化工作,“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级”。在我国古典目录学的著录中,有一类被系统归为“小学”类的特殊文献,即中国传统的语言文字学著作。“中国的传统语言学因为负载着三千年的文化信息,包涵着中华民族的世界观、价值观、民族观,所以,它不仅是一种学术资源,而且是一种知识资源;不仅是一种知识资源,而且是一种人文资源,一种道德资源。” 《说文解字》(以下称《说文》)是中国传统语言文字学最重要的著作。黄侃谓治“小学”须读十部书,而“《说文》一书,于小学实主中之主也”。段玉裁的《说文解字注》(以下称《段注》)是《说文》研究著作中最重要的一本,也是中国传统语言文字研究巅峰——乾嘉学术的代表。段氏的卓越成就,“不仅在于他‘究其微恉,通其大例’,对许书做了细密全面的校勘整理,更在于他通过对许书的注释,提出并初步解决了一系列有关汉语音韵学、文字学、词汇学、训诂学的重大问题,他能初步运用历史发展的观点和一些科学的方法来研究语言现象。换言之,他使《说文解字》的研究,从纯粹校订、考证的旧框子里解放出来,在某种意义上走上了科学语言学的轨道”。

在建设中国特色哲学社会科学学术体系的今天,系统梳理和总结以《段注》为代表的中国传统语言学研究高峰的学术思想与方法论,对总结和升华中国特色的语言文字学原创理论,具有特别重要的意义。从清代到当代,对《段注》的研究一直持续不断,但进入21世纪之后,研究成果却并没有极大丰富,对《段注》挖掘的广度与深度也不够充分。《段注》体大思精,其深刻的思想与科学的方法是散布在丰富的注释中的。《段注》知识库的建设,旨在将这些散布的知识与前人对《段注》的研究结合起来,通过多维联系来展现和揭示其中蕴含的科学内涵,辅助研究者从中提炼出具有现代价值的理论范式,实现对传统学术资源的创造性转化;为构建具有中国特色的理论体系提供重要的数字化研究资源和技术支撑。

目前对于《段注》的数字化工作大多仍处于影像化与文本化的阶段。如国家图书馆建设的中国古籍资源库(http://read.nlc.cn/thematDataSearch/toGujiIndex)里汇聚了多个古籍版本的《段注》高清数字影像;北京时代瀚堂科技有限公司的瀚堂典藏库(https://www.hytung.cn/)提供了经韵楼本《段注》的数字化文本和影像,可以进行字头与全文的字符串检索。北京师范大学的《说文解字》研究与应用平台(https//szsw.bnu.edu.cn),则在影像化和文本化的基础上,对《说文》小篆的形音义知识点进行了提取和结构化存储(如部首、义符、声符……)。我们把这种将知识点单独提取后再进行结构化存储的数据库称作知识库。与之前仅包含了影像、文本、著述信息与目录的古籍数据库不同,知识库是对古籍数字资源的更深层次和更细粒度的加工,它包含了根据前人研究,从原典中抽取、提炼出的具有意义的独立的知识成果,并按照一定的逻辑体系进行关联和组织,从而实现对原典内容的理解、重组和再造。如图 1所示,由于此平台提取和存储了《说文》关于每个小篆构形直接构件的知识点,用户就可以直接搜索到《说文》中以“七”为直接构件的所有小篆,这实际上就是平台为用户提供了关于小篆构形的知识服务。该平台同时提供了上海古籍出版社影印的经韵楼本《段注》的数字影像与文本,也涉及到《段注》个别知识点的提取,如为每个字头标注了段玉裁的古音归部。

图1 北师大《说文解字》研究与应用平台应用示例

知识库的构建是在平台已有《段注》文本与个别知识点的基础上,聚焦《段注》全体系知识点的系统提取与深度标注,最终构建的《段注》知识库具备双重应用价值——既可独立开发为专用应用平台(详见下文),也能作为《说文》研究的资源,通过对应字头链接至该平台的相关说解部分,为使用者提供更为精准的知识服务。

图2呈现了构建《段注》知识库与开发应用平台的实施路线图。本文第1、第2部分将围绕此路线图展开具体论述,第3部分则结合一个基于该知识库及平台的研究实例,进一步说明其应用价值。

图2《段注》知识库构件与应用平台开发实施路线图

1

《段注》知识库的构建

1.1  文本的数字化与结构化

知识库的构建首先还是需要文本的数字化。文本数字化的第一步则是选择合适的底本。段玉裁注《说文》,经历了长达近四十年的准备、撰写和修订,终于嘉庆二十年(1815)全部刊刻完成,是为经韵楼刻本。“除《清经解》所收的少数本子是重排本外,其余都是经韵楼本的复刻本,不但内容相同,每页的行数、起迄字也都相同。”  段氏自己曾在《段注》中提及,著此书前,先有长编《说文解字读》(以下称《说文读》),始为五百四十卷,既乃檃括成《注》。今北京图书馆藏有《说文读》抄本残卷七册(一至六,八),经朱小健、张和生整理,于1995年由北京师范大学出版社影印刊行[7]。尽管残缺,但它对于研究段玉裁的学术思想、《段注》的形成过程以及清代小学方法都具有极高的价值。

因此,用于知识库构建的基础文本有两种:一是上海古籍出版社1988年影印经韵楼本《段注》,二是北京师范大学出版社1995年出版的《说文读》。对于数字化后的文本,则采用关系数据库技术进行结构化存储。基于《段注》的特点,分卷、部首、字头三层设计数字化文本结构。卷表(Volume)(表1)关注《段注》的卷次结构。部首表(Radical)(表2)聚焦于《说文》部首,全书总计540个部首,每个部首分布于特定卷中,并统领若干字头。字头表是《段注》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。由于《说文》字头有正篆(位于每条说解之首的字形)和重文(位于每条说解之末的字形)之分,而《段注》亦对书中的重文进行了注释,所以字头表分正篆表(表3)和重文表(表4),两张表的字段类型基本相同。但重文表中包含对应正篆字段,以标示正篆与其重文的对应关系。

《说文读》与《段注》体例不同,是札记性质的,属于段玉裁长期研读《说文》心得的汇总。它不是依《说文》逐字做注,故多有未注之字,也有重出之字。行文格式上,低一格抄录许书正篆及说解全文,也有仅出重文;字头皆以楷书录之,但也存有篆书的情况,另起顶格作注;论及一字古音尚未使用古韵十七部,而是标以古韵韵目,但也有例外。《说文读》的结构亦分卷、部首、字头三个层次。卷表(du_volume)和部首表(du_radical)字段保持不变。字头表是《说文读》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。

两书字头之间的对应关系,通过《读》《注》关系(duzhu_relation)表(表5)的两个外键来实现。其中,“duanzhu_id”实现两书字头的对应关系,以便从《说文读》直接链接到《段注》的相应解释,进行文本比较。

1.2 《段注》知识体系的建构

不同领域的知识要素和结构各不相同。《段注》自成体系,在注释《说文》时采用了很多的术语与条例,如“浑言析言”“古今字”等,集中体现段玉裁的学术思想和理论,也是本研究要提取的“知识点”。具体操作上,我们选取《段注》研究专著中形成共识的术语条例 ,以《传统语言学辞典》中关于段玉裁的术语为补充,选择实例数超过十条的知识点,并按照传统语言文字学的研究框架,构建了含文字、训诂、音韵、校勘和引书五大知识范畴、十个知识集、五十六个知识点的三级分类知识体系(见表6)。

需要说明的是,本研究将《段注》知识点分为五大范畴,主要出于系统整理的需要,并非意味着知识点之间存在不可逾越的界限,例如“双声”“叠韵”属于训诂学中的声训术语,但是也体现了音韵学研究的内容;“音义同”包含训诂和音韵两个角度的内容。 范畴之间的交叉渗透,也体现了段氏综合形、音、义注解《说文》的特点。

1.3 《段注》知识点实例的提取

创建好知识分类体系,就可以逐个开展各知识点实例的提取工作了。《段注》中的知识点实例一般都存在形式化的术语,譬如,段氏谈论“引申”的术语有:“引申(引伸)、因、故、因之、因以为、故以为、引申(伸)假(叚)借、引申......凡、义之相因” 。这就便于采取正则表达式进行匹配提取后再进行人工校对与补充、完善(详见图 2知识提取部分)。《段注》中一个字头下的文本中可能蕴含多个知识点实例,而一类知识点可能在多个字头下文本中都有体现,如图 3所示。甚至在一个字头下的注释中包含了另一个字头的知识点。如:

“艸,百卉也。”卉下曰:“艸之总名也。”是谓转注。二屮、三屮,一也。引伸为艸稿、艸具之艸。“从二屮。”仓老切。古音在三部。俗以草为艸。乃别以皁为草。凡艸之属皆从艸。(《段注·艸部·艸》)

段氏在“艸”字下的注释就涉及转注、引申、古音、俗字等多个知识点,其中俗字知识点实例,还涉及到字头“草”。这就要求合理设计知识库的存储结构。

图3 《段注》文本与知识点及其实例的关系

1.4 《段注》知识库的结构

在知识库的实际构建中,我们采用关系数据库来存储知识体系与知识点实例。表6中的知识点范畴、知识集和知识点可以看作一套有层级的分类标签,这些标签间的层级关系就存储在知识体系表(Knowledge)中(表7)。“parent_id”是标识知识点层级结构的关键字段,通过外键约束机制与该表的“tag_id”字段形成自反引用关系,从而可以表示树状的分类模型。该字段在层级结构中的具体表现为:

第一层级,知识范畴(如“文字类”)的“parent_id”设为 NULL,作为根节点存在;

第二层级,知识集(如“六书”)通过“parent_id”指向其所属顶级分类的“tag_id”;

第三层级,知识点(如“象形”)则通过“parent_id”关联对应的二级分类“tag_id”。

除根节点外,每个知识节点必须有一个唯一的父节点(“parent_id”),形成“知识范畴→知识集→知识点”的严格层级架构。该设计方便数据更新和管理,当删除父标签时数据库会自动删除所有子标签;更新父标签ID时,相关引用自动更新。

在知识库中,每个知识点都有一张对应的实例表,存储所提取的该知识点的实例。根据实例所关联的对象类型,我们将知识点分为两类,不同类型的知识点实例在知识库中也采用不同的结构表示。

(1)单对象描述型知识点,内容仅涉及段玉裁对单个对象的特征、属性、状态的具体描述。“韵部”“构意”等均为此类。如“韵部”知识点实例“莹”的韵部是“十一部”,“构意”知识点实例“”的“构意”描述为“有物在一之下也”。对于此类知识点,实例表结构如表8所示。

(2)多对象关系型知识点,内容涉及对两个或多个对象(字头)间关系的描述,“音义同”“行废字”“古今字”“之言”等属此类。如段氏在“枼”字下注“叶与世音义俱相通”,表述了“叶”“世”两个词的“音近义通”的关系,属于“音义同”知识点实例;在“丕”字下注“故古多用不为丕”,沟通了“不”和“丕”的古今使用关系,属于“古今字”知识点实例。对于此类知识点,除了表8中的三个核心字段外,还增设了“对象1”(duixiang1)和“对象2”(duixiang2)两个字段,来表示对象间的关系(三个以上的对象关系则拆解为两两关系),如表9所示。

2

《段注》知识库应用平台的开发

《段注》知识库建设的目标在于促进学术资源的共享,以数字化技术赋能传统学术研究。为此,我们开发了一个交互式的《段注》知识库应用平台,提供三大功能模块:(1) 原文阅读与检索,(2)知识导览与检索,(3)知识标注与管理

2.1 原文阅读与检索

“原文阅读与检索”模块提供了两类检索:“字头检索”与“全文检索”。“字头检索”允许用户通过楷字搜索《段注》和《说文读》中的正篆或重文字头,检索结果是匹配到的字头及字头下的许氏说解(大字显示)和段氏注释(小字显示),见图4。“全文检索”允许用户在包括字头、说解和注释的全部文本内容中搜索字符或字符组合,检索结果是包含匹配内容的字头及字头下的说解和注释,并对匹配内容进行了高亮显示,见图5。点击检索结果中的字头,会跳转到该字头的原文阅读页面,见图6。

图 4  字头检索结果页面

原文阅读页面采取三栏式布局(图6)。页面左侧是目录区域,遵循原书结构,以“卷—部—字”为三级树形导航结构,使用户能够快速定位跳转至目标字头。中间的文本展示区,包含字头、字形、《段注》、《说文读》等信息,并提供高清原图链接。右侧的知识索引区,分为“文字”“音韵”“训诂”“校勘”“引书”五大类,呈现《段注》中该字头下的知识点实例。页面顶部也提供了便捷的检索框,输入内容后,直接重新搜索。

图 5 全文检索结果页面

图 6 原文阅读页面

2.2  知识导览与检索

“知识导览与检索”模块页面下方是整理的《段注》三层分类知识体系。段玉裁在注释《说文》时,可能有不同的用语来描述相同的语言现象;我们则在每组表达相同语言现象的用语中选择一个代表形式作为知识点的名称,而将其他用语作为其同义关联项。页面上方搜索框,可以帮助用户通过模糊的用语关联到对应的知识点。如,在搜索框键入“因”,用语中可能包含“因”的知识点(包括其解释和关联用语)会在页面底部出现(图7)。点击搜索结果,可以进入知识导览页面,并定位到该知识点(图8)。

图 7  知识检索结果页面示例

图8  知识导览页面示例(单对象描述性知识点)

       知识导览页面同样采用三栏式布局(图8)。左侧导航区采用“知识范畴—知识集—知识点”三级目录结构,通过渐进式交互,帮助用户定位知识点。中间区域,呈现该知识点的具体实例。实例的呈现是以字头为单位的,内容包括字头下的许氏说解(大字显示)和段氏注释(小字显示),注释中与知识点匹配的内容以红色突出显示。对于多对象关系型知识点,还会呈现与之相关联的字头信息(图9)。右侧是知识点说明,提供概念说明以及相关研究文献的索引。

图9 知识导览页面示例(多对象关系性知识点)

说明:此处,页面内容显示的是“音义同”知识点。段玉裁在“皋”字下注释“葢古告皋嗥號四字音義皆同。”在知识点实例中,就存储了“告—皋”“告—嗥”“告—號”三组对象关系型实例。因此,在“告”字下,还显示与其“音义同”的“皋”“嗥”“號”三字。

2.2 知识标注与管理

“知识管理与标注”提供了三个功能:知识点的修改、知识点的增加和知识点实例的标注(图10)。点击“管理知识点”按钮,进入知识点修改功能,选择待修改的知识点,弹出对话框,可以修改该知识点所属的范畴(每一个知识范畴对应的知识集保持不变)和实例类型(图11)。点击“新增知识点”按钮,弹出对话框,可以添加新增知识点的各种属性(图12)。点击“开始标注”按钮,进入知识点实例标注功能。

图10  知识管理与标注页面

图11  修改知识点功能

图12  新增知识点功能

知识标注页面也是三栏式布局。左侧顶部检索框支持关键词或正则表达式检索,可以搜索注文中包含特定用语的字头。点击字头,中间栏显示该字头下的原文。对于单对象描述型知识点,可以选择相应的文字复制到右侧标注工作区的知识描述框,保存标注后,添加为该知识点的一个新增实例(图13);对于多对象关系型知识点,还增加了对象组管理框,用以添加符合关系的对象组(图14),对象组是两两添加的,如果遇到三个或三个以上的对象关系,可以通过“新增对象组”利用将其分解为两两关系进行添加。

图13  知识标注页面(单对象描述型知识点)

图14  知识标注页面(多对象关系型知识点)

3

《段注》知识库应用举例

基于构建的《段注》知识库与应用平台,通过知识点间的关联与比照,可以系统展现段玉裁的研究成果,深入挖掘蕴含的学术思想。

以段玉裁的谐声归部为例。在完成了《段注》字头古韵归部与形声字声符的知识点标注后,我们将《段注》中所有形声字按其声符归入其所属的谐声系中,每一谐声系以“声首”为代表。如“照”的声符是“昭”;“昭”的声符是“召”;“召”的声符是“刀”;“刀”是一个非形声字,没有声符了,它就是“召”“昭”“照”的声首。以“刀”为直接声符(如“召”)或间接声符(如“昭”“照”)的所有形声字就构成了一个以“刀”为“声首”的谐声系,这个谐声系是有层次的。将“声首”按所属的古音韵部(即段玉裁的第一至十七部)进行排列,每个声首下按其声符层次展现谐声字,并在与“声首”不同韵部的谐声字后以括号标注其所属韵部(没有标注的谐声字与“声首”的韵部相同),这样就可以一览每个谐声系中的古韵韵部分布,如图15所示。

图 15 《段注》谐声系中韵部分布示例

说明:在《六书音韵表·古十七部谐声表》中,段玉裁将“求”放在第三部,以“求”为声符的形声字都被段玉裁归入第三部,但“求”字是被归入第一部的。此处根据“声首”韵部排列谐声系中,将其排在第一部中。

通过谐声系内韵部间的合韵次数计算,可以绘制出《段注》谐声偏旁分部互用的合韵热力矩阵(见图16)。段玉裁合韵说解释的是“音值相近的韵部,在古人用韵、文字使用、语词派生等方面会经常发生相通”的情况。此处计算的谐声系内韵部间的合韵次数是指谐声字与其声所属韵部不同的情况,如“弭”在第一部,以“弭”为声符的谐声字“麛”在十六部,则第一部与第十六部算作合韵一次。图16 矩阵中的数值就表示对应行、列所代表的韵部在谐声网络中发生合韵的次数,是一个沿主对角线对称的矩阵,次数越多,颜色越深。

段玉裁是第一个打破《广韵》次第,按古音远近关系排列韵部次序的。两个韵部之间的合韵的次数越多,则古音就可能就越相近,越应该相邻排列。反映在图16中,合韵次数多的颜色较深的区域就主要集中在主对角线的两侧,可见段氏古音框架构建的科学性。其中比较特殊的是第一部与第二部,第五部和第六部,第八部与第九部,虽然相邻,但几乎不发生合韵。段玉裁在《古十七部分合用类分表》中,将十七部分为六类(第一部为第一类;第二部至第五部为第二类,第六部至第八部为第三类,第九部至第十一部为第四类,第十二部至第十四部为第五类,第十五部至第十七部为第六类),各大类的区分主要以同韵尾为标准。其中第一和第二部第五和第六部,第八和第九部就是前四类的分界。合韵次数最多的是第十五和第十六部,第十二和第十三部,第十四部和十五部,第七和第八部。

段氏的十五部和十六部就是被钱大昕赞誉为“凿破混沌”的“支之脂三分”中的“脂”部和“支”部,一部则为“之”部。戴震对段氏“支脂之三分”的发现也是赞不绝口,认为“此说为确论”,但同时认为“支”“脂”“之”三部应该放在一起,不应“之”部列第一,而“脂”“支”远在第十五部和第十六部。从图16数据来看,第一部和第十五部、第十六部合韵次数均较少。第十二部和十三部则对应段氏古韵分部的另一贡献“真文分部”中的“真”部和“文”部。江有诰评价“真文分部”时说道:“段氏之分真、文,人皆疑之,有诰初亦不之信也,细抽绎之,真与耕通用为多,文与元合用较广,此真、文之界限也。”其中与“真”通用为多的“耕”部就是段氏第十一部,而与“元”合用为广的“文”部则是段氏第十四部,江有诰之说也可以从图16中得到验证。第七部和第八部则是十七部中唯二的收唇韵,以-m、-p为韵尾。十七部中与其他韵部发生合韵最多的是第十五部(每行合韵次数相加),这与段氏对第十五部的界分过宽有关。在段氏的异平同入框架下,第十五部是包含入声韵的,且第十三部和第十四部皆以十五部之入为入。

图16 《段注》谐声偏旁分部互用的合韵热力矩阵

前人关于段玉裁谐声归部的研究主要集中于三个方面:一,《段注》字下所注韵部与《六书音韵表》的差异比较,如周祖谟、何九盈等;二,段氏对谐声字古音归部的处理原则与方法,如刘忠华;三,“谐声偏旁分别部居”所体现的韵部间的远近关系,如郭必之。较全面的研究有张道俊的《<说文解字注>古韵订补》与《<说文解字注>古韵归部》,前者对《段注》中韵部未标、错标以及游移字的情况进行了订补校勘;后者通过对比,探讨了段氏古音归部的依据以及归部标准的变化。

《段注》知识库的构建,不仅可以贮存前人的研究成果,还可以推动相关研究路径的三重突破:其一,支持对段氏谐声归部体系的系统性检验,通过批量比对与统计分析,揭示其内在逻辑与潜在矛盾;其二,借助关联查询与可视化技术,为其理论与方法提供直观的数据支撑;其三,知识库的开放性与可扩展性,有利于后续整合构形、音韵、训诂等多维数据,拓展研究的深度与广度。

4

结 语

段玉裁《说文解字注》知识库以段玉裁《说文解字注》与《说文解字读》为底本,系统梳理其内在的结构,构建了涵盖文字、音韵、训诂、校勘和引书五大范畴的三层分类知识体系,并完成了五十六个知识点、数万条实例的结构化提取与存储。在此基础上开发的交互式应用平台,不仅支持原文检索与知识导览功能,更提供了开放式标注与管理功能,支持知识库的可持续建设。

展望未来,研究仍有多方面的深化空间。知识层面,可进一步扩充专题知识集,构建更为丰富、立体的学术语境;技术层面,可探索引入自然语言处理技术,辅助知识点实例的半自动标注与关系抽取,提升知识库构建的智能化水平;应用层面,可开发面向不同用户群体的接口,如为专业学者提供网络分析等深度研究工具,推动数字化研究范式的转型。此外,知识库的可持续发展机制也需进一步探索,如建立协同标注模式,吸引领域专家通过在线平台参与审核、补充与讨论、保障知识库的活力与权威性。我们期望《段注》知识库能够逐步成长为一个动态演进、持续完善的数字学术基础设施,为中国传统语言文字学传承、发展与创新提供扎实资源支撑与方法赋能。

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

中国人民大学数字人文研究院发布《全球视野下的中国古籍数智化演进与未来趋势报告》

2026年4月15日 19:09

数字人文研究院 2026-04-15 19:09 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

该报告对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结

2026年4月14日,世界互联网大会亚太峰会“典籍数智化与传播论坛”在香港举行。本次论坛的主题为“从‘藏诸名山’到‘传于指尖’:数智时代的典籍记忆与文明互鉴”,旨在探讨在人工智能技术背景下,传统典籍如何实现从物理保存到数字化传播的转型。在论坛成果发布环节,中国人民大学信息资源管理学院数字人文系教授、数字人文研究院研究员夏翠娟代表研究院发布了《全球视野下的中国古籍数智化演进与未来趋势报告》(以下简称报告)。该报告作为世界互联网大会文化遗产数字化专委会系列研究成果,由夏翠娟教授带领中国人民大学数字人文研究院多位研究员共同编制,基于对全球范围内多个国家、文化记忆机构及科研机构的调研,对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结。

报告首先明确了调研的范围与对象。参考了《古籍定级标准》(WH/T 20-2006/GB/T31076.1-2014),界定了“中国古籍”的定义和范围。报告认为,古籍作为以文本、图像、实物等形式承载知识与思想的文化记忆媒介,其数智化转化不仅关乎文献本身的保存,更涉及中华传统知识生产方式与文化传承机制在现代技术环境下的延续。

在调研内容方面,报告的第一部分聚焦于全球数字化存量与增量的考察。通过对海外文化记忆机构的深度调研,报告提炼了中国古籍载体形态的演进历程——数字化、数据化、语义化、智能化,即从物理纸本到数字影像,到可计算文本和结构化数据,再到关联数据和知识图谱,以及当前的垂直领域模型训练数据集和语料库。研究发现,古籍的利用方式经历了从信息孤岛向开放互联转变,正处于从数字化到数智化转型的窗口期。这种演进轨迹反映了技术在跨越时空阻隔、推动文化资源在全球范围内流动中的作用,同时也揭示了当前数字化资源在开放度与互操作性方面存在的差异。

技术路线的演进和提升建议是本报告的核心内容之一。第二部分通过对典型案例的分析,评估了技术的迭代对古籍开发利用模式的影响,提出了从载体数字化,到文本结构化,再到数据语义化和资源向量化的数智化开发技术演进路径,并总结了不同类型的案例在技术应用上的共性和差异性,对技术应用的问题进行了分析,并提出了技术提升的建议。报告提出,技术的应用伴随着伦理治理、版权保护及算法偏见等问题,建议在技术开发过程中保持审慎,支持人在回路机制,以确保技术手段与文化传承的目标保持一致。

国际合作与人智协同标准的制订是报告关注的第三个重点。报告调研了IIIF(国际图像互操作框架)、关联数据以及MCP(模型上下文协议)等标准规范在古籍领域的应用现状。研究认为,领域内广泛认同的标准规范的共同制订和落地应用是打破数据壁垒、实现国际共建共享的基础,但类似IIIF和关联数据这样能促进全球中国古籍资源共享和利用的国际标准也遇到了运维成本和技术门槛高、本地化应用水土不服的问题。而在人工智能背景下,类似模型上下文协议(MCP)这样的规范有望将全球范围内已有的中国古籍数智化成果与人工智能技术结合起来,为解决人工智能技术的幻觉问题和多源数据互证提供一定的解决方案,值得关注并促进本地化和垂直领域应用。报告分析了当前国际合作中的瓶颈,如数据主权、技术壁垒以及发展不均等,并建议未来应进一步完善兼具前瞻性、包容性和本地化的技术标准,以应对人机关系重构为中国古籍数智化开发利用带来的新机遇。

在结语部分,报告指出,中国古籍的数智化转型是一场涉及文明传承方式的深刻变革。在人工智能重塑社会生产力的趋势下,古籍的保护已不再局限于传统的扫描、存储、检索、阅览,而是向以资源、数据和知识为基石的智能利用阶段迈进。尽管技术飞跃显著,但全球范围内仍面临算法偏见、学术伦理以及文化主体性保护等共同挑战。为此,中国人民大学数字人文研究院在报告中发出倡议,呼吁全球学界、文化记忆机构与技术界开展跨界协作,推动中国古籍数字资源库、知识库、语料库的建设融入人工智能技术的发展议程,将典籍转化为碳基人类与硅基智能共同的文化记忆。

该报告的编制工作由中国人民大学数字人文研究院夏翠娟研究员带领多名师生共同完成。参与编制的人员包括:中国人民大学信息资源管理学院教授夏翠娟,讲师龙家庆、严承希、胡云怡;信息资源管理学院博士生郑振魏、曲梓萌、孟令国;文学院博士生居思微,硕士生吴世强、祝章霞。期望这份跨学科团队共同完成的报告,能为中国古籍在数智时代的保护、研究与传播提供参考。

撰稿/图片:夏翠娟

排版:任佳悦

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

《数字人文研究》2026年第1期目录及摘要

2026年4月13日 12:26

数字人文研究 2026-04-13 12:26 北京

第6卷,总第21期

批判性再谈“数字人文”

许喆

摘要

数字人文作为人文研究中的新兴领域,其学科属性迄今仍较为模糊,并伴随持续争议。文章从方法论视角出发,综合分析各国学者关于数字人文在克服传统人文研究局限方面的论述,并批判性地指出当前数字人文研究中“重数据建设、轻实质研究”的倾向。文章主张,数字人文本质上应被理解为人文研究的方法论,而非独立学科,并强调数据准确性、研究的科学性和论证逻辑的严密性。与此同时,文章批判了当前数字人文教育过分关注技术工具的使用,而忽视人文问题意识以及发现问题和解决问题能力的培养,因而有必要从“技术中心”转向“问题中心”和“批判思维”导向。

关键词

数字人文; 方法论; 学科建设; 批判性思维; 数据准确性; 研究范式

作者简介 

许喆(HEO Chul),韩国釜山大学佔毕斋研究所研究员,鲁东大学区域国别学院特聘教授。

叙事责任与人工智能——AI如何挑战人类的责任与意义理解

马克·科克尔伯格   易瑶琴  杨 璇/译

摘要

多数责任论述聚焦于一种责任,即道德责任,或对道德责任的特定方面展开探讨,如能动性。文章概述了一个更广泛的责任思考框架,涵盖因果责任、关系责任,以及作者称之的“叙事责任”——作为“诠释责任”的一种形式,并将这些责任概念与不同类型的知识、学科和关于人的存在的观点相联系,阐释此框架如何有助于绘制和分析人工智能以各种方式挑战人类的责任和意义构建。文章借助最新的诠释学方法研究技术,提出除了道德责任等类型的责任外,人类还承担着叙事责任和诠释责任——一般而言,也包括对技术的责任。例如,人类的任务是了解并运用人工智能,在必要时对其加以约束。虽然从后人类主义的角度来看,技术有助于意义构建,但人类是体验者和责任承担者,在涉及此类诠释责任时,人类始终占据主导地位。面对一个充满数据要素、相关性和概率的世界,注定要去做出合理解释。此外,这一工作还涉及规范层面,有时甚至是政治层面:倘若人类希望避免自己的故事被他人借助技术手段改写,那么承认并履行诠释责任尤为重要。

关键词 

责任;  叙事责任;  诠释责任;  人工智能;  诠释学;  技术哲学

作者简介 

马克·科克尔伯格(Mark Coeckelbergh),维也纳大学哲学系教授;

易瑶琴(译者),云南大学马克思主义学院硕士研究生,Email:18000289002@163.com;

杨璇(译者),云南大学讲师。

中共党史研究语料智能体的构建经验与思考

马思宇  王亚星  肖桐月  李庚辰

摘要

中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属OCR适配方案与父子分段式知识库构建模式,形成“以OCR适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑”的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

关键词 

党史研究; 史料转化; 知识库构建; 数字人文

作者简介 

马思宇,南开大学历史学院副教授,Email:masynku@126.com;

王亚星,南开大学计算机学院副教授;

肖桐月,南开大学历史学院2022级本科生;

李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

张光伟

摘要

面对浩如烟海且高度非结构化的历史档案,传统的数字化处理与关键词检索模式已难以满足日益复杂的史学研究需求,特别是在处理如《盛宣怀档案》这类涉及晚清政治、经济、外交等多维网络的复杂史料时,研究者常陷入查不全、理不清、关联难的困境。研究在回顾数字人文从数字化、结构化向智能化转型的技术背景的基础上,引入大语言模型前沿的思维链技术与推理一行动框架,构建了一个基于AgenlicRAG的“盛宣怀档案智能分析系统”。该系统突破了传统知识图谱预定义的局限,通过“意图理解、资料检索、资料总结、评估决策、内容撰写”五个智能体的协同工作,实现了对全量档案文本的语义向量化与动态推理。系统具备主动规划检索路径、多步逻辑推演、跨文档证据互证以及自我纠错的能力,能够模拟历史学家“提出假设一史料搜集一考证辨析一形成结论”的认知过程。文章通过微观、中观和宏观三个层面的典型案例展示了该系统的应用潜力。研究实践证明,AI时代这种“人机回环"(Human-in-the-loop)的协作模式,不仅能将历史学家从繁琐的信息搜寻中解放出来,更开启了以数字文献考古与全息逻辑增强为特征的历史研究新探索的可能性。

关键词 

盛宣怀档案; 大语言模型; ReAct框架; 思维链; Agentic RAG; 人机协作

作者简介 

张光伟,陕西师范大学历史文化学院讲师,Email:zhangguangwei@ snnu.edu.cn。

本地化智能史料管理系统的构建方法与实践

安高怡

摘要

在当前数字化背景下,传统中心化在线数据库在数据自主权、持续运营和海量资料协同方面面临结构性挑战。研究旨在提出并构建一套以“数据本地化”为核心,利用Obsidian笔记软件、开源OCR技术及自建私有云同步机制的综合方案,用以建立个人化、具备高可移植性与协作性的史料数据库。该方案通过Obsidian的纯Markdown架构和插件生态,解决了史料与笔记的割裂问题,并融入AI能力进行史料对话和分析。同时,通过自建高性能私有云,突破传统网盘的带宽限制,实现数据自主权和高效团队协作。该方案为个体研究者和小型学术团队提供了一种低成本、可持续、高安全性的数字人文研究工作流,有助于推动学术积累的开放和阶梯式发展。

关键词 

史学数据库; 数字人文; 数据本地化; Obsidian

作者简介 

安高怡,华中师范大学历史与文化学院硕士研究生,Email:205959586@qq.com。

文化遗产的“游戏化生存”

——兼论数字人文研究中的可玩性

王一楠

摘要

文章以“游戏化生存”为理论命题,系统探讨文化遗产在数字原生范式中的存在方式及其认识路径。将电子游戏界定为兼具拟真系统、具身界面、可能时空与情动媒介四重属性的程序化建模/模拟系统,并揭示出其在强化联觉体验、激活身体图式、延展想象空间及引导公共行动等方面的机制潜能。基于此,进一步提炼出“可玩性”作为数字人文研究中的关键概念,将其界定为操作可能性与生成开放性的统一,并阐发其在融合表示、具身认知、动态推演与能量汇聚四个维度的方法论价值。研究指出,可玩性不仅是数字文化遗产的存续机制,更是推动人文知识生产方式从文本阐释转向模拟与体验的关键路径。

关键词 

文化遗产; 游戏化生存; 电子游戏; 数字人文; 可玩性

作者简介 

王一楠,中国人民大学信息资源管理学院讲师、数字人文研究院研究员,Email:yinan.wang@ ruc.edu.cn。

提示词对AI文学创造力的激发机制研究

李倩  吴静

摘要

随着生成式人工智能深度介入文学创作,提示词已成为影响人机协同创作效果的关键因摘素。针对提示词如何激发其文学创造力这一问题,研究设计了五类提示词在DeepSeek模型上进行生成实验,并采用主客观结合评估体系并展开量化与质性分析。实验揭示:提示词通过“语义定向一认知修辞介入”机制,将人类意图转化为AI可执行创造操作;其中,抽象概念型激活跨域类比,多元融合型促进异质语义整合。AI文化寄生性既反映人类集体无意识,又提供陌生化表达契机,推动分布式创造力涌现。提示词设计与多轮生成策略在AI文学创作中的关键作用,为数字人文语境下人机协同创作提供理论与方法参考。

关键词 

提示词; 人工智能文学创作; 创造力评估; 数字修辞学

作者简介 

李倩,南京师范大学公共管理学院哲学系博士研究生、新疆财经大学中国语言文化学院语言文学系讲师;

吴静,华东师范大学哲学系教授。

水书文字数据库和智能识别平台构建

孙治弘  谢雨霏  刘凌  叶晨

摘要

水书是中国水族独有的文字文献,蕴含丰富的民族文化信息,被誉为水族的“百科全书”。然而,受限于数据资源稀缺、手写字形繁复且非标准化、语义解读高度依赖稀缺传承人等因素,其数字化保护与智能化识别面临巨大挑战。为此,研究构建了“水书文字数据库”与“水书智能识别平台”。水书文字数据库采用“书一篇一句一字”四级架构,整合水书字形图像、注音及释文信息,并提供多路径检索功能,有效汇聚并管理分散的水书文献资源。水书智能识别平台基于两阶段深度学习模型(DBNet文本检测+CRNN文本识别),通过引入Unicode私有区编码方案并采用数据增强策略,针对水书数据的低资源特性、长尾分布及复杂版式进行优化,实现了水书手写体文本的高精度识别。实验结果表明,该方法在水书文本检测与识别任务上的性能显著优于现有通用OCR方案。研究为水书等少数民族濒危文字的数字化保护提供了有效的技术解决方案,对相关古籍文献的数字人文研究具有重要参考价值。

关键词 

水书; 数字化保护; 智能识别; 文字数据库

作者简介 

孙治弘,同济大学计算机科学与技术学院,研究生;

谢雨霏,同济大学计算机科学与技术学院,本科生;

刘凌(通讯作者),华东师范大学中国文字研究与应用中心,副教授,Email:lingliu60@163.com;

叶晨(通讯作者),同济大学计算机科学与技术学院,教授级高级工程师,Email:yechen@tongji.edu.cn.

全球虚拟货币发展的历史空间进程研究——以比特币为核心

赵佳文

摘要

在当代电子信息技术迅速发展的背景下,虚拟货币诞生并席卷全世界,搅动了全球金融市场及传统治理体系。自中本聪发表“比特币白皮书”以来,比特币就成为代表性的虚拟货币,文章依托电子历史文献学、互联网考古方法,基于互联网原生电子史料,结合国内外最新研究,从全球、长时段的角度追溯比特币的发展史,比较不同国家的监管政策,发掘比特币作为去中心化时代、逆全球化时代的新型交易通货的重要价值,并指出虚拟货币的演变是技术协议、物质载体与社会应用三者交织的产物,由此提出“三元嵌套空间生产模型”假说。文章为理解当代金融史和互联网发展史提供了一个新的角度和路径。

关键词 

虚拟货币; 区块链技术; 金融史; 互联网考古; 互联网历史; 数字人文

作者简介 

赵佳文,延边大学人文社会科学学院历史系讲师,Email:21110760017@m.fudan.edu.cn。

阅读原文

跳转微信打开

一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化

2026年4月9日 16:01

01fish 2026-04-09 16:01 北京

项目介绍

shiji-kb:一个开源的古籍知识工程项目。做了两件事:

第一,用AI将《史记》130篇、57万字全部转化为结构化知——18类实体近10万次标注、3,185个事件、7,652条关系、675项知识单元;

第二,把整个过程沉淀为26个可复用的知识库构造方法论Skill文档,覆盖从校勘到知识推理的9大阶段。换一部书,管线不变,参数调整,即可构造新的知识库。

传统文史研究的核心困境是人力瓶颈,而中国古典文献的总量以亿字计,这个宝库还没有被充分挖掘。这个项目最开始的初心是要回答一直以来的问题:AI能否把"皓首穷经"从数十年压缩到数周?AI能否把知识变为活的?

当前实践下来答案是肯定的。一个人加一群AI Agent可以完成全部工作。现成果以及方法论已开源,欢迎参与一同创造。

项目创作者为西瓜(鲍捷),一个研究人工智能知识工程30+年的文史爱好者。

Github地址(开源)

https://github.com/baojie/shiji-kb

(这个项目处于频繁更新状态,内容在不断丰富和调整,AI在把知识变为活的,这个知识库也是一个活的)

在线体验

https://baojie.github.io/shiji-kb

(文末有交流群,开放出来,非常期待收到更多反馈)


核心成果

类别

数量

说明

文本标注

130篇,57.7万字

18类实体语义标注,100%覆盖

实体

12,380词条,99,214次标注

人名4,112、地名1,861、官职2,158等18类

事件

3,185个,11类事件类型

98.7%事件已标注公元纪年(前2700年~前87年)

事件关系

7,652条,9种类型

含1,876个跨章换乘(互见/共人/共地/同期)

事件地铁图

130条线路

支持缩放/拖拽/搜索/实体链接/原文引用

知识单元

434事实 + 241技能

7,497个实体关联

方法论Skill

26个文档,9大阶段

可复用,适用于其他任何书籍

核心数据总览

内容细节详见:给《史记》加上语法高亮:一个人+一群AI的55小时


功能特性

语法高亮:18类实体,一眼看懂谁在哪里做了什么

打开任何一篇,古文不再是黑字白底的方块字——人名、地名、官职、时间、朝代、邦国、氏族、身份、制度、族群、器物、天文、生物、数量、神话、典籍、礼仪、刑法,18类实体各有颜色。平均每6个字就有一个实体被识别上色。对话也被标记——斜体加淡褐底色,让"王侯将相宁有种乎!"从叙述中浮现。

这是18类实体+年表和事件

图片

语法高亮效果

五体分布

除了语法高亮之外,我还做了语义排版,这个也处于实验状态当中,做了第一章,词和句层面的工作都开启了。

语义排版,如下图:

图片

三家注弹窗:一千年前的注释即点即现(实验中,本月上齐)

裴骃《集解》、司马贞《索隐》、张守节《正义》——已对齐到正文的具体句子。鼠标悬停,注释自动浮现。不用翻书,不用离开页面。

这目前是实验项目,只做完了第一章,本月上齐,在 labs 那个文件夹。

三家注弹窗

事件知识图谱:3,185个事件 + 7,652条关系

从130篇中提取了3,185个历史事件(战争、继位、政治、改革、家族等11类),98.7%标注了公元纪年。事件之间建立了7,652条关系——因果、延续、包含、对立、互见等9种类型,其中1,876条跨章关系让分散在不同篇章的同一段历史重新连接。

事件类型分布

事件地铁图:用地铁线路的方式看历史(实验中,本月更新)

130篇 = 130条地铁线路,3,185个事件 = 3,185个站点,跨章关系 = 换乘连线。支持缩放、拖拽、搜索,点击站点可跳转到原文。时间轴横跨公元前2700年到前87年——整部《史记》的全景图。

事件地铁图

实体索引:12,380个词条,18类分类页面

所有实体汇总为结构化索引,每类一个独立页面(人名、地名、官职、时间、朝代、邦国、器物……共18类)。含595条别名映射(刘邦=沛公=汉王=高祖=高帝=刘季),644处语义消歧。点击任何实体,看它在130篇中的全部出处。

实体索引

知识单元:434项事实 + 241项可操作的历史技能

事实层:434项知识单元,覆盖人物传记、诸侯国、军事战役等14个主题。每项含定义、上下文、关联实体、原文出处。

技能层:241项从《史记》叙事中提炼的实战案例——治国理政57项(如推恩令:用分封瓦解诸侯)、军事战略54项(如背水一战:置之死地而后生)、外交谈判24项。不是成语,是有时间、人物、过程、结果的完整案例。

知识单元

十表渲染:两千年来最难用的年表变好用了

十二诸侯年表——15列×637行,362年间14个政权——在纸质书上几乎不可用。现在:表头吸顶、交替行背景色、悬停高亮、表内实体照样标注。

十表渲染

史记争霸游戏(实验中)

基于知识图谱数据的策略游戏。人物能力值来自《史记》记载,势力版图来自标注的地名关系。

由于我本人在游戏这块技能有限,因此我只完成了第一步,这块期待游戏方面的朋友一起来创造。

游戏目前在这个仓库下:https://github.com/baojie/shiji-kb/tree/main/app/game

史记争霸游戏


26个方法论Skill:换一部书,可上手构建

这是整个项目最有价值的部分,《史记》只是一个起点。 《史记》处理过程中的skill已完整沉淀下来,是一套可复用方法论。

目前的skill整个框架,还是比较粗糙的,会慢慢改进。

26个Skill文档,覆盖从原始文本到知识应用的9大阶段:

九步管线

你可以用这套skill来分析你选定的任何书籍。

每个阶段都有详细的操作文档:

阶段

Skill数

核心文档

干什么

校勘

1

SKILL_01

多版本比对,底本校正

结构分析

6

SKILL_02~02f

章节切分、段落编号、结构语义分析

实体构建

4

SKILL_03~03e

18类NER标注、消歧、多轮反思审查

事件构建

5

SKILL_04~04e

事件提取、十表处理、纪年推断、年代审查、年份消歧

关系构建

2

SKILL_05a~05b

9种事件关系、人物关系+家谱

本体构建

1

SKILL_06a

词表→分类树→OWL/RDF

逻辑推理

1

SKILL_07

矛盾检测、规律发现

SKU构造

1

SKILL_08

知识单元化

应用构造

3

SKILL_09~09b

阅读器、地铁图、游戏化

可以看到,在这个skill框架当中,后面几个类别的skill比较少,我当前主要工作主要放在了前面,这一整套skill会持续迭代,发布出来也是期待收到更多反馈。

换一本书,需要调整的只是: 实体类型(佛经需增加"佛教术语"类)、体裁分类(编年体和纪传体提示词不同)、别名规则、年份体系。框架不变,参数变。

扩展路线:

目标

字数

现状

史记(已完成)

57万字

汉书、后汉书、三国志

~200万字

近期

二十四史全集

~4,600万字

中期

资治通鉴系列

~700万字

中期

诸子百家、四库全书

数亿字

远期

扩展路线


怎么用这个项目

一、直接在线阅读(零门槛)

打开 https://baojie.github.io/shiji-kb ,选章节即可。

推荐体验路线:

顺序

看什么

链接

1

项羽本纪——鸿门宴、乌江自刎,最精彩的叙事

007章

2

刺客列传——荆轲刺秦,对话高亮效果最佳

086章

3

十二诸侯年表——362年全景,感受表格渲染

014章

4

实体索引——按人名/地名/官职分类浏览

索引首页

5

事件地铁图——130条线路的全景历史

地铁图

6

史记争霸——策略游戏

游戏

二、搭配AI使用(研究/创作)

git clone https://github.com/baojie/shiji-kb.git 

仓库里的结构化数据(JSON/Markdown)可以直接喂给Claude、GPT等大模型:

数据目录

内容

适合问什么

kg/events/data/

3,185个事件+关系

"秦统一六国的完整时间线"

kg/entities/data/

12,380个实体+别名

"韩非和李斯的所有交集"

kg/chronology/data/

380位君主在位年+公元映射

"公元前260年发生了什么"

kg/genealogy/data/

帝王世系图

"刘邦的后代有谁当了皇帝"

kg/relations/data/

人物关系网络

"项羽阵营的核心人物关系"

ontology/skus/

675项知识单元

"《史记》中有哪些外交策略"

数据目录

三、用Skill处理其他任何书籍(开发者)

这是项目最大的复用价值。26个Skill文档在 skills/ 目录下,每个都是完整的操作手册。

最简路径:

将这些skill和你的文本,交给claude/或者任何agent,根据这一套方法论,帮我构造一个xxx知识库。

每个Skill文档包含:输入输出规范、标注规则、质检工具、常见错误、反思修正流程。直接照着做就行。

skill 你可以用在任何编程助手来调用。创作者使用的是claude code,若你没有安装,此处非常推荐上手,安装地址为 Claude Code 安装与使用教程(新手超详细版)

四、做内容创作(素材引擎)

创作场景

怎么用

历史小说/剧本

kg/events/

 查事件时间线,kg/relations/ 查人物关系

历史游戏

ontology/skus/

 的241项技能直接转化为游戏技能卡

短剧/短视频

ontology/eureka.md

 里的洞见就是现成的选题

教学备课

实体索引页面按类别浏览,配合三家注弹窗

学术研究

事件关系做一致性检验,自动发现记载矛盾

创作场景


知识结构化之后,会发生什么

项目在知识提取过程中意外发现了20多个跨章洞察——这些不是预设的研究假设,而是知识图谱结构化后自然涌现的模式:

知识涌现


写在最后

这个项目的核心价值不是"给《史记》加了颜色"——是把"书变成知识库"这件事的完整方法论开源了。

26个Skill、9大阶段、每个工序都有lint和validate工具。一个人加AI,用同一条管线,可以处理任何书籍。《史记》57万字是第一个试验田,二十四史4,600万字是下一步,列表非常长,逐步让几千年积累的文字全部结构化。

关于这个项目,只开启了1%,欢迎共同来迭代。知识工程的所有问题,在当前AI时代都已经解决,只剩下我们坚定执行和创造。

最终愿景:建立一个由AI Agent维护和持续进化的知识网络,让任何人都能以问答、可视化、推理的方式探索数千年的智慧。

在线体验:https://baojie.github.io/shiji-kb

GitHub:https://github.com/baojie/shiji-kb

非常期待和你一起探索各种 AI 增强阅读的可能性,欢迎来群里和项目创造者直接交流

图片

若群满了,可以加  18501790646 备注ai阅读


调研 & 撰写:AI(Claude)
主导 & 审校:01fish

阅读原文

跳转微信打开

❌