普通视图

Received before yesterday3 - 人民大学公众号

技术伦理、数字文化治理领域论著及作品推荐

2026年5月20日 09:00

原创 刘锦东 2026-05-20 09:00 北京

技术伦理、数字文化治理领域论著及作品推荐

作者

简介

刘锦东(Leo-Liu Jindong),香港教育大学教育发展与创新学院助理教授,一带一路商务传意与行政硕士课程主任,新媒体与社交媒体硕士课程副主任。先后毕业于香港中文大学和英国伦敦国王学院。研究兴趣包括人机传播、新媒体技术批判和文化研究、人工智能伴侣和虚拟现实社交等,研究成果可见于多部SSCI一区期刊、China Daily 和澎湃思想市场。

(声明:本书单仅代表个人观点,并不全面,但希望可以帮助到大家,欢迎大家多多推荐补充)

经典书籍/论文

  • 尤瓦尔・赫拉利. (2018). 今日简史:人类命运大议题 (林俊宏, 译). 中信出版集团股份有限公司.

  • 唐娜・哈拉维. (2012). 类人猿、赛博格和女人:自然的重塑 (陈静, 吴义诚, 译). 河南大学出版社.

  • 南希・凯瑟琳·海尔斯. (2017). 我们何以成为后人类:文学、信息科学和控制论中的虚拟身体 (刘宇清, 译). 北京大学出版社.

  • 雪莉・特克尔. (2014). 群体性孤独:为什么我们对科技期待更多,对彼此却不能更亲密? (周逵, 刘菁荆, 译). 浙江人民出版社.

  • 雪莉・特克尔.(2017). 重拾交谈 (王晋,边若溪,赵岭,译). 中信出版集团.

  • 何塞・范・戴克,托马斯.普尔,马丁・德・瓦尔. (2023). 平台社会:互联世界中的公共价值 (孟韬,译). 东北财经大学出版社.

  • 克里斯蒂安・福克斯. (2020). 数字劳动与卡尔・马克思 (周延云,译). 人民出版社.

  • Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417–424.

  • Mori, M. (1989). Buddha in the robot: A robot engineer’s thoughts on science and religion (C. S. Kubo, Trans.). Japan Publications.

  • Barbrook, R., & Cameron, A. (1996). The californian ideology. Science as culture, 6(1), 44-72.

  • Fuchs, C. (2014). Digital labor and Karl Marx. Routledge.

  • Withers, R., & de Peuter, G. (2011). Games of empire: Global capitalism and video games. University of Minnesota Press.

  • Zuboff, S. (2019). The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power. New York: PublicAffairs.

  • Plantin, J. C., Lagoze, C., Edwards, P. N., & Sandvig, C. (2018). Infrastructure studies meet platform studies in the age of Google and Facebook. New media & society, 20(1), 293-310.

前沿书籍/论文

  • 尤瓦尔·赫拉利. (2024). 智人之上:从石器时代到AI时代的信息网络简史 (林俊宏, 译). 中信出版集团股份有限公司.

  • 孙萍. (2024). 过渡劳动:平台经济下的外卖骑手. 华东师范大学出版社.

  • 牟怡. (2024). 传播的跃迁:人工智能如何革新人类的交流. 清华大学出版社.

  • 许煜. (2021). 论中国的技术问题 —— 宇宙技术初论 (苏子滢,卢睿洋,译). 中国美术学院出版社.

  • 布吕诺·帕蒂诺. (2021). 金鱼文明:注意力经济如何操纵我们的网络生活 (刘星驰, 译). 人民日报出版社.

  • 董晨宇, 叶蓁. (2021). 做主播: 一项关系劳动的数码民族志. 国际新闻界, 43(12), 6-28.

  • 陈昌凤, 梁亦昆. (2026). 既不亲密也不冷漠:与生成式AI日常互动中的情感光谱研究. 新闻与写作(1), 15-24.

  • 张小满. (2026). 大厂小民:我在互联网公司的1480天.文汇出版社.

  • Hao, K. (2025). Empire of AI: Dreams and nightmares in Sam Altman's OpenAI. Penguin Press.

  • Jasanoff, S., & Kim, S. H. (Eds.). (2019). Dreamscapes of modernity: Sociotechnical imaginaries and the fabrication of power. University of Chicago Press.

  • Richardson, K. (2016). Sex robot matters: slavery, the prostituted, and the rights of machines. IEEE Technology and Society Magazine, 35(2), 46-53.

  • Lin, B. (2024). The AI chatbot always flirts with me, should I flirt back: From the McDonaldization of friendship to the robotization of love. Social Media+ Society, 10(4).

  • Leo-Liu, J. (2023). Loving a “defiant” AI companion? The gender performance and ethics of social exchange robots in simulated intimate interactions. Computers in Human Behavior, Vol.141.

科幻小说

  • 阿西莫夫机器人系列

  • 亚瑟克拉克机器人系列

  • 陈楸帆《荒潮》&《刹海》

  • 金草叶《如果我们无法以光速前行》

  • 威廉·吉布森《神经漫游者》

  • 尼尔·斯蒂芬森《雪崩》

电影/电视剧

  • 《我,机器人》

  • 《黑客帝国》

  • 《黑镜》

  • 《银翼杀手2049》

  • 《攻壳机动队》

  • 《她》

  • 《流浪地球2》

  • 《西部世界》

  • 《真实的人类》

  • 《网络谜踪》

  • 《斯诺登》

  • 《少数派报告》

纪录片

  • 《监视资本主义:智能陷阱》

  • 《网络审查帝国》

  • 《谣言终结者:社交媒体与真相》

  • 《互联网之子:亚伦・斯沃茨的故事》

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

本地化智能史料管理系统的构建方法与实践

2026年5月18日 09:00

原创 安高怡 2026-05-18 09:00 北京

史学数据库;数字人文;数据本地化;Obsidian

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:安高怡.本地化智能史料管理系统的构建方法与实践[J].数字人文研究,2026,6(01):53-61.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

本地化智能史料管理系统的构建方法与实践

摘要: 在当前数字化背景下,传统中心化在线数据库在数据自主权、持续运营和海量资料协同方面面临结构性挑战。研究旨在提出并构建一套以“数据本地化”为核心,利用Obsidian笔记软件、开源OCR技术及自建私有云同步机制的综合方案,用以建立个人化、具备高可移植性与协作性的史料数据库。该方案通过Obsidian的纯Markdown架构和插件生态,解决了史料与笔记的割裂问题,并融入AI能力进行史料对话和分析。同时,通过自建高性能私有云,突破传统网盘的带宽限制,实现数据自主权和高效团队协作。该方案为个体研究者和小型学术团队提供了一种低成本、可持续、高安全性的数字人文研究工作流,有助于推动学术积累的开放和阶梯式发展。

关键词:史学数据库;数字人文;数据本地化;Obsidian

作者简介: 安高怡,华中师范大学历史文化学院硕士研究生,Email:205959586@qq.com。

 1  “中心化”的困境与本地化史料全文数据库的构建思路

在人工智能加速知识生产和传播的时代背景下,历史学界对于建设个人化、专业化史料全文数据库的必要性已形成共识。中心化数据库或平台的设计初衷是通过提供一体化、开箱即用的服务,来降低个体研究者入门数字人文的技术门槛。然而,这种依赖外部平台的解决方案并非没有隐忧,其内在的结构性弊端值得我们深入审视。

首先,中心化平台在数据交互上的系统局限,难以充分响应部分个体研究者在人工智能时代对于史料深度利用的个性化需求。近年来,一些在线数据库已逐步集成全文检索、智能问答、语义检索等前沿 AI 功能,极大地提升了文献获取与智能处理的效率。这类平台的设计初衷是提供标准化的通用服务,其内置算法与数据后台采取封装的系统架构。由于底层数据接口的限制,研究者难以将自定义的 Python 脚本或开源分析工具直接接入平台内部,根据具体课题将史料转化为“可计算的数据源”,进而自主对其进行高频的清洗、正则替换、实体标注乃至语义重组。这种系统架构的相对封闭性,在一定程度上限制了史料处理过程的算法透明度与可追溯性,也部分制约了研究者基于全文数据进行细粒度挖掘与个性化二次开发的探索空间。

其次是数据自主权与安全性隐忧。对于笔者所在的中国近现代史领域而言,这一问题尤为敏感。研究者将自己历经艰辛搜集、整理和OCR的史料上传至第三方服务器,本质上是将自身学术资产的控制权交由他人。平台运营的不确定性、未来政策变化的可能性,以及持续不断的服务器租赁、带宽购买和专业技术维护费用,给研究者带来了长期焦虑。更为关键的是,公有云平台普遍部署了自动化的内容审查机制,近代史史料往往包含大量特定历史时期的敏感表述或非公开档案信息,容易触发平台的风控策略,导致珍贵史料被误判删除甚至账号封禁。这种将学术命脉寄托于外部算法的不确定性,构成了数字人文研究中不可忽视的隐性风险。

另外,长期来看,中心化服务器模式不可避免地会延续学术积累的碎片化和个人化态势。由于现有平台的数据架构通常是高度封装且不可透视的,服务器持有端在后台看到的只是一堆代码,且用户难以快速、无损地将全部数据完整迁移出来,最终将会形成数据锁定效应。这直接导致各个数据库彼此隔绝、难以互通,严重阻碍可叠加、可继承的阶梯式学术积累的形成。

因此,“数据本地化”(Data Localization)显得尤为重要,它是解决上述所有结构性问题的关键所在。只有当史料数字化原件和OCR后的文本都以通用且标准化的文件格式储存在研究者自己的本地设备上时,数据的自主权和安全性才能得到根本保障,同时为研究者之间高效、低成本的学术合作与分享奠定基础,真正实现史学数据的自主可控。

 2  Obsidian作为史料管理容器的方法论革新与研究赋能

历史学者构建个人数据库的核心诉求,正在从单向的史料检索与消费转向深度的知识计算与生产。在这一新范式下,理想的学术数据库既需要具备私人档案室般的稳定秩序与数据自主权,以保障长周期考证的严谨性;又必须在底层架构上契合数字人文的开放性趋势——通过采用通用标准与非封闭格式,摆脱商业平台的流量逻辑与数据黑箱,确保珍贵的史料语料库能够跨越软件周期,实现与外部算法的高效互操作及学术共同体间的阶梯式共享。

在探讨 Obsidian 作为核心管理容器的优越性时,必须首先将其置于这种“数据自主权”与“标准开放”辩证统一的视域下进行审视。与优先考虑多端实时同步却将数据封装的传统云笔记不同,Obsidian 的核心仅仅是一个操作系统层面的本地文件夹。这一有些返璞归真的架构,恰恰契合了上述理论诉求:当史料以开放的 Markdown 格式存在于本地硬盘(示例见图1),不仅可让研究者获得绝对的数据控制权,规避平台锁定的风险,更确立了数字人文研究中最关键的前置条件——数据的“机器可读性”与“计算可介入性”。这意味着,史料数据不再为特定软件所“私有”,而是任何文本编辑器、脚本语言乃至操作系统都能无损读取,从而为后续大模型的深度介入预留了无障碍的计算接口。同时,Obsidian拥有充满活力的、去中心化的全球社区生态。其“核心框架+社区插件”的架构具备高度的可扩展性,允许用户像组装乐高积木一样构建专属的数字工作台,通过 GitHub 开源社区,无数开发者贡献了针对特定学术研究痛点的插件。这种开放的共生关系确保了工具的迭代速度远超传统闭源软件,为个人研究者提供了持续的技术支撑。

不过,Obsidian的原生架构遵循纯文本优先逻辑,这导致 PDF、图片等二进制文件在知识库中往往沦为“二等公民”。具体表现为:文件名难以被模糊检索,无法像 Markdown 笔记一样添加标签(Tags)或元数据(YAML Frontmatter),且无法直接参与基于属性的数据库查询。为打破这一壁垒,本方案引入 Binary File Manager 插件,构建了一套自动化的“双重表征”(Dual Representation)体系。该插件作为库的“守门人”,能够实时监测库中的文件变动。每当有一个PDF文件被导入,系统便会自动生成一个同名的 Markdown 伴生笔记。这一机制实现了档案管理的标准化跃迁:伴生笔记成为PDF文件的数字孪生体,研究者可在其 YAML 区域利用结构化数据记录档案的出处(Source)、年份(Year)、作者(Author)及分类标签(Class)。这使得原本难以被检索的PDF文件具备了被 Dataview 等插件进行结构化统计的潜力——如研究者可以一键查询“所有 1930 年至 1933 年关于土地革命的档案”,真正将非结构化的史料纳入了关系型数据库的管理范围。

实现海量史料的毫秒级全文检索,是本方案攻克的另一核心难题。对于动辄数百万字的史料库而言,Obsidian原生的搜索功能虽然强大,但针对PDF内部内容这类 GB 级中文字符时(依赖Omnisearch或Text Extractor插件),往往出现检索延迟高以及定位不精准等问题。针对此挑战,本方案采取了一种空间换时间的全量文本冗余策略:在上述“伴生笔记”的正文中,完整粘贴该PDF经 OCR 处理后的纯文本内容,并在笔记首行插入指向原始PDF的本地链接。这种看似迂回的战术,实则巧妙利用了 Obsidian对 Markdown 纯文本极致的索引优化。当需要检索时,系统瞬间定位到 Markdown 笔记中的具体段落,研究者通过首行链接即可一键跳转回PDF原文进行版式核对。这种机制以极低的操作成本,实现了“纯文本检索速度”与“原件版式保真”的完美统一。

进一步地,在微观的史料研读层面,本方案通过PDF++插件实现了从文档级到片段级的颗粒度细化,打破了传统研究过程中“史料与笔记割裂”的痛点。该插件引入了“高亮即摘录”的交互范式:当研究者在PDF中高亮一段关键史料时,插件会自动抓取选中的文字、对应的文件名以及精确的页面坐标(Page Coordinates),一键生成一张 Markdown 格式的原子化卡片笔记(示例见图2)。更为重要的是,这张卡片笔记自动与原始PDF建立了双向锚点链接。研究者点击笔记中的引用块,视图将瞬间跳转并高亮显示PDF原文中的对应位置。这种机制不仅解决了引用的规范性问题,更重要的是它将静态的PDF史料“原子化”为可被AI分析、可被双链关联的知识颗粒。坚持使用纯文本而非截图进行摘录,保证了这些史料片段能够被后续的 RAG 系统无损读取,为深度的AI辅助分析预留了数据接口。

图1 毫秒级全文检索流程示例

图2 “高亮即摘录”的交互范式示例

为了支撑上述复杂的文档管理需求,本方案构建了一个以核心插件为骨架的“微型生态系统”。除前述的 Binary File Manager 用于文件挂钩、PDF++ 用于颗粒化摘录外,还引入了 Dataview 插件以实现基于元数据的动态查询(如自动生成“待读史料清单”);利用 Linter 插件规范化 Markdown 语法,确保长文档的格式统一;以及 Templater 插件,用于在创建新史料笔记时自动填充预设的 YAML 模板(包含档号、年代、来源等字段)。这些插件的有机组合,将 Obsidian 从一个简单的文本编辑器升维成了一个具备关系型数据库特征的史学研究平台。

当需要从宏观上审视问题时,Obsidian的 Graph View(关系图谱)能够将研究者自建库中的复杂引用网络进行宏观可视化。不同于传统笔记的线性排列,关系图谱通过力导向算法(Force-directed algorithms),将引用关系紧密的文件聚类呈现,通过可视化的方式证明了基于“数据本地化”策略构建的史料库具备极高的内聚性与知识密度,直观呈现了一个完全自主可控的知识拓扑网络。图3即展示了笔者自建的中共党史史料全文数据库(含数千份PDF文档及其伴生 Markdown 笔记)内史料之间的引用关系。

图3 中共党史史料引用关系图谱局部(笔者自建库)

进一步以“中央苏区财政史”研究为例,研究者在多份原始档案中辨析出“经费短缺”与“土地分配”“扩红运动”及“反围剿战争”存在因果联系,并建立相应的概念双链后,图谱便能动态地呈现出这些概念节点之间高密度的拓扑结构。这种可视化的反馈作为一种“认知的脚手架”,帮助研究者直观地识别出哪些核心议题是连接多个历史事件的枢纽,从而在看似孤立的史料中发现潜在的结构性张力。在此基础上,研究者可选中数张关于“经费来源”的摘录卡片,通过 Copilot 插件进行多文档综合分析。如提问“根据这些材料,总结 1931—1934 年间中央苏区经费的主要来源及其面临的核心挑战”,AI 能够快速生成一份结构化的综述草稿。这虽不能替代深度的历史解释,却极大地压缩了基础性的资料整理时间,使研究者能将精力聚焦于更高维度的理论构建。

如果说上述的全文检索、智能综述与关系图谱主要解决了史料的发现、理解与关联问题,那么将大模型以命令行工具(CLI)的形式直接嵌入 Obsidian工作流,则提供了在本地文件系统中直接调用大模型处理笔记的新路径。本方案引入 Gemini Cli,配合 Obsidian的终端插件(Terminal),构建了一个驻留于本地文件系统之内的嵌入式智能体(Embedded Agent)。

在具体部署层面,本方案遵循低耦合、高复用的原则,通过“Obsidian终端插件 + Node.js 环境 + Gemini CLI”的技术栈实现嵌入。首先,利用Terminal 等插件打通 Obsidian编辑器与底层操作系统的Shell接口,打破笔记软件的封闭沙箱;其次,基于 Node.js 环境通过 NPM 部署谷歌官方的 Gemini CLI 工具,将其作为后台常驻的智能引擎;最后,通过配置全局环境变量,确保AI指令可在笔记界面的任意位置被实时调用。这种轻量化的集成方式,无需复杂的 Docker 部署,仅占用极少的系统资源,便能在现有的笔记生态中嫁接起强大的推理能力,具备极高的普适性。

值得注意的是,这种将大模型以命令行工具(CLI)形式嵌入本地工作流的尝试,其意义不仅在于当前的功能扩展,更在于确立了一种“AI 就绪”(AI-Ready)的数据架构。通过 Obsidian 提供的标准化 Shell 接口,本地史料库不再是封闭的文字堆砌,而是成了一个开放的、可被算法调用的数据池。这种底层的接口预留,为后续引入更复杂的 RAG(检索增强生成)技术和智能体分析奠定了必要的工程基础,使得个体研究者能够以最低的边际成本,平滑过渡到未来的人机协同研究阶段。

3  基于开源OCR的文本库和配套可检索PDF库构建

在确立了以Obsidian为核心的本地化管理容器后,整个史料数据库能否发挥其应有的威力,关键便在于是否能高效、低成本地为其注入高质量的文本“燃料”——将海量的图像格式史料转化为机器可读的文本数据。这一基础建设环节,是后续所有高级功能,如全文检索、概念链接、AI分析得以实现的绝对前提。若无此基石,Obsidian强大的管理能力将沦为空谈。就中国近现代史领域而言,史料版式相对规整,这为自动化、规模化的OCR处理提供了较好的条件,从而允许我们将核心目标定为追求效率与覆盖广度的统一。

在此背景下,一种务实的“80/20原则”成为技术选型的基本策略,即并非追求对每一页史料进行出版级的完美校对,而是在有限的精力投入下,快速、批量地完成80%以上资料的数字化转换,从而以最快速度搭建起一个功能强大的“可检索”史料数据库。因此可以战略性地放弃或减少使用以下两类工具:一是ABBYY、Adobe Acrobat Pro等专业商业软件,其流程繁琐、自动化程度低,不适合个人研究者用以大规模处理;二是不稳定的在线OCR服务,因其存在隐私风险和处理上限。而以PaddleOCR等先进开源引擎为核心的本地化图形工具Umi-OCR迭代快,对中英文混合及复杂版式表现优异,且完全免费,完美契合了本方案对数据自主权、低成本与高效率的追求,将其与WPS的PDF文件可搜索处理功能搭配使用,可构建一个同时拥有清洁文本和凭证原档的数据库。基于以上理念和设想,笔者构建了一套由图像预处理、核心OCR执行、智能整合质控三个阶段构成的自动化流水线。

第一阶段是标准化的图像预处理,通过ImageMagick等工具,将来源各异、质量参差的扫描件进行批量倾斜校正、去黑边、增强对比度等操作,将其“净化”为最适合OCR识别的统一格式。

第二阶段是核心的OCR批量执行。在此环节,利用Umi-OCR的多线程能力进行高速转化,输出核心文件格式——TXT纯文本文件,作为后续进行数据清洗、文本分析和AI训练的轻量化“数据原料”;同时,利用WPS的快速文件转换功能将图像性质的PDF转换成内嵌了透明文本层的可搜索PDF文件,它完整保留了史料的原始版式,是学术引用和上下文核对的“存档级凭证”。这种双重产出策略,兼顾了机器可读性与人类可读性,构成了我们数据资产的完备形态。

第三阶段是智能化的整合与质量控制。完成识别后,原始的 TXT 文本往往充斥着换行符断裂、页眉页脚残留等“噪声”。为此,本方案引入了基于 Python 的正则表达式(Regular Expression)清洗脚本,针对近代史料的排版特征进行批量处理。例如,自动合并跨页断段(通过识别句末标点符号判断段落是否结束)、剔除无意义的版心边框字符,以及统一全角/半角标点。更关键的是,依据OCR引擎生成的识别置信度,自动筛选出低置信度的页面,生成一份精确的“待复核清单.csv”。这一机制将繁重的全文校对任务,转变为对少数难点的精确打击,极大地解放了研究者的时间。

最终,通过以上工作流,研究者在完全掌握数据自主权的前提下,为自己的Obsidian知识库配备了一个清洁的文本库和一个保持原貌的可检索PDF库。这一坚实的数据基础,不仅是个人研究深入的保障,更是下一步实现团队高效协同共享的宝贵资产。

 4  自建私有云实现史料数据共享和协同工作

当史学研究从个人走向团队协作,特别是面对课题组或读书会等形式时,如何让本地化的文件实现高效同步与协作,避免重复劳动,就成了推动研究进程的核心问题。团队需要确保任何一员修改、上传文件,或完成某一批资料的OCR,其他成员能立即看到更新,从而实现动态交错分工,协同推进研究进程。从这一需求来看,市面上主流的商业网盘产品,例如百度网盘、夸克云盘、阿里云盘、OneDrive等,其核心功能定位在储存和备份,而非高强度的实时同步,因此同步功能非常孱弱,且普遍存在下载限速问题,完全不适合对数据量和实时性要求极高的学术协作场景。而在国内环境下专注于同步的云盘如“坚果云”,虽采用了“增量同步”技术以提升速度,但其免费版容量和月上传流量的严格限制,乃至付费版提供的容量,对于动辄上百GB的历史资料库来说,依然捉襟见肘,难以满足学术研究的长期需求。

同时,以 Syncthing 和 Resilio Sync 为代表的P2P(Peer-to-Peer,点对点)同步工具,虽然其去中心化的核心思想和理论上的无限容量极具吸引力,但弱点在于同步速度和稳定性高度依赖于不同设备处于同一局域网内这一条件。在远程协作场景下,数据往往需要通过中继服务器传输,速度变得极其缓慢,且任何一台参与设备关机都会导致同步中断,无法满足团队协作对服务高可用性的刚性要求。此外,NAS这类本地解决方案,其便利性也同样仅限于所有设备在同一局域网内时,无法有效解决远程学术协作的问题。

基于对现有解决方案局限性的深刻认识,在云服务器上自建私有云是目前一条可选的路径。在云服务器供应商方面可以选择直接售卖“端口速度”的产品套餐,并在其上部署开源的专业文件同步软件 Nextcloud,即可构建一个完全私有的、高性能的云同步系统。这一选择的优势是显著且根本性的。首先,它实现了无任何限制,研究者不再受制于任何第三方平台。Nextcloud开源免费,对容量、用户数量、上传/下载速度均无任何限制,同步速度仅受限于团队成员各自所用的网络带宽。其次,它确保了高性能与高可用性。服务器能够7x24小时在线,彻底排除了因个人设备关机而导致同步中断的情形。提供极高带宽的VPS,保证了多人协同工作时的流畅体验。第三,它实现了绝对的数据安全与控制,所有数据都储存在我们自己控制的服务器上,从源头上杜绝了第三方窥探或泄露的风险。最后,它具备灵活扩展的特性,服务器本身自带的存储空间未来可随时增加存储卷,即便不想扩容,也可以在本地创建不同的资料库(Library)进行同步,具备极高的灵活性。通过Nextcloud原生支持的WebDAV协议,研究者可以无缝对接Obsidian的多端同步插件,实现毫秒级的增量同步;同时,其内置的看板与在线文档功能,将单纯的文件存储升级为了集成的数字史学工作空间,打破了物理设备对学术协作的限制。这种模式彻底解决了协作中的文件同步障碍,使得团队能够将全部精力聚焦于史料的整理和研究本身。

5  结语:超越工具,回归史学研究本体

本研究探讨了一套以“数据本地化”为核心,结合Obsidian知识管理、开源OCR处理及自建私有云同步的工作流。其目的在于为有志于构建个人化、可持续史学数据库的研究者提供一个可供参考的思路。此方案的设计初衷,并非追求技术的复杂性或前沿性,而是希望通过对现有成熟工具的策略性组合,找到一条能让研究重心回归史料解读与内容创作本身的路径。这或许在一定程度上表明,当前的技术生态已经允许研究者通过合理的配置,搭建出低成本且自主可控的数字研究环境,从而将主要精力聚焦于史学研究的本体工作。

这种基于开放标准(Markdown)、强调数据自主权回归的思路,其意义或许不止于文件管理层面。它试图回应前文所述的中心化平台可能带来的数据封闭、运维成本高昂和长期不确定性等问题。通过将数据以通用格式保存在本地,学术成果的长期安全性、可迁移性与连续性得到了更好的保障。对于个人研究者或小型学术团队而言,这可能构成一种更为稳健和可持续的工作模式,有助于学术知识的长期积累与传承。

然而任何一套研究工作流都非万全之策,对其局限性的清醒认知是推动其未来发展的必要前提。本研究所构建的这套以“数据本地化”为核心的方案,在赋予研究者极大自主性的同时,伴随着相应的挑战与责任。本方案存在一定的技术门槛,且仍然有需要优化的部分。相较于商业软件提供的一站式解决方案,本方案中的OCR流水线构建与私有云的搭建和维护,都需要研究者投入额外的时间进行学习,并具备一定的自主解决问题的能力。

从发展的角度看,尤其对于中国近现代史这一史料丰富的领域,此方案具有进一步拓展的潜力。通过规模化OCR流程所形成的清洁文本库,不仅是当前研究的资料基础,也为未来可能的计算分析和AI应用预留了空间。随着人工智能技术的演进,个人史料库也可成为能够辅助进行内容分析与逻辑推断的平台。

专题文章:

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

中共党史研究语料智能体的构建经验与思考

排版:覃子椿

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

2026年5月14日 09:00

原创 张光伟 2026-05-14 09:00 北京

盛宣怀档案;大语言模型;ReAct 框架;思维链;Agentic RAG;人机协作

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:张光伟.《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理[J].数字人文研究,2026,6(01):43-52.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。


图片

《盛宣怀档案》智能分析系统的构建与史学应用

——从检索增强到智能体推理

张光伟

摘 要: 面对浩如烟海且高度非结构化的历史档案,传统的数字化处理与关键词检索模式已难以满足日益复杂的史学研究需求,特别是在处理如《盛宣怀档案》这类涉及晚清政治、经济、外交等多维网络的复杂史料时,研究者常陷入查不全、理不清、关联难的困境。研究在回顾数字人文从数字化、结构化向智能化转型的技术背景的基础上,引入大语言模型前沿的思维链技术与推理—行动框架,构建了一个基于 Agentic RAG 的“盛宣怀档案智能分析系统”。该系统突破了传统知识图谱预定义的局限,通过“意图理解、资料检索、资料总结、评估决策、内容撰写”五个智能体的协同工作,实现了对全量档案文本的语义向量化与动态推理。系统具备主动规划检索路径、多步逻辑推演、跨文档证据互证以及自我纠错的能力,能够模拟历史学家“提出假设—史料搜集—考证辨析—形成结论”的认知过程。文章通过微观、中观和宏观三个层面的典型案例展示了该系统的应用潜力。研究实践证明,AI 时代这种“人机回环”(Human-in-the-loop)的协作模式,不仅能将历史学家从繁琐的信息搜寻中解放出来,更开启了以数字文献考古与全息逻辑增强为特征的历史研究新探索的可能性。

关键词: 盛宣怀档案;大语言模型;ReAct 框架;思维链;Agentic RAG;人机协作

作者简介:张光伟,陕西师范大学历史文化学院讲师,Email:zhangguangwei@snnu.edu.cn。

0 引言

历史学的数字化转型是一场漫长而深刻的长征。在过去的几十年中,这一进程大致经历了从文献资料的数字化、信息的结构化到知识的关联化三个阶段。以“中国历代人物传记资料库”(CBDB)为代表的基础设施建设,解决了史料可检索与可统计的基础问题,通过关系型数据库和知识图谱技术,让人文学者得以在大尺度上观察历史网络的演变。然而,这一阶段的数字人文往往被诟病为远读有余而深读不足——计算机擅长处理底层的、形式化的数据分析(如词频统计、社会网络中心度计算),却始终徘徊在人文研究的核心领地之外,难以触及意义阐释、因果推断与史料考证等需要高阶认知能力的人文专业端。

近年来,随着人工智能技术的爆发式突破,特别是以 ChatGPT、DeepSeek 为代表的生成式大语言模型(LLMs)的问世,科研范式正在发生根本性的转移。在自然科学领域, “AI for Science” 已经能够独立预测蛋白质结构、发现新材料,甚至在数学证明中展现出直觉般的推理能力;在社会科学领域,基于智能体(Agent)的生成式社会科学(Generative Social Science)正在模拟复杂的人类社会行为,重构我们对社会互动的理解。这种技术浪潮不可避免地席卷历史学领域,我们惊讶地发现,新一代 AI 不仅极大地扩展了能够处理的问题规模与复杂度,更在本质上缩小了计算技术与人文理解之间的语义鸿沟。

与传统的脚本编程或关键词检索不同,当前的大语言模型已经展现出了类似人类的思维链(Chain-of-Thought, CoT)能力。它不再仅仅是一个被动的数据提取工具,而是开始表现出模仿、甚至达到人文学者初级乃至中级科研水准的能力:它能够理解晦涩的古文语境,能够在多源异构的文本间建立逻辑关联,甚至能够针对某一历史假设进行初步的证据排查与证伪。

正是在这一技术与学术转型的关键节点,晚清史研究中的一座富矿——《盛宣怀档案》(以下简称“盛档”) ——为我们提供了一个绝佳的实验场。作为中国近代史研究中体量最大、内容最复杂的私人档案之一,盛档的内容涵盖政治、外交、实业、赈灾等晚清社会的方方面面。面对如此海量且非结构化的核心史料,传统的人力阅读难以胜任,而简单的关键词检索又往往面临“查不全”(异名同指问题)、“理不清”(事件线索交织)、“关联难”(跨文档证据断裂)的困境。

本研究旨在探索一种基于 AI 技术的新范式来破解上述难题。本研究进一步引入智能体与检索增强生成(RAG)技术,构建了“盛宣怀档案智能分析系统”。我们的研究实践表明,在 AI 时代,计算机可以从底层的数据搬运工晋升为历史学者的思维伙伴,通过人机协作实现对复杂历史问题的文献考古与逻辑推演。特别值得指出的是,我们此前倡导的“支架+管道”模式在 AI 的赋能下焕发了新生:它允许学者以低代码或零代码的方式构建研究工具,从而大幅降低技术准入门槛,让研究者能更专注于核心历史问题的探索,以期真正实现数字史学研究的提质增效。

1 从远读到智能体协作

随着人工智能技术的代际跃迁,数字人文的研究范式正经历着从数据驱动的宏观描述向逻辑驱动的智能推演的深刻转型。这一过程不仅是计算规模的扩大,更是促进人文问题解决模式质变的重要驱动力。

1.1 数字人文范式的演进与局限

在前大模型时代,数字人文的主流范式建立在弗朗哥·莫雷蒂(Franco Moretti)提出的远读理论之上。面对浩如烟海的文本,莫雷蒂主张放弃对单一文本的微观审视,转而通过计算机进行宏观的统计分析,以揭示那些肉眼不可见的文学形式与演变规律。这一路径催生了以米歇尔(J. B. Michel)等人的“文化组学”(Culturomics)和马修·乔克斯(Matthew Jockers)的宏观分析(Macroanalysis)为代表的量化史学实践。

在具体方法上,学者们广泛采用主题模型、社会网络分析和地理信息系统等工具,将非结构化的历史文本转化为结构化的数据图谱。然而,这种基于词袋模型(Bag-of-Words)和共现概率的传统范式存在如下显著的局限性。

(1) 语义语境的割裂:传统的定量方法往往将文本拆解为孤立的词汇或元数据,导致“只见森林,不见树木”,难以捕捉字里行间的隐喻、反讽及复杂的社会关系。

(2) 因果推断的缺失:泰德·安德伍德(Ted Underwood)曾指出,数字人文在描述 “发生了什么” 方面表现出色,但在解释 “为什么发生” 时往往力不从心。传统算法无法像历史学家一样,通过多源证据的比对来构建因果链条。

因此,在生成式AI快速发展的当下,数字人文应当从计算转向智能转型,探索智能增强(Intelligence Augmentation, IA)的路径,即利用 AI 作为认知延伸,辅助学者处理噪声并构建证据链,而非单纯的数据统计。

1.2 大模型推理框架:从思维链到自主智能体

生成式大语言模型的出现,为突破上述局限提供了技术可能。加西亚(Garcia )与 魏尔巴赫(Weilbach) 在其最新的研究中指出,大语言模型正在成为历史研究的有力助手,如果史料能够“说话”,模型便能辅助学者进行更高效的史料挖掘与分析。与基于统计概率预测下一个词的传统模型不同,新一代模型具备了更强的推理能力,使得计算机可能真的已经可以介入到历史考证的逻辑层面。以下我们对思维链、推理与行动(Reasoning and Acting,ReAct)框架和生成式智能体(Generative Agents)进行简要介绍。

(1)思维链。 Google Research 团队提出的思维链技术,通过在提示词中诱导模型生成一系列中间推理步骤(Intermediate Reasoning Steps),显著提升了其处理复杂逻辑任务的能力。在史学研究中,这意味着 AI 不再直接从史料跳跃到结论,而是能够像人类学者一样展示 “史料→考证→辨析→结论” 的完整思维过程。这种显式的推理路径不仅提高了准确率,更重要的是赋予了算法 “可解释性” 。

(2)推理与行动框架。单纯的思维链仍受限于模型内部的静态参数知识,容易产生“幻觉”。Yao 等人提出的推理与行动框架,将推理能力与外部工具的使用相结合。在该框架下,模型遵循“观察→ 推理→ 行动”的循环。例如,当需要考证盛档中书信提到的某个人的身份时,模型会先根据上下文比如提到的其担任的官职来思考“需要查询清代职官表”,然后执行检索行动,根据检索结果修正假设,直至得出确切结论。

(3)生成式智能体。在社会科学领域,帕克(Park)等人提出的生成式智能体理论 ,展示了 AI 模拟人类社会互动的潜力。智能体具备“记忆”“规划”和“反思”三大核心模块。在本系统中,我们借鉴这一理论,将 AI 设计为具备特定角色(如 “考据助手” )的智能体,它不仅能回答问题,还能根据历史学者的反馈记忆其偏好,并在多轮对话中动态调整研究策略。这意味着 AI 从被动的 “问答机器” 进化为具备自主性的 “研究伙伴”。

1.3 人机回环与交互模式的重构

随着技术能力的提升,人机交互的模式也从传统的“指令—执行”向“意图—对齐”演变。在处理高复杂度的历史问题时,完全的自动化既不可能也不可取,必须引入“人机回环”(Human-in-the-loop)机制。

(1)从“自动化”到“共驾” 。 传统的数字人文工作流往往是线性的:人清洗数据→机器跑算法→人解读结果。而在基于RAG 和智能体的新范式中,交互变成了迭代式的协作模式。AI 负责海量信息的初筛、逻辑链的构建和初步结论的生成(Drafting),历史学者则负责高阶的价值判断、逻辑漏洞的审查(Verifying)以及方向的纠偏(Refining)。

(2)人机回环的价值升华。 在本系统中,专家的反馈不再仅仅是纠错,而是系统进化的养料。通过记录学者对 AI 推理过程的修改,系统能够通过上下文学习或微调,不断“对齐”专业史学家的思维方式。这种人机协作不仅解决了 AI 的“幻觉”问题,也有机会反向激发学者的历史想象力,实现了本·施奈德曼( Ben Shneiderman)所倡导的“以人为本的 AI”,即在保持高水平自动化的同时,确保人类对研究过程的可控性与主体性。

2 基于Agentic RAG的多智能体协作架构

本系统的核心并非传统的静态数据库查询,而是一个基于代理增强检索(Agentic RAG)范式的动态推理系统。该系统直接基于全量档案文本,通过多智能体(Multi-Agent)的分工与协作,模拟历史学家“提出问题—史料搜集—考证辨析—形成结论”的认知过程。以下我们分层次介绍一下系统的架构。

2.1 以全量文本的语义向量化构建的数据层

鉴于盛档非结构化与碎片化的特征,我们采用标准 RAG的数据预处理流程。首先对档案数字化文本进行清洗与分段,保留书信的完整上下文结构。随后,利用 bge-m3 多语言嵌入模型将文本转化为高维语义向量,并存入 ChromaDB 向量数据库。这一过程将离散的史料映射为连续的语义空间,使得系统不仅能检索关键词,更能基于语义相似度召回隐含关联的史料(如将“杏荪”与“盛宣怀”在向量空间对齐),为后续的智能体推理提供数据基座。

2.2以多智能体协同与推理—行动闭环构建的逻辑层

系统的整体架构遵循“分层解耦、动态协作”的设计原则,自下而上分为数据基础设施层、多智能体协作层与交互层(如图 1所示)。其中,核心的“多智能体协作层”摒弃了传统的线性处理模式,而是采用基于DeepSeek-R1大模型的Agentic RAG架构。该架构包含五个专门功能的智能体,通过推理—行动闭环实现对复杂历史问题的迭代求解。

图1 系统整体架构图:基于Agentic RAG的多智能体协作

五类核心智能体的角色与权限分别为:

(1)用户意图理解智能体:作为系统的“前台”,负责解析用户的自然语言提问。它不仅进行关键词提取,更对问题背后的史学意图进行解构。例如,当用户询问“石帅是谁”时,该智能体会分析出这是一个“人物考证”任务,并识别出需要关注的时间与地点等约束条件,将其转化为初始的检索目标。

(2)资料检索智能体:作为系统的“手”,负责与数据层交互。它能够根据当前的检索目标生成多组查询向量,并在向量空间中召回若干(Top-K) 相关文档片段。

(3)资料总结智能体:作为系统的“眼”,负责阅读召回的史料片段。它不仅是对文本的简单摘要,而是基于当前问题的上下文,提取关键证据(如时间戳、官职、人际关系),并过滤掉无关的噪声信息。

(4)评估智能体:系统的“大脑”,这是实现推理—行动模式的关键。该 Agent 负责比对 “当前已获取的证据” 与 “解决问题所需证据” 之间的差距(Gap Analysis)。如果证据不足或存在矛盾(如 “石帅” 指向不明),它会制定下一轮的检索策略,指示检索智能体寻找新的线索。如果证据链闭环,它将向撰写 智能体发出终止信号。

(5)撰写智能体:作为系统的“笔”,在证据链完备后,依据史学规范撰写最终回答,并自动标注每一处结论所依据的[文献ID],确保学术严谨性。

2.3 工作流:模拟历史学家的迭代研究

上述智能体中,“(2)检索—(3)总结—(4)评估”构成了一个动态的推理—行动循环。这正是本系统区别于普通搜索工具的本质所在:第一轮,检索 智能体可能仅找到模糊线索;评估智能体发现初步结论与信件背景时间不符(Gap 发现),随即调整方向,即评估与迭代。第二轮,检索智能体根据新指令查询新的信息,召回更为准确的记录。多轮迭代后,系统利用提取的增量信息不断丰富上下文,直至逻辑自洽,即证据闭环。

这种逐步逼近真相的迭代过程,本质上是对人类历史学家研究方法论的计算模拟,其详细的工作流程如图2 所示。

图 2 智能体在时间维度上的协作逻辑

3 史学应用实践:多维度的历史解析

通过对盛档的实际测试,本系统不仅验证了 Agentic RAG 架构在处理海量非结构化史料时的有效性,更在微观文本考证、中观制度复原和宏观风格分析三个层面展现了超越传统检索工具的研究智能。该系统所体现的智能体在多维度历史解析方面的能力如图3所示。

图3 智能体多维历史解析跃迁图

3.1 微观层面的反向纠错与多源批判性考证

在传统的数据库检索中,学者必须预知准确的关键词,且检索结果往往受限于用户提问的预设偏差。而在本系统的运行逻辑中,意图理解智能体与评估智能体协作,使其具备了对用户提问进行“事实核查”与“反向纠错”的能力

我们设计了一个包含误导性前置条件的提问:“盛宣怀随李鸿章西征途中,给夫人写了不少家信,其中有一首诗,这是盛宣怀档案中仅见的诗作。这首诗的内容是什么?”

如果仅以关键词“诗”进行匹配,系统极易漏掉嵌在信函正文中的无标题诗句;如果盲从“仅见一首”的预设,算法可能会在找到第一条结果后停止检索,导致史实遗漏。这是传统检索难以解决的困境。

本系统的多智能体推理过程如下

(1)全量召回与质疑(检索智能体):系统并未被“仅见”这一约束限制,而是通过语义向量检索,遍历了所有包含韵文特征的家书片段,同时召回了《端午车中七律》([ID:sxh17-0038])、《庚午季夏潼津营次藁》([ID:sxh17-0026])和《六月八日寄内诗》([ID:sxh17-0041])。

(2)矛盾检测与修正(评估智能体):评估智能体 在对比检索结果与用户提问时,触发了 “证据冲突”警告 ——事实(三首)与预设(一首)不符。系统随即启动纠错机制,判定用户预设错误。

(3)深度语义解读(撰写智能体):在确认文本后,系统进一步分析了这些诗作的情感内核。它指出,盛宣怀引用“远别胜新婚”典故体现了儒家伦理下的夫妻责任,同时用“野店孤灯”“巫峡雨”等意象流露了个体在宏大历史叙事下的脆弱感。

这一案例证明,具备思维链能力的 AI 不再是盲从指令的工具,而是能够基于史料证据有一定独立判断能力的批判性读者。

3.2 中观层面的动态时空锚定与制度逻辑重构

在中观层面,历史研究往往涉及复杂的事件演进和制度变迁。面对碎片化的公文,系统通过推理—行动循环,展示了强大的跨文档关联与逻辑链重构能力。

面对一组关于“献县借种”“本道”以及“大户捐粮”的零散公文片段,我们要求系统解析其核心内容与历史逻辑。本系统通过三轮迭代,还原了被淹没的历史真相。

第一轮思考(时空锚定与去噪):虽然文本仅提及模糊的“同光时期”,但 总结智能体敏锐地抓取到一份下级禀帖中的收文日期“光绪十六年闰二月十一日”(1890 年)[文献 73607]。评估 Agent 以此为锚点,指示系统排除了内容相似但实际发生在 1906 年的《丙午桃源章程》[文献 41428],成功完成了高难度的“史料去噪”。

第二轮思考(政策比较与身份确证):系统对比文献 [1333] 与 [1334],识别出当时存在两种截然不同的救灾模式:沧州的“强制大户捐粮”与献县的“官府借贷+大户协调”(《借种章程》)。同时,检索 Agent 通过调用职官数据库,确证了文中自称的“本道”即时任清河道道员潘骏文[文献 16276],构建了“李鸿章(决策)—潘骏文(制定)—府县(执行)”的行政链条。

第三轮思考(Gap Analysis 与灾害链重构):这是最关键的一步迭代。评估 Agent 在分析财政数据时发现了一个 Gap(逻辑缺口):如果春季的《借种章程》有效,为何次年春抚支出高达 20 万两[文献 9242]?这暗示了秋收可能遭遇了新的危机。基于此 Gap,系统发起了新一轮针对“秋灾”的检索,成功发现了“黏虫伤损”与“运河决堤”的记录[文献 1413, 56297]。

最终结论:系统最终构建了 “春旱→政策响应(借种)→秋涝/虫害(次生灾害)→财政危机” 的完整因果链条,指出该案例并非单一赈灾事件,而是晚清基层治理试图通过制度创新应对复合型灾害的典型尝试,且李鸿章的“截漕发帑”[文献 74021]在高层提供了关键的财政兜底。

这一过程展示了 AI 如何像历史学家一样,利用异构史料进行三角互证,并通过识别逻辑断裂来驱动研究的深入。

3.3 宏观层面的全量文本的风格量化与“远读”

针对“李鸿章与盛宣怀通信风格演变”这一宏观问题,本系统利用其向量化数据库的优势,对 1876 — 1900 年两人之间的数十封书信进行了动态时段切分与量化分析。

资料总结 Agent 提取了每一封信中的称谓、自称及落款格式,生成了可视化的演变图谱。系统分析指出,二人的互动经历了从“萌芽期”(盛作为下属的请示)、“鼎盛期”(共谋洋务实业)到“转折期”(甲午后政治失势)的演变。在语言风格上,系统捕捉到了李鸿章对盛宣怀称呼的细微变化(从全称“杏孙世仁弟大人阁下”简化为“杏孙仁弟”),并揭示了一个深刻的政治隐喻:即便在盛宣怀权力上升、甚至在实业领域主导话语权后,他依然在书信中严格保持“犬马”、“废材”等自谦语态的伦理话语体系。这种基于全量文本的细粒度分析,为理解晚清幕府与官僚政治中实权与礼制的张力提供了新的量化视角。

4 讨论

本研究实践表明,当大语言模型被赋予 Agentic RAG 的架构与 ReAct 的推理能力后,它可能正在重塑我们对数字史学的理解,因为这不仅仅体现效率的提升,更体现了认知维度的扩展。

4.1 数字考古与全息逻辑重构

AI 时代的史学研究正在经历一场“数字考古”。传统的考古挖掘的是埋藏于地下的实物碎片,而我们现在利用 AI 挖掘的是沉睡在海量文本碎片中被淹没的逻辑连接。

与传统的关键词检索不同,本系统展示了一种 “全息逻辑重构” 的能力。在献县赈灾的案例中,系统并非简单提取“灾害”字眼,而是像一个老练的侦探,在微观的下级禀帖日期、中观的财政报销账册与宏观的督抚奏折之间反复“跃迁”。它通过 差异评估(Gap Analysis)机制,敏锐地捕捉到“春季借种”与“次年高额支出”之间的逻辑断裂,进而主动挖掘出被史料表象掩盖的“秋季洪涝”与“运河决堤”真相。这种从碎片中重建完整因果链条的过程,似乎在表明计算机真的可以介入到历史解释的核心环节。

4.2 动态时空锚定与异构史料的三角互证

历史研究的基石是考证,而考证的核心在于对时空坐标的精确锁定。本系统最显著的技术特征在于其基于评估智能体 的动态时空锚定能力。

在处理盛档案这类非结构化史料时,时间漂移(Time Drift) 是常见的陷阱(如将 1906 年的《桃源章程》误用于 1890 年的语境)。本系统突破了单一文档的限制,能够主动检索具有确切纪年的辅助文档(如收文日期、官员任免履历、年度财政报表)作为“锚点”,对模糊的文本进行校准。同时,系统实现了异构史料的三角互证——用人事档案(潘骏文的道员履历)验证公文作者,用财政档案(春抚银两支出)验证灾害后果,用气象记录(雨泽奏报)验证事件背景[22]。这种多源证据的交叉验证,极大地降低了 AI“幻觉”的风险,提升了机器考证的史学严谨性。

4.3 从工具到“对抗性伙伴”的认知升级

本系统的应用实践中,某种程度上体现了人机关系发生的变化。AI不再仅仅是唯命是从的检索工具,而是进化为具备批判性思维的 “对抗性伙伴”。

正如我们在诗作考证案例中所见,当用户提出带有误导性预设(“仅见一首”)的问题时,系统并没有顺从用户的认知偏差,而是基于全量数据的检索结果进行了 “反向纠错”。这表明,人机交互正在从单向的“指令—执行”转变为双向的“对话—博弈”。在这种模式下,AI 承担了海量信息的梳理与初级逻辑构建工作,使历史学者得以从繁琐的资料搜寻中解放出来,专注于提出更高质量的问题、进行价值判断与伦理审视。

5 结语

《盛宣怀档案》智能分析系统的构建与应用,是一次将前沿 AI 技术(Agentic RAG、ReAct 框架)与传统史学考证深度融合的实验性探索。它证明了通过搭建合理的智能体分工与知识库基座,大语言模型完全有能力突破远读的局限,在微观、中观与宏观三个维度上展现出模拟专业学者的研究能力。当然,AI 并非要取代历史学家,而是要成为历史学家手中的思想透镜。未来,随着专家反馈数据的持续注入与模型的不断微调,我们有理由相信,本研究所探索的人机回环协作模式,将有望帮助我们在浩瀚的史料海洋中,发现那些曾被遗忘的、更具解释力与洞察力的历史真相。

专题文章:

中共党史研究语料智能体的构建经验与思考

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

“DH无界谈”回顾 | AI时代文化遗产数据资源的采集和数智活化

2026年5月14日 09:00

数字人文研究院 2026-05-14 09:00 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

5月9日下午,美国肯特州立大学(Kent State University)信息学院终身教授曾蕾受邀到访数字人文研究院,作主题为《AI时代文化遗产数据资源的采集和数智活化》的讲座。

讲座从2025年《Science》杂志关于“中国最古老星表”《石氏星表》的研究切入,并据此指出,开展文化遗产数字化研究,必须明确研究层次与起点,并充分注意不同国家和地区(如中国、美国、欧洲等)在数据标准与文化符号使用上的差异。研究的主要流程是在采集已有研究数据的基础上理解数据来源,聚焦数据层变迁,最终实现从数据到知识、再到智慧应用的转化——即采用“知识”的视角看待数据,并完成从上层到底层的整合。

文化遗产数字化的起点是字符级别的处理。基础字符处理是整个系统的基石,只有先实现字符的数字化与解释,才能建立基于字符的检索能力。目前,已有相关前沿团队开展AI光学字符识别(OCR)相关工作,利用PIF图像格式技术准确识别每个字符,使其可被人类和机器共同理解与处理。2026年2月,Unicode已新增1万余个字符,并已发布新的ISO标准,涉及更多语言文字的电子化输入输出。

字符处理支撑后续检索与文化比较,在数字化成果基础上,机器可以快速判别传统符号所属的文化体系及其相关文化属性。例如,通过分析十二生肖在不同国家(中国、韩国、越南等)的差异,可快速识别分析特定文化的传播路径。类似的,罗马帝国硬币的材料成分分析也已形成知识库,用于硬币真伪的鉴别。这些案例共同说明:在明确目标下,对数据的深度挖掘和量化研究有助于突破研究传统局限。

高质量的元数据是文化遗产数字化的前提。为实现文物的唯一标识与系统性描述,需采用国际博物馆协会的“Object ID”标准,记录文物类型、材料、技术、尺寸、颜色等元数据。此外,文物的来龙去脉、工艺制作信息或特殊材料等更多元维度的元数据也很有价值。

而后,准确处理文物的各项元数据至关重要。数据优化与预测性分析能实现大数据的最大效益,因此,搭建特定的知识组织系统(KOS)是重中之重。知识组织系统主要用于数据分析、分类,并最终有助于建成相关数字化平台,面向科研与公众应用。在搭建过程中,需要行业专家与技术员协同;前者主要负责保证元数据质量与对知识组织系统进行设计,后者负责搭建处理模板、实现知识组织系统的落地。值得注意的是,以大语言模型(LLM)为代表的各类AI语言模型虽然强大,但传统的知识库和词表方法同样必要,因为词汇表的使用可以避免平台中出现冒犯性语言或其他不利于应用的现象。

在对文物数字化流程的详细阐释后,曾蕾教授对学术界的AI使用问题进行了展望。她指出,当前AI撰写的论文已发表在《Nature》等期刊,引发学术界对学术诚信和青年科研人员培养的担忧。AI能快速处理数据,节省时间和经费,但也可能导致人们过度依赖模型而忽视对数据本身的理解。东京一个团队开发的“AI科学家”系统展示了AI在科研中的潜力,但随之而来的是管理和伦理问题。在中国,AI工具也已开始被应用于博物馆行业和文化遗产研究中;AI的分类和推荐功能可帮助用户更好地理解和利用信息,还可以用于分析艺术作品和材料数据,但使用时仍有准确度方面的风险。曾蕾教授据此总结,AI是工具,不能替代人类对文化遗产的深层阐释;对AI工具的使用必须结合准确的数据和知识库,如地理和历史资料库等。

最后,曾蕾教授展望未来,认为文化遗产的数字化与共享需要支持协作创新和开放数据。可以展望的全球知识图谱将能够整合不同领域的数据,例如将多个不同国家、行业、领域的机构的数据融合为一个综合知识库。目前芬兰的相关做法就已展示了如何通过共享知识库和本体促进跨领域合作与数据互通。

在全球知识图谱建设的视野下,利用AI工具进行的开发和应用必须遵循国际标准和质量要求,以确保数据的准确性和可共享性。当前,部分国际组织已为人工智能提供指南,帮助规范其开发与应用;在文化遗产领域内,也应需要明确数据使用和共享策略,以促进未来的跨领域合作。曾蕾教授总结指出,AI时代文化遗产数据资源的采集和数智活化,其核心并非技术本身,而是如何以知识为纽带,连接过去与未来,在标准化与创新之间找到平衡。

主要讲授部分结束后,曾蕾教授和主持人、听众进行了交流讨论。曾蕾教授针对听众针对古籍数字化实践中遇到的瓶颈、当前中国文化遗产数智活化开发等方面提出的具体问题进行了回答。主持人夏翠娟教授简要回顾了讲座内容,并再次感谢曾蕾教授带来的精彩讲座。

此后,曾蕾教授还特别介绍了哈佛大学博物馆AI探索者(AI Explorer)的主要工作原理和特征、意大利莱昂纳多互动博物馆中队达芬奇著名作品《维特鲁威人》的数字化展陈和阐释方式以及美国国家数学博物馆(MoMath)中的数字人文展示等前沿案例,并鼓励在场听众有机会亲自前往相关博物馆亲身体验、探索。

讲座结束后,曾蕾教授参观了数字人文实验室,数字人文研究院院长冯惠玲对研究院的各项研究成果作了简要介绍。

撰稿/图片/排版:任佳悦

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

中共党史研究语料智能体的构建经验与思考

2026年5月11日 09:01

原创 马思宇 等 2026-05-11 09:01 北京

党史研究;史料转化;知识库构建;数字人文

“AI驱动下的中国近现代史研究新范式”专题

导言

张燚明

中国人民大学历史学院

2025年11月1日,由中国人民大学中华文明研究院、历史学院、数字人文研究院共同主办,民国史研究院、数字清史实验室协办的“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”学术研讨会在中国人民大学通州校区召开。来自中国人民大学、北京大学、清华大学、中国社会科学院、国家图书馆、上海图书馆等高校与科研机构,以及国内领先科技企业的70余位专家学者与会,围绕人工智能如何深度赋能中国近现代史研究展开深入研讨。

本次学术研讨会全面响应国家文化数字化战略,深入关注新技术驱动下中国近现代史研究的新面向,以中国近现代史、计算机技术、信息资源管理等多学科交叉为依托,旨在回应时代发展、科技变革对历史学研究产生的深刻影响。主题演讲环节,学者们围绕“智能体与中国近现代史研究”“新一代中国近现代历史文献数据库开发”“数字人文的教育实践”三大核心议题,呈现出在AI技术赋能下的中国近现代史研究新工具与新方法。六个平行分会场报告显示,AI技术已不再停留于概念,而是在盘活海量史料,催生新的问题意识与研究路径,切实地融入研究流程。在圆桌讨论中,学者们一致认为:人工智能时代的到来,正推动中国近现代史研究经历一场从方法论到认识论的“智识重构”。一个深度融合技术思维与史学素养,兼具宏观量化洞察与微观深度解读的新阶段正在开启。

感谢《数字人文研究》为本次会议提供的学术平台支持,使得会上的三篇文章得以发表,以飨读者。南开大学历史学院马思宇副教授以《中共党史研究语料大模型的构建经验与思考》介绍了他的团队在中共党史文献OCR识别、父子分段性模型知识库构建上的探索,提出了推动大模型从“辅助工具”向“党史研究新基础设施”演进的目标。陕西师范大学历史文化学院张光伟老师以《〈盛宣怀档案〉智能分析系统的构建与史学应用——从检索增强到智能体推理》一文,展现了基于 Agentic RAG(代理增强检索)范式的多个智能体在意图理解、资料检索、资料总结、问题评估与文章撰写等历史学研究过程中的协同与合作,为AI构建了历史学者“对抗性伙伴”的未来图景。华中师范大学历史文化学院安高怡同学的《本地化智能史料管理系统的构建方法与实践》依据个人实践经验,为历史学研究者和小型学术团队提供了一种结合Obsidian知识管理软件、OCR识别软件和私有云服务等技术的私属化数字人文研究工作平台,具有很强的实操性和可复制性。

三篇文章都清晰地呈现出,中国近现代史学界正在借助以AI技术为代表的信息技术新工具,透视其中前所未见的结构、关联与模式,并在用实际行动,共同缔造走向人机协同、互为启迪的研究新范式

与此同时,我们欣喜地看到,正是在以完整自主知识产权的国产大语言模型为代表的人工智能技术实现历史性突破的2025年,一批跨学科、跨媒介、跨领域的研究成果问世,为传统史学研究注入新的生命力。我们满怀期待,一个在史学专用智能体主导下、在基础大语言模型辅助下、在智能化史学数据库服务下,中国近现代史研究的新未来,正向我们阔步走来!


中共党史研究语料智能体的构建经验与思考

马思宇 王亚星 肖桐月 李庚辰

摘要

中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属 OCR 适配方案与父子分段式知识库构建模式,形成 “以 OCR 适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑” 的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

关 键 词   党史研究;史料转化;知识库构建;数字人文

作者简介  马思宇,南开大学历史学院副教授,Email:masynku@126.com; 王亚星,南开大学计算机学院副教授; 肖桐月,南开大学历史学院2022级本科生; 李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。

中共党史作为一门兼具历史与政治属性的重要学科,其研究、传播与教育工作始终面临时代提出的新挑战。随着信息技术高速发展,传统党史研究工作模式在多个层面暴露出局限性,形成亟待解决的痛点。

中共党史研究以史料为根基,数字时代下,研究者面临“数据洪流”与“信息孤岛”并存的矛盾困境。中共党史的文献资料、档案、口述史、回忆录等史料浩如烟海,分散于各级档案馆、图书馆、研究机构乃至个人收藏中,给研究者和学习者开展系统性、跨机构资料整合带来巨大挑战——需耗费大量时间进行“寻宝式”资料搜集。而复杂历史事件的脉络梳理、人物关系构建、思想演变追踪等深度研究工作,常因史料不全或关联性难发现而受阻。历史学面临的大数据挑战既是机遇,也对传统研究方法提出挑战,需新工具处理和分析。面对海量非结构化文本史料,传统的人工阅读、手动摘录等处理方式效率低下,无法支撑大规模文本挖掘与量化分析。关键词提取、命名实体识别、事件关联分析等是深化研究的关键步骤。尽管已有研究探讨利用深度学习技术在中共党史文献中进行命名实体识别的可能性,但目前尚未出现公开、广为人知且专门用于整合分散中共党史研究语料的平台。

党史学习和研究的核心目标是把握历史发展宏观脉络、理解事件间因果联系、形成深刻历史洞察与分析能力。传统教学模式与以考试为导向的评估方式,使学习停留于“事件表层”的死记硬背,难以引导学生开展批判性思考与深层次分析。无论是专业研究者还是普通学习者,常只能被动接受既定知识框架,对历史的理解易停留在“时间—地点—事件—人物”的表层记忆,缺乏对背后深层原因、复杂关联及长远影响的深度解读与批判性思考。

针对上述痛点,以人工智能和知识库技术为核心的语料智能体,为中共党史研究的范式革新带来巨大潜力。

语料智能体构建的第一步,是大规模史料的数字化与结构化。通过OCR技术,将数以亿计“不可检索”的图像文字转化为“可复制、可检索、可分析”的结构化文本,彻底打破信息获取的物理壁垒,为后续所有智能分析奠定数据基石。  

智能问答、知识图谱等功能,可帮助研究者和学习者摆脱繁重的史料查找与初步整理工作。使用者能像与专家对话般,快速定位特定信息、自动梳理人物关系网络、生成事件发展脉络图,从而将更多精力投入更高层次的分析、阐释与创新性研究,显著提升研究效率与深度。  

词云图、思维导图等可视化形式,能将枯燥的文字史料转化为生动、直观、可交互的知识形态,增强党史内容的吸引力。语料智能体按需生成、千人千面的特性,可提供定制化学习路径与知识解读,引导用户从“被动看”转向“主动问”,从“记事件”转向“懂逻辑”,有效深化对党史的系统性认知。

南开大学马思宇副教授

1 中共党史研究语料智能体的

核心技术基础

构建高质量党史研究语料智能体,首要任务是将海量纸质或扫描版文献转化为机器可读的文本数据,这一过程的核心是OCR技术。

1.1 OCR技术方案的适配性设计

通用OCR工具处理格式复杂、图文混排的历史文献时,常因丢失版面结构信息导致上下文语境割裂,表现欠佳。本研究选用在复杂文档处理中表现优异的MinerU方案,并针对党史文献特性进行深度适配。

图1 MinerU方案流程示意图

在结构分析方面,党史文献具有严谨编撰逻辑与特定内容形式,如中央文件选集中的层级标题、正文段落、注释及嵌入的档案缩影等。MinerU方案能精准识别并还原这些结构信息,有效维持文献的逻辑完整性与上下文连贯性。该系统具备良好的元素拆分能力,可将正文文本与图片、表格、手写批注等非文本内容有效分离,在提取文本的同时保留其原始位置信息,为后续多模态分析与知识关联奠定基础。

在输出与验证机制上,系统支持将识别结果输出为Markdown、JSON、LaTeX等多种格式,满足从人工阅读到程序化处理等不同下游任务需求。更重要的是,针对历史文献识别中难以避免的误差,MinerU提供可视化验证后台,通过Layout与Span视图辅助人工校对,让审核人员能直观比对原始图像与识别文本在版面、层级及内容上的一致性,显著提升OCR转化的数据质量与可信度。

此外,系统具备涵盖84种语言的多语言识别能力,这对处理涉及共产国际等相关史料中的俄文、德文、英文等外文文献尤为重要。该特性确保多语种党史资料能被完整、准确地转化为文本并纳入统一知识体系,为后续深度分析与智能化研究提供坚实基础。

1.2 OCR转化的系统性成果

在MinerU方案技术支持下,中共党史研究语料智能体在文献数字化转化方面取得系统性、规模化成果。目前已完成752册核心党史文献的OCR转化,共生成351240615个有效字符,为构建覆盖广泛、内容翔实的党史智能知识库奠定坚实数据基础。

转化成果全面覆盖党史研究多个核心领域:在中央文件方面,完成《中共中央文件选集》(58册)及长江局、香港分局、西北局等各大中央局的文件汇集,为研究党中央决策过程与组织运作提供权威一手材料;在专题史料类方面,转化内容涉及财经、军事、区域史等方向,如《中国革命根据地 北海银行史料》《山东革命根据地财政史料选编》等,为特定领域深入探索提供结构化素材;在研究著作与编年史料类方面,处理《中国共产党编年史》《中共党史参考资料》等系统性较强的学术成果,助力构建清晰历史脉络;此外,《星火燎原》系列等红色经典文献也被完整转化,其中包含大量革命亲历者的珍贵回忆,大幅丰富史料的表现维度与情感厚度。

大规模OCR转化的核心价值,在于实现党史文献从“静态图像”到“智能文本”的质变。转化后的文本具备可检索、可复制、可计算的特征,让研究者能在亿级字数中快速定位目标内容,显著提升资料利用效率。这些高质量文本为后续知识抽取、关系挖掘、智能问答乃至多模态党史知识图谱的构建,提供标准化、结构化的数据原料,标志着党史研究在方法论层面迈入数字化与智能化新阶段。

2  中共党史研究语料智能体的

开发与功能实现

2.1 核心问题与解决策略

在中共党史研究语料智能体构建过程中,研究团队着力解决三个制约系统效能与可靠性的核心问题。

一是针对用户提问多样性与统一处理困境的调度策略。党史研究用户需求呈现高度异质性,涵盖从具体史实查询到宏观脉络梳理等多种类型。为同时满足不同任务需求,研究引入智能问题分类与调度机制。该机制的核心是内置语义意图识别器,能将用户自然语言提问自动归类至“思维导图生成”“知识图谱构建”“词云图制作”及“知识库问答”四大预设任务类型。分类完成后,系统随即调用适配的专用处理引擎。例如,针对概念关联性分析请求,系统会优先启动知识图谱构建模块,而非通用问答流程。这种基于分类的智能调度策略,既有效化解多样化需求与统一处理模型间的张力,又通过专业化分工显著提升任务执行准确性与系统整体响应效率。

二是针对长文本史料碎片化局限的层级处理方法。中共党史文献普遍篇幅长、逻辑结构复杂,直接进行端到端整体处理易导致关键信息丢失与语义连贯性断裂。为解决长文本分析中的“碎片化”难题,研究设计层级拆分整合方法:系统先对每个文本片段进行深度的实体、关系及事件抽取,再通过融合算法将片段层级的分析结果进行整合与逻辑校验,还原文本的整体叙事脉络。这一“分而治之,合而为一”的多轮迭代处理流程,有效保障从庞大文献中抽取知识的完整性与逻辑一致性,为后续深度分析奠定可靠基础。

三是针对生成式AI过度依赖与质量风险的控制流程。尽管生成式AI在内容生成上展现出强大能力,但其固有的“幻觉”现象、信息冗余及格式不确定性等风险,直接关乎研究的严谨性与准确性。为避免过度依赖原始生成结果,本研究平台建立“自动筛选—格式化—迭代增强”三阶段严格质量控制管道:首先对生成式AI的初始输出进行事实性错误筛查与冗余信息过滤;其次利用预设标准化模板对内容进行强制性结构化重组,确保输出符合学术规范;最后支持基于用户反馈或自检规则的多轮迭代优化,持续修正与提高内容质量。这套流程将生成式AI的创造力与可控规范化处理相结合,显著降低质量风险,确保最终输出结果的可靠性、可用性与严肃性。

2.2 父子分段式模型知识库构建

知识库构建质量是决定中共党史研究语料智能体效能的核心基础。为实现史料价值的高效挖掘与精准呈现,研究设计“父子分段式知识流水线模型”。该模型的核心是通过语义层级的精细划分与智能关联,平衡检索精准性与语境连贯性,满足党史研究对细节考证与宏观脉络分析的双重需求。

模型的核心逻辑建立在语境连贯与精准匹配的平衡机制上。该模型将文献在结构上划分为“父块”与“子块”两个层级:父块以完整语义章节(如文件全文、书籍章节)为单位,核心作用是充当“背景知识库”,确保回答任何具体问题时都能获得充分上下文信息支持,维持叙事逻辑的完整性与准确性;子块是对父块内容的深化,从父块中提取高密度关键语义片段(如核心论述、事件要点),专门服务于精准语义匹配。当用户提出问题时,系统先在子块层面快速定位,实现关键信息“精准匹配”;锁定相关子块后,立即回溯并加载其所属的整个父块原文,完成“上下文补全”。这种“子块定位、父块补全”的协作机制,是从碎片化信息中还原历史原貌、避免断章取义的关键。

在技术实现上,模型的存储与检索机制依赖向量化嵌入与双向检索的深度融合。具体流程始于“高质量语义索引”:所有文本块均通过向量化嵌入技术转化为数值向量,建立丰富的语义关联网络;子块向量被存入向量数据库,实现基于语义相似度的高效检索。检索过程并非单一模式,而是结合关键词匹配与向量语义搜索的“双向检索”策略,灵活适配用户对史实的精确查询与对脉络的关联探索等不同需求。最终通过“自适应知识响应引擎”,系统能将检索到的结构化知识智能调度至问答、词云、知识图谱或思维导图等不同功能模块,生成符合用户指令的最终成果。这套从索引、检索到响应的完整技术链,共同支撑语料智能体对党史知识进行多维度、深层次挖掘与呈现的能力。

图2 知识库构建流程示意图

2.3 四大功能模块的实践应用

在构建坚实的结构化史料知识库后,平台集成多种人工智能与自然语言处理技术,开发出四项核心功能模块(智能问答、词云图、知识图谱、思维导图),从不同维度提升党史研究的效率与深度。

智能问答模块是高效直接查询的核心工具。其工作机制是先在专属党史史料向量知识库中进行语义检索,锁定最相关的原始文献片段,再将这组经过验证的史料作为上下文提供给大语言模型整合与精炼,生成既有针对性又有文献支撑的答案。例如,当问及“唯物史观的基本原理”时,系统能精准援引《中共党史参考资料》中的具体论述,明确指出经济基础决定上层建筑等核心观点,有效避免通用模型可能产生的事实谬误,增强答案的可靠性与可溯源性。

词云图模块通过高频要素的可视化呈现文献重点。该功能对文献进行全文本分析,自动统计人物、地点、关键术语的频率,生成以字体大小代表权重的视觉图表。例如,分析早期共产主义运动文献时,能迅速凸显“毛泽东”“陈独秀”“共产主义小组”等核心词汇,帮助研究者快速捕捉文献的核心议题与关键历史角色,适用于对陌生文献集的初步评估。

知识图谱模块致力于揭示历史进程中隐含的复杂关联。它运用知识图谱实体抽取技术,自动从史料中识别并建立“人物—事件”“事件—地点”等多种实体关系对,以可视化网络图谱呈现。以研究“武汉共产主义小组”早期活动为例,系统能自动构建关系网络,清晰展示陈独秀作为主要联系人,及董必武、陈潭秋等核心成员的构成谱系,并链接至相关事件节点,辅助研究者洞察组织动力学与广泛的社会连接。

思维导图模块专注于对文献脉络进行系统性总结。该功能通过解析文献的内在逻辑结构或事件演进序列,自动生成层级清晰的树状导图。在处理《中国共产党组织史资料》这类宏大文献时,系统能以“文献编纂背景”“核心内容体系”“史料价值”等作为主干,拓展出“组织沿革”“领导成员”等次级分支,将巨量文本信息浓缩为逻辑严谨的“认知地图”,助力研究者高效把握全局,并为学术汇报和教学提供结构化底稿。

2.4 应用实例:国民革命中工人阶级作用的多维度智能分析

假设我们想运用《中共党史研究》《党史研究资料》《中共党史参考资料》《中共党史大事年表(1921-1981)》等史料开展关于工人阶级在国民革命中作用的相关研究,但不知从何入手,中共党史研究语料智能体能通过以下几个步骤,形成工作流界面,将静态的史料转化为动态、可视、可深挖的研究资源,为研究者提供研究灵感、核心思路与体系化支撑。

图3 中共党史研究语料智能体工作流示意图

第一步,从智能问答切入,快速定位核心观点。用户首先可以在模型的智能问答框中输入一个具体问题,例如:“近代工人阶级在国民革命中扮演了什么样的角色?”模型会立刻在内部语料库中进行检索和智能分析,并生成一段凝练、准确的摘要(图4)。

图4  智能问答界面示例

这段输出不仅提炼了工人阶级的阶级特性、力量来源,还指出了核心策略。几秒钟内,用户就从模糊主题获得了基于《党史研究资料第2集》《党史研究资料第3集》等史料库内史料的结构化观点,远比逐篇翻阅高效,为后续研究奠定立论起点与史料依据。

第二步,利用知识图谱功能,构建历史关联网络。核心观点明确后,我们希望更深入地理解“工人阶级”与当时其他历史要素如人物、组织、事件等的复杂关联。这时,用户可以利用模型的知识图谱功能。针对知识库中的指定史料,如《中共党史研究》2005年第3期,智能体能自动识别并抽取文本中的关键事件及要素,并通过连线反映它们之间的关联性。这张图谱不仅将线性的文本论述转化为一张可视化的网络,而且通过密集的节点和连线,直观地展示了工人阶级的发展与壮大是如何与政治力量、关键事件等各个因素紧密相连的。这种可视化方式有助于用户发现单篇阅读中容易忽略的间接关联,能够更全面地理解工人阶级在国民革命中的作用和影响,从而激发新的研究思路。

第三步,深入解析指定史料,构建脉络框架。在明确了核心观点并构建了历史关联网络后,用户可以进一步利用智能体深入解析指定史料,构建详细的脉络框架。以《中共党史研究》2005年第3期为例,模型将自动提取该史料中的关键章节和主题,生成一份思维导图,以树状结构展示史料的主要内容及其相互关系,每个分支代表一个主题或子主题,分支间的连线表示它们之间的逻辑联系。通过这种结构化的展示,用户能够一目了然地了解史料的总体框架,更清晰地理解单一史料的内容和结构,为后续研究提供坚实的基础。

图5 解析史料形成思维导图

总结而言,通过这个具体的案例,我们可以看到中共党史研究语料智能体如何将一个研究主题的研究过程重塑为一条高效、深入的路径:从智能问答快速聚焦,到知识图谱揭示深层关联,再到思维导图整合脉络。它不再是简单的文献检索工具,而是一位能够与研究者进行深度互动、提供认知支持的“智能研究助理”,极大地提升了中共党史研究的深度与效率。

2.5 中共党史研究语料智能体的构建经验总结

通过本次构建实践,研究团队深刻认识到,成功打造适用于中共党史研究的专业语料智能体,需在技术适配性、知识结构化与需求导向性三个层面进行系统化设计。

在技术适配性层面,核心经验是必须以党史文献的独有性为出发点进行技术选型与优化。以OCR技术为支撑,重点针对党史文献中常见的多格式混排、结构复杂、图文并杂等特点,选用并优化具备结构还原与元素拆分能力的专业方案,在数字化过程中有效保留文献的原始语境与逻辑层次。通过知识库构建环节,突破传统存储模式局限,创新性引入“父子分段”模型,兼顾党史研究把握整体脉络与考证微观史实的双重需要。

在知识结构化层面,语料智能体的关键价值是将原本分散、非结构化的海量史料,转化为系统化、可关联、可推理的知识体系。通过层级化处理,以“父—子”分段策略从技术上弥合史料碎片化与研究系统性之间的张力,使每一次查询结果都能兼顾细节准确与语境完整。通过文本向量化与知识图谱技术的结合,不仅实现语义层面的关联计算,更显式构建人物、事件、组织之间的复杂关系网络,支持研究者进行脉络推演与跨文献关联挖掘,大幅提升党史知识的组织效率和智能水平。

在需求导向性层面,语料智能体的生命力体现在对研究、传播、教育等多元场景需求的精准响应。在研究侧,智能问答与知识图谱功能有效缓解传统研究中信息检索慢、脉络梳理难的问题,助力学者聚焦深层分析与理论创新;在传播侧,通过词云、可视化图谱等交互形式,将党史内容转化为生动、可参与的数字体验,显著增强对年轻学习群体的吸引力;在教育侧,依托思维导图与个性化学习路径生成功能,支持学习者开展自主探究,推动党史学习从被动接受转向主动建构,有效促进深层次认知与价值内化。

3  现存问题与发展方向

尽管中共党史研究语料智能体的构建已取得初步成果,在史料处理、知识检索与脉络梳理等方面展现出一定优势,但发展仍处于初级阶段,面临来自数据基础、技术深度等方面的挑战。清醒认识这些现存问题,据此规划未来发展方向,是推动该语料智能体从“可用”走向“好用”“实用”的关键。

3.1 语料库建设的核心难题

语料库是语料智能体运行的根基,其质量直接决定语料智能体认知的准确性与深度。当前,语料库建设面临的核心难题集中于数据清洗与标准化环节。

首先,数据清洗与标识工作异常复杂。中共党史文献时间跨度大、来源广泛,其中充斥大量历史专有名词,如“苏维埃”“赤维埃”“边区”等。还有异体字、旧式标点及特定历史时期的表述方式等。对这些内容进行精准识别和标准化处理,是确保语料智能体正确理解史料语义的前提。例如,若不能将“赤维埃”准确映射为标准术语“苏维埃”,会导致相关史料在检索和关联时被遗漏。更为棘手的是敏感信息的标识问题:党史研究具有高度的政治性和严肃性,部分文献内容涉及需谨慎处理的历史细节或个人评价,这要求在语料入库前建立一套精细、符合学术规范与相关规定的标识体系,实现对特定信息的自动化识别与管理,避免生成内容出现偏差。

其次,缺乏适配党史文献特点且高效的专业化校对工具。目前,OCR转化后的文本校对工作仍高度依赖人工,成本高昂且效率低下。通用OCR校对工具难以有效识别上述历史术语和特殊表述的错误。因此,亟待开发一套融合“历史术语库”与“上下文语义校验”的智能校对系统。该系统能基于党史知识的上下文逻辑,自动提示或修正可能的识别错误,将研究人员从繁重的基础校对劳动中解放出来,大幅提升语料构建的效率与准确性。

3.2 知识库的深化方向

现有知识库主要以文本史料为核心,为实现从“文献检索工具”到“综合研究平台”的跨越,知识库的深化需向多模态融合与跨库关联迈进。

多模态融合是提升认知维度的必然要求。党史是立体而鲜活的,仅依靠文本难以全面呈现其丰富内涵。将历史照片、档案手迹、领导人讲话录音、纪录片等图像、音频、视频资料纳入知识库,并进行有效多模态关联,能大幅丰富语料智能体的知识体系。例如,当研究者查询“开国大典”时,语料智能体不仅能提供文字报告,还能关联展示相关历史影像、照片和新闻公报,构建更全面、更生动的历史场景,助力具象化的历史感知与研究。

跨库联动是打破数据壁垒、拓展史料边界的关键路径。当前,各级党史研究机构与革命纪念馆多建有特色数字资源库,但彼此独立,形成“数据孤岛”。未来,语料智能体应致力于构建统一的数据接口标准,实现与这些权威外部数据库的有机联动。通过安全、规范的协议,语料智能体可检索并调用外部库的专有资源,在不重复建设的前提下大幅拓展史料覆盖范围,为研究者提供“一站式”党史资料服务,真正实现研究资源的整合与共享。

3.3 未来展望

面向未来,中共党史研究语料智能体应在解决现存问题的基础上,朝着功能深化、技术融合与生态构建的方向持续演进。

在功能深化上,可探索个性化推荐机制:基于用户的研究兴趣和行为数据(如专注于“延安时期经济史”或“早期工人运动”),主动推送相关的史料、研究成果乃至分析工具模块,实现从“人找资料”到“资料找人”的转变。进一步可发展辅助研究生成功能:自动生成论文提纲、文献综述初稿,并自动完成史料引文的标注与校对,将语料智能体从研究助手升级为研究伙伴。

在技术融合上,可积极探索人工智能与党史研究的深度结合,特别是引入数字人文的研究方法。例如,对长时段的党报社论进行文本挖掘与情感分析,以量化方式观察特定政治概念或表述的演变趋势;利用社会网络分析技术,自动梳理历史人物、事件、组织之间的复杂关系网络,发现传统定性研究中难以察觉的模式与规律,为党史研究开辟新范式。

在生态构建上,最终目标是形成可持续的研究逻辑闭环。一方面,建立党史学者深度参与机制,将语料标注、模型优化与功能设计各环节的党史学者参与融入平台开发全链条,贴合学术前沿与实际需求,提升学术严谨性;另一方面,打造成果共享平台:鼓励用户将基于语料智能体产生的研究笔记、可视化图谱、分析报告等,在遵守规范的前提下进行分享与协同,汇聚集体智慧,形成开放、协作、共进的党史研究新生态。

4  结语

中共党史研究语料智能体通过“史料OCR转化—知识库构建—功能模块实现”的技术路径,有效破解传统党史研究中的效率与深度难题,为技术赋能数字人文研究提供实践范式。其核心经验在于“技术适配党史特性、知识服务研究需求”,而语料处理、跨模态融合等问题仍需持续突破。未来,需以“学术严谨性”为前提、“用户需求”为导向,推动语料智能体从“辅助工具”向“党史研究新基础设施”演进,助力中共党史研究的数字化、体系化、创新化发展。

转载请注明“刊载于《数字人文研究》2026年第1期”;参考文献格式:马思宇,王亚星,肖桐月,等.中共党史研究语料智能体的构建经验与思考[J].数字人文研究,2026,6(01):32-42.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

科技遗产与数字人文工作坊(第一号通知)

2026年5月10日 20:25

数字人文研究中心 2026-05-10 20:25 北京

以下文章来源于:中华方志物语

中华方志物语

中国地方志物产知识挖掘、分析、数据化、可视化及应用

点击上方蓝字关注我们了解教育动态

为深入贯彻落实中共中央办公厅、国务院办公厅《关于推进实施国家文化数字化战略的意见》精神,响应党的二十大关于 “推进文化和科技融合,推动文化建设数智化赋能” 的战略部署,紧扣《“十四五” 文物保护和科技创新规划》中 “加强文物数字化保护、大力发展数字考古” 的工作要求,立足新质生产力驱动下文化遗产保护利用的时代需求,中国科技史学会数字人文专委会联合南京农业大学人文与社会发展学院、数字人文研究中心,定于 2026 年 7 月 12—18 日举办 “科技遗产与数字人文研究工作坊”。

本次工作坊聚焦中国古代科技遗产的数字化保护与创新性研究,以 “方法导向、过程透明、结果可复现” 为核心原则,直面当前科技遗产研究中数字技术应用碎片化、实操能力薄弱、跨学科融合不足等痛点。工作坊将系统整合数据预处理、生成式 AI 辅助编程、知识图谱构建、社会网络分析、历史 GIS 时空建模、大语言模型微调等前沿技术模块,构建 “理论筑基 — 技术实操 — 案例落地 — 成果孵化” 的全链条培养体系。通过拆解完整研究流程、强化上机实操训练、同步产出阶段成果,助力人文社科领域师生与青年学者打通 “人文问题 — 数字方法 — 学术产出” 的转化通道,培养一批兼具科技遗产学术素养与数字人文技术能力的复合型人才,为国家文化大数据体系建设与科技遗产的活化传承提供人才支撑与方法借鉴。

基本信息

(一)指导单位:中国科技史学会数字人文专委会

(二)主办单位:南京农业大学人文与社会发展学院

(三)承办单位:南京农业大学数字人文研究中心

(四)实施保障

项目

内容说明

课程材料

每日课件、步骤讲义、Notebook 模板、课堂操作截图与问题排查说明。

课堂数据

相关 TXT 文本、CSV 表格、关系边表、地理数据、图数据库样例及必要的模型演示材料。

软件工具

Python、Jupyter Notebook、Pandas、Matplotlib、Neo4j、Gephi、ArcGIS,以及必要的生成式 AI 与大模型实验环境。

课堂支持

教师完整演示、助教巡回答疑、统一问题汇总与课后材料打包。

组织建议

建议学员自带电脑;开课前统一发送软件安装说明;原则上每 10—15 名学员配备 1 名助教。

课后服务

建立专门群组,长期进行课后答疑与专业服务。

工作坊定位

本工作坊面向科技遗产、科学技术史、数字人文及相关人文社会科学领域的师生与青年学者开展科技遗产数字人文研究培训,突出“方法导向、过程透明、结果可复现”。与偏重成果展示的学习活动不同,本工作坊强调把研究过程拆解清楚、演示完整,并让学员在课堂中同步完成关键步骤。

结合本次工作坊的主题与受众特点,课程案例以中国古代科技遗产为主线材料,贯穿数据预处理、生成式 AI 辅助编程、知识图谱与语义组织、社会网络分析、历史 GIS 与时空分析以及大语言模型专题等模块,尽量使技术训练与具体研究对象紧密衔接。

整体结构遵循“导论—数据预处理—生成式 AI 辅助编程—专题工具训练—综合实践”的逻辑,既确保入门门槛可控,也保证各专题模块有完整的上手时间和课堂产出。

参会形式和主要日程

每天分为上午(9:00—12:00)与下午(14:00—17:00)两个单元。上午侧重问题导入、概念说明、案例拆解与教师完整演示,下午侧重学员同步操作、助教巡回指导与课堂成果提交。

所有模块统一采用“案例说明—教师演示—学员复现—问题纠偏—结果保存”的组织流程,避免只讲结果、不讲步骤。

课堂统一提供已整理好的 TXT、CSV、关系边表、地理数据和图数据库样例,尽量减少繁杂前处理对学习节奏的干扰。

每个模块都要求形成可见成果,学员在结课时可以带走代码模板、数据样例、步骤讲义与个人成果文件。

招募对象及培训目标

(一)招募对象

1.科学技术史、科技遗产、数字人文、历史学、考古学、博物馆学、古籍整理、文化遗产保护等方向的教师、研究生与高年级本科生;

2.希望把数字人文研究方法真正引入研究流程,但缺少系统训练的人文社科学者;

3.已具备明确研究主题,希望通过工作坊迅速形成可操作技术路线的青年学者。

(二)培训目标

1.建立科技遗产与数字人文研究的整体方法框架,理解不同技术模块在研究中的分工与连接方式;

2.掌握研究数据预处理、生成式 AI 辅助编程、结构化分析与结果展示的基本流程;

3.能够完成知识图谱、社会网络分析、历史 GIS 与大语言模型专题中的基础操作与结果解释;

4.形成至少一个可延展到个人论文、课题或课程设计中的研究雏形。

培训相关事宜

1.培训费用:

人员身份

培训费用

教师及职业研究者

8000元/人

在读学生(本科生、研究生、博士生)

4000元/人

※ 培训费用包含全程课程、课程材料、讲义及数据包,不含食宿及往返交通费用,以上费用均由学员自理。

※ 缴费方式将在录取通知中另行告知。

报名方式

请于2026年6月20日(星期六)前,扫描下方二维码或点击报名链接报名。

工作坊组委会将综合考虑报名时间及申请人专业背景进行遴选,以保证课堂质量。录取结果将于报名截止后7个工作日内以邮件形式通知,请申请人注意查收。

联系信息

联系人:张老师

电 话:13295221109

邮 箱:zhangqiang@njau.edu.cn

授课教师简介

专委会领导(待定)

1.包平

南京农业大学人文与社会发展学院二级研究员,博士生导师,国家社科基金重大项目首席专家,中华物产与文明探源协同创新中心负责人。致力于古籍文献的收集、整理与研究工作,综合运用信息技术开展地方志物产文献的智能整理与知识挖掘研究,形成了可共享的体系化方法和数智化资源。获部省级教学科研奖励7项,出版专著7部,发表学术论文120余篇;获软件著作权6项。现任中国科技史学会数字人文专业委员会副主任委员,中国古籍保护协会古籍智能开发与利用专业委员会委员,中国索引学会数字人文专业委员会委员。

2.王东波

南京农业大学信息管理学院副院长、教授、博士生导师、南京大学“术语与翻译跨学科研究基地”兼职研究员、国家社科基金重大项目首席专家。主要从事自然语言处理与大语言模型、科技文本知识挖掘研究,主导或参与完成了荀子古籍大语言模型、中国非物质文化遗产大语言模型、中华物产大语言模型和司农大语言模型等垂直大语言模型的构建。主持国家社科基金、国家自然科学基金及其他省部级项目共计12项。以第一完成人分别获得第九届高等学校科学研究优秀成果奖(人文社会科学)青年成果奖、江苏省哲学社会科学优秀成果一等、二等和三等奖各一次。

3.朱锁玲

南京农业大学人文与社会发展学院教授,硕士生导师,美国伊利诺伊大学香槟分校信息学院访问学者。研究方向为数字人文、古籍智能整理与开发利用。近年来主持国家社科基金项目、农业部重点实验室课题、江苏省社科基金项目等多项国家级和省部级课题,在《中国图书馆学报》《大学图书馆学报》《中国农史》《Library Hi Tech》等期刊发表学术论文30余篇,出版学术专著1部,参编教材及专著4部,获得省部级奖项1项,入选南京农业大学第四批“钟山学术新秀”。现任南京农业大学数字人文研究中心负责人,兼任中国科学技术史学会数字人文专委会副秘书长。

4.陈涛

工学博士,中山大学信息管理学院副教授,“百人计划”引进人才,硕士生导师。上海图书馆、南京大学信息管理学院联合培养博士后,中山大学国家文化遗产与文化发展研究院研究员,中山大学数字人文实验室首席专家。长期从事数字人文、人工智能、文化遗产方面的研究,主持国家社科重大项目子课题1项“基于数智融合技术的重要非遗数字基因提取与文化基因库构建(2025)”,国家社科基金一般项目2项“文化遗产多模态数据知识表示模型及智慧系统构建研究(2023)与数字人文中图像文本资源的语义化建设与开放图谱研究(2019)”,以及中国博士后科学基金、中宣部古籍工作重点课题、中国图书馆学会重点课题等多项省部级课题;作为核心人员参与国家自然科学基金3项、国家社科基金重大项目2项、国家社科基金一般项目2项,国家社科青年项目1项,以及江苏省哲社基金、上海市哲社基金、国家863、科技部项目等十余项;负责过近三十项知识图谱与数字人文领域相关的横向课题。近几年以第一/通讯作者在DSH、JOI、《中国图书馆学报》《大学图书馆学报》《图书情报工作》等核心期刊发表论文五十余篇,兼任国内外图情和数字人文领域十余种核心期刊评审专家、复旦大学中国开放数林指数评估专家委员会委员、中国科学技术史学会数字人文专业委员会会员、中国索引学会数字人文专委会委员等职务。

5.尚平

历史学博士,现任湖北师范大学历史文化学院副教授、湖北师范大学计算史学与数字人文研究实验室主任。目前主要研究方向是宋史、历史GIS和数字人文。编著有《历史地理信息系统基础操作教程》(合著)(华中科技大学出版社2024年),发表论述十余篇。

6.李惠

南京农业大学人文与社会发展学院副教授,负责历史文献的数字化整理与建设的技术方案支持。兼任《数字人文》集刊编辑、《信息与管理研究》期刊编委、中国历史文献研究会·数字文献分会会员等。主要研究领域包括:深度学习、网络科学、自然语言处理等前沿技术在数字人文领域的应用研究。

7.李娜

理学博士,南京林业大学人文社会科学学院副教授,硕士生导师,2019年度江苏省优秀博士学位论文获得者,CSC公派英国剑桥大学访问学者,现任南京林业大学人文社会科学学院广播电视与新媒体系主任、国家林业和草原局林业遗产与森林环境史研究中心林业史料数字化研究室主任,主要研究方向为科学技术史、数字人文、文化传播。主持国家社科基金青年项目、江苏省社科基金青年项目、国家林业和草原局软科学项目、中国博士后基金特别资助项目和中国博士后基金面上项目等多项国家和省部级项目,在《中国农史》《图书馆论坛》《图书馆》《中国科技史杂志》等期刊发表学术论文十余篇,出版专著一部。

8.徐晨飞

理学博士,南通大学商学院(管理学院)副教授,硕士生导师,美国伊利诺伊大学香槟分校信息学院访问学者。研究方向为数字人文,文化遗产知识组织与人工智能应用。主持国家社科基金项目、教育部人文社科项目、江苏省社科基金项目及各类市厅级课题共8项。在《大学图书馆学报》《图书情报工作》《数据分析与知识发现》《图书馆论坛》《中国农史》等期刊上发表学术论文 30 余篇,出版专著2 部,主编教材2部,获软件著作权2项,2024、2025中国知网高被引学者TOP1%。现任中国科学技术史学会数字人文专业委员会委员,南京农业大学数字人文研究中心特聘研究员。

9.周树斌

管理学博士,内蒙古师范大学科学技术史研究院特聘研究员、内蒙古师范大学科技古籍整理研究所研究员、内蒙古自治区科技文化遗产认知智能重点实验室研究员、中国索引学会数字人文专业委员会委员、中国科学技术史学会会员、内蒙古自治区人工智能学会青年工作委员会及数智文旅专委会委员、《Knowledge Organization》青年编委。研究方向为科技遗产与数字人文、科学技术史、知识组织。主持内蒙古自治区社会科学基金、内蒙古自治区教育科学“十四五”规划专项课题、用友基金会“商的长城”项目等项目4项,在《大学图书馆学报》《图书情报工作》《情报资料工作》《图书馆论坛》《Knowledge Organization》等国内外期刊发表论文20余篇,2025中国知网高被引学者TOP5%。

10.张强

管理学博士,淮阴师范学院文学院数字人文系主任,南京农业大学人文与社会发展学院博士后,南京农业大学数字人文研究中心研究员,中国计算机学会专业会员,中国科学技术史学会数字人文专委会委员。研究方向为数字人文、科学技术史、科技遗产知识组织。主持中国博士后面上资助项目、江苏省社科联精品工程地方志专项重点项目、江苏省科技智库青年项目等。《Knowledge Organization》《中国农史》青年编委,在《情报学报》《图书情报工作》《数据分析与知识发现》《Digital Scholarship in the Humanities》等国内外核心期刊发表论文30余篇,授权发明专利2项,2025中国知网高被引学者TOP1%。曾获2022年中国数字人文年会优秀论文奖、最具人气项目奖等。

阅读原文

跳转微信打开

DH无界谈 | 曾蕾:AI时代文化遗产数据资源的采集和数智活化

2026年5月7日 08:23

数字人文研究院 2026-05-07 08:23 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

中国人民大学数字人文研究院

"DH无界谈"015

AI时代文化遗产数据资源的

采集和数智活化

内容简介

本次讲座将讨论文化遗产数据资源处理的不同层次和功能,并探讨一些跨国实例带来的启发,涉及AI时代数据资源数智活化的速度,深度,广度,质量,以及能联合使用的服务等。

时间:2026/05/09 14:00

地点:立德楼B1数字人文实验室

主办单位

中国人民大学数字人文研究院

学术媒体支持

《数字人文研究》

主讲人 曾蕾

美国肯特州立大学(KentState University)信息学院终身教授,荣获国际信息科学与技术协会(ASiS&T)2024年度杰出贡献奖(ASIS&T Award of Merit),是该奖1964年设立以来的首位华人获奖学者。

主持人 夏翠娟

中国人民大学信息资源管理学院教授

数字人文研究院研究员

撰稿/图片/排版:邱晨昱

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

历史游戏研究文献汇总(至2026年初)

2026年5月6日 16:39

西瓜好吃 2026-05-06 16:39 北京

以下文章来源于:漫谈穿越

漫谈穿越

漫谈穿越。分享有趣的穿越作品。分析故事背后的思想观念与历史

历史游戏研究,即以历史游戏为对象的相关研究。

历史游戏研究文献汇总

至2026年初

作者简介

庞昊,毕业于中国社会科学院世界历史研究所,师从俞金尧教授,世界史博士,从事西方史学理论与史学史研究,目前工作于中山大学历史学系,关注历史游戏研究与人工智能时代的历史学议题。

| 小红书账号:西瓜好吃 |

      “历史游戏”是指游戏内容包含历史元素,且这些元素或是能够影响玩家游戏体验,或是能够促使玩家思考过去的电子游戏。历史游戏研究,即以历史游戏为对象的相关研究。

       历史游戏为什么如此有吸引力?历史游戏又是如何建构历史的?这一历史表现形式有什么特殊之处,尤其是相比历史专著和历史电影来说?历史游戏有可能成为探索历史问题的工具吗?2000年前后,为了回答这些问题,一些欧美研究者将目光投向历史游戏,开启了“历史游戏研究”领域。2013年,Adam Chapman提出了历史游戏研究宣言,宣称历史游戏是历史,历史游戏研究是一个独立的研究领域。2017年,历史游戏研究是一个独立研究领域已经是很多研究者的共识。经过近25年的发展,它已逐渐成熟,而且渐渐融入欧美主流史学研究,时至今日,已有近300份历史游戏研究成果,包括学术论文、学术专著、学术论文集。这份整理以英语世界的研究为主的,并收录了国内和法、德的有限成果,未能涵盖日语、韩语、葡萄牙语、西班牙语、意大利语的相关研究

1992

1. Keith Ferrell, Sid Meier's Civilization, Compute, Vol.14, No.1 (Jan.,1992), pp.86-87.

2. Roger-Tzu, Strategies for Sid Meier's Civilization: The 6000-year-old Man Gives Sage Advice, Computing Gaming World,No.93 (April,1992), p.88, p.90.

3. Alan Emrich, Getting Civilized:What's Happening to Sid Meier's Civilization?,Computing Gaming World, No.94 (May,1992), p.108, p.110.

1993

1. J.Stallabrass, Just Gaming: Allegory and Economy  in Computer Games, New Left Review, No.198, pp.83-106.

2. Pierre Corbell, Review on Civilization, Simulation  &Gaming, Vol.24, No.3(September, 1993), pp.388-390.

1997

1. Bill Bigelow, On the Road to Cultural Bias: A Critique of the Oregon Trail CD-ROM, Language Arts, Vol.74, No.2(Feb.,1997), pp.84-93.

2. Janet H.Murray, Hamlet on the Holodeck: The Future of Narrative in Cyberspace, Cambridge: The MIT Press, 1997.

3. Douglas Rushkoff, Children of Chaos: Surviving the  End of the World as We Know It, London:Flamingo,1997.

1999

1. Ted Friedman, Civilization and Its Discontents: Simulation,Subjectivity,and Space, Greg M.Smith,ed.,On a Silver Platter:CD-ROMs and the Promises of a New Technology,New York and London:New York University Press, 1999, pp.132-150.

2001

1. David Kushner, In Historical Games, Truth Gives Way to Entertainment, The New York Times, September 6, 2001, https://archive.nytimes.com/www.nytimes.com/learning/teachers/featured_articles/20010906t hursday.html.

2002

1. Christopher Douglas, You Have Unleashed a  Horde of Barbarians! : Fighting Indians, Playing  Games, Forming Disciplines, Postmodern Culture, Vol.13, No.1 (September,2002), https://pmc.iath.virginia.edu/issue. 902/13.1douglas.html.

2. Kacper Poblocki, Becoming-State:The Bio-Cultural Imperialism of Sid Meier's Civilization, Focaal-European Journal of Anthropology, No.39 (2002), pp.163-177.

3. Matthew Kapell, Civilization and Its Discontents: American Monomythic Structure as Historical Simulacrum, Popular Culture Review, Vol.13, No.2(Jun.,2002), pp.129-135.

4. Kurt Squire, Cultural Framing of Computer/Video Games, Game Studies, Vol.2, No.1 (July,2002), https://www.gamestudies.org/0102/squire/.

5. Tom Lenoir and Henry Lowood, Theaters of  War: The Military-Entertainment of Complex, Stanford University Library, 2002,  https://web.stanford.edu/class/sts145/Library/LenoirLowood_TheatersOfWar.pdf.

2003

1. Henry Jenkins and Kurt Squire, Understanding Civilization II: The Pros and Cons of Using Computer Games in the Classroom, Computer Games, (September,2003), p.92.

2. Kenneth Chen, Civilization and Its Disk Contents, Radical Society, Vol.30, No.2(2003), pp. 95-107.

3. Patrick Crogan, "Gametime: History, Narrative, and Temporality in Combat Flight Simulator 2", Mark J. P. Wolf and Bernard Perron, eds., The Video Game Theory Reader, London and New York: Routledge, 2003, pp.275-302.

4. Shawn Miklaucic, "God Games and Governmentality: Civilization I and    Hypermediated Knowledge", Jack Z. Bratich, Jeremy Packer and Cameron McCarthy, Foucault, Cultural Studies, and Governmentality, New York: State University of New York Press, 2003, pp. 317-336.

5. Sybille Lammes, On the Border: Pleasures of Exploration and Colonial Mastery in Civilization Ⅲ Play the World, Proceedings of DiGRA 2003 Conference: Level Up, Utrecht: Utrecht University and Digital Games Research Association, 2003, pp.120-129.

6. Tom Taylor, Historical Simulations and the Future of the Historical Narrative, Journal of the Association for History and Computing, Vol.6, No. 2, September, 2003,  https://quod.lib.umich.edu/j/jahc/3310410.0006.203?rgn=main;view=fulltext,  2003-9, 2021-2-22.

2004

1. Kurt D. Squire, Replaying History: Learning World History through Playing Civilization II, Ph.D., Indiana University, 2004.

2. Dennis G. Charsky, Evaluation of the Effectiveness of  Integrating Concepts Maps and Computer Games to Teach Historical Understanding, Doctoral Dissertation, University of Northern Colorado, 2004.

2005

1. D.Machin and T. van Leeuwen, Computer Games as Political Discourse: The Case of Black Hawk Down, Journal of Language and Politics, Vol.4, No.1(2005), pp.119-141.

2. William Uricchio, "Simulation,History,and Computer Games", Joost Raessens and Jeffrey Goldstein eds, Handbook of Computer Game Studies, Massachusets: The MIT Press, 2005, pp.327-338.

2006

1. David B. Nieborg, Mods,Nay!Tournaments, Yay!-The Appropriation of Contemporary Game Culture by the U.S.Millitary, The Fibreculture Journal, Vol.8(2006) , https://eight.fibreculturejournal.org/fcj-051-mods-nay-tournaments-yay-the-appropriation-of-contemporary-game-culture-by-the-u-S-military/.

2. Jerome De Groot, Empathy and Enfranchisement: Popular Histories, Rethinking History, Vol.10, No.3(2006), pp.391-413.

3. Joost Raessens, Reality Play: Documentary Computer Games Beyond Fact and Fiction, Popular Communication: The International Journal of Media and Culture, Vol.4, No.3(2006), pp.213-224.

4. Kurt Squire, From Content to Context: Videogames as Designed Experience, Educational Researcher, Vol.35, No.8, pp.19-29.

5. Niall Ferguson, How to Win a War, New York Magazine, Oct.12, 2006, https://nymag.com/news/features/22787/.

6. Thomas Apperley, Virtual Unaustralia: Videogames and Australia's Colonial History, The Cultural Studies Association of Australasia's Annual Conference, 2006, https://www.academia.edu/385987/Virtual_UnAustralia_Videogames_and_Australias_colonial_history.

2007

1. Diane Carr, "The Trouble with Civilization", Barry Atkins and Tanya Krzywinska, eds., Videogame, Player, Text, Manchester and New York: Manchester Uiversity Press, 2007, pp.222-236.

2. Brian Rejact, Toward a Virtual Reenactment of History: Video Games and the Recreation of the Past, Rethinking History, Vol.11, No.3(September, 2007), pp.411-425.

3. Esther MacCallum-Stewart and Justin Parsler, Controversies: Historicising the Computer Game, Situated Play, Proceedings of DiGRA2007 Conference, pp.203-210.

4. Eva Kingsepp, Fighting Hyperreality with Hyperrealtiy: History and Death in World War II Digital Games, Games and Culture, Vol.2, No.4(October,2007), pp.366-375.

5. Kevin Schut, Strategic Simulations and Our Past: The Bias of Computer Games in the Presentation of History, Games and Culture, Vol.2, No.3 (July,2007), pp.213-235.

6. Trent Cruz, "It's Almost Too Intense:" Nostalgia and Authenticity in Call of Duty 2, The Journal of the Canadian Game Studies Association, Vol.1 No.1(2007), https://loading.journals.publicknowledgeproject.org/index.php/loading/article/view/7.

2008

1. Beth A. Dillon, Signifying the West: Colonialist Design in Age of Empire II: The WarChiefs, Computer Game Culture, Vol.2, No.1(2008), pp.129-144.

2. Harry J. Brown, Videogames and Education, New York and London: M. E. Sharpe, 2008, pp.117-35.

3. J. Pixel Wills, Cowboys and Silicon Gold Mines: Video Games of the American West, Pacific Historical Review, 77.2.2008, pp.273-303.

4. Matthew Jason Weise, Bioshock: A Critical  Historical Perspective, Eludamos, Journal for Computer Game Culture, Vol.2, No.1(2008), pp.151-155.

5. Matthew Thomson, Military Computer Games and the New American Militarism: What Computer Games Teach Us About War, University of Nottingham for the Degree of Doctor of Philosophy, 2008

6. Reichert Ramón, "Government-Games und Gouverntainment", Rolf F. Nohr and Serjoscha Wiemer, eds., Strategie Spielen: Medialität, Geschichte und Politik des Strategiespiels, LIT, 2008, pp.189-212.

7. James Campbell, "Just Less than Total War: Simulating World War I as Ludic Nostalgia", Z.Whalen and L. N. Taylor, Playing the Past: History and Nostalgia in Video Games, Nashville: Vanderbilt University Press, 2008, pp.183-200.

8. Tracy Fullerton, "Documentary Games: Putting the Player in the Path of History", Z.Whalen and L. N. Taylor, Playing the Past: History and Nostalgia in Video Games, Nashville: Vanderbilt University Press, 2008, pp.215-238.

2009

1. Annette Vowinckel, Past Futures: From Re-Enactment to the Simulation of History in Computer Games, Historical Social Research/Historische Sozialforshung, 2009, Vol.34, No. 2(2009), pp.322-332.

2. Cindy Poremba, Frames and Simulated Documents:Indexicality in Do cumentary Videogames, The Journal of the Canadian Game Studies Association, Vol.3, No.4, https://loading.journals.publicknowledgeproject.org/index.php/loading/article/view/61.

3. Claudio Fogu, Digitalizing Historical Consciousness, History and Theory, Vol.48, No.2 (May,2009), pp.103-121.

4. Filipe M. Penicheiro, History Reloaded: Perspectives on Historical  Based  Games, Brazilian Symposium on Games and Digital Entertainment, pp.52-56.

5. Gerald  A. Voorhees, I Play Therefore I Am: Sid Meier's Civilization, Turn-Based Strategy Games and the Cogito, Games and Culture, Vol.4,  No.3(July,2009), pp.254-275.

6. Jerome de Groot, Consuming History: Historians and Heritage in Contemporary Popular Culture, London and New York: Routledge, 2009.

7. Kevin Kee et al., Toward a Theory of Good History Through Gaming, The Canadian Historical Review, Vol.90, No.2(2009), pp.303-326.

8. Kevin Kee and John Bachynski, Outbreak: Lessons Learned from Developing a 'Hist ory Game", Vol.3, No.4 (2009), https://loading.journals.publicknowledgep roject.org/loading/index.php/loading/article/view/64/58.

2010

1. Cynthia Katherine Poremba, Real/Unreal: Crafting Actuality in the Documentary Videogame, Doctoral Humanities Program at Concordia University, 2010.

2. Gozda Dogramacilar, Play and History: Authenticity and Experience in Virtual Reconstructions and Video Games, Master of Science in Architecture of the University of Cincinnati, 2010.

3. Harrison Gish, Playing the Second World War: Call of Duty and the Telling of History, Eludamos, Journal for Computer Game Culture, Vol.4, No.2(2010), pp.167-180.

4. Jaimie Baron, Digital Historicism: Archival Footage, Digital Interface, and Historiographic Effects in Call of Duty: World at War, Eludamos, Journal for Computer Game  Culture, Vol.4, No.2(2010), pp.303-314.

5. Luke Brett Jacobs, An Analysis of Medal of Honor: Pacific Assault, Master of Arts in Screen and Media Studies, The University of Waikato, 2010.

6. Joel Penney, "No Better Way to 'Experience' World War II: Authenticity and Ideology in the Call of Duty and Medal of Honor Player Communities", Nina B. Huntemann and Matthew Thomas Payne, eds., Joystick Soldiers: The Politics of Play in Military Video Games, New York and London: Routledge, 2010, pp.191-205.

7. Rudolph Glitz, "Making World Historical: The Political Aesthetics of Sid Meier's Civilization Series", Ansgar Nünning, Vera Nünning and Birgit Neumann, eds., The Aesthetics and Politics of Cultural Worldmaking, Trier: WVT Wissenschaftlicher Verlag Trier, 2010, pp. 161-180.

8. Tanine Allison, The World WarⅡVideo Game: Adaption and Postmodern History, Literary Film Quarterly, Vol.38, No.3(July,2010), pp.183-193.

2011

1. Jaakko Suominen, Game Reviews as Tools in the Construction of Game Historical Awareness in Finland, 1984-2010: Case MikroBitti Magazine, Proceedings of DiGRA 2011 Conference: Think Design Play, pp.1-17.

2. Kevin Kee, Computerized History Games: Narrative Options, Simulation & Gaming, Vol.42, No.4(2011), pp.423-440.

3. Geoffrey M. Rockwell and Kevin Kee, The Leisure of Serious Game: A Dialgue, Game Studies, Vol.11, No.2(May,2011), https://gamestudies.org/1102/articles/geoffrey_rockwell_kevin_kee.

4. Stephanie Fisher, Playing with the World War II: A Small-Scale Study of Learning in Video Games, The Journal of the Canadian Game Studies Association, Vol.5, No.8(2011), pp.71-89.

2012

1. Adam Chapman, Privileging Form Over Content: Analysing Historical Videogames, Journal of Digital Humanities, Vol.1, No.2(Spring,2012), https://journalofdigitalhumanities.org/1-2/privileging-form-over-content-by-adam-chapman/.

2. Catia Ferreira, Memory and Heritage in Second Life: Recreating Lisbon in a Virtual World, Journal of Gaming & Virtual Worlds, Vol.4, No.1(Mar.,2012), pp.63-79.

3. Greg Gillespie and Darren Crouse, There and Back Again: Nostalgia, Art, and Ideology in Old-School Dungeons and Dragons, Games and Culture, Vol.7, No.6(2012), pp.441-470.

4. Jerremie Clyde, Howard Hopkins, Glenn Wilkinson, Beyond the "Historical" Simulation: Using Theories of History to Inform Scholarly Game Design, The Journal of the Canadian Game Studies Association, Vol.6, No.9 (January,2012), pp.3-16.

5. Rachel Wagner, First-Person Shooter Religion: Algorithmic Culture and Inter-Religious Encounter, Cross Currents, Vol.62, No.2(June, 2012), pp.181-203.

2013

1. Adam Chapman, The Great Game of History: An Analytical Approach to and Analysis of the Videogame as a Historical Form, Doctor Thesis, University of Hull, 2013.

2. Adam Chapman, Is Sid Meier's Civilization History, Rethinking History, Vol.17, No.3, pp. 312-332.

3. Alan F. Meades, Infectious Pleasures: Ethnographic Perspectives on the Production and Use of Illicit Videogame Modifications on the Call of Duty Franchise, Journal of Gaming & Virtual World, Vol.5, No.1(Mar.,2013), pp.59-76.

4. Benjamin Wai-Ming NG, "The Adaptation of Chinese History into Japanese Popular Culture: A Study of Japanese Manga, Animated Series and Video Games Based on The Romance of the Three Kingdoms", Roman Rosenbaum, ed., Manga and the Representation of Japanese History, London and New York: Routledge, 2013, pp.234-250.

5. Laura  Zucconi, Ethan Watrall, Hannah Ueno and Lisa Rosner, Pox and the City: Challenges in Writing a Digital History GameJack Dougherty and Kristen Nawrotzki, eds., Writing History in the Digital Age, Ann Arbor: University of Michigan Press, Digital culture books, 2013, pp.199-206.

6. Thomas Rabino, Jeux Vidéo et Histoire, Le Débat, No.177(Novembre-Décembre,2013), pp. 110-116.

7. Matthew Wilhelm Kapell and Andrew B. R. Elliott eds., Playing with the Past: Digital games and the Simulation of History, New York: Bloomsbury, 2013.

Part One: History as a Process

Rolfe Daus Peterson,Andrew Justin Miller, Sean Joseph Fedorko, The Same River Twice: Exploring  Historical Representation and the Value of  Simulation in the Total War, Civilization, and patrician Franchises, pp.33-48Daniel Reynolds, What is "Old"in Video Games?, pp.49-60.

Adam Chapman, Affording History: Civilization and the Ecological Approach, pp.61-74.

Part Two: History Written by the West

Emily Joy Bembeneck, Phantasm of Rome: Video Games and Cultural Identity, pp.77-90.

Rebecca Mir and Trevor Owens, Modeling  Indigenous Peoples: Unpacking Ideology in Sid Meier's Colonization, pp.91-106.

Joshua D. Holdenried with Nicolas Trepanier, Dominance and the Aztec Empire: Representations in Age of Empires I and Medieval II: Total War, pp.107-120.

Hyuk-Chan Kwon, Historical Novel Rivived: The Heyday of Romance of the Three Kingdoms Role-Playing Games, pp.121-134.

Kazumi Hasegawa, Falling in Love with History: Japaneses Girls'Otome Sexuality and Queering Historical Imagination, pp.135-150.

Part Three: User-Generated History

Andrew J. Salvati and Jonathan M. Bullinger, Selective Authenticity and the Playable Past, pp.153-168.

Josef Kostlbauer, The Strange Attraction of Simulation: Realism, Authenticity, Virtuality, pp.169-184.

Tom Apperley, Modding the  Historians'Code: Historical Verisimilitude and the Counterfactual Imagination, pp.185-198.

Gareth Crabtree, Modding as Digital Reenactment: A Case Study of the Battlefield Series, pp.199-212.

Part Four: The Politics of Representation

Douglas N. Dow, Historical Veneers: Anachronism, Simulation, and Art History in Assasin's Creed II, pp.215-232.

Andrew Wackerfuss, This Game of Sudden Death":Simulating Air Combat of the First World War,pp.233-246.

Clemens Reisner, The Reality Behind it All is Very True: Call of Duty: Black Ops and the Remembrance of the Cold War, pp.247-260.

Marcus Schulzke, Refighting the Cold War: Video Games and Speculative History, pp.261-276.

Part Five: Looking Back on the End of the World

William M. Knoblauch, Strategic Digital Defense: Video Games and Reagan's "Star Wars" Program, 1980-1987, pp.279-296.

Joseph A. November, Fallout and Yesterday's Impossible Tomorrow, pp.297-312.

Tom Cutterham, Irony and American Historical Consciousness in Fallout 3, pp.313-326.

Robert Mejia and Ryuta Komaki, The Historical Conception of Biohazard in Biohazard/Resident Evil, pp.327-342.

Erin Evans, The Struggle with Gnosis: Ancient Religion and Future Technology in the Xnoaga Series, pp.343-356.

Matthew Wilhelm Kapell and Andrew B. R. Elliott, Conclusion(s): Playing at True Myths, Engaging with Authentic Histories, pp.357-369.

2014

1. A.Martin Wainwright, Teaching Historical Theory through Video Games, The History Teacher, Vol.47, No.4(August,2014), pp.579-612.

2. Daniel T. Kline, ed., Digital Gaming Re-imagines the Middle Ages, London and New York: Routledge, 2014.

Amazon.com: Digital Gaming Re-imagines the Middle Ages (Routledge ...

Daniel T. Kline, Introduction: "All Your History Are Belong to Us": Digital Gaming Re-imagines the Middle Ages, pp.1-11.

Part I  Prehistory of Medieval Gaming

William J. White, The Right to Dream of the Middle Ages: Simulating the Medieval in Tabletop RPGs, pp.15-27.

Part II  Gaming Re-images Medieval Traditions

Candace Barrington and Timothy English, Best and Only Bulwark: How Epic Narrative Redeems Beowulf: The Game, pp.31-42.

Jason Pitruzzello, Systematizing Culture in Medievalism: Geography, Dynasty, Culture, and Imperialism  in Crusader Kings: Deus Vult, pp.43-52.

Gregory Fedorenko, The Portrayal of Medieval Warfare in Medieval: Total War and Medieval2: Total War, pp.53-66.

Angela Tenga, Gabriel Knight: A Twentieth-Century Chivalric Romance Hero, pp.67-77.

Part III Case Study  1-World  of Warcraft

Elysse T. Meredith, Coloring Tension: Medieval and Contemporary Concept in Classifying and Using Digital Objects in World of Warcraft, pp.81-92.

Kristin Noone and Jennifer Kavetsky, Sir Thomas Malory and the Death Knights of New Avalon: Imaging Medieval Identities in World of Warcraft, pp.93-106.

Jennifer C. Stone, Peter Kudenov and Teresa Combs, Accumulating Histories: A Social Practice Approach to Medievalism in High-Fantasy MMORPGs, pp.107-118.

Kim Wilkins, "Awesome Cleavage": The Genred Body in World of Warcraft, pp.119-129.

Part IV  Case  Study  2-Dante's Inferno

Bruno Lessard, The Game's Two Bodies, or the Fate of Figura in Dante's Inferno, pp.133-147.

Oliver Chadwick, Courtly Violence, Digital Play: Adapting Medieval Courtly Masculinities in Dante's Inferno, pp.148-161.

Timothy J. Welsh and Josh T. Sebastian, Shades of Dante:Virtual Bodies in Dante's Inferno, pp.162-174.

Angela Jane Weisl and Kevin J. Stevens, The Middle Ages in the Depths of Hell: Pedagogical Possibility and the Past in Dante's Inferno, pp.175-185.

Part V  Theoretical and Representational Issues in Medieval Gaming

Thomas Rowland, We Will Travel by Map: Maps as Narrative Spaces in Video Games and Medieval Texts, pp.189-201.

Michelle Dipietro, Author, Text, and Medievalism in The Elder Scrolls, pp.202-213.

Nick Webber, Technophilia and Technophobia in Online Medieval Fantasy Games, pp.214-226.

Harry J. Brown, The Consolation of Paranoia: Conspiracy, Epistemology,and the Templars in Assassin's Creed, Deus Ex, and Dragon Age, pp.227-239.

Part VI  Sociality and Social Media in Medieval Gaming

Serina Patterson, Casual Medieval Games, Interactivity, and Social Play in Social Network and Mobile Applications, pp.243-251.

3. Eva VRTAČIČ, The Grand Narrative of Video Games: Sid Meier's Civilization, TEORIJA IN PRAKSA, Vol.51, No.1(2014), pp.91-105.

4. Florian Kerschbaumer and Tobias Winnerling, eds., Frühe Neuzeit Im Videospiel, Bielefield: Transcript-Verl, 2014.

5. Stefan Donecker, Civilization Un Der Geist Des Jahres 1991, pp.269-288.

6. Harry Turtledove and Others, Europa Universalis IV: What If? The Anthology of Alternate History, Stockholm: Paradox Books, 2014.

7. Marco Antonio Rodriguez, From the Periphery to Center Stage: The Effects and Exploitation of the Other in Titus Andronicus and Assassin's Creed II, The Communication Review, Vol.17, No.3(2014), pp.245-255.

8. Mirt Komel, Orientalism in Assassin's Creed: Self-Orientalizing the Assassins from Forerunners of Modern Terrorism into Occidentalized Heroes, Tertija in Praksa, Vol.51, No. 1(2014), pp.71-90.

9. Pastplay: Teaching and Learning History with Technology.

10. Robert Houghton, It's What You Do with It That Counts: Factual Accuracy and Mech anical Accuracy in Crusader Kings II, The Public Medievalist,(30 September,2014), https://www.publicmedievalist.com/ckii-houghton/.

11. Tobias Winnerling, The Eternal Recurrence of All Bits: How Historicizing Video Game Series Transform Factual History into Affective Historicity, Eludamos: Journal for Computer Game Culture, Vol.8, No.1(2014), pp.151-170.

12. T. Winnerling and F. Kerschbaumer, Early Modernity and Video Games, Cambridge: Cambridge Scholars Publishing, 2014.

Early Modernity and Video Games

Florian Kerschbaumer and Tobias Winnerling, Introduction: The Devil is in the Details: Why Video Game Analysis is Such A Hard Work for Historians,and How We Nevertheless Try, pp.X-XX.

Section One: Methodology and Theory

Rolf Nohr, The Game is a Medium: The Game is a Message, pp.2-23.

Josef Köstlbauer, Do Computers Play History?, pp.24-37.

Adam Rowan Chapman, The History Beyond the Frame: Off-Screen Space in the Historical First-Person Shooter, pp.38-51.

René Schallegger, Homo Ex Machina?-Cyber-Renaissance and Transhumanism in Deus Ex: Human Revolution, pp.52-63.

Simon Maria Hassemer, Does History Play the Role of Storyline Historiographical Periodization as Theme in Video Game Series, pp.64-75.

Lutz Schröder, Research the Spinning Jenny, Gain+8%Wealth by Textile  Industries: The Transformation of Historiacl Technologies into the Virtual World of Empire: Total War, pp.76-90.

Marc Bonner, Construction as a Condition to Win: Depiction and Function of Early Modern Architecture and Urban Landscapes in Strategy and Economic Simulation Games, pp.91-104.

Stefan Donecker, Pharaoh Mao Zedong and the Musketeers of  Babylon: The Civilization Series between Primordialist Nationalism and Subversive Parody, pp.105-122.

Tim Raupach, Towards an Analysis of Strategies of Authenticity Production in World War II First-Person Shooter Games, pp.123-137.

2015

1. Adrienne Shaw, The Tyranny of Realism:Historical Accuracy and Politics of Representation in Assassin's Creed I, The Journal of the Canadian Game Studies Association, Vol.9, No.14(2015), pp.4-24.

2. Bertrand Lucat, Ideological Narratives of Play in Tropico 4 and Crusader King II, Proceedings of DiGRA2015: Diversity of Play: Games-Cultures-Identities, pp.1-15.

3. Bertrand Lucat and Mads Haahr, "What Makes a Successful Emergent Narrative: The Case of Crusader Kings IIHenrik Schoenau-Fog", Luis Emilio Bruni, Sandy Louchart and Sarune Baceviciute, eds., Interactive Storytelling: 8th International Conference on Interactive Digital Storytelling, London: Springer, 2015, pp.259-267.

4. Daniel Ante-Contreras, Bioshock's Paranoid States: The Gamer within a History of White Male Victimization, Journal of Gaming & Virtual World, Vol.7, No.3(Sep.,2015), pp.225-241.

5. Dawn Spring, Gaming History: Computer and Video Games as Historical Scholarship, Rethinking History,Vol.19, No.2(2015), pp.207-221.

6. David S. Heineman, Public Memory and Gamer Identity: Retrogaming as Nostalgia, Journal of Games Criticism, Vol.1, No.1(January,2014), https://gamescriticism. org/wp-content/uploads/2023/07/heineman-1-1.pdf.

7. Derek Fewster, The Witcher 3: A Wild and Modern Hunt to Medievalise Eastern and Northern Europe, Gamevironments, Vol.2(2015), pp.159-180.

8. Jason Begy, Board Games and the Construction of Cultural Memory, Games and Culture, Vol.12, No.7-8(2015), pp.1-15.

9. Robin J. S. Sloan, Videogames as Remediated Memories: Commodified Nostalgia and Hypperality in Far Cry 3: Bood Dragon and Gone Home, Games and Culture, Vol.10, No.6(2015), pp.525-550.

10. Sofia Pereira Garcia and Fernando Gómez Gonzalvo, La reconstrucción del paso del tiempo en el videojuego Sid Meier's Civilization IV. Una perspectiva educativa, LifePlay: Revista académica internacional sobre videojuegos, No.4(2015), pp.13-27.

11. Adam Chapman and Jonas Linderoth, "Exploring the Limits of Play: A Case Study of Representations of Nazism in Games Torill Elvira Mortensen", Jonas Linderoth and Ashley ML Brown, eds., The Dark Side of Game Play: Controversial Issue in Playful Environments, New York and London: Routledge, 2015, pp.137-153.

12. Alan Meades, Boosting, "Glitching and Modding Call of Duty: Assertive Dark-Play Manifestations, Communities, Pleasures, and Organic Resilience", Jonas Linderoth and Ashley ML Brown, eds., The Dark Side of Game Play: Controversial Issue in Playful Environments, New York and London: Routledge, 2015, pp.242-260.

13. Vincenzo Idone Cassone and Mattia Thibault, The HGR Framework: A Semiotic Approach to the Representation of History in Digital Games, Gamevironments, Vol.6(2016), pp.156-204.

14. 史旻昱:《游戏对文化的重构与传承——以游戏<三国志>为个案》,《新闻大学》2015 年第2期,第32-38页。

2016

1. A. Chapman, Digital Games as History: How Videogames Represent the Past and Offer Access to Historical Practice, London: Routledge, 2016.

2. Christos Sintoris, Nikoleta Yiannoutsou and Nikolaos Avouris, The Fortress of Monemvasia as Play-ground for a Location Based Game, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-6.

3. D. Saber and N. Webber, That is Our Call of Duty: Hegemony, History and Resistant Video Games in the Middle East, Media Culture & Society, 39.1.2016, pp.1-17.

4. Dan Golding, Lineages: Historicising the Videogame, Proceedings of It International Joint Conference of DiGRA and FDG(2016), pp.1-2.

5. Daniel Livingstone, Sandy Louchart and Stuart Jeffrey, Archaeological Storytelling in Games, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-8.

6. Daniela De Angeli and Eamonn O'Neill, Tell-A-Dyrham-Tale, a Storytelling Board Game, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-2.

7. Derek Fewster and Ylva Grufstedt, Introduction: Gamevironments of the  Past-A Broad Take on Games and History, Gameviroments, No.5(2016), pp.1-7.

8. Dom Ford, eXplore, eXpand, eXploit, eXterminate: Affective Writing of Postcolonial History and Education in Civilization V, Game Studies: The International Journal of Computer Game Research, Vol.16, No.2  (December,2016).

9. Edwige Lelievre, OFabulis and Versailles 1685: a Comparative Study of the Creation Process Behind Video Games on Historical Monuments, DiGRA/FDG Workshop on Playing with History: Games,Antiquity and History(2016), pp.1-11.

10. Elisabeta Toma and Cosima Rughinis, Playing with Herstory. Representing Femininity in Historical Video Games, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-4.

11. Erin McNeil, Ludic Spolia in Sid Meier's Civilization:Beyond Earth, Journal of Games Criticism, Vol.3, Bonus Issue A(July,2016), https://gamescriticism.org/wp-conten t/uploads/2023/07/mcneil-3-a.pdf.

12. Frank G. Bosman, The Poor Carpenter: Reinterpretating Christian Mythology in the Assassin's Creed Game Series, Gamevironments,  Vol.4(2016), pp.61-88.

13. Jeremiah McCall, Teaching History with Digital Historical Games: An Introduction to the Field and Best Practices, Simulation & Gaming, Vol.47, No.4(August,2016), pp.517-542.

14. Jonathan Westin and Ragner Hedlund, Polychronia-Negotiating the Popular Representation of a Common Past in Assassin's Creed, Journal of Gaming & Virtual Worlds, Vol.8, No.1(Mar.,2016), pp.3-20.

15. Manuel Alejandro Cruz Martinez, Playing with History's Otherness.A Framework for Exploring Historical Games, DiGRA/FDG Workshop on   Playing with History: Games, Antiquity and History(2016), pp.1-4.

16. Nick Webber, Public History, Game Communities and Historical Knowledge, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

17. Razvan Rughinis and Stefania Matei, History, Biography and Empathy in Inkle's 80 Days, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016), pp.1-8.

18. Richard Eberhardt and Kyrie Eleison Caldwell, The Challenges of Using Commercial-Off-the-Shelf Narrative Games in History Classrooms, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

19. Robert Whitaker, Backward Compatible: Games as a Public History Audience, Perspec tives on History, Vol.54, No.1(January,2016), https://www.historians.org/perspectives-article/backward-compatible-gamers-as-a-public-history-audience-january-2016/.

20. Scott Alan Metzger and Richard J. Paxton, Gaming History: A Framework for What Video Games Teach About the Past, Theory & Research in Social Education, Vol.44, No.4(2016), pp.532-564.

21. Sian Beavers and Elizabeth Fitzgerald, Perceptions, Perspectives and Practices: A Study of the Players of Historical Games, Proceedings of 1st International Joint Conference of DiGRA and FDG (2016).

22. Souvik Mukherjee, The SEGA and Microsoft History of India: The British Raj in Videogames, DiGRA/FDG Workshop on Playing with History: Games, Antiquity and History(2016).

23. Souvik Mukherjee, Playing Subaltern: Video Games and Postcolonialism, Games and Culture, No.13(2016), pp.504-520.

24. Souvik Mukherjee, Video Games and Slavery, Transactions of the Digital Games Research Association, Vol.2, No.3(2016), pp.243-260.

2017

1. Andrew B. R. Elliott, Simulations and Simulacra:History in Video Games, Práticas da História, No.5(2017), pp.11-41.

2. Angus A. A. Mol, Aris Politopoulos and Csilla E. Ariese-Vandemeulebroucke, From the Stone Age to the Information Age: History and Heritage in Sid Meier's Civilization VI, Advances in Archaeological Practice 5, No.2(May,2017), pp.214-219.

3. D. Saber and N. Webber, This is Our Call of Duty: Hegemony, History and   Resistant Videogames in the Middle East, Media, Culture and Society, Vol.39, No.1(2017), pp.77-91.

4. F. Penate Dominguez, Heute Gehört uns die Galaxie' Music and Historical  Credibility in Wolfenstein: The New Order's Nazi Dystopia, Game, Vol.6(2017), pp.71-89.

5. Juan Luis Gonzalo Iglesia, Simulating History in Contemporary Board Games: The Case of the Spanish Civil War, Catalan Journal of Communiaction & Cultural Studies, Vol.8, No.1 (Apr.,2016), pp.143-158.

6. Julian Wolterink, Authentic Historical Imagery: A Suggested Approach for Medieval Videogames, Gamevironments, Vol.6(2017), pp.1-33.

7. Greg Koebel, Simulating the Ages of Man: Periodization in Civilization V and Europa Universalis IV, The Journal of the Canadian Game  Studies Association, Vol.10, No.17(2017), pp.60-76.

8. Nicolas de Zamaroczy, Are We What We Play? Global Politics in Historical Strategy Computer Games, International Studies Perspectives, Vol.18(2017), pp.155-174.

9. Soraya Murray, The Poetics of Form and the Politics of Identity in Assassin's Creed Ⅲ: Liberation, Kinephanos,Special Issue: Gender Issues in Video Games(July,2017), pp. 77-102.

10. Tom Van Nuenen, Touring the Animus: Assassin's Creed and Ludotopical Movement, The Journal of the Canadian Game Studies Association, Vol.10, No.17(2017), pp. 22-39.

11. Vinicius Marino Carvalho, Videogames as Tools for Social Science History, The Historian, Vol.79, No.4(Winter,2017), pp.794-819.

12. 高东旭:《网络游戏亟需重塑历史观》,《中国文艺评论》2017年第8期,第24-27页。

13. Adam Chapman, Anna Foka and Jonathan Westin, Introduction: What is Historical Game Studies? Rethinking History, Vol.21, No.3(2017),pp.358-371.

14. Emil Lundedal Hammar, Counter-Hegemonic Commemorative Play: Marginalized Pasts and the Politics of Memory in the Digital Game Assasin's Creed: Freedom Cry,  Rethinking History, Vol.21, No.3(2017),pp.372-395.

15. Johannes Koski, Reflections of  History: Representations of the Second World War in Valkyria Chronicles, Vol.21, No.3(2017), pp.396-414.

16. Tara Jane Copplestone, But That's Not Accurate: the Differing Perceptions of Accuracy in Cultural-Heritage Videogames between Creators, Consumers and Critics, Rethinking History, Vol.21, No.3(2017), pp.415-438.

2018

1. 赵天鹭:《“游戏史学”初探》,《中国公共史学集刊》2018年第一集,第78-104 页。

2. Cat Fergusson Baugh, Haptic Insights: Model Making as Historical Methodology, Theatre and Performance Design, Vol.4, No.1-2(2018),  pp.83-100.

3. Esther Wright, On the Promotional Context of Historical Video Games, Rethinking History, Vol.22, No.4(2018), pp.598-608.

4. J. McCall, Video Games as Participatory Public History, D. A. Dean, A  Companion to Public History, New Jersey: Wiley-Blackwell, 2018, pp.405-416.

5. Juan Francisco Jiménez and Alcázary Gerardo F. Rodriguez, eds., Videojuegos e Historia: Entre El Ocio y La Cultura, Murcia: Universidad de Murcia, 2018.

6. Marina Hassapopoulou, Playing with History: Collective Memory, National Trauma, and Dark Tourism in Virtual Reality Docugames, New Review of Film and Television Studies, Vol.16, No.4(2018), pp.365-392.

7. Marina Krcmar, Rory McGloin and Shu Scott Li, What is My Call of Duty?: Exploring the Importance of Player Experience in a First-Person  Shooter Video Game, Journal of Gaming & Virtual Worlds, Vol.10, No.2(Jun.,2018), pp.167-187.

8. Robert Houghton, World, Structure and Play: A Framework for Games as Historical Research Outputs, Tools, and Process, Práticas da História, No.7(2018), pp.11-43.

9. S. Harrer, Casual Empire: Video Games as Neocolonial Praxis, Open Library of Humanities, Vol.4, No.1(January,2018), pp.1-28.

10. Tom Apperley, Counterfactual Communities: Strategy Games, Paratexts and the Player's Experience of History, Open Library of Humanities, Vol.4, No.1(2018), https://olh.openlibhums.org/article/id/4472/.

2019

1. A. M. Wainwright, Virtual History: How Videogames Portray the Past, New York: Routledge, 2019.

2. A. Politopoulos, A. A. A. Boom, K. H. J. & C. E. Ariese, History is Our Playground: Action and Authenticity in Assassin's Creed Odyssey, Advances in  Archaeological Practice, Vol.7, No.3(2019), pp.317-323.

3. Holger Pötzsch and Vit Sisler, Playing Cultural Memory: Framing History in Call of Duty: Black Ops and Czechoslovakia 38-89: Assassination, Games and Culture, Vol.14, No.1(2019), pp.3-25.

4. James Andrew John Piggott, The Impact of Censorship on the “Historical” Video-Game, Reinvention: An International Journal of Undergraduate Research, Vol.12, No.2(2019), https://reinventionjournal.org/index.php/reinvention/article/view/360.

5. Jeffrey Lawler and Seean Smith, Creating a Playable History: Digital Games, Historical Skills and Learning, IDEAH, Vol.2, No.1(2019&2020).

6. Kirk Lundblade, How the West(was)Won: Unit Operations and Emergent Procedural Rhetorics of Colonialism in Europa Universalis IV, Journal of Gaming & Virtual Worlds, Vol.11, No.3(Oct.,2019), pp.251-270.

7. Lisa Gilbert, Assassin's Creed Reminds Us that History is Human Experience: Students' Senses of Empathy while Paying a Narrative Video Game, Theory & Research in  Social Education, Vol.47, No.1(2019), pp.119-128.

2020

1. Alexander von Lünen, Katherine J. Lewis, Benjamin Litherland and Pat Cullum, eds., Historia Ludens: the Playing Historian, London: Routledge, 2020.

Historia Ludens

Part 1: History of Gaming

Yannick Rochat, A Quantitative Study of Historical Video Games(1981-2015), pp.3-19.

Holly Nielsen, "The British Empire Would Gain New Strength from Nursery Floors": Depictions of Travel and Place in Nineteenth-Century British Board Games, pp.20-31.

Part 2: Gaming in History Education

Juan  Hiriart, Designing and Using Digital Games as Historical Learning Context for Primary School Classrooms, pp.37-53.

Katherine J. Lewis, Grand Theft Longboat: Using Video Games and Medievalism to Teach Medieval History, pp.54-70.

Alex Moseley, The Great History Conundrum: Could Immersive Games Enhance an Undergraduate Skills' Course?, pp.71-88.

Pat Cullum, Play as a Technique for History in Higher Education, pp.89-99.

Part 3: Computer Games and Public History

Luke Holmes, The Heritage Game, pp.105-118.

Robert Whitaker, Respawning the Past, pp.119-127.

Part 4: Reflections on Gaming and History

Adam Chapman, Playing Against the Past?: Representing the Play Element of Historical Cultures in Video Games, pp.133-154.

Andrew J. Salvati, Fantasies of Control:Modding for Ethnic Violence and Nazi Fetishism in Historical Strategy Games, pp.155-169.

Andrew B. R. Elliott, Charlemagne at the Battle of  Gettysburg: Video Games and the Middle Ages, pp.170-183.

Part 5: Fan Cultures of Historical Games

Nick Webber and E. Charlotte Stevens, History, Fandom, and Online Game Communities, pp.189-203.

Alexander von Lünen,  Ye Olde  FAQ: The Darklands Game, Immersiveness  and  Fan Fiction, pp.204-227.

Matt Barton and Arnold J. Hendrick, Arnold Hendrick on Darklands, pp.228-237.

Part 6: "Accuracy" in Computer Games

Lisa Traynor and Johathan Ferguson, Shooting for Accuracy: Historicity and   Video Gaming, pp.243-254.

Chris Kempshall, Modern Warfare: Call of Duty, Battlefield, and the World Wars, pp.255-266.

Eugen Pfister, "Man Spielt Nicht Mit Hakenkreuzen!": Imaginations of the Holocaust and Crimes Against Humantiy During World War II in Digital Games, pp.267-281.

2. Bryan Banker, Black Egyptians and White Greeks?: Historical Speculation and Rececraft in the Video Game Assassin's Creed: Origins, Humanities, Vol.9, No.4, https://www.mdpi.com/2076-0787/9/4/145.

3. Christian Rollinger, ed., Classical Antiquity in Video Games: Playing with the Ancient World, London: Bloomsbury Academic, 2020.

4.Clément Dussarps, Le Jeu Vidéo Médiateur de Savoirs En Histoire: L'exemple de Cru sader King 2 et Europa Universalis 4, Sciences Du Jeu, No.13(14 July,2020), https: //journals.openedition.org/sdj/2696.

5. Eugen Pfister, Martin Tschiggerl, "The Führer’s Facial Hair and Name can Also be Reinstated in the Virtual World": Taboos,Authenticity and the Second World War in Digital Game, Game, Vol.9(2020), pp.51-71.

6. Fede Penate Domínguez, Spanish Colonial Architecture as Selective Authenticity in Historical Digital Games, Culture & History, Vol.9, No.1(June,2020), https://cultureandhistory.revistas.csic.es/index.php/cultureandhistory/article/view/180/588.

7. Jaakko Suominen, Popular History: Historical Awareness of Digital Gaming in Finland from the 1980s to the 2010s, Proceedings of DiGRA 2020(2020), pp.1-14.

8. Jeremiah McCall, The Historical Problem Space Framework: Games as a Historical Medium, Game Studies: The International Journal of Computer Game Research,Vol.20,No.3(September,2020), https://gamestudies.org/2003/articles/mccall.

9. Kirk Lundblade, Civilizing Civilization(and beyond), FDG'20: Proceedings of the 15th International Conference on the Foundations of Digital Games, Bugibba, 2020, pp.1-9.

10. Martin Lorber and Felix Zimmermann, eds., History in Games - Contingencies of an Authentic Past, Bielefeld: Transcript, 2020.

Felix Zimmermann, Introduction: Approaching the Authenticites of Late Modernity, pp.9-21.

History as Told by the Game

Angela Schwarz, Quarry-Playground-Brand, Popular History in Video Games, pp.25-46.

Eugen Pfister, Why History in Digital Games Matters-Historical Authenticity as a Language for Ideological Myths, pp.47-72.

Nico Nolden, Social Practices of History in Digital Possibility Spaces: Historicity, Mediality, Performativity, Authenticity, pp.73-92.

Rüdiger Brandis, Tracing the Past with Digital Games: Historical Procedural Rhetorics, pp.93-115.

Authenticity in and of History

Angela Schwarz, History in Video Games and the Craze for the Authentic, pp.117-136.

Andrew B. R., Eliott & Mike Horswell, Crusading Icons: Medievalism and  Authenticity in Historical Digital Games, pp.137-156.

Andra Ivanescu, The Auteur and the 80s Mixtape: Popular Music and Authenticity in Metal Gear Solid V: The Phantom Pain, pp.157-178.

Lara Keilbart, Queer Authenticity in the History of Games: Experiences of Knowing, Performing and Portraying Queerness in Games throughout the Last Four Decades, pp.179-197.

The Politics of Authenticity

Aurelia Brandenburg, "If It's a Fantasy World,Why Bother Trying to Make It Realistic?" Constructing and Debating the Middle Ages of The Witcher 3: Wild Hunt, pp.201-220.

Tobias Winnerling, How to Get Away with Colonialism: Two Decades of Discussing the Anno Series, pp.221-236.

Angus A. A., Mol, Toying with History: Counterplay, Counterfactuals, and the Control of the Past, pp.237-258.

Jörg Friedrich, You Do Have Responsibility! How Games Trivialize Fascism, Why This Should Concern Us and How We could Change It, pp.259-273.

11. Samuel McCready, Re-Thinking History Teaching: Historical Making and   Learning in Digital Culture, Proceedings of DiGRA 2020(2020).

12. Regina Seiwald, Play Ameica Great Again: Manifestations of Americanness in Cold War Themed Video Games, Gamevironments, Vol.13(2020), pp.223-256.

13. Ruth Garcia Martín, Begona Cadinanos Martinez and Pablo Martín Dominguez, The Face of Authority through Sid Meier's Civilization Series, Gamevironments, Vol.13(2020), pp.139-173.

14. 王昊:《历史、现在与未来:数字游戏档案的社会记忆功能——以Sid  Meier's  Civilization 为例》,《兰台世界》2020年第4期,第24-29页。

15. A. Denning, Deep Play? Video Games and the Historical Imaginary, AHR, Vol.126, No.1 (March,2021), pp.180-198.

2021

1. A. Hartman, R. Tulloch and H. Young, Video Games as Public History: Archives, Empathy and Affinity, Game Studies, Vol.21, No.4(December,2021), https://gamestudies.org/2104/articles/hartman_tulloch_young.

2. A. Spanos, Games of History: Games and Games as Historical Sources, London: Routledge, 2021.

3. Alexander Simons, Isabell Wohlgenannt, Markus Weinmann and Stefan Fleischer, Good Gamers, Good Managers? A Proof-of-Concept Study with Sid-Meier's Civilization, Review of Managerial Science, Vol.15(2021), pp.957-990.

4. Alyssa Goldstein Sepinwall, Slave Revolt on Screen: The Haitian Revolution in Film and Video Games, University Press of Mississippi, 2021.

5. Andrew P. Young, The Limits of Memory in Disavowed: Interference, Military Execution, and the Dishonored Dead, Games and Culture, Vol.16, No.7(2021), pp.932-946.

6. Angus Mol and Aris Politopoulos, Persia's Victory, Near Eastern Archaeology, Vol.84, No. 1(March,2021), pp.44-51.

7. Aris Politopoulos and Angus Mol, Video Games as Concepts and Experiences of the Past, Erik Malcolm Champion, ed., Virtual Heritage: A Guide, Ubiquity Press, 2021.

8. Christian Casey, Assassin's Creed Origins, Near Eastern Archaeology, Vol.84, No.1 (March,2021), pp.71-78.

9. C. P. Magra, Review of Assassin's Creed IV: Black Flag, AHR, 126.1.2021。

10. Eve Stirling, Actual History Doesn't Take Place: Digital Gaming, Accracy and Authenticity, Game Studies, Vol.21, No.1.

11. Felipe Augusto Ribeiro, Uma Teoria Digital Do Feudalismo: Dinastia, Poder, Vassalagem e Estado no Game Crusader Kings(2012-2020), Medievalia, Vol.53, No.1(19 May,2021), pp.191-219.

12. J. Bazile, Review of Assassin's Creed: Freedom Cry, The American Historical Review, Vol.126, Issue1, 2021, pp.217-219.

13. Jakub Sindelar, "Video-Gamers as Recipients and Creators of Public History: Let’s Play Videos as Public History", Joanna Wojdon and Dorota Wisniewska, eds., Public in Public History, New York and London: Routledge, 2022, pp.180-198.

14. John Herman, A Review of Assassin's Creed: Valhalla's Sensationalized History, Gamevironments, Vol.14(2021), pp.257-262.

15. John Majewski, What Do Players Learn  from Video Games? Historical  Analysis and Sid Meier's Civilization, The Public Historian, Vol.43, No.1(2021), pp.62-81.

16. Robert Houghton,If You're Going to be the King,You'd Better Damn Well  Act Like the King, Karl Alvestad and Robert Houghton, The Middle Ages in Modern Culture: History and Authenticity in Contemporary  Medievalism, I. B. Tauris, 2021, pp.186-210.

17. K. Lundblade, Crowning Achievements: A Historioludic Analysis of the   Achievement Metagame in Historical Simulation Games, Proceedings of the 16ᵗ International Conference on the Foundations of Digital Games, 2021.

18. L. NA, Playing the Past: Historical Video Games as Participatory Public History in China, Convergence, Vol.27, Issue3, 2021, pp.746-767.

19. M. D. Hattem, Review of Assassin's Creed III, The American Historical Review, Vol.126, Issue1, 2021, pp.214-216.

20. M. Steenbakker, A Power Shrouded in Petticoats and Lace: The Representation of Gender Roles in Assassin's Creed Ⅲ: Liberation, New Horizons in English Studies, Vol.6, No.1(2021), pp.92-110.

21. Matthew Winter, Beyond Tomb and Relic, Near Eastern Archaeology, Vol.84, No.1 (March,2021), pp.12-21.

22. Megan Ward, Ghosts, Spooks, and Martyrs: Historical Hauntings in Tom Clancy's Ghost Recon Wildlands, Gamevironments, Vol.14 (2021), pp.85-118.

23. Na Li, Playing the Past: Historical Video Games as Participatory Public History in China, Convergence: The International Journal of Research into New Media Technologies, Vol.27, No.3(2021), pp.746-767.

24. Perrine Poiron, Assassin's Creed Origins Discovery Tour, Near Eastern Archaeology, Vol.84, No.1(March,2021), pp.79-85.

25. R. Clare, Ancient Greece and Rome in Videogames: Representation, Play, Transmedia, London: Bloomsbury Academic, 2021.

26. R. Fordyce, Play, History and Politics: Conceiving Futures beyond Empire, Games and Culture, Vol.16, No.3(2021), pp.294-304.

27. R. Loban, Europa Universalis IV and Deep Learning Historical Accuracy, Counterfactual Themes, The Journal of Canadian Game Studies  Association, Vol.14, No.24(2021), pp.26-47.

28. Rhett Loban, Europa Universalis IV and Deep Learning: Historical Accuracy, Counterfactuals and Historical Themes, The Journal of the  Canadian Game Studies Association, Vol.14, No.24(2021), pp.26-47.

29. Robert Houghton, ed., Playing the Crusades, London: Routledge,2021.

Playing the Crusades

Robert Houghton, Introduction:Crusaders and Crusaing in Modern Games, pp.1-11.

Roland Wenkus, A Sacred Task, No Cross Required: the Image of Crusading in Computer Gaming-Related Non-Christian Science Fiction Universes, pp.12-29.

Katherine J. Lewis, I’m not Responsible for the Man You are!: Crusading and Masculinities in Dante's  Inferno, pp.30-52.

Oana-Alexandra Chirila, Show This Fool Knight What It is to Have No Fear: Freedom and Oppression in Assasin's Creeed (2007), pp.53-70.

Robert Houghton, Crusader Kings Too? (Mis) Representations of the Crusaders in Grand Strategy Games, pp.71-92.

Andreas Korber, Johannes Meyer-Hamme, and Robert Houghton, Learning    to Think Historically: Some Theoretical Challenges when Playing the Crusaders, pp.93-110.

30. Robert Houghton, History Games for Boys? Gender, Genre and the Self-Perceived Impact of Historical Games on Undergraduate Historians, Gamevironments, Vol.14(2021), pp.1-49.

31. Samuel Calvin Paul McCready, Playing and Making History: How Game Design and Gameplay Afford Opportunities for a Critical Engagement with the Past, Graduate Program in Communication and Culture, York University, 2021.

32. Souvik Mukherjee, Crab-Rangoons in Kyrat: (Re)Writing South-Asian History in Far Cry 4, Games and Culture, Vol.16, No.8(2021), pp.1065-1086.

33. Tine Rassalle, Archaeogaming, Near Eastern Archaeology, Vol.84, No.1(March,2021), pp.4-11.

34. Video Games Reviews: Introductions, The American Historical Review, Vol.126, Issue1, 2021, p.214.

35. Ylva Grufstedt, Counterfactual History and Game Design Practice in Digital Strategy Games, Ennen Ja Nyt: Historian Tietosanomat, No.2(2021), pp.86-91.

2022

1. Andrés Bijsterveld Munoz, National Identity in Historical Video Games: An Analysis of How Civilization V Represents the Past, Nations and Nationalism, Vol.28, No.4(Oct.,2022), pp.1311-1325.

2. C. HOgsbjerg, Review of Alyssa Goldstein Sepinwall, Slave Revolt on Screen: the Haitian Revolution in Film and Video Games, The American Historical Review, Vol.127, Issue.3, 2022, pp.1503-1504.

3. Claire Stocks and Barbara Birley, Gaming and Hadrian's Wall: A Future of Digital Possibilities, Marta Albeti and Katie Mountain, eds., Hadrian's Wall: Exploring Its Past  to Protect Its Future, Oxford: Archaeopress, 2022, pp.92-99.

4. Olaf Kühne, Representations of Landscape in the Strategy Game Civilization Dennis Edler, Olaf Kühne and Corinna Jenal, eds., The Social Construction of Landscapes in Europe Games, Wiesbaden: Springer VS, 2022, pp.261-272.

5. Dmitriy A.Belyaev & Ulyana P. Belyaeva, Historical Video Games in the Context of Public History: Strategies for Reconstruction, Deconstruction and Politization of History, Galactica Media: Journal of Media Studies, Vol.1(2022), pp.51-70.

6. Estrid Sorensen and Jan Schank, Categorizations of World War II in Videogames, Eludamos, Journal for Computer Game Culture, Vol.13, No.1(2022), pp.81-110.

7. F. Jankowski, Playing(Against) the Heritage: Absolutism and the French Revolution in French Digital Games before 2000, Games and Culture, Vol.17, No.6(2022), pp.843-854.

8. Ian Williams and Samuel Tobin, The Practice of Oldhammer: Re-Membering a Past Through Craft and Play, Games and Culture, Vol.17, No.4(2022), pp.576-592.

9. Jacob Mertens, Broken Games and the Perpetual Update Culture: Revising Failure with Ubisoft's Assassin's Creed Unity, Games and Culture, Vol.17, No.1(2022), pp.70-88.

10. Jacqueline Burgess and Christian Jones, Exploring Player Understandings of Historical Accuracy and Historical Authenticity in Video Games, Games and Culture, Vol.17, No.5(2022), pp.816-835.

11. James Coltrain, Historians and Video Games: How the Profession Can Better Engage in Play, The Journal of American History, Jeremiah McCall, Gaming the Past: Using Video Games to Teach Secondary History, New York: Routledge, 2022.

12. Joanna Kaniewska, The Moon, the Play and the End of History: A Study of   Lunar Temporality in Cyberpunk 2077, Journal of Gaming & Virtual Worlds, Vol.14, Issue Cyberpunk 2077(Apr.,2022), pp.7-25.

13. Jorn Weines, Exploring Fishery History in Game Form: "Never Again April 18!", Rethinking History, Vol.26, No.1(2022), pp.1-31.

14. Lawrence May, Virtual Heterotopias and the Contested Histories of Kowloon Walled City, Games and Culture, Vol.17, No.6(2022), pp.885-900.

15. Nico Nolden and Eugen Pfister, Gaming and Digital Public History, Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin: De Gruyter,  2022, pp.309-316.

16. Jere Kyyrö, "Particulariying the Universal: Medievalist Constructions of Cultural and Religious Difference in Crusader Kings II", Reima Välimäki, ed., Medievalism in Finland and Russia: Twentieth and Twenty-First Century Aspects, London: Bloomsbury Academic, 2022, pp.137-151.

17. David Dean, "Living History: Performing the Past", Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin/Boston: Walter de Gruyter, 2022, pp.349-358.

18. Yannick Rochat, "History and Video Games, Serge Noiret", Mark Tebeau and Gerben Zaagsma, eds., Handbook of Digital Public History, Berlin/Boston: Walter de Gruyter, 2022, pp.475-484.

19. Siyu Yao and Yumin Chen, Reconstructing History and Culture in Game Discourse: A Linguistic Analysis of Heroic Stories in Honor of Kings, Games and Culture, Vol.17, No.7-8(2022), pp.977-996.

20. Souvik Mukherjee, Pathfinding Affect: Reading Maps, Bodies and the Affective in Colonial Videogames, Parallax, Vol.28, No.2(2022), pp.166-178.

21. Yannick Rochat, "History and Games", Serge Noiret, Mark Tebeau and Gerben Zaagsma, eds., Handbook of  Digital Public History, Berlin: De Gruyter, 2022, pp.475-484.

22. Ylvq Grufstedt, Shaping the Past: Counterfactual History and Game Design Practice in Digital Strategy Games, Berlin: De Gruyter, 2022.

23. Games with History(特刊), Heritage,and Provocation, Games and Culture, Vol.17, Issue 6, 2022.

24. Adam F. Bierstedt, Livestreaming History: The Streamer-Historian and Historical Games Outreach, Games and Culture, Vol.17, No.6(September,2022), pp.871-884.

25. Filip Jankowski, Playing(Against) the Heritage: Absolutism and the French Revolution in French Digital Revolution in French Digital Games Before 2000, Games and Culture, Vol.17, No.6(September,2022), pp.846-854.

26. Julien A. Bazile, An “Alternative to the Pen”? Perspectives for the Design of Historiographical Videogames, Games and Culture, Vol.17, No.6(September,2022), pp. 855-870.

27. Lawrence May, Virtual Heterotopias and the Contested Histories of  Kowloon Walled City, Games and Culture, Vol.17, No.6(September,2022), pp.885-900.

28. M. Mochocki, Editorial: Games with History, Heritage, and Provocation, Games and Culture, Vol.17, No.6(September,2022), pp.839-842.

29. Rhett Loban, I Never Asked for It, But I Got It and Now I Feel that My Knowled ge about History is Even Greater!: Play, Encounter and Research in Europa Universalis IV, Journal of Games Criticism, Vol.5, No.1(2022), https://gamescriticism.org/wp -content/uploads/2023/07/loban-5-3.pdf.

30. Richard Cole, Mashing Up History and Heritage in Assasin's Creed Odyssey, Games and Culture, Vol.17, No.6(September,2022), pp.915-928.

31. Vít Šisler, Holger Pötzsch, Tereza Hannemann, Jaroslav Cuhra and Jaroslav Pinkas, History, Heritage, and Memory in Video Games: Approaching the Past in Svoboda 1945: Liberation and Train to Sachsenhausen, Games and Culture, Vol.17, No.6(September,2022), pp. 901-914.

2023

1. Andrei Zanescu, Making Antiquity Resonate in Assassin's Creed: Origins,Odyssey & Articulated Resonance, Proceedings of DiGRA2023(2023).

2. Brian T. Erickson, Playing with the Past: The Importance of Historical Video Games for the Field of History, Master of Arts in History, University of Houston, 2023.

3. Iain Donald, Nick Webber and Esther Wright, Video Games, Historical Representation and Soft Power, Journal of Gaming & Virtual Worlds, Vol.15, Issue China and the World: Navigating Video Game Localization and Copyright Challenges(Jun.,2023), pp.105-127.

4. Katrina HB Keefer, Becoming Bayek: Blackness, Egypt, and Identity in Assassin's Creed: Origins, Games and Culture, Vol.18, No.7(Nov.,2023), pp.940-958.

5. Krista Bonello Rutter Giappone, Stefano Caselli, Local Practices in Digital Gaming Heritage: An Interview with Maurizio Banavage and Andrea Dresseno, Journal of Games Criticism, Vol.5, No.1(April,2023), https://gamescriticism.org/wp-content/uploads/ 2023/07/giappone-caselli-5-1.pdf.

6. Nick Webber, The Past as (Para)text-Relating Histories of Game Experience to Games as Texts, Proceedings of DiGRA 2023(2023).

7. Robert Houghton, ed., Playing the Middle Ages: Pitfalls and Potential in Modern Games, London and New York and Oxford and New Delhi and Sydney: Bloomsbury Academy, 2023.

Playing the Middle Ages cover

Robert Houghton, The Middle Ages in Modern Games: An Adolescent Field, pp.1-28.

Ylva Grufstedt, Unbending Medievalisms-Finding Counterfactual History in Sandbox Games Set in the Middle Ages, pp.29-50.

Mariana Lopez, Playing the Sonic Past: Reflections on Sound in Medieval-Themed Video Games, pp.51-74.

Karen M. Cook, Medieval Sounds, Sounding Medieval, pp.75-88.

Gordon Smith, All on Board for the Crusades, pp.89-102.

Liam McLeod, Subverting the Valiant Crusader:The Sarafan in the Legacy of Kain:Soul Reaver Series, pp.103-130.

Adam Bierstedt, Making Friendships, Breaking Friendships: Exploring Viking-Age Social Roles through Player Strategy in A Feast for Odin, pp.130-148.

Robert Houghton, Abandoning Civilization: Medieval Rulership in Crusader Kings I, Reigns and Mount & Blade: Warband, pp.149-166.

Jonathan Bloch, Joan of Arc, the Meme of Orleans: The Playful Liberties Taken with History by the Age of Empires I Gaming Community, pp.167-182.

Neil Nagwekar, On the Postcolonial Analysis of "Indians" in Age of Empires II: A Theory of “Ethical Programs” Behind Postcolonial Criticisms of Video Games, pp.183-194.

Johansen Quijano, Virtually(de) Colonized: Racial Identity and Colonialism in the Middle Ages and as Depicted in Kingdom Come: Deliverance, A Plague Tale: Innocence, The Elder Scrolls, and Black Desert Online, pp.195-210.

Eldegard Minderbo, Representations of Medieval Gender Archetypes in Fantasy Role-Playing Games, pp.211-226.

Patrick Butler, Ashen, Hollow, Cursed: Fragile Knighthood in the Dark Souls Series and Its Medieval Antecedents, pp.227-244.

Blair Apgar, Matilda of Canossa and Crusader Kings II: (Papal) Warrior Princess, pp.245-264.

8. Stefano Caselli, Krista Bonello Rutter Giappone, Tomasz Z.Majkowski, Ten Years of Historical Game Studies, Game, Vol.10(2023), pp.29-50.

9. Tara Sewell-Lasater, Eternally Maglined as the Power-Hungry Femme Fatale: Kleopatra VII in Assasin's Creed Origins and Other Video Games, Abraham I, Fernández Pichel, ed., How Pharaohs Became Media Stars: Ancient Egypt and Popular Culture, Oxford: Archaeopress Publishing, 2023, pp.185-204.

2024

1. 卢雅怀:《历史游戏研究: 作为数字史学发展新方向》,《数字人文研究》2024年第2期,第3-26页。

2. Benjamin Hanussek, Ubisoft's Notre-Dame: Digital Gaming for Material Heritage's Sake, The Journal of the Canadian  Game Studies Association, Vol.16, No.26(Spring, 2024), pp.1-15.

3. D. Reid, Game Development as Public History: Practical Reflections on Making a Video Game for Historical Public Engagement, The Public Historian, Vol.46, No.1(2024), pp.74-107.

4. Conor Heffernan, It's in the Game: FIFA Videogames and the Misuse of History, Sport in History, Vol.44, No.4(2024), pp.590-611.

5. Dragos M. Obreja, She was Using Bayek for Sex: Hegemonic Feminity  and the Identity Play in Assasin's Creed Origins, Feminist Media Studies, Latest Articles(2024), pp.1-15.

6. Kirk M Lundblade, Gods, Kings, and Historians: History and the Dual Diegesis of Crusader Kings in the Assemblage of Play, Proceedings of DiGRA2024(2024).

7. Hanjun Shi, Game as History: How Does Pentiment Recreate a Vivid Sixteenth-Century Central European Everyday Life?, Proceedings of DiGRA2024(2024).

8. Michal Dawid Zmuda, Historizing Remediation: How Games Represent History through Media, Rethinking History, Vol.28, No.1(2024), pp.130-153.

9. Nicholas David Bowman, Alexander Vandewalle, Rowan Daneels, Yoon Lee, and Siyang Chen, Animating a Plausible Past: Perceived Realism and   Sense of Place Influence Entertainment of and Tourism Intentions From Historical Video Games, Games and Culture, Vol.19, No.3(2024), pp.286-308.

10. Robert Houghton, The Middle Ages in Computer Games: Ludic Approaches to the Medieval and Medievalism, Cambridge: D. S. Brewer, 2024.

11. Ömer Kemal Buhari, Dates, Carpets, and Pearl Necklaces: The Case of Anno  1404s Exotic Orientalism, Games and Culture, Vol.19, No.2(2024), pp.139-157.

12. Pieter J. B. J. Van den Heede, Replaying Wartime Résistence? Studying Ludic Memory-Making in the Open World Game The Saboteur, Games and Culture, Vol.19, No.2 (2024), pp.178-198.

2025

1. Bard Swallow, High Fantasy RPGs and the Materiality of the Medieval Book, Games and Culture, Vol.20, No.5(2025), pp.657-668.

2. Cahit Mete Oguz, The Byzantine Army in Video Games: Common Misconceptions Shaping Popular Perceptions, Gamevironments, Vol.23(2025), pp.1-36.

3. Christopher McMahon, Nerfing My Religion: A Cognitive Mapping of Faiths in Crusader Kings II and Europa Universalis IV, Gamevironments, Vol.22(2025), pp.22-57.

4. Li Na, The Specter of the Virtual: Historical Video Games as Complex Public History, Digital Scholarship in the Humanities (2025).

5. Mauro Mola, Playing World War II: Designing a Simulation Game on the Resistance in Turin in Collaboration with the Historical Archive, Proceedings of DiGRA 2025.

6. Robon Scarassati Bello, The Problem of Memory in the Assassin's Creed Series(2007-2020), Games and Culture, Vol.20, No.3(2025), pp.298-315.

7. Stefania Matei, The Technological Mediation of Collective Memory  Through Historical Video Games, Games and Culture, Vol.20, No.4(2025), pp.477-498.

8. 梁亦昆:《游戏如何讲述历史?数字游戏中的历史演进与现实映射》,《学习与实践》2025年第3期,第131-139页。

9. 梁亦昆:《数字游戏的历史观问题需引起关注》,《历史评论》2025年第3期,第109-110页。

10. 欧阳敏:《历史模拟类电子游戏如何构建玩家的文化记忆》,《数字出版研究》2025 年第4期,第110-120页。

11. 庞昊:《历史游戏<文明7>与三阶段的人类文明史分期》,《数字人文研究》2025年第2期,第16-30页。

12. 许伟旭:《跨媒介·游戏化·历史寓言:<唐探1990>的新主流电影工业美学实践》, 《视听》2025年第19期,第64-68页。

13. 郑汉、石浩铮、肖谦、刘家豪:《从历史再现到数字共鸣:文化遗产元素在游戏中的传播机制研究》,《全球传媒学刊》2025年第5期,第54~71页。

2026

1. Lina Eklund and Andrei Zanescu, Times They Are A-Changin'? Evolving Representations of Women in Assassin's Creed Franchise, Games and Culture, Vol.21, No.2(2026), pp.192-212.

2. Jessica Iolanda Costa Bispo, A Contemporary Take on Victorian Lunacy: Representati ons of the Asylum in the Neo-Victorian Video Game Alice: Madness Returns, Journal of Games Criticism, Vol.6, No.1(2026), https://gamescriticism.org/wp-content/upload s/2025/11/bispo-6-1.pdf.

3. 曹文婧:《以图为媒:UGC游戏地图对重大历史事件的记忆建构》,《传媒论坛》2026年第2期,第25-27页。

图片

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

摘要征集5月10日截止|“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)会议通知(第二号)

2026年5月2日 12:12

2026-05-02 12:12 北京

该会议预告转自揆古察今科史哲公众号时间:2026年7月31日-8月3日地点:内蒙古师范大学 当前,人工智

该会议预告转自揆古察今科史哲公众号

时间:2026年7月31日-8月3日

地点:内蒙古师范大学

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

一、 会议议题

包括但不限于:

1.典籍重光:科技古籍与多民族文献的智慧化整理

2.时空重构:GIS与时空大数据驱动的文明演进研究

3.协智重塑:多智能体与具身智能的人文社会仿真

4.谱系重绘:知识图谱与智能注释驱动的知识重组

5.记忆重述:AIGC赋能下的文化遗产与艺术创新

6.文脉重析:计量方法与主题模型的文本深度挖掘

7.伦理重思:数字人文中的算法批判与负责任创新

8.素养重育:数字人文课程体系与跨学科人才培养

9.数字人文学科建设

二、 会议信息

1.会议时间:

2026年7月31日至2026年8月3日

2.会议地点:

内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

3.会议注册:

本次会议将于2026年6月开放注册报名。

注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

三、 征文征集

1.会议征文对象为数字人文相关专业的专家、学者与在读学生。

2.论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3.征文分为两轮,第一轮为论文摘要和海报征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

(2)海报需以PPT格式制作,页面设置为90cm*120cm,纵向布局。

(3)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

4.组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5.论文提交邮箱:20250051@imnu.edu.cn。邮件标题格式为“CDH2026论文摘要/全文-姓名-单位”。

6.摘要提交截止时间:2026年5月10日

摘要录用通知时间:2026年5月30日

论文全文提交截止时间:2026年6月30日

四、 项目征集

1.本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2.所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3.请将报名表和相关附件压缩,以“CDH2026项目-项目名称”命名,发送至邮箱20250051@imnu.edu.cn。

4.项目征集截止时间:2026年5月30日

五、 会议组织

1.主办单位

中国索引学会

内蒙古师范大学

2.承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

3.协办单位(按笔画顺序排列)

IMR Press

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海财经大学“中文+数智经济”研究中心

上海财经大学国际文化交流学院

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

山西数字人文研究院

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

中山大学信息管理学院

中山大学数字人文实验室

中山大学数字人文联合研究院

中国人民大学数字人文研究院

中国社会科学院大学数字史学研究中心

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

东华大学纺织遗产与数字人文实验室

北京大学数字人文研究中心

北京师范大学文理学院中文系

北京师范大学珠海校区图书馆数字人文中心

电子科技大学数字文化与传媒研究中心

兰州理工大学文学院

华中科技大学汉籍数字化实验室

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

启元实验室战略研究中心

武汉大学文化遗产智能实验室

武汉大学数字人文研究中心

南京大学中华文明数智创新实验室

南京大学高研院数字人文创研中心

南京师范大学语言大数据与计算人文研究中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

首都师范大学初等教育学院

清华大学中国古典文献研究中心

淮阴师范学院文学院

湖北中医药大学医学人文学院

湖南女子学院文学与传播学院

(持续更新中)

4.媒体支持(按笔画顺序排列)

《Knowledge Organization》

《中国数字人文》

《古籍数字人文》

《全国报刊索引》

《南通大学学报(社会科学版)》

《信息与管理研究》

《烟台大学学报(哲学社会科学版)》

《数字人文》

《数字人文研究》

「DH数字人文」公众号

「DH数字人文动态」公众号

「IMR 图书情报学」公众号

「SHNU 数字人文」公众号

「三明学院学报」公众号

「山东大学」公众号

「广东省国学学会」公众号

「比特人文」公众号

「中国索引学会」公众号

「古代汉语信息处理」公众号

「立行数字人文」公众号

「全国报刊索引」公众号

「京狮人文DH」公众号

「科技古籍整理研究所」公众号

「域外汉籍与汉学研究」公众号

「揆古察今科史哲」公众号

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

AI & Innovation (《人工智能与创新》)

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

广东财经大学《智能高教》

社科大数字史学实验室

南京大学中华文明数智创新实验室

(持续更新中)

有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

图片

六、 会议联络

1.会议邮箱:20250051@imnu.edu.cn

2.会务咨询:周老师 13191432051/18852850582(微信同号)

附件

2026年中国数字人文年会项目报名表

CDH2026论文格式规范与要求

阅读原文

跳转微信打开

从探听“修辞回声”走向数字文学史——以定量分析松尾芭蕉在日本近代的接受为例

2026年4月24日 09:01

原创 日比嘉高、江晖 2026-04-24 09:01 北京

数字人文; 接受研究; 松尾芭蕉; 近代俳句; 正冈子规

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:日比嘉高,江晖从探听“修辞回声”走向数字文学史——  以定量分析松尾芭蕉在日本近代的接受为例[J].数字人文研究,2025,5(4):99-117.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

从探听“修辞回声”走向数字文学史

——以定量分析松尾芭蕉在日本近代的接受为例

摘 要  研究旨在通过对近代俳句中松尾芭蕉的接受情况进行定量分析,探索数字人文方法在文学史研究中的潜力。利用日本国立国会图书馆的数字收藏,统计了明治至昭和战前期间文献中芭蕉俳句的引用频率,并运用Jaccard系数对明治、大正、昭和战前期的大规模俳句集进行了相似性分析。研究发现,随着时代变迁,芭蕉对俳句的影响逐渐降低,而以芭蕉批评者著称的正冈子规的俳句却比明治时期一般俳句更接近芭蕉的风格。可见计算机定量分析能够捕捉人类难以察觉的表达差异,提取出人类和时代的“无意识修辞”。数字人文方法能够揭示传统研究难以触及的深层规律,为“数字文学史”的构建提供新路径。

关键词   数字人文;接受研究;松尾芭蕉;近代俳句;正冈子规

作者简介   日比嘉高,名古屋大学人文学研究科教授;江晖(译者,通讯作者),中山大学外国语学院副教授,Email:jianghui6@mail.sysu.edu.cn。

0  文学作品接受研究中的定性研究和定量研究

数字人文(Digital Humanities)是否能够为文学的接受研究带来革新?如今,全世界每天都在产生海量的数据,其中包含大量与文学相关的内容。有面向业余创作者的小说投稿网站、有与短诗形式文艺相关的线上活动,还有像X(原推特)、微博、脸书等社交网络服务。此外,各类博客平台也在以多种形式持续产出文学作品的创作、评论和读者的感想。不仅如此,过去的文学作品以及与文学相关的各类资料正在快速地从纸质媒介向数字数据转移。例如,日本国立国会图书馆的数字收藏中包含了253万本图书(网络公开37万件)、140万册杂志(公开2万件)和32万篇博士论文(公开1.2万件)等数据。如果使用该图书馆的“下一代数字图书馆”,其中已过版权保护期、被标记为“网络公开”且被归类为“保护期限届满”的约29万件数据,用户可以获得文本的全文数据。就与日本文学相关情况而言,国文学研究资料馆一直在推进古典文学相关文献的数字典藏项目,通过其运营的“国书数据库”,用户“可以一次性检索和使用国内外众多机构和国文学研究资料馆收藏的古籍(即江户时代以前的书籍)等资料的书目信息以及部分高清图像”,据悉该网站在2025年3月公开的原始图像已超过30万张。

如此产生的海量数字化资料群,构建了一个由电子数据组成的文学话语空间,它与人们在数字空间和在物质空间的活动复杂地交织在一起,共同塑造了当代文学的生态系统。本文认为在文学的接受研究领域,数字人文式的方法同样有效。人们在创作、交流和享受文学作品时所留下的痕迹,不仅留存于纸张等物理媒介中,也大量保存在电子资料里。我们已经进入了一个新的时代,可以通过数字数据来探究某部作品是如何被阅读,以及从中获得的文学创意、词汇及修辞等遗产又是如何传承给下一代的。

文学接受研究——探讨既有的文学作品及其创作者如何被后继的读者和创作者所接受——这一领域拥有丰富的研究历史。回顾其理论框架,大致可以分为两大体系:一类是关注读者阅读行为的读者反应论体系,另一类是关注读者群体及其解释框架的接受论体系。关于前者,沃尔夫冈·伊瑟尔(Wolfgang Iser)在著作《阅读行为》中使用“空白(blank)”和“空缺(gap)”等术语论述了阅读行为的本质并在全球产生了深远影响;提出“作者之死”并强调读者能动性的罗兰·巴特(Roland Barthes)或许也可归入此类。在文化研究理论中,斯图亚特·霍尔(Stuart Hall)的编码/解码模型是广为人知的。

在关注阅读群体及其解释框架的接受论研究者中,汉斯·罗伯特·姚斯(Hans Robert Jauss)无疑是一位杰出代表。他在著作《文学史作为向文学理论的挑战》中提出了“期待视野”(Horizon of Expectations)这一概念,探讨了某一时代的读者对文学作品的理解范式是如何被更新的。该理论在数字人文时代依然具有丰富的启示意义。在当今时代,评论家与读者的感想通过网络媒体及社交平台等途径被大量生成并留存。数字时代的接受研究正是借助这一类新型资料,获得了重构“期待视野”的线索。关于“期待视野”的理论前景,本文将在结论部分再做探讨。

关于读者共同体的分析,斯坦利·费什(Stanley Fish)提出的“阐释共同体”(Interpretive Communities)概念,可定义为共享特定阐释框架的群体。这个观点认为文本的意义并非内在于文本本身,而是由读者所持有的理解框架生成的,就这一点而言与上述的读者反应论在问题意识上是相通的。

这些关于读者反应论或接受论的著名研究,虽然都诞生于纸质资料的时代,但随着互联网的出现,它们也与讨论数字空间中阅读行为的研究成果产生了关联。在这一领域的早期成果中,大卫·博尔特(David Bolter)的《写作空间》(Writing Space)值得一提。该书出版于1991年,是探讨超文本时代表达方式和读者参与方式转变的开创性著作。此外,尽管与接受研究略有不同,霍伊特·朗(Hoyt Long)和理查德·J·索(Richard J. So)的论文使用机器学习对比了英译俳句和英语原创俳句的风格、特征和形式,是在数字人文与文学研究的交汇点上进行的俳句研究和翻译研究的新尝试。

然而,在博尔特的时代尚未出现大量的文学电子资料。可如今,博尔特所讨论的那些通过超链接连接起来的以及由公共或私人档案库收藏的正在等待读者访问的巨大数据空间,在世界文学环境中占据了重要的地位。这些数据的积累如何应用于文学的接受研究,正是本文想要关注的问题。若参照前文提出的两种分类,即“聚焦阅读行为的读者反应理论”与“关注阅读共同体的接受理论”,本研究当归于后者——接受理论的学术谱系。

1  俳句的接受研究与本研究的意义

需要说明的是,本次研究的目的也并非要描绘出其全貌,我们分析的对象仅限于日本近代俳句集的文本数据,根据日本著作权法,这些作品已过版权保护期。本文将探讨江户时期俳人松尾芭蕉的作品在近代言论空间以及近代俳句中的接受情况。数字人文对文本资料的定量分析能在俳句的接受研究中发挥怎样的作用呢?

在此之前,有必要确认一下既有研究是如何进行相关讨论的。活跃于17世纪后半叶的松尾芭蕉是日本文学史上最著名的俳句诗人,其影响力一直延续至今。当然,相关研究也颇为丰富。由于审视其全貌超出了本文的能力范围,在这里仅对主要成果进行概述,尤其是与本文后半部分涉及的正冈子规相关的内容。关于近代对松尾芭蕉的接受,研究成果众多,早先有山下一海和大野林火的论述,近年黄慧君的论文以“古池”一句为例探讨了大正时期对芭蕉的评价。除俳句诗人对芭蕉的接受以外,久保田晴次有两部重要的成果还考察了小说家们的看法。

关于近代俳句诗人个人对芭蕉的接受研究,可以以正冈子规为例。他是明治时期俳句革命运动的推动者,不仅在俳句创作有所建树,还经常发表评论并创办杂志《杜鹃》(『ホトトギス』),是近代俳句史上划时代的人物。并且他本人也多次论及芭蕉,相关研究十分丰富。早在战前,宫本三郎就出版了《子规在芭蕉批评史中的地位》,复本一郎也有相关著作。简而言之,在关于二者关系的讨论中,有的分析了子规对芭蕉的“理解”或“评论”,有的则追踪了除二者之外的谱系,还有的比较了二人的俳句作品,方法多种多样。但是关键在于,许多评论和研究中都存在一种共通的论述“模式”,即使用“继承—革新”“接受—排斥”“影响—创造(进化)”等词语去描述他们之间的继承关系,或者是作为其变体的反叛亦或是创新的轨迹

这些接受研究中所体现的“模式”与哈罗德·布鲁姆(Harold Bloom)提出的“影响”问题不无关联。布鲁姆指出,英国浪漫派诗人在阅读前人作品时,虽然从中获得了文学上的刺激,但同时也因此对自身的独创性感到不安,他将这种现象上升为理论,称为“影响的焦虑”。路易斯·A·伦扎(Renza, Louis A.)对布鲁姆的观点进行了解释,他认为这种影响关系可以被视为疑似亲子关系,即俄狄浦斯式的焦虑,其背后是基于文献学的历史研究观。伦扎指出了重要的一点,就是对这种影响关系的考察虽然在讨论传承或反叛,最终不过是维护了确认文本传承关系的传统主义意识形态。无论称之为传承还是对传统的叛离,归根结底,只是换一种说法在讨论如何强化文学史的延续性罢了。

与此相比,数字人文的方法则采取了完全不同的思路。它并非从人与人之间的传承关系切入,而是通过测算词与词、句与句之间的相似性等方式,来探寻“影响”或“接受”的痕迹。如果将关注人际关系、挖掘作品表达方式的研究称为“质”的接受史,那么基于大量分析文本数据的字面内容去考察表达特征及其相互关系的研究,则可称之为“量”的接受史。

本文对“相似性”的判定标准是通过比较俳句A与俳句B中相同字符连续出现的程度。如第三节所述,本研究采用2-gram对诗句进行分割,并使用Jaccard系数将匹配度量化。在注重质性分析的传统接受史研究中,仅凭词语的简单相似自然不足以证明前代作家/作品与后代作家/作品之间的影响关系。然而,数字人文领域的文学研究通过对海量文本进行词语一致性检测,即基于“字面”层面的相似性计算,能够捕捉人类难以察觉的细微变化,并提取远超人类分析能力规模的文本特征。文学表达中的表层相似性——本文称之为“修辞回声”——是通过多重分析的交叉叠加进行探测的。“修辞回声”是借助数字人文方法捕捉到的“接受”痕迹或其潜在的可能性。基于定量分析的接受研究,通过持续检测“修辞回声”并深入剖析其内涵,进而尝试重构“期待视野”的图景。

如后文所述,基于字面相似性的量化接受研究方法,对于探讨俳句这一文类的接受史而言同样有效。俳句严格遵循十七音节的格律规范(若使用汉字而非假名,则实际字符数更少),因此每个字符在字面层面都承载着更为厚重的意义密度。

基于上述问题意识,本文将对俳句的数字资料进行定量分析,去探究日本近代对松尾芭蕉的接受情况。

2  从国立国会图书馆数字馆藏资料看近代对芭蕉的接受

首先,基于笔者2022年的研究对本文的前期成果进行简要整理。本研究对二战前的近代文献中对芭蕉俳句的引用情况进行了定量分析,从新的视角讨论了这个问题。这里所说的二战前的近代文献,具体是指可以在日本国立国会图书馆“下一代数字图书馆”进行全文检索的所有类别的图书文献,数量约为33.6万件(截至2022年)。利用全文检索功能,可以统计出这些资料中引用芭蕉俳句的数量,以此勾勒出“接受”的样态。检索的时间范围为1868年至1945年,因为芭蕉的俳句约有1000句,为了尽可能避免因表述差异造成的遗漏,本研究在检索时使用了三种文本。图1展示了引用率前30的句子(由于存在引用率相同的情况,实际为31句)。

图1 近代文献中芭蕉俳句的引用情况(前30位)

可以将此结果与人们所熟知的芭蕉佳句进行比较。引领明治俳句革命的正冈子规在1893年撰写的《芭蕉杂谈》中列举了“尤为出众、广为传颂”的11句芭蕉名句,包括:

  1. “古池や蛙とびこむ水の音”(古池呀,青蛙跃入水中的声响)

  2. “道のべの木槿は馬にくはれけり”(道边木槿,马儿啃食)

  3. “物いへば唇寒し秋の風”(张口欲言,唇寒于秋风)

  4. “あかあかと日はつれなくも秋の風”(艳阳当头,秋风已起)

  5. “辛﨑の松は花よりおぼろにて”(辛崎之松,比花更显朦胧)

  6. “春もややけしきととのふ月と梅”(春意渐浓,月与梅相映成趣)

  7. “年々や猿に着せたる猿の面”(年复一年,猴戴猴面)

  8. “風流のはじめや奥の田植うた”(风雅之始,远处传来插秧歌)

  9. “白菊のめにたてて見る塵もなし”(凝视白菊,纤尘不染)

  10. “枯枝に烏のとまりけり秋のくれ”(鸦栖枯枝,秋日将暮)

  11. “梅の木に猶やとり木や梅の花”( 梅树插新枝,梅花共盛开)

      可以看到,与图1中列举的31句仅有1、3、5、10这四句是重合的。

从33万余册的图书资料中,找出超过1000句的芭蕉俳句引用,其工作量之巨大,超出了人力所能及的范围。然而借助计算机技术便使之成为可能,让我们得以开启那些以往难以追踪的接受研究。并且,如本章所示,计算机辅助分析往往能呈现出与人们所认知的世界图景不同的结果,例如子规认为“广为传颂”的俳句与实际被频繁引用的俳句之间存在差异。但是这里也会出现一个问题,即“引用”是否等同于“接受”?关于这一点,我们将在后续章节中进一步讨论。

3  从近代俳句集看对芭蕉的接受

3.1 数据预处理与相似性的计算方法

本章将进一步探讨关于近代对松尾芭蕉的接受。在此,我们将研究对象限定于俳句集,通过分析近代俳句集中的作品特征来揭示芭蕉的接受情况。关于芭蕉的俳句,我们仍使用与前章相同的三个数据集,本章中分析的近代俳句作品来自以下三种句集:

A《明治句集》:共4冊(新年卷、春之卷、夏之卷、秋之卷),27084句,选录自报纸杂志。

B《大正百家选》:共1冊,12516句,收录德岛县当地俳句诗人作品。

C《现代综合大句集》:共1冊,12526句,选录自“最近发行的数百本俳句杂志”中的优秀作品。

首先,对本研究的数据预处理过程进行简要说明。ABC各句集的数据来自从国立国会图书馆“下一代数字图书馆”获取的JSON Lines文件,从中删除了正文以外的页面(如封面、目录、版权页、广告等),保留了页码、页眉、章节标题等信息。由于原始文件中有部分字符顺序混乱,因此使用JSON Lines文件中的位置信息标签进行了调整。在此基础上,提取“contenttext”(文本内容)中字符数大于9的字符串,以此删除通常小于8个字符的页码、章节标题等副文本信息。至此,正文数据的构建基本完成。此外,根据分析的需要,将正文数据中的汉字旧字体转为了新字体。除最后这一步以外,上述的预处理工作基本都是通过Chat-GPT4完成的,笔者随时跟进了这个过程。

      关于正文数据的识别率,通过对比笔者核对过的句集与上述经过预处理的正文数据,发现A的平均误识别率小于1%,但存在部分句子缺失的现象,B和C的误识别率分别为1.5%、0.4%,同样都出现了信息缺失的情况。

本研究采用了N-gram(本次使用了2-gram)的方法,通过Jaccard系数计算了文本的相似度。本研究的独特之处并非在于追踪俳句作品的语义承继,而在于对表层字面一致性的量化考察。鉴于此研究目的以及俳句文本篇幅极短这一特性,本研究认为,与 Word2vec 或 BERT 等方法相比,N-gram具有更高的适用性。

N-gram是指字符串中连续的“N个单词”或“N个字符”的组合,2-gram就是两个连续的单词或字符。例如,以字符为单位的2-gram将“雲の峰いくつ崩れて月の山”分解,可以得到“雲の”“の峰”“峰い”“いく”“くつ”“つ崩”“崩れ”“れて”“て月”“月の”“の山”共11个二字字符组。Jaccard系数是用于测算两个集合之间相似度的指标。具体计算方法是用两个集合的共同元素数量(交集)除以元素总数(并集),所得数值介于0到1之间,越接近1表示相似度越高。

例如,将“干網に蜻蛉吹かるゝ野分かな”与“猪もともに吹かるゝ野分かな”这两句俳句用2-gram分解后,可按照以下步骤计算Jaccard系数:

首先,将每句俳句分解为2-gram。

  「干網に蜻蛉吹かるゝ野分かな」的2-gram:干網、網に、に蜻、蜻蛉、蛉吹、吹か、かる、るゝ、ゝ野、野分、分か、かな;

  「猪もともに吹かるゝ野分かな」的2-gram:猪も、もと、とも、もに、に吹、吹か、かる、るゝ、ゝ野、野分、分か、かな。

两者之间有7个共同的2-gram,即“吹か”“かる”“るゝ”“ゝ野”“野分”“分か”“かな”。以此计算Jaccard系数,计算公式为:(共同元素数量[交集])÷(元素总数[并集])。这里的交集为7,关于并集的计算,两句都有12个2-gram,但需要从两者的和中减去共同元素数量7,即(12+12)-7=17。因此,上述两句的Jaccard系数约为0.41。

       基于此方法,以(1)《芭蕉俳句全集》和A《明治句集》为例,使用2-gram和Jaccard系数进行了初步调查。将结果按照相似度从高到低排序,并经过笔者的确认,可以发现当相似度高于0.3时,即使由人来判断也会感受到其相似性;数值在0.2左右时,仅是出现部分相同的季语,就俳句这一文学体裁而言,难以称之为相似。因此,本研究将相似度高于0.3的情况定义为相似。

3.2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的比较结果

为了把握整体趋势,我们首先将《芭蕉俳句全集》与《明治句集》(1909年)、《大正百家选》(1918年)、《现代综合大句集》(1935年)进行了逐句比较。这些句集分别收集了明治、大正和昭和战前时期多位俳句诗人的作品,规模宏大。其中,《明治句集》收录约2.7万句,《大正百家选》和《现代综合大句集》各约1.2万句。

图2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的相似度

与初步调查的步骤相同,我们将句子分解为2-gram,并使用Jaccard系数测算了它们的相似度,然后将结果按照从高到低进行了排序,图2即为三组不同时期句集相似性比较结果的前5000项。由于《明治句集》中存在与芭蕉完全相同的句子,因此图中显示出了极端高的数值(相似度为1.0)。但是,将比较对象扩大至前5000项,仍然可以清楚地看到《明治句集》的相似度始终显著高于《大正百家选》和《现代综合大句集》。同样,《大正百家选》的相似度也始终略高于《现代综合大句集》。通过将总计约5.1万句俳句与芭蕉作品进行比较,可以发现从1909年到1918年,再到1935年,随着时间的推移,其相似度、即“修辞回声”在逐渐降低。尽管这项调查未能提供关于季语或词汇使用、类型化表达等具体信息,但基于5万句规模的考察,能够得出以下结论:后期的俳句作品与芭蕉俳句在字面上的相似度随着时代变迁而不断降低,即在字句层面上渐行渐远。

在此基础上,我们比较了《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》中相似度最高的前30句作品(表1至表3)。可以发现,从明治、大正到昭和,此前相似度较低的句子也有可能逐渐上升到较高位置。正如在初步调查中也讨论过的,当相似度超过0.3时,即使通过人为判断也能感受到其相似性。如表1至表3所示,相似表现的关键在季语,当季语和切字的组合超过四个字符时,相似度就能达到0.3。在相似度高于0.4的句子里,除季语之外,还有其他词语的重合,使得其相似性更为显著。但相似度在0.2左右的句子中,重合的季语大多仅有三个字符,人为判断就较为困难。

此外,还可以看到,在相似度高于0.3的句子里,其相似性随着时代变化呈现出下降的趋势。不仅如此,有趣的是,即便是相似度低于0.2的句子也显示出了类似的结果,即相似性从明治、大正到昭和逐渐降低。若仅依据人为判断,相似度低于0.2时是很难发现这三个时期的俳句的表达差异的,无法感知其相似性也就难以进行比较。换言之,计算机通过将相似性量化的方法,捕捉到了人类肉眼无法比较的表达层面上的差异,并展示了其变化趋势。尽管是非常细微的差异,但确实可以看到后期的俳句创作在不断远离芭蕉式的表达。通过对近代俳句的大规模分析,揭示出了人力所不易察觉的长期且细微的“修辞回声”的变化。

表1 《芭蕉俳句全集》与《明治句集》中的高相似度作品

表2 《芭蕉俳句全集》与《大正百家选》中的高相似度作品

表3 《芭蕉俳句全集》与《现代综合大句集》中的高相似度作品

4 从正冈子规看芭蕉的接受

本章将以正冈子规的俳句为例,进一步考察日本近代对芭蕉的接受情况。

在此有必要指出本次定量分析的局限性。首先,用于对照的正文数据有一定局限。若要追求文学研究的精确性,原本需要在“全句”范围内进行详细考察,而且机器的文字识别准确性显然远未达到完美。其次,无论是芭蕉还是子规,其俳句风格均存在变化,文学研究向来是重视这种变化本身的[32],而以“全句”作为比较对象的量化分析就忽略了这种风格上的变化。但是,通过更细致的数据分类、文本校对和预处理等方法,或许能够在一定程度上克服这些问题。

正冈子规的俳句数据来源于子规纪念博物馆的“俳句检索”系统。本研究对其收录的25097句俳句进行了整理,将片假名转换为平假名,并分别准备了旧体字和新体字的数据。下文中将这个数据集称为“子规全句”。

我们首先将子规全句与《芭蕉俳句全集》和《明治句集》分别进行了比较,采用了与前一章相同的方法,结果如图3所示。观察图中曲线可以注意到两个特点:一是相比《芭蕉俳句全集》,《明治句集》和子规全句的相似度明显更高,这一点可以与图2进行对照,其差异一目了然;第二点是,相比《明治句集》,子规全句和《芭蕉俳句全集》的相似度更高。

      其中第二点似乎与一般认知相悖,因为致力于推动俳句近代化改革的子规,是以严厉批评芭蕉而闻名的。在《芭蕉杂谈》中,他曾以激烈的言辞说道:“芭蕉的俳句大半为劣句废话所充斥,能称为上乘之作的不过几十分之一”,还称“与其说芭蕉的作品受到肯定,不如说其品行为人所钦慕”,认为是芭蕉的人品而非其作品本身获得了评价。

      需要说明的是,子规并非单纯的芭蕉批评者。他对芭蕉的批判很大程度上源于对那些盲目崇拜芭蕉的旧派俳句诗人的否定态度。通过接受斯宾塞美学等思想,他也基于重视写实的现代自然描写意识对芭蕉简洁明快的表现方式予以了正面评价。

图3 《芭蕉俳句全集》《明治句集》与子规全句的相似度比较

这些是通过仔细解读子规的评论所掌握的他对芭蕉的具体解读。因此,就直觉而言,在将子规俳句与明治时期的大规模句集进行比较时,得出子规的作品反而更接近芭蕉这一结果,很难不让人感到困惑。在俳句革命中,正冈子规对被偶像化的芭蕉的批判广为人知。

      然而分析的结果确实如图3所示。那么,二人的作品究竟在哪些方面显示出相似呢?在讨论这个问题之前,还需要回顾一下图3的另一个特点,即明治句集与子规全句的相似性。与芭蕉作品相比,子规作品与《明治句集》之间的距离明显更为接近。

为了探其究竟,笔者制作了《芭蕉俳句全集》和《明治句集》、子规全句相似性对照一览表(表4)。可以看到,相似度为0.3的句子在《明治句集》中排第17位,而在子规全句中排第27位(有5句的相似度同为0.3),这意味着子规全句与《芭蕉全集》的相似性更高。通过对比,能够看出子规似乎是有意识地借鉴了芭蕉的俳句。而在《明治句集》收录的俳句中,虽然也有类似的受到芭蕉影响的例子,但也有一些作品,虽然在字面上看似有诸多相似之处,实际上并非真正借鉴了芭蕉,例如“胡麻蒔や風なきに散る栗の花”(明治)与“風なきに散るや若木の花櫻”(芭蕉),以及“吹風をうしろにしたり羽抜鳥”(明治)与“秋の夜をうしろにしたる法師哉”(芭蕉)等。

表4 《芭蕉俳句全集》和《明治句集》、子规全句中的高相似度句

相比之下,子规俳句中与芭蕉相似的句子,显然是有意识地进行了借鉴,并且在保持距离感的同时试图展现出一种幽默与机智。例如,子规的“春之山畠となつてしまひけり”很可能借鉴了芭蕉的“春の夜は櫻に明けてしまひけり”。芭蕉吟咏的是令人沉醉忘返、不觉夜明的樱花之美,而子规则以一种轻松而幽默的笔触,描写了本应繁花盛放的春山被开垦为农田的当下社会变化。正因为子规借鉴了芭蕉描绘樱花之美时那种超脱了世俗与时光的意境,才让他对人类的贪婪之举逐渐改变自然景观的现世景象的观察显得尤为独特而深刻。

此外,子规还将芭蕉以佛教悟理为主题的俳句“稻妻に悟らぬ人の尊さよ”改写为“長き夜を寐足らぬ人の尊さよ”。此句创作于1895年,当时子规尚未因病卧床,这一句或许只是单纯地表达了对能够安睡之人的羡慕之情吧。还有“肥壺や蛙とびこむ夕まぐれ”这一句,显然是以诙谐的口吻模仿了芭蕉的名句“古池や蛙とびこむ水の音”。

本章将子规俳句的全部数据与芭蕉俳句进行了对比分析。芭蕉与子规的关系一直以来受到了较多的关注,也有研究深入探讨了二人的个别俳句作品,但是将其所有俳句进行全面比较应该是此前尚未有过的尝试。当然,其中可能存在偶然的相似,也有一些可能仅是戏谑之作,并且如前章所述,即使仅有个别文字的重合,计算机也会统计在列。但是,正是通过如此这般机械化的比对,不放过任何字面上的外在相似性,并且全面展示了相似度从高到低的所有内容,我们才能够开辟出一条新的道路从整体上去思考有关相似性的问题,包括那些可能会被忽略的俳句。

当然,本研究也存在一定局限。本次分析以松尾芭蕉的俳句为起点,将芭蕉作品为单一中心点与数万首其他俳句进行对比,在形式性相似的层面上呈现出芭蕉与后世不同时期、不同作品之间的距离,但是无法涵盖俳句传统中多源并行的影响脉络。具体而言,近代俳句所受影响并不局限于芭蕉,而芭蕉本人亦承续了前代诸家的创作传统,此类复线性的继承关系未能在本研究中得到充分讨论。若能选取其他俳人为起点重复同样的分析,或许能够勾勒出新的影响关系网络。通过多重视角反复展开类似研究,俳句的接受史将得以进一步深化和拓展。

5 基于定量分析的接受研究的可能性

如上所述,基于国立国会图书馆“下一代数字图书馆”的馆藏资料,本文对明治、大正和昭和战前时期的大规模俳句集和《芭蕉俳句全集》进行了比较分析,还考察了正冈子规的俳句和芭蕉作品、《明治句集》的相似性。

目前,依靠计算机进行的质性内容分析还远远无法达到人类研究者的水平。无论是芭蕉、子规,还是大规模俳句集,都需要参考时代语境、作为借鉴的先前文学遗产,以及创作者的个人经历和经验等。这些的外部信息广泛存在于多种形式,需要细致解读并结合作品进行深入挖掘、论证。但是目前能够做到这一点的,仍然只有人类研究者。

但也有一些任务是只能通过计算机的数据解析完成的。无论如何,其工作内容的规模和效率都是压倒性的。近年来,随着技术的进步和大环境的变化,文艺作品的文本数字化进程加快,分析技术也不断提升。计算机的数据分析速度让人力不可企及的海量资料读取成为可能。由于工作量和速度的限制,人类通常需要根据文学家的重要性或文学史上的价值去预先筛选分析对象。这不仅导致了资料数量的局限,还可能产生先入为主的偏见。与此相比,计算机的工作则可以无视现有的文学史价值判断,将一切转化为数字进行处理。

就文学接受研究而言,除以往人类研究者探讨较多的创作者之间或作品之间的相互影响关系之外,如今还可以借助计算机对作品数据进行定量分析,追踪作品之间的相似性、潜在的共同主题以及作品主题的变化等。

关于“接受”和“影响”的既有讨论,大多基于某些重要的资料或优秀作品提取出抽象的主题,或者从某文学家或文艺群体使用的概念和理念(例如芭蕉及其门派提出的“风雅”“轻妙”等)的传承角度展开论述。例如,研究芭蕉近代接受史的权威学者久保田晴次如此描述他的研究目标:“本书的意图在于探讨众多的芭蕉论究的意义所在,以及从一种芭蕉论到另一种芭蕉论的流变所具有的意义。”久保田分析了芥川龙之介等近代作家对芭蕉的评价,考察其中的“意义”并揭示了芭蕉论的“流变”。最终,久保田选择以“实存”一词作为总结其研究的关键词。

从这种传统的文学研究的角度来看,本文在第二章的论述中将“引用”视为“接受”,以及在第三章和第四章中使用N-gram将俳句分解、通过句中词语的匹配数量来计算相似性的方法,可能会显得过于肤浅。因为“引用”是否等同于“接受”、用语的“相似”是否意味着“接受”,这些质疑是不可避免的

1918年,高浜虚子曾写道:“从德川初期到如今的明治大正,尽管俳句经历了或多或少的盛衰与变化,但可以说俳句就是芭蕉的文学。换言之,自松尾芭蕉这个人物出现并给传统俳句带来一场革命,在此后的二百余年间,虽涌现出俳人无数,但大多不过是步芭蕉后尘而已。”从江户到近代的两百多年里,俳人们的创作只是继承了芭蕉的文学事业,而虚子所指的“芭蕉的事业”,恐怕并非指芭蕉俳句的字面形式。字面的相似只是表面问题,更重要的应该是芭蕉的精神形态或世界观。若非如此,虚子也不可能做出这样的论断。

然而,在使用计算机进行大量数据分析的方法逐渐被引入文学研究领域的今天,真正需要重新审视的并非精神、思想或看待事物的方法。更重要的在于倾听并审视这些“修辞回声”,即坚持从字面层面入手的阅读实践,探索区别于人类传统阅读方式的其他可能性,重新构建“质”所无法衡量的、基于“量”的文学史。当然,这并不意味着思想的传承或文学观念的接受毫无意义。这些探索,如同过往一样,今后仍将是重要的研究课题。但是,贴近文本的分析同样重要。定量研究,即便不称之为“细读”,确是能够做到“贴近文本的分析”。它能够摈弃先入之见,忠实地追随文字,统计数量,计算概率、频率和字数。

尤其是在俳句中,文字的力量显得尤为巨大。在这种文学形式里,作品最多不会超过20个字,因此每一个字所承担的角色自然就变得举足轻重。桑原武夫曾经提出一个挑战性的问题:如果将作者的名字隐去,我们是否能够分辨出哪些是当代名家的俳句?他在这篇著名的评论中指出:俳句所面临的宿命就是,作品实际能够呈现的,与作者的理念或理想相比,总是显得言不尽意。因此,桑原认为,“就现代俳句而言,仅凭作品本身(即单独的一首俳句)去判定作者的地位是非常困难的”。芭蕉提出的俳谐世界固然所见高远,但这种高度抽象的概念性问题是否能在一个具体作品中得到充分的展现呢,现实未必如此。然而,正是这种局限,反而赋予了文字更多吸引读者深入解读的力量。面对通常只有十几个字的俳句作品时,读者会认真揣摩句中的每一个字词,在脑海中描绘这一句所构建的世界,甚至试图从芭蕉、芜村或子规的只言片语中推究他们的理念或理想。因此在俳句研究中,文字是至关重要的。而计算机的数据分析能力,让这种贴近文本的俳句分析、即对“修辞回声”的解构成为可能。这种能力,无疑将在未来的俳句和俳谐研究中发挥巨大作用。不过,计算机所追随的,终究是数字,而非理念。

文学作品的定量分析并非总能收获丰硕的成果,在很多时候,它可能只是验证了人们大致预料到的结果。例如,本研究中关于芭蕉的影响力从明治时期到昭和战前期间逐渐减弱的部分结论,也体现了这一点。当然,用明确的数字去证实那些隐约的猜想,这本身也是有意义的事情。但是,当计算机辅助的定量研究得出与预期相悖或完全未曾预想到的结果、以及发现人类未能发现的变化和特征时,就会产生较大的冲击力。例如,在松尾芭蕉与后世俳句作品相似性的经年变化中,当相似度低于0.2时,仅靠人力难以察觉,但计算机却检测到了这些细微的变化。此外,计算机还发现正冈子规的俳句比明治末年出版的大规模俳句选集在文字表达上更接近松尾芭蕉。这一结果有悖于我们对正冈子规——俳句近代化革命的旗手,同时亦是芭蕉的批评者——的直觉判断和先入之见。

6  结语——从“无意识修辞”到“数字文学史”

本文以接受研究为例进行了相关考察,可以认为,计算机辅助的文学定量研究是一种新的话语分析方法。就文学接受研究的历史而言,这种方法有可能在理论上更新姚斯提出的“期待视野”概念。姚斯试图从传统的文学创作和叙述美学转向接受和影响的维度重写文学史。从读者来看,文学作品并非出现在真空之中。读者心中始终有着判断的标准,会通过该文学体裁的内在规范、与名著之间的关系、诗性语言与实用语言的差异等来衡量对作品的接受方式。并且,文学作品本身也是在“广告、公开或非公开的信号、熟悉的标志或隐含的指令”中被创作出来的,这些因素极大地影响了读者对作品的接受方式。因此,新创作的文学作品都是基于“阅读的记忆”被接受的,同时又是被置于所谓的“期待”——“这部作品应该是这样的吧”——之中被解读的。这就是姚斯所说的同时代读者的“期待视野”。然而,优秀的原创作品是不同的,它们能够打破读者的“期待视野”,将文学史推向新的境地。

姚斯希望能从接受和影响的角度重新审视文学史,其重要性不容置疑,但是问题仍在于研究者应该借助何种资料与分析手段,才能有效重构这一“期待视野”仍然是一个尚未解决的问题。尽管在回顾文学史时,我们可以在一定程度上进行描述,但若谈及同时代的文学(研究)却显得困难重重。然而,随着大量数字文本的出现,如今重构“期待视野”正在成为可能——以一种与不同于以往的方式。过去和当代读者的阅读痕迹沉睡在数字档案和网络上的各类数据之中。如何挖掘这些痕迹,正是数字人文的文学接受研究所面临的课题,亦是可能性所在。通过对特定时代可获取的阅读数据进行大规模计算分析,并由研究者对分析结果进行解读,便能够揭示出该时代特有的阅读方式,而这理应构成“期待视野”的重要组成部分。

本文以接受研究为例进行了探讨,但这种方法的潜在可能性并不局限于该领域。海量数字化文本及各类信息分析技术的涌现,为多种文学类型的修辞分析带来了新的启示。关键在于,这种量化分析方法具备两大特质——其精细度超越了人类的感知能力,且在规模上又超出人类的处理极限。更值得关注的是,文学家创造的修辞本身往往延伸到创作者有意识控制的范围之外。文本中存在着作者本人未曾察觉的句式与引用,流淌着同时代其他创作者与评论家未能识别的互文链。这些无意识的修辞痕迹,早已深深镌刻在文本的字里行间。而精微且大规模的计算分析,正是从这些字面纹理中解析出“修辞回声”。笔者认为,基于定量的数据分析方法能够提炼出个体乃至时代中潜藏的“无意识修辞”。

文字所编织的图案,即为修辞。如今,修辞的矿脉正在大规模地转移到数字文本之中。不仅是文豪和诗圣的作品,那些被遗忘的小说家、小众诗人、无名的业余文学爱好者的创作,也都构成了这座矿山的一部分。著名评论家撰写的有影响力的评论、匿名的时事评论,以及地方读者的读后感,都平等地埋藏其中。计算机不会区别对待文豪、业余创作者、专业评论家或普通读者,而是通过挖掘将所有内容转化为数字的话语=数据的矿脉,即探听“修辞回声”,从而让我们得以从仅由著名文学家之间的相互关系来论述的俄狄浦斯式的文学史中逃离。数据挖掘揭示了人们与时代的无意识修辞,而新的“数字文学史”也将随之诞生。

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

莫莱蒂:远读是个玩笑

2026年4月23日 12:19

远读 2026-04-23 12:19 北京

远读是针对世界文学这个新研究对象提出的方法,在一定程度上也是认识论层面的探索

本文转载自华东师范大学远读批评中心公众号“远读”

图片

活动现场

远读是个玩笑

2026年4月17日晚6点,斯坦福大学荣休教授弗朗哥·莫莱蒂、清华大学中文系教授格非、《上海书评》主编丁雄飞来到华东师范大学普陀校区,以“远读实验:反思文学批评的量化转向”为主题展开对谈。本场活动为北山讲堂高端系列讲座第2讲、远读讲座第56讲,由华东师范大学国际汉语文化学院、华东师范大学中国语言文学系主办,华东师范大学远读批评中心承办,商务印书馆协办。

弗朗哥·莫莱蒂1950年出生于意大利松德里奥,1972年毕业于罗马大学现代文学专业,先后任教于美国哥伦比亚大学、斯坦福大学,美国科学与艺术学院院士,美国国家书评人协会奖最佳评论类书籍奖获得者。2000年,莫莱蒂教授于《新左评论》上发表《世界文学猜想》一文,首次提出“远读”(distant reading)的观念。2010年,他创建了斯坦福文学实验室。代表作包括《世界之路:欧洲文化中的成长小说》《现代史诗:从歌德到加西亚·马尔克斯的世界体系》《布尔乔亚:在历史与文学之间》《远读》等。今年,他刚刚出版了新作《黑旗:悲剧形式与内战》。

以下为对谈内容:

图片

丁雄飞

丁雄飞:纵观莫莱蒂教授的研究生涯,我们似乎可以辨认出两个莫莱蒂:一个是“细读的莫莱蒂”,一个是“远读的莫莱蒂”;一个是“作为文本阐释者的莫莱蒂”,一个是“作为量化形式分析者的莫莱蒂”。但归根结底,只有一位莫莱蒂教授,他是文学史家,是文学理论家,也是文学批评家,并且始终是一个唯物主义者。我想先请莫莱蒂教授谈谈什么是“远读”:您提出这个说法的契机是什么?它与世界文学、与您组织编纂的五卷本文集《小说》有什么关系?

图片

弗朗哥·莫莱蒂

莫莱蒂:“远读”的来源有二。它最初是个玩笑,当年美国学界言必称“细读”,我开玩笑说还有“远读”。我没把它当真,可大家都当真了,后来真成了学术术语。“远读”还有一个由来:我独自去看电影,喜欢坐后排,因为坐得远,看得全,但和我太太一起时,就要迁就她坐前排。显然,坐在前排和坐在后排看到的东西是不一样的。这也对“远读”适用——拉开距离,就能看到不一样的内容。

我们当时出的那套文集有五千页,希望从各个角度讨论世界各地的小说;同时,《新左评论》还约我写一篇二十页的文章,讨论世界文学。显然,要在有限的篇幅内讨论数量庞大的文学,需要一种和以往不同的方法,所以“远读”首先是为了分析海量文学或文化作品而提出的。

其次,远读是针对世界文学这个新研究对象提出的方法,在一定程度上也是认识论层面的探索。就像去博物馆看画,靠近画作和远离画作看到的内容不同,远离画作时看不到细节,但能看到整体的几何结构。远读就是这样,更注重文学中的模式,而非细节。

丁雄飞:请您举个远读的具体例子吧。远读和细读,或者说,量化研究与经典阐释之间,是什么关系?

图片

弗朗哥·莫莱蒂

莫莱蒂:远读的实践方式是多样的。比如《尤利西斯》这本书中有几章由意识流构成,我在研究时特意关注这些意识流段落的共性:有多少处意识流描写?在段落中处于什么位置?起了什么作用?通过聚焦“意识流”这一元素,我希望去把握某种更大的东西。

远读和细读是对立关系,非此即彼。同样,定量研究和阐释学也是对立的。定量研究绝对尊重数据,比如分析《尤利西斯》时,统计意识流段落的共性就必须如实计数,不改动数据;而阐释学是对数据的改造,比如我认为《尤利西斯》的意识流和意识无关,而和社会化有关。把此解读为彼,就是一种阐释方法,这和定量研究的逻辑完全不同。需要强调的是,这种对立无法形成某种综合。

丁雄飞:如今,数字人文和定量研究在全球遍地开花。回望来路,您觉得远读和量化研究的贡献和局限是什么?您退休回到欧洲后开始研究悲剧,这种转向是否也体现了您对量化研究态度的微妙变化?

图片

弗朗哥·莫莱蒂

莫莱蒂:首先,我认为量化研究是一个很好的探索方向,也提供了重要成果,比如用网络理论分析情节、对戏剧结构产生新认知、在更广阔的文学语境中理解“正典”的形成。这些成果都来自量化研究,更准确地说,是来自为了做量化研究而形成的概念建构。正是这些新的文学概念,让我们对许多传统话题有了新理解。

然而从大约十年前开始,一种不好的苗头出现了:与文学理论紧密相关的概念建构工作被抛弃了,取而代之的是极其复杂的统计分析。复杂统计本身是好的,但它不能替代文学、文化理论。现在有很多优秀的数学类文章,但其文学价值却很有限。我和这类研究拉开了距离。

丁雄飞:格非老师读过莫莱蒂教授的什么书?

图片

格非

格非:我前不久刚看完《布尔乔亚:在历史与文学之间》这本书,非常好看,触发了我很多思考。莫莱蒂教授在书中提出了一些非常重要的问题。第一,当代资本主义在全球范围内取得了巨大成功,但资本主义的主人公是谁?是否存在世俗意义上的主人公?他认为这个主人公是缺席的,如果一定要寻找,主人公既不是过去的贵族,也不是一般意义上的底层工人阶级,而是作为庞大中间群体的资产阶级市民。莫莱蒂先生用“布尔乔亚”这个概念来涵盖这个中间阶层。另外,他认为真正的主人公或许是散文。他引用了黑格尔有关“散文的心智”的论述。书中说,散文通过原因和结果、目的和手段来理解我们所面临的世界。资本主义是这样理解世界的,散文也是如此。

第二,莫莱蒂先生对小说的研究是远读视角下的历史学分析,而非新批评意义上的文本细读。他把小说放到社会变迁、历史进程以及不同文本中展开研究,其中也包含我一直以来思考的问题,比如他提到“填充物”(filler)这个概念。莫莱蒂先生认为,西方小说自十八世纪以后,尤其是1719年《鲁滨逊漂流记》问世后,才真正开始了我们今天的时代。在这类作品以及后来的现实主义、现代主义作品中,存在一个显著的变化:会话性描写开始大量增加。他把这些新增的描写称为“填充物”。

图片

格非

现代小说中为什么会有这么多“填充物”?他认为这和资本主义的内在逻辑是一致的。一方面是主客体倒置,“物”的世界开始被放大。另一方面,他认为资本主义追求的是准确性而非意义,他提出“精确性远胜于意义”的说法,这也是填充物产生的重要原因。

此外,就是“真实性”的问题。莫莱蒂先生认为,真实性被奉为小说的最高原则,评判小说的核心标准就是“是否真实”,而这种真实性与科学的要求是一致的,因为科学最强调“真”。他引用了马克斯·韦伯的话:“一个东西可以不美、不善、不够神圣,但它真。”这一点和我的个人思考不谋而合。

莫莱蒂:感谢格非老师。很高兴您对“填充物”的讨论感兴趣。作为文学教授,在授课时难免要把一本五百页的小说总结成三四个核心情节,这样一来,小说的大部分内容就被忽略了,这是我面临的现实问题。而研究“填充物”的目的,就是为了还原小说中那百分之九十九被忽视的部分,让这些平时无人谈及的内容重新被讨论。“填充物”的一大特点就是不被记住,小说用散文(prose)写成,而“prosaic”作为形容词本身就有“平庸、日常”的含义,这些散文性的内容往往无法让人留下深刻印象。当年编纂《小说》这部研究文集时,编辑团队曾讨论是否要收入《一千零一夜》。有位编者反对,理由是它的故事太精彩了,没有平淡无聊的部分,而小说需要一定的平庸感和无聊感。所以我想问格非老师,作为小说家,您是否愿意写这些无聊的内容?您希望自己的小说全程精彩,还是觉得需要保留“填充物”?

格非:我的创作过程有一个缓慢的变化,不知不觉间,我作品中的“填充物”开始显著增加。不是我刻意要写“填充物”,而是它好像自然出现了。比如《隐身衣》中就有大量“填充物”。所以我也在思考,该如何重新描述当代创作中的“填充”。我最爱的书是《左传》,许多年来反复读,从来读不厌。《左传》里没有一句废话,所有看似浅显的文字都非常深刻,每一句话都值得玩味。我对“填充物”的态度是中立的,一方面,没有“填充物”就无法完整呈现今天的社会现实;但另一方面,我也对大量“填充物”的存在感到困扰,这两者之间存在一种紧张的关系。

图片

丁雄飞

丁雄飞:我在莫莱蒂教授来中国前,把格非老师《隐身衣》的意大利文版发给他读。能说说您的读后感吗?

莫莱蒂:我非常喜欢这部小说。我的疑问是,这部作品是“长篇小说” (novel)还是“中篇小说”(novella)?这两个概念在英文里不只是篇幅差异,更是两种不同的文类。中篇小说通常只有一个核心,而长篇小说像“群岛”一样,有多个核心。您如何在文类上界定这部作品?另外,我了解到您是先锋派作家,但《隐身衣》这部小说的情节性很强。通常大家对乔伊斯这类先锋派作家的抱怨是“小说里什么都没发生”。因此作为先锋派作家,您是如何组织协调先锋派技巧与叙事情节需求的?

图片

格非

格非:我最初想把这部小说写得更短,大约是现在篇幅的一半,但写着写着,有一种莫名的力量推着我继续。莫莱蒂先生提到的“群岛”概念很符合我当时的创作状态,这部作品里涉及了很多不同的话题,创作过程中我不断扩充、重写,完全超出最初的构想。当然,从我的原始动机来说,我想把它写成一部不太长的中篇小说。

上世纪八十年代的中国带有强烈的理想主义和浪漫主义色彩,很多作家都深受西方现代主义影响,毫不避讳地说,我们当时狂热地迷恋乔伊斯、卡夫卡、福楼拜这些作家。

转折发生在九十年代初。我的一个好朋友邀请我去他家吃饭,他全程只和我谈了一件事:“你们的小说受西方现代主义影响,这没问题,但你有没有想过中国古典叙事和西方完全不同?”他给我推荐了《左传》《史记》等中国传统叙事作品,以及一些明清小说,还严肃地说:“如果你三十多岁还不关注这些,我认为是不对的。”这件事对我的影响非常大。之后很长一段时间,我开始回归中国古典叙事,这也是促成我创作转变的重要原因,比如《人面桃花》中已经有了古典叙事的影子。

我认为西方现代主义有两种不同类型,一种相对激进,比如伍尔夫、乔伊斯等,就像您说的“小说里什么都没发生”;但也有不那么激进的现代主义作家,比如我反复推荐的德国浪漫派作家克莱斯特,他只写过八篇小说,还有亨利·詹姆斯、福楼拜等等。所以在激进的现代主义、不那么激进的现代主义,以及中国传统之间,我需要做出选择。《隐身衣》和后来的很多作品都是在这几者之间权衡选择的结果。

莫莱蒂:您在写作中融合中国传统与西方现代主义传统时,最难的部分是什么?最大的困扰是什么?

格非:最难的部分是“转换”。阅读西方作品时需要经过一次转换,反过来,中国传统叙事也需要经过一次转换,而且这个转换必须由我自己完成,才能让二者在同一个层面上进行讨论。我们无法回到过去的年代,只能立足当下的社会现实、自身处境,以及全球化带来的影响,重新阐释中国传统叙事。比如我今天读《左传》,和九十年代读完全不一样,有了西方文学的大量参考和探索作为基础,再回头讨论它的叙事,情况就完全不同了。中国传统叙事和西方现代主义小说不能生硬地拼接,需要在不同语境中适当转换,才能实现真正的交流与对话。

丁雄飞:《远读》里有一章《小说:历史与理论》,对比了中西方小说。莫莱蒂老师问了一个问题:为什么小说在十八世纪的欧洲兴起,而中国却没有出现同样意义上的兴起?

莫莱蒂教授给出的解释是,中西方小说传统都很悠久,像是两个并行发展的实验室。到了《金瓶梅》时期,中国小说出现了很强的评点传统,他认为这体现了一种审美转向。当时中国人读小说带着审美化、诗化的视角,而欧洲小说的审美转向要到十九世纪末才出现,比中国晚了三百年。他还认为,十八世纪欧洲小说的兴起与消费社会有关,当时小说印刷数量大幅增长,但人口并没有增长那么多。于是,人们只会泛读小说。这形成了一个悖论:小说变多了,人们的注意力却变少了。而同一时期的中国小说,在某种意义上说是作为审美对象被阅读的。格非老师,您怎么看这个论述?莫莱蒂教授,您是否仍然坚持这个判断?

图片

弗朗哥·莫莱蒂

莫莱蒂:我坚持。我当时在美国的学术会议上提出这个观点时,美国学者对中国传统小说和欧洲小说是“不同物种”的说法难以接受。但又没有人能说服我改变看法。我想,至少文化物种的多样性对地球和人类文化是好事。当然,我可能是错的。

格非:这是个很有意思的观点,我也同意。我读《左传》时,会在某一瞬间觉得它非常现代,因为里面写的全是秘密,直接呈现出来的内容反而没那么重要。德勒兹评价亨利·詹姆斯时说过一句话:“他一辈子都在写秘密。”《左传》《史记》也是如此,呈现的部分是为了让读者理解隐藏在背后的内容,这就是中国叙事的重要特点,作家似乎忙着“藏”,而非“显”。这种特点在中国叙事中非常早熟,而大概要到十九世纪以后才成为西方现代主义文学的重要特征。

莫莱蒂:我读的中国小说不多,主要有《红楼梦》《金瓶梅》,还有一部分《三国演义》。这些中国小说中存在审美对象,或者说“美”的概念,而且这种特质在中国出现得比西方早得多。另外,中国小说有大量评点,中国人把读小说当成一件严肃的事情,而直到十九世纪末,西方的人们才开始严肃地对待小说。

分享一个故事。1971年,我参加了一场英国文学考试,其中有一道题是“乔治·艾略特对小说的贡献是什么”,我写了很多答案都被老师否定了。最后的答案是:“乔治·艾略特的贡献,是把小说变成了一件艺术作品。”——这发生在十九世纪七十年代,而中国小说完成这种转变的时间要早得多。

格非:这种观点在中国现代作家中很普遍。比如四川作家李劼人有一个观点能和莫莱蒂先生相互印证:像《金瓶梅》,甚至《水浒传》《红楼梦》这样的作品,西方要一直等到托尔斯泰、司汤达等大师出现,才有资格与之相提并论。

丁雄飞:我们来聊聊《现代史诗》。请教莫莱蒂教授:这本书在您所有作品中的定位是什么?这是您赴美后出版的第一部作品,其中已经非常娴熟地用进化论来讨论文学形式的变迁。

莫莱蒂:这本书的最终形态和我最初的构想很不一样。我一开始想写二十世纪初的先锋文学,重点讨论《尤利西斯》等作品。后来我发现,《尤利西斯》之于二十世纪的意义,相当于《浮士德》之于十九世纪的意义。于是我猜想,从《浮士德》到《尤利西斯》,可能构成一种特殊的“文类”。这类作品的共同特点在于,它们在一部作品中讨论整个世界。传统史诗关注民族,而这类作品则关注世界。有一次我听瓦格纳的歌剧时,突然觉得瓦格纳的歌剧也在尝试构建整个世界,所以我把瓦格纳也纳入了《现代史诗》的范畴。

在一本书里书写整个世界,本身就是不可能的事,所以无论是《浮士德》《尤利西斯》,还是瓦格纳的歌剧,这些作品都存在很多缺陷,篇幅冗长、部分内容枯燥、质量参差不齐。历来的批评家都知道这些问题,也对此感到不适,但我觉得这是为了再现世界所必须付出的代价。世界本身就是不完美的,充满不平等和斗争,所以试图再现世界的作品自然也会有缺陷。或许所有文学形式本质上都是有缺陷的,而研究文学形式的真正难点,不是发现其中的重复模式,而是理解什么不在这些模式之中,这才是最有挑战性的部分。

格非:我想请教莫莱蒂先生一个问题。您刚才提到乔伊斯的作品以整个世界为描述对象。您是否关注过“叙事速度”这个概念?它在您所研究的小说中是如何演变的?比如乔伊斯的作品,从表面情节看似乎是停滞的,因为他会把想象中的内容、各种语言文化元素都拉扯进来。但我认为,这体现了一种无与伦比的速度,因为它可以在任何一个点与世界建立连接,不再遵循古典小说或戏剧的线性逻辑。这种叙事速度的变化在十八、十九世纪以来的作品中非常明显,我认为和资本主义世界的“加速主义”变化是相关联的。您对这个问题怎么看?

莫莱蒂:乔伊斯作品中的加速感非常明显。一开始读,你会觉得它是一部关于小说本身的作品,聚焦个体心理、意识流、前意识等内容。但随着章节推进,它逐渐变成体制化语言的小说。因此,这部小说在风格上浓缩了西方资本主义近一百年的发展历程,这是一种非凡的“加速”。

丁雄飞:《现代史诗》里一个贯穿始终的形式线索是“复调”。格非老师,您的创作,比如《江南三部曲》里,有没有复调?

格非:我们在八九十年代或多或少都关注过“复调”的问题,包括巴赫金讨论的陀思妥耶夫斯基的复调,米兰·昆德拉也在他的小说中尝试用复调结构创作。我当然也关注过复调,尤其是陀思妥耶夫斯基在《卡拉马佐夫兄弟》等作品中呈现了复杂多声部,以及不同声部之间的关联。但现在我对复调已经没有那么关心了,因为现代小说已经提供了足够多的创作方法。我们可以直接进行文本意义的生成,自由表达不同的声音、场景和想法,已经不依赖复调这种结构性的东西来呈现了。

图片

活动现场

撰稿|庞雅文

摄影|陈榆菲

编辑|周正颜

阅读原文

跳转微信打开

会议预通知丨2026年首届大学生国际数字人文节(IDHFUS 2026)

2026年4月21日 09:01

RUC信息资源管理 2026-04-21 09:01 北京

以下文章来源于:RUC信息资源管理学院

RUC信息资源管理学院

中国人民大学信息资源管理学院官方微信平台,发布学院动态,致力于为每一个信管人构建与学院沟通的桥梁。

2026年9月18日—9月20日,中国人民大学

数字技术正以前所未有的力量重塑人类文明的记忆与表达。从古籍善本的数字复原到非物质文化遗产的交互再现,从海量历史数据的智能挖掘到跨文化叙事的可视化构建——数字人文正成为这个时代最富活力的交叉学科之一。

如果你对技术与人文的碰撞充满好奇,如果你有一个关于文化遗产、历史记忆或人文数据的创意构想,首届大学生国际数字人文节(IDHFUS 2026)正是为你而来!

为响应国家文化数字化战略,促进全球青年在数字人文领域的深度交流与创新实践,中国人民大学信息资源管理学院与数字人文研究院将于2026年9月18日至20日在中国人民大学中关村校区举办本次盛会。我们诚邀全球在校大学生携作品参展,同时欢迎青年教师、研究人员及数字人文相关行业专家参会交流,共同探索数字文明的无限可能。

组织单位

主办单位:

中国人民大学信息资源管理学院

中国人民大学数字人文研究院

指导单位:

世界顶级信息学院联盟(iSchools联盟)  

世界绿色设计组织(WGDO)

亚太数字人文教育协作委员会

国家文化科技创新服务联盟  

(指导单位持续更新中)

活动安排

时间

2026年9月18日—9月20日

地点

中国人民大学中关村校区(北京)

语言

官方语言为中英双语

参与对象

本次活动开放两类参与方式:

参展者:

全球在校大学生(个人或团队均可),   提交数字人文相关作品参加展览与评奖。

参会者:

青年教师、研究人员及数字人文相关行业专家,欢迎莅临交流。

参展要求

作品形式

参展作品须具备数字人文属性,鼓励提交以下类型的数字作品:

1. 数据可视化成果、扩展现实(XR)作品、交互式网站或应用

2. 数据集、软件工具、动画、游戏、视频等数字创作

语言要求

参展作品须以中文或英文呈现。为便于国际交流,所有作品(无论中英文)均须同时提交一份300字以内的英文摘要。

 基本规范

参展作品须为原创,内容健康积极,遵守中国及作者所在国家(地区)相关法律法规,须随附一份简短的AI使用说明,参考格式如下:

是否使用AI: 是 / 否

使用环节与工具:(例:用ChatGPT翻译英文摘要 / 用Midjourney生成配图 / 用Python+AI库辅助数据清洗)

人工贡献确认:本人保证核心观点、史料分析及最终结论均由本人完成,未由AI直接生成。

赛道设置

参展者可选择以下任一赛道:

赛道1:自选主题(围绕“遗产·记忆·视界”自由创作)

赛道2:(企事业单位命题赛道,待发布)

赛道3:(企事业单位命题赛道,待发布)

获奖权益

本次活动设有多项奖项,评委团由全球知名数字人文专家学者组成,为获奖作品颁发获奖证书。其它获奖权益如下:

1

奖金支持:评选设置奖金奖励

2

专业资源:专业工具授权与算力资源支持

3

专家辅导:学术+技术专家一对一指导深度打磨作品

4

专家辅导:学术+技术专家一对一指导深度打磨作品

5

成果转化:对接文化数字化落地场景与成果孵化平台

6

案例入库:优秀获奖作品将纳入数字人文优秀案例库

7

学术发表:优秀获奖作品的相关研究论文将在《数字人文研究》期刊发表

学术期刊支持单位

《数字人文研究》

(更多支持单位持续征集中)

重要时间节点

作品提交及挑战赛报名截止

2026年7月20日

早鸟报名截止(优惠票)

2026年8月20日

普通参会报名截止

2026年9月8日

活动举办

2026年9月18日

—9月20日

初步日程安排

时间

安排

9月18日

开幕式及主旨报告;

数字记忆联盟成立大会

及联盟成员项目展演;

工作坊1;闭门会;学生作品展

9月19日

工作坊2;

数字人文实验室开放日;

青年沙龙;学生作品展

9月20日

闭幕式及颁奖典礼

学生作品展

详细议程见正式通知

联系方式

联系人:胡老师

联系电话:13021941288

电子邮箱:(详见正式通知)

官方网站:(详见正式通知)

数字人文不仅是技术与人文的简单相遇,更是一代青年对文明传承与创新使命的主动回应。期待与你相聚北京,共赴这场数字人文的国际盛会!

中国人民大学信息资源管理学院

中国人民大学数字人文研究院

2026年4月

排版:欧阳振伟

初审:任明

核发:韩曙光 闫慧

阅读原文

跳转微信打开

批判性数字人文|机器学习时代的代码认识论

2026年4月20日 11:40

DHLR Ray编 2026-04-20 11:40 北京

以下文章来源于:左手数字右手人文

左手数字右手人文

About Digital Humanities, what is right and what is left. 分享全球数字人文相关学术论文译文、会议通知等资讯内容。

随着全局优化与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识

栏目简介:批判性数字人文(Critical Digital Humanities, CDH),通常指的是在数字人文基础上,引入批判理论、社会理论、后殖民研究、性别研究、媒介研究、科技社会学等视角,对“数字技术如何介入知识生产、文化记忆、权力结构与社会不平等”进行反思性研究的方向。


The Epistemology of Code in the Age of Machine Learning

机器学习时代的代码认识论

DOI:https://doi.org/10.63744/mtgy4d9qn78k

作者: Evan Buswell

期刊: Digital Humanities Quarterly (DHQ)  Volume 20 Number 4, 2026

作者 Evan Buswell 是一位独立学者及软件工程师,博士毕业于加州大学戴维斯分校,从事人工智能研究。其研究横跨计算机科学、数字人文与批判性理论。他关注计算机技术的历史演变及其背后的哲学意涵,特别是计算架构如何塑造人类对知识的认知。

1. 摘要

代码是一种以“压制状态”(Repression of state)为前提的认识系统。然而,随着全局优化(Global optimization)与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识。代码的形成回应了二十世纪知识型(Episteme)的两个特征:其一,知识被表征为一种过程(Process);其二,这种表征必须是自足的,即其意义由表征形式本身构成。代码与状态虽存在关联,但为了将代码建构为认识论对象,状态被持续限制与压制。这一建构始于1940年代代码的最初形成,并在1960年代末结构化编程运动中达到现代形态。然而如今,随着全局优化和机器学习算法在计算领域日益占据主导地位,状态的关键重要性已无可回避,而我们理解状态的工具却极为匮乏。这一认识论困境反而为那些罔顾后果、规避责任的行为者提供了庇护。

2. 文章内容

本文从科学技术研究(STS)与批判性代码研究的视角,追溯"代码"概念的历史形成,论证代码与状态的分离并非中立的技术选择,而是特定历史认识型的产物。

作者将论证分为三个层次展开:

  • 代码作为认识论对象:代码诞生于一种将知识理解为"过程"的知识型(约形成于1930年代)。在这一认识型中,意义的合法性来自符号系统内部的自足性,而非外部指涉。代码因此被要求不仅描述算法,更要"实例化"算法本身。然而这一要求内含矛盾——动态过程无法被静态文本完整构成,由此产生了代码与状态的结构性分裂。

  • 状态的压制史:作者通过对早期计算机代码的细读,追踪这一分裂的具体历史轨迹:从Mark I的系统性路由范式,到ENIAC的时序化结构,再到EDSAC条件跳转指令的出现,最终经由Fortran、ALGOL等语言演进,抵达1960年代结构化编程运动对GO TO语句的驱逐。每一次编程范式的更迭,本质上都是将状态进一步压入不可见的角落——先是隐入符号地址,再是隐入语法结构,最终隐入状态变量。

  • 机器学习与认识论危机:全局优化算法的兴起使上述压制走向历史性破产。这类算法在数学意义上已知其效果依赖于代码与状态的内在关系,然而代码范式依然将状态处理为非认识论对象。"黑箱"的比喻并非描述技术限制,而是这一历史性压制的文化症状。更危险的是,状态的不可知性正在成为资本与权力规避责任的结构性工具——算法推荐系统、自动驾驶责任归咎,莫不如此。

3. 理论框架与方法论

本文方法论融合批判性代码研究(critical code studies)的文本细读传统与知识考古学式的历史分析。作者并置不同历史时期的代码片段(EDSAC、A-2、Fortran、ALGOL等),通过比较性近读(comparative close reading)追踪条件跳转指令的语法演变,将技术史细节与认识论命题直接挂钩——这是本文方法论上最具说服力之处。

论证结构遵循一条清晰的辩证线索:外部化—压制—压抑物的回归—新形式的再压制,并以全局优化算法作为当下历史节点,将这一循环推至其内在矛盾最为显露的临界时刻。引入"无免费午餐"定理,使技术论证与认识论批判形成精准呼应,避免了此类研究常见的泛泛而论。

简  评

对于从事AI认识论、数字人文与STS研究的读者而言,这篇文章提供了一个罕见的分析框架:它拒绝将"黑箱问题"处理为机器学习的技术局限,而将其还原为一段有据可查的观念史。这种将代码语法演变与权力/责任问题直接相连的论证路径,对于思考AI治理的文化与语言基础尤具启发性。

看到这篇文章的时候,就不得不想起本杰明·M·施密特在2016年发表的本杰明·M·施密特《数字人文主义者需要了解算法吗?》(2016)。这两篇文章之间构成了一种跨越十年的“互文”关系,像同一个认识论困境的两个不同截面——施密特从实践层面发现了症状,Buswell从历史层面追溯了病因。如果说施密特的核心诊断是:数字人文学者把算法当黑箱,满足于用经验性测试("符不符合常识")来评估工具,却没有去理解算法背后的转换逻辑。他的药方是:不需要懂算法的实现细节,但必须懂它试图做什么——也就是理解 "transformation" 而非 "algorithm" 。Buswell的回答实际上是:施密特说得对,但他没有问为什么黑箱会存在。答案是:黑箱不是技术局限,而是代码范式的历史性产物。Buswell通过对计算机史的详细考据,在认识论层面指出,在机器学习与全局优化算法主导的今天,施密特所寄望的那种“可理解的转换”的认识论就随之坍塌。

文章对中文语境同样具有延伸价值:中文对"代码"与"状态"的概念处理方式是否内嵌了不同的认识论预设?在"算法黑箱"的本土讨论中,状态的不可知性是否同样承担了类似的责任规避功能?这些问题值得进一步探究。

撰文、编辑:丁怡瑞(剑桥大学数字人文系硕士研究生)

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

段玉裁《说文解字注》知识库的构建与应用

2026年4月16日 19:30

原创 沈小妮  等 2026-04-16 19:30 北京

段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:沈小妮,彭炜明,胡佳佳.段玉裁《说文解字注》知识库的构建与应用[J].数字人文研究,2025,5(4):68-83.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

段玉裁《说文解字注》知识库的构建与应用

沈小妮  彭炜明  胡佳佳

摘   要:段玉裁《说文解字注》是“说文学”研究的巅峰之作,集中体现了乾嘉学派的学术成就。当前有关《说文解字注》的数字化工作多停留于文本化阶段,尚未实现对其知识体系的深度挖掘与系统呈现。研究以《说文解字注》及其稿本《说文解字读》为底本构建知识库,设计了涵盖五大知识范畴、十个知识集、五十六个知识点的三层分类体系,完成了数万条知识实例的标注与结构化表示;在此基础上,开发了具备原文检索、知识导览与标注管理功能的交互式平台;并以对段玉裁的谐声归部研究为例,验证了知识库的应用潜力。这是数字人文方法在传统语言文字学领域的一次系统实践,为古籍深度数字化与人文研究范式创新提供了重要参考。

关键词:段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

作者简介:沈小妮,北京师范大学第二附属中学语文教师; 彭炜明,北京师范大学汉字汉语研究与社会应用实验室研究人员; 胡佳佳(通讯作者),北京师范大学文学院副教授,hjj81@126.com。

0

引 言

2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,再次强调推进古籍的数字化工作,“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级”。在我国古典目录学的著录中,有一类被系统归为“小学”类的特殊文献,即中国传统的语言文字学著作。“中国的传统语言学因为负载着三千年的文化信息,包涵着中华民族的世界观、价值观、民族观,所以,它不仅是一种学术资源,而且是一种知识资源;不仅是一种知识资源,而且是一种人文资源,一种道德资源。” 《说文解字》(以下称《说文》)是中国传统语言文字学最重要的著作。黄侃谓治“小学”须读十部书,而“《说文》一书,于小学实主中之主也”。段玉裁的《说文解字注》(以下称《段注》)是《说文》研究著作中最重要的一本,也是中国传统语言文字研究巅峰——乾嘉学术的代表。段氏的卓越成就,“不仅在于他‘究其微恉,通其大例’,对许书做了细密全面的校勘整理,更在于他通过对许书的注释,提出并初步解决了一系列有关汉语音韵学、文字学、词汇学、训诂学的重大问题,他能初步运用历史发展的观点和一些科学的方法来研究语言现象。换言之,他使《说文解字》的研究,从纯粹校订、考证的旧框子里解放出来,在某种意义上走上了科学语言学的轨道”。

在建设中国特色哲学社会科学学术体系的今天,系统梳理和总结以《段注》为代表的中国传统语言学研究高峰的学术思想与方法论,对总结和升华中国特色的语言文字学原创理论,具有特别重要的意义。从清代到当代,对《段注》的研究一直持续不断,但进入21世纪之后,研究成果却并没有极大丰富,对《段注》挖掘的广度与深度也不够充分。《段注》体大思精,其深刻的思想与科学的方法是散布在丰富的注释中的。《段注》知识库的建设,旨在将这些散布的知识与前人对《段注》的研究结合起来,通过多维联系来展现和揭示其中蕴含的科学内涵,辅助研究者从中提炼出具有现代价值的理论范式,实现对传统学术资源的创造性转化;为构建具有中国特色的理论体系提供重要的数字化研究资源和技术支撑。

目前对于《段注》的数字化工作大多仍处于影像化与文本化的阶段。如国家图书馆建设的中国古籍资源库(http://read.nlc.cn/thematDataSearch/toGujiIndex)里汇聚了多个古籍版本的《段注》高清数字影像;北京时代瀚堂科技有限公司的瀚堂典藏库(https://www.hytung.cn/)提供了经韵楼本《段注》的数字化文本和影像,可以进行字头与全文的字符串检索。北京师范大学的《说文解字》研究与应用平台(https//szsw.bnu.edu.cn),则在影像化和文本化的基础上,对《说文》小篆的形音义知识点进行了提取和结构化存储(如部首、义符、声符……)。我们把这种将知识点单独提取后再进行结构化存储的数据库称作知识库。与之前仅包含了影像、文本、著述信息与目录的古籍数据库不同,知识库是对古籍数字资源的更深层次和更细粒度的加工,它包含了根据前人研究,从原典中抽取、提炼出的具有意义的独立的知识成果,并按照一定的逻辑体系进行关联和组织,从而实现对原典内容的理解、重组和再造。如图 1所示,由于此平台提取和存储了《说文》关于每个小篆构形直接构件的知识点,用户就可以直接搜索到《说文》中以“七”为直接构件的所有小篆,这实际上就是平台为用户提供了关于小篆构形的知识服务。该平台同时提供了上海古籍出版社影印的经韵楼本《段注》的数字影像与文本,也涉及到《段注》个别知识点的提取,如为每个字头标注了段玉裁的古音归部。

图1 北师大《说文解字》研究与应用平台应用示例

知识库的构建是在平台已有《段注》文本与个别知识点的基础上,聚焦《段注》全体系知识点的系统提取与深度标注,最终构建的《段注》知识库具备双重应用价值——既可独立开发为专用应用平台(详见下文),也能作为《说文》研究的资源,通过对应字头链接至该平台的相关说解部分,为使用者提供更为精准的知识服务。

图2呈现了构建《段注》知识库与开发应用平台的实施路线图。本文第1、第2部分将围绕此路线图展开具体论述,第3部分则结合一个基于该知识库及平台的研究实例,进一步说明其应用价值。

图2《段注》知识库构件与应用平台开发实施路线图

1

《段注》知识库的构建

1.1  文本的数字化与结构化

知识库的构建首先还是需要文本的数字化。文本数字化的第一步则是选择合适的底本。段玉裁注《说文》,经历了长达近四十年的准备、撰写和修订,终于嘉庆二十年(1815)全部刊刻完成,是为经韵楼刻本。“除《清经解》所收的少数本子是重排本外,其余都是经韵楼本的复刻本,不但内容相同,每页的行数、起迄字也都相同。”  段氏自己曾在《段注》中提及,著此书前,先有长编《说文解字读》(以下称《说文读》),始为五百四十卷,既乃檃括成《注》。今北京图书馆藏有《说文读》抄本残卷七册(一至六,八),经朱小健、张和生整理,于1995年由北京师范大学出版社影印刊行[7]。尽管残缺,但它对于研究段玉裁的学术思想、《段注》的形成过程以及清代小学方法都具有极高的价值。

因此,用于知识库构建的基础文本有两种:一是上海古籍出版社1988年影印经韵楼本《段注》,二是北京师范大学出版社1995年出版的《说文读》。对于数字化后的文本,则采用关系数据库技术进行结构化存储。基于《段注》的特点,分卷、部首、字头三层设计数字化文本结构。卷表(Volume)(表1)关注《段注》的卷次结构。部首表(Radical)(表2)聚焦于《说文》部首,全书总计540个部首,每个部首分布于特定卷中,并统领若干字头。字头表是《段注》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。由于《说文》字头有正篆(位于每条说解之首的字形)和重文(位于每条说解之末的字形)之分,而《段注》亦对书中的重文进行了注释,所以字头表分正篆表(表3)和重文表(表4),两张表的字段类型基本相同。但重文表中包含对应正篆字段,以标示正篆与其重文的对应关系。

《说文读》与《段注》体例不同,是札记性质的,属于段玉裁长期研读《说文》心得的汇总。它不是依《说文》逐字做注,故多有未注之字,也有重出之字。行文格式上,低一格抄录许书正篆及说解全文,也有仅出重文;字头皆以楷书录之,但也存有篆书的情况,另起顶格作注;论及一字古音尚未使用古韵十七部,而是标以古韵韵目,但也有例外。《说文读》的结构亦分卷、部首、字头三个层次。卷表(du_volume)和部首表(du_radical)字段保持不变。字头表是《说文读》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。

两书字头之间的对应关系,通过《读》《注》关系(duzhu_relation)表(表5)的两个外键来实现。其中,“duanzhu_id”实现两书字头的对应关系,以便从《说文读》直接链接到《段注》的相应解释,进行文本比较。

1.2 《段注》知识体系的建构

不同领域的知识要素和结构各不相同。《段注》自成体系,在注释《说文》时采用了很多的术语与条例,如“浑言析言”“古今字”等,集中体现段玉裁的学术思想和理论,也是本研究要提取的“知识点”。具体操作上,我们选取《段注》研究专著中形成共识的术语条例 ,以《传统语言学辞典》中关于段玉裁的术语为补充,选择实例数超过十条的知识点,并按照传统语言文字学的研究框架,构建了含文字、训诂、音韵、校勘和引书五大知识范畴、十个知识集、五十六个知识点的三级分类知识体系(见表6)。

需要说明的是,本研究将《段注》知识点分为五大范畴,主要出于系统整理的需要,并非意味着知识点之间存在不可逾越的界限,例如“双声”“叠韵”属于训诂学中的声训术语,但是也体现了音韵学研究的内容;“音义同”包含训诂和音韵两个角度的内容。 范畴之间的交叉渗透,也体现了段氏综合形、音、义注解《说文》的特点。

1.3 《段注》知识点实例的提取

创建好知识分类体系,就可以逐个开展各知识点实例的提取工作了。《段注》中的知识点实例一般都存在形式化的术语,譬如,段氏谈论“引申”的术语有:“引申(引伸)、因、故、因之、因以为、故以为、引申(伸)假(叚)借、引申......凡、义之相因” 。这就便于采取正则表达式进行匹配提取后再进行人工校对与补充、完善(详见图 2知识提取部分)。《段注》中一个字头下的文本中可能蕴含多个知识点实例,而一类知识点可能在多个字头下文本中都有体现,如图 3所示。甚至在一个字头下的注释中包含了另一个字头的知识点。如:

“艸,百卉也。”卉下曰:“艸之总名也。”是谓转注。二屮、三屮,一也。引伸为艸稿、艸具之艸。“从二屮。”仓老切。古音在三部。俗以草为艸。乃别以皁为草。凡艸之属皆从艸。(《段注·艸部·艸》)

段氏在“艸”字下的注释就涉及转注、引申、古音、俗字等多个知识点,其中俗字知识点实例,还涉及到字头“草”。这就要求合理设计知识库的存储结构。

图3 《段注》文本与知识点及其实例的关系

1.4 《段注》知识库的结构

在知识库的实际构建中,我们采用关系数据库来存储知识体系与知识点实例。表6中的知识点范畴、知识集和知识点可以看作一套有层级的分类标签,这些标签间的层级关系就存储在知识体系表(Knowledge)中(表7)。“parent_id”是标识知识点层级结构的关键字段,通过外键约束机制与该表的“tag_id”字段形成自反引用关系,从而可以表示树状的分类模型。该字段在层级结构中的具体表现为:

第一层级,知识范畴(如“文字类”)的“parent_id”设为 NULL,作为根节点存在;

第二层级,知识集(如“六书”)通过“parent_id”指向其所属顶级分类的“tag_id”;

第三层级,知识点(如“象形”)则通过“parent_id”关联对应的二级分类“tag_id”。

除根节点外,每个知识节点必须有一个唯一的父节点(“parent_id”),形成“知识范畴→知识集→知识点”的严格层级架构。该设计方便数据更新和管理,当删除父标签时数据库会自动删除所有子标签;更新父标签ID时,相关引用自动更新。

在知识库中,每个知识点都有一张对应的实例表,存储所提取的该知识点的实例。根据实例所关联的对象类型,我们将知识点分为两类,不同类型的知识点实例在知识库中也采用不同的结构表示。

(1)单对象描述型知识点,内容仅涉及段玉裁对单个对象的特征、属性、状态的具体描述。“韵部”“构意”等均为此类。如“韵部”知识点实例“莹”的韵部是“十一部”,“构意”知识点实例“”的“构意”描述为“有物在一之下也”。对于此类知识点,实例表结构如表8所示。

(2)多对象关系型知识点,内容涉及对两个或多个对象(字头)间关系的描述,“音义同”“行废字”“古今字”“之言”等属此类。如段氏在“枼”字下注“叶与世音义俱相通”,表述了“叶”“世”两个词的“音近义通”的关系,属于“音义同”知识点实例;在“丕”字下注“故古多用不为丕”,沟通了“不”和“丕”的古今使用关系,属于“古今字”知识点实例。对于此类知识点,除了表8中的三个核心字段外,还增设了“对象1”(duixiang1)和“对象2”(duixiang2)两个字段,来表示对象间的关系(三个以上的对象关系则拆解为两两关系),如表9所示。

2

《段注》知识库应用平台的开发

《段注》知识库建设的目标在于促进学术资源的共享,以数字化技术赋能传统学术研究。为此,我们开发了一个交互式的《段注》知识库应用平台,提供三大功能模块:(1) 原文阅读与检索,(2)知识导览与检索,(3)知识标注与管理

2.1 原文阅读与检索

“原文阅读与检索”模块提供了两类检索:“字头检索”与“全文检索”。“字头检索”允许用户通过楷字搜索《段注》和《说文读》中的正篆或重文字头,检索结果是匹配到的字头及字头下的许氏说解(大字显示)和段氏注释(小字显示),见图4。“全文检索”允许用户在包括字头、说解和注释的全部文本内容中搜索字符或字符组合,检索结果是包含匹配内容的字头及字头下的说解和注释,并对匹配内容进行了高亮显示,见图5。点击检索结果中的字头,会跳转到该字头的原文阅读页面,见图6。

图 4  字头检索结果页面

原文阅读页面采取三栏式布局(图6)。页面左侧是目录区域,遵循原书结构,以“卷—部—字”为三级树形导航结构,使用户能够快速定位跳转至目标字头。中间的文本展示区,包含字头、字形、《段注》、《说文读》等信息,并提供高清原图链接。右侧的知识索引区,分为“文字”“音韵”“训诂”“校勘”“引书”五大类,呈现《段注》中该字头下的知识点实例。页面顶部也提供了便捷的检索框,输入内容后,直接重新搜索。

图 5 全文检索结果页面

图 6 原文阅读页面

2.2  知识导览与检索

“知识导览与检索”模块页面下方是整理的《段注》三层分类知识体系。段玉裁在注释《说文》时,可能有不同的用语来描述相同的语言现象;我们则在每组表达相同语言现象的用语中选择一个代表形式作为知识点的名称,而将其他用语作为其同义关联项。页面上方搜索框,可以帮助用户通过模糊的用语关联到对应的知识点。如,在搜索框键入“因”,用语中可能包含“因”的知识点(包括其解释和关联用语)会在页面底部出现(图7)。点击搜索结果,可以进入知识导览页面,并定位到该知识点(图8)。

图 7  知识检索结果页面示例

图8  知识导览页面示例(单对象描述性知识点)

       知识导览页面同样采用三栏式布局(图8)。左侧导航区采用“知识范畴—知识集—知识点”三级目录结构,通过渐进式交互,帮助用户定位知识点。中间区域,呈现该知识点的具体实例。实例的呈现是以字头为单位的,内容包括字头下的许氏说解(大字显示)和段氏注释(小字显示),注释中与知识点匹配的内容以红色突出显示。对于多对象关系型知识点,还会呈现与之相关联的字头信息(图9)。右侧是知识点说明,提供概念说明以及相关研究文献的索引。

图9 知识导览页面示例(多对象关系性知识点)

说明:此处,页面内容显示的是“音义同”知识点。段玉裁在“皋”字下注释“葢古告皋嗥號四字音義皆同。”在知识点实例中,就存储了“告—皋”“告—嗥”“告—號”三组对象关系型实例。因此,在“告”字下,还显示与其“音义同”的“皋”“嗥”“號”三字。

2.2 知识标注与管理

“知识管理与标注”提供了三个功能:知识点的修改、知识点的增加和知识点实例的标注(图10)。点击“管理知识点”按钮,进入知识点修改功能,选择待修改的知识点,弹出对话框,可以修改该知识点所属的范畴(每一个知识范畴对应的知识集保持不变)和实例类型(图11)。点击“新增知识点”按钮,弹出对话框,可以添加新增知识点的各种属性(图12)。点击“开始标注”按钮,进入知识点实例标注功能。

图10  知识管理与标注页面

图11  修改知识点功能

图12  新增知识点功能

知识标注页面也是三栏式布局。左侧顶部检索框支持关键词或正则表达式检索,可以搜索注文中包含特定用语的字头。点击字头,中间栏显示该字头下的原文。对于单对象描述型知识点,可以选择相应的文字复制到右侧标注工作区的知识描述框,保存标注后,添加为该知识点的一个新增实例(图13);对于多对象关系型知识点,还增加了对象组管理框,用以添加符合关系的对象组(图14),对象组是两两添加的,如果遇到三个或三个以上的对象关系,可以通过“新增对象组”利用将其分解为两两关系进行添加。

图13  知识标注页面(单对象描述型知识点)

图14  知识标注页面(多对象关系型知识点)

3

《段注》知识库应用举例

基于构建的《段注》知识库与应用平台,通过知识点间的关联与比照,可以系统展现段玉裁的研究成果,深入挖掘蕴含的学术思想。

以段玉裁的谐声归部为例。在完成了《段注》字头古韵归部与形声字声符的知识点标注后,我们将《段注》中所有形声字按其声符归入其所属的谐声系中,每一谐声系以“声首”为代表。如“照”的声符是“昭”;“昭”的声符是“召”;“召”的声符是“刀”;“刀”是一个非形声字,没有声符了,它就是“召”“昭”“照”的声首。以“刀”为直接声符(如“召”)或间接声符(如“昭”“照”)的所有形声字就构成了一个以“刀”为“声首”的谐声系,这个谐声系是有层次的。将“声首”按所属的古音韵部(即段玉裁的第一至十七部)进行排列,每个声首下按其声符层次展现谐声字,并在与“声首”不同韵部的谐声字后以括号标注其所属韵部(没有标注的谐声字与“声首”的韵部相同),这样就可以一览每个谐声系中的古韵韵部分布,如图15所示。

图 15 《段注》谐声系中韵部分布示例

说明:在《六书音韵表·古十七部谐声表》中,段玉裁将“求”放在第三部,以“求”为声符的形声字都被段玉裁归入第三部,但“求”字是被归入第一部的。此处根据“声首”韵部排列谐声系中,将其排在第一部中。

通过谐声系内韵部间的合韵次数计算,可以绘制出《段注》谐声偏旁分部互用的合韵热力矩阵(见图16)。段玉裁合韵说解释的是“音值相近的韵部,在古人用韵、文字使用、语词派生等方面会经常发生相通”的情况。此处计算的谐声系内韵部间的合韵次数是指谐声字与其声所属韵部不同的情况,如“弭”在第一部,以“弭”为声符的谐声字“麛”在十六部,则第一部与第十六部算作合韵一次。图16 矩阵中的数值就表示对应行、列所代表的韵部在谐声网络中发生合韵的次数,是一个沿主对角线对称的矩阵,次数越多,颜色越深。

段玉裁是第一个打破《广韵》次第,按古音远近关系排列韵部次序的。两个韵部之间的合韵的次数越多,则古音就可能就越相近,越应该相邻排列。反映在图16中,合韵次数多的颜色较深的区域就主要集中在主对角线的两侧,可见段氏古音框架构建的科学性。其中比较特殊的是第一部与第二部,第五部和第六部,第八部与第九部,虽然相邻,但几乎不发生合韵。段玉裁在《古十七部分合用类分表》中,将十七部分为六类(第一部为第一类;第二部至第五部为第二类,第六部至第八部为第三类,第九部至第十一部为第四类,第十二部至第十四部为第五类,第十五部至第十七部为第六类),各大类的区分主要以同韵尾为标准。其中第一和第二部第五和第六部,第八和第九部就是前四类的分界。合韵次数最多的是第十五和第十六部,第十二和第十三部,第十四部和十五部,第七和第八部。

段氏的十五部和十六部就是被钱大昕赞誉为“凿破混沌”的“支之脂三分”中的“脂”部和“支”部,一部则为“之”部。戴震对段氏“支脂之三分”的发现也是赞不绝口,认为“此说为确论”,但同时认为“支”“脂”“之”三部应该放在一起,不应“之”部列第一,而“脂”“支”远在第十五部和第十六部。从图16数据来看,第一部和第十五部、第十六部合韵次数均较少。第十二部和十三部则对应段氏古韵分部的另一贡献“真文分部”中的“真”部和“文”部。江有诰评价“真文分部”时说道:“段氏之分真、文,人皆疑之,有诰初亦不之信也,细抽绎之,真与耕通用为多,文与元合用较广,此真、文之界限也。”其中与“真”通用为多的“耕”部就是段氏第十一部,而与“元”合用为广的“文”部则是段氏第十四部,江有诰之说也可以从图16中得到验证。第七部和第八部则是十七部中唯二的收唇韵,以-m、-p为韵尾。十七部中与其他韵部发生合韵最多的是第十五部(每行合韵次数相加),这与段氏对第十五部的界分过宽有关。在段氏的异平同入框架下,第十五部是包含入声韵的,且第十三部和第十四部皆以十五部之入为入。

图16 《段注》谐声偏旁分部互用的合韵热力矩阵

前人关于段玉裁谐声归部的研究主要集中于三个方面:一,《段注》字下所注韵部与《六书音韵表》的差异比较,如周祖谟、何九盈等;二,段氏对谐声字古音归部的处理原则与方法,如刘忠华;三,“谐声偏旁分别部居”所体现的韵部间的远近关系,如郭必之。较全面的研究有张道俊的《<说文解字注>古韵订补》与《<说文解字注>古韵归部》,前者对《段注》中韵部未标、错标以及游移字的情况进行了订补校勘;后者通过对比,探讨了段氏古音归部的依据以及归部标准的变化。

《段注》知识库的构建,不仅可以贮存前人的研究成果,还可以推动相关研究路径的三重突破:其一,支持对段氏谐声归部体系的系统性检验,通过批量比对与统计分析,揭示其内在逻辑与潜在矛盾;其二,借助关联查询与可视化技术,为其理论与方法提供直观的数据支撑;其三,知识库的开放性与可扩展性,有利于后续整合构形、音韵、训诂等多维数据,拓展研究的深度与广度。

4

结 语

段玉裁《说文解字注》知识库以段玉裁《说文解字注》与《说文解字读》为底本,系统梳理其内在的结构,构建了涵盖文字、音韵、训诂、校勘和引书五大范畴的三层分类知识体系,并完成了五十六个知识点、数万条实例的结构化提取与存储。在此基础上开发的交互式应用平台,不仅支持原文检索与知识导览功能,更提供了开放式标注与管理功能,支持知识库的可持续建设。

展望未来,研究仍有多方面的深化空间。知识层面,可进一步扩充专题知识集,构建更为丰富、立体的学术语境;技术层面,可探索引入自然语言处理技术,辅助知识点实例的半自动标注与关系抽取,提升知识库构建的智能化水平;应用层面,可开发面向不同用户群体的接口,如为专业学者提供网络分析等深度研究工具,推动数字化研究范式的转型。此外,知识库的可持续发展机制也需进一步探索,如建立协同标注模式,吸引领域专家通过在线平台参与审核、补充与讨论、保障知识库的活力与权威性。我们期望《段注》知识库能够逐步成长为一个动态演进、持续完善的数字学术基础设施,为中国传统语言文字学传承、发展与创新提供扎实资源支撑与方法赋能。

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

中国人民大学数字人文研究院发布《全球视野下的中国古籍数智化演进与未来趋势报告》

2026年4月15日 19:09

数字人文研究院 2026-04-15 19:09 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

该报告对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结

2026年4月14日,世界互联网大会亚太峰会“典籍数智化与传播论坛”在香港举行。本次论坛的主题为“从‘藏诸名山’到‘传于指尖’:数智时代的典籍记忆与文明互鉴”,旨在探讨在人工智能技术背景下,传统典籍如何实现从物理保存到数字化传播的转型。在论坛成果发布环节,中国人民大学信息资源管理学院数字人文系教授、数字人文研究院研究员夏翠娟代表研究院发布了《全球视野下的中国古籍数智化演进与未来趋势报告》(以下简称报告)。该报告作为世界互联网大会文化遗产数字化专委会系列研究成果,由夏翠娟教授带领中国人民大学数字人文研究院多位研究员共同编制,基于对全球范围内多个国家、文化记忆机构及科研机构的调研,对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结。

报告首先明确了调研的范围与对象。参考了《古籍定级标准》(WH/T 20-2006/GB/T31076.1-2014),界定了“中国古籍”的定义和范围。报告认为,古籍作为以文本、图像、实物等形式承载知识与思想的文化记忆媒介,其数智化转化不仅关乎文献本身的保存,更涉及中华传统知识生产方式与文化传承机制在现代技术环境下的延续。

在调研内容方面,报告的第一部分聚焦于全球数字化存量与增量的考察。通过对海外文化记忆机构的深度调研,报告提炼了中国古籍载体形态的演进历程——数字化、数据化、语义化、智能化,即从物理纸本到数字影像,到可计算文本和结构化数据,再到关联数据和知识图谱,以及当前的垂直领域模型训练数据集和语料库。研究发现,古籍的利用方式经历了从信息孤岛向开放互联转变,正处于从数字化到数智化转型的窗口期。这种演进轨迹反映了技术在跨越时空阻隔、推动文化资源在全球范围内流动中的作用,同时也揭示了当前数字化资源在开放度与互操作性方面存在的差异。

技术路线的演进和提升建议是本报告的核心内容之一。第二部分通过对典型案例的分析,评估了技术的迭代对古籍开发利用模式的影响,提出了从载体数字化,到文本结构化,再到数据语义化和资源向量化的数智化开发技术演进路径,并总结了不同类型的案例在技术应用上的共性和差异性,对技术应用的问题进行了分析,并提出了技术提升的建议。报告提出,技术的应用伴随着伦理治理、版权保护及算法偏见等问题,建议在技术开发过程中保持审慎,支持人在回路机制,以确保技术手段与文化传承的目标保持一致。

国际合作与人智协同标准的制订是报告关注的第三个重点。报告调研了IIIF(国际图像互操作框架)、关联数据以及MCP(模型上下文协议)等标准规范在古籍领域的应用现状。研究认为,领域内广泛认同的标准规范的共同制订和落地应用是打破数据壁垒、实现国际共建共享的基础,但类似IIIF和关联数据这样能促进全球中国古籍资源共享和利用的国际标准也遇到了运维成本和技术门槛高、本地化应用水土不服的问题。而在人工智能背景下,类似模型上下文协议(MCP)这样的规范有望将全球范围内已有的中国古籍数智化成果与人工智能技术结合起来,为解决人工智能技术的幻觉问题和多源数据互证提供一定的解决方案,值得关注并促进本地化和垂直领域应用。报告分析了当前国际合作中的瓶颈,如数据主权、技术壁垒以及发展不均等,并建议未来应进一步完善兼具前瞻性、包容性和本地化的技术标准,以应对人机关系重构为中国古籍数智化开发利用带来的新机遇。

在结语部分,报告指出,中国古籍的数智化转型是一场涉及文明传承方式的深刻变革。在人工智能重塑社会生产力的趋势下,古籍的保护已不再局限于传统的扫描、存储、检索、阅览,而是向以资源、数据和知识为基石的智能利用阶段迈进。尽管技术飞跃显著,但全球范围内仍面临算法偏见、学术伦理以及文化主体性保护等共同挑战。为此,中国人民大学数字人文研究院在报告中发出倡议,呼吁全球学界、文化记忆机构与技术界开展跨界协作,推动中国古籍数字资源库、知识库、语料库的建设融入人工智能技术的发展议程,将典籍转化为碳基人类与硅基智能共同的文化记忆。

该报告的编制工作由中国人民大学数字人文研究院夏翠娟研究员带领多名师生共同完成。参与编制的人员包括:中国人民大学信息资源管理学院教授夏翠娟,讲师龙家庆、严承希、胡云怡;信息资源管理学院博士生郑振魏、曲梓萌、孟令国;文学院博士生居思微,硕士生吴世强、祝章霞。期望这份跨学科团队共同完成的报告,能为中国古籍在数智时代的保护、研究与传播提供参考。

撰稿/图片:夏翠娟

排版:任佳悦

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

《数字人文研究》2026年第1期目录及摘要

2026年4月13日 12:26

数字人文研究 2026-04-13 12:26 北京

第6卷,总第21期

批判性再谈“数字人文”

许喆

摘要

数字人文作为人文研究中的新兴领域,其学科属性迄今仍较为模糊,并伴随持续争议。文章从方法论视角出发,综合分析各国学者关于数字人文在克服传统人文研究局限方面的论述,并批判性地指出当前数字人文研究中“重数据建设、轻实质研究”的倾向。文章主张,数字人文本质上应被理解为人文研究的方法论,而非独立学科,并强调数据准确性、研究的科学性和论证逻辑的严密性。与此同时,文章批判了当前数字人文教育过分关注技术工具的使用,而忽视人文问题意识以及发现问题和解决问题能力的培养,因而有必要从“技术中心”转向“问题中心”和“批判思维”导向。

关键词

数字人文; 方法论; 学科建设; 批判性思维; 数据准确性; 研究范式

作者简介 

许喆(HEO Chul),韩国釜山大学佔毕斋研究所研究员,鲁东大学区域国别学院特聘教授。

叙事责任与人工智能——AI如何挑战人类的责任与意义理解

马克·科克尔伯格   易瑶琴  杨 璇/译

摘要

多数责任论述聚焦于一种责任,即道德责任,或对道德责任的特定方面展开探讨,如能动性。文章概述了一个更广泛的责任思考框架,涵盖因果责任、关系责任,以及作者称之的“叙事责任”——作为“诠释责任”的一种形式,并将这些责任概念与不同类型的知识、学科和关于人的存在的观点相联系,阐释此框架如何有助于绘制和分析人工智能以各种方式挑战人类的责任和意义构建。文章借助最新的诠释学方法研究技术,提出除了道德责任等类型的责任外,人类还承担着叙事责任和诠释责任——一般而言,也包括对技术的责任。例如,人类的任务是了解并运用人工智能,在必要时对其加以约束。虽然从后人类主义的角度来看,技术有助于意义构建,但人类是体验者和责任承担者,在涉及此类诠释责任时,人类始终占据主导地位。面对一个充满数据要素、相关性和概率的世界,注定要去做出合理解释。此外,这一工作还涉及规范层面,有时甚至是政治层面:倘若人类希望避免自己的故事被他人借助技术手段改写,那么承认并履行诠释责任尤为重要。

关键词 

责任;  叙事责任;  诠释责任;  人工智能;  诠释学;  技术哲学

作者简介 

马克·科克尔伯格(Mark Coeckelbergh),维也纳大学哲学系教授;

易瑶琴(译者),云南大学马克思主义学院硕士研究生,Email:18000289002@163.com;

杨璇(译者),云南大学讲师。

中共党史研究语料智能体的构建经验与思考

马思宇  王亚星  肖桐月  李庚辰

摘要

中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属OCR适配方案与父子分段式知识库构建模式,形成“以OCR适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑”的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

关键词 

党史研究; 史料转化; 知识库构建; 数字人文

作者简介 

马思宇,南开大学历史学院副教授,Email:masynku@126.com;

王亚星,南开大学计算机学院副教授;

肖桐月,南开大学历史学院2022级本科生;

李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

张光伟

摘要

面对浩如烟海且高度非结构化的历史档案,传统的数字化处理与关键词检索模式已难以满足日益复杂的史学研究需求,特别是在处理如《盛宣怀档案》这类涉及晚清政治、经济、外交等多维网络的复杂史料时,研究者常陷入查不全、理不清、关联难的困境。研究在回顾数字人文从数字化、结构化向智能化转型的技术背景的基础上,引入大语言模型前沿的思维链技术与推理一行动框架,构建了一个基于AgenlicRAG的“盛宣怀档案智能分析系统”。该系统突破了传统知识图谱预定义的局限,通过“意图理解、资料检索、资料总结、评估决策、内容撰写”五个智能体的协同工作,实现了对全量档案文本的语义向量化与动态推理。系统具备主动规划检索路径、多步逻辑推演、跨文档证据互证以及自我纠错的能力,能够模拟历史学家“提出假设一史料搜集一考证辨析一形成结论”的认知过程。文章通过微观、中观和宏观三个层面的典型案例展示了该系统的应用潜力。研究实践证明,AI时代这种“人机回环"(Human-in-the-loop)的协作模式,不仅能将历史学家从繁琐的信息搜寻中解放出来,更开启了以数字文献考古与全息逻辑增强为特征的历史研究新探索的可能性。

关键词 

盛宣怀档案; 大语言模型; ReAct框架; 思维链; Agentic RAG; 人机协作

作者简介 

张光伟,陕西师范大学历史文化学院讲师,Email:zhangguangwei@ snnu.edu.cn。

本地化智能史料管理系统的构建方法与实践

安高怡

摘要

在当前数字化背景下,传统中心化在线数据库在数据自主权、持续运营和海量资料协同方面面临结构性挑战。研究旨在提出并构建一套以“数据本地化”为核心,利用Obsidian笔记软件、开源OCR技术及自建私有云同步机制的综合方案,用以建立个人化、具备高可移植性与协作性的史料数据库。该方案通过Obsidian的纯Markdown架构和插件生态,解决了史料与笔记的割裂问题,并融入AI能力进行史料对话和分析。同时,通过自建高性能私有云,突破传统网盘的带宽限制,实现数据自主权和高效团队协作。该方案为个体研究者和小型学术团队提供了一种低成本、可持续、高安全性的数字人文研究工作流,有助于推动学术积累的开放和阶梯式发展。

关键词 

史学数据库; 数字人文; 数据本地化; Obsidian

作者简介 

安高怡,华中师范大学历史与文化学院硕士研究生,Email:205959586@qq.com。

文化遗产的“游戏化生存”

——兼论数字人文研究中的可玩性

王一楠

摘要

文章以“游戏化生存”为理论命题,系统探讨文化遗产在数字原生范式中的存在方式及其认识路径。将电子游戏界定为兼具拟真系统、具身界面、可能时空与情动媒介四重属性的程序化建模/模拟系统,并揭示出其在强化联觉体验、激活身体图式、延展想象空间及引导公共行动等方面的机制潜能。基于此,进一步提炼出“可玩性”作为数字人文研究中的关键概念,将其界定为操作可能性与生成开放性的统一,并阐发其在融合表示、具身认知、动态推演与能量汇聚四个维度的方法论价值。研究指出,可玩性不仅是数字文化遗产的存续机制,更是推动人文知识生产方式从文本阐释转向模拟与体验的关键路径。

关键词 

文化遗产; 游戏化生存; 电子游戏; 数字人文; 可玩性

作者简介 

王一楠,中国人民大学信息资源管理学院讲师、数字人文研究院研究员,Email:yinan.wang@ ruc.edu.cn。

提示词对AI文学创造力的激发机制研究

李倩  吴静

摘要

随着生成式人工智能深度介入文学创作,提示词已成为影响人机协同创作效果的关键因摘素。针对提示词如何激发其文学创造力这一问题,研究设计了五类提示词在DeepSeek模型上进行生成实验,并采用主客观结合评估体系并展开量化与质性分析。实验揭示:提示词通过“语义定向一认知修辞介入”机制,将人类意图转化为AI可执行创造操作;其中,抽象概念型激活跨域类比,多元融合型促进异质语义整合。AI文化寄生性既反映人类集体无意识,又提供陌生化表达契机,推动分布式创造力涌现。提示词设计与多轮生成策略在AI文学创作中的关键作用,为数字人文语境下人机协同创作提供理论与方法参考。

关键词 

提示词; 人工智能文学创作; 创造力评估; 数字修辞学

作者简介 

李倩,南京师范大学公共管理学院哲学系博士研究生、新疆财经大学中国语言文化学院语言文学系讲师;

吴静,华东师范大学哲学系教授。

水书文字数据库和智能识别平台构建

孙治弘  谢雨霏  刘凌  叶晨

摘要

水书是中国水族独有的文字文献,蕴含丰富的民族文化信息,被誉为水族的“百科全书”。然而,受限于数据资源稀缺、手写字形繁复且非标准化、语义解读高度依赖稀缺传承人等因素,其数字化保护与智能化识别面临巨大挑战。为此,研究构建了“水书文字数据库”与“水书智能识别平台”。水书文字数据库采用“书一篇一句一字”四级架构,整合水书字形图像、注音及释文信息,并提供多路径检索功能,有效汇聚并管理分散的水书文献资源。水书智能识别平台基于两阶段深度学习模型(DBNet文本检测+CRNN文本识别),通过引入Unicode私有区编码方案并采用数据增强策略,针对水书数据的低资源特性、长尾分布及复杂版式进行优化,实现了水书手写体文本的高精度识别。实验结果表明,该方法在水书文本检测与识别任务上的性能显著优于现有通用OCR方案。研究为水书等少数民族濒危文字的数字化保护提供了有效的技术解决方案,对相关古籍文献的数字人文研究具有重要参考价值。

关键词 

水书; 数字化保护; 智能识别; 文字数据库

作者简介 

孙治弘,同济大学计算机科学与技术学院,研究生;

谢雨霏,同济大学计算机科学与技术学院,本科生;

刘凌(通讯作者),华东师范大学中国文字研究与应用中心,副教授,Email:lingliu60@163.com;

叶晨(通讯作者),同济大学计算机科学与技术学院,教授级高级工程师,Email:yechen@tongji.edu.cn.

全球虚拟货币发展的历史空间进程研究——以比特币为核心

赵佳文

摘要

在当代电子信息技术迅速发展的背景下,虚拟货币诞生并席卷全世界,搅动了全球金融市场及传统治理体系。自中本聪发表“比特币白皮书”以来,比特币就成为代表性的虚拟货币,文章依托电子历史文献学、互联网考古方法,基于互联网原生电子史料,结合国内外最新研究,从全球、长时段的角度追溯比特币的发展史,比较不同国家的监管政策,发掘比特币作为去中心化时代、逆全球化时代的新型交易通货的重要价值,并指出虚拟货币的演变是技术协议、物质载体与社会应用三者交织的产物,由此提出“三元嵌套空间生产模型”假说。文章为理解当代金融史和互联网发展史提供了一个新的角度和路径。

关键词 

虚拟货币; 区块链技术; 金融史; 互联网考古; 互联网历史; 数字人文

作者简介 

赵佳文,延边大学人文社会科学学院历史系讲师,Email:21110760017@m.fudan.edu.cn。

阅读原文

跳转微信打开

一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化

2026年4月9日 16:01

01fish 2026-04-09 16:01 北京

项目介绍

shiji-kb:一个开源的古籍知识工程项目。做了两件事:

第一,用AI将《史记》130篇、57万字全部转化为结构化知——18类实体近10万次标注、3,185个事件、7,652条关系、675项知识单元;

第二,把整个过程沉淀为26个可复用的知识库构造方法论Skill文档,覆盖从校勘到知识推理的9大阶段。换一部书,管线不变,参数调整,即可构造新的知识库。

传统文史研究的核心困境是人力瓶颈,而中国古典文献的总量以亿字计,这个宝库还没有被充分挖掘。这个项目最开始的初心是要回答一直以来的问题:AI能否把"皓首穷经"从数十年压缩到数周?AI能否把知识变为活的?

当前实践下来答案是肯定的。一个人加一群AI Agent可以完成全部工作。现成果以及方法论已开源,欢迎参与一同创造。

项目创作者为西瓜(鲍捷),一个研究人工智能知识工程30+年的文史爱好者。

Github地址(开源)

https://github.com/baojie/shiji-kb

(这个项目处于频繁更新状态,内容在不断丰富和调整,AI在把知识变为活的,这个知识库也是一个活的)

在线体验

https://baojie.github.io/shiji-kb

(文末有交流群,开放出来,非常期待收到更多反馈)


核心成果

类别

数量

说明

文本标注

130篇,57.7万字

18类实体语义标注,100%覆盖

实体

12,380词条,99,214次标注

人名4,112、地名1,861、官职2,158等18类

事件

3,185个,11类事件类型

98.7%事件已标注公元纪年(前2700年~前87年)

事件关系

7,652条,9种类型

含1,876个跨章换乘(互见/共人/共地/同期)

事件地铁图

130条线路

支持缩放/拖拽/搜索/实体链接/原文引用

知识单元

434事实 + 241技能

7,497个实体关联

方法论Skill

26个文档,9大阶段

可复用,适用于其他任何书籍

核心数据总览

内容细节详见:给《史记》加上语法高亮:一个人+一群AI的55小时


功能特性

语法高亮:18类实体,一眼看懂谁在哪里做了什么

打开任何一篇,古文不再是黑字白底的方块字——人名、地名、官职、时间、朝代、邦国、氏族、身份、制度、族群、器物、天文、生物、数量、神话、典籍、礼仪、刑法,18类实体各有颜色。平均每6个字就有一个实体被识别上色。对话也被标记——斜体加淡褐底色,让"王侯将相宁有种乎!"从叙述中浮现。

这是18类实体+年表和事件

图片

语法高亮效果

五体分布

除了语法高亮之外,我还做了语义排版,这个也处于实验状态当中,做了第一章,词和句层面的工作都开启了。

语义排版,如下图:

图片

三家注弹窗:一千年前的注释即点即现(实验中,本月上齐)

裴骃《集解》、司马贞《索隐》、张守节《正义》——已对齐到正文的具体句子。鼠标悬停,注释自动浮现。不用翻书,不用离开页面。

这目前是实验项目,只做完了第一章,本月上齐,在 labs 那个文件夹。

三家注弹窗

事件知识图谱:3,185个事件 + 7,652条关系

从130篇中提取了3,185个历史事件(战争、继位、政治、改革、家族等11类),98.7%标注了公元纪年。事件之间建立了7,652条关系——因果、延续、包含、对立、互见等9种类型,其中1,876条跨章关系让分散在不同篇章的同一段历史重新连接。

事件类型分布

事件地铁图:用地铁线路的方式看历史(实验中,本月更新)

130篇 = 130条地铁线路,3,185个事件 = 3,185个站点,跨章关系 = 换乘连线。支持缩放、拖拽、搜索,点击站点可跳转到原文。时间轴横跨公元前2700年到前87年——整部《史记》的全景图。

事件地铁图

实体索引:12,380个词条,18类分类页面

所有实体汇总为结构化索引,每类一个独立页面(人名、地名、官职、时间、朝代、邦国、器物……共18类)。含595条别名映射(刘邦=沛公=汉王=高祖=高帝=刘季),644处语义消歧。点击任何实体,看它在130篇中的全部出处。

实体索引

知识单元:434项事实 + 241项可操作的历史技能

事实层:434项知识单元,覆盖人物传记、诸侯国、军事战役等14个主题。每项含定义、上下文、关联实体、原文出处。

技能层:241项从《史记》叙事中提炼的实战案例——治国理政57项(如推恩令:用分封瓦解诸侯)、军事战略54项(如背水一战:置之死地而后生)、外交谈判24项。不是成语,是有时间、人物、过程、结果的完整案例。

知识单元

十表渲染:两千年来最难用的年表变好用了

十二诸侯年表——15列×637行,362年间14个政权——在纸质书上几乎不可用。现在:表头吸顶、交替行背景色、悬停高亮、表内实体照样标注。

十表渲染

史记争霸游戏(实验中)

基于知识图谱数据的策略游戏。人物能力值来自《史记》记载,势力版图来自标注的地名关系。

由于我本人在游戏这块技能有限,因此我只完成了第一步,这块期待游戏方面的朋友一起来创造。

游戏目前在这个仓库下:https://github.com/baojie/shiji-kb/tree/main/app/game

史记争霸游戏


26个方法论Skill:换一部书,可上手构建

这是整个项目最有价值的部分,《史记》只是一个起点。 《史记》处理过程中的skill已完整沉淀下来,是一套可复用方法论。

目前的skill整个框架,还是比较粗糙的,会慢慢改进。

26个Skill文档,覆盖从原始文本到知识应用的9大阶段:

九步管线

你可以用这套skill来分析你选定的任何书籍。

每个阶段都有详细的操作文档:

阶段

Skill数

核心文档

干什么

校勘

1

SKILL_01

多版本比对,底本校正

结构分析

6

SKILL_02~02f

章节切分、段落编号、结构语义分析

实体构建

4

SKILL_03~03e

18类NER标注、消歧、多轮反思审查

事件构建

5

SKILL_04~04e

事件提取、十表处理、纪年推断、年代审查、年份消歧

关系构建

2

SKILL_05a~05b

9种事件关系、人物关系+家谱

本体构建

1

SKILL_06a

词表→分类树→OWL/RDF

逻辑推理

1

SKILL_07

矛盾检测、规律发现

SKU构造

1

SKILL_08

知识单元化

应用构造

3

SKILL_09~09b

阅读器、地铁图、游戏化

可以看到,在这个skill框架当中,后面几个类别的skill比较少,我当前主要工作主要放在了前面,这一整套skill会持续迭代,发布出来也是期待收到更多反馈。

换一本书,需要调整的只是: 实体类型(佛经需增加"佛教术语"类)、体裁分类(编年体和纪传体提示词不同)、别名规则、年份体系。框架不变,参数变。

扩展路线:

目标

字数

现状

史记(已完成)

57万字

汉书、后汉书、三国志

~200万字

近期

二十四史全集

~4,600万字

中期

资治通鉴系列

~700万字

中期

诸子百家、四库全书

数亿字

远期

扩展路线


怎么用这个项目

一、直接在线阅读(零门槛)

打开 https://baojie.github.io/shiji-kb ,选章节即可。

推荐体验路线:

顺序

看什么

链接

1

项羽本纪——鸿门宴、乌江自刎,最精彩的叙事

007章

2

刺客列传——荆轲刺秦,对话高亮效果最佳

086章

3

十二诸侯年表——362年全景,感受表格渲染

014章

4

实体索引——按人名/地名/官职分类浏览

索引首页

5

事件地铁图——130条线路的全景历史

地铁图

6

史记争霸——策略游戏

游戏

二、搭配AI使用(研究/创作)

git clone https://github.com/baojie/shiji-kb.git 

仓库里的结构化数据(JSON/Markdown)可以直接喂给Claude、GPT等大模型:

数据目录

内容

适合问什么

kg/events/data/

3,185个事件+关系

"秦统一六国的完整时间线"

kg/entities/data/

12,380个实体+别名

"韩非和李斯的所有交集"

kg/chronology/data/

380位君主在位年+公元映射

"公元前260年发生了什么"

kg/genealogy/data/

帝王世系图

"刘邦的后代有谁当了皇帝"

kg/relations/data/

人物关系网络

"项羽阵营的核心人物关系"

ontology/skus/

675项知识单元

"《史记》中有哪些外交策略"

数据目录

三、用Skill处理其他任何书籍(开发者)

这是项目最大的复用价值。26个Skill文档在 skills/ 目录下,每个都是完整的操作手册。

最简路径:

将这些skill和你的文本,交给claude/或者任何agent,根据这一套方法论,帮我构造一个xxx知识库。

每个Skill文档包含:输入输出规范、标注规则、质检工具、常见错误、反思修正流程。直接照着做就行。

skill 你可以用在任何编程助手来调用。创作者使用的是claude code,若你没有安装,此处非常推荐上手,安装地址为 Claude Code 安装与使用教程(新手超详细版)

四、做内容创作(素材引擎)

创作场景

怎么用

历史小说/剧本

kg/events/

 查事件时间线,kg/relations/ 查人物关系

历史游戏

ontology/skus/

 的241项技能直接转化为游戏技能卡

短剧/短视频

ontology/eureka.md

 里的洞见就是现成的选题

教学备课

实体索引页面按类别浏览,配合三家注弹窗

学术研究

事件关系做一致性检验,自动发现记载矛盾

创作场景


知识结构化之后,会发生什么

项目在知识提取过程中意外发现了20多个跨章洞察——这些不是预设的研究假设,而是知识图谱结构化后自然涌现的模式:

知识涌现


写在最后

这个项目的核心价值不是"给《史记》加了颜色"——是把"书变成知识库"这件事的完整方法论开源了。

26个Skill、9大阶段、每个工序都有lint和validate工具。一个人加AI,用同一条管线,可以处理任何书籍。《史记》57万字是第一个试验田,二十四史4,600万字是下一步,列表非常长,逐步让几千年积累的文字全部结构化。

关于这个项目,只开启了1%,欢迎共同来迭代。知识工程的所有问题,在当前AI时代都已经解决,只剩下我们坚定执行和创造。

最终愿景:建立一个由AI Agent维护和持续进化的知识网络,让任何人都能以问答、可视化、推理的方式探索数千年的智慧。

在线体验:https://baojie.github.io/shiji-kb

GitHub:https://github.com/baojie/shiji-kb

非常期待和你一起探索各种 AI 增强阅读的可能性,欢迎来群里和项目创造者直接交流

图片

若群满了,可以加  18501790646 备注ai阅读


调研 & 撰写:AI(Claude)
主导 & 审校:01fish

阅读原文

跳转微信打开

经典回顾 | 数字人文主义者需要了解算法吗?(2016)

2026年4月7日 09:01

本杰明·M·施密特 2026-04-07 09:01 北京

本杰明·M·施密特:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。

图片

《傅立叶艺术》Juan López Gómez

https://www.fourierart.com/

Do Digital Humanists Need to Understand Algorithms? 

数字人文主义者需要了解算法吗?

作者:本杰明·M·施密特 (Benjamin M. Schmidt)

译者:丁怡瑞(剑桥大学数字人文系硕士研究生)

算法与转换

伊恩·博戈斯特(Ian Bogost)最近发表了一篇文章,认为对算法的过度迷恋会损害我们准确描述所处世界的能力。他写道:“像‘算法’这样的概念已经沦为草率的简写,成了将多部分复杂系统误认为简单单一系统的俚语”。他指出,即使是计算文化的批评者也难以抵挡这种诱惑,将算法描述得仿佛它们拥有某种无可辩驳的美;这导致他们对计算行为形成了一种“扭曲的、神学式的理解”,忽略了人类的能动性。

作为少数在人文学科领域内创造并应用算法的领域,数字人文拥有得天独厚的优势,能够帮助人文学者更好地理解算法的运作机制,而不是盲目地崇拜或谴责它们。然而,我们常常刻意忽略算法背后的理解和意义,转而采用一种工具化的方法,仅仅将算法视为可以凭直觉判断其效用的手段。计算机底层的复杂性使得某种程度的认知盲区在所难免。当复杂度超越临界点时,人文学者确实无需理解产出结果的算法机制;鉴于现代软件的复杂性,他们即便想理解也难以企及。

尽管软件中有些元素我们可以忽略,但要将人文数据分析作为一项学术活动而非仅仅是一项技术活动来实践,一些基本的理解标准仍然必不可少。有些算法的确是繁复冗杂、缺乏连贯性和目的性的程序,而另一些算法则包含着我们完全能够理解的假设。算法的运行方式与算法的运行方式截然不同,理解算法的运行方式更为重要。我想在此论证的是,一个成熟的人文数据分析领域不应仅仅从外部检验算法的有效性;相反,它应该探索软件所描述的流程背后假设的意义。简而言之:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。唯有如此,我们的实践才能更具成效,更可能真正实现原创性突破。

这一论点的核心在于区分算法和转换。算法是一组可精确指定的步骤,用于产生特定的输出结果。“算法”是计算机科学的核心研究对象;关于算法的主要理论问题涉及运行这些步骤所需的资源(特别是时间和内存)。另一方面,“转换”是指算法可能进行的重构。这个术语与计算机科学的联系相对较弱。其最紧密的学科联系在于数学(例如几何学中描述对形状可施加的操作)和语言学(构成诺姆·乔姆斯基“转换语法”理论的核心)。

从计算角度来看,算法创造转换。然而,从认知层面来说,人们设计算法是为了自动执行特定的转换。也就是说:转换表达了一个连贯的目标,这个目标可以独立于产生它的算法而被理解。也许最简单的例子就是排序的转换。“有序性”是一个普遍属性,任何人都可以独立于产生它的操作来理解它。在人文研究中,字母排序的用途,例如生成文本索引或整理姓名索引,与用于排序的具体算法无关。事实上,计算机排序列表的具体算法存在多种变体。某些经典的排序算法,例如快速排序,是计算机科学教学的基础。(对排序算法的经典汇编和解释是克努特经典计算机科学著作的前半部分。)如果认为人文学者需要理解像快速排序这样的算法才能使用排序后的列表,那就太荒谬了。但是, 我们确实需要理解有序性本身,才能充分利用排序列表的独特特性。

理解转换意义的另一种方法是将算法工具化地使用;例如,寄希望于潜在狄利克雷分配(LDA)之类的算法能够近似表示“主题”、“论述”或“论题”等现有对象,并探索其无法做到的细小领域。然而,这种将软件视为工具的方法,对于理解它几乎毫无益处;它寄希望于算法能够近似地表示现有意义,往往也阻碍了其创造新意义的可能性。传统人文主义者对大规模文本分析的主要批评是,它未能为学者提供任何新知。此类批评虽常有谬误,却确实触及了一个令人沮丧的缺陷:当前普遍采用的远读方法往往无法开辟理解文本的新路径。

将大规模分析与斯蒂芬·拉姆齐(Stephen Ramsay)所谓的“算法批评(algorithmic criticism)”相结合,虽然可能不那么立竿见影,但却更有趣。算法批评是指运用算法转换来开启文本的新解读方式。即便某些算法(如拉姆齐所描述的案例)在转换过程中本身不具意义,这一方法依然有效。但那些本身就蕴含某种目的的转换,更可以帮助我们创造出新的文本版本,从而提供新颖或有用的视角。探寻并描述这些转换如何运作,正是我们应该更加重视和推广的工作。

傅里叶变换与文学时间

安妮·斯沃福德(Annie Swafford)和马特·乔克斯 (Matt Jockers)就乔克斯的“Syuzhet”软件包展开的辩论。Annie Swafford 与 Matt Jockers 围绕 Jockers 的 “Syuzhet” 软件包所展开的争论,为我们提供了一个有用的案例,说明深入探讨某种“转换”本身的目的,如何能够丰富我们描述文本的词汇。尽管斯沃福德最初的批评指出了该软件包的几个问题,但她与乔克斯的后续讨论主要集中在乔克斯使用信号处理中的低通滤波器(low-pass filter)作为“平滑函数(smoothing function)”的恰当性上。乔克斯认为,这提供了一种“滤除情感轨迹中极端值”的绝佳方法。而斯沃福德则认为,这种方法常常会受到“振铃伪影(ringing artifacts)”的影响。在实践中,这意味着生成的曲线几乎只关注“最低点,而忽略了两侧的上升或下降”。

斯瓦福德和乔克斯的争论不仅围绕一个算法,更围绕一个被具体定义的“变换”展开。Jockers 用来分析情节结构的低通滤波器,其数学基础是离散傅里叶变换(Discrete Fourier Transform, DFT)。将傅里叶变换视为理解叙事结构的一种“构成方式”,这个想法本身颇具吸引力;但正如斯瓦福德所论证的,它很可能是错误的。斯瓦福德所描述的“振铃伪影”源于一个更大的问题:变换本身所蕴含的对时间的基本理解。

傅里叶变换的的目的,是通过将复杂信号拆解为其组成部分,把周期性事件表示为频率。人类经验中最基本的一些元素,尤其是光和声音,在物理上是以重复波的形式存在的。而傅里叶变换提供了一种简便的方法,可以将这些无限长的波描述为一组不断重复的短频率。例如,纯音“A(La音)”是以每秒 440 次的频率持续脉动的;但当由单簧管演奏时,这个“A”音包含大量规则的泛音(overtones)——这些泛音是频率更高、能量较低的成分音,使声音比单一纯音更丰富。像 Jockers 使用的那种滤波器会去除这些规律性;它通常用于 MP3 压缩等处理过程中,以去除人耳听不到的高频音符。如果对这样的单簧管音色应用更强烈的滤波,它会去除高频部分,保留音符“A” , 但会削弱乐器独特的音色。

将“情节”表示在频率域中,这一想法颇具吸引力,但也建立在一些高度可疑的假设之上。其中最令人惊讶的假设是:情节如同声音或光一样,由无穷无尽重复的信号组成。乔克斯使用的这种“低通滤波器”会忽略文本中任何呈现周期性重复的要素,而是聚焦于最长周期的变化,比如那些跨度超过文本长度四分之一或三分之一的趋势。这个过程类似于根据一段仅持续 1/440 秒(基频的一个节拍)的“A”音符音频片段来预测单簧管的后续音效。令人惊讶的是,这对于音符来说是可行的,但这仅仅是因为这个音调会无限重复。而Syuzhet 软件包中的默认平滑处理假设书籍也遵循同样的规律;除其他因素外,这意味着:经过平滑后的情绪曲线会把整本书开头的情绪视为结尾情绪的“延续”。(我在《Commodius Vici》一书中对此有更详细的解释。)

对于某些情节,包括乔克斯使用的主要例子《一个青年艺术家的肖像》, 这种假设并不明显错误。但对于其他文本结构,它会造成很大的问题。图 48.1 展示了 《一个青年艺术家的肖像》 和其他四部小说的情节,文本均取自古腾堡计划。威廉·迪安·豪威尔斯的 《塞拉斯·拉帕姆的发迹》讲述的是一个关于毁灭的故事; 霍瑞修·爱尔杰的 《衣衫破烂的迪克》是十九世纪典型的“白手起家”小说; 《包法利夫人》 则是经典的关于衰落的悲剧故事。图中展示了三种不同的平滑函数:加权移动平均,这是最简单的函数之一;局部加权回归散点平滑法(LOESS),这是探索性数据分析中最基本、假设最少的算法之一;以及 Syuzhet 软件自带的低通滤波器。

这里,傅里叶变换的问题显而易见。这种周期性的函数使得包法利夫人死后境况与她出轨前一样“好”。而假设较少的方法则允许她的命运在结尾崩塌,也允许衣衫破烂的迪克的命运轨迹向上而非向下倾斜。 安德鲁·派珀(Andrew Piper)指出 , 回答 “我们如何判断一条曲线是否‘错误’?”这个问题可能相当困难。但在本例中,错误之处显而易见;只有试图闭合循环才能解释小说结尾拉格德·迪克命运的下跌。(译者注:因为傅里叶变化的循环结束点必须接上开头)

这是什么类型的证据? 根据乔克斯的说法,包法利的例子仅仅是对该方法的一种“否定性验证”(negative validation),我认为他的意思是,这是一种对“该方法在所有情况下都是最佳方法”这一论断的经验性证伪(empirical falsification)。斯瓦福德的文章也暗示,逐案验证和证伪衡量方法优劣的黄金标准。用她的话来说,这套方法(或许整个数字人文领域)需要“更多的同行评审和严格的测试——旨在证实或反驳假设”。

从这个角度来看,算法的本质是一个操作过程不透明的系统;我们可以尝试或检验它是否符合我们的预期,但我们永远无法真正了解它。然而,当算法成为实现有意义变换的手段时,例如傅里叶变换,我们就能做得比“质量测试”更好;我们可以预先通过解释性分析来判断变换会在哪些方面失败。我选择 《包法利夫人》 并非随意之举,并非为了检验它是否足够好;相反,平滑方法的推论让我意识到,悲剧类小说整体上都无法被 Syuzhet 的平滑方式正确处理。我有些忐忑地承认,我从未真正读过 《包法利夫人》 或 《衣衫褴褛的迪克》 ;但它们都是情节与低通滤波器平滑完全不相容的典型例子。任何其他以死亡和绝望或非凡好运结尾的小说都会以同样的方式“被算法误读”。

图片

图 48.1  以极坐标绘制的四条轨迹图

这些问题也贯穿于乔克斯的一系列基本情节模式中:所有图表都以完全相同的情绪开始和结束。然而,在软件包推出后的头两个月里(这期间的审查力度肯定远超任何同行评审流程),这种假设的明显问题却并未被发现。这些缺陷未能立即显现的一个特别有趣的原因是 ,像图 48.1 这样的折线图并不能完全体现傅里叶变换的假设。我们用来展示结果的统计图形本身就可以被视为一种转化,它将数据带入一个新的分析领域。在这种情况下,我们用来绘制图表的几何图形和坐标系本身就带有特定的模型。这类折线图假设时间是线性且无限的。一般来说,这无疑是纸上表示时间最简单、最准确的方法。然而,它并不符合傅里叶变换所假定的频域(frequency domain)。如果傅里叶变换是观察图表的正确方法,我们应该使用极坐标系作图,因为极坐标系会循环回到起点。我在图 48.2 中重新绘制了相同的数据,其中百分比用一个角度表示,该角度从时钟的 12 点钟位置开始,而情感倾向则不是由高度而是与中心的距离来定义。

图片

图 48.2 以极坐标绘制的四条轨迹线

在这里,傅里叶变换的假设更加清晰。对于这里的所有小说而言,时间构成了一个闭合的循环;结尾点必须扭曲自身以与开头对齐,反之亦然。而其他算法则允许存在巨大的断层:《 包法利夫人》的弧线向内盘旋,仿佛坠入下水道,而 《衣衫破烂的迪克》 则向外推进飞升。

这些环形情节图不仅仅是为了证伪。以这种方式全面理解转换背后的假设,不仅凸显了模型的缺陷,也为我们思考情节提供了一种新的视角。这种观点强调了开头与结尾之间的鸿沟是小说的核心特征;由此,它挑战我们去思考情节所占据的时间究竟是不是一种单向线性的(straightforwardly linear)存在。

这场讨论之所以值得继续,部分原因在于它提醒我们重新审视自己对于情节与时间的诸多前设。笛卡尔坐标系(直角坐标系)所暗示的无限时间,在某种程度上与极坐标图一样是错误的。许多平滑方法(包括我希望在 Syuzhet 中使用的 loess 回归)很容易将时间外推到情节的开头和结尾之外。这恰恰表明,它们在某种程度上同样不适用于当前的任务。事实上, fabula(故事顺序)与syuzhet(叙述顺序)之间的区别核心在于,我们无法谈论小说“开始之前”的内容,也无法预测莎士比亚如果在 《哈姆雷特》 结尾之后再多花几个小时创作,会写出什么文字 。任何暗示存在此类短语的模型显然都是错误的。

但即便这些转变可能并非完全正确,它们或许仍能带来新的理解和分析方法。虽然这种“循环回归”的结构显然不适用于小说,但它对更广泛意义上的情节研究却具有重要意义。通过探究频域图的适用范围,我们可以从抽象层面识别出更适合应用此类方法的领域。

例如:理想的“三机位情景喜剧”剧本应该允许剧集在轮播中以任意顺序播出。也就是说,在某些方面,它们应该是循环往复的。对于情景喜剧剧集而言,循环性是一个值得牢记的有用框架。情感、主题或其他属性的契合度,对于理解商业影响如何与创作自由交织在一起,或者理解一个类型随时间的演变,都可能是一个极其有用的工具。这种信号处理的技术或许还能用于识别,例如,电视台在何时、何处允许编剧展开跨多集的剧情线。

尽管斯瓦福德和乔克斯的对话主要围绕“平滑”问题展开,但许多数字人文主义者似乎发现斯瓦福德提出的第二个批评更有意思。她认为,乔克斯软件包提供的情感分析算法(其中大部分基于带有情感评分的词典)产生的结果经常违背“常识”。第一个问题看似枯燥乏味,但第二个问题为数字人文主义者提供了一个平台,让他们探讨如何更好地理解我们运行的算法的“黑箱”。一个算法“符合常识”意味着什么?为了实用,它需要 100%正确吗?95%?还是 50.1%?如果数字人文要成为一个会采用他人创造工具的领域,那么这些正是它需要练习解答的问题。

然而,这样表述问题,就再次将算法本身视为不可知的。就像傅里叶变换一样,我们最好有意识地探究情感分析的转换究竟做了什么。例如,我们不应该将 Syuzhet 的情感分析部分视为一组待匿名受试者测试的词表,而应该思考如何以最佳方式实现情感分析背后的底层算法——或许是逻辑回归( logistic regressio)——来区分“褒贬”二元分类之外的事物。例如,乔克斯的灵感来源库尔特·冯内古特(Kurt Vonnegut)认为,情节的核心二元不是“快乐/悲伤”,而是“顺境/逆境”;也就是说,虽然情感分析提供了一个有用的捷径,但大规模平台更应创建一个真正能区分其领域中核心二元对立的分类器。安德鲁·派珀对情节结构的研究涉及小说内部的比较。这样的研究可以帮助我们更好地理解情节。他让文本与自身对话,并从其他领域中找到新的有用的转换方式。

这样做意味着,数字人文主义者可以帮助消除博戈斯特所揭示的“算法统治神话”,而不是参与构建此类神话。当历史学家将精神分析应用于历史研究时,我们并没有建议他们与精神分析学家“合作”,然后用历史记录来检验他们的论断有多少真实性;相反,历史学家会主动运用这些概念,将其视为具有解释力、本身就有意义的理论工具。当底层算法难以理解或过于复杂时,人文主义者能够深入探究算法的“黑箱”固然有益且有用。但即便如此,数字人文主义者的首要任务也应该是理解算法所服务的转换和系统的目标和意图,这样我们才能成为新思想的创造性使用者,而不是对工具的目的和前提一无所知、只是被动使用工具的人。

/来源:Gold, Matthew K., et al.“48. Do Digital Humanists Need toUnderstand Algorithms?Benjamin M. Schmidt." Debatesin the Digital Humanities 2016, 2.0, University ofMinnesota Press,13 Apr. 2016.

推荐阅读:

凯特·克劳福德、特雷弗·帕格伦《采掘人工智能:机器学习训练集中的图像政治学》(2019

凯特·克劳福德、弗拉丹·乔勒:《人工智能解剖学》(2019)

转自“左手数字右手人文”公众号

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

辅助,而非取代:声像档案的AI元数据生成模型与文化诠释

2026年4月3日 09:10

原创 魏小石 等 2026-04-03 09:10 北京

影音档案; 人工智能; 元数据生成; 文化诠释; 人机协同; 声音遗产; 检索增强生成(RAG); 民族音乐学; 知识图谱

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:魏小石,马修·詹姆斯.辅助,而非取代:声像档案的AI元数据生成模型与文化诠释[J].数字人文研究,2025,5(4):60-67.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

辅助,而非取代:声像档案的

AI 元数据生成模型与文化诠释

魏小石  马修·詹姆斯

摘要:文章探讨了在全球影音档案快速增长、文化语境日趋多元而机构资源普遍受限的背景下,如何借助AI技术实现从“数字化”到“知识化”的转型。面对资金紧缩、人才短缺及知识更新滞后等“三重困境”,传统的档案编目方式难以应对海量且多语种的声音材料。文章强调AI工具应定位于“辅助”而非“取代”人类专家的文化诠释能力。通过二位作者执行的人机协同著录案例,文章展示了如何结合RAG(检索增强生成)技术、专业标注框架与古典文献知识库,构建具备文化敏感性与语义深度的专用AI著录系统。最终,文章主张民族音乐学及相关领域学者应主动参与专用AI模型的共建,推动人机协同的编目新范式,在提升档案可及性的同时,维护文化诠释的准确性与多元性。

关键词:影音档案; 人工智能; 元数据生成; 文化诠释; 人机协同; 声音遗产; 检索增强生成(RAG); 民族音乐学; 知识图谱

作者简介:魏小石,中国音网(cdtmusic.com)总编辑,伦敦大学亚非学院客座研究员; 马修·詹姆斯(Matthew James),传统音乐智能体平台“Echo Arc”(声穹)联合创始人。

0  序言:

声像档案领域的“三重困境”

今天在此向学界同仁郑重介绍一项正处于起步阶段的研究计划——“EchoArc”(声穹)。这项计划的核心,远不止于构建一个技术性的概念原型;其更深层的旨趣,在于尝试搭建一个促进全球范围内档案馆、图书馆、博物馆(以下简称“GLAM机构”)以及相关机构之间系统性对话与协同共建的框架。我们怀揣这样一个愿景:在声音与视听档案数字化与知识化转型的关键历史节点,借助合乎伦理且智能化的技术中介,让散落于世界各个角落、承载着人类多元记忆与文化表达的声音档案收藏,能够以前所未有的深度与广度“被听见”(discoverable)、“被理解”(comprehensible),并最终更公平、更高效地“被获取”(accessible)

这一愿景的紧迫性,正源于一个我们共同面临的宏观趋势:全球声音档案(sound archives)的物理与数字存量正呈指数级增长(尤其是原生数字档案),其载体格式日益复杂,内容所涉语言与文化语境更加多元。与之形成根本张力的是,对声像影音遗产(及其文本格式的元数据及描述)进行高质量的组织与管理——包括其鉴定、著录、编目、保存与诠释,至今仍是一个深度融合了高度专业化人工判断与精细化操作的体系。这一过程不仅是劳动密集型的,其核心更在于对文化语境进行智慧密集型的解读与表征,因而难以被当前主流的自动化逻辑所简化和替代。

当下,GLAM机构正面临三种结构性的困境。首先,持续性的资金紧缩与预算不确定性已成为常态。许多GLAM机构的研究与典藏部门预算常年停滞甚至削减,而数字保存、基础设施升级与专业软件采购的成本却在不断攀升(Terras, 2015)。这使得机构在资源分配上往往陷入艰难抉择:是优先保障实体物料的物理安全,还是投资于数字化转型的长期需求?这种资源窘境直接导致了许多珍贵但“非核心”或未被充分描述的声像典藏被迫“沉睡”,难以进入整理与编目的序列。

其次,专业人才的结构性短缺与流失危机日益严峻。精通音响档案理论与实践、具备音乐人类学(民族音乐学)、语言学、民俗学知识,同时熟悉当代元数据标准(如MARC、Dublin Core、EBUCore等)的编目专家本身便是稀缺资源(Lee et al., 2021)。随着资深专家的退休,机构内部往往出现严重的知识和技能断代。与此同时,就业市场对数字技能的重塑,使得新一代信息专业人才的职业选择更加多元化,传统GLAM机构的吸引力相对下降,导致专业人力资源的补给线异常脆弱。

最后,传统知识与技能的更新速度与复杂的档案工作需求之间的落差在不断拉大。声像档案的内容包罗万象,从濒危语言录音、传统音乐表演、口述历史到环境声音景观,每一种类型都需要编目者具备相应的背景知识、文化敏感度与描述词汇表(Matusiak et al., 2019)。面对海量、多语种、多文化的待处理资料,任何单个机构、单个领域的工作团队,其知识储备都显得捉襟见肘。人工创建高质量的、具备多平台易用性的元数据,不仅要求描述事实的准确性,更要求对文化语境、表演实践、历史背景进行深度诠释,这是一项极其耗时、费力且需要持续学习与协作的智力工作。

正是这“三重困境”的交织与加剧,将一个明确而急迫的需求推至我们面前:开发具有可扩展性、可持续性的智能辅助工具,为GLAM机构的声像档案工作所用。这类工具的核心目标,并非天真的“自动化替代”,而是在尊重个体学者不可替代的核心判断力的前提下,赋能档案工作者与编目人员。在预算受限、人力不足的客观条件下,借助这些工具,能更高效地处理数据录入、格式转换、基础标引等重复性劳动,从而将宝贵且有限的人力(学者)资源释放到更需要人文洞察、批判性思维与跨文化沟通的环节中去——例如语境构建、关系关联、伦理审核与深层知识挖掘。唯有通过这种人机协同的新模式,我们才有希望系统性地整理、激活那些目前“被遗落的声景”,让这些承载着族群认同、历史记忆与生态智慧的珍贵声音,真正融入当代文化遗产网络之中,在数字(智)时代获得新生。

1  “辅助”而非“取代”

任何旨在辅助档案工作的工具,在处理那些承载社群历史、情感认同等复杂(且敏感)的民族志信息时,其设计与应用必须以维护信息的准确性与文化的细微差异为前提,而非将其作为效率的代价。这一原则构成了我们工作的基石。

为此,我们正致力于开发专门面向图书文献与文化遗产领域的特定AI模型。该模型的核心功能是辅助生成并翻译声像档案的元数据。在开发过程中,我们严格遵循MARC、Dublin Core等国际主流元数据标准,并将精准性、文化敏感度及学术协作规范嵌入模型的设计目标。通过自动生成符合这些标准的不同格式元数据文件,该工具旨在直接减少档案工作者在数据录入、格式转换等环节的重复性劳动负荷,从而有效提升档案材料在编目与收录初始阶段的处理效率和基础可访问性。我们的技术路径规划是从单个集合(及其条目)的细粒度描述入手,经过验证与迭代后,逐步扩大应用规模,从一个收藏扩展到另一个收藏。在此过程中,目标是将不同社群、不同学术传统中多层次、细节丰富的知识结构与描述逻辑,持续、可控地嵌入AI的学习过程,使其理解并尊重文化描述的复杂性

将AI技术引入高度专业化且充满诠释多样性的文化研究领域,引发疑虑是自然而然的。现实是,生成式AI已在诸多行业展现出大面积替代人力的趋势,我们亲历目睹了自由撰稿、基础编辑等领域在短时间内发生的职业重构。然而,必须清醒认识到:生成式AI虽然能够快速生成文本,但其产出在准确性、事实丰富性、真正的创造性以及具有文化说服力的叙事方面,尚未证明其能够超越受过严格训练的人类专家。它的“快”未必等同于“好”,更不意味着在理解文化深层意义方面具有优势

基于此,我们亟需明晰项目的根本定位:我们的目标绝非是利用自动化技术“取代”人类在元数据生成、翻译与著录模式整合(schema integration)等环节的专业技能。我们致力于打造的是能够与人类专家协同工作、并能在专家反馈下持续学习的智能工具。其核心价值在于,将专家学者从繁重、机械的数据处理工作中解放出来,将他们宝贵且有限的智力与时间资源,重新配置到那些无可替代、更需要人文洞察与批判性思维的任务中去。工具的价值,在于增强(而非削弱)人类知识的核心判断力。

2  如何开发AI编目工具?

——从通用模型到专用系统的路径

那么,我们该如何开始开发真正适用于文化遗产领域的AI辅助工具?首要步骤是明确认识到当前技术方案的局限性。目前,ChatGPT和DeepSeek这类通用型、“一体适用”的大型语言模型,在处理高度专业化、对文化语境极其敏感的档案编目任务时,其“表现”仍然相当粗糙。我们曾进行过一项具体测试:向DeepSeek模型输入来自一套哈萨克音乐集合的数字化音频文件、与之配套的原始档案说明文字,以及数篇经过同行审校、权威出版的民族音乐学研究文献,指令是生成符合图书馆行业标准的MARC编目记录。从表面产出看,模型在短时间内确实生成了一套结构上看似完整的MARC记录,包含了一些基础字段。然而,经过与领域专家的仔细核验,一系列明显且关键的错误与遗漏暴露无遗,这些缺陷系统性地揭示了通用模型的根本不足。

首先,在基础数据准确性与规范性层面,问题显而易见。例如,在涉及西里尔字母书写的哈萨克语人名、地名音译时,模型生成的文本并未遵循国际图书馆界通用的音译标准(如ALA-LC罗马化表)。这种细微的偏差并非无足轻重,它直接破坏了元数据在未来进行跨机构、跨数据库交叉引用与聚合时的互操作性,也严重影响了用户在检索时通过不同书写形式准确找到目标资源的能力。类似地,在地点和日期这类核心描述字段中,模型给出了“20世纪”或“阿勒泰—新疆”等极为模糊的信息。在强调精确来源出处与特定文化地理背景的档案著录语境中,此类描述非但无用,反而会引入歧义,使得后续研究者难以确定录音具体的地理归属与历史时段。

其次,在描述深度与语义丰富性层面,通用模型的输出显得过于笼统和扁平化。对于表演者的角色标注,模型通常仅列出姓名,却完全未能具体说明其在一段录音中的具体职能——某个人究竟是器乐演奏者、歌手、叙述者,还是兼而有之?此外,也未区分其贡献是表演一首经典传统曲目,还是对某个特定版本进行了个人化的诠释。在主题标引方面,模型往往只能提取最表层的、形式化的类别,如“民间音乐,哈萨克斯坦”,而完全忽视了深嵌在音乐之中的文化、信仰与生态维度,例如反映自然崇拜的“泛灵论”(animism)主题,或是录音中可能包含的特定“环境声音”(如风声、水流、牲畜叫声)。这些深层主题标签对于理解录音的文化意义至关重要,尽管它们在提供的背景文献中已有明确论述,模型却无法有效识别并转化为结构化元数据。

最后,在数据结构完整性层面,模型生成的MARC记录常常在关键字段中只保留空泛的占位符或指示性文本,而缺失了实质性的具体内容。这导致记录在形式上看似完整,在机读格式上也无错误,但在编目员和研究者看来,却缺乏进行有效知识组织与检索所必需的核心信息单元。

上述种种问题,绝不仅仅是单纯的技术瑕疵或数据训练不足。它们共同指向一个更深层、更本质的事实:元数据从来不是中性中立的;它并非是对客观事实的简单转录,而是一种文化的诠释,是特定知识体系、学术传统乃至认同观念的体现。一个主题词的选择、一种音译规则的采用、一个地理名称的表述方式,都蕴含着对文化内容的解读框架与价值判断。因此,即便是连字符的使用、主题标目的粒度、MARC字段内的分隔符,或是人名音译的标准这类最微小的细节,都会对这段录音未来如何被保存、如何被发现,以及最终如何被学术界和社会所重视,产生深远的影响。对于哈萨克音乐这类(可能)处于主流话语边缘的文化传统而言,高质量的元数据不仅仅是一种描述工具,更是一种伦理基础设施。它承担着公正表征文化身份、确保其能在全球知识体系中获得可见性与可理解性的责任

这一点,在田野录音的语境下显得尤为沉重,且紧迫。许多珍贵的实地录音,是民族音乐学者历经数十载,辗转于多个田野地点,克服重重困难才采集到的文化瑰宝;也有些录音,承载着一个家族对散居他乡或已故亲人的声音记忆,是社群情感与历史传承的非物质载体。对于这些凝结着巨大智力投入与深厚情感价值的材料,元数据的著录质量,直接决定了这些声音在未来数字环境中能否被尊重地对待、被准确理解其语境,并得以有效传承给后代。粗糙或错误的元数据,无异于在数字世界中对这些珍贵遗产进行二次损害,使其陷入新的“沉默”或“误读”之中。

3  AI技术实践的“一小步”:

赋能中国近现代声音文献检索

以下,以一项针对20世纪20—30年代78转唱片的具体研究为例,阐述我们在AI辅助编目领域的初步实践。刚才所讨论的关于AI工具设计的核心问题,并非空泛的理论推演,而恰恰源于我们此前对一项基础性测试的直接观察。在该测试中,我们系统地探究了AI如何从庞杂的、非结构化的原始信息中,自动识别并提取出符合专业编目要求的结构化元数据。这一尝试,其意义超越了单纯的技术验证;它本质上是对传统编目方法论边界的一次主动拓展,旨在探索人机协作模式下,知识组织逻辑所能延伸至的新领域与可能达到的新深度。

必须承认,当前对汉语有声文献——尤其是历史录音——进行系统化数据采集与智能化处理,面临着多层次的现实挑战。在图书馆学与信息科学领域,对文献资源进行准确、规范的描述,是一切知识组织与服务的基础。我们的实践表明,现有通用AI模型的知识库与认知框架存在显著局限。具体而言,对于具有强烈地方性特色的声音或音乐表演内容,例如那些依赖于特定地域文化、使用小众乐器或承载独特曲艺形式的录音,AI的认知表现出明显的匮乏与不确定性,其生成文本描述时常包含事实性谬误或文化误读。这种“知识盲区”使得AI难以独立承担对这类遗产进行高质量编目的任务。

正是为了应对这一核心挑战,我们与中国人民大学国学院吴洋教授的研究团队建立了跨学科合作,共同启动了名为“AI赋能中国近现代声音文献检索、深度描述与古典学研究——以北方曲艺为例”的项目。该项目旨在构建一个新颖的研究范式,即尝试利用经过严谨校勘、体系严整的中国国学经典文献所构成的权威知识库,作为AI模型理解相关文化内容的“锚点”与“基石”,进而对北方曲艺(如京韵大鼓、单弦、岔曲等)唱片中的唱词文本,进行系统化、多维度的深度语义标注。

北方曲艺的唱词文本,是一个蕴藏丰富的文化信息复合体,其中频繁用典、化用诗文、涉及大量历史人物、事件、民俗事象与地方性语言表达。然而,长期以来,这些唱词所承载的深厚文化内涵,并未与其源头的古典文献建立起深度、系统化的知识关联。传统的整理工作可能止步于唱词文本的转写与基本说明,未能将其置于更宏大的中华典籍与历史语境中进行互证与阐释,从而未能催生出经过深度考据与跨文本验证的、立体化的知识网络。

目前,我们(中国音网团队)已完成了相当规模的北方曲艺78转唱片的数字化转储,并初步整理了对应的唱词文本,形成了基础的、“结构化的”数据层。本项目当前阶段的核心任务,正是要突破这一层,致力于从历代文集、笔记小说、方志、韵书等浩瀚的“非结构化”古典文献中,提取相关知识单元(如典故出处、历史背景、词汇源流、民俗考释),并将这些提取出的知识点,精准地“编织”回北方曲艺唱词所对应的具体声音语境中去。

项目的学术核心,由人大国学院团队主导,师生们创造性地构建了一个从文献学、文学、历史学、民俗学、语言学五个核心维度出发的唱词深度标注框架与知识图谱模型。这五个维度并非孤立,而是相互交织:文献学考究版本与源流,文学分析文体与修辞,历史学定位事件与人物,民俗学解读仪式与风物,语言学辨析音韵与词汇。项目组成员需要手动标注至少1000个知识点,为AI理解提供结构化的认知地图。

在技术实现层面,中国音网团队负责提供关键的RAG技术架构。RAG,即“检索增强生成”,并非一个“开箱即用”的解决方案,而是需要精心设计和训练的技术范式。在本项目中,我们利用RAG的核心机制,为AI智能体赋能,使其能够:首先,在面对一段具体唱词时,自动识别其中可能涉及的知识点(如,某个典故、某个古地名),并触发对海量古典文献数据库的精准检索;其次,将检索到的相关文献片段作为增强的上下文信息,与原始唱词一并输入生成模型;最终,引导模型生成具有溯源依据的深度描述、注释或关联性分析。这一过程旨在系统性提升三大能力:一是语义还原能力,即准确理解唱词在古代汉语语境中的本义与引申义;二是跨域关联能力,即在曲艺唱词、历史记载、文学作品、民俗报告等多类型文本间建立有意义的链接;三是知识注释能力,即产出符合学术规范的考据性说明。

其后,更为关键的是“情境训练”。这一阶段的训练目标,是让AI模型学习并掌握“进入关联性知识图谱的路径”,实质上是教会它如何像该领域的学者那样,不仅能“回答”问题,更能帮助大众读者以符合学术探究习惯的方式“提出”问题,并自主进行知识追溯与关联分析。具体而言,这一过程高度依赖项目组成员——特别是具备文献学与曲艺研究背景的专家——进行手动的、高度情境化的问答训练。专家们并非简单地提供标准答案,而是需要模拟研究过程中真实的思维链条与探究场景。例如,他们不会直接问“《击鼓骂曹》中‘渔阳三挝’的典故出处是什么?”,而是可能从一个更开放、更具引导性的情境切入,比如:“如果我们听到一段鼓曲唱词中提到了‘祢衡’和‘曹操’,并伴有激昂的鼓点描述,我们该如何联想到汉代的相关史实与文学形象?又如何进一步探究‘鼓’在这一叙事中的象征意义及其与具体曲艺表演程式的关联?”

通过大量此类情境化、多轮次的问答“对话”,AI模型被引导去理解:一个知识点(如“祢衡”)如何作为入口,自然地关联到人物传记、历史事件、文学作品、音乐表现等多个知识图谱节点。更重要的是,它学习到人类专家在探索这些关联时所使用的语言模式、逻辑递进方式以及提问策略。这相当于为AI注入了专业领域内的“探究性思维”模板,使其能够逐渐学会从非结构化的文本中自主识别出潜在的知识关联线索,并以更贴近人类学术习惯的、连贯且富有逻辑的语言,进行深度的语义还原与知识注释。这一训练是将静态的知识库转化为动态、可推理的智能系统的核心环节。

本项目这“一小步”技术实践的长远目标,正是希望借助AI的赋能,系统性地应对声像档案著录、编目与诠释的核心挑战。将声音背后那些分散于不同典籍、隐含在表演细节中、且需极高专家素养方能建立的文化知识关联(如唱词典故、音乐程式、历史语境),转化为显性、系统、可规模化的结构化知识,我们旨在构建一座桥梁。这座桥梁连接着原始的声音资料与丰富的文化语义网络,使这些档案不仅能被听见,更能被深度理解与文化传承。

4  结语

利用AI技术构建MARC编目记录通用架构,仍存在诸多疑虑,也兼具多重利弊,但曲艺有声文献的案例,也展示了AI整合非结构化数据集(特别是源自中国古代文学经典的叙事音乐资料)的潜力。我们实践的个体项目之力难以改变整体格局,但我们坚信,唯有以具体问题为起点,启动AI智能体的领域化训练,方能切实迈出推动人文学科与AI技术深度融合、激活声音文献遗产的第一步。

我们主张,民族音乐学(及相关领域)学者必须摒弃技术旁观者心态,深度参与到数字工具与方法论的共同建构中。其核心路径在于:放弃“一体适用”的对大模型的幻想,不能坐视简单的、缺乏文化理解的通用数字工具被以“省时省钱”的名义草率地强加于文化遗产机构,最终牺牲档案工作中不可或缺的学术准确性与文化差异性;而应该转向开发本领域专用的AI模型。这要求学科专家与技术团队进行实质性协作:共同制定贴合文化语境的术语体系与受控词表,编写细致周详的描述与翻译指南,并构建由权威学术资源构成的高质量训练语料库。更为关键的是,必须建立一种持续迭代、人机协同的审校与反馈机制,使学者和档案工作者能以其专业知识直接校验输出、纠正偏差、注入文化洞察,从而驱动AI系统在“实践—反馈—优化”的循环中不断完善。因此,我们将AI模型的开发视作一个持续稳健、可协商的渐进过程。短期计划是务实而清晰的:与少数拥有特定声音典藏的机构合作,以小型馆藏为试点,全面评估实际编目挑战与人机协作模式,并以此为基石推进更系统性的工具开发。

我们深信,若此路径得以贯彻,AI技术有望成为一座关键桥梁,助力打破语言与元数据规范间的壁垒,显著提升音响档案的全球可及性。尽管前路充满风险,但我们坚信,唯有通过主动参与和积极建构,才能在人工智能的时代浪潮中,为多样的地方声音争取到应有的、公正的表征权,共同建造一个真正尊重文化差异、珍视声音内在价值的下一代编目基础设施。

“数字时代的声音档案专题”

声音档案在数字人文领域的创造性重构

民族志电影的时间维度:瓦罕走廊与南印度的案例

在博物馆中展示民间声音文献

从数字化到著录:音响档案的再语境化

图片

排版:覃子椿

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

❌