《数字人文专业委员会简报》2025年第11期
数字人文专委会 2025-12-09 16:47 山西
编者按:本期简报设有前沿透视、数字人文项目推介、会议培训与学术观察四个栏目。前沿透视栏目报道了最新发布的“AI太炎3.0”古汉语大语言模型和《佛学典籍文献数据库》;数字人文项目推介介绍了Living with Machines:数字人文视野下的工业革命的研究项目;会议培训栏目回顾了“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”会议,并预告了三场即将召开的会议:EvaHan2026古籍多模态OCR国际评测、德国的人工智能与关联开放数据之间的现当代史数字版本研讨会和人文学科和文化科学的数据能力研讨会,还报道了法国2026年巴黎人文学术研讨会(Humanistica 2026)的征稿,以及韩国釜山大学2026年数字人文学者冬校的培训信息;学术观察栏目遴选了四篇数字人文最新的理论与实践研究成果,反映数字人文方法与应用层面的持续创新与探索。
本期目录
前沿透视
“AI太炎3.0”古汉语大语言模型正式发布
《佛学典籍文献数据库》发布
数字人文项目推介
Living with Machines:数字人文视野下的工业革命
会议培训
会议回顾
“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”
会议预告
EvaHan2026古籍多模态OCR国际评测
德国:人工智能与关联开放数据之间的现当代史数字版本研讨会
德国:人文学科和文化科学的数据能力研讨会
会议征稿
法国:2026年巴黎人文学术研讨会(Humanistica 2026)征稿
专题培训
韩国:釜山大学2026数字人文学者冬校
学术观察
以AI塑形智慧图书馆:基于智能体的下一代图书馆服务平台
面向口述史文本分析的大语言模型提示工程与人机协同策略
数字人文视域下城市记忆的跨媒介叙事研究——以“北京记忆”为例
人工智能时代科技人文融合发展:理论与实践
前沿透视
“AI太炎3.0”古汉语大语言模型正式发布
11月17日,由北京师范大学科研团队自主研发的“AI太炎3.0”古汉语大语言模型在第七届中国教育创新成果公益博览会期间正式发布,为中华优秀传统文化的智能传承与教学应用开辟了新路径。
“AI太炎”是北京师范大学汉字汉语研究与社会应用实验室全流程自主研发的古汉语大语言模型,自2023年11月内测发布以来,历经三个版本的迭代升级。本次发布的3.0版本在2.0基础上进一步强化了模型训练与应用功能,提升了模型对文言文的理解与加工能力,并在辞书编纂、基础教育、文化传播等多个场景实现深度拓展。据悉,“AI太炎3.0“在辞书编纂方面,能够对历时词义进行精准获取与归纳,梳理义项系统,为辞书修订提供重要依据,甚至发现人工难以察觉的语言问题,供专家进一步研判。在基础教育方面,该团队此次重点集成了文言文阅读难度分级功能。文言文是中小学教学的难点,过去缺乏科学的文本难度测评手段。现在借助“AI太炎”,可对文言文篇目进行等级评估,精准推送阅读内容,从而系统提升学生文言文阅读能力。
除了基础教育与辞书编纂,“AI太炎3.0”还在文化传播与学术研究中展现出广泛潜力。该模型支持将文言文翻译为英语、法语、俄语等国际主流语种,助力中国传统文化走向世界。在学术层面,基于其构建的历时词义语料库系统呈现了汉语词义上千年来的演变轨迹,为语言与文化研究提供了数据支撑。
(https://mp.weixin.qq.com/s/J9jCaW-c0Ma-hUXvXDdcZg)
《佛学典籍文献数据库》发布
《佛学典籍文献数据库》,是古联公司推出的佛学专题数据库。数据库收录资源共计约3.5亿字,主要包含三类佛学文献资源,第一类:中华书局已经出版的《中华大藏经(汉文部分)》和《中华大藏经(汉文部分)·续编》;第二类:历代教外涉佛文献资源,包括《史部佛迹》《子部佛影》《集部佛论》《金石佛踨》四部;第三类:中华书局和合作出版社出版的佛学文献丛书及单行本整理成果。
《佛学典籍文献数据库》主要功能包括:佛学分类浏览、全文检索、图文对照阅读、注释显示、机器自动标点、阅读模式设置及笔记等快捷工具。
数据库网址:https://fo.ancientbooks.cn
(https://mp.weixin.qq.com/s/zkcwNSFY3brpdu0T8URuyA)
数字人文项目推介
Living with Machines:数字人文视野下的工业革命
“Living with Machines” 是一个以数据驱动为核心的数字人文研究项目,旨在通过开发计算模型、工具与研究基础设施,探索文化遗产采集、分析与诠释的新路径。项目聚焦于19世纪(约1780—1918年)英国的工业化进程,研究技术变革如何深刻影响社会结构与文化认知,并指出该时期信息的生产与收集规模出现了前所未有的增长。项目以跨学科合作为基础,融合历史学、计算语言学、地理信息科学与数据工程等领域的方法,并将“众包”作为核心策略之一。项目联合了英国艾伦·图灵研究所、大英图书馆以及剑桥大学、东英吉利大学等机构共同开展,实现了科研工作与公众参与的有机结合。同时,项目借助博客、工作坊、现场演示及教学手册等多种形式,构建了一个活跃的用户与研究者社群,有效推动了研究理念与成果在更广泛社会群体中的传播。
1.用MapReader读懂历史地图的空间故事
“Living with Machines” 项目团队在地图数据分析领域开发了一款开源计算机视觉工具 MapReader,用于支持历史地图的结构化研究与空间信息提取。该工具由项目成员使用 Python 编写,主要面向数字人文与历史地理研究领域,现于Github公开(https://github.com/maps-as-data/MapReader)。
2.用Digital Environmental Scan看见被数字化遗漏的历史
在历史文本数字化研究中,“Living with Machines” 项目团队提出了 Digital Environmental Scan 方法,用于评估数字化文献在代表性与数据偏差方面的问题。该方法基于统计建模与计算文本分析,旨在识别数字采样在社会阶层、地域分布及政治倾向等层面的系统性失衡。
3.用BERT解析十九世纪的语义演化
在语言模型研究部分,“Living with Machines” 项目团队采用了由 Google AI 于2018年提出的BERT(Bidirectional Encoder Representations from Transformers) 模型,并在此基础上训练出针对十九世纪英语语料的定制版本 BLERT(British Library + BERT)。该模型基于 Transformer 编码器架构,利用自注意力机制(Self-Attention)在上下文双向语境中学习词汇间的语义关系。在具体应用中,BLERT被用于检测历史语料中机器与人类之间的语言关系,特别是识别文本中“机器拟人化(Animacy of Machines)”的表达模式。
(https://mp.weixin.qq.com/s/QVmBO9H3HG9tNhoqX2Vajw)
会议培训
会议回顾
“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”
11月1日,由中国人民大学中华文明研究院、历史学院、数字人文研究院共同主办,民国史研究院、数字清史实验室协办的“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”学术研讨会在中国人民大学通州校区召开。70余位专家学者与会共探AI赋能中国近现代史研究新路径。
本次学术研讨会响应国家文化数字化战略,关注新技术驱动下中国近现代史研究的新面向,以中国近现代史、计算机技术、图书情报档案学等多学科交叉为依托,旨在回应时代发展、科技变革对历史学研究产生的深刻影响。主题演讲环节由三个部分组成,学者们围绕“智能体与中国近现代史研究”、“新一代中国近现代历史文献数据库开发”、“数字人文的教育实践”三大核心议题,呈现出在AI技术赋能下的中国近现代史研究新工具与新方法,展现出史学数据库正从“资源仓储”向“智能工具”跃迁,数字人文也正为学科建设与人才培养注入全新动能。
会议还设置六场分组讨论,将视角延伸至更广阔的个案研究中。六个平行分会场报告显示,AI技术已不再停留于概念,而是切实地融入研究流程:从基于深度学习构建中共党史知识图谱,到利用大模型分析日记史料中的人物网络与思想变迁;从运用稀疏自编码器探索概念史研究新范式,到借助人工智能量化分析清代官制、近代市镇与经济……AI正在盘活海量史料,催生新的问题意识与研究路径。
在圆桌讨论中,学者们一致认为:人工智能时代的到来,正推动中国近现代史研究经历一场从方法论到认识论的“智识重构”。学者们纷纷表示,未来的中国近现代史研究将不再仅仅聚焦于“我们从史料中能找到什么”,更应借助以AI技术为代表的信息技术新工具,从史料中透视其中前所未见的结构、关联与模式。这场变革的核心,是缔造走向人机协同、互为启迪的研究新范式。
(中国人民大学会议供稿)
会议预告
EvaHan2026古籍多模态OCR国际评测
为持续推动中文古籍智能处理技术发展,由南京农业大学、南京师范大学、南京理工大学等多单位联合主办的EvaHan2026国际评测会议,将于2026年5月11日-16日在西班牙马略卡岛LREC 2026子会议上举办。这是第五届针对古代汉语语言技术的国际测评,本次测评聚焦于利用大语言模型(LLMs)进行古代汉语OCR识别任务,力图评价大语言模型的实际应用能力。
EvaHan2026国际评测组织者将会为参赛者提供统一的训练和测试数据集,参赛者则需要提交在测试集上的实验结果,由组织者评估参赛者最终提交的数据的真实性。数据集包括三类图像文本对:纯文本图像、混合图文图像及手写文本图像,经过自动标注及专家修订后形成高质量的训练和测试集。并规定了两种参赛模式,封闭模式(强制):仅允许使用官方训练数据+允许的预训练视觉 - 语言模型(基准线基于Xunzi_Qwen2_VL_7B_Instruct);开放模式(可选):不限制外部资源、数据、模型,但需在技术报告中完整披露每队最多可提交两次运行(封闭一次+开放一次),最终评分以最后一次提交的运行为准。
主办单位:南京农业大学、南京师范大学、南京理工大学等
注册开放时间:2025年12月1日
会议时间:2026年5月11日-16日
会议地点:西班牙·马略卡岛
(https://mp.weixin.qq.com/s/AXypKQbLfjnPdbYfmHx0JA)
德国:人工智能与关联开放数据之间的现当代史数字版本研讨会
本次研讨会聚焦人工智能(KI)、大型语言模型(LLMs)和关联开放数据(LOD)在历史文献数字版本领域的应用所带来的当前挑战与机遇。重点关注具有政治、行政及外交属性的现当代史资料——例如议会文献、内阁档案和法令条例等。
会议旨在探讨并阐明新技术在数字编辑领域的潜力与局限,以及这些技术对编辑标准、工作流程和学术应用产生的影响。核心议题将围绕:何种方法与技术创新适合构建具有长期可持续性、互操作性,并能融入学术基础设施的数字版本。
研讨会将汇聚来自编辑学、数字人文与计算机科学领域的国际专家,共同探索在人工智能辅助分析与语义关联数据背景下,编辑工作的未来发展方向。
主办单位:议会制度和政党历史委员会 (KGParl)
会议时间:2025年12月4日-5日
会议地点:议会制度和政党历史委员会 (KGParl),施皮尔贝格达姆街40号,柏林
(https://dhd-blog.org/?p=22930)
德国:人文学科和文化科学的数据能力研讨会
本次研讨会要求参与者具备关联开放数据(Linked Open Data)的基础知识,并将深入探讨人文与文化科学领域的特定主题及应用案例。主要内容包括:
1.关联开放数据在研究实践中的应用
2.用于研究数据与研究问题的Wikibase
3.在Wikidata中使用工具和查询进行实际操作
在多场主题报告后,受邀专家将以Wikidata平台为例,指导参与者结合自身研究数据与问题,实践应用关联开放数据。
主办单位:Bring-your-own-data-Lab
会议时间:2025年12月3日-4日
会议地点:莱布尼茨欧洲历史研究所(IEG),旧大学路19号,德国美因茨55116
会议官网:
https://de.wikiversity.org/wiki/Kurs:Datenkompetenz_mit_LOD_(2025-12)
(https://hermes-hub.de/aktuelles/events/byodl-2025-12-03.html)
会议征稿
法国:2026年巴黎人文学术研讨会(Humanistica 2026)征稿
法国数字人文协会举办的第七届国际研讨会将于2026年5月20日至22日在巴黎EPITA举行,会前研讨会则将在2026年5月19日举行。本次会议主题为“数字人文/计算人文:交叉视角”,旨在突出近年来因数据分析能力提升和数字人文向计算转向所带来的变革。历史上,数字人文主要关注资源的数字化、数据库的构建以及知识的在线传播。如今,随着机器学习、密集计算和越来越高效的算法的发展,计算人文的概念应运而生,它指的是在人文学科和社会科学中使用先进的计算机方法。
本次会议征稿将围绕以下三个方向组织相关领域的报告:
1.获取与结构化数据
2.评估、分析与利用数据
3.探讨框架、问题与实践
Humanistica 2026鼓励多样化的提案,包括:
1.语料与数据的创建
2.使用数字/计算方法进行人文社科研究的案例
3.合作项目或数字平台的经验反馈
4.方法或技术的实验
5.批判性分析,探讨数字实践中的伦理、法律与社会政治问题
任何有助于促进数字人文与计算人文之间对话的提案都将纳入考虑范畴。会议面向艺术、文学、人文与社会科学等各个学科,以及计算机科学家与人文学者合作的跨学科项目。特别鼓励青年学者以及图书馆、档案馆、博物馆和文化机构的专业人员提交提案。会议主要面向法语数字人文社群,但也欢迎希望与法语社群对话的国际参与者。
主办单位:法国数字人文协会
会议时间:2026年5月19日-22日
会议地点:EPITA(巴黎/克里姆林-比什特雷)
截稿日期:2026年1月7日23:59(全球各地)
(https://www.humanisti.ca/aac-colloque-humanistica-2026-a-paris/)
专题培训
韩国:釜山大学2026数字人文学者冬校
釜山大学将于2026年2月3日至5日举办为期3天2夜的“2026数字人文(DH)冬季学校”。
本次冬校的课程设计旨在让即使没有编程经验的人,也能通过理论与实践相结合的方式,具体体验数字方法论为人文研究带来的可能性。招募对象为对数字人文学者有兴趣的研究者(本科生以上,无需数字人文相关背景知识)。
冬季学校将分为两个方向进行:
1.“分析方向”将重点讲解文本数据分析和 GIS(地理信息)分析方法论
2.“档案方向”则聚焦于利用Omeka-S构建数字档案及开展线上展览
主办单位:釜山大学数字人文中心等
培训时间:2026年2月3日-5日
培训地点:釜山大学(釜山校区)人文馆
申请截止日期:第一次截止 (宿舍申请者) : 2025年11月21日 (星期五) 23:59;第二次截止 (未申请宿舍者) : 2025年12月26日 (星期五) 23:59
学术观察
以AI塑形智慧图书馆:基于智能体的下一代图书馆服务平台
来源:刘炜,张磊,嵇婷,等. 以AI塑形智慧图书馆:基于智能体的下一代图书馆服务平台 [J]. 农业图书情报学报, 2025, 37 (05): 15-26. DOI:10.13998/j.cnki.issn1002-1248.25-0379.
摘要:[目的/意义]云计算时代提出的图书馆服务平台(LSP)未能实现其成为图书馆统一解决方案的承诺,在智慧图书馆时代又面临新的发展瓶颈。其相对刚性的架构、孤岛化的数据模型和有限的智能水平,难以满足现代用户对新型资源生态的获取,及主动式服务的迫切需求。本文皆在提出-种基于大语言模型(LM)智能体(Agent)的下一代LSP架构A-LSP,以解决现有LSP的局限性,并推动图书馆服务平台向人工智能时代转型。[方法/过程|该架构引入了一个新的3层概念模型,包括实现标准化工具集成的MCP市场、负责编排调度的智能体中间件,以及支持功能扩展的智能体应用生态层。同时,文章面向未来图书馆提出了“五大中心”的建设需求框架,即智慧资源中心、智慧服务中心、智慧学习中心、智慧学术交流中心与智慧文化传承中心,以构建图书馆技术与业务融合的蓝图。[结果/结论|研究提出的A-LSP架构通过基干模型上下文协议(MCP)的API封装,确保了对现有系统的后向兼容性,能够在不替换原有系统的基础上实施新的平台战略。这一基于智能体的图书馆服务平台可以看成是现有LSP的重要升级,将驱动其从以资源管理为中心转向以智能体服务为中心,成为人工智能时代的图书馆服务平台。
面向口述史文本分析的大语言模型提示工程与人机协同策略
来源:马林青,石佳琪,曹星宇. 面向口述史文本分析的大语言模型提示工程与人机协同策略 [J]. 数字人文研究, 2025, 5 (03): 41-60.
摘要:历史研究长期依赖官方档案与精英著述,易导致个体记忆被边缘化。口述史则为重现被忽略的社会生活与个体记忆提供了独特窗口,但其非规范性、高语境依赖性及多维交织的文本特性,使结构化信息抽取和系统分析面临挑战。研究以票证口述史文本为案例,旨在探索并验证一套将大语言模型(LLM)“规训”为能够严格遵循研究指令的学术助手的“人机协同”方法论。研究设计了系统的四阶段渐进式实验,通过“基础指令—规则化指令—程序化约束—小样本学习”的迭代优化,探索如何科学、有效地利用LLM强大的语义理解与指令遵循能力,以实现高效、精准的结构化信息抽取。研究发现,提示词工程化水平显著影响LLM输出质量,精巧的程序化约束可将大模型分析准确度大幅提升。研究还系统比较了同一技术框架下为不同任务优化的LLM在逻辑遵循能力上的表现差异,验证了小样本学习的价值与效益饱和点,并揭示了LLM在精确计算等任务上的固有缺陷。研究最终提炼出一套面向口述史文本分析的包含“规则化转译”与“任务合理分工”等核心策略的LLM“规训”框架,实现了高效、精准的口述史文本结构化分析,为数字人文研究提供了一种可复现、兼具效率与深度的智能研究范式参考。
数字人文视域下城市记忆的跨媒介叙事研究——以“北京记忆”为例
来源:王一楠,祁天娇. 数字人文视域下城市记忆的跨媒介叙事研究——以“北京记忆”为例 [J/OL]. 内蒙古师范大学学报(哲学社会科学版), 1-7[2025-11-13].
摘要:城市记忆是应对城市发展趋同化挑战的重要文化资源。在数字人文背景下兴起的“数字记忆”范式,为城市记忆的留存与传承开辟了新路径。其关键在于从“静态存储”走向“生成互动”,故需引入跨媒介叙事理论,以统筹异质资源和多元媒介,激活用户参与,形成连贯而富有层次的文化表达。研究结合“北京记忆”案例,探讨该理论在资源组织、内容生产与社会传播中的成效,进而提出“跨媒介数字策展机制”,以推动构建可持续演化的城市数字记忆生态。
人工智能时代科技人文融合发展:理论与实践
来源:张江,王宁,刘建军,等.人工智能时代科技人文融合发展:理论与实践[J].上海交通大学学报(哲学社会科学版),2024,32(11):79-90.
摘要:知识论与价值论的相互融合及其关系转化,对人文学科的建设至关重要。从阐释学的角度来看,“知识”一词在自然科学中有其特定的概念,而“价值”则被认为更属于人文学科的范畴。自然科学的知识论倾向与人文学科的价值论倾向,为不同领域的学者各取所需,以至于相互排斥、完全对立。按照狄尔泰的观点,自然科学追求的知识是可验证、可重复、可预见的。这一理性导向既引导了我们,又约束了我们。
供稿:卢钰、秋慧婷、沈立力 责编:韩春磊、张宏玲
编辑部:中国索引学会数字人文专业委员会秘书处
电话:64455555-68360
邮箱:DH2020@libnet.sh.cn
- END -
本微信公众平台音频、视频及活动图文信息报道系上海图书馆「全国报刊索引」制作,并享有版权。如需转载或其他合作,请联系公众号获取授权,并标明作者及出处。