会议征稿 | 第六届数字人文自然语言处理国际会议——NLP4DH2026
2026-01-30 15:43 湖北
第六届数字人文自然语言处理国际会议(NLP4DH 2026)将与ACL2026联合举办。本次会议的论文集将收录于 ACL Anthology
会议将于2026年7月6日在美国圣迭戈举行。
申请提交网页:
https://openreview.net/group?id=NLP4DH.com/2026/Conference#tab-recent-activity
一、会议简介
NLP4DH(Natural Language Processing for Digital Humanities)是一系列专注于“数字人文 × 自然语言处理”深度交叉的国际学术会议/工作坊。其核心使命在于将自然语言处理(NLP)的前沿方法与数字人文的核心议题(如历史学、文学研究、文化遗产及档案学等)进行深度对等衔接。通过构建跨学科的对话空间,NLP4DH 旨在利用自然语言技术赋能历史与当代文本的深层解析,从而弥合计算技术与人文阐释之间的逻辑鸿沟。
在组织形态与学术声望上,NLP4DH 具有显著的“强联合”特征:它通常与 ACL、EMNLP、NAACL 等主流计算语言学顶会联合举办。这种模式不仅吸引了顶级 NLP 专家与资深人文学者的同场交流,更确保了研究成果能通过标准学术评审进入ACL Anthology 数据库。
历届纪录显示其稳健的发展脉络:
2021 年与 ICON 联合(线上);
2022 年与 AACL 联办;
2023 年在日本早稻田大学与 IWCLUL 联合举行;
2024 年与 EMNLP 在迈阿密联办;
2025 年则与 NAACL 在阿尔伯克基联办。
稳定的出版渠道使其在计算语言学社群中具备极高的可见度与引证价值。
在学术议题的深度上,NLP4DH 拒绝“工具的机械化套用”,而强调问题驱动的算法创新。其关注点涵盖了从底层技术到高层阐释的全栈路径:
语料治理与加工:针对历史文献的 OCR 噪声修复、版面分析,以及历时性语料的词法解析与语义漂移建模。
语义与结构挖掘:复杂实体识别(人物、地名、机构)与知识图谱构建;主题、体裁及风格的量化分析。
叙事与交叉评估:计算叙事学视角下的叙事结构提取、长文本建模,以及低资源或多语言人文语料的特殊适配。会议特别鼓励那些既具备严谨方法论(可复现的数据、模型与评测),又能回应人文解释效度(Interpretative Validity)的研究——即探讨计算结果如何进入诠释学论证,并与传统细读法(Close Reading)形成互补。
在评审与交流机制上,NLP4DH 遵循严格的同行评审准则,近年普遍采用 OpenReview 平台进行双盲评审。作为顶会的官方工作坊,它与主会议的注册体系无缝衔接,确保了参会者的跨学科多样性。相比于传统数字人文活动,其最大的学术优势在于方法与数据资源论文能被 NLP 主流社群检索并引用,极大提升了交叉学科成果的传播力。
从社群生态视角来看,NLP4DH 实质上扮演着“学科翻译者”的角色。它将人文学者关心的历史报刊、文学档案、口述史等异构材料转化为可操作的计算任务;同时,它又将计算产出的实体网络、风格表征与语义向量重新嵌入到人文学术写作的证据链中。对于数字人文研究者,这里是接触大语言模型等前沿技术在人文场景适配的最前线;对于NLP研究者,这里则提供了更具复杂性、真实性与理论挑战性的问题空间。
二、主会轨道
本会议聚焦于将自然语言处理技术应用于数字人文研究。征稿主题可涵盖任何数字人文相关议题,但需包含自然语言处理或自然语言生成的研究内容。
适合的议题包括但不限于以下方面:
将机制可解释性相关技术应用于数字人文研究
利用大语言模型及其他自然语言处理系统生成或评估人类书写的叙事文本。
评估模型输出与行为中的文化偏见问题,尤其是在多语言环境下的表现。
数据来源与数据谱系研究,包括对训练前与训练后数据集的分析。
面向文化遗产馆藏的自然语言处理研究,以及与美术馆、图书馆、档案馆和博物馆相关的研究工作。
光学字符识别相关研究,包括文本数据中自动化错误检测与清洗方法。
三、专题轨道:重新审视自然语言处理
本专题征集对大语言模型训练数据特征进行批判性分析的研究工作,鼓励将机制可解释性相关方法创造性地引入人文研究语境,并以人文学科的研究直觉反向强化自然语言处理技术的发展。该专题强调从数字人文出发服务自然语言处理,即以数字人文推动自然语言处理研究。
相关议题包括但不限于以下方面:
用于解释大语言模型行为的关键方法。
在不同社会语境中对自然语言处理技术(包括大语言模型)应用进行情境化分析的研究。
受人文学科启发的预训练与后训练方法。
从预训练大语言模型中挖掘并恢复具有研究价值的潜在结构。
对自然语言处理技术(包括大语言模型)的哲学层面思考。
其他相关研究方向。
四、论文投稿
NLP4DH2026征集与数字人文和自然语言处理(NLP4DH)相关的原创且未发表研究成果。
短论文篇幅不超过4页,长论文不超过8页;两种投稿类型的参考文献页数均不设上限。所有投稿须遵循 ACL 官方模板。
投稿论文必须为匿名稿件,并由程序委员会进行同行评审,评审方式为双盲评审。
论文须在投稿截止日期前通过 OpenReview系统提交。被接收论文的作者中至少有一位需出席会议并进行论文报告。会议注册费用由 ACL 2026 统一收取。
NLP4DH2026同样接受已通过ACL Rolling Review(ARR)评审、但尚未承诺投向其他会议或期刊的论文。已通过 ARR 获得评审意见的论文不得再通过 NLP4DH 的直接投稿通道进行评审,而须选择 ARR 投稿通道,并提供对应 ARR 投稿在 OpenReview 上的论坛链接:
https://openreview.net/forum?id=XXXXXXXXXXX
所有被接收的论文(短论文与长论文)将收录于会议论文集,并发表于 ACL Anthology。此外,作者将获得额外一页篇幅用于回应审稿意见。最终定稿版本中,短论文最多可为5页,长论文最多可为9页,参考文献页数仍不设上限。
被接收论文的作者还将受邀向 Journal of Data Mining & Digital Humanities 的专题专刊提交论文扩展版本。
五、时间信息
直接投稿(长论文与短论文):2026年3月5日
ARR 承诺投稿截止日期:2026年3月24日
录用结果通知:2026年4月28日
最终定稿提交截止日期:2026年5月12日
会议时间:2026年7月2日至3日
所有时间均以AoE时间为准。
有任何疑问可通过电子邮件联系Sil Hamilton:srh255@cornell.edu
六、特邀发言人
01
Sophie Hao
Boston University
现任波士顿大学(Boston University)语言学与数据科学系 Moorman-Simon 助理教授。
(1)
教育与职业背景
Sophie Hao 于耶鲁大学(Yale University)获得语言学与计算机科学博士学位,导师为 Dana Angluin 与 Bob Frank;此前于芝加哥大学获得数学与语言学双学士学位。在加入波士顿大学前,她曾任纽约大学(NYU)数据科学中心助理教授/教职研究员(Faculty Fellow),并与 Tal Linzen 等知名学者开展博士后阶段的合作研究。此外,她曾拥有 Apple 自然语言机器学习实习及 Epic 软件开发等业界经验。
(2)
研究方向与领域贡献
她的核心研究聚焦于自然语言处理的可解释性(Interpretability for NLP),致力于构建一套跨学科的深度神经语言模型科学(Science of Deep Neural Language Models)。其研究兴趣广泛,涵盖了以下前沿领域:
模型探测与分析:包括探测(Probing)、神经表征(Neural Representations)及特征归因(Feature Attribution)。
计算语言学理论:计算理论、神经架构分析、形式语言识别与电路复杂度(Circuit Complexity)。
生成语言学与数学语言学:涉及语法学、音系学及生成语法与大语言模型的交叉研究。
评估与心理语言学:语言学评估、心理语言学建模及模型接受度判断的影响因子分析。
数字人文与社会公正:偏见与公平性研究、数字人文、数字社会科学以及社区声音在在线安全中的表征。
(3)
代表性学术成果
Sophie Hao 在 TACL、EMNLP、NAACL 等 NLP 顶级会议与期刊上发表了多篇具有影响力的论文。其代表作探讨了 Transformer 模型在处理形式语言时的电路复杂度,以及 Transformer 如何通过线性编码确定动词屈折变化。她多次受邀在 ETH Zürich、Flatiron Institute 等顶尖科研机构及“语言数学”等国际会议上发表主题演讲。
02
Luca Soldaini
现任艾伦人工智能研究所(Ai2)首席研究科学家(Lead Research Scientist),隶属于 Olmo 团队。在加入 Ai2 之前,他曾担任亚马逊Alexa 部门的高级应用科学家。他于 2018 年在乔治城大学信息检索实验室获得计算机科学博士学位,师从Nazli Goharian。
(1)
研究方向与领域贡献
Luca 近期的研究核心在于提升大语言模型在构建、训练及评估全链路中的透明度。主要科研成就包括:
Olmo 项目联席主管:他与Kyle Lo共同领导 Ai2 旗舰开源语言模型项目Olmo的数据团队。Olmo 是目前顶尖的完全开源模型,旨在推动大模型科学研究。他主导发布了稠密(Dense)与混合专家(MoE)架构的多个版本,并公开了所有训练数据、代码、训练配方(Recipes)及模型权重(Checkpoints)。其最新发布的 Olmo 3 包含 7B 和 32B 规模的指令微调(Instruct)与推理(Thinking)模型,性能直面竞争对手 Qwen 3。
模型对齐与适配:他与团队共同开发了多套语言模型适配方案。2024年推出了Tulu 3,这是一套支持高达405B参数规模的顶尖后训练(Post-training)流水线。此外,他还参与开发了开源多模态模型家族 Molmo,其性能足以媲美闭源视觉语言模型(VLMs)。近期,他发布了DR Tulu,这是一套用于构建深度研究系统的全开源配方,其实测性能超越了Gemini 3 Pro与GPT-5。
数据治理工具链:他协作开发了多项预训练数据清洗工具。其中包括高性能PDF文本提取模型 olmOCR(其第二版本通过可验证单元测试的强化学习得到了显著增强),以及能够按主题和格式对大规模网页数据进行划分的 WebOrganizer。
七、组织者
01
Sil Hamilton
Cornell University
康奈尔大学(Cornell University)信息科学系博士研究生,师从David Mimno与Matthew Wilkens教授,在“文化与计算实验室”开展研究。同时担任 Epiq AI Labs 的 AI 研究科学家,于2025 年获得加拿大自然科学与工程研究委员会(NSERC)为期三年的奖学金资助,专注于从神经网络中提取知识。
(1)
研究方向与领域贡献
Sil 的研究致力于界定人类与语言模型在认知与知识论(Epistemologically)上的差异。他结合叙事理论(Narrative Theory)与模型可解释性(Model Interpretability),深入调查大语言模型在法理学、新闻学及文学创作等领域中如何(以及为何无法)精准捕捉文化概念。
作为NLP4DH研讨会的核心组织者之一,他曾多次担任会议分论坛主席。在哈佛大学 CS50 课程中,他讲授 了GPT-4 的工作原理,并为全球数万名记者开发了“生成式人工智能应用”课程,涵盖英语、西班牙语和葡萄牙语多个版本。除了在 Epiq AI Labs 担任研究科学家,他还开发了 DocPlot(浏览器端私密语义搜索)和 feature-space-explorer(3D 句子嵌入可视化)等开源软件工具。
(2)
代表性学术成果
他在 NLP 与DH的交叉领域发表了多篇高质量论文,主要涵盖以下三个维度:
叙事与基准测试:代表作 NarraBench(被 EACL 2026 接收)构建了评估大语言模型创意表现的综合框架。此外,他在 COLM 2025 上发表了关于大语言模型感官语言使用的探测研究(The Zero Body Problem)。
可解释性与模型分析:研究涉及强化学习(RLHF)导致的模型叙事模式坍塌(Mode Collapse)、结构化输出对模型准确性的损害,以及利用情感分析识别小说章节边界。
模拟与社会科学应用:利用 GPT 模拟最高法院判决(Agent-Based Modeling),以及利用反事实新闻(Counterfactual Journalism)评估模型对特定事件的先验概率。
02
Emily Öhman
Waseda University
现任早稻田大学国际教养学部(SILS)副教授。同时,她还拥有赫尔辛基大学(University of Helsinki)语言技术与数字人文领域的“Docent”头衔(类似于北欧/德国体系的特许任教资格),并担任拉普兰塔-拉赫蒂理工大学(LUT University)计算媒体与传播研究方向的访问教授及兼职副教授。
(1)
教育与职业背景
于 2021 年在赫尔辛基大学获得数字人文-语言技术博士学位,其博士论文题目为《情感语言:构建并应用英语及其他语言情感检测的计算资源》。此前,她于林奈大学获得英语语言学硕士学位。
(2)
研究方向与领域贡献
Ohman 教授的研究处于自然语言处理NLP与人文社会科学的交叉地带,主要研究方向包括:
情感分析与检测:特别是跨语言环境下的情感建模,以及文学作品中的情感曲线分析。
数字人文:致力于数字人文研究基地的创建、计算文学研究及数字研究伦理。
计算社会科学:涵盖宣传检测、仇恨言论检测以及社交媒体分析。
语言技术应用:利用机器学习、词嵌入和 OCR 技术处理文化遗产收藏及多语言数据集。
(3)
代表性学术成果
重要出版物:在TACL、ICWSM、Language and Cognition 等国际期刊和会议上发表了多篇论文。2024年由Sage出版了专著《文本分析》(Text Analytics)。
开源贡献:开发了多项重要学术资源,包括芬兰语情感强度词典(FEIL)、多语言情感标注数据集(XED)以及Docker化的情感标注工具 Sentimentator。
研究课题:目前主持或参与多项由日本学术振兴会(JSPS)及芬兰研究理事会资助的项目,如“语义空间中的情感地图(EmoMap)”和“文学作品中的负面情感计算研究”。
会议组织:担任NLP4DH的程序委员会主席。
学术审稿:担任 IEEE Transactions on Affective Computing、Digital Humanities Quarterly 等顶级学术期刊的审稿人。
教学获奖:因在大型在线编程课程中实施“个体化最近发展区”教学法,荣获第12届早稻田大学 e-Teaching 个人奖。
03
Rebecca M. M. Hicke
Cornell University
康奈尔大学计算机科学系四年级博士候选人,在 C2L 实验室(Culture and Computation Lab)从事研究,导师为 David Mimno。她于 2022 年以优等成绩毕业于卡尔顿学院(Carleton College),获得计算机科学与英语双学士学位,并辅修数字艺术与人文。
研究领域涵盖计算人文、自然语言处理及文化分析。曾在CHR 2025(计算人文研究会议)发表了关于大规模视角分析及基督教小说自动叙事分析的研究。在 NLP4DH 2025上发布了一个包含约7万个文学社交网络的大型语料库,其关于大语言模型感官语言使用的研究被COLM 2025接收,关于计算识别隐喻的研究曾入围CHR 2024最佳短论文奖提名。
04
Yuri Bizzoni
Aarhus University
现任奥胡斯大学文化与社会学院高级研究员,供职于人文计算中心(Center for Humanities Computing)。
(1)
研究方向与领域贡献
他的研究高度跨学科,主要利用深度学习和定量方法解决人文领域的复杂问题。
计算叙事学与文学分析:重点研究文学文本的动态演变,包括情感曲线建模、叙事结构自动评估,以及文学作品中“质感”与“风格”的量化。
情感分析:致力于开发适用于文学和多语言语料库的持续性情感评分系统。
数字人文下的大语言模型应用:探索大语言模型在人文研究中的局限与潜力,例如他在 2025 年参与了关于 GPT 助手研究平台的开发项目。
性别与偏见分析:曾通过大规模观测研究,分析书籍评论评价中的系统性性别不对称。
(2)
代表性学术成果
Fabula-NET 项目:这是一项利用深度神经网络对文学虚构作品和叙事进行多维度自动评估的重大项目(2021-2024)。
跨领域合作:他的学术产出非常丰富,在 LREC-COLING、ACL、CHR(计算人文研究会议)等顶尖学术场合频繁发表论文。
NLP4DH 深度参与者:不仅是NLP4DH 2025的论文作者之一,还主编过多本关于数字人文自然语言处理的会议论文集。
05
Axel Bax
Cornell University
现为康奈尔大学信息科学系博士研究生。他同样效力于 C2L 实验室(Culture and Computation Lab),由 David Mimno 与 Matthew Wilkens 两位教授共同指导。
(1)
研究方向与领域贡献
Axel 的研究专注于利用计算方法探索文学趋势及文学接受史(Literary Reception)。其研究特色在于:
地理空间分析:特别关注文学中的地理因素。通过地图可视化与计算地理模型,研究文学作品如何呈现空间感,以及读者的接收习惯如何受地理位置影响。
文化计算:通常涉及大规模书目数据分析,利用 NLP 技术提取文学文本中的时空线索。
06
Jacob A. Matthews
Cornell University
现为康奈尔大学罗曼语研究(Romance Studies)博士候选人,辅修认知科学。于2019 年在哥伦比亚大学获得法语与法语区研究学士学位。
(1)
研究方向与领域贡献
Jacob 的研究高度融合了实验心理学、计算语言学与人文理论。他致力于将计算与实验方法应用于人文领域,特别是文学与区域研究。其核心研究领域包括:
语言模型表征分析:深入探讨语言模型与嵌入模型的内在表征机制。
人类与机器语言处理差异:对比人工智能与人类在大脑认知层面的语言处理异同。
文学理论与认知:利用 Gilles Deleuze(德勒兹)和 Michel Serres(塞雷斯)等思想家的理论探讨认知科学问题。
(3)
代表性学术成果
他活跃于康奈尔大学的多个顶尖实验室,包括 C.Psyd(计算心理语言学实验室)、Humanities Lab 以及 Cornell NLP 组。
顶会论文:在 ACL 2024 (Findings) 上发表关于正字法噪声(Orthographic Noise)如何影响上下文词嵌入的研究。
网络嵌入:在 PEER 2024 及 Text as Data (TADA) 2023 上提出了利用属性网络嵌入增强语言模型表征的简易高效方法。
心理语言学实验:在第 36 届人类句子处理年会上展示了关于“Wug Vectors”理解机制的研究,探索模型在处理虚构词汇时的泛化能力。
07
Mika Hämäläinen Metropolia
University of Applied Sciences
博士毕业于赫尔辛基大学(University of Helsinki),是 NLP 领域的资深研究员和开发者。他是一位典型的“代码与人文”实践者,研究范围从尖端的深度学习技术一直延伸到濒危语言的保护。
(1)
研究方向与领域贡献
Mika的科研工作具有极强的原创性和工具性,主要集中在以下方向:
计算创意:探索如何利用 AI 进行文学创作、隐喻生成以及非标准语言的处理。
乌拉尔语自然语言处理(Uralic NLP):他是该领域的权威专家,致力于为芬兰语及其他少数/濒危乌拉尔语种构建计算资源。他开发的 UralicNLP Python 库是该领域的标准工具。
非规范化数据处理:研究如何处理历史文献、方言及社交媒体等不符合标准语法规范的数据。
开源科学倡导者:他强调科学研究的透明度,主张公开所有的研究代码和数据集(Kaggle/UralicNLP),并在学术界积极推广开放研究数据。
八、项目委员会
Hale Sirin, Johns Hopkins University
Thibault Clérice, INRIA Paris - Almanach
Noémi Ligeti-Nagy, Hungarian Research Centre for Linguistics
Anna Dmitrieva, University of Helsinki
Frederik Arnold, Humboldt Universität Berlin
Dongqi Liu, Universität des Saarlandes
Won Ik Cho, Samsung Advanced Institute of Technology
Konstantin Schulz, Humboldt Universität Berlin
Aynat Rubinstein, Hebrew University of Jerusalem
Alejandro Sierra Múnera, Hasso Plattner Institute
Tim Fischer, University of Hamburg
Shu Okabe, Technische Universität München
Ronja Laarmann-Quante, Ruhr-Universtät Bochum
Yoshifumi Kawasaki, The University of Tokyo
Klara Venglarova, Universität Graz
Youngsook Song, Sionic AI
Joshua Wilbur, University of Tartu
Keito Inoshita, Shiga University
Kenichi Iwatsuki, Mirai Translate
Piper Vasicek, Brigham Young University
Mohammed Attia, Google
Laura Manrique-Gómez, Universidad de Los Andes
Craig Messner, Johns Hopkins University
Abhai Pratap Singh, Carnegie Mellon University
Balázs Indig, Eötvös Lorand University
Anton Eklund, Umeå University
Jouni Tuominen, University of Helsinki
Jesse Roberts, Tennessee Technological University
Nikita Neveditsin, St. Mary's University
William Thorne, University of Sheffield
Lev Kharlashkin, Metropolia University of Applied Sciences
Jonne Sälevä, Brandeis University
Gleb Schmidt, Radboud University
Erik Henriksson, University of Turku
Amanda Myntti, University of Turku
Erkki Mervaala, University of Helsinki
Jay Park, Nanyang Technological University
Lama Alqazlan, University of Warwick
Pascale Moreira, Aarhus University
Enrique Manjavacas, Arevalo University of Leiden
Chahan Vidal-Gorène, École Nationale des Chartes
Lucija Krusic, Karl-Franzens-Universität Graz
Lidia Pivovarova, University of Helsinki
Iana Atanassova, University of Franche-Comté
Sebastian Oliver Eck, University of Oxford
Shuo Zhang, Bose Corporation
Tomasz Walkowiak, Wroclaw University of Science and Technology
Elissa Nakajima, Wickham Waseda University
Nicolas Gutehrlé, University Bourgogne Franche-Comté
Hanna-Mari Kupari, University of Turku
Sourav Das, Indian Institute of Information Technology Kalyani
Antti Kanner, University of Helsinki
Julie-Anne Meaney, University of Edinburgh
Eetu Mäkelä, University of Helsinki
Fotini Koidaki, University of Crete
Yuzuki Tsukagoshi, University of Tokyo
Quanqi Du, Ghent University
Hugo Gonçalo Oliveira, Universidade de Coimbra
Maciej Kurzynski, Lingnan University
Xinmeng Hou, Columbia University
Sijia Ge, University of Colorado at Boulder
Mary Ogbuka Kenneth, Imperial College London
Mina Rajaei Moghadam, Northern Illinois University
Quan Duong, University of Helsinki
Mohamed Hannani, Universität Siegen
Pascale Feldkamp, Aarhus University
Eiaki Morooka, Metropolia University of Applied Sciences
Jahnavi Anilkumar Kachhia, Facebook
Rynaa Grover, Google
Milavkumar Sha, IEEE
Pratik Aher, Meta
Kunal Chhabaria, Walmart Connect
Elena Klyachko, HSE University
Yulia Badryzlova, Higher School of Economics
Mariia Fedorova, University of Oslo