普通视图

Received today — 2026年4月28日学术机构（中国大陆）

12 - 南京师大比特人文公众号

好文推荐丨袁毓林：语言大模型怎样突破标记逐个生成的时间瓶颈？——预测从单标记走向多标记，模型从自回归走向扩散式

2026年4月27日 09:00

袁毓林 2026-04-27 09:00 江苏

袁毓林探讨语言大模型由单标记转多标记、自回归走向扩散式以提速。

转载自“语言学札记薄”

好文推荐

语言大模型怎样突破标记逐个生成的时间瓶颈？——预测从单标记走向多标记，模型从自回归走向扩散式

《当代修辞学》 2026年第2期

关键词：（自回归/扩散式）语言大模型；单标记/多标记预测；噪声/掩码去噪

提要

本文从当前人工智能若干关键技术发展趋势的角度，讨论人工智能的未来走向及其对人类生活的影响。本文首先介绍语言大模型怎样通过不断地预测下一个“标记” （token），来理解和生成自然语言并诞生智慧的机理和过程；接着说明这种“单标记预测”的技术困境和时间瓶颈，进而介绍通过并行的推测解码来达成“多标记预测” （Multi-Token Prediction，MTP）的技术原理和实现过程；然后说明单标记和多标记预测等“自回归（autoregression）模型”的局限性，介绍在速度与效率等方面更有优势的“扩散式语言大模型”（dLLM），说明其从噪声（掩码）到结构化输出（去噪）的生成过程和工作机理；最后介绍杨立昆对于语言和语言大模型的局限性的批评意见，说明我们的观点：由于人类对世界的认识依赖于语言，所以从语言大模型走向“通用人工智能”（AGI）依然具有可能性。

全文

注：本文原载于《当代修辞学》2026年第2期。

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号
鷹擊長空！澳門大學世界排名躍居前150 2026年4月27日 09:00

12 - 南京师大比特人文公众号

鷹擊長空！澳門大學世界排名躍居前150

2026年4月27日 09:00

徐惠 2026-04-27 09:00 江苏

2026泰晤士排名发布，澳门大学升至145位，首进全球前150创历史。

转载自“澳大微新闻”

速報！澳大再創歷史新高度！

10月9日，2026年泰晤士高等教育世界大學排名正式揭曉。其中，澳門大學更上一層，全球排名由去年的第180名大幅度進漲至第145名！

#THE世界大學排行榜#

泰晤士高等教育世界大學排名（Times Higher Education World University Rankings），又簡稱為"THE世界大學排名"，是目前全球最具影響力的大學排名之一，與QS世界大學排名、U.S. News世界大學排名、軟科世界大學學術排名一齊被公認為“全球四大高校排行榜”。

該排名每年更新一次，以教育教學、研究論文、研究質量、國際化展望、產業收入等5個範疇共計13個指標，對來自全世界一百多個國家與地區的千餘所大學進行系統性的考核與分排。本次參與排名的高校數量再次刷新記錄，全球共有2191所高校成功上榜，較2025年具有輕微漲幅。澳門大學在此繼續保持前進趨勢，突破前150名，躋身全球前7%！

澳門大學歴年全球排名

認識我們

澳門大學（Universidade de Macau / University of Macau），簡稱“澳大”，是一所位於中國澳門的公立國際化綜合性研究型大學。澳大不僅是中歐商校聯盟、“一帶一路”國際科學組織聯盟、粵港澳高校聯盟、粵港澳大灣區西岸科技創新和人才培養合作聯盟創始成員和亞太高校書院聯盟的成員之一，更是中國大學校長聯誼會——“C9聯盟+”的重要組成部分。

紮實教學優質教研

#ESI全球前1%#

基本科學指標數據庫（Essential Science Indicators，簡稱ESI）是衡量大學和科研機構國際學術水平的權威指標，僅收錄全球論文被引次數排名前1%的學科。而澳門大學不僅15個學科穩居ESI前1%，更有工程學、計算機科學、藥理學與毒理學3個學科突破進入前0.1%的頂尖層級。

澳門大學的師資隊伍龐大卓絕，從全球各地吸納頂尖的學術精英。其中，不僅包含歐洲科學院（外籍）院士、英國皇家學院院士、英國工程技術學會會士、歐洲科學與藝術學院院士、葡萄牙科學院院士、美國電機電子工程師學會會士、美國科學促進會會士、美國土木工程師學會會士、美國機械工程師協會會士、國際光學工程學會會士等國際化團隊配置，更是擁有中國教育部“長江學者講座教授”為學術保駕護航。

澳門大學中央教學樓

澳門大學圖書館

澳門大學世界排名屢創新績，是背後教學育人、科研創新與國際化的實力支撐，是對於澳大整體辦學質量擲地有聲的認可。

今日的進步是明日的基石，澳門大學步步向上的頂尖之路，還看今朝！

文字編輯 | 汪京奧

圖片 | 澳門大學官網、

澳門大學百科、

澳門大學鏡報社

審核| 龔剛教授

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

15 - 安庆师大DH官网
皖江文化数字化实验室联合人文学院开展校企合作文旅宣讲主题班会 2026年4月27日 00:00

15 - 安庆师大DH官网

皖江文化数字化实验室联合人文学院开展校企合作文旅宣讲主题班会

2026年4月27日 00:00

Received yesterday — 2026年4月27日学术机构（中国大陆）

12 - 南京师大比特人文公众号
讣告 | 中国科学院院士戴汝为逝世，享年94岁 2026年4月26日 09:00

12 - 南京师大比特人文公众号

讣告 | 中国科学院院士戴汝为逝世，享年94岁

2026年4月26日 09:00

沉痛悼念的 2026-04-26 09:00 江苏

中科院院士戴汝为4月19日逝世，享年94岁，为我国智能科学等领域作出重要贡献。

来源：中国科学院大学

中国共产党党员、中国科学院院士、中国科学院大学荣誉讲席教授、中国科学院自动化研究所研究员戴汝为同志，因病医治无效，于2026年4月19日10时11分在北京逝世，享年94岁。

戴汝为同志，汉族，1932年12月31日出生于云南石屏，1986年7月加入中国共产党，1951年考入清华大学数学系（后因院系调整并入北京大学），1955年7月毕业于北京大学数学力学系，1955年7月选派到中国科学院力学研究所师从钱学森，1956年进入中国科学院自动化研究所工作。1991年当选为中国科学院学部委员（院士）。曾任第五届中国科学院学部主席团成员。

戴汝为同志是自动控制、模式识别、智能科学、思维科学专家。自20世纪50年代以来，他继承和发扬钱学森科学思想，在控制论、人工智能等领域作出了开创性的研究工作。20世纪80年代初，他率先将“模式识别”理论引入中国，提出“语义-句法模式识别”，为中国汉字识别与汉字信息化应用和普及作出重大贡献。90年代初，他与钱学森共同构建“开放的复杂巨系统及其方法论”，该方法被应用于中国经济、军事及社会发展等领域的重大问题决策中。他深耕前沿科学研究领域，提倡学科交叉，为我国科技事业发展作出了重要贡献。戴汝为同志曾获国家科技进步一等奖、中国科学院自然科学一等奖、“何梁何利”科技进步奖、中国模式识别科技终身成就奖、中国系统工程终身成就奖。

戴汝为同志毕生热爱祖国，对党忠诚，矢志科研报国。他始终潜心研究，坚持求真创新，开学术之先河，树学风之楷模。他奖掖后学，桃李满天下，为我国智能科学领域培养了大批人才。他淡泊名利，品格高尚，宽于待人，深受大家敬重与爱戴。戴汝为同志的逝世是我国科技界的重大损失。我们沉痛悼念并深切缅怀戴汝为同志！他的精神与风范长存！

遵照家属意愿，戴汝为同志丧事从简，不举行公开遗体告别仪式。有关部门、团体和个人如欲致唁电、唁函，请联系中国科学院自动化研究所及中国科学院大学。

谨此沉痛讣告。

中国科学院自动化研究所

中国科学院大学

2026年4月22日

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

1 - 清华大学公众号
为什么莫莱蒂需要被pass，及论睁了眼看 2026年4月25日 17:16

1 - 清华大学公众号

为什么莫莱蒂需要被pass，及论睁了眼看

2026年4月25日 17:16

2026-04-25 17:16 北京

当下中国的问题并非理论缺席，而是追捧大师的太多，肯沉下心做经验研究、真正懂经验数据的太少。

内容来自“数字人文”公众号

数字人文

〉

日前，弗朗科·莫莱蒂（Franco Moretti）教授为华东师范大学中文系带来了名为“Digital Humanities: False movement”的讲座，系列活动再度拉开架势，要将这位“远读”的提出者推到国内数字人文讨论的中心。然而，莫莱蒂真的是“数字人文大师”吗？当莫莱蒂教授以十年前的观察视角，对当下的数字人文展开某种漫不经心的整体性评价时，我们在收获一种盲视之上的“洞见”时，也不得不直面一个令人无奈的错位：他所倾心的“量化形式主义”尚未完成便已“烂尾”，其根源究竟在于数字人文本身走上了歧路，还是缘于莫莱蒂先生自己的半途而废、半折心始？或者说，对于一个并非真正有能力将量化方法落地的学者，当他在面对量化实证与文学阐释的融合难题时，最终选择了望而兴叹，转而以理论批判来回避实践的困境？

量化分析和人文阐释果真难以调和吗？答案或许是否定的。二十年来，在莫莱蒂止步的地方，多少中外青年学者前赴后继，以辛勤的数据工作、严谨的计算建模和严肃的理论思辨，甚至耐心的细读阐发，持续探索文学量化研究的全新可能，试图弥合量化证据与文本阐释之间的鸿沟。莫莱蒂教授在讲座中言及：“当下主流的数字人文方法，如主题建模、文本挖掘、内容分析、情感分析等，均源自那些‘形式’概念不起作用的学科领域，因此它们对深化文学理解的贡献十分有限。”我们不禁要问：某种方法，“源自”形式概念不起作用的领域，就不能用于形式研究吗？这类论断的内在逻辑站得住脚吗？放眼当下，不说国外DH中的量化形式研究（以Hoyt Long, Richard Jean So, Andrew Piper, Ted Underwood等等为代表），单论中国的文学数字人文实践，哪一项有意义的量化工作不是从“形式”入手的？不从形式入手，量化的锚点又在何处？

莫莱蒂扣给数字人文的另一帽子是：“若只关注可见的经验数据，而放弃对理论机制的探索，那么数字人文学就只能是一场错误的运动。”事实上，这不是简单的理论与经验研究之间非此即彼的抉择问题——当大数据时代到来，原有的假设-验证范式和数据驱动之间的矛盾并不会自己得到解决，把理论的式微归咎于数据，认为数字人文是一个“非理论”的领域，是莫莱蒂一贯的看法。“他之所以这么说，很可能因为他自己的研究便不能令人满意，虽有强烈的理论兴趣，但在面对数据时却时常显得束手无策，他看不到出路。”（《作为计算批评的数字人文》）。

在我们看来，当下中国的问题，并不是理论缺席，而是空谈理论、追捧大师的太多，肯沉下心做经验研究、真正懂经验数据的太少。以致于到今天，置身这样一片本应由实干引领的天地，人们看到的还是那些热衷于形上思考、打理论仗的人；而更难堪的是，这一局面导致的后果之一，便是那些既有经验数据支撑，又有理论思考的成果不仅被淹没，甚至很可能根本就出不来，被扼杀于襁褓之中——这一理论与实践、东方与西方的错位，恰是莫莱蒂教授的讲座所折射出的、更值得我们深思的学术场生态。

也许现在真正需要反思的，是一种还未具备扎实实践的能力，还没有过硬的实践涌现，就急于“反思”、急于下定论的心态，这种悬空的“反思”未免可疑。或许，我们不妨先在西方与全球数字人文发展语境中，好好反思（“历史化”）一下莫莱蒂自身的局限与困境，这倒似乎是理论工作者不仅具备条件，而且应该去做的事情。

以下四篇文章，前两篇来自2017年 PMLA 推出的重审莫莱蒂及“远读”专辑，后两篇则从计算批评角度，系统回顾了莫莱蒂道路的内在矛盾，及其终将被超越的必然。坦率说，这些十年前的检讨文章，在数字人文飞速发展的今天已有过气之嫌；但令人遗憾的是，这些文章中早已被反观、辨清的对象自身，竟在时隔十年后的中国课堂上，依旧宣讲着一些新意寥寥的观点和错位的观察，还在试图带来新的热度——这一现象本身，是不是更值得我们停下来“反思”？

延伸阅读

《“所有模型都是错的”》(“All Models are Wrong”)

苏真（Richard Jean So）的文章堪为当年PMLA专辑中最尖锐、精彩的一篇，直指莫莱蒂式远读的局限：其文学统计分析始终停留在描述性统计的表层，由于缺乏模型检验与统计推断等步骤，而尚未走向真正的“建模”。事实上，任何统计学模型都有其“自反性”，人文学者的职责，恰是通过巧妙、负责的运用将其激发出来，这也是Ramsay和Rockwell等人“通过模型来思考，来阐释”的真义所在。对统计学工具的理解与应用存在根本偏差，所谓的“远读”批评从未真正实现量化方法与文学批评的有机融合。

all-models-are-wrong.pdf

《以小见大：论文学建模》(Think Small)

Andrew Piper以科学哲学的模型理论为核心框架，检讨了莫莱蒂远读理论对“规模” 与“宏大”的过度推崇，提出了“以小见大”的文学建模方法论，重构了计算文学研究的底层逻辑。Piper首先指出了文学研究对“大人物”的路径依赖，包括学界对莫莱蒂本人的过度聚焦，指出远读的核心缺陷在于忽视了知识生产过程中本就存在的微观的、建构性的建模环节，将模型输出的结果等同于文学现实本身。文章还提出文学建模的五层嵌套框架：理论化、概念化、实施、选择、验证，系统呈现了文学建模的全流程表征实践，揭示了远读在模型建构各环节的理论与实践缺陷——包括对模型的虚构性与建构性缺乏自觉、测量环节的还原主义、缺乏反思、验证环节未能将细读作为核心标准等。最终提出，文学建模的价值不在于提供宏大的文学史论断，而在于推动文学研究从个人化的权威阐释，转向集体性、累积性的知识生产，实现远读与细读、宏观与微观的有机统一。

think-small-on-literary-modeling.pdf

《从概念模型到计算批评：数字时代的“世界文学”研究》

文章以弗朗科·莫莱蒂、文学实验室和文本光学实验室的探索为中心，尝试用“世界文学”问题来检视“莫莱蒂道路”，揭示其早期实证化探索中概念模型与验证手段之间的悖论，追踪它随后努力汇入数字人文大潮的轨迹。从世界文学最棘手的方法论问题入手，可以发现“远读”虽试图以统计推断和概念建模解决比较文学的危机，却因依赖二手批评、挥之不去的欧洲中心主义和悬置民族语言等问题而终究搁浅；而其后具备了“文化分析学”面向的数字人文，则通过多语种语料建模和可伸缩阅读，将“世界文学”这一抽象猜想发展成为可操作、可证伪的计算批评对象，从而实现了对莫莱蒂道路的超越。

从概念模型到计算批评：数字时代的“世界文学”研究

《作为计算批评的数字人文》

“计算批评”一词虽然曾为莫莱蒂本人所使用，但真正将其发扬光大的，却是后来更年轻的一批人文背景的数字人文学者。艾伦·刘曾指出，数字人文若不能在文本分析与文化分析间顺畅衔接，便难以与莫莱蒂、卡萨诺瓦等人同台竞技。但是十年来人们逐渐看清了莫莱蒂“远读”批评的诸多局限，其中之一便是对数字技术工具性倾向的习焉不察，而后续学者的工作，竟也成了以其实绩不断揭除这种工具化的过程。在Ted Underwood等人看来，以建模为方法已经成为计算批评的根本，这是莫莱蒂之后的人文学者围绕着统计模型的概念，一直在发展的一种严密的方法论。譬如文类研究中，一种思路便是将机器学习的建模和传统的细读结合，借助算法来“发现”某种文体模式的“本质”特征，当这种“本质”恰恰迎合了我们的批评诉求，则有助于完成批评的“实证过程”。因而明智的做法，并不是像莫莱蒂的欧洲小说兴起的研究那样，对四十四种英国小说亚文类直接做聚类可视化，呈现出一种二百年间此消彼长的兴替过程，一种“本该如此”的效果（同时也是很难证实的结论），而是要对文类“视角”和文类观念本身建模……

作为计算批评的数字人文

数字使人文更新

投稿：https://szrw.cbpt.cnki.net

数字人文门户网站：www.dhcn.cn

阅读原文

跳转微信打开

Received before yesterday学术机构（中国大陆）

6 - 上海师大公众号
查清华教授应邀赴长安大学作学术报告 2026年4月25日 09:25

6 - 上海师大公众号

查清华教授应邀赴长安大学作学术报告

2026年4月25日 09:25

请关注 2026-04-25 09:25 上海

数字技术可助力经典文本研究，但人文教育必须坚守精神内核、实现范式革新。

2026年4月23日，应长安大学人文学院之邀，上海师范大学数字人文研究中心主任查清华教授访问该校，做客该校“经纶之辩”导师论坛，并发表主题为“AI时代我们该如何读唐诗”的学术报告。

整场报告主要围绕三个方面展开。查清华教授首先阐述了AI时代人文教育面临的赋能与挑战，指出数字技术可助力经典文本研究，但人文教育必须坚守精神内核、实现范式革新。接着从情感涵育、批判精神、审美塑造三个维度，系统重估唐诗经典的当代价值。最后，也是报告的重中之重部分，他以“言—象—意”为研究路径，对多篇唐诗进行了具体方法品读，强调慢读、体验与共情是读懂唐诗的核心关键。

报告结束后，查清华教授针对现场师生提出的AI辅助唐诗阅读是否会影响独立审美与思考等问题进行了解答。主持人、人文学院中文系主任陈熙熙进行点评，她表示，此次讲座启示大家在AI时代阅读古典诗词时，应回归文本、注重体验，以心灵感受诗意，以批判思维与审美能力汲取经典养分，而非依赖算法与现成结论，此次讲座为师生在数字时代品读唐诗、涵养人文精神提供了重要指引。

（来源：长安大学人文学院）

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号
新书推荐 | 罗天华《作格的类型学研究》 2026年4月25日 00:02

12 - 南京师大比特人文公众号

新书推荐 | 罗天华《作格的类型学研究》

2026年4月25日 00:02

徐惠 2026-04-25 00:02 江苏

语言类型学力作！以80种语言样本探析作格语言特征与共性

转载自“现代语言学”

作格的类型学研究

罗天华著

浙江大学出版社

2025年11月

内容简介

该书在语言类型学框架中探讨作格语言的形态、句法特征以及二者的关联。具体做法是：在世界范围选取80种作格语言作为样本，选择23项形态句法特征并建立数据库，以此分析其中的共性与多样性。在系统比较各项结构特征的基础上，提出60条语言共性，整体呈现了作格语言的类型学面貌。书中着重讨了论形态、语序和小句结构，比较了作格语言与一般语言的类型学特征，提炼了作格语言的主要形态句法特点，并建立了形态与句法之间的一整套关联。

1 绪论

1.1 作格和语法关系

1.2 作格研究简史

1.3 作格语言的分布和本书样本

1.4 参项和框架

2 作格研究的若干理论问题

2.1 作格的三个层面

2.2 作格的两种表达方式

2.3 作格的典型性

2.4 影响作格标记使用的因素

3 类型学的作格观

3.1 概念和术语之乱

3.2 类型学的“作格”

3.3 形式语法的“非宾格”

3.4 作格语言的判断标准

4 作格语言的形态

4.1 形态标记的附着位置

4.2 词缀类型

5 作格语言的小句结构

5.1 小句结构的三项特征

5.2 核心论元结构

5.3 逆被动结构

5.4 双及物结构

6 作格语言的语序

6.1 “自由语序语言”

6.2 作格语言的语序

6.3 作格语言语序的内部关联

6.4 作格语言与一般语言语序比较

6.5 小结：作格语言的语序共性

7 作格语言的疑问结构

7.1 三个问句类型参项

7.2 疑问结构的内外关联

8 作格语言的共性与个性

8.1 语序比较：Greenberg（1966）

8.2 疑问范畴比较：Ultan（1978）

8.3 总体比较（一）：“语言共性库”30项共性

8.4 总体比较（二）：WALS 23个参项

9 作格与汉语形态句法

9.1 现代汉语是作格语言吗？

9.2 古代汉语是作格语言吗？

9.3 汉语是分裂作格语言吗？

9.4 作格语言的主语和汉语的主语

10 结语

10.1 作格的本质

10.2 作格语言的共性

作者简介

罗天华，浙江大学文学院教授、博士生导师。德国康斯坦茨大学哲学博士、华东师范大学文学博士。

主要研究领域为语言类型学和形态句法学，出版专著Interrogative Strategies: An Areal Typology of the Languages of China（John Benjamins 2016）、《汉藏语是非问句的类型学研究》（商务印书馆2023），主编论集《作格与汉语语法》（商务印书馆2022），其中Interrogative Strategies获中国社会科学院吕叔湘语言学奖、教育部高等学校科研优秀成果奖。主持完成国家社科基金项目2项、教育部社科基金项目1项。

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号
《现代汉语大词典》，重磅首发！我国大型语文辞书新成果 2026年4月25日 00:02

12 - 南京师大比特人文公众号

《现代汉语大词典》，重磅首发！我国大型语文辞书新成果

2026年4月25日 00:02

徐惠 2026-04-25 00:02 江苏

《现代汉语大词典》历时20年编纂完成，系统呈现百年汉语词汇，兼具规范与学术价值。

转载自“商务印书馆”

中国社会科学院创新工程重大项目

《现代汉语大词典》

中国社会科学院语言研究所编

江蓝生主编

相较于《现代汉语词典》，《现代汉语大词典》的收词范围和编纂理念主要是什么？

在总体设计和编写上，《大现汉》有许多不同于《现汉》的鲜明特色，在收词、释义、配例以及晚清民国旧词语的处理四个方面，这部词典的主要学术特色是什么？

这部大型词典的编纂前后长达二十年，二十年间又有哪些辞书人的故事？

为大家分享江蓝生、韩敬体先生为词典所作前言节选和全文，一起了解这部反映百年现代汉语面貌的大型语文词典。

前言节选

四十八年前的1978年，由我国著名语言学家吕叔湘、丁声树先生先后担任主编的《现代汉语词典》(以下简称《现汉》)正式出版发行，这是新中国第一部确定现代汉语词汇规范的中型语文词典，在我国辞书史上具有里程碑意义。

《现汉》出版至今多次修订(现已出到第7版)，质量不断提升，但《现汉》是一部中型语文词典，不能完全满足读者查考的需要，因此，早在20世纪六七十年代，吕、丁二位先生就提出由中国社会科学院语言研究所编纂一部收词量更大、内容更丰富的《现代汉语大词典》的计划，但由于种种原因，曾经三次上马都半途而止了，直到2005年夏天才又重新开始。

词汇是反映社会和时代变化最敏感的神经，它随着社会的发展变化而发展变化。五四运动以来的一百多年间，中国社会经历了推翻三座大山的新民主主义革命以及社会主义制度的建立和发展等一系列翻天覆地的变革，从过去封闭、半封闭的社会样态步入到当今全球化、信息化的时代，其间汉语词汇面貌的变化幅度之大是前所未有的。

《大现汉》的编写准备工作从2005年夏季开始，2006年年初正式启动。我们把这部待编的词典设定为:一部在现代语言学理论、辞书编纂理论和实践经验指导下，以丰富、扎实的文献和口语语料为基础，以《现汉》为参照的系统反映百年现代汉语词汇面貌的大型原创性语文词典。

我们的目标不止于编写一部《现汉》的扩容版，而是要编成一部《现汉》的升级版和创新版。

这部大词典的编写分一期——中国社会科学院重点课题(2005一2012年)和二期——中国社会科学院创新工程重大项目(2013一2023年)两个阶段，2023年年底印制了试印本后，又继续打磨修改了两年，前后长达二十年。

二十年间，这些同志由青年变成了中年，由中年步入了老年乃至耄耋之年，还有六位同志因病辞世，编写过程中的艰辛、困苦、曲折一言难尽。

当这部“折磨人”的大词典终于付梓时，我们一方面如释重负，庆幸为社会、为读者做了一件益事，可以向吕叔湘、丁声树二位先生交卷了（尽管晚了很多年）；另一方面，又像一个学生等待老师的评判一样，为书中的不足和问题而惶恐不安。本词典凝聚了我院、我所和语言学界众多学者的集体智慧，在它即将出版之际，我们充满了感恩的心情。

希望这部大体上反映百年现代汉语面貌的大型语文词典既可以用于语文学习和教学，也能以其学术含量为语言学研究提供参考。其价值，相信学界和读者当有公论。

前言全文

<< 滑动查看下一页 >>

《现代汉语大词典》

历经20年编纂完成，是我国大型语文辞书的最新成果

系统反映五四新文化运动以来百年现代汉语词汇面貌

守正纳新存故多元

百年汉语词汇面貌大观

共时性与历时性相结合规范性与描写性相结合学术性与实用性相结合

《现代汉语大词典》是在现代语言学理论和辞书编纂理论指导下，以丰富、扎实的文献和口语语料为基础，以《现代汉语词典》为参照而编纂的、系统反映五四新文化运动以来百年现代汉语词汇面貌的大型原创性语文词典。本词典秉持“共时性与历时性、规范性与描写性、学术性与实用性”相结合的编纂理念，在收词上贯彻“守正、纳新、存故、多元”的原则，是一部广泛吸收学界研究成果的集大成之作。

本词典共分五卷，收录单字字头13000 多个（按照规范标准确定字形、字音，梳理简繁、正异、异读关系），单字和复音词总计15.7万条（其中百科词语约 2.5 万条），配例 40多万个，全书规模达 1200 多万字。本词典内容丰富，为各类词标注词类，设立“提示”栏、 “辨析”栏（辨析实词、虚词 1400 余组），为方言词、地区词标注所属方言类别或地区。第五卷的“附录”为读者提供了文史、科技方面有查考价值的资料。在“附录”后还特别配备了《条目倒序索引》，为词语检索和相关研究提供了更多的方便。

本词典所收词语折射出中国社会百多年来不断变革、进步的宏伟历程，具有历史的厚重性、学术的创新性，展现了我国语文辞书编纂水平所达到的新的高度。它不仅是新时代提高全民族语言文字应用水平的得力工具，也从一个侧面反映了我国不断增强的文化软实力。

词典使用说明

识别下方二维码或

点击文末阅读原文链接购买

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

阅读原文

跳转微信打开

5 - 武汉大学数字人文公众号
专业资讯 | 2025年数字人文奖（DH Awards 2025）——突出数字人文中的资源 2026年4月25日 07:30

5 - 武汉大学数字人文公众号

专业资讯 | 2025年数字人文奖（DH Awards 2025）——突出数字人文中的资源

2026年4月25日 07:30

2026-04-25 07:30 韩国

数字人文年度奖项于2012年设立，获奖资源可以向公众可以提名，以表彰数字人文相关的人才和专业知识。提名与投票环节全面面向公众，每人限投票一次。最终获奖名单由提名委员会（Nominations Committee）参考票选结果综合评定。设立该奖项旨在提升公众关注度，推介有趣的数字人文资源，并吸引更多人参与社群工作。提名资源不限语言、文字体系及研究领域。我们特别欢迎少数民族语言、文化及相关领域的代表性资源参选。所有被提名的资源都具有研究价值，有助于深入了解数字人文的边界。

数字人文数据可视化项目

（例如：对数字人文数据资源进行可视化呈现的作品）

第一名

香港流行文化地图

(Hong Kong Pop Culture Map)

https://digital.lib.hkbu.edu.hk/culture-map/

第二名

Thiep 3D

https://thiep3d.univ-littoral.fr/

第三名

数字幽灵展览

(Digital Ghosts exhibition)

https://inspace.ed.ac.uk/digital-ghosts/

其他提名项目（按字母顺序排列）：

阿图尔·施尼茨勒书信 (Arthur Schnitzler Briefe): https://schnitzler-briefe.acdh.oeaw.ac.at/statistiken.html
Gallicagram——法国报刊与遗产语料库的n元语法查看器 (Gallicagram — An ngram viewer for French press and heritage corpora): https://www.gallicagram.com/
隐藏的宠物食品事件：为何事件数据被隐藏，为何那些生命如幽灵般被遗忘？ (Hidden Incidents of Pet Food: Why is the incident data hidden, and why are those lives forgotten like ghosts?): https://hidden-incidents-of-pet-food.com/
奥纳西斯基金会可视化项目：C.P.卡瓦菲的亚历山大（地图）(Onassis Foundation Visualizations: The Alexandria of C.P. Cavafy (map)): https://cavafy-map.onassis.org/ ， C.P. 卡瓦菲斯（时间线）(C.P. Cavafy (timeline)): https://cavafy-timeline.onassis.org/ ，亚里士多德·奥纳西斯（时间线）(Aristotle Onassis (timeline)): https://asonassis-timeline.onassis.org/timeline
森弗的世界 (Senfl’s World): https://senfls-world.humap.site/map
政党宣言独特性的可视化 (The Distinctiveness of Party Manifestos Visualized): https://www.rubenros.nl/partijtaal
追踪早期数字艺术 (Tracing Early Digital Art): https://tracingdigital.art/
1945年抗战最后几个月李容康日记的可视化 (Visualization on Lee Yonggang’s Diary during the final months of the War of Resistance in 1945): https://digitalhumanities.hkust.edu.hk/leeyonggang-diary/map_1945
1896年展览 (Vystavka1896 goda (Выставка 1896 года)): https://gis.flexatel.xyz/viewer/20b5b827-42c1-4d8c-8277-6003fa1922ce
词雨 (Word Rain): https://wordrain.org/

数字人文数据集或模型

（例如：用于数字人文研究的文本语料库、数据表、模型或类似内容）

第一名

哥伦比亚互联网与网络史：1988-1996年多人讲述的故事

(History of the Internet and the Web in Colombia. A story told in many voices 1988-1996)

https://historiasinternet.uniandes.edu.co/

第二名

数字萨福

(Sappho Digital)

https://sappho-digital.com/index.html

第三名

诗树——11种语言的诗歌语料库

(PoeTree – Poetry corpora in 11 languages)

https://poetree.org

其他提名项目（按字母顺序排列）：

古汉语翻译数据集 (Ancient-Chinese-Translation-Dataset): https://github.com/chowshelly101-jpg/Ancient-Chinese-Translation-Dataset/tree/main
《韵镜》数字重建与比较平台 (Digital Reconstruction and Comparative Platform for the Yunjing): https://yunjing-new.onrender.com
FicSim：长篇小说的多层面语义相似性数据集 (FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction): https://aclanthology.org/2025.findings-emnlp.1375/
遗产——语义工具与互操作性调查 (Heritage – Semantic Tools and Interoperability Survey): https://h-setis.cnr.it/
iberz：意第绪语翻译数据库 (iberz: a database of Yiddish translations): https://iberz.org
期刊数字语料库 (Journal Digital Corpus): https://zenodo.org/records/18093888 和 https://github.com/Modern36/journal_digital_corpus
KPoEM（韩国诗歌情感映射）数据集 (KPoEM (Korean Poetry Emotion Mapping) Dataset): https://huggingface.co/datasets/AKS-DHLAB/KPoEM
本体论：文本发生学 (Ontologie: Textgenese (Ontology: Text Genesis)): http://gams.uni-graz.at/archive/objects/o:kofleraural.genontology/methods/sdef:Ontology/get
昴宿星古代地名辞典 (Pleiades gazetteer of ancient places): https://pleiades.stoa.org
PREMOVE——古希腊语和拉丁语带前缀运动动词的历时数据集 (PREMOVE – A diachronic dataset of Ancient Greek and Latin annotated PREverbed MOtion VErbs): https://doi.org/10.5281/zenodo.19183130
陌生人/家中的帮手：有外籍家庭佣工的香港家庭 (Strangers / Helpers at Home: Hong Kong Families with Foreign Domestic Workers): https://digital.lib.hkbu.edu.hk/helper-at-home/en/home.html
未来主义小说的时间视域，Post45数据共同体 (Time Horizons of Futuristic Fiction, Post45 Data Collective): https://doi.org/10.18737/552626
水族水书文字数据库和识别平台 (Shui script database and recognition platform): https://shuishu.ihanzi.net/

数字人文短篇出版物

（例如：数字人文领域的博客、文章、影片）

第一名
沃尔什，梅兰妮等.《熊会是男孩》

The Pudding (Walsh, Melanie (et al.). ‘Bears Will Be Boys’, The Pudding) https://pudding.cool/2025/07/kids-books/

第二名
东布罗夫斯基，奎因.《别再对自己撒谎：集体错觉与数字人文资助》，载《重新框架数字学术中的失败》

(Dombrowski, Quinn. ‘Stop lying to yourself: Collective delusion and Digital Humanities grant funding’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/reframing-failure-in-digital-scholarship-a56118ab-e4eb-4eb4-9dca-e8c343c6441b/section/9bbd0f75-6d96-48e2-bcc1-e8e5a6d07ce9 #ch1

第三名
丘拉，阿里安娜.《在包容性研究文化中与破碎共处：我们能从数字人文实验室的失败和过程中学到什么》，载《重新框架数字学术中的失败》

(Ciula, Arianna. ‘Living well with brokenness in an inclusive research culture: what we can learn from failures and processes in a digital humanities lab’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/316fdea1-5051-4f50-8957-afbc51342998/section/2e8944d9-ba98-4ef9-bcb8-159fa546e237 #ch7

其他提名项目（按字母顺序排列）：

贝里，大卫·M. Stunlaw (Berry, David M. Stunlaw): https://stunlaw.blogspot.com/2025/
汉弗莱斯，马克.《Gemini 3解决了手写识别问题，这是一个痛苦的教训》，生成史 (Humphries, Mark. ‘Gemini 3 Solves Handwriting Recognition and it’s a Bitter Lesson’, Generative Histories): https://generativehistory.substack.com/p/gemini-3-solves-handwriting-recognition
约翰逊，娜塔莎.《计算当代类型与文学小说的形式与制度边界》，载《计算机与人文学科文集》第3卷 (Johnson, Natasha. ‘Computing the Formal and Institutional Boundaries of Contemporary Genre and Literary Fiction’, Anthology of Computers and the Humanities, Vol 3): https://doi.org/10.63744/Ztw8stkvUjM1
梅智，齐.《销售文化与生活现实：后疫情时代《纽约时报》话语中唐人街语言商品化的计算分析》 (Meizhi, Qi. ‘Selling Culture vs. Lived Reality: A Computational Analysis of Chinatown’s Language Commodification in Post- Pandemic NYT Discourse’): https://drive.google.com/file/d/14inHNCFj-k08kblQXChWl2WoFMkl0YvP/view?usp=sharing
纳拉扬·桑卡兰，阿迪蒂亚等.《全球节拍，本土语言：研究公告牌排行榜上K-pop热曲中的语码转换》，第六届计算人文研究会议 (Narayan Sankaran, Aditya (et al.). ‘Global beats, local tongue: studying code switching in K-pop hits on billboard charts’, The 6th edition of the Computational Humanities Research (CHR)): https://hal.science/hal-05409951v1
韦尔默-科兰，亚历克斯等.《数字公平的替代基础设施：基于社区的互联网接入》，载《关键基础设施研究与数字人文》 (Wermer-Colan, Alex (et al.). ‘Alternative Infrastructures for Digital Equity: Community-Based Internet Access’ in Critical Infrastructure Studies and Digital Humanities): https://drive.google.com/file/d/15qDahbfbuF8j9QaDxG-pZgI5Uorjn1Vd/view
怀亚特·维斯孔蒂，阿曼达.《现在的#DHMakes是什么？》，文学极客 (Wyatt Visconti, Amanda. ‘What is #DHMakes Now?’, Literature Geek): https://literaturegeek.com/2025/12/31/what-is-dhmakes-now
波德里亚奇科娃，玛丽亚.《语言语料库的引擎盖之下：神经网络和NLP库如何在俄语国家语料库中使用》 (Подрядчикова, Мария. ‘Под капотом у языкового корпуса: как нейросети и NLP-библиотеки используются в НКРЯ’ (Under the hood of the language corpus: how neural networks and NLP libraries are used at the RNC)): https://sysblok.ru/linguistics/pod-kapotom-u-jazykovogo-korpusa-kak-nejroseti-i-nlp-biblioteki-ispolzujutsja-v-nkrja/
普罗尼娜，德米特里娅.《书写者已死，作者万岁！——在大语言模型时代，人类文本还有位置吗？》，系统博客 (Пронина, Дмитрия. ‘Скриптор умер, да здравствует автор! — есть ли место человеческому тексту в эпоху больших языковых моделей?’ (The scriptor is dead, long live the author! – is there a place for human text in the age of large language models?), Системный Блокъ): https://sysblok.ru/blog/blog_dmitrii_pronin/skriptor-umer-da-zdravstvuet-avtor-est-li-mesto-chelovecheskomu-tekstu-v-jepohu-bolshih-jazykovyh-modelej/

数字人文工具或工具套件

（例如：用于构建数字人文资源的工具）

第一名
ArtVis——艺术史可视化

(ArtVis – Art History visualized)

https://artvis.cvast.tuwien.ac.at/

第二名
多民族语言智能数据处理与知识服务系统

(Multilingual Intelligent Data Processing and Knowledge Service System)

http://106.12.154.220:15001/

第三名
RelicarIA

https://relicaria.streamlit.app/

其他提名项目（按字母顺序排列）：

CERatosaurus——用于文本比较和分析的字符错误率计算工具 (CERatosaurus – A Character Error Rate (CER) calculation tool for text comparison and analysis): https://ceratosaurus.humanities.tools
DaMSym——语义检索工具 (DaMSym – Tool for semantic retrieval): https://damsym-itserr.d4science.org/
远观浏览器 (Distant Viewing Explorer): https://distantviewing.org/dvexplorer/
LogosLink (LogosLink): http://www.iatml.org/en/LogosLink/
移动开放弹性电子图书馆 (Mobile Open Resilient Electronic Libraries (MOREL)): https://morelrep.github.io
Pandore工具箱 (Pandore Toolbox): https://obtic-gpu1.mesu.sorbonne-universite.fr/pandore/
Recogito工作室 (Recogito Studio): https://recogitostudio.org/
Scholarly XML：Visual Studio Code扩展 (Scholarly XML: an extension for Visual Studio Code): https://marketplace.visualstudio.com/items?itemName=raffazizzi.sxml
teiphy：将TEI XML校勘转换为NEXUS、BEAST 2.7 XML等格式的Python包 (teiphy: A Python package to convert TEI XML collations to NEXUS, BEAST 2.7 XML, and other formats): https://github.com/jjmccollum/teiphy
TEI出版者 (TEI Publisher): https://teipublisher.com/index.html
TwoHillsLab大数据文本分析平台 (TwoHillsLab platform for big-data textual analysis): https://TwoHillsLab.com
VULCA: https://vulcaart.art/
Xanthan: https://xanthan-web.github.io/

数字人文训练材料

（例如：各种形式的讲座、幻灯片、练习、视频或操作指南）

第一名
情境中的负责任数据集：协作设计伦理人文学科数据教育

(Responsible Datasets in Context: Collaboratively Designing for Ethical Humanities Data Education)

https://www.responsible-datasets-in-context.com

第二名
照亮过去——低成本多光谱成像培训

(Illuminating the Past — Training for low cost multispectral imaging)

https://grants.uccs.edu/illuminating-the-past/

第三名
古代文本课程教材的大语言模型 (LLM-for-Ancient-Text-Coursebook)

https://github.com/chowshelly101-jpg/LLM-for-Ancient-Text-Coursebook/tree/main

其他提名项目（按字母顺序排列）：

探索数据可视化如何阐明复杂性以及如何欺骗的系列文章 (A series exploring how data visualization can clarify complexity—and how it can also deceive): https://www.sysblok.ru/infographics/ne-ver-glazam-svoim-kak-masshtab-iskazhaet-dannye/ , https://www.sysblok.ru/infographics/iskazhenie-vosprijatija-riski-ispolzovanija-3d-diagramm/ 和 https://www.sysblok.ru/infographics/ostorozhno-os-obrezana-kak-nas-obmanyvajut-grafiki/
人文学科原生数字研究课程（查看课程请使用访客访问或创建免费账户）(Born-Digital Research in the Humanities Course (to view the course, use guest access or create a free account)): https://reshaped.sas.ac.uk/course/view.php?id=32
数字星期三 (Digital Sreda): http://dhri.ru/projects/sreda/
我们计数 (Nosotres Contamos): https://nosotrescontamos.unr.edu.ar/
如何下载整个Telegram：使用Python自动导出频道 (Как скачать весь Telegram: автоматизация выгрузки каналов с помощью Python (How to Download Entire Telegram: Automating Channel Downloads with Python)): https://sysblok.ru/courses/kak-skachat-ves-telegram-avtomatizacija-vygruzki-kanalov-s-pomoshhju-python/

数字人文资源

（例如：数字人文数字学术出版物、档案库或资源库）

第一名
看不见的东方数字语料库

(Invisible East Digital Corpus)

https://www.invisible-east.org/

第二名
19世纪奥里诺科河旅行者

(Viajeros del Orinoco Siglo XIX)

https://biblioteca.uniandes.edu.co/proyectos/viajeros-orinoco/index.html

第三名
20世纪印度建筑档案，PAHA（浦那建筑史档案馆）

(Architectural Archives of 20th century India, PAHA (Pune Architectural History Archive))

https://paha.site

其他提名项目（按字母顺序排列）：

非裔美国诗歌：数字选集 (African American Poetry: A Digital Anthology): https://scalar.lehigh.edu/african-american-poetry-a-digital-anthology/index
数字人文项目巡礼 (A parade of Digital Humanities projects): https://bik.sfu-kras.ru/elib/view?id=BOOK1-%D0%91%D0%91%D0%9A71/%D0%9F%20180-445824
康德时代柯尼斯堡的三维重建 (A three-dimensional reconstruction of Königsberg during the time of Immanuel Kant): https://worldkant.ru/
BASIRA：文艺复兴艺术中的书籍作为符号 (BASIRA: Books as Symbols in Renaissance Art): https://basira.library.upenn.edu/
《贝奥武甫》后世文献数据库 (Beowulf’s Afterlives Bibliographic Database): https://beowulf.dh.tamu.edu
翻译中的拉丁美洲非裔作家 (Black Latin American Writers in Translation (BLAWiT)): https://www.blawit.org
特色字体目录 (CATALOG of DISTINCTIVE TYPE (CDT)): https://cdt.library.cmu.edu/
奥斯曼音乐语料库 (Corpus Musicae Ottomanicae): https://corpus-musicae-ottomanicae.de/content/index.xml?lang=en
维耶斯昆斯编年史 (Cronicas Viesquences (Viesquences Chronicles)): https://cronicasviesquences.omeka.net/
深入首尔项目 (Deep Into Seoul Project): http://deepseoul.net
典津：中国古代典籍全球图像目录 (Dianjin: Global Image Catalogue of Ancient Chinese Book Collections): https://guji.cckb.cn
乌尔里希·施密德尔《拉普拉塔河之旅》数字版 (Digital Edition of the Viaje al Río de la Plata, by Ulrich Schmidel): https://hdlab.space/viaje-al-rio-de-la-plata/
数字《源氏物语》 (デジタル源氏物語 : https://genji.dl.itc.u-tokyo.ac.jp/en
数字阅读 [1994–2025] (Digital T[H]Readings [1994–2025]): https://archive.mezbreezedesign.com/threadings/
Elfenomeno.com: https://www.elfenomeno.com/en/
波多黎各文学项目 (El Proyecto de la literatura puertorriqueña / The Puerto Rican Literature Project): https://plpr.uh.edu/
法律面前人人平等：开放教育资源 (Equality Before the Law: An Open Educational Resource): https://teachinglegalhistory.unl.edu/
游戏诗歌杂志，第1期：第一步 (Game Poems Magazine, Issue #1: First Moves): https://www.gamepoems.com/issue01/
GAMS——人文学科资产管理系统 (GAMS – Geisteswissenschaftliches Asset Management System // Humanities’ Asset Management System): https://gams.uni-graz.at/
《绅士爱美人》评注版 (Gentlemen Prefer Blondes: A Critical Edition): https://doi.org/10.21900/wd.13
Intuition——为深度读者提供的人工智能书籍 (Intuition — AI-powered books for deep readers): https://readintuition.online
约翰·斯诺——流行病学史上的巨人 (John Snow – Historical Giant in Epidemiology): https://epi-snow.ph.ucla.edu/
《亚历山大的书》中的艺格敷词 (La écfrasis en el Libro de Alexandre): https://gabrielcalarco.github.io/ecfrasis.alexandre/
通过包容性数字档案使马里耶瓦尔印第安寄宿学校档案文件可访问 (Making Marieval Indian Residential School Archival Documents Accessible Through an Inclusive Digital Archive): https://gorgeous-blancmange-abbf90.netlify.app/
Museion AI阅读器 (Museion AI reader): https://en.museion.me
奥纳西斯数字展览与虚拟图书馆导览 (Onassis Digital Exhibitions and Virtual Library Tour): https://exhibitions.onassis.org/ 和 https://librarytour.onassis.org/
像男人一样：莎士比亚马裤表演目录 (Points Like A Man: The Shakespearean Breeches Performance Catalogue): https://pointslikeaman.com
Post45数据共同体 (Post45 Data Collective): https://data.post45.org/
初学者实用招魂术 (Practical Necromancy for Beginners): https://thedigitalpress.org/practical-necromancy-for-beginners/
Ñeatá数字学术期刊，专攻符号学、社会话语性和话语分析（GESEM；SGCyT-UNNE，阿根廷）(Revista digital académica Ñeatá, especializada en Semiótica, discursividad social y análisis del discurso (GESEM; SGCyT-UNNE, Argentina)): https://revistas.unne.edu.ar/index.php/nea
被偷走的关系：找回美洲原住民奴役的故事 (Stolen Relations: Recovering Stories of Indigenous Enslavement in the Americas): https://stolenrelations.org/
意大利数字项目地图集 (The Atlas of Italian Digital Projects): https://dh-atlas.github.io/
漫画书焚烧项目 (The Comic Book Burnings Project): https://storymaps.arcgis.com/stories/7deec3e3e8da4517907d266faccd2323
虚拟约翰·多恩项目 (The Virtual John Donne Project): https://virtualdonne.chass.ncsu.edu/
自然与文化的宝藏——南京博物院应用程序 (Treasure of Nature and Culture Nanjing Museum_Application): https://vr.njmuseum.org.cn/index.html
历史记忆的数字化：近卫第11集团军司令部（1945年）虚拟重建 (Цифровизация исторической памяти: виртуальная реконструкция штаба 11-й гвардейской армии (1945 года) (Digitalization of Historical Memory: A Virtual Reconstruction of the 11th Guards Army Headquarters (1945))): http://11-ga.ru/
世界文献遗产丝绸档案数字保护与传承平台 (World Documentary Heritage Digital Protection and Inheritance Platform for Silk Archives): http://silkmemory.dag.suzhou.com.cn/

数字人文娱乐化应用

（例如：以娱乐为目的应用数字人文的项目）

第一名
图钉故事

(Pin the Tale)

https://pinthetale.co.uk/

第二名
Gamaikus

https://yohannawaliya.itch.io/gamaikus

第三名
中国艺术史与3D绘画电子学习平台

(E-Learning Platform of Chinese Art History and 3D Paintings)

https://digital.lib.hkbu.edu.hk/history/3d-paintings/index.html

其他提名项目（按字母顺序排列）：

在古根海姆 (At the Guggenheim): https://webyarns.com/at/at.html
一个 wretched 生成器 (A Wretched Generator): https://electricarchaeology.ca/2025/10/22/a-wretched-generator/
纽约市旋转木马 (Carousels of NYC): https://www.carouselsofnyc.com/
DHmakes Bluesky话题标签 (DHmakes Bluesky hashtag): https://bsky.app/profile/literaturegeek.bsky.social/feed/aaadokeexl2vo
DH氛围编程降临节日历 (DH Vibe Coding Advent Calendar): https://advent-calendar.humanities.tools/
HistoryScapes应用程序 (HistoryScapes app): https://historyscapes.uk/
徽章机 (Machina Emblematica): https://machina.rainersimon.io
来自1493年世界地图的故事：玩转增强现实 (Tales from a 1493 World Map: Playing with Augmented Reality (AR)): https://library.hkust.edu.hk/ds/project/p004/map/
疯狂厨师奇谭：一个关于贝尔·格里尔斯的有趣数字人文项目 (The Mad Chef’s Bizarre Tales: A Fun Digital Humanities Project on Bear Grylls): https://nkwuyanzu.github.io/Beye/
虚空永生：沉浸式体验 (Vanitas Lives. Immersive Experience): https://sites.google.com/tec.mx/vanitasvive/
与霍尔同行 (Walking with Hall): https://uploads.knightlab.com/storymapjs/9ce75a46676e87d25a174e399afb31e8/test-nino/index.html
《故宫三部曲》人工智能艺术大展 (The Palace Museum Trilogy: Artificial Intelligence Art Exhibition): https://mp.weixin.qq.com/s/EGfFUAdpcz4XzWxgeYSWug

以上信息来自“DH Awards 2025”官方网站：
http://dhawards.org/dhawards2025/results/

经数字人文资讯小编翻译整理而成
未经许可请勿转载

编辑 | 罗斯鹏

校对 | 魏翔

排版 | 洪冰凤

阅读原文

跳转微信打开

13 - 山东大学公众号
东亚数字人文工作坊（第十三期）||姜秀玉：韩国史学界研究动态与前沿观察 2026年4月24日 10:13

13 - 山东大学公众号

东亚数字人文工作坊（第十三期）||姜秀玉：韩国史学界研究动态与前沿观察

2026年4月24日 10:13

2026-04-24 10:13 山东

韩国史学界研究动态与前沿观察

东亚数字人文工作坊（第十三期）

4月19日，由山东大学边疆治理研究院主办的“东亚数字人文工作坊（第十三期）”在南辰楼1811室举行。延边大学人文社会科学学院院长姜秀玉教授应邀作题为“韩国史学界研究动态与前沿观察”的学术报告。本次工作坊由山东大学边疆治理研究院执行院长苗威教授主持。

姜秀玉教授首先结合韩国近年来的政治变动，系统梳理了不同总统执政时期史学研究热点的演变脉络，指出韩国史学研究与政权更替、外交转向及社会运动密切关联。其次，基于大数据统计，她指出当前韩国史学界的研究热点包括百济、高句丽、新罗、高丽、马韩、渤海等。在研究视角上，韩国史学正经历从“国史”向“东亚史”乃至“全球史”的拓展，同时社会史、文化史与公共史学也在兴起。此外，姜教授以专题形式介绍了韩国史学在三个领域的最新进展。在区域史领域，研究已超越以地理志、邑志等官方行政史料为主的传统路径，积极运用日记、照片、影像、口述史料等，开展跨学科研究；在女性史领域，女性权利、女性教育及女性的历史角色等议题受到重视，研究者致力于改变历史学科的既有框架，将女性写入历史；在全球史领域，研究重点关注跨文化接触与知识流通、东亚的区域建构与全球史，以及跨国流动中的非精英行动者等课题。

在互动交流环节，姜秀玉教授与在场师生围绕中国与朝鲜半岛历史研究等具体问题展开深入研讨。她强调，中国与朝鲜半岛学者深化学术交流与合作意义重大，并结合自身学术经历，鼓励年轻学者坚持朝鲜半岛历史研究。

苗威教授总结时指出，姜秀玉教授深耕朝鲜半岛历史研究三十余年，学养深厚。讲座系统阐释了韩国史学界研究的议题转向与范式变迁，深化了参会人员对韩国史学研究动态的整体认知，为东亚史相关研究提供了他山之音。在学术交流与互鉴中，知彼是一个重要环节。我们在建构科学的学术体系、话语体系、学科体系时，学术动态的全面了解是不可或缺的。今后我们会加强与国内外学界交流，推进相关研究。

姜秀玉，延边大学教授，博士生导师。延边大学人文社会科学学院院长、世界史一级学科主任，兼任东北地区中日关系史研究会副理事长、吉林省史学会副会长等学术职务。长期深耕中朝韩日关系史、朝鲜韩国史研究领域。主持国家社科基金、中华学术外译等国家级、省部级科研项目10余项；在核心期刊发表论文50余篇；著有《中朝韩日文化比较》《朝鲜通史》等多部学术专著，多次荣获省级社会科学优秀成果奖。

供稿|赵鑫

摄影|王振、冯一洲

编辑|徐晓婷

审核|刘加明

编审|陈建红

阅读原文

跳转微信打开

13 - 山东大学公众号
俞金尧：资本运动与近现代城市兴衰 2026年4月23日 17:18

13 - 山东大学公众号

俞金尧：资本运动与近现代城市兴衰

2026年4月23日 17:18

2026-04-23 17:18 山东

2026

资本运动与近现代城市兴衰

4月19日，由山东大学东北亚学院、边疆治理研究院联合主办的第89讲“东北亚学术讲坛”在南辰楼1811室举行。南开大学讲座教授俞金尧应邀作题为“资本运动与近现代城市兴衰”的学术讲座。讲座由山东大学边疆治理研究院执行院长苗威教授主持。

俞金尧教授以不同文明背景下的中世纪城市为切入点，深入分析后指出，无论古今中外，每座城市都拥有其标志性建筑，这些建筑往往承载着特定的时代内涵。在前资本主义时代，城市的政治、宗教与军事功能占据主导地位，工商业则处于从属地位。尽管中世纪欧洲也曾出现过少数的工商业城市，但多镶嵌于传统权力体系之中，未能成为城市发展的主流形态。

16世纪以后，随着新航路的开辟与世界市场的初步形成，资本运动的空间范围从地方性、区域性逐步拓展至全球范围。在此背景下，世界范围内逐渐涌现出以商贸、工业、金融功能为主导的近代新型城市。以今日标准衡量，这些早期近代城市规模较小，各国各地区的整体城市化水平也相对有限，但它们开启了由资本创造并主导城市发展的时代。第二次工业革命后，欧洲大陆与美国工业化进程加速，城市化进程加快。与此同时，传统的政治中心因远离新兴市场而地位下滑甚至走向衰落。

俞金尧教授强调，资本运动离不开空间载体，城市正是资本运动最核心的空间场域与运行平台。资本运动能够有力推动城市发展，而世界市场的形成与拓展则进一步壮大了资本的力量。然而，资本无限积累的本性及其高度流动性，并不能保证城市的永久繁荣。因此，深入研究并准确把握资本运动的内在规律与发展趋势，对于科学谋划城市发展战略、推动城市可持续发展具有重要的理论价值与现实意义。

苗威教授在总结中指出，本次论坛紧密围绕“资本运动与近现代城市兴衰”这一核心议题展开深入研讨，不仅为参会师生从“城市”的视角观察世界、研究历史提供了学术范例，更为大家的学术思辨带来了学养。俞教授在娓娓道来之间，将显性的城市兴衰蕴于资本运动之中，作为一场高水平的学术讲座，引导大家从新的理论视角审视近代以来全球资本流动与城市兴衰的内在逻辑。

俞金尧，历史学博士，博士生导师，南开大学讲座教授，兼任中国社会科学院大学教授、河南大学讲座教授，中国世界近代史专业委员会会长，曾长期在中国社会科学院世界历史研究所工作。研究方向为欧洲经济社会史、世界近现代史，在《中国社会科学》《历史研究》等刊物上发表论文数十篇，出版《欧洲婚姻、家庭和人口史研究》《五个世纪的维度》等著作。

供稿 | 藏毅

摄影 | 冯一洲

编辑 | 徐晓婷

审核 | 刘加明

编审 | 陈建红

阅读原文

跳转微信打开

10 - 武汉大学文化遗产公众号
喜讯 | 实验室入选湖北省社会科学普及基地 2026年4月24日 11:04

10 - 武汉大学文化遗产公众号

喜讯 | 实验室入选湖北省社会科学普及基地

2026年4月24日 11:04

2026-04-24 11:04 湖北

近日，湖北省社会科学界联合会公布 2026 年省级社会科学普及基地名单，武汉大学文化遗产智能计算实验室成功入选，成为本次获批的 51 家单位之一。

👆👆👆点击蓝字 · 关注我们

喜讯

近日，湖北省社会科学界联合会公布 2026 年省级社会科学普及基地名单，武汉大学文化遗产智能计算实验室成功入选，成为本次获批的 51 家单位之一。

武汉大学文化遗产智能计算实验室是教育部首批哲学社会科学实验室，实验室聚焦国家文化数字化战略需求，汇聚我校信息资源管理、测绘科学与技术两大优势学科，以及数据科学、人工智能、历史考古、古代文学文献学等专业力量，在智慧数据资源建设、传统文化基因提取、数字化记录建模与演绎呈现等多个方面不断创新突破，形成了“文化+科技”的复合研究范式，为中华优秀传统文化的创造性转化与创新性发展提供路径示范。

此次入选湖北省社会科学普及基地，是对实验室在文化遗产科普、数字人文传播领域工作的高度认可。实验室将以此为契机，立足荆楚文化沃土，发挥学科交叉与技术创新优势，打造高水平社科普及平台，通过数字演绎、沉浸体验、资源开放共享等多元形式，普及文化遗产保护知识，传播数字人文理念，助力提升公众文化素养与文化自信，为湖北省社科普及事业与文化强省建设贡献武大力量。

END

编辑｜文化遗产智能计算实验室

审校｜刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

10 - 武汉大学文化遗产公众号
文化基因解码与智慧数据资源建设研讨会在汉顺利召开 2026年4月23日 10:01

10 - 武汉大学文化遗产公众号

文化基因解码与智慧数据资源建设研讨会在汉顺利召开

2026年4月23日 10:01

2026-04-23 10:01 湖北

2026 年 4 月 18 日，文化基因解码与智慧数据资源建设研讨会在武汉大学顺利举办。

👆👆👆点击蓝字 · 关注我们

2026 年 4 月 18 日，文化基因解码与智慧数据资源建设研讨会在武汉大学顺利举办。湖北省文物局党组成员、副局长朱祥德，武汉大学人文社会科学研究院副院长、项目处处长黄敏学，武汉大学国家文化发展研究院院长傅才武，武汉大学信息管理学院院长、武汉大学文化遗产智能计算实验室主任王晓光出席开幕式并致辞。武汉大学信息管理学院副院长周力虹主持开幕式。

朱祥德在致辞中指出，湖北正积极推进文化基因解码与数字文化赋能工作，依托科技考古与全省文物大数据库建设，不断深化文化遗产数字化保护与利用。他强调，应聚焦文明溯源与长江文明叙事，强化科技赋能，深化协同创新，推动文化基因解码成果更好服务社会公众。

黄敏学表示，在“十五五”发展新阶段，文化基因解码与智慧数据资源建设是推动中华文明传承发展的重要路径。当前文化资源仍存在体系化支撑不足与数据碎片化问题，需要通过跨学科协同与技术融合实现突破，以激荡思想、凝聚共识。

傅才武表示，文化基因是中华文明延续的核心要素，应从国家战略高度系统推进其学理建构与实践落地。他指出，应通过数智技术将文化转化为可计算的“数字记忆”，打通信息壁垒，为人工智能时代提供具有文化竞争力的数据资源支撑。

王晓光表示，文化本质上是一种特殊的信息形态，文化基因的关键在于实现可计算表达。通过将文化资源转化为机器可理解的数据形式，使人工智能能够理解并生成具有中华文化内涵的内容，从而推动中华文化的数字化传承与创新传播。

上午主旨报告由武汉大学历史学院副院长、文化遗产智能计算实验室副主任李英华，文化遗产智能计算实验室副主任王玉珏先后主持。美国肯特州立大学信息学院终身教授曾蕾围绕文化遗产数据资源的采集与数智活化展开报告，强调知识组织系统在人工智能语义处理中的关键作用，并指出“大语言模型+知识图谱”将成为未来重要发展方向。武汉大学中国传统文化研究中心教授、台湾研究所所长余来明从理论层面反思文化数据集建设，提出应警惕“大数据”带来的认知偏差，强调需基于中华文化自身的知识体系开展数据建构。华中科技大学设计学院张健教授结合长江文明案例，展示了文化基因在数字光影与沉浸式交互中的创新表达路径。天津师范大学大数据科学研究院院长、王曰芬教授阐释了非遗系统保护与创新性传承的协同关系，介绍了非遗数字化工程从基础数据构建、数字化加工、数字基因提取到文化重构应用的完整实施流程。南京大学艺术学院陈静副教授提出双线数字素养培育、AI 赋能认知升级、优质文化数据运用与研究流程革新等理念，展现了 AI 重构数字文脉与助力文化传承的多元应用。武汉大学文化遗产智能计算实验室副主任、黄先锋教授聚焦数字武当项目，针对大型遗址游览体验不足的痛点，分享了利用三维技术搭建全域数据底座与文化大脑，实现超大遗址的数字化活化与多元价值转化的实践经验。

下午主题报告由武汉大学国家文化发展研究院副院长蔡武进教授、南京大学艺术学院副教授陈静先后主持。中山大学图书馆副馆长、研究馆员王蕾以文化基因理论为指导，构建基层社会文化要素分类框架，探索数字化识别和提取路径，为文化遗产知识服务体系提供参考。湖南大学设计艺术学院刘芳教授从创意设计角度构建文化资源库，展示了中国文物数据一站式浏览和检索平台、文化数据平台和智能设计软件等文化基因活化案例。首都图书馆副馆长、研究馆员张娟从项目基础与发展、核心认知、实践路径等方面阐述了首都图书馆自 20 世纪 50 年代起至现在的城市记忆智慧数据体系建设成果。广州图书馆副馆长、广州大典研究中心常务副主任刘平清围绕《广州大典》数字化建设现状，分析人工智能带来的机遇与挑战，并探讨了多模态资源开发路径、人机协同模式等未来发展方向。中国人民大学信息资源管理学院数字人文系教授、数字人文研究院研究员夏翠娟从以人机分工思考为出发点，提出资源开发演进与路径和以向量为中心的知识库构建模式，并就亲身实践建议培养人的批判意识，坚守底线意识。

圆桌论坛以“文化基因挖掘与阐释的方法、路径与趋势”为主题，由武汉大学文化遗产智能计算实验室主任助理赵靓副教授主持。来自南京农业大学、上海大学、北京大学、中国人民大学、北京师范大学等高校的专家学者围绕文化基因的定义与表征、挖掘与建模方法、应用场景与价值边界等问题展开深入交流。与会专家指出，文化基因应在术语与实体之间确定合理颗粒度，并需构建面向大语言模型的评测体系；在方法层面，应结合文本、图像与三维数据等多模态资源，强化知识组织与人机协同机制；在应用层面，应推动文化基因与文旅、文创及数字内容产业深度融合，同时注重文化阐释的科学性与严谨性。

最后，王晓光发表致谢。他代表主办方向与会专家学者及各界嘉宾表示衷心感谢，指出本次研讨会汇聚多学科力量，围绕文化基因解码与智慧数据资源建设展开了富有成效的交流。他表示，文化基因作为新时代文化数据的重要形态，应加快构建文化基因数据库，并与大语言模型深度融合，形成“数据—模型—应用”的良性循环，提升人工智能对中华文化的理解能力，推动中华优秀传统文化的创造性转化与创新性发展。

会议期间，与会人员参观了文化遗产数字演绎剧场，围绕实验室在数据平台、科研项目等方面的最新成果开展了深入交流。

据悉，本次会议由武汉大学文化遗产智能计算实验室、武汉大学信息管理学院主办，武汉大学大数据研究院、武汉大学国家文化发展研究院、湖北省文化大数据工程技术中心协办。会议汇聚了文化遗产、数字人文与信息资源管理等领域的专家学者 150 余人，围绕文化基因数字化解码、智慧数据资源构建及人工智能技术应用等前沿议题展开深入研讨，为推动文化遗产数智化保护与高质量发展提供了重要理论支撑与实践路径。

（通讯员：翁梦娟，赵万里）

—END—

编辑｜文化遗产智能计算实验室

审校｜刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

6 - 上海师大公众号
讲座预告 | 王贺：生成式人工智能的“不能”——实证研究视角 2026年4月24日 08:37

6 - 上海师大公众号

讲座预告 | 王贺：生成式人工智能的“不能”——实证研究视角

2026年4月24日 08:37

请关注 2026-04-24 08:37 上海

讲座时间：2026年4月28日14：30

地点：浙江大学之江校区钟楼三楼报告厅

（来源：近代学术）

阅读原文

跳转微信打开

6 - 上海师大公众号
讲座预告 | 查清华：数智时代文科的使命自觉与人文创新 2026年4月23日 10:07

6 - 上海师大公众号

讲座预告 | 查清华：数智时代文科的使命自觉与人文创新

2026年4月23日 10:07

请关注 2026-04-23 10:07 上海

时间：2026年4月24日9：30

地点：西安文理学院明德楼C0415

（来源：西安文理学院文学院）

阅读原文

跳转微信打开

12 - 南京师大比特人文公众号
EvaHan2026古籍多模态OCR国际评测会议日程 2026年4月24日 00:00

12 - 南京师大比特人文公众号

EvaHan2026古籍多模态OCR国际评测会议日程

2026年4月24日 00:00

EvaHan2026 2026-04-24 00:00 江苏

古籍OCR国际评测竞赛结果即将揭晓，国内外十多支团队精彩报告！

EvaHan2026古籍多模态OCR国际评测研讨会将于2026年5月11日在西班牙马略卡岛召开的语言资源大会LREC 2026的子会议——LT4HALA 2026上隆重举行。

古籍是中华文明的载体，也是人类文明的珍贵组成部分。将海量古籍图像转化为可检索可计算的文本是古籍数字化加工过程中的关键一环。然而，古籍文档的版式多样、文字形态复杂，使得基于现代文档数据开发的OCR工具在处理古籍图像时往往难以达到理想效果。

EvaHan自2022年起，已先后在法国马赛（分词词性标注）、中国澳门（机器翻译）、意大利都灵（断句标点）及美国新墨西哥州（命名实体识别）成功举办了四届。2026年，EvaHan将目光转向更具挑战性的古籍多模态OCR与版面分析任务，力求建立高质量的数据集和评测基准。本次评测共有来自中国、法国等海内外高校与科研机构的41支队伍报名，13支队伍完赛。

PART1

会议日程

（注：以下为西班牙当地时间，北京时间已标注。）

开幕式：

14:00 - 14:03（北京时间：20:00-20:05）

特邀嘉宾讲话：

14:03 - 14:07（北京时间：20:05-20:35）

The Significance and Direction of Chinese Ancient Book OCR（中文古籍OCR的意义与方向）
著名计算语言学家冯志伟教授

评测总览:

14:07 - 14:22（北京时间：20:35-20:45）

Overview of EvaHan2026: The First International Evaluation on Ancient Chinese OCR and Layout Analysis（EvaHan2026评测总体情况报告）
南京农业大学王东波教授

口头报告 : 每篇4分钟

14:22 - 15:10（北京时间：20:45-21:10）

A Multi-Stage System for Ancient Chinese OCR and Layout Understanding in the EvaHan2026 Shared Task（古籍OCR与版面理解的多阶段系统）
KeYan Liang, Meiling Liu
A Multi-Modal Recognition Framework for Ancient Books Integrating DoRA-DPO Text Recognition and YOLO Layout Analysis（融合DoRA-DPO文本识别与YOLO版面分析的多模态识别框架）
Chaokun Zhang, Xin Wen, Tongtong Zhou
Enhancing Ancient Chinese Character Recognition and Layout Analysis via VLM Fine-Tuning and Linguistic Post-Processing（基于视觉语言模型微调与语言学后处理的古籍增强识别）
Yihuan Yin, Qian Zhao
A Dual-Modality Framework for Ancient Document Layout Analysis and Text Recognition（古籍版面分析与文本识别的双模态框架）
Qi Fan, Jieming Hu, Chen Ye
EvaHan 2026 Ancient Books Multimodal OCR and Layout Analysis System Technical Report（古籍多模态OCR与版面分析系统技术报告）
Chenrui Zheng
A Parameter-Efficient and Data-Centric Framework for Ancient Chinese Text（面向古籍文本的参数高效与数据驱动框架）
Yuchun Meng
LVLM Optimization for Ancient Chinese Book Image Analysis with Task-specific Augmentation and Instruction Tuning（基于任务增强与指令微调的大视觉语言模型古籍图像分析优化）
Xia Tian, Liu Yulong, Wang Yilin, Yang Yumeng, Cai Dongheng, Tan Yuyang,Yang Menghui
Data-Centric Strategies for Ancient Chinese Text Recognition: Augmentation, Annotation Refinement, and Style Transfer in EvaHan 2026（数据驱动策略：数据增强、标注优化与风格迁移）
Chengfei Li, Yunjie Zhang, Xiaoyi Li, Changshun Quan, Taihe Cao, Bin Liu
AnandaSky: A Vision–Language Model for Line-Level Transcription of Historical Sinographic Documents（面向历史汉字文档行级转录的视觉-语言模型）
Colin Brisson, Ayoub Kahfy, Frédéric Constant, Marc Bui
Multimodal Ancient Document Parsing: Technical Report for EvaHan2026 Competition（多模态古籍解析技术报告）
Liqi He, Qiwei Li, Ziye Yang, Zuchao Li
Multi-Task Learning Trade-offs in Vision–Language Models for Ancient Chinese OCR: An Empirical Analysis of Parameter-Efficient Adaptation（古籍OCR视觉语言模型中的多任务学习权衡：参数高效适应的实证分析）
Huizi Zhou, Yuhan Shu
Building Character(s): Synthetic Data and In-Context Learning Strategies for Few-Shot Ancient Chinese Recognition（合成数据与上下文学习策略在少样本古籍识别中的应用）
Denise Atzori, Marie Bizais-Lillig, Mathias Garnier, Maxime Létoffé, Charles Planque, Tianjie Yin, Chahan Vidal-Gorène

闭幕式

15:10 - 15:15（北京时间：21:10-21:15）

PART2

特邀嘉宾

著名计算语言学家冯志伟教授

冯志伟教授是我国著名计算语言学家、中国计算机学会高级会员、中国中文信息学会会士。先后在北京大学和中国科学技术大学研究生院两次研究生毕业，获双硕士学位。曾在法国格勒诺布尔理科医科大学应用数学研究所（IMAG）自动翻译中心（CETA）留学，后在德国夫琅禾费研究院（FhG）新信息技术与通信系统研究所、德国特里尔大学、德国康斯坦茨高等技术学院、韩国科学技术院（KAIST）电子工程与计算机科学系（EECS）、英国伯明翰大学担任高级研究员或教授，现为新疆大学天山学者。主要著作有《Forma Analysis for Natural Language Processing: A Handbook》、《自然语言计算机形式分析的理论与方法》《自然语言处理简明教程》《计算语言学方法研究》《数理语言学》《数学与语言》《机器翻译研究》《现代术语学引论》《现代语言学流派》《汉字》（英汉对照）等40部，主要译著有《自然语言处理综论》《统计语言学习》等3部，用中文、英文、法文、德文发表论文500多篇，主持研制国际标准（ISO）1项、国家标准（GB）1项、国家规范3项，参与研制国家标准（GB）14项。2006年获奥地利维斯特奖，2018年获中国计算机学会NLPCC杰出贡献奖，2023年获香港圣弗兰西斯科技人文奖。

PART3

会议信息

会议语言

英语

主持人

李斌教授

主办团队

南京农业大学信息管理学院

王东波、刘浏、朱冬梅、厉洁琼、刘畅、武瑞峰、杨俊羿

南京师范大学文学院语言大数据与计算人文研究中心

李斌、冯敏萱、许超、曲维光、李俊洁、朱月、戴俊阳、

方灿灿、徐梦婷、许智星、蔡敏欣

南京理工大学经济管理学院

沈思

协办单位（排名不分先后）

中国人工智能学会语言智能专委会

中国中文信息学会青年工作委员会

中国古籍保护协会古籍智能开发与利用专委会

中国民族语言学会语言资源与计算人文专委会

江苏省人工智能学会自然语言处理专委会

中华书局古联（北京）数字传媒科技有限公司

联系方式

邮箱：evahan2026@gmail.com

GitHub：https://github.com/GoThereGit/EvaHan

PART4

直播地址

直播地址请关注比特人文公众号后续推文。

= END =

第二十五届中国计算语言学大会（CCL26-Eval）技术评测任务启动，欢迎报名参赛！

2026年4月24日 00:00

CCL26-Eval 2026-04-24 00:00 江苏

CCL26-Eval启动，14项评测覆盖NLP多领域，10月宜昌办会。

转载自“CIPS计算语言学专委会”

第二十五届中国计算语言学大会（CCL26-Eval）技术评测任务启动，欢迎报名参赛！

第二十五届中国计算语言学大会（The 25th China National Conference on Computational Linguistics, CCL 2026）将于2026年10月15至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议，是中国最大的自然语言处理学者和专家的社区。经过三十年的发展，CCL被广泛认为是最权威的，全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展，CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

会议网站：http://cips-cl.org/static/CCL2026/index.html

本次大会继续组织中文语言处理技术评测CCL26-Eval。经过前期评测任务征集，CCL26-Eval组织委员会已确定14个评测任务，涵盖语义分析、篇章、语用分析，跨语言、小语种、低资源自然语言处理，知识图谱，自然语言处理与医疗、教育、人文、司法等领域结合应用，生成式AI与大模型核心能力等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名，由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL Anthology和ACL Anthology收录。

评测主席：

林鸿飞（大连理工大学，hflin@dlut.edu.cn）

谭红叶（山西大学，tanhongye@sxu.edu.cn）

杨亮（大连理工大学，liang@dlut.edu.cn）

CCL26-Eval评测任务分类汇总

一、自然语言处理基础任务

1. 语义分析 / 篇章、语用分析

任务1：第二届中文叙实性推理评测

任务简介

叙实性推理（Factivity Inference,FI）是一种跟事件真实性判断有关的语义理解任务，是真实性推理（Factuality Inference,FactI）的一种形式。在人类的会话交际中，叙实性推理能力主要表现为语言使用者可以从某些动词性语言成分（如“相信”“谎称”“意识到”等）的使用获取说话人和句子主语的心理状态，并据此推定相关事件的真实性（真还是假）。例如，从肯定句“他们意识到局面已经不可挽回”和相应的否定句“他们没有意识到局面已经不可挽回”上，都可以推理出在说话人眼中存在这样一个事实：“局面已经不可挽回”。进行此类推理所使用的知识是一种受世界知识（world knowledge）影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识（analytical knowledge of language）。比如，上面例句中的动词“意识到”要求（预设）它的宾语“局面已经不可挽回”的所指大概率为真，不管该动词前面有没有否定性词语。

为进一步提升大型语言模型对中文的语义理解能力，实现机器对人类交际话语的深度理解，我们将在FIE2025的基础上继续推出“第二届中文叙实性推理评测任务”。本届评测任务将着重考察大型语言模型在复杂语境条件和少样本提示下的叙实性推理表现。

相较FIE2025，本次评测将着重考察大模型在不同真实语境中的叙实性推理表现有何差异。特别是：当叙实性结构中存在不同的否定词、不同的否定意愿、不同的评价性状语、不同人称和数量类型的主语，以及存在多声性标记和被动化标记等复杂语境条件下，模型的叙实性推理表现如何。例如：从“我不能相信他竟是一个八十多岁的老人”，可以推出“他是一个八十多岁的老人”大概率为真；而从“我不能相信人可以长生不老”，可以推出“人可以长生不老”大概率为假。

任务描述

参赛队伍需要利用组织方发布的样例集与评测集自行设计提示词（prompt），在获取LLMs的回答后整理为统一的输出格式。每条评测集数据以一个文本蕴含关系句对<Aa,a>的形式呈现，数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况，并给出对该判断的置信度。例如：
*主蕴含句Aa：老张并没有注意到她今天穿了一件红色的连衣裙。
*被蕴含句a：她今天穿了一件红色的连衣裙。
*模型判断：有95%的把握判定被蕴含句为真。
*输出答案（JSON）：{"factivity":"TRUE","confidence":0.95}。

此外，本届评测将继续设置不微调（non-finetuning）和微调（finetuning）两条赛道。不微调赛道不允许对模型本身做任何修改；微调赛道可以利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

组织者和联系人

任务组织者：袁毓林（澳门大学教授）、李斌（南京师范大学教授）
任务联系人：丛冠良（澳门大学博士生，guanliang.cong@connect.um.edu.mo）；寻天琦（澳门大学博士生，tianqi.xun@connect.um.edu.mo）。

任务奖项

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖，奖项按总得分从高到低颁发。其中，一等奖0-1名，二等奖0-2名，三等奖0-3名。各奖项奖金待定。

任务网址

https://github.com/UM-FAH-Yuan/FIE2026

任务2：非字面义翻译和理解评测

任务简介

评测面向谚语、成语、习语、俚语、典故等非字面表达的中英翻译与识别，重点考察模型对非字面意义的理解、跨语言文化映射能力以及语用效果保持能力。任务构建了“生成+判别”互补评测框架，用于检验模型的非字面义表达生成能力和标准非字面义辨识能力。评测数据共5000条高质量样本，涵盖Gold（英文文化背景下的等值表达）和Silver（核心意义翻译）两类参考。本次评测包括两个子任务。

子任务1：非字面义中文翻译为英文给定一条包含谚语、成语、习语等非字面表达的中文句子，模型需生成1条自然、地道、具有文化映射特征的英文译文，优先采用英语中现成的习语、谚语、格言或固定搭配进行等值替代。
子任务2：非字面义中英选择给定一条非字面表达的中文句子及若干个英文候选，模型需进行不定项选择，识别并输出与中文在英语语境中构成公认等值替代关系的Gold标签项。

组织者和联系人

评测组织者： 张冬瑜（大连理工大学教授）
任务联系人： 杨森淇（大连理工大学博士生，ysq1997@mail.dlut.edu.cn）

任务奖项

本届评测设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/DUTIR-YSQ/CCL2026-Non-literal-Translation-Task

2. 跨语言、小语种、低资源自然语言处理

任务3：跨主流语言与低资源语言对齐的大模型金融评测

任务简介

MapFinBen是首个专门评估大语言模型在高资源语言与低资源语言之间跨语言资源的多语言金融评测基准。该基准覆盖了五类具有代表性的金融任务，全面反映真实金融应用场景中的多样化需求。

在语言设置上，MapFinBen同时涵盖高资源语言（英语和中文）与多种低资源语言（印度尼西亚语、西班牙语、希腊语和日语），有效缓解了现有金融语言模型评测中对高资源语言过度依赖的问题。通过统一的任务设计与评测标准，该框架能够系统评估大模型跨语言、跨资源条件下的金融任务处理能力。

MapFinBen 基准由五个子任务构成，通过综合评估模型在各子任务上的表现来确定最终成绩。具体任务如下：

子任务一：金融选择问答（FinAS） 给定一段金融文本及其对应的问题和候选选项，模型需要从多个备选答案中选择最符合问题语义和金融语境的正确答案。
子任务二：金融文本问答（FinQA） 给定一段金融文本，模型需要根据文本内容回答与之相关的金融问题。
子任务三：金融情感分析（FinSA） 给定一段金融文本，模型需要识别文本所表达的情绪倾向，并将其分类为积极、中性或消极。
子任务四：金融主题分类（FinTC） 给定一段金融文本及候选主题类别，模型需要根据文本内容将其归类到最合适的金融主题类别中。
子任务五：金融文本摘要（FinTS） 给定一段金融文本，模型需要提取并生成简洁、准确的摘要，以概括文本的核心信息和主要内容。

各子任务的数据分布、数据结构、具体评测指标及其计算方式，以及最终成绩的计算方法，详见任务网址。

组织者和联系人

评测组织者：胡刚、岳昆（云南大学）、彭敏（武汉大学）、石磊（云南师范大学）
任务联系人：孔晓勇（kongxiaoyong@stu.ynu.edu.cn）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/HgITSE/MapFinBen

任务4：低资源缅甸语固定模版语句推理评测

任务简介

在缅甸语等低资源语言的翻译中，固定模版语句的推理作为垂类的任务，其语言内部的词性、地名、多元价值观等显著影响着最终的翻译质量。

格式与习惯差异：例如，中文的“第1名”、“第3章”，在缅甸语意为“编号”或者“号”，后面需要紧跟缅甸语数字。地名转写冲突：地名转写往往与缅甸语特有发音、历史习惯冲突，导致中文直接转写容易出现混乱。多元价值观影响：翻译受种族、宗教以及集体主义的影响，不能简单直译。必须充分考虑当地的文化敏感性和宗教背景，否则极易引起误解或反感。

作为固定模版语句的推理任务，机器具体要适应的是模版格式、幻觉处理等任务的重要形式依据。为了提升翻译大模型在缅甸语上的翻译质量，进一步实现机器对人类固定模版语句的深度理解，我们正式推出本次评测任务。

组织者和联系人

评测组织者：陈自岩、刘劲松（新译信息科技有限公司）、朱少林（天津大学）
任务联系人：任虹（天津大学博士生，邮箱地址：rhong@tju.edu.cn）；吴川（天津大学硕士生，邮箱地址：wuchuan@tju.edu.cn）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。奖金由新译信息科技有限公司赞助。

任务网址

https://github.com/merc11/CCL-2026

二、自然语言处理应用

1. 知识图谱

任务5：杂粮育种信息抽取评测

任务简介

杂粮育种领域积累了大量以自然语言形式呈现的知识，广泛分布于论文、品种审定与栽培技术规程等文本中。这些文本记录了育种材料来源、目标性状及测定结果，同时也包含栽培管理条件、胁迫处理信息以及分子标记等证据。由于杂粮育种文本专业术语密集、概念表述多样，且材料名称与试验要素常存在嵌套表达，导致关键信息难以稳定抽取和统一结构化，从而限制了知识检索、证据汇总和育种决策支持等应用的发展。

杂粮育种信息抽取评测（Minor Grain Breeding Information Extraction Evaluation, MGBIE）旨在面向杂粮育种知识管理与数据资源建设需求，系统评估信息抽取模型在杂粮育种相关专业术语识别、育种语境理解、关键信息抽取与结构化表达等方面的能力。MGBIE数据集总规模为2000条样本，其中训练集、验证集和测试集分别包含1000条、400条和600条，用于支持模型的训练、调优与综合性能评估。

MGBIE2026包含以下两个子任务：

杂粮育种命名实体识别：从杂粮育种相关文本中识别并抽取关键实体信息，并输出相应的实体边界及其类型标签。实体类型标签体系涵盖杂粮育种领域的核心概念，共包括12类：作物、品种、性状、生育时期、基因、数量性状位点、分子标记、染色体、育种方法、亲本/杂交组合，非生物胁迫以及生物胁迫。
杂粮育种关系抽取：在已识别实体的基础上，进一步抽取实体之间的语义关系，并以关系三元组的形式进行结构化表示。关系类型体系共包含6类语义关系，分别为：包含、采用、具有、影响、发生于和定位于。

组织者和联系人

评测组织者：胡志伟、孔照胜、高建华（山西省后稷实验室、山西农业大学）；谭红叶、闫智超、李茹（山西大学）；谢倩倩（武汉大学）
任务联系人： 杨森杰（山西大学硕士生，yangsenjie1@sxu.edu.cn）

任务奖项

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖。其中，一等奖1名，二等奖2名，三等奖3名，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/zhiweihu1103/CCL2026-MGBIE

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532465

2. 自然语言处理与医疗、教育、人文、司法等领域结合应用

任务6：中文电子病历疾病与手术ICD自动编码评测

任务简介

近年来，随着人口老龄化加剧和健康意识提升，医疗体系面临着日益增长的服务压力。在医疗信息化进程中，电子病历的广泛应用为解决这一挑战提供了新的可能。为实现医疗数据的标准化管理和共享，世界卫生组织制定了国际疾病分类标准（International Classification of Diseases，ICD）。该标准将数万种疾病及其组合转化为规范的字母数字编码体系，为跨地区、跨机构的医疗数据交换与分析奠定了基础。

然而，对电子病历文本进行人工ICD编码不仅耗时耗力，还容易因专业技能差异导致编码错误。开发自动ICD编码系统，既能提高编码效率和准确率，也能为疾病研究和医疗管理提供更可靠的数据支持。基于上述背景，本任务构建了一个中文电子病历ICD自动编码数据集，该数据集基于脱敏病历数据而构建，共涉及10个科室，18种主要疾病编码，若干种其他疾病编码，16种主要手术编码，若干种其他手术编码，共计2600条数据。该任务给定一段由临床信息构成的文本作为输入，需要模型输出对应的主要疾病编码、其他疾病编码、主要手术编码、其他手术编码。

组织者和联系人

评测组织者：管红娇、鹿文鹏（齐鲁工业大学（山东省科学院））、廉颖、陈国强（山东第一医科大学第一附属医院）
任务联系人： 李传龙（齐鲁工业大学硕士生，icdevaluator@163.com）

任务奖项

本届评测将设置一等奖1名，二等奖3名，三等奖6名，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/QLU-NLP/icdevaluator-26

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532466

报名信息填写表

https://docs.qq.com/form/page/DWWNmV0ZGRnRwampn#/fill

任务7：跨语言文学文本情感分析一致性评测
(Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)

任务简介

跨语言情感分析一致性评测旨在考察模型对中国古典文学文本的情感理解能力，以及同一语义内容在中英文两种表达下是否能够保持情感判断一致。中国古典文学往往通过意象、典故和隐喻传递情感，具有较强的语境依赖性，因此对模型的跨语言语义理解和情感对齐能力提出了较高要求。

本任务基于中英平行古典文学语料，评估模型在单语言情感识别、跨语言情感迁移以及平行文本一致性建模等方面的表现。

BCCL-CSA 2026 包含三个子任务：

子任务一：细粒度情感识别

参赛系统需分别对中文古典原文及其对应英文译文进行情感分析，预测文本的情感极性和情绪分布。

评测重点包括：

1.情感极性识别准确率

2.情绪分布预测能力

该子任务用于评估模型对单语文学文本情感特征的理解能力。

子任务二：跨语言情感迁移

参赛系统需在一种语言上训练，在另一种语言上测试，考察模型的跨语言情感迁移能力。

评测重点包括：

1.中英之间的情感极性保持一致性

2.不同语言表达下情绪分布的对齐程度

该子任务用于评估模型是否具备稳定的跨语言语义映射能力。

子任务三：平行文本一致性评估

参赛系统需对同一语义内容的中英文平行句对分别进行情感分析，并比较两种语言预测结果的一致性。

评测重点包括：

1.中英文情感极性预测是否一致

2.中英文情绪分布是否相近

该子任务用于评估模型在双语场景下的情感一致性与跨语言对齐能力。

任务特色与创新

1.跨语言情感对齐维度：突破单一语言的情感分类范式，首次聚焦于中英双语在复杂古典文学语境下的情感语义一致性。2.精细化分布标注：提供情绪概率分布（LabelDistribution），精准捕捉文学作品中复杂、模糊的情感底色。3.语料库稀缺性与挑战性：数据集精选自先秦至近代的13部经典著作，涵盖哲学、小说、戏曲等多种体裁，挑战模型泛化性能与抗噪声能力。

数据集说明

数据集CCL-SEL，来源于12部中国经典著作，每部著作各250组中英句子对。

网站建设与论文评审

评测将建设GitHub页面发布数据、脚本与排行榜。评测论文将通过CCL26-Eval通道提交，并进行双盲评审。

组织者和联系人

评测组织者： 张海洋、张霄军（西交利物浦大学）；徐睿峰（哈工大深圳）
任务联系人： 周静狮（Jingshi.Zhou@outlook.com）

任务奖项

一等奖1名，二等奖2名，三等奖3名。

任务网址

https://github.com/Jingshi-Zhou/-BCCL-CSA-2026-

任务8：大语言模型生成中文医疗内容的循证事实核查评测

任务简介

循证事实核查（Evidence-based Medical Fact-checking）是一项旨在验证在线医疗内容真实性的关键任务。随着互联网成为公众获取医疗健康信息的主要渠道，医疗虚假信息的泛滥给公共卫生安全带来了严峻挑战。该任务要求模型不仅要理解医疗声明（Claim），还需要结合检索到的相关证据（Evidence），判断证据对声明的支持程度（如支持、反驳或证据不足）。这一过程对于提高医疗信息的透明度、减少误导性信息的传播具有不可替代的作用，同时也是构建可信赖的医疗问答系统和智能医疗助手的核心安全屏障。

支持(Supported)：证据完全支持声明的内容；
部分支持(Partially Supported)：证据支持声明的部分内容，但存在不确定性或未覆盖的细节；
反驳(Refuted)：证据与声明内容相矛盾；
不确定(Uncertain)：证据与声明相关，但不足以证实或反驳声明的真实性；
不适用(Not Applicable)：证据与声明完全不相关。

组织者和联系人

评测组织者：苏炯龙、蒋正雍、王唯（西交利物浦大学）
任务联系人： 陈彤（西交利物浦大学，Tong.Chen19@student.xjtlu.edu.cn）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/AshleyChenNLP/MedFact

任务9：第二届古诗词赏析评测

任务简介

中文古诗词具有高度凝练性和语言的音乐美，讲究对仗、平仄和押韵。为了准确理解古诗的语义，不仅需要掌握古诗的语言特色，还需要调动对历史、文化背景的知识，结合对古诗中所描绘的自然景象和人物情感的认知，从而进行综合性的推理与理解。

为了进一步衡量模型在中文古诗词赏析场景中的语言理解深度与文化推理能力，我们推出第二届中文古诗词赏析评测。在第一届的基础上，本届评测进一步聚焦模型的深度理解与复杂推理能力，引入更具挑战性的高级任务，以全面考察模型对古诗词文化内涵与高层语义结构的掌握程度。具体任务设置如下：

任务一：古诗词理解：

古诗词字词理解：解释古诗词中短语级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词诗句理解：解释古诗词中诗句级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词情感理解：推断诗人透过作品所传达的情感。本子任务通过选择题的形式对待测系统进行评估。

典故识别：判断诗句中是否包含典故并进行解释。本子任务通过问答题的形式对待测系统进行评估。

任务二：古诗词推理：

古诗词类比：发现古诗词中不同事物之间的相同关系，意象的关联。本子任务通过问答题的形式对待测系统进行评估。

古诗词辨析：依据诗词内容与语境，对给定选项进行辨析，判断其中表述最为合理的一项。本子任务通过选择题的形式对待测系统进行评估。

本评测将根据两个任务的综合性能来确定最终成绩排名。本评测旨在评估自然语言模型自身对中文诗词的理解水平，参赛队伍可以使用开源大语言模型进行微调，禁止使用RAG等技术来利用外部知识回答问题。

组织者和联系人

评测组织者：白雪峰、陈科海（哈尔滨工业大学（深圳））
任务联系人： 朱颖杰、裴振武（哈尔滨工业大学（深圳），zhuyj@stu.hit.edu.cn）

任务奖项

一等奖1名，奖金合计3000元；二等奖1名，奖金合计2000元；三等奖1名，奖金合计1000元。所有奖金将在公布奖项后10个工作日内发布。

任务网址

https://github.com/HITICI-NLPGroup/CCPA-EvalTask

任务报名表

https://docs.qq.com/form/page/DZW50THN4SGhqbm5x

三、生成式AI与大模型核心能力

任务10：基于情景的常识推理评测

任务简介

推理是一种高级认知功能，涉及基于现有知识对新信息进行分析、归纳和演绎。它在人类智能中起着基础性作用。虽然以往的基准测试主要侧重于评估大语言模型（LLMs）在复杂、专业领域内的推理能力，但它们往往忽视了类人认知的一个关键方面：常识推理。评估大型语言模型中的这种常识推理能力对于人工智能的发展至关重要。这种基本能力显著影响着 LLMs 在日常情境中的决策，并且对于在通用人工智能（AGI）中迈向类人智能至关重要。

为了全方位、细粒度地诊断大模型的常识推理能力，我们提出了基于情景的常识推理评测数据集(Scenario-based Commonsense Reasoning Evaluation, SCoRE)，用以评估大语言模型在常识场景下的复杂逻辑推理能力。根据所涉及的常识领域，该数据集包含的任务可分为以下五类： * 空间常识推理：给定一个空间场景和若干已知的实体间方位关系，本任务要求机器推理出实体在空间场景中的位置，以及未知的方位关系。 * 时间常识推理：给定一个包含若干事件的时间叙述场景和已知的事件间时间关系（如先后顺序、持续时长、相对或绝对时间点），本任务要求机器推理出事件在时间轴上的具体时刻，以及未知的事件间时间跨度或次序关系。 * 社会常识推理：给定一个社会交互场景和若干已知的人物间人际关系（如亲属、职场、朋友或师徒关系），本任务要求机器推理出人物在社会网络中的具体角色或地位，以及人物间隐含的或未知的社会关系。 * 自然常识推理：给定一组自然物体（或实体）和若干已知的属性约束条件（如类别归属、物理性状、功能用途或感官特征），本任务要求机器推理出物体与描述（或位置）的一一对应关系，以及物体未知的属性或分类特征。 * 融合常识推理：融合领域任务描述旨在构建一个多维度条件交织的推理问题。它要求机器同时处理来自空间、时间、自然属性及社会关系等多个领域的约束与常识，并建立统一的推理模型以进行协同分析与决策。其核心挑战在于，单一领域的逻辑链条不足以解决问题，必须识别并整合不同领域的隐含联系，才能对复杂多因素情境进行有效推断。

组织者和联系人

评测组织者：詹卫东、穗志方（北京大学）
任务联系人：胡楠（北京大学博士生，hunan@stu.pku.edu.cn）

任务奖项

一等奖0-1名；二等奖0-2名；三等奖0-4名。

任务网址

https://pku-space.github.io/SCoRE2026/

任务11：面向自动驾驶的自动化危害分析与风险评估评测

任务简介

随着汽车电子电气架构（E/E 架构）向智能化与网联化深度演进，功能安全已超越早期以机械系统为主的工程保障范畴，演变为覆盖软硬件协同设计的系统化安全工程体系，成为自动驾驶技术落地与量产的关键基石。在此体系中，危害分析与风险评估（HARA, Hazard Analysis and Risk Assessment）承担着风险识别与顶层安全需求定义的核心职能。该过程通过对车辆运行场景、潜在功能失效模式及环境要素的系统化建模，提取车辆运动状态、道路拓扑及交通参与者分布等关键特征，并基于严重度（S）、曝光率（E）和可控性（C）三个维度对风险进行量化评估，确定汽车安全完整性等级（ASIL），并将评估结果转化为顶层安全目标，进而分解为可验证的软硬件安全需求，指导系统设计与工程实施。

为推动大模型与人工智能技术在预期功能安全及功能安全领域的落地应用，提升HARA流程的自动化与智能化水平，我们提出“面向自动驾驶的自动化危害分析与风险评估评测任务”并构建了一个专注于评估自动驾驶安全逻辑推理与需求生成的结构化数据集。该数据集源自脱敏的真实工业项目数据，聚焦于动力系统核心高危失效模式——“非预期驱动力/扭矩输出”，共包含3,000条高质量标注数据。

本次评测包括以下两个子任务： * 危害事件识别与场景描述生成：该任务要求模型基于给定的车辆运行工况与环境参数，精准识别潜在的危害事件，并生成符合工程规范的危害场景结构化描述。 * 风险参数评定与等级推理：该任务要求模型基于场景特征，推理并输出HARA分析的关键风险指标（S/E/C），并据此判定相应的安全完整性等级。

组织者和联系人

评测组织者：杨旭（北京理工大学），张海洋（西交利物浦大学），王唯（西交利物浦大学）
任务联系人：王子木（西交利物浦大学博士生， Zimu.Wang19@student.xjtlu.edu.cn）

任务奖项

一等奖1名，奖金合计5000元 * 二等奖1名，奖金合计3000元 * 三等奖1名，奖金合计2000元。

赞助情况：本次评测奖金由优策科技（福州）有限公司赞助。

任务网址

https://ccl2026-hara.github.io

任务12：优酷无障碍剧场杯-面向听障群体的信息无障碍结构化字幕生成评测

任务简介

在我国已进入“制度保障”阶段的信息无障碍建设背景下，字幕已成为听障及老年群体获取音视频信息的关键无障碍服务。然而，现有技术评测缺乏面向真实应用场景、统筹考量“可读性”、“核心信息准确度”与“响应速度”的基准。本任务从“AI字幕是基础设施”的视角出发，系统评测从“语音/视频输入”到生成“面向人类阅读的结构化字幕文档”的完整链路，特别聚焦于解决高信息密度真实场景（如医疗、金融、政务办事）中“社交时差”与“关键信息丢失”两大痛点。

为贴近不同应用环境，评测任务被设计为两个平行赛道，以全面评估技术的能力上限与落地可行性：*赛道A：PC端模拟云端或高性能桌面环境，旨在探索技术性能上限，不限制计算资源。*赛道B：手机端模拟移动设备（手机、AR眼镜）实时交流场景，对模型体积、内存占用及实时性提出明确的约束要求。

每个赛道均包含以下两个子任务：

1. 子任务一: 基础字幕生成（Foundation Track） 评估语音转写、时间戳对齐、噪声鲁棒性等基础能力。 评测指标： 转写准确性、时间轴对齐精度、复杂多人场景下的综合处理能力。

2. 子任务二: 结构化可读字幕生成（Structured Track） 评估模型生成符合人类阅读习惯、包含合理断句、标点、说话人区分、并确保核心关键词准确性的结构化字幕的综合能力。 自动评测指标： 文本准确性、核心词召回率、模拟显示延迟、时间轴合理性偏差、结构一致性。 人工评测指标（抽样）： 可读性（1-5分）、关键信息完备性、断句合理性、标点与语气匹配度、幻觉文本严重程度。

数据规模与来源

本评测构建了总规模约30–50小时的多场景真实语音/视频测试集，涵盖新闻演讲、影视综艺、生活真实交流、多人会议等四类典型场景。其中，约10–15小时的核心子集提供更高粒度的结构化标注与核心关键词标注，支持Track2的深度评测。数据来源强调真实性与多样性，包含背景音乐干扰、环境噪声、远场收音、多人重叠语音等复杂声学条件，全面模拟听障用户在办事场景中的实际听觉挑战。

组织者和联系人

评测组织者：姚登峰（北京联合大学/清华大学），徐聪（中国聋人协会手语研究与推广委员会），梁振宇（深圳市信息无障碍研究会专家委员会），曲欣（北京市设计学会无障碍设计专委会）
任务联系人：施杰、叶博文（北京联合大学硕士生，20251083510951@buu.edu.cn），张洋（清华大学博士生）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会为获奖队伍颁发荣誉证书；同时设立赞助奖项，由阿里巴巴等头部科技企业提供奖品支持。

任务网址

https://github.com/ALINOSJ/IASSGE-2026

报名表

https://f.kdocs.cn/g/aYC93cfz/

任务13：图像文本翻译质量评测

任务简介

随着全球化进程加速和跨语言交流需求增长，图像文本翻译（In-Image Translation，简称“图翻”）已成为机器翻译的重要分支。与传统文本翻译不同，图翻需同时处理视觉与语言信息，涵盖文本检测、识别、翻译与渲染等多个环节，在跨境电商、旅游导览、多语言内容本地化等场景中具有广泛应用价值。中文图翻面临独特挑战：汉字视觉复杂性高、书写方向多样（横排/竖排）、与目标语言存在显著文本长度差异，且蕴含丰富文化内涵。尽管大型多模态模型在图像理解方面取得进展，但在保持视觉一致性的前提下实现高质量图翻仍困难重重。尤其在电商场景中，系统需区分“应翻译内容”（如功能说明）与“应保留内容”（如品牌标识），对翻译完整性与合规性提出更高要求。现有机器翻译评测指标（如BLEU、METEOR）仅关注文本准确性，无法衡量视觉呈现、排版布局、美学协调等关键维度。而人工评测成本高、主观性强、难以规模化。因此，亟需建立标准化、多维度、可自动化的图翻质量评测框架。

本次评测聚焦于如何设计和训练能够从多个维度对图像翻译结果进行精准评分的自动评测系统，从而为该领域的技术进步提供可靠的度量工具。旨在：建立标准化基准：构建包含多场景、多维度人工标注的大规模评测数据集。推动方法创新：鼓励研究者设计能够模拟人类专家判断的自动评测模型。探索评测范式：通过开放式竞赛，发现在不同应用场景下最有效的评测策略。促进社区共识：图像文本翻译质量评测建立可复现、可比较的评价标准。

组织者和联系人

评测组织者：李海军、尚姿芙、梁杰、徐昭、骆卫华
任务联系人：韩雨轩（阿里云技术专家 baileng.hyx@alibaba-inc.com）

任务奖项

一等奖1名，奖金合计20000元；二等奖1名，奖金合计10000元；三等奖2名，奖金合计5000元。

赞助情况：本次评测奖金由阿里云赞助，由中国中文信息学会为获奖队伍颁发荣誉证书。

任务网址

https://tianchi.aliyun.com/competition/entrance/532463?spm=5176.12281973.J_6-HJZaSjQocH7SIdvbK02.1.376b3b74H1HNIn

评测任务14：中文会话含义与隐喻能力评测

任务简介

对“言外之意”的理解是人类交际的核心能力。而以往针对大语言模型的评测更侧重其在具体垂域中的表现，较少从语用推理与隐喻义识别角度评估模型的语言能力。本评测共设计两个核心赛道，旨在系统评估大语言模型在中文语境下的会话语义理解能力与隐喻理解能力。

赛道一：会话含义理解

为了实现交流目的，会话参与者在交流时通常遵循一套基本原则，这一原则被格赖斯总结为合作原则。该理论从量、质、关系、方式等范畴提出四项准则。量的准则要求提供适量信息，既不多余也不过少；质的准则要求说话真实，证据充分；关系准则要求话语要与当前话题相关；方式准则要求表达简洁有序，避免晦涩和歧义。基于这四项准则，格赖斯提出了会话含义理论，当说话人违反了这些准则或次准则的时候，听话人就需要超越话语的表面意义去领会说话人的隐含意义。本赛道用于评估模型识别、理解会话含义的能力。

子任务一：会话含义识别任务

给定一段多轮对话，要求模型指出特定人物的哪一句话是具有会话含义的。

子任务二：会话含义选择任务

给定一段多轮对话，要求模型从四个选项里选出有会话含义句子的正确含义。

子任务三：会话含义释义任务

给定一段多轮对话并明确指出具有会话含义的句子，要求模型生成一段解释。

赛道二：隐喻理解与生成

隐喻作为人类认识世界的重要方式，在概念建构和思维过程中发挥着关键作用。隐喻能力不仅关系到语言表达本身，也与创造性思维、抽象推理以及知识迁移等更高层次的认知过程密切相关。人们通过具体、熟悉的源域来理解抽象、陌生的目标域，这一映射机制贯穿于日常语言与思维之中。本赛道用于评估模型识别、理解并创造性地使用隐喻的能力。

子任务一：隐喻识别任务

给定一段文本，要求模型识别出此文本中的句子是否使用隐喻这一修辞手法，如包含隐喻，模型需要分别提取出隐喻句当中的本体、喻体。

子任务二：隐喻释义生成任务

给定一段文本，要求模型用非隐喻的语言解释隐喻句的含义。

子任务三：隐喻句生成任务

不限定主题，要求模型自主生成恰当的隐喻表达。

组织者和联系人

组织者：杨尔弘、杨天麟、岳岩、安维华（北京语言大学）
联系人：张艺璇（北京语言大学博士生，blcuicall@163.com）

任务奖项

本届评测将设置一、二、三等奖，由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/blcuicall/CCIME2026

从探听“修辞回声”走向数字文学史——以定量分析松尾芭蕉在日本近代的接受为例

2026年4月24日 09:01

原创日比嘉高、江晖 2026-04-24 09:01 北京

数字人文；接受研究；松尾芭蕉；近代俳句；正冈子规

转载请注明“刊载于《数字人文研究》2025年第4期”；参考文献格式：日比嘉高，江晖. 从探听“修辞回声”走向数字文学史—— 以定量分析松尾芭蕉在日本近代的接受为例[J].数字人文研究,2025,5(4):99-117.全文PDF已在知网、万方及编辑部网站（http://dhr.ruc.edu.cn）上发表，此处注释及参考文献从略。

从探听“修辞回声”走向数字文学史

——以定量分析松尾芭蕉在日本近代的接受为例

摘要 研究旨在通过对近代俳句中松尾芭蕉的接受情况进行定量分析，探索数字人文方法在文学史研究中的潜力。利用日本国立国会图书馆的数字收藏，统计了明治至昭和战前期间文献中芭蕉俳句的引用频率，并运用Jaccard系数对明治、大正、昭和战前期的大规模俳句集进行了相似性分析。研究发现，随着时代变迁，芭蕉对俳句的影响逐渐降低，而以芭蕉批评者著称的正冈子规的俳句却比明治时期一般俳句更接近芭蕉的风格。可见计算机定量分析能够捕捉人类难以察觉的表达差异，提取出人类和时代的“无意识修辞”。数字人文方法能够揭示传统研究难以触及的深层规律，为“数字文学史”的构建提供新路径。

关键词 数字人文；接受研究；松尾芭蕉；近代俳句；正冈子规

作者简介 日比嘉高，名古屋大学人文学研究科教授；江晖（译者，通讯作者），中山大学外国语学院副教授，Email:jianghui6@mail.sysu.edu.cn。

0 文学作品接受研究中的定性研究和定量研究

数字人文（Digital Humanities）是否能够为文学的接受研究带来革新？如今，全世界每天都在产生海量的数据，其中包含大量与文学相关的内容。有面向业余创作者的小说投稿网站、有与短诗形式文艺相关的线上活动，还有像X（原推特）、微博、脸书等社交网络服务。此外，各类博客平台也在以多种形式持续产出文学作品的创作、评论和读者的感想。不仅如此，过去的文学作品以及与文学相关的各类资料正在快速地从纸质媒介向数字数据转移。例如，日本国立国会图书馆的数字收藏中包含了253万本图书（网络公开37万件）、140万册杂志（公开2万件）和32万篇博士论文（公开1.2万件）等数据。如果使用该图书馆的“下一代数字图书馆”，其中已过版权保护期、被标记为“网络公开”且被归类为“保护期限届满”的约29万件数据，用户可以获得文本的全文数据。就与日本文学相关情况而言，国文学研究资料馆一直在推进古典文学相关文献的数字典藏项目，通过其运营的“国书数据库”，用户“可以一次性检索和使用国内外众多机构和国文学研究资料馆收藏的古籍（即江户时代以前的书籍）等资料的书目信息以及部分高清图像”，据悉该网站在2025年3月公开的原始图像已超过30万张。

如此产生的海量数字化资料群，构建了一个由电子数据组成的文学话语空间，它与人们在数字空间和在物质空间的活动复杂地交织在一起，共同塑造了当代文学的生态系统。本文认为在文学的接受研究领域，数字人文式的方法同样有效。人们在创作、交流和享受文学作品时所留下的痕迹，不仅留存于纸张等物理媒介中，也大量保存在电子资料里。我们已经进入了一个新的时代，可以通过数字数据来探究某部作品是如何被阅读，以及从中获得的文学创意、词汇及修辞等遗产又是如何传承给下一代的。

文学接受研究——探讨既有的文学作品及其创作者如何被后继的读者和创作者所接受——这一领域拥有丰富的研究历史。回顾其理论框架，大致可以分为两大体系：一类是关注读者阅读行为的读者反应论体系，另一类是关注读者群体及其解释框架的接受论体系。关于前者，沃尔夫冈·伊瑟尔（Wolfgang Iser）在著作《阅读行为》中使用“空白（blank）”和“空缺（gap）”等术语论述了阅读行为的本质并在全球产生了深远影响；提出“作者之死”并强调读者能动性的罗兰·巴特（Roland Barthes）或许也可归入此类。在文化研究理论中，斯图亚特·霍尔（Stuart Hall）的编码/解码模型是广为人知的。

在关注阅读群体及其解释框架的接受论研究者中，汉斯·罗伯特·姚斯（Hans Robert Jauss）无疑是一位杰出代表。他在著作《文学史作为向文学理论的挑战》中提出了“期待视野”（Horizon of Expectations）这一概念，探讨了某一时代的读者对文学作品的理解范式是如何被更新的。该理论在数字人文时代依然具有丰富的启示意义。在当今时代，评论家与读者的感想通过网络媒体及社交平台等途径被大量生成并留存。数字时代的接受研究正是借助这一类新型资料，获得了重构“期待视野”的线索。关于“期待视野”的理论前景，本文将在结论部分再做探讨。

关于读者共同体的分析，斯坦利·费什（Stanley Fish）提出的“阐释共同体”（Interpretive Communities）概念，可定义为共享特定阐释框架的群体。这个观点认为文本的意义并非内在于文本本身，而是由读者所持有的理解框架生成的，就这一点而言与上述的读者反应论在问题意识上是相通的。

这些关于读者反应论或接受论的著名研究，虽然都诞生于纸质资料的时代，但随着互联网的出现，它们也与讨论数字空间中阅读行为的研究成果产生了关联。在这一领域的早期成果中，大卫·博尔特（David Bolter）的《写作空间》（Writing Space）值得一提。该书出版于1991年，是探讨超文本时代表达方式和读者参与方式转变的开创性著作。此外，尽管与接受研究略有不同，霍伊特·朗（Hoyt Long）和理查德·J·索（Richard J. So）的论文使用机器学习对比了英译俳句和英语原创俳句的风格、特征和形式，是在数字人文与文学研究的交汇点上进行的俳句研究和翻译研究的新尝试。

然而，在博尔特的时代尚未出现大量的文学电子资料。可如今，博尔特所讨论的那些通过超链接连接起来的以及由公共或私人档案库收藏的正在等待读者访问的巨大数据空间，在世界文学环境中占据了重要的地位。这些数据的积累如何应用于文学的接受研究，正是本文想要关注的问题。若参照前文提出的两种分类，即“聚焦阅读行为的读者反应理论”与“关注阅读共同体的接受理论”，本研究当归于后者——接受理论的学术谱系。

1 俳句的接受研究与本研究的意义

需要说明的是，本次研究的目的也并非要描绘出其全貌，我们分析的对象仅限于日本近代俳句集的文本数据，根据日本著作权法，这些作品已过版权保护期。本文将探讨江户时期俳人松尾芭蕉的作品在近代言论空间以及近代俳句中的接受情况。数字人文对文本资料的定量分析能在俳句的接受研究中发挥怎样的作用呢？

在此之前，有必要确认一下既有研究是如何进行相关讨论的。活跃于17世纪后半叶的松尾芭蕉是日本文学史上最著名的俳句诗人，其影响力一直延续至今。当然，相关研究也颇为丰富。由于审视其全貌超出了本文的能力范围，在这里仅对主要成果进行概述，尤其是与本文后半部分涉及的正冈子规相关的内容。关于近代对松尾芭蕉的接受，研究成果众多，早先有山下一海和大野林火的论述，近年黄慧君的论文以“古池”一句为例探讨了大正时期对芭蕉的评价。除俳句诗人对芭蕉的接受以外，久保田晴次有两部重要的成果还考察了小说家们的看法。

关于近代俳句诗人个人对芭蕉的接受研究，可以以正冈子规为例。他是明治时期俳句革命运动的推动者，不仅在俳句创作有所建树，还经常发表评论并创办杂志《杜鹃》（『ホトトギス』），是近代俳句史上划时代的人物。并且他本人也多次论及芭蕉，相关研究十分丰富。早在战前，宫本三郎就出版了《子规在芭蕉批评史中的地位》，复本一郎也有相关著作。简而言之，在关于二者关系的讨论中，有的分析了子规对芭蕉的“理解”或“评论”，有的则追踪了除二者之外的谱系，还有的比较了二人的俳句作品，方法多种多样。但是关键在于，许多评论和研究中都存在一种共通的论述“模式”，即使用“继承—革新”“接受—排斥”“影响—创造（进化）”等词语去描述他们之间的继承关系，或者是作为其变体的反叛亦或是创新的轨迹。

这些接受研究中所体现的“模式”与哈罗德·布鲁姆（Harold Bloom）提出的“影响”问题不无关联。布鲁姆指出，英国浪漫派诗人在阅读前人作品时，虽然从中获得了文学上的刺激，但同时也因此对自身的独创性感到不安，他将这种现象上升为理论，称为“影响的焦虑”。路易斯·A·伦扎（Renza, Louis A.）对布鲁姆的观点进行了解释，他认为这种影响关系可以被视为疑似亲子关系，即俄狄浦斯式的焦虑，其背后是基于文献学的历史研究观。伦扎指出了重要的一点，就是对这种影响关系的考察虽然在讨论传承或反叛，最终不过是维护了确认文本传承关系的传统主义意识形态。无论称之为传承还是对传统的叛离，归根结底，只是换一种说法在讨论如何强化文学史的延续性罢了。

与此相比，数字人文的方法则采取了完全不同的思路。它并非从人与人之间的传承关系切入，而是通过测算词与词、句与句之间的相似性等方式，来探寻“影响”或“接受”的痕迹。如果将关注人际关系、挖掘作品表达方式的研究称为“质”的接受史，那么基于大量分析文本数据的字面内容去考察表达特征及其相互关系的研究，则可称之为“量”的接受史。

本文对“相似性”的判定标准是通过比较俳句A与俳句B中相同字符连续出现的程度。如第三节所述，本研究采用2-gram对诗句进行分割，并使用Jaccard系数将匹配度量化。在注重质性分析的传统接受史研究中，仅凭词语的简单相似自然不足以证明前代作家/作品与后代作家/作品之间的影响关系。然而，数字人文领域的文学研究通过对海量文本进行词语一致性检测，即基于“字面”层面的相似性计算，能够捕捉人类难以察觉的细微变化，并提取远超人类分析能力规模的文本特征。文学表达中的表层相似性——本文称之为“修辞回声”——是通过多重分析的交叉叠加进行探测的。“修辞回声”是借助数字人文方法捕捉到的“接受”痕迹或其潜在的可能性。基于定量分析的接受研究，通过持续检测“修辞回声”并深入剖析其内涵，进而尝试重构“期待视野”的图景。

如后文所述，基于字面相似性的量化接受研究方法，对于探讨俳句这一文类的接受史而言同样有效。俳句严格遵循十七音节的格律规范（若使用汉字而非假名，则实际字符数更少），因此每个字符在字面层面都承载着更为厚重的意义密度。

基于上述问题意识，本文将对俳句的数字资料进行定量分析，去探究日本近代对松尾芭蕉的接受情况。

2 从国立国会图书馆数字馆藏资料看近代对芭蕉的接受

首先，基于笔者2022年的研究对本文的前期成果进行简要整理。本研究对二战前的近代文献中对芭蕉俳句的引用情况进行了定量分析，从新的视角讨论了这个问题。这里所说的二战前的近代文献，具体是指可以在日本国立国会图书馆“下一代数字图书馆”进行全文检索的所有类别的图书文献，数量约为33.6万件（截至2022年）。利用全文检索功能，可以统计出这些资料中引用芭蕉俳句的数量，以此勾勒出“接受”的样态。检索的时间范围为1868年至1945年，因为芭蕉的俳句约有1000句，为了尽可能避免因表述差异造成的遗漏，本研究在检索时使用了三种文本。图1展示了引用率前30的句子（由于存在引用率相同的情况，实际为31句）。

图1　近代文献中芭蕉俳句的引用情况（前30位）

可以将此结果与人们所熟知的芭蕉佳句进行比较。引领明治俳句革命的正冈子规在1893年撰写的《芭蕉杂谈》中列举了“尤为出众、广为传颂”的11句芭蕉名句，包括：

“古池や蛙とびこむ水の音”（古池呀，青蛙跃入水中的声响）
“道のべの木槿は馬にくはれけり”（道边木槿，马儿啃食）
“物いへば唇寒し秋の風”（张口欲言，唇寒于秋风）
“あかあかと日はつれなくも秋の風”（艳阳当头，秋风已起）
“辛﨑の松は花よりおぼろにて”（辛崎之松，比花更显朦胧）
“春もややけしきととのふ月と梅”（春意渐浓，月与梅相映成趣）
“年々や猿に着せたる猿の面”（年复一年，猴戴猴面）
“風流のはじめや奥の田植うた”（风雅之始，远处传来插秧歌）
“白菊のめにたてて見る塵もなし”（凝视白菊，纤尘不染）
“枯枝に烏のとまりけり秋のくれ”（鸦栖枯枝，秋日将暮）
“梅の木に猶やとり木や梅の花”（梅树插新枝，梅花共盛开）

可以看到，与图1中列举的31句仅有1、3、5、10这四句是重合的。

从33万余册的图书资料中，找出超过1000句的芭蕉俳句引用，其工作量之巨大，超出了人力所能及的范围。然而借助计算机技术便使之成为可能，让我们得以开启那些以往难以追踪的接受研究。并且，如本章所示，计算机辅助分析往往能呈现出与人们所认知的世界图景不同的结果，例如子规认为“广为传颂”的俳句与实际被频繁引用的俳句之间存在差异。但是这里也会出现一个问题，即“引用”是否等同于“接受”？关于这一点，我们将在后续章节中进一步讨论。

3 从近代俳句集看对芭蕉的接受

3.1 数据预处理与相似性的计算方法

本章将进一步探讨关于近代对松尾芭蕉的接受。在此，我们将研究对象限定于俳句集，通过分析近代俳句集中的作品特征来揭示芭蕉的接受情况。关于芭蕉的俳句，我们仍使用与前章相同的三个数据集，本章中分析的近代俳句作品来自以下三种句集：

Ａ《明治句集》：共4冊（新年卷、春之卷、夏之卷、秋之卷），27084句，选录自报纸杂志。

Ｂ《大正百家选》：共１冊，12516句，收录德岛县当地俳句诗人作品。

Ｃ《现代综合大句集》：共１冊，12526句，选录自“最近发行的数百本俳句杂志”中的优秀作品。

首先，对本研究的数据预处理过程进行简要说明。ABC各句集的数据来自从国立国会图书馆“下一代数字图书馆”获取的JSON Lines文件，从中删除了正文以外的页面（如封面、目录、版权页、广告等），保留了页码、页眉、章节标题等信息。由于原始文件中有部分字符顺序混乱，因此使用JSON Lines文件中的位置信息标签进行了调整。在此基础上，提取“contenttext”（文本内容）中字符数大于9的字符串，以此删除通常小于8个字符的页码、章节标题等副文本信息。至此，正文数据的构建基本完成。此外，根据分析的需要，将正文数据中的汉字旧字体转为了新字体。除最后这一步以外，上述的预处理工作基本都是通过Chat-GPT4完成的，笔者随时跟进了这个过程。

关于正文数据的识别率，通过对比笔者核对过的句集与上述经过预处理的正文数据，发现A的平均误识别率小于1%，但存在部分句子缺失的现象，B和C的误识别率分别为1.5%、0.4%，同样都出现了信息缺失的情况。

本研究采用了N-gram（本次使用了2-gram）的方法，通过Jaccard系数计算了文本的相似度。本研究的独特之处并非在于追踪俳句作品的语义承继，而在于对表层字面一致性的量化考察。鉴于此研究目的以及俳句文本篇幅极短这一特性，本研究认为，与 Word2vec 或 BERT 等方法相比，N-gram具有更高的适用性。

N-gram是指字符串中连续的“N个单词”或“N个字符”的组合，2-gram就是两个连续的单词或字符。例如，以字符为单位的2-gram将“雲の峰いくつ崩れて月の山”分解，可以得到“雲の”“の峰”“峰い”“いく”“くつ”“つ崩”“崩れ”“れて”“て月”“月の”“の山”共11个二字字符组。Jaccard系数是用于测算两个集合之间相似度的指标。具体计算方法是用两个集合的共同元素数量（交集）除以元素总数（并集），所得数值介于0到1之间，越接近1表示相似度越高。

例如，将“干網に蜻蛉吹かるゝ野分かな”与“猪もともに吹かるゝ野分かな”这两句俳句用2-gram分解后，可按照以下步骤计算Jaccard系数：

首先，将每句俳句分解为2-gram。

　　「干網に蜻蛉吹かるゝ野分かな」的2-gram：干網、網に、に蜻、蜻蛉、蛉吹、吹か、かる、るゝ、ゝ野、野分、分か、かな；

　　「猪もともに吹かるゝ野分かな」的2-gram：猪も、もと、とも、もに、に吹、吹か、かる、るゝ、ゝ野、野分、分か、かな。

两者之间有7个共同的2-gram，即“吹か”“かる”“るゝ”“ゝ野”“野分”“分か”“かな”。以此计算Jaccard系数，计算公式为：（共同元素数量［交集］）÷（元素总数［并集］）。这里的交集为7，关于并集的计算，两句都有12个2-gram，但需要从两者的和中减去共同元素数量7，即(12+12)-7=17。因此，上述两句的Jaccard系数约为0.41。

基于此方法，以（1）《芭蕉俳句全集》和A《明治句集》为例，使用2-gram和Jaccard系数进行了初步调查。将结果按照相似度从高到低排序，并经过笔者的确认，可以发现当相似度高于0.3时，即使由人来判断也会感受到其相似性；数值在0.2左右时，仅是出现部分相同的季语，就俳句这一文学体裁而言，难以称之为相似。因此，本研究将相似度高于0.3的情况定义为相似。

3.2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的比较结果

为了把握整体趋势，我们首先将《芭蕉俳句全集》与《明治句集》（1909年）、《大正百家选》（1918年）、《现代综合大句集》（1935年）进行了逐句比较。这些句集分别收集了明治、大正和昭和战前时期多位俳句诗人的作品，规模宏大。其中，《明治句集》收录约2.7万句，《大正百家选》和《现代综合大句集》各约1.2万句。

图2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的相似度

与初步调查的步骤相同，我们将句子分解为2-gram，并使用Jaccard系数测算了它们的相似度，然后将结果按照从高到低进行了排序，图2即为三组不同时期句集相似性比较结果的前5000项。由于《明治句集》中存在与芭蕉完全相同的句子，因此图中显示出了极端高的数值（相似度为1.0）。但是，将比较对象扩大至前5000项，仍然可以清楚地看到《明治句集》的相似度始终显著高于《大正百家选》和《现代综合大句集》。同样，《大正百家选》的相似度也始终略高于《现代综合大句集》。通过将总计约5.1万句俳句与芭蕉作品进行比较，可以发现从1909年到1918年，再到1935年，随着时间的推移，其相似度、即“修辞回声”在逐渐降低。尽管这项调查未能提供关于季语或词汇使用、类型化表达等具体信息，但基于5万句规模的考察，能够得出以下结论：后期的俳句作品与芭蕉俳句在字面上的相似度随着时代变迁而不断降低，即在字句层面上渐行渐远。

在此基础上，我们比较了《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》中相似度最高的前30句作品（表1至表3）。可以发现，从明治、大正到昭和，此前相似度较低的句子也有可能逐渐上升到较高位置。正如在初步调查中也讨论过的，当相似度超过0.3时，即使通过人为判断也能感受到其相似性。如表1至表3所示，相似表现的关键在季语，当季语和切字的组合超过四个字符时，相似度就能达到0.3。在相似度高于0.4的句子里，除季语之外，还有其他词语的重合，使得其相似性更为显著。但相似度在0.2左右的句子中，重合的季语大多仅有三个字符，人为判断就较为困难。

此外，还可以看到，在相似度高于0.3的句子里，其相似性随着时代变化呈现出下降的趋势。不仅如此，有趣的是，即便是相似度低于0.2的句子也显示出了类似的结果，即相似性从明治、大正到昭和逐渐降低。若仅依据人为判断，相似度低于0.2时是很难发现这三个时期的俳句的表达差异的，无法感知其相似性也就难以进行比较。换言之，计算机通过将相似性量化的方法，捕捉到了人类肉眼无法比较的表达层面上的差异，并展示了其变化趋势。尽管是非常细微的差异，但确实可以看到后期的俳句创作在不断远离芭蕉式的表达。通过对近代俳句的大规模分析，揭示出了人力所不易察觉的长期且细微的“修辞回声”的变化。

表1　《芭蕉俳句全集》与《明治句集》中的高相似度作品

表2　《芭蕉俳句全集》与《大正百家选》中的高相似度作品

表3　《芭蕉俳句全集》与《现代综合大句集》中的高相似度作品

4 从正冈子规看芭蕉的接受

本章将以正冈子规的俳句为例，进一步考察日本近代对芭蕉的接受情况。

在此有必要指出本次定量分析的局限性。首先，用于对照的正文数据有一定局限。若要追求文学研究的精确性，原本需要在“全句”范围内进行详细考察，而且机器的文字识别准确性显然远未达到完美。其次，无论是芭蕉还是子规，其俳句风格均存在变化，文学研究向来是重视这种变化本身的[32]，而以“全句”作为比较对象的量化分析就忽略了这种风格上的变化。但是，通过更细致的数据分类、文本校对和预处理等方法，或许能够在一定程度上克服这些问题。

正冈子规的俳句数据来源于子规纪念博物馆的“俳句检索”系统。本研究对其收录的25097句俳句进行了整理，将片假名转换为平假名，并分别准备了旧体字和新体字的数据。下文中将这个数据集称为“子规全句”。

我们首先将子规全句与《芭蕉俳句全集》和《明治句集》分别进行了比较，采用了与前一章相同的方法，结果如图3所示。观察图中曲线可以注意到两个特点：一是相比《芭蕉俳句全集》，《明治句集》和子规全句的相似度明显更高，这一点可以与图2进行对照，其差异一目了然；第二点是，相比《明治句集》，子规全句和《芭蕉俳句全集》的相似度更高。

其中第二点似乎与一般认知相悖，因为致力于推动俳句近代化改革的子规，是以严厉批评芭蕉而闻名的。在《芭蕉杂谈》中，他曾以激烈的言辞说道：“芭蕉的俳句大半为劣句废话所充斥，能称为上乘之作的不过几十分之一”，还称“与其说芭蕉的作品受到肯定，不如说其品行为人所钦慕”，认为是芭蕉的人品而非其作品本身获得了评价。

需要说明的是，子规并非单纯的芭蕉批评者。他对芭蕉的批判很大程度上源于对那些盲目崇拜芭蕉的旧派俳句诗人的否定态度。通过接受斯宾塞美学等思想，他也基于重视写实的现代自然描写意识对芭蕉简洁明快的表现方式予以了正面评价。

图3　《芭蕉俳句全集》《明治句集》与子规全句的相似度比较

这些是通过仔细解读子规的评论所掌握的他对芭蕉的具体解读。因此，就直觉而言，在将子规俳句与明治时期的大规模句集进行比较时，得出子规的作品反而更接近芭蕉这一结果，很难不让人感到困惑。在俳句革命中，正冈子规对被偶像化的芭蕉的批判广为人知。

然而分析的结果确实如图3所示。那么，二人的作品究竟在哪些方面显示出相似呢？在讨论这个问题之前，还需要回顾一下图3的另一个特点，即明治句集与子规全句的相似性。与芭蕉作品相比，子规作品与《明治句集》之间的距离明显更为接近。

为了探其究竟，笔者制作了《芭蕉俳句全集》和《明治句集》、子规全句相似性对照一览表（表4）。可以看到，相似度为0.3的句子在《明治句集》中排第17位，而在子规全句中排第27位（有5句的相似度同为0.3），这意味着子规全句与《芭蕉全集》的相似性更高。通过对比，能够看出子规似乎是有意识地借鉴了芭蕉的俳句。而在《明治句集》收录的俳句中，虽然也有类似的受到芭蕉影响的例子，但也有一些作品，虽然在字面上看似有诸多相似之处，实际上并非真正借鉴了芭蕉，例如“胡麻蒔や風なきに散る栗の花”（明治）与“風なきに散るや若木の花櫻”（芭蕉），以及“吹風をうしろにしたり羽抜鳥”（明治）与“秋の夜をうしろにしたる法師哉”（芭蕉）等。

表4　《芭蕉俳句全集》和《明治句集》、子规全句中的高相似度句

相比之下，子规俳句中与芭蕉相似的句子，显然是有意识地进行了借鉴，并且在保持距离感的同时试图展现出一种幽默与机智。例如，子规的“春之山畠となつてしまひけり”很可能借鉴了芭蕉的“春の夜は櫻に明けてしまひけり”。芭蕉吟咏的是令人沉醉忘返、不觉夜明的樱花之美，而子规则以一种轻松而幽默的笔触，描写了本应繁花盛放的春山被开垦为农田的当下社会变化。正因为子规借鉴了芭蕉描绘樱花之美时那种超脱了世俗与时光的意境，才让他对人类的贪婪之举逐渐改变自然景观的现世景象的观察显得尤为独特而深刻。

此外，子规还将芭蕉以佛教悟理为主题的俳句“稻妻に悟らぬ人の尊さよ”改写为“長き夜を寐足らぬ人の尊さよ”。此句创作于1895年，当时子规尚未因病卧床，这一句或许只是单纯地表达了对能够安睡之人的羡慕之情吧。还有“肥壺や蛙とびこむ夕まぐれ”这一句，显然是以诙谐的口吻模仿了芭蕉的名句“古池や蛙とびこむ水の音”。

本章将子规俳句的全部数据与芭蕉俳句进行了对比分析。芭蕉与子规的关系一直以来受到了较多的关注，也有研究深入探讨了二人的个别俳句作品，但是将其所有俳句进行全面比较应该是此前尚未有过的尝试。当然，其中可能存在偶然的相似，也有一些可能仅是戏谑之作，并且如前章所述，即使仅有个别文字的重合，计算机也会统计在列。但是，正是通过如此这般机械化的比对，不放过任何字面上的外在相似性，并且全面展示了相似度从高到低的所有内容，我们才能够开辟出一条新的道路从整体上去思考有关相似性的问题，包括那些可能会被忽略的俳句。

当然，本研究也存在一定局限。本次分析以松尾芭蕉的俳句为起点，将芭蕉作品为单一中心点与数万首其他俳句进行对比，在形式性相似的层面上呈现出芭蕉与后世不同时期、不同作品之间的距离，但是无法涵盖俳句传统中多源并行的影响脉络。具体而言，近代俳句所受影响并不局限于芭蕉，而芭蕉本人亦承续了前代诸家的创作传统，此类复线性的继承关系未能在本研究中得到充分讨论。若能选取其他俳人为起点重复同样的分析，或许能够勾勒出新的影响关系网络。通过多重视角反复展开类似研究，俳句的接受史将得以进一步深化和拓展。

5 基于定量分析的接受研究的可能性

如上所述，基于国立国会图书馆“下一代数字图书馆”的馆藏资料，本文对明治、大正和昭和战前时期的大规模俳句集和《芭蕉俳句全集》进行了比较分析，还考察了正冈子规的俳句和芭蕉作品、《明治句集》的相似性。

目前，依靠计算机进行的质性内容分析还远远无法达到人类研究者的水平。无论是芭蕉、子规，还是大规模俳句集，都需要参考时代语境、作为借鉴的先前文学遗产，以及创作者的个人经历和经验等。这些的外部信息广泛存在于多种形式，需要细致解读并结合作品进行深入挖掘、论证。但是目前能够做到这一点的，仍然只有人类研究者。

但也有一些任务是只能通过计算机的数据解析完成的。无论如何，其工作内容的规模和效率都是压倒性的。近年来，随着技术的进步和大环境的变化，文艺作品的文本数字化进程加快，分析技术也不断提升。计算机的数据分析速度让人力不可企及的海量资料读取成为可能。由于工作量和速度的限制，人类通常需要根据文学家的重要性或文学史上的价值去预先筛选分析对象。这不仅导致了资料数量的局限，还可能产生先入为主的偏见。与此相比，计算机的工作则可以无视现有的文学史价值判断，将一切转化为数字进行处理。

就文学接受研究而言，除以往人类研究者探讨较多的创作者之间或作品之间的相互影响关系之外，如今还可以借助计算机对作品数据进行定量分析，追踪作品之间的相似性、潜在的共同主题以及作品主题的变化等。

关于“接受”和“影响”的既有讨论，大多基于某些重要的资料或优秀作品提取出抽象的主题，或者从某文学家或文艺群体使用的概念和理念（例如芭蕉及其门派提出的“风雅”“轻妙”等）的传承角度展开论述。例如，研究芭蕉近代接受史的权威学者久保田晴次如此描述他的研究目标：“本书的意图在于探讨众多的芭蕉论究的意义所在，以及从一种芭蕉论到另一种芭蕉论的流变所具有的意义。”久保田分析了芥川龙之介等近代作家对芭蕉的评价，考察其中的“意义”并揭示了芭蕉论的“流变”。最终，久保田选择以“实存”一词作为总结其研究的关键词。

从这种传统的文学研究的角度来看，本文在第二章的论述中将“引用”视为“接受”，以及在第三章和第四章中使用N-gram将俳句分解、通过句中词语的匹配数量来计算相似性的方法，可能会显得过于肤浅。因为“引用”是否等同于“接受”、用语的“相似”是否意味着“接受”，这些质疑是不可避免的。

1918年，高浜虚子曾写道：“从德川初期到如今的明治大正，尽管俳句经历了或多或少的盛衰与变化，但可以说俳句就是芭蕉的文学。换言之，自松尾芭蕉这个人物出现并给传统俳句带来一场革命，在此后的二百余年间，虽涌现出俳人无数，但大多不过是步芭蕉后尘而已。”从江户到近代的两百多年里，俳人们的创作只是继承了芭蕉的文学事业，而虚子所指的“芭蕉的事业”，恐怕并非指芭蕉俳句的字面形式。字面的相似只是表面问题，更重要的应该是芭蕉的精神形态或世界观。若非如此，虚子也不可能做出这样的论断。

然而，在使用计算机进行大量数据分析的方法逐渐被引入文学研究领域的今天，真正需要重新审视的并非精神、思想或看待事物的方法。更重要的在于倾听并审视这些“修辞回声”，即坚持从字面层面入手的阅读实践，探索区别于人类传统阅读方式的其他可能性，重新构建“质”所无法衡量的、基于“量”的文学史。当然，这并不意味着思想的传承或文学观念的接受毫无意义。这些探索，如同过往一样，今后仍将是重要的研究课题。但是，贴近文本的分析同样重要。定量研究，即便不称之为“细读”，确是能够做到“贴近文本的分析”。它能够摈弃先入之见，忠实地追随文字，统计数量，计算概率、频率和字数。

尤其是在俳句中，文字的力量显得尤为巨大。在这种文学形式里，作品最多不会超过20个字，因此每一个字所承担的角色自然就变得举足轻重。桑原武夫曾经提出一个挑战性的问题：如果将作者的名字隐去，我们是否能够分辨出哪些是当代名家的俳句？他在这篇著名的评论中指出：俳句所面临的宿命就是，作品实际能够呈现的，与作者的理念或理想相比，总是显得言不尽意。因此，桑原认为，“就现代俳句而言，仅凭作品本身（即单独的一首俳句）去判定作者的地位是非常困难的”。芭蕉提出的俳谐世界固然所见高远，但这种高度抽象的概念性问题是否能在一个具体作品中得到充分的展现呢，现实未必如此。然而，正是这种局限，反而赋予了文字更多吸引读者深入解读的力量。面对通常只有十几个字的俳句作品时，读者会认真揣摩句中的每一个字词，在脑海中描绘这一句所构建的世界，甚至试图从芭蕉、芜村或子规的只言片语中推究他们的理念或理想。因此在俳句研究中，文字是至关重要的。而计算机的数据分析能力，让这种贴近文本的俳句分析、即对“修辞回声”的解构成为可能。这种能力，无疑将在未来的俳句和俳谐研究中发挥巨大作用。不过，计算机所追随的，终究是数字，而非理念。

文学作品的定量分析并非总能收获丰硕的成果，在很多时候，它可能只是验证了人们大致预料到的结果。例如，本研究中关于芭蕉的影响力从明治时期到昭和战前期间逐渐减弱的部分结论，也体现了这一点。当然，用明确的数字去证实那些隐约的猜想，这本身也是有意义的事情。但是，当计算机辅助的定量研究得出与预期相悖或完全未曾预想到的结果、以及发现人类未能发现的变化和特征时，就会产生较大的冲击力。例如，在松尾芭蕉与后世俳句作品相似性的经年变化中，当相似度低于0.2时，仅靠人力难以察觉，但计算机却检测到了这些细微的变化。此外，计算机还发现正冈子规的俳句比明治末年出版的大规模俳句选集在文字表达上更接近松尾芭蕉。这一结果有悖于我们对正冈子规——俳句近代化革命的旗手，同时亦是芭蕉的批评者——的直觉判断和先入之见。

6 结语——从“无意识修辞”到“数字文学史”

本文以接受研究为例进行了相关考察，可以认为，计算机辅助的文学定量研究是一种新的话语分析方法。就文学接受研究的历史而言，这种方法有可能在理论上更新姚斯提出的“期待视野”概念。姚斯试图从传统的文学创作和叙述美学转向接受和影响的维度重写文学史。从读者来看，文学作品并非出现在真空之中。读者心中始终有着判断的标准，会通过该文学体裁的内在规范、与名著之间的关系、诗性语言与实用语言的差异等来衡量对作品的接受方式。并且，文学作品本身也是在“广告、公开或非公开的信号、熟悉的标志或隐含的指令”中被创作出来的，这些因素极大地影响了读者对作品的接受方式。因此，新创作的文学作品都是基于“阅读的记忆”被接受的，同时又是被置于所谓的“期待”——“这部作品应该是这样的吧”——之中被解读的。这就是姚斯所说的同时代读者的“期待视野”。然而，优秀的原创作品是不同的，它们能够打破读者的“期待视野”，将文学史推向新的境地。

姚斯希望能从接受和影响的角度重新审视文学史，其重要性不容置疑，但是问题仍在于研究者应该借助何种资料与分析手段，才能有效重构这一“期待视野”仍然是一个尚未解决的问题。尽管在回顾文学史时，我们可以在一定程度上进行描述，但若谈及同时代的文学（研究）却显得困难重重。然而，随着大量数字文本的出现，如今重构“期待视野”正在成为可能——以一种与不同于以往的方式。过去和当代读者的阅读痕迹沉睡在数字档案和网络上的各类数据之中。如何挖掘这些痕迹，正是数字人文的文学接受研究所面临的课题，亦是可能性所在。通过对特定时代可获取的阅读数据进行大规模计算分析，并由研究者对分析结果进行解读，便能够揭示出该时代特有的阅读方式，而这理应构成“期待视野”的重要组成部分。

本文以接受研究为例进行了探讨，但这种方法的潜在可能性并不局限于该领域。海量数字化文本及各类信息分析技术的涌现，为多种文学类型的修辞分析带来了新的启示。关键在于，这种量化分析方法具备两大特质——其精细度超越了人类的感知能力，且在规模上又超出人类的处理极限。更值得关注的是，文学家创造的修辞本身往往延伸到创作者有意识控制的范围之外。文本中存在着作者本人未曾察觉的句式与引用，流淌着同时代其他创作者与评论家未能识别的互文链。这些无意识的修辞痕迹，早已深深镌刻在文本的字里行间。而精微且大规模的计算分析，正是从这些字面纹理中解析出“修辞回声”。笔者认为，基于定量的数据分析方法能够提炼出个体乃至时代中潜藏的“无意识修辞”。

文字所编织的图案，即为修辞。如今，修辞的矿脉正在大规模地转移到数字文本之中。不仅是文豪和诗圣的作品，那些被遗忘的小说家、小众诗人、无名的业余文学爱好者的创作，也都构成了这座矿山的一部分。著名评论家撰写的有影响力的评论、匿名的时事评论，以及地方读者的读后感，都平等地埋藏其中。计算机不会区别对待文豪、业余创作者、专业评论家或普通读者，而是通过挖掘将所有内容转化为数字的话语=数据的矿脉，即探听“修辞回声”，从而让我们得以从仅由著名文学家之间的相互关系来论述的俄狄浦斯式的文学史中逃离。数据挖掘揭示了人们与时代的无意识修辞，而新的“数字文学史”也将随之诞生。

初审：徐碧姗

复审：段婧怡

终审：夏翠娟

阅读原文

跳转微信打开

1 - 清华大学公众号
《数字人文引论》新书发布会暨新时代文科教材建设研讨会 2026年4月24日 09:25

1 - 清华大学公众号

《数字人文引论》新书发布会暨新时代文科教材建设研讨会

2026年4月24日 09:25

跳转微信打开

0 - 数字人文专业发展联盟

数字人文时代的“新文献观”及其对文献学专业教育变革的启示 ——以中华书局“苏东坡数字人”为案例

2026年4月22日 18:00

郭琳王建 2026-04-22 18:00 北京

以下文章来源于：DH数字人文

DH数字人文

清华大学、中华书局联合主办《数字人文》（Journal of Digital Humanities）季刊，旨在为方兴未艾的数字人文研究提供理论探讨和专题研究的平台。

在中国传统文化中“文献”既有典章资料的含义（“文”），又指掌握典章之人（“献”），但后世的文献学在某种程度上缺失了“人”的维度。

教育与教学

郭琳 / 北京大学社会科学部

王建 / 中华书局

摘要：在中国传统文化中“文献”既有典章资料的含义（“文”），又指掌握典章之人（“献”），但后世的文献学在某种程度上缺失了“人”的维度。为了提供一个更贴合“文献”概念原初含义，同时也更适合当下数字人文时代的理解框架，本文尝试引入文化哲学、技术哲学的新视角，来提供一种新的“文献观”，试图将“文”与“献”纳入一个整体框架来进行理解。从文化哲学的视角，人是符号的动物；从技术哲学的视角，符号是人的外化与延伸。人可以创造符号并以此创造文化，而文献也正是一个符号系统，它依赖于对应时代的符号书写与媒介技术。在全新的数字人文时代，数字文献的应用越来越广泛，数字文献技术使得历史文化名人数字人成为可能与必然。与此同时，符号技术的变迁必会引起文化形态与学术范式的升级转型，当下大学的文献学专业研究与教学模式变革需要试图做好专业与通识的结合、基础与应用的融合、传承与创新的综合，才能塑造未来大学教育的新形态，创造出越来越多像“苏东坡数字人”这样的优秀案例并切实推进落实中华优秀传统文化的创造性转化和创新性发展。

关键词：文化哲学技术哲学文献观数字人文献学数字人文

一、文化哲学、技术哲学视角下的“文献观”

（一）“文献”概念溯源与新视角的引入

我国是一个史籍浩瀚、史学发达的国家，文献的产生、流传和研究已有悠久的历史。随着时代的发展，“文献”一词的含义在不断变化。《辞海》将“文献”释义为“专指具有价值或与某学科相关的图书文物资料”，《现代汉语词典》将“文献”解释为“有历史价值或参考价值的图书资料”。所以，现在人们通常所理解的“文献”是指图书、期刊、典章等所记录知识的总和。

而如果我们将考察的视线拉得更长可以发现，最早将“文献”一词用作书名的著作是元代马端临的《文献通考》，而“文献”一词的最早出处则可以追溯到《论语》。在《论语·八佾》中，孔子曾说：“夏礼吾能言之，杞不足征也；殷礼吾能言之，宋不足征也。文献不足故也，足则吾能征之矣。”何晏《论语集解》中引东汉经学大师郑玄的注云：“献，犹贤也。我不以礼成之者，以此二国之君，文章贤才不足故也。”这里用“文章”解释“文”，用“贤才”解释“献”。宋代朱熹在《四书章句集注》中解释道：“文，典籍也。献，贤也。”^[1]“文”是指历史典籍、档案等文字资料，“献”是指博学多才、熟悉掌故的贤才。清代刘宝楠在《论语正义》中也沿用了这一说法：“‘文’谓典策，‘献’谓秉礼之贤士大夫。”^[2]后来杨伯峻在《论语译注》中的注释为：“《论语》的‘文献’包括历代的历史文件和当时的贤者两项。今日‘文献’一词只指历史文件而言。”^[3]

鉴于上述梳理可以看出，今天我们常用的“文献观”对于“文献”概念的理解，如果较之“文献”一词的原初含义而言，其实是只得其半，而缺失了对于“人”本身的理解。因此，为了提供一个更加贴合“文献”概念原初含义的新的“文献观”解释框架，本文尝试引入文化哲学、技术哲学的新视角，来探索一种新的“文献观”表达，试图将“文”与“献”纳入一个整体框架来进行理解，并从中发现人类“文献”发展史的规律与趋势。

（二）文化哲学的新视角——人是符号的动物

恩斯特·卡西尔（Ernst Cassirer，1874—1945）是德国著名的文化哲学家，被誉为“当代哲学中最德高望重的人物之一”。卡西尔在其代表作《人论》中概括表达了他的符号论文化哲学体系，他认为人类文化形式都是符号形式。因此，我们应当把人定义为符号的动物（animal symbolicum）来取代把人定义为理性的动物。^[4]也就是说，人是能用符号去创造文化的动物。从而可以理解，人是创造符号并以此创造文化的动物，符号是人区别于动物的一个显著特点。人类拥有其他一切动物不具有的符号系统，人可以在创造符号的过程中获得自由与解放，成为真正意义上的人。

“符号”是卡西尔文化哲学思想体系中的核心观念。在卡西尔这里，“符号”不是具体的单个符号，而是一个整体的概念，具有极其丰富的内容和意义，他将人类文化的各种形式包括语言、神话、寓言、宗教、艺术、科学、历史等都看作符号形式。人与符号紧密相连，符号是人类创造文化的媒介。人具有符号化的思维模式，并通过符号创造文化，即创造一个符号世界，进而认识自我、发展自我。符号化的思维和符号化的行为是人类生活中最富于代表性的特征，并且人类文化的全部发展都依赖于这些条件，这一点是无可争辩的。^[5]可见，符号是人和文化的共同本质，人—符号—文化构成了三位一体的存在。首先，符号可以理解为作为文化现象的符号形式；其次，符号体现了主体（人）本质的符号活动；另外，符号展现了被赋予的符号意义。

在卡西尔看来，“符号”（symbol）是与“信号”（sign）相对的，“信号是物理的存在世界之一部分，符号则是人类的意义世界之一部分。信号是操作者（operator），而符号是指称者（designator）”。^[6]文化符号和自然界的信号有严格区别，这二者体现了“人禽之别”的关键，即动物只能对信号做出条件反射，只有人才能掌握和运用信号，并将信号改造成有意义的符号，所以“信号”与“符号”的核心差别在于“意义”。如图1所示，人和动物与客观世界的互动方式是不同的，动物与世界直接互动，往返的是信号，信号不具有意义，它是物理性的、实体性的存在；人与世界则通过符号进行互动，符号是意义的表达。符号是人类的创造物，人具有符号构形能力，不存在无意义的符号，也不存在无符号的意义。

图1 人和动物与客观世界的互动方式差异

由此可以看出，基于“符号”这一视角，可以认为，主流“文献观”定义里的“价值”与“知识”等跟卡西尔最为强调的“意义”是内在相通的，因此，可以用“符号系统”这一概念来提炼与概括“文献”中“文”的内涵。符号系统成为连接人与文化的通道，构成整个人类文化世界。

从根本上说，人是符号的动物，符号揭示着人的本质，延伸着人的能力，人所创造的符号成为人与世界的中介，人所面对的世界也是符号世界。与此同时，卡西尔认为，符号具有二重性，即符号具有可感载体与普遍意义两个方面。人类可以像其他动物一样以各种感官与世界进行交往，依据物理信息与外界进行沟通，此时世界是可感知的。另一方面，人具有符号能力并进行符号活动，正是这种符号能力将自己与动物区别开来，当人类作为“符号”动物与世界交往时，人类是有意识的、有思想的、有理智的，此时“符号”成了载体与意义的统一。

需要指出的是，就历时性的角度而言，作为人与世界之中介的符号系统是具有历史性的，也就是说，一个个体所面对的符号世界从根本上说正是该个体之前全部的人类历史中所能留存下来的符号的整体。

（三）技术哲学的新视角——符号是人体感官的外化与延伸

从卡西尔把人定义为“符号的动物”来看，一方面，人是创造和发明符号的动物；另一方面，人是使用符号的动物。正是由于人的能动性与创造性，人能够制造和使用符号，人的意识、愿望、思维等精神能在具体实践活动中对象化到客观世界，实现客观世界的符号化，比如艺术是人类直觉或观照的客观化，语言和科学是人类概念的客观化，而这些符号可以将人体感官不断地外化和延伸。

其实在更早的德国技术哲学家恩斯特·卡普（Ernst Kapp，1808—1896）那里，曾更加明确地提出了工具和器物是人体“器官投影”（Organ Projection）的核心观点，在其被认为是技术哲学奠基性著作的《技术哲学纲要——从新观点看文化发生史》（1877）一书中，卡普试图用器官投影论的新观点，通过作为技术文化的工具发生历程来解释人类文化的演进历史，他认为，人体的外形和功能总是作为人类最理解的客观存在，当成创造技术的外形和功能的尺度，投影到外部环境；所有工具的源泉和本原的技术，都是建立在人的器官特别是手的基础之上的。因此，人是制造器物的尺度。^[7]卡普的“器官投影”理论开创了一种分析技术的独特视角，某种程度上，我们可以说是他提出了技术生成文化理论，并从技术哲学范式内部对技术的本质进行思考。

作为卡普“器官投影”论在媒介时代延续的加拿大媒介理论家马歇尔·麦克卢汉（Marshall McLuhan，1911—1980）在他的名著《理解媒介：论人的延伸》一书中提出：媒介，即技术，可以是人的任何延伸。媒介带来一种新的技术尺度，人的延伸及其感知比率随之改变，就形成一定的后果。这就是“媒介即讯息”。^[8]媒介是那些延伸人类器官的所有工具、技术和活动，一切技术都可以被看作是不同人体器官的延伸，比如，车轮是人类脚步的延伸，衣服是人类肌肤的延伸，报纸是人的言语和视觉的延伸，广播是听觉的延伸，等等。万物皆媒介，凡是能使人与人、人与事物或事物与事物之间产生关系的物质都是广义的媒介。半个世纪之后，美国学者凯文·凯利在《科技想要什么》一书中进一步认为“技术是思维的延伸”，将技术称为“第七王国”，并提出了“技术元素”（technium）的概念，这里的“技术元素”包括硬件、文化、艺术、社会制度以及各类思想。他认为科技是我们躯体的延伸，技术元素是生命的延伸，技术应该被理解为一种正在进化的生命。^[9]

综上所述可以看出，就技术哲学的视角而言，作为人与世界的中介的符号及其能力也可以被视为“符号技术”，其本身就是人类感官与思维的外化与延伸。进一步的，再就符号的历史性而言，一个个体所面对的符号世界从根本上说正是该个体之前全部的人类历史中所能留存下来的前人们感官与思维外化与延伸的整体。因此，就其符号整体的所指而言，它指向的是前人们于四维时空、眼耳鼻舌身意全感官的所有真实而鲜活的生命经验，而就该符号整体的能指而言，它则是特定历史时代与对应的特定符号技术下对上述多维度、全感官生命经验的部分维度、部分感官的“投影”。

（四）双重视角下的新文献观

总体而论，从文化哲学的视角来看，人是创造符号并以此创造文化和进行文化实践的动物；从技术哲学的视角来看，符号是人体感官的外化与延伸，也可以理解为，人类的一切活动是借助于符号技术不断外化自身的过程。基于此，在文化和技术哲学的双重视角下，可以构建一种新的“文献观”表达，即“文献”是一个符号系统，是人类进行一切生命活动的符号化记录，其映射的对象其实是真实而鲜活的历史人物的生命体验所外化于四维时空形成的高维度、全感官的历史文化世界。

因此，作为总结，就作为人与世界的历史性的中介而言的符号世界对应着本文新文献观中“文”的内涵，而在客观世界的角度来看，人与历史性的符号世界构成的具有意义、价值、历史性的整体，则对应着本文新文献观中“献”的内涵，如图2所示。

图2双重视角下的新文献观

可见，文献这一符号系统依赖于对应时代的符号书写与媒介技术，特定时代的符号书写与媒介技术的维度决定了文献的维度，它蕴含着人类活动、媒介技术（符号书写）、知识生成（符号世界）相互依存的关系。事实上，“文”与“献”本身就是一个整体的结构体系，遵循着人类历史文化发展的规律与趋势。

（五）人类符号技术发展趋势与数字人文的必然

如前所述，人类符号技术的发展史其实就是人类文化的发生史，是人类不断追求更有效、更丰富地去外化与延伸自身感官与思维的历史，因此，人类符号技术也在多维度与多感官两个角度呈现出了历史性的发展趋势。

在原始社会，人们通过结绳、绘画、雕刻等方式记载和传递信息，这些图形和符号逐步演变并形成最初的符号系统。当文字及印刷技术出现后，人类的视觉得到了延伸。其中，“文字”的产生打破了“口耳相传”的局限，成为人类用符号记录和表达信息的突破性进步，从最早的抽象图画，再到象形文字、指事文字、会意文字等。广播、电视等媒介技术的诞生，改变了人们的生活方式和文化体验。广播延伸了人的听觉，而电视结合着语言符号与非语言符号，更是综合了文字、声音、图像等多重符号，具有“声画合一”的特点，更全方位延伸了人们的视觉和听觉。21世纪以来，随着信息科技的迅猛发展，增强现实（AR）、虚拟现实（VR）以及混合现实（MR）等技术突飞猛进，让人类视觉的延伸逐渐从平面化的二维向立体化的三维拓展，如图3所示。与此同时，通过不断创新的数字技术的加持，人类的嗅觉、味觉、触觉等也得以被前所未有的数字化模拟，更进一步的，人工智能、脑机接口等颠覆性技术也逐渐显露了越来越多的曙光。

图3 符号技术发展简史与趋势

由此可见，作为与人类文化发生史相伴生的符号技术呈现出追求更高时空维度、更多感官意识维度的必然趋势，因此，数字文献技术这一作为人类思维与智能的外化与延伸的符号技术必然成为当今人类符号技术发展的大势所趋与时代主题。方兴未艾的数字化改变了传统文献的生产、存储、研究和使用方式，以印刷媒介为基础的传统文献生产体系正向以智能媒介为前提的数字文献生产体系转变。^[10]数字化促进了知识形态的变革与演进。随着大数据技术的应用以及人工智能等数字技术的发展，古籍数字化、文献数字化已成为共同趋势，数字文献大量出现。数字人文数据以文本形式为主，兼有图片、音频、视频、3D等多元数据形式。文本资料有地方古典文本资料、图书、笔记、家谱资料等。图片有地图、画作、壁画等。3D数据有器皿、雕塑等。音频与视频数据包括访谈、纪录片等多媒体数据。^[11]

与此同时，由于人类符号技术始终不断追求更高时空维度、更多感官意识维度的表达，因此，每当有一种新的、具有更高时空维度与更多感官意识维度的人类符号技术出现后，此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”，并被依托其更加丰富的维度与感官进行持续不断地“扩写”与“创写”。并且，这样的“重新书写”呈现出越来越多的高时空、跨学科、多模态、全场景等特点，为人类、文化、历史的全面延伸尤其是具有悠久历史文献传统的中华优秀传统文化的全面延伸提供了无限丰富的可能。

二、文献学的数字化应用——以中华书局“苏东坡数字人”为案例

习近平总书记曾强调，“要系统梳理传统文化资源，让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来”。让文物和文化遗产“活起来”……最终实现“让文物说话，让历史说话，让文化说话”。^[12]为此，中华书局立足自身深厚的文化积淀与数字文献技术优势，首创研发了全国首位3D超写实历史文化名人——“苏东坡数字人”。

（一）从数字文献视角看古代历史文化名人数字人的研发特征

“数字人”是指通过计算机图形渲染、动画驱动、动作捕捉、语音合成、人工智能等技术打造的虚拟仿真人物，其产生本身就是文化与科技深度融合的产物。清华大学《2020—2021元宇宙发展研究报告》指出，2021年被产业界称为“元宇宙元年”。因此，作为未来元宇宙数字世界主体性存在的“数字人”，自2021年迎来了爆发式的发展。与此同时，随着我国经济社会的全面发展和国际地位的不断加强，中华优秀传统文化在作为互联网原住民的年轻人群中的认同度与影响力在不断提升。在这样的时代背景下，从2021年至今，各类国风数字人陆续发布，俨然已经成为中华优秀传统文化活化利用的标配。如2021年10月28日，中央戏剧学院与北京理工大学共同发布“梅兰芳”，2022年5月18日，中国文物交流中心发布“文夭夭”，2022年6月3日，新华网发布“筱竹”，同一天浙江卫视发布“谷小雨”，2022年6月15日，敦煌研究院发布“伽瑶”，2022年7月22日，国家博物馆发布“艾雯雯”，等等。

但纵观以上多位国风数字人，除了“梅兰芳”外，均属于“纯虚构型”数字人，即历史上并没有真实存在过这个人物，而对于古代的真实历史文化名人进行“复活”的超写实数字人，则一直是一个空白。究其原因，需要先从数字人的分类入手进行分析。

在中华书局“苏东坡数字人”之前，数字人行业内对于数字人的分类通常是采用两类方法。其一，是根据数字人的角色形象与建模技术进行分类，分为二次元数字人、2.5次元数字人、3D卡通数字人、3D写实数字人等。其二，是根据数字人的功能与应用场景进行分类，分为服务型数字人、身份型数字人等。其中，服务型数字人可用于替代真人服务，并作为多模态AI助手提供服务，如虚拟主播、虚拟教师、虚拟客服等；身份型数字人则可以实现虚拟IP、虚拟分身等功能。然而，这两种分类方法均无法解释和分析历史文化名人数字人的独有特征。为此，中华书局立足数字文献的全新视角，对数字人进行了全新的分类，并从文献不同特征的角度进行象限化分析，逐步探索出历史文化名人数字人研发的理论基础与方法论思路。

首先采用“有无文献依据”和“文献是否齐清定”两个指标来进行分析，可以得出如下的三个象限，如表1所示。第一类虚拟数字人对象是“在历史文化符号世界中曾经真实存在过的人”，这类数字人的研发是基于真实有效的文献资料，且文献具有“齐”（齐全）、“清”（清晰）、“定”（确定）等特点。第二类虚拟数字人对象是“正在活着的人”，他们虽然有文献资料记载，但其文献资料还处于不断创作和变化之中，所以具有不稳定性，还未成“定论”。第三类是纯虚拟数字人，这类数字人并无文献典籍的基础，在历史上未曾真实生活过。

表1基于文献维度的全新数字人分类（一）

然后，可以采用“文献的维度”和“文献的感官”两个指标来对第一类数字人进行进一步分析，如表2所示，古代历史文化名人只有关于身体记录的抽象的文字文献（可视为一维文献），但现代历史文化名人具有三维立体身体数据（三维文献）和动态影像文献（四维文献）。另外，古代历史文化名人只有画像等“非完全真实”的视觉文献，无真实的听觉、嗅觉等文献，但现代历史文化名人具有真实的视觉、听觉文献，甚至可能留存有部分程度的嗅觉文献。他们留存有照片、音视频、使用过的器物等资料。

表2 基于文献维度的全新数字人分类（二）

最后，再通过“有无真实地理文献”这一指标，还可以将古代历史文化名人176分为两类，如表3所示。一类是以苏东坡、李白、李清照等中华先贤人物为代表的曾在历史上真实活过的人物，另一类是以苏小妹、林黛玉、孙悟空等为代表的在文学符号世界中存在的人物。

表3 基于文献维度的全新数字人分类（三）

（二）中华书局古代历史文化名人数字人研发的方法论心得

综上所述可以看出，对于超写实的古代历史文化名人数字人的研发而言，可谓是一项几乎前无古人的工作，一方面要求数字人的开发技术本身必须达到与超写实纯虚拟数字人同样的行业前沿水准，另一方面又不允许像纯虚拟数字人那样天马行空地随意发挥，但与此同时，又缺乏像邓丽君、梅兰芳数字人那样的真实照片与动态视听影像的文献支撑，因此需要独辟蹊径、守正创新。为此，中华书局始终牢牢扎根“文献”这一关键基础，逐步摸索出了一些古籍文献数字化应用的全新方法论。

其一，要将重写与创写有机结合。

如前所述，每当有一种新的、具有更高时空维度与更多感官意识维度的人类符号技术出现后，此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”，并被依托其更加丰富的维度与感官进行持续不断的“扩写”与“创写”。就超写实古代历史文化名人数字人的研发而言，首先，必须要求是“重写”，而且是严格遵从古籍文献学术共识的“重写”，这是与纯虚拟数字人研发方法的根本区别——也因此，古籍文献数据的学术共识对于超写实古代历史文化名人数字人的研发来说是应该具有“一票否决权”的，即明显不符合古籍文献记载的古代历史文化名人数字人是应该被限制准入的。

以苏东坡数字人的“塑形”为例，中华书局在总字数超70亿字的古籍大数据中心中进行了海量搜索，通过一系列精心设计的关键词精准抓取到了一批涉及苏东坡容貌形象的古籍文本数据，与此同时，又通过图像搜索技术，抓取了由宋至清各个不同时期所作的涉及苏东坡的画作100余幅，既包括苏东坡单人画像，也包括如《西园雅集》《赤壁》等主题群像以及若干石刻画像拓片等，从而初步形成了对于苏东坡容貌形象之“古籍真实”的把握，然后再结合权威专业的专家系统进行校验，最终确定下来超写实苏东坡数字人的每一个细节并确保与历史文献资料不相违背，实现严格科学的“重写”。

然而，由于古代历史文化名人只有来自古籍文字记载的一维文献和非完全真实的画像类二维文献，缺乏像邓丽君、梅兰芳等人的真实三维立体身体数据和动态影像数据这样的四维文献，所以对于古代历史文化名人数字人的“塑形”而言，科学规范的“重写”只能做到“不错”（即没有古籍文献的反例），但无法证明“全对”（即只有如此才是唯一正确的），因此，在“不错”与“全对”之间的部分，需要进行一定程度的“创写”——这也正是古代历史文化名人数字人与邓丽君、梅兰芳等数字人研发方法的根本区别。

以苏东坡数字人为例，中华书局在深入挖掘古籍文献中对于苏东坡容貌形象的记载数据的同时，还致力于深度提炼苏东坡的精神气质。为此，中华书局通过“苏东坡专题数据库”与“苏东坡主题知识图谱”的深度挖掘，侧重提取苏东坡本人、同时代人、后代历史人物以及现当代专家学者对于苏东坡精神气质的凝练与概括，并且还对当前各大主要社交媒体上有关苏东坡的内容中反映的东坡气质进行了搜集与提炼，最终实现在“塑形”基础上进一步的“凝神”，让苏东坡数字人不仅形似，更加神似。

图4 全国首位3D超写实数字人苏东坡

其二，重写与创写都具有当代性。

正如前文所言，任何一个符号，就其能指而言，都是特定历史时代与对应的特定符号技术下对多维度、全感官生命经验的部分维度、部分感官的“投影”，“苏东坡数字人”作为当下时代产生的一个数字文献符号作品，它的“重写”与“创写”也都具有典型的“当代史”特征，即它在将古籍文字一维文献、画像类二维文献以及精神气质等的文字表达综合起来最终予以3D超写实、可动态交互的数字人表达时，其实已经不可避免地带进了“当代人们的精神”，一如意大利历史哲学家贝奈戴托·克罗齐（Benedetto Croce，1866—1952）在其《历史学的理论和实际》一书中指出的：“一切历史都是当代史。”在克罗齐看来，当代性不是某一类历史的特征，而是一切历史的内在特征。^[13]真正的历史属于当代生活，当我们在思考过去的历史时，会把过去纳入我们当前的思想和精神之中，体现我们当前的思想活动和精神生活，历史时刻此时便与人们的思想或精神紧密相连，成了“活生生的历史”，也反映了当下人们的思考，因而从这一意义上来说一切历史都是当代的。由于实践的需要以及人们对历史事件的认识不断深化，历史上发生的事件会以新的形式再次“复现”。

其三，既要塑形、凝神，更要赋魂。

为了让古籍里的历史文化名人真正地“活起来”，让他们以数字人的身份真正走出古籍书本、走进当今时代、当下生活，我们需要将平面化的文学文本转变为立体化的虚拟场景。这不仅能带来视觉上的直观冲击，同时还能提供互动式体验和全新理解。^[14]因此，在数字人“塑形”“凝神”的基础上，我们需要进一步为其进行“赋魂”。

以苏东坡数字人为例，“赋魂”主要体现为古籍大数据与人工智能技术的深度融合。在这一方面，中华书局一直在持续进行古籍人工智能技术的自主研发，通过对70亿字古籍大数据的深度机器学习与人工智能训练，目前中华书局开发的古籍智能处理系统已经可以自动给古籍断句标点、自动标记人名地名、自动核对引文、自动识别古籍文字等。^[15]下一步，中华书局将在上述工作的基础上，基于与主流大模型的深度合作，使用苏东坡专题数据库对大模型进行专项人工智能训练，从而让苏东坡数字人越来越像真正的苏东坡一样去认知、去思考、去表达、去行动，最终实现苏东坡在元宇宙数字世界真正的“复活”，让苏东坡成为“中国式美好生活的代言人”，让他“活”在我们这个时代。

以人工智能版苏东坡数字人的现场实时自然语言交流为例，至少涉及如下的技术环节：（1）提问者自然语言自动转换成文字；（2）文字自动输入大模型（外挂专题数据库）并自动生成回答文字（该回答至少符合3个维度的要求：自然语言之通畅，史实学术之正确，符合苏东坡的身份与气质）；（3）回答文字自动生成数字人的语音；（4）根据语音自动驱动唇形；（5）根据语义自动匹配表情；（6）根据语言和表情自动匹配肢体动作；（7）服饰等跟随肢体动作实时自动解算。

可见，要想真正给数字人“赋魂”，不仅涉及人工智能、边缘计算、虚拟现实、实时动捕等技术，还需要专业的专题数据库、匹配应用场景的深度知识图谱等大量数据挖掘与知识服务能力的支持——例如对于历史文化名人的古籍数据进行挖掘、梳理、加工并实现数据可视化，实现文化资源数据与文化数字内容的标识解析、提炼转化、搜索查询、匹配链接、传播利用等。

（三）中华历史文化名人数字人与中华文化元宇宙展望

元宇宙是数字技术与文化内容的双向融合、联动共生。元宇宙将会给内容产业带来新的进化，在内容生产、内容形态、内容衍生、内容体验等层面赋予新的定义。^[16]“数字人”被视为未来人们进入“元宇宙”的入口，将广泛应用在元宇宙新生态中，作为元宇宙中“人”与“人”、“人”与事物、事物与事物之间产生联系或发生孪生关系的新介质，起着举足轻重的作用。可见，传统的中华文化内容产业将会被持续赋能、创新发展。人类经验对象有可能实现全面数字孪生化，线下物理空间将可能全面混合现实化，线上线下场景将全面人工智能化。

在这样的背景下，中华书局将继续发挥古籍数字化专业优势，以主题出版工程“中华先贤人物故事汇”为底本，持续研发系列化的“中华历史文化名人数字人”，如李白、李清照、陶渊明、戚继光等，逐步形成数字人矩阵，深入挖掘历史文化名人的古籍数据，在数字科技加持下进行现代化表达，形成“中华先贤数字人”IP矩阵，真正让“书写在古籍里的文字活起来”“把优秀传统文化中具有当代价值、世界意义的文化精髓提炼出来、展示出来”，让中华优秀传统文化融入时代、融入生活，更好地满足数字时代人们对于中华传统文化持续高涨的热情和需求。

进而，在全新的数字经济时代，中华文化内容产业基于古籍大数据，借助元宇宙数字科技，将有可能彻底突破传统媒介格局，构建全新数字内容生态，“创造性复原”书写在古籍里的“人、货、场”，实现中华文化的人、场景、叙事的全面数字孪生到数字原生再到虚实共生，最终实现中华文化元宇宙的宏伟愿景。

三、“新文献观”对文献学专业研究与教学模式变革的启示

如前所述，正因为每当有一种新的具有更高时空维度与更多感官意识维度的人类符号技术出现后，此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”，并依托其更加丰富的维度与感官进行持续不断地“扩写”与“创写”，这也直接导致人类符号技术的每一次变迁都引起文化形态与学术范式的升级转型。落实到当下的大学教育而言，数字人文可以被视为数智化时代人文与科技融合发展的前沿学术阵地，或许正可以塑造未来大学教育的新形态。

（一）文献学作为一门学科在近代中国的诞生

中国传统学问虽然也有分科，但主要是从研究主体而非客体乃至方法的角度来划分，是学派而非专业。清中后期汉学发达，开始出现专门化的倾向，如龚自珍在为《阮元年谱》作序时概括出了训诂之学、校勘之学、目录之学、典章制度之学、史学、金石之学、九数之学、文章之学、性道之学、掌故之学十个方面，但总体而言这些所谓的“专门”还处于萌芽的阶段。^[17]

直至19世纪末以后，“中华民族到了最危险的时刻”，这引发了国人关于中西古今之争的深刻反思，也激发了从制度到思想的全面扬弃与重建。在学术和教育领域，古典的经学、礼教在现代学制中毫无生存空间，文以载道的圣人之学被彻底革除，西学东渐的大潮席卷而下，从自然科学到社会科学乃至人文学科，无不是建立在西方现代学科分类、研究范式和教育体系的基础之上的。在此“三千年未有之大变局”中，中国历代传统之学在大学体制中被摒弃，经史子集被肢解为文献学、语言学、哲学、史学等。1920年，梁启超在《清代学术概论》中首次提出“文献学”的概念；随后《中国文献学概要》的出版开始从学科的角度阐述文献学的内涵；陈垣、王国维、顾颉刚、罗振玉等一大批学者推动了文献学学科体系的创建。

（二）分科而治导致的“人”与“学”之分

在更广阔的历史和地理空间上考量，工业革命后职业教育对传统大学教育的冲击，以及以洪堡思想为代表的研究与教学相结合的新型大学潮流，使得德国逐渐成为当时世界教育和学术的中心。但与之相对的，作为“牛津运动”代表人物的英国主教纽曼在其著名的《大学的理念》中重新阐释了知识的分类，并在此基础上提出大学的本质在于心智的培养，从而提醒人警惕知识之恶。

与之遥相呼应的，清末新政中出台的我国第一个真正实行的现代教育体系——“癸卯学制”，其所设定的教育宗旨即为“端正趋向，造就通才”，即使是对立足于专门教育的大学堂，仍贯彻着“通”的理念。一方面，专门之学是通经致用的工具；另一方面，治学的目的是立人，学问只是成为“通人”的工具。^[18]

正如钱穆先生所言：“在中国传统知识界，不仅无从事专精自然科学上一事一物之理想，并亦无对人文界专门探求某一种知识与专门从事某一种事业之理想。因任何知识与事业，仍不过为达到整个人文理想之一工具，一途径。若专一努力于某一特殊局部，将是执偏不足以概全，举一隅不知三隅反，仍落于一技一艺。”^[19]他以此批评西方近代的学科分立时说道：“即就西方近代传授知识之大学言，分科分系，门类庞杂，而又日加增添。如文学院有文学史学哲学诸科系，治文学可以不通史学，治史学亦可不通文学。治文史可以不通哲学，治哲学亦可不通史学文学，各自专门，分疆割席，互不相通。……要而言之，则可谓之不明大体，各趋小节。知识领域已乱，更何论于人事。”^[20]在前后断裂的历史大潮中，知识层面的整理国故，以及西方导向的分科而治，目光指向的只能是专精而非博通、保存而非应用、批判而非创新。

（三）新时代提供了“文”与“献”合璧的可能性

时至今日，变局再现。这一次，工业文明经历了几十年的后工业过渡，终于开启了数字智能时代的大门。人类信息环境正在发生根本性的改变，人类文明记录和传播方式的大规模变革势必引发文明本体的重建和知识谱系的改写。以本文“新文献观”的视角来看，人与世界是一个具有历史性和当代性的整体，“文”正呈现出对“立人”的重视与回归，“献”则经历了知识生产方式的不断迭代，不论是对于文献学专业的研究和教学，乃至更广阔范围上的大学教育，都具有深刻的启发意义。为此，本文认为应该努力做好如下“三合”。

第一是专业与通识的结合。工业时代，专业教育的重要性毋庸置疑，大学为工业化的全面胜利贡献了最重要的人力基础和技术创新。同时，相伴而生的通识教育也一直在呼吁人本主义的回归，抵抗着过度专业化给人带来的异化和禁锢。但近年来，数字鸿沟、算法黑箱和信息孤岛似乎进一步强化了专业教育的卓越性，数字智能时代的技术主义与全球主义对通识教育带来了巨大的冲击和挑战。^[21]因此，大学的通识教育更应与专业相结合，走出一条专业基础上的通识之路。这不仅是因为专业教育本身已经从工业文明的摇篮跃迁为智能社会的航母，更是源于通识教育开始卸下西方“普世价值”的面具，转而深入探讨数字智能时代的“人”的本质属性。

具体而言，通识教育模式的重心在于对经典文献的研读，这恰是对一个时代经典问题的凝练、思考和解答。数字化时代的文献学更强调对于文献的跨时空、跨学科理解，不仅是知识形态的改变，更激活了其内涵的文化精神，建构出“历史—当代”相连接的当代性意义世界。这就使今日的通识教育不再局限于一般的或者说以西方价值为内核的公民教育和批判精神，转而推动个体的社会化、本土化，高扬科技与人文的交叉，塑造一种具有超越性的共同体意识，最终培养出符合“君子不器”的、可以创造和驾驭“苏东坡数字人”这一类新型成果的复合式、高层次、战略性未来人才。

第二是基础与应用的融合。2023年2月，习近平总书记在主持中共中央政治局第三次集体学习时，着重阐述了强化基础研究的重要性，强调要有组织推进“战略导向的体系化基础研究、前沿导向的探索性基础研究、市场导向的应用性基础研究”^[22]三种基础研究。尤其是“应用性基础研究”的提法更是直指“学”与“用”相分裂的痼疾——而这一点在传统的人文领域更是以“无用即大用”为由成了一种自傲。实际上，基础是源头，应用是牵引，从“文”到“献”的内化正是在应用转化的过程中实现的。尤其对于人才培养来说，如果没有（广义上的）就业前景，这个学科几乎就丧失了存在的合法性。以应用为导向的基础研究和人才培养，更加明确了目标指向和评价标准，倒逼综合改革的落地，打通了大学与社会的互动链条。

因此，一方面，数字文献学是应用数字技术来研究文献，另一方面，这也是数字技术为文献学开创了广阔的应用空间，促使其更好地服务于学术研究和社会大众，从而激活其生命力和生产力。从前述“苏东坡数字人”案例就可以看出，权威的古籍数据与专业的学术研究是基础、是源头，但如果没有数字科技的应用转化与产业赋能，这些数据就无法成为生产资料，最终也就无法形成生产力；与此同时，“苏东坡数字人”在媒体传播、城市IP发展、展览展示、文旅商融合以及人工智能驱动等方面面临的新场景、新机遇，也反过来对古籍数据的数据挖掘与知识服务、数字人人工智能的情感模型等新领域提出了更多更新、前所未有的技术与理论需求，这又引导和推动了对应学术研究的发展与创新，最终形成基础与应用融合的正反馈循环。

第三是传承与创新的综合。从推动中华优秀传统文化创造性转化、创新性发展，到把马克思主义基本原理同中国具体实际相结合、同中华优秀传统文化相结合，再到建设中华民族现代文明，习近平文化思想不断将文化传承与创新的理念推向新高度。《中庸》讲“父作之，子述之”，《论衡·对作》有“圣人作，贤者述”，“作”为创新，“述”为传承。创新需要积累，需要专业的、跨学科的、跨文明的视野，需要发现问题，更需要具有使命感。创新与传承互促共生，创新因传承而生机绵延，传承因创新而波澜壮阔。这不仅是历史与未来相逢于当下，更是作者与读者、师与生、数与文的相互成就。大学教育的本质即在于人类文明基因的复刻和进化，既追求永恒不变的“形而上者谓之道”（《易经》），又以求新求变的“圣之时者”为典范（《孟子》）。

于“苏东坡数字人”而言，它既是对历史文化名人苏东坡的“复原”，又要努力实现文化意义上的“复活”，前者是传承，后者是创新，二者缺一不可。所谓“复原”意味着“苏东坡数字人”拥有苏东坡的全部知识、记忆、史实、精神等，所谓“复活”意味着“苏东坡数字人”要融入当今的时代，用他独特的精神面貌、思想深度、批判视角和人文情怀去对当下时代、当今世界进行活生生的观察、判断、表达乃至行动、实践，进而用苏东坡的文化精神来产生现实的影响和改变。

四、结语

随着时代的发展，“文献”一词的含义在不断变化。本文立足于“文献”概念原初含义的理解框架，将“文”与“献”纳入一个整体框架来进行理解，通过引入文化哲学、技术哲学的新视角探索一种新的“文献观”表达，即“文献”是一个符号系统，是人类进行一切生命活动的符号化记录。从文化哲学的视角，人是符号的动物，符号是人区别于动物的一个显著特点；从技术哲学的视角，符号是人体感官的外化与延伸，作为人与世界的中介的符号及其能力也可以被视为“符号技术”。

人类符号技术的发展史其实就是人类文化的发生史，数字文献技术这一作为人类思维与智能的外化与延伸的符号技术已成为当今人类符号技术发展的大势所趋，并使得数字人文成为必然。中华书局立足自身深厚的文化积淀与数字文献技术优势，首创研发了全国首位3D超写实历史文化名人“苏东坡数字人”，并从中摸索出了一些古籍文献数字化应用的全新方法论——这也必然伴随着人才培养的探索与创新。

落实到当下的文献学专业研究与教学而言，为了避免近代以来分科而治所导致的“人”与“学”之分，培养出既具有文史知识积淀和传统淑世情怀、又具有现代科技视野和基本数字素养的新生代学人，就需要做好专业与通识的结合、基础与应用的融合、传承与创新的综合，最终，在数字人文时代的新视野下，抓住机遇、守正创新，塑造未来大学教育的新形态。

The “New Document Perspective” in the DigitalHumanities Era and Its Implications for the Reform ofDocumentary Studies Education: A Case Study of ZhonghuaBook Company’ s “Su Dongpo Digital Human”

Guo Lin, Wang Jian

Abstract: In traditional Chinese culture, the concept of “wenxian” encompasses both the meaning of ancient classics and records (“wen”) and the scholars who master these classics (“xian”). However, the later discipline of documentary studies has, to some extent, lost the “human” dimension. To provide an understanding framework that is more aligned with the original connotation of “wenxian” and better suited to the current era of digital humanities, this paper attempts to introduce new perspectives from cultural philosophy and technical philosophy to propose a new “view of wenxian”, striving to integrate “wen” and “xian” into a holistic framework for interpretation. From the perspective of cultural philosophy, humans are the animals of symbols; from the perspective of technical philosophy, symbols are the externalization and extension of humans. Humans can create symbols and thereby create culture, and “wenxian” is precisely a symbolic system that relies on the symbolic writing and media technologies of the corresponding era. In the new era of digital humanities, the application of digital documents has become increasingly widespread. Digital document technologies have made the creation of digital humans of historical and cultural celebrities not only possible but also inevitable. At the same time, changes in symbolic technologies will inevitably lead to the upgrading and transformation of cultural forms and academic paradigms. Currently, the reform of research and teaching models in university documentary studies programs needs to strive to integrate professionalism with general education, basic theory with practical application, and inheritance with innovation. Only in this way can we shape a new form of future university education, create more outstanding cases like the “Su Dongpo Digital Human,” and eﬀectively promote the creative transformation and innovative development of China’s excellent traditional culture.

Keywords: Cultural Philosophy; Technical Philosophy; Document Perspective; Digital Human; Documentary Studies; Digital Humanities

编辑 | 耿弘明

向上滑动查看注释

[1]朱熹：《四书章句集注》，北京：中华书局，1983年，第63页。

[2]刘宝楠：《论语正义》卷3，北京：中华书局，1990年，第92页。

[3]杨伯峻：《论语译注》，北京：中华书局，2017年，第27页。

[4]恩斯特·卡西尔：《人论》，甘阳译，上海：上海译文出版社，2004年，第37页。

[5]恩斯特·卡西尔：《人论》，第38页。

[6]恩斯特·卡西尔：《人论》，第44页。

[7]郭明哲：《恩斯特·卡普：技术哲学奠基者》，《理论界》2008年第7期。

[8]黄旦：《延伸：麦克卢汉的“身体”——重新理解媒介》，《新闻记者》2022年第2期。

[9]赖黎捷、李明海：《从“人体延伸”到“思维延伸”：麦克卢汉与凯文·凯利技术哲学述评》，《重庆师范大学学报（哲学社会科学版）》2014年第6期。

[10]刘石：《文献学的数字化转向》，《文学遗产》2022年第6期。

[11]王军、张力元：《国际数字人文进展研究》，《数字人文》2020年第1期。

[12]习近平：《加强文化遗产保护传承弘扬中华优秀传统文化》，《求是》2024年第8期。

[13]贝奈戴托·克罗齐：《历史学的理论和实际》，傅任敢译，北京：商务印书馆，1997年，第3页。

[14]刘石：《文献学的数字化转向》，《文学遗产》2022年第6期。

[15]俞国林、王建：《数字人：用科技激活传统文化之美》，《光明日报》2023年1月4日第13版。

[16]王建、付小艳、张建丽：《从数字出版到数据产业再到内容元宇宙——传统数字出版的新型破局之路》，《出版人》2022年第11期。

[17]张寿安：《龚自珍论乾嘉学术：专门之学——钩沉传统学术分化的一条线索》，《学海》2010年第2期。

[18]郭琳：《新教育下的宗经与存古——从〈劝学篇〉和“癸卯学制”看张之洞的经学教育变革》，博士学位论文，北京大学，2017年。

[19]钱穆：《中国知识分子》，《国史新论》，北京：生活·读书·新知三联书店，2018年，第139页。

[20]钱穆：《现代中国学术论衡》，北京：生活·读书·新知三联书店，2001年，第94—95页。

[21]强世功：《数字智能时代的大学通识教育》，《复旦教育论坛》2023年第2期。

[22]习近平：《加强基础研究实现高水平科技自立自强》，《求是》2023年第15期。

扫描下方二维码即可购买《数字人文》期刊

校对 | 肖爽

美编 | 王秀梅

公号二维码for_gh_b7aac82fc9bd_258.jpg

数字使人文更新

投稿：https://szrw.cbpt.cnki.net

数字人文门户网站：www.dhcn.cn

阅读原文

跳转微信打开

普通视图

联系方式

邮箱：evahan2026@gmail.com

CCL26-Eval评测任务分类汇总

任务1：第二届中文叙实性推理评测

任务简介

任务描述

组织者和联系人

任务奖项

任务网址

任务2：非字面义翻译和理解评测

任务简介

组织者和联系人

任务奖项

任务网址

任务3：跨主流语言与低资源语言对齐的大模型金融评测

任务简介

组织者和联系人

任务奖项

任务网址

任务4：低资源缅甸语固定模版语句推理评测

任务简介

组织者和联系人

任务奖项

任务网址

任务5：杂粮育种信息抽取评测

任务简介

组织者和联系人

任务奖项

任务网址

任务6：中文电子病历疾病与手术ICD自动编码评测

任务简介

组织者和联系人

任务奖项

任务网址

任务7：跨语言文学文本情感分析一致性评测 (Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)

(Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)

任务简介

BCCL-CSA 2026 包含三个子任务：

任务特色与创新

数据集说明

网站建设与论文评审

组织者和联系人

任务奖项

任务网址

任务8：大语言模型生成中文医疗内容的循证事实核查评测

任务简介

任务奖项

任务网址

任务9：第二届古诗词赏析评测

任务简介

组织者和联系人

任务奖项

任务网址

任务10：基于情景的常识推理评测

任务简介

组织者和联系人

任务奖项

任务网址

任务11：面向自动驾驶的自动化危害分析与风险评估评测

任务简介

组织者和联系人

任务奖项

任务12：优酷无障碍剧场杯-面向听障群体的信息无障碍结构化字幕生成评测

任务简介

组织者和联系人

任务奖项

任务13：图像文本翻译质量评测

任务简介

组织者和联系人

任务奖项

任务7：跨语言文学文本情感分析一致性评测
(Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)