普通视图

Received before yesterday1 - 清华大学公众号

温馨提醒 | 第七届清华数字人文国际论坛“未来学者”专场报名最后三天

2026年5月20日 11:28

2026-05-20 11:28 北京

在人工智能技术迅猛发展的今天,数字人文领域正经历前所未有的变革。数据驱动的研究方法、跨学科的技术融合以及人工智能在文化遗产、文本分析和数据可视化等领域的应用,为学术研究带来了全新的可能性。

“未来学者”专场

人文学术的未来,寄托于未来的人文学者;也即是当下正致力于研究和探索的青年学子。为鼓励和支持本、研阶段学生投入数字人文研究,结合数字时代新方法、探索人文学术新方向,《数字人文》学术集刊持续举办第七届“未来学者”论坛,诚邀国内外的本科生、硕士生、博士生在读学生(不含博士后)投稿并参会。

期待来稿面向人文问题、结合数字方法,给出来自文学、历史、哲学、社科、艺术、教育、传播乃至政治学、图情档案等各个领域的回答和发现。

本届入围者将受邀参与第七届清华大学数字人文国际论坛“未来学者”专场,获得专家指导评议及进一步研究支持,并于本刊择优刊发。

投稿须知

摘要提交截止日期:2026年5月22日

摘要提交链接https://www.wjx.top/vm/e6ux8a3.aspx# 

或扫描下方二维码报名

qrcode.jpg

全文提交截止日期:2026年6月12日

投稿地址:

https://szrw.cbpt.cnki.net

在系统中投稿时请选择“未来学者专栏”

参会人员收取会务费,会务费标准为800元/人,学生半价优惠400元/人,入选“未来学者”论坛发言的作品每篇免1人参会、住宿费。缴费时间及缴纳方式将另行通知。

会议时间地点

2026年7月10日-13日    共4天

报到7月10日

会议 7月11日—12日

赋归7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

我们期待您的参与,共同探讨数字人文的前沿议题,推动学术研究的创新与发展!

论文格式模板及要求-中文.pdf

论文格式模板及要求-中文.pdf

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

论文格式模板及要求-中文.pdf

END

公号二维码-1.jpg

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

虚构性

2026年5月14日 09:59

原创 安德鲁·派博 2026-05-14 09:59 北京

虚构与非虚构、真实文本与非真实文本之间的区别是有史以来最经典的问题之一。自从我们开始思考叙事行为以来,我们就一直在探讨真实和想象的相关含义。

概念与实践

2.png

安德鲁·派博 / 加拿大麦吉尔大学语言、文学与文化系

陈大龙(译)/ 浙江大学国际联合学院

“无法通过任何文本属性将文本认定为虚构作品,无论是从句法上还是语义上。”

——约翰·塞尔(John Searle)

虚构与非虚构、真实文本与非真实文本之间的区别是有史以来最经典的问题之一。[1]自从我们开始思考叙事行为以来,我们就一直在探讨真实和想象的相关含义。这就是亚里士多德所说的语言的交际性使用(legein,讲述)和创造性使用(poiein,制作)之间的区别。[2]千百年来,我们一直在争论虚构是否有其内在特征,或者它是否只是一个意向问题,或许虚构话语的语言其实并无独特之处。我们如何知道一个文本自身就表明了它是“真实”的,或者不是真实的?[3]对于这种最基本的区别,量化信息又能告诉我们什么呢?

请看下面两段文字:

A

在从巴克利湾(Buckley Bay)到丹曼岛(Denman Island)的短程摆渡路途上,朱丽叶(Juliet)从她的汽车里钻出来,站(stood)在了摆渡船前端的夏日微风之中。站在那里的一个妇女认出了她(her),(她们,they)两人便聊了起来(began)。这也(是,is)算不得什么稀罕事儿了,人们多看朱丽叶一眼,(他们,they)便会琢磨以前在哪儿见过这个女人,有时候也真的会记起来。

B

杰夫(Jeff)今年是(is)24岁,身材高挑健美,留着蓬松的棕色头发,带着轻松的笑容。三年前,他(he)从布朗大学获得历史学和人类学荣誉学位,毕业后搬(moved)回波士顿(Boston)郊区的家,开始(started)找工作。几个月后,他找到了一份工作,是一家小型互联网供应商的销售代表。他通过短信和电子邮件与大学同学保持联系,周末还会去市中心的波士顿“布朗酒吧”闲逛。他说:“感觉有点儿像我从未离开过大学。”他的语气中夹杂着不舍和愉悦。“同一批朋友,同样的漫无目的。”

乍看之下,这两段话有很多共同之处:都使用了单一的专有名称(杰夫/朱丽叶)和地点标记(波士顿/丹曼岛),都使用了一些代词(她/她们/他们/他),都偶尔使用修饰词(短程摆渡路途/夏日微风/蓬松的棕色头发/轻松的笑容),也都使用了过去时和现在时(“站”[stood]、“起来”[began]、“是”[is]、“开始”[started]、“搬”[moved])。虽然第二段话使用了对话形式,但假设第一段在某些时候也会使用对话也不无道理。无论是杰夫作为“销售代表”的倦怠感,还是第一段中认出朱丽叶的女人,这两个段落似乎都为描写提供了某种心理支撑。两者都会让我们思考人和性格。

然而,鲜有读者猜不出段落B来自非虚构作品迈克尔·金梅尔(Michael Kimmel)的《男性世界:男孩变成男人的危险世界》(Guyland: The PerilousWorld Where Boys Become Men),而段落A来自虚构作品艾丽丝·门罗(Alice Munro)的《沉寂》(“Silence”)。[4]那么,是什么让这一点如此明显呢?就如我们这个领域的许多人那样,我们可以说,虚构性是不可言说的,它只是我们阅读时的一种感觉。谁能说得清是什么在读者的脑海中唤起想象的世界?然而,另一方面,我们可以尝试比我上面的初步描述更加精确,尽可能多地量化这两个段落的特征,以了解它们在词法和句法层面的显著差异(见表1)。

图1.png

表1

这些结果是使用詹姆斯·彭内贝克(James Pennebaker)的语言探索与字词计数(Linguistic Inquiry and Word Count,LIWC)软件得出的,该软件可从80个不同的心理语言学维度探索文本特征。表中仅列出了所有特征的一个子集。数值以百分比表示。

以这种方式观察这些段落,我们不仅可以看到它们之间更广泛的差异,还可以看到这些差异的强度,大概也可以分辨这些差异的显著性。与金梅尔的文本相比,门罗的文本看起来动词使用得更多,而且,相对于总字数而言,现在时动词更多。此外,她的句子也更长,代词更多。她比金梅尔使用了更多的冠词和介词,还使用了表达洞察力(认出、记起来、琢磨)、不确定性(有时候、琢磨)、以人为中心(女人、人)和移动特征(汽车、摆渡船)的词汇。而金梅尔则使用了更多的6个字母以上的单词、稍多的逗号和句号、更多的数字以及更多的情感和工作词汇。我们可能以为文学文本会更多地表达情感,但门罗的写作艺术之特征就是把情感隐于字面之下,含而不露(“便会琢磨以前在哪儿见过这个女人,有时候也真的会记起来”)。

本文旨在了解虚构文本与非虚构文本之间的差异,也就是向读者提示故事真实与否的标志。

我并非如上例所示只看一个例子,或者几个例子,而是将利用大约包括28,000份虚构和非虚构文档的集合,以更好地了解虚构写作与非虚构写作的区别。我的研究重点将主要放在长篇小说上,因为长篇小说是19世纪至今虚构写作的最主要形式之一。我们知道,自1800年左右开始,长篇小说开始在数量上不可阻挡地崛起,那么,是什么让长篇小说成为一种独特的虚构话语形式?[5]

关于虚构话语本质问题的讨论在20世纪70年代到80年代初达到了一个高潮,许多语言哲学著作都在反思文本表明自己真实性的语言线索标记。[6]这一努力的关键在于如何界定和控制语言的可靠性,即区分言语中真实与非真实内容的能力。约翰·塞尔的著作成为这场运动中的里程碑,而他所提供的框架则深受奥斯汀(J. L. Austin)言语行为理论(theory of speech acts)的影响。

对于塞尔和聚集在他周围的哲学家群体来说,虚构话语与非虚构话语之间的差异并不取决于话语的实际内容。相反,它取决于说话者和受话者的意向性的结合,即所谓的以言行事(illocutionary)行为和以言取效(perlocutionary)行为。(我们可能会把这些作为言语生产与接受的框架。)正如塞尔所言:“虚构中的说话行为与严肃话语中的说话行为是无法区别的,进而,也就不存在某种足以将一串话语识别为一部虚构作品的文本自身属性。”[7]对于语言哲学家来说,虚构性并不是一种独特的语言使用,而是取决于作者和读者的意向,以及这些意向在文本界限之外的交流方式。

对于大约同一时期的文学理论家来说,文学作为虚构话语的一个子集,同样被定义为与“写作”这一更大范畴不可区分的文本实体。塞尔和奥斯汀的言语行为理论被用来对文学本质主义进行更普遍的批判。文学本质主义认为,文学作品存在着独特的且可能不受时间影响的特质。雅克·德里达(Jacques Derrida)明确援引塞尔的哲学写道:“在被直接铭刻在社会身体(social body)上的一个正确的,也即具体的意向性赋予或认可的功能之前和之外,任何论述、任何话语形式都不具有内在或本质上的文学性。”德里达接着说:“这就是我想验证并提交给你们讨论的假设。文学没有本质或实质:文学不是(literature is not)。它不存在。”[8]对于德里达和后来的许多后结构主义批评者来说,文学不是一系列可确定的特征的产物,而是一系列社会意向的产物,是支撑塞尔言语行为生产和接受的框架。[9]如将塞尔关于话语陈述的立场更广泛地转化为文学阐释,则文学之所以被视为解放性的(liberatory),正是因为它不可规约为任何模式、习惯或个人语言习惯。[10]

本文提出了一种截然不同的主张,这种主张是基于对过去两个世纪中个体从事虚构或非虚构写作的大量实例的观察。从这个角度来看,虚构性在语言内容层面(亚里士多德的术语为“语汇”[lexis])是一个高度可辨的范畴。正是这种可辨性使我们能够建立预测模型,以95%以上的准确率识别虚构作品,而且应该补充的是,它使人类读者也能做到这一点(正如我上述的初步实验所展示的)。与语言哲学家或从后结构主义者到后古典叙事学家(postclassical narratologists)的不同文学评论家流派的观点相反,语言中对真实性(或与之相反的虚构性)的表明是文本的一个高度可识别的语言特点。写作在句子或“说话”(utterance),即塞尔含糊其词地称之为“一串话语”的层面上表现出的特点,从不同的尺度上再去观察时,就不再成立了。[11]将重点全部放在读者的活动上,无论是作为认知倾向,还是作为阐释自由,都忽略了文本有大量强大的方式来根据其虚构性质来标记自身以示读者。

本文的研究不仅表明虚构性是一个极易辨识的范畴,而且至少在两百年来,它似乎一直出奇地稳定。虽然我们讲述故事的方式确实发生了重大变化,然而,当我们使用以19世纪文本为基础来训练的学习算法时,它识别当代小说的表现即使确有所下滑(毕竟历史仍然重要),但准确度仍然令人印象深刻(约91%)。事实上,举例来说,那些似乎体现了19世纪小说独特性的特征,随着时间的推移,要么在增加,要么基本保持稳定,甚至在进入20、21世纪的各种文体中也是如此。虽然不同文体在多大程度上表现出类似的虚构性特征仍是一个悬而未决的问题,但我的初步研究表明,在种类繁多的虚构写作中,存在着令人惊讶的共性。这种连续性对于我们如何思考流派和文学时期划分具有重要的影响,而这种影响在很大程度上仍未得到讨论。[12]

理解虚构性的可辨识性——它在多大程度上将自身标记为一种文化实践——对于理解我们自己的学科具有重要意义。最近对创意性写作的历史嵌入性(historical embeddedness)的强调,无论多么有价值,在很多方面都忽略了这种连贯性的意义,即虚构的驱动力之一就是将自身与其他类型的写作区分开来。这并不是说小说在某种基本意义上不是关于现实世界的,而是说小说的重心——也就是克莱斯特(Kleist)在《论木偶戏》(“On the Marionette Theater”)一文中所说的艺术作品的“重心(Schwerpunkt)”——位于别处。那么,我最终希望在此得到更好理解的就是这个“重心”,即小说作为一种写作将自己区分开来的方式。我们将会看到“虚构的稳定性”,尤其是长篇小说虚构的稳定性,似乎是建立在我们可以称之为“现象学投入”(phenomenological investment)的基础之上的。[13]小说对19世纪(及以后)虚构话语的贡献,其特殊本质就在于,它关注的不仅仅是我们周围的世界,还有我们与这个世界的知觉相遇,其中包括大量的怀疑、推诿和否定。而要在长篇小说中体验世界,首先需要的就是怀疑。

从这些角度来思考小说的虚构性和长篇小说,不可避免地会对近期的一些老生常谈造成压力。在这一视角中,经久不衰的小说“现实主义”的问题,即小说再现特定环境的程度和手段,便让位于小说对“遭遇戏剧化”(dramatization of encounter)的关注——无论是与他人还是与世界的遭遇,实际上都是与更广义的他者的遭遇。与其说长篇小说这种文体是基于其与关于事物的知识的关系的——在这里,物论(thing-theory)是对现实主义兴起的一种新的诠释——不如说根据长篇小说具有量化意义的组成部分,它在本质上似乎更具有自我指涉性,为我们提供了获取“认知之知识”的途径。它明确了一种有关假定性的经验,一种与世界的测试性关系。[14]尽管这可能是我们传统上对一小部分现代主义实验的看法,但重要的是,这一观点甚至适用于19世纪最经典的“现实主义”小说。

因此,本文认为,小说学术史中的某些经典立场需要重新思考,或者至少需要根据新兴的对小说的计算研究成果进行修正。无论是凯瑟琳·加拉格尔(Catherine Gallagher)关于小说与其自身虚构性之间暧昧关系的论述;是后结构主义对文学否定性的投入,如批评家将小说称为“无体裁(genre)的体裁”;是物论对伊莱恩·弗里德古德(Elaine Freedgood)所称的小说语言的“指称性、字面性和技术性”的强调;还是伊恩·瓦特(Ian Watt)对小说的指涉性所持的依然具有影响力的立场,比如瓦特写道,“这样看来,小说中语言的功能在很大程度上比其他文学形式更具有指涉性”;计算都对作为一种虚构话语类型的长篇小说的重要性作出了截然不同的描述。[15]问题的关键并不在于这些立场是否毫无根据——可以肯定的是,对于某些长篇小说而言,这些存在方式可能确实是主要的,正如对于许多长篇小说而言,这些存在方式可能在某些时候是有效的,这也是可以肯定的。

但是,如果我们试图理解是什么特质让小说从众多看似真实的写作类型中脱颖而出,甚至在各类虚构文本中独树一帜——如果我们试图将小说作为一种独立文体来概括——那么至少从18、19世纪之交开始,我们便能察觉到一些显著的变化。根据下文的研究,小说的重要性并不主要在于它对世界的正面表现,即它的模仿效用、它模拟某种事物的能力(如17世纪关于“真实性”[vraisemblance]的辩论)。它也不是基于一种后结构主义的否定性——小说不是一个可识别的独特而稳定的类别,这反映了文学更普遍的否定能力;恰恰相反,小说的最佳描述方式是,它是对其自身世界关照性(worldliness)的确定性的否定。它立足于对遭遇而非现实的诉求。在此过程中,正是语言的指涉性在小说中被悬置起来,这并非含糊不清,而是系统性的、有计划的,甚至在那些被广泛认为是写实性最强的小说中也是如此。

预测和描述

本文将所谓“预测”(predictive)与“描述”(descriptive)的方法结合使用。预测模型(如机器学习过程中使用的模型)之所以重要,是因其使我们得以参与分类的过程,将一组文本定义为一个连贯的实体,并根据某些预设条件了解其连贯程度。[16]通过预测模型,我们可以知道将文本判归为某个特定的文本组的确定性有多高,以及根据什么标准来确定。确定性越高,我们就认为这个类别越有内聚力。

另一方面,描述性模型之所以有用,是因其使我们在不进行分类的情况下,也能够通过将一个文本组与另一个组进行比较,确定该组的显著特征。这可以告诉我们,一组与另一组相比,哪些特征是突出的,但这样做并非为了宣称该组整体上都具有这样的独特性。这些特质不是对文本或文本组进行定义——小说是××或小说是如此可预测的,而是帮助我们根据更加个体化的标准来描述一组文本的行文(behavior)。这也是很有价值的,因为它能让我们了解使一组文本不同于另一组的成分,而这些成分未必会导致两组文本归为不同类别。对预测进行解释,也就是解释计算机如何估计出一个文本属于哪一类,是相当具有挑战性的,而解释个体差异则简单许多。我认为,正是两者的结合,让我们既能从分类的角度思考——思考在特定条件下书写的相对连贯性——也能从质的角度思考写作的具体方面,而无需给对象划分明确的界限。在许多方面,描述都比预测更接近文学批评的传统任务。

本文中使用的数据是为了了解不同类型书写中虚构性的本质而选择的,目的是考察本文得出的结果是否能够经得起不同时间、不同语言和不同样本量的检验。总体而言,这些数据包括约28,000份文档,时间跨度为从18世纪末到21世纪初,内容以英语或德语书写。这些文本集合涵盖不同类型的虚构和非虚构写作,包括长篇小说、历史著作、哲学著作、实用指南、中短篇小说、童话故事和翻译成散文的古典史诗等(但不包括百科全书或烹饪书)。这些文本可归纳为四大类。

第一类代表了我实验室整理的约600份文档,这些文档是19世纪德语和英语的经典著作,包括该时期最著名的长篇小说以及著名的非虚构作品,包括哲学著作、散文和历史著作。这些文本已经过充分清理,以确保转录错误最小化;同时,它们也已按叙事视角进行拆分,这样我们在与历史叙事进行比较时,就能够控制例如第三人称小说等变量。

第二类是一个大得多的19世纪英语作品样本,由21,158份文档组成,包括虚构和非虚构,这些文档来自泰德·安德伍德利用Hathi Trust数字图书馆进行的研究。[17]我们对这组文档的内容了解就少得多,而这也使我们得以在同一时期的经典文本子集和更广泛的作品集合之间检验我们的结果。

第三类包括约6,500篇长篇小说,分别是来自斯坦福文学实验室的19世纪长篇小说集和芝加哥文本实验室的20世纪长篇小说集。通过这些小说集,我们可以研究长篇小说词汇的历时变化。

最后,第四类包括由我的实验室整理的过去十年内出版的800部当代长篇小说和非虚构作品集。[18]这让我们能够更好地探究过去所观察到的影响在多大程度上持续至今。

表2概述了所使用的不同文档类别的构成以及各自的文档数量。

图2.png

表2 数据概览

本文探索的文本特征主要用LIWC软件提取。该软件由詹姆斯·彭内贝克(James Pennebaker)设计,是一个为社会科学领域开发的工具,用于研究大型文本集合。它包含了80种不同的特征,从识别句法和语法特征(如标点符号、介词、动词时态和代词的使用)到更高层次的认知现象(如社会、感知或情感过程)。[19]这些词典已在人类受试者身上得到测试和验证,其结果可供查阅。[20]与所有基于词典的方法一样,特定类别的语义连贯性也是一个未决问题。“insight(洞察)”词典中的所有单词是否都真正代表了小说中认知洞察的时刻?或者,所有的“I(第一人称单数代词)”都是同样的意思?[21]因此,对这些结果的解释需要慎之又慎。尤其需要注意的是,如何将这些类别理解为类别,重点是评估这些类别在小说中的语义连贯性。当我们深入研究单个特征时,我们会发现什么呢?正如我们将要看到的,我的重点将放在语义不那么模糊的类别上,从标点符号、人称代词到表达感官体验或认知犹疑的动词。

同时,强调这种词典构建方法对文学计算研究的益处也很重要。与主题建模或词嵌入所面临的问题不同,那些方法是在事后发现词语集合并加以命名,而这里我们是从预设的语言类别出发,检验它们在特定文本集合中的出现情况。词语外在于所需研究的集合,这使我们可以独立于这些集合本身来测试我们所相信的。虽然这两种方法都不完美,但它们都在单词与其被认为所承载的思想之间进行转换。最终所涉及的核心问题,是模型对自身能够逼近某种潜在文本现象的信心程度。[22]关键在于尽可能明确地说明我们是如何在不同的分析层级之间进行转换,也就是说,如何将概念层面、词汇层面与理论层面连接起来。

因此,LIWC为我们提供了一系列具有直观意义的解释性类别,以及这些类别可能部分基于的词库。它的一个核心优势是,即便数据本身具有专门性,特征集合仍然可以被共享——我在这里正是这样操作的。尽管如此,这些类别不应仅看其表面值,也应与所有语义领域一样,被加以深入考察。由于LIWC的字典是透明的,用户可以根据自己的需求进行完善或更改,就像我在此所做的那样。此外,它们还可以与其他更个性化的功能相结合,例如,使用WordNet这样的工具查看词类。虽然未来的工作需要继续扩展和完善这类特征集,但LIWC语料库仍可作为任何监督方法理解文本定量维度的有用起点。

虚构的连贯性

我想首先提出的问题是:作为一种写作类型,虚构的连贯性如何?是否真的如塞尔所言,没有句法或语义属性可以让我们预测某个对象是否具有虚构意向?虚构性是否仅仅是交际语境、作者意图和读者信仰体系的函数?还是说,一些特征在虚构文本中体现出高度规律性,而在非虚构文本中并不存在,以至于计算机也能准确猜测出文本的性质?

为了回答这些问题,我将使用所谓机器学习的方法,看看计算机能在多大程度上准确预测文本的给定类别(我将使用一种被称为支持向量机[support vector machine,SVM]的学习算法,这种算法在许多文本分类场景中都有应用)。[23]对于不熟悉这个过程的人来说,学习算法会在一组已知类别的文档中提取特征进行“训练”,然后被要求预测一组它从未见过的新文本属于哪个类别。在此,我使用在给定文档集合中发现的LIWC特征来训练算法,并使用十折交叉验证过程(process of 10-fold cross-validation)来预测文档是虚构作品还是非虚构作品。具体操作如下:随机地将语料库按9∶1的比例分折10次,每次都是90%的文档用于训练算法,余下的10%用于测试算法的可靠性。(Kernlab程序包中的folds函数确保每个折叠在两个类别之间实现均衡分配。)这样重复10次可以让我们全面了解收集的所有文档,因为每份文档都有机会进入测试集。表3列出了这一实验的结果,显示了所比较的两个数据集,以及对未见数据进行预测时的平均准确率得分。

从表3中我们可以看到,虚构和非虚构之间的差异不仅具有跨时间和跨语言的鲁棒性,而且我们可以使用在一个时间段建立的模型来有力地预测另一个时间段的数据。虽然当我们使用19世纪的模型预测21世纪的小说时,准确率会明显下降,但我们仍然可以得到相对较高的准确率(约为91%)。在过去的两个世纪中,小说话语似乎具有明显的跨时稳定性。事实上,正如我们将在下文中看到的,当我们研究更能说明小说写作的特征,特别是作为小说话语子集的特征时,通常会看到这些特征随着时间的推移而增强。除了小说的跨时稳定性之外,某些类型的小说专用词汇的增加也可追溯至19世纪。

图3.png表3 小说的可预测性

本表展示了使用SVM分类器和LIWC特征集进行分类测试的结果。在最后一个例子中,我在Hathi Trust数据集的虚构和非虚构文本中训练了分类器,然后将其运用于《纽约时报》评论的当代长篇小说集和流行的当代非虚构文本。

小说现象学

如果虚构的可预测性如此之强,那么是什么特征或特征组合造就了这种显著的可预测性呢?虽然有很多方法可以解决这个问题,但在此我将根据这些特征在虚构与非虚构文本中中值频率的增加情况对其进行排序,并使用非参数Wilcoxon秩和检验来说明统计意义。比较中值的价值在于,它保留了某一特征在特定样本中的总体分布信息。中值可以确定特定类别的中间点,而不是将所有虚构作品都简单地归入一个单一的分区,后一情况下,有些作品的某一特征的量可能明显高于其他作品,从而使结果偏向于它们。其次,有些显著性检验的设计是为了避免低频特征的影响,而本检验则并不作此假设,它只关注两组之间的比率,以了解特定特征相对于其总体出现频率的高低。因此,增加幅度大的低频特征比增加幅度小的高频特征更重要。[24]

首先,让我回顾一下这里使用的表格的整体结构,以便更好地理解它们能告诉我们什么,不能告诉我们什么(见表4)。最左边的一栏(“特征”)列出了LIWC所定义的特征。有些特征非常直截了当,如“感叹号”(exclam)是指感叹号的百分比;有些特征则比较微妙,如“家庭”(family)指的是词典中所有与家庭成员有关的词,而“社会”(social)指的是与社会经历有关的词,例如其中可以包括代词(这一选择实际上重复了代词类别,因为代词比其他词常见得多)。可以说,前者比后者更直截了当,因此,当我们遇到语义更模糊的词典时,我们需要谨慎(即便是像“你/你们”这样一个词,在小说中也可能具有不同的功能)。第二列(“类别”)列出了特征所属的类别,这是理解单个特征的一个略微宽泛的框架。接下来的两列(虚构、非虚构)列出了该特征在每个语料库中的中值频率,即占所有词语的百分比。这使我们能够了解哪些特征相对于其他特征更为普遍。

对于读者的阅读体验而言,百分比有些不够直观,因此在接下来的讨论中,这些数字通常会折算成该词在一个页面上和整部作品中出现的频次。这样,我们就想象得出读者的阅读体验,并推测出哪些特征占据了读者更多的注意力。例如,感叹号在19世纪的一部虚构作品中平均占0.45%。如果我们假设一部普通篇幅的小说约有100,000个词(或每页500个词,共200页),这意味着约每200词就有一个感叹号,或每页2—3个,或每部小说共约500个。而人称代词在小说中出现的频率约为10%,即每10个词出现一次,或每页出现50次(每部小说出现10,000次)。

第五栏“比率”可以让我们了解该特征在不同集合中的出现率差异有多大。感叹号在虚构作品中出现的频率几乎是非虚构作品的十倍。这是一个巨大的差异,但与其他特征相比,这个特征仍然是出现频率相对较低的。另一方面,虽然人称代词在小说中出现的频率只比在非小说中出现的频率高出两倍多一点(差异仍然很大),但是,这种差异依赖于文本中更广泛的语言层面。代词数量的两倍意味着每部作品中大约多出5,000个代词,或每页多出25个代词。虽然我在解释结果时优先采用了比率,但是,从特征的总体普遍性到不同集合之间的相对差异,这两个方面还是都要关注的。

从使用我们的经典样本和规模更大的Hathi Trust数字图书馆中19世纪作品来对虚构和非虚构写作进行基线比较开始(见表4),我们可以看到最能体现虚构性的特征是如何由对话驱动的——感叹号、问号、引号、“我”“你”等第一人称和第二人称代词、“是的”“好的”“哦”等表示赞同的词,以及最后还有“说”(said)这个词(LIWC将其标记为听觉动词)。

图4.png表4 虚构与非虚构对比:19世纪经典(英文)

与非虚构类作品相比,虚构类作品增幅最大的前20个特征。数值代表特定特征的百分比中位数。以下符号用于表示p值:<0.0001=***,<0.001=**,<0.01=*。

重要的是,我们还发现19世纪的样本与Hathi Trust文献更大规模的样本之间具有很强的一致性,但“社会过程”(social)类别以及潜在的“家庭”(family)、“家”(home)和“摄食”(ingest)除外。如果我们直接比较这些类别,就会发现,只有“家庭”和“摄食”在经典样本中频率有些高(大约高了10%—15%)。换言之,虽然存在值得探讨的有趣差异,但总体而言,通过较小的样本也是能够很好地捕捉到与较大样本相同的信息的。综合来看,这些特征表明,与非虚构类作品相比,虚构类作品具有相对明确的独特对话结构。虽然这可能不是什么“新闻”,但它确实有助于我们建立起来关于此类写作社会意义差异的分类体系。想象人与人之间的对话似乎是小说的主要文化功能之一。

事实上,把人想象成人可能是小说最重要的作用。如果我们把对话,连同伴随对话的代词表达(她说、他喊等)从上述集合中剔除,[25]就会发现,第三人称代词与提及家庭成员和身体的词语一道,成为虚构性最强的标志之一(见表5)。在对话之外,虚构作品中她/他(she/he)代词的平均数量比非虚构作品多了三倍多,仅这两个词就占了全文总词数的5%以上(换句话说,在一部中篇小说中约出现5,000例)。

图5.png表5 删去对话后的虚构与非虚构对比:19世纪经典(英文)

再考虑到历史作品使用的专有名词平均要比虚构作品多得多(估计是后者的2倍多),上述差异就尤为值得注意了。[26]虚构作品中人物数量较少,但得益于人物持续存在的时间更长,从而使得代词成为关键的语言标记。在虚构作品中,人们的身份似乎更具延伸性,但这不应与更“广阔”的身份,即语义更丰富的身份混淆。指代人物的代词出现频率与围绕这些人物的语言多样性并不等同。尽管如此,这还是让我们初步了解到虚构作品如何将身份认同过程展现为一种重复而广泛地指称同一个人(或主体)的行为。

家庭和朋友类词汇在虚构作品中如此常用,也表明了哪类人在这一文体中更为突出,正如“家”(home)这一场景设置让我们了解到他们最活跃的地方。大体而言,当我们阅读19世纪的虚构作品时,小说的独特之处,即何以不同于其他类型的自称关于真实事物的文本,就在于对家庭和熟悉事物的关注。旅行、探险、工作——这些都能够在别处以某种方式体验到,而对家庭生活和每个人长时间活动的记录则不可能。

当我们聚焦于德文和英文文本集以及跨越历史和当代的数据集之中一种特殊类型的虚构作品(第三人称小说)和一种特殊类型的非虚构作品(历史著作)时,上述关注的重要意义将变得更加清晰(见表6—表8)。首先需要关注的是一系列关于感知的表达(视觉、听觉、触觉),它们构建了体验者的现象学现实。而身体词汇的广泛运用,揭示了人们注意力的主要焦点所在。从定量角度来看,小说中最稳定的认知视角并非仅仅是关于他人的知识,而是关于另一个具身个体的知识。这一结果对“心智理论”(theory of mind)提出了有趣的挑战,因为该理论认为小说的核心目标是展现另一种人类意识。[27]尽管在接下来的测试中,我们将会看到这一假设确实有其合理之处,但就理解小说与众不同的虚构特质而言,鉴于小说着重强调感官输入和具身实体,心智理论模型所依赖的身心二元区分在此显得难以立足。较之于相应的非虚构作品,在小说创作中,一个具备感知能力的存在所经历的感官体验似乎是被反复强调的独特内容。

图6.png表6 删去对话后的第三人称小说与历史著作:19世纪经典(英文)

图7.png表7 未删去对话的第三人称小说与历史著作:19世纪德文

图8.png表8 删去对话的第三人称小说与历史著作:英文当代文学

为了更清晰地阐释我所指的小说现象学取向的意义,并使之更加明确,我将对19世纪的长篇小说与同时期出版的虚构作品中的特定非小说子集(HATHI_TALES)进行比较。这里的非小说类虚构作品指的是那些在19世纪读者中具有强烈存在感的各种虚构作品,包括翻译成散文的古典史诗(《伊利亚特》《奥德赛》《埃达》《尼伯龙根之歌》)、经典散文虚构作品(《源氏物语》《十日谈》《亚瑟王传奇》和拉伯雷的作品)、世界各地的童话集(源自爱尔兰、德国、丹麦、日本和印度)、同时代中短篇小说集(霍夫曼、托尔斯泰、狄更斯、莫泊桑、霍桑和华盛顿·欧文的作品),以及各种传说故事集(《昔日故事》[Tales of Former Times]、《家庭生活故事》[Tales of Domestic Life]、《道德故事》[Moral Tales])。这组数据旨在反映19世纪英语读者广泛阅读和了解的一系列散文虚构作品(prose fiction),但这些作品并不被归类为“小说”(novel)。虽然这些材料源自不同时代,但其出版(和翻译)整体上都是同时代的。

图9.png表9 小说与其他虚构作品

本表首先有三个突出的有趣特点。首先,这些比率与非虚构类相比,要低得多。虽然与非虚构类相比,这些组别差不多都具有很好的区分度,但如果相互比较,整体区分度就会大大降低。如果我们对其运行与前述相同的分类器,预测小说的准确率约为68%,接近统计学显著性阈值(p=0.018)。如果我们使用Hathi Trust文本集中稍大些的长篇小说集合(428部,以反映“其他虚构作品”),准确率将略微提高到74%(p=7.23e-05)。这仍然大大低于从不同文体中预测区别出长篇小说的能力。正如泰德·安德伍德所指出的,在150年的时间跨度内,预测侦探小说和科幻小说的准确率在88%—90%之间。[28]因此,“其他虚构作品”这一宽泛的类别与作为虚构作品子集的长篇小说之间区别并不大。

其次,我们不仅看到了诸如代词和对话等我们较为熟悉的有关虚构性的语言标记,与此同时,还在动词类别中看到了一个新特点:总体而言,动词数量更多,时态也更加多样(过去时、将来时、现在时,此外还有助动词)。换句话说,与一般虚构作品相比,长篇小说的时间复杂性似乎更大。这一现象值得深入探讨,因为它揭示了一个初步的见解,即长篇小说在19世纪如何通过时间处理上的独特方式区别于其他类型虚构写作。[29]

图10.png表10 长篇小说与其他虚构作品:独特的词汇

最后,我们还看到这里出现了一个前所未见的新类别,属于“认知过程”的类别。这些词典被LIWC加上了“差异”“否定”“不确定性”和“洞察”(discrepancy、negation、tentativeness、insight)的标签。如果我们分析一下这些词典中最能体现小说特色的词语(在此我按对数似然比[log-likelihoodratio]进行排序),我们便能清晰地观察到,这些词语在多大程度上倾向于标示出自我反思、怀疑和犹豫的时刻,呈现出一种对世界的试探性关系。

在此,情态动词(如could、would、must、might和should)及其否定缩略形式(如don't、can't、didn't、not、never、nobody)的使用极为普遍,否定的表达也十分常见。正如“如果”一词所体现的,这些词组提供了表达条件性甚至不可能性的不同方式。与此同时,不确定词汇(something、anything、somebody、anybody)以及更具体的表达犹豫的词汇(也许、机会、希望、可能、猜测、或许、怀疑、不确定)也更为常见。在长篇小说的语境中,表达条件和不可能性的语言中,还蕴含着相当多的潜在性和可能性,同时也夹杂着怀疑性。[30]

最后,我们不难发现,长篇小说的特点在于其对心理状态的广泛运用,这主要体现在“知道”“感觉”“思考”“记忆”和“相信”(know、feel、think、remember、believe)等动词的频繁使用上。此外,还有一些使用频率稍低但同样独特的复杂认知动词,如“承认”“思考”“想象”和“原谅”(admit、ponder、imagine、forgive,后者在文章中未具体展示),这些词汇构成了小说反思性的基石,它将怀疑与条件性思维融合在一起,形成一种连贯的精神状态。事实上,“似乎”和“感觉”(seem、feel)在长篇小说中的出现频率比其他形式要高出30%,这两个词共同展现了小说所特有的现象学倾向。与其他形式的经典虚构作品相比,长篇小说的独特之处在于,它聚焦的不是世界本身,而是人与世界的相遇和对世界的思考——即对世界的感知。正是这种感性认识与认知怀疑主义的结合,凸显了长篇小说对虚构话语的贡献。长篇小说的魅力在于,它为读者提供了一种长期阅读体验,让人们得以深入评价世界给予性(world's givenness)。[31]

长篇小说的现实主义问题

如果我们认同长篇小说作为一种文学体裁,其独特之处在于对现象学词汇的更多关注,那么问题就来了,这种关注是否也意味着对世界更深入的关注,即对现实或者——按照卢卡奇的抽象表述——“给予性”的更密切的关注。现象学与现实是相互排斥,还是相互构成?换句话说,我们能否检验长篇小说具有高度现实主义这一由来已久的假设?

虽然这些问题都需要进行专门的研究,但我在此先进行两个测试,旨在评估长篇小说现实主义倾向的有效性。在第一个测试中,我探讨了小说对抽象概念和物理实体的关注程度差异。为此,我选取了查德威克·希利集合(Chadwyck Healey Collection)中的19世纪长篇小说子集(约700部小说),并将其与Hathi Trust的“其他虚构作品”进行比较。随后,使用WordNet将这些文本转换成各自的上位词树。[32]上位词提供了名词的高阶分类(例如,“家具”是“椅子”的上位词),可以让我们了解在特定语料库中特定类别的词语是否比其他类别更常见,这与LIWC在情感和心理过程中的作用非常相似。举例来说,如果小说中出现了“沼泽”一词,它将被转换成“湿地”“土地”“地面”“土壤”“物体”“物理物体”“物理实体”或“实体”。在这种情况下,所有名词都被视为“实体”,其首要区别是区分物理名词(如“沼泽”)和抽象名词(如“死亡”)。

通过这一模型,我们可以提出这样一个问题:与其他类型的经典虚构作品(可以算上历史著作)相比,小说中的物理名词数量是否明显较多?由此,我们可以探讨,小说的独特性是否与其物理客观性(作为理解其现实主义程度的一种潜在方法)有关,或者更多地取决于抽象的精神或情感状态。

第二项测试则试图将现实主义理解得更加具体。一个文本越具体,它就越关注周围的世界。为了检验这一点,我比较一个文本中的词语是另一个文本中词语的上位词的百分比。在一组词语中,如果其中包含更多另一组词语的上位词,就说明第一组词语更抽象,第二组词语更具体。例如,如果我使用“沼泽”一词,而你使用“土地”一词,那么我的语言可以说比你的语言更具体(你的语言比我的语言更抽象)。在第一项测试中,文本中包含更多的物体(objects)是对现实主义的一种体现方式,而与之形成对比的是,第二项测试强调以具体性作为现实性的标志,认为越具体的事物就越贴近现实。

图11.png图1 抽象名词对物理名词的比率

该图测量了按WordNet分类法确定为“抽象”与“物理”的名词比例。

图12.png

图2 虚构作品中的上位词比较

该图测量了一个语料库中属于另一个语料库中词的上位词的百分比。上位词比下位词更抽象。由于误差条太窄,无法直观显示,因此已将其删除。

研究结果表明,以这种方式进行衡量,长篇小说与具体性之间的关系在19世纪确实发生了变化。观察19世纪上半叶的情况就会发现,与经典虚构作品和故事(tales)相比,那时长篇小说对物理对象的表达抽象程度更高,但到了下半叶,这种差异就消失了。正如瑞安·豪泽(Ryan Heuser)和龙黎克(Long Le-Khac)所言,英国小说在这一世纪中经历了价值性下降而具体性上升的过程。[33]然而,关于这一结论,有一点需要特别注意,虽然小说中的抽象性似乎在下降,但它从未低于该时期其他类型的虚构话语。相比于维多利亚时期的小说成为独一无二的具体作品,更准确的说法是,19世纪早期的长篇小说与这一时期其他类型的虚构性话语相比,其抽象程度之高是独一无二的。这表明,我们可能一直以来都误解了这个故事:对于19世纪小说而言,重要的并不是后来具体性提升、使其看起来更接近其他类型的虚构写作,而是早期的抽象性相较于其他类型的虚构写作更为突出(更不用说抽象性对于这些文本的重要性整体上仍然远远高于其物理性)。

研究的另一部分,即关于长篇小说具体程度的部分,则从另一个角度讲述了同样的故事。在19世纪上半叶,长篇小说与其他类型虚构作品的具体程度差异不大(约0.003%),而到了下半叶,小说中具体的词语比其他类型虚构作品多出约0.5%(每页约多出2个词)。[34]换句话说,小说在抽象程度上接近其他类型的虚构作品,而在具体程度上则偏离了其他类型的虚构写作。从19世纪开始,小说变得愈加抽象,而到了结尾部分则呈现出极为具体的特征。

当然,我们还可以从许多其他方面来思考小说的现实性问题。但这些初步结果表明,瓦特关于小说现实主义的论点——在此可理解为对物理性和具体性的更高追求——在第一种情况下,并非仅仅讲述一个特殊情境的故事,而是更倾向于回归到更为普遍的小说话语规范。其次,小说在展现其具体性方面确实变得出众,但其兴起的时间实际上要比传统观点所认为的晚得多。实际上,小说在18世纪末至19世纪初在数量上的崛起,似乎是以其更高的概念复杂性和概括性为标志的。与对周围世界的描写相比,小说更倾向于对抽象概念的探索和表达。[35]正如马修·埃林(Matthew Erlin)所言,小说的哲学维度是其历史的重要组成部分,而我们迄今为止都忽略了这一点。[36]学术界对现实主义小说具体化的强调,忽略了小说作为一种写作形式在历史上具有重要意义的主要方式之一,即小说的抽象性。

结论

在试图区分虚构与非虚构作品、找出虚构和长篇小说作为写作类型的独特之处时,我一直在深入探究它们更广泛的社会功能,以回答“文学为何重要”这个由来已久的问题。根据本文的研究结果,如果我们特别关注长篇小说在数量上的特质,即它们与非虚构或“真实”写作的区别,可以认为,自19世纪以来,长篇小说的重要性似乎与社会现实性无关,而更多地关乎现象学体验,是一种对世界的社会性嵌入(social embedding)。这并非长篇小说对读者产生意义的唯一方式。这涉及我在一开始就讨论的预测方法与描述方法的问题——可预测性方法可能会排除其他可能重要的可能性和特点,而描述性模型只需确定哪些特征存在差异,以及差异的程度,而无需预设特征空间的限制。量化观点的价值在于,它能使我们更好地理解特定类型的写作如何向读者传递特定的导向信号,我们可以称之为其社会定位(social positionality,这里借用布尔迪厄[Bourdieu]的概念)。这并不排除读者可以通过无数种方式找到自己理解长篇小说意义的可能。但它确实让我们能够更好地理解作为社会范畴的长篇小说。

从这个角度来看,长篇小说的虚构性之所以特别,是因为它有“相遇”(encounter)的概念和随之而来的质疑,它以一种特殊的方式将我们读者置身于世界之中。事情看起来、感觉起来就是这样,就如存在着大量的怀疑、偶然性、可能和或许一样。这些发现在两种不同的语言、两个截然不同的时间框架下,并且不管在更多还是更少,以及更经典的写作样本中都表现得很稳定。正如我们看到的,我们使用建立在19世纪经典长篇小说写作基础上的模型,仍然可以非常准确地预测现当代长篇小说的发展趋势。如果我们更仔细地观察这些特征随时间的变化,就会发现它们是如何变得愈加明显,而后最终趋于稳定的(见图3)。19世纪围绕虚构话语所确立的价值观在很大程度上随着时间的推移而保持不变,但有些特征,如对感官知觉的强调,其重要性则大大提高了。[37]

图13.png

图3 长篇小说的虚构性质(1800—2000)

1800年至2000年出版的英国小说中“怀疑”(doubt)和“感知”(perception)的比例。前者在19世纪下半叶略有上升,后者则持续上升,二战后趋于平稳。

当然,并不是所有长篇小说都是这样,也不是所有的长篇小说都以同样的方式呈现。在不同类型的小说创作中,这些虚构性的标志在多大程度上是一致的,仍然是一个悬而未决的问题。我们还可以设想另一项研究,探讨长篇小说变得高度非虚构的契机,以了解想象中的真相。我们该如何描述虚构中的非虚构,这些段落的作用又是什么?在本文开头使用的算法所误判的少数小说中,梅尔维尔(Melville)的《泰比》(Typee)和《奥穆》(Omoo)就属于这一类(但《白鲸》[Moby Dick]不在其中,这表明《白鲸》成为经典至少在一定程度上是以其虚构性为基础的),而这不会让人感到意外。但科尼利厄斯·马修斯(Cornelius Matthews)所著的《巨兽:土丘建造者的传说》(Behemoth: A Legend of theMound-Builders)也是如此,这部小说讲述的是杀死一头远古乳齿象的故事,被认为对梅尔维尔产生了重要影响。[38]我们能否不仅在这些小说中,而且在更普遍意义上的小说中,在虚构写作中,更具体地说明,语言的信息性使用——亚里士多德所说的“legein”(讲述)——究竟具有何种功能?这样的研究将为本文的观点提供一个镜像、一幅双联画,让我们能够从中清晰地看到,小说中的某些特质得以凸显。

不过,对我来说最重要的是,本文所使用的方法无法单独应用于某个段落或修辞优美的句子上。我们的小说标记、代词、感官知觉、从句语气和否定实例,遍布于成千上万行的小说文本中。每一句都略有不同。单独来看,它们并无特别之处。然而,把它们组合在一起,却向读者传达了一个强有力的信息。小说的虚构性是我们作为读者的一种感知体验,因为我们能够看到所有这些词语在页面上闪现,这些词语包括“感觉”“知道”“看到”“记得”,以及表达不确定性的词汇,如“几乎”“可能”“隐约”,还有各种形式的否定,即含有“不”的词语。这就是小说的异域空间。罗兰·巴特(Roland Barthes)曾提出这样一个问题:“这个他方在何处?”回答便是:“在语言的天堂里。”

编辑 | 姜文涛

原文信息:Andrew Piper, “Fictionality,” Journal of Cultural Analytics, Dec. 20, 2016, DOI: 10.22148/16.011.

向上滑动 查看注释

[1]感谢加拿大社会科学和人文科学研究理事会(SSHRC)对本研究的支持和资助。

[2]全面的讨论参见Käthe Hamburger, The Logic of Literature, 2nd ed., trans. Marilyn J. Rose, Bloomington:Indiana UP, 1973, p. 233;Gérard Genette, Fiction and Diction, trans. Catherine Porter, Ithaca: Cornell UP, 1993, pp. 1-29.

[3]这里需要明确区分虚构与真实之间的重要区别。本文探讨的是文本向读者表明其虚构性或真实性时所固有的特质识别问题。这与检测文本是否真实(即“测谎”意义上的真实性判断)有着本质不同。

[4]中文译文引自艾丽丝·门罗:《逃离》,李文俊译,北京:北京十月文艺出版社,2016年,第133页。出于与后文分析一致的需要,括号内补充了原中文译本中省略的动词“is”(对应词“是”)和代词“they”(对应词“她们”“他们”)。——译注

[5]尽管虚构作品的可预测性研究已取得初步且卓有成效的成果,但本文将聚焦于虚构写作的标志性特征,探讨这些特征如何揭示虚构性的本质,尤其是长篇小说的历史。参见Ted Underwood, “Understanding Genre in a Collection of a Million Volumes, Interim Report,” https://dx.doi.org/10.6084/m9.figshare.1281251.v1。

[6]Richard M. Gale, “The Fictive Use of Language,” Philosophy, vol. 66, 1971, pp. 324-340; David Lewis, “Truth in Fiction,” American Philosophical Quarterly, vol. 15, 1978, pp. 37-46; John R. Searle, “The Logical Status of Fictional Discourse,” Expression and Meaning: Studies in the Theory of Speech Acts, Cambridge: Cambridge UP, 1979, pp. 58-76; Hilary Putnam, “Is there a Fact of Matter about Fiction?” Poetics Today, vol. 4, no. 1, 1983, pp. 77-82; Benjamin Hrushovski, “Fictionality and Fields of Reference,” Poetics Today, vol. 5. no. 2, 1984, pp. 227-251; Gregory Currie, The Nature of Fiction, Cambridge: Cambridge UP, 1990.

[7]John R. Searle, “The Logical Status of Fictional Discourse,” p. 68. (中文译文引自约翰·塞尔:《虚构话语的逻辑地位》,冯庆译,《南京社会科学》2012年第6期,第145页。——译注)一切皆取决于塞尔对“一串话语”这一概念的区分——而这一区分本身亦构成一串话语。

[8]Maurice Blanchot and Jacques Derrida, The Instant of My Death, Demeure: Fiction and Testimony, Stanford: Stanford UP, 2000, p. 28.

[9]Stanley Fish, Is There a Text in This Class? The Authority of Interpretive Communities, Cambridge: Harvard UP, 1982.

[10]此观点绝非过时之论,它如今正以“后经典”叙事学的形态在学界重演——该学派主张,虚构叙事与非虚构叙事之间不存在本质性区隔特征。受心智理论新近研究成果的驱动,其关注焦点已从文本的独特性转向处理文本的认知机制,并假定这种机制普遍存在于各类叙事之中。而本文将说明,虚构与非虚构叙事不仅存在显著差异,而且这种差异主要是源于对感官感知(即具身体验)的高度关注,这使得将认知框架作为叙事研究的基础范式问题重重。关于后经典叙事学的立场,参见J. Alber and M. Fludernik, eds., PostclassicalNarratology, Columbus: Ohio State UP, 2010。这类新的研究主要是为了回应多里特·科恩(Dorrit Cohn)以及更早的凯绥·汉伯格(Käthe Hamburger)的“经典”叙事研究。Dorrit Cohn, The Distinction of Fiction, Baltimore: JHU Press, 1999; Käthe Hamburger, The Logic of Literature, Bloomington: Indiana UP, 1973.

[11]或有必要对此观点稍加阐发。语言哲学家们执着于这样一种理念:对于任何特定话语而言,并不存在能绝对判定其真实性的决定性特征。以前文段落中的句子为例——“站在那里的一个妇女认出了她,两人便聊了起来”——我们无法从字面本身明确判断其真伪,无从确证其所指涉的是现实世界真实发生的事件,抑或纯属虚构场景。然而,当我们将语言置于整体语境中观照时,其意向指涉性便开始显现。这恰如斯坦利·卡维尔(Stanley Cavell)常指出的,这类情形暴露出哲学家们建构的例证往往因过度简化而丧失了解释现实世界的效力。

[12]“虚构性”的多样化程度仍是一个悬而未决的问题,泰德·安德伍德(Ted Underwood)的研究准确地处理了文体的稳定性这一观念,而马克·阿尔吉-休伊特(Mark Algee-Hewitt)等的研究处理了19世纪之前虚构叙事的异质性问题。参见Ted Underwood, “The Life Cycles of Genres,” CA: Journal ofCultural Analytics; Mark Algee ‐ Hewitt, Laura Eidem, Ryan Heuser, Anita Law, and Tanya Llewellyn, NovelTaxonomies: Prehistories of Genre in the Eighteenth Century, CA (即将出版)。(从作者信息等方面判断,此文后来发表于斯坦福大学文本实验室的系列项目里面,题目略有差异,参见https://litlab.stanford.edu/projects/taxonomy-titles-18c/。——译注)在非计算的研究中,托马斯·帕维尔(Thomas Pavel)认为19至20世纪长篇小说的统一是一个有意为之的审美概念,意在与现代早期的子文体优先序次问题形成对照。“现代早期的叙事文化强调子文体之间的差异,而长篇小说后来的形态则是融合这些子文体的多种尝试的结果。”参见Thomas Pavel, The Lives of the Novel: A History, Princeton: Princeton UP, 2015, p.10。

[13]这一观点关注到多里特·科恩早期在计算研究之前所相信的“只有当虚构将聚焦潜能实现时,才能被明确识别为虚构”。Dorrit Cohn, The Distinction of Fiction, p. 25.

[14]在此,我发现我的这些结论与“可能世界理论”(possible worlds theory)高度一致,这一理论在1990年代很有影响力。参见Thomas Pavel, Fictional Worlds, Cambridge: Harvard UP, 1989; Marie Laure-Ryan, Possible Worlds, Artificial Intelligence, and Narrative Theory, Bloomington: Indiana UP, 1992; Ruth Ronen, Possible Worlds in Literary Theory, Cambridge: Cambridge UP, 1994。这也支持了约翰·班德(John Bender)更晚近的新历史研究,他的研究强调18世纪长篇小说的兴起与科学实验的关系。参见John Bender, Ends of Enlightenment, Stanford: Stanford UP, 2012。

[15]正如凯瑟琳·加拉格尔写道:“如果一种文体可以被认为是具有态度的,那么小说对其虚构性似乎持有矛盾的态度——既把它发明为本体论基础,又对它施加了严格的限制。”参见Catherine Gallagher, “The Rise of Fictionality,” The Novel, vol. 1, ed. Franco Moretti, Princeton: Princeton UP, 2006, pp. 336-363; Elaine Freedgood, “Denotatively, Technically, Literally,” Representations 125, Winter, 2014, pp. 1-14; Frances Ferguson, “Now It’ s Personal: D.A. Miller and Too-Close-Reading,” Critical Inquiry 41, Spring, 2015, p. 527; Ian Watt, The Rise of the Novel: Studies in Defoe, Richardson, and Fielding, Berkeley: California UP, 2001。需要补充说明的是,弗里德古德对小说技术性词汇重要性的强调绝非规范性的;她只是希望我们关注这一被忽视的维度,因为它拓展了阅读研究的史料范围。正如我将在本文结尾所展示的,对小说内部事实性的关注是计算方法非常适合解决的问题。同样值得注意的是,这些学术观点所关注的时间范围都比我在此探讨的时间框架要早,但它们的时间框架仍然构成了更广泛的长篇小说(用迈克尔·麦基恩(Michael McKeon)的话说,就是“我们的那种小说”[our kind of fiction])的规范性论述的基础。一个悬而未决的问题是,这些虚构性的模糊性或强化的指涉性感知之所以呈现出如此面貌,是否与17世纪小说中发生的事情有关,也就是说,这些论点是否基于17、18世纪之交发生的另一种转变,而这种转变到19世纪已不再起作用。

[16]更充分的讨论和预测模型的运用,参见Ted Underwood, “The Life Cycles of Genre”。

[17]虚构与非虚构的划分来自泰德·安德伍德的文献数据集。所有的重复题名都已剔除,所有在文体或题名域中有“essays”“tales”“scenes”“stories”词干的文档都已剔除,所保留的作品均为有89%或更高的概率其内容80%以上篇幅属虚构。

[18]与此前.txtLAB网站的19世纪文献集类似,本文涉及的文档都代表了近十年间虚构与非虚构作品的典范样本——这意味着它们都通过了某种筛选机制:无论是入选《纽约时报书评》、入围文学奖项提名,还是出现在亚马逊网站或《纽约时报》等多种畅销书榜单。对于该数据集更为详细的说明,以及围绕长篇小说的当代社会价值形态的揭示,参见Andrew Piper and Eva Portelance, “How Cultural Capital Works:Prizewinning Novels, Bestsellers, and the Time of Reading”。

[19]如对研究LIWC使用的词典感兴趣,可参阅其语言手册,http://www.liwc.net/LIWC2007LanguageManual.pdf。

[20]参见Yla R. Tausczik and James W. Pennebaker, “LIWC and Computerized Text Analysis Methods,” Journal of Language and Social Psychology, vol. 29, no. 1, 2010, pp. 24-54。

[21]有关词典驱动研究的周详而实用的综述,参见H. A. Schwartz, J. C. Eichstaedt, L. Dziurzynski, M. L. Kern, E. Blanco, S. Ramones, M. E. P. Seligman, and L. H. Ungar, “Choosing the Right Words: Characterizing and Reducing Error of the Word Count Approach,” in Proceedings of SEM-2013: Second Joint Conference onLexical and Computational Semantics, Atlanta, Georgia, USA, 2013, pp. 296-305。有关文本分析的词典与机器学习方法的对比,参见Andrew Piper and Eva Portelance, “How Cultural Capital Works”。

[22]有关建模和计算阐释学,参见Andrew Piper, “Novel Devotions: Conversional Reading, Computational Modeling and the Modern Novel,” New Literary History, vol. 46, no. 1, 2015, pp. 63-98。

[23]本研究使用R语言中的kernlab程序包,所有分析均采用高斯核函数(“rbfdot”)。关于机器学习,有一篇有用的导论文章:Brett Lantz, Machine Learning with R, Birmingham, UK: Packt, 2013。

[24]完全可以推翻这一假设,优先考虑总体上更普遍的特征,这在评估单个词语时很有价值。单个词汇的使用频率可能很低,因此偏好使用数量较多的词汇可以确保找到更多“重要”或“相关”的词汇,即随机词汇较少。关键的一点是,结果是由模型中使用的初始假设决定的。

[25]除了删除对话,有关交流的200个动词及其前后紧挨着出现的人称代词(I said, said she等)也被从文中删除了。

[26]通过R语言中的NLP程序包分析发现,小说文本中平均提及的人名数量为10.58个,而历史类著作中这一数值则达到23.94个。

[27]Lisa Zunshine, Why We Read Fiction: Theory of Mind and the Novel, Columbus: Ohio State UP, 2006.

[28]Ted Underwood, “The Life Cycles of Genres,” Journal of Cultural Analytics, Vol. 2, no. 2, 2016.

[29]这种随着时间推移而演变的“虚构作品/长篇小说”的区别,将在当代长篇小说的文体区分中再次显现,因为它与社会价值息息相关。当前畅销书与获奖小说之间最显著的差异特征之一,便体现在对怀旧与回溯(retrospection)这一特征的处理上。参见Piper and Portelance, “How Cultural Capital Works”。

[30]这一观察与马修·埃林(Matthew Erlin)有关小说叙事的哲学维度的论述一致。参见 Matthew Erlin,“From the Philosophical to the Epistemic Novel?” CA: Journal of Cultural Analytics (即将出版)。(原文如此,译者并未找到这篇文章。——译注)

[31]如果仅以这四项特征作为分类依据,分类结果的准确率将显著高于随机选取四项特征的平均水平。不过需要说明的是,该准确率仍远低于使用全部80项特征时的表现,且存在其他特征组合能够实现略优的效果。在这些表现更佳的特征组合中,出现频率最高的是现在时动词和感官知觉类别——这也印证了前文关于小说文本独特性的其他讨论。具体数据如下:使用全部四项特征的准确率为76%,表达认知推诿的特征准确率为63.4%,而随机选取四项特征的准确率(基于100次试验)为60.8%±3.8%。

[32]这些小说首先使用R语言中的openNLP工具包进行文本处理,仅保留名词,然后再用Python脚本hypernyms_ReturnTopClass.py处理后的文本进行转录。

[33]Ryan Heuser and Long Le-Khac, “A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method,” Stanford Literary Lab Pamphlet 4, http://litlab.stanford.edu/LiteraryLabPamphlet4.pdf.

[34]这里的p值极低,原因之一是观测数据的数量较多。在比较各组中每篇小说和其他所有小说时,我们得到了超过13,000个观测值。在这种情况下,即使是微小的差异也会显得很重要。因而,实际差异从0.003%变为0.5%。

[35]将小说的抽象性视为其早期独特性关键的观点,为我们反思现实主义假说提供了一条有别于韦恩·布斯(Wayne C. Booth)的思路。在布斯看来,长篇小说(或者他所说的“优秀的”长篇小说)的价值在于对戏剧性张力的关注,而非现实主义呈现。他说道:“对现实主义的兴趣并不是一种可证实或证伪的‘理论’,甚至也不是多种理论的组合;它只是一个时代人们最深切关怀的表达。”这种观点将我们引向更接近马修·乔克斯(Matthew Jockers)著作精神的情节弧线理论——情感强度如韵律般起伏波动的叙事结构。参见Wayne C. Booth, The Rhetoric of Fiction, Chicago UP, 1983, p. 63。

[36]Matthew Erlin, “From the Philosophical to the Epistemic Novel?” CA: Journal of Cultural Analytics(即将出版)。(原文如此,译者未找到这篇文章。——译注)

[37]进一步分析表明,这一增长主要是由于对“地点”(site)这类词的依赖。而其他大多数词则保持不变。更多的研究可以揭示这种明显的偏差对虚构的影响。

[38]Curtis Dahl, “Moby Dick's Cousin Behemoth,” American Literature, vol. 31, no. 1, 1959, pp. 21-29.

点击下方链接,下载原文

虚构性.docx

如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

校对  |   肖爽

美编  |  王秀梅

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

《人民日报》 |  刘石:人工智能时代,立住人的主体性

2026年5月14日 09:59

2026-05-14 09:59 北京

《人民日报》 | 刘石:人工智能时代,立住人的主体性

图片

编者按:2026年5月9日《人民日报》发表清华大学人文学院院长刘石《人工智能时代,立住人的主体性》一文。这是刘石教授2026年4月18日在“传统赓续与时代书写:2026年清华大学人文学院博士生学术论坛暨清华大学第816期博士生学术论坛”开幕式上的致辞,原题为《正确认知自我这个主体与AI这个客体之间的关系》,《人民日报》发表时略有删节。

图片

我查了下这一周手机里的各种信息,有一二十条有关AI(人工智能)的信息,平均一天差不多有三条。

对于AI领域的核心技术,呈万箭齐发态势的各类大模型,在人文领域,我们听见两种不同的声音。一种是大模型有用吗?我怎么觉得它不仅离道的层面很远,就是在器的层面功能也很不完善?还有一种是,大模型确实太了不得,无所不能,因此副作用也随之而来:学生不用学习了,教师难以教学了。这是两种相反的认识,但奏响的都是唱衰大模型和AI的乐章。这两种认识,我觉得都值得商榷。

首先,大模型没那么弱,觉得它没用,很大的原因可能是你没有掌握使用的技巧,没下过正确训练的功夫,没有使用真正厉害的那款大模型。我们一定不要对它轻下无用的判决。其次,大模型确实也没强到绝杀万物、唯我独尊,至少它不会比人聪明,何以见得?人能发明它,它不能发明人。人会主宰它,而不是反过来,除非人愿意将主宰权拱手相让。因此,我们一定不要被它吓倒。

最近密集的AI信息中,最耸人听闻的一篇题目是“课堂已死”。就是说,有了大模型,学生不用学习了,凡事依赖大模型,大模型成了懒人宝典;有了大模型,教师没法教了,因为教不过大模型。

大模型强吗?学生为什么不能利用它,为什么用大模型就叫不爱学习,甚至叫不学习?有没有不爱学习的学生?当然有,大模型时代之前就有,这怨不得大模型。大模型强吗?如果真强到优于教师,那教师就理应被取代,为什么不?所以为那些已经开始为自己的饭碗担忧的同行们提一个建设性思路,大模型如果能倒逼着我们致力于提升自我,塑造出一个更新的自我,重新赢得学生的青睐,不是好事吗?

倒是在自我与AI间,如何认识和处理两者的关系,是关键。

有一种观点,认为AI技术带来了非专业和专业的知识平权。这里我想引用一段理想汽车创始人李想说的话。他说大部分领域,顶级专家使用AI的杠杆价值,远远高于普通人使用AI。指望AI抹平专业差距,纯属做梦。非AI时代,普通人和顶级专家的差距是100倍,AI时代,这个差距可能会扩大到1万倍。AI和Agent(智能体)会成为一面放大镜,把人与人之间专业能力的差距,放大给人看。

确实,很多人以为,有了AI,大家就站在同一起跑线上了,专业不专业无所谓了,反正AI都能帮你完成。这个想法,恰恰是危险的误解。

对于学生来说,AI能帮你写作,也能帮别人写作,所以,你能不能向它提出别人提不出的问题,让它写出跟别人让它写的不一样的东西,能不能在它写错的时候发现它的错,能不能判断它写得好不好,能不能用它生成的东西做出真正有价值的研究就很关键,而这些,全部依赖于你自己的专业基础。对人文社科领域的学生来说,尤其值得自省的是,我们这个领域最核心的训练是什么?是问题意识,是分析能力,是批判性思维,是三观,是对人类经验真实、独到和深刻的理解。这些东西,AI给不了你,只能靠你自己一页一页、一本一本地读书、思考和积累。对于教师来说同样,假设你真的是有专业水准的学者,而且你依然在持续致力于专业水准的不断提升,同时你还是一个有思想、情感、温度、修养,一颦一笑间尽显品位和人格魅力的教师,AI又如何能取代你呢?

也许我们还可以这样说,AI是放大器,放大的是你已经拥有的东西。你的专业越扎实,你使用AI才越像老虎添上了翅膀,AI在你手里的杠杆就越长。没有这个底子,AI不过是帮你更快地生产出一堆看起来像模像样、实则一无可取的东西。关键是,即使是有价值的东西,因为不是基于你专业基础的所思所得,也难以内化于你的内心和头脑,融汇成你自己学识涵养的一部分。

总之,古人说,工欲善其事,必先利其器。我们很幸运,赶上了AI这个科技加速时代带给我们的利器,我们不拥抱它不利用它是不明智的。但请记住,它再是利器,也只是你的工具,不是你的主人。我们得先把自己这个“人”的主体性立住了,才谈得上其他。

图片

来源:《人民日报》2026年5月9日第8版

转载自“清华文科”公众号

阅读原文

跳转微信打开

报名开启 | 第四届语料库与数字人文暑期学院(2号通知)

2026年5月14日 09:59

2026-05-14 09:59 北京

暑校报名5月5日开始,5月15日截止,线上线下免费学习!

第四届语料库与

数字人文暑期学院

— 2号通知 —

CDHSUMMER2026

随大数据与人工智能技术的发展,语言、文学、历史等人文研究都越来越多地引入了计算技术。人文学科与计算技术的交叉研究,关键在于基于语料库的人文大数据构建、计量和大语言模型的应用。

为推动计算语言学与数字人文的学科建设与人才培养,南京师范大学联合北师港浸大、澳门大学、香港科技大学、南京农业大学五校,于2026年7月25日-8月4日(共11天),通过线上线下结合的形式举办语料库与数字人文暑期学院,包括讲习班实训和讲座论坛两大部分。

01

报名链接

扫描上方二维码即可进行报名

02

各班概况

01

A班:数据库编程讲习班

  • 以《全唐诗》为例,教习人文语料库构建技术与交互式检索网站开发方法,实现文史数据的结构化存储与动态展示。

  • 主讲:李斌(南京师范大学)

  • 设备要求:需准备16G内存以上的Windows 10/11笔记本电脑

  • 详细课程大纲:

第一讲:课程简介与软件安装

第二讲:数据表的构建

第三讲:数据库的查询

第四讲:PHP程序设计

第五讲:字符编码

第六讲:字符串处理

第七讲:交互式网站搭建

第八讲:本地小模型优化

02

B班:语言统计方法讲习班

  • 聚焦语料库计量分析,系统讲授基于SPSS的统计基础、参数检验、非参数检验、聚类分析、相关分析、卡方检验、多元线性回归及逻辑回归等核心方法,帮助学员掌握语言研究中的定量分析技能与统计报告生成能力。

  • 主讲:沈威(华中师范大学)

  • 设备要求:需准备安装有SPSS 27.0及以上版本的Windows/Mac笔记本电脑

  • 详细课程大纲:

第一讲:统计基础与SPSS安装实操

第二讲:常见的参数检验

第三讲:常见的非参数检验

第四讲:聚类分析

第五讲:相关分析

第六讲:卡方检验

第七讲:多元线性回归

第八讲:逻辑回归

03

C班:大模型编程讲习班

  • 掌握大语言模型基础原理与人文场景落地技术,能够独立开发面向文史研究的大模型应用。

  • 主讲:王东波、刘浏(南京农业大学)

  • 设备要求:需准备性能较好的Windows/Mac笔记本电脑(推荐16G以上内存)

  • 详细课程大纲:

第一讲 大语言模型基础

第二讲 基础模型和推理模型

第三讲 提示工程

第四讲 继续预训练和监督微调

第五讲 强化学习

第六讲 大模型的部属

第七讲 检索增强生成

第八讲 AI Agents

  • 招生要求:具备基础Python编程能力,对大语言模型有基础认知。

03

专家讲座与配套活动

01

系列讲座

邀请20位领域顶尖学者,开设20场讲座,覆盖理论前沿、技术方法与应用实践,每日上午线上线下同步直播。

 特邀讲座和论坛嘉宾 

新疆大学 冯志伟教授

澳门大学 袁毓林教授

香港理工大学 黄居仁教授

中国社科院民族所 龙从军研究员

中国社科院语言所 张永伟研究员

北京大学 苏祺研究员

北京大学 朱本军研究员

华中科技大学 唐旭日教授

同济大学 王昊奋教授

南京大学 黄书剑教授

南京农业大学 王东波教授

南京师范大学 李斌教授

北京师范大学 胡韧奋副教授

中国人民大学 卢达威副教授

北京语言大学 饶高琦副研究员

华中师范大学 沈威副教授

中国传媒大学 王璐璐副教授

江南大学 王萌副教授

(持续邀约中)

02

主题圆桌论坛

设置2场专题Panel,围绕「LLM时代人文学科的理论重构」「语言学与数字人文的未来」展开深度对话,开放学员提问与交流环节。

03

文化考察与学术研讨

每日下午安排南京及周边特色人文考察与分组学术研讨,线下学员可全程参与。

04

成果展示与颁奖

闭幕式设置优秀成果汇报环节,邀请专家现场点评,为优秀学员颁发证书。

04

招生与报名规则

01

招生规模 

本次暑期学院计划录取线下学员120人,线上学员80-100人,总计不超过240人。其中主办五校(南师大、北师港浸大、澳大、香港科技大学、南农大)学员录取不超过 60 人,其他单位学员录取不超过 180 人。

02

面向对象

全国高校及科研院所数字人文、计算语言学、语料库语言学、中国语言文学、历史学、文献学、考古学、新闻传播学等相关学科的本科生、研究生,以及青年教师、科研人员。

03

分班报名要求

学员仅可选择1个平行讲习班进行报名,不可兼报,各班报名要求如下:

  • 数据库编程讲习班:面向零基础或编程初学者,具备大学英语四级及以上水平即可报名,已具备计算机相关专业背景者请勿申请。

  • 语言统计方法讲习班:具备基础的文本分析认知,对语料库计量分析有学习需求,已具备统计学/计算机专业背景者请勿申请。

  • Python大模型编程讲习班:具备基础的Python编程能力,对大语言模型有基础认知,尚未掌握人文场景大模型开发与应用技术,已具备计算机相关专业背景者请勿申请。

04

报名方式

  • 报名时间:官方报名通道将于2026年5月5日正式开启,2026年5月15日截止报名,报名二维码及链接将在官方公众号同步发布。

  • 报名材料:申请人需填写报名表单,并上传个人简历、研究基础与学习目标说明,主办方将根据报名材料进行择优录取。

  • 录取通知:最终录取结果将于2026年6月1日前通过邮件及官方公众号推送,录取学员需签署上课承诺书,承诺全程参与课程学习、按时提交作业,报名成功后无特殊原因不得中途退课、不得更换报名班级。

05

结课与考核方式

本次暑期学院以独立完成的人文研究成果为核心考核目标,具体要求如下:

  • 数据库编程讲习班:独立构建专属人文数据库与交互式检索网站。

  • 语言统计方法讲习班:完成基于语料库的人文研究计量分析报告。

  • Python大模型编程讲习班:完成面向人文研究场景的大模型应用开发。

学员成果将在闭幕式进行集中汇报,邀请领域专家进行现场点评与指导;完成全部课程学习、通过成果考核的学员,将颁发暑期学院结业证书,优秀成果将授予优秀学员证书。

05

组织架构

(以下各项排名不分先后)

 主办单位 

南京师范大学文学院

联合主办单位

澳门大学人文学院

香港科技大学人文学部

北师香港浸会大学人文社科学院

南京农业大学信息管理学院

特约支持单位

中国社科院民族所民族语言文化行为实验室

 协办组织/单位 

中国民族语言学会语言资源与计算人文专委会

中国人工智能学会语言智能专委会

江苏省人工智能学会自然语言处理专委会

江苏省修辞学会

数字人文专业发展联盟

浙江大学文学院

 出版与媒体支

科学出版社

高等教育出版社

中华书局古联公司

外语教学与研究出版社

南京大学出版社

南京师范大学出版社

汉语堂公众号

语言服务公众号

比特人文公众号

扫码关注公众号,

获取报名通道、课程更新、嘉宾资讯等更多内容

相关链接:

第四届语料库与数字人文暑期学院(1号通知)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

会议议程 | 人工智能时代的文学计算研究工作坊

2026年5月9日 13:27

2026-05-09 13:27 北京

时间:2026年5月16日(周六)9:00—17:00地点:重庆大学沙坪坝校区A校园博雅书院报告厅

以下文章来源于重庆大学文字斋

人工智能时代的文学计算研究工作坊

人工智能技术的飞速发展正在深刻重塑人文学科的研究范式与问题意识。在文学研究领域,“计算”不再仅仅是数据处理的工具,而逐渐成为一种介入文本解读、批评实践与理论建构的新思维。计算思维如何为经典文本解读、文学史书写及批评理论创新提供新路径?数字人文教育又该如何回应“新文科”建设的时代要求?诸多问题都亟待深入探讨。

为此,重庆大学人文社会科学高等研究院将于2026年5月16日举办“人工智能时代的文学计算研究工作坊”。期待通过这场小规模、高密度的学术对话,推动文学计算批评这个新兴领域的理论创新与方法自觉,为相关领域的探索者提供一个开放、共创的交流平台。会议的具体安排如下。

时间:

2026年5月16日(周六)

9:00—17:00

地点:

重庆大学沙坪坝校区A校园博雅书院报告厅

召集人:

刘洋(重庆大学中文系副教授)

主办:

重庆大学人文社会科学高等研究院&博雅学院

承办:

重庆大学中文系、重庆大学科幻文学与科技人文研究中心

会议议程

一、开幕致辞(9:00 - 9:15)

李广益(重庆大学人文社会科学高等研究院执行院长、教授 )

刘洋(会议召集人,重庆大学中文系副教授)

二、集体合影(9:15 - 9:30)

三、会议报告第一场(9:40 – 11:40)

主持人:江晖(中山大学)   

评议人:赵薇(中国社会科学院)

李飞跃(清华大学):数字人文研究的实验传统与方法

战玉冰(复旦大学):数字人文研究中的“主观性”与“主体性”

陈涛(中国人民大学):数字人文视域下的电影色彩研究:范式转型与实践困境

刘洋,韩笑(重庆大学):“只赛博,不朋克”:对中国赛博朋克小说的情感计算研究

四、午餐(新华园餐厅)

      午休(11:40 – 13:40)

五、会议报告第二场(13:40 – 15:10)

主持人:姜振宇(四川大学)   

评议人:刘洋(重庆大学)

许秋斌(南方科技大学):大语言模型创意写作评测基准的现状与未来展望

耿弘明(清华大学):大语言模型文学计算的可解释性:双向反事实解释的可能

江晖(中山大学):文学计算的“黑箱”问题:深度学习模型应用于风格识别的机制初探

六、会议报告第三场(15:20 – 16:50)

主持人:战玉冰(复旦大学)   

评议人:陈涛(中国人民大学)

赵薇(中国社会科学院):计算建模与量化形式研究

姜振宇(四川大学):从“计算审美”到“培养模式”:一项文科实验室的跨学科项目实践反思

吉云飞(中山大学):以计算批评应对算法推荐——以番茄小说为中心

七、会议闭幕(16:50 – 17:00)

报告文章摘要

数字人文视域下的电影色彩研究:范式转型与实践困境

陈涛

在数字人文视域下,电影色彩研究正经历从主观解读到量化分析的范式转型。相较于传统电影色彩在形式主义、符号学、精神分析和文化研究方面的研究路径,以计量分析和可视化呈现为核心特征的数字人文电影色彩研究发挥了数字工具的“色彩透镜”作用,从而推动电影研究技术史、美学史与接受史的三维整合。从“遥观”的角度来说,目前电影色彩的研究工具主要呈现为基于电影文本形式的内部大数据和可视化电影色彩两种。而相对于RGB模型,HSV色彩模型提供了更适合人文学者研究的空间路径,并通过不同属性的对比特征与空间分布,来呈现色彩的语义关联与象征体系,令我们更好地揭示技术与风格的互动关系,并构建起多层级分析框架,打通色彩的微观、中观与宏观研究。与此同时,我们要避免技术工具从“精确性”到“过度简化”的局限性,警惕数据质量和语境缺失带来的危害,并提倡“色-声-触”的跨模态验证。

数字人文研究的实验传统与方法

李飞跃

实验是在悬置和控制条件下观测现象、验证假设,构建可重复检验的知识生产链。数字人文在理想条件下探究变量之间的因果关系,正让人文研究经历“从开放思辨到闭环实验”的范式迁移。随着文本工具的广泛使用,超经验的知识秩序正在浮现。考察古典文献的实证传统、近代人文的实验主义探索,有助于明确数字人文研究的核心理念与方法,并借以重审一些重要的传统人文命题。

“只赛博,不朋克”:对中国赛博朋克小说的情感计算研究

刘洋,韩笑

“只赛博,不朋克”是对中国赛博朋克小说的经典论断,但其情感基础尚缺乏系统的实证检验。采用基于词典的情感计算方法,构建21维情感向量,可以对105篇中国赛博朋克短篇小说与105篇西方经典赛博朋克短篇小说进行系统性比较。通过主成分分析与独立样本t检验,研究发现两组文本在情感分布上存在显著差异:中国赛博朋克小说在“赞扬”与“快乐”两类积极情绪上强度显著更高,而“憎恶”“贬责”等消极情绪显著更低,整体呈现明确的乐观偏好。研究进一步发现,这一情感模式与1990年代以来电脑游戏文化的深度渗透密切相关,游戏经验为赛博空间赋予了探索、成长与社交的积极意义。

大语言模型创意写作评测基准的现状与未来展望

许秋斌

本分享聚焦大语言模型在创意写作领域的评测基准,从短篇生成、长篇叙事到多维创造力评估,逐一梳理各类benchmark 的演进。讨论重点包括:评测指标如何从语言流畅性转向新颖性、多样性、一致性与人类偏好对齐,以及自动评价方法的局限和评审可靠性问题。最后展望创意写作评测的几个发展方向——从单一结果打分,转向多维、过程化、多模态。

计算建模与量化形式研究

赵薇

量化形式主义仍是一个未竟的议题。莫莱蒂的“远读”虽融合了形式主义传统与马克思主义的社会学视角,推动了文学概念的可操作化测量,但大多停留于中观尺度的描述性统计,缺乏检验与反思环节。本发言以数字人文与计算批评实验室近年来的工作为中心,介绍机器学习建模在现代汉诗节奏观念重构、语词分布模型在20世纪美国小说生态批评话语跨文类演变研究中的功用,兼及民国文类与文献计量等方面的建设实践,旨在探讨如何将计算建模系统性地嵌入“假设—验证”的实验设计,实现文学命题的推理与论证,从纯形式的演化中发掘文化意识形态内涵,揭示形式变迁的历史动因。

文学计算的“黑箱”问题:深度学习模型应用于风格识别的机制初探

江晖

深度学习在文学风格识别领域展现出潜力,但其判断逻辑的不透明已成为数字人文研究方法论层面的核心难题。即关于模型所依据的语言信息仍然缺乏有效的解释路径,这不仅制约了对模型判断的信任,也阻碍了对风格内涵本身的深层理解。本研究基于前期的实验基础,对风格判别的可能依据进行拆解性考察,目前的结果更多指向了问题的复杂性。这一探索过程本身,为数字人文领域应对计算方法的“黑箱”困境提出了有待深化的问题。

数字人文研究中的“主观性”与“主体性”

战玉冰

本报告一方面以本人曾经尝试过的数字人文个案研究——关于网络小说的空间地理统计——为反思对象,重点关注其中存在的1数据源的信度和效度问题、2数字人文研究方法背后所隐含的“主观性”问题。特别是第二点,其直接关系到“数字人文”研究方法究竟能否生产“新知识”,抑或仅是在印证“旧结论”这一根本性争议。另一方面,将以程小青《霍桑探案》系列小说的城市空间书写与现实中的地理单元分布为研究对象,尝试融合传统文本细读与计算批评方法,探索如何将研究过程中不可避免的“主观性”转化为具有生产潜能的“主体性”。

以计算批评应对算法推荐——以番茄小说为中心

吉云飞

抖音集团旗下的番茄小说凭借移植于抖音的推荐算法,已拥有超两亿月活跃用户,是最大的网络文学平台。当算法推荐成为网络文学推荐机制的主要组成部分,计算批评便同样应该成为网络文学批评的必备武器。本报告将讨论建立一种适配于算法推荐的计算批评的必要性与可能性,主要关于它的问题域、操作方法与限度。

“计算审美”到“培养模式”:一项文科实验室的跨学科项目实践反思

姜振宇

在人工智能与文学研究交叉的背景下,文科实验室如何定位自身价值、如何培养适应跨学科需求的人才,成为亟待探索的议题。本文以四川大学中华文化传承与全球传播数字融合实验室的一项具体研究——“科幻审美计算”项目为例,反思一次“成果有限”的探索如何转化为人才培养的宝贵经验。该项目尝试将科幻文学中的审美问题转化为可计算对象,通过自建关键词强度表、赫斯特指数和双重固定效应模型,分析科技名词在文本中的融入程度。虽然模型未能直接“解决”科幻审美难题,但项目执行过程中,团队逐步摸索出一套“项目驱动型跨学科培养模式”:包括多背景学生的协同分工、从问题提出到模型迭代的完整流程设计、以及学术产出与教学目标的平衡策略。本文认为,文科实验室的核心价值不仅在于产出高质量研究成果,更在于为数字人文领域培养“既能提问、又能动手”的复合型人才。这一经验或可为同类实验室的建设与跨学科教学提供参考。

大语言模型文学计算的可解释性:双向反事实解释的可能

耿弘明

理解文学大模型生成文本的逻辑,需要融合计算分析与人文批评两种视角。传统可解释性AI方法,如LIME和SHAP,为我们提供了基础工具。然而,这种归因停留在统计层面。为此,我们引入文学批评中的细读法与的“推敲”传统等。将这种方法论应用于提示词工程,需要从“主题指令”转向“机制指令”。

更富启发性的路径,是第二种思路,对模型进行“反事实”的文学能力推演。如果改变模型的“文学经历和记忆”,它的“文风”会如何系统性改变? 例如,如果在大模型训练过程中,完全剔除了以“含蓄蕴藉”著称的晚唐李商隐的全部诗歌,那么,与完整训练的版本相比会出现何种“退化”或“转移”。最终,有意义的结合在于为计算特征赋予文学阐释。期待这种跨学科的对话,对我们能够描绘出大模型内部那座由海量文本构建的、复杂而有序的“文学记忆宫殿”的有所贡献。

海报 | 周雅婕

审核 | 刘洋、张可心、唐杰

编辑 | 郑晓

阅读原文

跳转微信打开

迈向AI时代:数字人文基础设施的先锋之路 ——刘炜先生访谈录

2026年5月8日 10:01

原创 刘炜  赵薇 2026-05-08 10:01 北京

数字人文这个领域概念太多,含义太多,我并不认为我们所做的事情就一定处于核心地带,只是由于数字人文非常需要文化遗产、历史文献这些方面的内容和数据,促使我们参与其中。

DHer 访谈

2.png

刘炜 赵薇

受访人简介:

刘炜,计算机软件与理论博士,上海社会科学院信息研究所所长、研究员,上海大学博士生导师,兼任中国科技情报学会和中国索引学会副理事长。曾任上海图书馆副馆长、上海科学技术情报研究所副所长,曾获上海市科技进步奖一等奖和上海市领军人才称号。长期从事智慧图书馆、数字人文研究,作为“数图笔记”公众号主理人,致力于前沿技术的应用研究和普及。

采访人简介:

赵薇,中国社会科学院文学研究所副研究员,数字信息研究室、数字人文与计算批评实验室负责人。

整理人简介:康吉赢,清华大学人文学院博士生

访谈地点:上海图书馆西宾馆

访谈时间:2024年11月11日

赵薇刘馆好,我大概从2019年开始注意到您的研究和工作,您是目前中文图书情报与信息管理领域发表数字人文论文被引次数最高的学者之一,可以说是领军人物。我注意到,在每一个数字人文发展的关键节点,比如数字图书馆、数字人文、去中心化网络、Web3.0,还有现在所谓AI与人文,您都站在风口上,扮演了弄潮儿的角色。我想请您谈谈,您是如何做到这一点的?也请您谈谈您的数字人文之路。

刘炜:首先非常感谢你们选择我来做访谈。我觉得其实赵老师你们做的很多研究都很有意义,在数字人文界是非常扎实、前沿的团队,我很敬佩。这个问题对我来说很自然,因为我们这个行业和数字人文实际上是自然而然就走到一起了。

当然,数字人文这个领域概念太多,含义太多,我并不认为我们所做的事情就一定处于核心地带,只是由于数字人文非常需要文化遗产、历史文献这些方面的内容和数据,促使我们参与其中。而且,由于数字人文整体来说还是处于初期阶段,我们这方面的工作比重比较大,也很重要。在向数字世界迁移的过程中,现在大量研究人员还是数字移民,而不是数字原住民。如果现在不抓紧时间把人文学者所需要的数据基础及时迁移,那么传统以非数字载体为主的知识世界很可能就会被边缘化,这样未来的人文发展可能会出现断层。实际上,东亚有些非英语地区的人文研究,已经呈现这样的问题。像现在的大语言模型,对东亚语言和少数族裔文化其实是不利的。因此,数字化这一进程必须持续推进。

我一直在上海图书馆从事数字化工作。这个行业从20世纪90年代开始提出数字图书馆,我们就在做这件事,主要是要把这个行业带入数字时代,可以说是“歪打正着”。我大概在2012、2013年的时候开始关注到数字人文概念。2014年我们开了一个会,当时很关注语义技术。数字化一开始是扫描,后来做OCR。当时语义技术蓬勃发展,关联数据、RDF[1]——国外W3C[2]提出的这一套方法,我们觉得非常好,把传统资源数字化,可以更好地基于内容揭示关系,并把很多关系以更规范的方式呈现。这样学者在使用时,就能直接处理知识,而不是被大量杂乱无章的噪声干扰。虽然当时没有更好的技术,但我们认为这条路是必不可少的,因此组织了一个关于“语义技术与数字人文”的会。后来技术不断发展。我们机构对科技资料也非常关注。科技资料本身产生于先进的科研机构,具有高经济价值,各国都高度重视科技文献、科技知识的交流,基本上,IT技术一产生就直接应用到这个领域了。为此,我们订购了很多数据库、基础设施服务,这些为人文社会科学提供了很好的参考。人文学科的内容,如果不由我们这样的机构来做,就没有人做,因为它缺乏商业价值。如果我们做得太慢、太晚,传统的文献就会被忽略。鉴于此,我一直坚持在这个领域工作。

赵薇谢谢您从上海图书馆的几个关键节点回顾历程。我其实也算您的一个粉丝吧,比较好奇您的职业生涯,是怎样一步步走到今天的,包括您的专业背景和个人经历,是否与学术相关?

刘炜:1983年我上大学时读的就是图书馆学,当时是热门专业。我在华东师范大学读书,当时图书馆学专业文理都招,我是理科生。这个专业当时属于华东师大试点班,对外语和计算机都有强化训练,录取分数也很高。计划经济时代,图书馆学被认为前景不错。我硕士考的是图书馆学基础理论,后来转到情报分析方向,师从上海科技情报所的马远良研究员。在图书馆学和情报学的学习过程中,我对IT技术一直很感兴趣。当时系里面专门有机房,总是最早一批购买IBM PC、IBM XT、IBM AT、286、386、486给感兴趣的同学上机。我本科毕业论文是在情报所老师指导下写的,题目是检索表达式的转换,用逆波兰式和准波兰式转换算法。硕士论文写的是数据库产业问题。我当时就感到IT技术会对图书情报领域带来很大冲击,产生颠覆性影响。

我在情报所的工作部门是理论方法研究室,负责跟踪高新产业发展,因此看了很多国外的材料。上海当时确立了十大重点高新产业方向,我们情报所参与激光产业领域,其中一个方向是光盘存储(CD-ROM)。后来情报所受上海市科委和经委的委托进行产业孵化,把中科院有机化学研究所的化学数据库转换成CD-ROM产品,提供服务,我们是国内第一家做的。

后来情报所和图书馆合并,图书馆有大量的人文社科资料。我到了技术部门网络中心,觉得自己的技术本领尚有欠缺,就读了复旦大学计算机系的在职博士,比较系统地学习了计算机技术。我一直隐隐约约觉得,计算机技术的发展、信息处理、信息加工和文化遗产保存之间存在着一条脉络。因此,我沿着这个方向不断学习,在我看来,自己学到的所有知识和积累的经验经历都是有帮助的。直到现在,我在从事数据分析、做人工智能相关工作时,都感到得心应手。

赵薇:在您看来,中国的数字人文——无论是学术研究、建设,还是产业——大约从哪一年、哪个时间节点开始受到重视、进入关键时刻?另外,您是否对这个领域一直有自己的设计?之所以这样问,是因为我感到在每个关键节点上您都试图想成为一个领航人,尽管后面实际上不一定按照您的构想发展。

刘炜:我大概在2012、2013年的时候接触到“数字人文”这个名词。我一直比较关注国外同行,特别是国外的汉学研究。武汉大学王晓光教授那边成立了一个研究中心,他在2009年发表过一篇相关文章,影响很大。但后来他们中心成立之后一段时间没有太多动静,他更多精力转向数字出版和其他领域。我们也碰到过几次,聊起这些,他认为国内当时的条件还不成熟。2014年我们开完那个数字人文会之后,开始和国内一些同行接触。我们觉得对图书馆来说,这是一个机遇:图书馆数字化之后会有一个新方向。仅仅提“数字图书馆”,不知道具体为谁服务、要做什么,数字人文的到来突然让我们的数字化服务可以落地了,有了明确的目标,我们觉得应该推进,在其中发挥作用。

后来王晓光教授一直在宣传推广“数字人文”这个概念,在中国社会科学情报学会那边成立数字人文专业委员会时,他也拉着我一起讨论一些事情。专委会成立后,2019年在敦煌开了第一届年会。大概从2017、2018年开始,大家陆续做一些研究并发表论文,到2019年第一届年会,我觉得这可能是中国数字人文真正的一个起点。后来上海图书馆承办了第二届年会,即2020年中国数字人文机构联盟的中国数字人文年会(CDH2020)。

再往更早一些说。零几年开始,海峡两岸都在做“数字/数位典藏”。台湾做“数位典藏”和我们做“数字图书馆”是同步的。台湾做得扎实,前些年投入很大,虽然近几年可能受一些影响,在中国历史、中国传统学术方面的经费减少了,但早期积累很深。他们把“数位图书馆”直接做成“数位典藏”“数位人文”。2008、2009年左右,他们就开始组织“数位人文”会议。我们这边2014年才办的会,我在2012、2013年也深受台湾的影响。那时我就觉得,“数字图书馆”这个概念在国外没有多少专著,但“数字人文”一出来,国外一下子出了上百本著作,台湾也出了很多专著和论文集。“数字人文”显然更容易汇聚共识、形成话题。

因此,在大陆,2017、2018年是一个启动期,2019年之后在知网上相关论文直线上升,现在每年1000多篇,已经成为热点领域。一开始主要是图书情报专业占比比较大,后来稍微好一些,但总体来说,数字人文仍未摆脱基础设施建设类机构对这一领域的垄断地位。可以这样说,什么时候由人文学者真正占主导,数字人文才算真正成熟。

至于有没有“设计”,如果说我能踏准一些节点,那完全是巧合。除了数字化等基础设施起牵引作用,另一个最重要的因素是技术自身的发展。我一直在跟技术,我觉得这些时间节点在很大程度上是技术推动的结果,比如人工智能刚出现时,大语言模型还是有争议的;ChatGPT出来后,我花了两三个月看了很多资料,才开始认可一些人的观点——这项技术的颠覆性非常强。比尔·盖茨最初认为它只是人机交互,后来他认为几乎触及“人类智力的奥秘”,把它类比为工业革命级别的技术。其他节点上,比如当年对关联数据技术的判断,我们认识到,若想用计算机系统对知识进行有效管理,没有比这项技术更合适的了,我们纯粹是出于技术层面的考量来推动其发展。

赵薇:您刚才谈到以ChatGPT为代表的人工智能,可能是堪比工业革命级别的技术。能否具体谈谈,就当下来讲,这类通用(而非专用)技术,会给基础设施建设带来哪些具体的挑战与机遇?在技术建设层面会不会出现翻天覆地的变化?能否结合一两个小例子,谈谈您的想法和打算?

刘炜:现在ChatGPT带火的生成式人工智能,具有通用性,它对各类数据,包括眼、耳、鼻、舌、身等,只要是传感器能够获得的,甚至人类日常无法感知到的,它都能从中发现模式和规律。

它带来的结果是什么?这次的人工智能和以前都不一样。一方面,它能做很多过去想不到的事情;但另一方面,过去很多专门人工智能算法能做的事,它未必能做得更好。所以,它在高速发展的同时也带来很多争议:它并不能仅凭一己之力就对现代生产力带来明显的提高,尤其是它克服不了与生俱来的幻觉,因此还很难在可信度要求高的领域得到应用。

目前普遍认识到,这是一轮工业革命级别的技术进步,但由于应用开发的滞后,还没有显示出它的威力。我们现在看到的还只是一些研究性的测评指标,要让它在数字人文领域真正发挥能力,一方面,要等一些关键技术的成熟,让我们“顺便”就用上了;另一方面,通用模型不会顾及垂直领域的特殊需求,我们可能需要自力更生,依靠自身的力量组织团队,积极应用人工智能,为行业带来变化。

关于对基础设施的影响,大致分两方面。一是对既有工作的影响。我们一直在把大量文化遗产、文献、历史遗存迁移到数字世界,新技术可能大幅提升效率,也可能使一些技术成为明日黄花,比如关联数据技术。当然它的作用还不能全盘否定,还可以利用它来为大模型提供语义素材和基础数据。当大模型能力足够强、语义获取路径改变后,关联数据就被完全替代,或者仅在某些环节保留价值。

此前的人工智能是以符号学派为主的一套东西,现在是以深度神经网络为代表的连接学派大行其道,符号学派似乎已经走到了尽头。也有人说连接学派会碰到瓶颈、撞到南墙,到那时可能还会回过头来考虑符号学派的某些思想,进行融合。计算机技术的历史就是这样,潮起潮落,“东方不亮西方亮”。

对于传统世界的这些东西,如果要把它数字化、数据化,把它们关联起来、建模,更准确地构建一个虚拟世界——也就是知识世界——这个知识世界可能可以具象化为元宇宙,也可能不具象化;在大模型中,它就是互相之间的关联,通过向量空间模型来呈现。当然模型也有我们讨论过的黑箱问题;如果完全是向量化表示,就很难还原真实世界里有血有肉的描述。

所以,在有“智慧”的大模型之下,智慧所依赖的知识世界与信息世界是相辅相成、不可替代的。不能因为有一批“很聪明”的大模型,就说著作、书本、期刊、报纸不需要了,现在还没到这个时候。大模型可以知道四大名著及其人物关系,而且很准确,但要让它把四大名著一字不落地重写,恐怕不行,至少对于深度神经网络来说成本太高。我猜测它有一个问题:它能学到知识、变成“智慧”,但未必能等价地还原知识;即便能复述故事,也不可能保证完全用相同的语言来表达。由此推论,要保存人类知识,人类的记忆机构不能只依靠大模型,而不再保存知识与载体。这不是完整的文化保存,所以我们这种机构仍然有意义。

新技术至少可以加速传统知识数据迁移到虚拟世界的过程。但迁移总会有损失。迁移的目标取决于你要解决的问题,数据采样的颗粒度与问题直接相关;不可能满足一切目的,因为成本太高。因此,迁移可能是大批量推进、分层精度并存的过程。就像我们上海图书馆在20多年前开始的扫描,如今要重扫,因为当年分辨率、保真度不够,很多技术当时实现不了,现在就要重新做,国家也出了新标准。未来可能还会经历类似“重做”。不管怎样,新技术可以加速迁移过程。

另一个具有更大意义的事情是,未来很多人文学科的课题都是聚焦当下的问题,而不是基于历史资料,这些课题本质上是原生数字化的。就像推特上的所有动态和互动数据,可能都会被马斯克的Grok大模型所利用。曾有很长一段时间,推特每年都要把所有数据拷贝一份给美国国会图书馆,号称“保存历史”。但在2017、2018年前后,作为行业顶尖并肩负保存数字遗产职能的美国国会图书馆宣布停止接收这些数据,因为即使把打包的文件都存在云盘上,也没办法有效还原利用,技术跟不上。这被很多知识分子视为一种倒退,他们认为不应该停止接收这些数据。

将来很多事情都是当下发生的。所以,人文学科可能会以另一种形态存在。过去古希腊有“七艺”,中国有“六艺”,孔子讲学、弟子著述;如果是纯数字时代,可能会产生很多新的学科——与数字媒体直接相关的人文研究。数据采集的方式、编码与解码的方式,都与机器、数字技术直接相关,就会出现数字时代的《诗》《书》《礼》《乐》《易》《春秋》。现在很多人文学科得不到资金而有生存危机,恐怕也是必然的。当“元宇宙”或类似的虚拟世界出现、当人不再需要劳动时,人在虚拟世界中的任何行为都被赋予价值,游戏里的探索和创造都被视为有价值的。那时对人文领域的影响会是:在虚拟世界里,人会留下大量新的思考与问题。这方面的变化是数字原生世界的基础设施。

所以,这是另外一个“人文”带来的问题。原生的数字世界过了奇点之后,会出现大量我们现在看不懂的新事物。日常工具的消失速度会很快。过去分散在许多设备上的功能,如今都集成到手机里,而人工智能到来后会带来更大的变化。智能硬件将作为人的延展与功能的延续,形态会非常普遍、五花八门。像帮助残疾人或老年人的体外骨骼、帮助视障人士的设备,本质上都具有人文关怀,应该鼓励。科技应让人类无所不能、更加幸福。当然也会带来很多问题,这是人文要面对的第二方面。

我对人类记忆机构的价值也开始有危机感。大模型出现后,传统的收集、整理、加工、服务以及教育这一整套做法,将来会变成什么样子?尤瓦尔说,信息有两类作用,最大的作用不是积累知识,而是沟通交流、取得共识。和我们这个职业的传统认识完全不同,他认为并不是所有信息都要保存,大量信息可能毫无保存价值,只是为形成共识服务。真正要保留的是经过验证的、可循证的知识,尤其是科技知识,能为下一代的发展提供基础。这意味着我们对未来基础设施的设想还很不清楚:现在的基础设施是GLAM机构[3],把载体书刊报做成数字媒体,而未来,奇点之后会是什么样子,尚不知道。

赵薇:谢谢您对近未来的畅想。很早就读过您的文章,我觉得这是您的一个特点,您对未来的设想通常有预见性,当然也带有技术乐观主义的乌托邦色彩,但这恰恰很有意思,如果将来写思想史,您可能是一个典型的例子。您谈的不只是技术,而是对技术的认识,这不是一般人能做到的。

但我还是想请您结合一些具体的例子,比如说去年王军老师在北京大学办的那个以数字人文教育为主题的会议,大模型正逢其时,王东波教授有“荀子”大模型的展示,包弼德(PeterBol)教授也在场,他提出了一个与基础设施相关的倡议。我当时没完全理解,似乎是想把分散的数据、机构资源整合起来,形成共享的基础设施,这是他此前一贯的想法。我想听听您对这种提议的看法。因为在现在这样一个追求通用人工智能、追逐最大数据的格局下,可能面临更大范围的共享是否现实的问题。您也知道,大模型已经变成军备竞赛意义上的一个专门领域,各个主权单位对这个东西都非常敏感。学者的构想和现实之间肯定有张力,包弼德教授本身是海外人文学者、汉学家,在这一点上尤甚。所以也请您谈谈,作为国内基础设施建设的排头兵,您怎么看?

刘炜:包弼德这个想法我知道,也在某种程度上参与过。他2018、2019年在上海开会,我去过。后来又开过小会。一开始他和中文在线合作,后来中文在线独立出去,转向做数字加工。包弼德曾拉了德国马普所和中国台湾的相关机构成立委员会,希望形成汉学资源一网打尽的格局,不一定要放在一起,但要有互操作的方案。超星当时也很热心,组织了两次会。包弼德的想法是有意义的,但在技术路线方面大家始终没能达成一致。随着资金投入的减少,尽管还在不断努力,但进展不大。

不过,我仍然认为能够整合所有中文古典资料、汉学资料还是很有意义的,这是一个集大成的设想,也带点乌托邦意味,即便政府出面也很难做到。国家花很多钱,常常被不同学者分散使用,缺乏统一路径,钱花了,结果未必好。很多地方搞大典、图书的再版,但并不愿意真正建设数据库、知识库或大模型。各路利益相关者都想分一杯羹,所以往往做不成。

我个人更相信去中心化、分布式的路径:大家基于自己的目的各自做一点,最后自然能汇聚起来。可能国外的玩家影响力更大,但国内的玩家更加重要,这两类玩家相辅相成、缺一不可,我倡导多交流、多讨论。现在学术界的年会还是小圈子,真正干活的人没参与,领导也缺乏数字人文的观念。比如敦煌,花了那么多钱,成果至今不开放,也不知用什么标准做的,别人很难研究他们在做什么,他们只关起门来做,结果还是墙内开花墙外香,很可能要等国外东方学成果出来,他们才开放。

我觉得国内的基础设施建设目前不可能统一。国内能出点钱做数字化、数据化已然不错,哪怕百分之八九十白费,要留下百分之一二十也有价值。未来国内中文人文学者使用的主要基础设施,恐怕还要依靠海外的影响。我对国内整体前景并不乐观,包括我们自己单位,得到的支持和团队都很有限。我退休之后,恐怕更难推进,因为他们没有自觉意识。

赵薇:对,包弼德当时的表述我们也没理解,还引起一些追问。

刘炜:当年其实有两个方案。一个是超星提出的,从美国聘请人直接给包弼德做,专门有一套方案,比较封闭;另一个是马普所的,曾与爱如生合作,但因费用问题中断了。马普所方案包含两个协议,可以在一定程度上解决互操作问题:各家资源放在自己地方,有一些节点可以收购元数据,通过协议实现统计、审计,按使用付费或开放获取。这类技术方案很好,后来又出现IIIF的技术[4],也能突破互操作。但光有技术方案不够,还需要大家遵从的行业联盟或机构联盟,有监督机制,让协议不断迭代,形成良性生态。

赵薇:谢谢您的讲解。另一个问题,随着人工智能的兴起,大家都需要大量语料训练模型,这会不会对图档类机构的数据管理造成影响?比如,数据外流、监管等。从基础设施角度看,如何理解被人工智能加速或抑制的“去中心化”?我们知道此前有《互联网共产主义宣言》,它其实是非常乌托邦化的,现实里人工智能却促使主权单位筑起更高的“墙”,这形成一个悖论,即模型越来越高级,数据却越来越不自由?还是说在监管更严的情况下,流动性反而更大,共享的可能性就更大了?

刘炜:问得很到位,这确实是关键问题。现在有讨论和猜测,但都没有系统研究。尤其在人文社会科学领域,缺乏对数据流通趋势现状的调研。国家层面已把数据作为主权的一部分,有法律框架,重视程度很高。大模型兴起,促进了数据价值的变现,大家越来越重视数据。在全球化的大背景下,人文数据也受到影响。比如,常州一家公司,主要做家谱,和美国家谱协会关系密切,夫妻俩创办公司,雇了几十人,他们在中国民间收集了大量家谱、谱牒、宗亲的数据,在全国范围内使用的信息技术也较好。后来据说被人举报数据外流被调查,就是一个典型例子,当然他们被举报具有偶然性,到现在都无法解释清楚。

但实际上,社会人文类数据早已在流通,只要开放、提供服务,很多收藏机构的数据早就被买来买去。然而,单有数据无法发挥价值,必须有平台、工具才能发挥作用。我们也不用过分担心,因为图书馆数据本就应该开放,国外的高清数据都直接拿出来,过去还只能允许非商业使用,现在商业使用也开放了。像我们这种公藏机构,只是文化遗产寄放在这里,并不算版权拥有方。版权法规定作者去世50年后作品就进入公有领域,所以我们馆藏的大量清代、民国资料,相关的数据其实都应该开放。可现在大家都非常保护自己的数据。

问题是,目前还没有人文领域哪家机构肯出钱认认真真去做服务平台,所以哪怕各家有数据,也不知道如何处理。国家即便投几个亿,最后也可能不开放,大家积极性也不高,各自有数据也不愿交——这就形成悖论。目前数据当然很有价值,这一方面造成了数据的隔离,大家都知道数据值钱了,但与此同时,民间的数据交换、盗版却愈发活跃,大模型用了谁的数据你未必知道,数据质量良莠不齐,生成的内容既不能保证质量,也得不到版权保护,有人把这视为商机。现在是战国时代,群雄并起,谁的算力大,就能抢占更多数据,未来或有价值。现在民间数据交易其实很多,民间个人收集古籍、方志等,扫描文本的数据量可能达到PB级,但凭借私人的力量难以加工整理。实际上,整个数字人文圈,要么文史哲功底深,要么技术强,要么占有海量数据,能真正把人文、技术、数据结合起来的人极少。人工智能确实加剧了数据垄断和占有的趋势,但同时也在促进新一轮平等化。前期的数据不均等会存在,数据因稀缺而有价值;后期一定是数据和模型、应用结合才有价值。光有数据是没有前途的。

赵薇:您讲得非常精彩。这个关系是既促进又制衡,但制衡的同时又有机遇。我很受益。

刘炜:我再补充一点。我们现在做的是基于上海图书馆馆藏资料的,外购数据旨在用来补充、丰富馆藏的描述或版本信息。我们很矛盾,是做大而全的数据库,还是只做馆藏范围内的?主要还是由于资源投入有限。比如方志库,是做上图馆藏方志库,还是中国方志库?收购大量方志会增加工作量。原本图书馆职能就是收集,但没有预算、没有投入,做了也没有商业价值,所以很难推进。如果公司愿意做大而全的方志库,让我出主意,我可以帮忙。但上海图书馆自己做不成。将来方志大模型要想能回答问题、普及教育、支持研究,就必须有更全面的资源。

赵薇:谢谢您的解答。最后一个小问题,这两天注意到“全国报刊索引”发布了智能问答“索引君”,我非常惊喜。从研究者角度,我知道您从去年开始主导这件事,做得很及时。如果是ChatGPT演化的问答机器人,大家根本不会在意。但学者每天做研究必须用的工具,一旦开发成智能体,就会有颠覆性影响。这才是人工智能的价值。

刘炜:他们胆子比较大。我鼓励韩主任他们去做、去尝试。但现在还是“拉到篮子里都是菜”,最终会有什么结果,尚不可知。因为他们有创收和增值服务的压力,所以更有积极性。通常我们这种机构对新技术会更慎重,所以我觉得他们现在先推出来的产品,可能比较粗糙,甚至会有问题,但至少先做起来了,在迭代中进步,可以走得更快。

赵薇:那么上图在大模型应用领域,是否顺着这一路线有进一步的举措?

刘炜:我们有很多想法,现在要推进的是整个行业的大模型应用。大模型我们跟了两年,馆里很多年轻人工作时会把它们当作工具。但是现在面临一个问题,过去我们没有对成果提出要求,只希望大家关注和交流,现在发现形势不等人,外面很多良莠不齐的公司开始推出一些包括数字人在内的乱七八糟的产品。所以我们今年年底、明年年初会布局一些产品,除了与一些公司合作开发产品或评测,还会在行业里下场,制定标准规范白皮书,推动大模型的应用。

编辑 | 王波

向上滑动 查看注释

[1]RDF(Resource Description Framework),资源描述框架。——整理者注

[2]万维网联盟(World Wide Web Consortium),简称W3C。——整理者注

[3]GLAM指Galleries, Libraries, Archives, and Museums,即美术馆、图书馆、档案馆和博物馆。——整理者注

[4]IIIF(International Image Interoperability Framework,国际图像互操作框架),是一组实现图像资源互操作的技术标准,旨在使用户能够更轻松地查看、操纵、比较和注释网络上的数字图像。引自复旦大学图书馆“IIIF图像服务简介”,https://library.fudan.edu.cn/e6/80/c42704a517760/page.htm,2025年9月21日。——整理者注

点击下方链接,下载原文

迈向AI时代:数字人文基础设施的先锋之路——刘炜先生访谈录.pdf

 如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

校对  |   肖爽

美编  |  王秀梅

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

原刊《数字人文》2025年第4期,转载请联系授权

阅读原文

跳转微信打开

会议通知|“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)会议通知

2026年5月3日 08:08

2026-05-03 08:08 北京

摘要与海报征集5月10日截止

点击蓝字 关注我们

时间:2026年7月31日-8月3日

地点:内蒙古师范大学

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

一、 会议议题

包括但不限于:

1.典籍重光:科技古籍与多民族文献的智慧化整理

2.时空重构:GIS与时空大数据驱动的文明演进研究

3.协智重塑:多智能体与具身智能的人文社会仿真

4.谱系重绘:知识图谱与智能注释驱动的知识重组

5.记忆重述:AIGC赋能下的文化遗产与艺术创新

6.文脉重析:计量方法与主题模型的文本深度挖掘

7.伦理重思:数字人文中的算法批判与负责任创新

8.素养重育:数字人文课程体系与跨学科人才培养

9.数字人文学科建设

二、 会议信息

1.会议时间:

2026年7月31日至2026年8月3日

2.会议地点:

内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

3.会议注册:

本次会议将于2026年6月开放注册报名。

注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

三、 征文征集

1.会议征文对象为数字人文相关专业的专家、学者与在读学生。

2.论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3.征文分为两轮,第一轮为论文摘要和海报征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

(2)海报需以PPT格式制作,页面设置为90cm*120cm,纵向布局。

(3)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

4.组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5.论文提交邮箱:20250051@imnu.edu.cn。邮件标题格式为“CDH2026论文摘要/全文-姓名-单位”。

6.摘要提交截止时间:2026年5月10日

摘要录用通知时间:2026年5月30日

论文全文提交截止时间:2026年6月30日

四、 项目征集

1.本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2.所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3.请将报名表和相关附件压缩,以“CDH2026项目-项目名称”命名,发送至邮箱20250051@imnu.edu.cn。

4.项目征集截止时间:2026年5月30日

五、 会议组织

1.主办单位

中国索引学会

内蒙古师范大学

2.承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

3.协办单位(按笔画顺序排列)

IMR Press

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海财经大学“中文+数智经济”研究中心

上海财经大学国际文化交流学院

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

山西数字人文研究院

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

中山大学信息管理学院

中山大学数字人文实验室

中山大学数字人文联合研究院

中国人民大学数字人文研究院

中国社会科学院大学数字史学研究中心

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

东华大学纺织遗产与数字人文实验室

北京大学数字人文研究中心

北京师范大学文理学院中文系

北京师范大学珠海校区图书馆数字人文中心

电子科技大学数字文化与传媒研究中心

兰州理工大学文学院

华中科技大学汉籍数字化实验室

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

启元实验室战略研究中心

武汉大学文化遗产智能实验室

武汉大学数字人文研究中心

南京大学中华文明数智创新实验室

南京大学高研院数字人文创研中心

南京师范大学语言大数据与计算人文研究中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

首都师范大学初等教育学院

清华大学中国古典文献研究中心

淮阴师范学院文学院

湖北中医药大学医学人文学院

湖南女子学院文学与传播学院

(持续更新中)

4.媒体支持(按笔画顺序排列)

《Knowledge Organization》

《中国数字人文》

《古籍数字人文》

《全国报刊索引》

《南通大学学报(社会科学版)》

《信息与管理研究》

《烟台大学学报(哲学社会科学版)》

《数字人文》

《数字人文研究》

「DH数字人文」公众号

「DH数字人文动态」公众号

「IMR 图书情报学」公众号

「SHNU 数字人文」公众号

「三明学院学报」公众号

「山东大学」公众号

「广东省国学学会」公众号

「比特人文」公众号

「中国索引学会」公众号

「古代汉语信息处理」公众号

「立行数字人文」公众号

「全国报刊索引」公众号

「京狮人文DH」公众号

「科技古籍整理研究所」公众号

「域外汉籍与汉学研究」公众号

「揆古察今科史哲」公众号

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

AI & Innovation (《人工智能与创新》)

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

广东财经大学《智能高教》

社科大数字史学实验室

南京大学中华文明数智创新实验室

(持续更新中)

有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

六、 会议联络

1.会议邮箱:20250051@imnu.edu.cn

2.会务咨询:周老师 13191432051/18852850582(微信同号)

附件

2026年中国数字人文年会项目报名表

CDH2026论文格式规范与要求

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

为什么莫莱蒂需要被pass,及论睁了眼看

2026年4月25日 17:16

2026-04-25 17:16 北京

当下中国的问题并非理论缺席,而是追捧大师的太多,肯沉下心做经验研究、真正懂经验数据的太少。

内容来自“数字人文”公众号

数字人文

日前,弗朗科·莫莱蒂(Franco Moretti)教授为华东师范大学中文系带来了名为“Digital Humanities: False movement”的讲座,系列活动再度拉开架势,要将这位“远读”的提出者推到国内数字人文讨论的中心。然而,莫莱蒂真的是“数字人文大师”吗?当莫莱蒂教授以十年前的观察视角,对当下的数字人文展开某种漫不经心的整体性评价时,我们在收获一种盲视之上的“洞见”时,也不得不直面一个令人无奈的错位:他所倾心的“量化形式主义”尚未完成便已“烂尾”,其根源究竟在于数字人文本身走上了歧路,还是缘于莫莱蒂先生自己的半途而废、半折心始?或者说,对于一个并非真正有能力将量化方法落地的学者,当他在面对量化实证与文学阐释的融合难题时,最终选择了望而兴叹,转而以理论批判来回避实践的困境?

量化分析和人文阐释果真难以调和吗?答案或许是否定的。二十年来,在莫莱蒂止步的地方,多少中外青年学者前赴后继,以辛勤的数据工作、严谨的计算建模和严肃的理论思辨,甚至耐心的细读阐发,持续探索文学量化研究的全新可能,试图弥合量化证据与文本阐释之间的鸿沟。莫莱蒂教授在讲座中言及:“当下主流的数字人文方法,如主题建模、文本挖掘、内容分析、情感分析等,均源自那些‘形式’概念不起作用的学科领域,因此它们对深化文学理解的贡献十分有限。”我们不禁要问:某种方法,“源自”形式概念不起作用的领域,就不能用于形式研究吗?这类论断的内在逻辑站得住脚吗?放眼当下,不说国外DH中的量化形式研究(以Hoyt Long, Richard Jean So, Andrew Piper, Ted Underwood等等为代表),单论中国的文学数字人文实践,哪一项有意义的量化工作不是从“形式”入手的?不从形式入手,量化的锚点又在何处?

莫莱蒂扣给数字人文的另一帽子是:“若只关注可见的经验数据,而放弃对理论机制的探索,那么数字人文学就只能是一场错误的运动。”事实上,这不是简单的理论与经验研究之间非此即彼的抉择问题——当大数据时代到来,原有的假设-验证范式和数据驱动之间的矛盾并不会自己得到解决,把理论的式微归咎于数据,认为数字人文是一个“非理论”的领域,是莫莱蒂一贯的看法。“他之所以这么说,很可能因为他自己的研究便不能令人满意,虽有强烈的理论兴趣,但在面对数据时却时常显得束手无策,他看不到出路。”(《作为计算批评的数字人文》)。

在我们看来,当下中国的问题,并不是理论缺席,而是空谈理论、追捧大师的太多,肯沉下心做经验研究、真正懂经验数据的太少。以致于到今天,置身这样一片本应由实干引领的天地,人们看到的还是那些热衷于形上思考、打理论仗的人;而更难堪的是,这一局面导致的后果之一,便是那些既有经验数据支撑,又有理论思考的成果不仅被淹没,甚至很可能根本就出不来,被扼杀于襁褓之中——这一理论与实践、东方与西方的错位,恰是莫莱蒂教授的讲座所折射出的、更值得我们深思的学术场生态。

也许现在真正需要反思的,是一种还未具备扎实实践的能力,还没有过硬的实践涌现,就急于“反思”、急于下定论的心态,这种悬空的“反思”未免可疑。或许,我们不妨先在西方与全球数字人文发展语境中,好好反思(“历史化”)一下莫莱蒂自身的局限与困境,这倒似乎是理论工作者不仅具备条件,而且应该去做的事情。

以下四篇文章,前两篇来自2017年 PMLA 推出的重审莫莱蒂及“远读”专辑,后两篇则从计算批评角度,系统回顾了莫莱蒂道路的内在矛盾,及其终将被超越的必然。坦率说,这些十年前的检讨文章,在数字人文飞速发展的今天已有过气之嫌;但令人遗憾的是,这些文章中早已被反观、辨清的对象自身,竟在时隔十年后的中国课堂上,依旧宣讲着一些新意寥寥的观点和错位的观察,还在试图带来新的热度——这一现象本身,是不是更值得我们停下来“反思”?

延伸阅读

1

《“所有模型都是错的”》(“All Models are Wrong”)

苏真(Richard Jean So)的文章堪为当年PMLA专辑中最尖锐、精彩的一篇,直指莫莱蒂式远读的局限:其文学统计分析始终停留在描述性统计的表层,由于缺乏模型检验与统计推断等步骤,而尚未走向真正的“建模”。事实上,任何统计学模型都有其“自反性”,人文学者的职责,恰是通过巧妙、负责的运用将其激发出来,这也是Ramsay和Rockwell等人“通过模型来思考,来阐释”的真义所在。对统计学工具的理解与应用存在根本偏差,所谓的“远读”批评从未真正实现量化方法与文学批评的有机融合。

all-models-are-wrong.pdf

02

《以小见大:论文学建模》(Think Small)

Andrew Piper以科学哲学的模型理论为核心框架,检讨了莫莱蒂远读理论对“规模” 与“宏大”的过度推崇,提出了“以小见大”的文学建模方法论,重构了计算文学研究的底层逻辑。Piper首先指出了文学研究对“大人物”的路径依赖,包括学界对莫莱蒂本人的过度聚焦,指出远读的核心缺陷在于忽视了知识生产过程中本就存在的微观的、建构性的建模环节,将模型输出的结果等同于文学现实本身。文章还提出文学建模的五层嵌套框架:理论化、概念化、实施、选择、验证,系统呈现了文学建模的全流程表征实践,揭示了远读在模型建构各环节的理论与实践缺陷——包括对模型的虚构性与建构性缺乏自觉、测量环节的还原主义、缺乏反思、验证环节未能将细读作为核心标准等。最终提出,文学建模的价值不在于提供宏大的文学史论断,而在于推动文学研究从个人化的权威阐释,转向集体性、累积性的知识生产,实现远读与细读、宏观与微观的有机统一。

think-small-on-literary-modeling.pdf

3

《从概念模型到计算批评:数字时代的“世界文学”研究》

文章以弗朗科·莫莱蒂、文学实验室和文本光学实验室的探索为中心,尝试用“世界文学”问题来检视“莫莱蒂道路”,揭示其早期实证化探索中概念模型与验证手段之间的悖论,追踪它随后努力汇入数字人文大潮的轨迹。从世界文学最棘手的方法论问题入手,可以发现“远读”虽试图以统计推断和概念建模解决比较文学的危机,却因依赖二手批评、挥之不去的欧洲中心主义和悬置民族语言等问题而终究搁浅;而其后具备了“文化分析学”面向的数字人文,则通过多语种语料建模和可伸缩阅读,将“世界文学”这一抽象猜想发展成为可操作、可证伪的计算批评对象,从而实现了对莫莱蒂道路的超越。

从概念模型到计算批评:数字时代的“世界文学”研究

4

《作为计算批评的数字人文》

“计算批评”一词虽然曾为莫莱蒂本人所使用,但真正将其发扬光大的,却是后来更年轻的一批人文背景的数字人文学者。艾伦·刘曾指出,数字人文若不能在文本分析与文化分析间顺畅衔接,便难以与莫莱蒂、卡萨诺瓦等人同台竞技。但是十年来人们逐渐看清了莫莱蒂“远读”批评的诸多局限,其中之一便是对数字技术工具性倾向的习焉不察,而后续学者的工作,竟也成了以其实绩不断揭除这种工具化的过程。在Ted Underwood等人看来,以建模为方法已经成为计算批评的根本,这是莫莱蒂之后的人文学者围绕着统计模型的概念,一直在发展的一种严密的方法论。譬如文类研究中,一种思路便是将机器学习的建模和传统的细读结合,借助算法来“发现”某种文体模式的“本质”特征,当这种“本质”恰恰迎合了我们的批评诉求,则有助于完成批评的“实证过程”。因而明智的做法,并不是像莫莱蒂的欧洲小说兴起的研究那样,对四十四种英国小说亚文类直接做聚类可视化,呈现出一种二百年间此消彼长的兴替过程,一种“本该如此”的效果(同时也是很难证实的结论),而是要对文类“视角”和文类观念本身建模……

作为计算批评的数字人文

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

数字人文时代的“新文献观”及其对文献学专业教育变革的启示 ——以中华书局“苏东坡数字人”为案例

2026年4月14日 10:09

原创 郭琳 王建 2026-04-14 10:09 北京

在中国传统文化中“文献”既有典章资料的含义(“文”),又指掌握典章之人(“献”),但后世的文献学在某种程度上缺失了“人”的维度。

教育与教学

2.png

郭  / 北京大学社会科学部

王 建 / 中华书局

要:在中国传统文化中“文献”既有典章资料的含义(“文”),又指掌握典章之人(“献”),但后世的文献学在某种程度上缺失了“人”的维度。为了提供一个更贴合“文献”概念原初含义,同时也更适合当下数字人文时代的理解框架,本文尝试引入文化哲学、技术哲学的新视角,来提供一种新的“文献观”,试图将“文”与“献”纳入一个整体框架来进行理解。从文化哲学的视角,人是符号的动物;从技术哲学的视角,符号是人的外化与延伸。人可以创造符号并以此创造文化,而文献也正是一个符号系统,它依赖于对应时代的符号书写与媒介技术。在全新的数字人文时代,数字文献的应用越来越广泛,数字文献技术使得历史文化名人数字人成为可能与必然。与此同时,符号技术的变迁必会引起文化形态与学术范式的升级转型,当下大学的文献学专业研究与教学模式变革需要试图做好专业与通识的结合、基础与应用的融合、传承与创新的综合,才能塑造未来大学教育的新形态,创造出越来越多像“苏东坡数字人”这样的优秀案例并切实推进落实中华优秀传统文化的创造性转化和创新性发展。

关键词:文化哲学 技术哲学 文献观 数字人 文献学 数字人文

一、文化哲学、技术哲学视角下的“文献观”

(一)“文献”概念溯源与新视角的引入

我国是一个史籍浩瀚、史学发达的国家,文献的产生、流传和研究已有悠久的历史。随着时代的发展,“文献”一词的含义在不断变化。《辞海》将“文献”释义为“专指具有价值或与某学科相关的图书文物资料”,《现代汉语词典》将“文献”解释为“有历史价值或参考价值的图书资料”。所以,现在人们通常所理解的“文献”是指图书、期刊、典章等所记录知识的总和。

而如果我们将考察的视线拉得更长可以发现,最早将“文献”一词用作书名的著作是元代马端临的《文献通考》,而“文献”一词的最早出处则可以追溯到《论语》。在《论语·八佾》中,孔子曾说:“夏礼吾能言之,杞不足征也;殷礼吾能言之,宋不足征也。文献不足故也,足则吾能征之矣。”何晏《论语集解》中引东汉经学大师郑玄的注云:“献,犹贤也。我不以礼成之者,以此二国之君,文章贤才不足故也。”这里用“文章”解释“文”,用“贤才”解释“献”。宋代朱熹在《四书章句集注》中解释道:“文,典籍也。献,贤也。”[1]“文”是指历史典籍、档案等文字资料,“献”是指博学多才、熟悉掌故的贤才。清代刘宝楠在《论语正义》中也沿用了这一说法:“‘文’谓典策,‘献’谓秉礼之贤士大夫。”[2]后来杨伯峻在《论语译注》中的注释为:“《论语》的‘文献’包括历代的历史文件和当时的贤者两项。今日‘文献’一词只指历史文件而言。”[3]

鉴于上述梳理可以看出,今天我们常用的“文献观”对于“文献”概念的理解,如果较之“文献”一词的原初含义而言,其实是只得其半,而缺失了对于“人”本身的理解。因此,为了提供一个更加贴合“文献”概念原初含义的新的“文献观”解释框架,本文尝试引入文化哲学、技术哲学的新视角,来探索一种新的“文献观”表达,试图将“文”与“献”纳入一个整体框架来进行理解,并从中发现人类“文献”发展史的规律与趋势。

(二)文化哲学的新视角——人是符号的动物

恩斯特·卡西尔(Ernst Cassirer,1874—1945)是德国著名的文化哲学家,被誉为“当代哲学中最德高望重的人物之一”。卡西尔在其代表作《人论》中概括表达了他的符号论文化哲学体系,他认为人类文化形式都是符号形式。因此,我们应当把人定义为符号的动物(animal symbolicum)来取代把人定义为理性的动物。[4]也就是说,人是能用符号去创造文化的动物。从而可以理解,人是创造符号并以此创造文化的动物,符号是人区别于动物的一个显著特点。人类拥有其他一切动物不具有的符号系统,人可以在创造符号的过程中获得自由与解放,成为真正意义上的人。

“符号”是卡西尔文化哲学思想体系中的核心观念。在卡西尔这里,“符号”不是具体的单个符号,而是一个整体的概念,具有极其丰富的内容和意义,他将人类文化的各种形式包括语言、神话、寓言、宗教、艺术、科学、历史等都看作符号形式。人与符号紧密相连,符号是人类创造文化的媒介。人具有符号化的思维模式,并通过符号创造文化,即创造一个符号世界,进而认识自我、发展自我。符号化的思维和符号化的行为是人类生活中最富于代表性的特征,并且人类文化的全部发展都依赖于这些条件,这一点是无可争辩的。[5]可见,符号是人和文化的共同本质,人—符号—文化构成了三位一体的存在。首先,符号可以理解为作为文化现象的符号形式;其次,符号体现了主体(人)本质的符号活动;另外,符号展现了被赋予的符号意义。

在卡西尔看来,“符号”(symbol)是与“信号”(sign)相对的,“信号是物理的存在世界之一部分,符号则是人类的意义世界之一部分。信号是操作者(operator),而符号是指称者(designator)”。[6]文化符号和自然界的信号有严格区别,这二者体现了“人禽之别”的关键,即动物只能对信号做出条件反射,只有人才能掌握和运用信号,并将信号改造成有意义的符号,所以“信号”与“符号”的核心差别在于“意义”。如图1所示,人和动物与客观世界的互动方式是不同的,动物与世界直接互动,往返的是信号,信号不具有意义,它是物理性的、实体性的存在;人与世界则通过符号进行互动,符号是意义的表达。符号是人类的创造物,人具有符号构形能力,不存在无意义的符号,也不存在无符号的意义。

图1.png

图1 人和动物与客观世界的互动方式差异

由此可以看出,基于“符号”这一视角,可以认为,主流“文献观”定义里的“价值”与“知识”等跟卡西尔最为强调的“意义”是内在相通的,因此,可以用“符号系统”这一概念来提炼与概括“文献”中“文”的内涵。符号系统成为连接人与文化的通道,构成整个人类文化世界。

从根本上说,人是符号的动物,符号揭示着人的本质,延伸着人的能力,人所创造的符号成为人与世界的中介,人所面对的世界也是符号世界。与此同时,卡西尔认为,符号具有二重性,即符号具有可感载体与普遍意义两个方面。人类可以像其他动物一样以各种感官与世界进行交往,依据物理信息与外界进行沟通,此时世界是可感知的。另一方面,人具有符号能力并进行符号活动,正是这种符号能力将自己与动物区别开来,当人类作为“符号”动物与世界交往时,人类是有意识的、有思想的、有理智的,此时“符号”成了载体与意义的统一。

需要指出的是,就历时性的角度而言,作为人与世界之中介的符号系统是具有历史性的,也就是说,一个个体所面对的符号世界从根本上说正是该个体之前全部的人类历史中所能留存下来的符号的整体。

(三)技术哲学的新视角——符号是人体感官的外化与延伸

从卡西尔把人定义为“符号的动物”来看,一方面,人是创造和发明符号的动物;另一方面,人是使用符号的动物。正是由于人的能动性与创造性,人能够制造和使用符号,人的意识、愿望、思维等精神能在具体实践活动中对象化到客观世界,实现客观世界的符号化,比如艺术是人类直觉或观照的客观化,语言和科学是人类概念的客观化,而这些符号可以将人体感官不断地外化和延伸。

其实在更早的德国技术哲学家恩斯特·卡普(Ernst Kapp,1808—1896)那里,曾更加明确地提出了工具和器物是人体“器官投影”(Organ Projection)的核心观点,在其被认为是技术哲学奠基性著作的《技术哲学纲要——从新观点看文化发生史》(1877)一书中,卡普试图用器官投影论的新观点,通过作为技术文化的工具发生历程来解释人类文化的演进历史,他认为,人体的外形和功能总是作为人类最理解的客观存在,当成创造技术的外形和功能的尺度,投影到外部环境;所有工具的源泉和本原的技术,都是建立在人的器官特别是手的基础之上的。因此,人是制造器物的尺度。[7]卡普的“器官投影”理论开创了一种分析技术的独特视角,某种程度上,我们可以说是他提出了技术生成文化理论,并从技术哲学范式内部对技术的本质进行思考。

作为卡普“器官投影”论在媒介时代延续的加拿大媒介理论家马歇尔·麦克卢汉(Marshall McLuhan,1911—1980)在他的名著《理解媒介:论人的延伸》一书中提出:媒介,即技术,可以是人的任何延伸。媒介带来一种新的技术尺度,人的延伸及其感知比率随之改变,就形成一定的后果。这就是“媒介即讯息”。[8]媒介是那些延伸人类器官的所有工具、技术和活动,一切技术都可以被看作是不同人体器官的延伸,比如,车轮是人类脚步的延伸,衣服是人类肌肤的延伸,报纸是人的言语和视觉的延伸,广播是听觉的延伸,等等。万物皆媒介,凡是能使人与人、人与事物或事物与事物之间产生关系的物质都是广义的媒介。半个世纪之后,美国学者凯文·凯利在《科技想要什么》一书中进一步认为“技术是思维的延伸”,将技术称为“第七王国”,并提出了“技术元素”(technium)的概念,这里的“技术元素”包括硬件、文化、艺术、社会制度以及各类思想。他认为科技是我们躯体的延伸,技术元素是生命的延伸,技术应该被理解为一种正在进化的生命。[9]

综上所述可以看出,就技术哲学的视角而言,作为人与世界的中介的符号及其能力也可以被视为“符号技术”,其本身就是人类感官与思维的外化与延伸。进一步的,再就符号的历史性而言,一个个体所面对的符号世界从根本上说正是该个体之前全部的人类历史中所能留存下来的前人们感官与思维外化与延伸的整体。因此,就其符号整体的所指而言,它指向的是前人们于四维时空、眼耳鼻舌身意全感官的所有真实而鲜活的生命经验,而就该符号整体的能指而言,它则是特定历史时代与对应的特定符号技术下对上述多维度、全感官生命经验的部分维度、部分感官的“投影”。

(四)双重视角下的新文献观

总体而论,从文化哲学的视角来看,人是创造符号并以此创造文化和进行文化实践的动物;从技术哲学的视角来看,符号是人体感官的外化与延伸,也可以理解为,人类的一切活动是借助于符号技术不断外化自身的过程。基于此,在文化和技术哲学的双重视角下,可以构建一种新的“文献观”表达,即“文献”是一个符号系统,是人类进行一切生命活动的符号化记录,其映射的对象其实是真实而鲜活的历史人物的生命体验所外化于四维时空形成的高维度、全感官的历史文化世界。

因此,作为总结,就作为人与世界的历史性的中介而言的符号世界对应着本文新文献观中“文”的内涵,而在客观世界的角度来看,人与历史性的符号世界构成的具有意义、价值、历史性的整体,则对应着本文新文献观中“献”的内涵,如图2所示。

图2.png2双重视角下的新文献观

可见,文献这一符号系统依赖于对应时代的符号书写与媒介技术,特定时代的符号书写与媒介技术的维度决定了文献的维度,它蕴含着人类活动、媒介技术(符号书写)、知识生成(符号世界)相互依存的关系。事实上,“文”与“献”本身就是一个整体的结构体系,遵循着人类历史文化发展的规律与趋势。

(五)人类符号技术发展趋势与数字人文的必然

如前所述,人类符号技术的发展史其实就是人类文化的发生史,是人类不断追求更有效、更丰富地去外化与延伸自身感官与思维的历史,因此,人类符号技术也在多维度与多感官两个角度呈现出了历史性的发展趋势。

在原始社会,人们通过结绳、绘画、雕刻等方式记载和传递信息,这些图形和符号逐步演变并形成最初的符号系统。当文字及印刷技术出现后,人类的视觉得到了延伸。其中,“文字”的产生打破了“口耳相传”的局限,成为人类用符号记录和表达信息的突破性进步,从最早的抽象图画,再到象形文字、指事文字、会意文字等。广播、电视等媒介技术的诞生,改变了人们的生活方式和文化体验。广播延伸了人的听觉,而电视结合着语言符号与非语言符号,更是综合了文字、声音、图像等多重符号,具有“声画合一”的特点,更全方位延伸了人们的视觉和听觉。21世纪以来,随着信息科技的迅猛发展,增强现实(AR)、虚拟现实(VR)以及混合现实(MR)等技术突飞猛进,让人类视觉的延伸逐渐从平面化的二维向立体化的三维拓展,如图3所示。与此同时,通过不断创新的数字技术的加持,人类的嗅觉、味觉、触觉等也得以被前所未有的数字化模拟,更进一步的,人工智能、脑机接口等颠覆性技术也逐渐显露了越来越多的曙光。

图3.png图3 符号技术发展简史与趋势

由此可见,作为与人类文化发生史相伴生的符号技术呈现出追求更高时空维度、更多感官意识维度的必然趋势,因此,数字文献技术这一作为人类思维与智能的外化与延伸的符号技术必然成为当今人类符号技术发展的大势所趋与时代主题。方兴未艾的数字化改变了传统文献的生产、存储、研究和使用方式,以印刷媒介为基础的传统文献生产体系正向以智能媒介为前提的数字文献生产体系转变。[10]数字化促进了知识形态的变革与演进。随着大数据技术的应用以及人工智能等数字技术的发展,古籍数字化、文献数字化已成为共同趋势,数字文献大量出现。数字人文数据以文本形式为主,兼有图片、音频、视频、3D等多元数据形式。文本资料有地方古典文本资料、图书、笔记、家谱资料等。图片有地图、画作、壁画等。3D数据有器皿、雕塑等。音频与视频数据包括访谈、纪录片等多媒体数据。[11]

与此同时,由于人类符号技术始终不断追求更高时空维度、更多感官意识维度的表达,因此,每当有一种新的、具有更高时空维度与更多感官意识维度的人类符号技术出现后,此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”,并被依托其更加丰富的维度与感官进行持续不断地“扩写”与“创写”。并且,这样的“重新书写”呈现出越来越多的高时空、跨学科、多模态、全场景等特点,为人类、文化、历史的全面延伸尤其是具有悠久历史文献传统的中华优秀传统文化的全面延伸提供了无限丰富的可能。

二、文献学的数字化应用——以中华书局“苏东坡数字人”为案例

习近平总书记曾强调,“要系统梳理传统文化资源,让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来”。让文物和文化遗产“活起来”……最终实现“让文物说话,让历史说话,让文化说话”。[12]为此,中华书局立足自身深厚的文化积淀与数字文献技术优势,首创研发了全国首位3D超写实历史文化名人——“苏东坡数字人”。

(一)从数字文献视角看古代历史文化名人数字人的研发特征

“数字人”是指通过计算机图形渲染、动画驱动、动作捕捉、语音合成、人工智能等技术打造的虚拟仿真人物,其产生本身就是文化与科技深度融合的产物。清华大学《2020—2021元宇宙发展研究报告》指出,2021年被产业界称为“元宇宙元年”。因此,作为未来元宇宙数字世界主体性存在的“数字人”,自2021年迎来了爆发式的发展。与此同时,随着我国经济社会的全面发展和国际地位的不断加强,中华优秀传统文化在作为互联网原住民的年轻人群中的认同度与影响力在不断提升。在这样的时代背景下,从2021年至今,各类国风数字人陆续发布,俨然已经成为中华优秀传统文化活化利用的标配。如2021年10月28日,中央戏剧学院与北京理工大学共同发布“梅兰芳”,2022年5月18日,中国文物交流中心发布“文夭夭”,2022年6月3日,新华网发布“筱竹”,同一天浙江卫视发布“谷小雨”,2022年6月15日,敦煌研究院发布“伽瑶”,2022年7月22日,国家博物馆发布“艾雯雯”,等等。

但纵观以上多位国风数字人,除了“梅兰芳”外,均属于“纯虚构型”数字人,即历史上并没有真实存在过这个人物,而对于古代的真实历史文化名人进行“复活”的超写实数字人,则一直是一个空白。究其原因,需要先从数字人的分类入手进行分析。

在中华书局“苏东坡数字人”之前,数字人行业内对于数字人的分类通常是采用两类方法。其一,是根据数字人的角色形象与建模技术进行分类,分为二次元数字人、2.5次元数字人、3D卡通数字人、3D写实数字人等。其二,是根据数字人的功能与应用场景进行分类,分为服务型数字人、身份型数字人等。其中,服务型数字人可用于替代真人服务,并作为多模态AI助手提供服务,如虚拟主播、虚拟教师、虚拟客服等;身份型数字人则可以实现虚拟IP、虚拟分身等功能。然而,这两种分类方法均无法解释和分析历史文化名人数字人的独有特征。为此,中华书局立足数字文献的全新视角,对数字人进行了全新的分类,并从文献不同特征的角度进行象限化分析,逐步探索出历史文化名人数字人研发的理论基础与方法论思路。

首先采用“有无文献依据”和“文献是否齐清定”两个指标来进行分析,可以得出如下的三个象限,如表1所示。第一类虚拟数字人对象是“在历史文化符号世界中曾经真实存在过的人”,这类数字人的研发是基于真实有效的文献资料,且文献具有“齐”(齐全)、“清”(清晰)、“定”(确定)等特点。第二类虚拟数字人对象是“正在活着的人”,他们虽然有文献资料记载,但其文献资料还处于不断创作和变化之中,所以具有不稳定性,还未成“定论”。第三类是纯虚拟数字人,这类数字人并无文献典籍的基础,在历史上未曾真实生活过。

图4.png1基于文献维度的全新数字人分类(一)

然后,可以采用“文献的维度”和“文献的感官”两个指标来对第一类数字人进行进一步分析,如表2所示,古代历史文化名人只有关于身体记录的抽象的文字文献(可视为一维文献),但现代历史文化名人具有三维立体身体数据(三维文献)和动态影像文献(四维文献)。另外,古代历史文化名人只有画像等“非完全真实”的视觉文献,无真实的听觉、嗅觉等文献,但现代历史文化名人具有真实的视觉、听觉文献,甚至可能留存有部分程度的嗅觉文献。他们留存有照片、音视频、使用过的器物等资料。

图5.png表2 基于文献维度的全新数字人分类(二)

最后,再通过“有无真实地理文献”这一指标,还可以将古代历史文化名人176分为两类,如表3所示。一类是以苏东坡、李白、李清照等中华先贤人物为代表的曾在历史上真实活过的人物,另一类是以苏小妹、林黛玉、孙悟空等为代表的在文学符号世界中存在的人物。

图6.png

表3 基于文献维度的全新数字人分类(三)

(二)中华书局古代历史文化名人数字人研发的方法论心得

综上所述可以看出,对于超写实的古代历史文化名人数字人的研发而言,可谓是一项几乎前无古人的工作,一方面要求数字人的开发技术本身必须达到与超写实纯虚拟数字人同样的行业前沿水准,另一方面又不允许像纯虚拟数字人那样天马行空地随意发挥,但与此同时,又缺乏像邓丽君、梅兰芳数字人那样的真实照片与动态视听影像的文献支撑,因此需要独辟蹊径、守正创新。为此,中华书局始终牢牢扎根“文献”这一关键基础,逐步摸索出了一些古籍文献数字化应用的全新方法论。

其一,要将重写与创写有机结合。

如前所述,每当有一种新的、具有更高时空维度与更多感官意识维度的人类符号技术出现后,此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”,并被依托其更加丰富的维度与感官进行持续不断的“扩写”与“创写”。就超写实古代历史文化名人数字人的研发而言,首先,必须要求是“重写”,而且是严格遵从古籍文献学术共识的“重写”,这是与纯虚拟数字人研发方法的根本区别——也因此,古籍文献数据的学术共识对于超写实古代历史文化名人数字人的研发来说是应该具有“一票否决权”的,即明显不符合古籍文献记载的古代历史文化名人数字人是应该被限制准入的。

以苏东坡数字人的“塑形”为例,中华书局在总字数超70亿字的古籍大数据中心中进行了海量搜索,通过一系列精心设计的关键词精准抓取到了一批涉及苏东坡容貌形象的古籍文本数据,与此同时,又通过图像搜索技术,抓取了由宋至清各个不同时期所作的涉及苏东坡的画作100余幅,既包括苏东坡单人画像,也包括如《西园雅集》《赤壁》等主题群像以及若干石刻画像拓片等,从而初步形成了对于苏东坡容貌形象之“古籍真实”的把握,然后再结合权威专业的专家系统进行校验,最终确定下来超写实苏东坡数字人的每一个细节并确保与历史文献资料不相违背,实现严格科学的“重写”。

然而,由于古代历史文化名人只有来自古籍文字记载的一维文献和非完全真实的画像类二维文献,缺乏像邓丽君、梅兰芳等人的真实三维立体身体数据和动态影像数据这样的四维文献,所以对于古代历史文化名人数字人的“塑形”而言,科学规范的“重写”只能做到“不错”(即没有古籍文献的反例),但无法证明“全对”(即只有如此才是唯一正确的),因此,在“不错”与“全对”之间的部分,需要进行一定程度的“创写”——这也正是古代历史文化名人数字人与邓丽君、梅兰芳等数字人研发方法的根本区别。

以苏东坡数字人为例,中华书局在深入挖掘古籍文献中对于苏东坡容貌形象的记载数据的同时,还致力于深度提炼苏东坡的精神气质。为此,中华书局通过“苏东坡专题数据库”与“苏东坡主题知识图谱”的深度挖掘,侧重提取苏东坡本人、同时代人、后代历史人物以及现当代专家学者对于苏东坡精神气质的凝练与概括,并且还对当前各大主要社交媒体上有关苏东坡的内容中反映的东坡气质进行了搜集与提炼,最终实现在“塑形”基础上进一步的“凝神”,让苏东坡数字人不仅形似,更加神似。

图4 全国首位3D超写实数字人苏东坡

其二,重写与创写都具有当代性。

正如前文所言,任何一个符号,就其能指而言,都是特定历史时代与对应的特定符号技术下对多维度、全感官生命经验的部分维度、部分感官的“投影”,“苏东坡数字人”作为当下时代产生的一个数字文献符号作品,它的“重写”与“创写”也都具有典型的“当代史”特征,即它在将古籍文字一维文献、画像类二维文献以及精神气质等的文字表达综合起来最终予以3D超写实、可动态交互的数字人表达时,其实已经不可避免地带进了“当代人们的精神”,一如意大利历史哲学家贝奈戴托·克罗齐(Benedetto Croce,1866—1952)在其《历史学的理论和实际》一书中指出的:“一切历史都是当代史。”在克罗齐看来,当代性不是某一类历史的特征,而是一切历史的内在特征。[13]真正的历史属于当代生活,当我们在思考过去的历史时,会把过去纳入我们当前的思想和精神之中,体现我们当前的思想活动和精神生活,历史时刻此时便与人们的思想或精神紧密相连,成了“活生生的历史”,也反映了当下人们的思考,因而从这一意义上来说一切历史都是当代的。由于实践的需要以及人们对历史事件的认识不断深化,历史上发生的事件会以新的形式再次“复现”。

其三,既要塑形、凝神,更要赋魂。

为了让古籍里的历史文化名人真正地“活起来”,让他们以数字人的身份真正走出古籍书本、走进当今时代、当下生活,我们需要将平面化的文学文本转变为立体化的虚拟场景。这不仅能带来视觉上的直观冲击,同时还能提供互动式体验和全新理解。[14]因此,在数字人“塑形”“凝神”的基础上,我们需要进一步为其进行“赋魂”。

以苏东坡数字人为例,“赋魂”主要体现为古籍大数据与人工智能技术的深度融合。在这一方面,中华书局一直在持续进行古籍人工智能技术的自主研发,通过对70亿字古籍大数据的深度机器学习与人工智能训练,目前中华书局开发的古籍智能处理系统已经可以自动给古籍断句标点、自动标记人名地名、自动核对引文、自动识别古籍文字等。[15]下一步,中华书局将在上述工作的基础上,基于与主流大模型的深度合作,使用苏东坡专题数据库对大模型进行专项人工智能训练,从而让苏东坡数字人越来越像真正的苏东坡一样去认知、去思考、去表达、去行动,最终实现苏东坡在元宇宙数字世界真正的“复活”,让苏东坡成为“中国式美好生活的代言人”,让他“活”在我们这个时代。

以人工智能版苏东坡数字人的现场实时自然语言交流为例,至少涉及如下的技术环节:(1)提问者自然语言自动转换成文字;(2)文字自动输入大模型(外挂专题数据库)并自动生成回答文字(该回答至少符合3个维度的要求:自然语言之通畅,史实学术之正确,符合苏东坡的身份与气质);(3)回答文字自动生成数字人的语音;(4)根据语音自动驱动唇形;(5)根据语义自动匹配表情;(6)根据语言和表情自动匹配肢体动作;(7)服饰等跟随肢体动作实时自动解算。

可见,要想真正给数字人“赋魂”,不仅涉及人工智能、边缘计算、虚拟现实、实时动捕等技术,还需要专业的专题数据库、匹配应用场景的深度知识图谱等大量数据挖掘与知识服务能力的支持——例如对于历史文化名人的古籍数据进行挖掘、梳理、加工并实现数据可视化,实现文化资源数据与文化数字内容的标识解析、提炼转化、搜索查询、匹配链接、传播利用等。

(三)中华历史文化名人数字人与中华文化元宇宙展望

元宇宙是数字技术与文化内容的双向融合、联动共生。元宇宙将会给内容产业带来新的进化,在内容生产、内容形态、内容衍生、内容体验等层面赋予新的定义。[16]“数字人”被视为未来人们进入“元宇宙”的入口,将广泛应用在元宇宙新生态中,作为元宇宙中“人”与“人”、“人”与事物、事物与事物之间产生联系或发生孪生关系的新介质,起着举足轻重的作用。可见,传统的中华文化内容产业将会被持续赋能、创新发展。人类经验对象有可能实现全面数字孪生化,线下物理空间将可能全面混合现实化,线上线下场景将全面人工智能化。

在这样的背景下,中华书局将继续发挥古籍数字化专业优势,以主题出版工程“中华先贤人物故事汇”为底本,持续研发系列化的“中华历史文化名人数字人”,如李白、李清照、陶渊明、戚继光等,逐步形成数字人矩阵,深入挖掘历史文化名人的古籍数据,在数字科技加持下进行现代化表达,形成“中华先贤数字人”IP矩阵,真正让“书写在古籍里的文字活起来”“把优秀传统文化中具有当代价值、世界意义的文化精髓提炼出来、展示出来”,让中华优秀传统文化融入时代、融入生活,更好地满足数字时代人们对于中华传统文化持续高涨的热情和需求。

进而,在全新的数字经济时代,中华文化内容产业基于古籍大数据,借助元宇宙数字科技,将有可能彻底突破传统媒介格局,构建全新数字内容生态,“创造性复原”书写在古籍里的“人、货、场”,实现中华文化的人、场景、叙事的全面数字孪生到数字原生再到虚实共生,最终实现中华文化元宇宙的宏伟愿景。

三、“新文献观”对文献学专业研究与教学模式变革的启示

如前所述,正因为每当有一种新的具有更高时空维度与更多感官意识维度的人类符号技术出现后,此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”,并依托其更加丰富的维度与感官进行持续不断地“扩写”与“创写”,这也直接导致人类符号技术的每一次变迁都引起文化形态与学术范式的升级转型。落实到当下的大学教育而言,数字人文可以被视为数智化时代人文与科技融合发展的前沿学术阵地,或许正可以塑造未来大学教育的新形态。

(一)文献学作为一门学科在近代中国的诞生

中国传统学问虽然也有分科,但主要是从研究主体而非客体乃至方法的角度来划分,是学派而非专业。清中后期汉学发达,开始出现专门化的倾向,如龚自珍在为《阮元年谱》作序时概括出了训诂之学、校勘之学、目录之学、典章制度之学、史学、金石之学、九数之学、文章之学、性道之学、掌故之学十个方面,但总体而言这些所谓的“专门”还处于萌芽的阶段。[17]

直至19世纪末以后,“中华民族到了最危险的时刻”,这引发了国人关于中西古今之争的深刻反思,也激发了从制度到思想的全面扬弃与重建。在学术和教育领域,古典的经学、礼教在现代学制中毫无生存空间,文以载道的圣人之学被彻底革除,西学东渐的大潮席卷而下,从自然科学到社会科学乃至人文学科,无不是建立在西方现代学科分类、研究范式和教育体系的基础之上的。在此“三千年未有之大变局”中,中国历代传统之学在大学体制中被摒弃,经史子集被肢解为文献学、语言学、哲学、史学等。1920年,梁启超在《清代学术概论》中首次提出“文献学”的概念;随后《中国文献学概要》的出版开始从学科的角度阐述文献学的内涵;陈垣、王国维、顾颉刚、罗振玉等一大批学者推动了文献学学科体系的创建。

(二)分科而治导致的“人”与“学”之分

在更广阔的历史和地理空间上考量,工业革命后职业教育对传统大学教育的冲击,以及以洪堡思想为代表的研究与教学相结合的新型大学潮流,使得德国逐渐成为当时世界教育和学术的中心。但与之相对的,作为“牛津运动”代表人物的英国主教纽曼在其著名的《大学的理念》中重新阐释了知识的分类,并在此基础上提出大学的本质在于心智的培养,从而提醒人警惕知识之恶。

与之遥相呼应的,清末新政中出台的我国第一个真正实行的现代教育体系——“癸卯学制”,其所设定的教育宗旨即为“端正趋向,造就通才”,即使是对立足于专门教育的大学堂,仍贯彻着“通”的理念。一方面,专门之学是通经致用的工具;另一方面,治学的目的是立人,学问只是成为“通人”的工具。[18]

正如钱穆先生所言:“在中国传统知识界,不仅无从事专精自然科学上一事一物之理想,并亦无对人文界专门探求某一种知识与专门从事某一种事业之理想。因任何知识与事业,仍不过为达到整个人文理想之一工具,一途径。若专一努力于某一特殊局部,将是执偏不足以概全,举一隅不知三隅反,仍落于一技一艺。”[19]他以此批评西方近代的学科分立时说道:“即就西方近代传授知识之大学言,分科分系,门类庞杂,而又日加增添。如文学院有文学史学哲学诸科系,治文学可以不通史学,治史学亦可不通文学。治文史可以不通哲学,治哲学亦可不通史学文学,各自专门,分疆割席,互不相通。……要而言之,则可谓之不明大体,各趋小节。知识领域已乱,更何论于人事。”[20]在前后断裂的历史大潮中,知识层面的整理国故,以及西方导向的分科而治,目光指向的只能是专精而非博通、保存而非应用、批判而非创新。

(三)新时代提供了“文”与“献”合璧的可能性

时至今日,变局再现。这一次,工业文明经历了几十年的后工业过渡,终于开启了数字智能时代的大门。人类信息环境正在发生根本性的改变,人类文明记录和传播方式的大规模变革势必引发文明本体的重建和知识谱系的改写。以本文“新文献观”的视角来看,人与世界是一个具有历史性和当代性的整体,“文”正呈现出对“立人”的重视与回归,“献”则经历了知识生产方式的不断迭代,不论是对于文献学专业的研究和教学,乃至更广阔范围上的大学教育,都具有深刻的启发意义。为此,本文认为应该努力做好如下“三合”。

第一是专业与通识的结合。工业时代,专业教育的重要性毋庸置疑,大学为工业化的全面胜利贡献了最重要的人力基础和技术创新。同时,相伴而生的通识教育也一直在呼吁人本主义的回归,抵抗着过度专业化给人带来的异化和禁锢。但近年来,数字鸿沟、算法黑箱和信息孤岛似乎进一步强化了专业教育的卓越性,数字智能时代的技术主义与全球主义对通识教育带来了巨大的冲击和挑战。[21]因此,大学的通识教育更应与专业相结合,走出一条专业基础上的通识之路。这不仅是因为专业教育本身已经从工业文明的摇篮跃迁为智能社会的航母,更是源于通识教育开始卸下西方“普世价值”的面具,转而深入探讨数字智能时代的“人”的本质属性。

具体而言,通识教育模式的重心在于对经典文献的研读,这恰是对一个时代经典问题的凝练、思考和解答。数字化时代的文献学更强调对于文献的跨时空、跨学科理解,不仅是知识形态的改变,更激活了其内涵的文化精神,建构出“历史—当代”相连接的当代性意义世界。这就使今日的通识教育不再局限于一般的或者说以西方价值为内核的公民教育和批判精神,转而推动个体的社会化、本土化,高扬科技与人文的交叉,塑造一种具有超越性的共同体意识,最终培养出符合“君子不器”的、可以创造和驾驭“苏东坡数字人”这一类新型成果的复合式、高层次、战略性未来人才。

第二是基础与应用的融合。2023年2月,习近平总书记在主持中共中央政治局第三次集体学习时,着重阐述了强化基础研究的重要性,强调要有组织推进“战略导向的体系化基础研究、前沿导向的探索性基础研究、市场导向的应用性基础研究”[22]三种基础研究。尤其是“应用性基础研究”的提法更是直指“学”与“用”相分裂的痼疾——而这一点在传统的人文领域更是以“无用即大用”为由成了一种自傲。实际上,基础是源头,应用是牵引,从“文”到“献”的内化正是在应用转化的过程中实现的。尤其对于人才培养来说,如果没有(广义上的)就业前景,这个学科几乎就丧失了存在的合法性。以应用为导向的基础研究和人才培养,更加明确了目标指向和评价标准,倒逼综合改革的落地,打通了大学与社会的互动链条。

因此,一方面,数字文献学是应用数字技术来研究文献,另一方面,这也是数字技术为文献学开创了广阔的应用空间,促使其更好地服务于学术研究和社会大众,从而激活其生命力和生产力。从前述“苏东坡数字人”案例就可以看出,权威的古籍数据与专业的学术研究是基础、是源头,但如果没有数字科技的应用转化与产业赋能,这些数据就无法成为生产资料,最终也就无法形成生产力;与此同时,“苏东坡数字人”在媒体传播、城市IP发展、展览展示、文旅商融合以及人工智能驱动等方面面临的新场景、新机遇,也反过来对古籍数据的数据挖掘与知识服务、数字人人工智能的情感模型等新领域提出了更多更新、前所未有的技术与理论需求,这又引导和推动了对应学术研究的发展与创新,最终形成基础与应用融合的正反馈循环。

第三是传承与创新的综合。从推动中华优秀传统文化创造性转化、创新性发展,到把马克思主义基本原理同中国具体实际相结合、同中华优秀传统文化相结合,再到建设中华民族现代文明,习近平文化思想不断将文化传承与创新的理念推向新高度。《中庸》讲“父作之,子述之”,《论衡·对作》有“圣人作,贤者述”,“作”为创新,“述”为传承。创新需要积累,需要专业的、跨学科的、跨文明的视野,需要发现问题,更需要具有使命感。创新与传承互促共生,创新因传承而生机绵延,传承因创新而波澜壮阔。这不仅是历史与未来相逢于当下,更是作者与读者、师与生、数与文的相互成就。大学教育的本质即在于人类文明基因的复刻和进化,既追求永恒不变的“形而上者谓之道”(《易经》),又以求新求变的“圣之时者”为典范(《孟子》)。

于“苏东坡数字人”而言,它既是对历史文化名人苏东坡的“复原”,又要努力实现文化意义上的“复活”,前者是传承,后者是创新,二者缺一不可。所谓“复原”意味着“苏东坡数字人”拥有苏东坡的全部知识、记忆、史实、精神等,所谓“复活”意味着“苏东坡数字人”要融入当今的时代,用他独特的精神面貌、思想深度、批判视角和人文情怀去对当下时代、当今世界进行活生生的观察、判断、表达乃至行动、实践,进而用苏东坡的文化精神来产生现实的影响和改变。

四、结语

随着时代的发展,“文献”一词的含义在不断变化。本文立足于“文献”概念原初含义的理解框架,将“文”与“献”纳入一个整体框架来进行理解,通过引入文化哲学、技术哲学的新视角探索一种新的“文献观”表达,即“文献”是一个符号系统,是人类进行一切生命活动的符号化记录。从文化哲学的视角,人是符号的动物,符号是人区别于动物的一个显著特点;从技术哲学的视角,符号是人体感官的外化与延伸,作为人与世界的中介的符号及其能力也可以被视为“符号技术”。

人类符号技术的发展史其实就是人类文化的发生史,数字文献技术这一作为人类思维与智能的外化与延伸的符号技术已成为当今人类符号技术发展的大势所趋,并使得数字人文成为必然。中华书局立足自身深厚的文化积淀与数字文献技术优势,首创研发了全国首位3D超写实历史文化名人“苏东坡数字人”,并从中摸索出了一些古籍文献数字化应用的全新方法论——这也必然伴随着人才培养的探索与创新。

落实到当下的文献学专业研究与教学而言,为了避免近代以来分科而治所导致的“人”与“学”之分,培养出既具有文史知识积淀和传统淑世情怀、又具有现代科技视野和基本数字素养的新生代学人,就需要做好专业与通识的结合、基础与应用的融合、传承与创新的综合,最终,在数字人文时代的新视野下,抓住机遇、守正创新,塑造未来大学教育的新形态。

The “New Document Perspective” in the DigitalHumanities Era and Its Implications for the Reform ofDocumentary Studies Education: A Case Study of ZhonghuaBook Company’ s “Su Dongpo Digital Human”

Guo Lin, Wang Jian

Abstract: In traditional Chinese culture, the concept of “wenxian” encompasses both the meaning of ancient classics and records (“wen”) and the scholars who master these classics (“xian”). However, the later discipline of documentary studies has, to some extent, lost the “human” dimension. To provide an understanding framework that is more aligned with the original connotation of “wenxian” and better suited to the current era of digital humanities, this paper attempts to introduce new perspectives from cultural philosophy and technical philosophy to propose a new “view of wenxian”, striving to integrate “wen” and “xian” into a holistic framework for interpretation. From the perspective of cultural philosophy, humans are the animals of symbols; from the perspective of technical philosophy, symbols are the externalization and extension of humans. Humans can create symbols and thereby create culture, and “wenxian” is precisely a symbolic system that relies on the symbolic writing and media technologies of the corresponding era. In the new era of digital humanities, the application of digital documents has become increasingly widespread. Digital document technologies have made the creation of digital humans of historical and cultural celebrities not only possible but also inevitable. At the same time, changes in symbolic technologies will inevitably lead to the upgrading and transformation of cultural forms and academic paradigms. Currently, the reform of research and teaching models in university documentary studies programs needs to strive to integrate professionalism with general education, basic theory with practical application, and inheritance with innovation. Only in this way can we shape a new form of future university education, create more outstanding cases like the “Su Dongpo Digital Human,” and effectively promote the creative transformation and innovative development of China’s excellent traditional culture.

Keywords: Cultural Philosophy; Technical Philosophy; Document Perspective; Digital Human; Documentary Studies; Digital Humanities

编辑 | 耿弘明

向上滑动 查看注释

[1]朱熹:《四书章句集注》,北京:中华书局,1983年,第63页。

[2]刘宝楠:《论语正义》卷3,北京:中华书局,1990年,第92页。

[3]杨伯峻:《论语译注》,北京:中华书局,2017年,第27页。

[4]恩斯特·卡西尔:《人论》,甘阳译,上海:上海译文出版社,2004年,第37页。

[5]恩斯特·卡西尔:《人论》,第38页。

[6]恩斯特·卡西尔:《人论》,第44页。

[7]郭明哲:《恩斯特·卡普:技术哲学奠基者》,《理论界》2008年第7期。

[8]黄旦:《延伸:麦克卢汉的“身体”——重新理解媒介》,《新闻记者》2022年第2期。

[9]赖黎捷、李明海:《从“人体延伸”到“思维延伸”:麦克卢汉与凯文·凯利技术哲学述评》,《重庆师范大学学报(哲学社会科学版)》2014年第6期。

[10]刘石:《文献学的数字化转向》,《文学遗产》2022年第6期。

[11]王军、张力元:《国际数字人文进展研究》,《数字人文》2020年第1期。

[12]习近平:《加强文化遗产保护传承弘扬中华优秀传统文化》,《求是》2024年第8期。

[13]贝奈戴托·克罗齐:《历史学的理论和实际》,傅任敢译,北京:商务印书馆,1997年,第3页。

[14]刘石:《文献学的数字化转向》,《文学遗产》2022年第6期。

[15]俞国林、王建:《数字人:用科技激活传统文化之美》,《光明日报》2023年1月4日第13版。

[16]王建、付小艳、张建丽:《从数字出版到数据产业再到内容元宇宙——传统数字出版的新型破局之路》,《出版人》2022年第11期。

[17]张寿安:《龚自珍论乾嘉学术:专门之学——钩沉传统学术分化的一条线索》,《学海》2010年第2期。

[18]郭琳:《新教育下的宗经与存古——从〈劝学篇〉和“癸卯学制”看张之洞的经学教育变革》,博士学位论文,北京大学,2017年。

[19]钱穆:《中国知识分子》,《国史新论》,北京:生活·读书·新知三联书店,2018年,第139页。

[20]钱穆:《现代中国学术论衡》,北京:生活·读书·新知三联书店,2001年,第94—95页。

[21]强世功:《数字智能时代的大学通识教育》,《复旦教育论坛》2023年第2期。

[22]习近平:《加强基础研究实现高水平科技自立自强》,《求是》2023年第15期。

点击下方链接,下载原文

数字人文时代的“新文献观”及其对文献学专业教育变革的启示——以中华书局“苏东坡数字人”为案例.pdf

如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

校对  |   肖爽

美编  |  王秀梅

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

第七届清华数字人文国际论坛“未来学者”专场报名通知

2026年4月14日 10:09

2026-04-14 10:09 北京

在人工智能技术迅猛发展的今天,数字人文领域正经历前所未有的变革。数据驱动的研究方法、跨学科的技术融合以及人工智能在文化遗产、文本分析和数据可视化等领域的应用,为学术研究带来了全新的可能性。

“未来学者”专场

人文学术的未来,寄托于未来的人文学者;也即是当下正致力于研究和探索的青年学子。为鼓励和支持本、研阶段学生投入数字人文研究,结合数字时代新方法、探索人文学术新方向,《数字人文》学术集刊持续举办第七届“未来学者”论坛,诚邀国内外的本科生、硕士生、博士生在读学生(不含博士后)投稿并参会。

期待来稿面向人文问题、结合数字方法,给出来自文学、历史、哲学、社科、艺术、教育、传播乃至政治学、图情档案等各个领域的回答和发现。

本届入围者将受邀参与第七届清华大学数字人文国际论坛“未来学者”专场,获得专家指导评议及进一步研究支持,并于本刊择优刊发。

投稿须知

摘要提交截止日期:2026年5月22日

全文提交截止日期:2026年6月12日

投稿地址:

https://szrw.cbpt.cnki.net 

入围名单及参会事宜请参见后续通知。

时间地点

2026年7月10日-13日    共4天

报到7月10日

会议 7月11日—12日

赋归7月13日

上海大学宝山校区(上海市上大路99号)

合作酒店

上海衡山北郊宾馆

:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

我们期待您的参与,共同探讨数字人文的前沿议题,推动学术研究的创新与发展!

论文格式模板及要求-中文.pdf

论文格式模板及要求-中文.pdf

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

论文格式模板及要求-中文.pdf

END

公号二维码-1.jpg

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

《数字人文》2026年第1期——“数字人文与出土文献研究”专刊出新

2026年3月25日 10:02

原创 数字人文 2026-03-25 10:02 北京

《数字人文》上新了!

封面.png

《数字人文》2026年第1期是“出土文献与数字人文专刊”,系国内学界首次以学术专刊形式对出土文献等冷门“绝学”内数字人文成果的集中展示。本期共刊发12篇文章,从内容上看,包括理论探索、平台建设、个案研究和出版实践等多方面,关注甲骨和简帛的缀合、古文字识别与析形,探索天文地理,介绍数据库平台及数字化出版方式。从涉及的材料类型和时代上看,涵括甲骨文、金文、战国秦汉简帛、石刻等,跨越商周到蒙元数千年历史。这些文章,反映近几年来相关领域数字人文的成果,并加以综述,希望能对关心出土文献研究的学者提供新的视角,为数字人文拓展新的领域。本期专刊从选题确定到编校完成,历时超两年,编辑部对作者们的大力支持表示诚挚感谢,也衷心邀请更多出土文献领域采用数字人文手段进行研究的学者不吝赐稿!我们愿意为最新的实践创造发表平台,让更多新颖的、有意义的学术探索尽快公之于众。

目    录

 理论与平台

数字人文与当代中国出土文献研究的现代性特征

许  可

人工智能古文字析解模型的初步训练

聂 菲 宋奥齐

数智时代的出土文献研究:“古汉语小站”建站经验与反思

薛腾阔 

动态视图在文字编管理系统中的应用研究 

数字人文与甲骨学研究

人工智能引导人类直觉产生的甲骨新缀第41-50 组

李霜洁 蒋玉斌

数智化整理助推甲骨文校重工作新发展

莫伯峰 巩诗晨 武智融

面向识别研究的甲骨文数据集标准的探索

陈婷珠

数字人文与简帛学研究

楚简古书类文献通假研究的数据库方法

——以“清华简”(壹—玖)为中心

 孙 欣 刘志基

语料信息处理视角下的里耶秦简缀合研究

冯慧敏 郭帅帅

秦汉简帛文献数据库的建设及文字学应用

张再兴 林 岚

实践与出版

上博简五《竞建内之》“星1.png子曰为齐”考

——基于天象模拟技术的探析

李 凡

蒙元时期石刻族谱文献的数字化分析

——以地域分布与时代特征为中心

王 琪 

动态视图在文字编管理系统中的应用研究 

古文字工具书的数字化转型思考与实践

——以 《古文字构形类纂·金文卷》为例

姜 慧 闵怡然 

动态视图在文字编管理系统中的应用研究 

征稿启事

CONTENTS

Theory and Platform

Digital Humanities and Modern Characteristics of Contemporary Research on Unearthed Documents in China

Xu Ke 

Preliminary Training of an AI Model for Ancient Script Analysis

Nie Fei, Song Aoqi

Research on Unearthed Texts in the Digital-Intelligence Era: The “Classical Chinese Hub” Website—Development Experience and Reflections

Xue Tengkuo

Digital Humanities and Oracle Bone Studies

AI-Guided Human Intuition Discovers New Oracle Bone Fragment Rejoinings: Series 41–50

Li Shuangjie, Jiang Yubin

New Developments in Repetition Proofi ng for Oracle Bone Inscriptions Driven by Digitalization Collations

Mo Bofeng,Gong Shichen, Wu Zhirong

Exploration of Oracle Bone Inscription Data Set Standards for Recognition Research

Chen Tingzhu

Digital Humanities and Bamboo Slips and Silk Studies

The Database Method for the Study of Ancient Literature in the Chu Bamboo Slips: Centered around the Tsinghua Bamboo Slips (1-9)

Sun Xin, Liu Zhiji

Research on Liye Qin Bamboo Slips Conjugation from the Perspective of Digital Humanities 

Feng Huimin, Guoshuaishuai

The Construction and Application of the Qin-Han Bamboo Slips and Silk Database

Zhang Zaixing, Lin Lan

Practice and Publication

Research on the “ 星1.png子曰为齐” in the “Jing Jian Nei Zhi” of “Bamboo Slips V in the Shanghai Museum”:Analysis Based on Celestial Event Simulation Technology

Li Fan

Digital Analysis of Stone Carving Genealogical Documents during the Mongolian Era and the Yuan Dynasty: Focusing on Geographical Distribution and Times Characteristics

Wang Qi

Reflection and Practice of the Digital Transformation of Ancient Chinese Character Reference Books:Taking the Compilation of Ancient Character Confi guration Categories Formations —the Volume of Bonze Inscriptions as an Example

Jiang Hui, Min Yiran

Call for Papers

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

会议通知 | “大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

2026年3月25日 10:02

2026-03-25 10:02 北京

2026年7月31日-8月3日,内蒙古师范大学,“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

——CDH2026——

 “大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

会议通知(第一号)

2026年7月31日-8月3日

内蒙古师范大学

2026期待与您相聚

当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

01

会议议题

包括但不限于:

1. 典籍重光

科技古籍与多民族文献的智慧化整理

2. 时空重构

GIS与时空大数据驱动的文明演进研究

3. 协智重塑

多智能体与具身智能的人文社会仿真

4. 谱系重绘

知识图谱与智能注释驱动的知识重组

5. 记忆重述

AIGC赋能下的文化遗产与艺术创新

6. 文脉重析

计量方法与主题模型的文本深度挖掘

7. 伦理重思

数字人文中的算法批判与负责任创新

8. 素养重育

数字人文课程体系与跨学科人才培养

9. 数字人文学科建设

02

会议信息

会议时间

2026年7月31日至8月3日

会议地点

内蒙古师范大学

(呼和浩特市赛罕区昭乌达路81号)

会议注册

本次会议将于2026年6月开放注册报名。

注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

03

征文征集

1、会议征文对象为数字人文相关专业的专家、学者与在读学生。

2、论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3、征文分为两轮,第一轮为论文摘要征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

(2)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

4、组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5、论文提交邮箱:

20250051@imnu.edu.cn。邮件标题格式为CDH2026论文摘要/全文-姓名-单位

6、摘要提交截止时间:

     2026年4月30日

     摘要录用通知时间:

     2026年5月30日

     论文全文提交截止时间:

     2026年6月30日

04

项目征集

1、本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2、所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3、请将报名表和相关附件压缩,以CDH2026项目-项目名称命名,发送至邮箱20250051@imnu.edu.cn

项目征集截止时间:

2026年5月20日

05

会议组织

主办单位

中国索引学会

内蒙古师范大学

承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

协办单位(按笔画顺序排列)

山西数字人文研究院

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

中国人民大学数字人文研究院

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

中山大学信息管理学院

中山大学数字人文实验室

北京大学数字人文研究中心

电子科技大学数字文化与传媒研究中心

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

武汉大学数字人文研究中心、武汉大学文化遗产智能计算实验室

复旦大学大数据研究院人文社科数据研究所

清华大学中国古典文献研究中心

南京大学高研院数字人文创研中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

南京大学中华文明创新实验室  (持续更新中)

媒体支持(按笔画顺序排列)

「DH数字人文」公众号

《全国报刊索引》

「全国报刊索引」公众号

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

《中国数字人文》

「中国索引学会」公众号

「SHNU 数字人文」公众号

「比特人文」公众号

《数字人文》

《数字人文研究》

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

南京大学中华文明数智创新实验室

 (持续更新中)

   有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

06

会议联络

会议邮箱:20250051@imnu.edu.cn

会务咨询:周老师 13191432051

附件

CDH2026论文格式规范与要求

2026年中国数字人文年会项目报名表

阅读原文

跳转微信打开

基于改进YOLOv8的刺绣动态检测与分类研究

2026年3月20日 10:03

原创 鲍亚林 吉国秀 2026-03-20 10:03 北京

针对现在检测和分类算法存在分类种类少、准确率低、无法满足实时检测需求等问题,本文将实时分类技术应用于传统刺绣行业,为刺绣文化研究和保护提供宝贵的算法支持。文章对现有YOLOv8算法进行改进。

多模态学习

2.png

鲍亚林 / 辽宁大学文学院

吉国秀 / 辽宁大学文学院

针对现在检测和分类算法存在分类种类少、准确率低、无法满足实时检测需求等问题,本文将实时分类技术应用于传统刺绣行业,为刺绣文化研究和保护提供宝贵的算法支持。文章对现有YOLOv8算法进行改进。首先,基于DCGAN网络均衡刺绣图像数据集,解决小样本刺绣图像类别不均衡问题。其次,将YOLOv8的主干网络替换为InceptionNeXt模块,实现在不同尺度上提取特征,增强特征提取能力;增加GAM模型作为过渡模块,在特征融合前对信息进行筛选,提升网络的特征融合能力。最后,使用改进后的网络模型对测试集进行实验,并使用图片、视频和摄像头进行离线和在线验证。实验证明,改进后的模型对10种刺绣类别的分类性能表现出色,整体平均准确率达到0.9043,平均精度达到0.9151。与其他分类检测算法相比,改进后的YOLOv8模型具有明显的优势,达到了较高的泛化能力和鲁棒性,能够满足实际应用中的实时性需求。

关键词:动态检测 刺绣分类 YOLOv8 实时分类 数字人文

作为中国传统历史文化的工艺象征之一,刺绣蕴含着丰富的文化意蕴与美学价值。在技术转型的背景下,刺绣传承的方式悄然发生改变。刺绣由以往博物馆式静态传承走向面向大众的活态传承。刺绣活态传承由囿于以往“口传心授”的谱系性方式,转向突破自身专业性和排他性的多方互动。立足于数智时代,技术是缩减主体间隔与形成文化交流的关键枢纽。借助于数智技术的传输路径,刺绣内部的专业知识扩散并渗透到民众的日常生活世界,人们在感受传统刺绣带来的意象气韵时,也在享受当代技术建构的创新实践。因此,数智技术成为刺绣回归日常生活的重要介质。

当下,非遗数据库是整合、完善非遗传承人及其代表性项目的重要系统化存储手段。非遗数据库建构的首要基础是数据的完备性。从广义上来看,数据完备性至少包括体量的充盈及分类的合理化两大方面。对于我国刺绣类非遗来说,其数据集种类多样,具备数据量庞杂的特点。但传统的刺绣分类识别主要依靠专业人员,耗时大、成本高、能力差异等因素都限制资源的合理化利用。因此,刺绣分类智能化是打破传统人工藩篱的基本思路。例如,董馥伊[1]首次引入计算机技术局部矢量化的方法,实现了传统栽绒毯纹样特征的智能检索分类。

近年来,深度学习技术被广泛地应用到刺绣分类识别领域中。刘净净、郭飞等[2]改进BP神经网络,使得模型的正确识别率高达78%,开辟了刺绣深度学习分类的先河。目前基于深度学习的刺绣研究现状如表1所示,刺绣的深度学习分类方法虽然能实现刺绣的智能检测,构建较为完善的非遗分类结构体系,但是这些方法以静态识别为主,程序烦琐、局限性大、灵活性低,尚未真正实现刺绣实时检测的功能。因此,本文旨在借助目标检测领域先进、高效、准确的YOLOv8模型[3],为刺绣动态实时视频分类提供有力支持。

def图1.png

表1 基于深度学习的刺绣研究现状[4][5][6][7][8][9][10]

针对现在检测和分类算法存在的问题,本文将计算机视觉和人工智能技术与数字人文领域结合,对现有YOLOv8算法进行改进。基于DCGAN网络均衡刺绣图像数据集,解决小样本刺绣图像类别不均衡问题;改进YOLOv8的主干网络,引入InceptionNeXt模块,实现在多个尺度上高效提取特征,从而提升特征提取能力;增加GAM模型作为过渡模块,在特征融合前对信息进行筛选,提升网络的特征融合能力。最后使用改进后的网络模型对测试集进行实验,将实验结果进行可视化分析,与现有的技术进行比较,并验证所提出的方法的有效性。同时,使用图片、视频和摄像头进行离线、在线验证。通过这一研究,为刺绣文化的传承与创新提供一种全新的技术手段,将传统手工艺与现代科技有机融合,为刺绣艺术的发展注入新的活力。本文的研究成果不仅对于刺绣文化的传承和推广具有重要意义,还将为多端部署技术在文化艺术领域的应用提供有益的参考和借鉴,其基于YOLOv8的刺绣动态检测与分类流程图如图1所示。

一、整理和优化刺绣数据集

本文的分类对象为中国传统十大名绣:汴绣、汉绣、杭绣、京绣、鲁绣、瓯绣、蜀绣、苏绣、湘绣和粤绣。每种刺绣因其历史背景和地域文化的差异,形成了独特的针法与风格,例如汴绣的“蒙针绣”、苏绣的“双面绣”、京绣的“打籽针”、蜀绣的“锦纹针”、鲁绣的“抽丝编花”、瓯绣的“八字针”、杭绣的“贴续绣”、粤绣的“乱底针”、汉绣的“齐针”和湘绣的“掺针”,都是各自绣种的工艺代表。为了构建全面的刺绣样本库,本研究的刺绣作品来源广泛,包括小红书、抖音、微博、京东等线上网络渠道和博物馆、文化馆等线下文化机构公开的数字图像资源(共计1,263件),以及刺绣大师与传承人提供的作品图像(共计152件)。此外,还补充和吸收相关刺绣艺术书籍和刊物中的高质量图片(共计315件)。所有采集的图像均经过非遗领域专家的严格质量把控与品种鉴定,以确保样本的艺术代表性和数据完整性。

图2.png图1 基于YOLOv8的刺绣动态检测与分类流程图

数据预处理技术是指在将数据输入模型之前,对数据进行一系列处理操作,以提高模型的性能和泛化能力。常见的数据预处理技术包括数据均衡、数据增强、数据标准化、归一化和数据降维等,在医学影像分析、农业检测、遥感影像等领域,已广泛应用于各类计算机视觉任务中。针对数据集样本不均衡问题,郭忠远等[11]利用DCGAN模型均衡和扩充红枣外观缺陷数据集,使得模型准确率上升2.18%—3.26%;袁卫民等[12]利用DCGAN模型,生成虚拟样本,使得准确率优于其他算法,解决了轴承故障数据不均衡的问题。同时,针对数据集样本容量较小问题,郑慧怡等[13]利用添加椒盐噪声和随机旋转技术,实现了数据样本容量的扩充。陈金荣等[14]利用翻转、亮度转换和旋转等技术扩充了数据集的总量,从而提高模型的准确率,极大地降低了漏检率。

针对当前刺绣数据集种类不均衡和样本较少等问题,本文在已有前沿方法的基础上,采用对抗生成网络技术和数据增强技术,整理和优化刺绣数据集,有效增加少样本类别的数据量,增强模型对不同类别特征的捕捉能力,从而提高分类的准确性。相比于现有前沿数据预处理方法,本文针对不同刺绣针法和图案的特点,进行优化适配,确保增强后的图像仍然保留了刺绣特有的细节和艺术性。

(一)类别均衡

由于地域和文化背景的差异,一些刺绣因其历史悠久或地理位置偏远,获取相关图像的难度较大,导致此类别的数据样本较少;而另一些刺绣因文化传播广泛、应用场景多样,相关图像较多。因此,在实际收集这些刺绣图像时,往往会面临类别不均衡的问题。在不均衡的数据集中,模型容易偏向于多样本类别,忽视少样本类别,从而导致分类结果偏向常见类别,严重影响分类的准确性和可靠性。

为了实现不同类别刺绣样本的均衡,可以考虑收集更多的小样本刺绣图像,或者减少大样本的刺绣集图像数量。但由于刺绣类别的不均衡性,获取较多的小样本刺绣图像存在较大难度。利用生成对抗网络(Generative Adversarial Networks,GAN)生成图片,可以有效解决上述问题。[15]传统GAN尽管在生成逼真图像方面表现出色,但在训练稳定性和生成图像质量上存在诸多挑战,导致模型在训练过程中容易出现梯度消失、模型崩塌和生成的样本类别不可控等现象。[16]

深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN)通过引入卷积层、批量归一化、去掉池化层、使用Leaky ReLU激活函数以及改进架构设计,显著提升了传统GAN的性能。[17]通过改进,DCGAN在生成图像质量、训练稳定性和模型鲁棒性方面表现出色,因此,本研究使用DCGAN来生成小样本刺绣图像,以缓解类别不均衡问题。为了确保传统刺绣样本和非遗数据库数据的真实性和完整性,基于DCGAN生成的刺绣图像仅作为模型训练中的辅助数据,旨在提升分类性能,而非用于非物质文化遗产数据库的核心数据保存。同时,为了保证DCGAN生成的刺绣图像在艺术性和工艺上的代表性,生成过程严格依据各类刺绣的针法和纹理特征进行,且由非遗领域专家进行审查和筛选,以确保生成图像在风格和工艺上与传统刺绣相符,从而避免偏离原有的工艺特色和文化价值。

DCGAN的结构如图2所示。从中可以看出,DCGAN由生成器和判别器组成。生成器的任务是从随机噪声中生成逼真的图像,判别器的任务是区分真实图像和生成器生成的假图像。通过生成器和判别器的反复对抗训练,不断迭代优化,两者共同提升,生成高质量的图像。

利用DCGAN生成特定类别的刺绣图像,有助于平衡数据类别,有效扩充数据集,使各类别的数据量趋于一致,从而提升模型在各类别上的分类性能。生成的刺绣图像变化情况如图3所示。

(二)数据增强

利用深度学习进行刺绣检测与分类时需要大量的刺绣图片作为训练样本,如果没有足够的训练样本支撑,当网络深度较深时就极易出现过拟合的情况。在深度学习中,数据增强是提升模型性能的一种常用手段,可以在不降低网络深度的同时又能够有效地拟合数据,提高模型的鲁棒性和泛化能力。亚历克斯·克里泽夫斯基(Alex Krizhevsky)等人[18]通过对CIFAR-10数据集的图像进行随机裁剪和水平翻转,显著提高了分类准确率。西哈姆·塔比克(Siham Tabik)等人[19]则在手写数字识别任务MNIST数据集中使用了扭曲和缩放等变换手段,成功提升了模型的表现性能。

在刺绣图像分类领域,目前的研究主要集中在特征提取和模型设计方面,对于数据增强的研究较为有限。刺绣作为一种兼具生命情感与审美意象的手工艺,其图案庞杂丰富,但由于刺绣图像收集和标注的困难,训练样本通常较为有限。为有效缓解这一问题,支撑更深的神经网络训练,本研究采用常见的数据增强方法,包括旋转、水平翻转、垂直翻转、随机裁剪、随机改变亮度和添加高斯噪声。[20]在数据预处理阶段,对原始刺绣图像应用上述增强方法,提高模型分类性能、防止网络过拟合,并生成新的训练样本,部分刺绣数据增强示例如图4所示。

图3.png图2 DCGAN结构

图4.png图3 刺绣图像生成过程示例

图5.png图4 部分刺绣数据增强示例

原始数据集分别按照0.7、0.2和0.1的比例随机分为训练集、验证集和测试集。原始刺绣数据集、刺绣增强数据集和经过DCGAN均衡后的刺绣图像图幅数如表2所示。

图6.png表2 均衡和生成数据集划分情况

二、YOLOv8原理及改进

(一)网络结构设计

在目标检测算法中根据检测过程的不同,可以分为双阶段算法和单阶段算法。双阶段算法先提取图像候选区域再进行类别的判定,其漏识别率较低,但速度较慢,典型网络有RCNN和Faster-RCNN。[21]单阶段算法则不需要产生候选区域阶段,一步到位直接产生物体的类别概率和位置坐标值,经过单次检测即可直接得到,因此有着更快的检测速度,最典型的是YOLO系列算法。[22]考虑到刺绣在线检测的实时性,因此采用YOLO算法来分类刺绣图像。

YOLOv8是由Ultralytics公司于2023年1月发布的一种目标检测算法,[23]本研究基于YOLOv8算法,旨在对十种刺绣图像进行分类。针对当前YOLOv8算法存在的分类准确率不足等问题,我们对其进行了改进,以提高刺绣分类的准确度。为增强多尺度信息提取能力,我们将YOLOv8的主干网络替换为InceptionNeXt模块,从而提升特征提取的性能。通过引入并行卷积操作,模型能够捕捉到更多的图像细节和上下文信息,从而提高特征提取的效率和整体性能。在原始的YOLOv8中,主干网络提取特征后,直接将其输入到颈网络。尽管YOLOv8在特征融合方面已有一定设计,但对于关键信息的针对性提取和识别仍显不足。因此,我们引入全局注意机制(Global Attention Mechanism,GAM)模型作为过渡模块,在特征融合前对信息进行筛选,以增强关键信息的识别能力。

1.InceptionNeXt模块

InceptionNeXt模块在ConvNeXt和Inception架构的基础上进行了一系列改进,同时引入更优化的模块设计,适用于图像分类、目标检测等多种计算机视觉任务。[24]用InceptionNeXt模块取代原有的C2F模块,可以实现在提高模型特征提取能力的同时,不额外增加网络参数数量。InceptionNeXt通过并行卷积操作(3×3,1×11,11×1)在不同尺度上提取特征,同时引入跳跃连接并添加了常量映射,这种分解不仅有效减少了参数量和计算量,还保留了大核深度卷积的优点,扩大了感知领域,提高了模型性能。InceptionNeXt模块的主要结构如图5所示。

图7.png图5 InceptionNeXt模块结构图

2.GAM注意力机制模块

近年来,注意力机制已成为目标检测任务中的关键组成部分。[25]注意力机制的灵感来源于人类视觉系统,能够筛选大量信息并找到重要数据。GAM注意力机制模块使用通道注意力机制和空间注意力机制,通过关注全局信息和局部信息的交互,增强特征表达能力,并广泛应用于图像分类、目标检测等计算机视觉任务,其结构如图6所示。GAM通过引入全局和局部的注意力机制,对全局上下文信息进行引导,调节局部特征的表达,提升网络对重要特征的捕捉能力,最终提高网络的识别和分类能力。[26]对于给定的输入特征,图8.png,中间状态特征F2和输出特征F3定义为:

图9.png1)

其中,00.png表示按元素进行乘法操作。

图10.png图6 GAM注意力机制模块结构图

3.改进后的网络结构

改进后的网络结构如图7所示,使用刺绣增强均衡数据集,将输入的刺绣图像首先通过主干网络部分逐步提取特征。在主干网络部分中,刺绣图像特征通过5个卷积模块、4个InceptionNeXt模块和1个SPPF模块后,得到不同尺度的特征图。再由颈部网络将不同尺度的刺绣特征图进行融合,最后头部网络根据分类需求输出预测结果以及置信度。改进后的网络结构通过多尺度特征提取和全局特征交互与融合等操作,提高了目标检测与分类的性能和鲁棒性,并在复杂场景下取得更准确的分类结果。

图11.png图7 改进后的YOLOv8网络结构

(二)超参数设置

本研究模型在CPU(Intel Core I7-12700K,20线程,3.6GHz)和GPU(NVIDIA RTX 3070,8GB,5888CUDA)上进行训练,使用Adam作为模型的优化算法。为加速网络收敛,避免网络陷入局部最优解,学习率自适应调节方法,其超参数具体设置如表3所示。

图12.png表3 超参数设置

(三)评价指标

在图像分类问题中,通常使用二元交叉熵损失函数(Binary Cross Entropy,BCE)作为分类损失函数。[27]在刺绣十分类问题中,BCE的梯度形式更优,训练时更加稳定,训练输出时对每一种类别k进行判断,并输出置信度,其公式如(2)所示:

图13.png(2)

其中,yi为第i刺绣样本的真实类别,pi为网络对刺绣样本i的预测类别。

为了能够有效评估改进后的YOLOv8模型对刺绣的检测和分类结果,本研究采用召回率(Recall)、准确率(Accuracy)、精度(Precision)、F1值(F1-Score)和AP作为评价指标。上述五种评价指标均为数值越大,代表模型的分类性能越优,公式如下所示:

图14.png(3)

图15.png(4)

图16.png(5)

图17.png(6)

其中,TP为真正例,表示模型正确地将类别k的刺绣样本预测为类别k;TN为真负例,表示模型正确地将不属于类别k的刺绣样本预测为不是类别k;FP为假正例,表示模型错误地将不属于类别k的刺绣样本预测为类别k;FN为假负例,表示模型错误地将属于类别k的刺绣样本预测为其他不是类别k的类别。

图18.png(7)

以召回率为横坐标,精度为纵坐标,便能绘制出精度召回率(Precision-Recall,P-R)曲线。P-R曲线与横纵轴围成的面积代表对应刺绣类别的AP。其中,围成的面积越大,AP值就越高,对应模型的检测效果就越好。

为了防止模型出现过拟合状态,采用早停法策略确定合适的训练周期。[28]假设Eopt(t)是在第t个周期下的最优验证集损失值,GL(t)为泛化误差。当泛化误差GL(t)的增长率大于指定值001.png时,则停止训练,如公式(8)所示:

图19.png(8)

三、实验结果可视化分析

(一)训练结果可视化

1.损失曲线

图8展示了改进后的YOLOv8模型在训练过程中随着迭代周期次数的增加,训练集和验证集损失值的变化趋势。从图8可以看出,由于前期学习率较大,导致模型在验证集上的损失曲线出现震荡,但总体呈下降趋势,表明模型在持续学习特征并不断地进行优化。在第25个周期后,预测损失的偏差逐渐减小。在第40个周期后,验证集的损失值逐渐趋于稳定,并在第45个周期左右基本达到收敛状态。选择在验证集上损失值最小时的权重,即第48个周期下的权重作为模型最终权重。

图20.png图8 训练集与验证集损失曲线

2.分类结果评价指标

将测试集的刺绣图像输入到最终的分类模型中,检测改进后的YOLOv8模型的分类效果,其刺绣分类结果评价指标如表4所示。再对表4的内容进行可视化分析与展示,其结果如图9所示。

图21.png表4 改进后的模型刺绣分类结果评价指标

图22.png图9 刺绣分类结果评价指标柱状图

从图9中可以看出,刺绣分类模型在各个类别上表现出色,整体平均召回率为0.90434,平均准确率为0.90434,平均精度为0.91505,平均F1值为0.90751,平均AP达到0.96889。鲁绣、京绣和蜀绣表现尤为突出,鲁绣的各项指标几乎达到最佳。汉绣、瓯绣和湘绣在各项指标上表现均衡,特别是汉绣的精度和AP较高,显示出较强的分类能力。而杭绣虽然精度较高,但是其召回率较低,表示模型可能遗漏了部分真正例。从整体来看,改进后的分类模型在大多数刺绣类别上能保持高识别精度和召回率。

3.分类结果可视化分析

图10展示了改进后的分类模型在不同刺绣类别上的混淆矩阵,图11展示了不同刺绣类别的P-R曲线。从图10的混淆矩阵可以看出,改进后的分类模型在大多数刺绣类别上的分类表现较好,特别是鲁绣,其主对角线上的值较高,表明这一类别的样本大部分被正确分类。然而,对于汴绣和湘绣,存在较明显的分类错误,其他类别的样本被误分类为这些类别的频率较高,说明模型在这两个类别上的区分能力有待提升。

图11的P-R曲线进一步展示了模型在不同阈值下的精度和召回率之间的权衡关系。曲线上每个点表示在对应召回率下的最大精度值,当P=R时对应的阈值点即为均衡点(Best Event Point,BEP),BEP越大,则说明模型对此类别的分类性能越好,即P-R曲线越靠近右上角。对于综合混淆矩阵和P-R曲线的分析,证明改进后的分类模型整体性能较好,能够较准确地分类大部分刺绣类别。对于鲁绣,模型的分类效果几乎没有误分类。尽管杭绣的P-R曲线明显低于其他类别,表明模型在识别杭绣时的效果不佳,但其精度较高,使得在目标检测过程中有较好的性能。改进后的模型在对刺绣图像的识别和分类的表现稳定且优异,这表明模型在处理大部分刺绣类别时已经达到了较高的精度和可靠性,展示了很强的泛化能力和鲁棒性,能够满足实际应用中的需求。

图23.png图10 混淆矩阵

图24.png图11 P-R曲线

t-分布随机邻域嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)[29]是一种用于高维数据降维的非线性算法,特别适用于在二维或三维空间中可视化高维数据。由劳伦斯·范德马滕(Laurens van der Maaten)和杰弗里·辛顿(Geoffrey Hinton)于2008年提出,t-SNE通过将高维数据点嵌入到低维空间中,同时尽可能保持相似数据点的邻近关系,因而广泛用于数据可视化和探索性数据分析。t-SNE首先在高维空间中计算数据点之间的相似度。对于每对高维数据点i和j,t-SNE使用基于高斯分布的条件概率图25.png表示数据点j在给定数据点i的情况下作为邻居的概率,如公式(9)所示:

图26.png(9)

其中,图27.png是根据数据点i的局部密度自动调整的,k是所有数据点的索引(除去数据点i本身)。

在低维空间中,t-SNE使用类似的方法计算数据点基于学生氏t分布,yi和yj之间的相似度qij的关系如公式(10)所示:

图28.png(10)

其中,yk和yl表示降维后的数据点。t-SNE通过最小化高维空间和低维空间相似度分布之间的Kullback-Leibler散度[30],使得低维空间中的数据点配置尽可能反映高维空间中的邻近关系,实现高维数据的有效降维,从而成为数据科学和机器学习领域的常用工具之一。将YOLOv8模型的颈网络输出特征图作为输入,基于t-SNE算法进行高维数据降维,原始网络和改进后的网络的降维结果可视化如图12所示。

图29.png图12 t-SNE降维可视化

对于t-SNE降维结果,在理想情况下,同一类别的刺绣样本会聚集在一起,不同类别的刺绣样本应该形成相对清晰的簇,簇与簇之间有明显的间隙。由图12可知,使用原始YOLOv8模型对刺绣进行分类,降维结果表明模型对不同类别的刺绣在二维空间中有一定程度的分离,例如,汴绣和鲁绣有较为明显的聚集区,表明这些类别的样本特征较为一致。但图中存在一些不同类别之间的重叠,特别是在图的中央区域,湘绣和京绣的样本较为紧密地聚集在一起,表明这些类别内部的样本特征相对一致,原始YOLOv8模型没能有效提取到这些刺绣的独特特征,表明模型在区分这些类别时存在一定困难。而对于粤绣,其簇分布较为分散,表明该类别的样本特征差异较大,分类效果不理想。

改进后的YOLOv8模型进一步优化了特征提取部分,使得同一类别的特征更加一致,不同类别刺绣的特征更加可分离、类别分布更加集中、边界更加清晰,各个团簇之间的间距也更加合理,这将有利于模型区分不同类别的刺绣。对于部分类别的刺绣,如湘绣和京绣,在降维图像不同区域形成了多个相对独立的小团簇,表明这些类别的刺绣存在多种独特特征,其特征分布存在一定的异质性。改进后的模型从可视化角度权衡分类性能表现,分类效果更加理想,有助于提高模型对于不同类别刺绣的识别准确性和稳定性。这种优化使得模型更能够捕捉到刺绣类别之间的微妙差异,有效地区分湘绣和京绣等部分类别的刺绣,并且能够在降维图像中形成相对独立的小团簇,进一步凸显了这些类别之间的特征差异和异质性,从而提高了模型的泛化能力和分类精度。

(二)消融实验结果及分析

表5为消融实验结果,采用准确率、精度和F1值作为评价指标,并对使用不同数据集训练的结果进行比较。从表5可以看出,采用原始刺绣数据集的YOLOv8的准确率仅为52.02%,说明在少量刺绣样本的数据集下,YOLOv8对刺绣图像的分类效果较差。B和C都是对数据集的数据增强,从表中可以看出,当数据集采用刺绣增强数据集时,B较于A的准确率提高了30.02%,精度提高了62.2%,说明模型泛化能力增强。C是在B的基础上引入了刺绣增强均衡数据集,训练数据量显著增加了,模型的训练效果也进一步提升,准确率随之提高,达到了70.15%,增强了模型的稳定性。

D在YOLOv8中引入了InceptionNeXt模块,准确率为85.74%,相较于C,提高了22.22%,F1值为89.74%,提高了18.37%,说明模型提取了有效的特征,提高了分类准确率。E为YOLOv8中引入了GAM模块,准确率为84.88%,相较于C,提高了21%,F1值为89.17%,提高了17.62%,说明GAM模块通过关注全局信息和局部信息的交互,增强特征表达能力。F为本研究改进后的YOLOv8模型,在C的基础上,准确率、精度和F1值分别提高了28.91%、27.04%和19.71%。准确率达到最大值90.43%,比D和E分别提高了5.47%和6.54%。

图30.png表5 消融实验结果

(三)与其他网络对比实验分析

为了验证本研究改进后的YOLOv8模型的分类性能,本文选取LeNet[31]、AlexNet[32]、VGGNet[33]、ResNet[34]、Inception[35]和Xception[36]经典分类网络进行比较。以上6个网络均使用相同的网络参数和软硬件平台进行训练。表6为本研究改进后的YOLOv8模型和其他经典分类网络模型对十种刺绣分类的实验结果,粗体表示评估指标的最佳值。从表6中可以看出,本研究提出的方法在所有指标都达到了最优值,表明该模型对十种刺绣的分类表现出了优越的性能。

图31.png表6 与不同经典分类网络的对比结果

本研究选择刘净净等人改进的MLP网络[37]、周泽聿等人改进的Xception-TD网络[38]和刘羿漩等人改进的DenseNet网络[39]进行比较,比较结果如表7所示。可以看出,本研究提出的方法支持最多10种类型刺绣图像,且同时支持在线检测,除了准确率指标外,其余指标均达到最优值。

图32.png表7 与不同改进分类网络的对比结果

四、实验结果检测验证

(一)静态图片验证

随机从刺绣图像测试集中选取不同种类的刺绣图像作为验证样本,进行基于CAM(Class Activation Map,类激活映射)热力图的可解释性分析。CAM热力图是一种用于解释卷积神经网络决策过程的可视化技术,它通过突出输入图像中对最终分类结果最有贡献的区域,帮助研究者和用户理解模型在做出决策时关注的部分。[40]

首先将输入的刺绣图像通过神经网络中的多层卷积和池化操作,提取出包含不同区域空间信息和语义信息的高层次的特征图。在特征提取之后,通过全连接Softmax层进行处理,以输出每个刺绣类别的概率。同时在训练过程中进行权重映射,将每个特征图的权重wc与其对应的特征图进行加权求和,然后进行ReLU操作,其公式如下:

图33.png(11)

其中,fx(x,y)表示第k个特征图在位置(x,y)的值。最终生成一个与输入图像大小相同的CAM热力图,并将其与原始图像叠加,以直观地显示不同区域对最终分类决策贡献程度,不同随机刺绣样本检测结果及热力图如图13所示。

图34.png图13 静态图片检测结果及热力图

从图13中可以看出,改进后的模型在对杭绣进行分类时,主要关注作品中光滑的针脚和细致的纹理部分。杭绣针法以精细、柔和的细节处理著称,特别是对眼部线条和光影的处理,采用对口、走势、平金、吊角、提金、拨路、盘棕等二十余种技法,创作出的作品具有光泽、平整、顺滑、洁净、巧妙的特质。热力图中亮度最高的区域集中在猫眼周围,表明模型识别出这部分刺绣的细腻和顺滑之处,这与杭绣针法柔中带刚的特征相一致。针对汴绣的图样,模型的关注点集中在人物的服装和发饰部分,热力图高亮区域表明模型识别出蒙针和滚针绣律动、庄重的表形效果,这与汴绣针法精致细腻、稳静柔和的特点相吻合。鲁绣针法强调虚实结合,通过通镶拼、花边、小扣锁、绣花等技法,使不同针法和谐统一,作品层次清晰、色调淡雅,呈现出浮雕般的立体效果,给人以深邃而生动的视觉体验。针对鲁绣作品,模型特别关注了图案中层次分明、浮雕般的刺绣部分。热力图显示,模型对这些立体感强烈的部分给予了高度关注,这正是鲁绣通过虚实结合和不同针法的巧妙运用所体现出的特点。在京绣分类中,模型重点关注了作品中富有宫廷风格的金线和色彩鲜艳的图案。热力图的高亮部分集中在图像的边角处,覆盖了具有端庄质朴、绣线配色鲜艳而不俗的区域,这与京绣针法强调华贵典雅和“平金打籽”的特征相一致。

改进后的YOLOv8分类模型在四种刺绣图像上均能准确识别出对应的刺绣类型,能够正确地关注到刺绣图像中的典型区域,这些区域包含了刺绣的重要细节和特征,显示了其在特征提取和分类上的有效性。

(二)离线视频验证

刺绣视频是由一系列连续的图像组成,在进行视频分类检测时,通常会将视频数据拆解成单帧图片,并对单帧图片进行提取,转换成一系列静态图片,然后将静态图片输入到模型进行独立分类。由于视频的每一帧都会得到一个独立的分类结果,通常需要对这些结果进行整合,以获得最终的分类结果。本研究使用多数投票法对分类结果进行整合,[41]分别统计每种刺绣类别的出现频率,再整合所有帧的分类结果,实现对视频内容的准确分类。

视频测试集选取4段长度在13秒至28秒的刺绣展示片段,使用视频处理库OpenCV[42]将视频文件打开,并转化为RGB格式,输入到改进后的分类模型中,执行前向预测,并生成CAM热力图,结果如图14所示。

从图14中可以看出,在对湘绣视频的分类过程中,热力图显示模型主要关注熊猫的头部区域(左上)和梅花部分(右上)。这部分图像的针法异样,柔中带刚,粗中呈细,线隐针藏,体现了湘绣独有的全异绣和鬅毛针等针法的特点。针对蜀绣视频的分类,模型的关注点集中在山峦的边缘和顶部区域。热力图的高亮部分表明模型识别出这些区域所展示的晕针和掺针技法所形成的柔和渐变效果,这与蜀绣“针脚整齐、线片光亮、紧密柔和”的技艺特点相吻合。在粤绣视频的分类中,热力图显示模型的关注点主要在作品中表现物象肌理的部分,特别是凤凰羽毛的细节。这些区域展示了粤绣中的平针和乱底等针法,表现了复杂的肌理和图案设计,进一步凸显了粤绣在针法运用上的灵活性与独特性。所有四个刺绣视频的预测结果都与实际结果一致,进一步验证了改进后的YOLOv8模型在刺绣分类任务中的高准确性和可靠性,为刺绣视频分类提供了一种可靠的实现途径。

(三)在线验证

基于摄像头的在线分类技术可以实现对刺绣作品的实时检测和分类,自动采集和记录每件作品的分类信息,从而构建一个完整的刺绣数据库。这些数据可以用于后续的分析和研究,如优化生产工艺、改进设计方案和市场需求预测等。该实时检测系统主要由摄像头、图像处理单元、刺绣检测与分类算法、数据存储系统和用户界面组成。摄像头用于实时采集刺绣作品的图像数据,本研究选取海康威视的工业面阵相机,型号为MV-CU013-A0GC,以确保图像的细节清晰度和质量。图像处理单元负责对摄像头捕获的图像进行预处理,包括图像去噪、裁剪、尺寸调整和颜色校正等,通常配备GPU加速,以支持实时图像处理和深度学习模型的推理。刺绣分类算法使用本文改进的YOLOv8深度学习模型。数据存储系统负责存储每一件刺绣作品的分类信息和对应的图像数据。用户界面提供一个图形化界面,用于监控刺绣作品的检测和分类过程,用户可以实时查看分类结果、图像数据和统计信息。为提高资源使用效率,图像处理单元由个人计算机组成,搭载英特尔I5-12500H处理器和512GB固态硬盘,满足存储和算法运行的要求。

通过使用cv2库函数,调用生产线或非遗工坊的摄像头,实时捕捉每件刺绣作品的图像。将捕获的图像传输到图像处理单元,进行预处理,以确保图像质量适合后续的分类任务。预处理后的图像由刺绣分类算法进行特征提取,提取图像中的关键特征,再对提取的特征进行进一步分析,实现对刺绣作品的实时分类。最后,将分类结果连同图像数据一起存储到数据存储系统中,生成每件作品的唯一标识符和分类标签。本次选取10个不同种类的刺绣手工艺品(团扇、手帕、桌布和书签)共计16件,在不同角度下进行在线验证,所得到的评价指标如表8所示。

图35.png表8 不同种类刺绣在线验证评价指标

图36.png图14 离线视频检测结果

根据表8的结果,对每种刺绣作品进行6次验证后,平均置信度达到了0.9171,平均帧率为43.6FPS,超过了目标检测实时性要求的30FPS。这表明该系统不仅能够准确地识别刺绣作品,还能够在高于实时性要求的速度下进行处理。以苏绣团扇、汴绣团扇、湘绣手帕、鲁绣桌布和蜀绣书签为例,在不同角度下进行检测,检测结果如图15所示。从图15中可以看出,在不同种类、不同角度下的刺绣图像的置信度均高于0.865,改进后的分类模型可以精准检测出画面中出现的刺绣,并实时返回检测结果。

五、结论

本文基于改进的YOLOv8算法对刺绣图像进行分类,首先,基于DCGAN网络均衡刺绣图像数据集,解决小样本刺绣图像类别不均衡问题。其次,将YOLOv8的主干网络替换为InceptionNeXt模块,实现在不同尺度上提取特征,增强特征提取能力。再次,增加GAM模型作为过渡模块,在特征融合前对信息进行筛选,提升网络的特征融合能力。最后,使用改进后的网络模型对测试集进行实验,并使用图片、视频和摄像头进行离线和在线验证。

实验结果表明,改进后的算法在各个类别上分类性能表现出色,整体平均召回率为0.90434,平均准确率为0.90434,平均精度为0.91505,平均F1值为0.90751,平均AP达到0.96889。在对刺绣图像、视频和摄像头检测的识别和分类的表现稳定且优异,达到了较高的精度和可靠性,实现了较强的泛化能力和鲁棒性,能够满足实际应用中的需求。

图37.png图15 在线验证检测结果

未来的工作重点是收集更多刺绣图像,丰富不同种类刺绣数据集,让模型能够在更多样的样本上进行训练。研究使用更高效、轻量化的主干网络进行替换,来达到更高的分类精度和满足更高要求的实时性。同时将分类模型进行多端部署,开发满足桌面端、移动端(iOS和Android)和Web端的刺绣检测与分类系统,将实时分类技术与数字人文结合,有助于更好地保护和传承刺绣文化。通过数字化和系统化的管理,刺绣作品可以被详细记录和保存,为后续的文化研究和保护提供宝贵的数据支持。

将实时分类技术应用于传统刺绣行业,体现了现代技术与传统手工艺的跨领域融合与创新,不仅为传统手工艺注入了新的活力,促进了刺绣行业的现代化发展,同时也为计算机视觉和人工智能技术开辟了新的应用场景,推动了传统手工艺与现代技术的协同进步。

Research on Embroidery Dynamic Detection and Classification Based on Improved YOLOv8

Bao Yalin, Ji Guoxiu

Abstract: Aiming at the current detection and classification algorithms, which have problems such as few classification types, low accuracy rate, and inability to meet the real- time detection needs, the real-time classification technology is applied to the traditional embroidery industry to provide valuable algorithmic support for the research and protection of embroidery culture.To address these issues, this paper proposes improvements to the existing YOLOv8 algorithm.Firstly, a DCGAN network is employed to balance the embroidery image dataset, addressing the imbalance in small sample embroidery image categories. Secondly, the backbone network of YOLOv8 is replaced with the InceptionNeXt module, enabling feature extraction at different scales, enhancing the feature extraction capabilities. Additionally, the GAM model is introduced as a transition module to filter information before feature fusion, thereby improving the network’s feature fusion capabilities. Finally, the improved network model is tested on the test set, with experiments conducted using images, videos, and real-time validation via camera.Experimental results demonstrate that the improved model excels in classifying 10 types of embroidery, achieving an overall average accuracy of 0.9043 and an average precision of 0.9151. Compared with other classification and detection algorithms, the improved YOLOv8 model has obvious advantages, achieves high generalisation ability and robustness, and is able to meet the real-time demand in practical applications.

Keywords: Dynamic Detection; Embroidery Classification; YOLOv8; Real-Time Classification; Digital Humanities

编辑 | 臧杰

本文系辽宁省“兴辽英才计划”项目“新时代文化遗产保护、利用的新理念、新方法研究”(XLYC1904008)阶段性成果。

向上滑动 查看注释

[1]董馥伊:《传统栽绒毯单独纹样的特征检索与应用》,《装饰》2015年第12期。

[2]刘净净、郭飞、刘玉:《刺绣图片的计算机智能识别》,《电脑知识与技术》2012年第35期。

[3]Jia Rong et al., “Underwater Object Detection in Marine Ranching Based on Improved YOLOv8,”Journal of Marine Science and Engineering, vol. 12, no.1, 2024, p. 55.

[4]郑锐、钱文华、徐丹等:《基于卷积神经网络的刺绣风格数字合成》,《浙江大学学报(理学版)》2019年第3期。

[5]赵含笑:《基于深度学习的刺绣图像分类与识别研究》,硕士学位论文,青海师范大学,2020年。

[6]张贝:《青海刺绣纹样的边缘提取研究与应用》,硕士学位论文,青海师范大学,2021年。

[7]周泽聿、王昊、张小琴等:《基于Xception-TD的中华传统刺绣分类模型构建》,《数据分析与知识发现》2022年第Z1期。

[8]刘羿漩、齐振岭、董苗苗等:《基于改进DenseNet的刺绣图像分类识别的研究》,《计算机测量与控制》2023年第1期。

[9]李圆、陈志豪、张慧等:《基于深度学习的服装图案刺绣风格化设计探析》,《武汉纺织大学学报》2023年第5期。

[10]刘羿漩、葛广英、齐振岭等:《基于改进深度卷积生成对抗网络的刺绣图像修复》,《激光与光电子学进展》2023年第20期。

[11]Zhongyuan Guo, Hong Zheng, and Xiaohang Xu et al., “Quality Grading of Jujubes Using Composite Convolutional Neural Networks in Combination with RGB Color Space Segmentation and Deep Convolutional Generative Adversarial Networks,”Journal of Food Process Engineering, vol. 44, no. 2, 2021, pp.1-14.

[12]袁卫民、周凯峰、陈飞宇等:《数据不平衡下基于DCGAN和AMCNN的滑动轴承故障诊断方法》,《工业控制计算机》2023年第9期。

[13]郑慧怡、吴华煊、杜志强:《肠道宏基因组图像增强和深度学习改善代谢性疾病分类预测精度》,《遗传》2024年第10期。

[14]陈金荣、许燕、周建平等:《基于改进YOLOv5的红花目标检测算法研究》,《农机化研究》2025年第1期。

[15]王坤峰、苟超、段艳杰等:《生成式对抗网络GAN的研究进展与展望》,《自动化学报》2017年第3期。

[16]徐永士、贲可荣、王天雨等:《DCGAN模型改进与SAR图像生成研究》,《计算机科学》2020年第12期。

[17]Alec Radford, Luke Metz, Soumith Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks,”arXiv preprint, arXiv:1511.06434, 2015.

[18]Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” Communications of the ACM, vol. 60, no. 6, 2017, pp. 84-90.

[19]Siham Tabik, Daniel Peralta et al., “A Snapshot of Image Pre-Processing for Convolutional Neural Networks: Case Study of MNIST,” International Journal of Computational Intelligence Systems, vol.10, no. 1,2017, pp. 555-568.

[20]鲍亚林、唐戈:《基于AlexNet深度学习的刺绣图像分类研究》,《毛纺科技》2023年第6期。

[21]Sultan Daud Khan, Yasir Ali, Basim Zafar et al., “Robust Head Detection in Complex Videos Using Two-Stage Deep Convolution Framework,” IEEE Access, vol. 8, 2020, pp. 98679-98692.

[22]陈科圻、朱志亮、邓小明等:《多尺度目标检测的深度学习研究综述》,《软件学报》2021年第4期。

[23]Sohan Mupparaju, Sai Ram Thotakura, Rami Reddy et al., “A Review on YOLOv8 and Its Advancements,”International Conference on Data Intelligence and Cognitive Informatics, Springer, Singapore, 2024, pp. 529-545.

[24]Tiantian Su, Anan Liu, Yongran Shi et al., “IremulbNet: Rethinking the Inverted Residual Architecture for Image Recognition,” Neural Networks, vol.172, 2024, pp. 106-140.

[25]车万翔、窦志成、冯岩松等:《大模型时代的自然语言处理:挑战、机遇与发展》,《中国科学:信息科学》2023年第9期。

[26]Yichao Liu, Zongru Shao, Nico Hoffmann, “Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions,” arXiv preprint, arXiv:2112.05561, 2021.

[27]Petr Hurtik, Stefania Tomasiello, Jan Hula et al., “Binary Cross-Entropy with Dynamical Clipping,” Neural Computing and Applications, vol. 34, no. 14, 2022, pp. 12029-12041.

[28]T. Zhang, T. Zhu, K. Gao et al., “Balancing Learning Model Privacy, Fairness, and Accuracy with Early Stopping Criteria,” IEEE Transactions on Neural Networks and Learning Systems, vol. 34, no. 9, 2021, pp. 5557-5569.

[29]Matthew C. Cieslak, A. Castelfranco et al., “t-Distributed Stochastic Neighbor Embedding (t-SNE): A Tool for Eco-Physiological Transcriptomic Analysis,” Marine Genomics, vol.51, 2020.

[30]陈挺、李国鹏、王小梅:《基于t-SNE降维的科学基金资助项目可视化方法研究》,《数据分析与知识发现》2018年第8期。

[31]Yann LeCun, L. Bottou, Yoshua Bengio et al., “Gradient-Based Learning Applied to Document Recognition,” Proceedings of the IEEE, vol. 11, no. 86, 1998, pp. 2278-2324.

[32]Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, “Imagenet Classification with Deep Convolutional Neural Networks,”Advances in Neural Information Processing Systems, 2012, p. 25.

[33]Karen Simonyan, Andrew Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” arXiv preprint, arXiv:1409.1556, 2014.

[34]Kaiming He, Xiangyu Zhang, Shaoqing Ren et al., “Deep Residual Learning for Image Recognition,”Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp.770-778.

[35]Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe et al., “Rethinking the Inception Architecture for Computer Vision,”Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 2818-2826.

[36]François Chollet, “Xception: Deep Learning with Depthwise Separable Convolutions,”Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 1251-1258.

[37]刘净净、郭飞、刘玉:《刺绣图片的计算机智能识别》,《电脑知识与技术》2012年第35期。

[38]周泽聿、王昊、张小琴等:《基于Xception-TD的中华传统刺绣分类模型构建》,《数据分析与知识发现》2022年第Z1期。

[39]刘羿漩、葛广英、齐振岭等:《基于改进深度卷积生成对抗网络的刺绣图像修复》,《激光与光电子学进展》2023年第20期。

[40]窦慧、张凌茗、韩峰等:《卷积神经网络的可解释性研究综述》,《软件学报》2024年第1期。

[41]王爱丽、张宇枭、吴海滨等:《基于集成卷积神经网络的LiDAR数据分类》,《哈尔滨理工大学学报》2021年第4期。

[42]J. Yang, “Real-Time Object Tracking Using OpenCV,” 3rd International Conference on Data Science and Computer Application (ICDSCA), IEEE, 2023, pp. 1472-1475.

点击下方链接,下载原文

基于改进YOLOv8的刺绣动态检测与分类研究.pdf

如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

校对  |   肖爽

美编  |  王秀梅

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

线上培训丨零代码编程的科研教学与智慧课程建设

2026年3月20日 10:03

籍合学院 2026-03-20 10:03 北京

数字人文专业发展联盟成立以来,我们在联盟内部开展的多次调研中发现一个普遍困境:面对人工智能技术的快速发展,高校人文领域的教师普遍抱有积极拥抱的态度,却在实际操作中面临双重门槛——编程学习的时间成本过高,而直接使用AI工具又难以满足学术研究对严谨性和可溯源性的要求;教学工作同样迫切需要在不增加过重技术负担的前提下,完成从传统课堂向智慧课程的转型。

基于这些科研与教学痛点,我们历时数月筹备了这套"零代码编程的科研教学与智慧课程建设"系列培训。精心筛选了各校在数字人文一线深耕的骨干教师,请他们将实践中沉淀的"低门槛、高严谨"方法论系统化地分享出来。

开设这套课程的目的很务实:

一是帮助老师们掌握真正无需编程即可上手的数据库、智能体搭建方法,以及史料挖掘和统计分析工具,把节省下来的时间重新投入到学术思考与教学设计中;

二是提供一套系统的高校智慧课程建设方法论和实践案例,让各高校在智慧课程建设方面的实践经验能够互通有无;

三是共同探索一条符合人文学科特质的AI应用路径,在技术效率与学术规范之间找到平衡点

四是针对当前OpenClaw热点,我们也邀请资深教师做了深度解析,为如何在数字人文研究中利用类似工具提供思路和操作指导。

期待这套课程能为联盟成员单位的一线教师提供切实可用的支撑,未来联盟将继续围绕学界需要,组织时效性好、系统性强、可实操的系列培训,期待大家在学习过程中形成的实践经验,能够反哺联盟的数字人文学科建设,形成共建共享的良性循环。

名称:零代码编程科研教学与智慧课程建设

课程容量:10门课程,每课2课时,共20课时。每课时45分钟,部分课程可能会根据授课情况加时,以实际安排为准。

开课时间:2026年4月7日-17日期间完成全部授课,详见下图培训计划。以实际安排为准。

培训形式:线上直播(支持2年回看)

课后支持:微信群(答疑+交流)+数字人文交流圈子深度交流+资料分享(长期)

基本信息

培训对象

  • 高校数字人文相关教师:从事语言学、古典文献学、历史学、文学等学科研究以及需建设智慧课程或开展数字化教学创新的青年教师;

  • 硕博研究生:人文类专业(特别是数字人文、古典文献、汉语方言、历史文化方向)在读研究生,需掌握零代码研究工具者;

  • 中小学文史教师:需利用AI与多模态技术进行备课、课程教学及创意传播的中小学语文、历史教师;

  • 文化机构从业者:博物馆、图书馆、出版社的数字项目策划人员,古籍整理与数字化工作者;

  • 跨学科研究者:关注"AI+人文"交叉领域,希望掌握结构化数据处理、人文数据库搭建、智能体建设方法论的研究人员。

考核认证:完成全部课程学习可获得由数字人文专业发展联盟颁发的电子证书

费用:980元/人(标准),680元/人(凭学生证)。团体报名及联盟成员单位团购另享优惠,请咨询工作人员。

教师简介(按授课次序排序)

李斌

南京师范大学文学院教授,语言大数据与计算人文研究中心负责人。主要从事计算语言学和数字人文领域的研究,特别集中于古汉语信息处理领域的古文断句、分词、词性标注、词义分析的标准制定、资源构建和自动分析等具体技术研发。

胡韧奋

北京师范大学文学院、国际中文教育学院副教授,研究方向为计算语言学、数字人文,主讲Python编程与数据分析、自然语言处理等课程,主持十余项科研课题,作为主持人或核心成员构建了中文词向量资源库、CCA中文搭配助手、古诗文断句标点系统、“AI太炎”古汉语大模型等资源和应用。

彭志峰

暨南大学文学院中文系讲师,广东省岭南数字人文实验教学示范中心(省级)副主任,暨南大学-科大讯飞方言语音科技联合实验室(省级)副主任,暨南大学汉语方言研究中心(省级)研究员,粤语语料库建设与大模型评测重点实验室(市级)研究员,研究方向为数字人文与方言科技。

张光伟

陕西师范大学历史文化学院讲师,硕士研究生导师。担任陕西师范大学丝绸之路历史文化虚拟仿真实验教学中心(省级)主任,国际长安学研究院数字长安研发中心主任,全国历史学实验室建设联盟秘书长,国际教育合作协会(GPE)咨询委员会委员。主要从事"人工智能+历史学"交叉学科研究。

沈威

华中师范大学语言与语言教育研究中心副教授,博士,硕士生导师。研究方向为中文信息处理、现代汉语语法。主持并研发了“当代小说语料库”“汉语复句语料库”“汉语中介语动态语料库”和“我国中小学生写作能力评价与教学策略研究数据库”等语料库。

龙润田

暨南大学文学院副教授,博士生导师,暨南大学汉语方言研究中心研究员、岭南数字人文广东省实验教学示范中心研究员、暨南大学—科大讯飞方言语音科技联合实验室研究员。主要从事南方少数民族语言历史与文化、语言智能与数据计算、国际中文教育相关领域的研究工作。

贾智

中山大学中国语言文学系(珠海)教授、博士生导师、系副主任。主要研究方向为汉语言文字学,特别是中古汉语、近代汉字的发展、流变和域外传播研究,兼及敦煌遗书、域外文献整理与研究。

唐宸

清华大学人文学院副教授,教育部哲学社会科学实验室“中华传统文化智能实验室”核心成员,兼任《数字人文》编辑,主要从事中国古典文献学、数字人文研究,研发了“典津-全球汉籍影像开放集成系统”“奎章阁-中国古典文献资源导航系统”“中国数字人文(DHCN)”等基础设施。

张宁

北京师范大学文理学院中文系讲师、硕士研究生导师,北京师范大学珠海校区图书馆数字人文中心主任,中国计算机学会(CCF)人文智能专业委员会执行委员。研究方向为古籍数字叙事、VR古籍游戏、数字人文教育等。 主持建设"文献多模态资源AI标注与问答平台”“京师.数字记忆3D展厅平台”“全球数字人文教育资源智能检索平台”。

内容亮点

亮点1:科研+教学双轮驱动

既解决"如何用AI做研究"(零/低代码建设数据库智能体及科研全流程),又解决"如何用AI教课"(智慧课程建设),适配高校教师双重身份需求。

亮点2:紧跟热点:解析OpenClaw及国产替代方案

聚焦海外智能体框架OpenClaw在国内遇到的技术限制、部署成本、数据合规等痛点,先讲OpenClaw是什么、为什么火,再讲为什么要转国产替代。通过讯飞AstronClaw、腾讯WorkBuddy深度测评,给出国产“龙虾”三步实操法,帮大家把大模型变成能落地执行的主动辅助系统,减少重复劳动、提升效率,最后辨析需求真伪并答疑。

亮点3:全链路场景覆盖

从底层数据结构化→大模型原理→数据库与智能体搭建→史料挖掘→统计分析→智慧课程→多模态传播,形成闭环生态。从数据结构化、大模型原理到智能体搭建、史料挖掘、统计分析,智慧课建设,全程无需编程基础,紧盯高校教师实际困难。

亮点4:社群支持

社群答疑(微信群)+ 深度交流(专业圈子)+ 长期赋能(资料共享),构建从课堂到社群的持续支持体系。

费用及报名

  • 980元/人(标准)

  • 680元/人(凭学生证)

  • 集体报名另享优惠,请咨询工作人员。

扫码报名

咨询:报名链接内客服可直接发起咨询。

联系电话:185-1932-5994

邮箱:training@ancientbooks.cn

  • 学生身份报名,请先正价付费,同时将您的姓名、学校、手机号(已与本平台关联)、学生证照片发送至邮箱【training@ancientbooks.cn】(邮件名:姓名+学校+学生优惠申请)。 工作人员审核完毕后将为您退差价,系统原路退回,耐心等待即可。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

基于人机协同的泰国巴森苏塔瓦寺“三国”主题壁画与小说插图相似度研究 ——兼及《三国志演义》在泰国前现代时期流传情况的更新

2026年3月17日 10:01

原创 林莹 韩烨楠等 2026-03-17 10:01 北京

泰国曼谷巴森苏塔瓦寺存有绘于1838年的“三国”主题壁画364幅,是中国名著《三国志演义》在泰国前现代时期流传的重要见证。画中多见汉字榜题和专名标注,构图近似中国明清时期的小说版刻插图。

多模态学习

2.png

林 莹 / 同济大学人文学院

韩烨楠 / 同济大学人文学院

方 梁 / 闽南师范大学智能优化与信息处理实验室

吴泓润 / 闽南师范大学智能优化与信息处理实验室

喻 飞 / 闽南师范大学智能优化与信息处理实验室(通讯作者)

要:泰国曼谷巴森苏塔瓦寺存有绘于1838年的“三国”主题壁画364幅,是中国名著《三国志演义》在泰国前现代时期流传的重要见证。画中多见汉字榜题和专名标注,构图近似中国明清时期的小说版刻插图。本研究首次采集巴寺壁画,使之与现存16个代表性《三国志演义》小说插图本中的639幅同主题版画共建数据集,并搭建对比学习模型SimCLR,提取图像特征,生成相似度评分。通过结合基于对比学习的模型计算与基于文史积累的人工分析,本研究得以更新《三国志演义》以汉籍形式在泰国的流传与接受情况:一是将入泰时间上限提前至泰国前现代时期,二是确认巴寺壁画兼有江南本和建阳本两个系统的影响,尤以前者代表周曰校本影响最大,榜题则主要借鉴毛评本。该结论对古代小说域外传播情形及现有研究作出补充,也促进了人机协同机制在传统图文分析与文化遗产保护方面的新探索。

关键词:三国志演义 图像 对比学习 人机协同

早在明清之际,中国小说名著《三国志演义》(为便于行文,以下径称《三国演义》[1])便传入周边国家,产生重大影响。与日本、朝鲜、越南等东亚、东南亚汉文化圈内的情况相似,“三国”故事在泰国流播甚广,颇受欢迎。据学者推断,在17世纪初,也就是泰国阿瑜陀耶王朝中期,《三国演义》已伴随华人移民或“东南亚人士来华购买及书籍贸易”[2]等途径传入泰国。初入泰国,“三国”故事的传播以流动的神庙活动和戏曲表演为主,以图文、雕塑等凝定的形式为辅。[3]视听演出转瞬即逝,现场细节无从还原。而因战乱频仍、气候炎热、中文识字率低、文献保存意识淡漠等原因,汉籍在泰国的保存情况也不理想。泰国现存最早的《三国演义》是清光绪九年(1883)善美堂藏版《绣像第一才子书》[4],该书比史称“洪版《三国》”的首部泰译本《三国》晚了80多年。由于“洪版《三国》”译者本人不谙汉语,其翻译底本是在泰华人据汉籍意译的质朴泰文,[5]因此,若想通过译本寻觅其所依据的小说版本,进而推断彼时可能流传于泰国的汉籍情况,无疑是困难重重的。换言之,如欲探究《三国演义》在泰国的早期传播情形,便不得不诉诸间接证据。唯一可行的路径就是充分利用非文字资料。[6]

幸运的是,在作为《三国演义》泰国早期传播关键渠道的绘画雕塑领域,至今仍有实物资料留存,其主流为佛寺壁画。泰国全境共有绘制“三国”故事壁画的佛寺五座:纳浓寺、切都蓬寺、巴森苏塔瓦寺、波汶尼威寺和建安宫。绘制时间最晚的是建安宫的90幅壁画,完成于光绪二十五年(1899),内容以《三国演义》为主,兼有少量《隋唐演义》等其他题材作品,其中与“三国”有关的54幅,其底本很可能是晚清石印本《增像全图三国演义》。[7]时间次晚的是修建于曼谷王朝拉玛四世时期(1851—1868)的波汶尼威寺,配殿壁画绘有从“刘备送徐庶”到“关羽义释曹操”的28段故事,该寺为皇家寺庙,画风趋近泰式格调。[8]余下三座寺庙均修建于曼谷王朝拉玛三世时期(1824—1851)。[9]纳浓寺有“三国”壁画48幅,内容始于“刘备投奔刘表”,至“赵云独战曹军”止,破损严重。切都蓬寺壁画绘于户外中式亭子内部,因处于开放环境,损坏程度更甚,经辨认,仅描绘了赤壁之战情节。[10]唯独巴森苏塔瓦寺存有泰国境内绘制时间早、体量大、华人参与度高的“三国”主题壁画,学术价值重大,但壁画图像尚未经过系统采集和整理,所受关注和研究极其不足。

一、背景信息:泰国巴森苏塔瓦寺“三国”壁画概述

巴森苏塔瓦寺(Wat Prasoet Sutthawat, วัดประเสริฐสุทธาวาส)位于泰国曼谷,原名“卡琅寺”(Wat Klang),兴建于阿瑜陀耶王朝时期(1351—1767)。曼谷王朝拉玛三世在位(1824—1851)时,福建漳州府海澄县籍华人郑宝因在泰经商有道,出资重修该寺并将之献给国王,受封爵号“帕巴森瓦尼”,该寺遂更名为“巴森苏塔瓦寺”[11](以下简称“巴寺”)。寺内供奉上座部佛教神像,大殿四壁绘制“三国”主题壁画364幅,呈逆时针分布(见图1-1至图1-5),内容从“刘备观榜文”到“张飞战张任”,[12]大部分保存完好,风格接近于中式绘画,以线描笔法为主,有较多汉字标注。[13]寺中主殿后壁上石碑题“大清国道光拾八年岁次戊戌福建省漳州府海澄县弟子郑”,可知壁画绘制于清道光十八年(1838),这个时间点不仅早于前述泰国现存最早的汉籍《三国演义》,也早于1865年的泰译插图本。[14]壁画绘制时间正处在泰国前现代末期,[15]尚无可能如前述建安宫壁画那样依据晚清石印本,其底本应是晚明以降的小说刻本插图。也就是说,无论从历史、政治,抑或文学、技术的维度来看,巴寺壁画均在时间轴上处于《三国演义》在泰传播的早期,如能探究壁画依据的底本,便可更新《三国演义》在泰国前现代时期的流传和接受情况,不仅可以将入泰时间上限提前,也有助于进一步认识在泰流播的具体版本。图1.png图1-1 大殿内壁画分布与阅读顺序(“图2.png”指代佛像位置)

图3.png图1-2 佛像左侧墙壁壁画分布示意图

图4.png图1-3 佛像背后墙壁壁画分布示意图

图5.png图1-4 佛像右侧墙壁壁画分布示意图

图6.png图1-5 佛像对面墙壁壁画分布示意图

壁画分行布列于佛寺四壁,佛像两侧墙壁布图较多,共计7层,每面墙壁128幅;位于佛像背面和对面的壁画较少,分为6层,每面墙壁54幅。这些壁画长宽比均约为4∶3,皆从右向左排列,符合中式阅读传统。每幅壁画皆有画框,唯其形制略异:第1—58幅(第一排的全部壁画),画面内容占据画框全部;第59—174幅(第二、三排),画框内加绘一个长方形边框;第175—232幅(第四排),画框内加绘一个四角为弧形的长方形边框;第233—364幅(第五、六、七排),画面内容再次占据画框全部。巴寺壁画中人物、建筑、植物、兵马、城门等元素以及构图模式与中国明清时期《三国演义》小说版刻插图十分接近,很可能是参照一个或多个明清版刻插图本绘制的。[16]但若仅靠人工对照壁画和小说版画的相似性,一则工作量过大,二则难以避免主观性带来的偏差,因此,本研究引入机器计算以提高工作效率及其客观程度。

在现有的相关研究中,泰国学者初蓬·厄初翁对巴寺壁画作出了图文介绍,但侧重美术分析,并未涉及来源推测问题,更未从文学视角加以关注。[17]泰国来华留学生陈柳玲的博士论文提及巴寺壁画,认为其底本是关帝庙或关公殿的同类壁画,巴寺修建之目的是推崇关公。[18]中国学者方面,金勇曾对巴寺壁画略有介绍,他指出这是泰国境内最丰富翔实的“三国”主题壁画,还附上亲赴现场所摄彩图3张。[19]王少杰亦曾专论巴寺壁画,但未展开图绘底本的具体分析。[20]胡春涛则围绕另一寺庙建安宫的“三国”壁画展开分析,关注壁画内容、绘制年代和底本来源,虽然其关注重点在于建安宫,仍为巴寺壁画的研究提供了参考范例。[21]本研究在借鉴上述成果基础上,对数字人文的人机协同研究范式进行探索:首先采集巴寺全部壁画并进行数字化整理,其次构建出一个相似度预测框架,使之自动计算壁画与小说版刻插图的视觉相似度,最后回归传统文史分析方法,发挥人力解读图文细节的优势。

二、机器计算:基于对比学习的图像视觉相似度评估

在开始机器计算之前,首先需要人工采集壁画并建立数据集。本研究的数据集由1,003幅图片组成,包括364幅壁画和639幅来自16个具有代表性的小说插图本。

(一)数据集的建立与划分

截至1838年巴寺壁画绘制前,带有情节性插图的《三国演义》小说版本共计34个。尽管学界关于《三国演义》的版本研究已臻成熟,但对插图本的版本梳理,仍需基于图像特点另行展开。这一方面是因为按文字和按图像划分的版本系统未必一致,如清初金阊艺海堂本《四大奇书第一种》[22],内封题“毛声山评点三国志”,正文出自毛评本无疑,然其插图为回目画,共240幅,图目5—7字不等,与明刊《李卓吾先生批评三国志》[23]所配插图基本相同,应属于周曰校本插图体系。另一方面,对小说来说,插图在很多情况下具有一定独立性,是可以被灵活拆卸和再度拼装的版刻资源。明万历建阳忠正堂熊佛贵刊本《新锲音释评林演义合相三国志史传》[24],其版式为上评中图下文,图像比例也与传统上图下文不同,宽度仅占版面的二分之一,左右半叶图像合为一图,即“合相式”,书前又插入“桃园结义”“刘备称帝”两张半叶竖幅插图,应为江南版画拼入的结果,不能因为书坊出自建阳就将之简单归入建本系统。[25]因此,本研究从图像特征出发,重新梳理这34个出现于巴寺壁画绘制前的《三国演义》插图本,通过合并同类版本,提炼出具有代表性的16种(详见表1),并沿用通行的小说图像地域风格分类维度,[26]将这16种代表性插图本分为三个系统:一是江南系统,包括双面连式和半叶竖幅式;二是建阳系统,即上图下文式;三是江南与建阳的合流系统,前述兼有上图下文“合相式”插图和半叶竖幅插图的忠正堂熊佛贵刊本即属此类。

随后,本研究在364幅巴寺壁画中,根据图像表达和榜题、人物、建筑等文字标注,提取出可以辨认小说情节的代表性壁画88幅[27],又从上述16种代表性小说插图本中整理出与88幅壁画对应的小说插图639幅(出自不同小说插图本的图像数量不一,详见表1最右栏),共同构成本研究的核心数据集。

图7.png表1 出自代表性小说插图本的插图数据统计表

注:序号1—4插图属于江南风格,5—14属于建阳风格,15、16为江南与建阳的融合风格。总计639幅。

为方便机器学习和全面评估相似度预测框架的性能,本研究采用一种系统的数据集划分策略:将88幅壁画分为两个数量均等的部分,分别命名为“训练集”和“测试集”。训练集旨在训练机器优化其有效提取图像特征、为图像相似度打分方面的性能,测试集用于测试机器在训练集上习得的特征提取能力及相似度打分能力。小说插图本与壁画对应的图像,则跟随壁画的流向归入训练集或测试集。由于测试集中的训练数据既包括一半数量的壁画,又包括这一半壁画所对应的小说插图,这就确保了训练的模型在能充分学习到壁画特征的同时,也能充分接触小说刻本图像的多样性。

(二)面向训练集的对比学习模型SimCLR

对比学习(Contrastive Learning)广泛应用于图像处理和自然语言处理领域,如图像分类、目标检测、文本表示(text representation)等。作为一种自监督学习方法,对比学习主要用于训练机器学习和深度学习模型,尤其广泛应用于缺少标签数据的场景。其核心在于通过对比数据样本学习特征,将相似样本映射到相近的特征空间,将不相似样本映射到不同空间,从而使机器习得更有区分力的图像特征。在那些复杂耗时、存在较多主观差异的场景中,对比学习因其自监督学习机制而具有的优势显得尤为明显。巴寺壁画与小说插图的相似度评估任务,即对比学习模型适用的领域之一。

在样本数量受限的情况下,本研究利用对比学习模型SimCLR(A Simple Framework for Contrastive Learning of Visual Representations),通过数据增强技术生成图像的多个变体,构建“正样本对”(positive sample pairs),并通过对比损失函数来训练模型的优化。SimCLR的单阶段训练策略简化了负样本的选择,使其在小样本环境下依然能有效捕捉图像之间的微妙差异,充分学习到具有高区分力的特征。对于样本数量相对较小的巴寺壁画和小说插图来说,SimCLR模型的这些特点有助于精确评估二者图像的相似性。该模型的研究框架包括如图2所示的多个步骤,以下将逐一拆解。预测框架相关代码和本研究部分数据,见Github开源平台https://github.com/MiyaWu/Romance-of-the-Three-Kingdoms

图8.png图2 壁画与小说插图的相似度预测框架

1.数据预处理

本步骤首先对巴寺壁画和小说插图进行图片缩放,确保它们符合输入模型的尺寸规范,其次对图片进行归一化、标准化处理,确保图片数据的稳定性与一致性。

2.特征提取

本步骤将预处理后的图像输入到训练成熟的SimCLR模型(训练过程详后)中,SimCLR模型将自动提取图像的关键视觉特征,以特征向量的形式进行输出。具体来说,针对每一组待评价的壁画与小说插图{壁画x,插图1,……,插图i,……,插图y},SimCLR模型提取出特征向量{ex,e1,……,ei,……,ey}。ex表示壁画x的特征向量,e1……ey分别表示y种小说插图相应的特征向量。

3.相似度检测

完成巴寺壁画和小说插图的特征提取后,本步骤运用余弦相似度计算二者特征向量之间的相似性。余弦相似度的定义如公式(1)所示,通过计算壁画与训练集中每一幅小说插图的相似性,得到壁画与y种插图的余弦评分{sx1,……sxi,……sxy}。

图9.png(1)

4.度量指标

为了评估基于SimCLR模型的相似度预测框架的性能,本步骤请专家从局部细节、全局构图等角度,对部分巴寺壁画与小说插图的相似度进行打分,并采用肯德尔等级相关系数度量指标,衡量框架预测的评分与专家标注的评分之间的一致性。

(三)关于对比学习模型SimCLR的训练及其有效性确认

SimCLR模型通过对比同一图像的不同增强变体实现自我训练,从而有效提取图像特征。这一训练过程包括如下步骤(图3)。

图10.png图3 SimCLR模型的训练流程图

1.数据增强

SimCLR模型运用随机裁剪、颜色调整、水平翻转等数据增强技术,增加了输入图像的多样性。这些技术使图像在视觉表现上呈现出不同变化,但图像的核心内容保持不变。本步骤旨在提供多样化样本,帮助模型在不同的视觉变换中习得提取图像核心特征的能力。

2.特征提取

在特征提取阶段,SimCLR使用ResNet50作为编码器(Encoder),将数据增强后的图像转化为高维特征空间中的初步特征向量。对于每个增强后的输入图像mi,编码器f(·)通过卷积层和残差连接等机制,逐层提取图像的局部和全局特征,输出一个高维的特征表示向量hi。hi的公式定义如公式(2)所示。

图11.png(2)

随后,将特征向量hi输入投影头网络g(·)进行映射,最终生成一个能够充分代表该图像的特征向量zi

图12.png(3)

投影头网络g(·)通常由一个包含ReLU激活函数的带两个隐藏层的多层感知机(MLP)构成,负责将编码器产生的高维特征向量hi映射到低维空间,从而生成更适用于对比损失计算的特征表示zi。这一过程提高了特征表示的质量和区分度,使模型在处理经过视觉变化的图像时,能够更加精确地识别和提取图像的关键特征。

3.对比损失

最终生成的特征向量zi被输入到NT-Xent(Normalized Temperature-Scaled Cross Entropy Loss)对比损失函数中,定义如公式(4)所示。其中zc和zd是通过投影头生成的特征向量;sim(zc,zd)是两向量的余弦相似度;τ是温度参数,控制相似度的缩放;1[kc]是一个指示函数,保证不同图像之间不会被误认为具有相似性。

图13.png(4)

NT-Xent损失函数通过公式(1)中的余弦相似度来衡量特征向量之间的相似性,并引入一个温度参数τ来调节相似度对模型的影响。这种设计能够放大或减弱相似性评分的敏感度,使模型在训练过程中能够更细致地区分特征向量(即图像)之间的细微差别,进而提升对相似图像的识别能力。

模型在训练集和测试集上的损失值如图4a所示,训练集损失值在前40次迭代中经历快速下降阶段,随后进入渐进收敛期,至第60次迭代后损失值稳定于约0.01;测试集损失同步收敛至0.07±0.02区间,该收敛模式表明模型在有效学习数据特征的同时,未出现显著过拟合现象,具备稳健的收敛性和泛化能力。

在训练集中,本研究利用训练后的相似度预测框架从壁画和插图中提取特征,并基于这些特征计算壁画与插图之间的相似性分值。本研究采用肯德尔等级相关系数作为度量标准,评估框架预测与专家评价之间的一致性。如图4b所示,基于肯德尔等级相关系数的箱形图显示,它的范围在0.3到1.0之间,中位数约为0.75。箱体的上下边缘分别代表第一四分位数(0.62)和第三四分位数(0.88),表明中间50%数据集中在0.62—0.88之间。第一四分位数0.62意味着75%的模型预测与专家标注达到中等强度以上相关性,第三四分位数0.88显示前25%的优秀预测已接近完美一致性。这些数值表明,框架预测与专家标注之间的一致性真实且可靠,框架在检测小说插图与壁画之间相似性方面具备有效性,在大多数类别中,框架的预测结果与专家评分相对接近,显示出较小的绝对差值。

(四)面向测试集的对比学习模型SimCLR计算结果

鉴于上述SimCLR模型在评估小说插图与壁画相似性方面具备有效性,本研究将该模型应用于测试集,计算巴寺壁画与《三国演义》小说插图的相似程度,并通过图5的“小提琴图”,将壁画与不同版本小说插图相似性分值的分布特征进行可视化呈现。图中每个黑色散点代表框架预测的相似度分值,红、黄横线分别代表相似度分数的平均值和中位数。

在“李”“余”“魏”“郑”“康”“荣”“北”“种”这8个版本中,相似度分布呈现明显的双峰特征:一部分数据集中在箱体的上部,另一部分集中在箱体的下部。这种分布模式表明,在这些版本中,部分小说插图与壁画的相似度较高,而另一部分则存在显著偏差。“朱”“笠”“遗”“叶”“诚”“忠”诸版本尽管呈现单峰分布,但极端低值的出现频率较高,表明这些版本中存在大量壁画和小说插图相似度偏低的情况。余下的“周”和“刘”两个版本均为单峰分布,周本箱体较小,数据点聚集在平均值附近,显示出较低离散性,且其平均相似度分数高达0.91;刘本平均分数仅为0.86,并且存在明显的极端低值。因此,壁画总体上与周曰校本小说插图最为相似,少量也与刘龙田本等建本系统插图较为相似。

三、人工解读:基于传统文史方法的图像分析

根据对比学习模型SimCLR的计算结果,巴寺壁画在整体上与周曰校本插图最为相似,与建本则具有部分相似性。以下从传统文史研究方法出发,人工分析壁画的图文信息。

图14.png图4a 训练集和测试集损失值曲线图

图15.png图4b 肯德尔等级相关系数统计分布箱形图

图16.png图5 壁画—小说相似度分值的可视化“小提琴图”

(一)壁画构图:以周曰校本插图影响为主

1.三英战吕布

嘉靖本和毛评本对“三英战吕布”情节的书写几乎相同,壁画和周曰校本插图的画面呈现也与文字基本相符:

旁边一将,圆睁环眼,倒竖虎须,挺丈八矛,飞马大叫:“三姓家奴休走!燕人张飞在此!”吕布见了,弃了公孙瓒,便战张飞。飞抖搜神威,酣战吕布。八路诸侯见张飞渐渐枪法散乱,吕布越添精神。张飞性起,大喊一声。云长把马一拍,舞八十二斤青龙偃月刀,来夹攻吕布。三匹马丁字儿厮杀。又战到三十合,两员将战不倒吕布。刘玄德看了,心中暗想:“我不下手,更待何时!”掣双股剑,骤黄骠马,刺斜里去砍。这三个围住吕布,转灯儿般厮杀。八路人马都看得呆了。(嘉靖本[28],第50页)

从构图模式来看,壁画(图6a)和周曰校本插图(图6b)均将画面分成左右两部分,画面右侧刘关张三人各骑快马、各执武器,自上而下一字排开。三人兵器指向处,是策马且战且走的吕布,吕布身后的城门,占据了图画左侧偏上的局部。

以李评本(图6c,此处选李评本中时间最早的吴观明本,见表1第2项)和刘龙田本(图6d)的同场景插图为参照,二者长宽比例均与壁画和周曰校本迥异,李评本为半叶竖幅式,构图纵向展开,刘关张虽也自上而下排开,但兵器朝向及三人与吕布的相对位置,较周曰校本和壁画有所区别。已知李评本的文字与周曰校本属于同一系统,[29]李评本插图也是周曰校本插图的衍生品,[30]此幅壁画同时有周曰校本和李评本插图的影子不足为奇,就构图和细节来看,壁画显然与周曰校本关系更密,不可能绕开周曰校本而直接取法李评本。此外,建阳本系统的刘龙田本插图更扁平局促,加之上图下文版式每半叶均有插图,如连环画一般,从文字到图像的转换率较高,故而在题为“虎牢关三战吕布”的插图中只画出关羽、吕布二人(图6d下),张飞和吕布的对战已出现在前一幅中(图6d上)。与其他同主题插图对读可知,巴寺壁画与周曰校本的相似度最为显著,这一人工判定结果也与模型计算分值(表2)一致。

图17.png图6a 壁画第36幅“破关兵三英战吕布”(榜题未写入预留方框内)

图18.png图6b 周曰校本卷1第47叶左、第48叶右插图“虎牢关三战吕布”

图19.png图6c 李卓吾评本“虎牢关三战吕布”

图20.png图6d 刘龙田本“三英战吕布”

图21.png表2 SimCLR模型对“三英战吕布”小说插图与壁画相似度计算结果

2.吕布戏貂蝉

描绘“吕布戏貂蝉”的巴寺壁画(图7a)右下角已然损蚀,但仍可以看出与周曰校本(图7b)的构图十分雷同,几乎是周曰校本的简化版本:居于两幅图中心的太湖石比人略高,既在视觉上有分割画面的作用,又能起到遮挡窥听者董卓的叙事功能。石头的轮廓、镂空,及其上方点缀的草木和祥云亦如出一辙。山石的左侧立着吕布的方天画戟,画戟之旁的吕布正与貂蝉倾谈,二人身后露出画面最左端的凤仪亭一角。小说写道:

(貂)蝉见布寻觅,慌忙出曰:“汝可去后园中凤仪亭边等我,我便来。”布提戟径往,立于亭下曲阑之傍。良久,见貂蝉分花拂柳而来,果然如月宫仙子,泣与布曰……言毕,手攀曲阑,望荷花池便跳。……卓寻入后园,见吕布倚戟,和貂蝉在凤仪亭下。卓走至跟前,大喝一声。布回头见卓,大惊。卓夺下吕布手中戟,吕布便走。卓赶来。吕布走得快,董卓胖,赶不上。卓提戟来杀吕布,布手起一拳,打戟落于草中。(嘉靖本,第77—78页)

壁画和周曰校本定格的画面,即“卓寻入后园,见吕布倚戟,和貂蝉在凤仪亭下”。若是参照其他小说插图的处理方法,李笠翁本(图7c)虽与周曰校本相同,均取小说则目“凤仪亭布戏貂蝉”来结构画面,但描绘的是稍后的时刻,即“卓提戟来杀吕布,布手起一拳”。并且由于半叶竖幅的纵向布局,凤仪亭和假山的置景迥然不同。郑少垣本作为典型的建本形制,每半叶均有插图,文图转换率高,在临近两幅图里,分别表现了上述“吕布倚戟,和貂蝉在凤仪亭下”(图7d上)与“卓提戟来杀吕布,布手起一拳”两个瞬间(图7d下)。总的来说,SimCLR模型对表现该场景的插图与壁画相似度打分与人工读图结果吻合(表3)。

图22.png图7a 壁画第47幅“董太师大闹凤仪亭”(榜题未写入预留方框内)

图23.png图7b 周曰校本卷1第73叶左面、第74叶右面插图“凤仪亭布戏貂蝉”

图24.png图7c 李笠翁评本“凤仪亭布戏貂蝉”

图25.png图7d 郑少垣本“吕布戏貂蝉”

图26.png表3 SimCLR模型对“吕布戏貂蝉”小说插图与壁画相似度计算结果

3.擂鼓斩蔡阳

巴寺壁画尽管在构图上受周曰校本影响颇深,但有不少地方进行了针对细节的调整,比如弱化血腥暴力元素,这也与壁画所处寺庙场域相统一。在表现“擂鼓斩蔡阳”的画面中,壁画(图8a)整体上相似于周曰校本,但有意避开小说所叙“一通鼓未尽,云长刀一起处,蔡阳头已落地”的瞬间。周曰校本(图8b)径绘出蔡阳人头落地之景象,细看之下,似乎还有血溅痕迹,李笠翁本从文字异同上属于周曰校系统,[31]其插图也有衍生关系:所绘情形与周曰校本类似,只是将落地的人头改为腾空(图8c)。在建本代表之一余象斗本(图8d)中,擂鼓的张飞与城墙的一角出现在画面右上方,画面的中心是关羽持刀砍蔡阳落马,虽然画幅比例不同,但与周曰校本、李笠翁本均有类似之处,足以说明当时的小说坊刻存在跨地域的借鉴关系。这也可以解释在模型计算结果中,建本与壁画为何具有局部的高相似度。

在这组图像中,SimCLR模型的打分结果是这样的(表4):

图27.png表4 SimCLR模型对“擂鼓斩蔡阳”小说插图与壁画相似度计算结果

(二)壁画构图:以建本系统的影响为辅

巴寺壁画主要受周曰校本的影响,同时部分吸收了建本的图像资源。此中原因大致有二,一方面是周曰校本插图属于“则目画”,依照“则目”来绘制图像,每则只有一幅插图,文图转换率较低,而建本的上图下文版式决定其每半叶均有插图,文图转换率较高。[32]当周曰校本无图可依的时候,建本就能够提供很好参考的价值。

图28.png图8a 壁画第167幅,无榜题,右上角标注“张飞”,左侧标注“蔡阳”

图29.png图8b周曰校本卷3第62叶左面、第63叶右面插图“云长擂鼓斩蔡阳”

图30.png图8c 李笠翁评本“擂鼓斩蔡阳”

图31.png图8d 余象斗本“擂鼓斩蔡阳”

1.蒋干盗书

关于“蒋干盗书”,周曰校本(图9c)、李卓吾本(图9d)等江南本系统插图仅有“群英会”的酒宴画面(这是壁画第252幅,即图9a取法的对象),未描绘盗书;建本系统的叶逢春本(图9e)、朱鼎臣本(图9f)亦无盗书配图。因此,第253幅壁画(图9b)更有可能参考了建本系统的刘龙田本(图9g-1)和刘荣吾本(图9h-1)。

图32.png图9a 壁画第252幅,无榜题,有文字标注“甘宁”“周瑜”“蒋干”“张昭”等

图33.png图9b 壁画第253幅,无榜题,有文字标注“周瑜”“蒋干”

图34.png图9c 周曰校本“群英会瑜智蒋干”

图35.png图9d 李卓吾评本“群英会”

图36.png图9e 叶逢春本“群英会”

图37.png图9f 朱鼎臣本“群英会”

图38.png图9g-1 刘龙田本“蒋干盗书”

图39.png图9g-2 刘龙田本“群英会”

图40.png图9h-1 刘荣吾本“蒋干盗书”

图41.png图 9h-2刘荣吾本“往说周瑜”

2.周瑜战曹仁

壁画在周曰校本之外可能部分参考建本的原因之二是,建本插图时代更早,[33]画幅较小,绘制的条件和水平相对有限,呈现的画面稍显简单。从另一个角度来说,比起周曰校本插图的繁复精丽,建本插图显得更为重点突出,易于模仿。因此,在周曰校本有相应插图的情况下,壁画偶尔依然选择参照建本,例如“周瑜战曹仁”壁画(图10a),更接近于朱鼎臣本(图10d)和刘龙田本(图10e)。考虑到出资重修巴寺的商人郑宝来自闽南,壁画构图受到建本影响是具备现实可能性的。

图42.png表5 SimCLR模型对“周瑜战曹仁”小说插图与壁画相似度计算结果

(三)壁画细节和榜题:以毛本影响为主

巴寺壁画中的文字信息表明,在壁画的修建中,一定有毛评本的影响。

1.细节:曹操以手掩面

壁画第65幅“曹操濮阳遇吕布”(图11a),乍看上去,仅是周曰校本插图(图11b)的左右镜像对调:吕布御马横戟朝左前方刺去,曹操身着常服,未持兵器,策马遁走。然而,画中曹操以手掩面的动作值得格外注意。

图43.png图10a 壁画第284幅“周瑜中箭”

图44.png图10b 周曰校本卷6第1叶左面、第2叶右面插图“周瑜南郡战曹仁”

图45.png图10c 李卓吾评本“周瑜南郡战曹仁”

图46.png图10d 朱鼎臣本“周瑜中箭败绩”

图47.png图10e 刘龙田本“陈矫箭射周公瑾”

图48.png图11a 壁画第65幅“曹操濮阳遇吕布”(榜题未写入预留方框内)

图49.png图11b 周曰校本卷3第6叶左面、第7叶右面“吕温侯濮阳大战”

壁画中曹操这一动作,与周曰校本一手挥鞭、一手紧拽缰绳不同,却与毛评本第十二回中“操以手掩面”的细节描述完全一致:

却说曹操见典韦杀出去了,四下里人马截来,不得出南门;再转北门,火光里正撞见吕布挺戟跃马而来。操以手掩面加鞭纵马竟过。吕布从后拍马赶来,将戟于操盔上一击,问曰:“曹操何在?”操反指曰:“前面骑黄马者是他。”吕布听说,弃了曹操,纵马向前追赶。曹操拨转马头,望东门而走,正逢典韦。(毛评本[34],第102页)

然而,该细节在嘉靖本文字中未曾出现:

却说曹操见典韦杀出去了,四下里人马截来,不得南门;再转北门,火光里正撞见吕布挺戟跃马,追杀曹兵。操加鞭纵马过去。吕布从后拍马赶来,用戟于曹操盔上一击,问曰:“曹操何在?”操反指曰:“前面骑黄马者是他。”吕布弃了曹操,拍马赶前面的。曹操拨转马头,却望东门而走,正逢典韦。(嘉靖本,第113页)

壁画凸显了曹操的掩面行为,自然更接近于毛评本的描述。当然,也可能直接受到了其他根基于毛评本的衍生作品如戏曲表演的影响。

2.回目文字

如果说“曹操掩面”的细节未必能确证毛评本对壁画的直接影响,那么,毛评本回目与壁画榜题的高度相似,则可以反映二者的直接关联。本研究梳理了全部可辨识的壁画榜题,将其中可与毛评本回目、周曰校本图题(即嘉靖本则目)对照的部分胪列出来(见表6),这些榜题涉及毛评本前六十五回的内容,加粗者为壁画榜题与毛评本、周曰校本相同的部分。

图50.png表6 壁画榜题与毛评本回目、周曰校本图题对照表[35]

如表所示,壁画榜题与毛评本回目完全相同或仅有细微差别的占绝大部分,其中包括毛评本独有而不见于周曰校本,这就说明壁画与毛评本的关联绝非偶然,壁画榜题直接参考了毛评本的回目。此外,壁画前249幅在左上或右上角均有以细窄竖框预留的榜题位置,大多与周曰校本图题位置相同,但壁画榜题却实际写在画中空白处。据此推测,巴寺壁画的画工与文字书写者当非一人,可能是画工预留了榜题位置,画至第249幅,书写者才开始增添文字,此时发觉预留榜题空间有限,遂将题目写到画中留白处,画工自此便不再绘出题框。假如这一假设不误,则说明壁画图文各有来源,制作亦非同时,也可佐证周曰校本和毛评本对壁画创作兼有影响。

四、结论与思考

结合机器计算和人工解读,本研究更新了古代小说《三国演义》以汉籍形式在泰国的流传情况。早在泰国前现代阶段,境内流传的《三国演义》汉籍版本相当丰富,包括周曰校本、毛评本以及一个或多个建阳本。图像方面,江南本插图和建阳本插图对巴寺壁画兼有影响,以江南本系统中周曰校本插图的影响为主;文字方面,对壁画榜题影响较大的主要是毛评本。由于传统上汉籍在泰国保存不力,汉语在泰国未居主流,上述结论均为本研究借助图像分析首次提出。这些结论细化了关于中国古代小说域外传播的认识,也为进一步探讨小说在泰国所受的本土化改造,以及中国尤其是闽南地区和泰国的“文化互化”(transculturation)[36]情况提供了基础。例如,对于刘关张齐上阵的小说情节,建本系统由于文图转换率高,在画面设计时往往给予三人均等空间,周曰校本插图以刘备为主,壁画则在综合两者基础上,偏重突出关羽,并常以汉字注出“关公”,这说明了关公信仰在东南亚的强大影响力。而壁画对小人物服饰细节的改造,也显现出“三国”故事为植根异域而被动接受或主动拥抱的新变化。

本研究是对人机协同机制的一次实践。人机协同首先需要明确机器和人工各自的优势与不足。机器的优势在于受工作强度影响较小、对于视觉评估的客观性更强。但机器学习和判断更依赖于一种确定的关系,这就不能完全适用于文字与图像的转化关系对应,因为文字与图像是一对多的关系,一段文字可以想象为无数种图像;也无法单纯依靠图像视觉相似度计算来判定变迁脉络,因为现实中存在兼采多种图像进行再创作的情况。人工的优势则在于具备文史领域的知识积累,主要包括以下几个层面:一是熟悉小说文献研究方法,掌握相关的版本源流关系,能够基于现有的文献和图像研究成果,划定小说插图的版本体系,选定具有代表性的插图本,建立合适的数据集。二是知晓不同版本文图转换率的差异,举例来说,建阳本系统为上图下文,每半叶均有插图,文图转换率较高,这就导致建本插图往往稀释了关键情节的要素聚集度,而周曰校本等江南本系统一回只有一至二张插图,选择定格的时刻更为考究,构图要素浓度较高。三是可以根据学界在小说版本源流、图像版式演进方面的共识,判断不同小说版刻插图的先后关系。这些人工优势,都是机器所不具备的,既构成了机器展开学习的基础,又提供了最终判定必不可少的合作力量。因此,人机协同机制的要点是充分利用机器的高效率和客观性,与此同时,也充分利用人工的文史知识储备、传统分析能力以及文字想象能力,避免机器由于执着求取唯一确定性而过于求实的倾向,[37]也避免以往同类研究中仅凭人工判断视觉相似度而过于主观的局限。[38]人机协同机制结合了模型计算量化数据和人工细读质性分析,所谓“协同”并不是通过机器和人工在同一路径上重复两次,而是取长补短,相互配合,有同行之时也有分工之处,最终实现相得益彰、殊途同归的效果。

近年来,人机协同和对比学习在图像分析中应用颇多,是文化遗产和跨文化交流领域的研究热点之一。本文将之用于中国古代小说的域外传播研究,提出了新结论,证明古典文本与图像分析吸收新方法的必要与可能,也为文化遗产的数字化保护和创造性研究积累了新的案例与经验。

A Study on the Similarity between the Three Kingdoms-Themed Murals and Novel Illustrations at Wat PrasoetSutthawat in Thailand Based on Human-ComputerCollaboration: An Update on the Spread of Romance of theThree Kingdoms in Thailand’ s Premodern Period

Lin Ying, Han Yenan, Fang Liang, Wu Hongrun, Yu Fei

Abstract: The 364 Three Kingdoms-themed murals at Wat Prasoet Sutthawat in Bangkok, Thailand, completed in 1838, serve as pivotal evidence of the dissemination of the Chinese novel Romance of the Three Kingdoms in Thailand during the premodern era. These murals frequently include textual annotations, and their compositions are highly similar to the woodblock-printed illustrations from Chinese novels during the Ming-Qing dynasties. This study has compiled a dataset that includes 364 murals and 639 printed illustrations from 16 representative editions of Romance of the Three Kingdoms. A contrastive learning model (SimCLR) was employed to extract image features and generate similarity scores. Integrating computational analysis through contrastive learning with humanities-based interpretation, this research revises our understanding of the novel’s dissemination and reception in Thailand: 1) pushing back the earliest confirmed arrival time of Romance ofthe Three Kingdoms as Chinese texts to Thailand’s premodern period; 2) revealing that the murals show dual influences from both Jiangnan and Jianyang illustrated editions (particularly the Zhou Yuejiao edition), while their captions primarily reference the Mao Zonggang commentary edition. These findings refine studies on the overseas transmission of classical Chinese novels and propose new approaches for traditional image-text analysis and human-computer collaborative mechanisms in cultural heritage preservation.

Keywords:Romance of the Three Kingdoms; Images; Contrastive Learning; Human-Computer Collaboration

编辑 | 韩玉凤

本研究得到国家社科基金后期资助一般项目“古代小说人物研究新论”(20FZWB038)支持。

向上滑动 查看注释

[1]准确地说,《三国志演义》指嘉靖年间序刊本《三国志通俗演义》,《三国演义》为清初毛氏父子评改本,本文统称《三国演义》,必要时以“嘉靖本”和“毛评本”加以区分。

[2]中国古代典籍传入东南亚的途径,主要有中国政府赐赠、东南亚人士来华购买及书籍贸易等三种,明清通俗小说传入东南亚的途径主要是后两种。参见潘建国:《古代小说书目简论》,上海:上海古籍出版社,2005年,第76页。

[3]金勇:《形似神异:〈三国演义〉在泰国的古今传播》,北京:北京大学出版社,2018年,第48—79页。

[4]参见黄汉坤:《中国古代小说在泰国的传播与影响》,博士学位论文,浙江大学,2007年,第20页。该书藏于泰国历史最悠久、藏书最宏富的曼谷(塔瓦苏吉)国家图书馆,馆中藏有中国明清两代小说典籍39部。

[5]洪版《三国》诞生在1802年,由昭帕耶帕康(洪)在曼谷王朝一世王(1782—1809在位)授命下主持译成,是最经典的泰译本《三国演义》,见丹隆拉查努帕:《〈三国〉纪事》,曼谷:文学艺术馆,1973年。该书尚无中译本,中文信息译自ชพูลเออื้ชูวงศ.สมเดจฯกรมพระยาดรงราชานภาพตนานสามกก.กรงเทพฯ:บรรณาคาร,2516。笔者按:泰国图书采用佛历纪年,佛历2516年即公元1973年。

[6]如前述洪版《三国》影响强盛所示,泰国的本土语言十分发达,不像古代越南长期使用汉文进行小说创作,可以利用越南汉文小说对中国古代小说的称引来进行研究(参见林莹:《从称引维度探求古代小说在越南的影响——兼谈〈金瓶梅〉在越传播的特殊性》,中国《金瓶梅》研究会(筹)编:《金瓶梅研究》第十三辑,上海:复旦大学出版社,2021年,第364—382页),对泰国来说,间接证据无法从文字中获取。

[7]胡春涛:《泰国曼谷建安宫〈三国演义〉壁画探讨》,《湖北美术学院学报》2019年第4期。笔者按:《增像全图三国演义》为清光绪十四年(1888)上海鸿文书局石印本。而在巴寺壁画绘制的道光十八年(1838),石印技术尚未引入中国,更无可能施用于小说插图(石印技术引入中国后印制的首部插图本小说为光绪八年(1882)《三国演义全图》,详见潘建国:《铅石印刷术与明清通俗小说的近代传播——以上海(1874—1911)为考察中心》,收入氏著《物质技术视阈中的文学景观:近代出版与小说研究》,北京:北京大学出版社,2016年),故对巴寺壁画起到影响的不可能是石印本插图。

[8]“虽然内容是中国的《三国》故事,但壁画布局和画工风格已和泰国当时的其他壁画十分接近了,即将不同情节的内容以山水连携或结构布局的方式串联成一幅鸿篇壁画,绘在大殿的四壁之上,既可以作为一个整体的画卷来欣赏,又可以根据局部提供的经典情节提示以及文字说明分段欣赏。壁画画工精美,色彩艳丽,显见该壁画泰国画匠参与的程度要高一些。壁画中虽然士兵衣物中有‘车’‘兵’‘军’等中文字样,但各部队打出的大旗上却是用仿汉字的花体的泰文写就的‘曹操’‘张辽’‘甘宁’‘周瑜’等字样。此外,在壁画人物的服饰上出现了不少戏服的样式,许多大将脸上画着脸谱,不少士兵的衣着甚至是中国清朝士兵的打扮,战船也是中国南方商船鸡眼船的外观,可见这些形象都是画匠从泰国的中国戏曲和华人移民那里得来的印象。”参见金勇:《形似神异:〈三国演义〉在泰国的古今传播》,第378页。

[9]曼谷王朝拉玛三世在位期间是中泰文化艺术交流的鼎盛时期,佛寺作为泰国文化艺术交流的中心,佛寺内的壁画艺术也进入繁荣时代。泰国的宗教比较包容开放,此时期的寺院壁画内容已经不限于宗教,还包括了历史题材的描绘。因此,三国故事得以进入泰国佛寺。参见郎天咏:《东南亚艺术》,石家庄:河北教育出版社,2003年。

[10]金勇:《形似神异:〈三国演义〉在泰国的古今传播》,第377页。

[11]郑宝获封爵号为“帕巴森瓦尼”,“帕”(Phra,พระ)为爵位,“巴森瓦尼”(Prasoet Vani,ประเสริฐวานี)是其泰文名:“巴森”(Prasoet,ประเสรฐิ)意为崇高,“瓦尼”(Vani,วานิช)通常与商业相关。“巴森苏塔瓦”即郑宝泰文名字中的“巴森”(Prasoet,ประเสรฐิ)加上意为纯洁的“苏塔”(Suttha,สทุธา)和意为寺庙的“瓦”(Wat,วดั)而成。

[12]即中川渝《〈三国志演义〉版本研究》(上海:上海古籍出版社,2010年)分类的二十四卷系统诸本前13卷、二十卷繁本系统诸本和二十卷简本系统诸本前11卷的内容。中川谕划分的版本系统,详见本文第125页注释②。

[13]壁画采用界格分行列排布,用汉字在画面上标注了大量的人名、地名和图题——这是比较典型的中式画面传统形式,中国寺庙壁画和木刻书籍插图都保存有这一画面布局习惯。而窗户众多的泰式寺庙的壁绘多在两窗之间布置图像,且画面汉字题记稀少,即使有题记也为汉字夹杂着泰文,书法稚拙粗糙。因此,巴寺壁画是“比较典型的中式画面传统形式”。参见胡春涛:《泰国曼谷建安宫〈三国演义〉壁画探讨》,《湖北美术学院学报》2019年第4期。

[14]黄汉坤:《中国古代小说在泰国的传播与影响》,博士学位论文,浙江大学,2007年,第61页。

[15]19世纪中叶,泰国开始从封建王权国家向现代国家转型,标志是1855年与英国签订《鲍林条约》,时值曼谷王朝拉玛四世时期。参见金勇:《形似神异:〈三国演义〉在泰国的古今传播》,第180—181页。

[16]壁画与小说版刻插图的联系并不少见。李朝霞在《清代晋东南地区民间神祠壁画研究》(博士学位论文,中国美术学院,2021年)讨论了山西长治大峪村关帝庙万历年间所绘壁画与晚明周曰校本、李卓吾评本《三国演义》插图的相似性,见第104—109页。

[17]初蓬·厄初翁:《三国:巴森苏塔瓦寺佛殿中的壁画艺术》,硕士学位论文,泰国艺术大学,2005年。此论文无中译本,中文信息译自ชูพลเอื้อชูวงศ์.สามก๊กจิตรกรรมฝาผนังในพระอุโบสถวัดประเสริฐสุทธาวาส.มหาวิทยาลัยศิลปากร,2005。

[18]陈柳玲:《泰国拉玛二、三世时期佛教美术中的中国美术影响》,博士学位论文,北京大学,2012年,第103页。

[19]金勇:《形似神异:〈三国演义〉在泰国的古今传播》,第376页。

[20]王少杰:《泰国曼谷王朝壁画刍议——以巴森苏塔瓦寺壁画的中国元素为中心》,《中外艺术研究》2020年第3期。

[21]胡春涛:《泰国曼谷建安宫〈三国演义〉壁画探讨》,《湖北美术学院学报》2019年第4期。

[22]清初艺海堂本《四大奇书第一种》,北京师范大学图书馆藏。

[23]明刊《李卓吾先生批评三国志》,南京图书馆藏,收入《三国志演义古版丛刊续辑》(陈翔华主编,全国图书馆文献缩微复制中心,2005年)第11、12册影印本。

[24]明万历忠正堂本《新锲音释评林演义合相三国志史传》,日本睿山文库藏,收入《三国志演义古版丛刊续辑》第10册影印本。

[25]陈翔华《关于日本藏熊佛贵忠正堂刊本三国志史传》一文亦称,这种(插图)体式,“在《三国志演义》诸明刻本中殊不多见”,见《三国志演义古版丛刊续辑》第10册前言。

[26]涂秀虹:《明代建阳刊小说丰富多彩的插图形式》,中国古代印刷史学术研讨会论文,北京,2018年。

[27]部分壁画信息过少,难以辨认;部分壁画由于年深日久,保存不力,画面侵蚀较多,亦难以辨认。

[28]本文引用嘉靖本,皆据罗贯中:《三国志通俗演义》,上海:上海古籍出版社,1980年。后不出注。

[29]根据中川谕基于文字异同的考证,《三国志演义》可以分为三个系统:一是“二十四卷系统”,包括嘉靖本、夏振宇本、周曰校本、李评本、毛评本等(其中夏振宇本、李评本都继承了周曰校本插入的嘉靖本中不存在的11个故事);二是“二十卷繁本系统”,包括余象斗本、郑少垣本、杨闽斋等;三是“二十卷简本系统”,包括刘龙田本、朱鼎臣本、杨美生本等。见中川谕:《〈三国志演义〉版本研究》,林妙燕译,上海:上海古籍出版社,2010年,第38页。

[30]李评本主要有吴观明本、绿荫堂本、藜光楼本等,其中最早的是推测为天启年间刊刻的吴观明本,见中川谕:《〈三国志演义〉版本研究》,第67—79页。而吴观明本插图对周曰校本吸收借鉴颇多,“有三分之二左右深受周曰校刊本的影响,其中泰半是构图布景方面的影响”,见胡小梅:《明刊〈三国志演义〉图文关系研究》,博士学位论文,福建师范大学,2015年,第144页。

[31]中川谕指出,李笠翁本“与二十四卷系统诸本中的周曰校本属于同一个系统”,并且在这一系统内部,“相对于周曰校本、夏振宇本……更接近李卓吾评本”。见中川谕:《〈三国志演义〉版本研究》,第145—146页。

[32]参见李小龙:《试论中国古典小说回目与图题之关系》,《文学遗产》2010年第6期。

[33]在建本系统中,叶逢春本刊于嘉靖二十七年(1548),是现存最早的《三国志演义》插图本,也是现存较早的古代小说插图本。

[34]本文引用毛评本皆据罗贯中:《三国演义》,北京:人民文学出版社,2019年。此书底本为大魁堂本。

[35]按:壁画此处排序有误。按小说叙述,当为“孙伯符大战严白虎”在前,“吕奉先辕门射戟”在后。

[36]所谓“文化互化”,简言之,即当一种文化进入到另一种文化,必然涉及母体文化的损失。参见Yolanda Martínez-San Miguel, Ben Sifuentes-Jáuregui, Marisa Belausteguigoitia, Critical Terms in Caribbeanand Latin American Thought: Historical and Institutional Trajectories, New York: Palgrave Macmillan, 2016, p.133。原文为“While acculturation described the assimilation processes into US society, where European, African, and other immigrant populations learned English and assimilated into American society, transculturation addressed the complex processes of exchange—linguistic, economic, racial, gendered, and cultural—involved in these exchanges. For Ortiz, cultural assimilation was not a one-way process that involved one less powerful culture assimilating into a more powerful one, giving bicultural peoples a sense of ‘loss’ as Malinowski’s proposed for US acculturation, but a two- or more way exchange of cultural influences, layering upon each other in complex processes of power, loss, and production”。施坚雅也指出,华人为了融入泰国社会,会向泰人的文化方向过渡,参见施坚雅(G. William Skinner):《泰国华人社会:历史的分析》,许华等译,厦门:厦门大学出版社,2010年,第137—139页。巴寺壁画因处在泰国宗教文化场域而呈现的变化,正是这一同化过程的一种佐证。

[37]对人工来说,文字转换为图像是一对多的关系,一段文字可以对应多种图像,但对机器学习来说,一一对应更方便学习。前述“吕布戏貂蝉”一处的分析,靠人力可以判断壁画与周曰校本的高度相似性,但对机器来说,二者的相似度计算结果并无绝对压倒性的优势。此处涉及图文关系综合研判,人工的优势大于机器。

[38]前述胡春涛《泰国曼谷建安宫〈三国演义〉壁画探讨》关于建安宫壁画与晚清石印本小说插图关系、李朝霞《清代晋东南地区民间神祠壁画研究》关于山西长治大峪村关帝庙万历年间所绘壁画与晚明版刻小说插图的相似性探究,就是单纯依靠人力的研究,其可信度如何,取决于人工识图习惯、能力以及处理的图像数据规模。当涉及图像计算客观性和数量级的提升时,机器优势大于人工。

点击下方链接,下载原文

基于人机协同的泰国巴森苏塔瓦寺“三国”主题壁画与小说插图相似度研究——兼及《三国志演义》在泰国前现代时期流传情况的更新.pdf

如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

校对  |   肖爽

美编  |  王秀梅

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

概念联觉视角下《周易》的深度数字化文本探勘

2026年3月11日 10:01

原创 阮铭卓 靳丽阳等 2026-03-11 10:01 北京

《周易》是我国传统哲学经典之一,其文本所蕴含的哲学思想具有巨大的研究价值。在传统《周易》研究中,由于技术手段的限制,学者们往往依赖主观解读和文献考证,这在一定程度上限制了对文本深层次结构和内在联系的全面理解。

文本分析

2.png

阮铭卓 / 清华大学日新书院

靳丽阳 / 清华大学日新书院

彭弋航 / 清华大学日新书院

邱伟云 / 南京大学历史学院暨学衡研究院(通讯作者)

摘 要:《周易》是我国传统哲学经典之一,其文本所蕴含的哲学思想具有巨大的研究价值。在传统《周易》研究中,由于技术手段的限制,学者们往往依赖主观解读和文献考证,这在一定程度上限制了对文本深层次结构和内在联系的全面理解。文章通过数字人文技术的应用,特别是语义共现和概念联觉分析,为《周易》研究提供了新的视角。文章通过对《周易》文本进行断词和词频统计,并结合词向量计算,深入探讨了《周易》中的概念如何通过不同感官体验相互关联。研究发现,《周易》文本中的概念不仅在语义上形成了集群,而且在感官体验上也展现出显著的联觉现象。例如,刚柔概念在触觉上的体现,以及君子形象在视觉、听觉和味觉上的多维表现,都为理解《周易》的哲学思想提供了新的维度。文章的研究成果不仅丰富了《周易》文本的语义分析,也为数字人文方法在古典文献研究中的应用提供了有益的探索。

关键词:《周易》 数字人文 概念联觉

一、前言:从文献考证到数字人文的转变

《周易》作为中国古典哲学的精髓,其深邃的哲学思想和丰富的象征意义一直是学术界研究的热点。历代学者通过文献考证、哲学阐释和历史解读等传统方法,对《周易》的卦象、爻辞进行了深入研究,揭示了其哲学内涵和实践指导意义。

李玮如从《周易》中的“象”概念出发,探讨了易学中“象”“理”“数”三者的重要性和相互关联,尝试通过概念探源和寻找概念之间的联系两种并行的操作方法,从纵向和横向两个维度对“象”这一概念产生更丰富的认识,借以理解《周易》的内在思想。[1]由于《周易》的文本具有言简意赅的特点,对于其概念的多维度认识尤为重要。胡士颍深入分析了“道”概念的多维度认识及其与其他概念的复杂关系,而王莹则分别论述了“道”与“德”的概念,强调了《周易》在理性思维框架内融合了多种思维方式。[2]此外,吴根友和李顺连分别对“复”和“神”的概念进行了深入探讨,进一步丰富了对《周易》哲学思想的理解。[3]

然而,尽管这些研究从概念的深入分析入手,为我们理解《周易》提供了宝贵的视角,但在概念理解的全面性和深度上仍有提升空间。这些传统研究在处理大量文本数据时存在局限性,难以全面把握文本的宏观结构和内在联系。因此在用传统方法开展研究时,只能围绕自己所讨论的一个或几个“中心概念”展开论述,容易忽视其他概念。这一问题可能直接导致对于某一概念的过分解读,或者曲解文本原意。考虑到《周易》文本中各概念并非孤立存在,其内部概念之间的联系非常紧密,因此如果要对《周易》中的哲学内涵有一个全面的认识,就必须从更加宏观的视角看待《周易》中各概念之间的相互联系。要实现上述目标,至少需要解决两个问题:第一,《周易》文本涉及的概念是方方面面的,应确定合适的概念归类与整理标准,且尽可能统摄所有概念,减小因主观选择而带来的理解误差;第二,应选取合适的方法,对《周易》中的这些概念进行分析,在保证科学性的同时,尝试拓展文本的解释空间。

要解决第一个问题,不妨从《周易》的文本特征入手。《周易》作为先秦哲学的集大成之作,其中涉及的许多思想能够集中反映先秦时期的人们对于天道、人事等抽象规律最为朴素的认识,对后世产生了深远影响。《周易》通过将抽象规律客观化,并映射于具象的客观事物中,以进行抽象概念与规律的发微,尽可能准确地传达对某一抽象概念或规律的认识。《泰》:“后以财成天地之道,辅相天地之宜,以左右民。”[4]这强调了人既要深刻地认识自然,又要主动地协调自然,体现出人与自然之间辩证统一的关系。赵国求指出,人类对于本体的认知首先观察到的是现象,这些现象是外在的、零散的、易变的“感觉表象”。[5]这表明人类认知自然的起点是感觉,所谓的将抽象概念客观化实际上就是使得本不能轻易被感知或理解的事物或规律变得可感知,进而变得可理解。也就是说,客观化的标准就是能够直接触动人的某些感觉。《周易》中存在着以感官联觉串联起的一群重要概念,这些就是《周易》中重要的基本概念。通过这些基本概念,《周易》触动着人的五种感觉,即视觉、听觉、嗅觉、味觉、触觉,将抽象的哲学思想蕴藏到自然界和日常生活中的具体事物中,从而将人类与自然界与人事的规律联系到一起。这种认识的首要优点是能够更加立体地认识某个概念。例如“风”不仅可以在触觉上与人产生联系,同时可以在视觉、听觉、嗅觉上触动人的感受。当综合这些感受以后,对于这一事物的认识就更加立体、全面,其中的哲学思想也就更加利于发掘和感受。同时,由于不同概念可以触动人的不同感觉,但又无法超出人的五感限制,就人类本身来说,对于事物的认识应该是从五感中共同产生,因此,如果从“联觉”的角度加以分析,不仅可以对概念本身有更深入的认识与理解,同时可以对概念之间的联系进行整体研究。

基于此,本文从“联觉”的角度出发,研究《周易》文本中的联觉现象并探索其应用价值,在《周易》哲学思想的研究思路与模式上举出新例。在传统的研究中,受技术因素的限制和研究者个人情感、经历的干扰,很难在整体上分析《周易》文本各部分内容。然而随着数字人文方法的发展,实现这一目标已经成为可能,且传统文本解读与计算思维的结合为《周易》等古籍研究提供了新的视角和工具。本文将采用数字人文方法,以点带面,深入探讨《周易》中的概念联觉现象。特别是将“触觉”作为重点分析对象,同时关联“味觉”“嗅觉”“听觉”和“视觉”,以期揭示《周易》文本中概念之间的深层次联系和感知模式。

神经学界普遍认为,通感和联觉现象可能共享相似的生理机制。维拉亚努尔·拉马钱德兰(Vilayanur Ramachandran)和爱德华·哈伯德(Edward Hubbard)提出,这两种现象可能都受到大脑中生理联结的调控。[6]劳伦斯·马克思(Lawrence Marks)进一步指出,通感可以被视为联觉的一种边缘形式,它们反映了人类普遍的感知过程。[7]然而,语言中的通感现象并非仅由生理联结所驱动。赵青青等人通过对通感系统的分析,提出通感是神经认知活动和语言概念化之间相互作用的结果。[8]这意味着通感现象虽然以神经活动为基础,但与直接表现的神经活动不完全等同。而且,基于神经与认知科学的研究表明,人类的感知体验可以被语言中的概念所左右。例如,劳伦斯·马克思等人和罗科·周(Rocco Chiou)、安妮娜·里奇(Anina Rich)的研究显示,语言概念能够反向作用于人的感知。[9]这与我们的推测一致,即联觉现象可能是生理神经活动,还可能涉及抽象概念的认知加工,这种认知加工就是读者端将客观概念产生的感觉转化为对抽象概念的认识的过程,在本研究中反映为对《周易》相关抽象概念的认识与理解。在特殊类型的联觉中,语言概念能够触发味觉体验,如词语味觉联觉(见迈克尔·巴尼西等人的研究),这进一步支持了上述观点。[10]语言中的通感现象具有重要的跨学科研究价值。深入研究通感与联觉的关系,有助于我们更好地理解人类大脑的神经活动与认知概念化之间的联系。例如,王锳《试论“通感生义”——从“闻”字说起》中提到,“闻”的词义除了可以从听觉转移到嗅觉之外,还可转移到视觉。几种感觉可以互通,也不仅仅限于“闻”字的个别现象。比如“闹”本义是喧闹,但也可以由听觉转移到视觉,比如李商隐的“闹若雨前蚁”中的“闹”字,还可以理解为浓密;“抹”字除了手部动作的“一抹”之意,还能有“用眼一瞥”的意思;“满意”除了一般心理感觉,还能转移到视觉,比如程垓《醉落魄·赋石榴花》:“夏围初结,绿深深处红千叠,杜鹃过尽芳菲歇。只道无春,满意春犹惬。”[11]这些研究与例证都为概念联觉的研究思路提供了理论基础,而数字人文技术则为概念联觉分析提供了方法支撑。

本文基于前人研究以及通感和概念联觉的方法,对《周易》文本进行分析,试图以一种全新的视角,整体性地研究《周易》夹带的哲学思考和认知结构。通过运用数字人文技术,本文尝试发现计算语言概念如何触发感官体验路径的方法,为《周易》的认知结构和哲学思考提供新的解释路径。这种跨感官的分析视角,有助于我们更深入地理解《周易》文本的丰富性和复杂性,也为数字人文在古典文献研究中的应用提供了新的范例。

二、概念计算与语义分布

首先,我们利用库博语料库分析软件(CORPRO)中自带的概率模型对《周易》文本进行断词,采用的标准语料库是《周易》原文,数据总字数为32,332,按照一爻辞为一个语料段落,将文本分为1,698个语料段落。根据初次的词频统计结果,将标点符号、常见虚词以及无关实词放入停用词表。通过断词和筛选,我们总结出了词频排名前十位的词汇。为了方便宏观统计与观察,我们将类似的相关概念进行了同类词处理。例如在《周易》中,“吉、贞、利”三词各有侧重,“吉”作为占断词可独立成义,“利”后多加行为指导,一般不独立成词,“贞”较为复杂,某些语境下有“占卜”之义。然而在《周易》的具体语境中,三者经常连用或并用,共同指向积极的结果或状态。例如《坤》:“元亨,利牝马之贞。”《需》:“有孚,光亨。贞吉,利涉大川。”《蹇》:“利见大人,贞吉。”吉、贞、利三者不仅共现频率高,而且在语义上也有相通之处,这一点历来为《周易》的解读者所重视。《周易注疏》:“乾元者,始而亨者也。利贞者,性情也。”“以有乾之元德,故能为物之始而亨通也……‘利贞者,性情也’者,所以能利益于物而得正者,由性制于情也。”[12]“亨”即连始,“贞”又连“利”,亨、利、贞三者皆出于乾元,并为乾始万物之后,生长美善,皆能有利于天下。“元、亨、利、贞”为乾卦四德,本为整体,“吉”是对四者的概括性描述。《周易大传》读法是,“元,善也。亨,美也。利,利物也。贞,正也。天有善、美、利物、贞正之德,故曰:‘《乾》:元,亨,利,贞。’《文言》谓君子亦有此德。”[13]由此可见,吉、贞、利这三个概念在哲学上均体现了顺应自然规律和道德准则的重要性,它们在卦象和爻辞中常常相互联系,共同构成了《周易》对理想行为和决策的描述,意义相近;且在《周易》文本中的出现频次均非常高,全部排名进前五位,所以我们将这三个词放入同一类分析,以与其他词区分并进行比较。[14]经过筛选,词频排名前十位的概念分别为吉、贞、利(250+176+141),无咎(140),君子(127),往、来(103+68),终(95),刚(92),万物(90),行(90),得(84),见(77)。[15]表1显示了词频统计结果。

图1.png表1 词频统计结果

对表1中数据进行初步观察和分析可知,《周易》对生生不息、新而又新的哲学理念在时间、空间、事物品类三方面都进行了解释,但是由于材料分散,既往的研究很难凭人力寻找到证据进而为这一观点提供有力支撑。然而运用上述使用数字人文计算后得到的客观数据结果,可以尝试给出一种合理的解释。由表1数据可以看出,《周易》中排名第四位的词语是“往、来”,事物的盈虚消长在时间上体现为一个连绵不断的过程,“日往月来”“暑往寒来”是《周易》所描述的时间上生而又生的直接例证。同时,《周易》中排名第七位的词语是“万物”,其代表性的搭配是“万物始”“万物兴”,其意义是世间万物不断地更新与发展,新事物不断从旧事物中兴起和前进,代表了事物在空间和种类上的生生不息,源源不断。《乾》:“大哉乾元,万物资始。”《坤》:“至哉坤元,万物资生,乃顺承天。”根据张学智先生的研究:“天给万物以存在及其性质,地给万物以存在之展开与性质所以发生功效的现实能量。存在及其性质是知,性质之展开及功效为能。这是天地的德与业……万物为杂,乾坤为纯,杂物撰德,各有其能,万能皆发而不害纯之为纯,一分一合,皆自然之事。”[16]天地是承载万物的场所,也是万物始兴的凭借;故而万物的兴起、发展,都顺应天地的规律,也就是自然规律。《老子》:“无名天地之始,有名万物之母。”《庄子·天地篇》:“天地虽大,其化均也;万物虽多,其治一也。”前者揭示出从混沌到秩序的生成逻辑,后者则对天地万物的“化”与“治”进行补充,形成了一个完整的“本体—运化—治理”框架。《周易》的众多卦象本身即是对“有名”的极致演绎,而又能时刻回归于天地万物,注意到万物作为整体性的存在。《系辞上》:“是故《易》有太极,是生两仪。两仪生四象。四象生八卦。”这描述了从无形本体到有形符号的演化过程,与《老》《庄》所描述的演化逻辑相一致,可见《周易》与《老》《庄》在思想渊源上的共通之处。

从表1中可以看出,无论是表示状态还是动作的词汇,其许多相关搭配显示出了变化的态势及可能性,并强调了应加强自身修养,顺应自然规律。这揭示了某种状态的产生和维持都是有条件的。以表1中词频排名第三的“君子”一词为例,《周易》重视探究君子在变化中的经权定位,强调君子既需要立于常道,以到达“元亨利贞”的境界,又需要在不同环境中随时权变。如果说前者是抽象层面的理想状态,后者常常表现为具体要求。例如,《益》“风雷,益,君子以见善则迁,有过则改”;《既济》“水在火上,既济,君子以思患而豫防之”;《未济》“火在水上,未济,君子以慎辨物居方”。这些关于“君子”的要求彼此有别,但都是针对具体情况下的实际选择,展现了《周易》对君子的内在要求与约束逻辑。《乾》《坤》中对君子提出“自强不息,厚德载物”的要求,开宗明义,是“君子”含义的统摄性表述。下文诸卦中所展现的君子的不同状态,是不同情境下的具体选择。二者相互联系,更加明确了《周易》中“君子”的形象解释。

这样的文本探勘结果还有助于整体性地认识处于一对矛盾中的词汇。《周易》中提到了许多反义词,各组反义词侧重于不同方面。根据计算结果,刚(柔)排名第六位,词频非常高,说明关于这对矛盾词组的处理是《周易》对阴阳和谐思想的阐发的重要体现。《睽》“二女同居,其志不同行。说而丽乎明,柔进而上行,得中而应乎刚,是以小事吉”;《解》“刚柔之际,义无咎也”,表现了刚与柔和谐统一的状态。《损》“损刚益柔有时,损益盈虚,与时偕行”,这体现出刚与柔的变化消长也随时而动,矛盾的偏向性不是一成不变的。类似地,《升》“柔以时升,巽而顺,刚中而应,是以大亨”;《兑》“刚中而柔外,说以利贞,是以顺乎天而应乎人”;《涣》“刚来而不穷,柔得位乎外而上同”;《中孚》“柔在内而刚得中,说而巽孚,乃化邦也”,可见刚柔是事物的内在特性,事物本身即具有矛盾性。《周易》善于通过刚柔之交、刚柔之际等描述将抽象的哲学思想具象化,代表了万物相通和相互转换的重要视角。

图2.png图1 热力图

但是,仅凭这样分析依旧不够直观,不能很好地将计算结果与原文进行联系。基于此,我们课题组又使用ChartCool制作了热力图(图1),用以表征这些词汇的词频随卦象的分布情况,横坐标是表1中词频统计排名前十位的词汇,纵坐标是64卦,颜色越深代表该词在这一卦中的词频越高。在此图中,64卦的排序我们选择按照《周易》原文的叙述顺序进行排列(由下至上为:乾、坤、屯、蒙、需、讼、师……),观察热力图,可以得出更多结论。

按这样《序卦传》所编排的相传已久的卦序,可以将《周易》分为上、下两部分,上经三十卦,下经三十四卦。[17]孔颖达《周易正义》提出《周易》分上、下两篇,以象阴阳。[18]《二程集》中记载了关于上、下经的另一则论述。刘牧曾提出上经主要叙述的是“形器以上事”,是“天地生万物”,相对应的下经主要是“形器以下事”“男女生万物”。这一说法将孔说延伸至上经主要与天道相关,下经主要与人道相关,其论更加具体。程颐随即提出反驳,认为“男女所生”即“天地所生”,二者没有区别。[19]然而,刘说却为我们提供了《周易》的一种可供讨论的结构化叙事模式。依照上、下经的分割方法,词语的分布位置就能够标明其意义指向。例如“往、来”主要分布在下经部分,那么可以初步推断这个词体现在《周易》对于人事发展的指导上。《蹇》“山上有水,蹇,君子以反身修德”,《兑》“说以利贞,是以顺乎天而应乎人”,这些卦辞与爻辞所显示的结果都体现着对人的行为的引导。

但是,我们可以发现,“君子”一词主要分布在上经部分,也就是多与谈宇宙的基本结构和变化规律的“天道”部分相关。然而在一般性认知中,《周易》中与君子有关的叙述多是在具体环境下对君子的行为要求,与谈人类社会的具体事务和行为规范的“人道”关联性更加密切。通过数字人文技术打开的这一认知缝隙,启发了我们通过结构分布式意义的视角,重新审视君子在上、下经中的分布与描述,进一步思考君子的概念意涵。当我们特别关注上经中的君子论述时可见,如《乾》“天行健,君子以自强不息”,《坤》“地势坤,君子以厚德载物”,这两句作为《周易》中有关君子形象的流传最广、影响最大的两句话,在《周易》的开端即对君子提出了纲领性的要求。其中的“厚德载物”与“自强不息”分别对君子的“德”与“行”进行了规定。在这个基础上,考察《周易》中其他关于君子的描述,可以发现实际上是在“自强不息”与“厚德载物”的规定下,提出的对君子更为具体的要求。这里试举几例:

《讼》:“君子以作事谋始。”

《师》:“君子以容民畜众。”

《履》:“君子以辨上下,定民志。”

《否》:“君子以俭德辟难,不可荣以禄。”

《颐》:“君子以慎言语,节饮食。”

《既济》:“君子以思患而豫防之。”

《小过》:“君子以行过乎恭,丧过乎哀,用过乎俭。”

由此产生的问题是,既然这些表述大都描述了对于君子的思想与行为规范要求,那么“君子”这一概-念理应更贴近于“人道”,为什么会在以描述“天道”为主的上经中集中出现呢?赵爽已经注意到,“《易经》对天的认识已经实现由感性到理性的飞跃”。[20]这一飞跃导致的直接结果,就是将对于“天道”的感性认知转化为理性实践。即将较虚的“天道”外在化,表现为具体的行为,就是融入卦辞和爻辞中。通过计算结果,我们可以寻找到《周易》对于君子的核心要求,即行为顺应天道。证以《大有》“君子以遏恶扬善,顺天休命”,“顺天”即《周易》对君子的核心要求。通过概念计算所产生的对君子应规范行为以顺应天道的这一认识,与既往一般自明性地以为与人道更为相关的认识不同,完善了我们对于《周易》中“君子”这一概念的全面认知。

综上可见,数字人文技术在《周易》研究中揭示的新现象具有重要意义。首先,它通过词频统计和分布分析,使我们认识到“君子”一词在上经中的集中分布,这与“君子、人道存在紧密联系”这一宋明之后的认知似乎不同,引导我们重新思考君子行为与天道顺应的关系。然而,经过深入分析我们可以发现,这二者在深层是统一的,共同揭示了《周易》对“君子”的独到理解。这样的认识引领我们对此概念进行更为深入的思考。其次,“往、来”一词在《周易》下经的频繁出现,突出了其在人事发展中的重要性。这一现象为我们提供了一个新的视角,帮助我们更深入地理解《周易》在时间维度上如何阐释变化与连续性的哲学概念。它揭示了《周易》不仅关注事物的动态发展,也强调了在变化中寻找恒常与秩序的重要性。这些通过数字人文视角而得出的新发现,着实丰富并加深了我们对《周易》文本与思想的理解,为我们揭示了数字人文带来的方法与视角,在传统概念研究与古籍文本探勘中的巨大潜在效用。

三、概念共现与联觉分析

联觉是指一种感官刺激能够触发另一种感官体验的现象,它在认知科学和心理学中是一个重要的研究领域。传统研究中,《周易》的概念研究多依赖于学者的直观感受和个人经验,这在一定程度上限制了对文本深层次结构和概念内在联系的全面理解。在《周易》的文本中,概念之间存在一种不同感官体验之间相互隐喻和象征的关系,这种联觉特性为理解《周易》中的概念关系提供了重要线索。尽管一些本身就容易引发多重感官体验的概念能够被研究者发掘,但多数更深层更隐含的联觉现象却常常被忽略,而这些现象恰恰可能揭示《周易》概念之间更为复杂和微妙的内在联系。

在自然语言处理技术中,词嵌入(word embedding)是一种将词汇映射到向量空间的方法,每个词汇都与该空间中的一个点相关联。这种表示方式能够捕捉词汇之间的语义相似性,因为语义相近的词汇在向量空间中会呈现出相近的分布。[21]例如,“国王”和“女王”在向量空间中的距离会比“国王”和“桌子”更近,因为它们在语义上更为相似。这种方法在语义相似度计算、词义消歧等任务中得到了广泛应用,为文本分析提供了新的工具和视角。[22]通过词嵌入技术,我们可以更深入地挖掘《周易》文本中概念之间的语义关联,尤其是那些隐含的、跨感官的联觉现象,从而为理解《周易》的哲学思想和认知结构提供新的解释路径。本节在方法上,主要基于Word2Vec模型进行词向量计算,以期从其他视角捕捉《周易》感官概念之间的语义关系及其相似性,并通过相似性分析帮助发掘和思考概念之间直观感受下潜藏的联系,以探索《周易》文本中隐含的感知模式和认知结构。[23]

在文本准备与预处理环节,团队选取了《周易》的完整文本作为研究对象,并选用黄寿祺、张善文执笔,上海古籍出版社于2018年出版的新修订版《周易译注》作为参考。由于库博语料库分析软件自带的概率模型在执行断词任务时容易过度断词,例如将“明出地上”断为“明/出/地上”,这样就失去了词的整体性意义,不能进一步与五感对应。因此,团队采用了可调整性与可训练性更强的jieba分词工具[24]进行分词处理,为了消除jieba分词带来的歧义,保证分析的准确性,团队手动对文本进行了去除无关符号、标点和格式化错误等处理,最终形成了自己的语料库。

分词结果交由Word2Vec实现词向量构造。Word2Vec是自然语言处理Gensim库提供的一种用于生成词向量的模型,它通过神经网络技术将词语映射到一个低维的连续向量空间中。这个模型能够捕捉词语之间的语义关系,使得语义上相近的词在向量空间中也相近。词向量的构造表现为:

图3.png

收集并预处理《周易》文本数据,形成分词结果,将这些文本数据作为训练Word2Vec模型的数据底本。在训练过程中,模型学习每个词的向量表示,这些向量能够反映词之间的语义关系。“向量提取”意为:训练完成后,从模型中提取特定词(如“易经”)的向量表示。

在这里,团队利用《周易》原文文本作为数据底本。考虑到《周易》中的词汇此前未必包含在jieba词库中,团队首先利用jieba库的新词识别模式(HMM,隐马尔可夫模型)实现词汇列表构造,从而为Word2Vec的训练提供标准化接口“句子”,该“句子”并非自然语言,而是一个分别包含100个词汇的词组分划列表。然后使用Gensim库中的Word2Vec类训练词向量模型,并将模型保存。例如,我们通过将“易经”一词作为键值对匹配,实现了由自然语言词汇到数学向量的映射,如图2所示。

图4.png图2 《易经》的词向量

Word2Vec主要包括CBOW(Continuous Bag of Words)和Skip-Gram两种模型架构。在实现上,Word2Vec模型通过训练大量文本数据,学习到每个词的向量表示。它的局限性之一在于需要大量的语料库进行训练,无法直接处理未见过的词语。此外,Word2Vec是一种静态的方式,虽然通用性强,但是无法针对特定任务做动态优化。因此,在实际应用中,可以使用Gensim库对其进行训练。Gensim是一个专门针对自然语言处理的高效Python库,内置了Word2Vec模型的实现。团队将已形成的语料库导入Gensim库,并使用能够提供更丰富语义信息的Skip-Gram模型对其进行训练,以得到更适合本次研究的模型。

通过人工阅读和理解,并借助大语言模型提供的分类标准,[25]团队分工进行了概念的挑选与归类,选取了与五感概念语义相近的词语,作为标定的典型词汇。[26]接着利用这些标定的典型词汇,进一步手动选取与这些概念语义相近的其他词语;通过计算这些词语与典型词汇之间的词向量相似度,挑选出相似度最高的词语进行增广,形成增广列表。由于《周易》文本包含古汉语词汇,这些词汇可能无法被常用的分词工具(如jieba)准确识别。这导致一些手动挑选的词汇在自动分词结果中没有出现。为了解决这个问题,团队对分词结果进行了手动调整。例如,将一些长词汇拆分成更短的词汇,以便更好地适应分词工具的识别能力。

图5.png表2 典型词汇表[27][28][29][30][31][32]

最后,为了更直观地展示词向量分类结果,我们采用了非监督学习算法T-SNE对词向量进行二维可视化处理。首先,团队分别为五感(视觉、听觉、嗅觉、味觉、触觉)选取若干词汇作为分类锚点,然后利用词向量欧式距离差异分别为每个词找出最近的十个词汇,比如针对“嗅觉”我们先手动选取了“风、草木、泽、巽”四个词汇,然后利用词向量模型对每个词都找出十个最接近的词,并将它们和锚定词汇聚类在一起,作为最终“嗅觉”类别的词汇。接着,利用T-SNE算法对所有词汇进行可视化,训练所用向量的大小为3,320×100。

图6.png图3 五感(视觉、听觉、嗅觉、味觉、触觉)词向量可视化

上述分类在T-SNE分类图中用不同的颜色标注出来,结果如图3所示。将图3中的五感(视觉、听觉、嗅觉、味觉、触觉)相关的词汇进行分离,可以得到如图4至图8所示的五感相关的向量图。

图7.png图4 视觉词向量可视化

图8.png图5 听觉词向量可视化

图9.png图6 嗅觉词向量可视化

图10.png图7 味觉词向量可视化

图11.png图8 触觉词向量可视化

根据图中的词向量可视化结果,可以看到五感相关的概念在向量空间中形成了特定的集群。这些集群在二维可视化图像中主要集中在图像右侧的“尾巴”区域,显示出它们之间在语义和词频等多个维度上具有强关联性。进一步分析这些感官概念的分布特征,可以看出视觉概念在向量空间中的分布最为广泛,其词向量在图中呈现出较大的扩散范围。这表明在阅读和理解《周易》的过程中,视觉元素在感官体验中占据了主导地位,文本中涉及了大量的视觉描述或视觉相关的隐喻。相比之下,听觉、嗅觉、味觉和触觉的概念则相对较为集中,它们在图中的分布范围较小。特别是味觉和嗅觉相关的词汇,在图中的分布被隐藏得尤为明显。这说明这些感官元素在文本中可能不如视觉元素那样频繁出现,或者它们的描述更加隐晦,需要更加细致地分析才能被充分识别。

特别地,根据上文语义共现探勘的结果,刚(柔)在文本中的出现频率排名第六,词频非常高,同时“刚”与“柔”等概念又与触觉紧密相关,这让我们看到了触觉相关的概念在《周易》体系中也占有一席之地,从触觉的角度描述和阐释思想是分析《周易》的一种新的思路。《周易》强调阴阳平衡,并尝试从各个角度对这一对辩证概念进行解释,刚与柔正是其中的一例。从直观上来讲,触觉体验中刚柔的平衡十分重要,过刚或过柔的触感都会使人不适,而适度原则才能带来舒适自如的感受。更进一步来说,刚柔影响和象征着人的心理状态:刚强使人感到振奋和鼓舞,柔和则常与安慰和放松的感受关联,但过刚或过柔都不是相宜的处世心态。然而人们的处世心态常常为环境所影响,因此还需要积极调整以达到一种和谐、稳定的状态,这与《周易》中刚柔相生相克、变化无常的思想相契合。正是在阴阳、刚柔等概念相调和与相转化的谱系中,两端概念的不同比重导向了不同的卦象。比如《大过》“刚过而中”,中立调和下凸显了“刚”的特征,阳刚过甚时能够中立调和,不至于过刚易折,方能“利有攸往”,尽管去行动;再如《随》“刚来而下柔,动而说”,阳刚者位于阴柔之下,便于行随从之事,既体现了一种因势利导的调和取向,还蕴含着守持正固的不移心智。说明《周易》正是通过每个人都具备的触觉意识,将刚柔思想潜移默化于读者的潜意识中。

通过概念联觉分析,我们还可以多元化地认识理解文本中的经典概念。如前文分析,《周易》中多处内容都体现着对“君子”的期待与要求;而在将天道的现象外化为行动准则时,联觉现象就发挥着重要的作用。

根据词向量计算结果,“君子”概念与视觉、听觉、味觉、触觉都有关联,与嗅觉的关联性却不甚明确。视觉方面,君子可以被理解为具有远见卓识,能够洞察事物的本质,不局限于细枝末节和表面现象。如《观》的爻辞,通过比较“童观”“窥观”与“观我生”“观国之光”“观其生”,说明不同的观察视角反映了身份与眼界的高低,并且及时省察自我和他人行为的做法可以成就君子感悟成人之道。

在触觉方面,君子之行可以解读为对事物的敏感和细腻,能够通过触觉来感知和理解外界,体现出对关键细节的关注。在《周易》“解”卦中,“解而拇”的意象出现在九四爻辞:“解而拇,朋至斯孚。”按《周易译注》,“解而拇”意为“像舒解你脚拇指的隐患一样摆脱小人的纠附”,从而收获“朋至斯孚”的结果。[33]这一概念巧妙利用触觉感知的比喻,描绘出摆脱小人纠附后心理的自由和放松,侧面表现出了触觉在概念客观化认知中发挥的重要作用,体现了从触觉出发的深层认知。

在听觉方面,君子的品德体现在他们对声音的敏感度和分辨能力上,这不仅仅是对声音的简单接收,更是一种对信息的深度理解和判断力。君子善于倾听,能够从各种声音中辨别出规律与秩序,并衍生出深刻的思想,这种能力象征着他们对周遭世界的深刻洞察。《恒》:“雷风,恒。君子以立不易方。”君子长期通过耳朵接收声音,总结出一种声音规律秩序,亦即雷声震动,风声随之而起,并从这样的声音秩序中,体悟雷风之声相互作用和相互依存的关系是恒久不变的。这里的雷声象征着力量和警醒,而风则代表着迅速和传播。君子从雷风之声相随而起的自然现象中领悟到一种恒久不变的秩序,故得出应当坚守自己的立场和原则,不随外界的变化而轻易改变的思想。因此,君子的听觉品德不仅体现在对声音的敏感和分辨上,更体现在通过倾听自然现象中的规律与秩序,维护内心的恒定和平静,并在复杂多变的环境中始终坚守原则与方向的能力。这种能力使君子能够在纷繁复杂的世界中保持清醒的头脑和坚定的信念,正如雷风之声的恒久不变,君子亦能在变化中寻得恒常。

在味觉方面,“君子”的多元特性被揭示得更为明显。观察图7和图8,发现味觉相关的图像与触觉相关的图像词汇分布相较于其他感官图像词汇分布形态更为相似,可推论二者之间可能存在某种较强的关联性。这种关联的存在可以丰富人们对同一事物的认知,进而实现“联觉”的效果。例如《噬嗑》“噬干胏,得金矢,利艰贞,吉”,此处“噬干胏”描述了咬食带骨头的干肉这一种艰难的状态,随后“得金矢”是指“具备金质箭矢似的刚直气魄”,告诫君子应于艰难中守正,最终会得到好的结果。[34]“噬干胏”当然会使人直接联想到给触觉带来的不快体验,然而如果再联想到味觉也同时被触动,可以更加感同身受那种艰难的感觉,也更能体现出于艰难中守正的不易与可贵。《井》:“井洌,寒泉食。”井水清洌可食,喻示君子应像清澈的井水一样,源源不断地给人们带来益处。这里除了将井水给人以清新凉爽之感的触觉与井水清洁、清凉,适合饮用的味觉纳入认知体系外,视觉上的井水清澈见底,清洁透明的“清洌”也是重要的方面。从多个感觉对“井水”这一事物进行修饰,可以使这一客观物象与人的主观感受联系更为紧密,因而强化了“寒泉食”与“君子阳刚中正”这两种表述之间的关联性,通过联觉达到主客观相通的效果。

计算结果并没有直接将君子与嗅觉联系起来,或许有以下原因。一则,君子在嗅觉体验中可能象征着的、对美好气味的欣赏和对恶臭的警觉,与味觉方面用味道象征善恶美丑的逻辑相似,因而被包含在味觉的联系之下,嗅觉方面的联系被隐藏;二则,对嗅觉的感触也可以解读为君子对环境和氛围的敏感,这种直觉性的感受包含着多重感官体验,本身就难以划分,嗅觉在其中发挥的作用更加难以发掘。嗅觉在《周易》中不具备独立性,被含摄于其他感觉之中,与其他感觉一起发挥作用,增强人对同一客观事物的认识与理解。这与《楚辞》等古籍对于嗅觉的应用不太一样。《楚辞》中多有“香草美人”的隐喻,建立嗅觉与主观感受的强关联。未来可从“感官人类学”(Sensory Anthropology)的角度出发,更聚焦地探讨嗅觉在《周易》中君子论述时缺位的深刻原因。[35]

多重感官体验的构筑之下,抽象的概念得以外化并与君子形象联系起来,使得周人心目中的道德化身有了现实追求的可能。本节通过Word2Vec模型和联觉分析,深入探讨了《周易》中的概念和感官体验,尽管传统研究依赖直观感受,但联觉现象揭示了文本中更深层次的结构和内在联系。《周易》中的五感概念集中展现了阴阳平衡和对生活品质的追求。通过T-SNE算法的可视化,研究进一步分析了概念在向量空间中的分布,并结合概念计算结果,揭示了文本中的深层次结构特征:视觉和触觉概念在文本中占据了显著的地位,相比之下,味觉和嗅觉的提及则较为稀少。这种感官分布的不均衡,反映了《周易》对视觉和触觉的重视。从人类学的视角来看,视觉与触觉在《周易》中的显著性,与人类早期生存环境和感官体验的依赖有关。在早期社会,视觉和触觉是获取环境信息和进行物理互动的关键感官,视觉对于识别环境、寻找食物、避免危险至关重要,而触觉则与物体的直接接触和操作相关,对于制作工具、建造住所等生存活动发挥着核心作用。与《周易》中这种感官分布的特性类似,在西方宗教实践中,视觉与触觉依然常常得到强化。以基督教的传播为例,其最重要的两种传播媒介——语言文字与艺术的方式(绘画、诗歌、建筑等),都是以视觉为基础的。郑伟指出:“对于基督宗教传播来说,视觉媒介是教义传播过程中的一个环节,是物质性的载体结合视觉观看来传递精神性的力量。在基督宗教传播中通过视觉的方式传递关于上帝的信息,自古以来一直具有公认的必要性。”[36]同时,触觉体验也被纳入到许多宗教传统之中,“宗教接触”因而成为宗教传播与实践中相当重要的部分。例如在基督教的洗礼中,受洗者通过水的触摸来洗净原罪和完成重生;在伊斯兰的朝觐中,信徒们会围绕天房(Ka’aba)行走,并亲吻或触摸黑石以表达敬意。加拿大学者康斯坦丝·克拉森(Constance Classen)指出,触觉在西方文明的形成期具有广泛的社会性和宗教中心性,并且有关触觉的各种集体实践和信念长期持存。[37]而嗅觉和味觉虽然在宗教仪式中也有重要应用(例如香料和香油的使用),但与视觉和触觉的实践效果与方式相比,嗅觉与味觉实践并不是主要的感官焦点。这与《周易》中所体现的感官分布特性不谋而合,或许从哲学、宗教、文化层面上反映了更高层次的人类对于自然世界与社会的原初认识。这种感官分布的特性,不仅向我们展示了《周易》对感官体验与心理状态关联的深刻洞察,也体现了对人类认知的全面把握。它甚至激发我们去探索那些过去未曾深思的内在意涵。通过数字技术揭示的《周易》中隐藏的内在五感结构,为我们提供了理解这部古典文献的新视角,并展现了数字人文方法在探索古代文本中的潜力。

四、研究未来展望和局限性

本研究成果为《周易》文本的语义和感官体验分析提供了新的视角和方法,不仅加深了我们对《周易》文本涉及的概念与整体结构的理解,也为传统哲学思想的现代诠释提供了新的证据和思路,有助于深化我们对古代智慧的认识,并促进其在当代社会的应用与发展。特别地,通过数字人文方法的应用与对实验结果的分析,我们可以重新审视从前的研究成果,并针对相关问题展开进一步的讨论。例如前文提到,学者不断提出自己话语体系下的《周易》中的核心概念,并纷纷给出了解释。基于本文的讨论,我们知道《周易》是通过将抽象概念(包含哲学理念、感性思维等)客观化的手段,来构建其哲学体系并向读者传达关于自然、人道等事物或规律的认识。这一手段实际上是努力在这些概念与人的五感之间建立联系,以使得客观化成为可能。那么,如果要判定一个概念是不是《周易》中的核心概念,它至少应具备如下的必要条件,即这个概念必须能够与五感发生强联系。否则这个概念就不能够很好地向读者呈现《周易》中的哲学体系与哲学思想,也就是没有充分被“感知”,自然也就不具备成为《周易》中核心概念的条件了。举例来说,我们计算了“道”“德”“神”三个概念在五感向量图中的位置,结果如图9。

图12.png图9 “道”“德”“神”三个概念在五感向量图中的位置

可以看出,“道”与“神”两个概念在向量空间中的位置更加接近“尾巴”处,也就是更加接近五感相关的词汇相对集中的区域,具备成为《周易》中核心概念的可能性,可以进一步讨论研究。相比之下,“德”所在位置五感词汇的分布较稀疏,表示在本研究的模型与参数条件下,该概念不太容易与五感相关的词汇发生联系,因此可能较难实现概念具身五感联觉的客观化呈现。基于这样的实验结果与分析,可以进一步加深学界对于《周易》相关问题的探讨。

然而,本研究作为利用数字人文技术与概念联觉视角对古籍进行深度探勘的初期探索与尝试,仍存在一定的局限性,现简述如下。

首先,尽管数字人文技术的应用提高了分析的效率和深度,但算法和模型的选择可能会影响最终的分析结果。例如,jieba分词工具在处理古汉语文本时可能存在一定的局限性。这种局限性的产生,一方面来自技术本身,另外一方面来自人工制定的分类标准不够细化。在以后的研究中,应进行分类标准的再提升,同时加以人工二次检验,以适应《周易》等古典文献的特点。

其次,本研究以《周易》中的高频词汇和五感概念为主要研究方向,但对文中其他词汇、概念的深入剖析仍需加强。本文所关注的还是对于同一概念的联觉解释,有关于这种联觉解释其他的可能贡献,本文在许多地方并没有深入剖析,随着其他研究的深入与联觉研究文本的增多,联觉可解释和研究的空间将可能进一步扩大。未来的研究可以延伸到不同文化、哲学背景下的更多词汇和概念以及它们的语义演变等方面,也可以进行更多文本的研究。由于联觉分析是一种新兴的研究方法,在《周易》文本中的应用目前还处于探索阶段,今后可以对联觉现象在《周易》中的表现形式和认知机制进行进一步探讨,以及将联觉分析与其他文本分析方法相结合,从而获得更全面、更深入的认识和理解。

最后,本研究的可视化结果虽然提供了直观的展示,但在解释和应用这些结果时仍需谨慎。概念联觉分析依赖于机器对大量文本的处理与计算,同时也依赖人的主观感受。机器能力的边界或许还难以确定,在此课题中,机器更多的功能是为我们提供一种新的视角与观点,我们筛选其中有启发性的部分,并以此出发进行“由果及因”的探讨,以获得更多发现。对于今后的研究而言,可以探索更多的可视化技术,并积极尝试应用最新的计算方法与处理工具,以便更准确地反映《周易》文本的复杂性和丰富性。同时,也需要更多的实证研究来验证本研究的假设和结论,以推动《周易》文本研究的进一步发展。

本研究尽管存在一定的局限性,但确实为《周易》文本的语义和感官体验分析提供了新的视角和方法,具有开拓性意义。通过数字人文技术与认知科学的交叉应用,本研究不仅提高了对《周易》文本分析的效率和深度,也为后续研究奠定了坚实的基础。未来,随着技术的不断进步和方法的持续完善,我们有理由相信,对《周易》乃至更多古典文献的深入挖掘将展现出更加丰富和精准的学术图景。此外,本研究在可视化展示方面的尝试,也为后续探索更多维度的文本分析提供了经验和启发。随着更多学者的加入和实证研究的积累,将不断推动《周易》文本研究向更深层次发展,为理解人类文化遗产贡献新的洞见。

Exploring the Deep Digital Text of Zhou Yi from thePerspective of Conceptual Synaesthesia

Ruan Mingzhuo, Jin Liyang, Peng Yihang, Qiu Weiyun

Abstract:Zhou Yi is one of the classics of traditional Chinese philosophy, and the philosophical ideas embedded in its text hold significant research value. In traditional studies of Zhou Yi, limitations in technical means have led scholars to rely heavily on subjective interpretation and philological examination, which to some extent restricts a comprehensive understanding of the text’s deeper structures and internal connections. By applying digital humanities methods, particularly semantic co-occurrence and conceptual synesthesia analysis, this study offers a new perspective on Zhou Yi. The article explores in depth how concepts in Zhou Yi are interrelated through different sensory experiences by analyzing word segmentation and frequency statistics, and combining word vector calculations. The results reveal that the concepts in Zhou Yi not only form semantic clusters but also exhibit notable synesthetic phenomena in sensory perception. For example, the concept pair “rigid–soft” is embodied in tactile perception, and the image of the “gentleman” manifests multidimensionally across visual, auditory, and gustatory experiences. These findings enrich the semantic analysis of Zhou Yi and provide valuable insights into the application of digital humanities methods in classical text studies.

Keywords:Zhou Yi; Digital Humanities; Conceptual Synesthesia

编辑 | 韩玉凤

向上滑动 查看注释

[1]李玮如:《〈周易·系辞传〉“象”概念初探》,《周易研究》1998年第4期。

[2]胡士颍:《关于〈周易正义〉“道”概念的理解与辨析》,《佳木斯教育学院学报》2010年第2期;王莹:《关于〈周易〉经文“道”“德”概念的思考》,《周易研究》2003年第2期。

[3]吴根友:《〈周易〉、〈老子〉中“复”的概念与观念及其美学意义》,《周易研究》2013年第3期;李顺连:《论〈周易〉中的“神”概念》,《中南民族大学学报(人文社会科学版)》2003年第5期。

[4]阮元校刻:《十三经注疏·周易正义》,北京:中华书局,2009年,第55页。下文所引《周易》文本均源自此书,不再单独标明。

[5]赵国求:《相互作用原理及人类认知自然的三种进路》,《武汉理工大学学报(社会科学版)》2008年第1期。

[6]Vilayanur Ramachandran, Edward Michael Hubbard, “Synaesthesia-A Window into Perception, Thought and Language,” Journal of Consciousness Studies, vol. 8, no. 12, 2001.

[7]Jennifer M. Brewer et al.,“Identification of Gustatory-Olfactory Flavor Mixtures: Effects of Linguistic Labelling,” Chemical senses, vol. 38, no.4, 2013, pp. 305-313.

[8]Qingqing Zhao, Churen Huang, and Yunfei Long, “Synaesthesia in Chinese: A Corpus-Based Study on Gustatory Adjectives in Mandarin,” Linguistics, vol. 56, no.5, 2018, pp. 1167-1194.

[9]Rocco Chiou, Anina N. Rich, “The Role of Conceptual Knowledge in Understanding Synesthesia: Evaluating Contemporary Findings from a ‘Hub-and-Spokes’ Perspective,” Frontiers in Psychology, vol.5, 2014.

[10]Michael J.Banissy, Clare Jonas, and Roi Cohen Kadosh, “Synesthesia: An Introduction,” Frontiers inPsychology, vol.5, 2014.

[11]王锳:《试论“通感生义”——从“闻”字说起》,《语言教学与研究》1997年第4期。

[12]王弼、韩康伯注,孔颖达疏,于天宝点校:《宋本周易注疏》,北京:中华书局,2018年,第31—32页。

[13]高亨:《周易大传今注》,《高亨著作集林》第二卷,北京:清华大学出版社,2004年,第58页。

[14]可能有人认为“吉”“贞”“利”在《周易》语境中具有不同的本义与功能:“吉”为独立占断辞,“利”多附行为指导且较少独立使用,“贞”含占卜本义且表达形式复杂(如“利某某之贞”“贞吉”等),三者并非同一分类标准下的概念,不宜径直归入同一类分析。对此,本研究的分类逻辑需进一步说明:本文分类标准以“主题相关性”和“语义层次适配性”为核心——三者虽功能有别,但均深度嵌入占断逻辑,共现频率高且后世解读(如《周易注疏》《周易大传》)常强调其内在关联,构成“吉凶判断体系”的有机组成部分。这种分类选择是基于当前研究颗粒度的操作化处理:若强行分离,反而会与“无咎”等涉及更宽泛时空领域的概念形成分类层次的失衡。当然,若将本义差异的“吉”“贞”“利”分开计算,亦当具有重要学术价值,未来或可结合占断辞的功能差异(如占断辞、行为指导、占卜本义)进一步细化分类标准,开展更精细化的研究。

[15]概念之后的括号中的数字代表此概念的频数,多个数字相加代表每一个概念分别的频数。例如“吉、贞、利(250+176+141)”代表吉、贞、利三个概念的频数分别为250、176、141。

[16]张学智:《王夫之“乾坤并建”的诠释面向——以〈周易外传〉为中心》,《复旦学报(社会科学版)》2012年第4期。

[17]黄寿祺、张善文:《周易译注》,上海:上海古籍出版社,2018年,第7页。按照上、下经编排《周易》六十四卦,应为传统编排次序。但是,长沙马王堆出土的《帛书周易》卦序与通行本不同,卦名亦多相异。其六十四卦编次规律,是以上卦为纲,分为八组;各组又以下卦为目。(转引自本书第30页注释)这种编次方式与本文无关,此处不详加赘述,然而或可作为一种新的分类依据加以研究。

[18]《十三经注疏·周易正义》,第18页。

[19]程颢、程颐著,王孝渔点校:《二程集》,《遗书》卷18《伊川先生语四》,北京:中华书局,2004年,第223页。

[20]赵爽:《先秦儒家天道观研究》,博士学位论文,山东大学,2023年,第21页。

[21]Yoshua Bengio et al., “A Neural Probabilistic Language Model,” Journal of Machine Learning Research, no.2, 2003, pp. 1137-1155.

[22]Bin Wang et al., “Evaluating Word Embedding Models: Methods and Experimental Results,” APSIPATransactions on Signal and Information Processing, no.e19, 2019.

[23]研究者曾比较过几个不同的词嵌入模型,如Word2vec SGNS、CBOW、GloVe、FastText、Ngram2Vec、Dictvec,评测结果以Word2vec SGNS整体表现最好,虽然它可能不是每项任务的最佳方法,但在任何情况下都不会表现得太差。参见B. Schmidt, “Vector Space Models for the Digital Humanities,” http://bookworm.benschmidt.org/posts/2015-10-25-Word-Embeddings.html, accessed on April 12, 2025.

[24]https://github.com/fxsjy/jieba.

[25]分类标准如下:

视觉:描述颜色、光线、形状、运动或任何视觉现象的文本;使用视觉隐喻或象征,如“明”与“暗”、“升”与“降”;涉及观察或看见的动作,如“观”“见”。

听觉:描述声音、音乐、噪声或任何听觉现象的文本;使用听觉隐喻或象征,如“雷”“风”;涉及听或听见的动作,如“听”“闻”。

嗅觉:描述气味、香气或任何嗅觉现象的文本;使用嗅觉隐喻或象征,如“香”“臭”;涉及闻或嗅的动作,如“嗅”“闻”。

味觉:描述味道、食物或任何味觉现象的文本;使用味觉隐喻或象征,如“甘”“苦”;涉及品尝的动作,如“尝”“味”。

触觉:描述触感、温度、压力或任何触觉现象的文本;使用触觉隐喻或象征,如“硬”“软”“冷”“热”;涉及触摸或感觉的动作,如“摸”“触”。

[26]或有人认为本文进行《周易》联觉分析所涉及的词量较少,且《周易》中“象”存在任意性,如《说卦传》中一卦多象,王弼亦有相关主张,这可能会对研究结论产生影响。对于这些疑问,本研究确实目前的词量有提升空间,后续可通过扩大《周易》经传中相关词汇的选取范围,同时明确直接感官词与隐喻性感官词的筛选标准,以增强研究的实证基础。而关于“象”的任意性与联觉分析的关系,二者并非不可调和。本研究的联觉分析,聚焦的是文本中已呈现的感官体验关联,并非与预设的“象”有固定对应关系。《周易》中“象”的多义性,恰恰体现了古人对感官经验与抽象概念关联的灵活认知,这反而可能成为联觉现象的一种文本体现。同时,研究严格限定分析范围,聚焦卦爻辞中明确的感官词汇,并结合具体语境进行分析,以规避“象”的任意性可能带来的风险,与王弼所反对的过度执着于象的固定解读并不相悖。

[27]或有观点认为“自昭明德”中的“明德”形容德性光明、自我昭显,是不可见而可感的,并非视觉性词汇。对此,本研究将其纳入视觉词汇范畴,主要基于其譬喻性的视觉特征考量。“明德”虽指向内在的光明德性,但其表述中“昭”与“明”的使用,实则是以视觉领域中“光明”“显明”的意象为喻体。在《周易》的语境中,这种以视觉经验里的光亮、显见等特征来譬喻抽象德性的显明可感,构建起了从具体视觉意象到抽象精神境界的关联。“自昭明德”通过视觉性的譬喻,让抽象的德性有了可依托的视觉化表达,这种譬喻性的呈现使其具有了视觉词汇的特质,故本研究将其归入视觉词汇之列。

[28]风从直观上看,可触动人的触觉、听觉,然而其中所包含的嗅觉触动常常为人所忽略。例如,其可能包含草木、泥土的清香,给人以舒适、愉悦之感。

[29]泽从直观上看,可触动人的视觉,然而在特定的情境下,嗅觉触动可能要先于视觉或触觉的触动。例如《咸》:“山上有泽,咸,君子以虚受人。”如果说“山上有泽”,那么人在山下时,湿润、清香的空气应首先给人以美好的联觉体验,以此体现人与万物交感,从而更好地理解“君子以虚受人”。

[30]意为舒解脚大拇趾中的病患,与触觉强关联。

[31]《彖》曰:“夬,决也,刚决柔也。”将“夬”与“刚柔”进行直接关联,可认为其本义与触觉有关联。

[32]柅,刹车器。

[33]黄寿祺、张善文:《周易译注》,第457页。

[34]黄寿祺、张善文:《周易译注》,第284页。

[35]关于感官人类学,可参见Constance Classen, “Foundations for an Anthropology of the Senses,” InternationalSocial Science Journal, no.153,1997.

[36]郑伟:《基督宗教视觉艺术传播》,北京:中国社会科学出版社,2018年,第19页。

[37]康斯坦丝·克拉森:《最深切的感觉:触觉文化史》,王佳鹏、田林楠译,上海:上海人民出版社,2022年,前言第4页。

点击下方链接,下载原文

概念联觉视角下《周易》的深度数字化文本探勘.pdf

如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

阅读原文

跳转微信打开

会议通知丨融合与边界:人工智能时代的数字人文发展新进阶

2026年3月9日 18:44

联盟大事记 2026-03-09 18:44 北京

以下文章来源于:数字人文专业发展联盟

数字人文专业发展联盟

数字人文专业发展联盟官方账号

时间2026年7月10日至13日地点上海大学宝山校区: 上海市上大路99号2026 数字人文专业发展联盟第二

时间

2026年7月10日至13日

地点

上海大学宝山校区: 上海市上大路99号

2026 

数字人文专业发展联盟第二届年会

暨第七届清华大学数字人文国际论坛、中国文艺理论学会数字人文分会第四届年会

会议背景

新一代AI技术的不断突破,为人文学科研究注入前所未有的活力,也为人文与科技的深度融合开辟了新的路径,提供了更广阔的发展空间。在此背景下,数字人文专业发展联盟第二届年会暨第七届清华大学数字人文国际论坛、中国文艺理论学会数字人文分会第四届年会拟定于7月10日—13日在上海大学宝山校区举办。

本次会议旨在凝聚学界共识,分享成功经验,共同探索数字人文进入人工智能时代的新范式、新路径、新方法。会议将邀请国内外专家学者,围绕人工智能时代数字人文研究的前沿与学科建设核心议题展开深度研讨,通过跨学科对话,推动数字人文学科繁荣发展,助力新文科建设与交叉学科人才培养,服务国家文化数字化战略与教育强国建设。为最大程度地促进思想碰撞与跨界合作,本次会议面向数字人文生态中的多元主体发出诚挚邀请。

组织机构

主办单位 

数字人文专业发展联盟

中国文艺理论学会

承办单位

上海大学文学院

上海大学文化遗产与信息管理学院

中国文艺理论学会数字人文分会

协办单位

清华大学中华传统文化智能实验室

清华大学-同方知网数字人文联合研究中心

中华书局古联(北京)数字传媒科技有限公司

高等教育出版社上海出版事业部

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

会议主题

核心主题包括但不限于:

数字人文专业发展的路径探索与实践创新

跨学科融合驱动的人文知识生产新模式

数字人文基础设施与数字批判反思

大语言模型赋能人文研究的新范式

生成式AI与创意实践价值

人工智能对人文艺术的赋能与边界

人工智能文艺的社会性与人文性

古籍文献智能化处理与数字保护

数字遗产的创造转化与传承

待完善扩充……

会议特色

本届联盟年会聚焦学科建设与人才培养,除设置理事会会议、主旨演讲、专题论坛等常规板块外,拟推出多项务实举措。

高水平人文社科实验室交流会

拟邀请人文社科实验室建设专家闭门交流

院长论坛

围绕数字人文专业建设展开深度交流,创新设立虚拟协同教研室,探索跨校协作机制,促进校际互鉴,推动教学资源与科研力量的整合优化,共创联盟合作新模式

清华大学数字人文国际论坛“未来学者”专场

为海内外青年学者搭建交流平台,围绕数字人文的跨学科研究、古籍数字化、大模型应用等热点议题,展现新文科背景下青年一代的创新探索

课程示范

展示分享优质数字人文教学案例,推动课程资源共建共享

成果发布

集中呈现数字人文代表性建设成效和项目案例,为各单位提供参考借鉴

主编讲堂

特邀知名学术期刊主编就论文写作、投稿策略、评审标准等进行专题指导,切实提升学术发表能力

媒体支持

网站

中国数字人文官网

期刊

《数字人文》

《文艺理论研究》

《山东社会科学》

《东南学术》

《文化研究》

《探索与争鸣》

《上海交通大学学报》

《广州大学学报》

《福建师范大学学报》

《南京师范大学文学院学报》

《数字人文与科幻研究学刊》

《东岳论丛》

《电影艺术》

Chinese Semiotic Studies

《中国创意写作研究》

《上海大学学报(社会科学版)》

(学术支持单位持续更新中,感谢支持!)

……

公众号

DH数字人文

数字人文专业发展联盟

经典古籍库

京狮人文

比特人文

……

参会注册、报名

相关流程

联络人及电话:

 苗老师  18236902942

 段老师  13391253562

1.注册报名

截止时间:2026年4月13日

2.论文提交

截止时间:2026年5月13日

3.报名方式

扫码填写参会回执,会务组将组织专家预审,2026年5月30日前确定参会名单,并发送会议邀请函。

投稿须知

所有参会人员均需填写参会回执。未来学者论坛请先完成大会回执填写,另将论文投稿至指定刊物投稿系统。

向大会投稿

(面向数字人文生态中的多元主体征集)

投稿论文请注明:

联盟年会投稿+作者名+作者单位

投稿方式:

扫描下方参会回执二维码填写上传

向未来学者论坛投稿

(面向本/硕/博阶段在读学生,不含博士后)

摘要提交截止日期:2026年5月22日

全文提交截止日期:2026年6月12日

投稿地址:https://szrw.cbpt.cnki.net

投稿说明:

来稿请投“未来学者专栏”,文章作者除指导教师(请标记为“通讯作者”)外,须全部为本/硕/博阶段在读学生,不含博士后。

参会要求

参会人员收取会务费,会务费标准为800元/人,学生半价优惠400元/人,每个联盟理事单位免1人参会费。会议期间的餐饮费用由承办方承担,交通、住宿费敬请自理会务组可代订酒店。入选“未来学者”论坛发言的作品每篇免1人参会、住宿费。缴费时间及缴纳方式将另行通知。

【备注】

1.电脑端阅读用户可复制网址填写:

https://pcn08dpdjolp.feishu.cn/share/base/form/shrcnhA0MGEBpltCoo2wPZYqUTb

2.手机端用户请先将论文全文定稿使用【手机文档/文件中心】打开或保存至【手机文档/文件中心】。扫描或长按识别二维码填写回执,点击上传附件按钮,在【手机文档/文件中心】选中论文全文文件即可成功上传。

3.电脑端查看填写遇到问题,辛苦您切换尝试使用手机端完成,或与我们的工作人员取得联系,联系方式详见注册报名版块。

数字人文专业发展联盟

中国文艺理论学会数字人文分会

上海大学文学院

上海大学文化遗产与信息管理学院

清华大学中华传统文化智能实验室

清华大学-同方知网数字人文联合研究中心

中华书局古联(北京)数字传媒科技有限公司

高等教育出版社上海出版事业部

2026年3月9日

END

阅读原文

跳转微信打开

古诗生成图像数据集的构建及研究范式

2026年3月6日 10:01

原创 张正骁 袁非牛等 2026-03-06 10:01 北京

古诗生成图像是一项跨人文、自然语言处理以及计算机视觉领域的交叉学科任务。其核心在于理解古诗中包含的各类主体特征及其相互关系,挖掘古诗蕴含的情感基调,并将这些元素通过绘画方式表达出来。

基础设施

2.png

张正骁 / 上海师范大学人文学院

袁非牛 / 上海师范大学信息与机电工程学院、上海市中小学在线教育研究基地

向 标 / 上海师范大学信息与机电工程学院

要:古诗生成图像是一项跨人文、自然语言处理以及计算机视觉领域的交叉学科任务。其核心在于理解古诗中包含的各类主体特征及其相互关系,挖掘古诗蕴含的情感基调,并将这些元素通过绘画方式表达出来。随着人工智能生成内容(AIGC)的蓬勃发展,AIGC正在影响甚至引领数字人文研究,人文垂直领域大模型的研究需求在日益提升。垂直领域大模型通常采用预训练加微调的范式进行训练,而微调工作则需要为垂直领域任务而专门标注训练数据集。本文首先针对古诗生成图像的任务,以《唐诗三百首》为例,构建了一个唐诗配图训练数据集,为生成式人工智能在该领域的研究开创了条件;其次提出一种采用大语言模型与图像扩散生成模型(Stable Diffusion)的结构,作为完成古诗生成图像任务的基本范式。在本范式中,使用大语言模型生成描述古诗配图的提示词,将提示词输入扩散生成模型,采用低秩适配模型(LoRA)微调生成模型得到最终的配图。在实验环节,本文分别对数据集的必要性、新研究范式的可行性进行评估,而后,对新数据集在新研究范式下的实用性以主观测评和客观指标结合的方式进行评估。结果表明,本文所提出的主要方法是科学合理的。

关键词:古诗生成图像 垂直领域大模型 新数据集 基本范式 LoRA模型

引  言

数字人文(Digital Humanities,DH)是一个典型的文理交叉学科领域,在当今人工智能时代背景下,指的是在相关的计算机技术支撑下开展人文研究而形成的新兴学科。[1]目前的数字人文研究,其落脚点仍然主要在于人文社科领域,大部分学者的研究思路是利用计算机技术作为一种数据分析与可视化的工具来进行传统的人文研究,而对于工具本身的创新研究还略显不足。数字与人文应是相辅相成、携手共进的关系,数字技术为人文学科领域中长期存在的问题提供新的研究思路,从深度和广度两个维度重构人文学科,[2]而人文学科存在的难题和需求又能促进数字技术的研究。例如,针对某些垂直领域提供全新的研究范式,抑或是促进进一步的技术革新,两者互相依赖不可分割。

近年来,自然语言处理作为人工智能领域中的一个重要分支正在飞速发展,自然语言处理也是与数字人文专业最为契合的技术方向。我们提出将基于自然语言处理的数字人文学科分为两大方向,分别为人文计算和文化生成。人文计算包括人文风格的识别,例如某位文学家的写作语言风格、书法家的字体风格、诗人的文风等;还包括情感分析,例如对古诗文蕴含的情感进行分类或回归评分,抑或是风格迁移等。文化生成依赖AIGC(Artificial Intelligence Generated Content)技术,各类大语言模型、图像生成模型等都被称为生成式人工智能。采用AIGC可以做到文本生成,包括机器翻译、人机对话、AI(Artificial Intelligence)写诗等,也能在视觉领域中完成图像描述和图像生成。本文的古诗生成图像任务实质上就是图像生成任务,是一种跨模态的AI生成任务。

古诗是中国传统文化瑰宝,是千百年来中国劳动人民的思想结晶。[3]许多名篇佳句传世至今,蕴含了丰富的思想价值和文化价值,值得我们传承并发扬光大。然而古诗相对于现代文来说终究较为晦涩难懂,初学者难以快速把握诗中描绘的场景或者理解作者想表达的意境,加之文字所能传达的信息也是有限且单一的。图片相比于文字则具有更丰富的语义信息,例如图片中的景物、人物的动作、绘画风格、整体色调。如果利用人工智能对输入的古诗生成一幅对应内容的配图,读者能够通过图片更直观地把握古诗的意境以及诗人所表达的情感,这对于古诗在文化传播或中小学生教育等方面都有着积极的推动作用。

目前文生图领域的现有技术还不足以直接运用于古诗生成图像任务。首先,目前大部分的文生图任务相对简单,输入的文本往往简短易于理解。[4]但古诗往往包含了多个主体,环境描写复杂,需要体现出古诗的意境和诗人情感,因此古诗生成图像难度大,具有挑战性。其次,目前文生图领域大量的研究集中在图像编辑方面,[5]例如利用用户自己的宠物或物件这些特定的东西,[6]通过图像生成模型得到新图像,或者保留原图整体特点的同时,改变图中物体的位置姿态等应用类型研究,[7]研究重点与本文不同。最后,直接使用现有的大语言模型的图像生成功能,并不能生成较好的符合诗意以及意境的图片,这是由于通用大语言模型的文本编码器的预训练是在大量的现代文数据集上进行的,且文本十分精简,含有大量现代生活的元素,但很少会触及古诗中的物品、地点、服装、建筑等描述,使得通用大语言模型不一定生成得准确合理。所以,针对该任务,本文提出了构建垂直领域模型的思想,使用预训练加微调的方式来完成图像生成。而微调则是需要在针对特定任务的小型数据集上进行的,因此本文使用DALLE3[8]来生成古诗配图数据集,以《唐诗三百首》为例,生成图文一一对应的320张图片作为进行微调使用的数据集。图1展示了数据集中的部分图片示例。

图1.png图1 古诗生成图像数据集图片示例

现有的大语言模型在古诗文配图自动生成方面会出现不少问题。以文心一言生成古诗配图为例,会出现以下的问题:

(1)由于大部分大语言模型的中文训练集是白话文形式,如果直接输入古诗作为提示词(prompt),模型会将输入的文本作为现代文理解。即便在提示词中写明“请为以下输入的古诗生成配图”,也不能生成符合古诗内容的正确配图,这也引出了第二个问题。

(2)当古诗中存在古今异义现象,比如“床前明月光”中的“床”字应该解释为井栏而非现代意思的床,模型不能正确理解“床”的真正解释。

(3)为了解决以上问题,本文尝试将古文翻译为现代文作为提示词输入图像生成模型。然而,模型还存在不认识古诗中某些特定词的现象,例如输入“屏风”,生成一扇房门,输入“缝补”,生成一台现代的缝纫机,输入“饮酒”,生成一瓶红酒和高脚杯等不符合时代、地域或诗意的图片。

(4)受限于图像生成模型自身能力,即便是目前最佳的扩散模型[9]仍然无法生成完全符合给定提示词语义的图片。当输入提示词比较复杂、包含多个主体时,模型可能选择性地只生成其中一个或部分主体而忽略其他主体。另外,模型可能会将一个主体的属性错误地绑定到另一个主体上。[10]

(5)几乎所有图像生成模型都可能存在弊病,比如多余的手指、模糊的五官、超过四条腿的马、错误的空间位置等。此外,还可能出现一些不符合逻辑、物理规律的现象,例如人在水上行走、灯笼漂在水面上、床在海边等。

为了减少以上问题的出现,需要构建古诗配图专用数据集。在数据集构建完成之后,本文提出了结合大语言模型和图像生成模型(Stable Diffusion)[11]的范式,用于古诗生成图像任务。具体来说,本文采用预训练好的模型在古诗配图数据集上进行微调,建立该任务的基线标准。在训练中使用低秩适配模型(LoRA)[12],它能够在相比于整个扩散模型少得多的权重上进行训练和更新,对于小型数据集微调效果起着重要作用。最后,本文使用CLIP Score和FID的评价指标进行评估,该指标能够有效评估输入提示词和所生成图片两者之间的匹配度。本文的主要贡献总结如下:

(1)以《唐诗三百首》为例,首次构建了古诗生成图像任务的数据集。该数据集由DALLE3生成,人工进行评估和挑选,总计为320首唐诗生成对应的320张配图。实际使用中,本文按照8∶2的比例分为训练集256张和测试集64张。

(2)创建了大语言模型与图像生成模型相结合的范式完成古诗生成图像任务。

(3)使用大语言模型生成符合古诗诗意和意境的提示词,然后将提示词输入Stable Diffusion模型生成图片。训练中加入LoRA模型进行微调,使模型更好地学习到数据集图片的特征和画风。

一、国内外相关工作

(一)大语言模型

大语言模型在自然语言处理任务中展现了令人印象深刻的能力。[13]这些大模型参数量基本都突破百亿量级,甚至达到千亿、万亿的级别,庞大的参数量加上海量的训练数据,使得这些大语言模型拥有极强的文本理解和推理能力。在当今的数字人文研究中,大语言模型具备的文本摘要生成、情感分析、相似度计算等能力,都可以直接服务于学者进行相关研究。另外,如图像描述、图像生成等各类多模态交互也能拓展人文学科的研究领域和视角,发现新的研究课题。

现有的国内外大语言模型呈现“百模大战”之势。国外有OpenAI公司的GPT3.5[14]和GPT4[15]、Anthropic的Claude[16]、谷歌的Bard[17]和微软的Bing,国内有百度的文心一言3.5和4.0、科大讯飞的讯飞星火、腾讯的腾讯混元和阿里的通义千问等。

针对大语言模型的评价指标往往包含不同能力的测评。例如,文本生成能力指对于常识的运用以及对抗人类恶意误导提示词的抵抗能力;长距离捕获能力是在文本长度较长的时候,前后文是否仍能建立一定的关联性;多语种的泛化能力,指语言模型在处理不同语言时的表现。由于模型通过将输入的提示词进行词嵌入(embedding)转化为向量来理解文本,因此这里的泛化能力实质上反映了模型对于语言的理解能力,即模型的鲁棒性;推理能力,即对需要逻辑推理的问题的回答正确率;知识调用准确性,思维链(Chain of Thought),即提问内容不直接出现在训练语料中而需要通过加工处理现有的语料才能得到结论。

基于此类指标,GPT4在各项综合能力上仍然占据较大优势。国内大语言模型中,文心一言4.0表现突出,尤其是在推理能力、知识调用准确性、文本生成能力方面相较于其他国内模型更为优异。Claude和Bard拥有很强的多语种泛化能力。Bing的长距离捕捉能力突出,但是逻辑推理能力一般。国内其他的大语言模型中,通义千问作为免费开源模型,具有最好的综合性能,尤其是在多语种泛化能力和文本生成能力上表现突出。讯飞星火和腾讯混元则各有优劣。

(二)图像生成模型

文本生成图像既属于自然语言处理领域任务,[18]又是计算机视觉中的一个极其新颖的应用。[19]早期图像生成模型主要是基于生成对抗网络。[20]生成器生成的图片受鉴别器监督,鉴别器根据误差,通过损失函数惩罚生成器来训练生成器,而随着生成器生成的图片逐渐逼真的同时,也在训练鉴别器的分类能力,两者交替训练,从而更新整个生成对抗网络。不少工作基于生成对抗网络的基本原理完成图像生成任务,[21]但是由于生成对抗网络的收敛条件苛刻、模型训练过程不稳定等原因,在图像生成领域中,基于生成对抗网络的方法已被基于扩散模型的方法所取代。

扩散模型[22]的前向过程即加噪和去噪的过程。加噪过程总共n次,在n次加噪步骤之后得到一幅高斯分布的噪声图片。去噪过程中训练一个噪声预测网络,分别将n次所施加的噪声作为标签,训练噪声预测网络来预测每一步骤的噪声,去噪之后即可得到待生成的图片。

Glide[23]是基于扩散模型的第一个文本生成图像的工作,采用了无分类器引导方式,直接用文本替换原始的类标签完成图像生成。Imagen[24]采用预训练好的、冻结参数的大语言模型作为文本编码器,该文本编码器的预训练语料可以是图文对形式(如CLIP[25]模型),也可以是纯文本形式(如BERT[26]、GPT[27]、T5[28])。Stable Diffusion是一个典型的、在潜在空间中训练扩散模型的框架,与直接在待生成图片上加噪去噪不同,模型在经过编码器之后的特征图上进行扩散步骤,该方式相比于原先取得了显著的进步。CLIP模型开创性地学习多模态特征表达,这种结构被广泛运用在许多图像生成模型中。例如DALLE2[29]同样使用文本和图像编码器建立不同模态之间的关联,然后提出一个先验网络将文本特征转化为图像特征,最后生成图片。

图2.png图2 数据集部分图片展示

二、数据集和图像生成新范式

(一)古诗配图数据集

古诗配图的来源多种多样,可以节选自明清两代版画形式的唐诗选本,可以请画家根据诗意自行创作,甚至可以是互联网上输入古诗搜索而来的图片。然而这些来源各有缺点,例如,明清画册的配画艺术成分较高但往往不够写实,如绘画中运笔的疾徐轻重、点线的疏密粗细之于图像生成任务来说是冗余信息,因为本文的研究目的并非如何用最佳的艺术形式展现古诗意境,而是用具象的而非写意的风格切实刻画出诗中所包含的主体。画家自行创作的随意性较大,无法保证内容的准确性而且成本较高。互联网图片不够全面且质量参差不齐。如果只是选择部分图片混入本文数据集作为补充,则可能引起数据集数据分布不均匀的问题,使得训练难以收敛,效果变差。因此统一使用AI绘画模型生成古诗配图作为本文的数据集成为了一种可行的且成本较低的解决方案。

图3.png图3 Stable Diffusion模型原理

本文构建的古诗生成图像数据集由DALLE3生成。数据集中的古诗以《唐诗三百首》为主要内容,总计320首唐诗和对应的320张配图,以图文配对的形式呈现。在后续的图像生成任务中,将320个图文配对按照8∶2的比例划分训练集和测试集,即训练集中包含256个图文配对,测试集中包含64个图文配对。考虑到唐诗自身的特点,本文构建的数据集图片主要由中国古代风格构成且具有写实而非写意的特点。图片内容不仅能够正确反映诗中所包含的主要内容,也能体现出作者一定的情感倾向和诗歌意境。

本文数据集的构建采用多种方式。DALLE3的输入可以是古诗原文、古诗译文,或者将古诗译文翻译为英文作为输入。通常情况下,一首古诗需要通过多种方式配图,并采用多次生成与交叉比对方式,人工来选取最能准确反映古诗含义的图片。如遇到上述方式都无法生成满意图片的情况,本文将手动设计输入文本,直至生成令人满意的高质量图片。

图2展示了本数据集中部分古诗及其配图的示例。如《宿业师山房待丁大不至》中,描绘了一个宁静而又祥和的夜晚,诗人独自于山径之上等待友人的到来。“群壑倏已暝”描写了山谷迅速被暮色覆盖的场景,“松月生夜凉”和“风泉满清听”包含了松树、月亮、风和泉水的意象,增添了夜晚凉爽幽静的氛围。“樵人归欲尽”和“烟鸟栖初定”描绘归家的樵夫和寻找栖息地的鸟儿,通过景物、人物的描写点出时间已晚,描写了夜晚的宁静。“孤琴候萝径”转为描写诗人的内心世界,表达了诗人期盼知音到来的心情。配图中不仅准确地刻画了如松、月、烟、鸟以及人物等意象,也将诗中幽静的夜晚场景、诗人等待友人的意思都刻画到位。《滁州西涧》中,描绘了诗人春游西涧赏景和郊野渡口所见,图片中准确刻画出了小溪边上的幽幽野草、树上的黄鹂、湍急的水流以及一艘悠闲漂浮着的小舟。《下终南山过斛斯山人宿置酒》中,描绘一幅宁静美好的生活景象,碧绿青翠的山间小路、上前迎接的孩童、欢声笑语共同举杯的场景都在图片中体现出来。

总体而言,在使用DALLE3制作数据集时,对于模型生成图片的选择有如下的考量。首先,所生成的图片经过严格的人工检查和筛选,保证制作的数据集图片质量高,人体和动物的解剖结构准确,删除含有畸形或者错误的样本,保证在后续使用数据集微调阶段能够尽量减少不符合常识、逻辑、物理规律的现象。其次,生成的图片在内容上应当与古诗尽可能贴切,即古诗中描绘的自然景观、人物特征或物品种类等应尽量准确而全面。当然,如果诗歌过长或者包含大量不同种类的物体,受限于大模型自身的生成能力,也无法生成一幅包含所有要素的图片。最后,图片应当能反映作者的情感,比如通过整体画面色调、背景刻画等反映出整首古诗的情感基调。另外,仍然存在一些问题是目前难以解决的,例如“一词多义”现象、“古今异义”现象。由于大语言模型的预训练数据集是基于现代文甚至外语的,而如果对于少部分特定诗句中存在的“一词多义”或“古今异义”现象单独作微调工作去修改,则过于烦琐且成本较高,而且容易造成过拟合、语言漂移(Language Drift)[30]和灾难性遗忘(Catastrophic Forgetting)[31]等严重问题。总结来说,对于所选择图片的考量应当是准确性大于艺术性,在保证古诗中蕴含的元素能够尽量展现出来的前提下,尽可能地反映出古诗的隐喻、象征、典故等深层语义。

(二)Stable Diffusion模型

Stable Diffusion模型[32]是一种以潜在扩散(Latent Diffusion)为基础的文本到图像扩散模型,能够在给定任何文本输入的情况下生成逼真的图像。扩散模型是在原图上进行图片的加噪去噪处理,而潜在扩散是对经过一个编码器提取特征之后的特征图空间进行扩散处理,之后经过解码器对特征图还原为所需生成的图像,大大减少了计算量。Stable Diffusion具有良好的可控性、稳定性和适用性,且满足加载大规模预训练权重进行下游自定义任务微调的条件。

如图3所示,Stable Diffusion模型主要由三个模块组成,分别是CLIP的文本编码器、生成模型和解码器。首先,将文本输入CLIP文本编码器,对输入token进行embedding表征,转化为维度是768的向量。随后,将向量化后的文本信息以及噪声输入生成模型。生成模型包含图像编码器,将原图编码为特征图的形式,然后在特征图上进行扩散过程,生成能够与向量化后的文本信息内容相符合的特征图。最后,将该特征图输入解码器还原为需要生成的图片。

(三)LoRA模型

对于大模型来说,相比于预训练数据集,为特定下游任务构建的微调数据集规模显然要小得多,本文的古诗生成图像数据集也不例外。使用相对来说极小规模的数据集继续训练一个大规模预训练的模型或者直接进行微调可能会导致过拟合、语言漂移和灾难性遗忘。语言漂移和灾难性遗忘实际上是训练过拟合所导致的两个现象。例如在文字生成图片模型中,语言漂移指当使用小规模数据集微调时,模型只能画出小数据中某些文字指代的特定含义却忽略了在大规模预训练数据集上学习到的先验知识。灾难性遗忘指模型过度适应小规模数据集中内容,模型中大量与下游任务其实并不相关的权重也因为微调过程而更新,导致模型遗忘大量信息。

通常微调过程是更新预训练模型中的全部参数。而LoRA模型,即大语言模型的低秩适应,冻结预训练模型的权重并训练一个低秩分解矩阵插入Transformer模型中的每一层,无需在训练过程中对预训练模型中的所有参数进行优化。通过LoRA策略微调后的模型将能减少10,000倍参数量,减少3倍的GPU内存。

(四)大语言模型与图像生成模型

针对古诗生成图像任务的特点,本文提出了使用大语言模型加图像生成模型的新范式。具体来说,如图4所示,将古诗输入大语言模型中,要求模型生成对应的适用于图像生成模型的提示词,且该提示词需要正确反映输入古诗的主要内容和意境。此时,将所生成的提示词和训练集中的图片作为图文配对的形式输入图像生成模型,加载预训练权重并加入LoRA模型进行微调。

图4.png图4 大语言模型加图像生成模型新范式

在这个新范式中,在图像生成模型之前使用大语言模型是必要的。在Stable Diffusion中,它的文本编码器是CLIP模型的文本编码器,如前文所述,该文本编码器是在大量的、简短的现代文数据集上进行训练的,其语义理解能力相比于大语言模型显然弱得多,对于古诗文的内容、意境甚至蕴含的感情色彩是完全无法理解的。因此,大语言模型对于文本语义理解和情感分析的优势就能充分发挥出来。

本文在使用大语言模型时,是要求大语言模型给出适用于图像生成模型的提示词,而不是直接将古诗翻译为白话文,甚至是英文,其中原因有二。其一,当古诗篇幅过长,例如白居易的《长恨歌》,整篇篇幅近一千字,直译过来包含的主体和意象过多,如果将其直接输入图像生成模型,显然模型无法完全理解。而大语言模型即便对于长文本,仍然能够正确理解文本的语义关系和情感基调,在生成提示词时能够在理解古诗本身含义的情况下,提取到构成一幅图像的最重要的部分,即人物、环境、空间位置等核心组成部分,可以排除在图像生成任务中并不重要的冗余信息。通过这样的方式极大地精简了图像生成模型的输入提示词,从而减少输入提示词过长导致的生成主体缺失以及属性的错误绑定问题。其二,即便短篇幅的古诗直译过来,翻译后的文字也只能表达出古诗中的字面意思,在诗歌作品中诗人往往通过借景抒情、托物言志、引经据典等方式隐晦地传达出自己的情感倾向,使用译文显然无法生成一张能体现古诗情感和意境的配图,而使用大语言模型生成的提示词往往能准确地写出所要求生成图片中的风格和氛围。

三、实验部分

(一)实验细节

本文中的微调工作以及后续所有实验都是在一台英特尔i9处理器、英伟达GTX 3090 GPU电脑上完成的,其运行内存大小为24GB。本文的微调工作也是在构建的新数据集上完成的。

微调过程加载了Stable Diffusion预训练权重,外挂VAE模型,采用了LoRA训练策略,采样方式为DPM++3M SDE Exponential,数据集图片的尺寸为1024×1024。CLIP终止层数设置为3,Batch Size为1,提示词引导系数为7,原始模型与LoRA比例设置为1∶1。本实验整体采用的学习率大小设置为0.000005,采用余弦衰减;文本编码器在本实验中不参与训练,学习率大小为0;扩散模型中采用U-Net,学习率大小设置为0.0000005。模型训练总轮数为20个epoch。

在本文的实验部分采用了CLIP Score和FID两个指标来评价图像生成模型的效果。CLIP Score是一种用于评估文生图或图生图模型的评价指标,可用以评价生成图片与原文本或原图关联度大小。在本文中将所生成的图片通过CLIP模型的图像编码器转化为嵌入向量,并使用CLIP模型的文本编码器将输入文本转化为嵌入向量,对上述两个嵌入向量计算余弦相似度。余弦相似度值越高代表生成图像与文本描述之间的匹配度越高。FID可用于评估生成图片与Ground Truth之间差距。在本文中使用预训练的InceptionV3模型分别提取数据集图像和生成图像的特征,将两者特征分别表示为两个多维高斯分布,即每个分布用均值向量和协方差矩阵表示,然后计算两个高斯分布之间的弗雷歇距离。FID值越小代表生成的图像和Ground Truth间的统计特性越相似,即生成图像的质量越高。

图5.png图5 本文数据集与其他模型古诗生成图片对比

(二)对比实验

1.必要性实验

本小节进行的对比实验目的是证明构建本文数据集的必要性,即针对古诗生成图像任务仍需采用预训练加微调的方式,单独使用大语言模型或图像生成模型仍然存在一定的不足。图5展示了对比实验的结果,以5首古诗为例,对每一首古诗分别在Stable Diffusion、腾讯混元、通义千问、文心一言、科大讯飞等图像生成模型以及大语言模型和本文数据集中包含的图片进行横向对比。值得注意的是,据我们所知目前没有针对古诗或文言文的垂直领域图像生成模型,比较接近的是Poetry2Image模型。[33]该模型旨在提升古诗生成图像的质量,使用大语言模型修正关键要素缺失或语义混淆等问题,但是其存在着不符合地域、时代等问题,故在此不考虑加入本文的对比试验。

《寻陆鸿渐不遇》描绘了一幅静谧的乡间小径和草屋画面,草屋主人归家时已经接近黄昏时分。在这首诗的对比中,Stable Diffusion和腾讯混元的图文匹配度较差,生成的图片与诗意本身并不吻合。其他三个模型生成的图片都存在一定错误,例如,通义千问生成的是一座宫殿,而非乡间小屋,文心一言并没有画出一条通向桑麻的小路,科大讯飞没有刻画出黄昏时的夕阳。《题破山寺后禅院》中Stable Diffusion的图文匹配度仍然不高,腾讯混元和通义千问没有传达出“曲径通幽处,禅房花木深”的意境,诗中应当描绘的是一条僻静幽深的小道,而禅房掩映在繁茂的花草丛中。文心一言所描绘的场景则更像一座宏伟的宫殿而非禅房。《金缕衣》劝诫人们珍惜青春少年时,而除了本文数据集图片能够传达出此含义之外,其他模型的理解都停留于字面意思,或者错误理解了古诗的主旨。

总体而言,本文构建的数据集图片往往能够在同一首古诗中包含更多诗中存在的元素,在环境、时间、人物、情感主旨等方面相比于直接使用现有的大模型所生成的图片更加准确且内容更为饱满。

2.实用性实验

本小节进行的实用性实验的目的是证明本文提出的大语言模型加微调图像生成模型的新范式是有效的。本文选定Stable Diffusion模型作为实验对象,对比微调前后的图片,计算FID和CLIP Score两个评价指标作为客观评价来证明该范式的实用性,然后设计主观测评来辅助验证微调的有效性并验证FID和CLIP Score指标的科学性。

图6展示了Stable Diffusion模型微调前后的对比结果图。微调前的Stable Diffusion仅加载预训练权重,生成的图片内容单调且并不符合古诗主旨含义,图片风格或人物形象经常出现西式甚至是日漫风格,经过微调后生成的图片往往能够较好地捕获古诗表达的含义和意境,并且能够较好地学习到数据集中包含的整体构图风格,同时也能反映出正确的时代背景和中式风格。

图6.png图6 Stable Diffusion模型微调前后对比图

图7.png表1 Stable Diffusion模型微调前后的CLIP Score和FID指标

表1中展示了使用Stable Diffusion模型微调前后在CLIP Score和FID指标上的对比结果。相比于微调前,CLIP Score指标提高了0.87,说明微调之后生成图片内容与输入古诗的语义信息之间的关联度更高,更能传达古诗本身的含义;FID指标下降19.55,说明微调后生成图片内容更接近Ground Truth,风格上也与之更为接近。

由于客观指标和计算公式无法衡量古诗意境的深层表达,如情感一致性和文化适配性等,故本文还设计了主观性测评以辅助验证所提出新范式的有效性,并证明了所使用的FID和CLIP Score指标的科学性。本测评环节邀请了来自数字人文、汉语言文学、信息管理、计算机等专业共42位硕博研究生参与。本测评采取问卷的形式,分为两个问题,这两个问题分别对应FID和CLIP Score指标的含义。

具体来说,第一个问题对应FID指标的含义,给定Ground Truth和微调前后共三张图片,询问微调前后的两张图片中哪一张与Ground Truth在内容上、风格上总体更为类似。第二个问题对应CLIP Score指标的含义,给定一首古诗和所对应的微调前后的两张图片,回答微调前后的两张图片中哪一张与该古诗在内容、地域、时代以及情感上更为接近。

第一个问题的目标是通过人工评估,验证使用新范式进行微调训练后生成的图片是否比微调前更能学习到Ground Truth的风格和内容。第二个问题的目的是通过人工评测,验证生成的图片是否在内容、地域、时代背景以及情感上更符合古诗本身。为了防止同一位测评者在连续回答两个问题时可能产生倾向性,本实验将测评者平均分为两组,每一组共21位测评者,每人只需回答其中一个问题即可。据测评结果显示,问题1中有17位选择了微调后的图片,占全组80.95%,问题2中有19位选择了微调后的图片,占全组90.48%。结果证明了本文提出的大语言模型加微调图像生成模型的新范式是有效的,所生成的图片不仅能够学习到Ground Truth的内容和风格,也能较为准确地生成与古诗内容和情感更密切的图片。

(三)剥离实验

1.图像生成模型的输入

图像生成模型的输入对于生成图像的质量起着至关重要的作用。对于本文古诗生成图像这类较为复杂的任务场景,如何设计输入文本使得文本能够传达古诗的现代文含义,并且包含诗中的情感氛围就显得尤为重要。人工标注此类文本似乎是最佳的解决方案,但目前既精通古代文学、又掌握计算机技术的跨学科专家十分稀缺,且每一首古诗都进行精心标注的工作量极为繁重,而使用大语言模型可以模拟跨学科专家,在能够理解古诗语义、情感等方面因素外,同时输出适合图像生成模型的提示词。为证明这种方式的有效性,本节将输入文本替换为古诗的中文白话文译文以及英文译文分别输入模型生成配图,如图7所示。

图8.png图7 不同类型的输入文本生成图像对比

图9.png表2 不同类型的输入文本生成图像FID指标

表2展示了图中三首示例古诗在不同输入文本类型情况下的FID指标。使用大语言模型作为输入文本的FID指标相比于中英文译文都要更小,证明了使用大语言模型作为输入文本的生成结果与本文数据集中的图片更为接近。产生这种差异的原因是从古诗本身直译过来的白话文往往过于洋洋洒洒且重点不突出,当译文中出现多个主体的时候,图像生成模型往往会忽略其中几个重要的主体,这导致生成的图片内容看似与古诗本身出现了不相符合的情况。另外,译文中往往不带有情感因素,而通过大语言模型生成的输入文本能够在理解诗中情感的基础之上,写明以什么样的风格或以什么样的氛围生成包含什么内容的图片,这在提示词工程的相关研究中已被证明是一种非常适用于图像生成模型提示词的表达方式,能够更高效地生成想要的图片。[34]

2.LoRA比例及训练轮数

由于本文构建的古诗生成图像数据集规模较小,直接对Stable Diffusion模型进行微调容易导致语言漂移和灾难性遗忘,在实际操作中导致梯度爆炸、损失值无法计算的问题,故在针对如本文的小规模数据集微调时往往使用LoRA模型。

图8展示了一首古诗生成的配图随着LoRA模型的比例以及训练轮数增加的变化情况。图片沿纵轴向下,LoRA模型的比重增加;沿横轴向右,训练轮数增加。可以从图中观察到,随着训练轮数的增加,模型的细节也逐渐增加,人物或物体的空间位置关系逐渐合理;而随着LoRA模型比例的增加,图片风格更趋近于本文数据集的风格,且人物和背景从西式风格改为中式风格。但当LoRA模型所占比例过大时,生成的图片会与数据集中图像的数据分布过于拟合,大幅降低了图像生成模型本身一定的随机性和创新性,导致图像失真。在本文实验中,将LoRA模型所占比例参数设置为1。

图10.png图8 LoRA模型比例及训练轮数对图片质量的影响

结  语

本文探索了古诗生成图像这一新的研究领域。基于现有的通用大语言模型或图像生成模型仍然不能很好地完成古诗生成图像这一任务的难题,提出了预训练加微调的解决方案,而为了能够解决这一特定领域的下游任务,本文以《唐诗三百首》为例,构建了新的数据集,为日后该领域的研究工作开创了条件。随后,本文构建了大语言模型和图像生成模型相结合的基本研究范式,使用大语言模型理解诗意并输出适用于图像生成模型的提示词,然后再对图像生成模型进行微调,微调过程中加入LoRA模型,解决语言漂移和灾难性遗忘等问题。

尽管如此,本文作为在古诗生成图像领域内的一项探索性工作仍然存在着一些问题亟待解决。从数据的角度出发,本文是以《唐诗三百首》为例构建的数据集,并在此基础之上进行图像生成研究的,所以覆盖范围有限,未涉及宋词、元曲等其他文本类型,未来可以考虑在唐诗的基础之上扩充数据集,将不同朝代、风格的诗作差异考虑在内,并增强模型的泛化性能。从技术的角度出发,古诗生成的图像中一词多义和古今异义的问题仍然难以解决,仍存在少量与实际文字含义并不完全符合的情况,未来可尝试与知识图谱相结合或加强关键词上下文理解以及加入RAG技术等方式来解决此类问题。从AI生成导致的伦理问题以及社会问题的角度出发,AI生成古诗配图也会产生一系列问题。例如即便目前最强大的AI模型也可能在理解古诗上产生错误,曲解古诗原意,这可能就会带来文化误导的风险,针对此类问题,除了在算法和技术上不断创新,在投入使用时也需注明“内容由AI生成,可能产生错误,请使用者仔细甄别”等字样。

在当今数字人文和AIGC的浪潮下催生了许多文理结合的交叉学科,本文期望为后续的研究工作提供一定的参考价值,更好地利用数字工具为人文学科的进步起到促进作用。

Construction of a Classical Chinese Poetry-to-Image Datasetand Research Paradigm

Zhang Zhengxiao, Yuan Feiniu, Xiang Biao

Abstract: Generating images from Chinese ancient poetry is an interdisciplinary task that spans the fields of humanities, Natural Language Processing(NLP), and Computer Vision (CV). The core challenge lies in understanding the various main features and their interrelationships embedded in classical poetry, uncovering the emotional tone conveyed, and expressing these elements through painting. With the rapid development of Artificial Intelligence Generated Content (AIGC), AIGC is increasingly influencing and even leading digital humanities research, and there is an increasing demand for research on vertical domain large models in the field of humanities. Typically, vertical domain large models are trained using a pre-training plus fine-tuning paradigm, where fine-tuning requires specifically annotated training datasets for vertical domain tasks. Taking Three HundredTang Poems as an example, we first address the task of generating images from Chinese poetry by constructing a training dataset of images paired with poems from the Tang Dynasty, thereby laying the groundwork for generative AI research in this fi eld. Secondly, we propose a basic paradigm for completing the task of generating images from classical poetry using a structure that combines a large language model and an image diffusion generation model (Stable Diffusion). In this paradigm, the large language model generates prompt words describing the illustrations of the classical poems, which are then input into the diffusion generation model. The generation model is fine-tuned using a Low-Rank Adaptation (LoRA) model to obtain the final illustrations. In the experimental section, we evaluate the necessity of the dataset, the feasibility of the new research paradigm, and the practicality of the new dataset within the new research paradigm through a combination of subjective evaluation and objective metrics. The results demonstrate that the proposed methods are scientific and reasonable.

Keywords: Generating Images from Chinese Ancient Poetry; Vertical Domain Large Models; New Datasets; Basic Paradigm; LoRA

编辑 | 许可

向上滑动 查看注释

[1]刘炜、叶鹰:《数字人文的技术体系与理论结构探讨》,《中国图书馆学报》2017年第5期。

[2]Roberto Busa, “The Annals of Humanities Computing: the Index Thomisticus,” Computers and theHumanities, vol.14, 1980, pp. 83-90.

[3]毕文韬:《唐诗的图像生成》,硕士学位论文,东南大学,2022年。

[4]A. Radford, J. W. Alec et al., “Learning Transferable Visual Models from Natural Language Supervision,” International Conference on Machine Learning, PMLR, 2021, pp. 8748-8763; Aditya Ramesh, Prafulla Dhariwal et al., “Hierarchical Text-Conditional Image Generation with CLIP Latents,” arxiv preprint, arxiv: 2204.06125, 2022.

[5]Nataniel Ruiz et al., “Dreambooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 22500-22510; Hertz Amir et al., “Prompt-to-Prompt Image Editing with Cross Attention Control,”arxiv preprint, arxiv: 2208.01626, 2022; Avrahami Omri et al., “Spatext: Spatio-Textual Representation for Controllable Image Generation,” Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition, 2023, pp. 18370-18380.

[6]Kumari Nupur et al., “Multi-Concept Customization of Text-to-Image Diffusion,” Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp.1931-1941.

[7]Lvmin Zhang, Anyi Rao, and Maneesh Agrawala, “Adding Conditional Control to Text-to-Image Diffusion Models,” Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 3836-3847; Yufan Zhou et al., “Shifted Diffusion for Text-to-Image Generation,” Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition, 2023, pp. 10157-10166; Zhengyuan Yang etal., “Reco: Region-Controlled Text-to-Image Generation,” Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition, 2023, pp. 14246-14255.

[8]James Betker et al., “Improving Image Generation with Better Captions,” 2023, https://cdn.openai.com/papers/dall-e-3.pdf, accessed on May 12, 2025.

[9]Preechakul Konpat et al., “Diffusion Autoencoders: Toward a Meaningful and Decodable Representation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10619-10629.

[10]Hila Chefer et al., “Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models,” ACM Transactions on Graphics, vol.42, 2023, pp. 1-10.

[11]R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image Synthesis with Latent Diffusion Models,” in Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition, 2022, pp. 10684-10695.

[12]Edward J. Hu et al., “Lora: Low-Rank Adaptation of Large Language Models,” arxiv preprint, arxiv: 2106.09685, 2021.

[13]Haiyan Zhao et al., “Explainability for Large Language Models: A Survey,” ACM Transactions onIntelligent Systems and Technology, vol. 15, 2024, pp. 1-38.

[14]Long Ouyang et al., “Training Language Models to Follow Instructions with Human Feedback,” Advances in Neural Information Processing Systems, vol. 35, 2022, pp. 27730-27744.

[15]参考 OpenAI, “GPT-4 Technical Report,” arxiv preprint, arxiv: 2303.08774, 2023。

[16]https://www.anthropic.com/index/introducing-claude, accessed on May 12, 2025.

[17]“Palm 2 Technical Report,” arxiv preprint, arxiv: 2305.10403, 2023.

[18]E. Mansimov, E. Parisotto, J. L. Ba, and R. Salakhutdinov, “Generating Images from Captions with Attention,” ICLR, 2016; S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee, “Generative Adversarial Text to Image Synthesis,” International Conference on Machine Learning, PMLR, 2016, pp. 1060–1069; H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and D. N. Metaxas, “Stackgan: Text to Photo-Realistic Image Synthesis with Stacked Generative Adversarial Networks,” Proceedings of the IEEEInternational Conference on Computer Vision, 2017, pp. 5907–5915.

[19]T. Xu, P. Zhang, Q. Huang, H. Zhang, Z. Gan, X. Huang, and X. He, “Attngan: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks,” Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2018, pp. 1316–1324; A. Ramesh, M. Pavlov, G. Goh, S. Gray, C. Voss, A. Radford, M. Chen, and I. Sutskever, “Zero-Shot Text-to-Image Generation,” International Conference on Machine Learning, 2021, pp. 8821-8831; M. Ding, Z. Yang, W. Hong, W. Zheng, C. Zhou, D. Yin, J. Lin, X. Zou, Z. Shao, H. Yang et al., “Cogview: Mastering Text-to-Image Generation via Transformers,” Advances in Neural Information Processing Systems, vol. 34, 2021, pp. 19822–19835.

[20]Ian Goodfellow et al., “Generative Adversarial Nets,” Advances in Neural Information ProcessingSystems, vol. 27, 2014.

[21]H. Cao, C. Tan et al., “A Survey on Generative Diffusion Model,” arXiv preprint, arXiv: 2209.02646, 2022;S. Frolov, T. Hinz, F. Raue, J. Hees, and A. Dengel, “Adversarial Text-to-Image Synthesis: A Review,” NeuralNetworks, vol. 144, 2021, pp. 187–209; R. Zhou, C. Jiang, and Q. Xu, “A Survey on Generative Adversarial Network-Based Text-to-Image Synthesis,” Neuro computing, vol. 451, 2021, pp. 316–336.

[22]Jonathan Ho, Ajay Jain, and Pieter Abbeel, “Denoising Diffusion Probabilistic Models,” Advances inNeural Information Processing Systems, vol.33, 2020, pp.6840-6851.

[23]A. Nichol, P. Dhariwal, A. Ramesh, P. Shyam, P. Mishkin, B. McGrew, I. Sutskever, and M. Chen, “Glide: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models,” ICML, 2022.

[24]C. Saharia, W. Chan, S. Saxena et al., “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding,” arXiv preprint, arXiv: 2205.11487, 2022.

[25]A. Radford, J. W. Kim et al., “Learning Transferable Visual Models from Natural Language Supervision,” ICML, 2021.

[26]A. Abuzayed, H. Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, vol. 189, 2021, pp. 191-194.

[27]T. Brown, B. Mann et al., “Language Models are Few-Shot Learners,” Advances in Neural InformationProcessing Systems, 2020.

[28]C. Raffel, N. Shazeer et al., “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,” Journal of Machine Learning Research, vol. 21, 2020, pp. 1–67.

[29]A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, and M. Chen, “Hierarchical Text-Conditional Image Generation with CLIP Latents,” arXiv preprint, arXiv: 2204.06125, 2022.

[30]Jason Lee, Kyun ghyun Cho, and Douwe Kiela, “Countering Language Drift via Visual Grounding,”EMNLP, 2019; Yuchen Lu, Soumye Singhal, Florian Strub, Aaron Courville, and Olivier Pietquin, “Countering Language Drift with Seeded Iterated Learning,” International Conference on Machine Learning (ICML),2020.

[31]James Kirkpatrick, Razvan Pascanu et al., “Overcoming Catastrophic Forgetting in Neural Networks,” Proceedings of the National Academy of Sciences, vol. 114, 2017, pp.3521-3526; Dingcheng Li, Zheng Chen, Eunah Cho, Jie Hao, Xiaohu Liu, Fan Xing, Chenlei Guo, and Yang Liu, “Overcoming Catastrophic Forgetting During Domain Adaptation of Seq2seq Language Generation,” NAACL, 2022; Joan Serra, Didac Suris, Marius Miron, and Alexandros Karatzoglou, “Overcoming Catastrophic Forgetting with Hard Attention to the Task,” International Conference on Machine Learning, 2018, pp. 4548–4557.

[32]Robin Rombach et al., “High-Resolution Image Synthesis with Latent Diffusion Models,” Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10684-10695.

[33]Jing Jiang, Yiran Ling et al., “Poetry2Image: An Iterative Correction Framework for Images Generated from Chinese Classical Poetry,” arXiv preprint, arXiv: 2407.06196, 2024.

[34]Vivian Liu, Lydia B. Chilton, “Design Guidelines for Prompt Engineering Text-to-Image Generative Models,” Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, 2022, pp. 1-23.

点击下方链接,下载原文

古诗生成图像数据集的构建及研究范式.pdf

如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

阅读原文

跳转微信打开

“九歌·推敲”小程序初版发布

2026年3月4日 15:22

2026-03-04 15:22 北京

清华大学中华传统文化智能实验室和清华大学数字人文研究中心“九歌”系统下的“推敲”小程序借助人工智能技术,将“推敲”功夫落地为一套可操控、可解释、可回退的智能化写作流程,让每位诗词爱好者都能拥有自己的“韩愈”。

唐代诗人贾岛因作诗时在“推”“敲”二字间犹豫不决,冲撞韩愈仪仗,后经韩愈点拨恍然大悟,两人遂“并辔论诗”,传为诗坛佳话。尽管该典故的真实性有待商榷,然职是之故,“推敲”一词渐被赋予“反复斟酌”之义广为人知。今人作诗,自然也离不开“推敲”的功夫。

清华大学中华传统文化智能实验室和清华大学数字人文研究中心“九歌”系统下的“推敲”小程序借助人工智能技术,将“推敲”功夫落地为一套可操控、可解释、可回退的智能化写作流程,让每位诗词爱好者都能拥有自己的“韩愈”。

九歌·推敲.jpg

小程序界面

【演示视频】

小程序实现功能

自定义创作参数:体裁、韵部、句式、题目、意境

智能锁定机制

  • 字级锁定:点击字右上角的锁定标志,可锁定作者满意的字,

  • 行级锁定:点击句末锁定标志,一键锁定整句。

  • 锁定后:系统不予修改,只校验格律,给出建议。

实时字词推敲:点击空格时,系统自动推荐候选字,并给出推荐理由

推荐理由查看:点击字后下角的小灯泡标志,可查看推荐依据

  • 高频搭配:诗词句内高频搭配,给出搭配频次。

  • 名句引用:基于PPL加权评分的名句推荐。

  • 古籍推荐:《海录碎事》《白孔六帖》等类书线索。

  • 系统创作:结合题目和意境的智能建议。

  • 友情链接:可跳转搜韵网查看相关诗句。

格律实时校验:边写边提示,格律问题一目了然

  • 绿色:格律正确

  • 红色:平仄错误

  • 黄色:多音字

  • 紫色:押韵错误

一键编辑功能

  • 导出:一键保存分享作品。

  • 撤销/重做:一键回退和重做。

  • 历史记录:每行句末有历史记录标记,点击可查看修改记录。

  • 清空:一键清空整首诗。

小程序创作流程

流程图.png

第一步:设置创作参数

  • (必选)选择体裁

  • (可选)韵部、句式、题目和意境

第二步:边写边推敲:

  • 点击空格查看推荐

  • 点击已有字查看理由

  • 锁定满意的部分

第三步:格律校验:

  • 关注颜色标记

  • 调整不符合格律的字

  • 完成作品

温馨提示:还可点击小程序右上角图标.png图标,查看详细帮助文档或点击下方链接查看详细使用说明。

当前AI作诗的痛点在于一键生成全诗,削弱了用户的创作自主权。九歌·推敲小程序使AI退居幕后,成为用户手中的“琢玉刀”——你推敲一字,它便回应一理;你锁定满意之处,它便退后静观——真正做到以技术之力助灵思之驰骋,实现AI与人文的智慧互动。

图3.png

欢迎扫描二维码或微信搜索“九歌推敲”试用~

指导老师:孙茂松

研发团队:韩玉凤、邓力凡、李文浩、从鑫、孔存良、白钰卓

END

公号二维码-1.jpg

数字使人文更新

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

❌