阅读视图

媒体聚焦丨与清华孙茂松教授深聊:关于大模型和AI应用落地,一些重要的非共识结论

2026-02-01 10:01 北京

转自 腾讯科技

“大家对人工智能,讨论得已经很充分了。”

和孙茂松教授打招呼的时候,这是他说的第一句有关人工智能的话。

孙茂松教授是CAAI多语种智能信息处理专委会主任清华大学计算机系教授、人工智能研究院的常务副院长、欧洲科学院外籍院士,以及自然语言处理与社会人文计算实验室(THUNLP)的学术带头人。他牵头制定了语言资源管理的ISO国际标准,并打造了全球最大的慕课平台之一“学堂在线”和早期AIGC探索的代表“九歌”诗词生成系统。

他的学生们也已经成为了当下中国大模型浪潮的中坚力量,比如面壁智能的刘知远、深言科技的岂凡超、幂律智能的涂存超。

在这个处于绝对焦点的行业里,“局内人”孙茂松教授始终保持着一种敏锐的“旁观者”视角。他甚至会通过外部媒体来捕捉行业关心的最新动向,并感慨:“有时媒体的思考比我们这些专注于技术研究的学者还要快。”

然而,在看似被讨论得“透彻”的共识之下,还有几个更重要的非共识结论。

在高山书院 10 周年年会的现场,我们没有和孙茂松教授聊过于具体的技术路线,而是把当下人工智能行业最受关注的经典命题,重新认真讨论了一遍。

比如,Scaling Law到底是不是大模型的第一性原理,行业至今其实并未达成真正的共识。

但孙茂松教授同时指出,所谓的Scaling law“边际效应递减”或许只是暂时的平台期,随着计算资源的超常持续投入,复杂巨系统存在在某个临界点再次触发能力“非线性突变”的可能性。

但是未来有两条关键的路径,一条路径是硅谷巨头在 Scaling Law 上进行一场巨大的豪赌,将算力资源再翻 10 倍甚至 100 倍,试图针对新的困难挑战(如空间智能)去撞击下一个“智能涌现”的临界点。

一旦撞击开下一个临界点,就又拉开了竞争差距,这也给国内基座模型公司也带来了巨大的压力:如何继续跟进这场军备竞赛?这不仅是技术层面的活儿,也是关于意志、资源、国力的较量。

另外一条路径,是实践与效率。大模型发展到今天,几乎成为了一种实验科学,基于各个领域或环节的架构创新,都可能带来能力和效率的提升。这条路径更适合大部分的企业,中国在过去一年的实践中,也在这个方向贡献了很多的开源成果。

当下大模型的能力已经能够支撑产业的发展,是不是到了所有企业都必须用AI重构业务的关键时刻?

孙茂松的回答是“不一定”,但是到了必须要把企业的业务逻辑彻底“过遍脑子”的关键时刻,真正和懂AI的人一起认真研究一下用AI重构业务的可能性,而不是在焦虑中盲目跟风,或者干脆完全放弃。

这种在技术“狂热”中保持“诊脉”式的审慎及基于其上的积极进取,正是当下大模型走向工业级生产力时,需要把握的定力。

Q当前,从媒体到学术圈,对人工智能的讨论已经非常广泛。在您看来,还有哪些可能被忽略了的重要议题?

孙茂松:我认为目前大家对人工智能的关注是全方位的,从政府到民间,从学界到产业界,都给予了高度重视。几乎所有重要的话题都得到了充分的讨论,甚至有时媒体的思考比我们这些专注于具体技术研究的学者还要快。

我常常从媒体的报道中来了解当前大家关心的新问题。所以,我感觉应该没有太重要的东西被遗漏。

Q:一个老生常谈的问题是,关于大模型的“涌现”现象,它是否必须依赖于更大规模的参数才能实现?学术界是否已经研究出可能通过其他方式来催生这种能力的非线性突破的方式?

孙茂松:目前人工智能领域观察到的基本现象是,模型规模越大,参数越多,在训练方法得当、数据量充足的情况下,就越可能出现“涌现”。

这几乎是当前业界通过大量实践得出的一个经验性结论。

至于到底多大才合适,这没有一个明确的答案,需要靠实验来探索。虽然也有一些研究试图在小模型上针对特定任务复现类似的能力跃升,但从普遍意义上讲,规模依然是关键。

复杂系统的一个特点就是规模要大,小系统很难产生类似的效应。

Q:但是,是否如行业讨论的,scaling law的边际效应已经递减了?

孙茂松:边际效应递减是一般的经济学规律,但在互联网时代,某些典型现象已经不遵循这一定律。

在人工智能的“第一性原理”尚不清晰的当下,“Scaling Law”依然是有效的。

大模型有可能通过“涌现”击穿看似接近饱和的平台期,实现能力的非线性陡增。

这正是业界之所以愿意不计成本、持续扩大模型规模的驱动力所在:期待在某个临界点上,模型能力会发生质的飞跃。否则如果仅仅是能力的线性增长,那么投入的边际效应递减会渐次明显,驱动力自然就会停止。

Q:但如果持续押注 Scaling Law,数据会成为那个明显的瓶颈吗?特别是当 AI 从语言模型跨越到物理世界,数据短缺会不会是一个更致命的问题?

孙茂松: 所谓的“数据撞墙”论,可能并没有想象中那么悲观。在不同的细分领域,我们总能找到打破瓶颈的技术演进路径。

首先,合成数据正从“无奈之举”变为一种主动的“补充策略”。 当真实语料在特定长尾场景(比如非常细腻的情感表达或专业领域的逻辑推理)出现稀缺时,利用高性能大模型生成高质量的合成数据,可以有效补齐训练数据的短板。这种“以模型训练模型”的方式,能显著拉升模型的整体性能表现。

其次,在具身智能等更为复杂的物理(现实)世界场景中,可以分“两步走”。 第一步是在仿真空间中进行大规模预训练,利用机器算力快速生成海量的模拟数据; 第二步是回到真实物理世界,用相对少量、高质的真实采样数据进行精调对齐。

虽然仿真环境与物理(现实)世界之间存在“鸿沟(Simulation-to-Real Gap)”,但这种策略极大地降低了数据获取的成本。核心逻辑在于:利用大量的合成数据构建认知底座,再用少量的真实数据完成最后的物理对齐。 这种“仿真+真实”的组合策略,应该是目前通往物理世界智能最为高效的路径。

Q:既然“Scaling Law”依然可靠,这是否意味着只有少数头部企业能够参与这场竞赛?对于普通企业和应用开发者而言,应该如何看待和参与到这股浪潮中?

孙茂松:我认为“scaling Law”主要是那些致力于构建基础大模型的头部企业需要关注的核心问题。它们需要不断探索模型能力的上限,思考并谋划投入非凡的人力和物力资源,将模型的通用基础能力做到极致。

但对于绝大多数做应用的企业而言,完全不必过分担忧这个问题。因为基础大模型公司在模型做大做好之后,自然会通过技术手段将其“做小”,在能力损失不大的前提下,让模型变得可用且成本可控。

所以,应用型企业更应该关注的是,如何利用这些已经相当不错的“基座”模型,来赋能自身的业务。目前时机已经基本成熟,各行各业都应该开始认真思考和探索,大模型能为自己带来什么。当然,我反对不分青红皂白地一哄而上,而是应该经过审慎的讨论和判断。

Q:您认为 2026  2027 年最值得期待的临界点在哪里?是模型记忆的突破、多 Agent 的深度协同,还是 AI 真正的自我进化?

孙茂松: 从应用落地的急迫性来看,当前最现实的挑战依然是“幻觉(Hallucination)”。如果大模型无法将一本正经胡说八道的问题抑制到应用可以承受的程度,那么用户就难以在严肃场景中交付信任。因此,未来一两年,如何从工程和理论上继续最大限度地控制“幻觉”,还是行业最核心的攻坚战。目前已经有一些技术手段,虽然能把模型的幻觉降低很多,但是还是不够。

这与大模型的记忆机制也有相关性。我们需要的不仅仅是更长的上下文(Long Context),而是更智能的“注意力分配”,让模型在多 Agent 协同的复杂任务中,既能精准捕捉瞬时的关键信息,又能学会像人类一样“选择性遗忘”。

“全量记忆”往往意味着冗余和干扰,真正的智能在于判断什么是必须留存的“金子”,什么是该被过滤的“沙砾”。

虽然此类研究带有某种“改良“色彩,不像从 0  1 的理论颠覆那样引人瞩目,但它却是大模型进化为“工业级生产力”的关键一步。。

Q:现在是不是已经到了比较紧迫的时刻,每个企业都必须要考虑如何把AI能力加到自己的业务上?

孙茂松 我认为,起码到了所有企业都该静下心来,把大模型对业务的价值彻底“过遍脑子”的时候了。

我并不认为大模型必然会带来巨大变化,但大多数企业都有可能会受益。现在的关键是,我们需要把业务版图认真梳理一遍:哪些环节有了 AI 之后能跑得更快、更远?哪些环节又是 AI 基本使不上劲的?

“过遍脑子”的意思是,这事儿不能简单拍脑袋就定了。 企业需要请那些真正有实战经验的人工智能专家坐在一起,像“问诊”一样认真讨论:这个场景是不是适合?能不能干?怎么干?

对于真正懂行的人工智能专家来说,判断哪些会是“虚火”、哪些有可能取得“实效”并不太难。

Q:展望 2026 年,从学术前沿到产业深水区,您认为模型基座、企业级应用和 AI Native 创新这三个维度,哪些关键动作将决定胜负?中国大模型与世界顶尖水平的“时差”究竟还有多大?

孙茂松 首先,谈谈模型基座。到目前为止,我认为国内顶尖大模型与世界一流的差距已经不大。

真正的不确定性在于未来的“分叉路口”。 硅谷的一些巨头正准备在 Scaling Law 上进行一场巨大的豪赌,将算力资源再翻 10 倍甚至 100 倍,试图通过处理极限规模的多模态与物理世界数据,去撞击下一个“智能涌现”的临界点。因此不排除差距有可能突然明显拉大。

这种“大力出奇迹”的极致路线,给国内基座模型公司也带来了巨大的压力:是继续跟进这场军备竞赛,还是寻找差异化的突围路径?这不仅是技术活儿,也是关于意志、资源、国力的较量。

其次,在应用层,“AI+”已经从选答题变成了必答题。 正如我之前提到的,企业现在必须“过遍脑子”。不能盲目地为了 AI  AI,更不能无视AI,而是要结合业务核心痛点,精准测算投入产出比(ROI)。从基本面上来看,现在的 AI 不应该成为锦上添花的点缀,而有可能重塑专业领域生产力的基本面貌。

最后,关于 AI Native 的创业,我认为时机已经差不多了。 国内的基座模型能力已经足够好,足以支撑起各类创新应用。一个高水平的应用系统,如果能在海外基座模型上跑通,那么在国内成熟的基座模型上同样大有可为。

基座模型是“地基”,但决定房子好不好住、能不能卖出高价的,是创业者的产品想象力和工程落地能力。随着技术成本的临界点到来,我们有理由相信,2026 年有可能开启一个像移动互联网时代那样百花齐放的“大航海时代”。

Q:大模型的突破也带火了“具身智能”,但是语言模型的Next Token Prediction范式,真的也能够在“具身智能”上起作用吗?

孙茂松 我始终认同《控制论》作者维纳(Norbert Wiener)的观点:真正的 AGI 必然是具身智能。 智能不应只是屏幕上的符号,它必须能在一个开放的、非预设的物理环境中与世界实时交互、互动。

语言模型之所以能取得巨大的成功,本质上是因为语言句子是一串具有“离散无限性(Discrete infinity)”的线性序列。

以“Apple”为例,它的语义指向相对简明,要么是能吃的苹果,要么是那家特定的科技公司。它的词边界是清晰的,句子序列又是高度线性的,这使得 Next Token Prediction(下文预测) 这种逻辑能发挥出极高的效能。

但到了图像领域,逻辑就变了。图像中并不存在明确的“Token”,我们只能强行将其切分成一个个“补丁(Patch)”。比如一个 3×的黑色色块,它可能是一件衣服的局部,可能是桌面的一角,也可能仅仅是屏幕上的一个图标。更复杂的是,这个黑块可能由一堆黑色蚂蚁组成,也可能只是某片补丁中的一小部分。这种语义指向的高度不确定性,导致它缺乏像语言那样的整体逻辑感。

到了视频,维度从二维跃升至三维;而具身智能则是四维——三维空间再加上连续的时间。 面对大千世界如此无穷的变化与复杂的物理互动,单纯依靠 Next Token Prediction 这种预测逻辑到底能不能“大力出奇迹”,现在还要打个问号。

因此,我始终认为,指望人形机器人在未来五年内进入现实世界,自主完成复杂的开放式任务,是不现实的。比如构建一个能在家庭环境中无微不至地照顾老人的具身机器人,这实在是太难了。

必须承认,具身智能的工程难度被行业严重低估了。

要让机器人在从未见过的陌生环境中,做出如同人类般精准、丝滑的感知与反馈,五年之内基本看不到大规模商用的可能。

我对目前“通用人形机器人”的狂热持保留态度,资本的过度追捧确实催生了一定的泡沫。“通用人形机器人”现在仍然属于最前沿的研究课题。

我认为,未来几年内,具身智能的“破局点”不在于通用,而在于“受限场景下的深耕”。 现有的环境感知和强化学习技术,只有在边界相对清晰、任务相对单一的环境中才能真正“跑通”。

机器人是不是“人形”其实并没那么重要,我们更应该思考:在哪些具体的、非预设的环节中,机器人的自主决策能力是不可替代的刚需?

不过,谨慎并不代表悲观。我最近关注到一家做“灵巧手”的企业,他们的切入点就很务实:例如,可以考虑解决社区快递点的自动分拣问题。这种条件下,快递件的随意摆放杂乱无章,是典型的的“非标场景”,需要极强的视觉识别和触觉灵活性去翻找、核对。如果能把这个细分痛点打透,且成本可控,那么全国不胜枚举的快递点就是一片巨大的、确定性的市场。

所以,关键还是要找到合适的具体应用场景,而不是盲目地追求通用。

Q:最后谈一个题外话,我们发现,近两年提到人工智能,有几本书会经常被提起。比如卡尼曼的《思考,快与慢》、维纳的《控制论》。除了这些书之外,还有哪些理论可以跨界启发我们走向下一代AI的核心?

孙茂松 这些经典著作对今天的 AI 研究来说,更多是体现在形而上的思想层面。

以卡尼曼的《思考,快与慢》为例,它其实是基于认知心理学。AI 研究者之所以借鉴这个说法,是因为能清晰地帮助我们对智能工作进行归类和比对,其实属于一种“隐喻”,是在为 AI 的进化寻找一个“形而上”的理论支点

同样,维纳的《控制论》也并非我们通常在工程领域学习的“控制理论”,它更接近于一种探讨人与机器本质的技术哲学。在图灵测试似乎已接近实现的今天,人工智能要向具身智能等更广大、困难的领域发展,就需要诉诸这些深刻的思想。

维纳提出,真正的智能体需要能在一个开放环境中,自我感知环境,并自主决定行动目标、计划等,通过与环境的互动和反馈(尤其是负反馈)来不断调整自身能力。这与强化学习的思想不谋而合。当我们思考如何让AI更加深刻时,会发现维纳早已指明了方向,我们现在在计算手段上似乎具备了沿着这条路走下去的条件。

总的来说,无论是“快思考、慢思考”还是《控制论》,都是我们在AI发展到特定阶段,为了寻求更深层次突破时,从相关学科的智慧宝库中汲取的养分。

我认为重要的思想大体都包含在这些著作之中了。不过,至少还要加上系统论,特别是复杂系统理论。当我们面对大模型展现出的“涌现”等“奇妙”现象而感到困惑时,应该会求助于系统论和复杂系统理论,它们为我们探索大模型的复杂性提供了必要的理论武器。

当然,基础的数学知识,比如矩阵运算,虽然貌似简单,但作为当前大模型的基本计算手段,也需要我们回过头去把它学透、用好。

感谢高山书院对本文的贡献

文 郭晓静

编辑 徐青阳

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。


图片


阅读原文

跳转微信打开

  •  

王兆鹏:基于数据分析的唐诗分期:五期六段说

王兆鹏 2026-01-30 10:02 北京

王兆鹏:基于数据分析的唐诗分期:五期六段说

123.png

图层 1.png

123.png

基于数据分析的唐诗分期:五期六段说


撰文丨王兆鹏


王兆鹏,四川大学中国俗文化研究所讲席教授、中南民族大学文学与新闻学院教授(四川  成都,610207)

  [摘 要]  唐诗的分期,历来存在多种划分方式,但大多着眼于社会政治环境和诗坛整体风貌的变化,而较少关注创作主体的代群更替。唐诗分期的难点不在于分几个时期,而在于如何合理确定分期的时间节点,以及将哪些诗人恰当地划归为同一时期,避免把一位诗人分割为两段的偏失。如果以创作主体为中心,以同一性和完整性为分期原则,依据诗人的生活年代和创作周期,可将唐代诗人分为五个代群,唐诗相应地分为五个时期。因晚唐又可分为前后两段,故概括为“五期六段说”。

  [关键词]  唐诗分期 数据分析 数字人文 



在大数据时代,数据化和可视化分析是学术研究的必然趋势。本文尝试借助数据分析和可视化方法,对唐诗分期研究中的若干疑难问题进行探讨和回应。唐诗的发展历程素为学界所关注,自宋代以来,学者便尝试对唐诗进行历史分期,其中,初盛中晚的四分法最为通行。此外,尚有二期、三期、五期、六期、七段、八段说。唐诗分期的困难,主要不在于分几个时期,而在于怎样确定各期之间的时间节点,以及如何合理地将诗人划归相应阶段。特别是跨代诗人,因年岁相近,其时代归属一直众说纷纭。以往分期研究多依赖学者个人的主观判断,常常缺乏明确的分期原则和客观依据,以致众说纷纭,难有定论。本文基于唐代诗人生活、创作年代和编年作品的数据分析,讨论已有分期各说存在的问题,并提出唐诗分期的原则、依据和具体的时间节点,希望为文学史的分期提供具有可操作性的范例。

一、唐代诗人生活年代和创作周期统计

为便于说明与直观观察,我们以“唐宋文学编年地图平台”所载80位生平可考的唐代著名诗人为数据基础,并增补初唐虞世南、李世民与上官仪3人,据此制成唐代著名诗人的生活年代和创作周期统计表(参见表1)。表中诗人生卒年不可确考者,悉依相关考订成果推定,为使表格简明,均省略表示不确定的问号。诗人享年由计算机按实岁自动计算,即卒年减去生年。每位诗人创作起始与终止年份,均按相关年谱与系年考订成果统计,部分诗人情况特殊,如虞世南、李世民、上官仪与张彻4人没有具体的创作编年,他们的开始创作时间依唐代诗人平均开始创作年龄(20岁)补入,终止创作时间依其卒年推定;周贺和雍陶卒年不可确考,表中的卒年实为其活动可考的最后一年。

表1:83 位唐代著名诗人的生活年代和创作周期统计表.jpg

这83位诗人均在文学史上具有重要地位,其中涵盖王绩、四杰、杜审言、沈、宋、陈子昂、王、孟、高、岑、李、杜、韦应物、刘长卿、韩、孟、元、白、刘、柳、张籍、王建、李贺、小李杜、皮、陆、贾岛、姚合等。这些诗人不仅在唐代文学发展中具有代表性,也均为袁行霈主编《中国文学史》隋唐五代文学卷中重点论述,并在章节目录中列出的对象。值得说明的是,在袁本文学史的章节目录中,另有10位诗人(张若虚、刘希夷、王翰、李颀、崔颢、祖咏、顾况、李益、卢仝、刘叉)同样被突显了其文学史地位,但由于其生平事迹所知有限,未能在上述83位诗人之列。

二、已有分期说法的检讨

要更合理地划分唐诗的发展阶段并确定分期的时间节点,有必要先审视已有分期观点的得失。而在评价旧说之前,首先应明确分期所依据的基本原则。唯有建立起具有共识性的原则,才能系统评判各类分期的优劣。我们认为,诗歌史与文学史的分期,需要遵循以下两条基本原则:一是同一性原则。划分在同一时期的诗人,应该生活和创作在同一时段,不宜把生活在完全不同时段的诗人划归同一时期,这样不利于观察探寻同一时期诗坛的共性和诗人的个性。二是完整性原则。这一原则包含两方面要求:一方面,应保持诗人创作生涯的完整,避免将同一诗人割裂至两个或三个时期;另一方面,应充分考虑创作主体的时代背景,尽量将代表某一时期主流创作方向、引领诗歌潮流的诗人群体划归在同一时期,避免分散归置。如果上述同一性和完整性原则能够成立,那我们下面便依据这两条原则来探讨已有分期说中存在的问题。

先看二期说。较早提出二期说的是胡适,其《白话文学史》以755年安史之乱爆发为临界点,将唐诗分为前后两个阶段。[1]与胡适的意见接近,闻一多从诗歌史的发展全局来审视唐诗的发展历程,把公元196—755年视为中国诗歌的黄金时代;将756—1276年看作是诗的不同类型的余势发展。[2]划分的时间长度虽与胡适不同,但切分的时间点完全一样。陆侃如、冯沅君的《中国诗史》则完全参照胡适的意见,以安史之乱为分界线,将四唐合并为两个时期,即把初唐与盛唐合为一期,中唐与晚唐合为一期。[3] 这种划分,视野宏阔,便于掌握唐诗发展的大趋势,但时段太长,前段历经138年,后段有152年。唐代诗人平均寿命66岁,每段包含了完全不同的两个世代的诗人。又以政治史的分期755年为界,未能顾及诗人的生活和创作年代的完整性。如此划分,盛唐时期的著名诗人高适、王维、李白、杜甫、岑参等都被割裂划归在两个时期。

次看三期说。近代宋育仁《三唐诗品》仿照钟嵘《诗品》的品第批评,将唐诗分为初、盛、晚三唐,把一部分中唐诗人与盛唐诗人合并称为“盛唐”,把一部分晚唐诗人也并入盛唐一列。这是用逻辑的分级代替历史的分期,是横向共时性的划分而非纵向历时性的划分。实际划分的不是三个时段而是三个等级,[4]属于价值判断而非事实判断。谭丕模《中国文学史纲》则是从历史角度将唐诗分为三个时期:一是初唐天宝间(618—755),二是天宝长庆间(756—824),三是晚唐五代间(825—959)。[5]这种三分法,明显受到1942年范文澜《中国通史简编》初版的影响。简编将唐代分为三个时段:初唐(618—741)124年,中唐(742—820)79年,晚唐(821—907)87年。[6]谭氏所分三个阶段与范氏的划分基本相同,只是第二段的起点,由天宝初年延后到天宝末年。倪其心《关于唐诗的分期》也是将唐诗分为三个时期:第一阶段(618—741),诗歌拨乱反正,走向繁荣;第二阶段(742—820),诗歌掀起高潮,趋向创新;第三阶段(821—907),诗歌走向新形式,创造道路。[7]谭、倪二人有关三段时间起讫的切分,大同而小异。陈伯海《唐诗学引论》提出三期九段说,将成长期(618—755)细分为贞观前后诗坛、武后时诗坛、开天诗坛三段,转变期(756—824)又划分为安史变乱时诗坛、大历诗坛、元和诗坛三段,衰蜕期(825—907)则切分为大中诗坛、咸通诗坛、唐末诗坛三段。[8]跟谭丕模的三分法相同,只是每段再细分为三而已。三期说较二期说更能揭示唐诗发展演变的过程和规律,但跟二期说类似,也是将时间上完全不同的两代诗人归并为同一时期,顾及到诗坛风会的变化,而未能顾及创作主体的生活时代归属,又将盛唐的李白、杜甫、高适、王维和中唐的韩愈、元稹、白居易、刘禹锡等大家分属前后两个不同的时期,略有削足适履之憾。

再看四期说。宋末元初的方回,已提出盛唐、中唐、晚唐的说法。[9]元代杨士弘《唐音》在方回的基础上又提出唐初、盛唐、中唐、晚唐的概念。[10]明初,高棅《唐诗品汇》进一步明确了四分法,并系统阐述了“四唐六段说”,即初唐的“贞观、永徽之时”和“神龙以还”,盛唐的开元、天宝间,中唐的大历、贞元,晚唐的“元和之际”和“开成以后”。[11]他将元和划入晚唐,与后来者有别。其后徐师曾《文体明辨序说》复承其说,并拟定了四唐说的起讫时间节点:“由高祖武德初至玄宗开元初为初唐,由开元至代宗大历初为盛唐,由大历至宪宗元和末为中唐,自文宗开成初至五季为晚唐。”[12]徐师曾修正了高棅的看法,将元和划入中唐,五代包含在晚唐内。现当代论唐诗者,多沿四唐说。但时段的起讫,各家又略有不同。杨世明划分的时间节点是:初唐(618—711)94年,盛唐(712—755)45年,中唐(756—824)69年,晚唐(825—907)83年。[13]又将初唐和中唐各分两段,初唐分前段(618—649)和后段(650—711),中唐分前段(756—794)和后段(795—824),晚唐又分两段,从敬宗到宣宗是前段,懿宗至唐亡为后段,形成四唐七段说。尚永亮和张娟《唐知名诗人之层级分布与代群发展的定量分析》,将四唐的时间分界线明确为初唐(618—713)、盛唐(713—765)、中唐(766—827)、晚唐(827—907)。[14]这种划分的得失容后讨论。

复看五期说。五个时段的划分,始于南宋严羽《沧浪诗话·诗体》,他把唐诗分为唐初体、盛唐体、大历体、元和体和晚唐体。[15]至现代,苏雪林《唐诗概论》明确将唐诗分为五个时期。[16]五期实与四唐接近,只是把中唐分为两个时期。

又看六期说。许总《唐诗史》主张分六个时期:六朝遗绪的承袭期(618—660),唐音初建的自立期(661—711),气象高华的高峰期(712—755),激荡回旋的扭变期(756—804),众派争流的繁盛期(805—859),俗艳余波的衰微期(860—907)。[17]这六期是把初唐分为两个时期,第三期基本上是盛唐,第四、第五、第六期则是把四唐说的中、晚唐分为三个时期。这样的分期,将盛唐的高、岑、李、杜和王维以及中唐的韩、孟、元、白、刘、柳等著名诗人切分为前后两个时段。一位诗人分处两个时期,难免产生割裂之感。

续看七期说。罗宗强虽然是就整个唐代文学思想而言提出七期说,但其核心是诗歌创作的思想,故可视为唐诗的分期。其所分七期,分别是初唐(618—710)、盛唐(711—742)、转折前期(743—773)、转折后期(774—794)、中唐(795—824)、晚唐前期(825—859)、晚唐后期(860—907)。[18]这七期说有的三十年左右,有的二十年左右。唐代诗人平均寿命66岁,创作周期平均为45年。二三十年为一个时期,势必将众多的诗人截分为两个甚至三个时期。若每个时期都论述同一位诗人,势必造成重复,不论述又会缺失。显然,这种分期也不是很周全。

八期说是中国社会科学院文学研究所编《唐诗选》前言提出的。具体划分是:唐初三四十年,开元前的五六十年间,从开元之初到安禄山之乱前夕,从安史之乱前夕到大历初十几年间的诗坛,从大历初到贞元中二十余年,从贞元中到大和初约三十年间,从大和初到大中初约二十年间,从大中以后到唐末约六十年。[19]这八个时期的划分,基本上是将四唐再各分为二。细分自有其好处,但也存在跟七期说一样的偏失。

纵观上述七种唐诗分期说,存在两个共同倾向。其一,多考虑社会政治环境和诗坛风貌的变化,而忽略了创作主体的代群更替。多数分期方式将盛唐与中唐的分界点定于755年的安史之乱或由盛转衰的天宝元年(742),都是基于社会政治环境变化的考量。在这一背景下,尚永亮的分期明确回归“诗人本位”,以诗人群体之更迭代兴为中心观察诗史的变化历程,在四期基础上进一步将唐代知名诗人分为七个代群,实现了诗史分期与诗人分代的结合,深化细化了唐诗分期问题的研究。然而,其代群划分的时间节点还有待完善,一方面只考虑代群登场的时间,而未充分考虑退场的时间。另一方面各代群之间存在断层现象,部分诗人难以被准确归入某一代际。其二,偏重主观判断而缺乏客观依据。现有分期观点大多建立于研究者个人对唐诗进程变化的主观体认,尚未形成具有共识的客观指标和划分标准。读者只看到分期结论,却难以追溯其逻辑与理据,无从判断各种分期的合理性和科学性。历史的发展周期是客观的,而对历史周期的认识又是主观的。因此,在唐诗分期这一问题上,理想的路径应是主观认识和客观实证相结合,应有客观的数据史料来佐证和验证。

无论是文学史还是诗歌史,都是由创作主体创造的。社会环境的变化是通过创作主体来影响文学创作而体现,创作风貌的变化更是直接由创作主体来完成的。文学史和诗歌史的分期,忽略创作主体的代群更替,将一群群、一代代引领创作潮流的作家、诗人“砍头”“剁脚”,强行划入不同的创作时期,难免显得割裂与牵强。所以,我们提出以诗人为中心的代群更迭分期法,借助客观的数据分析和验证,力图避免传统分期存在的偏失,尝试解决刘学锴所说因“年岁相近的诗人分属盛唐、中唐两个诗歌时期的扯不清的问题”,[20]使文学史的分期不再是模糊处理与主观体认,而是具备明确原则、客观依据和可操作的方案。

三、按编年数据重拟唐诗分期的时间节点

唐代(618—907)历时290年(不计五代),诗人辈出,其生活年代和创作阶段先后各异。不同代群乃至同一代群内部,诗人的生年不同、寿命长短有别。我们怎样在零散无序的唐诗长河中找出每个时段共同生活和创作的诗人群体来?数据分析或可为此提供新的视角。我们的思路和做法是,首先统计唐代诗人的平均寿命,估算整个唐代可能出现几个世代的诗人群体,进而确定唐代诗人世代群体的时长。据尚永亮整理的数据,唐代诗人中有年寿可考的凡383人,平均寿命约66岁。由此可推知,在唐代290年间应该有五个世代的诗人群体。在确定世代数量后,下一步是厘清各代群的时间节点,亦即明确哪些诗人应归属于同一世代。不同的划分标准会导致不同的代群归属结果。每位诗人是属上个世代还是属下个世代,都有理由和依据。为此,我们在诗人自然生命指数的基础上,引入“创作周期”这一指标。

创作周期,指每位诗人从开始创作到终止创作的时长。如李白(701—762)享年61岁,据其年谱和别集编年考订,其诗歌创作自715年持续至762年,创作周期达48年;杜甫(712—770)享年58岁,他的创作起于736年止于770年,创作周期为35年。于是,我们将表1里收录的83位诗人的创作周期,用统计学的聚类分析方法,按其创作年代分布先后制作成可视化的鸟瞰图(参见图1)。该图以诗人的出生年横向排列,横条内诗人姓名前的数字指诗人所处的时期、姓名后的数字指诗人的创作时长,即创作周期;横条外诗人姓名左侧的数字指其创作的起始年份,右侧的数字指其创作的终止年份。从图1可以清晰识别出哪些诗人完全属于同一个时期,哪些则跨越了两个时期。据此,我们先将创作周期完全处在同一时段的诗人划为同一个时期,并确立该时期的起止范围;随后,再对跨代诗人进行个案分析,判断其更适宜归属于上个时期还是下个时期。分析结果与我们预估基本一致,唐代诗人先后出现了五个代群。

图1:唐代83 位著名诗人创作年代分布鸟瞰图.jpg

第一个代群在隋末唐初,主要成员有虞世南(558—638)、李渊(566—635),魏征(580—643)、王绩(589—644)、李世民(599—649)、上官仪(608—665),除虞世南外,其他五人的创作周期完全处在同一时段,即603—664年。因此,这一代群的创作周期可定在603—664年间。虞世南由隋入唐,创作起步较早,其在入唐前更早的创作,可作为个案另行处理,不影响整体分期的确立。第一代诗人群主要生活在隋末唐初的隋炀帝和唐高祖、太宗三朝,以隋文帝仁寿三年(603)王绩开始创作为起点,以麟德元年(664)上官仪被杀为终点,历时62年(首尾俱计)。这代诗人大多是宫廷诗人,历经改朝换代的战争与和平时代,诗风既有六朝印记,也有开国诗坛的新气象。

第二个代群主要生活在高宗、武后、中宗和睿宗四朝,时间跨度为665至714年,共50年。其时间起点定在上官仪去世后的665年,终点定在沈佺期终止创作的玄宗开元二年(714)。图1显示,这个代群的诗人,只有卢照邻和骆宾王的创作起点较早,分别始于652年和641年,与上一代略有所交叉,这也是正常现象,上下两个代群之间总会有人重合。其实,641年骆宾王还是一个6岁的孩子,偶然吟诗而已,他创作的真正起步,要到20岁以后。杜审言、苏味道、王勃、杨炯、崔融、沈佺期、宋之问、陈子昂等著名诗人,都是在上官仪离开诗坛后才开始创作,李峤、王勃则是在上官仪离世前一、二年开启创作生涯。到了714年,初唐的第二代群全部退出诗坛,第三代群陆续登场。这代诗人生活在唐王朝社会政治的上升期,无论是诗体形式还是审美理想都力图构建唐诗的新风貌,四杰拓展了诗歌的题材,沈、宋确立了近体诗的体制,陈子昂提倡风骨兴寄,为后来的诗人指出了向上一路。

第三代群主要生活和创作于盛唐时期。上个代群创作活动结束的714年,正与李白的创作生涯起点相衔接。我们可以把715年作为盛唐代群的起始年。终点可以确定为770年,以杜甫去世为标志,恰涵盖李白(762年卒)与杜甫两位双子星的完整创作周期。如此划分,盛唐时期从715年至770年,历时56年。高适、王维、李白、杜甫、岑参和萧颖士等诗人的生活和创作周期就完全处于这一区间。本代群中有若干诗人创作活动横跨初唐与盛唐,需结合其生平与创作实绩进行具体分析。先需讨论的是张说、苏颋和张九龄三位跨代诗人。张说(667—730)的创作虽起于689年,终于730年,创作周期凡42年,以714年为界,他在第二代群的时间为25年,在第三代群活动的时间为17年,以中位数而论,他应划入初唐第二代群。但张说作为开元宰相,政坛和文坛的影响主要是在玄宗开元年间。《旧唐书》载其“前后三秉大政,掌文学之任凡三十年”。 [21]所言“掌文学之任”,虽就文章而言,但也包含诗歌创作在内;“凡三十年”,指张说去世的前三十年。其715年后的诗歌创作数量有132首,占其可编年诗歌总数的六成多。故张说应划归第三代群,视为第三代诗人群的领袖。苏颋(670—727)比张说小3岁,又早去世3年,与张说并世。苏颋为官和文学创作活动也主要是在开元年间。[22]他在715年后的可编年诗为47首,而714年前的诗歌只有46首,所以将他与张说都划入第三代群。张九龄(678—740)作为“一代辞宗”,[23]创作始于701年,终于740年,与盛唐的第三代群交集时间更长。他在政坛和诗坛的影响力在开元后期为相之时达至顶峰,宜划属盛唐,并视为继张说之后的政坛领袖和诗坛领袖。其次应讨论的是王之涣(688—742)和孟浩然(689—740)。孟浩然的创作始于上个时期的708年,但他30年的创作生涯有24年是在盛唐,在盛唐写了140首诗,而在初唐只有4首。他属盛唐诗人群无疑。王之涣因存诗很少,可考的创作周期很短,他仅比孟浩然年长一岁,创作周期也主要在盛唐,故与孟浩然同属盛唐。

对于活跃于盛唐中后期、部分创作延续至中唐的诗人,依据其创作时间与文学史定位作如下判断:钱起(718—783)43年的创作周期,即738年至780年,有32年是在盛唐,作于盛唐时期的诗歌有29首,只有5首诗是在771年以后所作。胡应麟《诗薮》说:“诗至钱、刘,遂露中唐面目。钱才远不及刘,然其诗尚有盛唐遗响。刘即自成盛唐与中唐分道矣。”[24]钱起为承前启后式的诗人,既承盛唐遗绪,又开中唐新声,属上属下,本是两可。然其创作多在盛唐,承接王维,正如《中兴间气集》所说,钱起“诗,体格新奇,理致清赡。越从登第,挺冠词林。文宗右丞,许以高格,右丞没后,员外(钱起)为雄”。[25]故属盛唐为宜。刘长卿(718—790),与钱起同岁,其创作周期为49年(738—786),在盛唐32年,作诗25首;在中唐17年,作诗11首,也应划入盛唐。黄克缵《全唐风雅》即指出:“刘文房登第于开元,正当玄宗盛时,与钱、郎颉颃。诗格调清峭而词气深厚,‘五言长城’,语不虚也。不知者列之中唐,误矣。”[26]黄克缵也是从生活年代和诗风两个角度说明刘长卿应属盛唐,今有数据支撑,其说可从。元结(719—772)的创作周期大部分与杜甫重合,而48首可编年诗都作于盛唐,故应划归盛唐。独孤及(725—777)离开诗坛的时间,晚于杜甫7年,早于钱起6年,他的22首可编年诗,18首是在盛唐时期所作,也应该划归盛唐。这些诗人归入盛唐,便于考察盛唐诗风的多样性与延续性。颜真卿(709—785)的创作周期共52年,在盛唐37年,却没有一首可编年诗;30首可编年诗,全部作于771年以后的中唐,故他应属中唐诗人群。韦应物(737—792)在安史之乱结束后的765年才开始创作,在盛唐的创作只有5年时间,诗作17首;而在771年后的中唐,创作延续22年,作诗45首,占全部可编年诗的七成,所以他应划入中唐。胡应麟《诗薮》也说:“苏州五言古优入盛唐,近体婉约有致,然自是大历声口,与王、孟稍有不同。”[27]韦应物作为由盛唐而入中唐转折时期的诗人,对中唐白居易等诗人有直接的影响,将他放在中唐或许更便于考察诗风的演进变化。

综上,第三代盛唐诗人群包括张说、张九龄、王之涣、孟浩然、高适、王维、李白、杜甫、岑参、萧颖士、钱起、刘长卿、元结、独孤及等。他们亲历大唐的繁华盛世,除张九龄、孟浩然、王之涣3人之外,其他诗人都目睹了帝国的衰落,亲身体验了战争离乱给国家人民和自身家庭所造成的苦难。他们的诗歌具有多重的生命样态,有盛世的欢歌,也有乱世的悲吟,有激情与理想,也有痛苦与失落,他们从不同的角度把诗歌艺术推向了顶峰。值得补充的是,在盛唐主将李白、杜甫去世之后到中唐韩柳、元白登坛作将之前(约771—790年间),钱起、刘长卿、颜真卿、韦应物和大历十才子等正好展现了他们的风采,使盛唐和中唐两座诗歌高峰之间的过渡不至于寂寞。

第四代中唐诗人群,时间跨度以杜甫去世后的771年为起点,以元稹去世的831年为终点,历时61年。之所以选择831年为终点,是基于韩愈、柳宗元、张籍、王建等核心诗人都已先后离世,标志该阶段文学主潮告一段落。若以白居易去世的846年为界,则中唐时间历经77年,时间太长,相比前三个代群的创作周期,不太均衡。且白居易享年74岁,高出唐代诗人平均寿命,不宜作为断代依据。

如果中唐诗人群的时间段定在771—831年,那么,孟郊、武元衡、权德舆、张籍、王建、韩愈、吕温、柳宗元、张彻、元稹、李贺等都在这个时段内(参见图1)。只有令狐楚、刘禹锡、白居易、李绅、姚合、贾岛等跨入晚唐。令狐楚(766—837)创作周期47年,即791年至837年,其中41年在中唐,42首可编年诗,有35首作于中唐。他在中唐的诗作占八成多,所以他应属于中唐诗人群。刘禹锡(772—842),792年开始创作,他在中唐创作了40年,作诗434首,占全部编年诗629首的近七成,只有生命的最后12年延续到了晚唐,他也应归属中唐。白居易(772—846),与刘禹锡同年出生,但享寿要高,创作周期也长,从十六岁开始创作,在中唐创作了43年,作诗1282首,占全部编年诗1921首的66.73%。他在晚唐只生活和创作了16年,诗作639首,约占总数的三分之一。他跟刘禹锡一样,也应属中唐诗人群。李绅(772—846),跟白居易生死同岁,自然也属中唐。李翱(774—836)的创作周期止于833年,只在晚唐创作了2年,自当属于中唐。刘禹锡、白居易、李绅3人属中唐,历来无争议。然姚合、贾岛,前贤常以晚唐人目之。姚合(777—842)比元稹小2岁,跟刘禹锡同年离世。他的编年诗共79首,其中63首作于中唐,以属于中唐为宜。贾岛(779—843)跟元稹同年生,又比白居易早3年去世,他78首可编年诗,作于中唐的有59首,占总数的七成多,自当划归中唐。周贺(777—840)跟姚合同年生,比刘禹锡去世还早2年,也应同属中唐。牛僧孺(780—848)虽比刘禹锡晚6年离世,但他的创作周期却停止在刘禹锡去世的842年,生命的最后几年没有创作留存。所以,他也应归属中唐。李贺(790—816)虽然比许浑还小2岁,但英年早逝,创作和生命都终止于中唐的816年,无疑应属于中唐。皇甫湜(787—835)虽与李德裕同年,但创作止于835年,在晚唐创作的时间只有4年,以属中唐为宜。无可(785—847)创作周期起于820年,止于845年,在中唐12年,有可编年诗12首;在晚唐14年,可编年诗有14首。他在晚唐的创作时间和诗作数量略多于中唐,可归入晚唐。李德裕(787—849)创作始于中唐的813年,在中唐创作了18年,在晚唐也创作了18年,在中晚唐的时间正好对半。而他76首可编年诗,有47首作于晚唐,占六成多。无可早他2年去世,划属晚唐,那么,李德裕也应划入晚唐。许浑(788—861)806年开始写诗,在中唐16年作诗107首,在晚唐27年创作158首,应属晚唐。

综上所述,中唐诗人群,包括颜真卿、韦应物、孟郊、武元衡、权德舆、张籍、王建、韩愈、吕温、柳宗元、令狐楚、刘禹锡、白居易、姚合、李绅、李翱、张彻、贾岛、周贺、牛僧孺、李贺、皇甫湜等。他们在回望帝国的繁盛荣耀中度过,对当世的衰颓充满了深深的失落与无奈。他们有救世的理想,也有济世的才能,却在政治上备受打击迫害,都深切体验了生命沉沦挣扎的苦痛,他们的诗歌充满了个体生命备受压抑的悲怨、无法改变命运的忧伤,情调深沉而富有不屈的力量。

晚唐诗人群以831年(元稹卒年)为起始,此后开始创作的诗人均归入晚唐。尽管雍陶(796—860)、顾非熊(797—854)、温庭筠(801—866)、项斯(801—853)、令狐绹(802—879)、段成式(803—852)、刘得仁(807—859)、李商隐(812—858)等在831年前已有创作,但其早期创作时段较短,且成就与影响力多被中唐前辈诗人所遮盖。从创作周期分布来看,这些诗人在晚唐的创作时间远超中唐。中唐的创作时间与晚唐创作的时间之比,雍陶是1227,温庭筠是434,项斯是1120,令狐绹是016,段成式是1129,杜牧是819,刘得仁是1124,李商隐是725。雍陶、项斯、刘得仁在晚唐创作的时间都比前段长1倍,段成式和杜牧则是后段比前段长2倍多,李商隐后段比前段长3倍多,温庭筠前段仅是后段的零头,令狐绹在中唐没有创作可考,其作品全在晚唐。因此,这些诗人都应属晚唐。此外,方干、喻凫、薛能、陆龟蒙、贯休、罗隐、皮日休、韦庄、司空图、黄滔、韩偓、鱼玄机、吴融、郑谷、唐彦谦等诗人,均在832年后才开始步入诗坛,无疑都属晚唐这一时期。

若晚唐的下限定在907年,则晚唐跨度长达76年,超过诗人的平均寿命。故可考虑将晚唐诗人进一步划分为两个小代群。晚唐前段诗人出生在785—817年之间,包括无可、李德裕、许浑、雍陶、顾非熊、温庭筠、项斯、令狐绹、段成式、刘得仁、方干、喻凫、李商隐、薛能等人。晚唐后段诗人出生在818—860年之间,包括陆龟蒙(830—881)、贯休(832—912)、罗隐(833—909)、皮日休(834—902)、韦庄(836—910)、司空图(836—910)、黄滔(840—911)、韩偓(842—923)、鱼玄机(844—868)、郑谷(848—909)、唐彦谦(848—907)等诗人。其中贯休、罗隐、韦庄、黄滔、韩偓、郑谷等都目睹了唐帝国大厦的倾覆。晚唐诗人身处日落西山的时代。如果说中唐诗人有失望也还有希望,那么,晚唐诗人则更多为深深的绝望,纵有救世之心,也无济世之望,只好转向隐世和玩世,用精美的诗歌建构灵魂的避难所。他们的诗歌普遍充满了末世的哀歌和人生的悲凉。

四、结语

本文以诗人代群为中心,以同一性和完整性为分期原则,综合考量诗人的生活年代、创作周期和可编年作品数量,将唐代诗人划分为五个代群,唐诗亦相应地分为五个时期。考虑到初、盛、中、晚四唐说已成广泛共识,五个时期可分别称为隋末唐初、初唐、盛唐、中唐、晚唐。在传统四唐说的基础上增加一个隋末唐初。晚唐又可分为前后两段,故我们的唐诗分期可概括为“五期六段说”。尽管前辈学者已有五期六段类似的划分观点,但本文在分期原则、依据和具体的时间节点设定上都与前人的说法和做法不同。既有原则性、操作性,也考虑到了诗人代群所处的时代环境及诗坛风尚的变化。当然,本文的主要任务是提出分期的时间节点,将83位著名诗人划归相应的时期并说明理据。其余未列入上述名单的唐代诗人,亦可参照其生活和创作年代归入相应时期。至于各个时期诗坛的特点、诗风的转型变化,有待日后申论。我们深知,基于数据分析的分期方法,虽力求客观,仍难以圆满解决分期中所有的问题,难免顾此而失彼。本研究的意义,主要是在偏重主观的定性分析基础上,尝试提出一种比较客观的新思路,解决问题的新途径和新方案。

  注释  

向上滑动阅读注释

[1] 胡适:《白话文学史》, 北京:中国和平出版社,2014年,第245-247页。

 

[2] 闻一多:《四千年文学大势鸟瞰》,《闻一多全集》第10卷,武汉:湖北人民出版社,1993年,第22-36页。

[3] 陆侃如、冯沅君:《中国诗史》,天津:百花文艺出版社,2008年,第228页。

[4] 宋育仁:《三唐诗品》,张寅彭:《清诗话三编》第10册,上海:上海古籍出版社,2014年,第6817-6840页。

[5] 谭丕模:《中国文学史纲》,上海:商务印书馆,1954年,第171、172、186、211页。

[6] 范文澜:《中国通史简编》,天津:天津人民出版社,2020年,第267、284、301页。

[7] 倪其心:《关于唐诗的分期》,《文学遗产》1986年第4期。按,起讫时间为笔者所加。

[8] 陈伯海:《唐诗学引论(增订本)》,上海:上海古籍出版社,2015年,第102页。

[9] [元]方回选评,李庆甲集评校点:《瀛奎律髓汇评》卷4,上海:上海古籍出版社,1986年,第338页。

[10] [元]杨士弘编选:《唐音评注》,保定:河北大学出版社,2006年,第1-7页。

[11] [明]高棅:《唐诗品汇》,上海:上海古籍出版社,1982年,第8-9页。

[12] [明]徐师曾:《文体明辨序说》,北京:人民文学出版社,1962年,第107页。

[13] 杨世明:《关于唐诗的繁荣与分期诸问题刍议》,《四川师范学院学报(哲学社会科学版)》1996年第2期。

[14] 尚永亮、张娟:《唐知名诗人之层级分布与代群发展的定量分析》,《文学遗产》2003年第6期。

[15] [宋]严羽著,郭绍虞校释:《沧浪诗话校释》,北京:人民文学出版社,1983年,第52-53页。

[16] 苏雪林:《唐诗概论》,沈阳:辽宁教育出版社,1997年,第9-13页。

[17] 许总:《唐诗史》目录,南京:江苏教育出版社,1994年。

[18] 罗宗强:《隋唐五代文学思想史》目录,北京:中华书局,1999年,第1-3页。

[19] 中国社会科学院文学研究所:《唐诗选·前言》,北京:人民文学出版社,1978年,第17-22页。

[20] 刘学锴:《大历诗风与盛唐余响》,《学术界》2023年第9期。

[21] [后晋]刘昫:《旧唐书》卷97《张说传》,北京:中华书局,1975年,第3057页。

[22] 参见郁贤皓:《李白与唐代文史考论·苏颋年谱》,南京:南京师范大学出版社,2008年,第828-837页 。

[23] [后晋]刘昫:《旧唐书》卷92《韦陟传》,第2958页。

[24] [明]胡应麟:《诗薮》内编卷5,上海:上海古籍出版社,1979年,第84页。

[25] [唐]高仲武:《中兴间气集》,傅璇琮编撰:《唐人选唐诗新编》,西安:陕西人民出版社,1996年,第463页。

[26] 引自陈伯海主编:《唐诗汇评》第2册,上海:上海古籍出版社,2015年,第720页。

[27] [明]胡应麟:《诗薮》内编卷4,第69页。


以上文章原载于《学术研究》2025年第12期,文章不代表《学术研究》立场。篇幅原因有所删减,未经授权不得转载。

学术研究


全国各地邮局均可订阅《学术研究》,国内邮发代号:46-64,欢迎您订阅!您也可访问学术研究杂志社门户网站:中国(南方)学术网http://www.southacademic.com,免费获取往期pdf版本。

2.png



阅读原文

跳转微信打开

  •  

王兆鹏 | AI时代古代文学量化研究的目的、意义与发展方向

2026-01-30 10:02 北京

湖南师范大学社会科学学报

本文转自湖南师大社科学报

AI时代古代文学量化研究的目的、意义与发展方向

作者简介

王兆鹏

     现任中南民族大学教授、博士生导师,四川大学文科讲席教授,历任湖北大学人文学院院长、武汉大学杰出学者特聘教授。兼任中国宋代文学学会会长、中国词学研究会会长、中国李清照辛弃疾研究会会长。主持完成2项国家社会科学基金重大招标项目,多次获教育部、湖北省社会科学优秀成果二等奖,出版学术专著20多部,发表论文300余篇。主持开发有《唐宋文学编年地图》。

王兆鹏.AI时代古代文学量化研究的目的、意义与发展方向[J].湖南师范大学社会科学学报,2025,54(06):1-10.

核心提示

     在智能化的大数据时代,文学研究不能缺少量化分析。相较于定性分析而言,定量分析既具有独特的优势,也有难以克服的局限。所以,使用文学的定量分析方法,不是要取代传统的定性分析方法,而是补充和完善传统的定性分析和理论阐释。定量分析与定性分析的有机融合,才是文学研究最理想的方法。文学量化研究的意义在于提升文学研究方法的科学性和结论的确定性,强化文学研究的深细度,拓展文学研究的宽广度,从而推动文学研究的进步。今后古代文学的量化研究,可从两个方向拓展和深化:一是从外部考察转向内容分析,二是从数量统计转向质量测评。

内容精选

《中在智能化的大数据时代,文学研究存在的已经不是要不要数据化、能不能量化分析的问题,而是怎样数据化和量化分析的问题。那么,文学的量化研究有哪些独特优势?有什么学术意义?能否推动文学研究的进步?今后的文学量化研究应朝哪个方向发展?下文具体讨论。

一、量化、定量、计量概念辨析

在文学量化研究中,经常使用量化分析、定量分析和计量分析这三个概念。有必要先简略辨析这三个概念的异同和用法。

从统计学的角度看,量化分析、定量分析、计量分析有着层次和用法的区别。

量化分析,是一种方法论范式,贯穿从数据收集到模型结论的全过程。它通过数学、统计学和计算技术将研究对象量化为可测量的数值数据,并基于这些数据进行系统化建模、推断和预测。其核心目标是通过数据揭示客观规律,最大限度地减少主观判断的干扰。

定量分析,是量化分析的子集,特指利用定量数据进行统计描述、比较或推断的具体技术过程。其核心在于依据定量数据而不是定性资料(如文本、图像、录音等)作为分析的基础。它通过运用统计量(如均值、百分比、相关系数等)和可视化图表(如柱状图、折线图、散点图等)来揭示数据的分布特征、变化趋势及相关关系,从而验证假设、发现规律或预测未来。

计量分析,是定量分析在特定领域的深化应用。它最早系统化应用在经济学领域,侧重通过构建数学模型和运用统计推断方法,揭示经济变量之间的内在机制与因果关系,并发展为一门成熟独立的学科——计量经济学。随后,这一方法论逐渐扩展到社会学、历史学、语言学等诸多领域,催生了计量社会学、计量历史学、计量语言学等交叉研究方向。

如果在文学研究中使用这三个概念,笔者有如下建议:作为一种研究方法指称时,可说量化分析、量化研究或量化考察;在与定性分析对举时,可说定量分析;作为一种专业领域指称时,参照计量信息学、计量历史学、计量社会学、计量语言学等领域的名称,可以称计量文学史、计量学术史。

二、文学量化研究的优势与局限

相对定性分析而言,定量分析有其独特的不可替代的优势。

其一是客观性。定量分析是用数据说话,而数据是从众多的客观事实中提取出来的。较之定性分析的主观认识和判断,显得更客观。比如作家的影响力,传统的文学研究基本上是根据有限的例证做主观的推断。而量化分析则是用大量的跨时代数据来分析,结论更客观。当然,数据选择本身也隐含着一定的主观性。所谓客观和主观,都是相对的。定性分析的主观性,也不是纯主观的个人好恶,而是有一定的客观史实作为依据。

其二是实证性。定性分析主要是逻辑的演绎与推理,定量分析则是用具体数据来分析和验证,有时会更有说服力。如论及唐诗、宋词的繁荣,定性分析多是主观印象式描述,固然也有理有据,但用数据来实证,更具可验证性。从东汉到隋末近600年留存的诗歌,总共才5000多首,而唐诗传存下来的有50000多首。近300年唐代诗歌作品量,是近600年东汉至隋末诗歌作品量的10倍。唐五代的词人只有100多人,词作1962首,而宋代词人有1497家,词作21055首。相较之下,宋代词人词作数量是唐五代的10多倍。宋词用调900多种,在唐五代词的基础上增加了700余种。词调多,意味着词体的丰富。唐五代词人中唯温庭筠、冯延巳、李璟、李煜4家有词集传世,而宋代则有300家的词集传世。这些数据,充分彰显了唐诗宋词的繁荣程度。这些数据和结论,可以重复验证,具有更高的透明度和可信度。

其三是可比较性。比较,不是定量分析所独有,定性分析照样可以比较。但是,量化的比较更具体、更明确。比如,说到作家的影响力,定性分析研究常常描述为“影响很大”“影响较大”,但多大的量级是“很大”、多大的量级是“较大”,只能模糊把握。“很大”与“较大”的级差是多少,也无法说清楚。量化分析方法,用具体数据来呈现比较对象之间的量差或级差,往往一目了然。“李杜优劣论”,是千年以来争论不休的问题,见仁见智,难有定论。我们用二人创造的名篇数量来衡量其影响力,立马就可以分出高下,而且可以直观地显示二人的差别究竟有多大。虽然这不是全面的比较衡量,但至少从一个侧面的比较中可以看出李杜的差异。

其四是标准化。所谓标准化,是说定量分析总是用定义清晰的指标和统一的测量标准来衡量不同的研究对象。一旦确定了指标,就可以将不同时代、不同地域、不同风格的作家放在同一尺度下进行比较,而且研究过程更具程序性,结果表达更精确,如排名第几,或占百分之几等,增强了研究的实证性。定性分析比较不同作家的差异,有时不太注意用同一标准、同一尺度进行进比较论析,论此作家从题材的角度分析,说彼作家则从风格或体式的角度切入。所论不同作家的创作个性,有时看似区分度很大,实则说的不是一回事,采用的是不同的分析原则和标准。如果用量化分析方法比较唐诗宋词作品的影响力和词人的影响力,是用统一的数据指标来比较,标准是统一的、研究过程是程序化的,因此作品之间、词人之间更有可比性,也更能比较出高下。量化分析的这种优势,为跨时空、跨文化的比较提供了可能性,使得文学史的书写更具“通约性”。

其五是规模化。定量分析方法,可以轻松处理海量数据,特别是随着人工智能的发展,处理海量数据的软件工具越来越多,也越来越便捷,可以将大量作家、作品置于同一标准下进行共时性和历时性的比较,揭示其地位和影响力的差异,提供“鸟瞰式”的图景,揭示整体结构和分布规律。比如,如果用量化分析方法,可以轻松地把唐代三千多位诗人、宋代九千多位诗人的时段分布和地域分布情况一目了然地展示出来,并揭示出南北分布的不平衡以及诗坛中心逐步南移的过程。定性分析在面对如此大量的研究对象时往往力不从心。

其六是可视化。定量数据非常适合通过图表,诸如柱状图、折线图、饼型图、网络图、词云等进行可视化展现,让复杂的文学现象,如作家的关系网络、大量作品的主题演变、影响力分布等复杂情况变得一目了然,便于理解和传播。数据图表提供的直观、高效的呈现方式,有时比文字描述更让人印象深刻,更具冲击力。

但定量分析方法,也有天然的局限性。至少有三种功能性局限。

一是表层性。量化分析能说明现象和格局,但不能说明现象、格局形成的深层原因。定量分析擅长描述研究对象“是什么”和“有多少”,但难以解释“为什么”和“意味着什么”。它无法解释文本的深层意义、美学价值、历史语境、文化内涵、象征隐喻等。它能说明对象间的相关性,但无法说明事件、现象的因果性。

二是单一性。数据的单一性与文学作品文本的多义性无法对应。数据化能将复杂的文学作品简化为可计量的数据点,但也会丢失大量的语义、修辞、语调、反讽、多义性、上下文依赖等构成文学独特价值的元素。文学文本的语言是丰富的,是“厚数据”,量化过程使其变“薄”,数据会损失语义的多元性和丰富性。

三是孤立性。每篇文学作品产生于特定的历史语境,每篇作品的语句依存于特定的文本语境,从文本提取的数据,脱离了特定的历史语境和文本中的具体语境,丰富多元的语结构变成孤立的单一的数据,无法结合具体语境来理解不同数据的微妙含义、情感色彩或象征意义。文学数据适合于“远读”、宏观性观察,而不适合文本“细读”和微观考察。

此外,还有数据来源性的局限。特别是古代文学的量化研究,存在着数据的可获得性、代表性局限。很多历史数据无法获得,比如宋词,在宋代主要靠演唱传播,传唱的时间长度和空间广度是衡量宋词作品影响力的重要依据。但宋词每首作品传播的资料十分有限,有时无法从中提取有代表性的数据。又如诗人学习效仿前人作品的数据,目前只能提取到语词字面化用的数据,而无法提取到化用前人句式句法的数据。此外,数据指标是否有充分的代表性也是问题。

再就是“黑箱”效应与技术依赖。复杂的算法(如深度学习模型)可能成为“黑箱”,文学研究者难以理解其内部运作机制和分析结果的具体成因。特别是偏重计算机技术的研究者,注重模型建构的过程,而对文学研究者关注的结论及其推导过程往往一笔带过,也就是直接根据数据得出结论,而不显示具体的数据指标,不说明结论是根据哪些数据指标得出的,逻辑推衍过程常常被忽略,结论难以让人信服。有些数据挖掘和数据分析,高度依赖特定的软件工具、编程能力和数据清洗技术,对于一般文学研究者而言,也存在技术门槛。

文学的量化研究虽然有其独特的优势,但也有无法克服的局限性。因此,使用文学的定量分析方法,不是要取代传统的定性分析方法,而是补充和完善传统的定性分析和理论阐释。定量分析与定性分析的有机融合,才是文学研究最理想的方法。

三、文学量化研究的目的与意义

文学研究是一门科学。凡是科学的研究,都可以而且应该量化分析。马克思曾经说过:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。”文学研究也是如此。

(一)量化分析的目的

文学研究之所以要量化分析,是基于问题导向、创新驱动,也是时代需求。

先说问题导向。文学研究中有些问题,传统的方法无法解决,只能借助量化分析来解决。比如,文学经典研究,就必须借助量化分析。因为研究文学经典,首先要确定哪些是经典,而对于哪些是经典,见仁见智,难有定论。唐诗是公认的经典,宋词也是公认的经典,但传世的50000多首唐诗、20000多首宋词,并非篇篇是经典;成千上万的诗人词家,也不都是经典的诗人、词家。即使是像李白、杜甫和苏轼、辛弃疾这样的大诗人、大词人,其传世的作品也并非篇篇都是经典。那历史上哪些作品被视为经典?用定性分析的方法来确定哪几首诗、哪几十首诗是经典,尚有可行性,但要区分几万首唐诗宋词哪些是经典、哪些不是经典,哪些经典化程度更高、哪些经典化程度较低,就难以做到。而用量化分析的方法,就可以比较分析哪些唐诗宋词作品在历代传播过程中影响力较大、经典指数较高。确定哪些作品是经典之后,再用定性分析方法来探讨经典的特质、经典的生成和经典的意义,就有了前提和基础。定量分析可以弥补定性分析方法的不足,拓展文学研究的深度和广度。

定量分析,可以在纷繁复杂的资料数据中发现一些定性描述容易忽略的,或者被遮蔽的事实与真相。比如,在跨越上千年的数百种选本、诗话词话等著作和数万项现代研究成果中,定性分析根本无法通过全盘比较发现哪些唐诗宋词作品的影响力较大、哪些作品的影响力相对较小。而通过构建影响力指数就可以发现哪些作品的影响力较大,哪些作品的影响力较小,还能揭示每首作品影响力在不同时代涨落变化的过程。这是定性分析无能为力的。

又如,研究宋代的地域文学,先需了解哪些地域的文学比较发达、哪些地域相对落后。传统的印象是江西和四川的文学比较发达,唐宋八大家里,江西和四川各占三家。如果将宋代的作家籍贯按今天的省市区划分统计,结果显示宋代作家最多的省份是浙江和福建两省;如果按当今地市级行政区来统计,是哪个地市的作家最多?统计结果发现是柳永的故乡——福建南平市的作家最多,福建福州市的作家人数名列第二。结果出乎意料,也提出了新问题:为什么宋代福建南平和福州的文学特别发达?它们经历了怎样的发展过程?

再比如,研究宋代的文学家族,除了那些知名的文学家族,如眉山苏氏、绍兴陆氏、山东晁氏家族之外,并不了解还有哪些文学家族既延续时间长又人数众多。现在用定量分析法对宋代诗文词的作者姓名和籍贯进行了统计与分组,就发现了许多过去不为人熟知的文学大家族,仅浙江绍兴一地,宋代就有32个文学家族,除山阴陆游家族5代8人之外,还有会稽钱易家族4代11人、新昌吕蒙家族6代12人、上虞李光家族4代7人。这些家族代代相承,都有文学作品传世,但他们分散在《全宋文》《全宋诗》《全宋词》里,不统计根本无法发现。如果用最简单的数据统计方法,就能轻而易举地发现分散隐藏在断代总集中的文学家族。数据统计、量化分析是帮助发现问题的利器。

定量分析还可以验证固有认知和传统观点是否正确。比如,中国文化中心的三次南移,是中国文化史上普遍被接受的观点:中国文化中心原来在黄河流域的中原,西晋永嘉之乱后,中国文化中心逐步向南方移动;唐代的安史之乱,加剧了中国文化中心的第二次南移;到了宋代的靖康之难,文化中心的南移才宣告完成。用唐宋两代作家作品的数据统计发现,北宋初期南方的作家人数就超过了北方,文学中心在北宋中期已完全从北方移到了南方,并非靖康之乱后。而且,北宋以后南方的文学空间也不是均衡分布在传统意义上的长江以南,而是高度集中在东南的浙江、江苏、福建、江西、安徽五省。这五个省的诗人占了宋代诗人总数的近七成。这是统计数据验证和修正文化史、文学史传统观点的典例。

学术史上不少观点,有待数据的支撑和验证。如有学者说:

回顾20世纪的中国古典文学研究,比较辉煌的集中在两个时期:一是20世纪初期,另一个是20世纪末期。无论从研究的量和质上说,20世纪末期都超过了20世纪初期。这一时期以“文革”结束,中国内地实行改革开放(1978年)为标志,习惯上称之新时期。 

这其实不是少数学者的看法,而是当下多数学者的共同观点。的确,20世纪初期出现了王国维、梁启超等大学者,他们的相关中国古典文学研究成果,已成为后世高山仰止的经典。如果说20世纪初期的古典文学研究很“繁荣”,似乎不无理据。可如果要追问“20世纪初期”究竟指什么时候,它起于何时,止于何年?这个时期中国古典文学研究的“量”和“质”是否真的都很“辉煌”?说“质”的繁荣,尚能列举一些名家名作来印证,可要说“量”的繁荣,恐怕难有数据作为支撑。就目前已搜集到的13万多条20世纪(1900—1999)中国古典文学研究论著目录来看,统计数据不支持“20世纪初期”中国古典文学研究或唐代文学研究繁荣的说法。如果把“20世纪初期”的时限定为1901—1930年,那么,这30年间国内中国古典文学研究成果为2947项,不及1994年一年的成果量(3006项)。跟不太起眼的20世纪50年代相比较,1950—1959年间中国古典文学研究成果量也有9 993项,是20世纪头30年的3倍多。再就唐代文学研究而言,1901—1930年的研究成果只有364项,而1950—1959年的成果量有1 463项,20世纪50年代10年的成果量比20世纪初30年的成果量多出3倍多。从客观的统计数据来看,“20世纪初期”的唐代文学研究和整个中国古典文学研究,肯定不能说是一个“繁荣”的时期。所以,有些印象式的定性判断,如果没有数据的支持和佐证,结论不一定成立。

定量分析,不是凭主观印象、凭个案推论,而是依据客观的事实和数据来做出判断,得出的结论更具客观性、精确性、可比较性和可验证性。定量分析,具有定性分析不可替代的优势。正如定量分析不能替代定性分析一样,定性分析也不能否定或替代定量分析。定量分析与定性分析具有互补性,把定量分析与定性分析结合起来,定量分析时结合文学文本细读、语境分析和理论阐释,揭示数据的文学价值和文化意义;定性分析时,也注意定量分析,用数据来支撑和验证定性分析的问题和观点,才是最优化最有效的研究方法,也是今后人文社会科学研究的必然趋势。

文学研究的量化分析,也是创新需求的内在驱动。学术研究的创新,需要挖掘新材料、提出新观点、运用新方法、开拓新领域。文学研究的量化分析,完全可以满足这“四新”的要求。历来的文学理论和文学史研究,数据意识薄弱,更少数据留存,需要从文献中去挖掘。挖掘的文学数据,都是前人未曾发现和运用过的全新数据。目的指向不同,挖掘转化的数据类型、数据指标也不相同,因而数据常挖常新。运用新数据,可以发现新问题,进而提出新观点,或修正已有的观点。数据挖掘和数据分析的多种软件工具、技术方法,如Python的NLTK、Gephi网络分析等,相对传统的定性分析方法而言,都是前代文学研究者闻所未闻的。文学的量化研究,可以开拓出新领域,即使旧领域也能拓展出新空间、开辟出新方向。

文学研究的量化分析,更是时代的需求、学科发展的需求。当下已进入大数据时代、人工智能时代,各行各业都需要运用大数据,文学研究当然也不例外。随着人工智能的发展,互联网每天都在产生和更新文学创作、传播、接受的大数据,这些需要文学研究者去面对和研究。就古代文学研究而言,虽然古代文学作品只有存量数据而没有增量数据,但传播和阐释古代文学作品的资料和数据却是增量的、不断更新和增加的。古代文学研究者既要挖掘存量的历史资料数据,也要充分利用当下古代文学传播、阅读、接受的资料和增量数据,回应大数据时代提出的新问题、新需求,不能仅仅满足于对历史资料数据的挖掘,却忽略了对当下新生资料数据的关注、整理和运用。

(二)量化分析的意义

讨论了量化分析的目的,说明了为什么要做量化分析之后,再讨论量化分析的意义,追问量化分析有什么作用、价值。文学研究的量化分析,至少有三点意义。

第一,提高文学研究方法的科学性和结论的确定性。传统定性分析方法,重主观阐释和逻辑推衍,结论的模糊性和不确定性常常受到质疑。文学研究引入量化分析方法之后,数据的客观性、研究流程的标准化、结论的可验证性(结论可被其他学者按相同标准复现验证),减少了主观偏差,会大大提升文学研究的科学性和结论的确定性。

文学研究的有些结论,通常用形容词或副词来描述程度、幅度、频度、密度、强度、深度,如“影响很大”“关系密切”“反响强烈”等,这些结论固然可以意会理解,但量化分析用数据表达的结论更具客观性和说服力。特别是要区分两个研究对象的差异时,数据结论更清晰和明确,更具可比性。借助笔者团队联合开发的古籍文献知识图谱平台中“最常在诗文中被提及”的人物数据,就可以从一个侧面具体了解每个朝代不同人物之间的关系。其关联的频次与紧密度,有数据来测度衡量,有社网图来直观呈现。谁与谁的关系最密切、谁是群体交往中的核心人物,数据和图表的展示一目了然。

总之,文学量化分析通过标准化流程、智能化软件工具和大规模数据分析,会推动文学研究从“经验猜想”向“实证探索”的转型。其科学性与确定性,不仅体现在方法的严谨性上,更在于为传统的文学问题提供了可检验的答案,成为数字人文时代重要的研究范式。

第二,强化文学研究的深细度。传统的文学研究重感悟、重整体性把握,这是优长,但也是短板。量化分析的数据求精细、求精确,可以推动文学研究的精细化、精确化。如过往作家生平事迹和作品创作的系地,就显得比较宽泛。作家的活动地、作品的创作地,无论是作品别集、选本的注释,还是年谱类著作和生平考订论文,包括阐释性的研究论著,一般都满足于确定在州县行政区的大范围内,很少进一步去考实、追问是在哪个具体的地点方位、其地形地貌如何。而文学地理的定位数据,则需要地点具体的经纬度。虽然古代文学作品中的历史地名,有些今天已难知其详,但也有些可以确定今日的具体方位和经纬度。由于受传统研究观念的制约,对好多地名没有一一去追踪探寻,只是按一般文献说明其所属行政区划、地理范围而已。如果按系地数据的要求,重新审视中国古代文学研究,那么大部分中国古代作家的年谱著作和作品注释都需要修订重写,以细化古代文学作品中的地名所涉地理方位和地形地貌。

对古代文学研究而言,量化分析一方面可深化对作家作品的编年系地研究,将原来的系地由州县行政区域细化到县级政区以下的具体点位;另一方面,又可深化对文学地理区域、交通路线的研究。有了作品的细化定位,就可以研究更小区域的文学,如某个山地文学、山地文明,或某片平原、某片河谷的文学,或某个有特点有影响力的地理区域的文学,从而突破传统的以省市级行政区域为研究对象的思维模式;也可以以某条交通路线为中心来研究文学作品,比如近几年唐诗之路研究颇受关注,成果也很丰硕。如果有了唐诗更细化的系地考订成果,就可以使唐诗之路的研究更系统更细致。而宋代的“赣浙线”“赣闽线”“赣粤线”,即从江西到浙江的路线、江西往福建的路线、江西去广东的路线,行走的作家非常多,但沿途作家所写作品的定位还缺乏系统考订。如果有完备的数据,文学与地理、文学与交通路线的研究,将会开创出全新的格局。

可深细化的层面还有很多。如词体研究层面的词调研究,目前只有词人用调情况的统计数据,而没有对各个词调的用韵、平仄、字句、情感基调、风格特征的数据进行系统的挖掘提取。如果有了完备的数据,词调的研究将会深入一大步。

第三,拓展文学研究的宽广度。量化分析,至少可从作家作品等维度拓展文学研究的广度。

作家维度,将覆盖每个时代所有的大小作家。传统的文学研究,主要关注的是大作家、名作家,绝大多数古代作家还没进入现代学术研究的视野。丰富多彩的古代文学舞台上,唯见若干主角、名角,少见配角,更看不到群众演员。众多“小”作家的创作情况不被熟悉、不被了解,文学史的全景、全过程就很难真正弄清。以宋代文学研究为例,截止到2021年的统计数据,20世纪以来宋代文学研究涉及的作家有1104人,拥有3项研究成果以上的关注度较高的宋代文学家为376人。这算是相当可观了。可相较宋代有诗、词、文作品传世的作者16772人而言,这些有研究成果的宋代作家只占宋代作家总人数的6.58%,也就是说,进入现当代学术研究视野的宋代作家,尚不足一成,还有九成多的作家无人研究。而量化分析,可将宋代的全部作家纳入研究视野,让每位宋代作家先以平等的身份进入文学史的研究序列。通过数据聚类分析,将他们归入不同的数量层级和文学区域。如将宋代的全部作家纳入空间分布的分析之后,发现宋代福建的作家人数特别多,尤其是南平市和福州市最多,从而引起对南平和福州两地文学的关注。那些“小”作家,随着区域性文学的展开,将逐步进入文学研究的视野,不至于完全被无视。

作品维度,采用分类词频的统计等手段,可以分析一代代作品的情感空间、生活空间、社会空间、地理空间如何一步步地延展、深化和细化。作家个案的研究,可以深入了解一位作家的审美空间,但无法统观一代作家情感空间的共性和差异性。只有将一个时代的全部作家作品按不同的历史时段进行整体透视和数据分析,才能看出不同世代作家群体情感空间的丰富性、多样性和变异性。用同样的数据分析方法,可以透视不同世代作家群体书写的生活空间、社会空间和地理空间如何从庙堂到江湖、从城市到乡村、从中心到边缘、从平原河谷到山地、从上流贵族到下层民众、从社会政治到人间烟火的突围与变化。

作品维度,还可以借助语言学的思路方法,挖掘提取诗词中的句型、句式、句法(不同于现代汉语所描述的句型、句式、句法)数据以及各种修辞手法的数据等。如果像建设语言学语料库那样,利用生成式大语言模型技术,将《全唐诗》《全宋诗》《全宋词》等中国古典诗词作品开发成系统的各种句型、句式、句法数据库,将大大拓展古典诗词句法、章法研究的思维空间。

通过作品物象数据的挖掘和提取,还可以进行跨学科的研究。如将各个时代的动物、植物、器物意象进行全方位的系统的分类提取,来研究每个朝代动物、植物、器物的种类、分布及其变化。如有古生物学者通过中国古典诗词里有关江豚的描写,研究了1 400余年长江江豚分布格局与演变,发现从唐朝到现代,长江江豚的种群分布范围大幅缩小了至少65%,论文发表在国际权威期刊《当代生物学》上。可见,艺术作品(如古诗)不仅承载着丰富的文化内涵,也提供了宝贵的数据资源,可帮助科学家追溯野生动物的历史分布动态变化。这些文化记录可成为未来生物多样性研究的重要补充,为濒危物种的保护与恢复提供新视角。文学与文化研究的结合,催生了文学文化学⑩。中国古代文学作品里描写的动物、植物、器物十分丰富,如果文学研究者与动物学、植物学、博物学的专家学者合作,说不定可以拓展出文学动物学、文学植物学、文学博物学之类的新兴领域。

四、今后文学量化研究的发展方向

基于对近些年已有的文学量化研究成果的观察,今后可从两个方向拓展深化:一是从外部考察转向内容分析,二是从数量统计转向质量测评。

(一)从外部考察到内容分析

今后文学史的量化研究,除考察文学的时空分布和影响力之外,还要注意量化分析作品的内容、艺术形式和创作方法。

首先,要加强作品的主题分析和情感分析。文学主题、作家心态、作品情感是传统文学研究的主要话题,但大多是个案的分析,要么是分析个体作家的写作主题、情感心态,要么是分析作家群体的主题取向、情感倾向,很少对一代文学主题进行全盘的分析。近些年数字人文兴起之后,运用文本数据建模,自动提取文本主题,进行主题分析和风格分析,并运用标签云,通过字体大小和颜色突出文本中的高频词汇,呈现主题聚焦点。比如,皮特·布劳德韦尔等人以《全唐诗》为远读材料,利用隐含狄利克雷分布(LDA)主题模型提取150个诗歌主题,又用散度度量的数学方法计算不同诗歌之间的主题差异,发现了不同类别的诗歌之间如咏史诗和仪轨诗的文本隐性关联。皮特·布劳德韦尔等人的研究方法新颖,结论亦有启发性。但这类主题是共时的研究,即把近300年的唐诗视为一个共时性的整体,进行横向的主题提取,这当然有学术意义,可以了解唐代诗歌总共表现了多少主题,知道唐代诗人关心哪些社会、历史、自然、个人的问题。但还需要进一步从历时性角度量化分析唐朝每个世代的诗人群体在各自的历史时段,表现了哪些主题、哪些心态情感,并结合每个时段发生的重大社会事件和事变,分析诗人是怎样面对这些社会变化的、有哪些态度和感受。定性分析可能更多关注共性的重大主题和主流的心态情感,而忽略了很多被遮蔽的幽微隐约的人生感受和主题倾向。因此,应尽可能用数据分析全景性,还原每个时代、每个时期、不同空间地域文学主题、情感的原生态,而不是选择性地突显某些主题和情感,有意无意地忽略、遮蔽某些主题和情感。总之,对一个时代或时期的主题、情感、风格,既要有全景性的静态分析,也要有历时性的动态分析。定性分析受视野、方法和成果容量的限制很难做到,而定量分析却不难做到。

通过主题词、情感词的分析,还可以分析深化文学流派的研究。传统的流派研究,主要是定性分析同一流派作家的创作主张和创作实践的趋同性,是主观的分析和列举式推断。而量化分析,可以对流派及其周边作家的文本进行主题词、情感词穷尽式提取,以分析流派成员在主题、情感表现和意象运用方面的共性特征。已有学者基于生成式大语言模型的文本属性测量方法,利用提示学习和评级算法,无监督地让人工智能测算数万首唐诗、宋词、元曲的题材、情感与风格,量化衡定了唐诗的边塞诗派、宋词的豪放派与婉约派等流派属性、特征。无论是结论和方法,都有一定的可信度,颇有借鉴意义。

其次,可加强文体的量化考察。近些年文体学已有长足的进步,吴承学等建构的中国古代文体学,被评为“中国哲学社会科学领域十大原创理论”之一。但文体学的量化考察,还有待深化。

如唐诗的各种诗体、宋词的各种词调,唐宋散文的各种文体,各有多少作品总量容易统计,但唐诗、宋词、宋文的各种体制形态、语言特征、表现方式及其风格特征、情思内涵,还没有细致的量化分析。因此,不仅需要共时态的分类统计,更需要历时态的量化考察细化分析并回答:每个年度、每个阶段唐代诗坛各使用了哪些新旧诗体,近体诗的格律是如何一步步地走向成熟,其演进变化的轨迹如何?每个时段、每个诗人对诗体的选择及其平仄、用韵情况有哪些特点和变化?近体诗格律体制定型以后,旧有的体制如永明体的规则是否还在被沿用?郝若辰和陆泉宇运用声律统计模型,逐年统计初盛唐宫廷集会场合的作品,发现初盛唐是新旧规则并存,永明律在初盛唐仍得到极高程度的遵守,合律度基本不低于新型的近体声律。声律实践在盛唐出现“倒退”,表明声律的发展不是线性的迭代,而是有回环反复的。文学创作中的“遵体”与“破体”,本来是文学史的常态,定性的描述成果较多,但还需要有数据的验证。

宋代词坛共有多少种词调,每种词调有多少首词作,已有数据统计。但以时间为序的量化考察还未见。每个年度、每个时段,宋代词人用了多少种词调?词调的使用有何规律?是由少到多、由短到长的演进变化,还是交错使用?词调的发展与词风的变化、词人的用调与创作个性有哪些关联?同一词调的平仄、用韵,除了遵守词调的基本规则之外还有什么特点和规律?每个词调的声情究竟有哪些特点,又有哪些变化?词调的声情是统一性大于差异性,还是个性多共性少?这些都有待量化考察与验证。

对唐宋时期的文章文体,也有必要进行历时性的动态分析。在对宋代作品编年的基础上,按年度或时段统计各种文体的使用情况,根据各种文体使用的变化曲线,分析什么时候、什么场景、哪种文体使用最频繁,考察文体使用的冷热变化体现出不同的文体观念和文坛习尚的变化。

再次,艺术手法的量化分析也是今后努力的方向。唐诗宋词中典故的运用、语词的化用情况,已有相应的数据平台资源可资统计分析,但诗词的句法、章法和修辞手法等,还需要借助语言大模型技术进行深度开发,既可以横向比较哪些诗人擅长或习惯使用哪些句型句法,比较诗人句法、章法的创造性、独特性、变化性,也可以纵向量化考察每个阶段句法、章法和修辞手法的运用情况和演进轨迹。这方面的研究有无限广阔的拓展空间。

学术史的量化研究,也需要对研究成果文本内部的概念、观念、主题、问题等进行量化分析。近些年,笔者依据研究论著目录对20世纪以来的唐宋文学研究进行了不同维度的量化分析,虽然部分成果也查阅了成果的文本,但毕竟没有全部阅读。有些学术观念、概念范畴、研究主题,在题目中没有涉及,而在研究成果文本中多有讨论。因此,根据成果目录进行量化分析,只能是外部观察、有限的统计。只有根据研究成果的全部文本进行分析,才能真正深入揭示学术史的演进历程,小至一个概念、词语的使用,大到一种学术热点的形成、演进,才可以有效地进行量化分析。

今后的学术史量化研究,要全面建设成既包含20世纪以来各种论文又涵盖各种学术著作的学术资源库,以全面系统地量化分析学术史上的各种观念、概念、主题、领域的研究状况和演进历程。

(二)从数量统计到质量测评

无论是文学史还是学术史的量化研究,目前都是对研究对象外在的数量层面的统计分析,还没有进入内在质量的评估衡定。比如有量化考察过唐宋诗词作品的影响力,但没有量化衡定唐代诗人、宋代词人的贡献和诗词作品的质量、价值。所有数据是“量化”而非“质化”的,只能衡量对象的有无、多少,而无法衡定其优劣、高下。“量化”的数据,是客观的、显性的,人力和计算机可直接识别挖掘;而“质化”的数据,往往是主观的、隐性的,需要建立评价指标体系、理论模型方可获得。

今后的计量文学史,要加强对作品的质量和价值、作家的贡献进行量化衡定测评。而要量化衡定测度作品质量的优劣、价值的大小,需要建立完善的文学评价指标体系和操作方案。 

其一,测评指标的设定。以诗词为例,文本中的题材、情感、社会生活、自然山水、历史时空、超现实空间和形而上的哲理意义、思想价值等内容指标和体式、语言、技巧、结构、整体风格等艺术形式指标,都可以而且应该量化测评。

其二,测评指标的层级与权重。不同指标可按其新旧度、广狭度、深浅度、违合度、精粗度、难易度、巧拙度、丰薄度分成不同的层级,每个层级划定分值和分差,如A+为90~100分,A为80~89分,B+为70~79分,B为60~69分,C为60分以下。按钟嵘《诗品》的划分,A为上品,B为中品,C为下品。当然还可以细分。不同的指标,需要赋予不同的权重。

其三,测评的方案。可考虑由人工和机器相互测评。将测评指标和指标层级、权重形成标准化的指标体系。人工和机器分别按指标体系对作品进行打分测评。人工又可分历史测评和现实测评两种。历史测评,是收集整理古人的评价并进行分级赋分,历代评点中常有定性的评价,如绝唱、杰作等,将这些定性的评价转化成相应的分值,即得出古人对有关作品的评分。现实测评,又分两部分:一是搜集整理现代文学史著作和相关学术论著中的定性评价,将其转换为相应分值;二是请当代不同年龄、不同资历、不同学术背景身份的专家和读者依据标准进行打分测评。

如果说人工测评带有一定的主观性,那么机器测评就相对客观。人工智能特别是语言大模型技术,为机器测评提供了可能。笔者团队曾尝试采用生成式大语言模型的思维链技术,让大模型智能化评价唐诗的艺术价值,经与专家的评价对比检验,发现大模型的评价过程和评价结果有一定的可信度,证明让大模型来评价唐诗作品是可行的,但需要不断更新迭代和完善。如果将每种测评和每个测评指标都赋予不同的权重,同时将人力测评和机器测评的分值加权计算以后再得出综合分值进行排名,这样的测评既有历史性,也有现实性,有人的主观性也有机器的客观性,测评结果应有公信力。苏轼曾引欧阳修的话说:“文章如精金美玉,市有定价,非人所能以口舌定贵贱也。”人力和机器的综合测评,可以说是一种“定价”,因为这不是一个人几个人“定贵贱”,而是古今读者的共识性评价。机器的评价,其实也是人设定、参与的评价,不过是尽量减少人的主观性和先入为主之见而已。

不同的文体,审美要求、审美趣味不一样,评价指标体系应有所不同。文学评价指标体系可考虑总分结合,既有各种文体都适用的通用的指标,又有不同文体的分类指标。叙事文学不同于抒情文学的评价指标,诗词曲的评价指标不同于散文,供阅读用的小说与供表演用的戏曲剧本的评价指标也要有所差异。同为文章,由于各自的功能、应用场景、体式和篇幅差别较大,也要区别对待。

作家对文学贡献的大小,一方面根据其全部作品的综合得分来评价,另一方面也要考虑其他加分项,如:(1)作家对体式的开创,如沈约、谢灵运、王融之于永明体,杜甫之于新乐府,柳永之于慢词等;(2)对艺术规范的确立,如沈佺期和宋之问定型律诗、温庭筠定型词体等;(3)创作个性风格的突显,如李白的豪放、杜甫的沉郁、郊寒岛瘦等;(4)流派的领袖,如杜甫诗、元白的新乐府诗、韩柳的散文、欧阳修的古文、苏轼和辛弃疾的豪放词、周邦彦和姜夔的雅词、黄庭坚诗等;(5)精神力量的感召,如范仲淹的先忧后乐精神,岳飞、陆游、文天祥的爱国精神等。

今后的计量学术史对学术成果价值含量的测评,也需要建立评价指标体系。比如,可从选题意义的大小,资料的新旧丰薄,技术方法的新旧,观点的新颖度、可信度、完备度等层面来建构;对于核心概念的提出、新方法的开创、学科或专业领域体系的建构等应予加分;可参考国家社会科学基金有关项目、成果的评价指标体系。不过,国家社会科学基金的学术评价指标体系主要是针对人工的主观评价。面对大量的学术成果,如果能让人工评价和机器评价相结合,将会更准确和快捷。让机器来评价学术成果,既需要设计完善的评价指标体系,还需要有可行性的细化的操作方案。经过实验,有一定可信度后才能逐步完善推广。

学术成果的评价,同样也需要分类。一是从容量上看,一篇学术论文和一部著作要有区分。二是学术性研究成果与普及性成果要有区别,普及性成果的学术含量可能会低一些,但对于推广传统文化和文学仍有意义,也理应纳入评价范围。三是著述类型也要有所区分,资料汇编、总集编纂、别集整理点校和笺注、作品选注选评、理论阐释、实证考订等类型的著述,各自的要求和难度不同,学术评价指标也应有所区别。

文学史和学术史的量化研究,为作家和文学作品、学者和学术成果的质化衡定测评提供了新的路径。期待不久的将来,这种研究方法能成为学术研究的新增长点。

本文刊发于《湖南师范大学社会科学学报》2025年第6期国家社会科学基金重大项目成果推介栏目。参考文献从略。


欢迎投稿

《湖南师范大学社会科学学报》

http://hnss.cbpt.cnki.net

《湖南师范大学社会科学学报》

国家社会科学基金资助期刊

中文社会科学引文索引(CSSCl)来源期刊

国家期刊奖百种重点期刊

全国中文核心期刊

全国高校权威社科期刊

全国高校社科名刊

湖南省社科基金资助期刊

主编:李培超

副主编:尹金凤

本文责编:王蓉

编辑部电话:0731-88872471 

相关文献

吕双伟 | 中国骈文的内涵、成因、功能和价值

吴光正 | 吴澄诗文序跋的文学史意义

蒋振华,朱敏洁 | 中国古代道教散文的艺术史进路

李桂奎 | 中国古代小说批评中的“体认”观念及相关术语通解

编辑:颜   慧

一审:王   蓉

二审:尹金凤

三审:李培超


阅读原文

跳转微信打开

  •  

刘京臣 | 数字人文视域中的陆游诗歌渊源再探

刘京臣 2026-01-29 10:03 北京

点击蓝字 关注我们

2025年第11期

2025.11

作者简介

刘京臣,文学博士,中国社会科学院文学研究所研究员、硕士生导师,主要从事唐宋文学、数字人文等研究,出版专著2部,发表学术论文60余篇。

本文原载《山东社会科学》2025年第11期,参考文献及注释参见本刊原文。欢迎转发与授权转载。如需转载请联系0531—82866416,联系人:陈老师。转载请注明来源!配图均来自网络。

[摘  要]关于陆游诗歌的渊源,学界已有深入探讨。其中,陆游对李白、杜甫、梅尧臣、曾几等前代诗人的取法几成共识,然其是否效法黄庭坚仍存争议。为此,通过计算方法对陆游与黄庭坚的诗歌进行用语与用韵的量化对比,可以发现:在诗歌用语层面,陆游非但未与黄庭坚的教导决裂,反而在句与句、句与联、联与联等角度极力师法黄庭坚;但在诗歌用韵层面,二者未表现出明显的承袭迹象。进一步对《陆游选集》所录名篇与唐宋诗歌关系进行考察会发现,这些名篇全力师法唐宋诗歌,呈现出全面而系统的学习特色。

[关键词]陆游;诗歌渊源;黄庭坚;用语;用韵

2025.11

阅读导引

一、 用语学黄庭坚

二、用韵是否学黄庭坚

三、陆诗名篇是否转益多师

四、结语

学界对陆游诗歌的渊源,一直较为关注。早在20世纪40年代,钱锺书先生在《谈艺录》中就提出“剑南仿宛陵诗”之说,称陆游“于古今诗家,仿作称道最多者,偏为古质之梅宛陵”。尽管在1984年《谈艺录》(补订本)的目录中,钱先生将“剑南仿宛陵诗”调整为“剑南与宛陵”,但其核心观点仍延续了1948年提出的“剑南仿宛陵诗”。20世纪60年代,朱东润先生在其《陆游研究》中,不仅指出陆游有诸多师承,且明确梅尧臣对其影响最大。同时,他还进一步指出,陆游在炼字炼句方面多学曾几,而在思想面貌方面则更多地从梅尧臣身上得到启发。到了20世纪80年代初期,于北山先生《陆游诗歌的艺术渊源》一文从11个方面专门探讨了陆游诗歌的艺术渊源,认为陆游诗歌在纵向上主要“来源于诗、骚以降的现实主义文学传统”,在横向上则“来源于社会生活的实践”。1985年,钱仲联先生出版了煌煌八册的《剑南诗稿校注》。在“前言”中,他指出陆游曾受曾几、吕本中、黄庭坚等江西诗派诗人的影响,但又不为江西诗派所牢笼,还自陶渊明、王维、李白、杜甫、岑参、梅尧臣、苏轼、王安石、陈与义等诸家取法,“取精用宏,融铸百家,自出手眼”。钱先生还特意拈出《和陈鲁山十诗》等诗歌,指出这些诗篇“明显地是学习黄庭坚的”。1987年,袁行霈先生在《陆游诗歌艺术探源》一文中,也对陆游的诗歌渊源进行了探究,指出陶渊明、李白、杜甫、岑参、白居易、曾几、吕本中等人都是陆游师法的对象。1988年,胡明先生在《陆游的诗与诗评》一文中,也关注到陆游诗歌的师承渊源问题。他认为:“陆游师出江西派大家曾几,这点是无疑的。……陆游学诗拜的老师是曾几,但做出来的诗,气味上更近吕居仁。”与于北山、钱仲联先生的看法不同,胡明先生认为陆游“孜孜反对江西领袖黄庭坚传下来的‘无一字无来历’的看家本领——这一点标志着陆游与黄庭坚的教导公开决裂。同黄庭坚一样,他也是拿杜诗作证据,但矛头显然是针对黄庭坚的”。在胡明先生看来,或许正是因为这种“决裂”,四库馆臣在谈及《剑南诗稿》时才有了“实能自辟一宗、不袭黄陈之旧格”的判断。到了21世纪初,围绕陆游诗歌的渊源,邱鸣皋先生也有过论述:“陆诗之源盖多取于与其思想、性格、诗风相近者,约为三种类型:一为以忧国忧民为思想核心的爱国者,如屈原、杜甫、岑参乃至吕本中、曾几;二为个性奔放、诗笔浪漫的浪漫主义者,李白即为显例;三为志在隐逸或风格自然雅淡者,如庄子、陶渊明、王维乃至梅尧臣。”

从总体上看,学界普遍认为陆游诗歌的渊源极为丰富,既有纵向上对传统现实主义诗歌传统的继承,也有横向上对现实生活的深切体察和诗艺转化。钱锺书、朱东润、于北山、袁行霈、胡明、邱鸣皋等学者虽然各有侧重,但基本一致地肯定了陆游诗歌广泛取法、博采众长的特征,尤其强调了陆游对杜甫、梅尧臣、曾几等人的继承与超越。那么,前人这些颇具体系的研究,能为我们当下的研究带来哪些启示?我们还可以从哪些角度深入此项研究?

在当前大数据技术迅猛发展的背景下,学界的文本分析能力得到了前所未有的提升,这使得我们能够将陆游的诗歌作品与其他任何一位诗人的诗作进行系统、全面的比对,进而深入探究他在用语、用韵方面的师承关系与取法脉络。这种依托新技术所开展的研究路径,不仅是前代学者难以企及的,也为我们重新理解陆游诗歌的渊源提供了坚实的技术支撑与方法保障。在这一基础上,有两个重要问题尤其值得深入考察:第一,陆游与江西诗派领袖黄庭坚之间的关系历来存有争议,他是否真如胡明先生所言,“孜孜反对江西领袖黄庭坚传下来的‘无一字无来历’的看家本领”,并与黄庭坚的诗学主张“公开决裂”?四库馆臣所谓陆诗“实能自辟一宗、不袭黄陈之旧格”,是否也可以从实证角度加以印证?第二,在今人编选的《陆游选集》《陆游诗选》等选本中,那些陆游最为知名的诗歌作品是否皆为自出机杼,它们在创作过程中是否曾化用唐宋诗歌等前代文献?这些问题的提出,并非泛泛而论,而是以语言用法和用韵方式的相似性作为实证基础。通过大数据比对,我们不仅能够从字词组合、句式构造等语言层面入手,还能从韵部使用、韵脚组合等音律层面着眼,寻求更为客观、细致的判断依据。在这样的基础上重新探讨陆游的诗学渊源,无疑将为我们揭示其诗歌生成的深层结构开辟新的路径。

一、 用语学黄庭坚

为考察陆游是否曾向黄庭坚学习诗歌创作及其学习程度,本文将从二者诗歌用语角度展开分析。研究方法为编写程序,运用三种相似度算法计算黄、陆二人诗歌用语的相似性。

在文本处理方面,本文所使用的黄庭坚与陆游诗歌文本均出自《全宋诗》。其中,《全宋诗》共收陆游诗9271首,含残句10句、存目3首,删残句、存目,得诗9258首;收黄庭坚诗2204首,含残句17句,删残句,得诗2187首。陆游诗9258首,共有37797联诗句;黄庭坚诗2187首,共有11197联诗句。若将二人诗歌的每联进行依次比对,总计需完成423213009次比对运算,这显然超出了人力可及的范围。因此,我们借助程序进行批量处理,将混合模式的相似度阈值限定为0.2后进行匹配,得到78672组结果。

对于这些匹配结果,同样无法单纯依靠人力完成分析。为确保算法的可靠性,我们进一步建立高频词汇过滤机制,以此区分套语式雷同与创造性师法。例如,需考察“白发”“江水”“日月”“尽日”“无人”“斜阳”等二人诗歌中常见的词语,分析它们是否与特定意境相关联、是否经常同时出现,并判断这些语言现象究竟属于固定表述、成句套语、偶然巧合,还是师法与因袭的体现。比如,黄、陆二人皆在诗歌中使用过“八万四千”这一表述。其中,黄庭坚在《观世音赞六首·其一》等9首诗歌中12次提及,如“八万四千清净眼,见尘劳中华藏海。八万四千母陀臂,接引有情到彼岸”(《观世音赞六首·其一》)便为一例;陆游亦有“八万四千颠倒想,与君同付醉眠中”(《醉歌》)、“人天八万四千塔,便合推为第一山”(《和曾待制游两山三首·题育王山明月堂》)等句。“八万四千”之语源自佛经,显然,此表述不能认定为陆游向黄庭坚师法,而应当视为黄、陆二人共同师法佛经。再有,黄、陆二人皆在诗歌中使用过“整整复斜斜”句。黄庭坚云:“忽书满窗纸,整整复斜斜。”(《次韵张仲谋过酺池寺斋》)“夜听疏疏还密密,晓看整整复斜斜。”(《咏雪奉呈广平公》)陆游曰:“整整复斜斜,翩如风际鸦。”(《作字》)实则“整整复斜斜”乃是杜牧《台城曲二首·其一》“整整复斜斜,随旗簇晚沙”成句。类似这种黄、陆二人共同向其他典籍取法的情况还有很多,要具体情况具体分析,不能一概而论。

通过分析,我们发现,在诗歌用语层面,陆游对黄庭坚存在明显的师法、因袭迹象。从形式上看,这种师法主要表现在句与句、句与联、联与联三个方面。

在“句与句”这一层面,具体表现为四种形式:一是陆游某联出句师法黄庭坚某联出句;二是陆游某联对句师法黄庭坚某联出句;三是陆游某联出句师法黄庭坚某联对句;四是陆游某联对句师法黄庭坚某联对句。上述四种形式可概括为出句—出句、出句—对句、对句—出句、对句—对句,表1将各举数例加以说明。


“句与句”之间的相似性,主要体现在黄庭坚、陆游二人的诗歌(或出句,或对句)中,当某句中的相似文本超出一定比例,达到某个阈值,这样的数据便会被提取出来。

第一例,陆游“身如病鹤短翅翎”与黄庭坚“身如病鹤翅翎短”七字完全相同,仅将“翅翎短”变换成“短翅翎”而已,这是陆游出句师法黄庭坚出句的典型例子之一。或云黄庭坚此句暗用白居易“同病病夫怜病鹤,精神不损翅翎伤”(《病中对病鹤》)、韩愈“路远翅翎短,不能持汝归”(《南山有高树行赠李宗闵》)诸诗,此说或不谬。但将“病身”“病鹤”“翅翎”三种意象融在一句之中,却是由黄庭坚完成的,故而我们更倾向于认为陆游此句是直接取法黄庭坚。

第二例,陆游“松枯宜倒壑”“长松倒涧壑”“倒壑枯楠忘岁月”等三句,均取法于黄庭坚“枯松倒涧壑”。其中前两句与黄庭坚诗句的相似度非常高,都涉及“枯(长)松”与“倒壑”这一表述。而第三句“倒壑枯楠忘岁月”,则是在沿用“倒壑”的基础上,将对象由“枯松”转化为“枯楠”。关于此条,钱仲联先生在《剑南诗稿校注》中已有所关注。

第三例,陆游对句“老木上寒藤”与黄庭坚出句“寒藤上老木”五字完全相同,与第一例的情况相类似,陆游在此也仅是颠倒词语次序而已。黄庭坚“寒藤上老木,龙蛇委筋骸”句描写寒藤缠绕着老树蜿蜒而上,如同龙蛇逶迤,显露出清晰的筋骨。《黄庭坚诗集注》引《礼记·礼运》来注释“筋骸”一词:“肌肤之会,筋骸之束。”黄庭坚此联中的“上”“委”两个动词极为传神,将四种意象连缀起来,描绘出一幅生动的画面。陆游“残芜衬落日,老木上寒藤”一联,写法与黄庭坚相同,也是靠两个动词连缀四种意象,对句颠倒黄庭坚出句的词语次序。此处陆游学黄,《剑南诗稿校注》惜未注出。

第四例,黄庭坚“肮脏得家法,伊优不能为”自赵壹“伊优北堂上,肮脏倚门边”化来,《黄庭坚诗集注》业已注出。赵、黄皆以高亢刚直的“肮脏”者与逢迎谄媚的“伊优”者相对,塑造出两种截然不同的性格以及由这些性格所决定的两种人生轨迹。陆游“时情竞脂韦,家法独肮脏”一联与赵、黄一样,也运用了对比的手法,只是陆游是将“时情”与“家法”、“脂韦”与“肮脏”进行对比。其对句“家法独肮脏”,显然是从黄庭坚出句“肮脏得家法”化来,《剑南诗稿校注》也注意到了这一点。陆游还有一句“肮脏得倚门”(《寒夜吟》),从用语与表述来判断,应是绕过黄庭坚,直接化用了赵壹的“肮脏倚门边”。

第五例,黄庭坚云“墙阴老春荠”,陆游曰“墙阴春荠老”,与第一例、第三例的情况相同,同样是陆游通过变换词语次序的方式来化用黄庭坚的诗歌。

第六例,黄庭坚对句云“落硙霏霏雪不如”,陆游《茅斋》出句曰“硙落霏霏雪”,《史院书怀》出句曰“石硙霏霏雪”,在将黄庭坚“落硙”分别变换为“硙落”“石硙”之后,陆游又将七言减字为五言。既然能减字,当然也能添字。如第八例,陆游便在黄庭坚五言对句的基础上,添“蛮遁”二字以成七言之对句。

还有一类,如第七例,陆游诗句完全袭用黄庭坚成句,不仅用语相同,词语次序也未作任何变动。

上举诸例中除第二例、第六例外,都是一句黄庭坚诗歌对应了一句陆游诗歌。但事实上,无论从数据分析结果,还是从陆游诗歌的师法实践来看,一句黄诗往往为多句陆诗所关注和取法。只是为了行文简洁,我们在上表中仅举了第二例、第六例两例而已。

“句与联”也有四种表现形式:一是陆游某联出句师法黄庭坚一联;二是陆游某联对句师法黄庭坚一联;三是陆游一联师法黄庭坚出句;四是陆游一联师法黄庭坚对句。表2各举数例加以说明。


之所以称“句与联”之间存在师法与因袭的可能,源于二者在用语及结构上的高度相关性。简言之,或将一联熔铸为一句,如第一例至第四例,陆游将黄庭坚一联浓缩为一句;或将一句敷衍为一联,如第五例至第八例,陆游将黄庭坚一句扩展为一联。

第一例,黄庭坚云“更作老夫船,樯竿插苍石”,陆游出句曰“老夫樯竿插苍石”,将黄诗出句中的“老夫”二字与对句“樯竿插苍石”相连,成为《醉歌》首联中的出句。《剑南诗稿校注》仅注此诗乃是陆游“乾道六年九月作于长江舟中”,惜未注出首联出句乃是熔铸黄庭坚诗句而成。

第二例,黄庭坚《乐寿县君吕氏挽词二首·其一》,乃为乐寿县君吕氏所作的挽词,前两联多用《诗经》《汉书》典故,以凸显吕氏之妇德。《黄庭坚诗集注》注尾联“骑省还秋直,霜侵鬓脚衰”用潘岳“寓直于散骑之省”之典,此说确然。而到了陆游笔下,他将“骑省还秋直,霜侵鬓脚衰”一联中的“骑省”与“霜侵鬓”拈出,添上“吟余”二字以成新句。这一化用,将挽词变成了登临之篇。《剑南诗稿校注》虽注意到了陆游此句与潘岳的渊源,却没有注意到陆游此句乃是熔铸黄庭坚诗句而成。

第三例,黄庭坚写龙团茶的“苍龙璧,官焙香”一联,被陆游揉成一句“苍璧碾成官焙香”。黄庭坚在诗歌中多次写到龙团茶,如“外家新赐苍龙璧,北焙风烟天上来”(《谢公择舅分赐茶三首·其一》)、“如今摸索苍龙璧,沈井铜瓶漫学雷”(《公择用前韵嘲戏双井》)等。此例陆游化用黄庭坚“苍龙璧,官焙香”一联,当属无疑。《剑南诗稿校注》引《铁围山丛谈》为陆游此句与《卜居二首·其二》“蒙顶茶如正焙香”作注,但其关注点在“官焙”“正焙”,未曾意识到陆游此句乃是从黄诗化来。

第四例,黄庭坚以“引镜照清骨,惊非曩时人”一联写疾病使人衰弱,无复昔日之风姿。陆游将“引镜”自照变换为临水自照,同样写今不如昔。这种引镜或临水自照,再感叹今不如昔的写法,二人如出一辙。《剑南诗稿校注》没有注意到陆游此句渊源有自。

再看陆游如何将一句诗歌敷衍为一联。

第五例,黄庭坚《戏和答禽语》一首,开篇以“南村北村雨一犁”写雨润南村北村,正是犁地耕种之际。这一句有“村”“雨”“犁”三个关键词,“村”(南村北村)明确了地域范围,“雨”是核心要素,正因为雨水的降临,才引出“犁”地之事。陆游的“架犁架犁,南村北村雨凄凄”一联完全涵盖了“村”“雨”“犁”三个要素,并且整首诗也写禽言禽语,在用语与主题上与黄诗形成二次呼应。《剑南诗稿校注》亦未注意到陆游此句与黄庭坚诗歌的关系。

第六例,黄庭坚“墨淡字疏行”或自杜甫“墨淡字欹倾”化来,黄诗在杜诗“字欹倾”的基础上生出“字疏行”的新意。陆游“字如老瘠竹,墨淡行疏疏”一联,将黄诗的“墨淡”“疏行”安置在对句,出句称“字如老瘠竹”,将黄诗一笔跳过的“字”的形象具象化,称其如瘠竹、瘦竹,凸显其瘦而有力的特点。

第七例,陆游将黄诗对句“意态忽如少年时”的“意态”变换为“意气”,引起出句;“忽如少年时”只字不移,变成对句。

第八例,黄庭坚云“烧烛饮至跋”,《黄庭坚诗集注》业已指出“烧烛至跋”一语当出自《礼记·曲礼》“烛不见跋”,孔颖达疏曰:“《小尔雅》云:‘跋,本也。’本,把处也。古者未有烛,唯呼火炬为烛也。火炬照夜易尽,尽则藏所然残本。所以尔者,若积聚残本,客见之则知夜深,虑主人厌倦,或欲辞退也。故不见残本,恒如然未尽也。”概言之,烧烛至跋、烛不见跋云云,皆为尽欢之意。黄庭坚在此基础上,将“饮”字加入其中,写饮酒尽欢,颇有几分陈遵投辖的意味。陆游远绍《礼记·曲礼》、近拟黄诗,出句写“一席饮”,对句写“烧烛将见跋”,正与黄诗意思相同。

“联与联”只有一种形式,即陆游诗歌的一联,师法黄庭坚诗歌的一联。这种形式中的“一联”,必须同时涵盖出句、对句。若不同时涵盖出句与对句,就会变成“句与句”或“句与联”的形式。表3各举数例加以说明。


与“句与句”“句与联”这两种情况不同,“联与联”之间要求出句、对句都要包含相同或相近要素,这使得两联的描述与表达,较之“句与句”“句与联”之间具有更为明显的相似性和相近性。

例如第一例,二人同写“江水”与“花”,区别只在于陆游将黄庭坚的“檐花”变成了更为具体的“梅花”,将“檐花”的“无赖红”变成了“梅花”的“无赖香”,由视觉变化为嗅觉。第二例,“紫葚知蚕老,黄云见麦秋”一联,乃是黄庭坚登临北都东楼所作,出句、对句各用一个动词“知”“见”连缀葚、蚕、云、麦四种意象,时值麦熟之际。陆游“桑间葚紫蚕齐老,水面秧青麦半黄”写残春时节,较之黄庭坚所写的时间略早,所以诗人看到的是“秧青麦半黄”而不是麦熟。陆诗此联将黄庭坚诗句中的“云”换成了“水”,其他三种意象未变,从中能够看出明显的模仿痕迹。惜《剑南诗稿校注》未能注意到这两联之间的关系。像这种描写相似风物、景象,并表达相似情感的“联”,在两人诗中还有很多,再如第三例以“缺月”对“鸣鸡”亦为此类。以上所举,基本上都是在相似的两联之中,陆游出句与黄庭坚出句意思相近,陆氏对句与黄氏对句意思相近,两联之间呈现出一种正向的对应关系。还有一种情况是意思相近的两联,陆游出句对应黄庭坚对句,陆氏对句对应黄氏出句,例如第四、五例。

在第六例中,黄陆二联虽然意思相近,但二人诗中所用的“九关虎豹”“地行仙”很明显分别自《招魂》“虎豹九关,啄害下人些”、《抱朴子》“中士游于名山,谓之地仙”化来。那么,有没有可能是陆游绕过黄庭坚,直接向《招魂》《抱朴子》取法?应当说,存在这种可能。第七、八例也是这种情况。

我们之所以在表3中将第六、七、八三例列出,是想说明两点:第一,从用典的角度看,认为黄、陆二人诗歌化用《招魂》《抱朴子》典故是没有问题的;第二,这是在用典基础之上的重构。黄庭坚将“九关虎豹”与“地行仙”并置在一联之内,以前代不同典故建构起新的逻辑关系——正因为世间“九关多虎豹”,所以才要“聊作地行仙”。在黄庭坚这里,完成了由因到果、由彼至此的转化。现在再看陆游“九关虎豹君休问,已向人间得地仙”一联,我们需要承认两点:一是陆游同样用典;二是陆游此联的表述、逻辑与黄庭坚完全一样。这也存在两种可能:一是陆游与黄庭坚英雄所见略同,不约而同地都将两个前代典故并置在诗歌的一联之中;二是陆游确实受到了黄庭坚诗歌的启发与影响。这种现象在诗歌间或诗词间的影响-接受关系中很常见,我们没有办法断言到底属于哪种情况,故而将其列出,以呈现一种现象。

以上我们从诗歌用语层面,围绕句与句、句与联、联与联三个方面,对陆游师法黄庭坚的情况展开了分析,从中可以清晰地看出陆游对黄庭坚存在明显的师法、因袭迹象。或云,这些从句、联角度的分析过于琐细,陆游有无全篇师法黄庭坚的诗歌?答案是肯定的。我们试举两组在整体风格上陆游与黄庭坚极为相似的诗作为例,先看黄庭坚《戏咏高节亭边山矾花二首·其一》与陆游《落花》:

北岭山矾取意开,轻风正用此时来。平生习气难料理,爱着幽香未拟回。(黄庭坚《戏咏高节亭边山矾花二首·其一》)

山杏溪桃次第开,狂风正用此时来。未妨老子凭栏兴,满地残红点绿苔。(陆游《落花》)

这两首都是七绝咏花诗,一为咏山矾花,一为咏杏花、桃花。两诗首联的构思与写法完全相同:出句先交代地点,一为北岭,一为山脚溪边;再交代花的品类,一为山矾花,一为杏花、桃花。接下来是对句,陆游将黄庭坚“轻风正用此时来”变换一字而成“狂风正用此时来”。虽是一字之别,陆游的改动却极为准确。盖因与下联统观,黄诗写闻香,故而需“轻风”;陆游写落花,故而需“狂风”,只有狂风大作,才能与下联“满地残红”之景形成呼应。黄诗下联所谓的“平生习气”,当指其爱花、赏花之习,正因香气氤氲,为其陶醉,故有此戏咏二首。陆游下联“未妨”云云,先反转上联对句,称虽有狂风,但不妨碍其凭栏之兴。何为“凭栏兴”?不就是黄庭坚所说的“平生习气”,亦即爱花赏花之习吗?这两首诗下联之对句,一写嗅觉,一写视觉。“幽香”呼应“轻风”,“残红”呼应“狂风”。如此看来,这两首诗的写法何其相似!

再看一组:

往往携家来托宿,裙襦参错佛衣巾。未嫌满院油头臭,蹋破苔钱最恼人。(黄庭坚《又戏题下岩》)

七月湖中风露新,临流闲照白纶巾。荷花折尽浑闲事,老却莼丝最恼人。(陆游《乙丑夏秋之交小舟早夜往来湖中戏成绝句十二首·其八》)

黄、陆二诗有几处相同。一是用韵相同,皆押十一真韵,且韵脚同为“巾”“人”。二是结构相同,首二句皆铺陈清幽之境(僧院借宿之景、湖舟临流之趣),第三句急转直折(油头之臭、折花之闲),结句则以“最恼人”点睛,将雅趣与俗恼融于一体。此种“先境后恼”的章法,非但句式相同,更在转折节奏中暗含对日常荒诞的敏锐体察。无怪钱锺书先生称陆游此诗“仿山谷此首而泄露文脉矣”,由此可见前贤已凿通幽径,后学履痕自难遁形。

黄、陆二人诗集中,还有不少风格相近的作品,不再一一枚举。下面我们切换视角,从诗歌用韵层面,继续探讨陆游与黄庭坚诗歌之关系。

二、用韵是否学黄庭坚

本次研究涵盖了黄庭坚的2187首诗歌和陆游的9258首诗歌,鉴于其数量庞大,依靠人工来标注押韵情况显然是不现实的。因此,我们借助程序分析来达成两个主要目标:一方面,分析黄、陆二人诗歌各自的押韵情况,通过程序深入探究两人诗歌在押韵方面的独特特点;另一方面,比较两人诗歌的押韵相似度,以此挖掘出两人诗歌在押韵上的共性与差异。具体操作时,先编写程序读取诗歌的题目、内容、“几言几韵”以及诗歌韵脚等关键信息,根据“几言几韵”分类整理诗歌。接着针对属于同一格律分类(即“几言几韵”相同)的黄、陆所有诗歌进行两两组合比对。比对的核心在于分析它们的“诗歌韵脚”字段:计算两组韵脚的重叠率,并以百分比量化其相似程度。对于韵脚完全一致(相似度为100%)的诗歌组,程序会额外检查其韵脚的顺序是否相同(“顺序”或“乱序”),并尝试提取关于声调(平仄)、韵部归类等信息。最终,提取出韵脚相似度在75%以上的诗歌对及其比较结果(包含相似度百分比、韵脚顺序、声调/韵部信息等)。

经过分析,陆游与黄庭坚二人诗歌韵脚相似度在75%以上的诗歌共有1390组。其中,相似度为100%的有1389组,相似度为75%的有1组(即黄庭坚《次韵子高即事》与陆游《千峰榭宴坐》,这两首诗歌的韵脚分别为“疏、书、余、车”与“余、疏、书、疏”)。在1389组诗歌中,还有1组诗歌(黄庭坚《春近四绝句·其二》与陆游《次韵周辅道中二首·其二》)虽然韵脚同为“佳、花”,但分别为九佳、六麻韵,并非同一韵部,亦排除在外。故而统计对象为韵脚完全相同且属同一韵部的诗歌共1388组,涉及七绝1346组、七律22组、五绝12组、五律6组、六言古体2组(皆为二韵)。

分析显示,陆游共有572首诗歌与黄庭坚的316首诗歌使用了完全相同的韵脚,共涉及213种韵脚组合,排在前10位的韵脚组合分别为“开,来”(107次)、“来,开”(105次)、“春,人”(74次)、“中,风”(48次)、“人,春”(40次)、“风,中”(36次)、“时,诗”(36次)、“人,尘”(33次)、“身,人”(30次)、“声,明”(28次)。这213种韵脚组合共分布在21个韵部中,排在前10位的韵部分别为:十灰(277次)、十一真(245次)、一东(185次)、四支(147次)、十五删(99次)、八庚(71次)、十一尤(67次)、六麻(55次)、一先(48次)、六鱼(40次)。

既然两人诗歌的韵脚相似度颇高,那么这是否意味着其诗歌之间存在明显的次韵、用韵或依韵关系?次韵,最为严格,二人所用之韵“先后无易”,亦步亦趋,不仅韵脚相同,次序亦应一致;用韵,“用彼韵不必次”,即使用相同韵脚,但次序不必一致;依韵,更为宽松,“同在一韵”,即诗歌所用之韵在同一韵部即可,不追求韵脚相同与次序一致。若以此为标准,我们筛选出的1388组诗歌,有726组符合“次韵”的标准,662组符合“用韵”的标准,这些诗歌存在“次韵”“用韵”的可能性,对此,我们尝试从三个角度进行分析。

首先,来看陆游诗歌题目中提及的次韵诗。本次分析所涉及的陆游572首诗歌中,只有3首诗歌题目中含有“韵”字,且与黄庭坚4首诗歌韵脚完全相同。第一组是陆游《观音院读壁间苏在廷少卿两小诗次韵二首·其一》与黄庭坚《夜闻邻舟崔家儿歌》,第二组是陆游《观音院读壁间苏在廷少卿两小诗次韵二首·其一》与黄庭坚《东禅长老梦偈》,这两组诗歌皆为七言绝句,韵脚皆为“声,明”,同押八庚韵。结合两组诗歌题目与内容来看,陆游之诗是次韵苏元老之诗而非次韵黄庭坚之诗。第三组是陆游《次韵范参政书怀十首·其九》与黄庭坚《自巴陵略平江临湘入通城无日不雨至黄龙奉谒清禅师继而晚晴邂逅禅客戴道纯款语作长句呈道纯》,此二诗都是七言律诗,韵脚皆为“晖,归,机,非”,且次序相同,同押五微韵。从体式上看,这一组完全符合次韵标准。但陆游之诗乃是次韵范成大《丙午新正书怀十首·其九》,显然也不是次黄庭坚诗韵而成。第四组是陆游《次朱元晦韵题严居厚溪庄图》与黄庭坚《戏答王子予送凌风菊二首·其一》,此二诗都是七言绝句,韵脚皆为“中,翁”,次序相同,同押一东韵。虽然从体式上看,这一组也完全符合次韵要求,但陆诗是次朱熹《题严居厚溪庄图》,亦非次黄庭坚诗歌而成。可见,在诗题中明确标明为次韵且与黄庭坚诗歌韵脚完全相同的陆游诗歌,皆与黄庭坚无关。换言之,在陆游主动次韵的诗歌对象中,黄庭坚是缺席的,而苏轼、范成大、朱熹等诗人是在场的。

其次,有无可能陆游虽然未在诗题中标明用黄庭坚诗韵,却暗次其韵?确实有这种可能性。一般来说,诗歌篇幅越长,次韵起来难度越大,越有可能是主动次韵。基于此,我们先选取几组律诗进行具体分析。在726组符合“次韵”标准的诗歌中,只有1组七律、1组五律。七律为黄庭坚《自巴陵略平江临湘入通城无日不雨至黄龙奉谒清禅师继而晚晴邂逅禅客戴道纯款语作长句呈道纯》与陆游《次韵范参政书怀十首·其九》,如前所述,非陆游暗中次韵。五律为黄庭坚《鄂州节推陈荣绪惠示沿檄崇阳道中六诗老懒不能追韵辄自取韵奉和·晚发咸宁行松径至芦子》与陆游《秋阴》:

咸宁走芦子,终日乔木阴。太丘心洒落,古松韵清深。聊持不俗耳,静听无弦琴。非今胡部律,而独可人心。(黄庭坚《鄂州节推陈荣绪惠示沿檄崇阳道中六诗老懒不能追韵辄自取韵奉和·晚发咸宁行松径至芦子》)

淡日披朝雾,轻云结暮阴。菰蒲溪路暗,松竹草堂深。妙墨双钩帖,奇声百衲琴。古人端未远,一笑会吾心。(陆游《秋阴》)

黄庭坚之诗当作于崇宁二年(1103),时鄂州节度推官陈荣绪先作六诗以示,黄庭坚则以“老懒”为由,“不能追韵辄自取韵奉和”以成六首,这首诗是第六首。首联交代自咸宁至芦子的经行背景。颔联出句将陈荣绪比作东汉太丘长陈寔,对句以“古松韵”呼应首联对句中的“乔木阴”,凸显松径行路。颈联“无弦琴”明用陶渊明之典,暗中却将行路中的松声、松韵比作“无弦琴”,复与“不俗耳”“可人心”相呼应。

《秋阴》一首作于庆元五年(1199)秋,陆游在山阴,时年75岁。此诗通过多重意象的叠加,如时间的由朝(朝雾)及暮(暮阴)、空间的由远(溪路)及近(草堂),以及感官享受的由视觉(双钩帖)到听觉(百衲琴)的变化,写出身在故乡、心慕古人的“孔颜之乐”。从这两首诗歌的写法来看,黄诗因事而发,主实;陆游因景而成,略虚。此二诗虽然韵脚相同,符合“次韵”的标准,但亦非陆游暗中次韵之作。

在662组符合“用韵”标准的诗歌中,共有21组七律、5组五律。这26组律诗虽然从体式上看符合“用韵”标准,但亦非陆游用黄庭坚诗韵而成。略举一例。黄庭坚有《光山道中》一诗,诗云:“客子空知行路难,中田耕者自高闲。柳条莺啭清阴里,楸树蝉嘶翠带间。梦幻百年随逝水,劳歌一曲对青山。出门捧檄羞闲友,归寿吾亲得解颜。”押十五删韵,韵脚分别为“闲,间,山,颜”。治平四年(1067),黄庭坚得官叶县,《光山道中》为其赴叶县所作,主旨由“捧檄”二字点出,即为亲出仕。

陆游《青城县会饮何氏池亭赠谭德称》《斋中杂兴二首·其二》《梅》《夏日感旧四首·其二》《东篱三首·其二》这5首诗的韵脚亦为“闲,间,山,颜”,虽韵脚次序与《光山道中》不同,但亦符合“用韵”的标准。陆游以上5诗,除第1首作于淳熙四年(1177)青城县外,其余4首分别为嘉泰元年(1201)、嘉泰三年(1203)以及开禧元年(1205)、开禧二年(1206)作于山阴。这5首诗主旨各不相同,无一首与黄诗相类。可以推断,陆游的这5首诗亦未有意用黄庭坚诗韵,它们与黄诗之间不存在“用韵”之关系。

再次,如上所见,黄庭坚、陆游二人之间符合“次韵”“用韵”标准的诗歌,若既非陆游主动次韵、用韵,亦非陆游暗中次韵、用韵,又当如何解释这一现象?我们认为,存在以下几种可能性:第一种可能是巧合,上举黄庭坚《光山道中》与陆游的5首诗便为此类。囿于篇幅,此类例子不再一一列举;第二种可能是相似或相仿的题材,使得诗人们选用了相同的韵部、韵脚;第三种可能是一些韵脚本身具有开放性,容易在多种场合出现,这也使得诗歌的韵脚容易出现相同或相近的情况。因绝句篇幅短、主题集中,后两种情况主要出现在绝句中。我们以黄庭坚《效王仲至少监咏姚花用其韵四首》的第二、三首与陆游诗歌为例,简单说明后两种情况。

黄庭坚诗题中所称的“王仲至少监”即王钦臣,字仲至。这组诗是黄庭坚效王钦臣“咏姚花用其韵”而成,《全芳备祖》卷二花部将这组诗列为题咏牡丹之作,胡仔则认为其二是咏桃花而非牡丹。《效王仲至少监咏姚花用其韵四首》是一组咏花之作,是毫无疑问的。其一的“黄袖”、其二的“萼绿华”、其三的“仙衣”、其四的“冰肌”皆与女性相关,被黄庭坚借以咏花,以人喻花,以花衬人,人花两得。

《效王仲至少监咏姚花用其韵四首·其二》云:“九疑山中萼绿华,黄云承袜到羊家。真筌虫蚀诗句断,犹托余情开此花。”韵脚为“家,花”。陆游有11首诗歌的韵脚为“家,花”(“花,家”),其中10首七绝、1首五绝。10首七绝,绝大部分是咏花或村居赏花、见花之作,符合“相似或相仿的题材,使得诗人们选用了相同的韵部、韵脚”这一情况。例如一为《太平花》,咏“花出剑南,似桃四出”的太平花。二为《花时遍游诸家园十首·其三》,诗题紧扣花时,诗歌亦写“寻春不到家”“高柳卧溪花”。三为《春晚村居杂赋绝句六首·其一》,写秋风初冷稻吹花的村居生活。四为《题三茆邵道士云隐二首·其二》,写道士云隐,先用刘禹锡“况种刘郎去后花”之典,再以“不知何处是君家”紧扣云隐的主题。五为《梦华山》,写梦中见到野老家前的碧桃花。六为《秋怀四首·其二》,写园丁摘黄瓜、村女采碧花的村居生活。七为《即事六首·其四》,“得屋施床即我家”写洒脱之姿,“元非看竹探梅花”写饭后散步只为“行饭”,原本不为看竹探花。八为《小艇》,写乘坐小艇至“武陵溪上看桃花”。九为《赠目眇者》:“达人所遇有生涯,高卧穷阎自一家。阅世正嫌岩下电,开樽且看雾中花。”这首诗当为陆游开禧三年(1207)秋作于山阴。诗中的这位目眇者,虽穷居陋巷,却能安然高卧。下联用王戎之“岩下电”对杜甫之“雾中花”,在陆游看来,与其目光如炬、洞察世事,未若醉眼朦胧、难得糊涂。最后一首《无题》:“碧玉当年未破瓜,学成歌舞入侯家。如今憔悴篷窗里,飞上青天妒落花。”很明显,这首诗与《赠目眇者》一样,并非咏花而是另有兴寄。周密《齐东野语》认为陆游在蜀日,“有所盼”,故赋此诗。《剑南诗稿校注》认为“此诗作于出蜀后已六年,周氏谰言不可信”。即使如钱仲联先生所言,此诗并非作于“在蜀日”,而是淳熙十年(1183)九月作于山阴,但诗中别有兴寄,却是不争的事实。可见10首之中,除却《赠目眇者》《无题》外,其余8首都与咏花、村居有着或多或少的联系,这些相同或相似的题材决定了陆游在诗歌创作时很有可能选用“家,花”(“花,家”)为韵脚。

《效王仲至少监咏姚花用其韵四首·其三》云:“仙衣襞积驾黄鹄,草木无光一笑开。人间风日不可奈,故待成阴叶下来。”韵脚为“开,来”,陆游有21首诗歌的韵脚为“开,来”(“来,开”)。这组韵脚的开放性远大于“家,花”(“花,家”)。“家,花”是实指的名词,它所能连接的对象往往是具象的,容易限定其前的定语范围,例如“一家”“到家”“君家”“老家”“碧花”“吹花”“落花”“桃花”等。相较之下,“开,来”(“来,开”)是动词,它所能连接的对象范围要大得多。例如它可以接名词“水仙开”“圣君来”,接动词“阖复开”“斫鲙来”,接副词“次第开”“最迟开”“日日来”“一再来”等。如前所论,“陆游共有572首诗歌与黄庭坚的316首诗歌使用了完全相同的韵脚,共涉及213种韵脚组合,排在前10位的韵脚组合分别为‘开,来’(107次)、‘来,开’(105次)”,这一数据也充分说明了“开,来”(“来,开”)这类韵脚的开放性。

在21首韵脚为“开,来”(“来,开”)的陆游诗歌中,诗题标明咏花或与花相关的有《东阳观酴醿》《缃梅三首·其二》《新菊二首·其二》《梅花绝句六首·其六》《花下小酌二首·其一》这5首,属于“相似或相仿的题材,使得诗人们选用了相同的韵部、韵脚”;还有一些诗歌并非咏花诗,而是分属不同的题材。例如《故袍》:“青衫犹是国工裁,破箧尘侵手自开。莫笑浑如霜叶暗,两朝曾见圣君来。”借故袍忆旧,诗中的“开,来”两个韵脚起笔稳,落笔新,颇见诗人构思之巧。再如《偶得双鲫二首·其二》:“酒兴森然不可回,重阳未到菊先开。一双剌明吾眼,催唤厨人斫鲙来。”主题又是一变,变成了菊开、鲙来。类似的例子还有很多,由此可见“开,来”(“来,开”)这一类韵脚组合的开放性。也正因为这种开放性,不同的诗人在面对多种多样的场景时,都可以选择这些韵脚组合。

通过分析可以发现,虽然陆游与黄庭坚二人诗歌韵脚相似度在75%以上的诗歌共有1390组,陆游共有572首诗歌与黄庭坚的316首诗歌使用了完全相同的韵脚,甚至二次筛选出来的1388组诗歌,有726组符合“次韵”、662组符合“用韵”标准,但是陆游既未主动亦未暗中次韵、用韵,他与黄庭坚之所以有相同韵脚比例如此之高的诗歌作品,或因巧合,或因相似或相仿的题材使得他们无意中选用了相同或相近的韵脚,或因所选的韵脚组合极富开放性。这一结论说明,在用韵层面,陆游未曾关注过黄庭坚,亦未曾向他取法。这也意味着,在这一层面,黄庭坚在陆游的视野中是“缺席”的,同样“缺席”的还有梅尧臣。

其实,即使“在场”,如果没有足够多的真正意义上的次韵、用韵,也无法证明二人在用韵层面有密切关系。先贤时彦多认为陆游深受曾几、吕本中诗歌的影响,但是从用韵的角度看,陆游仅有《和曾待制游两山三首》和曾几诗韵,仅有1首《席上有举吕居仁诗者因次其韵示坐客》次吕本中《送一书记杲公作天宁化士》诗韵。相较之下,苏轼反而是陆游主动次韵较多的诗人之一。这也说明,学界认为两位诗人诗歌之间存在师法、继承等渊源关系,更多是从用语、风格等层面着眼的。

三、陆诗名篇是否转益多师

就数据分析来看,陆游在诗歌用语层面师法黄庭坚之处颇多,呈现出“转益多师”的态势。或曰,以上所举的陆游诗歌,鲜见名篇,有无可能陆游名篇多是自出机杼、少有因袭的?我们选取陆游诗歌中的名篇,借助程序来分析这些名篇是否曾向他人取法。

20世纪60年代初期,朱东润先生编选陆游诗、词、文以成《陆游选集》,其中“诗选是按照《剑南诗稿》作出的,因此每篇作品都按年代编次”  ,选录了从早年的《夜读兵书》至晚年的《示儿》共245题277首诗歌。陆游名篇的选定,本文暂以朱东润先生《陆游选集》诗选部分为例。与之相参的他人诗歌,取《全唐诗》以及《全宋诗》中陆游之前的所有诗歌。

我们仍采用程序来计算277首陆游名篇在诗歌用语层面与《全唐诗》《全宋诗》的关系。可以发现,陆游名篇与大量的唐宋诗歌在用语层面上存在相似性。囿于篇幅,唐宋诗中,仅各选10例。先看表4唐诗诸例:


上表诗例可以分为如下几类:

第一类是陆游直接化用唐人成句,如第一例“清秋宋玉悲”、第四例“中原消息断”、第五例“一步不相离”。

第二类是陆游与唐人之诗的出句与对句使用了相同的表述,如第一例“冯唐老”对“宋玉悲”,第三例“一朝去某地”对“十载客某地”。这一类中,像第二例“百年×○○”对“万事×○○”、第九例“年光×○○”对“(世)吾事×○○”,其中的“○○”皆为叠字,展现出相同的结构特征。

第三类是在出句、对句使用了相似表述的基础上,诗歌内容略有变化。如第七例,张谓与陆游分别(世)吾事是由夏及秋、由春及秋。张谓笔下的夏景有雨,有绿桑,秋景有秋风和麦黄。到了陆游笔下,变成了春雨与绿桑、秋风与稻香。变化之处一是夏与春,二是麦与稻,二人构思如出一辙。第八例代表了一种类型,即两位诗人对句或出句的表述几乎一致,只在另外一句进行腾挪。第八例中两个对句几乎相同,差异在出句体现出来。韩愈感慨“恨无一尺捶”,陆游则曰“请书一尺檄”,既同且异,既异亦同。第十例也代表了一种类型,即对原诗句式进行字数增减,此例将杜诗的五言增字为七言。同样,也有可能将七言减字为五言等。

第四类是陆诗使用谚语、俗语,如第六例“不痴不聋,不作阿家阿翁”,据《全唐诗》知“郭暧与升平公主琴瑟不调,父子仪拘暧待罪,代宗引谚慰之”,可见“不痴不聋,不作阿家阿翁”当是唐时的谚语、俗语。《剑南诗稿校注》引《宋书》卷五三《庾炳之传》“又云:不痴不聋,不成姑公”及《隋书》卷四六《长孙平传》“谚曰:不痴不聋,未堪作大家翁”之语以注“不痴不聋不作翁”句,可见钱仲联先生已注意到陆游此句用前人语。或曰第六例中陆诗“不痴不聋不作翁”句或许有更早的渊源,此说确然。但就数据分析来看,这一条数据是符合条件且应当被提取出来的。

再看表5宋诗诸例,陆游名篇诗句与宋人诗句相似的情况,除未见用前人谚语、俗语外,与表4几乎完全相同。为什么会出现这种情况?可能有如下几种原因:


第一,陆游确实曾向唐人、宋人师法,甚至袭用了成句。

第二,表述本身具有套语的性质,使得陆诗与他人诗句极为相似。特别是对我们所编写的程序来说,极容易将此类诗歌提取出来。表5中,陆游“人生贵适意,富贵安可苟”与苏颂“人生苟适意,富贵安所希”的相似度为72.73%。该句与孔平仲“人生适意耳,富贵亦何为”、史浩“人生贵适意,安佚固有以”、司马光“人生贵适意,何必慕华簪”等句的相似度都在40%以上。尽管这些诗句间具有如此高的相似度,但我们也很难据此判定陆游此句曾向前人取法。所以,在从用语层面判断影响-接受关系时,套语情况须审慎对待。

第三,诗词中一些常见的对偶、对仗,例如“一朝”对“十载”、“百年”对“万事”、“双鬓雪”对“寸心丹”等也要考虑在内。存在这些情况的诗句之间,也不见得必然是师法、因袭,有可能是因对偶、对仗所需。

第四,还有一类,是陆诗既与唐诗相似,又与宋诗相似。例如陆游“已惊白发冯唐老,又起清秋宋玉悲”与杜甫“垂白冯唐老,清秋宋玉悲”的相似度为66.77%,而与范纯仁“白首冯唐空已老,清秋宋玉不胜悲”的相似度为60%。冯唐、宋玉是诗文中的常见意象,但是将此二人对举,且以“老”形容冯唐,以“悲”形容宋玉,似是杜甫首创。如果从诗歌用语渊源的角度分析,第二例不能成立,包括范纯仁在内,他与陆游都是学杜甫的。但是从数据分析的角度,我们有必要将这类陆诗与唐宋诗同时存在相似性的现象单独列出,以全面反映文本比对中观察到的复杂情况。这一类实质上揭示的是陆游与其他宋人共同学习前人用语。

第五,再有一类,是既学用语,又学构思。较之单纯学习用语,这是更为高级的一类。例如第八例陆游“春将愁并至,秋与病相终”与张耒“秋色解将愁并至,年华偏与客相催”的构思就极为相似。从结构上看,出句是A将B并至,对句是C与D相连。从用语上看,张耒、陆游出句中的A,都是时节,一为秋、一为春;B完全相同,都是“愁”。二人出句都写时光流逝带来的愁闷之情,且他们不约而同选择了“解将”“将”字,给人一种将愁提携而来的感觉。对句中的C,张诗是年华,陆诗是秋,承接出句而来,续写时光流逝;到了D这里,略有变化,张耒说“客相催”,陆游说“病相终”,将张耒诗歌中的紧迫感变成了衰病感。内山精也先生在《长淮诗境——从〈诗经〉至北宋末之演变》一文中指出,张耒的淮河诗歌“总是披着一丝阴影”,“不时漂浮着悲哀或绝望”,内山先生所举的诗例,恰有张耒的这首《将至寿州初见淮山二首·其二》。《秋晚》当是陆游于嘉定二年(1209)秋作于山阴,他时年已85岁,故而首联“春将愁并至,秋与病相终”之后,以“过望犹赊死,扶衰又入冬”为颔联,仍写老迈与衰病。

可见,即使排除套语以及诗歌中常见的对偶、对仗所导致的用语相似性等情况,陆游的名篇也存在与唐诗、宋诗大量相似的情况。这说明,包括名篇在内的大部分诗歌,陆游都对前人有所学习,而且这种学习是全方位的。

四、结语

通过编写程序,我们实现了对陆游与一批诗人诗歌相似度的对比分析。从黄庭坚与陆游的诗歌对比分析来看,这些算法基本有效。未来可以增加更为先进的NLP相似度算法,引入诗歌结构特征以及允许自定义算法权重参数等。

用韵层面的代码虽然比较简单,但这种尝试能减少研究者手工查找、记录和计算押韵相似度的工作量,使研究者能够快速识别双方作品中韵脚高度相似的诗歌组合、筛选出具有潜在关联的案例进行分析,并客观量化押韵模式的重合度。输出的结构化数据(百分比、顺序、平仄韵部)能为进一步探讨两位诗人在押韵偏好等方面的异同提供数据基础和初步线索。

回到开篇提出的问题,通过数据分析可以得出以下结论:

第一,在诗歌用语层面,陆游非但没有“孜孜反对江西领袖黄庭坚传下来的‘无一字无来历’的看家本领”,反而在句与句、句与联、联与联等角度全面师法、学习黄庭坚的诗歌,遑论其与黄庭坚的诗歌主张“公开决裂”了。如此一来,四库馆臣所谓陆游“实能自辟一宗、不袭黄陈之旧格”的论断,至少在“不袭黄陈之旧格”这一层面要打个折扣。

第二,在诗歌用韵层面,陆游并未关注过黄庭坚等人,却对苏轼给予了极大的关注,有数首诗歌主动次韵苏轼。

第三,或有学者认为,陆游诗歌名篇多是自出机杼、不袭前人的。通过选取其名篇进行数据分析,我们发现,包括名篇在内的大部分诗歌,都存在向唐宋诗歌等前代文献取法的现象。

那么,最后一个问题自然随之而来:既然陆游转益多师、全方位取法,他是如何做到自出机杼、自成一家、“自辟一宗”的?我们将更新算法,另文讨论。

2025年第11期

2025年第11期

山东社会科学

稿

SUBMISSION EMAIL ADDRESS

阅读原文

跳转微信打开

  •  

程 宁 | 唐诗语体的历时演变——以虚字使用密度为中心

程  宁 2026-01-29 10:03 北京

点击蓝字 关注我们

2025年第11期

2025.11

作者简介

程宁,清华大学文学博士,中国社会科学院文学研究所助理研究员、数字人文与计算批评实验室成员,兼任中国民族语言学会语言资源与计算人文专委会理事,主要研究方向为计算语言学、计算诗学、古典知识库、数字人文,申请国家专利1项,计算机软件著作登记1项,在《清华大学学报(哲学社会科学版)》、《中文信息学报》、国际数字人文大会(ADHO)等发表论文数篇,被《中国社会科学文摘》、人大复印报刊资料转载。

本文原载《山东社会科学》2025年第11期,参考文献及注释参见本刊原文。欢迎转发与授权转载。如需转载请联系0531—82866416,联系人:陈老师。转载请注明来源!配图均来自网络。

[摘  要]虚字涌现是诗歌散文化书写的重要标志。从词频偏移检测的角度出发,可以清晰地发现,韩愈“以文为诗”的创作实践与唐诗总体相比,其最显著的用词差异是虚字的凸显。采用自动分词、词性标注、统计检验等技术手段,对《全唐诗》中的虚字进行标引,并在此基础上开展群体性的量化比较和回归分析后发现:一方面,研究结果有力佐证了钱锺书先生关于陈子昂、张九龄、李白、杜甫、韩愈等人在“诗用语助”上的精妙论断;另一方面,从整体趋势来看,唐诗近三百年间不同时段的虚字使用密度并不相同,且恰好呈现出初唐、盛唐、中唐、晚唐依次线性增长的动态过程。进一步将研究视野拓展至更大语料范围和更长历史时段,观测虚字使用的消长变化后发现:诗歌虚字密度从先秦到魏晋再到唐初呈不断降低趋势,而自初唐开始逐渐攀升,历经盛唐、中晚唐,后由宋接续并大幅增长,这正体现了中国诗歌语体形式由松到紧再由紧到松的往复变化。

[关键词]唐诗;虚字;“以文为诗”;语体演变;数字人文

2025.11

阅读导引

一、虚字使用与诗体观念

二、虚字涌现与“以文为诗”

三、虚字入诗的实相

四、余论

虚字在构成古典诗歌的语言材料中地位低微,以虚字入诗多遭讥评,而实际创作情况却大相径庭。虚字虽然无法彰显主题内容,但是能有力反映语体特点。诚如“凡多用虚字便是讲,讲则宋调之根”所言,虚字的增减变化实为揭示诗体演进规律的重要线索。回顾既有研究,学界关于虚字的探讨多局限于对个别诗人、单篇作品中虚字修辞功能的分析,侧重于定性解读,而缺乏在全时段、全样本视野下的量化比较研究。有鉴于此,有必要引入自然语言处理技术,对全量诗歌数据进行系统性的虚字标引,并结合回归分析等统计方法,展开历时性、群体性的实证考察,以期破除传统诗学研究中依赖主观印象判断的局限,从量化分析的视角揭示在诗歌发展历史脉络中虚字使用所呈现的总体趋势、阶段性差异与个体化特征,进而深入探讨其与诗歌散文化倾向之间的互动关系。

一、虚字使用与诗体观念

“虚字”在古代也称为“辞”“语助”,这里的“字”多指语词而非单用字,与今天的虚词概念接近。虚字无实义,却对文意贯通至关重要。刘勰《文心雕龙》曾论及虚字对诗文创作的作用:“又《诗》人以‘兮’字入于句限,《楚辞》用之,字出句外。寻‘兮’字承句,乃语助余声。舜咏《南风》,用之久矣;而魏武弗好,岂不以无益文义耶!至于‘夫’、‘惟’、‘盖’、‘故’者,发端之首唱;‘之’、‘而’、‘于’、‘以’者,乃劄句之旧体;‘乎’、‘哉’、‘矣’、‘也’,亦送末之常科。据事似闲,在用实切;巧者回运,弥缝文体:将令数句之外,得一字之助矣。外字难谬,况章句欤!”刘勰指出了不同句位虚字的表现,并点明虚字可作“语助余声”、增强韵律,还可以“弥缝文体”、组织结构,这在一定程度上肯定了虚字的价值;然而,他仍将虚字视为一种“剩语”。

随着历代学者对虚字用法的认识持续深化,其功能和地位也随之得到进一步提升。清人刘大櫆便提及,虚字能够传递作者神态:“上古文字初开,实字多,虚字少。典谟训诰,何等简奥,然文法要是未备。至孔子之时,虚字详备,作者神态毕出。”虚字虽不直接承载实义,却能巧妙地渲染作者情感、营造文章氛围。从这方面讲,文章用虚字有其独立于实字之外的重要意义。清代刘淇《助字辨略》有云:“构文之道,不过实字虚字两端,实字其体骨,而虚字其性情也。”马建忠在《马氏文通》中亦有“实字其体骨,虚字其神情也”的类似论述,从语法角度将虚、实两字并提,使得虚字彻底摆脱了实字的附庸地位,获得了应有的重视。

虚字的使用对于古代散文来说,无疑是正当且必要的。然而,以虚字入诗,尤其入律绝,却往往会招致诗论家的各种意见。关于诗歌能否使用虚字以及应当如何使用等问题,在唐及以前讨论不多。南朝梁钟嵘曾就当时诗歌创作中存在的“用事”流俗而殆同书抄的现象提出反对意见,其中便涉及虚字的使用问题:“故大明、泰始中,文章殆同书抄。近任昉、王元长等,词不贵奇,竞须新事,尔来作者,浸以成俗。遂乃句无虚语,语无虚字,拘挛补衲,蠹文已甚。”不过,钟嵘提出的“句无虚语,语无虚字”是从用事的对立面来说的,并没有正面探讨虚字使用的问题。

真正开始正面讨论虚字入诗并进行评鉴的情况,到了宋代才逐渐增多,至明清之际则蔚为大观。宋魏庆之《诗人玉屑》论及唐人句法,专门列有“虚字妆句”和“首用虚字”条,胪列张籍“长贫惟要健,渐老不禁愁”、杜甫“飘飖搏击便,容易往来游”、钱起“乍见翻疑梦,相悲各问年”、贾岛“渐老更思深处隐,多闲惟借上方眠”等数例,这在一定程度上体现了其对虚字入诗现象的关注。元陶宗仪《南村辍耕录》引赵孟頫语“作诗用虚字殊不佳”,则体现了对虚字入诗的否定态度。持此类观点的人不在少数,以至于后来诗坛逐渐形成了“实字多则健,虚字多则弱”的主流看法。当然,也有一些论者从诗歌鉴赏角度给出了较为中肯的意见,如方回在《瀛奎律髓》中说道:“诗中不可无虚字,然用虚字而不切,则泛也。”

杜甫善使虚字,很多诗论家尽管否定虚字入诗,却唯独给杜甫开了特例,其“江山有巴蜀,栋宇自齐梁”(《上兜率寺》,第2462页),“有”与“自”二字用得极妙,两字烘托出远近数千里、上下数百年的慨叹,因而常被后人称道。明代胡震亨便是典型代表,他一方面否定虚字入诗的合理性,认为“诗用助语字,非法也”,另一方面却对杜甫“馀力浮于海,端忧问彼苍”中的虚字运用表示赞赏,认为其用而不觉,而对王孟诗作中如“畅以沙际鹤,兼之云外山”及“依止此山门,谁能效丘也”之类的虚字使用,则直言“恶矣”。清代亦有诗论家指出“炼实字易”而“炼虚字难”,这也是在说虚字在诗中很难用得恰当,需要花大功夫。

明代诗论家不仅关注诗歌能否使用虚字以及如何使用的问题,还从诗史层面注意到唐代不同时期诗歌虚字使用的演变情况。如李东阳提到盛唐诗善用虚字:“诗用实字易,用虚字难。盛唐人善用虚字,其开合呼唤,悠扬委曲,皆在于此。用之不善,则柔弱缓散,不复可振,亦当深戒。”又谢榛《四溟诗话》谈论唐代七律时提到中唐诗虚字渐多:“七言近体,起自唐初应制,句法严整。或实字叠用,虚字单使,自无敷演之病。如沈云卿《兴庆池侍宴》:‘汉家城阙疑天上,秦地山川似镜中。’……观此三联,底蕴自见。暨少陵《怀古》:‘一去紫台连朔漠,独留青冢向黄昏。’此上二字虽虚,而措辞稳帖。……中唐诗虚字愈多,则异乎少陵气象。刘文房七言律,《品汇》所取二十一首,中有虚字者半之。如‘暮雨不知涢口处,春风只到穆陵西’之类。……凡多用虚字便是讲,讲则宋调之根,岂独始于元、白?”谢榛认为,初唐七律虚字皆得其力,中唐虚字入律现象愈发泛滥而敷衍薄弱,并举了钱起、刘长卿的具体诗例,以此说明虚字多用的情况并非始于元、白,而是中唐诗人群体所共有的特点。另外,“多用虚字便是讲,讲则宋调之根”点明了虚字不仅能够体现唐人的炼字技巧,而且其数量多寡反映了唐诗语体类型的演变。

钱锺书从历时角度梳理了诗用语助的情况。他首先指出,周秦之诗骚及汉魏以来之杂体歌行多“使语助以添迤逦之概”,极观于陈子昂《登幽州台歌》、李白《蜀道难》等,宋人不能望其项背;而后结合五言用虚字的情况,提到“唐则李杜以前,陈子昂、张九龄使助词较夥。然亦人不数篇,篇不数句,多摇曳以添姿致,非顿勒以增气力”;接着又从引古文元素入诗的角度论及唐前陶渊明通文于诗,到唐人元结“语助无不可用,尤善使‘焉’字、‘而’字”,最后落到“昌黎荟萃诸家句法之长,元白五古亦能用虚字,而无昌黎之神通大力,充类至尽,穷态极妍”。

谢榛讨论的是七言律诗,钱锺书主要讨论的是五言古体诗,二者从不同体裁角度分析了唐代虚字入诗的各种表现,并且涉及具体诗人的创作特点。总体来看,初唐诗和中唐诗用虚字的目的存在差异:前者主要为了“摇曳添姿”而“得其力”,后者主要是为了“讲”而“以文为诗”。虚字入诗,一方面是为了炼字以增添艺术效果,另一方面则是为了方便叙事与议论。多用虚字使得诗歌的意象由繁到疏、逻辑由弱到强,不同位置的虚字使用还会导致句式、句法跳脱出常见的对仗模式,而不自觉地带上散文化的特征,进而让诗歌能够更自由、更丰富地抒发情感和表达思想。

二、虚字涌现与“以文为诗”

虚字的凸显是诗歌散文化书写的重要标识。韩愈作为“以文为诗”的典型代表,几乎将散文中常见的各类语助词悉数移植入诗。因此,有学者认为韩诗“非诗”,而是“带韵的散文”,这种评价从其语汇选用的角度来看有一定道理,韩诗确实不符合传统诗歌在语汇运用上的典型特征。近年来,随着自然语言处理技术不断介入古典文学研究,研究者得以借助自动词法分析手段,对韩愈与其他诗人的词频差异进行比较验证。这一研究路径具有双重意义:一方面,它能够从量化视角重新审视并深化我们对韩愈诗体特征的认识;另一方面,它也可以进一步证实虚字的频繁使用与诗歌散文化书写之间具有强关联性。

与西方语言不同,汉语书面语无词语界限,因此,若要进行词频统计,首先面临的便是分词问题。汉语的自动分词是自然语言处理领域的一项基础任务,现代汉语领域的分词效果已经达到较高水准,而在古代汉语领域,由于不同时代、不同文体的语言特性有异,且古汉语的词汇标准在汉语理论中也未见统一,这些因素共同导致古汉语自动分词模型的整体效果不及现代汉语,在古典诗歌领域尤为明显。

有不少学者曾对古典诗歌分词技术做过探讨。俞士汶与胡俊峰提出了基于互信息的概率统计模型;罗凤珠则利用诗歌典型格律节奏来划定字串;年轻一辈如张家瑞等基于BPE(Byte-Pair-Encoding)算法,依据字词共现频率进行分词;潘长在(Changzai Pan)等提出TopWORDS-Poetry方法,结合格律信息并采用贝叶斯推理模型来分词。

需要指出的是,古典诗歌的自动分词处理不可避免地会面对语义优先还是节奏优先的关键问题。以唐诗为例,仅依靠经典格律“两字组合+三字脚”显然难以应对所有情况,谢思炜曾就白居易的七言诗总结出若干特殊句法模式,这表明固定格律并非万能的。况且,《全唐诗》中古体诗占比超40%,近体诗的固定格律规则覆盖范围相对有限。另外,若仅依照传统古文的语义进行分词也不尽合理,因为这忽略了诗歌本身独特的语词组成方式以及复合式的意象特性。国内鲜有关于古典诗歌分词的标准评测体系,各家制定或依照的规范也不尽相同,因此所得到的分词结果缺乏可比性,在人文研究领域的实际应用也十分有限。

由于本研究主要关注唐诗的语汇情况,2017年出版的《全唐诗词语通释》(以下简称《通释》)为唐诗文本的自动分词提供了关键参照依据。该工具书以《全唐诗》(中华书局1960年版)与《全唐诗外编》(中华书局1982年版)所录唐诗为限,收录“词目以语词为主(包括结构较固定、用例较多的词组)”。经统计,该书语词总量超10万条,以其收词立目为基准,能够有效避免自动分词规范问题上的诸多争议。此外,《通释》的词目字形与《全唐诗》《全唐诗外编》保持高度一致,这一特性使其非常适合作为自动分词的基础词表。除《通释》外,本研究另搜集整理了包括《中国古典诗词地名辞典》等在内的其他诗词类常用词典数据,制成混合词表,去重后总计21万条。研究使用Python调用HanLP工具包,融入混合词典底表进行辅助切分,进而得到最终分词结果。模型具体配置参数如表1所示。


通过自动提取韩诗词频,并以《全唐诗》总体词频为参照,计算相对词频量差,然后将差值降序排列,可以得到韩诗和唐诗整体对比中的用词偏好。公式描述为:


其中,pi(1)指韩诗中词i出现的相对频率(即单位占比),pi(2)则是筛除韩愈作品后唐诗总集中词i出现的相对频率,δpi为两者差值,若差值为正(δpi>0),代表该词在韩愈诗中更常见;若差值为负(δpi<0),则代表该词在《全唐诗》(不含韩愈诗)中更为常见。这种基于相对词频差的计量方式简单有效,容易被传统人文学者理解和应用。为便于比较分析,根据所得差值大小对结果进行降序排列。限于篇幅,抽取出差异最大的前50词绘制成图1,进行可视化展示。

在图1中,横轴代表二者的用词倾向,纵轴则按二者用词差异程度进行排序,差异越大,排名越靠前。以“我”为例,韩愈用“我”的概率远超《全唐诗》的总体水平,因此图柱向韩愈一侧倾斜,又因其概率差值最大,故排序位列第一。通过对该图的整体观察可以发现,前人基于阅读经验对韩诗语言特点的总结,在客观的数据计量分析中得到了充分验证和量化支持。图1左侧区域能够清晰地揭示出韩诗在遣词方面偏离唐诗总体的重要特征,遍布散文字法,特别是典型的虚字如“其、之、以、所、或、于”等名列前茅,后面还有“与、而、若、何、且、当、岂、者”等虚字使用频率均超出唐诗的总体水平。反观右侧,可以发现唐诗总体中包含了大量表达情感与描绘景物的意象,如“秋、花、风、春、月、愁”等,反映了唐诗注重抒情写景、意境营造的基本特点。


图1   韩愈诗与唐诗总体词移表现

此外,左侧还可以发现大量人称代词,如“我、子、汝、吾”等,此类在古代诗文评中亦可作虚字讲。“空堂黄昏暮,我坐默不言。童子自外至,吹灯当我前。问我我不应,馈我我不餐。……其言有感触,使我复凄酸。”(韩愈《秋怀诗十一首·其八》,第3767页),多用第一人称意味着诗人的自我确认意识较强。据罗时进等人统计,“初唐诗中‘我’字使用率很低,随着向盛唐发展而渐高,李白则居于顶峰。中唐走向偏底,至白居易形成又一高峰。晚唐则又稍低,但仍超出初唐”。这在一定程度上体现了诗人的个性和时代风气变化。多用第二人称则意味着文本的对话性与叙述性较强,如“黄鹄得汝去,婆娑弄毛衣。前汝下视鸟,各议汝瑕疵。汝岂无朋匹,有口莫肯开。汝落蒿艾间,几时复能飞。”(韩愈《南山有高树行赠李宗闵》,第3829页),采用借代手法和逻辑语序生动呈现场景,体现了寓文于诗的“讲”的特质。

上述以韩愈诗为例,从其创作的诗歌总体上揭示出其虚字入诗的显著特点。吴振华指出,虚字的使用是形成韩愈“以文为诗”诗法的关键因素,对后代(尤以宋代为甚)诗歌创作规范的重建及诗歌语言的革新产生了很大影响。以散文字法、句法、章法入诗并非韩愈一人独有,尽管其诗在当时诗坛并未引起足够重视,但其承前启后的作用不容忽视。如晚唐杜牧受其影响,亦有诗多用虚字者,如“人才自朽下,弃去亦其宜。……臣实有长策,彼可徐鞭笞。如蒙一召议,食肉寝其皮。斯乃庙堂事,尔微非尔知。向来躐等语,长作陷身机”(《雪中书怀》,5944页)。

诗论家注意到虚字入诗在唐诗各阶段的表现不尽相同,但这种认识多停留在有限的阅读体验层面,未能揭示出客观整体情况。葛兆光也提到,“说唐诗多用实字宋诗多用虚字的评论家其实并没有任何统计的依据”,虚字在唐诗中的发端及其发展态势究竟如何,以议论见长的宋诗在虚字使用上是承接了唐诗语体的发展趋势,还是异军突起或另起炉灶,这些问题都需要借助远读和量化的分析手段来回答。

三、虚字入诗的实相

闻一多认为,诗的语言讲究“弹性”,“而弹性的获得,端在虚字的节省”,并提到诗从《三百篇》《楚辞》到建安(《十九首》包括在内),“五言句法之完成,不是一件了不得的大事,而句中虚字数量的减少,或完全退出,才是意义重大”。所谓诗歌排斥虚字,是相对于散文的语言特性而言。事实上,虚字作为语言的有机组成部分,在任何文体中都不可能完全退出,其使用更多地呈现为一种阶段性衰减或增多的辩证发展过程。诗歌的语言并非全然无序的堆砌,像“鸡声茅店月,人迹板桥霜”(温庭筠《商山早行》,6741页)这种名词意象并列铺排的写法并不多见。一旦进入叙事,有关时空、因果、状态的描述便不可避免地介入进来,这时虚字所能发挥的功用也就不言而喻了。韩晓光指出,尽管虚词在近体诗中的出现频率不是很高,但门类很齐全,并例证了各词类(副词、介词、连词、语气词等)皆有体现。这为本文后续对虚字的统计分析提供了可行性验证依据。

使用统计的方法考察唐诗虚字,在20世纪80年代就已出现,程湘清等人以《唐诗绝句精华》中788首绝句为对象,对近体诗中虚词的使用情况展开了调查。统计结果显示,虚字的使用数量相当惊人,平均不到五个字就有一个是虚字,其中完全不用虚字的绝句,如“日暮苍山远,天寒白屋贫。柴门闻犬吠,风雪夜归人”(刘长卿《逢雪宿芙蓉山》)这类情况仅有71首,在总数中并不占优势。近体诗尚且如此,形式更为自由的古体诗应当更为普遍。由此可见,诗歌创作使用虚字斡旋是常态。不过前人只是粗略地观察了虚字在绝句中的总体数量,既未明确交代虚字如何界分,也未能从历时角度把握唐诗整体虚字使用情况的变化,而统计虚字在不同时期的使用频率和分布模式,可以进一步窥探唐诗整体语言体式风格的转向。

古人对虚字的认知与今人有异,诗歌内容上的“写虚”和语言体式上的“用虚字”有时会混为一谈。不过,虚字本身的核心内涵古今差异不大,谢榛所论虚字和今天的虚词概念颇为接近。不同于活跃的实词系统,虚词流传至今变化较小、表现稳定,是一个相对封闭的集合。从现代语法角度来看,汉语中的虚词通常包括介词、连词、助词、语气词,主要用于体现递进、转折、并列、顺承等逻辑关系。此外,还有两类虚实界限相对模糊的词:副词和代词。副词介于实词和虚词之间,用来表示状态,其系统同样具有相对封闭性,国内语言学家吕叔湘、朱德熙、陆俭明等人均将其归为虚词类,杨伯峻《文言虚词》亦将代词划定为虚词类。代词用来指称事物,古代诗文评所论虚字亦涉及代词,如谢榛《四溟诗话》有“夏正夫谓涯翁善用虚字,若‘万古乾坤此江水,百年风日几重阳’是也”,其中“此”“几”分别对应指示代词与疑问代词。

综合古人论评情况,本研究选定介词、连词、助词、语气词、代词、副词作为虚字考察范围。采用HanLP对诗歌文本进行词性标注,参考表1所示任务组合参数配置,使用分词与词性多任务联合标注方法,词性标记选用北京大学PKU标记集。自动词性标注主要致力于解决以下三个方面的问题:其一,尽可能区分出唐诗中存在的字形相同而语义全然不同的词,如“乱花渐欲迷人眼,浅草才能没马蹄”(白居易《钱唐湖春行》,第4957页)中的“才能”是表示“方才能够”的副词,而不是表示“才智和能力”的名词;其二,结合特定上下文语境确定某一多义词的具体义项和词性,如“所思如梦里,相望在庭中”(张九龄《秋夕望月》,第591页)中的“在”是介词,表示动作、行为进行的处所、时间、范围或事物存在的位置,“李杜文章在,光焰万丈长”(韩愈《调张籍》,第3814页)中的“在”则是动词,表示“存在,在世”;其三,依句辨品,结合上下文语境确定词类活用现象,如“东风已绿瀛洲草,紫殿红楼觉春好”(李白《侍从宜春苑奉诏赋龙池柳色初青听新莺百啭歌》,第1716页),其中“绿”是形容词使动用法,包含了“绿”的动作和结果,依据词性标注原则此处应按动词处理。

表2展示了机器自动分词和词性标注的实例。需要说明的是,面对庞大数据集,人工处理能力毕竟有限,采用机器自动分词与词性标注虽难以完全避免偏误,但借助《通释》进行辅助切分,这些偏误能够被控制在较小范围内。使用同一套标准对唐诗进行处理,对其内部各阶段虚字使用差异的比较影响较小,即便数据集的精度尚未达到最优水平,仍然可以有效地呈现唐诗虚字使用的整体水平和趋势,进而得出可靠结论。这种方法论恰恰体现了基于大数据研究的核心原则——庞大的数据量能够弥补个别数据点的不精确性,从而保证整体研究结果的准确性和可信度。


为了进一步验证机器标注的有效性,我们随机抽取了200条唐诗数据,并引入人工标校对照组,开展基于多评定者的Fleiss’ Kappa一致性检验,检验结果如图2所示,Kappa值达80%,表明标注一致性较为显著。


如表2所示,词性标注方法为每个词赋予了词性标签(如副词使用“/d”标记)。根据各类虚词标签,可统计每位诗人各自作品集的虚字使用密度。为了避免不同诗人作品量差异对虚字统计造成偏差,计算平均每万词的虚字数量,公式如(2)所示。


N(i)d代表某一特定诗人或特定分期i所有作品中常用副词的总数量。这里的“常用”指标记为副词且出现频次大于5的词,目的是进一步降低生僻词的标注偏误。以此类推,N(i)p代表常用介词的总数量,N(i)c代表常用连词的总数量,N(i)r代表常用代词的总数量,N(i)u代表常用助词的总数量,N(i)y代表常用语气词的总数量,N(i)all则代表所有类型的词的总数量,Fi即为某一分期或某位诗人平均每万词的虚字使用总量。当i表示特定诗人时,通过计算Fi并将结果进行可视化呈现,可以观察不同诗人的虚字使用差异。部分唐代诗人虚字入诗密度分布情况如图3所示。


将作者大致依《全唐诗》编排顺序从左到右展开,通过观察散点分布和趋势走向可以发现,唐诗的虚字使用在整体上呈现出线性增长的动态过程。为从统计学上验证这一线性趋势,以十个数据点为单位窗口进行分段线性回归分析,拟合优度指标R2=0.818(p<0.01),表明模型拟合结果较好。具体指标值如图4所示。


如果说韩愈“以文为诗”的写作体现了一种文学自觉,那么这种群体性的动态增长趋势则更多反映了语言的自发,它并不是关键人物或外部刺激决定论所导致的,而更像是诗歌语言内部的自然演化过程。

初唐诗避用虚字,用的相对多的是张九龄,其次是陈子昂,这一现象有力佐证了钱锺书“唐则李杜以前,陈子昂、张九龄使助词较夥”的说法。盛唐诗人分布较为离散,数值方差较大,各诗人虚字使用情况并不均衡,这与诗歌主题风格的多元化和个性化发展密切相关。不同的诗歌主题和风格需要不同的语言处理方式,虚字在其中的参与程度也各有不同。这一时期韦应物、李白、高适、杜甫的虚字使用处于较高水平,而常建的虚字使用相对较少。

“诗到元和体变新”(白居易《余思未尽加为六韵重寄微之》,第5000页),标志着中唐虚字使用已经明显高于初唐时期,从图3可以看出,韩孟、元白两大诗人群体皆频繁使用虚字。尤其是韩愈远超总体水平,处于全唐最高位,显著揭示了其诗用语助“神通大力,充类至尽”的特点。其次是白居易,而后是元稹、张籍、王建,诸位写实、尚俗的风格特点正需要借助大量虚字连接意脉,以实现通俗化抒情或叙事。韩诗奇诡,白诗平易,二者诗歌创作风格迥异,而虚字使用密度却不相上下,均处于较高水平。可见诗风比语体更复杂,仅用虚字密度来表征诗风显然是不够全面和存在欠缺的。余恕诚说:“如果说韩愈用虚字增加了诗歌语言的参差错落,白居易用虚字则增加了语言的流畅便利。”不过,“多用虚字便是讲”这一点在诗歌语境中是毋庸置疑的,不管是不平则鸣的韩愈,还是娓娓道来的白居易,其诗多反映人事变迁,更加贴近世俗生活,而表示“状态”“指示”“转折”“因果”等属性的虚字是人事描写不可或缺的语言要素。中唐之后,晚唐诗人群体的虚字使用水平分布非常集中,司空图、皮日休、陆龟蒙相对高,李商隐、杜牧处于中间水平,温庭筠、李群玉则相对低,不过晚唐在总体上要高于初唐和盛唐。

上述讨论并未区分古体和近体诗,实际上,古体诗的虚字使用频率在整体上历来变化不大,而近体诗变化则更为明显。图5呈现了仅考虑律绝的情况,可以发现这种线性增长的趋势并未发生变化。


从图5密度分布来看,初盛唐近体诗整体排斥虚字。林庚曾指出:“语言的诗化,具体地表现在诗歌从一般语言的基础上,形成了它自己的特殊语言;这突出地表现在散文中必不可缺的虚字上。如‘之’‘乎’‘者’‘也’‘矣’‘焉’‘哉’等,在齐梁以来的五言诗中已经可以一律省略。”其实从魏晋六朝一直到盛唐之初,诗歌语言总体上都是虚字渐少的,不过细化到具体诗人也有例外。如陶渊明通文于诗,其作品多使虚字而与众不同。在杜甫之前,张九龄近体诗虚字使用较为突出,如其作品“海上生明月,天涯共此时。……不堪盈手赠,还寝梦佳期”(《望月怀远》,第591页)就用“共”字来烘托诗人的无尽情思。

有学者提出杜甫近体诗的虚字使用数量位居唐代诗人之首。然而,从图5可以看出,阅读经验和统计结果存在些许偏差。若仅可考察杜甫之前的唐代诗人,此说法完全成立;但在老杜之后,情况发生了变化,白居易凭借其意脉流畅、通俗浅近的笔法成为虚字使用密度最大的诗人。相较之下,韩愈的近体诗虚字使用并不算突出,处于中唐平均水平,可见其“以文为诗”的实践重点是以古文作“古诗”而非近体诗。此外值得留意的是,晚唐司空图的近体诗虚字使用亦较为凸显,位列第二。其诗熟稔散文化叙事手法,一个突出表现便是虚字连用,如“林鸟频窥静,家人亦笑慵。……华宇知难保,烧来又却修。只应巢燕惜,未必主人留”(《即事九首·其七》,第7254页),再如“醉日昔闻都下酒,何如今喜折新茶。不堪病渴仍多虑,好向湖便出家”(《丑年冬》,第7275页),“频”“亦”“又”“只应”“未必”等虚字关联词迭出,起接转衬贯通意脉,增强了诗歌的叙事性。大量虚字的穿插运用,在促使诗歌语言走向散文化与通俗化的同时,也不可避免地削弱了诗歌的空间想象和意境营造。

四、余论

上述研究仅考察了有唐一代的虚字使用情况,若进一步纳入先唐及宋代诗歌数据,从更长的历史跨度来看,则会发现虚字入诗从来不是禁忌,其在先秦至宋的使用频率呈现出动态消长的变化过程。在公式(2)中,若将i设置为不同的历史分期,便可据此计算出历代古典诗歌中虚字的使用密度,结果如图6所示。


葛兆光曾指出,“从语言上看,在中国诗史上,从古体诗到近体诗、从近体诗到白话诗这两次变化是真正的大变局,前一次变局使诗歌与散文彻底划清了界限……后一次变局使诗歌与散文又重新彼此靠拢,诗歌与散文的重新靠近其实就是所谓的‘以文为诗’”。此评可谓鞭辟入里,图中所示虚字的消长过程,可视为诗文交侵的历史过程,其趋势走向勾勒出诗歌语体由松到紧再由紧到松的往复变化。

中国早期诗歌处于诗文分离的初始阶段,其语言与日常语言差异不大,虚字的使用密度接近于散文。从先秦两汉到魏晋南北朝再到初唐时期,语言的诗化进程持续推进,这期间的突出特点便是通过语言要素的减省,使得虚字的使用频率大幅降低。这种诗化策略促使诗歌逐渐趋向意象繁密,初盛唐之际语言的诗化过程基本完成,避用虚字似乎成为潜在规则。另外,近体诗确立,严谨的声律格式与对偶模式在构建诗歌创作标准的同时,其所形成的新传统和新规范也较大程度束缚了诗歌语言的活力。近体诗标准的确立为诗歌语言的运用提供了基本框架,而规则的制定往往也孕育着“破体”的基因,它既是进行创造性表达的基础,也是驱动诗人创新的内在动力。唐皎然《诗式》有云:“作者须知复、变之道,反古曰复,不滞曰变。若惟复不变,则陷于相似之格,其状如驽骥同厩,非造父不能辨。能知复、变之手,亦诗人之造父也。”

唐代诸多诗人在虚字运用方面展现出鲜明特色,这实际上是对当时诗歌句式和词汇组合规范的一种突破。他们通过重新引入并创造性地运用虚字,达到了冲击桎梏、破体为新的目的。这不仅丰富了诗歌的内涵和表现力,也促进了诗歌语体的进一步变革。正如林庚所言:“唐诗本身当然更是丰富了深入了诗歌语言的领域……事实上还存在着从日常语言中来又回到日常语言中去,一种否定的否定的辩证发展。”虚字在唐代重新回归,在中唐时期形成一个小高峰,晚唐后又呈陡增态势,并一直延续到宋代。宋诗的虚字使用密度远在唐诗之上,超越魏晋,仅次于先秦。这一数据表现为唐诗多用实字而宋诗多用虚字的阅读感受提供了客观的统计依据。

虚字的增减只是表象,实际上,它意味着诗歌在语体建构方式上的深层转变,而这种转变恰恰反映了创作主体对“何以为诗”与“因何为诗”的进一步探寻与思考。唐诗主情,宋诗主理,如今已成定论。由于“理”的表达需要主客体间清晰的信息传递,要求逻辑严谨、意脉流畅,故而带有极强的散文化倾向。这或许正是宋诗虚字显著高于唐诗的原因所在。在讨论唐宋诗风演变时,杜甫、韩愈、白居易多被前人拿来作为宋诗风格之肇始,其中尤以韩愈受评点最多。若从虚字使用密度来看,其诗与宋诗高度相似,且均超出各自时代总体使用密度的10%,这似乎也印证了韩诗与宋诗在语言体式上确有承继关系。

主理和议论固然会较多地使用虚字,但宋诗并非全然“以议论为诗”,其虚字密度要显著高于唐诗,这一现象并非仅由不同的诗歌主张所造成。从唐代各阶段直至宋代虚字密度呈现出的连续性攀升态势中,我们便可窥见端倪。这一过程有主“理”的外力推动,亦不能忽视语言因时而变的自发性,尤其是那些反映诗人群体的共同性特征,往往并非诗人个体刻意为之,而是汉语的整体使用习惯悄然发生了变化。此外,尽管宋诗的语言体式已显露出某种“现代性”,如白话与通俗意味加重,但从虚字使用密度发展的整体趋势来看,这种白话转向似乎并非始于宋,而是自唐代近体诗形成后不久便已悄然萌芽了。

2025年第11期

2025年第11期

山东社会科学

稿

SUBMISSION EMAIL ADDRESS

阅读原文

跳转微信打开

  •  

胡光华 吴夏平 | 唐代粤西诗路文人社交逻辑与关系链条可视化研究

胡光华  吴夏平 2026-01-29 10:03 北京

点击蓝字 关注我们

2025年第11期

2025.11

作者简介

胡光华,上海师范大学人文学院博士研究生,研究方向为数字人文、中国古代文学。

吴夏平,北京大学中文系博士后,上海师范大学人文学院中文系教授、博士生导师、数字人文专业博士点负责人、数字人文实验室主任、上海市数字人文资源建设与研究重点创新团队带头人,兼任中国刘禹锡研究会副会长、中国唐代文学学会理事、中国唐诗之路研究会理事兼秘书长等。主要从事数字人文、中国古代文学与文化、中国古典文献学研究。已出版专著9部、译著1部,其他著作多部,主编“数字人文教材系列”“数字人文研究丛书”;在《文学评论》等刊物发表学术论文90余篇。主持国家社会科学基金重点项目等3项,国家社会科学基金重大项目子项目、教育部哲学社会科学研究重大课题攻关项目子项目各1项。获省部级哲学社会科学优秀成果奖二等奖2次、三等奖2次。

本文原载《山东社会科学》2025年第11期,参考文献及注释参见本刊原文。欢迎转发与授权转载。如需转载请联系0531—82866416,联系人:陈老师。转载请注明来源!配图均来自网络。

[摘  要]以唐代粤西诗路为研究对象,借助QGIS空间分析与Gephi社交网络可视化技术,提取《全唐诗》《粤西诗载》及相关年谱、文集校注中的诗作与交往数据,可以系统探讨该地区文人的社交逻辑与关系链条。可视化分析表明,该文人社交网络的形成深受三类因素驱动:临近地缘、交通节点与情感共鸣。粤西在唐代尽管处于疆域边缘地带,却凭借发达的水路系统与关键节点功能,成为文人交往与文学互动的重要区域。诗人不仅通过实地交往与“异地想象”构建起跨地域的情感共同体,更在空间流动与位置变迁过程中,重构出“境遇共鸣型”“跨域想象型”与“跨圈层渗透型”三类关系链条。

[关键词]唐代粤西诗路;QGIS可视化;Gephi可视化;社交逻辑;关系链条

2025.11

阅读导引

一、数据来源

二、唐代粤西诗路文人社交网络构建

三、地缘、节点与情缘:唐代粤西诗路文人社交网络的内在逻辑

四、粤西贬谪文人关系链条的重构

五、结语

以往唐诗之路研究多聚焦于路、诗、人三大要素的分层梳理与综合考察,着重探讨特定人物、地点、线路或区域中文学创作与地域文化的关联性。然而,这类研究较少从群体视角切入来考察文人交往所构建的社会空间,更鲜少通过此类空间解码诗路文人的社交逻辑和关系链条。这一局限主要源于传统研究多采用文学地理学和历史地理学研究方法,使得学者多关注文学、历史与地域文化的显性关联,而文人互动中的隐性关系往往被忽略或遮蔽。大数据和人工智能技术的发展为改变传统研究模式提供了数据和技术支持,借助数字技术,研究者能够系统采集特定时空范围内文人群体的交往数据,通过计算,不仅可以揭示文人之间潜藏的隐性关联,还能对这些现象进行深入的学理阐释。有鉴于此,本文拟以唐代粤西诗路为例展开研究。该诗路以漓江、桂江、西江水路为交通与叙事纽带,贯穿唐代岭南道西部的大部分地区(主要包括桂、容、邕等经略使辖区,地理范围大致包括今广西壮族自治区核心区域及广东西部的肇庆、云浮等地),形成了一个独特的诗人行旅、交往与创作的地理与文化空间。本文尝试通过文本挖掘、社交网络分析、空间可视化等技术,揭示该诗路中文人互动所建构的社会空间,并进一步阐释其深层的社交逻辑与多样化的关系链条,以期从数字人文视角探索唐诗之路研究的新方法。之所以选择粤西诗路作为具体分析对象,主要基于两方面考虑:一是以往研究已为此奠定了坚实的学术基础。如钟乃元《唐宋粤西地域文化与诗歌研究》、殷祝胜《唐代文士与粤西》、孙昌武《柳宗元传论》、刘学锴《李商隐传论》等著作,对粤西文人交游情况进行了深入考证,为本文所论文人社交网络提供了丰富的交往数据支撑。二是唐代粤西与当时的政治中心长安、洛阳之间存在显著的地理阻隔。据《元和郡县图志》载,桂州“北至上都三千七百五里。北至东都三千四百五十五里”。正是由于这种遥远的地理距离,唐代流动至粤西的文人及其所构建的社会网络,便具有了突破空间限制的特殊意义,因而可作为唐诗之路社会空间研究的典型案例。

一、数据来源

本文以《粤西诗载校注》《全唐诗》为核心样本库,并辅以《柳宗元年谱长编》《苏味道李峤年谱》《沈佺期宋之问集校注》等年谱和文集校注类资料,系统梳理并纳入所有涉及粤西线路、创作地点位于粤西的诗歌,以及以送别友人赴粤西为主题的诗歌文本。

(一)《粤西诗载》

清代汪森编纂的《粤西诗载》收录了自汉代至明末有关广西的诗歌共计3118首。汪森在《粤西通载发凡》中曾言:“唐宋之时,以岭南为迁谪所居,然苟非诸君子,则无以开辟其榛芜,发泄其灵异。……在唐则宋之问、于邵、吴武陵、李涉、李渤、韦宗卿、戎昱、李商隐、李群玉、卢顺之、杨衡、陆弘休诸人”。凡例中所提及的唐代文人或官员,多因政治迁谪客居粤西,在此期间皆有诗文留存。他们虽处逆境却并未陷入消沉,反而以文人特有的感知力与创造力,将粤西的自然风物、地域民俗转化为诗文创作的核心素材。这些作品不仅赋予了这片土地深厚的文化意涵,更以诗文为关键媒介,搭建起文人之间相互交往的桥梁。《粤西诗载》中收录的唐代诗文呈分散状态,具体分布于卷二、卷六、卷十、卷十三、卷二十、卷二十一以及卷二十二。通过对同一文人及其关联诗作数量进行合并梳理,最终从该文献中析出有效样本文人59位、关联诗作152首。

(二)《全唐诗》

中华书局1999年版《全唐诗》及北京师范大学古籍所研发的“全唐诗数据库”,可补充《粤西诗载》未收录的诗作。首先需明确“粤西地理实体”的范围。鉴于唐代并无与现今“广西壮族自治区”完全对应的行政区划,研究将以现今地理范围为基础,参考《元和郡县图志》《旧唐书·地理志》《方舆胜览》等史料,构建唐代粤西地名库。确定以下三类粤西相关地理实体:其一为区域名,如象州、桂州、梧州、柳州等;其二为区域范围内的山川、堂舍、楼观等,如桂山、訾家洲、漓水、桂江、荔江、逍遥楼等;其三为自然地理实体的历史沿革与多种称谓,唐代诗人笔下的粤西自然地理名称,既涵盖现代仍沿用的水系、高山、要道之名,也包含不同时期、不同文献中出现的古称、新名与别称,如“桂江”在唐诗中也称“漓水”,正如文献所载,“桂江,一名漓水,经县东,去县十步。杨仆平南越,出零陵,下漓水,即谓此也”(《元和郡县图志》,第918页)。在确定地理实体范围后,借助“中国基本古籍库”的多条件检索功能进行地理命名实体识别,以批量提取《全唐诗》中明确提及粤西地名的作品。具体操作时,将“龚州+象州+桂州+昭州+蒙州+富州+梧州+浔州+郁林州+平琴州+宾州+澄州+绣州+柳州+融州”等区域名关键词录入古籍库检索系统,系统会自动筛选并展示包含上述关键词的《全唐诗》作品。同时,利用“中国基本古籍库”右栏展示的作品内容进行人工核验,进一步确认作品是否与粤西线路存在直接关联,以确保检索结果的准确性与针对性。通过上述方法,最终统计得到66位作者及其146首诗作。

(三)文人年谱和文集校注资料

部分诗歌虽未直接提及地名,但其作者生平活动与粤西密切相关,其情境与语境均指向粤西,具有较强的地缘关联性,故应纳入研究范畴。为弥补仅通过地名识别可能造成的遗漏,本文借助已整理的唐代重要文人年谱和文集校注进行补充。例如,柳宗元在柳州任刺史期间创作的《叠前》《叠后》,虽未出现“柳州”等地理实体名称,但明确作于广西柳州,且为与刘禹锡交往期间的作品。为避免此类数据遗漏,本文以《柳宗元年谱长编》《苏味道李峤年谱》《沈佺期宋之问集校注》等资料为依据,对相关作者的全集作品进行筛选,识别其在粤西期间或与粤西密切相关的诗作,包括题记、注释中明确标明创作地点的文本。通过上述方法,最终共补录31位作者的97首诗作,有效扩充了原有诗歌研究的样本量。

(四)数据汇总与消歧

在完成基础文献的诗歌筛选与补录工作后,笔者对所有数据进行了系统汇总。首先,将从《粤西诗载》《全唐诗》以及年谱、文集三类文献中提取的诗歌文本统一整理至Excel表格,并依据诗歌正文内容(而非诗题)进行比对与去重。不同文献所载诗题常存在差异,例如宋之问诗在《粤西诗载》中题作《桂林黄潭舜祠》,而在《全唐诗》中则为《桂州黄潭舜祠》;又如刘禹锡诗在《全唐诗》中题作《重至衡阳伤柳仪曹》,而在《粤西诗载》中则为《吊柳子厚》。此类诗题虽异,但诗歌内容实属同一作品,故均予以合并处理。除诗题差异外,部分诗歌正文在不同文献中亦有文字出入。如戎昱《桂州西山登高上陆大夫》一诗,在《粤西诗载》中首句为“登高上山上”,《全唐诗》则作“独上西山上”。此外,还存在同一首诗被归入不同作者名下的情况,如张籍《蛮州》与杜牧《蛮中醉》实为同一首诗,综合考虑杜牧未曾涉足粤西的经历,可认定该诗应为张籍所作。处理此类重复项时仅保留其一,所有判断均以《全唐诗》为基准。在完成诗作合并与筛选后,笔者进一步对《粤西诗载》中所录诗作进行甄别,旨在剔除其中与粤西诗路主题无关或地理范畴不符的篇目。例如,杜易简《湘川新曲二首》所涉“湘川”并不属于粤西,王维《送杨少府贬郴州》中的“郴州”在唐代亦处于岭南道辖境之外,均属误收,故不予采用。最终,共汇总得到唐代诗人88位、诗作287首。

二、唐代粤西诗路文人社交网络构建

唐代文人的社交往来,常以诗歌作为重要载体与见证,社交类诗作更是梳理文人交往脉络、构建社交网络的核心素材。这类诗作不仅记录了文人之间赠答唱和、送别怀友、拜谒寄情等互动场景,而且其蕴含的作者、受赠对象、创作空间等信息更是解析粤西诗路文人社交关系的关键线索。因此,构建唐代粤西诗路文人社交网络,首先需从系统筛选与整理社交类诗作入手,明确参与交往的文人群体及相关作品数量,为后续的交往对象考证与网络可视化分析奠定基础。

(一)社交类诗作处理

基于前文汇总的287首诗歌,本文首先以诗题中明确包含“赠”“酬”“答”“和”“送”“别”“谒”“寄”“怀”等社交类关键词的作品作为初步筛选依据;进而,对虽未直接出现上述关键词,但依据相关年谱、文集资料可判定为与粤西人际交往密切相关的诗作予以补录。经系统梳理,最终共得到涉及粤西诗路社交往来的唐代作家59位、诗作147首。根据统计结果,柳宗元以29首相关作品位居首位,李商隐(11首)与张说(10首)分列第二、三位,这反映出他们在粤西社交网络中的活跃程度与文学影响力。曹邺、戎昱、刘禹锡等人的作品数量为4—6首,属于重要参与者。此外,有50位诗人仅存1—3首诗作,虽数量有限,却体现出粤西诗路文人群体构成的广泛性与多样性。

(二)交往对象数据处理

在构建诗人交往网络的过程中,所涉及的交往对象主要参考《全唐诗人名考》《唐刺史考》《唐方镇僚佐考》《唐人行第录》等文献资料。例如李商隐《寄成都高苗二从事》一诗中之“高苗”,经前人考辨多认为“高”指高锴,而吴慧在《李商隐诗要注新笺》中提出了质疑;又据戴伟华《唐方镇僚佐考》所引《高瀚墓志》考证,可知“高从事”更可能是高瀚。至于“苗从事”,在《全唐诗人名考》中被认为可能是苗愔、苗恽、苗恪三人之一,结合《李商隐诗要注新笺》考证,更可能为苗恪。对于无法准确考据者,如张说《南中别陈七李十》中之“陈七”“李十”,则依据原文保持原称,并在网络中以其行第作为人名识别。这类难以考证的行第人名,虽然在整体中所占比例较低,但在具体识别与处理过程中仍需保留。通过基础统计与图形可视化手段,对唐代粤西诗路网络的结构特征进行分析,能够为理解唐代粤西诗路文人的社交逻辑与关系链条提供实证基础。

(三)可视化呈现

为在Gephi平台中实现可视化,首先根据上述数据构建相应的CSV格式数据集。其中,nodes(节点)指表格中所有存在交往关系的诗人,具体来源于source(源节点ID)列与target(目标节点ID)列中的诗人实体;edges(边)则代表诗人间的交往关系,表格中每一行数据即对应一条“节点A→节点B”的有向关系。接下来将进行网络分析与可视化优化,布局算法选用Fruchterman Reingold。该算法旨在生成美观的图形,具体目标包括尽可能减少边的交叉,并实现节点的均匀分布。其工作原理是模拟物理系统中的引力与排斥力相互作用,通过不断调整节点位置,直至系统达到一个相对稳定的平衡状态。最后,在可视化参数设置方面,调整节点的大小与颜色,边的粗细程度则根据对应边的交互次数(权重值)进行映射,从而直观突出网络中频繁的诗路互动关系。可视化结果见图1:


图1  唐代粤西诗路文人社交网络图

三、地缘、节点与情缘:唐代粤西诗路文人社交网络的内在逻辑

唐代粤西诗路文人所形成的社交网络,呈现出多核心、分布式的复杂结构,打破了以单一中心为主导的传统文人交往模式。粤西独特的地理与人文环境,为跨群体、跨层级的社交互动提供了特殊媒介,构建出文人、宗教人士与隐逸者等多种身份交织的复合型关系网络。该地区湿热的气候与边缘的地理属性,既强化了贬谪文人的失意情绪,也意外地成为他们之间产生精神共鸣的纽带。这种情感连接,既源于亲历者的贬谪经历与在地书写,也源于未至者的异地想象与文本再创,二者共同塑造了粤西诗路社交网络的精神内核与情感维度。

(一)地缘:空间关联与水路网络

由上文第二部分社交类诗作数据统计可知,柳宗元是社交诗创作最多的诗人。为何柳宗元的社交活动如此频繁?除其自身影响力外,是否还存在其他关键动因?笔者将其贬谪路线、社交对象及诗作提及人物的地理空间数据导入QGIS进行空间可视化分析,结果清晰地发现,地缘因素在其社交网络中扮演着至关重要的角色:其社交对象的空间分布,除核心地柳州外,主要集中于周边的湖南、湖北、广东三省,同时也辐射至福建及都城长安,形成了以贬谪地为中心、向周边交通便利之处延伸的社交空间格局。

笔者基于QGIS平台开展了技术操作。首先,引入“中华文明之时空基础架构”提供的WMTS服务,再导入河流与湖泊作为核心底图。在此基础上,笔者参照WMTS服务中“唐代交通路线图”的信息,通过手工描摹的方式还原路线轨迹,力求最大程度地复现唐人实际行进路线。因古今地理坐标系差异致经纬度偏差,笔者借助QGIS加载唐代交通路线图定位地名,以缩小误差来实现粤西贬谪路线空间重构与可视化。图2和图3为制作柳宗元贬谪路线及其粤西社交网络空间图的相关数据表截图。


图2   柳宗元贬谪路线相关数据表截图


图3   柳宗元粤西社交网络相关数据表截图

图2与图3中,“name”列对应具体地名,“poem”列是相关诗歌标题,“XY”列代表地理经纬度,其数据来源于“中华文明之时空基础架构”中的“唐代交通路线图”,“reference”列为参考资料条目。为精简表述,除另有说明外,下文所有数据表头的含义均以此处解释为准。基于上述数据,我们对柳宗元的贬谪路线及其在粤西地区的社交网络进行了数字化处理,并通过QGIS平台生成了空间可视化成果(如图4所示)。


图4   柳宗元贬谪路线及其粤西社交网络空间图

图4中,直线标示的是柳宗元在柳州的社交网络空间分布,描摹的线条则代表其自长安至柳州的贬谪路线。据载,柳州“北至上都四千二百四十五里”(《元和郡县图志》,第926页),如此遥远的距离若取陆路,不仅耗时更长,旅途亦更为颠簸艰辛。“三月,宗元自长安赴柳州,与刘禹锡同行。行商州,上湘江,至长沙驿,抵衡阳,临湘水与梦得别,五月再至界围岩,六月二十七日至柳州。”从图4中可以清晰地看到,柳宗元从商州出发后,沿丹水、汉水、湘江、漓水、柳江,全程以水路为主,仅耗时三个多月便抵达目的地,相比陆行更为迅捷平稳。正因水路畅通,柳宗元在贬谪期间仍能与湖北江陵、湖南衡州与郴州等地的亲友保持密切联系。刘禹锡在《重至衡阳伤柳仪曹》中回忆:“元和乙未岁,与故人柳子厚临湘水为别。柳浮舟适柳州,余登陆赴连州。”这一记载印证了从衡阳循水路前往柳州在当时已是一条非常便捷的通道。此外,柳宗元在柳州期间所作诗篇,如《得卢衡州书因以诗寄》《同刘二十八哭吕衡州兼寄江陵李元二侍御》,以及《奉和杨尚书郴州追和故李中书夏日登北楼十韵之作依本诗韵次用》《杨尚书寄郴笔知是小生本样令更商榷使尽其功辄献长句》等多首酬赠杨於陵的诗作,均从侧面反映出他与这些身处异地的友人,正是依靠便利的水路交通,保持着频繁的诗文往来与情感联络。

再来看与柳州地缘相近的几个点,其东至桂州可以借助柳江走水路,柳州“东至桂州五百四十里”(《元和郡县图志》,第926页)。柳宗元留有《桂州北望秦驿手开竹径至钓矶留待徐容州》,诗中“徐容州”所指,正是元和十年(815)由长安令调任容管经略使的徐俊。而柳宗元恰于同年三月受命出任柳州刺史,赴任途中先抵达桂州,遂作此诗留赠徐俊。

柳宗元在柳州任上仍与容州的徐俊有诗歌唱和,其《酬徐二中丞普宁郡内池馆即事见寄》一诗中提及的“普宁郡”,即对应唐代的容州。《元和郡县图志》载:柳州“东至象州一百六十里”(《元和郡县图志》,第926页),象州“东南至浔州二百一十里”(《元和郡县图志》,第925页),浔州“南至绣州八十里”(《元和郡县图志》,第954页),党州“北至绣州五十里”且“东南至容州一百五十里”。将上述节点里程依次累加可知,当时从柳州至容州全程约六百五十里。

连州既是刘禹锡的贬谪之地,亦是柳宗元与刘禹锡在地缘层面交往最为密切的地区。从柳州前往连州的路线可梳理为:先抵达桂州,再沿水路南下至昭州,随后向东经贺州最终抵达连州。《元和郡县图志》载:柳州“东至桂州五百四十里”(《元和郡县图志》,第926页),昭州“西北至桂州二百里,水路三百里。……东至贺州三百里”(《元和郡县图志》,第924页),连州“西至贺州捷路二百七十里,取道州桂岭路三百六十里”(《元和郡县图志》,第711页)。将上述各段里程依次累加可知,当时从柳州至连州全程约一千三百一十里。

柳宗元谪居柳州期间,与浩初上人多有交往,其诗作《与浩初上人同看山寄京华亲故》便是二人交游的明证。刘禹锡《海阳湖别浩初师》序曰:“前年省柳仪曹于龙城,又为赋三篇,皆章书。今复来连山,以前所得双南金出于裓,亟请予赓之。”此段文字表明浩初串联两地的行迹,也暗示了柳州与连州因地缘相近、交通便捷,成为贬谪文人与僧人交往的重要地点。柳宗元谪居柳州期间,正是依托柳州与连州相近的地缘便利,始终与被贬连州的刘禹锡保持着密切的诗文唱和。为此,他先后写下多首专门赠答的诗篇,具体包括《答刘连州邦字》《登柳州城楼寄漳汀封连四州》《叠后》《殷贤戏批书后寄刘连州并示孟仑二童》《重赠二首》《叠前》。这些诗作既承载着二人跨越地域的情谊,也从文人交往的视角印证了柳、连两地在地缘上的紧密关联。

从封州前往柳州,同样可选择全程水路通行,具体路线为:沿西江水路先至梧州,再转往昭州,随后继续经水路抵达桂州,最终南下前往柳州。《元和郡县图志》载:封州“西北溯流至梧州五十里”(《元和郡县图志》,第899页),梧州“西北溯流至富州三百二十里”(《元和郡县图志》,第920页),富州“西北至昭州一百六十里”(《元和郡县图志》,第931页),昭州“西北至桂州二百里,水路三百里”(《元和郡县图志》,第924页),桂州“西至柳州五百四十里”(《元和郡县图志》,第918页)。据此推算,当时从封州至柳州全程约一千三百七十里。柳宗元有诗作《登柳州城楼寄漳汀封连四州》,诗题中明确提及的“封州”,即印证了封州与柳州在唐代的地缘关联。

综合前文提及的与柳州地缘相近的桂州、容州、连州、封州等地可知,这些地域与柳州的空间距离并不算远——最近者仅五百余里,最远者亦不过一千多里。更重要的是,唐代从广东进入粤西地区时,可依托西江航道全程水路通行,这一便利条件极大地降低了地域往来的阻碍,为粤西诗路沿线文人与周边地域文人之间的日常往来、文学创作交流提供了重要便利。

柳宗元以柳州为交往中枢,其地缘紧邻湖南、湖北与广东诸道,诗题中频繁出现的“衡”“漳”“汀”“封”“连”“韶”等州,映射出他与周边地区的多向文学互动。柳州不仅是他贬谪生涯的落脚点,更成为反向辐射湘、粤、鄂等地的人文枢纽,由此构建起一个兼具流动性与反馈机制的文化网络。在与容州、连州、韶州、封州、衡州、漳州、汀州等地的诗歌往来中,柳宗元既依托地理邻近性,也凭借文本交际建立起跨域连接,展现出广阔的交往格局。诗题中不断提及各地友人,正是彼此之间紧密联系、频繁交流的体现。这种情况表明,柳州在粤西这一地理空间中,并非处于边缘地位,而是一个能够主动推动并维持跨地区信息与文化往来的重要中心。

二)节点:粤西贬谪路线上的分离与交汇

唐代粤西地区远离政治中心,其独特的贬谪路线及沿线关键节点构成了一个动态变化的“社交场域”。贬谪文人的行程被官方文书和地理条件严格限定,他们的相遇、停留、赠别、唱和几乎必然发生在这些节点上。因此,交通网络的结构直接“编程”了他们的社交网络。在桂州、柳州、梧州、钦州等重要节点形成的社交关系,其深度和广度可能远超在某个偏僻贬所数年的社交关系。这种由空间位移强制催生的高浓度节点社交,构成了贬谪文人社交逻辑的底层基础。钦州和桂州作为其中具有代表性的重要节点,可通过具体案例进一步印证其社交枢纽作用。如图5所示的宋之问贬谪钦州相关数据,即可作为基础素材生成其贬谪钦州行程的具体路线图。


图5   宋之问贬谪钦州相关数据表截图

图5宋之问贬谪钦州相关数据表截图图5展示了宋之问贬谪钦州路线数据的数字化处理结果,将这些数据导入QGIS软件进行处理后,最终生成的可视化结果如图6所示。


图6   宋之问贬谪钦州路线图

图6宋之问贬谪钦州路线图图6为宋之问第三次被贬钦州的路线图。他第一次被贬至泷州,第二次被贬至越州。第三次贬谪前,他从越州被诏回京,因此本路线图的绘制起点设定为洛阳。由图6可见,其行程路线为:从洛阳出发,取道江西,翻越大庾岭进入岭南地区,抵达广州后,溯西江而上至端州,随后继续前行进入梧州。

端州乃唐代进入粤西的关键枢纽,宋之问经此地留有诗作《端州别袁侍郎》:“合浦行未极,端溪行暂临。泪来空泣脸,愁至不知心。”(《全唐诗》,第643页)首句清晰勾勒出唐代从广东进入广西的一条官方通道。彼时,从广东入广西,端州是必经之地。从空间位置看,“合浦”对应图6中标注的廉州,但结合宋之问贬往钦州这一背景,此处“合浦”实为钦州的代称。“汉平南越,置合浦郡,今(钦)州即合浦郡之合浦县地。按合浦在廉州界,宋分合浦置宋寿郡。梁武帝于今钦江县南三里置安州,隋开皇十八年改安州为钦州,取钦江为名也。大业三年改为宁越郡,武德四年平萧铣,改为州,仍为都督府,贞观元年罢都督府,复为州。”(《元和郡县图志》,第952页)除宋之问外,张说被贬钦州时亦经由此路进入粤西,并留有诗作《端州别高六戬》(《全唐诗》,第946页)。张说因替高戬辩白而与之同贬岭南,二人相伴踏上贬途,行至端州时不得不分手,可以说端州在粤西诗路上具有“社交交汇与分离节点”的特质。诗中颈联“西江瘴疠多”,进一步印证了端州的节点价值,它位于唐代从广东进入粤西的核心路线上:自端州溯西江而上,经梧州后可继续前往钦州。这一记载与宋之问的行迹相呼应,共同说明端州不仅是诗人社交互动的关键站点,更是连接广东与粤西腹地、串联“西江—梧州—钦州”交通线的重要枢纽。

从图6中可见钦州位于粤西极南之境,它虽然地处南荒,但与中原地区仍保持着密切联系。张说抵达钦州后,曾多次与朝廷派遣的使臣交往,并留下多首送别诗作,有《岭南送使二首》《岭南送使》《南中送北使二首》。张说在诗中反复以“北使”“京周”“洛阳”指代中央政权,如其《南中送北使二首》曰:

传闻合蒲叶,曾向洛阳飞。何日南风至,还随北使归。红颜渡岭歇,白首对秋衰。高歌何由见,层堂不可违。谁怜炎海曲,泪尽血沾衣。

待罪居重译,穷愁暮雨秋。山临鬼门路,城绕瘴江流。人事今如此,生涯尚可求。逢君入乡县,传我念京周。别恨归途远,离言暮景遒。夷歌翻下泪,芦酒未消愁。闻有胡兵急,深怀汉国羞。和亲先是诈,款塞果为雠。释系应分爵,蠲徒几复侯。廉颇诚未老,孙叔且无谋。若道冯唐事,皇恩尚可收。(《全唐诗》,第966页)

“北使”南来,象征着朝廷对岭南地区的行政管辖与信息传递。张说与他们的诗文往来,就成为一位流放者对权力中心的间接回应与情感维系。一方面,他借“北使”向朝廷申述自身的冤屈;另一方面,他始终心系国事,不忘政治抱负。诗中更以廉颇、孙叔敖、冯唐等历史人物自喻,隐晦表达了自己渴望再度被朝廷召用的愿望。最终,张说的努力没有白费。唐中宗即位后大赦天下,他得以被召回朝中,任兵部员外郎。

与钦州并重,桂州亦是关键枢纽。李商隐正是依托桂州幕府,构建起与南土僧侣、昔日旧友的社交网络。《五月六日夜忆往岁秋与彻师同宿》中“万里飘流远,三年问讯迟”(《全唐诗》,第6303页),直接道出了他被贬后的境遇:身处“万里”之外的“炎方”,与故人(包括彻师)的音信往来已“迟”至三年,空间上的阻隔与时间上的疏离,将诗人失意、孤独的情绪推向了极致。再观其《奉寄安国大师兼简子蒙》:“忆奉莲花座,兼闻贝叶经。岩光分蜡屐,涧响入铜瓶。日下徒推鹤,天涯正对萤。鱼山羡曹植,眷属有文星。”(《全唐诗》,第6268页)首联唤起诗人往昔亲承安国大师教诲、聆听佛法的珍贵记忆,字里行间满是对这段修行时光的珍视。颔联则回到具体生活场景中,让往昔与大师共度的清幽岁月愈发鲜活。颈联笔锋一转,由回忆跌入现实:“日下”化用荀隐“日下荀鸣鹤”之典,追述自己在京师时曾受到大师的推许;“天涯”点明如今自身被贬桂州的处境;“萤”化用车胤囊萤事,描述自己贫寒的文士生涯。一昔一今、一荣一枯的对比,将心境落差渲染得淋漓尽致。尾联则化用曹植鱼山闻梵的典故,表达了对安国大师的怀念。

在桂州幕府期间,李商隐亦时常怀念昔日友人,遂有诗作《怀求古翁》:“何时粉署仙,傲兀逐戎旃。关塞犹传箭,江湖莫系船。欲收棋子醉,竟把钓车眠。谢真堪忆,多才不忌前。”(《全唐诗》,第6303页)“求古”指的是李远,因李远比李商隐年纪大,故称其为“翁”。“何时粉署仙,傲兀逐戎旃”,由此可知李远以郎官之身而出任幕职,李商隐作此诗当是与友人共勉。还有如《寄成都高苗二从事》《酬令狐郎中见寄》等诗作,也进一步反映出李商隐以桂州为中心所展开的文学交往。这些作品不仅体现了诗人丰富的情感世界与独特的人生际遇,更凸显出桂州幕府作为粤西交通与文化枢纽的重要地位——它不仅是人员往来、信息传递的关键节点,更是文人交游、唱和与情感维系的重要舞台。

宋之问在此处留有《桂州陪王都督晦日宴逍遥楼》《和赵员外桂阳桥遇佳人》等诗作。在《桂州陪王都督晦日宴逍遥楼》一诗中,他写道:“晦节高楼望,山川一半春。意随蓂叶尽,愁共柳条新。投刺登龙日,开怀纳鸟晨。兀然心似醉,不觉有吾身。”(《全唐诗》,第659页)诗人于逍遥楼上远眺,见山川半掩春色,心境却随蓂叶凋零而渐衰,愁绪如柳条新发般萦绕。在投谒贵宦、际会如登龙门之时,他却仍于晨鸟声中敞开胸怀,最终兀然忘我、如醉如痴,展现出一种超然物外、暂脱尘虑的精神状态。该诗不仅抒发了他在政治失意时的复杂情绪,更反映出文人在宴游唱和中寻求精神慰藉的常态。

柳宗元有《桂州北望秦驿手开竹径至钓矶留待徐容州》:“幽径为谁开,美人城北来。王程倘余暇,一上子陵台。”(《全唐诗》,第3946页)诗中所谓“幽径”,乃诗人亲手开辟的竹径,直通钓矶,而其目的竟是迎接远道而来的友人徐俊。此诗不仅记录了柳宗元的一段个人交往故事,更折射出桂州在唐代作为粤西交通与文化枢纽的重要地位。众多文人官员或因贬谪或因调任途经此地,往往在此暂住,诗文赠答,互通声气,形成一张以宦游、羁旅为纽带的人际网络。

(三)情缘:真实的共鸣与想象的纽带

唐代粤西诗路不仅是一条地理通道,更是一张情感交织的网络,其中“真实的共鸣”与“想象的纽带”共同编织出深厚的情缘。这一文化共同体依托于高频次、深情感的“强连接”,具体体现为贬谪文人真实情感的输出与异地想象的双重构建。所谓“强连接”,既包括身处粤西的诗人与僧侣、隐者等地方人士的直接交往,也涵盖未亲临粤西者借助诗歌所建立的跨时空精神连接——后者所生成的“异地想象”,成为衔接中原与边缘、真实与虚构的特殊情感纽带。

柳宗元在柳州与浩初上人同看山峦,作《与浩初上人同看山寄京华亲故》,借异乡山水寄托对故园亲旧的深切思念。曹邺则以《听刘尊师弹琴》记录与刘尊师听琴论道、清心独处的幽邃心境,这些皆为亲历者在粤西土地上生发的真实情感共鸣。王昌龄、杜甫等诗人虽未亲临粤西,却通过送别诗将边地风物与别离之思熔铸于文字之间,与粤西本土的诗文活动形成了隔空呼应,从而拓展了粤西诗路的情感维度与想象空间。

一方面,亲身抵达粤西的诗人,常以诗强化南疆与中原的空间对立,构建共通贬谪心理图谱以引发共鸣。柳宗元 “海畔尖山似剑铓”(《与浩初上人同看山寄京华亲故》),以奇崛意象勾勒南方蛮荒险峻,与中原温婉平和形成对比;李商隐 “万里飘流远”(《五月六日夜忆往岁秋与彻师同宿》),以直白慨叹道尽贬谪漂泊孤寂。二诗风格虽异,却共同锚定贬谪者对地理与心理距离的双重感知。柳宗元与刘禹锡的 “文学同盟” 是贬谪群体连接的典型。二人同因“永贞革新”失败被贬,在流放中形成 “书信唱和—诗歌互赠—思想共鸣” 的紧密联系,这份连接远超文字,更是精神深度契合,成为贬谪文人困顿中相互慰藉、坚守志节的精神支柱。又如裴夷直与李珏:开成五年(840)八月,李珏由宰相贬桂州刺史,会昌元年(841)三月再贬昭州(今广西平乐);裴夷直同年由杭州刺史贬驩州司户,途经漓江得李珏热情接待,遂作《题江上柳寄李使君》(《全唐诗》,第5904页)。诗中 “桂江南渡无杨柳”,既实写桂江南少柳的地理特征,又暗喻贬谪环境的陌生苍凉;“应学郡中贤太守,依依相向许多情”,则以委婉笔触赞李珏贤德,传递同是天涯沦落人的惺惺相惜之情。这种因相似命运而生的真挚交流,在异乡贬所更显纯粹珍贵。

另一方面,“异地想象”构成了未亲至粤西的诗人参与边陲书写的重要方式。例如,王维有诗作《送邢桂州》:“铙吹喧京口,风波下洞庭。赭圻将赤岸,击汰复扬舲。日落江湖白,潮来天地青。明珠归合浦,应逐使臣星。”(《全唐诗》,第1273页)王维并未亲历粤西,却凭借对友人赴任行程的想象,以“铙吹喧京口,风波下洞庭”开篇,继而用“赭圻将赤岸”勾勒出从京口至粤西的水路脉络,更以“明珠归合浦”的典故,巧妙地将粤西地域传说与对友人赴任的期许相融合。这类诗人虽未踏足岭南,仍通过赠别、寄怀诗构建粤西图景、投射情感,形成跨地域社交参与方式,成为连接中原与岭南的隐形纽带。

为探究其交往逻辑,借助 QGIS 对相关诗作指向的粤西目的地开展分析,数据源于前文社交类诗作筛选。具体筛选标准为:选取未至粤西的诗人在其赠别、寄怀等诗作中,提及其友人即将前往粤西的作品。涉及地点里,桂州关联诗作 26 首,容州 11 首,柳州 4 首,苍梧、象州各 3 首,贺州 2 首,绣州、邕州、昭州各 1 首。热力图直观显示,诗人送友人赴粤西的目的地集中于桂州,其次是容州,其余地区亦有分布,数据导入 QGIS 后得到可视化结果,如图7所示。


图7   粤西诗路“异地想象”诗作热力图

热力图能够快速且直观地呈现粤西地区诗人送友人的集中区域。通过对图7的分析可以发现,桂州地区的热力值偏高,这表明诗人与前往桂州的友人交往频繁,社交活跃度高;相比之下,像贺州热力值较低,则反映出社交活动相对匮乏。进一步观察图7可以看出,热力区域主要集中在桂州、柳州和容州,且这些地点多沿水路分布,说明与即将前往粤西的文人相关的社交诗作并非凭空想象,而是依托于真实的交通脉络与行政节点展开的。诗人尽管未曾亲临粤西,却通过社交诗作构建出一种基于“异地想象”的跨地域参与方式。他们凭借对粤西的地理传闻与情感投射,将友情、理想、慰藉与乡愁融注于具体空间之中,使诗作成为连接中原与岭南、自我与他者的情感媒介,最终实现了超越物理距离的社交互动与情感共鸣。

杜甫、王维、王昌龄等诗人均创作过送友人前往粤西地区的诗作,如王昌龄《送任五之桂林》。任五即任华,时被贬桂州。“楚客醉孤舟,越水将引棹”,以“楚客”“越水”的地理意象铺垫行程的遥远;“山为两乡别,月带千里貌”,以山水、明月寄托离别之思;更以“桂林寒色在,苦节知所效”,预设友人在粤西的坚守。诗中“僻幽闻虎豹”的险恶想象、“寒色”中的“苦节”期待,虽源于对边陲的间接认知,却精准捕捉到贬谪者的典型境遇,将友人的远行转化为对边陲苦难的共情。这种想象并非凭空虚构,而是基于唐代对粤西的普遍认知与社交网络中的信息传递,使未亲历者得以参与粤西诗路的情感共鸣,与那些身处境内或曾亲历粤西的诗人的创作形成跨时空对话。

无论是亲历者对粤西的直接抒写,还是未至者基于“异地想象”的文学建构,最终都成为粤西诗路文人情感网络的关键构成。亲历者如柳宗元、李商隐,以“炎方”的蛮荒、“尖山似剑”的奇崛、“烟柳依依”的温婉等实景意象,强化了身处边陲的在场体验,传递出贬谪时的复杂情感;而未至者如王维、王昌龄,则借助“僻幽闻虎豹”的险恶想象、“桂林寒色”的清寂勾勒、“合浦珠还”的典故化用等意象符号,拓展了粤西书写的想象边界,也深化了其文化内涵。两类诗人虽身份有别、观察视角各异,却都依托诗歌这一媒介,跨越地理空间的阻隔,共同构建起一个虚实交织、情感共振的文化共同体。由此,粤西诗路不再仅仅是物理意义上的交通通道,更化作一张融合真实体验与想象投射、连接中原文化与边缘风情的情感网络。

四、粤西贬谪文人关系链条的重构

当文人因贬谪从政治中心迁移至遥远的粤西,其社交关系也在空间位移与诗歌往来的双重作用下被重新编织。他们脱离原有的京洛交游圈,转而依托地理邻近性、共同贬谪遭遇或内在文化认同,逐渐形成新的社交聚落。这些聚类内部互动频繁、情感凝聚,体现出鲜明的群体归属感与精神共鸣。与此同时,不同聚类之间,如贬官群体、地方官员、僧道隐者乃至仍居中土的其他文人,也凭借诗歌赠答、物质帮扶、信息传递等多种媒介保持联系。这些跨群互动因其动机、媒介与功能指向的差异,呈现出多元的交往形态:或为情感慰藉,或属功利支持,或是文化上的相互确认。它们共同勾勒出粤西贬谪文人社交网络在重构过程中的复杂生态,也折射出唐代士人在边缘情境下维系身份、重建意义的深层努力。

下文将借助Gephi软件,运用模块化算法对粤西诗路文人社交群体展开分析,该算法可用于社区发现。具体而言,模块化算法会依据第一部分图1中节点的连接关系进行归类:对于类型相同的节点,系统会为其新增一个字段,并用相同数字进行标识;同时,在数据表格的节点数据中,会新增一列“Modularity Class”,数据类型设定为整数。这列数值相当于一个标记,类别相同的节点会被赋予相同的标记。例如,柳宗元、柳宗一、刘禹锡等都用“2”来标记,说明他们属于同一个社群,是同一类别的节点。统计运算结束后,将弹出报告窗口(见图8)。报告显示,本次分析共涉及43个社区,其基础模块度数值为0.876,且在调整分辨率后,模块度仍为0.876。模块度作为衡量网络社区划分质量的关键指标,其取值范围一般在-1和1之间。当模块度越接近1时,意味着网络被划分成若干紧密的子群(即社区),子群内部节点连接紧密,而子群之间的连接相对稀疏,这表明网络具有显著的社区结构特征。在粤西诗路文人社交网络中,0.876这个较高的模块度数值说明该网络存在清晰且明确的社区划分。基于此,我们可以合理推测,粤西诗路社交活动中可能存在多个相对独立、内部联系又很紧密的社交群体。这些群体的形成,或许与共同的政治命运、空间流动中的身份交集或者圈层边界的渗透等多种因素密切相关,并且每个群体都可能拥有其独特的交流模式与互动关系。


图8   模块度分析报告图

图8中的“Size Distribution”(规模分布)图,横轴代表“Modularity Class”(模块化类别),纵轴代表“Size(number of nodes)”(规模,即节点数量)。由图8可知,不同模块化类别对应的节点数量分布呈现出显著差异:部分类别节点数量较多,比如模块化类别为21时,节点数量接近14;而多数类别节点数量较少,集中在2—8区间。这一直观结果清晰地展现了不同社交群体的规模差异,进一步佐证了粤西诗路社交网络中存在多个规模各异且内部联系紧密的社区。这些社区间错综复杂的链条关系大致可分为三类。

(一)贬谪文人群体:“境遇共鸣型”链条的密集连接

以柳宗元、刘禹锡为核心的贬谪文人,构成了粤西诗路最为紧密的“境遇共鸣型”关系链条。这一链条的形成基于共同的政治命运——他们在“永贞革新”失败后遭遇流放,并在此基础上通过高频诗歌互动构建起“同贬相惜”的连接网络。这些互动之作,主要聚焦于三大核心主题。

一是瘴疠生存的互助链条。如韩愈《赠别元十八协律》“遗我数幅书,继以药物珍。药物防瘴疠,书劝养形神。不知四罪地,岂有再起辰”(《全唐诗》,第3832页),便深刻体现了这一点。当年韩愈被贬潮州,桂管观察使裴行立与柳州刺史柳宗元闻讯后,特意嘱托二人的好友元集虚(字克己,排行十八)携慰问信与防瘴药物远道相赠。元集虚自桂州动身,经柳州沿阳水、浔江、郁江顺流而下,至清岐镇后转溯浈水北上,最终在清远(今属广东)与韩愈相逢。这段跨越千里的行程,不仅是地理空间上的连接,更成为贬谪文人之间精神互助的具象化象征。物质(防瘴药)与精神(“养形神”劝勉)的互助链条,共同帮助贬谪文人应对贬谪困境。

二是山水审美的精神突围链条。柳宗元《酬曹侍御过象县见寄》曰:“破额山前碧玉流,骚人遥驻木兰舟。春风无限潇湘意,欲采花不自由。”(《全唐诗》,第3953页)清代沈德潜《说诗晬语》曾评此篇为七绝中“压卷”之作。破额山是粤西象州柳江边上的一座名山,其山名中“破额”二字本含嶙峋险峻之意,却在诗人笔下与“碧玉流”的柔婉形成奇妙呼应,末句“欲采花不自由”的矛盾表达,堪称精神突围的点睛之笔。“花”作为《楚辞》中“采芳”意象的延续,是文人高洁品格的隐喻,“欲采”的渴望展现了他们对精神纯粹性的执着追求;而“不自由”的慨叹,则直揭贬谪身份带来的现实桎梏。但正是这种矛盾,实现了独特的审美超越:即便无法在现实中实现“采花”的行动,诗人仍能在想象中完成对品格的坚守,将现实的不自由转化为审美世界里的自由驰骋。

三是天涯隔绝的悲情共鸣链条。岭南的蛮荒意象成为文人墨客描绘流放处境的常用符号,他们在作品中反复渲染环境的险恶、生存的艰难,以及因远离文明中心而产生的巨大心理落差。如柳宗元《寄韦珩》曰:

初拜柳州出东郊,道旁相送皆贤豪。回眸炫晃别群玉,独赴异域穿蓬蒿。炎烟六月咽口鼻,胸鸣肩举不可逃。桂州西南又千里,漓水斗石麻兰高。阴森野葛交蔽日,悬蛇结虺如蒲萄。到官数宿贼满野,缚壮杀老啼且号。饥行夜坐设方略,笼铜枹鼓手所操。奇疮钉骨状如箭,鬼手脱命争纤毫。今年噬毒得霍疾,支心搅腹戟与刀。迩来气少筋骨露,苍白汩盈颠毛。君今矻矻又窜逐,辞赋已复穷诗骚。神兵庙略频破虏,四溟不日清风涛。圣恩倘忽念地苇,十年践蹈久已劳。幸因解网入鸟兽,毕命江海终游遨。愿言未果身益老,起望东北心滔滔。(《全唐诗》,第3942页)

柳宗元以近乎白描的笔触铺陈岭南的“炎烟”“野葛”“蛇虺”等蛮荒意象,更直书“奇疮”“霍疾”的切肤之痛,而末句“起望东北心滔滔”的“东北”,正是长安所在的方向——那既是政治中心的坐标,更是文化根脉的象征。这种对“东北”的遥望,恰是地理隔绝最尖锐的隐喻:千里之外的瘴江毒雾,不仅在物理层面隔断了归乡的路,更在心理层面织就一张无形的精神罗网,将贬谪者困在“异域”与“故乡”的撕裂感中。

又如《与浩初上人同看山寄京华亲故》:“海畔尖山似剑铓,秋来处处割愁肠。若为化得身千亿,散上峰头望故乡。”(《全唐诗》,第3943页)诗人以“剑铓”喻岭南尖山,使自然景观转化为切割愁肠的利刃。“割”字沉痛,道出险峻地理对精神的煎熬;而“化身千亿望故乡”的奇想,更将隔绝之悲推向极致——当现实归途阻断,唯有寄托虚妄的想象,在精神层面完成对故乡的叩问。这种从“实感的痛”到“虚妄的望”的转化,正是贬谪者共有的精神轨迹。

这种深入骨髓的天涯之痛与隔绝之悲,赋予贬谪文学深刻动人的力量。以柳宗元为核心的贬谪文人群体,通过诗文唱和与精神共鸣,在边缘之地构建起了紧密的交往网络。该网络呈中心辐射状,内部联系高度凝聚、互动频繁,形成一个具有文化生产力与精神支撑功能的共同体,使他们在困境中相互慰藉,并共同创造出深具情感张力与思想深度的文学作品。

(二)异地诗人—贬谪文人:“跨域想象型”链条的隐性连接

在未亲历粤西的中原诗人与贬谪文人之间,形成了一种“跨域想象型”的关系链条。这类链条互动频次虽相对较低,却以“送别诗”为媒介,构建起中原与粤西的隐性文化连接。其结构性意义在于突破了地域的限制:链条一端是中原的文化视角,另一端是粤西的现实体验,二者通过诗歌互动达成“双向理解”——中原诗人通过这一链条回应粤西的边缘性,贬谪文人则通过这一链条确认自身与文化中心的关联,使关系网络兼具地方性与整体性。

链条的核心功能在于“文化传递与价值投射”。例如,张祜《走笔赠许玖赴桂州命》:“桂林真重德,莲幕藉殊才。直气自消瘴,远心无暂灰。剑棱丛石险,箭激乱流回。莫说雁不到,长江鱼尽来。”(《全唐诗》,第5841页)诗中既赞誉桂州重贤任能的风尚,肯定友人许玖的才华,又以“剑棱丛石”“箭激乱流”的想象勾勒桂州艰险的地理环境,字里行间饱含对赴桂文人的关切与期许,末句更以“长江鱼尽来”的隐喻,叮嘱友人即便身处偏远,仍需保持书信往来,以此维系情感连接。又如陈羽《送戴端公赴容州》:“分命诸侯重,葳蕤绣服香。八蛮治险阻,千骑蹋繁霜。山断旌旗出,天晴剑珮光。还将小戴礼,远出化南方。”(《全唐诗》,第3899页)颔联能让读者想象出粤西地区的英勇好战之风,尾联则明确寄寓以《小戴礼记》教化南方的期许。该群体正是通过送别诗这一载体,在与赴桂诗人的交往中,将中原的价值观念与礼仪规范悄然播撒至南方,既参与了粤西诗路的社交互动,更成为中原文化向南方辐射的隐性纽带,推动着区域间的文化融合与认同构建。

该群体的重要意义在于,他们突破了传统地域文化传播的显性路径,构建起一种“不在场却在场”的隐性文化传播机制。在交通阻隔、信息不畅的古代,这类中原官员虽未亲赴粤西,却以诗文唱和、临别赠言等方式,将中原的政治伦理、文化基因注入粤西诗路的社交网络,使儒家礼乐精神与治理理念跨越地理边界,在潜移默化中重塑着粤西地区的文化生态。从社交网络的视角来看,他们的半嵌入性结构为粤西诗路提供了弹性连接——既避免了核心圈层的封闭性,又消解了边缘群体的疏离感,使中原与粤西的文化交流始终保持动态平衡。更为深远的意义是,这种以私人交往为媒介的文化传播,比官方教化更具渗透力。它将政治治理的刚性需求转化为文化认同的柔性建构,让“化南方”的过程不再是单向的文化输出,而是通过诗意的对话达成双向的理解与融合。这种融合不仅体现在礼仪规范的传播上,而且催生了区域文化认同的深层构建,为后世粤西地区与中原文明的持续交融奠定了精神基础。

(三)边缘群体:“跨圈层渗透型”链条的文化延伸

在诗歌网络的复杂结构中,存在着一类看似边缘、实则蕴含特殊象征意义的群体。这一群体主要由僧侣(如浩初上人、僧彻)及部分身份模糊的士人(如错公、隐公)构成。从网络特征来看,他们在整体网络中的“度中心性”与连接密度均处于较低水平。“度中心性”低,意味着他们在诗歌唱和、文学交流等活动中并非核心参与者,受到的关注和互动相对较少;连接密度低,则表明他们与网络中其他节点的直接关联较为稀疏,难以形成密集的交往网络。尽管如此,他们与网络核心人物(如柳宗元、李商隐)的连接却具有非同寻常的象征意义,这恰似一条隐秘的丝线,有效地将诗歌网络延伸至宗教空间与边缘文化圈层。

该链条的核心价值是“文化跨界与思想扩容”。以柳宗元与浩初上人的唱和诗为例,这些诗常常借助山水禅意来抒发贬谪后的感怀。在那些诗句中,山水不再仅仅是对自然景物的简单描摹,而是融入了禅的空灵与超脱,成为柳宗元内心苦闷与迷茫的寄托。柳宗元将自己被贬后的复杂情感寄托于山水之间,借禅意寻求心灵的慰藉与超脱;而浩初上人则以其独特的宗教视角与智慧予以回应。二者在文化边缘空间中达成了奇妙的心灵契合,从而形成了一种超越世俗的精神共鸣。这种现象并非孤例,除柳宗元外,李商隐、许浑、齐己、曹邺等人与宗教群体也多有交往,这些交往虽不以频繁的互动为特征,却充分展现出高度的文化异质性与思想开放性。

许浑《和友人送僧归桂州灵岩寺》便是这种交往的生动体现:“楚客送僧归桂阳,海门帆势极潇湘。碧云千里暮愁合,白雪一声春思长。柳絮拥堤添衲软,松花浮水注瓶香。南京长老几年别,闻道半岩多影堂。”(《全唐诗》,第6141页)诗中“南宗长老几年别,闻道半岩多影堂”一联,印证了许浑曾于这一时期沿湘江南下抵达桂州。其中,“楚客送僧归桂阳”勾勒出楚地文人送别僧人归返桂阳的图景,“海门帆势极潇湘”则呈现出送别之际海门的帆影一路延展至潇湘的雄浑景致。诗句中处处透着许浑与这位僧人的深厚情谊,同时也留下了他与粤西宗教人士交往的清晰印记。

再如齐己《送错公栖公南游》:“洪偃汤休道不殊,高帆共载兴何俱。北京丧乱离丹凤,南国烟花入鹧鸪。明月团圆临桂水,白云重叠起苍梧。威仪本是朝天士,暂向辽荒住得无。”(《全唐诗》,第9638页)“错公”是齐己的道友兼诗友,“栖公”即僧人栖蟾,二人原本居于都城,因北方京城遭遇战乱,遂南迁桂州一带避乱。齐己在诗中特意将错公、栖公与前代高僧洪偃、汤休相提并论,以此赞颂二人的道心与襟怀。“高帆共载兴何俱”一句,生动流露出与二人同乘舟船南游的盎然兴致;诗中对南国景致的描摹——如桂水畔的团圆明月、苍梧山间的重叠白云——亦暗藏着齐己对友人南迁后的牵挂。这段文字既彰显出动荡时局里文人与宗教界人士间的深厚交往情谊,也折射出文化在人口迁徙过程中的传承与交融。

曹邺在《送刘尊师应诏诣阙》中构建了一个融合道教符号与现实际遇的双重隐喻系统:“仙老闲眠碧草堂,帝书征入白云乡。龟台欲署长生籍,鸾殿邀论不死方。红露想倾延命酒,素烟思爇降真香。五千言外无文字,更有何辞赠武皇?”诗人以“仙老闲眠碧草堂”的出世意象与“帝书征入白云乡”的世俗皇权形成张力,通过“龟台欲署长生籍”的仪式化书写,隐晦投射出对宫廷求仙风气的批判。其中“五千言外无文字”的哲学诘问,更以《道德经》的权威性解构帝王长生诉求的虚妄性,形成符号化的政治转喻。这种将社会批判编码于宗教叙事的话语策略,彰显了佛道元素在文人交往中的功能性转化——宗教话题在此已然成为承载现实焦虑与表达批判思想的诗学容器。与之呼应,《听刘尊师弹琴》则从审美维度重构了宗教交往的精神图景,这种通过艺术媒介实现的精神共振,使宗教交往升华为文化符号的交换仪式:文人借由琴声解码道教文化的澄明特质,宗教人士则通过艺术展演确认自身文化资本,二者在审美层面达成价值认同。在社交网络拓扑结构中,此类宗教节点呈现“弱连接强影响”的悖论特性。其低“度中心性”确证了交往规模的有限性,但“边权重”的文化载荷异常厚重。它们看似微不足道,却对网络的文化维度与审美取向起到了重要的拓展作用。它们为诗歌网络带来了宗教文化的元素,丰富了诗歌的内涵与表现形式,使诗歌在题材选择、意境营造等方面都获得了更为广阔的空间。

在网络可视化图谱中,宗教群体呈现出围绕核心文人的“卫星式”分布特征。这些宗教群体以核心文人为中心,虽未直接改变网络的中心结构,却依附核心节点形成了一条隐性的思想延伸线。这种结构清晰地说明,诗歌网络的影响力并非完全依赖于高连接度的密集交往模式,相反,部分边缘节点正因其独特的文化位置,构成了难以替代的“思想边疆”。换言之,柳宗元、李商隐等文人与僧侣的联系,使诗歌网络不再仅仅是文人政治共同体的再现,同时也具备了宗教文化的渗透力。这种跨圈层的文化流动,为边疆区域的文学生产注入了更为复杂的思想能量,有力促进了不同文化之间的碰撞与融合,进而推动诗歌文化在更广阔的地理空间与文化场域中得以传播、演变和发展。

五、结语

唐代粤西诗路不仅是一条地理通道,更是一张复杂的情感与社交网络。本文系统运用数字人文研究方法,深入揭示了该诗路文人社交的内在逻辑与结构特征。在地缘层面,粤西凭借发达的水路网络及桂州、柳州、钦州等关键节点,构建起跨区域的文人交往空间。即便身处贬谪之境,文人依然能够依托地理邻近性与交通便利性,维持高频次的社交互动。在节点层面,贬谪路线上的交汇与分离成为催生文人社交的重要契机,其中端州、桂州等地不仅是重要的交通枢纽,更是文人情感交织、诗文往来的核心文化场域。

更为深刻的是,粤西诗路的社交网络展现出强烈的情感张力与丰富的想象维度。“境遇共鸣型”链条以柳宗元、刘禹锡为代表,凝聚了贬谪文人的共同命运与精神共鸣;“跨域想象型”链条则通过送别诗与寄怀之作,将未亲至者的情感投射与地理想象融入粤西的文化建构过程;“跨圈层渗透型”链条则拓展至僧侣、隐者等群体,体现了文人网络的开放性与文化包容性。

本文运用Gephi、QGIS等工具,采用定量分析与实证分析相结合的研究方法,不仅实现了社交关系的可视化呈现,更通过模块度分析揭示了网络的社区结构与连接强度。粤西诗路地处南陲,远离中原政治与文化中心,长距离的空间位移使贬谪文人原有的社交关系网络发生结构性重构,进而形成了以地域邻近性、身份共通性和情感认同为基础的新聚类。这些文人通过诗歌赠答、物资援助与书信往来等多种媒介,形成近地缘、跨层级的连接,从而在“南荒”之境中重构出一套异于中原地区、具有显著适应性与能动性的独特社交生态。

2025年第11期

2025年第11期

山东社会科学

稿

SUBMISSION EMAIL ADDRESS

阅读原文

跳转微信打开

  •  

通用大语言模型在文史领域中的应用:以云四库智能问答系统为例

原创 徐永明 王永攀 2026-01-16 10:00 北京

本文以云四库智能问答系统为例,探讨了通用大语言模型在文史领域中的应用。首先,文章分析了当前通用大语言模型在文史研究中的两个关键局限:数据不足和专业性不足。接着,文章详细介绍了云四库智能问答系统的开发过程。

知识·阅读·问答



封面.png

徐永明/浙江大学文学院

王永攀/浙江大学计算机技术与科学学院

要:本文以云四库智能问答系统为例,探讨了通用大语言模型在文史领域中的应用。首先,文章分析了当前通用大语言模型在文史研究中的两个关键局限:数据不足和专业性不足。接着,文章详细介绍了云四库智能问答系统的开发过程,包括平台的搭建、数据的整合和模型的训练。云四库系统基于阿里的通义千问和杭州深度求索DeepSeek大模型进行升级,特别强化了对人文领域知识的理解和生成能力。系统不仅能够回答具体的历史、文学、哲学等人文领域的事实性问题,还能对复杂的概念、理论进行解释,甚至进行一定程度的批判性思考和学术探讨。最后,文章讨论了云四库平台的未来发展方向,包括提升系统性能、完善功能、优化用户体验等。

关键词:通用大模型 垂直大模型 文史 Qwen DeepSeek AI

2022年,OpenAI公司推出新一代对话式人工智能模型ChatGPT,引发全球科技界广泛关注。该模型凭借大规模训练数据、先进的机器学习架构及多场景适应能力,在通用对话和专业领域均展现出显著的技术突破。此后,全球科技企业加速布局大语言模型领域,陆续发布包括GPT-4(OpenAI)、Gemini(Google)、Claude(Anthropic)、Kimi(月之暗面)、通义千问(阿里云)、文心一言(百度)、豆包(字节跳动)、百川(百川智能)等系列产品,持续优化算法并拓展至多个垂直应用场景。

根据第三方机构评测,截至2024年12月,中美大语言模型技术仍存在技术代差。随着杭州深度求索公司发布DeepSeek-R1模型,这一格局出现显著变化。该模型在知识理解、逻辑推理等核心指标上达到国际先进水平,引发业界深度讨论,其技术突破亦受到国际科技界重点关注。值得注意的是,该模型的发布恰逢中国传统春节前夕,迅速成为社会热议话题。2025年1月29日(农历正月初一),阿里巴巴集团发布通义千问Qwen2.5-Max版本,官方技术白皮书显示其多项基准测试指标超过GPT-4,标志着我国在大模型技术研发领域取得新突破。行业分析指出,此次升级将进一步推动人工智能技术在商业、科研等领域的应用深化。

大语言模型为人文研究带来了新的研究范式和方法论思考。作为人文学者,我们特别关注这些模型在文献分析、史料整理、文本挖掘等具体领域的应用潜力,以及它们对传统人文研究方法的补充与延展。2024年8月12日,浙江大学数字人文研究中心开发的云四库智能问答系统(https://www.aiyskqa.cn)正式上线,标志着通用大语言模型正式进入了大规模文史数据训练和服务的垂直领域。本文将从二次平台的开发、文史问答的实践、存在的问题及今后的展望等方面来探讨通用大模型在文史领域中的应用这一命题。



一、二次平台的搭建


对文史研究者而言,当前通用大语言模型存在两个关键局限:首先,专业知识库不足。由于训练数据中专业学术文献的覆盖率有限,模型在回应专业性问题时往往表现出明显的知识盲区,要么无法给出答案,要么产生错误认知。其次,溯源验证缺失。模型输出的内容往往缺乏明确的文献引证体系,无法追溯到具体的学术来源。这种“黑箱式”的知识输出使研究者难以判断信息的可靠性与学术价值,大大限制了其在严谨学术研究中的实际应用。

针对这些局限,构建专业化的二次开发平台成为必然选择。这一平台将以通用大语言模型为基础架构,通过专业数据的深度训练和知识增强,打造适配文史研究场景的智能辅助系统。

二次平台的搭建,主要包括以下内容。

(一)模型选型

在模型的选择上,尽管平台建设之际(2024年4月)OpenAI已开源GPT-3模型,我们仍选择采用国产大语言模型作为平台的基础架构。这一决策不仅体现了对国产自主创新的支持,更着眼于本土化场景适配、数据安全及后续协同优化的便利性。在具体模型选择过程中,我们经历三次迭代:

起初,我们重点评估了两个国产大规模语言模型:杭州深度求索的DeepSeek-67B和阿里巴巴的Qwen-72B。经过综合性能评估,Qwen-72B在通用理解能力、知识广度、推理深度等方面表现更为出色。基于这一评估结果,我们最终选择部署Qwen系列模型。

2024年11月,随着产品迭代,Qwen从2.0版本成功升级至当前的2.5版本,持续提升平台的智能服务能力。

近期,国内大模型以DeepSeek为代表,取得了史诗级的突破。我们第一时间接入Qwen-Max、Qwen-Plus、Qwen-qwq、Qwen3-235B、DeepSeek-V3、DeepSeek-R1等大模型,为用户提供更准确、更丰富的模型选择。 

(二)问答策略设计

考虑到基础模型预训练数据的来源多样性及潜在的质量风险,我们采用严格的知识优先级策略:系统将优先调用平台收录的专业文献库进行问答。这些经过严格筛选、具备明确文献引证的学术资源,能够确保回答的可溯源性和学术规范性,从而为研究者提供可靠的知识支持。

基于对学术问答场景的深入分析,平台构建了多层次的智能问答体系,采用“专业知识优先、基础模型补充”的分级响应策略。

1.智能意图理解

·通过意图判定模块精准识别用户查询意图

·运用问题改写技术,将复杂学术问题转化为结构化查询

·支持多轮对话中的上下文理解与知识延续

2.高级RAG检索增强

·构建多粒度的文本块索引体系

·采用语义向量化检索与关键词检索相结合的混合策略

·通过动态上下文扩展,确保检索结果的完整性

·基于文献权重的证据筛选机制

3.分级知识调用策略

·第一优先级:平台专业文献库

*经过严格筛选的学术著作

*具备明确文献引证的研究论文

*专家审核确认的标准答案

·第二优先级:经过验证的学科知识库

*权威教材与工具书

*学科专业词典

*经典案例库

·第三优先级:基础模型知识

*仅在特定场景下补充使用

*需经过严格的事实性核验

4.多模型协同生成

·系统支持Qwen-Max、Qwen-Plus、Qwen-qwq、Qwen3-235B、DeepSeek-V3、DeepSeek-R1等通用大语言模型,实现并行推理架构。支持用户根据具体场景灵活选择适配的模型组合。

·系统通过多模型协同机制提升对话质量。大模型处理流程包括意图理解、问题重构、上下文分析、知识推理和答案生成等。充分结合大模型和专业文史知识,确保输出内容的学术规范性与专业水准。

·系统不仅能够发挥各模型的独特优势,还可随着模型迭代持续优化系统性能,为用户提供更精准、全面的智能对话服务。

图1.png 图1 平台架构及技术路线

图2.png 图2 问答页面

图3.png 图3 参考资料页面

(三)智能资料库系统

平台构建了专业的文献资源管理系统,支持专家学者持续贡献优质学术资源。通过建立分类精准、层次清晰的文献管理体系,结合差异化的元数据标准,实现了各类学术资源的规范化管理。系统采用动态更新机制,确保新增文献能够及时与大模型进行知识融合,不断扩充知识库的深度与广度。这种持续迭代的知识更新模式,有效提升了平台的交互体验和知识服务能力,为学术研究提供与时俱进的智能支持。

资料主要有古籍、研究著作、论文、报刊文章等类型,根据不同的类型,设置不同的编辑窗口。譬如,对于古籍,除了书名、作者、版本信息外,在分类上,主要根据经史子集四分法进行分类,到二级类目止。而今人的著作,则根据中图法分类,到一级类目止。论文或报刊文章,有的出自纸质报刊,有的出自公众号,则分别提供可以选择的录入框。文件支持各种文本格式,包括但不限于pdf、epub、csv、xlsx、txt等。资料管理界面图示如下。

图4.png 图4 后端资料编辑页面

(四)问答管理

平台设计了完善的问答质量保障体系,引入人机协同的答案优化机制。专业用户可通过直观的编辑界面,对AI生成的答案进行审核、纠错和优化,经修订的答案将被系统记录并作为标准回复模板。这种基于专家干预的答案迭代模式,不仅确保了知识传递的准确性,也实现了回答质量的持续提升。通过建立动态的知识反馈闭环,平台在保持AI效率的同时,有效提升了问答系统的专业性和可靠性。

(五)专家资源共享机制

平台设立了严格的专家资源贡献体系,目前向具有副教授及以上职称的学者开放资料上传权限。专家可将个人学术著作、研究论文等优质学术资源贡献至平台知识库。为鼓励专家持续参与知识共建,平台对资料贡献者提供每日100次的扩展访问额度,以此促进优质学术资源的持续积累与知识生态的良性发展。



二、文史问题的问答实践


尽管通用大语言模型理论上具备处理各类问题的能力,但作为文史领域的垂直大模型,云四库的专业优势主要体现在以下方面。

(一)语言翻译

大模型不仅能将古诗文译成白话文,而且可以译成英文。总体来说,翻译的效果还比较理想,当然,也有错误。这里举白话文翻译为例:

原文:

《古戍》刘基

古戍连山火,新城殷地笳。

九州犹虎豹,四海未桑麻。

天迥云垂草,江空雪覆沙。

野梅烧不尽,时见两三花。

译文:

古老的边城烽火连天,新筑的城池中号角声震响大地。

九州大地依然充满战乱,四海之内尚未恢复农桑。

天空辽阔,云彩低垂在草地上,江面空旷,雪花覆盖着沙滩。

野梅在战火中烧不尽,偶尔还能见到两三朵盛开的花朵。

云四库这首诗的翻译大致准确。

(二)查询文献出处

云四库整合了丰富的文史典籍资料,结合大模型的语义理解能力,能够精准定位文献出处。系统可识别古籍文献中的片段,追溯其原典出处、版本信息及相关文献记载,为学术研究提供可靠的文献依据。

图5.png 图5 文献出处问答页面

(三)标点古文

问:请标点以下古文:“人家上冢最宜携幼以往盖使之识先世体魄之所在不至久而迷失也古人有云上冢亦携庞老家亦此意也汉高之诛丁公是以帝王之略济其权谋之心也温公谓戮一人而千万人惧其虑甚深不知项庄之受封已屈于大功矣罚必先亲赏不遗远之道果何在乎”[1]

云四库:当然,以下是标点后的古文:

“人家上冢,最宜携幼以往,盖使之识先世体魄之所在,不至久而迷失也。古人有云:‘上冢亦携庞老家’,亦此意也。汉高之诛丁公,是以帝王之略济其权谋之心也。温公谓戮一人而千万人惧,其虑甚深,不知项庄之受封,已屈于大功矣。罚必先亲,赏不遗远之道,果何在乎?”

(四)诗文赏析

应该说,模型对刘基《古戍》一诗的赏析是非常到位的,既有内容的分析,也有艺术特点的赏析,最后有总结。这对于读者理解原诗起到了辅助作用。(参见图6)

(五)实体提取

模型能根据用户的需求,提取古文中的人名、地名、职官等实体词语。图6.png 图6 诗文赏析问答页面

问:请提取姓名、地名及职官名。“府君讳机,字子枢,姓雷氏。其先出万春之后,传至五代时有讳鸾者,由光州固始迁建宁之建安。曾大父时,宋太学内舍生。大父龙济,乡贡进士,当宋之亡,帅义师抗元兵,遂殁于难。父德润,入元为福州路儒学教授,积学庾之余,买田三百余亩,以给贫士昏丧老疾者,号义士庄,人为建祠学宫。改将仕郎、福州路长乐县主簿。未上,卒。后以子贵,赠朝散大夫、秘书少监。母游夫人,赠建安郡君。夫人善书而有文,无子,默祷于神,梦黑熊行天,遂有娠。及生府君,颖悟异恒儿,九岁能诗赋,十岁九经皆成诵,十二著《明经解题》,十七试论郡庠选为第一,二十受大官荐为邵武县学教谕,二十五登延祐戊午进士第,授福州路古田县丞。自诏行科目,闽人擢第者从府君始。”

云四库:根据所给的文本,提取的姓名、地名及职官名如下:

姓名:雷机(府君)、雷鸾、雷时、雷龙济、雷德润、游夫人

地名:万春、光州固始、建宁之建安、福州、长乐县、邵武县、古田县

职官名:太学内舍生、乡贡进士、福州路儒学教授、将仕郎、福州路长乐县主簿、朝散大夫、秘书少监、邵武县学教谕、福州路古田县丞

(六)撰写提要

云四库不仅能撰写文章的提要,而且能撰写著作的提要。限于篇幅,这里仅举篇目提要为例。如云四库为宋濂《记李歌》写的提要:

《记李歌》是明代文人宋濂的一篇传记文学作品,收录于《宋学士全集》中。文章通过细腻的笔触,生动地描绘了李歌的生平和高尚品质,展现了她不屈不挠的坚贞性格和高尚的道德情操。

李歌,霸州人,其母一枝梅是一名歌妓。十四岁时,李歌坚决拒绝母亲教她歌舞,认为人皆有配偶,不应沦为歌妓。母亲解释家境贫寒,李歌与母亲约定,只要允许她不化妆、不吃荤肉,她便暂时屈从。从此,李歌身穿素衣,容貌如玉雪,显得更加美丽动人。

李歌对邀请她的人非常挑剔,必须确保筵中没有恶少才会前往。她到宴会上后,只唱道家的《游仙辞》,并保持严肃的态度,不与人亲近。如果有不尊重她的人,她会立即拂袖而去。益津县令企图以金钱引诱她,李歌持刀入户,严词拒绝,并斥责县令败坏风化,最终使县令惊慌逃走。

监州听说李歌贤良,将她聘为儿子的妻室。李歌当时仍是处子。数年后,天下大乱,李歌夫妇逃难时被贼人抓住。贼人欲杀其夫而娶她为妻,李歌坚决不从,斥责贼人:“你若要杀我夫,先杀我,我宁死不从贼。”贼人愤怒,最终将夫妇二人一同杀害。

文章通过李歌的故事,展现了她高尚的品德和不屈的精神。即使身处娼门,李歌依然保持了尊严和节操,最终以生命捍卫了自己的原则。宋濂通过这一传记,表达了对社会底层人物的同情和赞扬,体现了他“文品即人品”的文学理念。

(七)知识问答

系统能回答各类文史哲及社科类的问题。如《诗经》的学术史问题。

问:说说《诗经》学的四大公案,尽量简洁。

云四库:《诗经》学的四大公案是指在《诗经》研究中长期争论不休的四个主要问题。[2]这些公案包括孔子删诗问题、《毛诗序》的作者和尊废问题、《商颂》的时代问题、《国风》作者与民歌的问题。以下是对这四大公案的简洁说明:

1.孔子删诗问题

内容:关于孔子是否对《诗经》进行了删选和整理。

争议:《史记·孔子世家》记载孔子从三千余篇诗中删选了305篇,但后世学者对此说法存在争议,认为《诗经》的编订可能是一个集体努力的结果,而非孔子一人所为。

2.《毛诗序》的作者和尊废问题

内容:关于《毛诗序》的作者及其权威性。

争议:《毛诗序》是为《诗经》各篇所作的题解,但其作者和时代存在争议。有人认为作者是毛亨,有人认为是毛苌。此外,关于《毛诗序》的权威性和可信度,也有不同的看法,有人觉得应该尊崇,有人认为应该废除。

3.《商颂》的时代问题

内容:关于《商颂》的创作时代。

争议:《商颂》是《诗经》中的一组颂诗,但其创作时代存在争议。有人认为《商颂》是商代的作品,有人认为是周代的作品,还有人认为是春秋时期的作品。

4.《国风》作者与民歌的问题

内容:关于《国风》的作者及其是否为民间歌谣。

争议:《国风》是《诗经》中的一组民歌,但其作者和创作背景存在争议。有人认为《国风》是贵族阶层的作品,有人认为是民间百姓或普通劳动者的作品。

简洁总结

孔子删诗问题:孔子是否删选了《诗经》。

《毛诗序》的作者和尊废问题:《毛诗序》的作者及其权威性。

《商颂》的时代问题:《商颂》的创作时代。

《国风》作者与民歌的问题:《国风》的作者及其是否为民间歌谣。

这些公案在《诗经》研究中长期争论不休,反映了《诗经》研究的复杂性和多样性。

参考资料

参考1夏传才撰《诗经学四大公案的现代进展》

参考2夏传才撰《现代诗经学的发展与展望》

参考3陆学明撰《文学文本、历史文本及其他——“五四”以来〈诗经〉与诗学研究的几点质疑》

又如科举问题:

图7.png 图7 科举问答页面

按:图7所示的科举问题,所有通用大语言模型如ChatGPT、DeepSeek、Kimi、文心一言、通义千问都回答错了。

(八)查找目录

图8.png 图8 目录查找问答页面

由于云四库系统学习过大量的古籍目录、丛书目录及数字化目录,故利用它可以非常快捷地查到古籍的版本信息。

(九)创作古诗文

图9.png 图9 格律诗创作问答页面

此首《冬阳》,艺术上谈不上有什么创新之处,但格律是符合七律的要求的。

除了上述的功能外,云四库还能为用户撰写文献综述和论文。如果再引入DeepSeek,还可以做思维导图、社会关系图等,限于篇幅,这里不再赘述了。



三、大模型在人机问答中存在的问题


(一)防不胜防的幻觉

幻觉是通用大模型普遍存在的问题。在文史问答中,也常会遇到。譬如,我们让模型写出含有“绿菊”的诗词。云四库列出了李商隐、杨万里、苏轼、范成大、陆游、黄庭坚、辛弃疾、唐寅、纳兰性德、郭沫若等人的咏“绿菊”的诗,结果标题和正文均一样。诗的标题和正文如下:

《绿菊》

绿菊初开似故人,相逢一笑共清尊。

秋风不改当年色,依旧黄花伴白微信图片_20251225151251_2927_471.png

然后继续问这首诗的出处时,模型会这样回答:“您提到的这首诗‘绿菊初开似故人,相逢一笑共清尊。秋风不改当年色,依旧黄花伴白’并不是出自某位著名诗人的作品,而是现代人创作的一首诗。这首诗虽然没有明确的出处,但其意境和表达方式借鉴了古代诗词中常见的意象和情感。”

又譬如,我让模型回答“元诗四大家”,模型列出了虞集、杨载、范梈、揭傒斯四人。但杨载,却注明号眉庵,范梈号文正。显然,模型将“吴中四杰”之一杨基的号,戴到了杨载的头上。而将范仲淹的号,冠到了范梈的头上。

(二)文献出处,不能精准定位

文献定位的精准度与数据结构密切相关。对于结构化的文献数据库,大模型能够实现精确的出处定位;而面对非结构化的文本文件(如docx、txt格式),定位准确性则显著降低。这种差异凸显了数据预处理和结构化建设在文献检索系统中的重要性。

问:请写出苏轼《书汴河斗门》的出处。

云四库:苏轼的《书汴河斗门》出自《全宋文》卷一九七二和《苏轼集》。

这里,《全宋文》是结构化的数据,而《苏轼集》是文本数据。系统无法判断文本的《苏轼集》中《书汴河斗门》的卷数。又如,

问:请写出这段文字的出处:俗传凶人之终,必有恶鬼,以其力能相制也。扬州唐氏妻某,素悍妒,妾婢死其手者无数。亡何暴病,口喃喃詈骂,如平日撒泼状。邻有徐元,膂力绝人,先一日昏晕,鼾呼叫骂如与人角斗者,逾日始苏。或问故,曰:“吾为群鬼所借用耳。鬼奉阎罗命拘唐妻,而唐妻力强,群鬼不能制,故来假吾力缚之。吾与斗三日,昨被吾拉倒其足,缚交群鬼,吾才归耳。”往视唐妻,果气绝,而左足有青伤。

云四库:这段文字出自清代袁枚的《子不语》(又名《新齐谐》)。具体信息如下:

书名:《子不语》(《新齐谐》)

作者:袁枚

卷数:卷二十一

篇名:鬼借力制凶人

袁枚的《子不语》是一部记录各种奇闻异事的志怪小说集,这段文字描述了扬州唐氏妻的恶行及其最终被恶鬼所制的故事。

这样的回答只能说对了一半,即文字确实出自《子不语》,但卷数错了。《子不语》总共有24卷,这段文字出自卷2。

(三)“不知则造之”

如果系统中没有数据,则模型就会一本正经地胡说八道。如:

问:“君、父之仇,不共戴天,其义一也。不幸而君杀其父,为臣子者,仇之否乎,亦视其当与不当而已。杀之当,如舜殛鲧,则干蛊可也。”[3]请说出这段话的出处。

云四库:这段话出自《白虎通义》。《白虎通义》是东汉时期的一部儒家经典注释书,由班固等人编纂。该书对儒家经典中的许多概念和制度进行了详细的解释和阐述。您提到的这段话具体讨论了君、父之仇的复仇问题,强调了复仇的正当性需要根据具体情况来判断。以下是该段话的原文:

“子得为父报仇者,臣子之于君父,其义一也。忠臣孝子所以不能已,以恩义不可夺也。故曰:‘父之仇不与共天下,兄弟之仇不与共国,朋友之仇不与同朝,族人之仇不共邻。’故《春秋传》曰:‘子不复仇,非子。’子夏曰:‘居兄弟之仇如之何?仕不与同国,衔君命遇之不斗。’父母以义见杀,子不复仇者,为往来不止也。《春秋》曰:‘父不受诛,子不复仇可也。’”

系统给出的答案,强调了为父报仇的正当性与必要性,将其类比于臣子对君主的忠诚,指出恩义是复仇的根源动力。同时,详细阐述了复仇的原则和界限,包括针对不同关系(如父子、兄弟、朋友、族人)的复仇应有的不同态度和做法,并提及在特定情况下(如父母依法被处死),子女可不复仇,体现出对复仇行为理性与道义的权衡,反映了儒家在处理复仇问题时的理性态度。

但这个回答是错的。表面看,所问的问题与系统给出的原文有相似性,但并不是所问问题正确的答案。正确的答案是清代刘绍攽《九畹古文》卷3《伍胥鞭平王尸论》。

(四)对古文的智能问答和分析方面,现在任何一款大模型均不理想

当前大语言模型在古文智能分析方面仍存在明显局限。虽然模型在现代汉语知识问答中表现出色,但对文言文的语义理解和知识挖掘能力尚显不足。以明代乐府诗研究为例,模型无法对原典进行系统化语义分析和内容检索,多依赖现代研究成果进行答复。这一技术瓶颈的突破,需要跨学科协作,融合计算语言学与古籍文献研究,建立适配文言文特点的语义理解框架,提升模型对古籍文献的解析能力。



四、文史垂直模型建设内容和意义


从上述分析可见,大模型在古籍整理、数据分析、文献查找、知识学习、文化传播等方面可以发挥巨大的作用。面对人工智能的迅猛发展,任何一个学者都不可能无动于衷,视而不见。人类文明的进步源于工具的创新与运用,从石器时代到工业革命,再到当今的数字智能时代,工具始终是推动人类发展的关键要素。在这个时代,AI与大语言模型已成为学者必须掌握的新型研究工具。

如何将大模型与文史数据深度融合,这是科技工作者和文史工作者都要面对与思考,并协同完成的一项浩大工程。云四库智能问答系统就是在这样的背景下应运而生。

目前,云四库平台建设已初具规模。下一阶段将着重提升系统性能和功能完善,包括持续引入DeepSeek、Qwen等最先进的通用大模型,紧跟全球大模型技术的发展;构建校对标注系统、完善全文检索功能、优化用户认证体系等。在内容建设方面,平台已完成6万余种数据(含古籍、学术著作、论文)的上传与训练。未来重点工作包括:打通云四库数据地图(https://acamap.cn)、智慧古籍平台(https://csab.zju.edu.cn)和云四库智能问答系统的数据壁垒,实现三平台数据共享;加速古籍数字化进程,持续充实系统文献库;推进文史研究论著的数字化转换,开展数据测试与训练;建立健全学者个人数据上传机制,鼓励更广泛的学术参与。

文史垂直模型建设的意义,主要有以下几点:

1.提升工作效率,实现智能辅助

·在古籍标点方面,模型可完成90%的基础工作,显著降低人工成本。

·在文献提要撰写方面,模型能完成主体内容构建,学者仅需进行优化完善。

·通过人机协同,有效解放文史工作者的研究精力。

2.盘活学术资源,促进知识流通

·将分散于著作、期刊、论文集的研究成果数字化整合。

·运用大模型技术实现跨领域、多维度的知识关联。

·打破学术成果获取壁垒,提供精准高效的研究资源检索。

·使专业性、前沿性研究更易被发现和利用。

3.推动知识普及,促进文化传承

·构建智能化文史知识问答体系。

·降低传统文化学习门槛。

·实现人文知识的高效、精准传播。

·提升公众对传统文化的认知与理解。

4.赋能相关产业,创新发展模式

·支持文旅产业:助力地方文化挖掘和特色文旅内容生成。

·服务出版行业:推进古籍数字化转型。

·助力文创产业:为历史题材影视创作提供智能支持。

·构建“文化+科技”融合发展新范式。

总之,文史垂直大模型的建设不仅是技术问题,更是文化传承与发展的战略需求。它通过技术手段架起古今对话的桥梁,弥合古今鸿沟,推动人文研究范式变革。同时,在全球化背景下强化民族文化身份,为数字时代的人文精神延续提供新途径。未来我们将深入跨学科协同,促进AI技术专家与文史学者的深度合作,构建兼具学术严谨性与社会价值的智能系统。我们相信,随着系统功能的不断改善和内容的不断丰富,垂直大模型必将在科学研究、政府决策及文化传承方面,发挥出越来越重要的作用。


The Application of General Large Language Models in the Field of Literature and History: An Example of SikuCloud Intelligent Q&A System

Xu Yongming, Wang Yongpan

Abstract: This paper explores the application of general large language models in the field of literature and history, using the SikuCloud intelligent Q&A system as a case study. First, the paper analyzes two key limitations of current general large language models in humanities research: insufficient data and lack of expertise. Then, it provides a detailed introduction to the development process of the SikuCloud intelligent Q&A system, including the platform’s construction, data integration, and model training. The SikuCloud system is an upgraded version of Alibaba’s Tongyi Qwen and Hangzhou DeepSeek’s deepseek large models, with enhanced capabilities in understanding and generating knowledge in the humanities. The system can not only answer specific factual questions in history, literature, philosophy, and other humanities fi elds, but also explain complex concepts and theories, and even engage in critical thinking and academic discussions to a certain extent. Finally, the paper discusses the future development directions of the SikuCloud platform, including improving system performance, enhancing functions, and optimizing user experience.

Keywords: General Large Language Models; Vertical Large Language Models; Literature and History; Qwen; DeepSeek; AI


编辑 | 韩玉凤


向上滑动 查看注释


[1]姚福:《青溪暇笔》卷下,《四库全书存目丛书》子部第109册,济南:齐鲁书社,1995年,第702页。

[2]夏传才:《诗经学四大公案的现代进展》,《河北学刊》1998年第1期。

[3]刘绍攽:《九畹古文》卷3《伍胥鞭平王尸论》,参见《清代诗文集汇编》第304册,上海:上海古籍出版社,2010年,第354页。


点击下方链接,下载原文


通用大语言模型在文史领域中的应用:以云四库智能问答系统为例.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg


阅读原文

跳转微信打开

  •  

【DH数字人文】恭贺新禧(附2025推文合集)

原创 DH数字人文 2025-12-31 14:34 北京

时间再次走到年末。回顾这一年,数字技术对人文学术的介入愈加深入,研究对象、方法路径与知识形态不断发生变化。在这样的时代条件下,

333.png

     

时间再次走到年末。回顾这一年,数字技术对人文学术的介入愈加深入,研究对象、方法路径与知识形态不断发生变化。在这样的时代条件下,数字人文不再只是若干工具的集合,而逐渐成为连接不同研究传统、促成方法反思与学科对话的重要场域。

微信图片_20251231093103_290_733.jpg

2025年1月,中国数字人文专业发展联盟正式成立。2025年3月,清华大学-同方知网数字人文联合研究中心成立。2025年11月,清华大学传统文化智能实验室获批教育部哲学社会科学实验室。全国高校与研究机构在文科实验室建设、课程专业设置、跨学科合作、数据库与平台搭建等方面持续探索,各类学术会议、论坛与工作坊不断展开。这些努力为人文研究带来了活力,也不断提出新的问题:数字人文如何形成相对稳定的专业结构?不同路径之间如何实现有效沟通?研究与教学又如何在快速变化的技术环境中保持内在连贯性?正是在这样的讨论中,数字人文的学科轮廓逐步显现。

1-.jpg

6-.jpg

与此同时,生成式人工智能等新技术的快速发展,也促使学术界更加认真地思考技术使用的边界与规范。技术确实为研究带来了新的可能,但同样需要被审慎引导。对于人文学者而言,重要的不仅是掌握工具,更是保持对人类经验、历史复杂性与学术责任的敏感。数字人文的意义,正体现在这种双重要求之中:既回应方法更新,也坚持价值判断。

回顾这一年,我们愈发清晰地意识到,数字人文并非一时之潮,而是一项值得长期关注和持续投入的学术方向。它依赖共同体的建设,也离不开个体的持续探索。感谢所有作者、读者、编委与同行在这一年中的支持与参与。新的一年,《数字人文》将继续作为开放的学术平台,在对话与反思中,与更多朋友一道推进人文学术的更新与发展。


2025年推文回顾

数字人文基本问题


数字化

可持续性与复杂性:数字人文中的知识与权威

数字时代人文研究的范式跃迁

网络分析与计算批评

计算批评:人文概念与数字方法

数字人文与文学研究

 

数字人文视域下的文本形态及其审美阐释

数字人文视域下二十四史论赞引语的言据性研究

唐宋诗的“江湖”书写

中国古典文学研究的进境 ——以《文学遗产》1980—2023年刊文为中心

诗可以群:基于线性模型和双模网络的唐代进士群体交往诗研究

唐朝诗人社交网络与意象蕴情关联研究

利用“知识图谱”网站诗词库API及文本挖掘技术分析诗词意象的方法 ——以挖掘“鹧鸪”意象隐藏模式为例

20世纪以来我国宋代文学研究历程的量化分析

《文学遗产》创刊以来宋代文学研究论文的量化分析 ——为《文学遗产》创刊70周年而作

唐代元和文学基本创作生态的量化研究 ——基于唐宋文学编年地图及知识图谱的数据分析

唐宋之间:李梦阳律诗中的同题异调

基于预训练模型的古典诗歌风格判定方法

情感分析与情感小说

论“远读”与“细读”的等阶性 —或迈向丰富数据文学史的新研究对象

“操作化”:或现代文学理论中的测量功能 —斯坦福文学实验室小册子之六

模式与阐释 —斯坦福文学实验室小册子之十五

苏轼南迁末段行程路线及创作系地考

数字史学与空间分析

 

于斯为盛:空间关系视角下的清代江南学术共同体问题再榷

从晚清民国报刊看“妇女”概念的变迁

基于地方志的晚清民国山东中部基层市场网络分析

空间分析在历史研究中的应用及其价值

数字史学项目模式探讨 ——以“现代中国城市中的精英、网络与权力”(ENP-China)为例

历史与AI的距离|当AI“读懂”我的西夏文研究

检测脚注 ——以“十八世纪在线文集”(ECCO)的3,200万页书籍为材料

基于空间可视化与关系网络分析下的明中叶兖州府田赋折银研究

文化地理学视角下《道德经》英译本的数字人文探索

基于GIS的洪武朝南京祭坛方位复原及区划分析 ——兼论朱元璋合祀天地的地理动因

从天而视 ——以卫星视角论剑南西山八州定位与唐蕃百年得失(上)

从天而视 ——以卫星视角论剑南西山八州定位与唐蕃百年得失(下)

明末清初王家营水陆枢纽之形成及相关路线之复原

18至19世纪《泰晤士报》有关老子报道的文本分析

系列笔谈之十:数据驱动的文化史研究

数字文献学与语言研究

 

上古汉语分词和词性标记语料的构建

古籍文献中人名实体信息的提取方法及实现研究

基于LDA主题模型的中国高校期刊文本挖掘研究(1912—1978) ——以数学文章为考察中心

《数字人文时代的语言、移民与多语问题》述介

语言接触与融合研究国际前沿、热点与趋势 ——基于Python知识图谱的量化分析

基于监督式深度学习的中文古籍版本鉴定法

融合代价敏感学习的古文多粒度实体识别研究

大语言模型古诗文自动笺注性能评测研究

低资源条件下的西夏文OCR与机器翻译研究

汉语音义文献自动分词研究 ——以唐五代佛典音义为例

大容量古籍文本隐性知识体系挖掘与重构 ——基于《太平御览》的数史互证

文言文阅读难度自动分级研究

国内博物馆陈列文本英译研究知识图谱分析(2000—2023)

大语言模型开放性生成文本中的职业性别偏见研究

数字人文与艺术

 

微信图片_20251229092035_2984_471.png

数字人文视阈下计算机如何“观”影?

浮现群像:戏票可视化的视觉设计思考

民国时期京剧的叙事策略、主题表达与社会关注度 ——基于《戏考》《京剧汇编》的计量分析研究

人机协同,探索艺术与科学融合新路径

基于深度学习的岩画鉴别与分类研究 ——以贺兰山岩画为例

计算机辅助分析藏语电影色彩感知特征 ——以万玛才旦电影为例

数字人文与教育

 

11111.png

面向AIGC的教育情景规划

跨学科笔谈:科技如何影响人文教育细节

培育“人工智能观”:教学实践与有效性依据

数字人文本科专业课程建设研究与实践 ——以内蒙古师范大学数字人文专业为例

大语言模型的历史知识生成 ——基于美国史教学试验的观察与思考

数字人文基础设施

 

关于地方志数据库建设的构想——以扬州地方志关系型数据库建设为例

数字人文研究中工程学思维与文学思维的融合 ——关于“古典戏曲文本分析与智能再造平台”的建设经验

数字人文时代民国档案索引编制的现状、意义及发展思考

面向数字人文的开放式科学基础设施:以CLARIN为例

地表三角格网在历史地表水系数据组织与管理的应用方式

中西方谚语多元价值观资源库建设及对比研究

古籍方志物产领域知识图谱构建与应用研究

从数据聚合到数字素养 ——数字人文视角下艺术图像库建设的现状与展望

建设“中国历代典籍目录总库”,推动数字古典目录学发展

数字人文视域下三国史文献异文资源库的构建与应用研究

数字古籍整理平台的功能分析与校勘维度考察

系列笔谈之九:古籍语料库的构建和应用

基于大语言模型的文史知识库构建研究

DHer访谈

 

唐宸:古典文学天文研究与古籍数字化的多维探索

从人文计算到数字人文:开放性,有用性和可能性 ——访雷·西门子

数字人文方法论、人文伦理与批判性教育 ——专访卡罗琳·巴塞特教授

学术交流与研究网络

 

Call for Papers | DHEA 2025

论坛征文 | 第四届东亚古籍数字人文国际论坛2025

前沿对谈 | “AI挑战下的人文学术”活动预告

【学术活动】“AI挑战下的人文学术”跨学科对谈在北大举行

什么话题?聚起北大清华四位老师对谈

议程发布丨第六届媒介物质性论坛:数字智能、宇宙技术与行星未来

会议预告|数字人文视域下的古代知识层累与会通暨第四届古代小说知识学青年学者工作坊

会议日程 | 数字人文与古代文史研究学术研讨会

会议通知 | 2025年数字人文全球华人博士生论坛

“人工智能时代人文知识生产的模式变革与体系重构”工作坊成功举办

简锦松:现地研究的领域是“不设限”的

完更迭代,重磅上线 | 简锦松《现地研究方法20讲》

会议回顾|数智时代的人文数据库建设与可视分析

北京数字人文工作坊第五期——探寻文献中的显隐关联 文本相似性计算在数字人文研究中的应用

文本相似性计算在数字人文研究中的应用——北京数字人文工作坊第五期活动回顾·发言纪要

会议通知丨首届数字人文专业发展联盟年会暨第六届清华数字人文国际论坛一号通知

第六届清华数字人文国际论坛“未来学者”专场报名通知

议程发布丨首届数字人文专业发展联盟年会暨第六届清华大学数字人文国际会议

首届数字人文专业发展联盟年会暨第六届清华数字人文国际会议在昆明学院成功举办

会议预告|人工智能与艺术史论研究的潜力:跨学科青年工作坊

“人工智能与艺术史论研究的潜力”跨学科青年工作坊成功举办

会议预告|声律·格律·乐律:中国古代语言、文学、乐舞韵律艺术研讨会

会议预告|神经元与文本:中国人文学的新前沿

多领域、跨学科共建知识生产新模式 ——“人工智能时代人文知识生产的模式变革与体系重构”工作坊综述

会议通知 | “人文智变:数字人文的智慧奇点”学术研讨会暨2025年中国数字人文年会(CDH2025)

会议开放注册 | “人文智变:数字人文的智慧奇点”学术研讨会暨2025年中国数字人文年会(CDH2025) 会议通知(第二号)

会议议程 | “人文智变:数字人文的智慧奇点”学术研讨会暨2025年中国数字人文年会(CDH2025) 会议通知(第四号)

论坛预告|人工智能与人文艺术研究学术论坛

会议综述丨人工智能与人文艺术研究合作仪式暨“智镜”项目发布会

数智时代的人文回声圆桌论坛成功举办

“科学+艺术”——电影《遥远的普若岗日》 脑科学暨神经美学研讨举办

数字人文发展资讯

 

《数字人文实战:网络数据库编程技术》——文科生也能轻松做数据学编程!

中华书局联合高校培养数字人文人才

数字人文专业发展联盟正式成立

教育部新批的数字人文本科专业,花落谁家?

雅集盛启·共铸未来丨数字人文专业发展联盟成立大会暨专业发展学术论坛成功举办

清华大学-同方知网数字人文联合研究中心揭牌

2025年“我用AI校古籍”(校书官)活动启动啦

《装饰》2025年第2期介绍

三部门发文,加强数字中文建设、推进语言文字信息化发展

清华美院向帆副教授团队连续3篇艺术论文被国际计算机图形和交互技术大会录用

《数字人文》再次入选中文社会科学引文索引(CSSCI)收录集刊(2025-2026)

四方合作推动人工智能人文艺术研究 “智镜”项目发布




阅读原文

跳转微信打开

  •  

“科学+艺术”——电影《遥远的普若岗日》 脑科学暨神经美学研讨举办

2025-12-30 10:02 北京

12月27日,在西藏自治区成立60周年的重要历史节点,清华大学生物医学工程学院神经工程实验室携手清华大学同方知网—数字人文联合研究中心、北京师范大学中国拉班研究中心,联合电影《遥远的普若岗日》主创团队,以及来自北京大学、北京师范大学、中国艺术研究院、北京舞蹈学院的研究生及相关学者,共同开展了“科学+艺术”:电影脑科学暨神经美学研讨活动。

本次活动以电影《遥远的普若岗日》为媒介,将展现西藏壮美山河与人文深情的国家重大主题文艺创作,与前沿脑科学探索进行深度融合,搭建起一个跨学科、跨领域的创新实践平台。这不仅是对科技与人文融合路径的创新探索,更积极响应了国家战略部署:《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》明确将脑机接口列为六大未来产业之一;2025年8月,工业和信息化部、国家发展改革委等七部门联合发布《关于推动脑机接口产业创新发展的实施意见》,为产业发展提供了系统性政策指引。


神经工程实验室深耕脑机接口领域多年,拥有超过20年的研究历史,是国内最早开展脑机接口研究的实验室之一。此次活动正是依托实验室坚实的学术支撑与技术保障,通过多方联合、学科交叉的形式,共同探索脑科学在艺术审美与国家叙事中的应用潜力。


现场围绕影片《遥远的普若岗日》分几个阶段进行。首先是清华大学二级教授、全球2%顶尖科学家、神经工程实验室主任高小榕教授的学术分享:美是信号发出者的表达,审美是接收者的感受,核心是情感传递链路的畅通,可实时或跨越时空传递。如同本片创作者蔡宇导演与摄影将普若岗日的美景和在藏工作者奉献精神的美丽内心,通过电影影像的方式传达给观众,二者理念是相通的。

再如文化与科学是人类认知世界的“两只眼睛”,需结合两者视角,避免单一盲区;好的电影艺术可以给观众带来“习得性愉悦”,可促进多巴胺、内啡肽分泌,带来即时愉悦与持久幸福感。现场进行了一场别开生面的脑机接口观影实验。两名志愿者佩戴高精度脑电采集设备,观看电影中的精彩片段。实时生成的脑地形图显示:当影片播放至男主演在极寒冰河中牺牲的情节时,志愿者的全脑激活程度显著提升。神经工程实验室博士研究生李泽轩解释说,数据显示,志愿者在观看到高潮片段时,大脑全局活动强度显著提升,前额区域被显著激活。这相当于把内心抽象的“感动”变成了可视化的“数据”,直观证明了电影情节对观众产生了强烈的触动。


活动现场,影片中援藏干部刘光武的饰演者王家强深情讲述了这一国家重大题材背后的创作艰辛。据悉,电影取材于真实历史与人物原型,坚持99%实景拍摄。剧组深入海拔5000米以上的“生命禁区”,最高取景地达5800米,在零下30摄氏度的极寒与极度缺氧环境中,转场跋涉超3000公里,只为捕捉最纯粹的自然与人性光辉。王家强特别提到,在拍摄“乡长为救落水牦牛牺牲”的关键一幕时,主演阿旺仁青在冰河中浸泡长达45分钟。衣物出水十秒即结冰,在令人窒息的严寒挑战下,演员冒着生命危险,以挑战生理极限的敬业精神,完美还原了震撼人心的真实历史瞬间。这种将生命体验融入镜头语言的极致创作,不仅展现了西藏壮美山河下的英雄史诗,也为现场的脑科学与神经美学研讨提供了极具情感张力与研究价值的艺术样本。


在随后的学术研讨环节,北京师范大学艺术与传媒学院副教授、中国拉班研究中心主任唐怡与现场的专家学者展开了深度对话,从神经美学视角解读了肢体语言的力量。

唐怡教授指出,藏族舞蹈中独特的“颤膝”等原生态动作,深深植根于高原地理环境与生产生活方式。这些肢体语言并非单纯的动作,而是能够激活观者大脑“镜像神经元”的文化密码,从而唤起跨越时空的文化共识与深层共情。她进一步强调,身体是情绪感知的精密“感受器”。以影片中“面对洛桑牺牲”的悲痛段落为例,观众在观看时会出现心跳加速、肌肉紧绷等生理同步反应,这正是艺术动作触发内在情绪机制的直接体现。这种“感同身受”深刻揭示了身体与审美的神经关联——身体不仅是艺术的表达者,更是审美情感被传递与感知的核心载体。

活动最后,主演旦增央珍与现场志愿者进行了互动。志愿者佩戴可穿戴脑机接口设备,围绕电影《遥远的普若岗日》剧情回答提问,并通过调控自身的专注力与放松度脑电指标,进行了双人脑电游戏竞赛,直观体验了脑机交互技术。(余翠平

责任编辑:琼达卓嘎

本文转自人民日报

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn


阅读原文

跳转微信打开

  •  

数智时代的人文回声圆桌论坛成功举办

2025-12-29 09:40 北京

12月13日,“中国研究再连接项目”(Re-connecting Research in China)之“数智时代的人文回声”圆桌论坛在清华大学新学堂成功举办,该活动由清华-埃克塞特全球人文研究中心、清华大学外国语言文学系承办。该项目旨在推进中英学者之间的在人文学科领域的研究合作,由英国纽卡斯尔大学国际事务副校长李利(LI Li)教授主导,英国文化教育协会资助。由此次论坛的主题是“人工智能与人文研究的跨文化对话”,来自中国、英国、美国、加拿大等4个国家的11名知名人文学者进行了精彩发言,李利主持了圆桌论坛。正在清华大学参加中英青年可持续发展对话的30余名中英学生,以及清华师生共60余人现场参会,并与发言嘉宾进行了精彩互动。


                                          论坛现场嘉宾发言


西安交通利物浦大学斯图尔特·佩林教授(Stuart Perrin)探讨了AI对教育体系的冲击,提出人类思维相比AI虽然低效,但发散性思维和迂回思考使得人类在创造力方面仍优于AI,教育领域应摆脱对标准答案的单一追求,人类需要接受思维低效性的价值,接纳人类大脑天生的“不完美效率”。


中国外国文学学会莎士比亚研究分会会长、北京大学黄必康教授探讨了AI在翻译领域中的应用及其对人类创造力和人文价值的挑战,指出文学翻译需要人类的情感与审美参与;作为工具理性网络数字化延伸的AI,无法完全替代人类的认知过程和主体能动。历史上数次工业革命也曾引发对技术过度依赖的担忧,但人文主义者始终能尝试平衡技术进步与人类价值、坚守人文精神。他将AI比喻为突破了现有“世界知识”限制的狼,并说道:“狼来了,让我们与狼共舞”。


 李利教授进行圆桌论坛的主持


中国社科院国际合作局副局长魏南枝研究员就中美在人工智能领域的竞争及其对全球南方国家的影响进行了探讨。她对AI与资本结合可能导致大多数人沦为高科技工具的现象表示担忧,并提出人类必须思考这样一个关键问题:“如何塑造AI的发展方向,而不是被AI塑造”。她强调,人类有能力也必将与人工智能共同走向未来;AI应当成为我们的工具,而不应成为我们的主人。


北京师范大学外国语言文学学院副院长王楠教授回顾了近现代伴随着工业革命、科技革命的发生,西方文学艺术领域发生的根本转向,即对“人”的自信。她认为,当下虽然AI对人类理性和艺术产生一定的冲击,但AI时代对人类想象力、创造力的尊重更值得探讨。原创的科幻作品可以作为试验场,既警示人类被AI异化的风险,又保存人类经验的诗意内核。


加拿大不列颠哥伦比亚大学教授大卫·安德森(David Anderson)讨论了AI对博物馆教育领域影响及面临的多样化学习需求挑战。他表示,全球博物馆正经历AI带来的冲击,博物馆教育者需应对不同观众群体的多样化学习目标和需求。


清华大学外文系主任吴霞教授系统介绍了人工智能赋能外语学科建设的探索与实践成果。她以现场互动的方式,与学生深入探讨了大语言模型在教育场景中的应用现状、实践挑战及潜在影响,同时分享了外文系在建设垂直领域学科智能体方面的最新进展。吴霞教授强调,教育界应主动拥抱技术变革,深入探究人工智能对教学模式的重塑作用;既要善用AI工具提升教学效能,也需积极回应AI时代为人文教育带来的新课题,从而从容地应对未来挑战。


论坛嘉宾与现场学生进行精彩互动


清华大学人文学院李飞跃教授探讨了数字技术如何将自然、社会及文化现象转化为可计算、可通约的系统,并展望了未来睡眠社会的可能性。他指出,算法、数据和算力的发展使自然规律、生命现象、社会互动等均纳入计算框架,数字化技术将世界转化为可拆解、可编码的系统,通过离散单元实现现实的形式化控制,未来将实现睡眠社会,人类可通过沉浸式睡眠进行工作交流。


清华大学外文系刘昊副教授指出,人工智能擅长将知识与能力导向特定的“优化赛道”,这催生了标准化的竞争。因此,人文教育尤其要重视个体的体悟,培养一种无法被单一赛道所衡量、具备多元适应性与整合性的人类精神。她强调,人文工作者的使命在于引导学生超越固定的赛道框架限制,培养其批判性思维与自觉意识,使他们能够识别并跳出网络上信息的偏见,进行真正灵活多元的思考与实践。最后,她总结道,在人工智能不断拓展并模糊人机边界的今天,如何定义“人之为人的本质”已成为人文学科必须回答的核心命题。


现场参加论坛的英国学生积极提问


清华大学人文与社会科学高等研究所康恒毅(Peter Conroy)博士分享了他对AI最初持抗拒态度到逐渐认识到其作为工具的潜力的经历,他强调需要思考如何将AI整合到教学中,从而保留文学研究的初心,即产生关于文学的知识、训练审美判断能力、发展语言认知能力、保持国家和文化传统等。他强调,愿理性思辨(Think)战胜盲从无思(Think not),让人工智能终为人类之辅。


美国普林斯顿大学黄舫湲博士通过分享她2023-2025年间在普林斯顿大学教学经历中观察到的AI时代研究与学习范式的转变,指出AI的存在已成既成事实,关键在于如何合理利用。中美英三国在AI相关领域的立场存在差异,这为未来合作提供了潜在机遇。作为教育者,她希望大家重视并培养人工智能素养。


在讨论交流环节,现场中英学生与发言嘉宾之间进行了精彩的互动提问,大家就睡眠社会的可能性、AI发展进程是否需要人类参与调控、人文学科是否应对AI现状及未来负责、中英学生使用AI的差异、AI依赖的形成条件、AI对社会经济结构产生的影响、AI工具在学习过程中的作用及其对语言模仿和语言演变的影响等内容进行了深入的互动交流。


发言嘉宾论坛结束后集体合影


李利在总结致辞中强调,本次论坛所探讨的从来不止于技术工具的迭代,更关乎人类文明发展的未来走向。在人工智能席卷而来的时代浪潮中,人文学科的使命已然清晰:它不必追逐算法的运算速度,而应坚守并阐释那些算法永远无法量化的核心价值——关乎善恶的伦理准则、触动心灵的美学体验、浸润灵魂的文化深意。面对人工智能带来的机遇与挑战,真正的破局力量,从来不在某一个标准答案里,而在跨越边界的协同合作之中。愿我们以此为契机,将这场全球对话持续深化,让技术发展深深扎根于人类文化的沃土,让科技进步始终闪耀着温暖的人文光辉。

供稿|高阳

编辑|沙克尔江

审核|高阳 郑文博


阅读原文

跳转微信打开

  •  

文言文阅读难度自动分级研究

原创 仇汉宇 胡韧奋等 2025-12-25 10:01 北京

客观、高效地评估文言文阅读难度是语文教育和国学传播领域亟待解决的重要课题。本文着眼于文言文阅读难度自动分级研究,首先构建了文言文分级语料库,并融合语言形式特征、浅层语义特征和深层语义特征构建机器学习模型

知识·阅读·问答



封面.png

仇汉宇/北京师范大学国际中文教育学院

胡韧奋/北京师范大学国际中文教育学院(通讯作者)

张学涛/北京师范大学国际中文教育学院

何 杰/北京师范大学第二附属中学

要:客观、高效地评估文言文阅读难度是语文教育和国学传播领域亟待解决的重要课题。本文着眼于文言文阅读难度自动分级研究,首先构建了文言文分级语料库,并融合语言形式特征、浅层语义特征和深层语义特征构建机器学习模型;同时,探索了GPT-4o、DeepSeek-V3等大语言模型在该任务上的潜力。实验结果显示,基于融合特征的机器学习模型表现最佳,梯度提升模型的分类准确率达到96%以上;[1]大语言模型因缺乏背景知识,分类准确率仅为60%—70%,经少量数据微调后,大语言模型的表现得到显著提升,接近机器学习模型水平。进一步地,本文分析了模型误判的案例及原因,并探讨了现有分级体系和数据存在的一些问题。

关键词:文言文阅读分级 特征融合 机器学习 大语言模型



一、引言

古代典籍作为中华优秀传统文化的重要载体,在文化传承与创新中具有不可替代的战略地位。教育部发布的《完善中华优秀传统文化教育指导纲要》中强调要“分学段有序推进中华优秀传统文化教育”[2]。随后,中共中央办公厅、国务院办公厅联合印发的《关于实施中华优秀传统文化传承发展工程的意见》明确提出:“把中华优秀传统文化全方位融入思想道德教育、文化知识教育、艺术体育教育、社会实践教育各环节,贯穿于启蒙教育、基础教育、职业教育、高等教育、继续教育各领域。”[3]这一政策导向在2017年9月启用的教育部统编语文教材中得到充分体现:初中阶段古诗文选篇比例提升至总篇目的50%左右,各年级平均古诗文学习量达40篇。在此背景下,如何科学构建符合不同学段认知特点的文言文阅读分级体系,精准选择适配学生实际阅读能力的篇目,已成为文言文教育领域亟待解决的重要课题。

追溯文言文阅读能力培养的研究历程,可以发现,早在1923年颁布的《新学制课程标准初级中学国语课程纲要》中就确立了“使学生能看平易的古书”[4]的基本原则。近百年来,尽管语文课程标准历经多次修订,但“浅易文言文”这一理念始终贯穿文言文教学实践。[5]然而,“浅易”作为一个相对模糊的概念,自提出以来就引发学界的持续讨论与多元阐释。现有研究多基于教学经验做出主观判断,尚未建立起系统科学的量化评估体系,这在一定程度上制约了文言文分级阅读体系的科学构建与有效实施。

近年来,文本可读性自动评估研究在国际中文教育[6]、语文教材文本分级[7]等领域已有较为丰富的成果,形成了配套的应用资源。在文言文自动分级领域,相关工作仍处于探索阶段。马坤针对初中“浅易文言文”进行特征抽取与分类实验,探索了“浅易文言文”的自动化分析路径。[8]张秋玲基于人工选取的241篇文言文进行编码与统计分析,筛选出了界定文言文“浅易”级别的21个语词指标参照值[9],并在后续工作中基于读者阅读能力匹配和专家干预两种方式对已有模型进行检验和修正,是量化文言文难度等级的突破性工作。[10]然而,文言文阅读分级研究仍有很大探索空间:(1)在数据资源层面,文言文分级标准尚不明确,缺乏高质量的分级语料库;(2)在分析方法层面,现有分级工作依赖专家设计特征和人工标注,无法实现特征自动化抽取和难度标定;(3)现有研究多聚焦于字词统计特征,对文本的语义结构、思想内涵等深层要素缺乏有效表征。

随着数字人文研究范式的深化,智能化的文本分析方法为突破这一困境提供了新的可能。其中,自然语言处理技术支持分析文言文的形式与语义特征,以ChatGPT、DeepSeek为代表的大语言模型也展现出处理复杂任务的能力,这为自动抽取文言文特征、构建分级系统提供了技术基础。因此,本研究拟构建文言文自动分级资源和算法,并探索大语言模型在该任务中的应用潜力,为传统文化教育资源建设提供新的视角。


二、文言文阅读难度分级任务

(一)任务定义

文言文难度分级为多标签分类任务,给定语料库,其中每个文本样本经向量化处理后得到k维特征向量,任务旨在构建模型,将文言文的特征向量映射到对应的难度等级上。

(二)评测数据构建

1.阅读难度等级设计

已有研究中,文言文文本难度标定多基于研究者的主观判断,所选择的篇目多集中在“浅易”文言文中,涉及篇目范围小、数量少,难以满足语文教学、考试之外的拓展阅读需求。教育部颁发的纲领性文件《完善中华优秀传统文化教育指导纲要》(以下简称《纲要》)中明确了“分学段有序推进中华优秀传统文化教育”,对小学、初中、高中、大学阶段的文言文教学提出了不同层面的要求,间接规定了各阶段选篇的原则。综合考虑《纲要》提出的分阶段教学指导以及实际应用的需要,本文将文言文难度预设为如下三个等级,各等级文本示例和说明参见表1。

图1.png 表1 各等级文本样例与说明

(1)初级:浅易文言文,主要面向初中文言文教学与试题命制。《纲要》指出:“初中阶段,以增强学生对中华优秀传统文化的理解力为重点……阅读浅易文言文,注重积累、感悟和运用,提高欣赏品位。”这一等级的文言文篇幅短小精悍,多使用简单、常见的词汇和句式,内容贴近生活,易于理解。

(2)中级:进阶文言文,主要面向高中文言文教学与试题命制。《纲要》中对高中文言文的教学要求是:“以增强学生对中华优秀传统文化的理性认识为重点……阅读篇幅较长的传统文化经典作品,提高古典文学和传统艺术鉴赏能力。”这一等级的文本应出现较多古汉语常见的实词和虚词,并开始出现一定量的文言文特殊句式(省略句、判断句、倒装句和被动句),并涉及基础的文学文化常识。在思想内涵方面,这些文本应属于中华传统文化经典作品,具有较为深刻的思想价值。

(3)高级:困难文言文,主要面向大学相关专业的教学和研究。《纲要》指出,大学阶段的传统文化教育,应“以提高学生对中华优秀传统文化的自主学习和探究能力为重点……深入学习中国古代思想文化的重要典籍”。这一等级的文言文语言艰深繁难,需要专业的古代汉语知识来辅助阅读;思想内涵深刻,具有一定的哲学思辨色彩,或涉及一定的专业知识,如古代训诂学、音韵学专著选篇。

2.文言文阅读分级语料库建设

基于上述分级标准,本研究构建了文言文阅读分级语料库。其中,初级文本收录统编语文教材初中学段的文言文篇目,并从近五年各地语文中考试卷中提取文言文阅读题选篇。中级文本收录统编语文教材高中学段的文言文篇目,并从近十年的语文高考试卷中提取文言文阅读篇目。高级文本参考古代汉语领域专家意见,收录了更为多元的文言文篇目,具体包括如下几个部分:(1)从王力、王宁先生主编《古代汉语》教材中选择具有一定难度的文言文篇目,如《礼记》《文心雕龙》选篇、两汉六朝赋文等;[11](2)从先秦经典作品《尚书》《春秋公羊传》中选择一定数量篇目;(3)补充涉及文史或科技专业知识的篇目,如“二十四史”的志书部分、《天工开物》和《国故论衡》相关篇目;(4)补充出土文献篇目,如清华简选篇。上述篇目经由人工筛选、去重后,得到初级文本228篇、中级文本167篇、高级文本280篇,总共675篇文本。

(三)分级特征抽取

在自动分级任务中,文本特征抽取是十分重要的步骤。结合古汉语文本特点和难度等级设计,本文提出了三个维度的分级特征:(1)语言形式特征,主要衡量字词常用度与丰富度、句式结构、语篇风格等形式上的特征;(2)浅层语义特征,即基于TF-IDF算法构建文本向量表示;(3)深层语义特征,即基于古汉语预训练语言模型BERT提取文本向量表示。以下将分别介绍三种特征及其抽取方式。

1.语言形式特征

在现代汉语阅读文本分级领域,已有工作从字词、句、篇等层面提出了一系列语言特征,[12]但这些特征并不能直接迁移到古汉语文本分析中。因此,本研究参考了相关成果,针对古汉语文本难度特点及当前自然语言处理技术分析精度,设计了一组适用于文言文难度分级的语言形式特征,经预实验检验后纳入特征集,具体可参见表2。这些特征包括如下三个方面:

(1)字词特征。古汉语的词汇以单音节词为主,复音节词边界判断存在一定模糊性,而以n元组(n-gram)为分析对象则可以较好地避免这一问题。因此,本文使用字和二元组(bigram)为单位来捕捉古汉语的词汇信息,并从字词常用度、多样性和词义复杂性等方面设计特征。在常用度方面,基于《四库全书》语料库统计古代汉语的字、二元组频率,并以统计结果为基础,计算字词频率类指标。在多样性方面,为了消除文本长度对类符-形符比(Type-Token Ratio,简称TTR)特征的影响,本文使用滑动窗口平均类符-形符比(Moving Average Type-Token Ratio,简称MATTR)来统计词汇多样性。在词义复杂性方面,利用中高考文言文常用实词虚词、古今异义词等词表[13]统计相应词语数量和比例指标,并参考《汉语大词典》计算词语平均义项数量指标。

图2.png 表2 本文所使用的语言形式特征与指标说明

(2)句层面特征。考虑到古汉语句法自动分析存在极高挑战性,且相应分析器尚未达到十分理想的效果,因此,本文主要通过计算文言文整句和小句的平均句长、句长离散度等指标来捕捉其句式特点。

(3)语篇典雅度特征。一般而言,如果文言文的表达(词汇、句式等)贴近于现代汉语,那么该文本便易于当代人理解。为了量化这一特性,本文借助了语言模型的困惑度(Perplexity)指标。以GPT(Generative Pre-trained Transformer)为代表的单向语言模型基于大量的文本语料进行训练,可以很好地学习语言的分布特征,并支持对句子的成立概率进行判断。一般而言,模型判断句子成立的概率越高,困惑度越低。基于此,本文分别通过现代汉语GPT模型和古代汉语GPT模型计算文段句均困惑度,并取对数差值。[14]该指标可以反映语篇的文言典雅程度,是文言词汇、句式等特征使用情况的综合体现,其数值越高,表示模型越接近古代汉语文言表达;数值越低,则越接近现代汉语表达。

2.浅层语义特征

上述语言特征主要从宏观层面捕捉文本的形式特征,对其内容、主题等难以表示,且覆盖的字词范围相对有限。为进一步提升特征效力,本文采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)算法对整篇文本的向量进行表示,该算法通过逆文档频率加权能够有效区分字词重要性,既能提取表征文本主题的关键实词,又可捕获具有语体区分度的功能词。具体来说,仍以字和二元组为单位,取TF-IDF权重排名前8000的字词[15],表征文本向量,作为浅层语义特征。

3.深层语义特征

程勇等尝试将多元语言特征与BERT语言模型编码特征相结合,在现代汉语文本难度分级任务中取得了较好效果。[16]受其思路启发,本文使用古汉语BERT模型对文本的深层语义信息进行表示。该模型通过多层双向Transformer编码器实现上下文感知的语义建模:首先,掩码语言建模(Masked Language Modeling,简称MLM)任务使得模型以“完形填空”的方式习得语言的分布特征,训练了模型的“语感”;其次,下一句预测(Next Sentence Prediction,简称NSP)任务训练了模型检验上下文连贯性的能力。总体而言,BERT模型可以很好地捕捉语句的深层语义特征,补充了浅层语义特征缺失的信息,对于文本的主题信息表征效果更好。

本文使用SikuBERT来抽取模型的深层语义特征,该模型基于高质量《四库全书》语料库训练得到,在多个下游任务中取得了较好表现[17]在表征文本语义向量时,先取BERT模型输出层的token向量平均得到句向量,再对文本句向量构成的矩阵做平均池化,得到整篇文本的语义向量表征。

(四)基于大型语言模型的方法

在利用大型语言模型来完成具体的任务时,提示工程(Prompt Engineering)和微调(Fine-tuning)是提升大型语言模型表现的两种常见技术手段。具体而言,在提示设计中,可以通过思维链、小样本学习、自我一致性提示等策略来明确任务指令,给予模型更多的信息,从而提升模型的表现。例如,思维链(Chain-of-thought)机制是让模型在推理任务中,按照人类设计的步骤逐步完成推理的机制。小样本学习机制是在提示词中加入一定量的案例,让模型只学习少量的样本,从而类比解决当前的问题。与提示设计不同,微调则需要用户依据任务需求给出一定量的标准问答对供模型学习,模型通过参数调整学习任务所需要的知识,或适应其形式要求。

在本任务中,依据文言文自动分级这一任务的特征,使用少样本学习机制来设计提示词,并提供清晰的任务说明,以探究通用大模型在该任务中的表现;同时,采用微调方法,给定一定量的标准文言文分级语料,让模型具体学习各等级文本的特性,挖掘其应用潜力。本文使用的提示词以及微调数据格式见附录一。

需要指出的是,使用传统机器学习模型完成任务时,模型的性能依赖于特征抽取。本文抽取的特征基本涵盖了古汉语文本在词汇、语义等层面的特征,而在文本的思想内涵层面,这一特征较为模糊,相同主题的文章在思想内涵上或有深度差异,难以为传统方法捕捉。与之相较,大型语言模型在文本思想内涵的把握上具有一定潜力。应用大型语言模型来进行文本分级任务或可弥补传统语言特征在思想内涵特征方面的不足。


三、文言文阅读难度分级实验

(一)实验设计

文言文分级是一个多分类任务,故采用了适用于多分类任务的机器学习模型以及大型语言模型。同时,考虑到难度等级之间的次序关系,部分模型在回归任务设定下进行训练。在回归的任务设定下进行训练的模型,依据其预测值与各标签之间的距离,取距离最近的标签作为最终分类标签,并与分类模型采用同样的评测指标。评测指标采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及F1值。除准确率外,其余三项指标采用宏平均方法计算。在分级语料库中,对所有模型统一划分训练集和测试集。对每个等级文本,采集80%的数据收入训练集,余下20%的文本组成测试集。训练集文本数为539篇,测试集语料为136篇。

机器学习模型选择了常规线性模型:岭回归(Ridge Regression)、K最近邻(KNN)、有序逻辑回归(Ordinal Logistic Regression)、决策树(Decision Tree)和非线性的集成模型:梯度提升(Histogram-based Gradient Boosting)、随机森林(Random Forest)。[18]模型的输入采用上文所述的三类特征的融合形式,即将三种不同方式抽取出的特征向量进行拼接。[19]

大型语言模型方面,本文参考多项大模型评测排行榜,选择了效果较为出众的OpenAI GPT-4o、GPT-4o-mini和深度求索DeepSeek-V3模型进行提示工程实验,并基于GPT-4o-mini构建微调模型(简称GPT-4o-mini-FT)。[20]这些模型均通过其对应的API进行调用。为了控制实验结果的稳定性,大型语言模型的temperature参数均设置为0。微调数据来源于训练集,从每个等级的文本训练语料中随机抽取50篇,共150篇文本。

(二)实验结果分析

1.实验结果

表3报告了实验结果。在文言文分级任务中,传统机器学习模型整体表现较好,表现最优异的模型(梯度提升模型)F1值可以达到95.72%,这证明了本文所提出的三类特征的有效性。在机器学习模型中,线性模型(岭回归、K最近邻、有序逻辑回归和决策树)的表现逊色于集成模型(梯度提升和随机森林),反映出文本难度与特征之间存在非线性关系。同时,相较于回归任务设定,在多分类任务设定下,两个集成模型的性能更佳。大型语言模型中,在未经微调的设定下,DeepSeek-V3的表现最好,GPT-4o-mini其次,GPT-4o的表现最差。整体而言,通用大语言模型由于缺乏背景知识和对文言文难度的感知能力,最高F1值仅有69.96%,落后于传统机器学习模型。然而,大型语言模型具有较强的学习能力,经一定量数据(150篇文本)微调后,GPT-4o-mini-FT模型的F1值达到86.31%,达到线性机器学习模型的水平。


图3.png

表3 文本分级实验结果[21]

2.混淆案例分析

为了探究大型语言模型在文言文分级任务上表现欠佳的原因,同时探索机器学习模型和微调模型的优化路径,本节将对模型预测误例进行分析。具体来说,选取了大语言模型中表现最好的DeepSeek-V3、微调模型GPT-4o-mini-FT和机器学习模型中表现最好的梯度提升模型,报告了模型分类的混淆矩阵及各类别评估指标,如表4所示。

图4.png 表4 模型分类混淆矩阵及各类别评估指标

总体而言,三个模型在高级文本上表现较好,而在分析初级和中级文本时出现不同程度的问题。在高级文本上,各模型的F1值都能达到90%以上,综合表现十分优异。这一现象可能是因为在本文预设的难度等级下,高级文本相较于前两个等级具有更明显的难度区分度,模型得以很好地对这类文本做判断。

具体到每个模型,DeepSeek-V3倾向于将较多初级文本(28篇)、高级文本(8篇)都预测为中级,说明其依据提示词中给定的案例不能很好地捕捉预设等级的差异特征。在微调模型中,当给定150篇样本供模型学习后,原本性能弱于DeepSeek-V3的GPT-4o-mini取得了大幅提升,但仍存在将一定数量初级文本预测为中级的情况。梯度提升模型的总体表现最好,其预测误例集中于初、中级文本混淆。由此,需进一步分析模型误判的篇目。

分析发现,梯度提升模型误例主要来源于中高考试题,即中考题被判断为中级,高考题被判断为初级。由于缺乏客观量化标准,试卷选篇虽然参考考纲要求,但仍受命题人经验和考题设置角度影响,不一定在文本难度控制上十分精确,而模型只能把握文本在语言形式和语义内容方面的特征,无法捕捉到更多的因素,因此预测误例集中于这类文本。此外,误例中也有极少数教材选篇,如初中九年级下册的《出师表》被模型判断为中级文本,而选于高中教材选择性必修上的《大学之道》被模型判断为初级文本。进一步观察样本发现,模型准确捕捉到了两篇文本在语言难度上的差异:《出师表》中涉及的生僻词与专有名词多,有较多的古今异义现象,同时句式较集中,小句长度短,省略较多;《大学之道》通篇常见的实词较多,语句连贯程度高,句式相近,较为容易理解,其语言难度整体的确低于《出师表》。但是,二者在思想内涵方面的差异则难以被模型捕捉,《大学之道》出自宋明理学重要典籍,其思想内涵十分深刻,所表达的对个人、家庭、国家、世界四个层次的关系思考,对于即将步入大学阶段深造的高中生具有重要教育意义。相较而言,《出师表》要求学生联系诸葛亮其人的生平经历,体悟其“鞠躬尽瘁,死而后已”的忠义精神。由此可见,模型未能很好地平衡语言难度和思想难度的权重,作出了错误判断。


四、文言文分级实验启示

由实验结果可知,基于融合特征的机器学习模型在该任务上表现优异。大语言模型在提示设计这一路径上表现较为一般,而在进行了一定量数据微调后,模型的性能得到了显著的提升。基于上述实验结果分析,可以进一步得出以下三点启示:

首先,不论是基于特征抽取的机器学习模型,还是基于“预训练—微调”范式的大语言模型,它们都能够基本把握不同等级文言文的难度差异,但十分依赖训练数据的设计、规模和质量。对于难度等级较为分明的高级文本,两种模型表现都十分优异,而模型预测误例主要集中于初级和中级文本,这表明相关篇目难度边界不够明显,需要该领域专家作进一步评估和讨论,以提炼出清晰的分级体系和标准,进而支持建设大规模、典范的文言文分级语料库,辅助提升模型表现。

其次,模型的预测误例集中于中高考题,这也反映了实际命题场景中的普遍问题。教材中的文言文选篇历经专家组多年审订、修订,初中、高中教材中的文言文难度边界相对清晰,而在中高考命题场景中,主要由当年命题组中的专家参考考纲要求对文本难度进行判断,这种评估方式受限于命题者的知识储备和经验,容易导致选篇难度不够精确的问题。未来或可利用文本难度自动评估模型,对候选文本进行初步量化判断,在此基础上,命题人进一步结合思想内涵、价值导向等维度因素进行综合考虑,实现选篇工作的精准化和高效化。这一方法可弥补主观评估的不足,为命题工作提供更为可靠的决策支持。

最后,模型选择需要考虑其性能、效率和对特定任务的适配程度。传统机器学习模型的训练和推理效率高、成本低,在合理的特征设计前提下,能够在语言、内容维度的难度判断上取得优异表现。在大语言模型中,本文发现微调小型模型GPT-4o-mini-FT能够取得较为理想表现,与GPT-4o和DeepSeek-V3相比,其使用成本更低,推理效率更高,是更为推荐的方案。值得一提的是,机器学习模型擅于捕捉语言难度特征,但对思想深度的把握或存在不足,而大模型在主题、内容、思想分析方面存在一定优势,未来可考虑开展大、小模型集成协作分析机制。


五、结论及展望

本研究着眼于语文教育和国学传播领域的实际需求,在文言文阅读难度自动分级方面展开了初步探索,包括等级设计、资源建设和算法研究。实验结果显示,基于特征融合的机器学习模型在测试集上表现最优,具备应用潜力。结合模型预测误例分析,本文进一步讨论了分级体系建设、人机协作选篇、模型选择与协作方面的启示。

需要指出的是,本研究仍存在一些不足,未来有待围绕以下方面开展进一步研究:第一,建立更细粒度的文言文难度分级体系及资源。本文所提出的文言文分级体系参考《纲要》和教材考题文本,初、中、高三级体系的粒度较粗,未来有必要与古代汉语、语文教育领域专家合作,研发更细粒度的分级体系及相关资源,为各个教育阶段的师生提供针对性文本。第二,探索综合语言、内容、思想维度的难度自动评估方法。本文所设计的特征主要覆盖语言形式和语义信息,在思想内涵上的表征不足,因此,未来有必要探索小模型和大模型的协作机制,对各维度的难度特征进行充分把握,为教材和读本编订、试题命制等实际应用场景提供有效支持。a


附录一:大模型实验中采用的提示词和微调数据格式

图5.png图6.png图7.png


附录二:中高考文言文常用实词、虚词及古今异义词词表

图8.png


Automated Text Readability Analysis for Classical Chinese

Qiu Hanyu, Hu Renfen, Zhang Xuetao, He Jie

Abstract: Objectively and efficiently assessing the readability of Classical Chinese texts is a key challenge in Chinese language education and the dissemination of traditional culture. This study focuses on automated text readability analysis of Classical Chinese. We first construct a graded Classical Chinese corpus, then build machine learning models by integrating linguistic form features, shallow semantic features and deep semantic features. We also explore the potential of large language models (LLMs) such as GPT-4o and DeepSeek-V3 for this task. Experimental results show that machine learning models with fused features perform best, with the Histogram-based Gradient Boosting model achieving over 96% classification accuracy. In contrast, LLMs achieve only 60%–70% accuracy due to limited background knowledge, but their performance improves significantly after fine-tuning with a small dataset, approaching that of machine learning models. Furthermore, we analyze cases and causes of model misclassification, and discuss issues within current grading systems and datasets.

Keywords: Classical Chinese Readability Assessment; Feature Fusion; Machine Learning; Large Language Models



编辑 | 韩玉凤


向上滑动 查看注释


[1]本文据此方法搭建了文言文阅读难度分级系统,访问地址:https://actc.shenshen.wiki,2025年3月21日。

[2]中华人民共和国教育部:《完善中华优秀传统文化教育指导纲要》,2014年,http://www.moe.gov.cn/srcsite/A13/s7061/201403/t20140328_166543.html,2025年3月21日。

[3]中共中央办公厅、国务院办公厅:《关于实施中华优秀传统文化传承发展工程的意见》,2017年,https://www.gov.cn/zhengce/2017-01/25/content_5163472.htm,2025年3月21日。

[4]吴履平主编,课程教材研究所编:《20世纪中国中小学课程标准·教学大纲汇编·语文卷》,北京:人民教育出版社,2001年,第274—276页。

[5]马坤:《初中阶段“浅易文言文”的评量研究》,硕士学位论文,北京师范大学,2021年。

[6]谭可人等:《基于多层级语言特征融合的中文文本可读性分级模型》,《中文信息学报》2024年第5期;朱君辉等:《汉语语法点特征及其在二语文本难度自动分级研究中的应用》,《语言文字应用》2022年第3期;Yue Cui et al., “CTAP for Chinese: A Linguistic Complexity Feature Automatic Calculation Platform,” Proceedings of the 12th Language Resources and Evaluation Conference, Marseille, France, 2022, pp.5525–5538.

[7]程勇等:《基于语文教材语料库的文本阅读难度分级关键因素分析与易读性公式研究》,《语言文字应用》2020年第1期;李文彪、吴云芳:《基于神经网络模型的汉语文本难度分级》,《中文信息学报》2023年第2期。

[8]马坤:《初中阶段“浅易文言文”的评量研究》,硕士学位论文,北京师范大学,2021年。

[9]张秋玲:《文言文“浅易”的语词特征研究——以百年来初中教科书中的文言选篇为研究对象》,《语言文字应用》2010年第3期。

[10]张秋玲等:《中学语文教科书文言选文难易度评量模型检验》,《语言文字应用》2022年第3期。

[11]大学《古代汉语》教材选篇与中学教材有一定重合,因此参考古汉语专家意见选择其中语言和思想难度偏高的篇目加入语料库高级文本部分。

[12]吴思远等:《文本可读性的自动分析研究综述》,《中文信息学报》2018年第12期。

[13]中高考文言文常用实词虚词、古今异义词词表见附录二。

[14]本文所使用的现代汉语GPT模型为:https://huggingface.co/uer/gpt2-chinese-cluecorpussmall,古代汉语GPT模型为:https://huggingface.co/uer/gpt2-chinese-ancient。2025年3月21日。

[15]使用Python中sklearn库函数TfidfVectorizer实现,取ngram_range参数为(1,2),max_features参数为8000。

[16]程勇等:《基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究》,《中文信息学报》2020年第4期。

[17]王东波等:《SikuBERT与SikuRoBERTa:面向数字人文的〈四库全书〉预训练模型构建及应用研究》,《图书馆论坛》2022年第6期。

[18]五折交叉验证预实验发现,两个集成模型在多分类任务和回归任务下性能最佳,因此本文仅报告两个集成模型的回归结果。

[19]五折交叉验证预实验发现,三种特征融合可以取得最好效果,因此本文报告融合特征结果。

[20]本文具体使用的模型版本为GPT-4o-2024-11-20、GPT-4o-mini-2024-07-18(同时用于微调)和DeepSeek-V3。

[21]附带Reg后缀的模型是在回归任务设定下训练得到的,下同。

[22]受篇幅限制,示例部分略去了部分原文,实际提示词中给出的是原文全篇内容。


点击下方链接,下载原文


文言文阅读难度自动分级研究.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg

阅读原文

跳转微信打开

  •  

大容量古籍文本隐性知识体系挖掘与重构 ——基于《太平御览》的数史互证

原创 唐榕骏 王京州 2025-12-23 10:01 北京

大容量古籍的文本结构化和知识体系化是当前古籍工作的重要范畴。然而,相关研究集中在目录层级,如何深入到文本内部是当前亟待解决的难题。

知识·阅读·问答



封面.png

唐榕骏 / 暨南大学文学院,广东省岭南数字人文实验教学示范中心

王京州 / 暨南大学文学院,广东省岭南数字人文实验教学示范中心(通讯作者)


要:大容量古籍的文本结构化和知识体系化是当前古籍工作的重要范畴。然而,相关研究集中在目录层级,如何深入到文本内部是当前亟待解决的难题。LDA主题模型在大规模文档潜在主题识别中表现优异。本研究目的是探究其在类书等大容量古籍文本隐性知识体系挖掘和重构中的作用。本研究方法以《太平御览》为样本,通过LDA模型与情感词典进行主题与情感识别、依托IEMP权力理论建构隐性知识体系模型,再通过“大模型+prompts提示词”和GraphPad进行可视化、“数史互证”和T-test进行分析。结果显示,《太平御览》的隐性知识体系是以帝王认知需求为核心的“三维五类皇权知识模型”,其10个主题反映出宋太宗兼收儒道、崇兵尚武、强干弱枝、追求正统和与民休息的知识需求倾向。还发现知识体系内主题间显著情感差异,反映皇权文治的主题以积极情感内容为主,反映棘手国事的主题则以消极情感内容为主。本研究说明LDA模型可用于类书等大容量古籍文本隐性知识体系挖掘与重构,不仅为《太平御览》认知提供了新视角,也为开展大容量古籍文本结构化和知识体系化提供了参考。

关键词:大容量古籍文本 知识体系 LDA主题模型 主题分析 可视化 数史互证



引 言

习近平总书记提出要加快构建中国自主知识体系,这对打破西方知识垄断和解构西方中心主义话语权具有关键意义。古籍文本记载的中华优秀传统文化是建构中国现代化自主知识体系的根基,相关体系化研究有助于深化对中国古代知识体系的认知。《关于推进新时代古籍工作的意见》提出“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践”[1]的要求。但是,当前大容量古籍的知识体系化研究主要停留在目录级别,缺乏深度研究手段。因此,如何开展大容量古籍的知识挖掘和体系建构成为当前亟待解决的难题。

类书是我国古代知识的重要文献载体,具有“以类相从”的知识分类特性。《太平御览》由宋太宗赵光义敕编,全文共1,000卷55部480多万字。清《四库全书总目》称之为“宋四大书”之首,是我国古代最重要的类书之一,对于了解北宋时期的知识体系有重要价值。目前《太平御览》研究主要聚焦三个方面。第一,引书考论研究,如对《太平御览》所引《宋书》《淮南子》文献史实的深入考论。[2]第二,部类内容研究,如对《太平御览》的“皇王部”“道部”等单部的专题分析。[3]第三,显性知识体系研究,通过归纳《太平御览》目录,构建“天、地、人、事、物”的宏观分类框架,[4]将类书放在知识体系视域下,关注类书中反映出的中国古代自主知识体系,具有较高的现实意义。然而,需警惕的是,“天、地、人、事、物”框架常被视为大部分类书知识体系的统一范式。如贺巷超就称:隋唐时期确立了类书“天、地、人、事、物”的分类体系,此后,我国古代绝大多数类书沿用此体系。[5]据《中国类书》统计,中国古代有1,600余部类书,[6]其类目设置大多相似。若只分析目录而不进入内容,可能会导致类书认知限于“天、地、人、事、物”显性知识体系的单一化倾向。巩本栋在《〈太平御览〉的分类及其文化意义》一文中就提出,《太平御览》在承袭《修文殿御览》《艺文类聚》等前代类书分类的基础上,多有增减和调整,同时“各门类的具体内容上增加更多”,这种变化和调整“反映出一个时代的思想文化动向”。[7]显然,深入到《太平御览》文本内部,对其隐性知识进行深度挖掘、主题分析和知识体系重构,已然是《太平御览》知识体系研究亟待解决的重要问题。

本研究提出的隐性知识体系,是指与大容量古籍的显性知识体系相对应的概念。显性知识体系主要来自目录,以目录信息构成知识体系的纲目经纬。而隐性知识体系潜藏在海量文本信息中,其发掘与呈现,需要通过文本挖掘技术将文本信息系统化和结构化,再通过可视化工具将其显化。

潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型(以下简称“LDA模型”)是大卫·布莱(David Blei)等在2003年提出的一种主题分析模型。[8]该模型在大规模文档的隐性知识集中识别和潜在主题提取中表现优异。其应用范围涉及自然科学和社会科学研究的众多领域,但在古籍研究中尚显不足。何琳等提出LDA模型在典籍事件触发词识别中的有效性。[9]陈进东等基于LDA模型分析发现多部先秦儒学典籍在“政”“仁”等主题具有明显的演化趋势。[10]这说明LDA模型在大容量古籍研究中的潜在价值。

综上所述,本研究认为LDA模型可能有助于大容量古籍的隐性知识体系挖掘和重构。因此,本研究旨在使用LDA模型分析《太平御览》并挖掘其隐性知识体系。为此,研究将分为四部分。第一,建设《太平御览》文本语料库,并使用LDA模型提取潜在主题。第二,建构《太平御览》隐性知识体系结构模型。第三,通过“数史互证”分析各类主题中的知识倾向。第四,通过分析各主题情感分布及类型差异,探究其情感倾向和功能指向。本研究对大容量古籍的知识挖掘和体系建构有重要意义。


一、研究方法

为探究LDA模型在类书等大容量古籍文本隐性知识挖掘中的有效性,本研究以《太平御览》的知识体系重构为中心进行实证研究,研究步骤包括:数据采集与预处理、主题与情感识别、可视化与分析。具体研究过程如图1所示。

 图1.png

图1 研究路线图

(一)数据采集与预处理

1.数据采集

经网络检索和质量比对,本研究以中华典藏网[11]收录的《太平御览》电子文本作为原始数据,该文本已经进行标点及目录结构加工。

2.数据预处理

数据预处理包括词表建构和数据清洗。

为保障语料数据清洗质量,提升结果的可用性和可信度,首先需要建立自定义词典、停用词表和同义词表。其中,自定义词典包括《古汉语学习常用字字典》[12]中的3,154个古汉语常用词及《太平御览》专有名词。停用词表包括哈工大停用词表和1,078个自定义停用词。自定义停用词以古汉语虚词及无效词为主,虚词如代词、副词、助词、介词、连词、叹词等,无效词如“曰”“太平御览”“卷”“李昉”等。同义词表包括意思相同或相近的高频词汇,如“皇帝:皇帝、天子、帝”等。

其次,分别将前人研究提出分词效果较好的两款工具甲言(jiayan)[13]和jieba[14]在Python环境中进行分词测试。对测试结果进行人工甄别后,发现虽然甲言可以提取出古汉语单音节词汇,但分词结果的可解释性低于jieba。因此,选取jieba作为本研究的分词工具。分词后,基于自定义词典、停用词表和同义词表进行数据清洗。清洗后形成内含1,607,296个字、519,155个词的待分析文本语料库。

(二)主题与情感识别

1.最优主题数确定

困惑度(Perplexity)是衡量最优主题数的重要指标。[15]本研究采用困惑度最小值确定最优主题数。[16]具体步骤为:首先,在Python环境使用Gensim库计算语料文本的困惑度值。其次,使用pyLDAvis和matplotlib库将结果可视化,纵轴为困惑度,横轴为主题数。最后,将困惑度局部最小值对应的主题数,作为最优主题数。

2.特征词提取与主题识别

高频特征词构建了各主题的主题向量,反映主题的核心内容和语义结构。[17]为识别《太平御览》的主题,基于LDA模型,提取词频≥3的高频特征词。首先,基于全文中出现频次极高的高频词确定主题识别的大致方向。其次,依照各主题内特征词的TF-IDF值对特征词排序,TF-IDF(Term Frequency-Inverse Document Frequency,词频—逆文档频率)是一种信息检索与文本挖掘的加权技术,它的值越大,说明该词在文本中重要性越高。再次,结合排序先后,甄选可解释性强的前10个特征词。最后,通过人工识别,确定各主题的名称。

3.情感识别与情绪值计算

情感识别基于微词云内嵌的情感词典开展,该词典集合情感分析领域通用的知网HowNet情感词典[18]、台湾大学NTUSD情感词典[19]和清华大学李军中文褒贬义词典[20]。通过情感识别,将各主题的特征词分为正向词、负向词和中性词三种情绪词。其中,正向词指具有积极情感的词汇,如“嘉奖”“有功”“兢兢业业”等,负向词指具有消极情感的词汇,如“败绩”“厌倦”“叹息”等,中性词是不包含显著情感倾向的词汇,如地名、方位等。当情绪词前出现“不”等否定词时,则反转其情感倾向,如“善”为正向词,“不善”为负向词。

各主题情绪值得分以该主题下所有条目[21]情绪值均值的形式表达。情绪词赋分采用±1表现,即每个正向词+1分,每个负向词-1分(中性词不计分)。各主题情绪值计算公式为:Ei=(S1+S2+…Sn)/Wn,其中,Ei为主题i的情感值得分,S为主题i下各条目情绪值得分,Wn为条目个数。最后,将各主题的情绪值按照类型分为两组,基于T-test(T检验)分析两组不同类型主题情感差异的显著性。T检验是统计学中用于比较两组数据是否存在显著差异的重要工具,p<0.05为差异显著。[22]

(三)可视化与分析

1.主题可视化

将书名、各主题标题及特征词整理为分级文本,各级文本前标注标识。然后,基于Moonshot大模型和自定义prompts提示词生成Mermaid代码,并导入Mermaid Chart可视化编辑器,[23]生成知识图谱。

2.隐性知识体系模型建构与可视化

依托迈克尔·曼的IEMP权力理论[24],对图4主题可视化信息进行共性提炼与理论归纳,建构《太平御览》的隐性知识体系结构框架,并通过PowerPoint可视化。IEMP理论将权力基础分为意识形态、经济、军事和政治四类要素。

3.情感可视化

使用Excel柱状图根据计算后的各主题情绪值均值绘图,使用GraphPad Prism9.5对T-test差异显著性结果进行绘图。

4.主题与情感分析

本研究提出“数史互证”的主题与情感分析方法,即以数据与可视化结果作为表征证据,史料作为佐证材料,进行主题和情感分析。此方法发展自人文学科“文史互证”传统,旨在得出数字人文和历史文献角度具有可解释性的分析结果。


二、基于“数史互证”的实证结果分析

为解决大容量古籍研究难以深入文本内容的现实困境,以及突破类书单一知识体系的认知局限。本研究以《太平御览》为样本,对其隐性知识体系进行挖掘与重构。该知识体系有别于“天、地、人、事、物”的固有框架。为了解各主题的内容与情感状况,进一步验证LDA模型在大容量古籍文本知识体系挖掘与重构中的有效性。接下来,本研究将基于“数史互证”的方法进行讨论。

(一)以帝王认知需求为核心的10个主题

1.最优主题个数测算及特征词提取

最优主题数是主题分析的重要前置工作,为确定最优主题数,本研究基于Python的Gensim库和pyLDAvis库计算和绘制困惑度折线图,并通过困惑度最小值确认最优主题个数。结果发现,主题数为10时困惑度最低(见图2)。因此,本研究选取10为最优主题数。根据最优主题数,基于LDA模型提取10个待识别主题及相应的特征词,共获取44,232个特征词。

2.全文高频词及共现分析:以帝王认知需求为核心的主题识别视角

全文的高频特征词及其共现关系,有助于聚焦主题识别的视角。为了解相关情况,统计全文及各主题高频特征词,并绘制高频特征词共现网络图(见图3)。图中节点颜色相同者为同一主题的特征词,节点越大,说明词频越高;线条越粗,共现指数越高,词间关系越紧密。图3显示,“皇帝”一词的出现频率(16,019次)远高于其他高频特征词,[25]且与各主题特征词皆有较强的共现关系,可以作为主题识别中的关键视角。其次,各主题中出现频次最高的几个特征词,与“皇帝”一词的共现指数高于低频次者。这说明,深入到整体文本来看,皇帝及其强关联特征词是《太平御览》知识体系的核心主题要素。

 图2.png 图2 主题数量与困惑度对应图

图3.png 图3 高频特征词共现网络图

张涤华在《类书流别》中,从功用视角剖析类书之演进脉络与类型:“类书初兴,本以资人君乙夜之览,故于古制旧事,最为详悉。及其流既广,文家渐用之以备遗忘,词臣渐作之以供遣用,于是采摭遂及于华藻。迨乎科举学盛,士子又据以为射策之资。”[26]这为我们提供了一种研究视角:在剖析类书这一实用工具书之知识体系时,可以从受众的认知需求出发,审视其知识体系类型之差异。如对《太平御览》的分析,就可以回归到“人君乙夜之览”的功用上去探究其知识体系。这一观点,与本研究基于《太平御览》高频特征词及其共现关系的分析发现相吻合。

依据史料证据来看,宋太宗诏书中对《太平御览》的评价是“包括群书,指掌千古,颇资乙夜之览”。[27]《太平御览》初名《太平总类》,[28]其更名之缘由,恰在于宋太宗对该书“指掌千古”之资政价值的高度肯定。《太平御览引》中详载更名始末:“诏曰:‘新纂《太平总类》,包罗万象,总括群书,纪历代之兴亡。自我朝之编纂,用垂永世,可改名为《太平御览》。’”[29]由此观之,在这位抱负宏远、志在建功立业之君主的认知体系中,该书绝非仅为泛泛收录天地万物之普通科普读物,而是能够助力人君洞悉古今兴衰之制,可供治国参考的重要御览专书,具有显著资政价值。由此可见,《太平御览》的文本内容中反映的隐性知识,具有以帝王认知需求为核心的特点。

3.《太平御览》隐性知识体系的10个主题

基于如上主题特征词和关键视角提示,共识别出10个主题,分别是中央政权、先贤圣人、外交事务、为君之德、地方治理、祭祀礼仪、军事安全、物候民生、帝王家事、风土传说。为更直观地进行主题分析,基于Moonshot大模型和prompts提示词生成的Mermaid代码,将《太平御览》各主题甄选后排名前10的特征词,绘制为可视化知识图谱(见图4)。结果显示,军事、民生、政权、皇权和思想意识等相关特征词在10个主题中出现频次较高,是《太平御览》内容构成的重点方向。而且,不同主题之间相互构成关联性知识网络,如“外交事务”和“军事安全”主题均涉及军事武装方面的知识。结合前文“以帝王认知需求为核心”的结论,对知识图谱中的重点方向和关联性主题进行分析,可能有助于重构《太平御览》中的隐性知识体系模式框架。

图4.png 图4 主题及特征词知识图谱

4.《太平御览》隐性知识体系的结构框架:三维五类皇权知识模型

为进一步建构《太平御览》隐性知识体系的结构框架,本文依托迈克尔·曼的IEMP权力模型,对图4信息进行共性提炼与理论归纳。首先,“先贤圣人”“风土传说”“为君之德”主题特征词具有“哲学思想”倾向,分别代表了道、儒思想在宋太宗时期的意识交融。“祭祀礼仪”和“帝王家事”,从仪式规范与家族传承两个层面,建构神授皇权与血脉皇权的“皇权正统”叙事。综合来看,“哲学思想”“皇权正统”两类知识为宋太宗的帝王统治提供了意识形态层面的合法性支撑,共同构成了《太平御览》三维知识框架的思想意识维度。其次,“中央政权”与“地方治理”主题勾连起中央集权与地方分权的“强干弱枝”制衡体系,支撑“政权控制”知识类型的两个侧面。“外交事务”和“军事安全”主题,分别展现对外军事策略和内部武装强化的“军事武装”知识类型。“政权控制”“军事武装”两类知识共同构成《太平御览》三维知识框架的军政治理维度。最后,“物候民生”主题建构起“民生治理”类知识的核心要素,通过天文历法、农事节气等知识构建天人感应的治理逻辑,为维护宋太宗时期频仍战事与极端气候背景下的“预警—调节”社会安定机制提供统治依据,形成《太平御览》三维知识框架的民生基础维度。

基于此,本研究将《太平御览》的隐性知识体系重构为包含三个维度、五大类别的“三维五类皇权知识模型”(见图5)。其中,三大维度分别是思想意识维度、军政治理维度、民生基础维度。它们共同构成宋太宗皇权治理知识网络的三元装置:神圣叙事、战略威慑与技术管控。将这一知识模型,与基于《太平御览》目录得出的“天、地、人、事、物”的显性知识体系比较分析。结果显示,本研究提出的知识模型具有更强的多维阐释空间。它突破了“天、地、人、事、物”的物理实体划分,转向以帝王认知需求为核心、面向统治功能的复合知识模型视角,可以更为直观地呈现出《太平御览》作为帝王资政之书在思想意识、军政治理和民生基础三大维度的知识倾斜。

图5.png 图5 《太平御览》显性知识体系与“三维五类皇权知识模型”隐性知识体系示意图

(二) 《太平御览》隐性知识体系中的知识偏好

为进一步探析《太平御览》作为帝王资政之书在思想意识、军政治理和民生基础三大维度的知识倾斜,本文分别对“三维五类皇权知识模型”三个维度中的五类知识进行比较分析。

1.兼收儒道:“为君之德”“风土传说”和“先贤圣人”主题分析

基于图5思想意识维度分析,“为君之德”“风土传说”“先贤圣人”主题共同构建了哲学思想知识类型。分析图4三个主题的特征词语义知识图谱发现,三者虽同属哲学思想类别,但在具体取向上存在差异。

首先,“为君之德”主题主要表现为儒学思想。其中,“孔子”作为该主题权重最高[30]的特征词,具有主题标识意义。该主题中,特征词“君子”和“夫子”体现儒家礼教思想,“兄弟”“妇人”和“父母”体现儒家伦理纲常制度,“贤者”“为人”等体现君子品格的道德约束(见表1),这三个侧面与宋太宗即位后,积极倡导儒家伦理道德的重建举措[31]一致。史料亦记载“太宗崇尚儒术”[32],有宽待儒臣的思想倾向。巩本栋提出,《太平御览》依天地之数设置五十五部,反映了其植根于传统儒家自然社会逻辑秩序的思想文化特征[33],是对《太平御览》显性知识体系哲学依据的总结。本研究通过对“为君之德”主题的分析发现,儒学思想也渗透在《太平御览》的隐性知识体系当中,这说明儒家思想在宋太宗时期治国策略中占据重要地位。

图6.png 表1 “为君之德”“风土传说”和“先贤圣人”主题特征词

其次,“风土传说”“先贤圣人”主题主要表现道教道家思想。“风土传说”主题中,“庄子”和“淮南子”分别反映先秦和汉代道家思想,“《山海经》”“郭璞”和“五色”则与道教地理传说有关。在“先贤圣人”主题中,“真人”“太极”[34]“老子”和“西王母”也与道家道教相关。以“五色”为例,它常被道教作为吉兆象征。[35]《太平御览》中多处将其与道教祥瑞关联,如描述昆仑山“出五色云气,五色流水”,道士王真头上“常有五色气”,“能寿之兽”天鹿有“五色光晖”等。此外,《太平御览》专设“道部”21卷54类,所引内容来自《老子》与《太上玄一真人经》等264部道家道教经典,[36]而其承袭的《艺文类聚》《文思博要》等并无“道”部,这一拓展说明《太平御览》对道教道家思想的特别关注。据史料记载,“宋朝崇信道教,当时宫观寺院少有不赐名额,神鬼少有不封爵号者。”[37]宋太宗认为“夫道者,天地万物之祖”,[38]积极营建宫观并予以经济扶持,多次召见道士、搜集道书。[39]同时,他还将道教视为重要的治国资源,提倡“无为而治”,称“无为之道,朕当力行之”,[40]并要求臣下“体黄老而行化,用致乎无为”。[41]这种开创与重视,反映了道教思想在宋初政治文化中的重要地位。

总体而言,“为君之德”“风土传说”“先贤圣人”三个主题折射出,在《太平御览》的隐性知识体系中,宋太宗兼收儒道的知识需求。而且,从整体分布格局来看,虽然儒家思想构建了《太平御览》显性知识体系的外在轮廓,但道教道家思想亦渗透于《太平御览》隐性知识体系10个主题中的两大分支。儒道二者通过“阴—阳”辩证结构达成知识体系内外的动态平衡与共生,呈现出宋初儒道互渗思想景观的文本微缩,为宋代“内圣外王”政治哲学奠定了原型。

2.追求正统:“祭祀礼仪”和“帝王家事”主题分析

基于图5思想意识维度分析,“祭祀礼仪”及“帝王家事”主题共同构建了皇权正统知识体系的神授皇权与血统皇权脉络。从主题特征词角度分析,“祭祀礼仪”主题下,表2中“诸侯”“文王”“周礼”“宗庙”“礼记”“明堂”“社稷”“祭祀”等特征词与神授皇权具有强关联性。以“明堂”为例,这一场所是中国古代帝王行祭祀大典、朝会诸侯的重要场所。在泰山修明堂、朝诸侯起于周,“明堂,明诸侯之尊卑也。故周公建焉,而明诸侯于明堂之位”,[42]此后,众多皇帝在泰山修明堂祭天昭示其天命神授的正统地位。如《汉书·武帝纪》便记载了汉武帝于泰山重修明堂,多次亲往祭天祭祖的事迹。“秋七月……设立明堂。”“夏四月癸卯,上还,登封泰山,降坐明堂。”[43]“帝王家事”主题下,“皇帝”“太子”“太后”“皇后”“公主”“东宫”等特征词与血统皇权具有强关联性,其中“即位”一词有别于其他身份词,表示皇位的正式获取。(见表2)

图7.png 表2 “祭祀礼仪”和“帝王家事”主题特征词

这两个主题,事实上是从神圣仪式和血脉传承两个侧面,关联着皇帝及王室身份正统性和合法性有关议题。从史料来看,这具有较高的合理性。后世对于宋帝得国的正统性多有议论。宋太祖以“陈桥之变”夺取帝位有负柴氏之恩。宋太宗在其兄突然病逝后继承帝位,亦有弑兄夺位的“烛影斧声”之疑。[44]因此,不怪乎太宗希望通过仪式典礼等外在形式进一步深化其帝位的正统性。而太宗在雍熙元年(984)两次运作封禅大典也进一步佐证了他的这种心态,“夏四月乙酉,泰山父老千余人复诣阙请封禅。戊子,群臣上表请封禅,表凡三上”。[45]

而除了太宗自身即位风波外,其立嗣亦有颇多争议。据《续资治通鉴长编》记载,宋太祖和杜太后曾要求太宗将帝位传给太祖子嗣,“盖欲上复传之廷美,而廷美将复传之德昭”[46]。但就在太平兴国年间,宋太祖的两个儿子赵德昭和赵德芳先后死于非命。太平兴国四年(979),赵德昭死于从太宗征幽州的军中,死因是犯错担心太宗责罚,愤而自刎。[47]太平兴国六年(981),二十三岁的赵德芳病逝。因此,帝位顺理成章地传给太宗后嗣赵恒。此后太宗一支延续九代君主,而这种局面与太宗的苦心经营不无关系。直至南宋高宗发出“艺祖以圣武定天下,而子孙不得享之,遭时多艰,零落可悯”[48]的感叹,又将帝位归于太祖一支。

总体而言,从《太平御览》中“祭祀礼仪”和“帝王家事”两个主题来看,在太宗时,如何彰显和巩固其作为帝王的正统性地位,以及如何让自己的子嗣延续帝王荣光是他最为关注的知识侧面。

3.崇兵尚武:“外交事务”和“军事安全”主题分析

基于图5的军政治理维度,“外交事务”及“军事安全”主题共同构建了“军事武装”知识类型。从主题特征词视角透视北宋初期的外交战略格局,可发现其呈现出显著的军事化特征。在“外交事务”主题中(见表3),“持节”作为典型外交使节符号具有主题标识意义,与“将军”“刺史”“都督”和“节度使”等军事职官称谓特征词,共同构建起该主题“军事—外交”复合型话语体系。这种现象深刻反映了宋初外交的运作机制,据薛政超统计,宋太宗淳化五年(994)之前,宋出使邻邦的使臣中,文武比例为1∶4.5,[49]印证了军事将领在外交实践中的主导地位。“吐蕃”“突厥”和“高丽”等国家或部族特征词,反映了宋初与周边国家、部族的广泛接触,还暗示了这些地区在宋初外交战略中的重要性。史料显示,高梁河之战的失败促使宋太宗采取积极的外交策略,他主动与高昌、女真和高丽等周边势力建立联系,试图通过联夷攻辽来扭转战局。[50]

图8.png 表3 “外交事务”和“军事安全”主题特征词

在“军事安全”主题下,“匈奴”“士卒”“单于”“三军”“韩信”“兵法”“大败”等特征词,更为直接地透露出宋太宗对于战争中将帅、兵卒、兵法和敌军等诸要素的关注,以及对制胜之法的渴盼。这一倾向还体现在《太平御览》相关部类的容量设计中。据巩本栋统计,与《艺文类聚》相比,《太平御览》武将、战争、兵器相关的内容激增,如“兵部”卷数多达90卷171类,占全书的近1/10,“职官部”中“将军”类的武职亦多达6卷138种。[51]宋太宗有着戎马军旅、开疆拓土的经历,且怀有继续开疆拓土的期盼。因此,虽然大众对宋代有“重文抑武”的固定印象,宋初二帝也有“兴文教,抑武事”“文德致治”的国策,但《太平御览》仍显示出“崇兵尚武”的知识体系倾向。这在宋太宗即位后的一系列战事中有所印证,如北汉之战中的御驾亲征,以期平定中原割据局面。以及陆续发起高梁河之战(979)、雍熙北伐(986)和君子馆之战(986)[52]等战役,以图恢复汉唐旧疆,而终未果的不断图谋。

总体而言,从“外交事务”和“军事安全”两个主题切入,可以发现宋初对“崇兵尚武”的现实需求以及帝王在知识选择上的偏好。近年有学者提出对宋代“重文抑武”的重新认识的议题,[53]本研究为相关讨论提供新的证据。

4.强干弱枝:“中央政权”和“地方治理”主题分析

基于图5的军政治理维度分析,“中央政权”及“地方治理”主题共同构建了“政权控制”知识类型。从主题特征词角度分析,“中央政权”主题下,特征词“尚书”“宰相”“侍郎”“御史”“仆射”和“舍人”代表着中央政权中重要的官职,而“吏部”负责官吏任免、考核、升降等事务,体现了宋太宗对官员任命和管理体系的重视。“及第”是科举选拔人才的重要环节,反映出科举在太宗朝中央人才选拔的重要价值。(见表4)这些官职和部门共同构成了宋代中央政权的关键要素,反映着宋太宗对政权集中的殷切关注。而从史料来看,宋太宗即位后开展了包括设置中央集权官僚体制下州县地方行政管理机构在内的一系列官制改革。[54]还不断完善科举制度,他提出“朕欲博求俊乂于科场中,非敢望拔十得五,止得一二,亦可为致治之具矣”[55]。不仅增设科举取士名额,还通过糊名等方法改善科举公平,[56]从而大量获取可为自己所用的官吏人才,填充至中央和地方的关键岗位上。据统计,淳化三年(992)一榜就取士1,317人,超过太祖朝科举取士的总和。[57]最终,太宗以这些新选拔的官吏为关捩,将中央和地方势力统归于自己掌握之下。

图9.png 表4 “中央政权”和“地方治理”主题特征词

“地方治理”主题下,特征词“太守”“校尉”“都尉”代表着具有一定军事力量的地方官员。“荆州”“南阳”是宋太宗时期极为重要的军事要塞和行政区域。“王莽”[58]“先主”则体现出,对于天下初平的宋太宗而言,如何维护地方稳定和守”[59]作为该主题核心节点,其高频共现动词“不能”“不可”“不受”[60]构成的否定性语义场,形成独特的权力规训话语模式,与史料显示的“强干弱枝”、大举改革地方行政制度的国策相互印证。据载,太平兴国二年(977),太宗诏令后周旧地邠、宁、泾等州并直属京,[61]将全国州郡收归中央直辖。延续太祖设置的以文臣任知州,与地方通判分权的制度。[62]此外,设置诸道知州、通判、知军等掌管地方军事和财务的官员,任内地满三年“并与除代”[63]政策,还将地方官员子弟“悉补殿前承旨,以贱职羁縻之”,[64]逐步削弱瓦解了地方势力。总体来看,宋太祖和宋太宗通过一系列制度性变革,如收缴藩镇的军事与财政权力、废除藩镇对州郡的统辖权以及推行文官知州制度,有效剥夺了节度使等地方实权官员的权力基础,使其职能逐渐虚化为象征性荣誉职衔,进而实现了中央对地方的绝对统摄。

因此,从《太平御览》中“中央政权”和“地方治理”两个主题来看,在太宗时,如何加强“中央政权”,弱化“地方治理”的自主权,达到“强干弱枝”的目的是其最为关注的知识侧面之一。

5.与民休息:“物候民生”主题分析

基于图5的民生基础维度分析,“物候民生”主题提供了“民生治理”的知识类型。从主题特征词角度分析,“物候民生”主题下,“天地”“万物”“大雨”“大旱”“月令”“草木”“大水”“河图”“日月”“万民”等特征词与百姓民生具有强关联性,并且包含着大量对农业生产极其不利的极端气候。(见表5)这种信息暗示,在宋初“与民休息”基本国策下,宋太宗对物候民生问题的殷切关注。

图10.png 表5 “物候民生”主题特征词

宋太宗信奉“无为而治”的黄老之学,采纳张齐贤“民获休息,则田业增而蚕绩广,务农积谷,以实边用”策略,[65]以弥补长期战事导致的大量开支。加之《太平御览》编纂期间,气候呈旱涝交加的不良状态。太平兴国二年,“时霖雨弥旬”。三年,“辛丑……分遣使十七人治黄河堤,以备水患……辛亥,命近臣祷雨于京城寺观祠庙”。五年,“五月,大霖雨,命近臣分诣京城寺观、宫庙祈晴”。六年,“自春涉夏不雨”。七年,“近者蝗旱相仍”“太平州雨雹伤稼”。八年,“时多阴雨,上以河决未塞,深忧之”。因此,宋太宗格外关注极端物候条件下如何保障农业生产,还下诏严惩因为催收赋税而使用残酷刑罚的官吏,[66]从而实现保养民力,复兴经济的“与民休息”目标。

总体而言,从《太平御览》中“物候民生”主题来看,如何在战事频仍、旱涝交加的条件下做到“与民休息”是宋太宗最为关注的知识侧面之一。

综上所述,本研究基于“三维五类皇权知识模型”,通过对《太平御览》各主题的“数史互证”,揭示了其以帝王认知需求为核心,根植于宋初政治文化现实背景的隐性知识体系建构策略。在思想意识维度上,兼收儒道哲学思想,通过二者“阴—阳”辩证结构达成动态平衡与共生,为宋代“内圣外王”政治哲学奠定了原型;“祭祀礼仪”与“帝王家事”形成皇权“神授—血统”双重合法性论证体系。军政治理维度则呈现出“崇兵尚武”与“强干弱枝”的张力性平衡:对外以军事化外交与兵法战略投射扩张意志,对内通过科举改制与地方分权强化中央集权,体现了宋初在继承五代武人政治传统与构建文治官僚体系之间的过渡特征。民生基础维度对极端物候的聚焦与“无为而治”的治理话语,既是对黄老思想的实践转化,也折射出宋太宗在军事扩张与民生治理间的政策调适。

(三)《太平御览》隐性知识体系中的情感倾向

类书收录内容包括“事”与“文”,其中“事”表示典故,“文”表示“辞藻”。《太平御览》中褒贬不同的典故会触发读者不同的情感体验。于宋太宗而言,积极情感的典故主要起到正面启迪作用,令帝王阅后欣然称是;消极情感的典故则起到反面警鉴的作用,令帝王反思当下。承袭《春秋》之式,古籍文本有“一字寓褒贬”的特点。因此,将情感识别的颗粒度从典故故事的段落级,细化至词汇级(各主题特征词),可能有助于分析《太平御览》中各主题内容的情感倾向和功能指向。

1.基于极值与词云的主题情感分析

为识别《太平御览》10个主题对应文本中隐藏的情感倾向,使用情感词典对特征词的正向词、中性词和负向词进行机器识别后,计算各主题情绪值得分,并绘制情感分布图。(见图6)同时,生成正负向情绪词词云图作为分析依据,其中红色词为负向词,蓝色词为正向词,字号越大,其在该主题中的重要性越高。(见图7)

图11.png 图6 各主题情绪值分布图

图6高低极值显示,极高值包括“先贤圣人”“中央政权”主题,说明它们以积极情感内容为主。极低值则包括“军事安全”“地方治理”主题,说明它们以消极情感内容为主。分析各主题情绪词,有助于深入理解其情感内涵。因此,观察图7发现,极高值主题“先贤圣人”中“长生”“无毒”和“名山”出现频次高。史料记载,宋太宗“多留意医术,藏名方千余首,皆尝有验者”,[67]以阴阳、修炼和炼丹为主题创作了198首《逍遥咏》,[68]与该主题情绪词相呼应。“中央政权”中反映出宋太宗对中央人才“好学”“君子”的选拔要求。整体来看,这些主题一定程度上与宋太宗的审美偏好相一致。相反地,极低值主题“军事安全”“地方治理”的负向特征词“大败”“不利”“不受”具有鲜明的警鉴反思意味。

图12.png 图7 情绪词词云图[69]

2.基于T-test的分类情感差异显著性分析

此外,为探究不同类型主题之间的情感差异的显著性,按照本研究在“《太平御览》隐性知识体系中的知识偏好”一节中的分析结果,将10个主题分作两组,第一组反映棘手国事,包括“军事安全”“地方治理”“物候民生”“外交事务”;第二组反映皇权文治,包括“为君之德”“风土传说”“祭祀仪礼”“帝王家事”“中央政权”“先贤圣人”。使用T-test算法,比较两组主题情绪值差异的显著性与否,p<0.05时被认为在统计学上具有显著差异。计算后,使用GraphPad Prism9.5将结果绘制为图8。

图13.png 

图8 基于T-test算法的情绪分组比较

结果显示,两组的p值为0.0109(*,p<0.05),因此可以判断《太平御览》知识体系中,不同类型的主题存在显著情感差异。反映皇权文治的主题以积极情感内容为主,与棘手国事相关的主题则以消极情感内容为主。这说明,《太平御览》的编纂极好地发挥了中国古代以史为鉴的传统,立足宋太宗时期的现实,对于各类文献知识进行价值衡量后方才选取,并非主题一致便统统收入类目之下。这对于以类书作为切入口,理解宋初的国策、军政和皇权的真实面貌有所助益。


结 语

为探究LDA模型在类书等大容量古籍文本隐性知识体系挖掘和重构中的有效性,本研究以《太平御览》为样本,基于LDA模型及可视化工具、“数史互证”分析法研究发现:首先,《太平御览》文本中的隐性知识体系,包括以帝王认知需求为核心的十大主题,它们分别是“中央政权”“先贤圣人”“外交事务”“为君之德”“地方治理”“祭祀礼仪”“军事安全”“物候民生”“帝王家事”和“风土传说”。其次,这些主题建构了《太平御览》“三维五类皇权知识模型”的隐性知识体系。其中三大维度分别是思想意识维度、军政治理维度、民生基础维度。它们共同构成宋太宗皇权治理知识网络的三元装置:神圣叙事、战略威慑与技术管控。这一发现突破了《太平御览》显性知识体系“天、地、人、事、物”的物理实体划分,转向以帝王认知需求为核心、面向统治功能的复合知识模型视角,可以更为直观地呈现出《太平御览》作为帝王资政之书在思想意识、军政治理和民生基础三大维度的知识倾斜。其中五大类别分别是哲学思想类、皇权正统类、军事武装类、政权控制类和民生治理类。它们折射出《太平御览》兼收儒道、追求正统、崇兵尚武、强干弱枝和与民休息的知识偏好。再次,不同类型主题内容的情感倾向存在显著差异,反映皇权文治的主题以积极情感内容为主,如“先贤圣人”“中央政权”主题。与棘手国事相关的主题则以消极情感内容为主,如“地方治理”和“军事安全”主题。最后,通过“数史互证”,发现从数据可视化和史料两个视角,本研究基于LDA模型分析提出的《太平御览》以帝王认知需求为核心的隐性知识体系具有合理性和可信度。这说明LDA模型在类书等大容量古籍文本隐性知识体系挖掘和重构中的有效性。

综上所述,本研究以《太平御览》整书文本为研究样本,进行隐性知识体系挖掘和重构,构建了以帝王认知需求为核心、包含十大主题的隐性知识体系——“三维五类皇权知识模型”,打破了以《太平御览》为代表的官修类书“天、地、人、事、物”浅层知识体系认知局限。还发现了知识体系中不同类型主题之间的情感差异。本研究提出的方法论,对于挖掘和重构类书等大容量古籍文本的知识体系行之有效。在未来的研究中,将通过多部类书进行方法验证,并开展以类书为中心的知识体系演进的历时比较。习近平总书记提出加快建构中国自主知识体系的号召,本研究为以类书等大容量古籍文本为抓手,为爬梳中国古代知识体系的演进脉络提供重要的方法参考。同时,也为构建中国现代化自主知识体系,提供更加丰富的历史依凭和学术材料。


The Mining and Reconstruction of the Implicit Knowledge System in Large-Scale Ancient Texts: A Study on the Method of Corroboration between Digital Humanities and Historical Documents Based on the Taiping Yulan

Tang Rongjun, Wang Jingzhou

Abstract: The structuring of large-scale ancient texts and the systematization of their knowledge systems are important areas of current work on ancient texts. However, existing research has mainly focused on the catalog level, and how to delve into the internal structure of the texts remains a pressing challenge. Latent Dirichlet Allocation (LDA) topic models have shown excellent performance in identifying latent topics in large-scale document collections. The purpose of this study is to explore the application of LDA topic models in the mining and reconstruction of implicit knowledge systems in large-scale ancient texts, such as encyclopedias. Using the Taiping Yulan as a sample, this study employs LDA topic models and sentiment dictionaries for topic and sentiment identification, constructing an implicit knowledge system model based on the IEMP power theory, then employs “large model + prompts” and GraphPad for visualization, and a combination of “the method of corroboration between Digital Humanities and historical documents” and T-tests for result analysis. The implicit knowledge system of the Taiping Yulan is a “Three-Dimensional, Five-Category Imperial Power Knowledge Model” centered on the cognitive needs of emperors. Its 10 themes reflect Emperor Taizong of Song’s knowledge demands, which include embracing Confucianism and Taoism, valuing military power, strengthening the central authority while weakening local powers, pursuing legitimacy, and allowing the people to rest and recuperate. Additionally, it was found that there are significant emotional differences among the themes within the knowledge system: themes reflecting the civil governance of imperial power are mainly characterized by positive emotional content, while those addressing thorny state affairs are predominantly characterized by negative emotional content. The findings demonstrate the effectiveness of the LDA model in mining and reconstructing implicit knowledge systems in large-scale ancient texts like encyclopedias. This study not only provides a new perspective for understanding the Taiping Yulan and similar encyclopedic works, but also offers important methodological insights for the structuring and systematization of large-scale ancient texts.

Keywords: Large-scale Ancient Texts; Knowledge System; LDA Topic Model; Topic Analysis; Visualization; Corroboration between Digital Humanities and Historical Documents

编辑 | 唐宸

本文为国家社科基金重大项目“中国古代类书叙录、整理与研究”(19ZDA245)阶段性成果。


向上滑动 查看注释


[1]《关于推进新时代古籍工作的意见》,中国政府网,2022年4月11日,http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm,2025年1月1日。

[2]陈爽:《〈太平御览〉所引〈宋书〉考》,《文史》2015年第4期;吕冠南:《〈太平御览〉引〈淮南子〉旧注考》,《经学文献研究集刊》2024年第2期。

[3]申慧青:《皇权观念在类书编纂中的映射——以〈太平御览·皇王部〉的编纂为例》,《宋史研究论丛》(第十五辑),保定:河北大学出版社,2014年,第498—509页;吴雨桐:《〈太平御览·道部〉研究》,华东师范大学,硕士学位论文,2021年。

[4]周生杰:《〈太平御览〉研究》,成都:巴蜀书社,2008年,第342页。

[5]贺巷超:《浅议类书产生和存在的条件》,《图书馆理论与实践》1993年第4期。

[6]赵含坤编:《中国类书》,石家庄:河北人民出版社,2005年,凡例。

[7]巩本栋:《〈太平御览〉的分类及其文化意义》,《中国高校社会科学》2016年第2期。

[8]David Blei, Andrew Ng, Michael Jordan,“Latent Dirichlet Allocation,” Journal of Machine Learning Research, vol. 3, 2003, pp. 993-1022.

[9]何琳等:《典籍事件触发动词识别研究:基于〈左传〉的文本实验》,《图书情报工作》2022年第5期。

[10]陈进东等:《基于主题模型的先秦儒学典籍主题演化趋势分析》,《系统科学与数学》2023年第8期。

[11]访问地址:https://www.diancangwang.cn/leishuwenji/51065404fa98/,2024年11月9日。

[12]吴惟粤、彭志峰:《古汉语学习常用字字典》,广州:广东人民出版社。(本书暂未出版,感谢暨南大学文学院彭志峰老师提供该书电子资源。)

[13]https://github.com/jiaeyan/Jiayan, accessed on November 9, 2024.

[14]REN Y. M., “The application of case teaching method for python and application under the concept of curriculum ideology and politics,” Open Access Library Journal, vol. 9, 2016, pp. 1-7.

[15]张文德、徐子杨、赵立红:《基于LDA主题模型的“双一流”高校图书馆用户评论文本数据挖掘》,《情报探索》2024年第7期。

[16]赵凯、王鸿源:《LDA最优主题数选取方法研究:以CNKI文献为例》,《统计与决策》2020年第16期。

[17]刘彦辉等:《粮食安全政策咨询的情报智库服务实现:政策文本分析》,《情报理论与实践》2025年第1期。

[18]Dun Li, Yongtao Ma, Jianli Guo,“Words Semantic Orientation Classification Based on HowNet,” The Journal of China Universities of Posts and Telecommunications, vol.1, 2009, pp. 106-110.

[19]下载地址:https://gitcode.com/open-source-toolkit/00590,2024年11月9日。

[20]下载地址:https://nlp.csai.tsinghua.edu.cn/news/112/,2024年11月9日。

[21]各主题条目文本由LDA主题模型分析后生成。

[22]Fisher Box, Joan, “Guinness, Gosset, Fisher, and Small Samples,” Statistical Science, vol. 2, 1987, pp. 45–52.

[23]下载地址:https://www.mermaidchart.com,2024年11月9日。

[24]迈克尔·曼:《社会权力的来源(第一卷)》,刘北成、李少军译,上海:上海人民出版社,2007年,第3页。

[25]排名前10的高频特征词依次为:皇帝(16,019)、将军(2,741)、太子(2,069)、尚书(1,952)、太守(1,811)、汉书(1,719)、刺史(1,659)、诸侯(1,607)、大夫(1,516)、孔子(1,416)。括号内为出现频次。

[26]张涤华:《类书流别(修订本)》,北京:商务印书馆,1985年,第21—22页。

[27]钱若水撰,范学辉校注:《宋太宗皇帝实录校注》卷27,北京:中华书局,2012年,第83页。

[28]司义祖整理:《宋大诏令集》卷150《名太平御览诏》,北京:中华书局,1962年,第555页。

[29]李昉等:《太平御览》,北京:中华书局,1960年,第3页。

[30]“孔子”在《太平御览》全文出现1,416次,在该主题中出现787次,TF-IDF值0.00099。

[31]杨小红:《田锡与北宋士风及文学研究》,博士学位论文,兰州大学,2021年。

[32]程俱:《麟台故事》卷3,郑州:大象出版社,2019年,第243页。

[33]巩本栋:《〈太平御览〉的分类及其文化意义》,《中国高校社会科学》2016年第2期。

[34]“太极”这一特征词在《太平御览》中首现于“天部—太极”目,目下引儒家经典《易传·系辞》中“易有太极,是生两仪。两仪生四象,四象生八卦”的概念为其释名。如果依照“部”“目”的显性信息分析,则可能就此认定“太极”一词是作为儒学概念出现在《太平御览》中的。但是,从全书文本的角度分析则发现,“太极”一词在全书中共出现240次,其中与之共现度最高的词汇是道教称谓“真人”,共现次数达100次。说明“太极”在《太平御览》中主要是在道教语境中出现。

[35]刘志:《魏晋南北朝民间自然信仰与道教文化》,《宗教学研究》2009年第2期。

[36]《经史图书纲目》,参见李昉等:《太平御览》卷首,北京:中华书局,1960年。

[37]陆容:《菽园杂记》卷11,北京:中华书局,1985年,第134页。

[38]《宋太宗皇帝实录校注》卷30,第198页。

[39]脱脱等:《宋史》卷457《陈抟传》,北京:中华书局,1985年,第13420—13421页。

[40]李焘:《续资治通鉴长编》卷34,北京:中华书局,2004年,第758页。

[41]司义祖整理:《宋大诏令集》卷51,第262页。

[42]黄怀信:《逸周书校补注译》,西安:三秦出版社,2006年,第291页。

[43]班固著,颜师古注:《汉书》卷6,北京:中华书局,2000年,第157、191页。

[44]陈侃理:《继承危机与二世亡秦》,《文史哲》2024年第5期。

[45]《续资治通鉴长编》卷25,第576页。

[46]《续资治通鉴长编》卷22,第501页。

[47]《续资治通鉴长编》卷20,第460页。

[48]李心传:《建炎以来系年要录》卷45,北京:中华书局,1988年,第817页。

[49]薛政超:《宋初对外遣使及使者素质研究》,《贵州社会科学》2005年第1期。

[50]崔明德、郑炜:《宋太宗民族关系思想的演变及对宋初疆域形成的影响》,《中国边疆史地研究》2011年第1期。

[51]巩本栋:《〈太平御览〉的分类及其文化意义》,《中国高校社会科学》2016年第2期。

[52]《续资治通鉴长编》卷20、卷27,第451—459、602—623、625—627页。

[53]柳立言:《北宋评价武人标准再认识——重文轻武之另一面》,《历史研究》2018年第2期。

[54]陈长征:《北宋中央控驭地方的派出机构——路》,《山东大学学报(哲学社会科学版)》2003年第2期。

[55]《续资治通鉴长编》卷18,第393页。

[56]《续资治通鉴长编》卷33,第734页。

[57]屈超立:《北宋官冗之弊与吏治改革》,《人民论坛》2017年第34期。

[58]王莽篡位称帝,《汉书》将其列为逆臣。

[59]特征词“太守”在全文出现1,811次,在该主题出现625次,TF-IDF值0.00075。

[60]统计“太守”的共现动词,其中高频词中连续出现“不能”(692)、“不可”(577)、“不得”(525)、“不知”(366)、“不见”(226)、“不复”(206)多个否定词。词后括号内为共现频次。

[61]《续资治通鉴长编》卷18,第411页。

[62]韩冠群:《感戴报德与循吏象征:宋代生祠的盛行与地方社会》,《史学集刊》2021年第6期。

[63]《续资治通鉴长编》卷22,第494页

[64]《续资治通鉴长编》卷18,第401页。

[65]《宋史》卷265《张齐贤传》,第9151页。

[66]自“太平兴国二年”起至标注处,依次参考自《续资治通鉴长编》,第410、421、475、492、512、521、552、553页。

[67]《宋史》卷461《王怀隐传》,第13507页。

[68]北京大学古文献研究所编:《全宋诗》第1册,北京:北京大学出版社,1998年,第310—401页。

[69]为节省篇幅,仅展示高低极值的四个主题情绪词的词云图,如需了解其他主题的词云图,可通过如下链接获取:https://pan.baidu.com/s/1L6PbqYHexEA8GPGxmgTFWA?pwd=nzes,提取码:nzes。图中括号内标注的数值为该主题的情绪值得分。


点击下方链接,下载原文


大容量古籍文本隐性知识体系挖掘与重构——基于《太平御览》的数史互证.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg


阅读原文

跳转微信打开

  •  

汉语音义文献自动分词研究 ——以唐五代佛典音义为例

原创 王进 黄仁瑄 2025-12-18 10:01 北京

汉语音义文献属于我国古籍中特殊且重要的一类,是汉语音义研究的核心文献。汉语音义研究首先需要从其中离析提取出音和义,进行匹配和判定。

实体·笺注·翻译



封面.png

王 进 / 华中科技大学人文学院

黄仁瑄 / 华中科技大学中国语言研究所


要:汉语音义文献属于我国古籍中特殊且重要的一类,是汉语音义研究的核心文献。汉语音义研究首先需要从其中离析提取出音和义,进行匹配和判定。而作为古籍数字化的基础任务之一的自动分词,也是音义信息精准高效提取的关键。随着古籍数字化及数字人文相关技术的不断迭代,古汉语自动分词技术有了新进展。本文以唐五代佛典音义文献自动分词研究为切入点,提出面向佛典音义的词汇切分规范,通过微调训练得到唐五代佛典音义文献自动分词模型YinYiBERTa,模型F1值达95%左右,较其他分词模型,泛化性显著提升,能够完成有效的音义信息离析;同时验证了领域微调模型在音义文献处理中的可行性,为后续汉语音义模型的实现提供了路径参考。

关键词:汉语音义文献 佛典音义 自动分词 数字人文




引 言

汉语音义文献采取随文注音释义的方式为经典文本提供语言学阐释,是汉语音义研究的核心文献。[1]这类文献数量丰富、内部关系复杂、层级分明,其不仅包含传统的训诂形式,更蕴藏着汉字的形音义互动关系。相较于字书、韵书,音义文献特有的随文音义形态使其音义匹配关系呈现历时与共时的双重性质。汉语音义关系研究首先需提取音义信息,再进行关系的匹配判定,传统处理手段的效率和精度不够,而数字人文技术的发展为破解这一难题提供了思路。

当前学界在音义文献数字化处理领域已有了相关进展,如姜永超、黄仁瑄[2]以李善注《文选》为例,提出注疏类典籍的音义信息XML标注体系,试图通过该技术实现音义信息的提取,并认为文本特征标注是“建立音义抽取预训练模型的基础,也是实现批量提取所需音义研究材料、可视化呈现音义关系的有效途径”[3];王晓光等[4]利用本体等语义技术实现了古籍注疏的语义化表示和关系建模。然而上述探索,其技术实现仍需过多的人工介入,且领域适应性弱。

音义信息提取是汉语音义文献数字化处理的基础环节,直接关系到后续音义数据库的构建及音义关系推理等下游任务的质量。而音义信息提取的关键在于实现音义文本结构化知识单元的转换,此一过程中,自动分词技术[5]发挥着重要作用。

汉语音义文献的自动分词作为古汉语领域分词的下位概念,既需要遵循古汉语一般词汇切分的逻辑和规范,又面临着音义文本特有的复杂语言现象。例如外典音义[6]的特殊训释术语识别率较低;内典音义中大量的异体俗字、音译词、特殊佛教用语、梵语词等,其或凝固程度不高,或为未登录词等都是自动分词的难点。基于规则或统计的传统分词方法在面向特征复杂的古汉语领域语料时局限性明显;[7]而深度学习文本特征编码的方法,虽在古汉语通用语料[8]的处理中展现出巨大的潜力,但当面向汉语音义领域的文本时,性能受制于训练语料的规模和质量。此背景下,基于预训练语言模型的领域微调(Fine-tuning)技术则取得了良好的效果。该技术通过大规模通用语料的预训练学习,然后再采用领域特征文本进行参数微调,实现了知识迁移。

由此,从汉语音义文献的文本特征出发,以内容和形式均具代表性的唐五代佛典音义[9]为实验语料,建立佛典音义语料库,微调训练SikuBERT模型,实现面向佛典音义文献,并对其他类型的音义文献也具有拓展性和泛化性的分词模型,以期为后续自动化、智能化音义信息提取和匹配工作提供帮助。


一、语料的择取

汉语音义类文献通过对古代典籍进行注音和释义,帮助读者理解经典的语言和内涵,是传统小学研究的重要组成部分,也是汉语语音史、词汇史、文字演变研究的重要材料。以音义文献的内容分类,主要包括儒典音义、佛典音义、道藏音义等。儒典和道藏音义本土性较强;佛典音义则为汉译佛经注音释义的专门文献,是踵事前代典籍注疏和辞书编纂成果的集成之作,除了采用其他音义文献共有的音义体例外,还有其鲜明的个性特征。

(一)佛典音义的语料特征

词汇层面。佛典音义文献的词汇系统表现出多重复杂性。如词汇构成多样,佛典音义不仅对普通词语进行注音释义,还涉及大量佛教专名、外来词、梵汉对音词等词汇形式。汉译佛经的词汇形式,虽据汉语的表达方式改造,但仍具有跨语言转换色彩,例如汉字对音转写产生了大批音译词,由于版本流传、早期译经方法等原因,造成了音译词的混乱等状况。从形音义关系来说,梵音也有多义,用以记音的汉字更有形音义方面的限制,导致音义错综复杂。除此之外,因译经而产生的词汇复音化,其词形结构与语义凝固度存在差异。这类词汇尚未完成词汇化进程,又兼具临时组合与定型词语的双重属性,如何识别并判定,是佛经音义文献自动分词的难点之一。

注音层面。注音是佛典音义的重要方面。为字目词目注音,一般以反切法为主,间出直音,或二者兼用;无反切时,则用直音法,有的还注出声调;另外,还存在注出破读的情况,即同一个字读音不同而词义有别。除了为字(词)目注音,佛典音义中引用书证和释文中的难字字音有时也予以标注。以注音用字信息为例,对所据佛典音义语料的注音用字信息统计(图1),得到字符数共5,506,205个,字种共19,728个。

图1.png 

图1 唐五代佛典音义用字数量、频率前20名分布图

据统计,佛典音义的注音用字种类繁多,排在前二位的为“反、切”,其中“切”字为30万以上,“反”字达20万以上,第三位为“音”,7万次以上。整体看,除去注音标识,如反、切、音等,用字数量达万级以上的仅40多个,可见大宗注音信息形式和内容具有复杂性,还需要建立注音用字共现数据库。

释义层面。释义是佛典音义中的主要环节。佛典音义中的释义一般述而不作,根据编纂者所认定的标准,音义时引经据典,在博征详析中蕴涵着刻意辨正和取舍的意识。比如一词多义或多音多义现象,通过注音和释义达到辨析音义匹配关系的目的;一些不明释义来源之处,编者或自作案语,或引用典籍,力求言而有征。而佛典音义的案语内容所涉及更广,往往兼及形音义各方面。也正因佛典音义大量引据典籍成说,在内容上又具有了古代汉语通行语料的特点。

(二)语料的分布

语言模型本质上是数据驱动的算法,数据对语言模型性能起着决定性作用。数据规模、内容的丰富程度等因素都对语言模型的泛化性产生重要影响,为满足模型的泛化性要求,语料的择取要具代表性。基于此,选择兼有音义文献基本特征和区别性特征的唐五代佛典音义为实验语料。语料总数量近20万条,约500万字,具体分布情况见表1。

图2.png 

表1 唐五代佛典音义语料分布情况统计表[10]

从语料的统计情况来看,语料涵盖了唐至辽代的音义典籍,总计162卷。语料库中《可洪音义》体量最大,编纂时间相对较晚,体现了其总汇前代音义的特色;《慧琳音义》居次,该书集前代音义之大成,并且广泛征引经史子集的相关内容,从而具有通用语料的基本特征;《慧苑音义》《希麟音义》规模相对较小,前者针对《华严经》注音释义,后者在续补《慧琳音义》之外,还补录晚唐至辽代的新译佛经,体现音义文献的延续性与专题性。

实验语料均使用未经标点的中文数字化文本,内容包括音注、词义训释、字形校勘等多元信息,既保留了汉译佛教术语的语音、词汇特征,又反映了不同时期译者对梵汉语言对音的差异化处理;其时间、版本与内容的历时与共时分布,能够有效支撑语言模型对音义文献复杂句式结构和语言表达的泛化学习。


二、词汇切分规范

因需求和领域不同,对“词汇”的衡量指标各有不同。如果采用不同的词汇标准,分词结果就可能有所差异。而且信息处理中的“词汇”概念,与词汇学定义的词汇既有区别又有联系,为实现二者的有效沟通,需要给出佛典音义的词汇切分规范,[11]据此完成词汇的判别和切分。

佛典音义与古汉语其他类型的典籍有着明显的区别性特征,其以翻译、训释佛教典籍为主要内容,音义是达成该目的的手段,在于“辨音释义”。[12]佛典音义不仅收录了大量佛教音译词,还关注到了汉语词汇形音义的关联性,音义时兼及音变、析异读、辨异文、破通假、明故训等目标。[13]但佛典音义中大量的音义内容并不符合严格的词汇标准,以注音为例,双字反切如果识别为单字符则不利于完整提取注音信息,而直音音注时又需独立切分成单字符的形式;再如特殊训诂术语的使用,往往暗示着音义关系,需要区别对待,这些难题的存在给音义文献的词汇识别造成了困难。

鉴于此,以唐五代佛典音义为例,在总结其词汇形式特征的基础上,提出佛典音义词汇的切分规范。[14]规范总体以词汇学定义为衡量指标,逸出该定义的字符串形式,以信息处理的任务需求为标准。

(一)总体性原则

汉文佛典中的词汇处在凝固阶段,单音词和复音词同时大量使用,而且还存在丰富的特殊佛教音译词等情况,为避免佛典音义自动分词陷入词和非词的争论,以分词单位[15]为基本单元。佛典音义词汇切分的总体性原则可分为基础类和辅助类两个方面。首先佛典音义的释文部分有着较强的半结构化特征,一般包括注音、释义等不同核心内容,词汇认同以词类为基础,符合词汇学定义的即可归入基础类;而对于注音信息、特殊音译词、训诂术语以及专有名词等则需根据辅助类准则切分。

1.基础类

佛典音义基础类词汇认同,首先要符合“词是语言中能独立运用的最小的符号”[16]的定义,根据定义就能够筛选出部分可切分的词串。其次,针对佛典音义中单音节词和复音词共存的情况,化振红采用了词频作为主要辅助认定指标。[17]但单纯的词频指标,还需要关注字间的共现度。另外,对同一类型的词汇(字符串),其中有一条或多条已被认同,其他同类字串,作类比切分。逸出上述条例之外的情况,需要依语境认同判定。人工分词标注时,判定的依据是具体的词汇意义以及在具体语境中的用法,并从严认定。

2.辅助类

辅助类规范指在基础类词汇认同之外,还可通过辅助性手段帮助词汇判定的情况。如构建唐五代佛典音义的词表[18]、词频表、汉字共现词表。词频表是据分词结果频率统计表;汉字共现词表为佛典音义中所用汉字间搭配使用的频率表。其他前期辅助性词库,如佛典音义、汉语音义文献术语数据库的建立,可提高专有名词类的切分效率。

(二)佛典音义释语切分范例

佛典音义主要是为了读经服务,编纂者注重语言应用的规范性。一般而言,佛典音义的半结构化特征较为明显,每一条由字目和释文两大部分组成。字目可划分为一字例、二字例、多字(三字及三字以上)例。释文主要包括注音、释义和辨字等三个部分,[19]以下从这三个方面对切分范例进行说明:

1.注音信息的切分

注音信息是音义研究的重要方面之一。佛典音义存在大量的注音信息,并且具有一定的结构化标志,如反切注音法就具有天然的分隔界限,唐五代佛典音义的注音信息切分必然要充分掌握注音的形式特征。

(1)一字例[20]

一字例中注音方式多样,如反切法、直音法、声调法、描述法等。不同的注音方式,切分方式不同。具体注音手段有:单反切、单反切+其他注音方式等。

1) 唵 乌感反   

该例注音方式为反切+描述法,此类的切分一般把反切视为分词单位,独立切分;描述法所描述的注音内容,根据其描述的意思具体切分。

2) 茹 而庶反 魏武帝 后 名 又 如 汝 二音

3) 异   巳也  余志反

上二例,直音和反切同时存在,单反切切分同上;直音则要切分,例2的格式为“又××二(数量)音”,又音的标志“又”单独切分,“二(数量)音”为一个分词单位,独立切分。

4) 阇 是遮反 亦是 北天边 方音  若 取 中天 梵音 可 者 为 慈砢反 正 也   勒可反

本例中需要注意“某音×”或“某音××反(切)”的特殊形式,该类中,被注字单独切分,注音内容为分词单位。

5) 般   本 梵音 云 钵啰 二合 啰 取   上声  转舌

本例中注音采用四声和描述法。此类切分时,四声与描述法的术语标志单独切分。

(2)二字例

唐五代佛典音义的字目多为二字例,为两字注音,一般有“××反,下××反”“上××反”“下××反”,可洪音义往往还在反语外标其所属韵部,其基本格式是“××反+×字韵”。希麟音义大多为“上(音)××反”“下(音)××反”形式。

6) 颐颔  以伊反  含感反

7) 淳湩 上音   竹用 都洞 二反

8) 浑浊 后昆 后衮 二反

9) 眅多 匹奸 匹谏 普板 三反

本例释语中以“上(音)”“下(音)”注明字目的音读信息,该类应将术语单独切分,后接单反切,如例6则单反切为一个独立切分单位;若为多反,则多反切中,两个音节为一个独立切分单位,多反的标志单独切分,如上例7、8、9。

10)拯含    叠韵 取   上声

佛典音义中用四声注音,如例 10需要将四声术语单独切分(“上声”);声调的直音字以及直音注音,切分到最小单位,“  上声”。

11)覆载  敷务反 见 韵英 秦音 也  字书  为 敷救反 吴楚 之  也

如果音义径引他书为指明某地某音,则所引他书按专有名词切分,某地之音如“秦音”“吴楚”为分词单位。

(3)多字例

多字例的数量较少,其音义的注音形式往往与二字例类同,所涉及的切分形式也都可以仿照二字例的类型切分。如例12,“上”“中”“下”这些指明为字目某字注音的关键信息需要单独切分。另外,还应注意“此云”“亦云”等术语,详见辨字信息的切分。

12)须陀洹  相朱反  徒何反  胡官反 此云 入流 亦云 预流

2.释义信息的切分

佛典音义为疏通佛经之旨而作,因此释义信息的切分需要关注以下情况:

唐五代佛典音义中常用“非此义”“非经义”等形式标明所释某字,并非为经文原意,如下例14,术语“非”“此(经)义”为独立切分单位。

13)牦牛 亡交反……经文 作 貓 猫 二形 今 人 家 所 畜 以 捕 鼠 者 是也 猫  经义

14)蛊毒 公户反 说文 蛊 腹中 虫 也 谓 行 虫毒 也 经文 从 䖝 作 蛄 音 古胡 反 蝼蛄 蟪蛄 也 蛄  此义

类似注音信息的切分,释义信息中,也存在引证他书和方言俗语的例子,所引他书、方言俗语之术语可一律按专有名词处理,单独切分。如下例“说文”“尔雅”“声类”“玉篇”“俗云”“俗谓”“俗音”等。

15)池沼 之绕反 说文 沼 池 也 梵言 贺逻驮 总 言 池水 也

16)虹霓 上 户公反 尔雅 云 䗖蝀 虹 也 郭 注 云 俗云 美人虹 下 五兮反

17)虹 胡公反 江东 俗音 绛 尔雅音义 云 双 出 鲜 盛 者 为 雄 雄 曰 虹 暗者 为 雌 雌 曰 霓

另外,佛典音义中还存在编纂者所加的案语、辨正形音义的术语,案语内容按照规范切分即可,术语单独切分。关于佛典音义中大量复杂的佛教音译词、外来语应重点关注,如例 15“池沼”条“梵言 贺逻驮”,此类的切分应视为分词单位,单独切分。

佛典音义的释义文本常以判断句的形式来分析阐释字词和篇章文义,优先依据句式特征进行切分。非固定格式的一般释义内容,同通行文本词汇的切分。“属”“别”,解释事物类属关系,术语单独切分。

3.辨字信息的切分

佛典音义中训释字的形音义关系时,多用“一、或、又曰”分列义项,当“曰”之前非人名、书名等专有名词,则作为一个分词单位,佛典音义中凡属这种格式的用法,都遵上述规范。汉语音义文献在辨形时多沿《说文解字》所创形制,如“从某”标明部首情况,“从某”应予以切分;“或体”“俗体”“今文”“或作”“俗作”“正作”“宜作”诸名,不予切分。佛典音义中用“古文”“籀文”等术语标明字际关系,这些术语视为一个分词单位。佛典音义还经常先引前书字训,然后再对其进行评析,如用“非(是)”“误”等字来标识,该类需认定为分词单位,不予切分。

如上从唐五代佛典音义的注音、释义、辨字等三个方面,对结构化的术语、词汇标识等做出了列举式的切分规范。然而,佛典音义的内容庞杂、形式多样、语用繁复等情况大量存在,所述规范还需进一步细化、总结和归纳。



三、YinYiBERT自动分词模型构建

传统的分词方案对古汉语文本的处理效果并不够出色,学界已在探索大语言模型在古汉语领域的应用,即通过领域文本的针对性训练,建模和表征语言的内在特征,使模型充分学习训练语料的内在特征,仅需少量标注数据的微调,在下游任务中就能达到良好的实验效果。南京农业大学王东波团队[21]提出的《四库全书》预训练模型(SikuBERT、SikuRoBERTa)在古籍领域的下游任务上居于领先水平。该模型使用了5亿字左右的《四库全书》语料,在通用古汉语语料上已经具有了良好的泛化性,如对《左传》的自动分词、自动句读、相似度计算等下游任务均获得了优异的成绩。虽然SikuBERT所用语料涵盖经史子集的丰富文献内容,与唐五代佛典音义文献有一定的交叉,但数量仍然较少,直接应用其对音义领域文本分词,达不到在通用古汉语语料上的效果。基于此,将SikuBERT作为基座模型,利用佛典音义语料微调训练,以实现高效精准的汉语音义文献自动分词。唐五代佛典音义微调模型的构建通过以下路径实现:(1)佛典音义微调语料的标注及修正;(2)基座模型微调训练;(3)模型横向对比,分词任务开放性评测。

(一)语料及微调标注

1.语料处理

实验以唐五代佛典音义文献为语料,词目近20万条,达500万字左右,在数量和覆盖面上满足了领域模型训练所需。除此之外,通过将《广韵》《集韵》等字书、韵书数据库中的注音规则作为特征嵌入模型输入层,增强对反切用字的识别能力。该库收录如《广韵》《集韵》及“说文系字书”等十余部古汉语字书、韵书。语料库实现了注音和释义字段的标注,注音字段如注音词条、注音对象、注音方式等;释义字段包括基本释义、补充释义、引书等。字书、韵书类语料在注音、释义、辨字等方面具有半结构化形式特征,可提升模型对佛典音义内容切分的泛化能力。形式上,音义语料的释文存在表述方式不同、长短不一等情况,经过规整,这些都可以成为模型文本推理的依据。在训练时,还将音义数据上下文信息加入,有助于模型充分学习到该类语料的形式特征和内容间的关联。

2.语料标注流程

模型训练的性能取决于参数优化与语料标注。实验构建了少量[22]有标注的分词数据集,标注质量决定了微调结果。佛典音义分词语料经两轮修正标注后,[23]交于模型训练学习。

图3.png 图2 语料标注流程示意图

第一轮标注按9∶1的比例,标注20,000条数据,重点标注出易错的反切注音、非通用释义、辨字术语,[24]以及佛典音译中的特殊词汇,如佛教术语、音译词等;将标注后的数据交给模型训练。第二阶段修正标注微调后词汇切分仍然出错的部分。佛典音义中存在单音词、复音词及佛教术语混合现象,这些字串的凝固程度不同,依照分词规范,并结合词频与词长辅助标注。词频信息反映了词汇的使用频率,如较低频率的词汇往往可能会存在错误切分,而词长反映出结构稳定性,代表了词汇的凝固程度。修正标注的步骤有两个方面:

首先,统计切分词汇的词频信息。切分结果中词量为36万以上,低频词占总词量90%左右,错误率较高,因此低频词的处理是关键。词频大于10的词汇数量为6万个左右,词频10以下为修正的重点。通过注音标记定位注音内容,如识别出反切上下字非连用、错误切分的情况。其次,统计切分词汇的词长数据。据此发现词频大于10的切分词汇,词长处在[1,10]区间,在此区间内,词长大于或等于3的仅700多例,而高频词集中在词长为[1,3]区间,错误率较高的形式主要为二字词和三字词。其中,三字词多为反切注音的整体切分错误,通过反切的标记,剔除反切词汇即可。对于二字词则构建基于词典的查询匹配程序,将出现在词典中的二字词作为切分单位,这种方式对词表的规模要求较高。实验所用词典基于《汉语大词典》叠加其他古汉语词典构造,词汇容量超68万,词汇的数量满足需求。据以上流程得到修正后的分词语料词频结果为24万左右,处于合理水平,可作为最终模型训练的实验语料。

(二)模型微调训练

1.SikuBERT预训练模型

SikuBERT模型基于BERT[25]中文预训练模型的架构训练,包含12层Transformer编码器,每层768个隐藏单元和12个自注意力头,总计1.1亿个参数。实验训练集为文渊阁《四库全书》繁体语料,共3,406种典籍,训练语料覆盖了古汉语通用领域的特征。训练语料中史部典籍的篇幅较长、平均字数最多,存在大量人名、地名等专有名词,这增强了模型的命名实体识别水平;集部文本用词凝练,提升了模型对古汉语句式结构的捕捉能力;但由于经部文献少,儒典音义通常以注疏的形式附于经典原文之后,具有上下文强依赖性、结构松散性、语料稀疏性等特征,导致模型对音义类文献的形式特征学习不够充分。

另外,SikuBERT在训练时采用掩码语言模型(Masked Language Model,MLM),移除了BERT模型下一句预测(Next Sentence Prediction,NSP)训练策略;语料则剔除原书注释部分,仅纳入正文,致其对佛典音义中的注音反切、音译词等特殊形式适应性不足。直接应用未微调的SikuBERT处理唐五代佛典音义时达不到在通用语料上的分词水准。

2.模型效果评测指标

图4.png 

效果评测采用准确率(Precision,P)、召回率(Recall,R)、调和平均值(F1)三个指标来衡量模型的优劣。P表示正确分词数量在总分词数量中的比值,准确率越高,意味着分词效果越好;R表示正确分词数量与人工标注分词数量的比值,召回率越高,分词性能越好;而F1值则兼顾准确率和召回率,客观地反映了模型的分词能力,是模型性能评测的关键性指标。

直接应用SikuBERT对《左传》语料及唐五代佛典音义进行分词实验。结果SikuRoBERTa预训练模型在《左传》语料上分词效果最优,F1值达到88%左右,在唐五代佛典音义文本上F1值仅达53%。数据如下表2所示:

图5.png 表2 S ikuBERT和SikuRoBERTa模型分词指标(%)

分词实验结果显示:(1)该预训练模型的命名实体识别能力表现佳,如对书名、人名、朝代名等专有名词的识别切分效果较好,如“说文”“尔雅”“蜈蚣”等,部分佛教术语识别率较高,但存在切分不彻底的问题;(2)针对反切注音、佛典音译词、梵语词、特殊术语等切分效果不好,如“反切”切分准确率极低,又如“或作”“谓之”等训诂术语切分也极差。因此,为适应佛典音义领域的文本特征,必须进行领域微调训练。

3.模型微调训练

根据训练数据的数据量,将本次训练集和验证集按照9∶1的比例进行划分。基于Pytorch框架,在NVIDIA RTX A5000上进行微调训练,参数设置为:learning rate=0.001,epochs=3,batch_size=32。训练中,batch_size参数越大,训练损失减少得越慢,训练所需的时间越少,而达到最小收敛所需的epoch就越多,综合考量下将其设为32。对于epochs的选择,主要根据佛典音义的数据量决定,并非训练越多epoch,效果就越好,相反,更多的epoch可能会导致模型过拟合。鉴于微调训练的语料不断叠加,采取多轮、少epoch的方式训练,先期采用3—5个小epochs进行实验。另外,佛典音义语料库中的句子长度并不均衡,在不耗费更多计算资源的前提下,设置其最大长度为256。

微调分两个轮次,每次迭代3个epochs,实验结果表明,第一轮微调后的模型针对音义文本自动分词的F1值达到84%以上,较微调前的模型分词能力显著提升了近30%。微调实验的性能数据如表3。

图6.png 表3 微调后性能表现(%)

在第一轮微调的基础上,扩大修正分词标注的范围,再次微调训练。第二轮的微调实验比第一轮微调实验在验证集上效果提升了8%左右,已经达到较高水准。总体上,实验通过调整训练轮次,验证了模型泛化能力有所提升,可以保证模型充分学习到音义语料的语言特征。经过微调的SikuRoBERTa模型在针对汉语音义文献时分词F1值达95%以上,最终得到面向唐五代佛典音义文献的预训练模型——YinYiBERTa[26]

(三)YinYiBERTa模型性能测试

1.模型对比

为了评测YinYiBERTa模型性能表现,采用统一的实验语料微调训练GuwenBERT[27]、BERT-base-Chinese、Chinese-RoBERTa-wwm-ext[28]等基线模型,并在唐五代佛典音义测试集上与其进行分词对照实验。其中,BERT-base-Chinese基于中文语料训练,具有通用性;RoBERTa通过全词动态掩码和训练数据的处理,优化了原始的BERT架构;GuwenBERT基于RoBERTa的框架改进,预训练语料为大量古籍,是面向古汉语领域的模型。分词实验结果如下。

图7.png 表4 模型对比实验结果(%)

如表4数据所示,各模型的评估指标呈现显著差异。基于SikuRoBERTa预训练模型微调得到的YinYiBERT、YinYiBERTa性能全面领先,尤其是YinYiBERTa各项指标均达到了95%以上;相较之下,GuwenBERT、BERT-base-Chinese、Chinese-RoBERTa-wwm-ext的F1值仅处于73%—78%区间,反映通用模型对佛典音义文本的适配性不足。实验数据说明了两个方面的问题:(1)预训练语料的领域差异性决定了模型的语言表征能力。BERT-base-Chinese模型的训练依赖通用语料,虽经音义类文本的领域知识学习,分词F1值达到73%左右,但较低的召回率显示效果并不够令人满意,特别是对梵汉对音词、反切注音以及专名识别等情况切分时错误率极高;GuwenBERT使用了古文语料训练,因而具有一定切分效果,但对佛典音义领域混合的语言结构识别准确率较低。(2)唐五代佛典音义的分词涉及梵汉对音词、反切术语、未登录词等高难度文本特征,YinYiBERT前期使用了佛典音义标注语料,标注一致性高,一定程度上提升了模型性能,最终达到高于基线模型的性能。

图8.png 图3 模型对比实验结果折线图

图3将不同模型的指标数据以折线图的形式呈现,清晰地观察到YinYiBERTa模型的评估曲线处于稳定的高值状态,对唐五代佛典音义的分词能力远高于基线水准,此成绩得益于底层SikuBERT模型和训练微调语料的强针对性。基线模型的指标分布则出现了明显波动。同时,YinYiBERTa优异的性能验证了领域微调策略的有效性,增强了模型对佛典音义复杂语言结构的解析和识别能力。表5展示了佛典音义真实的分词情况:

图9.png 表5 佛典音义分词结果[29]

从真实的分词结果可以看到,源于《四库全书》的预训练模型,针对命名实体识别的准确度非常理想,如“世本”“周礼”“磬乐录”“凫氏”等;标注微调后的模型,取得了良好的效果,注音情况绝大部分都可以切分准确,音译词、外来词也做到了较为准确地切分,如“××反”“怚毗揵拏”“曼荼罗”等,对于特殊辨字术语也切分得较为准确,如“此云”“正作”等。以佛典中特殊的音译词来说,模型准确切分的原因,一方面在于语料微调标注的准确性;另一方面在于其他注音释义类型的大部分准确切分降低了这类音译词的错误率。经由样本数据的切分抽检,微调后的模型对佛典音义的形式和内容均能准确识别和切分,说明少量语料标注在微调过程中作用是重要的。

2.分词任务开放测试

为进一步验证微调模型对其他类型汉语音义语料的泛化性,利用YinYiBERTa对《后汉书音注》[30]部分语料进行分词实验。实验语料是训练集中未包含的数据,共1,550条音义,3.2万字,自动分词后具有2.3万个词串,模型F1值为95.34%,分词结果符合齐普夫定律。

按词频统计,计不重复词串6,340个,注音标记“音”词频1,811,句末标记“也”词频1,381,“曰”字词频755,“之”字词频462,其他词频均低于200。采用注音标记“音”字起领的情况,一般后接反切。表6展示了词频前十、后十的词串分布:

图10.png 表6 《后汉书音注》分词词频前后十位统计

词频前十位的单字词为注音或注疏等汉语常用词,词频后十位几乎不具区别性,一般不会对文本音义内容有较大影响。“说文”词频116,在所有出现书目名称的词频中居首,说明音注对该书的看重,其他书名、经师名、音注术语等出现的词频范围如下表:

图11.png 表7 《后汉书音注》分词专名类词频统计

分词结果中“前书音义”“前书”同时出现,通过回归原文分析,认为并非分词错误,而是《后汉书音义》与《汉书》及其音义的对举,如“前书曰:将作少府秦官……”“窨音一禁反见前书音义”。经统计,《后汉书音注》广泛使用反切注音法进行注音,共1,214个反切,不重复反切900个,词频最高为“纪力反”10次,仅使用一次的反切707个,反切词频为1。在《后汉书音注》中一般前有“音”字样提示注音,除了绝大部分用反切,还有少量用直音法注音,这一现象符合音义书音注的惯常体例。[31]

以上从统计的角度观察了词汇的切分情况,YinYiBERTa对开放测试的语料切分已能够达到较为实用的水平。表8为语料切分情况的完整展示。

图12.png 表8 《后汉书音注》卷29《申屠刚鲍永郅恽列传》分词举例

《后汉书音注》与唐五代佛典音义既有区别和联系,音义形式又存在交叉,即佛典音义中的注音释义方式在《后汉书音注》中也存在,而且SikuBERT预训练时所用语料中史部数量较多,促进了微调效果的提升。经过利用唐五代佛典音义语料微调训练,模型已经对汉语音义文献的切分具备了良好的泛化性。基于此模型的词汇切分,能够将音义信息单元高效精准地提取,完成相关数字人文研究。如准确音义实体的识别切分“去音丘吕反”“繇音遥”等可以帮助后续建立注音字与注音内容间的链接关系,对应的人名、地名切分可以辅助进行音义来源探索。以表8中例3的分词结果为例可抽取并建立音义关系图谱。

图13.png 图4 《李贤音注》音义抽取及音义关系构建示意图



四、结语

基于唐五代佛典音义语料,实现了面向汉语音义文献领域的自动分词模型——YinYiBERTa,经佛典音义文本和开放类音义文本的切分实验,模型取得了95%左右的F1值,具备了出色的自动分词性能。然而模型表现一定程度上依赖于训练数据的质量。本文的价值在于:(1)提出佛典音义的领域分词标注规范具有规范性,可拓展适配其他古籍领域的数字化处理(如道藏音义、经典注疏等),为大模型提供了领域知识基座;(2)验证了在计算资源受限的情况下,采取领域特征微调的方法,即使是相对较小的预训练模型,也可以展现出良好的推理能力。

随着通用大语言模型的快速迭代和广泛应用,古籍数字化领域迎来了新的发展机遇,本文的探索凸显了领域知识对模型表现的重要性。接下来,大语言模型下的古籍数字化研究需要秉持“数据导向”和“领域适配”的思路继续深入发展。

未来,为突破单任务模型的局限性,我们将致力于构建一个融合多任务的领域深度学习框架,并积极探索大语言模型辅助的领域古籍数字化任务研究。此外,我们还将进一步实现领域古籍的知识图谱构建,从而助力汉语史、汉语音义关系的智能化知识挖掘。这些探索无疑是数字人文视域下古汉语创新发展的具体实践。


Study on Automatic Word Segmentation of Chinese Phonological and Semantic Literature: Taking the Phonetic Semantic of Buddhist Scriptures in Tang and Five Dynasties as an Example

Wang Jin, Huang Renxuan

Abstract: Chinese phonosemantic literature, a crucial category in ancient Chinese texts, provides essential linguistic evidence for phonological-semantic correlation studies. Research on the phonological-semantic correlation studies must first involve separating and extracting their phonetic and semantic elements for matching and determination. This research addresses the core challenge of automatic word segmentation in textual digitization through domain-adapted modeling. Taking the research on the automatic word segmentation of phonetic and semantic documents of Buddhist scriptures in the Tang and Five Dynasties as the starting point, an attempt is made to propose a vocabulary segmentation specification for the phonetics and semantics of Buddhist scriptures. Through fine-tuning training, an automatic word segmentation model for phonetic and semantic documents of Buddhist scriptures in the Tang and Five Dynasties, YinYiBERTa, is obtained. The F1 value of the model reaches over 95%. Compared with other word segmentation models, its generalization ability is significantly improved, and it can accurately separate phonetic and semantic information. At the same time, the feasibility of domain fi ne-tuning in the processing of phonetic and semantic documents is verified, providing a path reference for the implementation of subsequent Chinese phonetic and semantic models.

Keywords: Chinese Phonological and Semantic Literature; Buddhist Scriptures; Automatic Word Segmentation; Digital Humanities


编辑|程宁

本文系国家社会科学基金重大项目“中、日、韩汉语音义文献集成与汉语音义学研究”(19ZDA318)、中央高校基本科研业务费专项资金资助项目“古代语文辞书知识图谱构建及研究——以《集韵》为例”(YCJJ20251105)、华中科技大学一流文科建设重大学科平台建设项目“数字人文与语言研究创新平台”阶段性研究成果之一。感谢南京大学童岭教授、清华大学李飞跃教授指正,并向匿名评审专家提出的宝贵意见致谢!


向上滑动 查看注释


[1]黄仁瑄:《汉语音义材料系统述略》,黄仁瑄编《汉语音义学研究论集(一集)──首届汉语音义学研究国际学术研讨会暨第四届佛经音义研究国际学术研讨会论文集》(上),台湾:花木兰文化事业有限公司,2023年。

[2]姜永超、黄仁瑄:《注疏类典籍音义信息提取与网络化的技术实现——以李善注〈文选〉为研究依据》,《语言研究》2021年第4期。

[3]黄仁瑄、姜永超:《注释书音义信息的标注》,《汉语学报》2022年第1期。

[4]王晓光等:《古籍注疏的知识表示与语义化建模研究》,《中国图书馆学报》2023年第3期。

[5]汉语自动分词指将汉语文本的连续字符串切分成词串的过程。

[6]音义材料中将佛典音义称为内典音义,其他音义称外典音义。

[7]王进、张义:《古汉语自动分词技术研究现状及进展》,《海南开放大学学报》2022年第3期。

[8]“古代汉语通用语料”指传世典籍中文学史传等文本,与汉语音义学的研究材料(“领域语料”)对称。

[9]唐五代佛典音义指初唐玄应《大唐众经音义》(玄应音义)、盛唐慧苑《新译大方广佛华严经音义》(慧苑音义)、中唐慧琳《一切经音义》(慧琳音义)、后晋可洪《新集藏经音义随函录》(可洪音义)和辽希麟《续一切经音义》(希麟音义)。括号内为简称,下文用简称。

[10]数据来源:黄仁瑄:《唐五代佛典音义研究》,北京:中华书局,2011年。表格中条数和字数为语料库的实际收录。

[11]化振红:《试论中古汉语语料库佛教文献分词规范》,《东南大学学报(哲学社会科学版)》2019年第1期。

[12]黄仁瑄:《唐五代佛典音义研究》,第97页。

[13]徐时仪、梁晓虹、陈五云:《佛经音义研究通论》,南京:凤凰出版社,2009年,第106页。

[14]关于汉语音义文献分词规范的构建另文详述,此处仅概述其要。

[15]分词单位,指依据词汇切分规范划分的最小语义单元,即可切分为完整部分的字符串形式。

[16]叶蜚声、徐通锵:《语言学纲要》,北京:北京大学出版社,1997年,第126页。

[17]化振红:《建立中古汉语语料库分词规范的若干问题》,《语言研究集刊》2021年第2期。

[18]词表指初轮添加人工标注特征完成自动分词后,对所有已切分词汇的汇总统计。词表也可以作为切分错误识别、修正的依据。

[19]黄仁瑄:《唐五代佛典音义研究》,第84页。

[20]例中字词间所用空格为切分符号,波浪线示例为切分部分。下同。

[21]王东波等:《SikuBERT与SikuRoBERTa:面向数字人文的〈四库全书〉预训练模型构建及应用研究》,《图书馆论坛》2022年第6期。

[22]少量,是相对于整体语料的数量而言。

[23]佛典音义分词语料标注指的是人工对语料进行分词判定并标注划分出正确形式的过程。

[24]易错的标准根据上述第一节佛典音义语料词汇统计结果,如低频词(词频<10)和反切注音错误率的统计,优先标注高频错误类型。

[25]BERT是一种基于双向Transformer架构的预训练语言模型,它能够通过预训练和微调的方式实现深度语言表征,可以帮助模型更好地理解文本。BERT预训练模型被广泛应用在自然语言相关推理任务中。

[26]下文称YinYiBERTa均对应SikuRoBERTa,因训练过程相似,为便于对比,故进行了名称的缩简。

[27]https://github.com/ethan-yt/guwenbert, accessed on November 22, 2024.

[28]Yinhan Liu et al., “RoBERTa: A Robustly Optimized BERT Pretraining Approach,” arXiv, 2019, https://arxiv.org/pdf/1907.11692, accessed on November 22, 2024.

[29]实际的分词结果一般以空格为标记。下同。

[30]范晔撰,李贤等注:《后汉书》,北京:中华书局,1965年。

[31]林序达:《反切概说》,成都:四川人民出版社,1982年,第27页。


点击下方链接,下载原文


汉语音义文献自动分词研究——以唐五代佛典音义为例.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg

阅读原文

跳转微信打开

  •  

低资源条件下的西夏文OCR与机器翻译研究

原创 郑宇熹 周子茗 2025-12-16 10:00 北京

西夏文字是研究西夏历史文化的重要载体,因其字形结构独特、研究人员稀缺,其解读和研究面临诸多挑战。人工智能技术的发展为走出这一困境提供了新途径,但仍受限于标注数据稀缺的现状。

实体·笺注·翻译



封面.png

郑宇熹北京大学中国语言文学系

周子茗 / 北京大学中国语言文学系

张永伟 / 中国社会科学院语言学重点实验室(通讯作者)

孙伯君 / 中国社会科学院民族学与人类学研究所

乔晚馨 / 北京工业大学经济与管理学院

侯君明 / 广西师范大学出版社(北京)有限公司

俞敬松 / 北京大学软件与微电子学院



要:西夏文字是研究西夏历史文化的重要载体,因其字形结构独特、研究人员稀缺,其解读和研究面临诸多挑战。人工智能技术的发展为走出这一困境提供了新途径,但仍受限于标注数据稀缺的现状。本研究聚焦于低资源条件下的西夏文OCR与机器翻译两项任务。在OCR任务中,使用字体生成技术构造了训练数据,在仅使用500张真实标注图片的前提下实现了83.1%的准确率。在机器翻译任务中,结合大语言模型和西夏文辞书知识,实现了西夏文到汉语的对译和意译。实验结果表明,仅依靠数百组西夏文—汉语句对齐语料,模型就能在两项任务中展现出良好性能。

关键词:西夏文 低资源 光学字符识别(OCR) 机器翻译



    引 言


西夏文献作为珍贵的历史文化遗产,对于西夏历史和文明的重建、对于宋辽金元历史文化的研究、对于包括敦煌文化在内的“丝绸之路”古代社会经济文化的研究等都有重要的作用。[1]据统计,现存西夏文献总计约500万—600万字,其中宗教佛经占比高达80%。[2]西夏文在创制过程中受到汉字影响,呈现典型的方块字特征,其字形结构与汉字多有相似之处,除不具备“全包围结构”外,其余结构形式均可在汉字中找到对应。然而,西夏文字结构繁复,字形相似度高,辨识难度较大。

西夏文献研究经历了纸质化、电子化和数字化发展阶段,内容研究也从释字逐步扩展至西夏词汇、词类和结构研究等。[3]百余年来,学界在西夏文研究方面取得了丰硕的研究成果。然而,在数智时代,西夏文的全文检索、信息处理和知识挖掘等方面的研究相对滞后,仍以传统的人工阅读、识别和摘录为主。图像光学字符识别(Optical Character Recognition,OCR)是西夏文献数字化的基础,也是后续研究的前提,而机器翻译则能够显著降低西夏文献解读的难度,提升解读效率。因此,OCR和机器翻译是西夏文信息处理的两项关键任务。

人工智能依赖于算法、算力和数据三大核心要素。在古文字处理领域中,高质量训练数据的稀缺是制约技术落地的核心难点。对于西夏文而言,公开的高质量训练数据尤为匮乏。在西夏文OCR方面,仅Tangut Database数据集可开放获取。该数据集仅包含668个字符的16,320张字图,只及Unicode标准收录西夏字符的1/10。[4]此外,该数据集字符数量分布极不均衡,单字符的字图最多的有528张,最少的仅有2张,超过200个字符的字图少于5张,严重影响了模型训练效果及其应用推广。在西夏文解读和翻译方面,西夏文-汉语对译数据仅以单个文献为单位少量公开,缺乏系统性,且多以纸本形式出版,录入和再利用成本高昂。因此,如何在有限的数据资源条件下提升模型性能,已成为西夏文信息处理领域亟待解决的关键问题。

本文探究了低数据资源条件下西夏文OCR和机器翻译的实现方案,旨在为西夏文献的解读与研究提供支持。针对西夏文OCR训练数据不足的问题,本文通过字体生成技术扩充了训练集,在仅使用500张真实标注图片的前提下达到83.1%的识别准确率。针对西夏文机器翻译任务,本文提出一种结合大语言模型和专家知识的方法,分别实现了西夏文的对译和意译。实验结果表明,仅需数百个西夏文-汉语对译和意译对齐数据组,即可训练得到具有一定实用价值的翻译



    一、相关工作


本文相关工作主要涉及西夏文信息处理、字体生成技术、西夏文字识别方法和基于大语言模型的机器翻译技术四个方面。

(一)西夏文信息处理

进入20世纪90年代,西夏研究在文献整理、机构建立、专题研究、学术交流和成果数量等多个方面都有了很大的进展。[5]不少学者开始关注电脑处理西夏文问题,在西夏文字库的建立以及排版系统的开发方面取得了一些成果。1999年,宁夏大学计算中心主任马希荣教授研制出“夏汉字处理及电子字典”,其中就有西夏文字符集。2005年,时任宁夏社会科学院研究员的景永时和贾常业研制出“基于北大方正典码之上的西夏文字录入系统”,该系统设计的西夏文字符集借用了汉字楷体笔画。[6]西夏文处理系统的研制大大改善了西夏文计算机处理的状况,并逐渐在西夏学与计算机学科间产生了一个交叉研究方向——西夏文信息处理。研究者们也开展了一系列相关科研工作,如在线夏汉电子字典[7]、西夏音韵数据库[8]和西夏语料库[9]的建设。近年来,人工智能技术蓬勃发展,西夏文字识别也引起国内外众多学者关注,不断涌现出了新的方法。随着西夏学研究的深入,“四行对译”成为使西夏文献研究与历史语言学、文献语言学研究接轨的重要方法,这也提出了西夏文机器翻译技术的需求。[10]

(二)字体生成技术

本文尝试通过字体生成技术缓解西夏文OCR缺乏标注数据的问题。字体生成作为图像生成的重要分支,其目标是通过一个模型和一批参考字,生成与参考字风格相似的一批字图。早期的字体生成模型借鉴了通用图像生成模型的编码器-解码器架构,例如开源项目zi2zi和FUNIT。[11]后续的研究将字体生成任务中笔画、部件等独有的特征融入编码器,以更好地捕捉字体的细节和结构。[12]近期也有研究使用扩散模型将字体生成建模为加噪声和去噪声的过程,例如FontDiffuser。[13]这种方法生成的字形优美,但容易出现部件的笔画细节错误,本文没有采用。

(三)西夏文字识别方法

文字识别算法旨在将字符图像转换为对应的文本。单字符识别任务本质上是一个图像分类问题。按照识别技术划分,西夏文字的识别主要经历了传统识别方法和深度学习识别方法两个发展阶段。[14]传统识别方法包括基于结构的方法[15]、基于统计的方法[16]和基于支持向量机的方法[17]。深度学习识别方法包括基于CNN的方法[18]和基于RNN的方法。[19]深度学习方法使西夏文字识别取得了长足进展,但尚存在依赖大量标注数据、识别精度不高等问题。

ViT(Vision Transformer)[20]模型在计算机视觉领域的重要性逐渐增加。其通过将输入图像划分为固定大小的图像块(patches),并将其转换为一维向量序列,继而输入Transformer结构进行监督式图像分类训练。研究表明,经过大规模数据预训练的ViT模型在迁移学习场景中表现出显著的数据效率优势,即在目标任务中所需的训练样本数量大幅降低。在文字识别领域,基于Transformer架构的模型如TrOCR[21]和EVA-02[22]已成为主流解决方案。其中,适合于字识别模型的EVA-02模型采用了改进的TrV(Transformer Vision)架构,在保持模型参数规模相当的情况下,通过优化计算架构显著降低了计算成本,并在多个基准测试中实现了最优性能。

(四)机器翻译技术

机器翻译是自然语言处理的核心任务之一,旨在将源语言自动转换为目标语言。截至本文撰写之时(2025年2月),尚未检索到公开发表的关于西夏文机器翻译的研究成果。对于古代语言等低资源语言,机器翻译系统需要应对独特的挑战,比如不完整的词典、碎片化的文本以及母语使用者的缺乏。早期依赖规则和统计的方法难以应用于资源匮乏的语言。近年来,由于神经网络模型和迁移学习技术的发展,低资源语言的机器翻译逐渐受到了重视。序列到序列模型[23]和Transformer架构[24]彻底改变了这一领域,实现了具备上下文感知能力的更强大的翻译。[25]随着GPT[26]等生成式大语言模型的发展,最近的工作展示了大语言模型在这一领域的潜力。[27]基于微调大语言模型以处理低资源语言的范式已经应用于拉丁语[28]和古希腊语[29],并且达到了最先进的性能。在低资源机器翻译中的一个关键创新是使用辅助资源,如词典、平行文本和多语言嵌入,[30]以增强模型性能。在有限的平行数据场景中,反向翻译、数据增强和迁移学习等技术[31]已被证明有效。此外,包括思维链(Chain-of-Thought,CoT)[32]和少样本学习(Few-Shot)[33]在内的提示策略,已成为指导大语言模型处理低资源任务的强有力的工具。



    二、西夏文OCR


本节通过字体生成技术构建训练数据集,实现了西夏文字全字符集的识别。

(一)基于字体生成技术的数据集构建

2016年6月,Unicode 9.0开始收录西夏文字符,包括6,125个西夏文字,755个构字部首,共计6,880个字符。本研究的目标是识别所有这些西夏文字及部首。OCR模型的训练通常需要大规模的标注图像数据。然而,通过人工构建传统的OCR训练数据集耗时耗力,且难以解决样本不平衡问题。鉴于西夏文与汉字的渊源关系,本研究采用字体生成算法,模拟汉字字体风格生成西夏文字图像,构建训练数据集。由于西夏文没有大量字体可用于输出评价生成效果的客观指标,只能依靠专家主观判断来评价生成质量。经大量实验发现,基于生成对抗网络的字体生成模型中MX-Font模型[34]在西夏文字图像生成方面风格拟真度高,整体表现最为优异。而基于扩散网络的FontDiffuser模型则容易出现笔画生成出错的情况,见图1。

图1.png 

图1 扩散模型生成的部件出错的西夏文字图

(左侧为银川体,中间为风格变换目标字体,右侧为生成效果)

本文选用西夏银川体[35](Tangut Yinchuan)为西夏文图像参考字体。由于MX-Font模型未公开,需自行训练。本研究参照西夏银川体风格,选取风格相似的方正萤雪体作为参考字体,收集了432个汉字字体作为风格变换目标字体,并选择432个字体共有的4,339个字符作为训练集。同时,本文收集了这4,339个字符的部件信息,供特征分类器使用。字体生成实验基于Ubuntu 20.04.6 LTS操作系统,软件环境为CUDA 11.8,PyTorch 2.1.1(torchvision 0.16.1),Python3.10.13。硬件配置包括8块NVIDIA RTX 4090图形处理器。训练阶段,使用Adam优化器,批大小设置为24,最大迭代次数设置为800,000,生成器和辅助分类器的学习率分别设置为0.0002和0.0002。

利用最终训练得到的模型生成了101种风格的西夏文全字符集图像,生成效果见图2,最顶端的6个“典”字图像为6种不同汉字字体的参考字图,最左侧的3个图像为3个西夏银川体字图,它们的右侧为依据不同字体的汉字风格生成的西夏文字图像。

图2.png 

图2 西夏文字体生成效果,包括版刻风格以及部分手写体,最左栏为银川体

为增强生成数据的多样性以提高模型的泛化能力,本文对生成的西夏文字图像进行了数据增强,具体方法如下:(1)在0.6—1.4范围内随机调整字图的长宽比;(2)在-15°—15°范围内随机调整字图的角度;(3)50%的概率对字图的四边执行随机裁剪,范围是0%—20%;50%的概率对字图的四边执行随机扩充,范围是0%—40%;(4)再次在0.6—1.4范围内随机调整字图的长宽比;(5)50%的概率使用TIA算法[36]扭曲图像;(6)对笔画颜色执行随机加深或淡化;(7)30%的概率给字图增加多尺度噪声及纸纤维噪声;(8)30%的概率对字图执行中值滤波。对所有生成的西夏文字图像执行10次数据增强操作,共获得1,010套增强数据集。将原始未增强数据与增强数据合并,得到完整的西夏文OCR数据集,每个西夏文字符均包含1,111个不同的图像样本。

(二)实验数据

本文采用分层随机抽样法对构建的生成字体数据集进行划分,按照90%、5%、5%的比例分别构建训练集、验证集和测试集。具体而言,每个西夏文字符在训练集、验证集和测试集中分别有1,000个、56个和55个图片样本。

为了评估模型在真实西夏文献中的识别性能,本研究从普林斯顿大学图书馆馆藏西夏文献《妙法莲华经》第四卷中随机选取了部分页面作为真实测试集的来源。通过字符图像提取和人工验证相结合的方法,最终构建了包含219类西夏文字符,共计1,000个图像样本的真实测试集,用于模型性能的客观评估。

为进一步验证方法在扩充真实数据后的表现,本研究从真实测试集来源额外收集了500个图像样本进行标注,并对这些样本执行了10次数据增强操作,构建了补充训练集。在模型训练过程中,首先将生成的伪字体数据集输入神经网络进行训练,随后再引入补充训练集以进一步优化模型表现。

(三)模型选择

预训练模型可以降低小样本任务的训练难度并且显著提升任务性能。本研究以EVA-02预训练模型(参数规模为86M)为基础,进一步使用生成的西夏文字体数据集进行有监督微调训练。这种训练范式不仅充分利用了预训练模型在视觉特征提取方面的优势,同时也针对西夏文字的特点进行了模型优化。

(四)实验设置和评价指标

本实验基于Ubuntu 20.04.6 LTS操作系统,软件环境为CUDA 11.8,PyTorch 2.0.0(torchvision 0.15.1),Python 3.8.18。硬件配置包括8块NVIDIA RTX 4090图形处理器。考虑到西夏文献页面的物理特征、文字结构特点以及字符在图像中的空间分布特性,本文将西夏文字图片等比缩放到96×96像素,将patch设置为8×8像素,也就是将输入的字符图像划分为144个等大小的图像token进行特征提取。为了提升模型的泛化能力,本研究采用标签平滑交叉熵损失函数(Label Smoothing Loss),对标签分布进行适度平滑化处理,抑制模型过拟合。本实验采用Top-1准确率作为西夏文OCR任务的评价指标。Top-1准确率为模型预测的类别与真实类别完全一致的样本数占测试集中总样本数的比例,计算公式如下:

图3.png 

(五)结果与分析

模型经20个epoch微调训练后达到收敛,训练损失函数曲线如图3所示。

图4.png 

图3 西夏文识别模型训练损失函数曲线

为全面评估本文方法在西夏文OCR任务中的性能,本研究分别测试了两种训练集设置的效果:仅使用生成的伪造字体、结合生成的伪造字体与少量真实标注图片。具体结果详见表1。

图5.png 

表1 西夏文OCR结果[37][38]

ab

实验结果表明,本文提出的方法在未使用任何真实标注图片的情况下,便达到了74%的识别准确率,并覆盖了Unicode9.0西夏文完整字符集。进一步引入500张真实标注图片后,识别准确率显著提升,超越了基于结构的识别方法(训练数据包含3,000张真实标注图片)的表现。然而,受限于标注数据规模,该方法的识别准确率仍低于使用100,000张图片训练的CNN方法。这一结果表明,本文方法对真实标注图片的依赖较低,具有良好的适应能力,可推广应用于其他低资源文字的识别任务。



    三、西夏文机器翻译


本节致力于构建西夏文至汉语的机器翻译系统,重点探讨西夏文的对译与意译两种翻译模式。在西夏文献研究中,“四行对译”是一种传统且重要的解读范式,其具体形式如表2所示。 

图6.png 

表2 西夏文“四行对译”示例[39]

“四行对译”范式中第1行为西夏文原文,第2行为西夏文的拟音转写,第3行与第4行分别为汉语对译译文与汉语意译译文。对译过程主要体现为词语层面的一一对应转换,而意译则需要在准确把握原文语义的基础上,依据汉语的句法规则与表达习惯进行语序重组和语义重构。值得注意的是,当遇到汉语中缺乏对应字的西夏文字时,研究者通常采用“△”符号进行标记。在意译环节,这些标记符号需要根据上下文语境与语义关联进行合理转换与表达。相较于对译,意译过程涉及更为复杂的语言认知与转换机制,实现难度更高。

图7.png 

图4 《简明夏汉字典》中“图8.png”条目

(一)实验数据

1.西夏文字—汉语翻译数据

本文方法以西夏文字的汉语翻译作为参考,采用的汉语翻译数据源自李范文编撰的《简明夏汉字典》。[40]本文从《简明夏汉字典》中为6,703个西夏文字头抽取了8,245个义项,平均每个西夏文字1.23个义项。其中,748个西夏文字有2个义项,206个西夏文字有3个义项,多于3个义项的西夏文字有98个。

基于词典释义,本文构造得到两类西夏文字—汉语翻译数据:(1)完整释义(表示为Dict),包含字词解释、序号和词性等信息;(2)简化释义(表示为DictSingle),仅保留简单字词解释,并转换为简体汉字。以字典中西夏文字“图9.png”为例(参见图4),其完整释义为“1.種、苗、裔[名詞];2.胤;3.明;4.習”,简化释义为“种、苗、裔、胤、明、习”。

2.西夏文—汉语句对齐数据

本研究使用的西夏文—汉语句对齐数据集源自《三代相照文集》和《华严经》第77卷。其中,《三代相照文集》的句对齐数据有569组,[41]包含对译和意译两种类型,示例如表3所示。

图10.png 

表3 《三代相照文集》数据示例

《华严经》第77卷的句对齐数据有525组,[42]包含日语译文和汉语译文,两者均为意译。为获得标准对译文本,我们运用ChatGPT-4o模型将日语译文转换为符合对译要求的汉语译文。表4展示了《华严经》第77卷数据示例。

图11.png 

表4 《华严经》第77卷数据示例

实验采用《三代相照文集》作为主要数据来源,随机选取其中95%的数据构成训练集,剩余5%的数据构成测试集。由于《华严经》第77卷的525组数据未严格遵循四行对译格式,仅用于评估模型的迁移学习能力。

(二)模型设计

本研究提出了一种专家知识增强生成的西夏文翻译方法。该方法通过在大语言模型的提示词中整合西夏文字—汉语翻译数据,实现西夏文的精确对译和意译。

1.基础大语言模型的选择与微调

本研究选择本课题组在Qwen1.5-14B-Chat模型上进一步训练得到的古汉语大语言模型(表示为QwenClassical)作为基础模型。首先,使用Qwen1.5-14B-Chat模型在包含古文全集、文白对照语料以及文史哲典籍等文本的36GB数据上进行继续预训练,以增强其对古汉语的理解能力。随后,利用76个古汉语任务的39万条数据对其进行微调,以提升模型在特定任务上的性能。[43]最终,为了实现西夏文到汉语的翻译,使用对译和意译数据进行最终的微调训练。作为对比,本文也使用相同的对译和意译数据对Qwen1.5-14B-Chat模型(表示为Qwen)进行了微调训练。

2.对译模型提示词设计

在基于大语言模型的西夏文对译任务中,我们设计了一种基于字符级提示的策略。具体而言,输入提示中包含了每个西夏文字及其对应的汉语释义,其具体格式见图5。

图12.png 

图5 西夏文对译提示词

以“图13.png”的对译为例,使用西夏文字的汉语简化释义时,其完整提示词如图6所示。

图14.png 

图6 “图15.png”对译提示词

图6所示的提示词中方括号内的文字是每个西夏文对应的汉语简化释义。对于这个例子,输出的西夏文对译结果应为:“罪非皆不为”。此外,提示词中除可使用西夏文的汉语简化释义外,亦可采用其汉语完整释义。

3.基于思维链的意译模型提示词设计

在基于大语言模型的西夏文意译任务中,有两种不同的提示策略:直接意译策略(表示为Prompt)和思维链意译策略(表示为PromptCoT)。前者指示模型直接生成目标语言(汉语)的意译结果,后者则将翻译过程分解为两个阶段:首先,模型进行逐字对译;其次,模型基于初步的对译结果进行语义重构,生成最终的汉语意译文本。采用思维链策略的提示词[44]格式如图7所示:根据候选词先构造西夏文的对译,在对译的基础上再生成西夏文的意译:

图16.png 

图7 西夏文意译提示词(思维链策略)

以“图17.png”为例,输出的西夏文对译应为“此复退难自何见,△想△则人悲痛”,意译应为“此复难退自何见?我等每思则悲哭”。

(三)实验设置和评价指标

本实验基于CentOS Linux release 7.9.2009操作系统,软件环境为CUDA 11.8,Pytorch 2.0.1,Python 3.10.13和transformers 4.37.2。硬件配置包括2块NVIDIA A800 80G图形处理器。在对译和意译任务的微调训练中,均采用以下超参数设置:最大训练轮次为5,批大小为8,梯度累积步数为1;优化器选用AdamW,权重衰减设置为0.1,学习率为0.0003,采用cosine学习率调度策略,预热比例为0.01;训练精度采用bf16;每设备训练批大小为8,每设备验证批大小为1;模型最大长度设置为512。

实验中,我们控制了三个变量:字典释义类型、基础大语言模型类型和提示策略类型。为评估西夏文对译和意译的性能,本研究采用BLEU-4[45]作为评价指标,值越大说明翻译效果越好。

(四)结果与分析

1.机器翻译性能评估

表5展示了不同变量下西夏文自动对译模型在测试集上的性能评估结果。结果显示,DictSingle+QwenClassical模型在测试集中获得了72.33的BLEU-4得分,取得了最佳性能。使用不同类型的西夏文—汉语翻译数据进行微调,QwenClassical模型的性能均优于原始Qwen模型。同时,使用汉语简化释义而不是完整释义,也可以提升模型的翻译性能。这可能是因为简化的提示词有助于模型捕捉并理解核心信息。

图18.png 

表5 西夏文自动对译测试结果

表6展示了基于古汉语大模型的西夏文自动意译模型在测试集上的性能评估结果。结果表明,DictSingle+PromptCoT模型在测试集上均取得了最佳性能,其BLEU-4得分为64.2。使用思维链提示策略而不是直接输出意译可以显著提升模型性能。这可能是因为思维链策略模拟了人类翻译的认知过程,即先理解原文语义(对译),再进行表达转换(意译),从而为模型提供了更清晰的推理路径,有效减少信息丢失和歧义,进而提升意译结果的连贯性和准确性。

图19.png 

表6 西夏文自动意译测试结果

测试结果表明,本文实现的西夏文机器翻译模型在自动对译和自动意译两个方面均达到了实用水平。

2.训练集规模对模型性能的影响

为探究训练集规模对模型翻译性能的影响,本研究在不同规模训练集上进行了对比实验。我们从测试数据中随机抽取28组作为固定测试集,从训练数据中随机抽取100至500组作为训练集。对译采用DictSingle+QwenClassical配置,意译采用DictSingle+QwenClassical+PromptCoT配置。实验结果显示,随着训练集规模的增加,模型在对译和意译任务上的性能均呈现稳步提升趋势,详情见表7。值得注意的是,即使在仅有100组训练集的情况下,模型也展现出了显著的少样本学习能力,验证了大语言模型在低资源翻译任务中的特殊优势。

图20.png 

表7 基于不同规模训练数据的西夏文机器翻译性能评估

3.迁移学习及模型泛化能力评估

为考察模型在新文献上进行机器翻译的迁移能力,本研究以《三代相照文集》作为基础训练集,逐步加入不同规模的新文献数据进行模型微调。具体而言,在保持基础训练集不变的情况下,分别引入40组、80组、120组、160组和200组《华严经》第77卷的对译和意译数据。为评估模型性能,我们从《华严经》第77卷中随机抽取26组未参与训练的句对作为测试集。实验配置与前述保持一致,对译采用DictSingle+QwenClassical配置,意译采用DictSingle+QwenClassical+Prom-ptCoT配置。

图21.png 

表8 不同补充数据量对西夏文机器翻译效果的影响

实验结果表明,即使引入少量目标领域文献数据,模型也能初步展现对新文献的表达模式的翻译适应能力。随着目标文献数据量的增加,模型的迁移学习能力得到提升。当补充数据量达到200组时,模型性能达到最优,此时,对译和意译的BLEU-4值分别为30.62和37.00。这表明,借助其他已翻译文献,并辅以少量目标领域文献的高质量人工翻译数据,可以有效提升西夏文机器翻译性能,使其在实际应用中具备可行性。

4.与少样本学习方法的对比

为了阐明微调的必要性,采用少样本学习的方法对目前综合性能表现优异的ChatGPT-4o、DeepSeek-V3和Gemini-2.0-Flash进行了实验。对译提示词采用DictSingle,意译提示词采用DictSingle+PromptCoT。随机从《三代相照文集》训练集中抽取5条样本作为示例输入模型,并使用《三代相照文集》测试集。基于三个模型的输出计算BLEU-4值,实验结果汇总于表9。

图22.png 

表9 与少样本学习方法的性能比较

实验结果表明,无论是自动对译还是自动意译,本文提出的模型得分均显著高于少样本学习方法下的ChatGPT-4o、DeepSeek-V3和Gemini-2.0-Flash。这表明,通用模型由于其训练数据中缺乏面向本研究任务的相关内容,生成能力难以满足西夏文对译与意译任务的需求。而通过微调,我们显著提升了模型在特定任务上的适应能力,使得自动对译和意译的质量大幅提高。基于上述对比结果,可以进一步验证微调策略的有效性和必要性。

5.机器翻译质量分析

为了直观展示自动对译和自动意译效果,现分别选取典型示例进行分析,结果如表10、表11所示:

图23.png 

表10 西夏文自动对译结果示例

图24.png 

表11 西夏文自动意译结果示例

表10所示为简单句和复杂句的自动对译示例。分析结果显示,对于简单句翻译,模型能够精确捕捉源语言的语义信息并实现准确转换;对于复杂句翻译,尽管机器翻译输出与参考译文在局部表达方式上存在细微差异,但整体上仍然保持了较高的语义完整性和表达准确度。这表明本研究所提出的模型在处理不同语言复杂度的翻译任务时具有良好的鲁棒性。表11呈现了自动意译示例,其中标准对译中的省略内容以“△”符号表示。自动意译时,模型能够有效识别并补充这些隐含信息,从而生成更完整的译文。



    四、西夏文OCR与机器翻译的协同机制探索


西夏文OCR和机器翻译技术分别在图像数字化和语义理解方面发挥着重要作用。然而,这两种技术并非独立运行,在西夏文数字化研究中,它们实际上是一种相辅相成的协同关系。首先,西夏文OCR和机器翻译存在工作流程上的先后关系。OCR是将西夏文文献转化为机器可识别文本的第一步,为后续处理如机器翻译提供了基础。然而由于数据缺乏,现有OCR技术获得的文本不可避免存在识别错误的问题。而OCR的准确性对机器翻译结果的质量至关重要。如果OCR结果出现大量错误字符,可能直接导致文本语义不完整或错误,从而令后续的机器翻译失去实际效用。但是从另一个角度来看,机器翻译可以看作是OCR输出文本理解的一种延伸。翻译结果在揭示文本语义信息的同时也为识别过程中产生的错误提供了一种检查和纠错的可能,进而可以形成反馈循环。具体而言,可以从这几个角度着手:

第一,OCR错误可分为以下两类:1.字符丢失或冗余:由于文本噪声可能出现字符的缺失或冗余。文字检测模块的能力通常较强,这种错误出现较少。2.字符识别类:西夏文字形相近字符之间易被混淆。这两类问题都可能造成对语法结构的破坏或词语层级的翻译错误。这也提示我们可以通过洞察翻译结果中的这些错误对OCR结果进行验证。

第二,相当数量的西夏文典籍有汉文对读文献,但是目前只有很少一部分进行了对齐工作。可以使用OCR识别后机器翻译的文本和汉文对读文本进行相似度的计算,进而实现对齐工作,逐步丰富西夏文平行语料库。基于平行语料库,不但可以对相似度较低的语句进行复核,判断OCR结果是否出错,也可以参照汉文文本辅助西夏文字的释读,比如给出语义匹配的可能字符建议。

第三,随着深度学习和多模态大模型技术的发展,OCR和机器翻译的结合研究将有广阔的发展前景。现有多模态模型已经可以实现输入一张图片,同时输出OCR文本和翻译结果。将两者结合到一个统一的深度学习框架中,有望利用大语言模型强大的语义推理能力实现协同优化。



    五、总结与展望


本文针对低资源场景下西夏文信息处理的挑战,分别在西夏文OCR和机器翻译两项关键任务上提出了解决方案。在西夏文OCR任务中,本研究利用字体生成技术构建了大规模西夏文字符图像数据集,并基于EVA-02预训练视觉模型实现了Unicode9.0西夏文全字符集识别。在仅使用500张真实标注图片的情况下,该模型取得了83.1%的字符识别准确率。在西夏文—汉语机器翻译任务中,本研究基于生成式大语言模型,结合辞书专业知识,通过提示词工程构建了西夏文—汉语对译和意译模型。即使在平行语料资源有限的情况下,该模型也取得了令人鼓舞的翻译结果。本研究为西夏文献的数字化和解读提供了新的技术手段,并对其他低资源文字和语言的研究具有借鉴意义。

本研究仍存在一些局限。在OCR任务方面,由于标注数据规模较小,识别准确率仍低于使用100,000张图片训练的CNN方法。在机器翻译任务方面,目前的翻译模型主要依赖于《简明夏汉字典》提供的单字释义和有限的句对齐数据,西夏文—汉语平行语料库规模也相对较小,未来需要进一步扩充相关资源。此外,本研究也期望以此为基础,探索西夏文OCR和机器翻译结合的路径,同时开展更多关于西夏文信息检索、知识挖掘、知识图谱构建等方面的研究,为推动西夏学等“绝学”冷门学科发展,为推进中华优秀传统文化的传承与发展贡献力量。



    附录


西夏文机器对译封闭测试情况

西夏文:图25.png

标准对译:盛衰孰知何长短,名利实虚不殆谓。

机器对译:盛忍谁知何长短,名利实虚不怠谓。

西夏文:图26.png

标准对译:菩提道上山关无,般若眼内翳何熏。

机器对译:报日道上山关无,瞿昙眼内翳何熏。

西夏文:图27.png

标准对译:家宅宝钱九亲及,禄福于至弃毁者。

机器对译:家宅宝财九亲及,禄福上至弃毁者。

西夏文:图28.png

标准对译:性喜旱因多乃说,△降皆惧毁。

机器对译:性爱旱因多乃说,△雨皆消毁。

西夏文:图29.png

标准对译:若复实不说,一时名利思。

机器对译:若复实不说,一时名利想。

西夏文机器对译开放测试情况

西夏文:图30.png

标准对译:凡君子者,他利故已不忘,不学者无;

机器对译:夫子者,他利为己不忘,不学者,则无;

西夏文:图31.png

标准对译:己利故他不绝,不教亦无。

机器对译:自利依他不舍,不教亦无。

西夏文:图32.png

标准对译:金真铃铎云如布

机器对译:金真铃铎云如偈

西夏文:图33.png

标准对译:宝枝杂布严好为

机器对译:宝支杂行长卷为

西夏文:图34.png

标准对译:宝王间错严饰为

机器对译:宝王混行金刚为

西夏文机器意译封闭测试情况

西夏文:图35.png

标准意译:盛衰孰知何短长?名利实虚不懈怠。

机器意译:盛忍孰知何长短?名利实虚不怠谓。

西夏文:图36.png

标准意译:菩提道上无山险,般若眼内无翳熏。

机器意译:报日道上无关山,瞿昙眼内翳熏何。

西夏文:图37.png

标准意译:家宅宝财和九亲,上至福禄均毁弃。

机器意译:家宅宝财及九亲,福禄至弃毁家宅。

西夏文:图38.png

标准意译:因大旱多言性喜,降雨皆惧毁。

机器意译:性爱旱依多乃说,而雨皆毁坏。

西夏文:图39.png

标准意译:若复不实说,一时名利思。

机器意译:若复不说实,一时名利想。

西夏文机器意译开放测试情况

西夏文:图40.png

标准意译:凡君子者,利他故不忘己,无不学者;

机器意译:凡君子者,于他利故,己忘不忘,不学者无;

西夏文:图41.png

标准意译:利己故不绝他,亦无不教。

机器意译:为利自己故不断他,亦不施教。

西夏文:图42.png

标准意译:真金铃铎如云布

机器意译:真金铃铎如云布

西夏文:图43.png

标准意译:宝枝杂布为严好

机器意译:宝枝杂布好严密

西夏文:图44.png

标准意译:宝王间错为严饰

机器意译:宝王间错严饰为


Research on OCR and Machine Translation for Tangut Script under Low-Resource Conditions

Zheng Yuxi, Zhou Ziming, Zhang Yongwei, Sun Bojun, Qiao Wanxin, Hou Junming, Yu Jingsong

Abstract: The Tangut script is a crucial medium for studying the history and culture of the Western Xia dynasty. However, due to its unique glyph structure and a scarcity of researchers, its decipherment and research face numerous challenges. The development of artificial intelligence technology offers a new avenue to overcome this predicament, but it is still limited by the current scarcity of annotated data. This study focuses on two tasks: Tangut script OCR and machine translation under low-resource conditions. In the OCR task, training data was generated using font generation techniques, achieving an accuracy of 83.1% using only 500 real annotated images. In the machine translation task, by combining large language models and Tangut dictionary knowledge, both literal and interpretive translation from Tangut to Chinese was achieved. Experimental results show that relying on merely hundreds of sentence-aligned Tangut-Chinese sentence pairs, the model can demonstrate strong performance in both tasks.

Keywords: Tangut script; Low-resource; Optical Character Recognition; Machine Translation


辑|程宁

本研究受到中国社会科学院学科建设“登峰战略”资助计划(DF2023TS05)、中国社会科学院语言学重点实验室(2024SYZH001)、教育部人文社会科学重点研究基地重大项目“面向上古汉语知识库的出土文献词汇语法研究”(22JJD740003)的资助。“古今文字集成”网站站长提供了宝贵意见,于此谨致谢忱。


向上滑动 查看注释


[1]孙伯君:《西夏文献研究的现状和未来》,《西南民族大学学报(人文社会科学版)》2023年第1期。

[2]柳长青:《西夏文数字化研究》,广州:中山大学出版社,2022年,第17—18页。

[3]孔祥辉:《语料库视域下西夏语料库建设及研究》,《西北民族研究》2018年第4期。

[4]Yifei Meng et al., “Synthetic sample extension in implementation of tangut character databases,”Automatic Control and Computer Sciences, vol. 52, 2018, pp. 334-343.模型。

[5]史金波:《西夏学概说》,《西夏学》2006年第1期。

[6]柳长青:《西夏文计算机数字化现状与展望》,《西夏学》2011年第1期。

[7]柳长青:《在线夏汉电子字典的设计与实现》,《宁夏大学学报(自然科学版)》2011年第4期。

[8]叶建雄等:《西夏音韵数据库及其安卓平台拓展》,《西夏学》2013年第1期。

[9]孔祥辉:《语料库视域下西夏语料库建设及研究》,《西北民族研究》2018年第4期。

[10]孙伯君:《西夏文献研究的现状和未来》,《西南民族大学学报(人文社会科学版)》2023年第1期。

[11]Mingyu Liu et al., “Few-shot unsupervised image-to-image translation,” Proceedings of the IEEE/CVF international conference on computer vision, 2019, pp. 10551-10560.

[12]Junbum Cha et al., “Few-shot compositional font generation with dual memory,” Proceedings of the 16th European Conference on Computer Vision, 2020, pp. 735-751; Park Song et al., “Few-shot font generation with localized style representations and factorization,” Proceedings of the AAAI conference on artificial intelligence, vol. 35, no. 3, 2021, pp. 2393-2402; Park Song et al., “Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts,” 2021, https://arxiv.org/abs/2104.00887, accessed on October 1, 2024.

[13]Yuxin Kong et al., “Look closer to supervise better: One-shot font generation via component-based discriminator,” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022,pp. 13482-13491.

[14]马金林等:《西夏文字识别方法综述》,《华中科技大学学报(自然科学版)》2024年第11期。

[15]Yifei Meng et al., “Hough transform with guidance of endpoints for the purpose of tangut character recognition,” Proceedings of the International MultiConference of Engineers and Computer Scientists, 2018, pp. 958-966.

[16]柳长青:《基于Level Set方法的西夏字轮廓提取》,《中文信息学报》2009年第4期。

[17]刘兴长等:《基于HOG特征提取和模糊支持向量机的西夏文字识别》,《西北师范大学学报(自然科学版)》2019年第5期。

[18]Guangwei Zhang et al., “Deep learning based tangut character recognition,” Proceedings of the 4th International Conference on Systems and Informatics, 2017, pp. 437-441; Guangwei Zhang et al., “Learning radicals from tangut characters,” Proceedings of the 5th International Conference on Systems and Informatics, 2018, pp. 373-378.

[19]张光伟:《基于深度学习的西夏文献数字化》,《西夏学》2020年第2期。

[20]Alexey Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” 2020, https://arxiv.org/abs/2010.11929, accessed on October 1, 2024.

[21]Minghao Li et al., “Trocr: Transformer-based optical character recognition with pre-trained models,”Proceedings of the AAAI Conference on Artificial Intelligence, vol. 37, no. 11, 2023, pp. 13094-13102.

[22]Yuxin Fang et al., “Eva-02: A visual representation for neon genesis,” Image and Vision Computing, vol.149, 2024, pp. 105-171.

[23]Ilya Sutskever et al., “Sequence to Sequence Learning with Neural Networks,” 2014, https://arxiv.org/abs/1409.3215, accessed on October 1, 2024.

[24]Ashish Vaswani et al., “Attention is all you need,” Advances in Neural Information Processing Systems,2017, https://arxiv.org/abs/1706.03762, accessed on October 1, 2024.

[25]Zoph Barret et al., “Transfer Learning for Low-Resource Neural Machine Translation,” 2016, https://arxiv.org/abs/1604.02201, accessed on October 1, 2024.

[26]Tom B. Brown et al., “Language Models are Few-Shot Learners,” 2020, https://arxiv.org/abs/2005.14165, accessed on October 1, 2024.

[27]Wenxiang Jiao et al., “Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine,” 2023, https://arxiv.org/abs/2301.08745v4, accessed on October 1, 2024.

[28]Stüssi Elina et al., “Part-of-Speech Tagging of 16th-Century Latin with GPT,” Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, 2024, pp.196-206.

[29]Kaiwen Lu et al., “Low-Resource Language Expansion and Translation Capacity Enhancement for LLM: A Study on the Uyghur,” Proceedings of the 31st International Conference on Computational Linguistics, 2025, pp. 8360-8373.

[30]Ammar Waleed et al., “Massively multilingual word embeddings,” 2016, https://arxiv.org/abs/1602.01925, accessed on October 1, 2024.

[31]Zoph Barret et al., “Transfer learning for low-resource neural machine translation,” 2016, https://arxiv.org/abs/1604.02201, accessed on October 1, 2024.

[32]Jason Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” Advances in Neural Information Processing Systems, vol. 35, 2022, pp. 24824-24837.

[33]Yaqing Wang et al., “Generalizing From a Few Examples: A Survey on Few-Shot Learning,” ACM Computing Surveys, vol. 53, no. 3, 2020, pp. 1-34.

[34]Park Song et al., “Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts,” 2021, https://arxiv.org/abs/2104.00887, accessed on October 1, 2024.

[35]西夏银川体从 https://www.babelstone.co.uk/Fonts/Yinchuan.html下载,版权归属北方民族大学中华民族共同体学院景永时教授。

[36]Canjie Luo et al., “Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp.13743-13752.

[37]孟一飞:《西夏文字数字信息化若干问题研究》,博士学位论文,北京交通大学,2019 年,第55页。

[38]Guangwei Zhang et al., “Deep learning based tangut character recognition,” Proceedings of the 2017 4th International Conference on Systems and Informatics, 2017, pp. 437-441.

[39]示例引自孙伯君:《元代白云宗西夏文资料汇释与研究》,北京:中国社会科学出版社,2022年,第219页。

[40]李范文编著:《简明夏汉字典》,北京:中国社会科学出版社,2012年。

[41]对译和意译句对齐数据整理自孙伯君:《元代白云宗西夏文资料汇释与研究》,第161—296页。

[42]日语译文和汉语译文整理自荒川慎太郎:「プリンストン大学所蔵西夏文華厳経巻七十七訳注」,『アジア・アフリカ言語文化研究』第81号,2011年。整理后的数据可访问https://github.com/yuzicx/Xixia-Script-Aligned-Corpus下载。

[43]详细过程见张煜妍:《古汉语大模型的研究与设计》,硕士学位论文,北京大学,2024年。同该论文相比,本文使用了参数规模更大的Qwen1.5-14B模型。

[44]直接意译策略提示词的核心指令为“根据候选词构造西夏文的意译:”。

[45]Papineni Kishore et al. “Bleu: a method for automatic evaluation of machine translation,” Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002, pp. 311-318.


点击下方链接,下载原文


低资源条件下的西夏文OCR与机器翻译研究.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg

阅读原文

跳转微信打开

  •  

大语言模型古诗文自动笺注性能评测研究

原创 吴夏平 王钊江等 2025-12-10 10:11 北京

随着大语言模型(LLM)技术的快速发展和广泛应用,基于大语言模型的古诗文自动笺注展现出巨大的应用潜力。

实体·笺注·翻译



封面.png

吴夏平/上海师范大学人文学院

王钊江/上海师范大学人文学院

戴 维/上海师范大学人文学院


要:随着大语言模型(LLM)技术的快速发展和广泛应用,基于大语言模型的古诗文自动笺注展现出巨大的应用潜力。然而,迄今为止,尚缺乏对大语言模型在古诗文自动笺注任务中实际性能的系统性研究和科学评测。为此,本课题组对国内外综合能力较强的6个通用大语言模型在古诗文自动笺注任务中的表现进行了全面评估。首先,从四家出版社的古诗文笺注著作中选取2,529条笺注作为评测数据中的参考笺注,并使用提示词模板调用不同大语言模型的API生成自动笺注内容。其次,综合使用自动评估、模型评估和人工评估对不同大语言模型的古诗文自动笺注性能进行评测。评测结果显示,模型自动笺注内容与专家笺注在语言风格和注释体例上存在较大差异。其中,最新发布的DeepSeek-V3模型在古诗文笺注任务中的综合性能优于其他5个大语言模型,但其优势并不显著。因此,目前通用大语言模型仍无法直接应用于古诗文自动笺注任务,需要结合不同笺注类型的特点,从数据、算法和工程三方面对通用大语言模型进行针对性优化和改进。评测数据和结果可以通过以下链接获取:https://github.com/1602353775/Evaluation-of-LLM-based-Annotation。

关键词:大语言模型 古诗文 自动笺注 评测



一、引言


“笺注”是一种对文本进行解释的方式,其中“笺”着重于对前人作品深入地阐明、补充与订正,挖掘文本内涵;“注”则是针对字词句的读音、意义、语法、句式以及文化背景、历史典故等方面内容的解释;二者相互配合,共同构成了完整的注释体系。而古诗文笺注,则是将这种笺注方式运用到古诗文领域。通过对古诗文的字词、语句详细阐释,揭示其背后的文化、历史背景以及作者的创作意图等,为读者搭建理解古诗文深邃内涵的桥梁。古诗文笺注作为古代文学研究的重要组成部分,通过对诗词文句的详细注释,为读者提供理解古代文学作品的关键线索,不仅有助于读者把握作品的字面意义,更能深入挖掘其背后的文化内涵、历史背景和艺术价值。在古代文学研究领域,笺注是解读经典、传承文化的重要手段,同时也为文学批评、历史研究等相关领域提供丰富的素材和坚实的基础。

随着大语言模型(LLM)技术的快速发展与广泛应用,古诗文自动笺注技术应运而生。与传统的专家笺注相比,自动笺注技术具有高效、快速处理大规模文本的优势,能够在短时间内为大量古诗文提供初步的注释,为读者提供便捷的阅读辅助。然而,其不足之处也较为明显。由于模型训练数据和算法的限制,自动笺注在专业性、准确性、深度和灵活性等方面难以与专家笺注相媲美。例如,在处理具有复杂文化背景和多重含义的典故时,自动笺注可能出现误解或解释不充分的情况。尽管存在不足,古诗文自动笺注技术仍具有较大的发展潜力。为推动该技术的进步,系统、科学地测试和评估工作至关重要。通过对不同大语言模型在古诗文自动笺注任务中的性能评估,可以深入了解不同模型的优势和不足,为技术改进提供明确的方向,不仅有助于优化现有模型,提高其注释的准确性和可靠性,还能促进算法和模型结构的研发,推动古诗文自动笺注技术朝着更加智能化、精准化的方向发展。

本文的主要贡献包括以下几点:

(1)构建评测数据集:从四家出版社的古典文学丛书中精心选取多种文体类型,包括251篇古诗文及2,529条笺注作为评测数据,通过严格的数据处理流程,确保了数据的质量和代表性,为后续模型评估提供了坚实的数据基础。

(2)提出全面评估方法:综合运用自动评估、模型评估和人工评估三种方法,从多个角度对大语言模型的古诗文自动笺注性能进行评估,不仅考虑了模型生成注释与专家笺注的重叠度和语义相似度,还结合了研究人员对注释准确性、完整性和深度的判断,从而更全面、客观地评价模型性能。

(3)深入分析错误类型:对评估结果中的错误进行详细分类和深入剖析,涵盖了指令跟随错误、评估偏差、人名错误、地名错误、日期时间错误、典故错误、典章制度错误和生僻字词释义错误等多个方面,揭示了大语言模型在不同注释任务中的难点和问题根源,为改进策略提供有力依据。

(4)提出改进策略:基于错误分析结果,从指令精细化、领域特定预训练、多模态知识集成、历史文化知识库融合、人机协作审核以及时间信息处理等多个维度提出了六项有针对性的改进策略,为提升大模型在古诗文自动笺注任务中的性能提供了切实可行的技术方案,有望推动该领域技术的进一步发展。


二、相关工作


(一)古诗文自动笺注研究

古诗文自动笺注是指利用计算机技术和自然语言处理算法,对古诗文中字词句的读音、意义、语法,以及文中涉及的文化背景、历史典故、创作意图等内容进行自动化注释和说明。目前主要通过两种方式实现古诗文的自动笺注。第一种方法是基于知识库的古诗文自动笺注。例如,搜韵网结合专名词典、《汉语大词典》、《国语辞典》等词典知识,实现诗歌词汇和典故的自动笺注;古诗词网通过检索的方式从《汉语大词典》和《国语辞典》中获取对应词汇和单字的释义信息。[1]这些网站中提供的古诗文自动或半自动笺注功能促进了古诗文的大众化传播。然而,基于知识库的自动笺注方式存在一些明显的不足,如知识库覆盖范围有限、缺乏对语境的深度理解、缺乏语义关联理解、更新不及时等。第二种方法是基于大语言模型的古诗文自动笺注。例如,识典古籍平台通过内置模型可以实现古诗文自动笺注。识典古籍平台的古诗文自动笺注功能主要通过以下流程实现:首先通过提示词模板或问答窗口搜集用户提问和意图;其次进入意图识别阶段,平台充分运用原文上下文、书目信息以及译文等相关素材,对用户的意图进行精确分析和判断;再次是检索指令阶段,平台依靠全文检索、语义检索、字典查询和百科查询等多样化的检索方法搜索与用户问题相关的内容;最后是返回结果阶段,平台借助豆包大语言模型来理解文本,并生成相应的解答内容,以此减少不准确信息的出现,进而实现古诗文字词句的自动化注释。而AI太炎则专注于古汉语文本理解,支持古诗文笺注任务中的字词释义和用典分析。[2]与第一种方法相比,基于大语言模型的古诗文自动笺注能够充分运用原文上下文、书目信息以及译文等素材,对用户意图进行精确分析和判断,从而生成更符合用户需求的笺注内容。

(二)大语言模型评估方法研究

自动评估和人工评估是目前最常见的两种模型评估方法。当评估标准能够自动计算时,采用自动评估;否则,则需进行人工评估。自动评估通常使用标准指标和评估工具来评估模型性能。与人工评估相比,自动评估不需要密集的人工参与,不仅节省时间,还减少了人为主观因素的影响,使评测过程更加标准化。[3]其中准确性、校准程度、公平性和鲁棒性是自动评估的主要指标。准确性是衡量模型在特定任务上正确性的指标,准确性的概念在不同场景中可能有所不同,并且取决于特定的任务和问题定义。它可以使用各种指标进行衡量,例如精确匹配(Exact Match)、F1分数和ROUGE分数。校准(Calibration)是指模型输出的置信度水平与实际预测准确性之间的一致程度。预期校准误差(ECE)和选择性准确率与覆盖率曲线下面积(AUC)是评估模型校准性能的常用指标。公平性是指模型是否一致地对待不同的群体,即模型在不同群体中的表现是否相等。鲁棒性用于评估模型在面对各种具有挑战性的输入时的性能,包括对抗性攻击、数据分布变化、噪声等。

人工评估是一种通过人工参与来评估模型生成结果质量和准确性的方法。与自动评估相比,人工评估更贴近实际应用场景,能够提供更全面、更准确的反馈。以开放式生成任务为例,此类任务的特性决定了单纯依赖嵌入相似度指标(例如BERTScore)无法全面、精准地衡量任务完成质量,此时人工评估凭借其主观判断的综合性与灵活性,能够提供更为可靠且贴合实际应用需求的评估结果。尽管部分生成任务能够运用特定的自动评估协议进行初步的量化分析,但生成任务具有无限的可能性,其生成结果往往存在超越预设标准答案的潜力。在这些任务场景中,人工评估能够从语义连贯性、逻辑合理性、内容丰富度以及创新性等多个维度对生成内容进行综合评估。同时由于文化和个体差异,人工评估也可能存在较大的差异和不稳定性。因此在实际应用中,这两种评估方法需要根据实际情况综合考虑和权衡。[4]古诗文自动笺注任务在一定程度上属于开放式生成任务,模型能够根据用户的不同需求生成不同语言风格和详略程度的笺注内容。

在主观性较强的评估任务中,人工评估通常被认为是黄金标准,然而这种方法速度较慢且成本较高。为了解决这一问题,一些研究者尝试使用模型本身作为评估工具(LLM-as-a-Judge)。由于模型能够模拟人类的推理和决策过程。这一能力使得模型能够担任传统上由人类专家担任的角色,提供一种具有成本效益且可扩展的替代方案。模型评估既不同于人工评估,也不同于传统的自动化方法,具有可扩展性、高效性和适应性等显著优势。同时模型具有处理多样化输入类型的灵活性,包括文本、半结构化数据和多模态内容,使得评估能够将定性洞察与定量严谨性相结合。这种与人类判断对齐的适应性使得模型在复杂的、情境感知的评估中超越了传统度量的局限性。顾嘉炜等对模型评估做了正式定义,并将实施模型评估的不同基本方法分为上下文学习(In-Context Learning)、模型选择(Model Selection)、后处理方法(Post-processing)和评估管道(Evaluation Pipeline)四类。在上下文学习中通过提示设计和输入设计让大模型输出评估结果,在提示设计方面,可以采用生成分数、回答是/否(真/假)问题、执行成对比较和多项选择四种方法。[5]评估模型主要选择通用大模型或经过微调的、专门用于评估的大语言模型,而微调后的评估模型有时能够达到与GPT-4相媲美的评估能力。[6]后处理用于精炼模型评估生成的概率分布,以提供准确的评估结果。目前模型评估主要用于模型、数据和代理三个管道中。李海涛等也对模型评估做了系统定义,并从功能、方法论、应用、元评估以及局限性五个方面进行了更全面的综述。[7]在应用方面,模型评估已被广泛应用于对话生成、开放式问答、摘要和翻译等通用领域的评估,以及医疗、法律、金融、教育和信息检索等特定领域评估。李大伟等则从输入和输出两个角度对模型评估进行了详细定义,并从评判什么、如何评判以及在哪里评判三个维度进行了深入探讨。[8]尽管模型评估具有巨大的潜力,但仍存在几个重要限制,可能影响其有效性、可靠性和公正性。目前,模型评估面临的主要挑战包括:可靠性问题,如数据偏见、过度自信和公平性问题;鲁棒性问题,如易受攻击和输出不一致;以及对更强大骨干模型的需求。尤其是,大语言模型本身存在知识时效性、幻觉现象以及领域特定知识空白等固有缺陷,这些问题限制了其在实际应用中的表现。[9]其次,无论是人工评估还是模型评估都有可能存在一定偏见,陈桂明等经过一系列实验发现所有评判者都不同程度地存在错误信息忽视偏见、性别偏见、权威偏见和美貌偏见;而人类评判者几乎没有性别偏见,但存在显著的错误信息偏见和美貌偏见。这些偏见在自然语言生成(NLG)评估中至关重要。[10]另外,在一些特殊的专业领域中,安娜丽萨·希曼斯基(Annalisa Szymanski)等发现专家评估结果和模型评估结果的一致性程度相对较低。[11]这表明,尽管模型评估可以作为人工评估的一种替代方案,但人类评估,尤其是专家评估,仍在某些特定的大语言模型评估任务中发挥着不可忽视的重要作用。

(三)大语言模型特定任务评测研究

为了评估大语言模型的综合能力,已公布和开源了大量评估基准。这些评估基准可以从不同维度对大语言模型的各项能力进行综合评估。然而,随着通用大语言模型和垂直领域大模型的快速发展,需要在更多的应用场景和任务上对模型进行评测。因此一些研究开始关注模型在某个领域或某几个特定任务中的具体性能,并使用针对性的数据集和评估方法对模型进行细粒度评估。[12]大语言模型特定领域评估是对模型在某个领域中多项任务和多种能力的评估,主要是对现有评估基准的补充和扩展。而特定任务评测主要从应用层面出发,关注模型在某一具体任务上的性能表现。其目标是衡量模型在特定应用场景中的实际效果,从而为模型部署提供指导和参考。曹家欢等通过构建WenMind测试基准,对31个具有代表性的大语言模型在中国古典文学和语言艺术领域中的性能进行了全面评估。[13]赵志枭等选取7个人文社科领域相关的评测任务,从人文社科领域基础知识与人文社科学术文本两个方面对人文社科领域模型性能进行评测。[14]赵雪等对16个热门大语言模型在5个典型语言处理任务上的表现做了详细测评。[15]大语言模型在特定领域多项任务中的测评结果可以反映模型在某个领域的综合性能。因此特定领域大语言模型评测结果可以为不同领域从业人员的模型选择提供一定的建议和参考。为了满足大语言模型的实际应用需求,部分研究只对它的某项能力进行测评,通常这类测评会综合使用多种评估方法来保证评测结果的科学性和准确性。例如,相关研究者对不同模型的情商[16]、语用能力[17]、中文文本简化能力[18]、中文语体能力[19]、话语关系理解能力[20]和教育提问能力[21]进行了详细评测。尽管现有的大语言模型特定任务和能力评测研究在评估模型特定应用场景中的表现和适应性方面具有重要意义,但部分研究仍存在评估方法单一、评测基准存在污染、未充分考虑领域内细粒度差异,以及缺乏针对性优化等问题。



三、评测数据


(一)数据来源

为了对不同大语言模型在古诗文自动笺注任务中的性能表现进行系统性评测,本研究构建了一个多源异构的评测数据集。评测数据主要从中华书局《中国古典文学基本丛书》和《中华国学文库》、上海古籍出版社《中国古典文学丛书》、巴蜀书社、文津出版社四家出版机构的经典古典文学丛书中选取。数据集涵盖了诗、词、文三种文体类型,共选取251篇古诗文中的2,529条笺注作为测试和评估数据。所选古诗文时间跨度广泛,涉及东晋、唐、宋、明、清等多个历史时期,确保了数据集的代表性和多样性。评测数据的具体统计信息如表1所示。

图1.png 表1 评测数据类型、来源和数量统计[22][23][24][25][26][27][28][29][30][31]

abcdefghij

在评测数据集构建过程中,首先从中华经典古籍库中提取数据,并使用开源OCR工具识别扫描版PDF书籍,以获得原始TXT文本。接着通过使用提示词调用ChatGPT-4o对原始文本进行格式化处理,原始TXT文本被转换为固定格式的JSON文件。使用大语言模型进行格式化处理时可以自动识别原始文本中的注释对象和注释内容,节省了大量手动处理操作。初步统计结果显示,评测数据中的笺注对象主要包括人名、地名、典章制度、典故、神话传说、动物、植物、生僻字词等类型。为了对评测数据集中所有笺注对象所属类别进行统计,首先预定义可能的二级分类,然后通过API调用三个大语言模型(Doubao-pro-128K、GPT-4o-2024-11-20、Qwen2.5-72B-instruct)对每条注释对象及专家笺注内容进行二级分类。具体的数据集构建流程如图1所示。

(二)数据分类和统计

在预定义的二级分类体系基础上,本研究采用三个大语言模型对评测数据集中的笺注对象进行自动分类。为确保分类过程的灵活性和全面性,我们在提示词中明确要求模型不应局限于预定义的类别范围,允许其基于语义理解自主判断并扩展分类结果。同时,我们强制规定模型的输出格式为“一级分类:二级分类;一级分类:二级分类”,例如:“杜郎”所属注释类型为“人名:历史人物”,“胡马窥江”所属注释类型为“典故:历史事件”。对于可划分到多个类别的笺注,要求模型使用分号分隔多种分类结果,并明确限定每个注释对象最多输出两项分类结果,以控制输出数量。

图2.png 图1 大语言模型辅助评测数据集构建流程

在获得三个模型的分类结果后,我们进一步采用GPT-4o-2024-11-20模型对这些结果进行综合分析与评估,并通过投票机制确定最终分类结果。为有效克服模型在投票环节可能出现的模型偏好及顺序偏好问题,我们将不同模型映射为独立ID(LLM_1、LLM_2、LLM_3),并对三个模型的分类结果实施随机排序操作。这一设计保障了投票与分类流程的公平性、客观性与可靠性,从而确保研究结果的科学性和有效性。在GPT-4o-2024-11-20输出笺注对象的分类结果后,我们通过人工审查的方式对分类结果进行二次修正(格式化分类结果)和去重(合并相关项和重复项)。经过对笺注数据的最终分类结果统计分析,发现数据集中注释对象最多的一级分类依次为“其他”“地名”“典故”“人名”“典章制度”和“神话传说”。详细的统计数据和分布特征请参见表2与图2,所有二级分类均按统计量从高到低进行降序排列。

图3.png 表2 笺注对象分类和统计


图4.png

 图2 笺注对象二级分类和统计

图5.png 图3 不同学者和数据源的古诗文笺注内容长度统计

图6.png 图4 不同类别的古诗文笺注内容长度统计

此外,本研究通过箱线图直观呈现了古诗文笺注注释长度的分布特征:图3展示了不同学者的注释长度分布,图4则呈现了不同类别笺注的注释长度分布,两者均包含了均值、中位数及上下四分位数等关键统计量。可视化分析结果表明,不同学者间以及不同笺注类别间的注释长度分布均存在显著差异,这种差异性在箱线图中得到了清晰的体现。其中“岑嘉州诗”和“苏轼文”注释长度的均值和中位数均显著高于其他古诗文笺注,且注释长度的分布范围明显更宽,并显示出更多的长尾现象和异常值。相对而言,“李白文”和“姜白石词”的笺注长度整体偏短,四分位间距最小,注释分布更为集中。统计结果显示不同学者在古诗文笺注的注释长度分布上呈现出显著差异,这种差异主要源于学者个体的注释方法与学术习惯。在各类笺注对象中,典故、典章制度及人名三类注释的均值和中位数均显著高于其他类型,这表明此类注释通常需要更为详尽的文本阐释。而动植物、服饰、器物和古代生僻字词的注释长度普遍较短,一般结合大型辞典即可完成注释。


四、评测方法


(一)笺注生成

参考中文通用大模型综合性能测评基准SuperCLUE[32],本研究选取ChatGPT-4o-latest、Gemini-1.5-pro、Doubao-pro-128K、Moonshot-V1-32K、Qwen2.5-72B-instruct、DeepSeek-V3,6个通用大语言模型参与本次测评。这些模型在主流评测任务排行榜中均位居前列,且是各领域从业人员使用频率较高的几个大模型。因此,对这6个大模型的古诗文自动笺注性能进行全面测评可以为文学领域大语言模型训练与开发提供参考基准,同时为基于强大语言模型的二次应用开发提供指导。表3列出了参与评测的6个大语言模型的详细信息,包括模型支持的上下文长度、计费方式和开发机构。

为了使不同的大语言模型在进行自动笺注时能够充分考虑古诗文的上下文信息,每次调用API时,在提示词模板中同时输入古诗文的标题、作者、原文以及待笺注的字词、短语或句子。同时,通过在提示词中显式定义系统角色为“古诗文专家”,以强化模型的专业性。由于古诗文的专家笺注中不仅包含对注释对象的基本释义,还会援引历代古籍文献中的相关记载作为佐证。因此,通过特定提示词进一步引导大语言模型在古诗文笺注任务中模拟人类专家的笺注范式。基于大语言模型的古诗文自动笺注的具体流程如图5所示。 

图7.png 表3 参与评测的大语言模型相关信息

图8.png 图5 大语言模型古诗文自动笺注生成

(二)自动评估

以专家笺注内容为参考笺注,本研究选取ROUGE[33](ROUGE-1、ROUGE-2、ROUGE-L)和BERTScore-F1[34]两个自动评估指标对六个通用大语言模型的古诗文自动笺注内容进行评估。ROUGE是一类广泛应用于自动文本生成任务中的评估指标,尤其在摘要和机器翻译领域得到了广泛应用。ROUGE通过计算生成文本与参考文本之间的重叠度,评估生成内容的质量。BERTScore-F1是一种基于深度学习预训练语言模型的自动评估方法,它通过计算生成文本与参考文本之间的语义相似度来评估文本质量。与ROUGE不同,BERTScore不依赖于表面的词汇重叠,而是通过将文本中的每个词转化为向量表示,再利用这些向量的余弦相似度来度量语义的相似性。BERTScore的优点在于它能够捕捉更为细致的语义信息,因此比ROUGE更能反映生成文本在语义层面的质量。尤其在处理具有复杂语义或深厚文化背景的古诗文时,BERTScore能够更好地评估生成文本的准确性和合理性。本文选用开源项目[35]中的BERT-base-chinese(num_layers=12,F1_baseline=0.5599188)预训练模型计算大语言模型生成笺注与参考笺注之间的相似度。

(三)模型评估

为了对不同大语言模型的古诗文自动笺注内容进行更全面的评估。本文选取DeepSeek-V3和Qwen2.5-72B-instruct两个综合实力相对较强的大语言模型对其自动笺注结果进行评估。为了减少评估复杂度,通过让模型执行成对比较的方式对自动笺注内容与专家笺注内容的一致性进行评价。比较结果分为注释错误、部分一致、基本一致和完全一致四种类型。与基于大语言模型的古诗文注释对象自动分类类似,我们在提示词中设置模型扮演注释评估专家的角色,并为不同的模型分配独立的ID,同时对不同模型的注释结果进行随机排序。为了深入理解模型的决策过程和方便后期审查,在提示词中插入:如果评估结果为“注释错误”或“部分一致”,请提供具体的原因和解释。图6为基于大语言模型的自动笺注评测方法的具体实现流程,包括提示词设计和评测的输入输出设计。

图9.png 图6 基于大语言模型的古诗文自动笺注评估

(四)人工评估

由于古诗文自动笺注是为了方便古诗文的阅读和理解,因此需要进一步对基于大语言模型的古诗文笺注内容进行人工评估。为了减少人工评估成本,本研究采用分层抽样策略,只对笺注对象分类为典故的笺注内容进行人工评估。在所有笺注对象类型中,典故笺注类型的数量占比、文本长度和语义复杂度都相对较高。因此本研究进一步从准确性、完整性、深度三个方面对模型生成的典故注释内容进行人工评估。与模型评估类似,评估员需要综合考虑注释内容的准确性、完整性和深度,并按照四级评分标准对模型自动笺注内容进行人工评估。模型注释错误时评分为0;如果模型自动注释结果与专家笺注内容一致或更加全面时评分为10;其他情况则根据评估标准将模型自动笺注内容评分为4或8。本研究邀请3名古代文学专业硕士研究生担任评估员,并采用双盲模型编码机制,以有效控制评估过程中的模型偏见。表4列出了人工评估的参考标准和评分方案。

图10.png 表4 人工评估参考标准和评分方案



五、评测结果与分析


在使用大语言模型进行古诗文笺注时,本研究通过调整随机性参数(temperature=0.4)以增强生成内容的准确性与可控性,同时采用高概率核采样(top_p=0.9)来保持注释的多样性,从而更好地适应复杂语境的需求。鉴于模型输出的随机性,我们对不同模型进行了三次笺注结果的评估,并以三次评估的平均得分作为模型的最终评测结果。

(一)自动评估结果与分析

以专家笺注作为参考标准,本研究首先对不同模型生成的自动笺注内容进行自动评估。我们分别计算了6个通用大语言模型自动笺注结果的ROUGE-1、ROUGE-2、ROUGE-L和BERTScore-F1四个指标的三次评估均值(±标准差),具体统计结果见表5。统计结果表明:在文本相似度方面,Doubao-pro-128K的ROUGE系列指标显著优于其他模型;在语义相似度方面,DeepSeek-V3表现最佳,Doubao-pro-128K次之。此外,各模型标准差普遍低于0.003,表明评估结果具有较高一致性。尽管Doubao-pro-128K在文本匹配指标上表现突出,但结合语义评估结果可知,通用大语言模型在古诗文自动笺注任务上仍有较大提升空间。

图11.png 表5 古诗文大语言模型笺注自动评估平均得分

从以上基于匹配和嵌入的自动评估结果可以看出,大语言模型生成的笺注文本与专家笺注在内容和语义上存在较大差异。此外,我们在数据集构建过程中发现,不同专家笺注的语言风格和注释习惯存在明显差异。例如,陈书良《姜白石词笺注》采用通俗易懂的语言风格,与大模型输出风格相近;而佟培基《孟浩然诗集笺注》则倾向于使用古典文学领域的学术化表达,其注释不仅包含基本释义,还援引古籍文献进行详细阐释(如对诗《早发渔浦潭》中“渔浦潭”的注释包含基本释义、古籍文献描述及使用案例三部分[36])。这种差异主要源于出版年代和目标读者的不同。因此在笺注内容自动生成时,我们有意使用以下提示词来引导模型输出更加详细的注释内容,而不仅解释注释对象在古诗文中的基本意思。

提示词:作为研究古代诗文的专家,请对{author}的《{title}》中以下词语进行详细的笺注:{annotation_chunk}。原文内容:“{text_content}”。请以{annotations_format}格式输出笺注结果。“注释类型”包括但不限于:{annotations_type};注释内容尽可能包含古籍中对注释对象的相关描述和解释。如果笺注类型为“诗文引用/借用/化用”,请特别标注引用的内容,并尽量提供相关来源。注释内容应简明且具有学术性,并解释其在诗文中的作用与含义。

在评测数据集中,廖立对岑参《武威送刘单判官赴安西行营便呈高开府》中“大荒”的注释为:泛指荒远之地。《山海经·大荒西经》:“大荒之中有山,名曰大荒之山,日月所入。”[37]使用以上提示词模板,Doubao-pro-128K对“大荒”的注释为:指极其偏远荒僻的地方。《山海经·大荒东经》:“东海之外,大荒之中,有山名曰大言,日月所出。”这里指安西地区。虽然Doubao-pro-128K注释与专家笺注的表述有所不同,但其注释结果具备合理性。由于注释对象较多,我们无法对每个注释对象都定制一个提示词,因此在经过多次调试后选定一个提示词模板对数据集中所有注释对象进行自动笺注。因此模型生成的笺注内容无法在语言风格和注释详略上完全一致。另外,与文本翻译和文本摘要任务相比,古诗文自动笺注任务为相对开放的内容生成任务,并没有统一的参考标准。特别是参考专家笺注的笺注标准不统一,而在不使用特殊提示词的前提下,同一大语言模型生成笺注内容的语言风格和注释方式并不会发生较大改变。这种差异综合导致对模型自动笺注性能评估时基于重叠度和语义相似度的自动评估指标较低。

图12.png 图7 大语言模型在不同笺注对象笺注任务中的自动评估表现雷达图

为了比较大语言模型在不同类型笺注对象上的笺注性能,我们统计了6个大模型对六种笺注类别(人名、地名、典章制度、典故、神话传说和其他)笺注内容的ROUGE-1和BERTScore-F1三次评估平均得分。图7雷达图直观地展示了大模型对不同类型笺注对象进行笺注时的性能差异。从总体上看,Doubao-pro-128K和DeepSeek-V3在各类别笺注任务中得分均高于其他模型。其中Doubao-pro-128k对需要文化理解深度的“典故”和“神话传说”注释表现尤为突出。DeepSeek-V3则在基础实体识别类任务中展现优势,其“人名”“地名”和“典故”的语义匹配度高于其他模型。在6个模型中,ChatGPT-4o-latest和Moonshot-V1-32K的古诗文自动笺注性能整体较弱。另外,所有模型在“典章制度”类别的文本覆盖度(ROUGE-1)均相对较低,这表明该类别可能存在的专业术语处理难题。

(二)模型评估结果与分析

BERTScore-F1相对于ROUGE-N的主要优势在于其更关注语义层面的匹配,而非仅基于表面词汇或n-gram的精确匹配。因此通常认为BERTScore-F1在评估生成内容的语义准确性和自然性方面具有更高的鲁棒性,尤其在内容丰富或表达多样的生成任务中更具优势。然而BERTScore-F1仍然无法有效捕获自动生成笺注内容中存在的事实性错误,特别是对人名、地名、日期等事实性要求较高的词或短语的注释。表6中为不同大语言模型对姜夔词《扬州慢》序中创作时间“淳熙丙申至日”的注释,以及将专家笺注作为参考文本的BERTScore-F1得分。尽管ChatGPT-4o-latest的注释文本中存在事实性错误,但其BERTScore-F1却最高。近期,相关研究表明利用先进的大语言模型能够有效进行幻觉检测和事实性评估。[38]为了弥补自动评估结果存在的不足和缺陷,我们进一步使用四级评分标准,让DeepSeek-V3和Qwen2.5-72B-instruct将不同模型的笺注内容和专家笺注进行比较,并给出评分。表7列出了模型评估的具体统计结果。

图13.png 表6 专家和6种大语言模型对日期类短语的注释[39]


图14.png

表7 古诗文自动笺注模型评估结果统计

在四项评估结果中,模型评估结果为“基本一致”和“注释相同”的大语言模型注释内容与专家笺注内容在语义上具有较高的一致性。综合三次模型评估结果,Doubao-pro-128K平均有196条注释与专家笺注保持高度一致,DeepSeek-V3则平均有917条注释与专家笺注保持基本一致,二者在对应项评估结果的计数统计中均达到最高。而ChatGPT-4o-latest在评估结果为“部分一致”的计数统计中达到最高,Moonshot-V1-32K次之。从错误率的统计来看,DeepSeek-V3的错误率最低(10.07%),表现出一定的稳定性和可靠性。这可能得益于其更丰富的中文训练语料和更高效的模型结构与训练策略,使其在笺注准确性方面更具优势。总体上来看,6个古诗文自动笺注的模型评估结果与自动评估结果的一致性较高。与其他模型相比,DeepSeek-V3和Doubao-pro-128K在古诗文笺注任务中展现出一定优势,但这种优势并不显著。虽然Doubao-pro-128K的“注释相同”项计数统计最高,但其平均错误率也高于其他模型,这表明该模型在古诗文笺注任务中仍存在较大的准确性问题。而DeepSeek-V3在古诗文笺注任务中仍有明显不足,其生成内容中超过50%的注释与专家笺注存在显著差异,这一结果表明其在语义理解、文化背景把握以及注释准确性等方面尚存缺陷,仍有较大提升空间。

与自动评估结果的统计类似,我们也通过图8雷达图直观展示了各模型在6种笺注类别中的笺注内容大语言模型评估结果及其差异。根据古诗文自动笺注错误率统计结果,各模型呈现出显著的能力差异和领域倾向性。整体而言,DeepSeek-V3展现了最强的古诗文理解能力,在所有分类中均保持最低错误率,表明其可能通过领域适配训练获得更强的专业语境解析能力。而OpenAI的ChatGPT-4o-latest模型在古诗文笺注任务中的各类平均错误率(13%)虽然高于DeepSeek-V3(9%),但要低于其他对比模型,特别是在“典章制度”(11.5%)和“佛道用语”(0.5%)笺注任务中具有一定优势。这一差异可能源于ChatGPT-4o-latest在训练过程中对多语言、多文化背景的广泛覆盖,使其在处理涉及历史、宗教等特定领域的文本时表现出一定的适应性。另外,在对各种类型注释对象的笺注任务中,6个模型对“时间/日期/节日”(21%)和“典故”(19%)注释的平均错误率最高。这表明,目前通用大语言模型在涉及特定文化背景或复杂时间表达的注释任务中,仍然存在较大的改进和提升空间。

图15.png 图8 各模型在不同笺注对象笺注任务中的模型评估表现雷达图

(三)人工评估结果与分析

大语言模型在对典故进行自动笺注时面临多重困难,主要体现在文化背景理解不足、语境适配能力有限以及事实性校验困难等方面。典故通常蕴含深厚的历史文化背景,涉及特定的时代、地域和社会习俗,而大语言模型可能缺乏足够的训练数据来准确掌握这些文化内涵,从而导致注释内容缺乏深度和准确性。此外,典故的理解通常依赖特定语境或隐喻,而模型在生成笺注时可能难以准确捕捉上下文关联,导致注释偏离原有意蕴。同时,模型在处理涉及人名、地名、时间等实体性信息的典故时,可能生成错误或不完整的内容,这与其在事实核查和多源知识融合能力上的局限性密切相关。因此,尽管大语言模型在生成语言流畅的注释方面具有一定优势,但在确保典故笺注的准确性和文化深度方面仍存在显著挑战。鉴于古诗文中典故自动笺注任务的复杂性,且模型评估方法可能存在潜在的偏好泄露问题,[40]为了提升评测结果的可靠性和公平性,本研究在自动评估和模型评估的基础上,对大语言模型的典故自动笺注内容进行了二次人工评估。首次人工评估严格按照4.4节中描述的评估方案进行,而二次人工评估则重点针对与模型评估差异较大(≥6分)的评分,进行重新审查和修正,以确保评估结果的准确性。表8列出了古诗文典故自动笺注人工评估结果,其中每个评估员在所有典故中抽取不少于100个样本进行评估。[41]

图16.png 表8 古诗文典故自动笺注人工评估和模型评估结果统计

从错误率排名来看,古诗文典故自动笺注的模型评估和人工评估一致性较高,其中DeepSeek-V3错误率最低,Doubao-pro-128K错误率最高。而人工评估为10分和模型评估为“注释相同”的差异则相对较大,这表明具体评估过程中评估员对注释准确性、完整性和深度的理解与模型存在一定差异。对比6个模型的三次人工评估总分平均值,除Doubao-pro-128K外,其他模型的典故性能差异较小且不显著。其中,ChatGPT-4o-latest总分最高,国内模型中Qwen2.5-72B-instruct表现最优,DeepSeek-V3次之。

图17.png 图9 古诗文典故自动笺注模型评估与人工评估一致性热力图

为了进一步分析模型评估与人工评估的一致性关系,表9统计了三次评估中模型评估与人工评估的Kappa系数(Cohen's Kappa)、组内相关系数(ICC)、斯皮尔曼相关系数(Spearman Correlation)、精确匹配率(EMR)和平均绝对误差(MAE)及各个指标的平均值。图9展示了三次评估的一致性热力图,结合热力图分布和指标计算结果可知,模型评估与人工评估的一致性较低。除了典故注释任务自身的复杂性外,评估人员的专业素养差异和认知偏差也会显著影响两种评估结果的一致性。因此,在专业性较强、知识密度较高的古诗文自动笺注任务中,模型评估尚无法完全替代人工评估。为了提升评估的准确性和一致性,在人工评估过程中,需要进一步细化评估标准,并加强对评估人员的系统性培训,以确保评估结果的客观性和可靠性。

图18.png 表9 古诗文典故自动笺注人工评估和模型评估结果一致性统计

(四)其他错误笺注分析

为了深入探究大语言模型在古诗文笺注任务中的缺陷和不足,我们进一步对模型评估结果为“注释错误”和“部分一致”的大语言模型自动笺注内容进行细致分析。经过审查后发现除人名、地名、日期等不同注释对象类型的笺注错误外,指令跟随错误和评估偏差是导致注释错误的两种系统性错误。

1.指令跟随错误

在4.1笺注生成过程中,我们在提示词模板中通过annotation_chunk和annotations_format对需要生成的笺注对象和笺注格式进行控制。然而大语言模型在生成笺注时会出现增加和丢失注释对象的现象。最终导致参与评测的笺注数据条数少于数据集中原始数据条数。在6个大语言模型中,上下文长度最小的Moonshot-V1-32K注释对象丢失问题最为严重。其他模型也会出现少量增加、修改和丢失注释对象的情况。由于大语言模型存在这种过度泛化和信息丢失问题,就会对古诗文自动笺注乃至其他古籍文献数据提取与生成任务的准确性产生影响。因此在使用大语言模型开展相关工作时,人工核查与筛选这一环节不可或缺。

另外,大语言模型在进行古诗文自动笺注时会出现理解错误问题。例如,陈书良对姜夔《虞美人》序中“石湖居士所造”的注释为:范成大,字致能,号石湖居士,任职括苍时兴建烟雨楼。据《石湖诗集·桂林中秋赋》有“戊子守括苍”句。戊子,为宋孝宗乾道四年(1168)。[42]陈书良的注释覆盖整句内容,不限于对“石湖居士”进行解释,并且辅以引用古籍文献来进行详细阐述。然而在自动生成注释时6个模型只有ChatGPT-4o-latest按照指令将“石湖居士所造”注释为:石湖居士指的是南宋词人范成大,他在石湖建造了烟雨楼。其他5个模型则单独抽取“石湖居士”作为注释对象,并对其进行注释。这5个大模型普遍认为“石湖居士所造”很可能是人为输入错误,因此在输出过程中自动进行了修正。虽然就注释而言,对“石湖居士”进行单独注释的可能性更高,但这种自动修改和泛化行为在自动笺注过程中可能引入了难以预测和控制的错误。此外,在古诗文自动笺注这类知识密集型任务中,大语言模型在细节捕捉、上下文关联理解以及逻辑推理能力等方面的表现同样值得深入关注。

2.评估偏差

在第5.3节中,古诗文自动笺注的模型评估结果与人类评估结果的斯皮尔曼相关系数仅为0.247。这表明大语言模型的理解能力与人类偏好之间仍存在一定偏差,因此模型评估并不能完全替代人类评估在大语言模型古诗文自动笺注性能测评中的角色。在对模型评估结果为“注释错误”的笺注内容核查后,发现部分大语言模型的评估结果并不准确。另外,一些注释对象的专家笺注内容本身存在争议和不确定因素,导致大语言模型自动笺注内容的模型评估结果为“注释错误”。其次,在大语言模型评估中,人工评估通常被认为是“黄金标准”,然而在具体评估过程中人工评估同样会存在不同程度的偏差。表10列出了几种不同类型的评估偏差样本。

cd图19.png表10 评估偏差样本[43][44][45][46]

3.人名、地名、时间错误

在古诗文中,无论是人名还是地名的指代都呈现出复杂多样的形式,这给大语言模型的自动注释工作带来了极大挑战。对于人名而言,除了常规的名、字、号指代外,还会通过事迹或身份、行第、居地或出处、谦称与尊称、亲属关系或官职以及封号等来指代人物。这种复杂的指代关系使得大语言模型在人名识别和注释时错误频发,主要包括将人名误识为其他字面上相同的词汇、将其他词汇误为人名以及混淆不同人名。除了字面上的相似,人名识别错误还可能由人物相关事迹的相似性引起。前者如阮宣子(阮修)与阮籍、马正会与马怀素,后者如任公与吕尚。造成这些错误的原因,主要是同名歧义与上下文理解偏差。在领域数据不足的情况下,大语言模型在识别和注释一些特殊人物指代时也会发生错误。例如,吴张二子、诸子,杨郎、刘郎、谢郎,湛上人、空上人,超禅师、赵将军、高开府等。此外,古诗文中还可能出现一些不知名人物,这些人物由于历史久远且无法考证,导致大语言模型无法准确注释。由于缺乏专门考证,部分模型在处理这类人名时可能会产生幻觉,进而导致注释错误。在古诗文自动笺注任务中,这种无法识别知识边界的问题需要重点关注,并应通过特殊手段加以控制。

在地名方面,除官方名称外,还会通过地理位置特征(如临海、巴川)、相关历史事件(如望陵台)、著名人物活动地(如韩信坛、汉王城、习池)以及方位描述(如汉中、江左、越中、中都)等来指代。这使得大语言模型在自动注释地名时也容易犯错,常见错误类型有将地名误识为其他字面上相同的词汇、将其他词汇误为地名以及混淆不同地名,如把鉴湖误解释为鄱阳湖/西湖/太湖。造成这些错误的关键因素是地域文化数据的缺乏,尤其是对具有独特文化背景地区的忽视,像潇湘、碣石、扶桑等富有文化内涵的地名,以及因历史变迁或记录稀少而难以考证的鲜为人知的小地名,大语言模型都无法精准注释,可能会出现偏差而导致注释错误。

另外,在古诗文中通常会使用干支纪年法(己酉、辛亥、甲寅)和特殊日期表示法(岁暮、朔、望、既望、晦、人日、元日)来表示和记录日期、时间。专家笺注和模型自动笺注都会结合考证结果与上下文将其转换为具体的帝王年号纪年法和公元纪年法。受训练数据和有限上下文的影响,在不调用外部工具和知识库的情况下,大语言模型对这类时间进行自动笺注和转换时很容易发生错误。而时间错误属于严重的事实性错误,使用传统评估方法无法对这种错误进行高效检测。另外,古代某些区域性的节日或者已经失传的特殊日期,由于文献记载有限难以确定准确时间,大语言模型在处理这些日期时可能会产生误解,进而导致注释错误。这种对传统时间知识把握不准的问题值得重视,并且要通过补充学习等手段来纠正。因此,要正确处理这些特殊时间和日期信息,就要求大语言模型具备更强的上下文理解和推断能力。

4.其他生僻字词释义错误

古诗文中经常会出现一些生僻字或较为罕见的词汇,这些字词的释义往往具有特定的历史文化背景,通用大语言模型可能无法准确理解和注释。常见的生僻字词释义错误包括将其误解为常用词汇(可可、约)、误用近义词(幽事、瞑),或者错误地推测其含义。生僻字的释义错误通常源于以下几个因素:第一,这些字词是古代汉字或已废弃的词汇,模型未接触过相关的历史文献或词典;第二,部分生僻字词具有多重含义,且其在不同历史时期的使用情况有所不同,导致模型理解的偏差。解决生僻字词的释义问题,不仅需要更多的历史文献和专业知识库支持,还需要模型具备更高的上下文敏感性和文化背景知识。



六、改进策略


(一)指令精细化与动态控制机制

针对指令跟随错误问题,可以通过设计更为详细和严格的提示词模板,明确注释对象和注释格式要求。例如,利用模板微调技术,对提示词进行多层次的细化,使模型在生成注释时能更严格地遵循指定的对象和格式。此外,结合动态控制机制,在生成过程中实时监控注释对象的数量和内容,利用规则引擎或自定义的后处理脚本,自动检测并纠正注释对象的增减问题,确保生成的注释与实际笺注需求保持一致。同时增加语言风格控制后处理模块,针对不同的用户需求生成不同语言风格和表达习惯的注释内容。

(二)特定领域预训练与微调

针对人名、地名及典故等领域特定知识的缺乏问题,可以采用特定领域预训练和微调的方式对大语言模型进行调整。首先,收集并构建涵盖丰富古诗文领域知识的专门数据集,包括历史人物、地名和典故等内容。然后,使用自监督学习技术对模型进行预训练,增强其在古诗文领域的知识储备。接着,使用高质量标注数据对模型进行有监督微调,使其在注释时能够更准确地识别、理解和解释相关的专有名词和典故。

(三)多模态知识集成与增强

为了提升大语言模型对古诗文复杂上下文的理解与推理能力,可以引入多模态知识集成。结合文本与知识图谱的优势,将古诗文中的人物、地名、典故等信息结构化存储在知识图谱中,并通过图神经网络将这些结构化知识融入模型的注释生成过程中。这样,模型在自动注释时不仅依赖于文本输入,还能利用知识图谱中的丰富信息进行上下文推理,从而减少理解偏差和注释错误。同时采用最新的网络模型架构(如ModernBERT[47]),训练更高效的古诗文领域的语义检索模型,从而进一步提升RAG和GraphRAG系统在检索与匹配任务中的性能。

(四)历史文化知识库的深度融合

针对模型在历史文化背景理解上的不足,可以构建一个专门的历史文化知识库,并通过知识增强语言模型技术将其与大语言模型深度融合。首先,收集和整理大量古代文献、历史记录和文化典籍,构建一个全面的知识库。然后,利用知识蒸馏技术,将知识库中的信息有效地嵌入到语言模型的参数中,使模型在生成注释时能够调用这些丰富的历史文化知识,提升注释的准确性和深度。

(五)开发时间与节日信息的专用处理模块

针对时间错误问题,可以开发一个专用的时间处理模块,利用时间推理和历史历法转换技术,提升模型对古代时间描述的理解能力。首先,构建一个涵盖古代节气、节日、特殊日期和时间的知识库,并整合不同历史时期的历法转换规则。然后,开发一个专门的时间解析器,将古诗文中的时间表达转换为标准的日期格式,并与模型的注释生成过程进行集成。通过这种模块化设计,模型能够更准确地理解和注释古诗文中的时间相关信息,减少因历法差异和时间单位转换导致的注释错误。

(六)人机协作的审核与反馈循环

考虑到完全依赖模型评估存在一定偏差,可以引入人机协作的审核机制,结合主动学习和持续反馈系统,建立一个动态优化的注释生成流程。首先,由模型生成初步注释;然后,人工审核人员对注释结果进行校验和修正,并将反馈数据返回给模型进行学习或更新知识库数据;通过强化学习技术,不断优化模型的注释策略,逐步减少错误注释的发生。同时,建立一个用户反馈渠道,收集多方意见,进一步提升注释的可靠性和一致性。



七、结论


本研究结合多种评测方法系统评测和分析了大语言模型在古诗文自动笺注任务中的多种错误,并基于不同错误类型提出了六项优化策略,以提升模型在该领域的注释性能。通过对6个主流模型(ChatGPT-4o-latest、Gemini-1.5-pro、Doubao-pro-128K、Moonshot-V1-32K、Qwen2.5-72B-instruct、DeepSeek-V3)的评测,我们发现,与专家笺注相比,大语言模型在人名、地名、日期和典故等复杂注释对象上存在显著的准确性和一致性问题。因此,目前通用大语言模型无法直接应用于中国古典诗文的自动笺注任务中。其次,在日常工作和学习过程中,使用通用大语言模型进行辅助古诗文阅读和理解时需要保持谨慎的态度。另外,通过对不同类型模型的错误古诗文笺注进行细致分析,进一步总结和概括了通用大语言模型在古诗文自动笺注任务中的细粒度错误类型和产生这些错误的根源。总之,本研究通过错误分析和优化策略的提出,为提升大语言模型在古诗文自动笺注及文学研究中的应用性能提供了重要参考,有助于推进和深化古典文学研究。

尽管如此,研究仍存在一定局限性,如参与本次评测的模型都通过API方式调用,而在实际用户使用过程中不同模型会通过联网搜索和检索增强生成技术来提高回答质量,因此本次评测未考虑这种因素导致的性能差异。其次,本研究的笺注对象二级分类体系、提示词结构化设计和人工评估标准仍有一定的改进和优化空间。另外,在具体评估结果的统计和分析时默认GPT-4o-2024-11-20对笺注对象的最终分类是正确的,这导致大语言模型对不同类型注释对象笺注性能的评测结果与实际情况存在一定偏差。最后,本文提出的优化策略需在更大规模数据集上验证,部分方法依赖高质量领域数据和复杂技术实现。未来研究将结合更科学的评测方法,进一步探索优化策略在不同模型和数据环境下的适用性,并开发更高效和通用的优化方法。



Research on the Performance Evaluation of Automatic Annotation of Ancient Poems and Prose by Large Language Models

Wu Xiaping, Wang Zhaojiang, Dai Wei

Abstract: With the rapid development and widespread application of large language model (LLM) technology, the potential for applying LLMs to the automatic annotation of classical Chinese poetry and prose has become increasingly evident. However, there is currently a lack of systematic research and scientific evaluation of LLM performance in this specific task. To address this gap, our research team conducted a comprehensive assessment of the performance of six general-purpose LLMs, both domestic and international, in the task of automatic annotation of classical Chinese poetry and prose. First, 2,529 annotations were selected from classical poetry and prose annotation works published by four publishers as reference annotations for the evaluation dataset. Prompt templates were then used to invoke the APIs of different LLMs to generate automatic annotations. Second, a combination of automated evaluation, LLM-based evaluation, and human evaluation was employed to assess the performance of these LLMs in annotating classical poetry and prose. The results revealed significant differences between the automatic annotations generated by LLMs and expert annotations in terms of linguistic style and annotation format. Among the models evaluated, the recently released DeepSeek-V3 exhibited superior overall performance compared to the other five LLMs, although its advantage was not statistically significant. Therefore, general-purpose LLMs are not yet ready for direct application in the task of automatic annotation of classical Chinese poetry. Instead, targeted optimization and improvement of general-purpose LLMs are needed, taking into account the characteristics of different annotation types, from the perspectives of data, algorithms, and engineering. The evaluation dataset and results can be accessed via the following link: https://github.com/1602353775/Evaluation-of-LLM-based-Annotation.

Keywords: Large Language Model; Ancient Poems and Prose; Automatic Annotation; Evaluation


编辑|韩玉凤

本文是国家社会科学基金重点项目“中古书籍制度文献整理及其与文学之关系研究”(21AZW006)的阶段性成果。本论文具体分工和学术贡献:吴夏平提出设想、总体思路及基本框架,王钊江负责采集数据和实验,戴维负责实验结果复核等。


向上滑动 查看注释


[1]李佳斌、魏庭新、曲维光等:《大语言模型下古诗笺注知识库的构建与应用》,《图书馆论坛》2024年第3期。

[2]李绅、胡韧奋、王立军:《古汉语大语言模型的构建及应用研究》,《语言战略研究》2024年第5期。

[3]Yupeng Chang et al., “A Survey on Evaluation of Large Language Models,” ACM Transactions on Intelligent Systems and Technology, vol. 15, no. 3, 2024, https://doi.org/10.1145/3641289.

[4]同上。

[5]Jiawei Gu et al., “A Survey on LLM-as-a-Judge,”arXiv preprint, arXiv: 2411.15594, 2024.

[6]Hui Huang et al., “An empirical study of LLM-as-a-judge for LLM evaluation: fine-tuned judge model is not a general substitute for GPT-4,” arXiv preprint, arXiv: 2403.02839, 2024.

[7]Haitao Li et al., “LLMs-as-judges: a comprehensive survey on LLM-based evaluation methods,” arXiv preprint, arXiv: 2412.05579, 2024.

[8]Dawei Li et al., “From generation to judgment: opportunities and challenges of LLM-as-a-judge,” arXiv preprint, arXiv: 2411.16594, 2024.

[9]Jiawei Gu et al., “A Survey on LLM-as-a-Judge,”arXiv preprint, arXiv: 2411.15594, 2024.

[10]Guiming Hardy Chen et al., “Humans or LLMs as the judge? A study on judgement biases,” Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, Miami, Florida, USA, 2024, pp.8301–8327.

[11]Annalisa Szymanski et al., “Limitations of the LLM-as-a-Judge Approach for Evaluating LLM Outputs in Expert Knowledge Tasks,” Proceedings of the 30th International Conference on Intelligent User Interfaces, New York, USA, 2025, pp.952-966.

[12]罗文、王厚峰:《大语言模型评测综述》,《中文信息学报》2024年第1期。

[13]Jiahuan Cao et al., “WenMind: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Classical Literature and Language Arts,” The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track, Vancouver, Canada, 2024.

[14]赵志枭、胡蝶、刘畅等:《人文社科领域中文通用大模型性能评测》,《图书情报工作》2024年第13期。

[15]赵雪、赵志枭、孙凤兰等:《面向语言文学领域的大语言模型性能评测研究》,《外语电化教学》2023年第6期。

[16]Sahand Sabour et al., “EmoBench: evaluating the emotional intelligence of large language models,” Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, Bangkok, Thailand, vol. 1, Long Papers, 2024,pp.5986-6004.

[17]刘海涛、亓达:《大语言模型的语用能力探索——从整体评估到反语分析》,《现代外语》2024年第4期。

[18]杨尔弘、朱君辉、朱浩楠等:《大语言模型的中文文本简化能力研究》,《语言战略研究》2024年第5期。

[19]周立炜、饶高琦:《大语言模型中文语体能力评测研究》,《语言文字应用》2024年第1期。

[20]Yisong Miao et al., “Discursive socratic questioning: evaluating the faithfulness of language models’ understanding of discourse relations,” Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, Bangkok, Thailand, vol. 1, Long Papers, 2024, pp.6277-6295.

[21]Yuyan Chen et al., “Dr.academy: a benchmark for evaluating questioning capability in education for large language models,” Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, Bangkok, Thailand, vol. 1, Long Papers, 2024, pp.3138-3167.

[22]陶渊明撰,袁行霈笺注:《陶渊明集笺注》,北京:中华书局,2003年。

[23]岑参撰,廖立笺注:《岑嘉州诗笺注》,北京:中华书局,2004年。

[24]孟浩然著,佟培基笺注:《孟浩然诗集笺注》,上海:上海古籍出版社,2019年。

[25]顾太清撰,金启、金适校笺:《顾太清集校笺》,北京:中华书局,2012年。

[26]唐寅撰,陈书良、周柳燕笺注:《唐伯虎集笺注》,北京:中华书局,2020年。

[27]姜夔著,陈书良笺注:《姜白石词笺注》,北京:中华书局,2009年。

[28]顾太清著,胥洪泉校笺:《顾太清词校笺》,成都:巴蜀书社:2010年。

[29]顾贞观撰,张秉戍笺注:《弹指词笺注》,北京:文津出版社,2017年。

[30]苏轼著,李之亮笺注:《苏轼文集编年笺注》,成都:巴蜀书社,2011年。

[31]李白撰,安旗等笺注:《李白全集编年笺注》,北京:中华书局,2015年。

[32]Liang Xu et al., “SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,” arXiv preprint, arXiv: 2307.15020, 2023.

[33]Chin-Yew Lin, “ROUGE: A Package for Automatic Evaluation of Summaries,” Text Summarization Branches Out, Barcelona, Spain, 2004, pp.74-81.

[34]Tianyi Zhang et al.,“BERTScore: Evaluating Text Generation with BERT,” International Conference on Learning Representations, Addis Ababa, Ethiopia, 2020.

[35]https://github.com/Tiiiger/bert_score, accessed on December 20, 2024.

[36]孟浩然著,佟培基笺注:《孟浩然诗集笺注》,第2页。

[37]岑参撰,廖立笺注:《岑嘉州诗笺注》,第29页。

[38]Dawei Li et al., “From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge,” arXiv preprint, arXiv: 2411.16594, 2024.

[39]姜夔著,陈书良笺注:《姜白石词笺注》,第2页。

[40]Dawei Li, et al., “Preference Leakage: A Contamination Problem in LLM-as-a-judge,” arXiv preprint, arXiv: 2502.01534, 2025.

[41]由于并非所有注释对象都严格属于典故类型,评估员在分层抽样过程中进行了二次筛选,从而进一步提高评估的准确性和针对性。为方便统计,对多次评估结果的不同评分计数进行了等比例缩放。

[42]姜夔著,陈书良笺注:《姜白石词笺注》,第239页。

[43]姜夔著,陈书良笺注:《姜白石词笺注》,第69页。

[44]苏轼著,李之亮笺注:《苏轼文集编年笺注》,第328页。

[45]顾贞观撰,张秉戍笺注:《弹指词笺注》,第86页。

[46]姜夔著,陈书良笺注:《姜白石词笺注》,第234页。

[47]Benjamin Warner et al., “Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference,” arXiv preprint, arXiv: 2412.13663, 2024.


点击下方链接,下载原文


大语言模型古诗文自动笺注性能评测研究.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg

阅读原文

跳转微信打开

  •  

融合代价敏感学习的古文多粒度实体识别研究

原创 林小词 王彬等 2025-12-09 10:58 北京

为进一步提升古籍智能处理中不同粒度的实体,特别是复杂嵌套实体的识别精度,本研究提出一种融合代价敏感学习策略的实体识别方法,并以地方志文献为研究对象,开展实证分析。

实体·笺注·翻译



封面.png

林小词 / 南京农业大学人工智能学院

王 彬 / 南京农业大学人文与社会发展学院

余林萱 / 南京农业大学理学院 

吴雨晗 / 南京农业大学人文与社会发展学院

包 平 / 南京农业大学人文与社会发展学院

李 惠 / 南京农业大学人文与社会发展学院


要:为进一步提升古籍智能处理中不同粒度的实体,特别是复杂嵌套实体的识别精度,本研究提出一种融合代价敏感学习策略的实体识别方法,并以地方志文献为研究对象,开展实证分析。针对古文训练语料规模有限、实体类型多样、实体密度分布不均等挑战,选取大语言模型Qwen-7B和Chinese-Alpaca-2-7B,以及传统非大语言模型方法MRC和BERT-Span,作为基线模型,引入结合加权交叉熵损失的代价敏感学习机制,调整模型对不同实体的学习权重,从而增强实体识别效果。对比实验结果表明,融合代价敏感机制后,四种方法的实体识别精度,均得到一定提升。特别是大语言模型,在物产、人名、地名等多粒度实体识别任务中表现较优,其F1值的宏平均最高达83.54%、微平均最高为83.09%。由此可见,代价敏感学习策略有效改善了训练语料规模和分布的问题,有助于提升复杂实体的识别精度。该技术路径具有良好的扩展性,适用于多种实体识别算法,可以为古籍的知识组织与利用提供参考。

关键词:代价敏感学习 实体识别 交叉熵损失 嵌套实体 大语言模型


引 言


实体(Entity),一般指存在且具有明确语义的对象或概念。在自然语言处理的文本分析领域,实体通常表现为特定事物的词汇或短语,包括但不限于人物、地理位置、组织机构、时间等。实体识别(Entity Recognition,ER)技术,旨在自动判断文本中某一字符串,是否代表一个实体并确定其具体类别,从而为进一步语义分析提供必要的信息。随着生成式人工智能技术的普及,目前古籍智能处理领域也开始引入实体识别技术。然而,大规模古文训练语料的获取难度大、标准成本的高昂、实体密度分布不均等问题,仍然制约着实体识别性能的进一步提升。

“国有史,地有志。”地方志是我国特有的一种文献类型,较为全面而系统地记述特定地区内自然和社会的历史与现状。[1]该类文献不仅涵盖了各区域的地理、经济、文化等信息,还详细记录了区域内的动物、植物、矿物等物产资源,蕴含着丰富的实体信息。目前已有研究对方志中的平面实体开展识别,[2]但是针对具有层级结构和嵌套特征的多粒度实体,尚未系统开展深入挖掘。

过往研究已尝试从数据层面进行优化,例如通过数据抽样、关系筛选等手段改善数据资源,但针对多种实体识别算法的综合改进,仍亟须突破。针对上述挑战,本研究基于本校收藏的《方志物产》大数据,提出一种基于加权交叉熵损失的代价敏感学习策略,与多种实体识别模型相结合,旨在提升多粒度实体的识别性能,增强模型的泛化能力。本文重点围绕如下两个问题开展探讨:

第一,如何突破标注数据规模的限制,融合实体类别、嵌套类型、实体密度等因素,从代价敏感学习的角度入手,设计优化策略,提升古文多粒度实体的识别精度。

第二,如何基于加权交叉熵损失,设计统一的学习机制,并在多种主流实体识别模型上开展实验,验证其性能,评估其对不同实体类型的识别性能。


一、相关研究


近年来,历史文献的数字化整理与利用工作取得了显著进展,有效地帮助研究人员从海量数字文献资源中高效而较为准确地获取关键信息。得益于深度学习的迅猛发展,实体识别在方法创新和性能提升上均取得一定成效。

(一)古文实体识别研究

根据实体的内部结构,可分为平面实体(Flat Entity)和嵌套实体(Nested Entity)两大类。平面实体预设文本中各实体相互独立,即一个实体不包含其他实体,也不被其他实体所包含;而嵌套实体则允许实体间存在层次结构,一个实体可以包含另一个实体。平面实体识别旨在检测实体的“整体”指称,而嵌套实体识别更加关注同一指称中的层次结构。例如,“波斯菊”整体指代一种植物,但其词语内部包含“波斯”这一地名指称。古联(北京)数字传媒科技有限公司和北京大学人工智能研究院、数字人文研究中心在2020和2023年分别组织了古籍命名实体识别的评测,[3]同样提到了对嵌套实体的关注。[4]然而,现有研究,仍以平面实体识别为主。嵌套实体识别,因其复杂性和标注难度,仍然是许多具体任务的瓶颈。[5]谢志强基于《史记》文本,构建面向人物、地点、职官、书籍和时间五类实体的标注规范,利用SikuBERT、GuwenBERT、RoBERTa-Classical-Chinese等六种预训练模型配合Global Pointer开展嵌套实体识别任务,效果较好。[6]夏晔等基于海量方志数据,利用BERT-Span、Global Pointer和MRC三种方法识别物产、人名、地名、书名和时间五类嵌套实体,其中Global Pointer的综合得分最高,而MRC在物产、人物和地点等单项任务上效果更优。[7]李斌等基于《史记》“三十世家”数据,提出结合提示学习和Global Pointer的方法,识别人物、国家、职官和地点四类嵌套实体,并抽取11类重叠关系,精度最高能达到近40%。[8]

(二)代价敏感学习研究

代价敏感学习(Cost-sensitive Learning)常用于数据类别不平衡的分类任务中,通过在模型训练中,综合考虑不同类型错误分类的代价差异,[9]以此优化模型的整体性能。主要方法有调整损失代价,如交叉熵损失函数(Cross-Entropy Loss Function),为不同类别的样本分配不同的权重来调整损失代价,[10]提高模型对数据中少数类别的学习能力,[11]有效缓解模型的偏见问题。

数据增强(Data Augmentation)和数据抽样(Data Sampling)作为两类常用的代价敏感学习策略,常用于深度学习领域中的模型训练。前者在无需收集更多数据的条件下,通过变换或扩充现有数据集,来增加数据集的规模和多样性,旨在提升模型的泛化能力。[12]主要方法可分为释义、噪声和抽样三大类,[13]通过添加现有文本的子集,或生成合成数据,扩充数据的规模和质量。后者从已有数据集中选取子集,用于模型训练、验证和测试,旨在优化模型的处理效率。[14]主要方法可分为随机和选择两种,[15]采用不同形式的采样技术,平衡数据中不同类别的分布情况。

严承希等基于《资治通鉴》语料,采用混合池抽样策略,一方面通过实体替换、交换和合并直接增强数据,另一方面生成带有随机噪声的数据实现间接增强。[16]还有学者基于长短期记忆网络模型(Long Short-term Memory,LSTM)生成数据,开展面向古汉语的分词和词性标注任务。[17]然而,从代价敏感学习的角度出发,综合考虑数据集的规模与实体分布,优化损失函数以提升实体识别性能的研究仍较为有限。

(三)古汉语大模型研究

目前学界在使用大语言模型(Large Language Model,LLM)[18]方面,主要分为两种模式,其一是通过调用应用程序接口API(Application Programming Interface)使用已有模型,如OpenAI、通义千问、智谱AI等服务商提供的API接口,实现数据传输和交互,费用较为低廉,但存在数据泄露或黑客攻击等安全隐患;其二则是本地部署模型,以保证数据隐私和安全,但对计算资源和存储空间的要求较高,训练和运维成本不容小觑。为降低资源消耗,常用方法有使用某一特定任务的少量数据微调(Fine-tuning)已训练的大模型,[19]此类技术较为主流的有LoRA(Low-Rank Adaptation)[20],这是一种参数高效(Parameter-Efficient)的微调方法,在微调过程中,冻结原始模型的大部分参数,引入低秩矩阵调整模型权重,仅需训练少量参数,节省大量的计算资源和时间成本,即可在特定任务上达到良好的效果。

除参数微调之外,还有一类方法称为提示学习(Prompt Learning),其中一个关键步骤即提示工程(Prompt Engineering),具体是指在使用大语言模型时,为了优化模型的输出结果而设计和调整输入文本的过程。大模型需要详细的指示来构建高质量的输出,提示工程致力于选择合适的格式、词组、单词和符号,以引导大模型更准确地与使用者互动。常用的提示(Prompt)框架有CRISPE[21]、CO-STAR[22]、LangGPT[23]等,通常由指令、上下文信息、格式约束、示例等组成,多以文字形式提出需求(问题),其中的指令(Instruction)明确告诉模型要执行的特定任务或操作描述,如回答问题、生成图像、改写文本等。

随着大语言模型的不断发展与完善,其应用场景也在不断拓展,在古籍智能处理中的应用也逐步展开。当前研究主要有两类路径,一是基于开源的、面向现代汉语通用领域的大模型开展参数微调,如荀子[24]、Huang-Di[25]等;另一种是从头构建古汉语领域大模型,如AI太炎[26],再针对具体下游任务进行微调。目前主要任务包括字符识别、分词与词性标注、机器翻译、自动句读、文本分类、实体识别等。角色提示、少样本提示、指令微调、思维链等提示工程技术也经常组合使用,有助于提升大模型的准确性和泛化能力。[27]赵志枭等通过指令微调“荀子”大语言模型抽取《资治通鉴》中的职官实体,并对数据集的规模开展了对比实验,取得一定效果。[28]何宇浩等利用GPTs系列模型抽取《中华医方》中的实体与关系,精度远超传统模型。[29]但也有研究指出,在部分历史语料中,指令调优的表现未能超过参数微调。[30]

系统梳理前人既有成果,本研究从代价敏感学习的角度出发,聚焦古汉语多粒度实体识别任务,提出了一种基于加权交叉熵损失函数的数据优化方法。综合考虑数据规模、实体分布等因素,并在多种主流实体识别模型上,开展对比实验,探讨代价敏感策略在实体识别任务上的优势与局限。


二、方法论


本研究以文本数据集S为研究对象,基于现有工作[31]进一步深化对古文献实体识别的研究。数据集中任一句图1.png可形式化表示为词语集合图2.png,其中wi表示序列中第i个词。预定义的实体类别集合记为图3.png

(一)标注规范

古文献中实体指称形式多样,常常涉及复杂的嵌套结构和多层次的语义信息。本研究主要标注五类核心实体,即物产PRO、时间TIM、地点LOC、人物PER和书籍BOK,兼顾平面与嵌套结构(如图1所示),确保标注的一致性。

图4.png 

图1 实体标注示例

例如,物产类实体中,像“八月黄”这样的指称不仅指代具体稻种,还包含生长周期信息“八月”,因此整体标注为PRO,其内嵌实体“八月”标记为TIM;地点实体如“德庆府端溪县”包含地理单位“德庆府”和“端溪县”,整体标注为LOC,内嵌的两个实体均标记为LOC。书籍实体如“荔枝谱”中包含物产名“荔枝”,整体标注为BOK,内嵌实体标记为PRO。

(二)代价敏感学习策略

在真实数据集中,由于数据规模的限制,不同类别的实体往往存在分布不均衡的现象。不同的实体类别和嵌套类型的比例差异可能对模型训练的精度产生一定影响。为解决这一问题,本研究引入一种基于加权交叉熵损失的代价敏感学习策略,通过调整不同实体模式和实体类别的权重,优化模型实体识别的性能。

对于给定句子图5.png,假设其包含N个实体,对于某一实体ei,其类别为ci,则类别ci的权重可定义为:

图6.png 

其中,Ntot表示数据集中所有实体的总数,Nci指代类别ci下的实体数量。同样的,针对实体模式(包含嵌套和非嵌套两种情况),其权重Wti可定义为:

图7.png 

其中Nci是数据集中属于某一实体模式(嵌套或非嵌套)的实体数量。由此,实体ei的综合权重wi可表示为:

图8.png 

该综合权重通过实体类别权重和嵌套模式的权重乘积,兼顾了实体类别以及嵌套结构的复杂性,从而更准确地反映数据分布的状况,并有效地平衡密度过高或过低的实体类别在数据集中的占比。

基于此,实体ei的加权交叉熵损失Li可表示为:

图9.png 

其中yi为实体ei的真实标签(取值为0或1),yi=1表示实体类别与嵌套模式判断正确,yi=0则判断错误。图10.png是预测实体ei的概率。对于给定句子s,其总损失函数Ls为该句中所有实体损失之和:

图11.png 

在计算过程中,数据集中每一句,均按照上述方法计算总损失Ls,并根据损失值降序排列。选取损失较低的前k个句子进行训练,其中k既可以是预先设定的阈值,也可根据训练需求动态调整。

本研究基于上述代价敏感学习策略,对数据集计算加权交叉熵损失,并据此筛选包含实体类别较少及存在嵌套实体的语句作为实验集。在此基础上,根据交叉熵损失的具体数值,对该实验集中的样本进行降序排列,并将损失值排序后前50%的样本整合至原始训练集,构建优化后的训练数据。

图12.png 图2 技术路线概览

(三)模型训练与评估

本研究基于代价敏感学习策略,选取两种大语言模型Qwen-7B[32]和Chinese-Alpaca-2-7B[33],与两种非大语言模型的传统方法MRC和BERT-Span作为基座模型,结合古汉语标注语料,开展多粒度实体识别任务(如图2所示)。

大语言模型:Qwen-7B和Chinese-Alpaca-2-7B分别为阿里云和Meta(原Facebook公司)研发的大语言模型,使用海量中文数据开展预训练,具备出色的中文语义理解能力和指令遵循精度。针对古汉语场景,本研究结合地方志数据对两种模型进行参数微调加指令调优,增强其对古汉语语义和结构的适应性。

非大语言模型的传统方法:MRC方法[34]通过将实体识别任务转化为“问题—答案—上下文”构成的三元组,每个实体类型对应一个问题模板。模型根据模板,利用预训练语言模型捕捉上下文中的语义信息,提取答案,即实体。BERT-Span方法基于BERT预训练语言模型的上下文建模能力,采用基于跨度的实体边界识别策略,无需给每个词分配标签,直接预测实体的起止位置,能够有效捕捉嵌套实体的层级结构。前期实验结果显示,这两种方法在多个评估指标上均表现良好,本文进一步对其进行深入分析。

为综合评估模型性能,本研究引入如精准率(Precision,P)、召回率(Recall,R)、F1值、宏平均(Macro-Average)、微平均(Micro-Average)等多种量化指标,对比分析四种模型结合代价敏感学习策略,在实体识别任务中的表现。宏平均对每个实体类别分别计算精准率、召回率和F1值后,取算术平均值,适用于类别不平衡的场景,反映模型在各个类别上的表现。微平均通过汇总所有类别的真实正例、假正例和假负例,计算总体性能指标,适用于类别分布较为平衡的场景,侧重模型在整体数据集上的表现。


三、实验


本次实验综合采用宏平均与微平均两类指标,一方面衡量不同模型结合代价敏感学习策略的整体识别效果,另一方面兼顾不同实体类别的表现差异。二者结合,可以从全局与局部两个层面,较为全面而细致地评估代价敏感学习策略的效果、实体识别模型的整体性能及在不同实体类别上的表现。此外,为进一步考察敏感学习策略对处理复杂嵌套结构的影响,本次实验还引入嵌套深度作为补充评价指标,用于判断识别的实体类型及内部层次结构是否与真实标签完全一致,深入了解模型性能。

(一)数据集

本次实验所用数据集来源于南京农业大学长期收藏和整理的《方志物产》数字化资料。它经由三代学者收集、整理方志中的物产门目,是迄今为止规模最大的专题性方志物产资料。本实验选择其中涉及南方十省的文献数据,在人工标注和校对后,数据集规模约为1,725,317字(含实体标记),共标注86,125个实体指称。

本数据集中实体的总体分布情况如图3所示,平面实体和嵌套实体的数量比例约为3∶2,可见实体嵌套现象在古文献中是较为常见的。平面实体中出现频率最高的是物产名PRO和地名LOC,而嵌套实体中出现最多的是物产名PRO和书名BOK。相比于平面实体,嵌套实体具有更长的平均长度,说明其承载了更丰富的语义信息。

图13.png 图3 实验集实体分布及代价敏感学习策略取样子集的实体分布概览

(因图中直方颜色较多,故只用物产名的颜色区分作为图例)

本研究采用代价敏感学习策略,对数据集开展实体分布调整,旨在提升少数类实体的识别精度。图4是对原始数据集进行交叉熵损失计算后的结果,横坐标为每条语句对应的唯一ID编号,纵坐标为对应语句的交叉熵损失值。所有损失值均取绝对值,并从中随机选取1000条语句进行展示。图4中红色虚线标示的是原数据集交叉熵损失值的中位数86.2(绝对值),对应的k值为1159,相应的实体分布如图3所示。

图14.png 图4 交叉熵损失计算结果概览

(二)实验评测

本研究所有训练任务均部署于配有8块NVIDIA Tesla V100 GPU的校内超性能计算平台。模型训练过程中,针对大语言模型,实验采用上述Lora方法进行参数微调,训练过程中使用FP16精度,以降低内存消耗。由于受到算力限制,每批次的样本数设定为2。在超参数方面,学习率设置为3e-4,权重衰减设为0.1。优化器选择AdamW,β参数设置为β1=0.9、β2=0.95、ε=1e-5,总训练轮数设为30。Lora_alpha的值设为16,Lora_rank为64。数据集划分为训练集和测试集,比例为70∶30。基于已完成参数微调的大模型,结合角色提示、少样本提示等提示工程技术,设计指令框架,优化输入格式,让模型更好地理解和执行任务。实验过程中,少样本示例的数量设定在0至3之间。

原始数据集共含16,756句,加权熵损失计算后,提取4,894句,50%实体取样后,为1,159句(即k值)。将其与原训练集合并,再次开展实验,所有模型在优化后的训练集上的综合表现情况,如表1和表2所示。

图15.png 表1 结合/不结合代价敏感学习策略的多粒度实体识别微平均评测结果

(大模型均选择样本示例数量为3,括号内为原数据不结合策略评测结果)

大模型和传统非大模型方法的微平均表现,如表1所示,综合而言,均得到一定程度的提升。Qwen-7B在结合代价敏感学习后表现最佳,F1值达到83.09%。Chinese-Alpaca-2-7B和BERT-Span的F1值也皆有增益。虽然MRC方法的F1值相较原始数据略有下降,但精度还是高于原始数据。由此可见,成本敏感学习策略对多种模型的精度均有正向影响。

图16.png 表2 结合/不结合代价敏感学习策略的非大模型方法实体识别宏平均评测(括号内为原数据评测结果)

非大模型的两种方法宏平均得分,如表2所示,BERT-Span模型在引入该策略后整体性能得到了一定提升,其总体宏平均F1值由原始数据的81.4%提升至85.66%。在书名(BOK)、地名(LOC)和时间指称(TIM)三类实体上,F1值均有提升,表明该策略在多粒度实体识别任务上具有良好的适应性和有效性。相较而言,MRC模型在应用该策略后,总体F1值略有下降,从73.13%降至72.33%。尽管如此,该模型在人名、地名、书名和时间指称四类实体上,仍保持较高的召回率,可进一步优化以适应不同模型架构。

非大模型的嵌套实体识别方法主要聚焦实体的边界和类型,一般不直接输出嵌套层级信息。但大语言模型可以通过适当的微调和任务设计,来解析嵌套结构并输出实体深度信息,本研究对大模型采用边界和类型匹配、深度匹配两种评测指标,结果如表3和表4所示。整体而言,随着示例数量的增加,引入代价敏感学习策略后,大模型在实体识别任务中的表现得到了明显提升。例如表3中,Qwen-7B在示例为3时,宏平均F1值从示例为0的63.96%大幅提升至83.54%,较原始数据(78.38%)提高了5.16%,各实体类型均表现优异。同样使用该策略的Chinese-Alpaca-2-7B的总计F1值从示例为0的51.01%提升至65.86%,分项指标也均表现良好。

图17.png 表3 结合/不结合代价敏感学习策略的大模型实体识别宏平均评测(边界和类型匹配),示例数量展示为0和3,括号内为原数据评测结果

未使用代价敏感策略的大模型,如表4所示,由于涉及实体内部的复杂层级结构,深度匹配的总体精度P值相比于边界和类型匹配而言略逊色,且随着示例数量的增加,深度匹配的效果并没有明显提升。使用代价敏感策略之后,两个大模型深度匹配的F1值均有显著提升,Qwen-7B从64.4%提升至79.73%,Chinese-Alpaca-2-7B从51.82%提升至61.97%,说明该策略不仅适用于实体边界的检测,对实体内部的层级结构也具有较强泛化能力,有效地缓解模型对少数类样本学习不足的问题。

图18.png 表4 结合/不结合代价敏感学习策略的大模型实体识别宏平均评测(深度匹配),示例数量展示为0和3,括号内为原数据评测结果


四、讨论


通过分析不同模型的实体识别结果,可以发现各类算法在处理文本,特别是蕴含丰富实体信息的古汉语文献时的薄弱环节,使后续模型的优化和改进可以有的放矢,为相关领域的研究者在实际应用场景中模型的选择提供参考。

尽管本研究中四种实体识别模型在结合代价敏感学习策略后,均表现出不同程度的性能提升,但整体仍然存在若干错误,主要集中于训练数据偏差、实体识别错误、输出不完整等。对这些错误的深入分析,有助于进一步理解目前实体识别的局限性,从而为提升模型精度提供改进方向。

训练数据偏差。实体识别模型的性能很大程度上取决于其训练数据的样本选取,如果训练数据中某一类实体出现频率较低,模型可能在识别这类实体时表现不佳,导致输出有错漏。例如,在本研究所用实验数据集中,人名实体PER的出现频率较低,特别是嵌套实体的占比较少,仅占所有嵌套的2%左右。未采用代价敏感学习策略时,模型对其识别能力有限,尤其是在“实体深度”指标的评测上(见表4)。在引入代价敏感策略、调整损失权重后,该类实体的识别F1值提升幅度最高达15.6%,佐证了此策略在优化数据规模和分布上的有效性。

实体识别错误。主要可分为两种类型。一种是所有模型皆具有的错误,表现为将非实体识别为实体,或者真实的实体并没有被标注。例如“……又名赤根菜吾南俗呼甜菜以味美也”,“南俗”非实体,但被部分模型错误识别;又如“藤县志临桂良丰西林园墅中有红豆树林其旁有红豆馆”,“红豆馆”作为地名实体,未被正确识别。另一种是由大语言模型“幻觉”问题导致的识别错误,输出结果中包含着一些无意义或虚构的信息,从而导致其在实体识别任务中产生噪声,此类问题在利用大模型开展的下游任务中屡见不鲜。 

图19.png 表5 结合/不结合代价敏感学习策略的大模型Qwen-7B输出不完整统计情况(括号内为输出不完整数量)

输出不完整。古汉语相较于现代汉语,词汇和语法结构较为复杂,且由于算力限制,尤其是大模型处理上下文信息的能力受限,会导致模型只能关注局部信息而忽略全局的文本信息,进而无法正确理解并解析出所有实体。如表5所示,随着示例数量从0增加到3,不结合策略的大模型输出不完整占错误率的比重也随之上升。示例数量为0时,占比为21.74%,且输入长句易发生输出不完整的错误;而到示例数量为3时,占比高达47.69%,输入短句也会频繁输出相似错误。结合代价敏感学习策略后,输出不完整比例在不同样本数量下均优于基准模型(不结合策略),结合策略的输出不完整比例逐渐降低(从13.5%降至5.55%),显示出该策略在多样本提示下的数据增强效果,有效提升了模型的生成质量。


五、结论


近年来,随着深度学习技术的快速发展,面向现代语言的实体识别任务已取得显著成果。然而,面对古代汉语复杂的语言结构和多样的实体类型,实体识别仍然存在诸多挑战。[35]本研究聚焦古文献中多粒度、多类型的实体识别任务,提出一种基于加权交叉熵损失的代价敏感学习策略,基于本校所藏《方志物产》数据,将其分别应用于四种实体识别模型中,包括两种基于大语言模型的架构和两种非大模型的经典算法。通过引入宏平均、微平均等多种评估指标,对不同模型的整体性能及在不同实体类别上的表现进行了系统比较。实验结果表明,本研究提出的代价敏感学习策略,可有效扩充数据规模、调整数据的实体密度分布,在多种模型上均表现出一定程度的性能提升。本研究的主要贡献简述如下。

·设计代价敏感学习策略,将加权交叉熵损失与不同实体识别模型相结合,在古文献大数据上开展多粒度实体识别工作,效果良好。所构思技术路线,可以为其他类型的古籍,如史书、类书、诗文笔记等文献的实体识别研究提供思路。

·对地方志文献中多类型、多粒度实体的分析,可以为语言文字学、文献学等相关研究提供数据支持;所采用实体识别算法与评测策略,可以为古代汉语相关任务的算法优化提供参考。

下一步工作计划将尝试整合更广泛的数据来源、增加训练数据的多样性来提升模型的识别精度,进一步探索代价敏感学习策略在更大规模数据集或不同任务场景下的表现,以便人文学者不受硬件制约,提高研究效率,专注于更深层次的学术探索。


Multi-Granularity Entity Recognition in Chinese Classical Texts Based on Cost-Sensitive Learning

Lin Xiaoci, Wang Bin, Yu Linxuan, Wu Yuhan, Bao Ping, Li Hui

Abstract: To further improve recognizing entities of multi-level granularity, including nested entities, in the intelligent processing of Chinese classical texts, this study proposes an entity recognition approach that incorporates a cost-sensitive learning strategy, with a focus on local gazetteers as empirical data. Faced with challenges such as limited training data, diverse entity types, and uneven entity density distribution in classical Chinese texts, we select large language models, namely Qwen-7B and Chinese-Alpaca-2-7B, as well as traditional non-large language model methods, namely MRC and BERT-Span, as baseline models. A cost-sensitive learning mechanism based on weighted cross-entropy loss is introduced to adjust the learning weights for different entities, thereby improving the performance of entity recognition. Comparative experimental results indicate that integrating a cost-sensitive mechanism enhances the entity recognition accuracy of all four methods. Large language models demonstrate particularly strong performance across multi-granularity entity recognition tasks—including product names, personal names, and place names—achieving macro-average F1 scores as high as 83.54% and micro-average F1 scores up to 83.09%. These findings indicate that the cost-sensitive strategy enhances the model’s robustness effectively and mitigates issues related to data scale and distribution, contributing to the precision improvement of recognition of complex entities. The proposed approach is highly extensible and can be applied to various entity recognition algorithms. This research contributes a practical and scalable solution for enhancing information extraction and utilization from historical texts.

Keywords: Cost-Sensitive Learning; Entity Recognition; Cross-Entropy Loss; Nested Entity; Large Language Models


编辑 | 程宁

本文系江苏省社会科学基金青年项目“数字人文驱动的江苏地理志物产资料整理与深度利用研究”(24TQC003)、中央高校基本科研业务费专项资金(SKCX2025006)、国家古籍工作重点课题“海外典籍数字化技术调查与应用研究”(22GJK004)的研究成果。研究过程中,得到南京农业大学高性能计算公共平台和生物信息学中心高性能计算平台的支持,在此表示衷心感谢。


向上滑动 查看注释


[1]张盼:《〈香港志〉面世——一本香港的“百科全书”》,《人民日报(海外版)》2021年1月9日,第4版。

[2]徐晨飞等:《基于深度学习的方志物产资料实体自动识别模型构建研究》,《数据分析与知识发现》2020年第8期;李娜:《面向方志类古籍的多类型命名实体联合自动识别模型构建》,《图书馆论坛》2021年第12期;翟姗姗等:《基于多维特征分析的戏曲类方志文献命名实体识别研究》,《情报学报》2024年第9期;熊欣等:《面向方志知识图谱的术语抽取模型迁移学习研究》,《情报理论与实践》2021年第4期。

[3]苏祺等:《CCL23-Eval任务1总结报告:古籍命名实体识别总结报告》,第22届中国计算语言学大会论文,黑龙江哈尔滨,2023年8月。

[4]张兴华等:《CCL23-Eval任务1系统报告:基于信息论约束及篇章信息的古籍命名实体识别》,王兴权等:《CCL23-Eval任务1系统报告:基于持续预训练方法与上下文增强策略的古籍命名实体识别》,李剑龙等:《CCL23-Eval任务1系统报告:基于增量预训练与对抗学习的古籍命名实体识别》,第22届中国计算语言学大会论文,黑龙江哈尔滨,2023年8月。

[5]苏祺等:《古籍数字化关键技术评述》,《数字人文研究》2021年第3期。

[6]谢志强:《基于〈史记〉的古汉语嵌套命名实体数据集构建及其识别研究》,硕士学位论文,华中科技大学,2023年,第56页。

[7]Ye Xia, Bin Wang, Linxuan Yu et al., “Detecting Entity Descriptions from Chinese Historical Texts,” Second International Workshop on Geographic Information Extraction from Texts, 46th European Conference on Information Retrieval, Glasgow, UK, 2024.

[8]李斌等:《基于提示学习和全局指针网络的中文古籍实体关系联合抽取方法》,《计算机应用》2025年第1期。

[9]Haibo He, Edward A. Garcia, “Learning from Imbalanced Data,” IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 9, 2009, pp. 1263-1284.

[10]Shoujin Wang, Wei Liu, Jia Wu et al. “Training Deep Neural Networks on Imbalanced Data Sets,” International Joint Conference on Neural Networks, 2016, pp. 4368-4374.

[11]罗彤瑶等:《融合形态特征的小样本青铜器铭文分类算法》,《激光与光电子学进展》2023年第4期。

[12]Steven Y. Feng, Varun Gangal, Wei Jason et al. “A Survey of Data Augmentation Approaches for NLP,” arXiv preprint, arXiv: 2105.03075, 2021.

[13]Bohan Li, Yutai Hou, Wanxiang Che, “Data Augmentation Approaches in Natural Language Processing: a Survey,” AI Open, vol.3, 2022, pp.71-90.

[14]Yin Cui, Menglin Jia, Tsung-Yi Lin et al., “Class-balanced Loss based on Effective Number of Samples,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 9268-9277.

[15]刘树栋等:《类别不均衡学习中的抽样策略研究》,《计算机工程与应用》2019年第21期。

[16]Chengxi Yan, Xuemei Tang, Hao Yang et al., “A deep active learning-based and crowdsourcing-assisted solution for named entity recognition in Chinese historical corpora,” Aslib Journal of Information Management, vol.75, no.3, 2023, pp.455-480.

[17]Yutong Shen, Jiahuan Li, Shujian Huang et al., “Data Augmentation for Low-resource Word Segmentation and POS Tagging of Ancient Chinese Texts,” Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages, 2022, pp.169–173.

[18]Tom Brown, Benjamin Mann, Nick Ryder et al., “Language Models are Few-shot Learners,” Advances in Neural Information Processing Systems, vol.33, 2020, pp.1877-1901.

[19]Jacob Devlin, Ming-Wei Chang, Kenton Lee et al., “Bert: Pre-training of deep bidirectional transformers for language understanding,” Proceedings of the 2019 conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol.1, 2019, pp. 4171-4186.

[20]Edward J. Hu, Yelong Shen, Phillip Wallis et al., “Lora: Low-rank adaptation of large language models,”arXiv preprint, arXiv: 2106.09685v2, 2021.

[21]ChatGPT3 Prompt Engineering. https://github.com/mattnigh/ChatGPT3-Free-Prompt-List, accessed on September 1, 2024.

[22]Sheila Teo, “How I Won Singapore’s GPT-4 Prompt Engineering Competition,” https://towardsdatascience.com/how-i-won-singapores-gpt-4-prompt-engineering-competition-34c195a93d41, accessed on September 1, 2024.

[23]Ming Wang, Yuanzhong Liu, Xiaoyu Liang et al., “LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming Language,”arXiv preprint, arXiv: 2402.16929, 2024.

[24]荀子系列大语言模型,https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM,2024年10月1日。

[25]张君冬等:《AIGC赋能中医古籍活化:Huang-Di大模型的构建》,《图书馆论坛》2024年第10期。

[26]AI太炎大语言模型,https://t.shenshen.wiki/,2024年10月1日。

[27]Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang et al., “Investigating the Effectiveness of Task-agnostic Prefix Prompt for Instruction Following,” Proceedings of the AAAI Conference on Artificial Intelligence, vol.38, no.17, 2024, pp.19386-19394.

[28]赵志枭等:《基于领域大语言模型的古籍实体抽取研究》,东亚数字人文会议,韩国首尔,2024年。

[29]何宇浩等:《基于GPTs的中医知识图谱实体和关系抽取研究》,《上海中医药杂志》2024年第8期。

[30]Carlos-Emiliano, González-Gallardo, Hanh Thi Hong Tran et al., “Leveraging Open Large Language Models for Historical Named Entity Recognition,” The 28th International Conference on Theory and Practice of Digital Libraries, 2024.

[31]Ye Xia et al., “Detecting Entity Descriptions from Chinese Historical Texts,”pp.2-3.

[32]通义千问,https://huggingface.co/Qwen/Qwen-7B,2024年10月1日。

[33]中文LLaMA-2&Alpaca-2大模型,https://github.com/ymcui/Chinese-LLaMA-Alpaca-2,2024年10月1日。

[34]Xiaoya Li, Jingrong Feng, Yuxian Meng et al., “A Unified MRC Framework for Named Entity Recognition,”arXiv preprint, arXiv: 1910.11476,2019.

[35]严承希等:《HanNER:一个面向汉语古籍语料命名实体自动抽取的通用框架》,《情报学报》2023年第2期;卢彤彤等:《古代战争知识图谱构建与应用——以宋元时期为例》,《图书馆论坛》2024年第8期。


点击下方链接,下载原文


融合代价敏感学习的古文多粒度实体识别研究.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg


阅读原文

跳转微信打开

  •  

会议综述丨人工智能与人文艺术研究合作仪式暨“智镜”项目发布会

2025-12-08 11:09 北京

人工智能与人文艺术研究合作仪式暨“智镜”项目发布会在北京大学举办。

12月6日,由北京大学艺术学院、清华大学-同方知网数字人文联合研究中心、中国艺术研究院艺术哲学与艺术史研究中心、河北美术学院人工智能人文艺术中心联合主办的“人工智能与人文艺术研究合作仪式暨智镜项目发布会”及“人工智能与人文艺术研究学术论坛”在北京大学红三楼均斋报告厅举行。来自全国多所高校及科研机构的专家学者与会,共同探讨人工智能技术与人文艺术融合发展的前沿议题与实践路径。

人工智能人文艺术研究合作仪式

北京大学社科部部长初晓波在致辞中指出,人工智能是引领科技革命和产业变革的战略性技术,北京大学近年从“数字人文年”到“科技创新年”,持续推进人文社科的数字化转型,计划在未来2至3年内建成“文科数字化教育公共平台”。他表示,“智镜”项目旨在构建基于中国传统审美立场的大模型审美评测机制,是人工智能与人文艺术交叉研究的重要探索。

清华大学人文学院副院长张乐燕回顾了该校数字人文研究的发展历程。清华大学已构建起涵盖科研、出版、教学、平台建设的数字人文学术生态链。她认为,此次跨学科合作将有助于打破学术壁垒,推动传统文化在智能时代的转型。

中国艺术研究院《文艺研究》杂志社社长王伟表示,《文艺研究》将持续关注人工智能与艺术研究的结合。四方合作将整合各方优势,共同开拓该领域的研究新局面。

河北美术学院校长甄忠义介绍了学校在“人工智能+艺术教育”方面的多项实践。他认为,与顶尖学术机构的合作对深化艺术与科技的融合至关重要。他展望了未来四方在基础研究、课程研发、艺术创作、交流传播等方面的合作前景,并代表学校郑重承诺将以最大诚意和切实努力履行合作责任,共同为人工智能时代的人文艺术繁荣贡献力量。

四方致辞后,北京大学艺术学院院长李洋、清华大学人文学院教授李飞跃、中国艺术研究院《文艺研究》主编李修建、河北美术学院执行校长甄墨代表四方机构,签署《人工智能人文艺术研究与应用合作备忘录》。约定将在学术平台共建、创作实践推动、教育改革试验、学术交流传播等方面遵循“平等互利、优势互补、协同创新、共同发展”的原则开展深度合作。

“智镜”项目发布会

签约仪式后,北京大学计算艺术实验室正式发布“智镜”项目。该项目负责人、北京大学艺术学院院长李洋教授介绍,“智镜”致力于构建国内首个以中国传统审美为立场的多模态大模型审美评测框架与基准,以填补AI美学研究的本土化空白,项目秉承专家驱动,邀请国内十多所院校的青年学者和优秀博士生作为特约评审专家,运用中国古典书画数据,通过随机匿名对战和选择性对战的形式,对当前28个最活跃的全球通用大语言模型的审美力进行评估,经过2轮评估,推出大语言模型审美力排行榜,并发布具备理论深度与实践效度的评测标准,并为AI价值对齐、AIGC内容质量控制等提供支撑。

项目研发团队成员张航宇副教授从技术角度解读了“智镜”的算法设计与评测体系。

四位来自不同高校的首批评测专家分享了使用体验,肯定了该平台在图像分析与文化语境理解方面的参考价值,并就AI未来优化方向提出了建议。

发布会同时展示了其他人文学科数据库的建设成果。上海外国语大学世界艺术史研究所张彬彬副研究员介绍了“汉代图像数据库与形相学标注系统”的升级工作,旨在构建高质量图像数据集。清华大学人文学院严程副教授报告了“全球汉籍影像开放集成系统”的进展,该系统已聚合近70万条古籍资源,并正式发布了AI智能版。

上海外国语大学世界艺术史研究所

张彬彬副研究员

清华大学人文学院严程副教授

“人工智能与人文艺术研究”

学术论坛

下午举行的“人工智能与人文艺术研究学术论坛”上,六位学者发表了报告。北京理工大学软件学院院长丁刚毅教授探讨了智能仿真技术在重大文化工程项目中的应用。北京大学文化产业研究院院长向勇教授介绍了“洛神赋智能创作器”在中华美学基因数智转化方面的实践。北京大学王选计算机研究所刘家瑛教授分析了图像生成技术面临的挑战及其在传统文化领域的应用潜力。清华大学人文学院李飞跃教授论述了数字人文如何促进了古典文献研究将主观审美与客观测量的结合,带来了知识新秩序。美国加州大学圣地亚哥分校王德龙博士阐述了构建多模态戏曲音乐数据库的技术路径与文化意义。北京大学人工智能研究院张钊为博士报告了关于大模型从价值对齐迈向共识对齐的研究思考。

北京理工大学软件学院院长丁刚毅

教授

北京大学文化产业研究院院长向勇

教授

北京大学王选计算机研究所刘家瑛

教授

清华大学人文学院李飞跃

教授

美国加州大学圣地亚哥分校王德龙

博士

北京大学人工智能研究院张钊为

博士

本次发布会及论坛集中展示了我国在人工智能与人文艺术交叉领域的最新合作动向与研究成果。四方合作机制的建立与“智镜”项目的发布,标志着该领域进入了有组织的系统化推进阶段,将为人工智能时代的文化传承与创新提供学术支撑与实践范例。作为联合主办方,我校也将以此为契机,持续深化“人工智能+艺术教育”改革,不断探索艺术与科技融合的新路径,为培养新时代艺术人才、推动文化传承创新贡献力量。

END



阅读原文

跳转微信打开

  •  

四方合作推动人工智能人文艺术研究 “智镜”项目发布

2025-12-08 11:09 北京

中新网北京12月7日电 (记者 高凯)“人工智能与人文艺术研究合作仪式暨智镜项目发布会”日前在北京大学举行。

此次活动由北京大学艺术学院主办,清华大学-同方知网数字人文联合研究中心、中国艺术研究院艺术哲学与艺术史研究中心、河北美术学院人工智能人文艺术中心联合主办,活动中签署了《人工智能人文艺术研究与应用合作备忘录》,约定将在学术平台共建、艺术教育改革及学术交流等方面开展合作。并正式发布“智镜”大语言模型审美评估平台。


微信图片_20251208102805_2732_471.png

活动现场。主办方供图

北京大学计算艺术实验室当日正式发布“智镜”项目。该项目负责人、北京大学艺术学院院长李洋教授介绍,“智镜”致力于构建国内首个以中国传统审美为立场的多模态大模型审美评测框架与基准,以填补AI美学研究的本土化空白,项目秉承专家驱动,邀请国内十多所院校的青年学者和优秀博士生作为特约评审专家,运用中国古典书画数据,通过随机匿名对战和选择性对战的形式,对当前28个最活跃的全球通用大语言模型的审美力进行评估,经过2轮评估,推出大语言模型审美力排行榜,并发布具备理论深度与实践效度的评测标准,并为AI价值对齐、AIGC内容质量控制等提供支撑。

项目研发团队成员张航宇副教授从技术角度解读了“智镜”的算法设计与评测体系。四位来自不同高校的首批评测专家分享了使用体验,肯定了该平台在图像分析与文化语境理解方面的参考价值,并就AI未来优化方向提出了建议。

发布会同时展示了其他人文学科数据库的建设成果。上海外国语大学世界艺术史研究所张彬彬副研究员介绍了“汉代图像数据库与形相学标注系统”的升级工作。清华大学人文学院严程副教授报告了“全球汉籍影像开放集成系统”的进展,该系统已聚合近70万条古籍资源,并正式发布了AI智能版。

“人工智能与人文艺术研究学术论坛”上,六位学者发表相关报告。

本次发布会及论坛集中展示了我国在人工智能与人文艺术交叉领域的最新合作动向与研究成果。四方合作机制的建立与“智镜”项目的发布,被认为标志着该领域进入了有组织的系统化推进阶段,将为人工智能时代的文化传承与创新提供学术支撑与实践范例。(完)


阅读原文

跳转微信打开

  •  

论坛预告|人工智能与人文艺术研究学术论坛

2025-12-05 11:49 北京

本次论坛以 “技术赋能人文研究创新” 为核心导向,旨在依托人工智能技术推动艺术理论与人文艺术研究的范式革新,深度研讨大语言模型等智能工具在人文研究领域的应用潜力与边界局限,进而系统反思人机交互语境下的人文学术方法论转型。

为探索人工智能技术与人文学科的深度融合路径,北京大学艺术学院联合清华大学 - 同方知网数字人文联合研究中心、中国艺术研究院艺术哲学与艺术史研究中心、河北美术学院人工智能人文艺术中心,共同主办 “人工智能与人文艺术研究学术论坛”。同步举办人工智能与人文艺术研究合作启动仪式暨「智镜」项目发布会。

本次论坛以 “技术赋能人文研究创新” 为核心导向,旨在依托人工智能技术推动艺术理论与人文艺术研究的范式革新,深度研讨大语言模型等智能工具在人文研究领域的应用潜力与边界局限,进而系统反思人机交互语境下的人文学术方法论转型。


时间

2025年12月6日 9:00-18:00

地点

北京大学红三楼均斋报告厅

主办

单位

北京大学艺术学院

联合

单位

清华大学-同方知网数字人文联合研究中心中国艺术研究院艺术哲学与艺术史研究中心、河北美术学院人工智能人文艺术中心


图片

论坛将汇聚国内人工智能、艺术理论、数字人文等领域的顶尖学者、行业专家及青年研究者,通过主题报告、圆桌研讨、成果展示等多元形式,搭建跨学科、跨机构的学术交流平台。与会嘉宾将展开深度对话、分享前沿技术应用案例、直面学科融合中的理论困境与实践难题,为人工智能与人文艺术的融合研究提供可落地的实践载体,推动相关领域研究从理论探索走向应用落地。


人工智能与人文艺术研究合作启动仪式

9:00—9:30

北京大学艺术学院

清华大学-同方知网数字人文联合研究中心

中国艺术研究院艺术哲学与艺术史研究中心

河北美术学院人工智能人文艺术中心


「智镜」项目发布会

9:30 — 12:00

北京大学艺术学院李洋教授团队研发的「智镜」项目基于中国古代审美立场对大语言模型进行审美评估。旨在构建一个从中国传统审美出发的多模态大模型(LLM)审美评测基准(Bench-mark),项目核心任务是设计一套兼具理论深度与实践效度的审美评测框架,用以量化评估现有主流AI大模型在理解、诠释及生成中式艺术作品方面的审美能力。研究成果将致力于为AI价值对齐、AIGC内容质量控制等领域提供实证依据与学术参考,联合学者、艺术家构建权威评估体系,助力AI价值对齐与文化传承,为AIGC质量评估提供量化数据支撑。


何为智镜:大模型审美测评的

战略意义与学术价值



李洋.jpg

李洋

(北京大学艺术学院院长、教授)


智镜何为:智镜大模型审美评测的

技术内核与算法设计


张航宇.jpg

张航宇

(智镜项目研发小组成员、副教授)


智镜首批评测专家圆桌分享会


周若菲

(北京大学艺术学院博士、首都师范大学博士后

辛梦玮

(浙江大学艺术与考古学院博士研究生)

孙千雅

(清华大学艺术学理论博士研究生)

陈冠石

(中央美术学院人文学院博士研究生)


艺术人文数据库专家分享


汉代图像数据库与形相学标注系统

张彬彬.jpg

张彬彬

(上海外国语大学世界艺术史研究所副研究员)

全球汉籍影像开放集成系统:

大模型驱动的资源聚合基础设施

严程.png

严 程

(清华大学人文学院副教授)


“人工智能与人文艺术研究”学术论坛

上半场 14:00—15:30


主持人:李修建(《文艺研究》主编 )


智能仿真探索与实践


丁刚毅.jpg

丁刚毅

(北京理工大学软件学院院长、教授)


中华美学基因的数智转化:

以洛神赋智能创作器为例


向勇.jpg

向勇

 (北京大学文化产业研究院院长、北京大学艺术学院教授)


图像生成之美


刘家瑛.png

刘家瑛

 (北京大学王选计算机研究所教授)


“人工智能与人文艺术研究”学术论坛

下半场 15:30—17:00


主持人:施畅 (北京大学艺术学院研究员)


古典文献数字化的

文本测量与知识对齐


李飞跃.png

李飞跃

(清华大学人文学院教授)


从传承到共创:构建面向人工智能时代的

多模态戏曲音乐数据库


王德龙.jpg

王德龙

(美国加利福尼亚大学圣地亚哥分校博士)


从大语言模型的价值对齐到共识对齐


张钊为.png

张钊为

(北京大学人工智能研究院博士生、杨耀东团队代表)

本次论坛线上直播预约:


640.png


北京大学计算艺术实验室

北京大学计算艺术实验室由北京大学艺术学院牵头及相关科研机构协同建设,成立于2019年5月,是依托多学科优势,开展面向艺术创作、文化传播、教育教学等领域的交叉研究与应用探索的校级实验室。实验室以“技术驱动+文化引领”为核心理念,推动人工智能赋能中华优秀传统文化的创新表达、传播与应用。实验室聚焦中华艺术资源的数字化整理、智能化理解与生成式创作,探索科技与艺术深度融合的实践路径。

清华大学-同方知网数字人文联合研究中心

清华大学与同方知网数字科技有限公司联合成立“清华大学-同方知网数字人文联合研究中心”,主要任务是开展中华传统文化大模型、数字人文AI辅助科研教学平台、文献数字编年、人文社科创新评价体系、文物数字化等数字人文领域关键技术研究,服务于交叉学科的教学、科研和人才培养,促进优秀传统文化的创造性转化和创新性发展。

中国艺术研究院艺术哲学与艺术史研究中心

中国艺术研究院艺术哲学与艺术史研究中心成立于2020年,是依托《文艺研究》成立的专业学术平台。中心秉持“编研一体”理念,着力提升编辑团队的学术研究能力,以前沿的学术视野深化对学科动态的洞察和把握,从而持续增强办刊的学术深度和引领作用。同时,中心积极拓展对外交流,与国内外高等院校、科研机构建立广泛合作,通过组织学术会议、工作坊等学术活动,构建开放、协作、活跃的学术共同体,不断激发艺术领域的学术活力,推动中国艺术学“三大体系”的建设与发展。

河北美术学院人工智能人文艺术中心

河北美术学院人工智能人文艺术中心是学校推动艺术与科技融合发展的综合性平台。中心聚焦人工智能时代的艺术创作、理论研究和教育创新,致力于构建集学术研究、创作实践、课程研发与社会服务于一体的协同体系。依托学校现有资源,重点开展智能艺术评价、传统美学数字化、技术赋能创作等方向的研究,积极探索艺术教育新路径。中心积极对接国内外高校、机构与企业,开展项目合作与学术交流,推动成果转化与人才培养,努力建设成为具有区域影响力的特色研究高地,为学校发展与艺术教育变革提供持续支撑。

编辑|陈佳苗

审核|李   洋


阅读原文

跳转微信打开

  •  

数字古籍整理平台的功能分析与校勘维度考察

原创 李林芳 2025-12-04 10:00 北京

随着古籍数字化及数字人文的飞速发展,近些年诸多数字古籍整理平台于网络上涌现,并产生了广泛影响。

版本·目录·校勘



封面.png

李林芳/北京大学中国古文献研究中心、北京大学中国语言文学系


要:随着古籍数字化及数字人文的飞速发展,近些年诸多数字古籍整理平台于网络上涌现,并产生了广泛影响。其基本功能通常有图像文字转换、协助转换校对、协助文本格式处理、自动标点、文本对勘、其他相关功能,并设计有流程系统、合作系统;根据对各功能的支持情况,可对诸平台进行分类。数字古籍整理平台在古籍整理方面具有非常重要的意义,但是在校勘功能上却支持羸弱,应进一步建设加强。经全面梳理分析校勘的具体步骤,可见数字手段能全面应用于校勘实践的各个环节,并能促进校勘学理论的发展。由于校勘在古籍整理中具有核心地位,可考虑建设以校勘为中心的数字古籍整理平台,从而完善平台建设,更好地实现古籍整理的目的,促进古籍整理实践和理论的不断推进。

关键词:数字 古籍整理 平台 校勘 古籍数字化



随着古籍数字化的不断推进及数字人文的飞速发展,愈来愈多的数字古籍整理平台在网络上出现。它们直接针对古籍整理的各项环节进行设计,利用数字技术在功能、流程、模式上提供支撑,极大地便利了整理工作的开展,已经成为古籍整理中不可忽视的基础设施和技术力量。

同时可以注意到,目前的各个平台具有许多相近或相同的功能。若将古籍整理的经典方式与这些功能相对照,可见某些整理方式已为一些功能较好地支持,但另有些整理方式却尚缺实现。特别是在古籍整理的关键项目校勘上,目前绝大部分的古籍整理平台都未涉及或只有很初步的功能。由于这些数字古籍整理平台是在近些年集中出现的,因此尚未见从功能层面对其加以分析考察的研究。面对以上情况,我们认为有必要对平台的功能现状做全面分析,在此基础上讨论其关于校勘的实现情况,分析数字时代校勘实践及校勘学理论的进益,最后尝试提出一种以校勘为中心的古籍整理平台,从而促进古籍整理平台的不断完善,实现古籍整理理论和实践的全面跨越。


一、主要平台及其功能


本文所谓的数字古籍整理平台指的是运用数字技术,主要目的是服务于古籍整理,于网络上公开提供非特定用户使用的一套基础设施。目前其名称通常含有“古籍”,并包括“数字”“智能”“整理”“工作”“平台”等表述;形态主要为网站,其中提供了许多与古籍整理有关的功能。用户可直接使用这些功能进行古籍整理;或在相关功能的帮助下,辅助自己完成古籍整理任务。

(一)数字古籍整理平台的历史发展与现状

从历史发展上看,随着古籍数字化的开展和古籍数据库的建设,许多建设者已在使用多种工具、软件等进行古籍数字化工作。主要任务包括形成古籍图像,在图像的基础上通过人工或OCR方式形成文本数据,其间还可能有分段、标点等的需求,这已可认为是古籍整理的一种方式了。不过,此类工具、软件及由之构成的平台等多只为专门的古籍资料而开发,且并不开放。换言之,建设的关键在于最终形成的已经数字化的古籍文献,一般以古籍数据库的形式呈现,重点并非工具、软件、平台本身。[1]

在这一过程中,有些数据公司开发了专门的数字化产品供相关单位使用,以提升古籍数字化的效率,如“青典数字化系统”。该系统于2003年12月开发完成,包括数据加工子系统、信息检索子系统、数据浏览子系统等,其数据加工流程有高速扫描、OCR、人工辅助校对、输出转换、发布、浏览检索、打印印刷等步骤,从而实现古籍数字化。此外,学界也一直有利用计算机技术辅助古籍整理的研究[2]及针对古籍数字化的研究[3],并于较早时期已设计有实验性质的古籍智能处理系统,如常娥先生的“古籍智能化处理实验系统”,即包含了古籍自动校勘、古籍自动编纂、辅助工具这三大子系统。[4]顾磊等先生也有类似的设计。[5]

在以上建设与研究的基础上,数字古籍整理平台于2018年前后开始涌现。与以往系统相区别,新平台的特点不仅体现在技术能力上的增加,更主要的是具有明显的开放性,即面向广泛的不特定群体提供服务,而非内部的工作系统、演示系统、实验系统。这些平台有“(籍合网)古籍整理工作平台”(2018)、“(籍合网)古籍智能整理平台”(2022)、“(学衡数据)古籍文本对勘、古籍标点过录”(2018)、“‘中央研究院’文字辨识与校对平台”(2018)、“如是古籍数字化工具平台”(2019)、“吾与点古籍自动整理系统”(2021)、“古籍酷”(2021)、“智慧古籍平台”(2021)、“看典古籍”(2023)、“识典古籍整理平台”(2024)、“助校古籍智慧整理平台”(2024)等。其中,“(籍合网)古籍整理工作平台”是最早一批出现且非常具有代表性的古籍整理平台,于2018年初上线,对后来其他古籍整理平台的功能设计影响很大。经过多年的完善,其已成为含OCR、标点、对校、智能标引、注释、翻译、在线编校等功能,支持流程化古籍整理,具有众包管理系统的古籍整理平台。另一具有代表性的为“如是古籍数字化工具平台”,于2019年前后上线,其中共包含“如是OCR”“智能标点”“标点迁移”“多文本比对”四大功能,不过未做专门的流程化设计。使用者可根据自己的需求,任意选择其一使用。近年影响较大的是“识典古籍整理平台”,于2022年6月开始建设,早先用为内部系统,后于2024年1月对公众开放。[6]其以整理流程为中心,设计更加精细详明,主要流程包括“粗校流程”“精校流程”“增强阅读”等,具体功能则内化于各流程之中。其余平台亦有类似的功能安排和各自的独到之处。[7]

其实,除了上述古籍整理平台外,还有许多与古籍整理有关的平台。这些平台也能够为古籍整理提供重要服务,不过其中的功能或相对集中于某一个方面;或功能广泛,而古籍整理只是其中的一环。一类具有代表性的是古籍OCR平台,即专门支持古籍图像文本转换的平台,如“i-慧眼OCR”等。由于在古籍数字化中,将图像转换为文本是一迫切需要;而对于使用数字手段整理古籍而言,获得古籍文本也是一项先决条件,故而古籍OCR平台就与古籍整理具有了密切的内在关联。从某种意义上看,许多数字古籍整理平台就是从古籍OCR平台上进一步扩充功能、完善需求而发展出来的;而在数字古籍整理平台上,OCR也通常是关键功能之一和首先要进行的操作。由于其功能已被数字古籍整理平台所包含,故本文不再专门考察。另一类是生成式大语言模型及在此基础上建设的有关平台等,即借助于生成式大语言模型的通用特性并做针对性地训练,相关平台中能够实现与古籍整理有关的标点、注释、翻译等任务,从而辅助古籍整理,如“AI太炎”。[8]由于此类平台并非专门服务于古籍整理,而古籍整理相关任务只是平台众多功能之一;且在数字古籍整理平台中,其标点、注释、翻译等任务也往往会采用相同或近似的原理实现。故本文亦不将此类平台纳入讨论。

(二)数字古籍整理平台的主要功能

前文在简要介绍古籍整理平台时,已提及其所具有的主要功能。从表面上看,每一平台都支持多种与古籍整理直接相关的功能,且常见某些独特的设计;然而从古籍整理的角度观察,这些功能与设计中其实含有诸多共性,可总结为数种彼此相关的类型,并据而展开统一的分析。以下将对此做专门考察。

1.基本功能

由于直接服务于古籍整理,各平台所提供的主要功能都围绕着整理古籍而展开。这些功能或作为独立模块而出现,或与其他功能合并设置。从其主要情况看,可分为以下类型:

第一,图像文字转换。即通过OCR技术,将古籍图像转换为文字。这一步通常是后续整理的先决步骤,因为接下来的整理操作都需要在文本上进行。该功能通常设计为单独的模块,或者与“协助转换校对”(见下)组合在一起,实现对文本的准确转换。

第二,协助转换校对。由于OCR技术本身的特性,以及古籍自身和古籍图像的特点,如涉及字符量大、版面复杂,图像模糊、缺损、清晰度不够等,所识别出来的文字未必完全准确,故通常需要进一步校对文本,使OCR后的文字与古籍原文完全一致。由于此种校对必须人工参与,故该功能通常为协助校对,即通过多种手段为校核更正提供方便,如将转换后的文本逐行列在原图像每行之旁并对齐二者文字,将可信度低的文字以另外色彩显示,提供其他OCR结果、自动比较并显示差异等。该功能通常与“图像文字转换”组合在一起,也有设置为单独模块的。

第三,协助文本格式处理。此处文本格式指文字之外的结构方面的特征,如标题、正文、注文、表格等,以及各类文本中的段落等。该功能既可通过相关算法由计算机自动实现并辅以人工校核,亦可提供相应编辑器,由人工标注区别。其可能为单独的模块,亦可能为编辑器及其中相关按键的形式而不具有明显的独立性。

第四,自动标点。标点符号又可分为点号和标号,前者指句号、问号、叹号、逗号、顿号、分号、冒号等表停顿和语气的符号,后者指书名号、专名号、引号等标示某些成分的特定性质和作用的符号。[9]该功能为通过相关算法,在文本上加入现代标点符号。值得注意的是,虽然“标点”一词通常并提,然而在具体实现时往往涉及不同的算法;特别是施加标号更多关联于命名实体识别、引文识别、相似文本识别等技术,所以通常更加复杂。许多平台会集成自动施加点号功能,某些平台还会集成自动施加标号功能。需要留意的是,平台中的“自动标点”通常只是自动施加点号。施加标号则一般与“命名实体识别”等功能相关,不过该功能往往涉及更多的命名实体,不止是标号所涵盖的人名、地名、书名等;而施加引号则极少有平台公开支持。另外,某些平台还支持自动加句读,即只通过某一二符号断开句子,但并不要求符合现代标点符号之规范。

第五,文本对勘。即通过特定的文本比对算法,将不同文本(通常为同一古籍的不同版本)相互对照,比较异同;并将比较结果按照一定的格式显示出来:或者在原文本上直接输出,或者在他处另行输出。该功能通常为单独的模块,并常以“多文本比对”等方式命名。

第六,其他古籍整理相关功能。这些是尚未得以普遍实现,但也具有代表性,且与古籍整理直接相关的功能。如自动注释和翻译,通常为使用人工智能技术,对古籍字词按需进行注释,并对句段加以翻译。又如繁简转换、文本纠错(文字、标点、纪年),以及电子辞典等其他知识类工具,乃至整理功能的API支持等。

在前述诸功能中,除了第六项外,第一项、第二项与古籍OCR相关,第三项属于文本编辑领域的问题,第四项、第五项与古籍文本处理相关。而从对这些基本功能的支持情况中,可以进一步对现有平台进行分类,详见下文讨论。

2.流程系统

由于古籍整理具有步骤间的依赖性,即前一步骤往往是后一步骤的前提,后一步骤需要在前一步骤的基础上开展工作,所以许多平台还设计了流程系统,即将各项功能依其次序有机组合在一起,特别是根据各功能间的逻辑关系形成前后搭配的结构,从而构成完善的工具链。使用者可以顺着系统所提供的导航次序逐一前进,待全部项目进展完毕,亦即完成了古籍整理的全套工序。这一流程的常见形式如下:先为图像文本转换,继而为文字校对及格式处理,随后是自动标点,接下来是文本对勘,最后到其他相关功能。

3.合作系统

有些古籍卷帙较大,仅凭一人之力可能难以完成。这时往往汇集众人之力开展工作。在古代,这一工作可能是由多位相互熟识的学者分工协作完成的。而在今天,借助于计算机网络的便利,我们可以摆脱时间地点的局限,将整个工程拆分成细粒度的工作任务,并在不同时间交由不同地区的学者来合作完成。这一设想已为某些平台中的合作系统所实现,“众包”功能即是常见代表。具体来说,平台将古籍整理工作(通常是按照古籍的卷帙)切分为具体的任务并发布,诸多独立的整理者各自于平台上申领任务,完成相应的整理要求;平台将整理者的工作成果整合在一起,汇总为最终的古籍整理成果。

4.功能实现情况及平台分类

前述诸主要功能在各整理平台中的实现情况如下:[10]

图1.png [11][12][13][14][15][16][17][18][19]

针对前述基本功能的实现情况,可将各整理平台分成三大类:

第一类为OCR侧重型平台。此类平台重在图像至文本的转换,及转换后文本的校对,故其功能也主要集中在这两方面,而其他方面则几乎没有实现,如“‘中央研究院’文字辨识与校对平台”“看典古籍”“助校古籍智慧整理平台”。在此类平台中,协助文本校对功能可以非常强大,其中能细化出多种小功能。

第二类为文本侧重型平台。此类平台重在古籍文本的处理,特别是自动标点、版本比对等常见古籍整理任务,故其功能也主要集中在这两方面,如“(学衡数据)古籍文本对勘、古籍标点过录”“吾与点古籍自动整理系统”。

第三类为多功能型平台。此类平台兼具有第一类和第二类平台的较完整功能,且往往更加全面,典型的如“(籍合网)古籍整理工作平台”和“识典古籍整理平台”。另外,由于支持“文本对勘”功能的平台较少,又表格中的“自动点号”和“自动标号”为前文的“自动标点”功能,可相对放宽标准,故“(籍合网)古籍智能整理平台”“如是古籍数字化工具平台”“古籍酷”“智慧古籍平台”亦可纳入此类。从功能数量上看,此类平台至少能支持基本功能6种(“自动标点”拆为2种,其他功能不计入)中的4种。

上述三种类型也与古籍整理平台的沿革情况相关。前文已述,OCR技术的发展极大地提升了古籍图像转换为文本的效率,对于古籍数字化具有关键的推动作用;而在具体的古籍整理中,文本处理环节,如标点、校对等,均至关重要,并且目前的技术已能提供良好的支持——因此会产生前两类平台。而第三类平台则是将两方面的功能都包罗进去,从而更加全面,是进一步发展的结果。

此外,从“流程系统”和“合作系统”两方面也可以对诸平台进行分类,以见各平台在整理模式上的侧重,例如各功能间的组配情形,倾向于团队或个人工作等。由于具体情况比较清楚,此处就不再赘言了。

最后,值得一提的是,被较少支持的功能也是一项重要观察角度。从上表可见,支持数量最少的功能为“格式处理”与“文本对勘”这两项,分别为4个和5个平台支持。“格式处理”主要与文本编辑相关,暂且不论;而“文本对勘”少见支持,却是很值得重视的现象,我们将于下文集中分析。

(三)数字古籍整理平台在古籍整理方面的意义

通过上述分类总结可见,现在的数字化古籍整理平台可谓是充分地利用了计算机技术,将古籍整理工作与之密切结合,不仅增强了便利性、提高了效率,而且还在一定程度上改变了既有的整理模式。

从古籍整理的主要工作内容来看,经典的古籍整理可划分为多种方法、工序,通常有“校勘”“标点”“注释”“今译”“辑佚”等。[20]而如今整理平台的各项功能均可与之形成较良好的对应。如自动标点即对应于标点,文本对勘部分对应于校勘,自动注释与翻译对应于注释与今译。至于其他内容,如影印、辑佚与索引等,虽然在如今的平台中未设计专门的模块,不过亦可利用计算机较好地实现相应的功能。

凭借计算机技术的便捷,数字整理平台在增强便利性、提升效率方面的作用是非常显著的。如在传统整理中较为费时的文本对勘,现可以借助相关算法快速而准确地完成。更进一步,从整理模式上看,其在许多特点上也有了很大的不同。首先,在传统古籍整理中,学者们往往直接依据纸本展开工作,所得结果亦以纸本形式呈现。虽然也会涉及古籍数字化,不过是作为整理方式之一对待。然而对于数字整理平台而言,其从整理开始至结束都是以数字的方式进行的,使用者面对的是数字化后的图像和文本,所得结果也以数字形式呈现。换言之,在这一整理工序中,数字形态的文献在某种程度上已成为全部整理方式的逻辑起点和最终旨趣。其次,数字整理平台所具有的某些特性是传统整理手段很难具备的。如流程化的工作方式,对于每一整理者而言可以起到良好的向导作用。又如分工合作的工作方式,可以超越时地局限,并为项目管理带来方便。最后,在传统古籍整理工作中,全部任务往往由一位或少数几位学者完成,他们逐一完成其任务所要求的全部整理工序。即便有时需要分工,也多从书籍或书内篇章角度进行切分。而数字古籍整理平台则着重体现了另一种开展工作的方式:从每一整理环节的性质层面出发,把易做的、考辨需求低的事务交由计算机处理,更繁难复杂的事务,如不易标点之处、更为精准的注译、困难的考证等,再交由学者办理。当然,该方式在传统工作中也能见到,只是古籍整理平台通过功能设计,将该方式明确为了整理工作的底层逻辑,确认了该方式的普遍意义,并加以推广。总之,相较于传统的整理手段,数字古籍整理平台在诸多方面体现了相较于传统方式的很大不同,这些不同深刻根源于数字手段本身,而非仅为传统整理方式的简单拓展或增效,故而具有划时代的意义。


二、数字古籍整理平台的校勘功能


如前所述,目前的数字古籍整理平台在古籍整理方面,功能全面,处理高效,且具有独特的意义。不过又如前文所述,在平台诸项功能与古籍整理方法的对应中,文本对勘仅部分对应于校勘,而且该功能又为几乎最少的平台所支持。与之形成鲜明对照的,是在古籍整理诸方法里,校勘为最关键和重要者(详见第四节论述)。由此可见,在目前的数字古籍整理平台中,校勘属于尤显薄弱的项目。本节将具体讨论校勘在平台中的体现情况。

目前的数字整理平台一般都提供了图文校对功能。即由于OCR后的文本常见错误,故将该文本与所来源图像相对照,以使二者完全一致。虽然在某些平台中亦用类似于或关联于“校勘”的表达,如“对校”等,但这与古籍校勘的意义是完全不同的。古籍校勘的核心目的在于通过版本比对、异文分析等手段,使文本恢复原始面貌。然而将两文本相互对比,使某一文本与另一文本完全相同,这更接近于编辑工作中的校对,与校勘有着本质上的区别。也正由于这一缘故,在前文对平台功能的讨论中,我们将之专门分出,而未与“文本对勘”功能相混合。

在目前各古籍整理平台中,与校勘直接相关的功能主要为文本对勘,对应于校勘四法之对校。该项功能比对两个(或多个)文本的异同,归纳并呈现异文,以供进一步分析处理。然而如前文所述,支持该功能的平台其实非常有限,绝大部分平台都未予纳入。至于实现该功能的平台,其实现方式也比较简单,通常为两个或多个文本的简单比对并直接输出差异。由于一般的文本比对算法对于文本长度、文本对齐情况、是否含除文字外的其他字符(如标点、空白符等)极为敏感,故往往还需要整理者自行通过其他方式将所要比对的文本进行相应的处理,才能获得较好的对比结果。平台中的该功能相较于其他功能在设计上通常更为简易。

在进行对校时,选用上好的文本作为底本或工作底本是非常重要的,这有助于确保校勘工作的高效率、准确性、高品质。对于古籍整理平台而言,特别是在许多整理平台与古籍数据库相互关联的情况下,能够提供优质的文本作为底本,与其他古籍版本的OCR文本进行比对,是应当且适宜进行的工作。在目前的整理平台中,籍合网的古籍整理工作平台和识典古籍整理平台具有良好的实现条件,且已有一定程度的设计。其他平台或未包含古籍数据库,或其中的文本质量还需进一步优化,或未进行专门的支持,或非校勘意义上的操作。

文本对校计算出结果后,需要进行输出,方能供整理者使用。在校勘实践中,校勘成果的呈现方式会有专门的讲究,包括如何出校、如何撰写校记、是否改字等,故而比对结果的输出样式即与校勘成果之呈现方式具有密切的关联。然而,目前的古籍整理平台在输出方面的支持情况也很单一;常见的输出样式有两种:于原文上标记,在他处以表格、文字等说明;且其文句表达已然固定,通常不支持更为个性化及复杂的输出形式。

除了上述内容外,目前的古籍整理平台中就很少有关联于校勘之处了。如在校勘方法上,目前对校有较好的实现方式,但本校、他校、理校都尚未见专门设计。又如在出校形式上,目前还较为简略、单一,只是差异的直接文字表达,尚不能称为严格规范的校记。此外,在校勘的方法步骤中,除了实施和出校阶段外,还有校勘准备阶段,这一方面也未能体现出来。

总体而言,目前的数字古籍整理平台在校勘功能上还是很羸弱的。当然,这并不能视为平台所具有的问题,而是与整理平台的定位直接相关。如前所述,数字古籍整理平台之诞生发展与古籍数字化的关系极其密切,其产生便是沿着古籍数字化之需求而来。目前许多整理平台最主要的侧重仍在于古籍数字化方面,特别是将古籍图像进一步转换为文本内容,在此基础上建设相应的数据库,从而方便利用计算机检索、处理等。这与古籍数字化的发展现状是相适应的,即随着数字信息环境的到来,[21]古籍数字化研究的深入,以及政策的支持、古籍普查的推进、馆藏资源的开放等,[22]当前可谓是进入了古籍数字化的全新阶段。大量古籍文献亟须全面数字化,从而为之后的研究、利用(特别是数字人文角度的研究和利用)奠定基础。职是之故,对于许多整理平台而言,其最核心的目的其实是通过特定的流程后,形成良善的某古籍特定版本(之特定印本)的数字化文本,因此许多功能也是围绕着这一目的而开发的。

许逸民先生在谈到古籍整理——亦即对原有古籍作种种加工——之方式时,已将古籍数字化列为其中之一,指出是“运用计算机和网络技术,将古籍信息进行数字化处理,从而构建古籍数据库和古籍网络”,并概括数字化的方式为“全文本式”“全图形式”“文本带图式”。[23]由此角度来看,古籍数字化也只是古籍整理的诸多方式之一,其他方式仍需加以重视。然而,由于古籍整理平台的历史来源和当下侧重,其中与校勘有关的功能就被有意无意地忽视或轻易置之了:或只具有较为基本的功能,或未进行专门设计。也正基于此,从某种意义上看,目前的数字古籍整理平台在“古籍整理”的意义上其实也有难以尽备之处——与经典的古籍整理相较,无论在理论还是在实践成果上,都存在着较为微妙的区别。


三、数字时代的校勘实践与校勘学理论


从上文讨论可见,在目前数字古籍整理平台中,校勘功能尚属较为薄弱的环节,因此可以进一步加强建设。本节将对校勘进行深入分析,以见数字时代其实践与理论的进展可能。

(一)校勘的技术手段层面

关于校勘的具体做法,较早且明确的记载见《风俗通》(《文选注》引):“案刘向《别录》‘雠校’,一人读书,校其上下,得缪误,为校。一人持本,一人读书,若怨家相对。”[24]《太平御览》所记略有差异,作“雠校者,一人持本,一人读析,若怨家相对,故曰雠也”。[25]由是知其所记录的校勘的操作方式有两种:一种方式是由一个人来进行,持以底本,对照着参校本,来回校其文本,以见异文讹误。另一种方式则是由两人开展,一人持以底本,另一人读他本,由此而知文本差异。[26]这两种操作方式应是具体的校勘过程中所最常使用的方式,且一直为后来所继承。如西晋时的对书俑(现存湖南博物院),似乎表现的是两人相对校书的场景;相传为杨子华所绘的《北齐校书图》(现存波士顿美术馆)中,则可见一人对照两本校其文字的场面。时至今日,学者们在开展具体的校勘工作时,也基本如此操作。若所校并非一部典籍,则往往委任多人,由各擅其长者完成相应部分。如据《汉志》记载:“诏光禄大夫刘向校经传诸子诗赋,步兵校尉任宏校兵书,太史令尹咸校数术,侍医李柱国校方技。”[27]可见明显的以专业人员校理专业典籍的倾向。而张舜徽先生亦有“校书必资众手”之说,[28]论之甚详。总之,校书工作因其特性,往往需要集合众人之力方可取得较好的成效。

上一点是从文献部类层面所说的校勘者之间的分工,而由于校勘在确定正讹是非时还涉及考证(校勘考证),在这一点上有时也会形成分工,特别是当校书工程浩大、所涉知识众多时。如翁方纲《翁氏家事略记》于“乾隆三十八年癸巳”下自述其校阅《四库全书》之过程云:

自癸巳春入院修书,时于翰林院署开《四库全书》馆,以内府所藏书发出到院,及各省所进民间藏书,又院中旧贮《永乐大典》内有摘抄成卷、汇编成部之书,合三处书籍,分员校勘。每日清晨入院,院设大官厨供给桌饭。午后归寓,以是日所校阅某书应考某处,在宝善亭与同修程鱼门晋芳、姚姬川鼐、任幼植大椿诸人对案,详举所知,各开应考证之书目,携至琉璃厂书肆访查之。……[29]


从中可见相关工作:在汇集众本的基础上,有学者负责具体校勘,有学者负责讨论问题、开列考证书目并加以访查等。后者与校勘考证直接相关,包括查检书目、讨论、研究等事项,文中所提及的几位也都是当世的重要学者。总之,由于校书所关联者往往为编修典籍之系统大工程,故可能需要拆分所涉材料(书籍)、拆分所涉诸项环节,最终由团队人员集体协作、各司其职来完成该工程。以上是操作层面上的简单总结,说明了校书的具体工作方式和分工情况。而从这些内容中还可进一步总结校书时涉及的更基本的工作步骤,包括汇总诸本、对校文字、得出异文、列出疑误、考订是非等;而关于校勘考证,则又涉及汇集资料、查考资料、广泛讨论、深入研究等。值得注意的是,类似方式和步骤依然沿用在今天的校勘工作中。不过从另一方面观察,在历代的校勘实践里,似乎并未明显体现出技术手段的更新情况及影响。或许工具书的编纂和易于查检能在某些环节带来些许便利,但整体而言依然纯由人力在完成各类的主要事项及辅助工作。然而,新技术手段正在这些具体的点上对于校勘实践有更为明显的助益作用,并在一定程度上对校勘学理论有所推进。从某种意义上讲,相较于两千余年沿袭继承的操作方法,今天可谓是迎来了全面的革新。

关于如何利用技术手段辅助校勘,较早陈国庆先生曾论“电子校勘”,提出了图文、文文对比的校勘功能,并介绍了当时常见的可用于电子校勘的软件。[30]更为全面的是常娥等先生的研究,讨论了自动对校、异文判断的算法,探索了他校的方式,设计了自动校勘结果的书写格式,提出了辅助工具的构建方法等。[31]此外,鞠明库、陈力等诸位先生在论及数字与传统校勘学之关系时,也说明了数字技术对于校勘之有所助益之处。[32]前人研究主要从校勘的技术手段角度出发,指出今天的数字技术可予其巨大的推进作用,特别是在对校上,以及提供校勘相关之知识上;不过核心讨论也集中在一二点结合紧密之处,且多从数字技术的视角切入。仍可注意的是,校勘学是一门博大精深的学问,其实践是复杂且系统的过程。在这一方面,周晓文等先生的新近研究是非常好的借鉴。他们设计了一种计算机辅助古籍版本校勘的系统(C-GJJK),于其中纳入了版本梳理、校勘技术实现、校勘资源库建设、自动编撰、校勘成果资料库等模块,[33]与校勘的具体实践方式更为贴近。我们认为,可在此基础上进一步联系校勘学理论与实践,细致梳理校勘的方法步骤,以全面认识其与技术手段之间的关系,从而更完整地理解数字时代的校勘实践与校勘学理论,并为进一步明晰其在数字古籍整理中的地位和所能发挥的功能奠定基础。

(二)校勘具体步骤的再分析

由于校勘是实践性非常强的学问,在实际操作时,往往会排列出多项很具体的步骤。然而若稍加归纳,其实可分为四大阶段:准备阶段、发现问题阶段、解决问题阶段及输出阶段。[34]以下逐一述之。

首先是准备阶段,此为具体着手校勘前所进行的准备工作,包括了解所校古籍的自身情况、版本流传情况,搜集相关资料和前人成果等。对于使用数字手段进行校勘而言,将某本古籍文本数字化,使之由纸本形成图像和文本格式的数据,也能归入此阶段之中。

其次是发现问题阶段和解决问题阶段,为实际着手开展校勘工作。发现问题阶段需要发现异文和疑误,即不同版本间互异的文本,及虽无版本证据但通过其他依据推断疑似有误的文本。继而是解决问题阶段,即综合运用各种知识考证辨析,以对异文和疑误做出判断,从而恢复对应文本的早期面貌。在这两个阶段中,通常需要综合运用对校、本校、他校、理校等诸种校勘方法,以全面发现问题和解决问题。

最后是输出阶段,即完成前述工作后,将所得成果输出。具体来说,包括制定出校体例、撰写校记和叙例等。

从前述梳理可见,不同阶段的工作内容与特点都有所不同,包括以下视角:首先,不同阶段的工作性质不同。准备阶段集中于材料搜集和整理;发现问题阶段重在文本比对,涉及部分逻辑推理;解决问题阶段全面倚重逻辑考辨;输出阶段则为结果的汇集和呈现。其次,不同阶段及其中的不同任务间,存在着一定的约束关系。大体而言,准备阶段、发现及解决问题阶段和输出阶段之间是先后继承的关系,即某一阶段的工作完成后,才能推进至下一阶段。而在不同阶段内部,某些任务间也存在着制约性的因素,如输出阶段中,在有明确的出校原则后,才能开展校记的撰写。最后,除了具有约束关系的任务外,另有可同时进行的任务。如准备阶段中,古籍版本流传情况与相关资料搜集等可同时开展;又如发现和解决问题阶段中,同一古籍的各个部分间也可以并行处理。

(三)数字手段在诸阶段中的作用

通过上文的分析,可见校勘的不同阶段及阶段中不同任务的内容与特点都有所不同,所以在与数字手段相关联时也会有所差异,本节将针对此问题展开讨论。

首先,在准备阶段和发现问题阶段,数字手段具有很强的帮助意义。如前所述,准备阶段侧重于材料搜集和整理,如古籍版本情况、相关资料和前人成果等;信息的搜集汇总本就是数字技术所擅长者,故前述内容均可借助数据库检索等手段获得广泛的材料。同时,古籍图像和文本的数字化也可纳入此阶段中,而这原本即是数字手段已长期从事的事项,故存在直接的关联。至于发现问题阶段,则要分具体情况看待。对于异文——有文献证据表明存在差异的文本,可以通过直接的文本比对获知情况;而对于疑误——仅怀疑有误而无文献佐证,则需要通过逻辑推理而得。以上区别也体现在校勘方法上,即对校——可直接照应于文本比对,目前已有较好的实现,他校——由于涉及更广泛的他书材料,目前虽未有直接在整理平台中实现者,但查重、引文校核类型的工具其实已庶几近之。值得一提的是,关于他校问题,较早苏芃先生已指出,在古籍数据库大量建设和不断充实的条件下,研究者能够方便地检索古籍数据库的海量资源,从而开展他校;这是数字化时代校法四例中所受影响最大者,在工作方式上具有颠覆性的意义。[35]随着现下技术手段的进步,利用相似文本诸算法广罗所有关联的文本,必然能更进一步扩充他校的资料范围,从而使他校工作愈加自动化、成果愈加全面。至于本校和理校,由于均关联于逻辑推理,故而并未见针对性的实现,且在实现上确实存在一定的难度。从目前的文本技术上看,借助人工智能的方式,利用语言模型的能力,或许能在一定程度上达到理解文本细致结构和逻辑关系的效果,从而辅助进行相关问题的发现。

其次,在解决问题阶段,数字手段具有一定的辅助作用。如前所述,该阶段主要为判断异文和疑误的产生早晚,乃属于逻辑推理,具有很强的复杂性。然而,数字手段于此也能提供一定的帮助。在通常的考证中,有一些常用的推理方式,可以据而总结出初步的规则。这些规则可以直接转化为计算机辅助判断异文和疑误情形的指令,从而为校勘者进一步分析评判提供依据和便利。例如在分析异文时,版本源流通常为重要的证据。异文所来源之版本的早晚和相互关系,可作为异文早晚及相互关系的重要参考。又如校勘学理论中很重视“校勘通例”,系从大量校勘实践中归纳出的文本产生讹误的普通情况,而在西方校勘学中也有类似的条例总结,如所谓“涉上下文而误”“涉上下文而衍”“lectio difficilior potior”等。[36]这些规律性质的内容可以作为判断文本讹误原因及变化方向的重要指南。再如,随着新材料的不断发现和学者们的深入研究,学界对于某些易混易讹字的情况皆有了更为明晰的认识。这些字在传抄过程中很容易从一种形体讹变为另一种形体,这也能为解决异文和疑误提供判断依据。推而广之,各学科内有助推断的知识,皆可纳入进来。以上都是一些具体的规则性质的认识,它们能较容易地转换为相应的指令,从而使计算机辅助逻辑推断。除此之外,随着近些年人工智能的不断发展,某些模型也显现出了很强的解决问题的能力和泛用性,例如各类基于Transformer架构的语言模型等。能否用其辅助校勘考证,对相应现象做出基础的评断,乃至于解决个中疑难,也是可以关注的事情。

最后,在呈现阶段,数字手段能起到直接的支持作用。第一,在呈现时,首先要明确的是校记的体例,即哪些内容需要出校、校记应如何撰写等。这些其实都是对校记文字形式和内容的规定,可归纳为逐条的规范,并转化为相应的指令,从而使最终形成的校记内容皆可自动符合于所制定的规范,并且叙例内容也可据之而自动生成。第二,对于数字形态的文献来说,在呈现阶段还可以做更多的事情。目前的校勘成果及古籍整理成果在很大程度上依然受到纸媒的影响。其数字化产物仍然依循着由纸媒而来的习惯,在样式上并没有本质的区别,只是文本由纸本之文字转变成了数字字符。然而数字手段可以使呈现更加立体、多样,把古籍文本丰富的层次性淋漓尽致地展现出来。例如以直观的方式显示多种或特定版本的异文,灵活更改底本,根据需求构拟呈现已佚或未曾存在过的文本,从微观至宏观以不同尺度显现异文状貌等。这样一来,其实是从另一个层面解决了传统校勘学中争论已久的是否改易底本及与之相关的问题:对于数字形式的校勘成果而言,改字与否并不一定需要构成本质差异,它可以仅仅体现在显示方式的不同上。学者可以根据自身的学术旨趣和研究目标,让文本显示为自己所需要的样式。

总的来说,数字手段在校勘实践的诸阶段上,均能起到极大的帮助作用。当然由于现有数字手段的特性,其在材料搜集、文本比对、成果呈现等方面的作用要更强一点,在考证辨析等方面的作用则略弱一些。不过不论在哪一阶段上,数字手段还都无法完全替代人工,目前仍然需要将技术与人相互结合。技术可以帮助校勘者完成繁琐、机械、规则性较强、形式特征明显之事,然而其他事项,特别是校勘实践之核心——校勘考证——仍需要校勘者本人来完成。

(四)合作与流程

前述诸阶段以及各阶段中的具体任务也可以进行拆分,不同校勘者可在此基础上分工合作,从而有效地增强准确性、加快速度、提升效率。

前文已述,校勘工作既有相互制约需前后执行者(串行),也有可以相互搭配组合共同完成者(并行),故具体的分工合作也需在此基础上展开,大致可分为两种类型:

首先是需串行完成者,即前述各个阶段。大致而言,每一阶段都需在前一阶段完成的基础上,才能展开工作。此外,每一阶段中,各项具体任务也有前后关联密切者。其次是可并行完成者,其具体的并行方式至少可从两方面考虑。第一,据古籍文本分组。即遵循一定的依据将古籍文本按照特定单位(通常为卷)分成多个部分,每一部分交由不同的校勘者各自完成,最终将成果合并,从而使整个校勘工作得以完成。第二,据任务特性分组。即相互独立、不相互影响的任务可拆分出来,共同推进。相关情况前文俱已进行了说明,此处不赘。

值得一提的是,由于前述四阶段整体需依序开展,所以校勘工作大体呈现出串行的面貌,故而可形成相对固定的流程框架。亦即准备阶段必须首先完成,接下来才是之后的阶段。不过在随后的阶段中,则或可以接续进行每一阶段的工作,再于每一阶段中依任务特性分组;或可以先将古籍文本分组,再于每组内顺序进行每一阶段的工作。总之,可以依据实际情况,发展为更为复杂的流程与合作模式。

(五)校勘学理论的进益

从本质上看,数字古籍整理平台中的校勘功能,以及前文所讨论的数字手段对于校勘的助益作用,体现的都是校勘的实践层面。与之相应,校勘学理论也是很重要的层面,既从实践而来,也为实践提供指导。而数字手段对于校勘学理论也有着重要影响,许多已体现在前文对实践方式的具体讨论中了,此处将集中阐述。

首先是校勘的模式。在传统校勘中,由于校勘主体毫无疑问都是校勘者(人类),所以通常不会细粒度地考虑任务分派的问题。在有分工的必要时,也多从书籍层面通过拆分篇卷来实现。当然,在更大型、参与人数更多的校勘工作中,也有可能拆分出不同的任务,交由不同人来完成,例如某些人负责搜集材料、某些人负责查找异文等;但总体而言分工粒度较粗。然而由于数字手段的介入,则有必要更细致地考察校勘的流程,特别是区分出计算能力的边界,从而将适合的交给计算机来办,其余的工作再由人力完成。也正因为如此,在未来的校勘工作中,计算机深度参与、学者与计算机共同完成任务将会成为常见的校勘模式。同时随着计算机科学技术的不断发展进步,计算机所能完成的工作的边界也持续变动和拓展。如同其他受数字技术影响的学科一样,在校勘学中,其各项任务应如何拆分,哪些工作适合计算机来做、哪些则由人类负责,二者如何进行有效的配合以促成校勘目的的最终达成,将成为不断向前发展的线索和引发讨论的话题。

其次是讹误类型与校勘通例。随着数字形态古文献的数量和类型不断增加,其生成和流传途径较之纸本形态的古文献都有很大区别,是故变化讹误的方式也存在明显的差异,这就意味着会带来新的讹误类型和讹误原因,并在此基础上总结出不同以往的校勘通例。[37]而且如前所述,校勘通例作为规则性质的条例,可较容易地转化为相应的指令,从而能够与数字手段结合,在校勘考证中提供辅助。因此,对于数字形态的古文献而言,其讹误类型、原因有哪些,这些讹误关涉哪些新的校勘通例,这些校勘通例又可如何与数字手段相结合服务于校勘考证,便也成了值得探讨的话题。

最后是校勘的目的和功能。校勘的目的是存真复原,即恢复文本的原始面貌,这一点是不会有变化的。只是随着数字手段的进入,校勘还可以有更好的条件围绕目的充分发挥功能。一个非常重要的点,便是校勘能考订并反映文本的变化历程,而这一变化历程对于许多学科的研究都非常重要。然而在过去,由于呈现上的诸多局限,例如底本是否改字的争议、出校时的选择去取、纸本上单一维度的展现方式、文字自身的表述不足等,古籍文本的变化更易情状往往没法全面呈现出来,这也导致了对于校勘成果的利用难以全面充分。而随着数字手段的进入,校勘成果的新的呈现方式便具有了可能。因此,关于校勘成果如何呈现,呈现出来如何进一步加以利用,便会成为富有潜力的话题。


四、以校勘为中心的古籍整理平台


在某种意义上,校勘可以认为是古籍整理中的关键和核心环节。黄永年先生指出校勘“是一种重要的、最常用的方法和必备的工序。除非找到古籍的原稿写定本,可以不必再作校勘外,要整理古籍就少不了做校勘。有时影印本也要做校勘附校记”。在黄永年先生指出的诸工序(选择底本、校勘、标点、索引、序跋、附录)中,选择底本、校勘、标点和序跋都被直接指出或认为是必备的工序。在诸方法(影印、校勘、辑佚、标点、注释、今译、索引)中,校勘和标点都被指为最常用的方法。[38]而在前述多家对于古籍整理诸方面的排列中,基本上校勘都是放在首位的,标点继之排于第二位。由此可见,校勘在整个古籍整理工作中具有首要的意义。从与校勘相关的诸要素看,在诸工序中,选择底本是校勘准备阶段中所必须进行的工作,序跋是校勘叙录内容的进一步拓展,而索引和附录从广义上看也与最终的呈现方式有关。在诸方法中,各方法也都与校勘密切关联,如注释、今译、索引都要以坚实可信的文本为基础,辑佚也会涉及文本对照辨析,影印时亦常需要附校勘文字。至于校勘与标点,后者可纳入为前者准备阶段时的文本处理工作之一,也可视为前者呈现阶段的重要呈现方式。因此,古籍整理的诸条工序可以同时视为校勘任务中的一项或进一步延伸,古籍整理的诸方法也能与校勘密切配合。从这个角度来看,校勘在古籍整理中是具有核心地位的,各工序和方法都能够围绕校勘紧密结合在一起而共同发挥效用。由此我们认为,或许可建立一种以校勘为中心的古籍整理平台,使其具有更强的学理性,并能更好地支持古籍整理实践。

以下尝试设计此种古籍整理形式的诸项环节。首先是准备阶段。包括古籍自身层面,如明晰结构、内容、语言文字等;材料方面,如搜集相关资料、前人研究等;版本方面,如版本考订、选择底本和参校本等;数字化方面,包括获取相关古籍版本及其他所需资料的图像与文本等;文本处理方面,如分段、标点等。其次是发现问题阶段,为发现异文和疑误。再次是解决问题阶段,为具体进行校勘考证。继而为输出阶段,包括所整理文本的输出、校勘记的输出、叙例的撰写等。最后是进一步拓展,包括注释、今译、索引、附录等的编制等。尽管诸环节看着多,但古籍文本在其中是核心要素,贯穿始终;其他各项环节中的任务——或由计算机实现,或由人工完成——都围绕古籍文本而展开效用。最核心的主线为:在数字文本的基础上,发现异文疑误、考订异文疑误、记录考订结果,其他环节都是围绕上述主线而展开的,如准备阶段的诸种工作,以及输出之后的多项拓展。由于该核心主线其实就是校勘工作的主要内容,输出成果为古籍整理的最终产物,因此可根据此种形式建设一种以校勘为中心的古籍整理平台。

关于平台的具体功能,可于各环节中依据技术实现情况进行设置。至于流程与分工,由于涉及诸多功能,可将各功能设计成相互配合的模块,各功能之间的交互通过既定的数据格式要求来实现。各模块可据特定整理之需要排列组合,而非固定的一种线路;分工也可在此基础上形成多种模式。

相较于现有的平台,上述设计具有以下方面的特点:

第一,以校勘为中心,明确主次。如前文所述,校勘在古籍整理中具有核心地位,因此值得专门突显。与此同时,校勘又从来不只是针对文本本身,还包括许多相关层面,如版本的梳理考订、校勘成果的呈现等,因而能将许多其他方法和工序统摄进来。此外,校勘所面对的对象为古籍文本,且兼包含输入的层面(形成古籍文本、记录异文疑误等)与输出的层面(校勘完成的文本与校勘记之呈现等),因而能够很好地适应于计算机在文本上的输入、处理与输出。

第二,各项功能相解耦,具有开放性、灵活性。通过将古籍整理分为相互独立同时又密切关联的几部分,可以使诸项功能之间彼此解耦,每一部分都可以依据自己的特性而加以实现,具有更强的开放性和灵活性。例如在通常的古籍整理工作中,校勘是非常费时费力的一步;而在校勘之中,花费时间特别多的是文本比对(对校)这一环节。如果需要加快进度,或者可考虑先将多种版本图像转为文本,再进行自动比对。然而图像转文本后仍需校对,依然需要耗费较多时间。或者仍由人工校对,但通过技术手段提供便利,如将所有版本的文本图像能相互对应着逐行排列在一起,方便人眼同时对校,从而提升效率。再或者继续使用传统的方式,一或多位校勘者对比多个文本,并记录异同。上述自动或人工的比对结果,只需按一定的格式要求进行著录,就能统一输入到下一环节的任务中。如此并不需特别限制每一阶段之功能的实现方式,只需定义好格式要求,就能使前后环节和每一环节中的功能有机贯通,从而能针对不同文本、不同需求充分发挥效用。同时在此基础上,还能有效实现任务拆分与分工协作。

第三,能够更好地实现古籍整理的目的。相较于现有的古籍整理平台,该设计中全面融会了古籍整理中的工序和方法,突出了重点和关键部分——校勘,考虑了整理中的复杂情况——多种整理方式、不同工具的使用、分工合作情况等。因此,其在学理上和实践上都有一定的优胜之处。由于古籍整理原意即为“对原有的古籍作种种加工”,“加工的目的是使古籍更便于今人以及后人阅读利用”,[39]考虑到当下已为数字时代,故而古籍整理不仅在方法上,而且在产物上亦应不断呼应当下的要求。从这一意义上讲,将古籍某版某印数字化还只是比较初期的阶段;在未来,通过数字方式,全面实现古籍的数字化整理与数字形式的成果呈现,这正是古籍整理可以首先迈进的方向。

五、结语


在古籍数字化与校勘的关系上,一个常见的思路便是数字化大量的古籍文本后,再展开更为智能的校勘。关于这一思路,我们认为可以从两方面进一步考虑:首先,从现实层面看,数字化古籍文本是有一定成本的。尽管随着OCR技术的飞速发展,古籍文本的识别正确率已远高于以往了,但结果中还难免存在着错误,仍要做人工核对。因此,获得绝大部分的古籍文本仍需要时间;甚至由于成本的缘故,至少在现前阶段,有时会令人生出怀疑:是否有转换出某一古籍全部版本之文本的必要。因此在现有情况下,允许通过多种手段(特别是传统手段)获得异文和疑误,并在平台上提供相应的校勘功能支持,自然就具有了必要性。其次,从理想层面看,在获得大部分古籍的文本内容后,接下来仍要开展校勘工作,而该工作的根本目的和做法的底层逻辑也即是本文所讨论的内容。或者从较小范围考虑,由于各种缘故如学者本人的研究,某古籍的全部或主要版本业已取得,此时若要对其校勘,也需要有专门的系统提供支持,因此此种平台的使用需求也是一直存在的——无论是在当下,还是未来。

在过去的认识中,古籍数字化一般被视为古籍整理的一种方式。亦即将古籍从纸本形式转化为数字形式(图像、文本等),从而使之能够在计算机内存储、传输、计算,乃至更多利用。不过到了今天,随着计算机技术的发展,数字技术早已不只是体现在“古籍数字化”这一方面了。换言之,古籍整理的诸方式诸环节都可与数字技术相结合,从而提升效率、增强准确性。职是之故,原作为特定方式的“古籍数字化”其实可以进一步前进,其所关联的数字技术可以且应该融入古籍整理的全方位之中,引发古籍整理实践的新的推进。从这一角度来说,各类数字古籍整理平台其实具有很不凡的意义,正昭示着古籍整理实践(及理论)的新阶段的到来。本文的研究希望从古籍整理理论的角度对现有平台进行全面完善,从而使数字古籍整理首先具备坚实的理论基础。一个重要的方面便是使之在古籍整理的意义上更具有普遍性,而校勘功能的增加和强化正能在这一点上提供重要的补充。

随着数字技术的持续发展、与古籍整理融合程度的加深,以及数字古籍整理平台的不断演化,古籍整理理论肯定也会发展革新。在这一方面,一些学者已做了精彩的分析和预言,指出古籍整理会有新的范式。无论其具体状貌如何,但一定与数字化及数字形态的文献密切相关,并由此而带来古籍整理的“数据化”“知识化”“智能化”等。[40]从这一角度来看,经典的整理方式及整理成果主要确保的是“文本化”的准确性、学术性、标准性,从而为新的整理范式奠定良好的文本基础。毋庸置疑,未来的古籍整理新范式及整理成果的新样态肯定是无比鼓舞人心的。二者的互动促进必将使古籍在新时代焕发出新的光彩,成为数字人文革命中的关键参与者和重要力量。

An Analysis of the Functions of Digital Collation Platforms and Their Study from the Perspective of Textual Criticism

Li Linfang

Abstract: With the rapid development of the digitization of Chinese ancient books and digital humanities, many digital collation platforms have emerged in recent years, which have had a great impact on the field of ancient book collation. The basic functions of these platforms include OCR, proofreading support, text formatting support, automatic punctuation, text comparison and other related functions, as well as a process system and a collaboration system. These platforms can be categorized based on their support for these various functions. These platforms are of great importance in the field of ancient book collation, but they are very weak in terms of textual criticism, which should be strengthened in the future. After a complete analysis of the specific steps taken in the practice of textual criticism, it is found that digital means can be fully applied to all aspects of its practice, and they can also contribute to the development of the theory of textual criticism. As textual criticism occupies a core position in the collation of ancient books, the construction of a digital collation platform centered on textual criticism should be considered, so as to improve the construction of such platforms, help realize the purpose of ancient book collation, and promote the continuous development of the practice and theory of ancient book collation.

Keywords: Digital; Ancient Book Collation; Platform; Textual Criticism; Ancient Book Digitization



编辑 | 唐宸

本文系国家社科基金项目“数字人文视阈下经注文本形式综合研究及其应用前景分析”(23CZW010)的阶段性成果。中华书局古联公司苏瑞欣先生、北京大学中文系李更先生、郑宇熹同学、武汉大学文学院李寒光先生及匿名审稿专家提供了诸多宝贵意见,于此谨致谢忱!


向上滑动 查看注释


[1]具有代表性的如《文渊阁四库全书》(电子版)。其于1999年由上海人民出版社和(香港)迪志文化出版有限公司合作出版。其利用了国际标准大字符集文字平台、OCR技术、古籍校对软件等建设而成。参见孙建越:《中华古籍的数字化——〈文渊阁四库全书〉电子版》,《中国电子出版》1999年第4期。

[2]从20世纪80年代起即有相当数量的相关研究。较早的综述类文献见张普:《计算机在中国古籍整理研究领域中的应用(综述)》,《语文研究》1989年第4期;姚松:《计算机用于古籍整理研究的现状与展望》,《中国典籍与文化》1995年第2期。近些年的讨论参见苏祺、胡韧奋、诸雨辰、严承希、王军:《古籍数字化关键技术评述》,《数字人文研究》2021年第3期;朱翠萍:《数字人文视角下的古籍整理与阅读转型》,《文学与文化》2023年第4期;李明杰、郑翔、关思雨:《数字人文在古籍整理领域的应用路径及发展策略》,《中国图书馆学报》2024年第4期。

[3]近些年关于古籍数字化的综述类文献见李明杰、张纤柯、陈梦石:《古籍数字化研究进展述评(2009-2019)》,《图书情报工作》2020年第6期;王秋云:《我国古籍数字化的研究现状及发展趋势分析》,《图书馆学研究》2021年第24期;马小方:《国内近二十年古籍数字化研究的文献分析》,《文化学刊》2024年第5期。

[4]常娥:《古籍计算机自动校勘、自动编纂与自动注释研究》,芜湖:安徽师范大学出版社,2013年,第120—152页。

[5]顾磊、赵阳:《古籍智能整理研究现状及存在的问题》,《图书馆学研究》2016年第9期。

[6]相关信息由北京大学人工智能研究院杨浩先生提供。谨致谢意!

[7]需要说明的是,由于互联网产品的特性,许多平台的功能和名称是在不断发生变化的。例如“(籍合网)古籍整理工作平台”,其于2018年3月上线,彼时主要有古籍众包管理、在线编校、多文本比勘、专名自动标引等功能。后又单独建设了“繁简转换”“古籍自动标点标线”“古籍智能OCR系统”等工具,并接入到了平台之中。之后在此基础上,另建设了“古籍在线整理平台”,含有“古籍OCR识别”“文本智能处理”“在线编校”功能,并于2022年9月上线时更名为“古籍智能整理平台”。目前,籍合网的“古籍整理工作平台”与“古籍智能整理平台”仍具有相对独立性,访问入口、支持的功能和工作流程皆有少许不同。其他平台也有类似情况,包括功能增删、兼容别出、名称改易等。由于许多平台内部并未详列前后变化经由,故尚难以做详尽的考述。目前本文的讨论,皆基于最终定稿时各平台的最新样貌(2025年8月)而展开。另,关于各平台的上线时间,主要依据的是网站介绍、新闻消息、版权日期等公开信息。

[8]李绅、胡韧奋、王立军:《古汉语大语言模型的构建及应用研究》,《语言战略研究》2024年第5期。

[9]中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会:《GB/T 15834-2011标点符号用法》,2011年12月30日发布,北京:中国标准出版社,2012年,第1—2页。

[10]该表中未列入基本功能的第六项,而基本功能的第四项“自动标点”被拆成了“自动标号”与“自动点号”两项。

[11]该项功能依赖于古籍智能整理平台。

[12]该项功能依赖于古籍智能整理平台。

[13]仅团队产品支持。

[14]实质是标点过录功能,即需先有一个已标点的文本,再将之过录至一个无标点的文本上。

[15]实质是标点过录功能。

[16]实质是标点迁移功能,与其他平台中的“标点过录”相同。

[17]仅支持“团队用户”。

[18]值得一提的是,“古籍酷”虽然未直接设置校对界面,但有全面的API功能支持,可以发挥出更为强大的效用。通过API进行图像识别,在返回的数据中除了识别结果外,还含有单字坐标、识别结果置信度、单字坐标置信度、单字序号、单字所在行号、单字的版面层次、单字之其他候选项等信息,可利用之进行校对,甚至自行编制出更为复杂的校对方式。

[19]该平台的API支持非常强大,故并非所有主要功能都纳入流程之中。

[20]诸家所论古籍整理之方法(工序、形式、方式、手段等)略有差异,兹举有代表性者言之:

黄永年——选择底本、影印、校勘、辑佚、标点、注释、今译、索引、序跋、附录

时永乐——校勘、标点、注释、今译

刘琳、吴洪泽——校勘、标点、注释、今译、辑佚、抄纂

曹林娣——校勘、标点、注释、今译、辑佚、索引、序跋、附录

许逸民——影印、点校、注释、今译、辑佚、索引、编纂、古籍数字化

文中所述为其中最主要者。参见黄永年:《古籍整理概论》,西安:陕西人民出版社,1985年,第5—8页(嗣后进一步丰富之,详黄永年:《古籍整理概论》,上海:上海书店,2001年,第5—8页);时永乐:《古籍整理教程》,保定:河北大学出版社,2003年,第3页;刘琳、吴洪泽:《古籍整理学》,成都:四川大学出版社,2003年,第3页;曹林娣:《古籍整理概论》,北京:北京大学出版社,2007年,第25页;许逸民:《古籍整理释例》,北京:中华书局,2011年,第12—23页。

[21]参见王军:《古籍资源的数字化与智能化开发利用》,《文献》2023年第2期。

[22]参见李雪梅、王波、李明杰等:《古籍数字化笔谈》,《文化软实力研究》2023年第1期。

[23]许逸民:《古籍整理释例》,第21—23页。

[24]萧统编,李善注:《文选》卷6《魏都赋》,北京:中华书局,1977年,第106页上栏。

[25]李昉等撰:《太平御览》卷618《正谬误》,北京:中华书局,1960年,第2776页上栏。

[26]关于对前述记载的解析,特别是对其中“一人读析”的考辨,详见胡敕瑞:《有关“一人读析”的校读》,《中国典籍与文化》2023年第1期。

[27]班固撰,颜师古注:《汉书》卷30《艺文志第十》,北京:中华书局,1962年,第1701页。

[28]张舜徽:《广校雠略汉书艺文志通释》,武汉:华中师范大学出版社,2004年,第66—67页。

[29]翁方纲撰,英和校订:《翁氏家事略记》,清道光刻本,第36页b—第37页a。

[30]陈国庆:《数字技术在古籍整理中的运用初编》,硕士学位论文,兰州大学,2008年,第42—51页。

[31]常娥、黄建年、侯汉清:《古籍智能整理与开发系统构建研究》,《情报资料工作》2009年第4期;常娥:《古籍计算机自动校勘、自动编纂与自动注释研究》,第58—81页。

[32]鞠明库:《古籍数字化与传统文献学》,《清华大学学报(哲学社会科学版)》2011年第5期;陈力:《数字文献学刍论》,《中国图书馆学报》2024年第6期。

[33]周晓文、张健、卢宝聪:《计算机辅助古籍版本校勘系统的设计与实践》,《古汉语研究》2024年第1期。

[34]关于校勘的方法,陈垣先生最早系统总结并提出“校法四例”,后来的校勘学理论都对其加以沿承,或有少量改易(陈垣:《校勘学释例》,上海:上海书店,1997年)。关于校勘的具体步骤,前人多无明确归纳,一般可视为相关论述中包括“四例”在内的更接近实践的部分。如钱玄先生集中于“校勘方法”章(钱玄:《校勘学》,南京:江苏古籍出版社,1988年);戴南海、程千帆等、张涌泉等、管锡华诸位先生都是于包括“四例”在内的多章中涉及(戴南海:《校勘学概论》,西安:陕西人民出版社,1986年;程千帆、徐有富:《校雠广义校勘编》,济南:齐鲁书社,1998年;张涌泉、傅杰:《校勘学概论》,南京:江苏教育出版社,2007年;管锡华:《校勘学教程》,北京:北京大学出版社,2013年)。另外,王叔岷先生的“方法”章则更接近具体的操作步骤(王叔岷:《斠雠学(补订本)斠雠别录》,北京:中华书局,2007年)。倪其心先生对该问题有直接且全面完整的讨论,为专章“校勘实践的具体方法步骤”,并“出校的原则和校记的要求”章也涉及此点(倪其心:《校勘学大纲》,北京:北京大学出版社,1987年)。本文主要依据倪其心先生的观点展开考察。

[35]苏芃:《他校时代的降临——e时代汉语古籍校勘学探研》,《中国典籍与文化》2012年第2期。

[36]苏杰编译:《西方校勘学论著选·编译前言》,上海:上海人民出版社,2009年,第iii页。

[37]参见江庆柏:《关于电脑自动转换中文简繁字产生的问题》,《古籍整理出版情况简报》2014年第1期;苏芃:《互联网时代的文字错讹》,《光明日报》2019年3月2日,第12版;漆永祥:《当前古籍整理诸问题刍议——兼谈对〈文献〉杂志的小小建议》,《文献》2019年第5期。

[38]黄永年:《古籍整理概论》,第5—8页。

[39]黄永年:《古籍整理概论》,第5页。

[40]参见李明杰:《数字环境下古籍整理范式的传承与拓新》,《中国图书馆学报》2015年第5期;孙显斌:《数字化推动古籍整理范式变化》,《社会科学报》2024年1月25日,第5版。


点击下方链接,下载原文


中国历代典籍目录总库的功能与学术价值.pdf

如需购买《数字人文》期刊,请扫描下方二维码


微信图片_20251128105608_2630_471.jpg

阅读原文

跳转微信打开

  •