从探听“修辞回声”走向数字文学史——以定量分析松尾芭蕉在日本近代的接受为例
原创 日比嘉高、江晖 2026-04-24 09:01 北京
![]()
数字人文; 接受研究; 松尾芭蕉; 近代俳句; 正冈子规
转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:日比嘉高,江晖. 从探听“修辞回声”走向数字文学史—— 以定量分析松尾芭蕉在日本近代的接受为例[J].数字人文研究,2025,5(4):99-117.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。
从探听“修辞回声”走向数字文学史
——以定量分析松尾芭蕉在日本近代的接受为例
摘 要 研究旨在通过对近代俳句中松尾芭蕉的接受情况进行定量分析,探索数字人文方法在文学史研究中的潜力。利用日本国立国会图书馆的数字收藏,统计了明治至昭和战前期间文献中芭蕉俳句的引用频率,并运用Jaccard系数对明治、大正、昭和战前期的大规模俳句集进行了相似性分析。研究发现,随着时代变迁,芭蕉对俳句的影响逐渐降低,而以芭蕉批评者著称的正冈子规的俳句却比明治时期一般俳句更接近芭蕉的风格。可见计算机定量分析能够捕捉人类难以察觉的表达差异,提取出人类和时代的“无意识修辞”。数字人文方法能够揭示传统研究难以触及的深层规律,为“数字文学史”的构建提供新路径。
关键词 数字人文;接受研究;松尾芭蕉;近代俳句;正冈子规
作者简介 日比嘉高,名古屋大学人文学研究科教授;江晖(译者,通讯作者),中山大学外国语学院副教授,Email:jianghui6@mail.sysu.edu.cn。
0 文学作品接受研究中的定性研究和定量研究
数字人文(Digital Humanities)是否能够为文学的接受研究带来革新?如今,全世界每天都在产生海量的数据,其中包含大量与文学相关的内容。有面向业余创作者的小说投稿网站、有与短诗形式文艺相关的线上活动,还有像X(原推特)、微博、脸书等社交网络服务。此外,各类博客平台也在以多种形式持续产出文学作品的创作、评论和读者的感想。不仅如此,过去的文学作品以及与文学相关的各类资料正在快速地从纸质媒介向数字数据转移。例如,日本国立国会图书馆的数字收藏中包含了253万本图书(网络公开37万件)、140万册杂志(公开2万件)和32万篇博士论文(公开1.2万件)等数据。如果使用该图书馆的“下一代数字图书馆”,其中已过版权保护期、被标记为“网络公开”且被归类为“保护期限届满”的约29万件数据,用户可以获得文本的全文数据。就与日本文学相关情况而言,国文学研究资料馆一直在推进古典文学相关文献的数字典藏项目,通过其运营的“国书数据库”,用户“可以一次性检索和使用国内外众多机构和国文学研究资料馆收藏的古籍(即江户时代以前的书籍)等资料的书目信息以及部分高清图像”,据悉该网站在2025年3月公开的原始图像已超过30万张。
如此产生的海量数字化资料群,构建了一个由电子数据组成的文学话语空间,它与人们在数字空间和在物质空间的活动复杂地交织在一起,共同塑造了当代文学的生态系统。本文认为在文学的接受研究领域,数字人文式的方法同样有效。人们在创作、交流和享受文学作品时所留下的痕迹,不仅留存于纸张等物理媒介中,也大量保存在电子资料里。我们已经进入了一个新的时代,可以通过数字数据来探究某部作品是如何被阅读,以及从中获得的文学创意、词汇及修辞等遗产又是如何传承给下一代的。
文学接受研究——探讨既有的文学作品及其创作者如何被后继的读者和创作者所接受——这一领域拥有丰富的研究历史。回顾其理论框架,大致可以分为两大体系:一类是关注读者阅读行为的读者反应论体系,另一类是关注读者群体及其解释框架的接受论体系。关于前者,沃尔夫冈·伊瑟尔(Wolfgang Iser)在著作《阅读行为》中使用“空白(blank)”和“空缺(gap)”等术语论述了阅读行为的本质并在全球产生了深远影响;提出“作者之死”并强调读者能动性的罗兰·巴特(Roland Barthes)或许也可归入此类。在文化研究理论中,斯图亚特·霍尔(Stuart Hall)的编码/解码模型是广为人知的。
在关注阅读群体及其解释框架的接受论研究者中,汉斯·罗伯特·姚斯(Hans Robert Jauss)无疑是一位杰出代表。他在著作《文学史作为向文学理论的挑战》中提出了“期待视野”(Horizon of Expectations)这一概念,探讨了某一时代的读者对文学作品的理解范式是如何被更新的。该理论在数字人文时代依然具有丰富的启示意义。在当今时代,评论家与读者的感想通过网络媒体及社交平台等途径被大量生成并留存。数字时代的接受研究正是借助这一类新型资料,获得了重构“期待视野”的线索。关于“期待视野”的理论前景,本文将在结论部分再做探讨。
关于读者共同体的分析,斯坦利·费什(Stanley Fish)提出的“阐释共同体”(Interpretive Communities)概念,可定义为共享特定阐释框架的群体。这个观点认为文本的意义并非内在于文本本身,而是由读者所持有的理解框架生成的,就这一点而言与上述的读者反应论在问题意识上是相通的。
这些关于读者反应论或接受论的著名研究,虽然都诞生于纸质资料的时代,但随着互联网的出现,它们也与讨论数字空间中阅读行为的研究成果产生了关联。在这一领域的早期成果中,大卫·博尔特(David Bolter)的《写作空间》(Writing Space)值得一提。该书出版于1991年,是探讨超文本时代表达方式和读者参与方式转变的开创性著作。此外,尽管与接受研究略有不同,霍伊特·朗(Hoyt Long)和理查德·J·索(Richard J. So)的论文使用机器学习对比了英译俳句和英语原创俳句的风格、特征和形式,是在数字人文与文学研究的交汇点上进行的俳句研究和翻译研究的新尝试。
然而,在博尔特的时代尚未出现大量的文学电子资料。可如今,博尔特所讨论的那些通过超链接连接起来的以及由公共或私人档案库收藏的正在等待读者访问的巨大数据空间,在世界文学环境中占据了重要的地位。这些数据的积累如何应用于文学的接受研究,正是本文想要关注的问题。若参照前文提出的两种分类,即“聚焦阅读行为的读者反应理论”与“关注阅读共同体的接受理论”,本研究当归于后者——接受理论的学术谱系。
1 俳句的接受研究与本研究的意义
需要说明的是,本次研究的目的也并非要描绘出其全貌,我们分析的对象仅限于日本近代俳句集的文本数据,根据日本著作权法,这些作品已过版权保护期。本文将探讨江户时期俳人松尾芭蕉的作品在近代言论空间以及近代俳句中的接受情况。数字人文对文本资料的定量分析能在俳句的接受研究中发挥怎样的作用呢?
在此之前,有必要确认一下既有研究是如何进行相关讨论的。活跃于17世纪后半叶的松尾芭蕉是日本文学史上最著名的俳句诗人,其影响力一直延续至今。当然,相关研究也颇为丰富。由于审视其全貌超出了本文的能力范围,在这里仅对主要成果进行概述,尤其是与本文后半部分涉及的正冈子规相关的内容。关于近代对松尾芭蕉的接受,研究成果众多,早先有山下一海和大野林火的论述,近年黄慧君的论文以“古池”一句为例探讨了大正时期对芭蕉的评价。除俳句诗人对芭蕉的接受以外,久保田晴次有两部重要的成果还考察了小说家们的看法。
关于近代俳句诗人个人对芭蕉的接受研究,可以以正冈子规为例。他是明治时期俳句革命运动的推动者,不仅在俳句创作有所建树,还经常发表评论并创办杂志《杜鹃》(『ホトトギス』),是近代俳句史上划时代的人物。并且他本人也多次论及芭蕉,相关研究十分丰富。早在战前,宫本三郎就出版了《子规在芭蕉批评史中的地位》,复本一郎也有相关著作。简而言之,在关于二者关系的讨论中,有的分析了子规对芭蕉的“理解”或“评论”,有的则追踪了除二者之外的谱系,还有的比较了二人的俳句作品,方法多种多样。但是关键在于,许多评论和研究中都存在一种共通的论述“模式”,即使用“继承—革新”“接受—排斥”“影响—创造(进化)”等词语去描述他们之间的继承关系,或者是作为其变体的反叛亦或是创新的轨迹。
这些接受研究中所体现的“模式”与哈罗德·布鲁姆(Harold Bloom)提出的“影响”问题不无关联。布鲁姆指出,英国浪漫派诗人在阅读前人作品时,虽然从中获得了文学上的刺激,但同时也因此对自身的独创性感到不安,他将这种现象上升为理论,称为“影响的焦虑”。路易斯·A·伦扎(Renza, Louis A.)对布鲁姆的观点进行了解释,他认为这种影响关系可以被视为疑似亲子关系,即俄狄浦斯式的焦虑,其背后是基于文献学的历史研究观。伦扎指出了重要的一点,就是对这种影响关系的考察虽然在讨论传承或反叛,最终不过是维护了确认文本传承关系的传统主义意识形态。无论称之为传承还是对传统的叛离,归根结底,只是换一种说法在讨论如何强化文学史的延续性罢了。
与此相比,数字人文的方法则采取了完全不同的思路。它并非从人与人之间的传承关系切入,而是通过测算词与词、句与句之间的相似性等方式,来探寻“影响”或“接受”的痕迹。如果将关注人际关系、挖掘作品表达方式的研究称为“质”的接受史,那么基于大量分析文本数据的字面内容去考察表达特征及其相互关系的研究,则可称之为“量”的接受史。
本文对“相似性”的判定标准是通过比较俳句A与俳句B中相同字符连续出现的程度。如第三节所述,本研究采用2-gram对诗句进行分割,并使用Jaccard系数将匹配度量化。在注重质性分析的传统接受史研究中,仅凭词语的简单相似自然不足以证明前代作家/作品与后代作家/作品之间的影响关系。然而,数字人文领域的文学研究通过对海量文本进行词语一致性检测,即基于“字面”层面的相似性计算,能够捕捉人类难以察觉的细微变化,并提取远超人类分析能力规模的文本特征。文学表达中的表层相似性——本文称之为“修辞回声”——是通过多重分析的交叉叠加进行探测的。“修辞回声”是借助数字人文方法捕捉到的“接受”痕迹或其潜在的可能性。基于定量分析的接受研究,通过持续检测“修辞回声”并深入剖析其内涵,进而尝试重构“期待视野”的图景。
如后文所述,基于字面相似性的量化接受研究方法,对于探讨俳句这一文类的接受史而言同样有效。俳句严格遵循十七音节的格律规范(若使用汉字而非假名,则实际字符数更少),因此每个字符在字面层面都承载着更为厚重的意义密度。
基于上述问题意识,本文将对俳句的数字资料进行定量分析,去探究日本近代对松尾芭蕉的接受情况。
2 从国立国会图书馆数字馆藏资料看近代对芭蕉的接受
首先,基于笔者2022年的研究对本文的前期成果进行简要整理。本研究对二战前的近代文献中对芭蕉俳句的引用情况进行了定量分析,从新的视角讨论了这个问题。这里所说的二战前的近代文献,具体是指可以在日本国立国会图书馆“下一代数字图书馆”进行全文检索的所有类别的图书文献,数量约为33.6万件(截至2022年)。利用全文检索功能,可以统计出这些资料中引用芭蕉俳句的数量,以此勾勒出“接受”的样态。检索的时间范围为1868年至1945年,因为芭蕉的俳句约有1000句,为了尽可能避免因表述差异造成的遗漏,本研究在检索时使用了三种文本。图1展示了引用率前30的句子(由于存在引用率相同的情况,实际为31句)。
![]()
图1 近代文献中芭蕉俳句的引用情况(前30位)
可以将此结果与人们所熟知的芭蕉佳句进行比较。引领明治俳句革命的正冈子规在1893年撰写的《芭蕉杂谈》中列举了“尤为出众、广为传颂”的11句芭蕉名句,包括:
“古池や蛙とびこむ水の音”(古池呀,青蛙跃入水中的声响)
“道のべの木槿は馬にくはれけり”(道边木槿,马儿啃食)
“物いへば唇寒し秋の風”(张口欲言,唇寒于秋风)
“あかあかと日はつれなくも秋の風”(艳阳当头,秋风已起)
“辛﨑の松は花よりおぼろにて”(辛崎之松,比花更显朦胧)
“春もややけしきととのふ月と梅”(春意渐浓,月与梅相映成趣)
“年々や猿に着せたる猿の面”(年复一年,猴戴猴面)
“風流のはじめや奥の田植うた”(风雅之始,远处传来插秧歌)
“白菊のめにたてて見る塵もなし”(凝视白菊,纤尘不染)
“枯枝に烏のとまりけり秋のくれ”(鸦栖枯枝,秋日将暮)
“梅の木に猶やとり木や梅の花”( 梅树插新枝,梅花共盛开)
可以看到,与图1中列举的31句仅有1、3、5、10这四句是重合的。
从33万余册的图书资料中,找出超过1000句的芭蕉俳句引用,其工作量之巨大,超出了人力所能及的范围。然而借助计算机技术便使之成为可能,让我们得以开启那些以往难以追踪的接受研究。并且,如本章所示,计算机辅助分析往往能呈现出与人们所认知的世界图景不同的结果,例如子规认为“广为传颂”的俳句与实际被频繁引用的俳句之间存在差异。但是这里也会出现一个问题,即“引用”是否等同于“接受”?关于这一点,我们将在后续章节中进一步讨论。
3 从近代俳句集看对芭蕉的接受
3.1 数据预处理与相似性的计算方法
本章将进一步探讨关于近代对松尾芭蕉的接受。在此,我们将研究对象限定于俳句集,通过分析近代俳句集中的作品特征来揭示芭蕉的接受情况。关于芭蕉的俳句,我们仍使用与前章相同的三个数据集,本章中分析的近代俳句作品来自以下三种句集:
A《明治句集》:共4冊(新年卷、春之卷、夏之卷、秋之卷),27084句,选录自报纸杂志。
B《大正百家选》:共1冊,12516句,收录德岛县当地俳句诗人作品。
C《现代综合大句集》:共1冊,12526句,选录自“最近发行的数百本俳句杂志”中的优秀作品。
首先,对本研究的数据预处理过程进行简要说明。ABC各句集的数据来自从国立国会图书馆“下一代数字图书馆”获取的JSON Lines文件,从中删除了正文以外的页面(如封面、目录、版权页、广告等),保留了页码、页眉、章节标题等信息。由于原始文件中有部分字符顺序混乱,因此使用JSON Lines文件中的位置信息标签进行了调整。在此基础上,提取“contenttext”(文本内容)中字符数大于9的字符串,以此删除通常小于8个字符的页码、章节标题等副文本信息。至此,正文数据的构建基本完成。此外,根据分析的需要,将正文数据中的汉字旧字体转为了新字体。除最后这一步以外,上述的预处理工作基本都是通过Chat-GPT4完成的,笔者随时跟进了这个过程。
关于正文数据的识别率,通过对比笔者核对过的句集与上述经过预处理的正文数据,发现A的平均误识别率小于1%,但存在部分句子缺失的现象,B和C的误识别率分别为1.5%、0.4%,同样都出现了信息缺失的情况。
本研究采用了N-gram(本次使用了2-gram)的方法,通过Jaccard系数计算了文本的相似度。本研究的独特之处并非在于追踪俳句作品的语义承继,而在于对表层字面一致性的量化考察。鉴于此研究目的以及俳句文本篇幅极短这一特性,本研究认为,与 Word2vec 或 BERT 等方法相比,N-gram具有更高的适用性。
N-gram是指字符串中连续的“N个单词”或“N个字符”的组合,2-gram就是两个连续的单词或字符。例如,以字符为单位的2-gram将“雲の峰いくつ崩れて月の山”分解,可以得到“雲の”“の峰”“峰い”“いく”“くつ”“つ崩”“崩れ”“れて”“て月”“月の”“の山”共11个二字字符组。Jaccard系数是用于测算两个集合之间相似度的指标。具体计算方法是用两个集合的共同元素数量(交集)除以元素总数(并集),所得数值介于0到1之间,越接近1表示相似度越高。
例如,将“干網に蜻蛉吹かるゝ野分かな”与“猪もともに吹かるゝ野分かな”这两句俳句用2-gram分解后,可按照以下步骤计算Jaccard系数:
首先,将每句俳句分解为2-gram。
「干網に蜻蛉吹かるゝ野分かな」的2-gram:干網、網に、に蜻、蜻蛉、蛉吹、吹か、かる、るゝ、ゝ野、野分、分か、かな;
「猪もともに吹かるゝ野分かな」的2-gram:猪も、もと、とも、もに、に吹、吹か、かる、るゝ、ゝ野、野分、分か、かな。
两者之间有7个共同的2-gram,即“吹か”“かる”“るゝ”“ゝ野”“野分”“分か”“かな”。以此计算Jaccard系数,计算公式为:(共同元素数量[交集])÷(元素总数[并集])。这里的交集为7,关于并集的计算,两句都有12个2-gram,但需要从两者的和中减去共同元素数量7,即(12+12)-7=17。因此,上述两句的Jaccard系数约为0.41。
基于此方法,以(1)《芭蕉俳句全集》和A《明治句集》为例,使用2-gram和Jaccard系数进行了初步调查。将结果按照相似度从高到低排序,并经过笔者的确认,可以发现当相似度高于0.3时,即使由人来判断也会感受到其相似性;数值在0.2左右时,仅是出现部分相同的季语,就俳句这一文学体裁而言,难以称之为相似。因此,本研究将相似度高于0.3的情况定义为相似。
3.2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的比较结果
为了把握整体趋势,我们首先将《芭蕉俳句全集》与《明治句集》(1909年)、《大正百家选》(1918年)、《现代综合大句集》(1935年)进行了逐句比较。这些句集分别收集了明治、大正和昭和战前时期多位俳句诗人的作品,规模宏大。其中,《明治句集》收录约2.7万句,《大正百家选》和《现代综合大句集》各约1.2万句。
![]()
图2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的相似度
与初步调查的步骤相同,我们将句子分解为2-gram,并使用Jaccard系数测算了它们的相似度,然后将结果按照从高到低进行了排序,图2即为三组不同时期句集相似性比较结果的前5000项。由于《明治句集》中存在与芭蕉完全相同的句子,因此图中显示出了极端高的数值(相似度为1.0)。但是,将比较对象扩大至前5000项,仍然可以清楚地看到《明治句集》的相似度始终显著高于《大正百家选》和《现代综合大句集》。同样,《大正百家选》的相似度也始终略高于《现代综合大句集》。通过将总计约5.1万句俳句与芭蕉作品进行比较,可以发现从1909年到1918年,再到1935年,随着时间的推移,其相似度、即“修辞回声”在逐渐降低。尽管这项调查未能提供关于季语或词汇使用、类型化表达等具体信息,但基于5万句规模的考察,能够得出以下结论:后期的俳句作品与芭蕉俳句在字面上的相似度随着时代变迁而不断降低,即在字句层面上渐行渐远。
在此基础上,我们比较了《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》中相似度最高的前30句作品(表1至表3)。可以发现,从明治、大正到昭和,此前相似度较低的句子也有可能逐渐上升到较高位置。正如在初步调查中也讨论过的,当相似度超过0.3时,即使通过人为判断也能感受到其相似性。如表1至表3所示,相似表现的关键在季语,当季语和切字的组合超过四个字符时,相似度就能达到0.3。在相似度高于0.4的句子里,除季语之外,还有其他词语的重合,使得其相似性更为显著。但相似度在0.2左右的句子中,重合的季语大多仅有三个字符,人为判断就较为困难。
此外,还可以看到,在相似度高于0.3的句子里,其相似性随着时代变化呈现出下降的趋势。不仅如此,有趣的是,即便是相似度低于0.2的句子也显示出了类似的结果,即相似性从明治、大正到昭和逐渐降低。若仅依据人为判断,相似度低于0.2时是很难发现这三个时期的俳句的表达差异的,无法感知其相似性也就难以进行比较。换言之,计算机通过将相似性量化的方法,捕捉到了人类肉眼无法比较的表达层面上的差异,并展示了其变化趋势。尽管是非常细微的差异,但确实可以看到后期的俳句创作在不断远离芭蕉式的表达。通过对近代俳句的大规模分析,揭示出了人力所不易察觉的长期且细微的“修辞回声”的变化。
表1 《芭蕉俳句全集》与《明治句集》中的高相似度作品
![]()
表2 《芭蕉俳句全集》与《大正百家选》中的高相似度作品
![]()
表3 《芭蕉俳句全集》与《现代综合大句集》中的高相似度作品
![]()
4 从正冈子规看芭蕉的接受
本章将以正冈子规的俳句为例,进一步考察日本近代对芭蕉的接受情况。
在此有必要指出本次定量分析的局限性。首先,用于对照的正文数据有一定局限。若要追求文学研究的精确性,原本需要在“全句”范围内进行详细考察,而且机器的文字识别准确性显然远未达到完美。其次,无论是芭蕉还是子规,其俳句风格均存在变化,文学研究向来是重视这种变化本身的[32],而以“全句”作为比较对象的量化分析就忽略了这种风格上的变化。但是,通过更细致的数据分类、文本校对和预处理等方法,或许能够在一定程度上克服这些问题。
正冈子规的俳句数据来源于子规纪念博物馆的“俳句检索”系统。本研究对其收录的25097句俳句进行了整理,将片假名转换为平假名,并分别准备了旧体字和新体字的数据。下文中将这个数据集称为“子规全句”。
我们首先将子规全句与《芭蕉俳句全集》和《明治句集》分别进行了比较,采用了与前一章相同的方法,结果如图3所示。观察图中曲线可以注意到两个特点:一是相比《芭蕉俳句全集》,《明治句集》和子规全句的相似度明显更高,这一点可以与图2进行对照,其差异一目了然;第二点是,相比《明治句集》,子规全句和《芭蕉俳句全集》的相似度更高。
其中第二点似乎与一般认知相悖,因为致力于推动俳句近代化改革的子规,是以严厉批评芭蕉而闻名的。在《芭蕉杂谈》中,他曾以激烈的言辞说道:“芭蕉的俳句大半为劣句废话所充斥,能称为上乘之作的不过几十分之一”,还称“与其说芭蕉的作品受到肯定,不如说其品行为人所钦慕”,认为是芭蕉的人品而非其作品本身获得了评价。
需要说明的是,子规并非单纯的芭蕉批评者。他对芭蕉的批判很大程度上源于对那些盲目崇拜芭蕉的旧派俳句诗人的否定态度。通过接受斯宾塞美学等思想,他也基于重视写实的现代自然描写意识对芭蕉简洁明快的表现方式予以了正面评价。
![]()
图3 《芭蕉俳句全集》《明治句集》与子规全句的相似度比较
这些是通过仔细解读子规的评论所掌握的他对芭蕉的具体解读。因此,就直觉而言,在将子规俳句与明治时期的大规模句集进行比较时,得出子规的作品反而更接近芭蕉这一结果,很难不让人感到困惑。在俳句革命中,正冈子规对被偶像化的芭蕉的批判广为人知。
然而分析的结果确实如图3所示。那么,二人的作品究竟在哪些方面显示出相似呢?在讨论这个问题之前,还需要回顾一下图3的另一个特点,即明治句集与子规全句的相似性。与芭蕉作品相比,子规作品与《明治句集》之间的距离明显更为接近。
为了探其究竟,笔者制作了《芭蕉俳句全集》和《明治句集》、子规全句相似性对照一览表(表4)。可以看到,相似度为0.3的句子在《明治句集》中排第17位,而在子规全句中排第27位(有5句的相似度同为0.3),这意味着子规全句与《芭蕉全集》的相似性更高。通过对比,能够看出子规似乎是有意识地借鉴了芭蕉的俳句。而在《明治句集》收录的俳句中,虽然也有类似的受到芭蕉影响的例子,但也有一些作品,虽然在字面上看似有诸多相似之处,实际上并非真正借鉴了芭蕉,例如“胡麻蒔や風なきに散る栗の花”(明治)与“風なきに散るや若木の花櫻”(芭蕉),以及“吹風をうしろにしたり羽抜鳥”(明治)与“秋の夜をうしろにしたる法師哉”(芭蕉)等。
表4 《芭蕉俳句全集》和《明治句集》、子规全句中的高相似度句
![]()
![]()
相比之下,子规俳句中与芭蕉相似的句子,显然是有意识地进行了借鉴,并且在保持距离感的同时试图展现出一种幽默与机智。例如,子规的“春之山畠となつてしまひけり”很可能借鉴了芭蕉的“春の夜は櫻に明けてしまひけり”。芭蕉吟咏的是令人沉醉忘返、不觉夜明的樱花之美,而子规则以一种轻松而幽默的笔触,描写了本应繁花盛放的春山被开垦为农田的当下社会变化。正因为子规借鉴了芭蕉描绘樱花之美时那种超脱了世俗与时光的意境,才让他对人类的贪婪之举逐渐改变自然景观的现世景象的观察显得尤为独特而深刻。
此外,子规还将芭蕉以佛教悟理为主题的俳句“稻妻に悟らぬ人の尊さよ”改写为“長き夜を寐足らぬ人の尊さよ”。此句创作于1895年,当时子规尚未因病卧床,这一句或许只是单纯地表达了对能够安睡之人的羡慕之情吧。还有“肥壺や蛙とびこむ夕まぐれ”这一句,显然是以诙谐的口吻模仿了芭蕉的名句“古池や蛙とびこむ水の音”。
本章将子规俳句的全部数据与芭蕉俳句进行了对比分析。芭蕉与子规的关系一直以来受到了较多的关注,也有研究深入探讨了二人的个别俳句作品,但是将其所有俳句进行全面比较应该是此前尚未有过的尝试。当然,其中可能存在偶然的相似,也有一些可能仅是戏谑之作,并且如前章所述,即使仅有个别文字的重合,计算机也会统计在列。但是,正是通过如此这般机械化的比对,不放过任何字面上的外在相似性,并且全面展示了相似度从高到低的所有内容,我们才能够开辟出一条新的道路从整体上去思考有关相似性的问题,包括那些可能会被忽略的俳句。
当然,本研究也存在一定局限。本次分析以松尾芭蕉的俳句为起点,将芭蕉作品为单一中心点与数万首其他俳句进行对比,在形式性相似的层面上呈现出芭蕉与后世不同时期、不同作品之间的距离,但是无法涵盖俳句传统中多源并行的影响脉络。具体而言,近代俳句所受影响并不局限于芭蕉,而芭蕉本人亦承续了前代诸家的创作传统,此类复线性的继承关系未能在本研究中得到充分讨论。若能选取其他俳人为起点重复同样的分析,或许能够勾勒出新的影响关系网络。通过多重视角反复展开类似研究,俳句的接受史将得以进一步深化和拓展。
5 基于定量分析的接受研究的可能性
如上所述,基于国立国会图书馆“下一代数字图书馆”的馆藏资料,本文对明治、大正和昭和战前时期的大规模俳句集和《芭蕉俳句全集》进行了比较分析,还考察了正冈子规的俳句和芭蕉作品、《明治句集》的相似性。
目前,依靠计算机进行的质性内容分析还远远无法达到人类研究者的水平。无论是芭蕉、子规,还是大规模俳句集,都需要参考时代语境、作为借鉴的先前文学遗产,以及创作者的个人经历和经验等。这些的外部信息广泛存在于多种形式,需要细致解读并结合作品进行深入挖掘、论证。但是目前能够做到这一点的,仍然只有人类研究者。
但也有一些任务是只能通过计算机的数据解析完成的。无论如何,其工作内容的规模和效率都是压倒性的。近年来,随着技术的进步和大环境的变化,文艺作品的文本数字化进程加快,分析技术也不断提升。计算机的数据分析速度让人力不可企及的海量资料读取成为可能。由于工作量和速度的限制,人类通常需要根据文学家的重要性或文学史上的价值去预先筛选分析对象。这不仅导致了资料数量的局限,还可能产生先入为主的偏见。与此相比,计算机的工作则可以无视现有的文学史价值判断,将一切转化为数字进行处理。
就文学接受研究而言,除以往人类研究者探讨较多的创作者之间或作品之间的相互影响关系之外,如今还可以借助计算机对作品数据进行定量分析,追踪作品之间的相似性、潜在的共同主题以及作品主题的变化等。
关于“接受”和“影响”的既有讨论,大多基于某些重要的资料或优秀作品提取出抽象的主题,或者从某文学家或文艺群体使用的概念和理念(例如芭蕉及其门派提出的“风雅”“轻妙”等)的传承角度展开论述。例如,研究芭蕉近代接受史的权威学者久保田晴次如此描述他的研究目标:“本书的意图在于探讨众多的芭蕉论究的意义所在,以及从一种芭蕉论到另一种芭蕉论的流变所具有的意义。”久保田分析了芥川龙之介等近代作家对芭蕉的评价,考察其中的“意义”并揭示了芭蕉论的“流变”。最终,久保田选择以“实存”一词作为总结其研究的关键词。
从这种传统的文学研究的角度来看,本文在第二章的论述中将“引用”视为“接受”,以及在第三章和第四章中使用N-gram将俳句分解、通过句中词语的匹配数量来计算相似性的方法,可能会显得过于肤浅。因为“引用”是否等同于“接受”、用语的“相似”是否意味着“接受”,这些质疑是不可避免的。
1918年,高浜虚子曾写道:“从德川初期到如今的明治大正,尽管俳句经历了或多或少的盛衰与变化,但可以说俳句就是芭蕉的文学。换言之,自松尾芭蕉这个人物出现并给传统俳句带来一场革命,在此后的二百余年间,虽涌现出俳人无数,但大多不过是步芭蕉后尘而已。”从江户到近代的两百多年里,俳人们的创作只是继承了芭蕉的文学事业,而虚子所指的“芭蕉的事业”,恐怕并非指芭蕉俳句的字面形式。字面的相似只是表面问题,更重要的应该是芭蕉的精神形态或世界观。若非如此,虚子也不可能做出这样的论断。
然而,在使用计算机进行大量数据分析的方法逐渐被引入文学研究领域的今天,真正需要重新审视的并非精神、思想或看待事物的方法。更重要的在于倾听并审视这些“修辞回声”,即坚持从字面层面入手的阅读实践,探索区别于人类传统阅读方式的其他可能性,重新构建“质”所无法衡量的、基于“量”的文学史。当然,这并不意味着思想的传承或文学观念的接受毫无意义。这些探索,如同过往一样,今后仍将是重要的研究课题。但是,贴近文本的分析同样重要。定量研究,即便不称之为“细读”,确是能够做到“贴近文本的分析”。它能够摈弃先入之见,忠实地追随文字,统计数量,计算概率、频率和字数。
尤其是在俳句中,文字的力量显得尤为巨大。在这种文学形式里,作品最多不会超过20个字,因此每一个字所承担的角色自然就变得举足轻重。桑原武夫曾经提出一个挑战性的问题:如果将作者的名字隐去,我们是否能够分辨出哪些是当代名家的俳句?他在这篇著名的评论中指出:俳句所面临的宿命就是,作品实际能够呈现的,与作者的理念或理想相比,总是显得言不尽意。因此,桑原认为,“就现代俳句而言,仅凭作品本身(即单独的一首俳句)去判定作者的地位是非常困难的”。芭蕉提出的俳谐世界固然所见高远,但这种高度抽象的概念性问题是否能在一个具体作品中得到充分的展现呢,现实未必如此。然而,正是这种局限,反而赋予了文字更多吸引读者深入解读的力量。面对通常只有十几个字的俳句作品时,读者会认真揣摩句中的每一个字词,在脑海中描绘这一句所构建的世界,甚至试图从芭蕉、芜村或子规的只言片语中推究他们的理念或理想。因此在俳句研究中,文字是至关重要的。而计算机的数据分析能力,让这种贴近文本的俳句分析、即对“修辞回声”的解构成为可能。这种能力,无疑将在未来的俳句和俳谐研究中发挥巨大作用。不过,计算机所追随的,终究是数字,而非理念。
文学作品的定量分析并非总能收获丰硕的成果,在很多时候,它可能只是验证了人们大致预料到的结果。例如,本研究中关于芭蕉的影响力从明治时期到昭和战前期间逐渐减弱的部分结论,也体现了这一点。当然,用明确的数字去证实那些隐约的猜想,这本身也是有意义的事情。但是,当计算机辅助的定量研究得出与预期相悖或完全未曾预想到的结果、以及发现人类未能发现的变化和特征时,就会产生较大的冲击力。例如,在松尾芭蕉与后世俳句作品相似性的经年变化中,当相似度低于0.2时,仅靠人力难以察觉,但计算机却检测到了这些细微的变化。此外,计算机还发现正冈子规的俳句比明治末年出版的大规模俳句选集在文字表达上更接近松尾芭蕉。这一结果有悖于我们对正冈子规——俳句近代化革命的旗手,同时亦是芭蕉的批评者——的直觉判断和先入之见。
6 结语——从“无意识修辞”到“数字文学史”
本文以接受研究为例进行了相关考察,可以认为,计算机辅助的文学定量研究是一种新的话语分析方法。就文学接受研究的历史而言,这种方法有可能在理论上更新姚斯提出的“期待视野”概念。姚斯试图从传统的文学创作和叙述美学转向接受和影响的维度重写文学史。从读者来看,文学作品并非出现在真空之中。读者心中始终有着判断的标准,会通过该文学体裁的内在规范、与名著之间的关系、诗性语言与实用语言的差异等来衡量对作品的接受方式。并且,文学作品本身也是在“广告、公开或非公开的信号、熟悉的标志或隐含的指令”中被创作出来的,这些因素极大地影响了读者对作品的接受方式。因此,新创作的文学作品都是基于“阅读的记忆”被接受的,同时又是被置于所谓的“期待”——“这部作品应该是这样的吧”——之中被解读的。这就是姚斯所说的同时代读者的“期待视野”。然而,优秀的原创作品是不同的,它们能够打破读者的“期待视野”,将文学史推向新的境地。
姚斯希望能从接受和影响的角度重新审视文学史,其重要性不容置疑,但是问题仍在于研究者应该借助何种资料与分析手段,才能有效重构这一“期待视野”仍然是一个尚未解决的问题。尽管在回顾文学史时,我们可以在一定程度上进行描述,但若谈及同时代的文学(研究)却显得困难重重。然而,随着大量数字文本的出现,如今重构“期待视野”正在成为可能——以一种与不同于以往的方式。过去和当代读者的阅读痕迹沉睡在数字档案和网络上的各类数据之中。如何挖掘这些痕迹,正是数字人文的文学接受研究所面临的课题,亦是可能性所在。通过对特定时代可获取的阅读数据进行大规模计算分析,并由研究者对分析结果进行解读,便能够揭示出该时代特有的阅读方式,而这理应构成“期待视野”的重要组成部分。
本文以接受研究为例进行了探讨,但这种方法的潜在可能性并不局限于该领域。海量数字化文本及各类信息分析技术的涌现,为多种文学类型的修辞分析带来了新的启示。关键在于,这种量化分析方法具备两大特质——其精细度超越了人类的感知能力,且在规模上又超出人类的处理极限。更值得关注的是,文学家创造的修辞本身往往延伸到创作者有意识控制的范围之外。文本中存在着作者本人未曾察觉的句式与引用,流淌着同时代其他创作者与评论家未能识别的互文链。这些无意识的修辞痕迹,早已深深镌刻在文本的字里行间。而精微且大规模的计算分析,正是从这些字面纹理中解析出“修辞回声”。笔者认为,基于定量的数据分析方法能够提炼出个体乃至时代中潜藏的“无意识修辞”。
文字所编织的图案,即为修辞。如今,修辞的矿脉正在大规模地转移到数字文本之中。不仅是文豪和诗圣的作品,那些被遗忘的小说家、小众诗人、无名的业余文学爱好者的创作,也都构成了这座矿山的一部分。著名评论家撰写的有影响力的评论、匿名的时事评论,以及地方读者的读后感,都平等地埋藏其中。计算机不会区别对待文豪、业余创作者、专业评论家或普通读者,而是通过挖掘将所有内容转化为数字的话语=数据的矿脉,即探听“修辞回声”,从而让我们得以从仅由著名文学家之间的相互关系来论述的俄狄浦斯式的文学史中逃离。数据挖掘揭示了人们与时代的无意识修辞,而新的“数字文学史”也将随之诞生。
![]()
初审:徐碧姗
复审:段婧怡
终审:夏翠娟
