经典回顾 | 数字人文主义者需要了解算法吗?(2016)
本杰明·M·施密特 2026-04-07 09:01 北京
![]()
本杰明·M·施密特:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。
![]()
《傅立叶艺术》Juan López Gómez
Do Digital Humanists Need to Understand Algorithms?
数字人文主义者需要了解算法吗?
作者:本杰明·M·施密特 (Benjamin M. Schmidt)
译者:丁怡瑞(剑桥大学数字人文系硕士研究生)
算法与转换
伊恩·博戈斯特(Ian Bogost)最近发表了一篇文章,认为对算法的过度迷恋会损害我们准确描述所处世界的能力。他写道:“像‘算法’这样的概念已经沦为草率的简写,成了将多部分复杂系统误认为简单单一系统的俚语”。他指出,即使是计算文化的批评者也难以抵挡这种诱惑,将算法描述得仿佛它们拥有某种无可辩驳的美;这导致他们对计算行为形成了一种“扭曲的、神学式的理解”,忽略了人类的能动性。
作为少数在人文学科领域内创造并应用算法的领域,数字人文拥有得天独厚的优势,能够帮助人文学者更好地理解算法的运作机制,而不是盲目地崇拜或谴责它们。然而,我们常常刻意忽略算法背后的理解和意义,转而采用一种工具化的方法,仅仅将算法视为可以凭直觉判断其效用的手段。计算机底层的复杂性使得某种程度的认知盲区在所难免。当复杂度超越临界点时,人文学者确实无需理解产出结果的算法机制;鉴于现代软件的复杂性,他们即便想理解也难以企及。
尽管软件中有些元素我们可以忽略,但要将人文数据分析作为一项学术活动而非仅仅是一项技术活动来实践,一些基本的理解标准仍然必不可少。有些算法的确是繁复冗杂、缺乏连贯性和目的性的程序,而另一些算法则包含着我们完全能够理解的假设。算法的运行方式与算法的运行方式截然不同,理解算法的运行方式更为重要。我想在此论证的是,一个成熟的人文数据分析领域不应仅仅从外部检验算法的有效性;相反,它应该探索软件所描述的流程背后假设的意义。简而言之:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。唯有如此,我们的实践才能更具成效,更可能真正实现原创性突破。
这一论点的核心在于区分算法和转换。算法是一组可精确指定的步骤,用于产生特定的输出结果。“算法”是计算机科学的核心研究对象;关于算法的主要理论问题涉及运行这些步骤所需的资源(特别是时间和内存)。另一方面,“转换”是指算法可能进行的重构。这个术语与计算机科学的联系相对较弱。其最紧密的学科联系在于数学(例如几何学中描述对形状可施加的操作)和语言学(构成诺姆·乔姆斯基“转换语法”理论的核心)。
从计算角度来看,算法创造转换。然而,从认知层面来说,人们设计算法是为了自动执行特定的转换。也就是说:转换表达了一个连贯的目标,这个目标可以独立于产生它的算法而被理解。也许最简单的例子就是排序的转换。“有序性”是一个普遍属性,任何人都可以独立于产生它的操作来理解它。在人文研究中,字母排序的用途,例如生成文本索引或整理姓名索引,与用于排序的具体算法无关。事实上,计算机排序列表的具体算法存在多种变体。某些经典的排序算法,例如快速排序,是计算机科学教学的基础。(对排序算法的经典汇编和解释是克努特经典计算机科学著作的前半部分。)如果认为人文学者需要理解像快速排序这样的算法才能使用排序后的列表,那就太荒谬了。但是, 我们确实需要理解有序性本身,才能充分利用排序列表的独特特性。
理解转换意义的另一种方法是将算法工具化地使用;例如,寄希望于潜在狄利克雷分配(LDA)之类的算法能够近似表示“主题”、“论述”或“论题”等现有对象,并探索其无法做到的细小领域。然而,这种将软件视为工具的方法,对于理解它几乎毫无益处;它寄希望于算法能够近似地表示现有意义,往往也阻碍了其创造新意义的可能性。传统人文主义者对大规模文本分析的主要批评是,它未能为学者提供任何新知。此类批评虽常有谬误,却确实触及了一个令人沮丧的缺陷:当前普遍采用的远读方法往往无法开辟理解文本的新路径。
将大规模分析与斯蒂芬·拉姆齐(Stephen Ramsay)所谓的“算法批评(algorithmic criticism)”相结合,虽然可能不那么立竿见影,但却更有趣。算法批评是指运用算法转换来开启文本的新解读方式。即便某些算法(如拉姆齐所描述的案例)在转换过程中本身不具意义,这一方法依然有效。但那些本身就蕴含某种目的的转换,更可以帮助我们创造出新的文本版本,从而提供新颖或有用的视角。探寻并描述这些转换如何运作,正是我们应该更加重视和推广的工作。
傅里叶变换与文学时间
安妮·斯沃福德(Annie Swafford)和马特·乔克斯 (Matt Jockers)就乔克斯的“Syuzhet”软件包展开的辩论。Annie Swafford 与 Matt Jockers 围绕 Jockers 的 “Syuzhet” 软件包所展开的争论,为我们提供了一个有用的案例,说明深入探讨某种“转换”本身的目的,如何能够丰富我们描述文本的词汇。尽管斯沃福德最初的批评指出了该软件包的几个问题,但她与乔克斯的后续讨论主要集中在乔克斯使用信号处理中的低通滤波器(low-pass filter)作为“平滑函数(smoothing function)”的恰当性上。乔克斯认为,这提供了一种“滤除情感轨迹中极端值”的绝佳方法。而斯沃福德则认为,这种方法常常会受到“振铃伪影(ringing artifacts)”的影响。在实践中,这意味着生成的曲线几乎只关注“最低点,而忽略了两侧的上升或下降”。
斯瓦福德和乔克斯的争论不仅围绕一个算法,更围绕一个被具体定义的“变换”展开。Jockers 用来分析情节结构的低通滤波器,其数学基础是离散傅里叶变换(Discrete Fourier Transform, DFT)。将傅里叶变换视为理解叙事结构的一种“构成方式”,这个想法本身颇具吸引力;但正如斯瓦福德所论证的,它很可能是错误的。斯瓦福德所描述的“振铃伪影”源于一个更大的问题:变换本身所蕴含的对时间的基本理解。
傅里叶变换的的目的,是通过将复杂信号拆解为其组成部分,把周期性事件表示为频率。人类经验中最基本的一些元素,尤其是光和声音,在物理上是以重复波的形式存在的。而傅里叶变换提供了一种简便的方法,可以将这些无限长的波描述为一组不断重复的短频率。例如,纯音“A(La音)”是以每秒 440 次的频率持续脉动的;但当由单簧管演奏时,这个“A”音包含大量规则的泛音(overtones)——这些泛音是频率更高、能量较低的成分音,使声音比单一纯音更丰富。像 Jockers 使用的那种滤波器会去除这些规律性;它通常用于 MP3 压缩等处理过程中,以去除人耳听不到的高频音符。如果对这样的单簧管音色应用更强烈的滤波,它会去除高频部分,保留音符“A” , 但会削弱乐器独特的音色。
将“情节”表示在频率域中,这一想法颇具吸引力,但也建立在一些高度可疑的假设之上。其中最令人惊讶的假设是:情节如同声音或光一样,由无穷无尽重复的信号组成。乔克斯使用的这种“低通滤波器”会忽略文本中任何呈现周期性重复的要素,而是聚焦于最长周期的变化,比如那些跨度超过文本长度四分之一或三分之一的趋势。这个过程类似于根据一段仅持续 1/440 秒(基频的一个节拍)的“A”音符音频片段来预测单簧管的后续音效。令人惊讶的是,这对于音符来说是可行的,但这仅仅是因为这个音调会无限重复。而Syuzhet 软件包中的默认平滑处理假设书籍也遵循同样的规律;除其他因素外,这意味着:经过平滑后的情绪曲线会把整本书开头的情绪视为结尾情绪的“延续”。(我在《Commodius Vici》一书中对此有更详细的解释。)
对于某些情节,包括乔克斯使用的主要例子《一个青年艺术家的肖像》, 这种假设并不明显错误。但对于其他文本结构,它会造成很大的问题。图 48.1 展示了 《一个青年艺术家的肖像》 和其他四部小说的情节,文本均取自古腾堡计划。威廉·迪安·豪威尔斯的 《塞拉斯·拉帕姆的发迹》讲述的是一个关于毁灭的故事; 霍瑞修·爱尔杰的 《衣衫破烂的迪克》是十九世纪典型的“白手起家”小说; 《包法利夫人》 则是经典的关于衰落的悲剧故事。图中展示了三种不同的平滑函数:加权移动平均,这是最简单的函数之一;局部加权回归散点平滑法(LOESS),这是探索性数据分析中最基本、假设最少的算法之一;以及 Syuzhet 软件自带的低通滤波器。
这里,傅里叶变换的问题显而易见。这种周期性的函数使得包法利夫人死后境况与她出轨前一样“好”。而假设较少的方法则允许她的命运在结尾崩塌,也允许衣衫破烂的迪克的命运轨迹向上而非向下倾斜。 安德鲁·派珀(Andrew Piper)指出 , 回答 “我们如何判断一条曲线是否‘错误’?”这个问题可能相当困难。但在本例中,错误之处显而易见;只有试图闭合循环才能解释小说结尾拉格德·迪克命运的下跌。(译者注:因为傅里叶变化的循环结束点必须接上开头)
这是什么类型的证据? 根据乔克斯的说法,包法利的例子仅仅是对该方法的一种“否定性验证”(negative validation),我认为他的意思是,这是一种对“该方法在所有情况下都是最佳方法”这一论断的经验性证伪(empirical falsification)。斯瓦福德的文章也暗示,逐案验证和证伪衡量方法优劣的黄金标准。用她的话来说,这套方法(或许整个数字人文领域)需要“更多的同行评审和严格的测试——旨在证实或反驳假设”。
从这个角度来看,算法的本质是一个操作过程不透明的系统;我们可以尝试或检验它是否符合我们的预期,但我们永远无法真正了解它。然而,当算法成为实现有意义变换的手段时,例如傅里叶变换,我们就能做得比“质量测试”更好;我们可以预先通过解释性分析来判断变换会在哪些方面失败。我选择 《包法利夫人》 并非随意之举,并非为了检验它是否足够好;相反,平滑方法的推论让我意识到,悲剧类小说整体上都无法被 Syuzhet 的平滑方式正确处理。我有些忐忑地承认,我从未真正读过 《包法利夫人》 或 《衣衫褴褛的迪克》 ;但它们都是情节与低通滤波器平滑完全不相容的典型例子。任何其他以死亡和绝望或非凡好运结尾的小说都会以同样的方式“被算法误读”。
![]()
图 48.1 以极坐标绘制的四条轨迹图
这些问题也贯穿于乔克斯的一系列基本情节模式中:所有图表都以完全相同的情绪开始和结束。然而,在软件包推出后的头两个月里(这期间的审查力度肯定远超任何同行评审流程),这种假设的明显问题却并未被发现。这些缺陷未能立即显现的一个特别有趣的原因是 ,像图 48.1 这样的折线图并不能完全体现傅里叶变换的假设。我们用来展示结果的统计图形本身就可以被视为一种转化,它将数据带入一个新的分析领域。在这种情况下,我们用来绘制图表的几何图形和坐标系本身就带有特定的模型。这类折线图假设时间是线性且无限的。一般来说,这无疑是纸上表示时间最简单、最准确的方法。然而,它并不符合傅里叶变换所假定的频域(frequency domain)。如果傅里叶变换是观察图表的正确方法,我们应该使用极坐标系作图,因为极坐标系会循环回到起点。我在图 48.2 中重新绘制了相同的数据,其中百分比用一个角度表示,该角度从时钟的 12 点钟位置开始,而情感倾向则不是由高度而是与中心的距离来定义。
![]()
图 48.2 以极坐标绘制的四条轨迹线
在这里,傅里叶变换的假设更加清晰。对于这里的所有小说而言,时间构成了一个闭合的循环;结尾点必须扭曲自身以与开头对齐,反之亦然。而其他算法则允许存在巨大的断层:《 包法利夫人》的弧线向内盘旋,仿佛坠入下水道,而 《衣衫破烂的迪克》 则向外推进飞升。
这些环形情节图不仅仅是为了证伪。以这种方式全面理解转换背后的假设,不仅凸显了模型的缺陷,也为我们思考情节提供了一种新的视角。这种观点强调了开头与结尾之间的鸿沟是小说的核心特征;由此,它挑战我们去思考情节所占据的时间究竟是不是一种单向线性的(straightforwardly linear)存在。
这场讨论之所以值得继续,部分原因在于它提醒我们重新审视自己对于情节与时间的诸多前设。笛卡尔坐标系(直角坐标系)所暗示的无限时间,在某种程度上与极坐标图一样是错误的。许多平滑方法(包括我希望在 Syuzhet 中使用的 loess 回归)很容易将时间外推到情节的开头和结尾之外。这恰恰表明,它们在某种程度上同样不适用于当前的任务。事实上, fabula(故事顺序)与syuzhet(叙述顺序)之间的区别核心在于,我们无法谈论小说“开始之前”的内容,也无法预测莎士比亚如果在 《哈姆雷特》 结尾之后再多花几个小时创作,会写出什么文字 。任何暗示存在此类短语的模型显然都是错误的。
但即便这些转变可能并非完全正确,它们或许仍能带来新的理解和分析方法。虽然这种“循环回归”的结构显然不适用于小说,但它对更广泛意义上的情节研究却具有重要意义。通过探究频域图的适用范围,我们可以从抽象层面识别出更适合应用此类方法的领域。
例如:理想的“三机位情景喜剧”剧本应该允许剧集在轮播中以任意顺序播出。也就是说,在某些方面,它们应该是循环往复的。对于情景喜剧剧集而言,循环性是一个值得牢记的有用框架。情感、主题或其他属性的契合度,对于理解商业影响如何与创作自由交织在一起,或者理解一个类型随时间的演变,都可能是一个极其有用的工具。这种信号处理的技术或许还能用于识别,例如,电视台在何时、何处允许编剧展开跨多集的剧情线。
尽管斯瓦福德和乔克斯的对话主要围绕“平滑”问题展开,但许多数字人文主义者似乎发现斯瓦福德提出的第二个批评更有意思。她认为,乔克斯软件包提供的情感分析算法(其中大部分基于带有情感评分的词典)产生的结果经常违背“常识”。第一个问题看似枯燥乏味,但第二个问题为数字人文主义者提供了一个平台,让他们探讨如何更好地理解我们运行的算法的“黑箱”。一个算法“符合常识”意味着什么?为了实用,它需要 100%正确吗?95%?还是 50.1%?如果数字人文要成为一个会采用他人创造工具的领域,那么这些正是它需要练习解答的问题。
然而,这样表述问题,就再次将算法本身视为不可知的。就像傅里叶变换一样,我们最好有意识地探究情感分析的转换究竟做了什么。例如,我们不应该将 Syuzhet 的情感分析部分视为一组待匿名受试者测试的词表,而应该思考如何以最佳方式实现情感分析背后的底层算法——或许是逻辑回归( logistic regressio)——来区分“褒贬”二元分类之外的事物。例如,乔克斯的灵感来源库尔特·冯内古特(Kurt Vonnegut)认为,情节的核心二元不是“快乐/悲伤”,而是“顺境/逆境”;也就是说,虽然情感分析提供了一个有用的捷径,但大规模平台更应创建一个真正能区分其领域中核心二元对立的分类器。安德鲁·派珀对情节结构的研究涉及小说内部的比较。这样的研究可以帮助我们更好地理解情节。他让文本与自身对话,并从其他领域中找到新的有用的转换方式。
这样做意味着,数字人文主义者可以帮助消除博戈斯特所揭示的“算法统治神话”,而不是参与构建此类神话。当历史学家将精神分析应用于历史研究时,我们并没有建议他们与精神分析学家“合作”,然后用历史记录来检验他们的论断有多少真实性;相反,历史学家会主动运用这些概念,将其视为具有解释力、本身就有意义的理论工具。当底层算法难以理解或过于复杂时,人文主义者能够深入探究算法的“黑箱”固然有益且有用。但即便如此,数字人文主义者的首要任务也应该是理解算法所服务的转换和系统的目标和意图,这样我们才能成为新思想的创造性使用者,而不是对工具的目的和前提一无所知、只是被动使用工具的人。
/来源:Gold, Matthew K., et al.“48. Do Digital Humanists Need toUnderstand Algorithms?Benjamin M. Schmidt." Debatesin the Digital Humanities 2016, 2.0, University ofMinnesota Press,13 Apr. 2016.
推荐阅读:
凯特·克劳福德、特雷弗·帕格伦《采掘人工智能:机器学习训练集中的图像政治学》(2019)
凯特·克劳福德、弗拉丹·乔勒:《人工智能解剖学》(2019)
转自“左手数字右手人文”公众号
![]()
初审:徐碧姗
复审:段婧怡
终审:夏翠娟
