袁毓林 | 《新文科视角下的计算社会语言学研究》
袁毓林 2026-04-21 09:00 江苏
新文科下以第一代交叉学科融合构建计算社会语言学,研究语言社会变异与计算建模。
作者简介
袁毓林,澳门大学教授,主要研究理论语言学和汉语语言学。
新文科视域下的计算社会语言学研究
袁毓林
澳门大学人文学院中国语言文学系/北京大学中文系
摘要:新文科建设的目标之一是:多种学科在研究内容和理论方法上的交叉与融合,从而形成新的学科方向和研究范式,以及相应的复合型人才培养模式。为此,本文提出一种可操作的路径:利用已经发展起来的若干第一代交叉学科,融汇成第二代交叉学科。比如,对于“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,可以借助“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。这种操作路线可以细化与落实新文科建设,并提供必要的学科规训。文章还以当代社会的“物理—精神—信息”三元空间,以及其中说话者的社会身份、个体人格和社交互动对语言使用和变异选择的影响为例,说明计算社会语言学的理论、方法和议题。
关键词:新文科建设;第一/二代交叉学科;计算/社会语言学;三元空间
一、新文科建设视域中的社会计算
新文科建设的一个重要特征是,建设一批多学科交叉的人文社会科学的新兴研究领域或研究方向。这种愿景和理想是非常美好和丰满的,有助于培养能够应对未来挑战的跨学科的复合型人才;但是,实现起来却是十分艰难的,从具体的学科群选择与组合、研究目标设计到操作路线与实施方案的制订,都需要进行不断的探索和尝试;并且,要冒着因尝试失败而沉没了机会成本的风险,甚至还可能要背上误人子弟的骂名。因此,不同的学科怎样寻找相关的伙伴学科,形成有议题(研究内容新颖而且重要)、可操作(有技术支撑)、有发展前途(带来理论突破或应用落地)的交叉学科,是新文科建设成败的关键要素和重中之重。
一般的印象,新文科不同于传统文科的一个标志是:有意识地在人文社会科学的研究内容或方法中,系统性地融入当代前沿的科学技术,以期形成新的学科方向和研究范式,以及相应的复合型人才培养模式。比如,随着大数据(Big Data)技术的跨越式发展,“计算”已经越来越成为人文社会科学领域的关键词。跟“计算”相结合的多学科/交叉学科/跨学科的(multi/inter/trans/cross-disciplinary)研究领域也开始大量涌现,形成了数字人文(Digital Humanities)、社会计算(Social Computation)、计算社会科学(Computational Social Science)、计算传播学(Computational Communication)、计算社会学(Computational Sociology)等新兴学科或研究方向。值得一提的是,2009年,哈佛大学的David Lazer联合从事信息科学、社会学和物理学的15位学者,在Science杂志上联名发表文章(Lazer, et al. 2009),创造性地提出了“计算社会学”(Computational Sociology)这一新兴学科。他们阐述了利用计算手段,从大数据中揭示社会学规律的学术思想和趋势。这标志着社会学研究进入到数据计算时代。因为,当代科学技术的显学是计算机科学技术和网络大数据技术;所以,像“计算社会学”肯定可以算是“新文科”。随后短短几年内,计算社会学已成为人文社科领域近年来最重要的研究范式。《科学》(Science)、《自然》(Nature)和《美国国家科学院院刊》(PNAS)等国际顶级学术期刊上,大量涌现计算社会学的研究成果,众多学术期刊出版专刊介绍计算社会学研究的进展。美国还成立了计算社会学学会,George Mason大学甚至成立了计算社会学系,并成为世界上第一个正式授予计算社会学博士学位的单位。计算社会学无论对于揭示人类与社会规律,还是对于用户个性化服务,均具有重要的意义。因此,基于社会媒体大数据的计算社会学研究,在学术界和产业界均引起了广泛的关注。这可以说是国际学术界新文科开拓与建设的一个成功的范例,足以为我们的新文科建设提供经验。
二、社会计算的议题与方法
我们认为,就利用社会媒体大数据的社会计算和计算社会学而言,也并非只有原来从事计算机科学技术和社会学的学者才可以涉足;其实,语言学研究者也是可以积极参与的,并且还是可以大有作为的。因为,社会媒体的海量数据中,绝大部分是用自然语言写成的长短不一的文本;其中蕴藏了跟用户及其复杂的社会结构有关的丰富信息,是社会学、心理学(特别是社会心理学)和语言学(特别是社会语言学)等学科的重要研究对象和研究角度。但是,这些学科所需的信息都隐藏在复杂的语言背后,需要利用自然语言处理和理解技术挖掘出来,才能被计算社会学研究进一步加以利用和提炼。而这种对语言数据的处理,正好是语言学、自然语言处理和计算语言学等学科的强项。
近年来,随着机器学习和自然语言处理技术的发展,如何更好地分析社会媒体大数据中的自然语言(即文本信息),已经成为社会计算、计算社会学研究的热点;吸引了众多不同学科的学者的研究兴趣,学科体系与范式已初具规模。并且,取得了不少令人鼓舞的成果。比较著名和成熟的研究有下列四个方面:
(1)词汇的时空传播与演化研究。比如,哈佛大学研究团队利用Google Books收集并扫描识别的1800年到2000年之间的500万种出版物(占人类所有出版物的4%),通过不同关键词使用频度随时间的变化,分析了人类文化演进特点,做出了很多惊人的或有意思的发现。例如,他们发现在过去几百年里英语中越来越多的不规则变化动词演化成了规则变化动词(Lieberman, et al. 2007)。再比如,通过Google Books中历年来使用“The United States is”和“The United States are”两种表达形式的统计趋势图,来定量地分析美国作为一个统一国家的概念是如何慢慢形成的(Aiden & Michel 2013)。词汇是文本中负载信息的基本单位,考察社会媒体中词汇的时空传播与演化,无论对语言演化研究,还是对社会管理,均具重要意义。
(2)语言使用与个体差异。比如,Pennebaker & King(1999)以词汇作为语言使用定量分析的基本单位,在给定的个体或群体对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。研究者们发现,抑郁与自杀者往往会在文本中发出可侦测的求救信号;初次约会的时候对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率;团队的凝聚力和合作倾向也可以通过内部对话做出预测,等等(详见下文§5)。近年来,在社会计算领域提出了用户建档(user profiling)的研究任务,旨在利用用户产生内容预测用户的各种属性,既包括用户的各种简单属性,如性别、年龄和地理位置等,也包括用户的复杂属性,如兴趣、政治倾向、性格特点和主观幸福感等。
此外,还有(3)语言使用与社会地位的关系,和(4)语言使用跟群体的关注话题与情绪态度,等等。诸如此类的研究,不仅具有社会学、心理学和语言学方面的学理价值,而且在舆论监测、社会管理和客户分析等方面,都具有重要的应用价值。
三、从“计算语言学”和“社会语言学”
到“计算社会语言学”
众所周知,高等院校的学科体系和专业分工是已经制度化了的。并且,不同的学科在学科传统、方法论和学术追求与价值观方面,也存在巨大的差别。这在历史上形成了所谓的“学科鸿沟”或“学术壁垒”,或者如俗话所说的“隔行如隔山”。因此,要把不同的学科整合起来,殊非易事。对此,我们提出一种可操作的实践路径:尽可能有效地借鉴和利用已经发展起来的相关的几种第一代交叉学科,再次进行交叉与融合,从而形成第二代交叉学科。这样做好像是在比较坚固的旧楼上面加盖新的楼层,可以取得以旧出新、物尽其用、组合增效、事半功倍的效果。比如,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,可以借助已经成熟的“计算语言学”(Computational Linguistics, CL)与“社会语言学”(Sociolinguistics)等第一代交叉学科,形成“计算社会语言学”(Computational Sociolinguistics, CS)这种第二代交叉学科,从而使得相关的新文科建设不仅路径清晰、基础扎实,而且有法可依、有章可循。
关于第一代交叉学科“计算语言学”的思想源头,可以追溯到研制电子计算机的当初。大家也许知道,著名的“图灵测试”(Turing Test)就是以自然语言理解与翻译为思考背景的。相应于“自然语言处理”(natural language processing, NLP)和“自然语言理解”(natural language understanding, NLU)这种研究方向与工程领域,学者们提炼出了“计算语言学”这种学科建制与学科体系,以利于学术探索和人才培养。
关于第一代交叉学科“社会语言学”的发展与兴盛,可以归功于Labov (1966)和Weinreich, et al.(1968)等一系列关于语言与社会的共变关系的研究。他们采用口头访问、书面问卷和民族志等方法,系统地调查和研究了说话者的性别、年龄、地理位置、社会阶层和权力关系等社会结构对个体与社群的语言使用的影响,发现了说话人的有关社会变量(social variables)与语言变异(linguistic variation)之间的对应关系,揭示了语言使用的阶层差异与历史演变的重要规律,推动了社会学、心理学和语言学的深人与细化。
现在,Nguyen, et al.(2016)认识到:随着大数据的发展,相关的科学正在经历着一场范式的转变。除了聚焦于传统的自然现象描写、理论发展以及计算科学,数据驱动的探索和发现已经成为许多学科的方法论框架的有机组成部分,而计算语言学也在这进化之列。考虑到以往的计算语言学主要是捕捉语言的信息维度和语言信息传递的结构,对语言的社会维度关注很少。最近二十年来,受社交媒体大数据的驱动,计算语言学对研究社会环境中的语言的兴趣越来越浓。社交媒体平台上的大数据为计算语言学的研究提供了新方向,也具有方法论意义。当然,此方向也面临着一些挑战,比如:(1)比起计算语言学传统上用的语料来,社交媒体中的语言更口语化、变异也更多;(2)社会变量和语言之间的关系是更为动态和脆弱的,这也不同于计算语言学以往所关注的文意和结构之间的相对固定的关联。另一方面,传统的社会语言学用量化或质性方法来研究口语语料,而调查和民族志方法则是语料收集的主要手段,但是其语料规模往往较小。随着类似社交媒体平台语料的出现,大规模的数据为语言变异研究提供了更为宽阔的舞台。面对这些更为庞大也更为异质的语料,社会语言学需要新的方法论,而计算语言学则正符合这一期待。于是,他们大胆地构想一个计算语言学和社会语言学相结合的、可以被称之为“计算社会语言学”的新兴交叉领域;并且,明确其目标是从计算的角度研究语言与社会的关系。这篇论文详细地讨论了“计算社会语言学”的原理和范围及方法论特点,讨论了说话者如何使用语言来塑造对其身份的感知,并重点讨论了基于性别、年龄和地理位置的语言变异模型的计算方法;还从单个说话者转向成对、成组和社区,讨论语言在塑造个人关系、改变风格的使用以及在社区中采用规范和语言变化方面的作用;讨论了多语言和社交互动,其中概述了处理多语言交流的工具,如分析器(parsers)和语言识别系统(language identification systems),还讨论了从计算角度分析多语言交流模式的方法;最后,该综述论文指出了“计算社会语言学”这个研究方向所面临的挑战,也即这个新兴的多学科研究领域(an emerging multidisciplinary field)的研究议程(research agenda):扩展调查范围,调整方法框架以提高兼容性,根据社会语言学研究的需要调整自然语言处理的工具。
我们认为,这种基于成熟的若干第一代交叉学科来构建第二代交叉学科的做法,路径清晰、方法可靠、规范明确、有章可依,不仅可以指导我们细化与落实新文科建设,并且为我们的新文科建设提供制度化的学科规训(古拉丁文disciplina,英文discipline/disciplinarit)。下面,我们主要根据Nguyen, et al.(2016)和刘知远(2021)等材料,再结合笔者的语言学工作经验和文献阅读体会,简单介绍和讨论一下社会计算语言学的有关理论假设、研究方法和主要课题。
四、计算社会语言学的理论、方法与课题
作为第二代交叉学科,计算社会语言学尝试整合社会语言学和计算语言学的有关方面,从大数据和计算的角度对人们的语言(变异)和社会(参数)之间的关系进行研究,探讨对相关的语言内容及其社会背景信息的数据收集、计算建模和结果分析、及对其理论含义的揭示的一系列方法,以便在新的技术和学科背景上,加深对于语言运用中的社会动态(social dynamics)的理解,对在社会环境中使用语言这一主题产生新的见解;并且,通过这种基于社会语言学的语言研究,来改进相关的自然语言处理的工具与方法,帮助建立更加丰富的语言计算模型,从而对社交媒体上的文本及其内容处理提供更多的学术支持。比如,基于对用户语言选择的分析,自动检测用户的性别、年龄、地理位置或从属关系(工作单位或所属机构)、甚至性格特点、兴趣爱好和政治倾向等的研究,可能会给自动用户分析工具(如前述的用户建档)带来好处。反过来说,这种注重语言的社会变异的研究,可以超越经典的自然语言处理工具背后的典型假设,即语言使用同质性(homogeneity),从而让相关的语言计算工具更加贴近互联网语言运用的实际生态。
在社会语言学研究中引入计算建模方法,这是由我们这个网络时代语言运用的实际生态所要求的。因为,随着移动互联网的普及,数字信息世界这个虚拟空间已经成为人类的生活世界的一个不可或缺的组成部分。我们的社会突破了传统的“物理世界—精神世界”这种二元空间,已经全面进入了“物理世界—精神世界—信息世界”这种三元空间。人们在无处不在的信息空间中频繁交往,不断地通过语言使用来建构(construct)和塑造(shape)自己的线上身份(online identity),维护与管理自己的线上社会关系网络;从而在这种以计算机为媒介的交际(computer-mediated communication, CMC)中,形成了大量跟用户的社会变量相关的语言变异,为社会语言学的研究提供了大规模的活生生的素材。并且,信息世界通过万众上网、全民互联和迅速更新的方式,对人们的观念、行为、时尚和情绪等舆情和趋势产生全方位的实时影响。比如,在社会预测方面,社会媒体中关于候选人的提及率就是很好的预测指标。例如,根据Facebook上的支持率就能够成功预测2008年美国总统大选结果(Williams & Gulati 2009)。可见,社会环境的空间结构变化了,在社会环境中运用语言的实际生态也变化了;网络环境中的语言运用已非传统手工方式所能应付,计算建模方法已经是不二的选择。因此,对于社会语言学来说,计算建模不仅是一种方法论,更是一种认识论。在当今网络主宰人类社会的数字化生存时代,计算社会语言学是一种水到渠成的研究范式。
比如,在语料收集方面,社会语言学的传统做法是观察旁听、口头访谈和问卷调查,等等。显然,这是一个耗时费力的过程,而所得的数据集往往很小。现在,随着网络媒体的兴起,微博、论坛、评论等社交平台上用户生成的内容极为丰富,并且这些自然、非正式的语言往往带有上下文信息(比如,用户、社交网络机构、生成时间、地理位置,等等)。在一定的计算手段的帮助下,这些内容成为传统数据收集方法的一个有力的补充。这种计算社会语言学范式下收集起来的网络语料,自然地规避了Labov (1972)所谓的“观察者悖论”(observer’s paradox):社区语言研究的目的必须是发现人们在没有被系统观察时是如何说话的,然而我们却又只能通过系统观察来获得这些数据。此外,计算语言学上常用于获得各种大规模标注数据的“众包”(crowdsourcing)方式,也可以被计算社会语言学用以获取不同的人群如何使用某种语言变体,以及不同的人群如何看待不同的语言变体的大量数据。总之,计算的视窗一经打开,社会语言学的语料收集和处理方式就别开生面,如虎添翼。
在对语料的计算建模等研究方法方面,目前的计算语言学和自然语言处理,按照语言的结构层次和任务需求,已经形成了下列相对丰富和成熟的技术和系统:(1)词汇层,自动分词、词类标注、命名实体识别等;(2)句法层,自动句法分析、依存关系分析、层次结构和成分关系分析等;(3)语义层,词义消歧、语义角色标注、同义互释、文本蕴涵分析等;(4)篇章层,指代消解、共指消解、篇章结构、话题发现与跟踪等;(5)应用层,文本分类、信息抽取、智能问答、文档摘要、机器翻译等;(6)算法模型层,除了传统的支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression)、朴素贝叶斯(Naive Bayes)等算法,还有n-元语法(n-grams)、新兴的潜在变量建模方法(latent variables modeling approaches),以及最近十几年来发展起来的概率图模型(probabilistic graphical models )、神经网络方法中的深度学习(deep learning within a neural network approach)。这些不同层面上的计算建模方法,可以在研究语言变异与社会变量的对应关系时选择性地使用。
在研究课题方面,计算社会语言学一方面继承社会语言学的两大主题:(1)社会身份与语言变异的关系,(2)社交环境与语言变异的关系;当然,计算社会语言学更加注重利用计算建模的方法,来探讨和研究这些问题。另一方面,计算社会学上已经开展的词汇的时空传播与演化、语言使用与个体差异、语言使用与社会地位、语言使用与群体分析等专题,也可以融入和拓展上述两个方面。下面三节分别简单地进行介绍。
五、社会身份与语言变异的计算方法
下面简单地举例说明,怎样建构跟社会身份(social identity)相关的语言变异的计算方法。众所周知,社会语言学的一个重要假设是:说话者用语言来构建他们的社会身份,语言(特别是其中的变异形式)是说话者用来塑造其身份的工具之一。当计算语言学认识到语言的使用可以揭示其使用者的社会模式以后,许多研究就集中于从文本中自动推断作者的有关社会变量(social variables)。这个任务可以看作一种自动的元数据检测,以期得到关于作者特征的有关信息。随着对社会趋势分析工具的需求的日益增长,人们对这类元数据检测算法的开发和改进也越来越感兴趣。在计算语言学社区中,跟种族、社会阶层等群体变量相比,依据性别、年龄和地理位置等个体变量的语言变异受到了更多的关注。
在数据收集方面,早期的研究基于语料库中的正式文本,或者在当面对话或电话交谈等受控环境中收集。随着社交网络媒体的普及,人们从博客、推特、论坛等不受控环境中收集非正式文本。由于这类数据通常缺乏明确的关于用户的性别、年龄、位置等身份的信息,因而研究人员需要使用不同的策略,从用户提供的有限信息、注释或名字上来获得足够的标签。
以性别建模为例,计算语言学研究过文本作者的自动分类。曾经用支持向量机、逻辑回归、朴素贝叶斯等算法,对作者进行基于生物学特征的二元分类。但是,社会语言学的研究表明,这种把性别作为说话者的一种固定属性的做法,忽略了说话者的主观能动性(the agency of speakers)。从社会学的角度看,性别是一种社会结构,性别行为是社会习俗的结果,而不是固有的生物学特征。如果联系会话伙伴、互动环境和社交网络,对语言使用中性别的特定模式进行计算研究;那么,可以发现:尽管某些语言特征通常被男性或女性更多地使用(比如,在词类频率方面,男人更多地用介词、冠词,而妇女更多地用代词,特别是第一人称代词;在风格方面,男人倾向于用长的词句和文本、更多地用詈辞,而妇女更多地用情绪性词语、及“omg”“lol”之类典型的社交媒体词语)。但是,个别说话者可能会偏离许多研究中强调的刻板印象(stereotypes,例如:男人善于用“报告性”言谈来交换信息,妇女于喜欢用“亲善性”言谈来建立联系)。有研究发现,在同性别的人们交谈时,他们/她们更多地使用专属于其性别的语言变体。此外,性别因文化和语言的不同而形成不同的形态。这一切,有助于更好地证明:语言(运用)本质上是社会性的,语言的共时变异和历时变化跟语言使用者的社会变量直接相关。
另外,怎样发现和分析年龄、地理位置跟语言使用的关系(比如,什么年龄层次的人、处于什么场合更加容易偏离标准语的规范)?怎样为年龄和位置的变化建模(离散的年龄段还是连续的生命周期,离散的行政区划还是连续的地理坐标)?怎样利用语言使用者在推特等社交媒体上留下的GPS信息,或者他们在用户介绍中提供的位置信息?以及怎样对这些维度的调查结果进行解释?比如,年轻人更多地使用单数第一和第二人称代词,而老年人更多地使用复数第一人称代词及介词、定指词与冠词,这种倾向性跟语言类型(是不是代词脱落型语言,pro-drop language)有没有关系?这些也是从计算角度研究社会结构如何影响语言使用的核心课题。
反过来看,如果研究清楚了由性别、年龄和位置等变量决定的说话者的社会身份,怎样影响了语言变体的选择;那么,这种成果肯定也可用以帮助改进基于身份信息的内容检测和文本分类等自然语言处理任务。比如,Dadvar et al. (2012)训练针对特定性别的分类器,来侦测网络霸凌(cyberbulling)的实例。他们发现,不同性别的侵扰者使用的语言是不同的。再比如,Hovy (2015)发现,训练针对特定性别或年龄的词嵌入向量(word embeddings),可以改善情感评价分析(sentiment analysis)和话题分类(topic classification)等工作。这就走向语言学的社会研究和计算研究的双向对流、互惠互利和协同发展,也显示出计算社会语言学的应用潜力。
事实上,计算语言学社区已经展开了从有位置标签的数据(location-tagged data)上,训练和开发自动预测说话人的位置的一系列研究。比如,Eisenstein, et al. (2010)开发了一个话题模型(topic model),来识别区域惯用词语跟语言区域在地理上的相关性。这个模型被用以根据推特文本来预测推特用户的位置,成功地通过了测试。显然,这种基于文本的话题来预测用户的位置的计算模型,可以用来发现新的具有社会语言学价值的语言使用型式(new sociolinguistic patterns)。再比如,Bamman, et al. (2014)通过增加表示美国州名的语境变体,来扩展Mikolov, et al. (2013)的“跳词语法”模型(skip gram model)。结果,这个模型学会了全局嵌入矩阵和增加的每一个语境(比如,州)的嵌入矩阵,从而捕获了词的意义的地域变体形式,最终发现了有关词的意义怎样随着地理位置的变化而产生变异。我们相信,随着诸如上面这种分布式语义表示技术等计算模型的引入,计算社会语言学的技术路线也将越来越宽广。
六、个体人格与语言变异的计算方法
事实上,对于个体的语言使用和变异选择来说,比社会身份更加隐蔽和关键的决定因素,可能是人格差异。人格心理学(personality psychology)和社会语言学的相关研究发现,人类个体的人格差异会反映在他们的语言使用特点上。因此,如何定量地建立起语言使用与个体人格差异之间的关联,是心理学、语言学和社会计算的重要课题。关于这个主题的最具代表性的计算建模工作,是20世纪90年代Pennebaker和King提出的“语言探求与词数统计”(Linguistic Inquiry and Word Count, LIWC)方法(Pennebaker & King 1999)。这是一种基于词典的词语计数程序(dictionary-based word counting program),其基本思想是:以词汇作为定量分析语言使用的基本单位,首先通过人工收集、标注的方式,建立词语的不同类别(如代词、数词、情感词等)的词典;然后在跟给定的个体或群体相对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。Pennebaker教授的研究团队已经在这方面做了大量有影响的工作。他们发现,抑郁与自杀者往往会在其文本中发出可侦测的求救信号(Chung & Pennebaker 2007);初次约会的时候,对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率(Ireland, et al.2011);团队的凝聚力和合作倾向也可以通过其内部对话做出预测(Gonzales, et al.2010);谎言的有关语言特性也有助于分辨真假(Newman, et al.2003);对语言使用进行分析,还将有助于结识新朋友(Pennebaker & King 1999);语言使用还与年龄有千丝万缕的联系(Pennebaker & Stone 2003)等等。
目前,在大规模网络社交媒体普及的背景下,通过语言使用分析个体差异更凸显其重要性。一方面,很多在小规模数据集上建立起来的社会理论,需要在大规模真实数据集上进一步验证或再发现;另一方面,利用社会媒体用户产生的文本数据推测用户的人格或心理特点,可以在个性化推荐服务中发挥重要的作用。正因为如此,近年来,在社会计算领域中,研究人员提出了用户建档(也称为“用户画像”)的研究任务,旨在利用用户产生内容来预测用户的各种属性,既包括用户的有关简单属性,如性别(Burger, et al. 2011,Fink, et al. 2012)、年龄(Goswami, et al. 2009)和地理位置(Rao, et al. 2010,Li, et al. 2012)等,也包括用户的有关复杂属性,如兴趣(Yang, et al. 2011)、政治倾向(Rao, et al. 2010)、性格特点(Mairesse, et al. 2007,Schwartz, et al. 2013)和主观幸福感(Frank, et al. 2013,Mitchell, et al. 2013,Dodds, et al. 2011),等等。这种研究成功地把语言使用特点跟用户的其他方面的特征(如用户的社会网络结构、在线行为模式等)综合起来进行有效的属性预测。特别是,在研究手段上超越了词频统计的层面,充分利用了机器学习和自然语言处理领域的新方法,如向量空间模型(Manning et al. 2008)、隐含主题模型(Steyvers & Griffiths 2007)、时间序列分析(Hamilton 1994)等,在定量分析的广度和精度上都向前推进了一大步。这种类型的研究,为我们建设计算社会语言学开辟了新的领域和研究手段。
现在,面向大规模在线社会媒体的语言使用跟个体差异的关系的研究,尚处于起步阶段。一方面,在线社会媒体为语言的变异研究提供了极为丰富的分析素材和观察角度;另一方面,机器学习和自然语言处理的发展也为语言使用和语言变异分析,提供了更丰富的测量维度和更合适的计算建模工具。可以预期,在深度学习和语言大模型的推动下,未来将能看到关于语言使用与个体的人格差异的更多、更深层次的分析和发现,从而推动计算社会语言学向更加微观和深入的方向发展。
七、社交环境与语言变异的计算方法
语言运用往往是在成对、成组和成社群的人员构成的社会互动环境中进行的。这给了不同的说话人一个机会,来顺应或塑造社会关系,并响应特定的社交场合和相遇细节(如对话者或听众、话题和说话人的目标等)。这种跟社交环境相关的语言变异研究,特别需要计算建模的方法。因为,首先,从数据源的角度看,各种线上社区、论坛、课堂(on-line community, forum and classroom)等在线数据中,有大量的详细的交互记录,已经推动并促成了计算语言学社区关于这一主题的大量工作。其次,从上述语料中,我们可以通过一定的计算手段,来自动地提取社会关系,揭示社会关系的强弱、权力等级、礼貌策略、风格转换等对语言运用的影响因素。
语言运用往往不仅是一种信息交流的过程,而且也是一种表现自我和定位他人、以及反映说话人跟会话伙伴的相对地位的社会行为(social behaviour)。这种言语行为表现上的一致性,等于是定义了会话角色(conversational roles)。也就是说,从诸如此类的语言运用中,可以揭示相关说话人之间的社会关系的若干线索。正是认识到了这一点,计算语言学社区已经展开了基于文本的不同类型,来自动提取会话者的社会关系及其动态变化的研究,成功地从语言使用上发现了弱关系(比如熟人)和强关系(比如家人或密友)的区别。Bak, et al. (2012)用自动识别话题的方法,研究推特用户在强弱不同的关系中自我透露(self-disclosure)的差异。他们发现,推特用户面对强关系会透露更多的个人信息,而面对弱关系则会显示更多的正面的情感评价。这种现象,也许可以用照顾初次相识这种社会规范来解释。其他一些研究,已经从更广泛的数据集中自动提取了社会关系;从而发现线上互动时,发送消息的作者是向上言说(面向较高社会地位)还是向下言说(面向较低社会地位),在语言使用上有不同的表现。还有人用逻辑回归方法来对线上语料库中的权力关系进行自动分类,进而得以分析所提取出来的社会网络结构。比如,社会语言学调查了说话者如何使用语言来维持和改变权力关系,计算语言学探索了怎样从文本中自动识别权力关系。但是,对于不同社区之间的人们的社会互动,迄今的研究仍停留在简单的层面上。
关于不同权势的人们之间的语言互动,社会语言学理论曾经提出:地位越低的发言者需要从语言上去适应地位越高的听者,而地位越高的人则不需要调整自己的语言方式去适应别人(Gonzales, et al. 2010)。过去由于缺少相关大规模数据,因而有关理论一直缺少定量分析的支持。美国康奈尔大学的Mizil教授等人,选取线上和线下两个场景,验证了语言交流行为是如何体现权力关系的。两个场景分别是维基百科中编辑们的在线讨论,以及法院庭审现场的辩护对话。值得注意的是,这里所谓的语言使用方式,指的是虚词(function words)的使用,而不是实词的使用。他们调查了包括冠词、助动词、连词、高频副词、(非)人称代词、介词和量化词等8种标记,一共451个词项的使用情况。研究者观察了由甲引起的对话中,乙分别用了多少不同种类的标记来回应;并且考察了甲分别用了多少不同种类的标记,可能引起乙分别用了多少不同种类的标记来回应。值得注意的是,这种不同权势的对话者对虚词的不同的使用及其调整变化,甚至可能连对话者自己都没有注意到。然后,他们通过统计和定量分析及形式化刻画,验证了参与讨论的人之间权力的差异,会在两人如何回应对方的语言方式上有所体现(Danescu-Niculescu-Mizil, et al. 2012)。这种结论,也在推特平台上得到了验证。首先,他们同样利用介词等虚词的使用情况,考察了交流双方的语言风格是如何彼此适应的。然后,他们考察了交流双方之间影响的不对称性,以及这种不对称性与社会地位的关系;即地位高的人不会去适应地位低的人,而地位低的人要付出更多去适应地位高的人。研究结果表明,虽然推特对交流增加了一些限制(非面对面,非实时,而且只能说140个词),但交流中仍然有比较明显的语言适应行为(Danescu-Niculescu-Mizil, et al. 2011)。
一般认为,社会交往中的礼貌行为,有助于维持社会和谐和避免社会冲突。Brown and Levinson (1987)发现,语言的礼貌行为受到下列三个社会因素的影响:(1)社会距离(social distance),(2)相对的权力(relative power),(3)诉求的麻烦程度(ranking of the imposition,i.e., cost of the request,即请求的成本或代价)。幸运的是,检测礼貌的自动分类器已经被开发出来了,可用于大规模地研究礼貌策略。鉴于礼貌用语的使用跟参与对话的人的社会地位之间具有密切的关系,Mizil团队分别对维基百科编辑和Stack Exchange论坛的讨论者进行了研究。他们把用户对他人提出请求时的对话摘录出来(其中,一句是真正的请求,而另一句是客套话),然后由标注者为其礼貌程度进行评价。研究结果表明,维基百科编辑在选举过程中试图获得更高地位时,会更加礼貌;而一旦选上以后,礼貌程度随机就会下降。这种情况,同样也出现在Stack Exchange上;明显地,人们的礼貌程度跟其地位呈反比关系(Danescu-Niculescu-Mizil, et al.2013a)。
根据Labov(1972)的研究,没有单一风格的说话者;因为,说话者可能会根据他们的交流伙伴(比如,受话人的年龄、性别和社会背景),在不同风格之间进行切换(风格转换)。此外,话题(比如,政治vs.宗教)、语境(比如,法庭vs.家庭餐聚)等因素也能造成言语风格的转变。根据交际顺应理论(Communication Accommodation Theory, CAT),说话人会让其言语行为更加趋近或背离他们的对话伙伴。其中,趋近行为减少了对话者之间的社会距离。一般来说,作出趋近行为的说话人,往往会被认为是更加讨人喜欢和擅长合作的。现有的研究发现,说话人之间的互相顺应,主要体现在音高、手势、措辞等不同的维度。计算语言学社区侧重于用诸如前述的“语言探求与词数统计”(LIWC)方法,通过对线上语料中人称代词的使用(比如,更多地用单数第一人称还是复数第一人称)等的统计分析,来测度言语风格的顺应。有人发现,网上论坛的跟帖通常重复原帖的词语和句法结构,来达到顺应的效果。还有人用动态贝叶斯模型(Dynamic Bayesian Model),归纳出语料中潜在的风格状态,发现了不同的说话人在顺应方面的差异。
最后,对于社区动态的研究也是计算社会语言学的主题。因为,人们会根据谈话对象调整他们的语言使用。在社区内,规范随着时间的推移,通过成员之间的互动而出现;例如,使用俚语和特定领域的行话,或者在推特上表示转发的约定。对于这一主题的早期调查,是基于非公共社区的数据的。最近的研究则使用了来自公共在线社区的数据,比如在线论坛和评论网站。这一方向的研究,显示了利用大量在线数据定量研究社区语言变化的潜力。当然,在这种分析中,应该仔细考虑数据中的偏差,特别是当数据的动态和内容没有被完全理解时。比如,据Danescu-Niculescu-Mizil, et al. (2013b)介绍,他们以两个大型啤酒评论社区作为研究对象,发现用户在社区中一般会经历两个阶段:在第一个阶段,他们刚进入社区,会积极学习适应社区的语言使用规则;而接下来,他们逐渐不再做出改变,任由规则变化;最后,逐渐退出社区主流群体。这项研究定量地探索了在社区与个人的相互作用下,语言使用规则变化的复杂性。可见,Mizil等人的一系列研究,开创性地在社会媒体大数据上定量验证了社会语言学中的重要理论,并进一步利用该理论展开社会计算的研究。这为计算社会语言学树立了研究典范。
八、结语:用并为计算建模而研究语言的社会变异
新文科建设的出发点是多种相关学科的交叉、融合与创新,通过在研究内容、研究方法和技术手段等方面的跨学科的交融、提炼与整合,形成新的学科方向与研究范式,以及相应的复合型人才培养模式。我们充分地认识到,这种崇高而宏大的目标实施起来是困难重重的,迫切需要明确的可依循的操作路径。有鉴于此,上文提出一种在旧楼上加盖新楼层的方法:尽可能利用已经发展起来的若干第一代交叉学科,融合贯通起来形成第二代交叉学科,以取得物尽其用、事半功倍的效果。就语言学而言,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,我们可以借助已经成熟的“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。因为,社会语言学关注在社会环境中使用的语言的社会维度,计算语言学关注在社交网络上使用的语言的信息维度;把它们结合起来,形成计算社会语言学这种新的研究领域和学科,可以整合这两个学科的优势和强项,更好地从计算的视角来研究语言(变异)和社会(变量)之间的关系,以便更加深刻地认识人类语言在社会环境中的运作机制,更加充分地为计算机处理人类的语言提供理论、方法和材料支持。我们希望这种操作路线可以帮助细化与落实新文科建设,并且为新文科建设提供制度化的学科规训。
本文的创新点是从当代社会的“物理—精神—信息”三元空间这一特征切入,说明社会语言学的研究迫切需要计算建模这一方法。文章还以社会身份、人格特点和社交互动等对语言使用和变异选择的影响因素为例,说明了计算社会语言学研究的理论依据、语料采集与计算建模方法。
讨论至此,计算社会语言学的宗旨也就可以粗略地总结为:用计算建模的方法研究语言的社会变异,并为语言的计算建模而研究语言的社会变异(study linguistic variation by computational modeling and for computational modeling natural language)。
Computational sociolinguistics research from the perspective of new liberal arts
Yuan Yulin
Department of Chinese Language and Literature, Faculty of Arts and Humanities, University of Macau /Department of Chinese Language and Literature, Peking University
Abstract: One of the goals of the new liberal arts is the intersection and integration of multiple disciplines in research content and theoretical methodologies, thus forming new disciplinary directions and research paradigms, as well as corresponding inter-discipline talents training models. To this end, this paper proposes an operational path: using several first-generation interdisciplinary fields that have already been developed to integrate them into a second-generation interdisciplinary field. For example, in the research field of "social media plateforms-social variation of language-computational modeling", which issocomplicatedby multiple disciplines, we can use the first generation interdisciplinary fields such as "computational linguistics" and "social linguistics" to form the second generation interdisciplinary field of "computational social linguistics". This path can refine and implement the construction of the new liberal arts, and provide necessary disciplinary regulations (discipline or disciplinarit). In addition, theories, methodologies and issues of computational sociolinguistics are also exemplified in this paper by the “physical – mental – cyber” ternary space of contemporary society, where speakers’ social identities, individual personalities, and social interactions impose influence on language use and language variation choices.
Keywords: Construction of new liberal arts; First-/Second-generation interdisciplinary branches of learning; Computational/Sociolinguistics; Ternary space.
(发表于《语言文字应用》2024年第1期,第5-16页)
END
比特人文
投稿邮箱:dhbase@126.com
扫码关注 获取更多资讯