阅读视图

转载 | 观澜·驻访学者沙龙(具身心智工作坊第2期)| 人与机器人:从科幻到现实

2026-04-19 22:15 广东

我院2026年春季学期校内驻访学者李珍教授将担任召集人,主持开展共四期的具身心智工作坊。

为进一步营造深圳校区浓郁的人文学术氛围,人文社会科学研究院(以下简称“文研院”)策划推出“观澜”系列学术活动,旨在搭建开放、前沿的学术交流空间,更好地展现人文社科领域的思想碰撞,促进学科交融。

“观澜”取义,既在方法与视野,又在境界与格局“观澜”系列学术活动将由文研院携校内驻访学者在深圳校区组织开展,包括学术沙龙、专题讲座、雅集等丰富多样的形式。我们诚挚邀请校内外师生持续关注,积极参与,在“观澜”中共同见证思想的交汇与新生。

在本学期的“观澜·驻访学者沙龙”专栏中,我院2026年春季学期校内驻访学者李珍教授将担任召集人,主持开展共四期的具身心智工作坊。该系列工作坊旨在打破学科壁垒,深度融合认知科学、人工智能、哲学、法学及科幻视角,围绕具身认知、人机关系、身体智能与AI伦理法规四大核心议题,开启一场连接前沿科技与人文思考的深度对话,诚邀校内外师生踊跃参与,共话心智与智能的交汇之道。

下面推出的是“观澜·驻访学者沙龙”专栏具身心智工作坊系列第2期——人与机器人:从科幻到现实。

01

会议信息

会议时:4月20日(星期一)14:30-17:30

会议地点深圳校区文学园 5 栋 403 会议室

召集人李珍

中山大学马克思主义学院教授、人文社会科学研究院 2026 年春季学期校内驻访学者

02

会议议程

开幕式

主持人:李珍

报告一

具身智能下的人工智能发展前景

报告人:韩瑜

中山大学智能工程学院教授、广东省消防科学与智能应急技术重点实验室主任

与谈人:

  • 刘骁奔  生生科技创始人、2025年博古睿论文奖获奖者

  • 李毅琳  中山大学马克思主义学院助理教授

报告二

从互动到他者:当机器人开始凝视我们

报告人:王华平  

中山大学哲学系(珠海)教授

与谈人:

  • 周国梅  中山大学心理学系教授、人文社会科学研究院 2026 年春季学期校内驻访学者

  • 阮   凯  中山大学哲学系(珠海)副教授

报告三

机器人:科幻与现实的边界行者

报告人:程林

广东外语外贸大学外国文学文化研究院教授

与谈人:

  • 徐翌茹  中山大学外国语学院教授、人文社会科学研究院 2026 年春季学期校内驻访学者

圆桌讨论 (30 分钟)

内容来源:中山大学人文社会科学研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

  •  

实验室召开学术委员会年会

2026-04-20 09:50 湖北

2026 年 4 月 17 日,武汉大学文化遗产智能计算实验室学术委员会年会在人文社科楼 B111 顺利召开。

 👆👆👆点击蓝字 · 关注我们

图片

2026 年 4 月 17 日,武汉大学文化遗产智能计算实验室学术委员会年会在人文社科楼 B111 顺利召开。武汉大学党委常委、副校长陆伟,湖北省文化和旅游厅党组成员,省文物局党组书记、局长陈飞,武汉大学人文社会科学资深教授、实验室名誉主任马费成出席会议并致辞。学术委员会委员及相关领域 20 余位专家参与会议。

武汉大学人文社会科学研究院院长冯果、武汉大学人文社会科学研究院平台建设处副处长冯志轩先后主持会议。

陆伟强调,实验室肩负服务国家重大战略的重要使命立足信息资源管理、测绘科学与技术等学科优势以学科转型为抓手,推动科研成果高质量转化。实验室要强化智库服务功能,以实体化平台为载体,产出更多专利、专著与落地产品,持续加强平台建设,不断提升服务国家与地方文化发展的能力。

陈飞表示全省文物系统坚持以科技赋能、数智支撑,积极探索新时代文物保护利用、价值阐释与传播展示新路径,推动文物保护利用取得扎实成效实验室作为教育部首批哲学社会科学实验室,是政产学研协同的重要平台,为湖北文物科技保护提供了有力支撑。同时陈飞对实验室建设和文化遗产保护双向发展提三点期望:一是强化使命担当,服务国家与省级战略。二是坚持创新驱动,深化学科交叉融合。三是扎根荆楚沃土,赋能文物事业高质量发展。

马费成表示,实验室依托武汉大学人文社科深厚底蕴,联动文学、历史等传统学科,借力测绘科学与技术等理工学科优势,构建文理交叉、互鉴共融的研究场景,为新文科建设提供重要实践样本。实验室在文科实验室建设模式上积极探索,精准对接国家与省级重大需求,在文物保护、古籍整理、遗址数字化等领域贡献突出,未来要进一步拓展学校资源,持续服务长江文明溯源等重大研究,助力文化高质量发展。

实验室主任王晓光从科研项目、科研成果、人才培养、国际交流、社会服务等方面对实验室过去五年的建设情况进行整体汇报。五年间,实验室建成全国首个“文化遗产数字演绎剧场”,承担 20 余项国家级项目,产出系列论文、专利、软著等丰富的科研成果,形成人才培养、国际合作、社会服务协同推进格局。王晓光表示,未来力争建成国际一流的哲学社会科学实验室与数字文化人才培养平台

中国人民大学国家一级教授学术委员会主任冯惠玲主持学术委员会交流环节并作总结。学术委员会对实验室近五年的建设成效、特色成果与创新模式给予高度肯定,指出实验室未来应着重在高质量数据资源建设、共性关键技术创新、科技成果转化、政产学研合作等方向发力,探索文科实验室建设体制机制创新。

武汉大学信息管理学院党委书记王三礼代表武汉大学信息管理学院,对各位专家的到来与建言献策表示衷心感谢。他表示,实验室的建设与发展离不开各位专家的悉心指导与大力支持,学院将与实验室一道,认真梳理吸纳各位专家的宝贵建议,聚焦 AI 时代文科教育与高校治理的新命题,持续探索文科实验室的运转机制与成果转化路径,以问题为导向破解发展难题,推动实验室建设再上新台阶,为新文科建设与文化遗产数字化事业贡献武大力量。

会议期间学术委员们在王晓光与实验室副主任王玉珏陪同下,现场考察了实验室在设备装置、数据平台、科研项目等方面的建设成果

本次会议围绕文化遗产智能计算前沿探索、学科交叉创新与成果转化应用,全面总结实验室建设成效,明确未来发展方向与重点任务。实验室将以此次会议为契机,深耕文化遗产智能计算领域,为服务国家文化数字化战略与文化强国建设凝聚共识、汇聚力量。

(通讯员:翁梦娟、周柃妍,排版:刘天畅)

编辑|文化遗产智能计算实验室

审校|刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

  •  

袁毓林 | 《新文科视角下的计算社会语言学研究》

袁毓林 2026-04-21 09:00 江苏

新文科下以第一代交叉学科融合构建计算社会语言学,研究语言社会变异与计算建模。

转引自:《语言文字应用》2024年第1期,第5-16页

作者简介

袁毓林,澳门大学教授,主要研究理论语言学和汉语语言学。

新文科视域下的计算社会语言学研究

袁毓林

澳门大学人文学院中国语言文学系/北京大学中文系

摘要:新文科建设的目标之一是:多种学科在研究内容和理论方法上的交叉与融合,从而形成新的学科方向和研究范式,以及相应的复合型人才培养模式。为此,本文提出一种可操作的路径:利用已经发展起来的若干第一代交叉学科,融汇成第二代交叉学科。比如,对于“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,可以借助“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。这种操作路线可以细化与落实新文科建设,并提供必要的学科规训。文章还以当代社会的“物理—精神—信息”三元空间,以及其中说话者的社会身份、个体人格和社交互动对语言使用和变异选择的影响为例,说明计算社会语言学的理论、方法和议题。

关键词:新文科建设;第一/二代交叉学科;计算/社会语言学;三元空间

一、新文科建设视域中的社会计算

新文科建设的一个重要特征是,建设一批多学科交叉的人文社会科学的新兴研究领域或研究方向。这种愿景和理想是非常美好和丰满的,有助于培养能够应对未来挑战的跨学科的复合型人才;但是,实现起来却是十分艰难的,从具体的学科群选择与组合、研究目标设计到操作路线与实施方案的制订,都需要进行不断的探索和尝试;并且,要冒着因尝试失败而沉没了机会成本的风险,甚至还可能要背上误人子弟的骂名。因此,不同的学科怎样寻找相关的伙伴学科,形成有议题(研究内容新颖而且重要)、可操作(有技术支撑)、有发展前途(带来理论突破或应用落地)的交叉学科,是新文科建设成败的关键要素和重中之重。

一般的印象,新文科不同于传统文科的一个标志是:有意识地在人文社会科学的研究内容或方法中,系统性地融入当代前沿的科学技术,以期形成新的学科方向和研究范式,以及相应的复合型人才培养模式。比如,随着大数据(Big Data)技术的跨越式发展,“计算”已经越来越成为人文社会科学领域的关键词。跟“计算”相结合的多学科/交叉学科/跨学科的(multi/inter/trans/cross-disciplinary)研究领域也开始大量涌现,形成了数字人文(Digital Humanities、社会计算(Social Computation)、计算社会科学(Computational Social Science计算传播学(Computational Communication)、计算社会学(Computational Sociology)等新兴学科或研究方向。值得一提的是,2009年,哈佛大学的David Lazer联合从事信息科学、社会学和物理学的15位学者Science杂志上联名发表文章(Lazer, et al. 2009),创造性地提出了“计算社会学”(Computational Sociology)这一新兴学科。他们阐述了利用计算手段,从大数据中揭示社会学规律的学术思想和趋势。这标志着社会学研究进入到数据计算时代。因为,当代科学技术的显学是计算机科学技术和网络大数据技术;所以,像“计算社会学”肯定可以算是“新文科”。随后短短几年内,计算社会学已成为人文社科领域近年来最重要的研究范式。《科学》(Science《自然》(Nature和《美国国家科学院院刊》(PNAS)等国际顶级学术期刊上,大量涌现计算社会学的研究成果,众多学术期刊出版专刊介绍计算社会学研究的进展。美国还成立了计算社会学学会,George Mason大学甚至成立了计算社会学系,并成为世界上第一个正式授予计算社会学博士学位的单位。计算社会学无论对于揭示人类与社会规律,还是对于用户个性化服务,均具有重要的意义。因此,基于社会媒体大数据的计算社会学研究,在学术界和产业界均引起了广泛的关注。这可以说是国际学术界新文科开拓与建设的一个成功的范例,足以为我们的新文科建设提供经验。

二、社会计算的议题与方法

我们认为,就利用社会媒体大数据的社会计算和计算社会学而言,也并非只有原来从事计算机科学技术和社会学的学者才可以涉足;其实,语言学研究者也是可以积极参与的,并且还是可以大有作为的。因为,社会媒体的海量数据中,绝大部分是用自然语言写成的长短不一的文本;其中蕴藏了跟用户及其复杂的社会结构有关的丰富信息,是社会学、心理学(特别是社会心理学)和语言学(特别是社会语言学)等学科的重要研究对象和研究角度。但是,这些学科所需的信息都隐藏在复杂的语言背后,需要利用自然语言处理和理解技术挖掘出来,才能被计算社会学研究进一步加以利用和提炼。而这种对语言数据的处理,正好是语言学、自然语言处理和计算语言学等学科的强项。

近年来,随着机器学习和自然语言处理技术的发展,如何更好地分析社会媒体大数据中的自然语言(即文本信息),已经成为社会计算、计算社会学研究的热点;吸引了众多不同学科的学者的研究兴趣,学科体系与范式已初具规模。并且,取得了不少令人鼓舞的成果。比较著名和成熟的研究有下列四个方面:

1词汇的时空传播与演化研究。比如,哈佛大学研究团队利用Google Books收集并扫描识别的1800年到2000年之间的500万种出版物(占人类所有出版物的4%),通过不同关键词使用频度随时间的变化,分析了人类文化演进特点,做出了很多惊人的或有意思的发现。例如,他们发现在过去几百年里英语中越来越多的不规则变化动词演化成了规则变化动词(Lieberman, et al. 2007)。再比如,通过Google Books中历年来使用The United States is”和“The United States are”两种表达形式的统计趋势图,来定量地分析美国作为一个统一国家的概念是如何慢慢形成的(Aiden & Michel 2013)。词汇是文本中负载信息的基本单位,考察社会媒体中词汇的时空传播与演化,无论对语言演化研究,还是对社会管理,均具重要意义。

2语言使用与个体差异。比如,Pennebaker & King1999)以词汇作为语言使用定量分析的基本单位,在给定的个体或群体对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。研究者们发现,抑郁与自杀者往往会在文本中发出可侦测的求救信号;初次约会的时候对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率;团队的凝聚力和合作倾向也可以通过内部对话做出预测,等等(详见下文§5)。近年来,在社会计算领域提出了用户建档(user profiling)的研究任务,旨在利用用户产生内容预测用户的各种属性,既包括用户的各种简单属性,如性别、年龄和地理位置等,也包括用户的复杂属性,如兴趣、政治倾向、性格特点和主观幸福感等。

此外,还有(3语言使用与社会地位的关系,和(4语言使用跟群体的关注话题与情绪态度,等等。诸如此类的研究,不仅具有社会学、心理学和语言学方面的学理价值,而且在舆论监测、社会管理和客户分析等方面,都具有重要的应用价值。

三、从“计算语言学”和“社会语言学”

“计算社会语言学”

众所周知,高等院校的学科体系和专业分工是已经制度化了的。并且,不同的学科在学科传统、方法论和学术追求与价值观方面,也存在巨大的差别。这在历史上形成了所谓的“学科鸿沟”或“学术壁垒”,或者如俗话所说的“隔行如隔山”。因此,要把不同的学科整合起来,殊非易事。对此,我们提出一种可操作的实践路径:尽可能有效地借鉴和利用已经发展起来的相关的几种第一代交叉学科,再次进行交叉与融合,从而形成第二代交叉学科。这样做好像是在比较坚固的旧楼上面加盖新的楼层,可以取得以旧出新、物尽其用、组合增效、事半功倍的效果。比如,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,可以借助已经成熟的“计算语言学”Computational Linguistics, CL“社会语言学”Sociolinguistics等第一代交叉学科,形成“计算社会语言学”Computational Sociolinguistics, CS这种第二代交叉学科,从而使得相关的新文科建设不仅路径清晰、基础扎实,而且有法可依、有章可循。

关于第一代交叉学科“计算语言学”的思想源头,可以追溯到研制电子计算机的当初。大家也许知道,著名的“图灵测试”(Turing Test)就是以自然语言理解与翻译为思考背景的。相应于“自然语言处理”(natural language processingNLP)和“自然语言理解”(natural language understandingNLU)这种研究方向与工程领域,学者们提炼出了“计算语言学”这种学科建制与学科体系,以利于学术探索和人才培养。

关于第一代交叉学科“社会语言学”的发展与兴盛,可以归功于Labov (1966)Weinreich, et al.1968)等一系列关于语言与社会的共变关系的研究。他们采用口头访问、书面问卷和民族志等方法,系统地调查和研究了说话者的性别、年龄、地理位置、社会阶层和权力关系等社会结构对个体与社群的语言使用的影响,发现了说话人的有关社会变量(social variables)与语言变异(linguistic variation)之间的对应关系,揭示了语言使用的阶层差异与历史演变的重要规律,推动了社会学、心理学和语言学的深人与细化。

现在,Nguyen, et al.2016认识到:随着大数据的发展,相关的科学正在经历着一场范式的转变。除了聚焦于传统的自然现象描写、理论发展以及计算科学,数据驱动的探索和发现已经成为许多学科的方法论框架的有机组成部分,而计算语言学也在这进化之列。考虑到以往的计算语言学主要是捕捉语言的信息维度和语言信息传递的结构,对语言的社会维度关注很少。最近二十年来,受社交媒体大数据的驱动,计算语言学对研究社会环境中的语言的兴趣越来越浓。社交媒体平台上的大数据为计算语言学的研究提供了新方向,也具有方法论意义。当然,此方向也面临着一些挑战,比如:(1)比起计算语言学传统上用的语料来,社交媒体中的语言更口语化、变异也更多;(2社会变量和语言之间的关系是更为动态和脆弱的,这也不同于计算语言学以往所关注的文意和结构之间的相对固定的关联。另一方面,传统的社会语言学用量化或质性方法来研究口语语料,而调查和民族志方法则是语料收集的主要手段,但是其语料规模往往较小。随着类似社交媒体平台语料的出现,大规模的数据为语言变异研究提供了更为宽阔的舞台。面对这些更为庞大也更为异质的语料,社会语言学需要新的方法论,而计算语言学则正符合这一期待。于是,他们大胆地构想一个计算语言学和社会语言学相结合的、可以被称之为“计算社会语言学”的新兴交叉领域;并且,明确其目标是从计算的角度研究语言与社会的关系。这篇论文详细地讨论了“计算社会语言学”的原理和范围及方法论特点,讨论了说话者如何使用语言来塑造对其身份的感知,并重点讨论了基于性别、年龄和地理位置的语言变异模型的计算方法;还从单个说话者转向成对、成组和社区,讨论语言在塑造个人关系、改变风格的使用以及在社区中采用规范和语言变化方面的作用;讨论了多语言和社交互动,其中概述了处理多语言交流的工具,如分析器(parsers)和语言识别系统(language identification systems),还讨论了从计算角度分析多语言交流模式的方法;最后,该综述论文指出了“计算社会语言学”这个研究方向所面临的挑战,也即这个新兴的多学科研究领域(an emerging multidisciplinary field)的研究议程(research agenda):扩展调查范围,调整方法框架以提高兼容性,根据社会语言学研究的需要调整自然语言处理的工具。

我们认为,这种基于成熟的若干第一代交叉学科来构建第二代交叉学科的做法,路径清晰、方法可靠、规范明确、有章可依,不仅可以指导我们细化与落实新文科建设,并且为我们的新文科建设提供制度化的学科规训(古拉丁文disciplina英文discipline/disciplinarit)。下面,我们主要根据Nguyen, et al.2016刘知远(2021)等材料,再结合笔者的语言学工作经验和文献阅读体会,简单介绍和讨论一下社会计算语言学的有关理论假设、研究方法和主要课题。

四、计算社会语言学的理论、方法与课题

作为第二代交叉学科,计算社会语言学尝试整合社会语言学和计算语言学的有关方面,从大数据和计算的角度对人们的语言(变异)和社会(参数)之间的关系进行研究,探讨对相关的语言内容及其社会背景信息的数据收集、计算建模和结果分析、及对其理论含义的揭示的一系列方法,以便在新的技术和学科背景上,加深对于语言运用中的社会动态(social dynamics)的理解,对在社会环境中使用语言这一主题产生新的见解;并且,通过这种基于社会语言学的语言研究,来改进相关的自然语言处理的工具与方法,帮助建立更加丰富的语言计算模型,从而对社交媒体上的文本及其内容处理提供更多的学术支持。比如,基于对用户语言选择的分析,自动检测用户的性别、年龄、地理位置或从属关系(工作单位或所属机构)、甚至性格特点、兴趣爱好和政治倾向等的研究,可能会给自动用户分析工具(如前述的用户建档)带来好处。反过来说,这种注重语言的社会变异的研究,可以超越经典的自然语言处理工具背后的典型假设,即语言使用同质性(homogeneity),从而让相关的语言计算工具更加贴近互联网语言运用的实际生态。

在社会语言学研究中引入计算建模方法,这是由我们这个网络时代语言运用的实际生态所要求的。因为,随着移动互联网的普及,数字信息世界这个虚拟空间已经成为人类的生活世界的一个不可或缺的组成部分。我们的社会突破了传统的“物理世界—精神世界”这种二元空间,已经全面进入了“物理世界—精神世界—信息世界”这种三元空间。人们在无处不在的信息空间中频繁交往,不断地通过语言使用来建构(construct)和塑造(shape)自己的线上身份(online identity),维护与管理自己的线上社会关系网络;从而在这种以计算机为媒介的交际(computer-mediated communication, CMC)中,形成了大量跟用户的社会变量相关的语言变异,为社会语言学的研究提供了大规模的活生生的素材。并且,信息世界通过万众上网、全民互联和迅速更新的方式,对人们的观念、行为、时尚和情绪等舆情和趋势产生全方位的实时影响。比如,在社会预测方面,社会媒体中关于候选人的提及率就是很好的预测指标。例如,根据Facebook上的支持率就能够成功预测2008年美国总统大选结果(Williams & Gulati 2009)。可见,社会环境的空间结构变化了,在社会环境中运用语言的实际生态也变化了;网络环境中的语言运用已非传统手工方式所能应付,计算建模方法已经是不二的选择。因此,对于社会语言学来说,计算建模不仅是一种方法论,更是一种认识论。在当今网络主宰人类社会的数字化生存时代,计算社会语言学是一种水到渠成的研究范式。

比如,在语料收集方面,社会语言学的传统做法是观察旁听、口头访谈和问卷调查,等等。显然,这是一个耗时费力的过程,而所得的数据集往往很小。现在,随着网络媒体的兴起,微博、论坛、评论等社交平台上用户生成的内容极为丰富,并且这些自然、非正式的语言往往带有上下文信息(比如,用户、社交网络机构、生成时间、地理位置,等等)。在一定的计算手段的帮助下,这些内容成为传统数据收集方法的一个有力的补充。这种计算社会语言学范式下收集起来的网络语料,自然地规避了Labov (1972)所谓的“观察者悖论”(observer’s paradox):社区语言研究的目的必须是发现人们在没有被系统观察时是如何说话的,然而我们却又只能通过系统观察来获得这些数据。此外,计算语言学上常用于获得各种大规模标注数据的“众包”(crowdsourcing)方式,也可以被计算社会语言学用以获取不同的人群如何使用某种语言变体,以及不同的人群如何看待不同的语言变体的大量数据。总之,计算的视窗一经打开,社会语言学的语料收集和处理方式就别开生面,如虎添翼。

在对语料的计算建模等研究方法方面,目前的计算语言学和自然语言处理,按照语言的结构层次和任务需求,已经形成了下列相对丰富和成熟的技术和系统:1词汇层,自动分词、词类标注、命名实体识别等;2句法层,自动句法分析、依存关系分析、层次结构和成分关系分析等;3语义层,词义消歧、语义角色标注、同义互释、文本蕴涵分析等;4篇章层,指代消解、共指消解、篇章结构、话题发现与跟踪等;5应用层,文本分类、信息抽取、智能问答、文档摘要、机器翻译等;6)算法模型层,除了传统的支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression)、朴素贝叶斯(Naive Bayes)等算法,还有n-元语法(n-grams)、新兴的潜在变量建模方法(latent variables modeling approaches),以及最近十几年来发展起来的概率图模型(probabilistic graphical models )、神经网络方法中的深度学习(deep learning within a neural network approach)。这些不同层面上的计算建模方法,可以在研究语言变异与社会变量的对应关系时选择性地使用

在研究课题方面,计算社会语言学一方面继承社会语言学的两大主题:(1)社会身份与语言变异的关系,(2)社交环境与语言变异的关系;当然,计算社会语言学更加注重利用计算建模的方法,来探讨和研究这些问题。另一方面,计算社会学上已经开展的词汇的时空传播与演化、语言使用与个体差异、语言使用与社会地位、语言使用与群体分析等专题,也可以融入和拓展上述两个方面。下面三节分别简单地进行介绍。

五、社会身份与语言变异的计算方法

下面简单地举例说明,怎样建构跟社会身份(social identity)相关的语言变异的计算方法。众所周知,社会语言学的一个重要假设是:说话者用语言来构建他们的社会身份,语言(特别是其中的变异形式)是说话者用来塑造其身份的工具之一。当计算语言学认识到语言的使用可以揭示其使用者的社会模式以后,许多研究就集中于从文本中自动推断作者的有关社会变量(social variables)。这个任务可以看作一种自动的元数据检测,以期得到关于作者特征的有关信息。随着对社会趋势分析工具的需求的日益增长,人们对这类元数据检测算法的开发和改进也越来越感兴趣。在计算语言学社区中,跟种族、社会阶层等群体变量相比,依据性别、年龄和地理位置等个体变量的语言变异受到了更多的关注。

在数据收集方面,早期的研究基于语料库中的正式文本,或者在当面对话或电话交谈等受控环境中收集。随着社交网络媒体的普及,人们从博客、推特、论坛等不受控环境中收集非正式文本。由于这类数据通常缺乏明确的关于用户的性别、年龄、位置等身份的信息,因而研究人员需要使用不同的策略,从用户提供的有限信息、注释或名字上来获得足够的标签。

以性别建模为例,计算语言学研究过文本作者的自动分类。曾经用支持向量机、逻辑回归、朴素贝叶斯等算法,对作者进行基于生物学特征的二元分类。但是,社会语言学的研究表明,这种把性别作为说话者的一种固定属性的做法,忽略了说话者的主观能动性(the agency of speakers)。从社会学的角度看,性别是一种社会结构,性别行为是社会习俗的结果,而不是固有的生物学特征。如果联系会话伙伴、互动环境和社交网络,对语言使用中性别的特定模式进行计算研究;那么,可以发现:尽管某些语言特征通常被男性或女性更多地使用(比如,在词类频率方面,男人更多地用介词、冠词,而妇女更多地用代词,特别是第一人称代词;在风格方面,男人倾向于用长的词句和文本、更多地用詈辞,而妇女更多地用情绪性词语、及“omg”“lol”之类典型的社交媒体词语)。但是,个别说话者可能会偏离许多研究中强调的刻板印象(stereotypes,例如:男人善于用“报告性”言谈来交换信息,妇女于喜欢用“亲善性”言谈来建立联系)。有研究发现,在同性别的人们交谈时,他们/她们更多地使用专属于其性别的语言变体。此外,性别因文化和语言的不同而形成不同的形态。这一切,有助于更好地证明:语言(运用)本质上是社会性的,语言的共时变异和历时变化跟语言使用者的社会变量直接相关

另外,怎样发现和分析年龄、地理位置跟语言使用的关系(比如,什么年龄层次的人、处于什么场合更加容易偏离标准语的规范)?怎样为年龄和位置的变化建模(离散的年龄段还是连续的生命周期,离散的行政区划还是连续的地理坐标)?怎样利用语言使用者在推特等社交媒体上留下的GPS信息,或者他们在用户介绍中提供的位置信息?以及怎样对这些维度的调查结果进行解释?比如,年轻人更多地使用单数第一和第二人称代词,而老年人更多地使用复数第一人称代词及介词、定指词与冠词,这种倾向性跟语言类型(是不是代词脱落型语言,pro-drop language)有没有关系?这些也是从计算角度研究社会结构如何影响语言使用的核心课题

反过来看,如果研究清楚了由性别、年龄和位置等变量决定的说话者的社会身份,怎样影响了语言变体的选择;那么,这种成果肯定也可用以帮助改进基于身份信息的内容检测和文本分类等自然语言处理任务。比如,Dadvar et al. (2012)训练针对特定性别的分类器,来侦测网络霸凌(cyberbulling)的实例。他们发现,不同性别的侵扰者使用的语言是不同的。再比如,Hovy (2015)发现,训练针对特定性别或年龄的词嵌入向量(word embeddings),可以改善情感评价分析(sentiment analysis)和话题分类(topic classification)等工作。这就走向语言学的社会研究和计算研究的双向对流、互惠互利和协同发展,也显示出计算社会语言学的应用潜力。

事实上,计算语言学社区已经展开了从有位置标签的数据(location-tagged data)上,训练和开发自动预测说话人的位置的一系列研究。比如,Eisenstein, et al. (2010)开发了一个话题模型(topic model),来识别区域惯用词语跟语言区域在地理上的相关性。这个模型被用以根据推特文本来预测推特用户的位置,成功地通过了测试。显然,这种基于文本的话题来预测用户的位置的计算模型,可以用来发现新的具有社会语言学价值的语言使用型式(new sociolinguistic patterns)。再比如,Bamman, et al. (2014)通过增加表示美国州名的语境变体,来扩展Mikolov, et al. (2013)“跳词语法”模型(skip gram model结果,这个模型学会了全局嵌入矩阵和增加的每一个语境(比如,州)的嵌入矩阵,从而捕获了词的意义的地域变体形式,最终发现了有关词的意义怎样随着地理位置的变化而产生变异。我们相信,随着诸如上面这种分布式语义表示技术等计算模型的引入,计算社会语言学的技术路线也将越来越宽广。

六、个体人格与语言变异的计算方法

事实上,对于个体的语言使用和变异选择来说,比社会身份更加隐蔽和关键的决定因素,可能是人格差异。人格心理学(personality psychology)和社会语言学的相关研究发现,人类个体的人格差异会反映在他们的语言使用特点上。因此,如何定量地建立起语言使用与个体人格差异之间的关联,是心理学、语言学和社会计算的重要课题。关于这个主题的最具代表性的计算建模工作,是20世纪90年代PennebakerKing提出的“语言探求与词数统计”(Linguistic Inquiry and Word Count, LIWC)方法(Pennebaker & King 1999。这是一种基于词典的词语计数程序(dictionary-based word counting program),其基本思想是:以词汇作为定量分析语言使用的基本单位,首先通过人工收集、标注的方式,建立词语的不同类别(如代词、数词、情感词等)的词典;然后在跟给定的个体或群体相对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。Pennebaker教授的研究团队已经在这方面做了大量有影响的工作。他们发现,抑郁与自杀者往往会在其文本中发出可侦测的求救信号(Chung & Pennebaker 2007);初次约会的时候,对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率(Ireland, et al.2011);团队的凝聚力和合作倾向也可以通过其内部对话做出预测(Gonzales, et al.2010);谎言的有关语言特性也有助于分辨真假(Newman, et al.2003);对语言使用进行分析,还将有助于结识新朋友(Pennebaker & King 1999);语言使用还与年龄有千丝万缕的联系(Pennebaker & Stone 2003)等等。

目前,在大规模网络社交媒体普及的背景下,通过语言使用分析个体差异更凸显其重要性。一方面,很多在小规模数据集上建立起来的社会理论,需要在大规模真实数据集上进一步验证或再发现;另一方面,利用社会媒体用户产生的文本数据推测用户的人格或心理特点,可以在个性化推荐服务中发挥重要的作用。正因为如此,近年来,在社会计算领域中,研究人员提出了用户建档(也称为“用户画像”)的研究任务,旨在利用用户产生内容来预测用户的各种属性,既包括用户的有关简单属性,如性别(Burger, et al. 2011Fink, et al. 2012)、年龄(Goswami, et al. 2009)和地理位置(Rao, et al. 2010Li, et al. 2012)等,也包括用户的有关复杂属性,如兴趣(Yang, et al. 2011)、政治倾向(Rao, et al. 2010)、性格特点(Mairesse, et al. 2007Schwartz, et al. 2013)和主观幸福感(Frank, et al. 2013Mitchell, et al. 2013Dodds, et al. 2011,等等。这种研究成功地把语言使用特点跟用户的其他方面的特征(如用户的社会网络结构、在线行为模式等)综合起来进行有效的属性预测。特别是,在研究手段上超越了词频统计的层面,充分利用了机器学习和自然语言处理领域的新方法,如向量空间模型(Manning et al. 2008)、隐含主题模型(Steyvers & Griffiths 2007)、时间序列分析(Hamilton 1994)等,在定量分析的广度和精度上都向前推进了一大步。这种类型的研究,为我们建设计算社会语言学开辟了新的领域和研究手段。

现在,面向大规模在线社会媒体的语言使用跟个体差异的关系的研究,尚处于起步阶段。一方面,在线社会媒体为语言的变异研究提供了极为丰富的分析素材和观察角度;另一方面,机器学习和自然语言处理的发展也为语言使用和语言变异分析,提供了更丰富的测量维度和更合适的计算建模工具。可以预期,在深度学习和语言大模型的推动下,未来将能看到关于语言使用与个体的人格差异的更多、更深层次的分析和发现,从而推动计算社会语言学向更加微观和深入的方向发展。

七、社交环境与语言变异的计算方法

语言运用往往是在成对、成组和成社群的人员构成的社会互动环境中进行的。这给了不同的说话人一个机会,来顺应或塑造社会关系,并响应特定的社交场合和相遇细节(如对话者或听众、话题和说话人的目标等)。这种跟社交环境相关的语言变异研究,特别需要计算建模的方法。因为,首先,从数据源的角度看,各种线上社区、论坛、课堂(on-line community, forum and classroom)等在线数据中,有大量的详细的交互记录,已经推动并促成了计算语言学社区关于这一主题的大量工作。其次,从上述语料中,我们可以通过一定的计算手段,来自动地提取社会关系,揭示社会关系的强弱、权力等级、礼貌策略、风格转换等对语言运用的影响因素。

语言运用往往不仅是一种信息交流的过程,而且也是一种表现自我和定位他人、以及反映说话人跟会话伙伴的相对地位的社会行为(social behaviour)。这种言语行为表现上的一致性,等于是定义了会话角色(conversational roles)。也就是说,从诸如此类的语言运用中,可以揭示相关说话人之间的社会关系的若干线索。正是认识到了这一点,计算语言学社区已经展开了基于文本的不同类型,来自动提取会话者的社会关系及其动态变化的研究,成功地从语言使用上发现了弱关系(比如熟人)和强关系(比如家人或密友)的区别。Bak, et al. (2012)用自动识别话题的方法,研究推特用户在强弱不同的关系中自我透露(self-disclosure)的差异。他们发现,推特用户面对强关系会透露更多的个人信息,而面对弱关系则会显示更多的正面的情感评价。这种现象,也许可以用照顾初次相识这种社会规范来解释。其他一些研究,已经从更广泛的数据集中自动提取了社会关系;从而发现线上互动时,发送消息的作者是向上言说(面向较高社会地位)还是向下言说(面向较低社会地位),在语言使用上有不同的表现。还有人用逻辑回归方法来对线上语料库中的权力关系进行自动分类,进而得以分析所提取出来的社会网络结构。比如,社会语言学调查了说话者如何使用语言来维持和改变权力关系,计算语言学探索了怎样从文本中自动识别权力关系。但是,对于不同社区之间的人们的社会互动,迄今的研究仍停留在简单的层面上。

关于不同权势的人们之间的语言互动,社会语言学理论曾经提出:地位越低的发言者需要从语言上去适应地位越高的听者,而地位越高的人则不需要调整自己的语言方式去适应别人(Gonzales, et al. 2010)。过去由于缺少相关大规模数据,因而有关理论一直缺少定量分析的支持。美国康奈尔大学的Mizil教授等人选取线上和线下两个场景,验证了语言交流行为是如何体现权力关系的。两个场景分别是维基百科中编辑们的在线讨论,以及法院庭审现场的辩护对话。值得注意的是,这里所谓的语言使用方式,指的是虚词(function words)的使用,而不是实词的使用。他们调查了包括冠词、助动词、连词、高频副词、(非)人称代词、介词和量化词等8种标记,一共451个词项的使用情况。研究者观察了由甲引起的对话中,乙分别用了多少不同种类的标记来回应;并且考察了甲分别用了多少不同种类的标记,可能引起乙分别用了多少不同种类的标记来回应。值得注意的是,这种不同权势的对话者对虚词的不同的使用及其调整变化,甚至可能连对话者自己都没有注意到。然后,他们通过统计和定量分析及形式化刻画,验证了参与讨论的人之间权力的差异,会在两人如何回应对方的语言方式上有所体现Danescu-Niculescu-Mizil, et al. 2012这种结论,也在推特平台上得到了验证。首先,他们同样利用介词等虚词的使用情况,考察了交流双方的语言风格是如何彼此适应的。然后,他们考察了交流双方之间影响的不对称性,以及这种不对称性与社会地位的关系;即地位高的人不会去适应地位低的人,而地位低的人要付出更多去适应地位高的人。研究结果表明,虽然推特对交流增加了一些限制(非面对面,非实时,而且只能说140个词),但交流中仍然有比较明显的语言适应行为(Danescu-Niculescu-Mizil, et al. 2011)。

一般认为,社会交往中的礼貌行为,有助于维持社会和谐和避免社会冲突。Brown and Levinson (1987)发现,语言的礼貌行为受到下列三个社会因素的影响:(1)社会距离(social distance),(2)相对的权力(relative power),(3)诉求的麻烦程度(ranking of the imposition,i.e., cost of the request即请求的成本或代价)。幸运的是,检测礼貌的自动分类器已经被开发出来了,可用于大规模地研究礼貌策略。鉴于礼貌用语的使用跟参与对话的人的社会地位之间具有密切的关系,Mizil团队分别对维基百科编辑和Stack Exchange论坛的讨论者进行了研究。他们把用户对他人提出请求时的对话摘录出来(其中,一句是真正的请求,而另一句是客套话),然后由标注者为其礼貌程度进行评价。研究结果表明,维基百科编辑在选举过程中试图获得更高地位时,会更加礼貌;而一旦选上以后,礼貌程度随机就会下降。这种情况,同样也出现在Stack Exchange上;明显地,人们的礼貌程度跟其地位呈反比关系(Danescu-Niculescu-Mizil, et al.2013a)。

根据Labov1972的研究,没有单一风格的说话者;因为,说话者可能会根据他们的交流伙伴(比如,受话人的年龄、性别和社会背景),在不同风格之间进行切换(风格转换)。此外,话题(比如,政治vs.宗教)、语境(比如,法庭vs.家庭餐聚)等因素也能造成言语风格的转变。根据交际顺应理论(Communication Accommodation Theory, CAT),说话人会让其言语行为更加趋近或背离他们的对话伙伴。其中,趋近行为减少了对话者之间的社会距离。一般来说,作出趋近行为的说话人,往往会被认为是更加讨人喜欢和擅长合作的。现有的研究发现,说话人之间的互相顺应,主要体现在音高、手势、措辞等不同的维度。计算语言学社区侧重于用诸如前述的“语言探求与词数统计”(LIWC)方法,通过对线上语料中人称代词的使用(比如,更多地用单数第一人称还是复数第一人称)等的统计分析,来测度言语风格的顺应。有人发现,网上论坛的跟帖通常重复原帖的词语和句法结构,来达到顺应的效果。还有人用动态贝叶斯模型(Dynamic Bayesian Model),归纳出语料中潜在的风格状态,发现了不同的说话人在顺应方面的差异。

最后,对于社区动态的研究也是计算社会语言学的主题。因为,人们会根据谈话对象调整他们的语言使用。在社区内,规范随着时间的推移,通过成员之间的互动而出现;例如,使用俚语和特定领域的行话,或者在推特上表示转发的约定。对于这一主题的早期调查,是基于非公共社区的数据的。最近的研究则使用了来自公共在线社区的数据,比如在线论坛和评论网站。这一方向的研究,显示了利用大量在线数据定量研究社区语言变化的潜力。当然,在这种分析中,应该仔细考虑数据中的偏差,特别是当数据的动态和内容没有被完全理解时。比如,据Danescu-Niculescu-Mizil, et al. (2013b)介绍,他们以两个大型啤酒评论社区作为研究对象,发现用户在社区中一般会经历两个阶段:在第一个阶段,他们刚进入社区,会积极学习适应社区的语言使用规则;而接下来,他们逐渐不再做出改变,任由规则变化;最后,逐渐退出社区主流群体。这项研究定量地探索了在社区与个人的相互作用下,语言使用规则变化的复杂性。可见,Mizil等人的一系列研究,开创性地在社会媒体大数据上定量验证了社会语言学中的重要理论,并进一步利用该理论展开社会计算的研究。这为计算社会语言学树立了研究典范。

八、结语:用并为计算建模而研究语言的社会变异

新文科建设的出发点是多种相关学科的交叉、融合与创新,通过在研究内容、研究方法和技术手段等方面的跨学科的交融、提炼与整合,形成新的学科方向与研究范式,以及相应的复合型人才培养模式。我们充分地认识到,这种崇高而宏大的目标实施起来是困难重重的,迫切需要明确的可依循的操作路径。有鉴于此,上文提出一种在旧楼上加盖新楼层的方法:尽可能利用已经发展起来的若干第一代交叉学科,融合贯通起来形成第二代交叉学科,以取得物尽其用、事半功倍的效果。就语言学而言,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,我们可以借助已经成熟的“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。因为,社会语言学关注在社会环境中使用的语言的社会维度,计算语言学关注在社交网络上使用的语言的信息维度;把它们结合起来,形成计算社会语言学这种新的研究领域和学科,可以整合这两个学科的优势和强项,更好地从计算的视角来研究语言(变异)和社会(变量)之间的关系,以便更加深刻地认识人类语言在社会环境中的运作机制,更加充分地为计算机处理人类的语言提供理论、方法和材料支持。我们希望这种操作路线可以帮助细化与落实新文科建设,并且为新文科建设提供制度化的学科规训。

本文的创新点是从当代社会的“物理—精神—信息”三元空间这一特征切入,说明社会语言学的研究迫切需要计算建模这一方法。文章还以社会身份、人格特点和社交互动等对语言使用和变异选择的影响因素为例,说明了计算社会语言学研究的理论依据、语料采集与计算建模方法。

讨论至此,计算社会语言学的宗旨也就可以粗略地总结为:用计算建模的方法研究语言的社会变异,并为语言的计算建模而研究语言的社会变异(study linguistic variation by computational modeling and for computational modeling natural language)。

Computational sociolinguistics research from the perspective of new liberal arts

Yuan Yulin

Department of Chinese Language and Literature, Faculty of Arts and Humanities, University of Macau /Department of Chinese Language and Literature, Peking University

Abstract: One of the goals of the new liberal arts is the intersection and integration of multiple disciplines in research content and theoretical methodologies, thus forming new disciplinary directions and research paradigms, as well as corresponding inter-discipline talents training models. To this end, this paper proposes an operational path: using several first-generation interdisciplinary fields that have already been developed to integrate them into a second-generation interdisciplinary field. For example, in the research field of "social media plateforms-social variation of language-computational modeling", which issocomplicatedby multiple disciplines, we can use the first generation interdisciplinary fields such as "computational linguistics" and "social linguistics" to form the second generation interdisciplinary field of "computational social linguistics". This path can refine and implement the construction of the new liberal arts, and provide necessary disciplinary regulations (discipline or disciplinarit). In addition, theories, methodologies and issues of computational sociolinguistics are also exemplified in this paper by the “physical – mental – cyber” ternary space of contemporary society, where speakers’ social identities, individual personalities, and social interactions impose influence on language use and language variation choices. 

Keywords: Construction of new liberal arts; First-/Second-generation interdisciplinary branches of learning; Computational/Sociolinguistics; Ternary space.

(发表于《语言文字应用》20241期,5-16

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

阅读原文

跳转微信打开

  •  

批判性数字人文|机器学习时代的代码认识论

DHLR Ray编 2026-04-20 11:40 北京

以下文章来源于:左手数字右手人文

左手数字右手人文

About Digital Humanities, what is right and what is left. 分享全球数字人文相关学术论文译文、会议通知等资讯内容。

随着全局优化与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识

栏目简介:批判性数字人文(Critical Digital Humanities, CDH),通常指的是在数字人文基础上,引入批判理论、社会理论、后殖民研究、性别研究、媒介研究、科技社会学等视角,对“数字技术如何介入知识生产、文化记忆、权力结构与社会不平等”进行反思性研究的方向。


The Epistemology of Code in the Age of Machine Learning

机器学习时代的代码认识论

DOI:https://doi.org/10.63744/mtgy4d9qn78k

作者: Evan Buswell

期刊: Digital Humanities Quarterly (DHQ)  Volume 20 Number 4, 2026

作者 Evan Buswell 是一位独立学者及软件工程师,博士毕业于加州大学戴维斯分校,从事人工智能研究。其研究横跨计算机科学、数字人文与批判性理论。他关注计算机技术的历史演变及其背后的哲学意涵,特别是计算架构如何塑造人类对知识的认知。

1. 摘要

代码是一种以“压制状态”(Repression of state)为前提的认识系统。然而,随着全局优化(Global optimization)与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识。代码的形成回应了二十世纪知识型(Episteme)的两个特征:其一,知识被表征为一种过程(Process);其二,这种表征必须是自足的,即其意义由表征形式本身构成。代码与状态虽存在关联,但为了将代码建构为认识论对象,状态被持续限制与压制。这一建构始于1940年代代码的最初形成,并在1960年代末结构化编程运动中达到现代形态。然而如今,随着全局优化和机器学习算法在计算领域日益占据主导地位,状态的关键重要性已无可回避,而我们理解状态的工具却极为匮乏。这一认识论困境反而为那些罔顾后果、规避责任的行为者提供了庇护。

2. 文章内容

本文从科学技术研究(STS)与批判性代码研究的视角,追溯"代码"概念的历史形成,论证代码与状态的分离并非中立的技术选择,而是特定历史认识型的产物。

作者将论证分为三个层次展开:

  • 代码作为认识论对象:代码诞生于一种将知识理解为"过程"的知识型(约形成于1930年代)。在这一认识型中,意义的合法性来自符号系统内部的自足性,而非外部指涉。代码因此被要求不仅描述算法,更要"实例化"算法本身。然而这一要求内含矛盾——动态过程无法被静态文本完整构成,由此产生了代码与状态的结构性分裂。

  • 状态的压制史:作者通过对早期计算机代码的细读,追踪这一分裂的具体历史轨迹:从Mark I的系统性路由范式,到ENIAC的时序化结构,再到EDSAC条件跳转指令的出现,最终经由Fortran、ALGOL等语言演进,抵达1960年代结构化编程运动对GO TO语句的驱逐。每一次编程范式的更迭,本质上都是将状态进一步压入不可见的角落——先是隐入符号地址,再是隐入语法结构,最终隐入状态变量。

  • 机器学习与认识论危机:全局优化算法的兴起使上述压制走向历史性破产。这类算法在数学意义上已知其效果依赖于代码与状态的内在关系,然而代码范式依然将状态处理为非认识论对象。"黑箱"的比喻并非描述技术限制,而是这一历史性压制的文化症状。更危险的是,状态的不可知性正在成为资本与权力规避责任的结构性工具——算法推荐系统、自动驾驶责任归咎,莫不如此。

3. 理论框架与方法论

本文方法论融合批判性代码研究(critical code studies)的文本细读传统与知识考古学式的历史分析。作者并置不同历史时期的代码片段(EDSAC、A-2、Fortran、ALGOL等),通过比较性近读(comparative close reading)追踪条件跳转指令的语法演变,将技术史细节与认识论命题直接挂钩——这是本文方法论上最具说服力之处。

论证结构遵循一条清晰的辩证线索:外部化—压制—压抑物的回归—新形式的再压制,并以全局优化算法作为当下历史节点,将这一循环推至其内在矛盾最为显露的临界时刻。引入"无免费午餐"定理,使技术论证与认识论批判形成精准呼应,避免了此类研究常见的泛泛而论。

简  评

对于从事AI认识论、数字人文与STS研究的读者而言,这篇文章提供了一个罕见的分析框架:它拒绝将"黑箱问题"处理为机器学习的技术局限,而将其还原为一段有据可查的观念史。这种将代码语法演变与权力/责任问题直接相连的论证路径,对于思考AI治理的文化与语言基础尤具启发性。

看到这篇文章的时候,就不得不想起本杰明·M·施密特在2016年发表的本杰明·M·施密特《数字人文主义者需要了解算法吗?》(2016)。这两篇文章之间构成了一种跨越十年的“互文”关系,像同一个认识论困境的两个不同截面——施密特从实践层面发现了症状,Buswell从历史层面追溯了病因。如果说施密特的核心诊断是:数字人文学者把算法当黑箱,满足于用经验性测试("符不符合常识")来评估工具,却没有去理解算法背后的转换逻辑。他的药方是:不需要懂算法的实现细节,但必须懂它试图做什么——也就是理解 "transformation" 而非 "algorithm" 。Buswell的回答实际上是:施密特说得对,但他没有问为什么黑箱会存在。答案是:黑箱不是技术局限,而是代码范式的历史性产物。Buswell通过对计算机史的详细考据,在认识论层面指出,在机器学习与全局优化算法主导的今天,施密特所寄望的那种“可理解的转换”的认识论就随之坍塌。

文章对中文语境同样具有延伸价值:中文对"代码"与"状态"的概念处理方式是否内嵌了不同的认识论预设?在"算法黑箱"的本土讨论中,状态的不可知性是否同样承担了类似的责任规避功能?这些问题值得进一步探究。

撰文、编辑:丁怡瑞(剑桥大学数字人文系硕士研究生)

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

征稿 | AACL-IJCNLP 2026 Call For Papers

AACL-IJCNLP 2026 2026-04-19 09:00 江苏

AACL-IJCNLP 2026在横琴举办,5月25日截稿,征集NLP原创未发表长/短论文。

转载自“计算学习算法与自然语言处理”

图片

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

Link: https://2026.aaclnet.org/

When: Nov 6, 2026 - Nov 10, 2026

Where: Hengqin, China

Submission Deadline: May 25, 2026

Notification Due: Sep 7, 2026

Final Version Due: Sep 30, 2026

Categories: natural language processing, artificial intelligence

Call For Papers

AACL-IJCNLP 2026 (the 5th AACL & 15th IJCNLP) invites the submission of long and short papers featuring substantial, original, and unpublished research in all aspects of Computational Linguistics and Natural Language Processing.

CFP: https://2026.aaclnet.org/calls/main_conference_papers/

The conference will be held in Hengqin, China from November 6th to November 10th, 2026.

Important Dates

ARR submission deadline (long & short papers) May 25, 2026

Reviewer registration deadline for ALL authors May 27, 2026

Author response and author-reviewer discussion July 7 - 13, 2026

Meta review released July 30, 2026

Commitment deadline August 26, 2026

Notification of acceptance (long & short papers) September 7, 2026

Camera-ready papers due (long & short) September 30, 2026

Main Conference (dates for Workshops/Tutorials TBD) November 6 - 10, 2026

Note: All deadlines are 11:59PM UTC-12:00 (“anywhere on Earth”).

Topics

AACL-IJCNLP 2026 aims to have a broad technical program. Relevant topics for the conference include, but are not limited to, the following areas:

Safety and Alignment in LLMs

AI/LLM Agents

Human-AI Interaction/Cooperation

Retrieval-Augmented Language Models

Mathematical, Symbolic, and Logical Reasoning in NLP

Computational Social Science, Cultural Analytics, and NLP for Social Good

Code Models

Interpretability, Model Editing, Transparency, and Explainability

LLM Efficiency

Generalizability and Transfer

Dialogue and Interactive Systems

Discourse, Pragmatics, and Reasoning

Low-resource Methods for NLP

Ethics, Bias, and Fairness

Natural Language Generation

Information Extraction and Retrieval

Linguistic theories, Cognitive Modeling and Psycholinguistics

Machine Translation

Multilinguality and Language Diversity

Multimodality and Language Grounding to Vision, Robotics and Beyond

Neurosymbolic approaches to NLP

Phonology, Morphology and Word Segmentation

Question Answering

Resources and Evaluation

Semantics: Lexical, Sentence-level Semantics, Textual Inference and Other areas

Sentiment Analysis, Stylistic Analysis, and Argument Mining

Speech Processing and Spoken Language Understanding

Summarization

Hierarchical Structure Prediction, Syntax, and Parsing

NLP Applications

Presentation at the Conference

All accepted papers must be presented at the conference to appear in the proceedings. The conference will include both in-person and virtual presentation options.

Related Resources

IEEE-ICECCS 2026: 2025 IEEE International Conference on Electronics, Communications and Computer Science (ICECCS 2026)

IEEE ICCT-PACIFIC 2026: 2026 IEEE 2nd International Conference on Consumer Technology - Pacific (ICCT-Pacific 2026)

AMLDS 2026: IEEE--2026 2nd International Conference on Advanced Machine Learning and Data Science

Asia EISC 2026: The 1st Asia Conference on Edge Intelligence and Service Computing

ACM NLPAI 2026: ACM--2026 7th International Conference on Natural Language Processing and Artificial Intelligence (NLPAI 2026)

ACIE 2027: 2027 The 7th Asia Conference on Information Engineering (ACIE 2027)

CFP-CIPCV-EI/SCOPUS 2026: The 2026 4th International Conference on Intelligent Perception and Computer Vision

I&CPS ASIA 2026: 2026 lEEE IAS Industrial and Commercial Power System Asia (IEEE I&CPS ASIA 2026)

Call for Book Chapter 2026: Human-Animal Studies and Literary Animal Studies in German Narratives

NeTCoM 2026: 18th International Conference on Networks & Communications

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026-04-19 08:30 湖北

本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的9篇论文进行介绍。

01

识读不可读文本:基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要:奥斯卡・王尔德曾言:“文学与新闻的区别在于,新闻不堪卒读,文学无人问津。” 遗憾的是,王尔德所处的 19 世纪数字化存档新闻文本,其光学字符识别(OCR)结果往往缺失或质量低劣,既降低了档案的可获取性,也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题,本研究采用预训练图像转文本语言模型 Pixtral 12B,对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》(NCSE)开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比,结果显示其字符错误率中位数仅为1%,较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果,具备高质量字符识别文本,并将文本划分为4个类别与17个主题,包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放,旨在助力历史学与社会学研究,让21世纪的读者得以足不出户识读这份“不可读文本”,共情王尔德对19世纪新闻水准的遗憾。

Abstract:Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图:边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框,重叠区域以深蓝色标注

Figure:Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

02

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要:剪纸艺术是中华传统文化中独具特色的非物质文化遗产,当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失,部分剪纸品类濒临消亡,其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值,结合Grab-Cut算法,实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理,提升图像质量;其次采用改进遗传算法优化后的Canny算子,提取剪纸纹样整体轮廓;随后设计Grab-Cut算法,针对性分割剪纸设计元素轮廓,并借助CDR软件处理矢量图像,生成独立可编辑矢量文件;最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明,本研究提出的方法可有效检测剪纸图像纹样真实边缘,完成轮廓提取,纹样各设计元素的像素分割精度达96%以上,为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract:As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图:剪纸图像平滑去噪处理 (a) 原始图像;(b) 增强后图像

Figure:Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

03

丈量东方之声:华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要:1978年改革开放以来,中国流行音乐产业高速发展,成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法,对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数,从静态与动态双维度揭示了歌词文本的高活跃度,佐证了其叙事性的文体本质。歌词情感分析结果显示,文本整体呈现积极基调,而2000年成为重要分水岭,前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明,不同时期歌词的主题分布模式呈现多元化特征,既体现了流行文化的普世性,也彰显了文化与时代语境塑造下的中国本土特质。

Abstract:Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图:潜在狄利克雷分配模型评估:一致性与困惑度对比

Figure:LDA model evaluation: Coherence vs. Perplexity.

04

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要:本研究选取三位代表性诗人,从词汇意象、时空解构、主题演变与情感表达四个维度,对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法,融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术,辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论:其一,两类诗歌均以自然与禅意为核心,共享相似的词汇与意象体系;其二,二者均体现永恒视角与历史意识的交织,以及宇宙宏大性与人世现实性的辩证关系;其三,主题演变层面,江南禅诗“自然与禅”的核心内核,在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架;其四,江南禅诗侧重超脱与空寂的审美表达,高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实,该方法可有效提升古典诗歌文本的中文分词精度,彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract:This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图:禅诗名词词云图 (a)雪窦重显;(b)杨杰;(c)义天

Figure:Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

05

近代早期英语的善恶语义空间:道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要:本文提出一种创新研究方法,通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》(EEBO-TCP)语料库,构建语义模型,梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法,设定善恶、女性-男性两大启发式坐标轴,将词汇映射至坐标轴中,挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标,揭示了概念与性别道德化宏观范式的适配规律。研究发现,多数词汇集中于“女性/邪恶”象限,而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数,可无监督挖掘文本潜在二元对立关系,识别塑造近代早期话语体系的文化维度,涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景:道德对立并非静态固化,而是相互重叠、动态流变;该模型打破了固定二元对立的认知框架,证实语言是构建与重塑文化价值的动态高维场域。

Abstract:This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图:核心词汇语义邻域图(左上:死亡;右上:戏剧;左下:牙买加;右下:信用)

Figure:The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

06

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要:汉字在东方文明发展进程中具有核心地位,其构形体系具备系统性特征,而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此,本研究基于复杂网络方法,探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边,构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络;通过17项通用网络指标量化分析网络特征,深入阐释汉字构形系统的内在属性。研究结果表明,相较于随机网络,汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征;这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性,分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract:Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图:真实网络与随机网络全局拓扑图(a、c、e:真实网络;b、d、f:随机网络)

Figure:Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

07

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要:当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象,探究大学生群体的审美反馈,聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法:其一,运用混合设计方差分析与语义差异量表,分析四大主题作品,通过因子分析与聚类分析提取审美潜在维度;其二,开展眼动实验,记录注视时长与注视次数,量化分析眼动指标与主观评分的相关性。研究结果表明:第一,园林主题灯彩画的喜爱度评分显著最高(P<0.001),主题与专业的交互效应不显著(P=0.094),说明不同专业群体的审美偏好具有一致性;第二,研究提取出情绪效价、形式审美、认知唤醒三大潜在维度,揭示了非遗审美的多层级体验结构;第三,潜在审美偏好与喜爱度呈极强正相关(r=0.94,P<0.01),而眼动注视指标与喜爱度无显著相关性(P=0.174;P=0.234)。研究证实,晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性,由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据,深化了对晚期Z世代非遗审美认知的理解,为非遗传承与美育推广提供理论支撑。

Abstract:There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图: 《黛玉葬花》眼动热力图

Figure: Daiyu Burying the Fallen Flowers eye-tracking heatmap.

08

从浪漫到现实:数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要:本研究探究2000-2025年华语流行歌词的词汇与主题演变,映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库,本研究填补这一空白,构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法,融合词频分析、可读性指标与BERTopic主题建模,追踪歌词词汇与主题的历时演变。研究发现,歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心;类符形符比显著提升,表明歌词词汇丰富度持续增长,文本复杂度呈波动变化,反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题,主题结构从自然与时间的抽象表达,逐步转向情感具象化与心理内省化书写;近年来,负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架,彰显了数字人文工具在大规模歌词分析中,描摹集体情感与文化变迁的核心价值。

Abstract:This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图:各项指标历年变化趋势

Figure:Trends of various metrics over the years.

09

文化分析与表征政治:埃及《箴言》杂志中犹太群体形象的呈现研究(1933-1953)

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要:本文融合文化分析与后殖民理论,探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法,识别并解读期刊档案中犹太形象的建构范式,揭示两次世界大战之间及战后初期,阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合,精准剖析文化生产机制,呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于,对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究:随着阿拉伯犹太人大规模撤离埃及,《箴言》中犹太形象的动态演变,折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分:第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中,阐释其成为阿拉伯现代性多元理念博弈平台的历史背景;第二部分结合远读与阐释性分析,梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存,更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合,为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract:This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图:《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译|洪冰凤

校对|罗斯鹏

排版|魏翔

阅读原文

跳转微信打开

  •  

观澜·驻访学者沙龙(第14期)回顾 | 人工智能与人类智能

2026-04-17 15:04 广东

4月12日,观澜·驻访学者沙龙(第14期)在我校深圳校区文学园5栋103致用·观澜学术会议室顺利举行。本次研讨会由我院2026年春季学期校内驻访学者周国梅教授和刘虎教授共同召集,汇聚心灵哲学、逻辑学、心理学、智能工程及产业界的专家学者,深度剖析人工智能(AI)与人类智能(HI)的本质差异,探讨人类认知研究在人工智能发展中的应用价值,探索人机协作的优化模式、人机融合社会的未来图景。

周国梅教授、刘虎教授作引言

01

人类智能

在中山大学心理学系代政嘉教授主持的“人类智能”主题研讨中,研究者们从实验心理学与神经科学视角审视了人类认知的独特性。

中山大学心理学系钱洁慧教授通过三维空间工作记忆的研究发现,人类智能在处理空间信息时展现出显著的特异性。她认为,物体间的空间关系、远近距离及可操作性均会影响信息的编码与表征,这提示了人类的信息加工机制由具身经验塑造,这一点可能与当前AI的信息处理逻辑存在差异。

中山大学心理学系岳珍珠教授则聚焦于跨通道视听整合的认知机制。她介绍,在单通道信息较弱时,多通道整合的神经元反应模式比单通道信息引发的效应更强,这一发现为理解人类感知系统的复杂性和适应性提供了新视角。

中山大学心理学系林盈教授以“以脑‘知’脑:脑科学与AI的双向赋能初探”为题,分享了脑科学与AI融合的前沿探索。报告围绕"AI for Brain"与"Brain for AI"两条主线展开:利用AI技术建模人脑结构-功能耦合关系,揭示人脑异质性通信机制;同时借助AI模型基于脑功能活动重建视觉图像,探索脑科学理论发现如何提升AI模型。该报告展现了脑科学与AI协同创新的广泛前景,引起了与会专家对这一领域的热烈探讨。

左右滑动查看第一场研讨现场

02

人类智能与人工智能

中山大学心理学系王琪教授主持的“人类智能与人工智能”主题研讨中,与会专家重点探讨了AI在医疗手术、智能驾驶及工业设计等领域的创新应用和落地实践。

中国科学院深圳先进技术研究院贾富仓研究员介绍了具身智能人机协同手术机器人的最新进展。报告了解剖结构、动态环境感知和增强现实导航对于提升手术安全性和精准性的临床验证效果,提出结合仿真数据强化学习和临床数据模拟学习提升机器人的自主性。

中山大学心理学系何子静副教授分享了自动驾驶混合交通中的人机交互研究。她认为,未来的自动驾驶不应仅追求工程效能,更应关注拟人化感知与动态博弈,通过适度让渡控制权来增强人类的心理接受度。

深圳人因工程技术研究院李海波院长从人因工程角度介绍了复杂作业系统人机交互的挑战。他强调,智能系统设计需充分考虑用户认知模型的预测价值,并展示了人因工程在核电应急仿真、数字化界面设计及海洋立体生态评估大模型中的应用前景。

中山大学心理学系罗思阳副教授则从文化组学视角切入,探讨了AI大模型的高维心理结构、道德价值观和文化价值观,及其在人机交互中的刻板印象与偏见,并通过交叉融合表征相似性建模、个体行为建模、社会演化建模,检验了未来导向、命运共同体等多种调控AI大模型交互行为的策略,解析了未来人-AI多智能体融合社会的演化趋势。

左右滑动查看第二场研讨现场

03

交流讨论

在自由讨论环节,香港中文大学哲学系张寄冀教授、香港中文大学政务与政策科学学院詹晶教授、香港大学哲学系王康予讲师、中山大学马克思主义学院李珍教授、中山大学逻辑与认知研究所文学锋教授、中山大学外国语学院徐翌茹教授,中山大学心理学系丁如一副教授、中山大学历史学系李智副教授、深圳大学心理学院黄丽芹助理教授等与会学者踊跃发言,围绕智能的能动性、情绪智能、心理健康、具身智能、群体智能、自我意识、政策制定等核心议题展开了深入探讨,分享了各自的前沿见解。

左右滑动查看交流讨论现场

04

总结

周国梅教授和刘虎教授在总结发言中表示,本次“人工智能与人类智能”学术沙龙取得了丰硕成果,成功搭建了横跨人文、社科、工程、产业等多领域的跨界交流平台,有效促进了哲学思辨、心理科学、工程技术与产业应用的深度对话与思想交融。同时,他们强调,人工智能的发展不应仅追求技术突破,更应注重人文关怀,期待未来能够持续举办此类活动,不断推动人工智能领域向着更具人性温度的方向演进,共同探索人机协同、和谐共生的未来发展路径。

研讨会合影留念

内容来源:中山大学人文社会科学研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

  •  

【光明日报】余来明 王玉珏|以文化遗产讲好中华文明故事

2026-04-17 19:25 美国

讲好文化遗产的中国故事,可以让世界更好了解中华文明几千年延续不辍的文化基因、精神系谱,提供给世界多样文明治理、文化发展的方案和模式,从而更好地书写中华文明未来的世界篇章。

👆👆👆点击蓝字 · 关注我们

图片

文化遗产是每一个民族在文明发展过程中留下的宝贵财富。纵观人类文明发展历程,无论文明存续抑或消失,通过传之于世的文化遗产,人们总能由此想象其在文明历史星空中所呈现的形态和图景。中华文明作为世界历史上“连续性文明”的典范,在五千多年的发展历程中,创造了辉煌灿烂的文明成果,为世界文明发展贡献了数量丰富的文化遗产。当下世界文明的发展正呈现多样化格局,中华文明作为其中重要一支,也在一定程度上面临着来自各方面的多重挑战。中华文明绵延不辍的历史表明,文明发展的未来不仅在于做到丰盈自身,树立具有主体性的文明意识,探索推动文明不断进步的动力和方向,还在于与世界诸文明在交流交往中相互借鉴、共同发展。文化遗产作为一种兼具历史性与当代性的文明记忆,为讲好五千多年中华文明故事提供了重要的文化载体和媒介。

文化遗产蕴含五千多年中华文明绵延生长的历史基因

中华文明有着五千多年的悠久历史,是人类历史上迄今为止唯一未曾断裂的文明形态。中华民族创造了辉煌的文明成就,留下了无数珍贵的历史文化遗产,并以之影响了周边地区和世界各地。其间无论是承载中华文明杰出创造的物质遗产,还是反映中华文明优秀特质的精神遗产,都形成于几千年中华文明的悠久历史进程当中,是凝结无数先辈心血和智慧的优秀文明实践成果。那些保存至今的文化遗产,是我们进入中华几千年活态历史的重要通道,其中蕴藏着中华文明绵延生长的历史基因和密码。遗产见证历史,是“传统的集合”,是现实世界与过去时代最紧密、最直接的联系。当我们近距离触摸、感知文化遗产,打开的是通向中华文明悠久历史、璀璨成就的广阔世界。

文化的发展、文明的进步需要源头活水。《周易》说:“穷则变,变则通,通则久。”此论不仅道出了世间万物的存续之道,同时也指出了人类文明的兴亡之道。人类历史上曾出现诸多伟大的文明形态,最后又大多消失在了历史长河中。唯有中华文明一直延续至今,其中一个重要特点就是能够吸收、容纳各不同形态文明的优秀基因,以为自身文明的发展提供永续动力。其中既有吸收外来文明以实现转化的容纳中外,也有得自于传承创新而生的古今转化。文化遗产作为各历史时期文化发展、文明演进的重要标识,是呈现五千多年中华文明发展成就的鲜活载体。文化遗产不只关乎中华文明的历史和过去,更与中华文明的现在和未来密切相关。保护、传承、利用好文化遗产,就是要立足几千年文明赓续的历史脉络,深入挖掘中华文明绵延不绝的基因密码,以大众可知可感的方式讲好中华民族几千年绵延发展的文明故事,发掘其中所蕴含的中国智慧和中国精神。

传承发展中华文明要落实在保护传承、活化利用文化遗产行动中

文化遗产是几千年中华文明发展给世界留下的宝贵财富,是中华民族向世界展现悠久文明历史的重要窗口。相较于世界其他诸文明,中华文明具有突出的连续性、创新性、统一性、包容性与和平性。这些特征不仅见于历史时期诸多观念、意识的表述,也具体呈现于各种物质、非物质的文化遗产当中。以往对于中华文明观念、意识层面的内容、特征分析较多,而对于如何将几千年中华文明的优秀基因外化于当代世界则实践较少。每一民族文明的延续,都建立在对自身文化的反思、总结、革新、完善的基础之上。当下随着数智时代的到来,技术变革正在不断推动文化的革新,也对弘扬传承中华文明提出了新的要求。文化遗产作为中华文明悠久历史的结晶,其保护传承、活化利用在数字化的时代趋势下也在不断重塑,面临着现代技术和古老文明之间的多重挑战与复杂的融合重生过程。

文化遗产作为一种活态的文化,承载的不仅是历史时期文明演进的记忆,也是民族性格、精神传承的重要载体。每一民族文明的传承、文化的发展,都是在原有文明脉络的基础上赓续变革而来。中华文明在几千年发展过程中,善于总结既往的文明成果并推陈出新,由此所凝定形成于不同时期的文化遗产,便不只是一种物质性或者精神性的遗存,还是反映中华民族伟大精神和智慧的历史结晶。如何让文物古迹、古老建筑、名城名镇、历史街区、传统村落、文化景观、非遗民俗等文化遗产在现代世界重新焕发生命力,让古老的中华文明焕发新的活力,是中华文明绵延发展所需要面临的重要课题。从此出发,文化遗产的保护传承、活化利用便不仅是文化资源的开发、利用或者产业化,还是要在中华文明不断前进的历程中,承担起弘扬中华文化价值、传承中华文明基因的重任。

文化遗产保护传承是中华文明参与世界文明对话、确立文明自主性的重要基础

当今世界正进入一个多元并存的时代,各不同文明之间既相互合作又相互竞争,诸不同形态文明的多样共存、互鉴对话、协同发展成为世界文明演进的大势。中华文明作为世界多元文明中的重要一支,在历史上曾长期居于领先地位,至近代遭遇巨大挫折。如今,中华民族伟大复兴势不可挡。在不断推进中国式现代化进程中,面对“世界百年未有之大变局”,中华文明、中华文化如何做到重塑辉煌,找准文明发展的坐标和方向尤为关键,其间不仅包含面向自身文化建设、文明发展的历史传承与创新转化,也包括应对参与世界文明对话、确立文明自主性的全球文明新观念。

文化遗产作为每一文明呈现于世界的具象表达,是各不同文明参与世界对话的重要基础。文化遗产的保护传承是人类文明发展留给这个世界的共同命题。从联合国教科文组织成立以来出台的各种文化遗产保护法律和规则,到各国规范文化遗产保护的相关法规,这都为文化遗产的保护传承提供了制度保障。这不仅是一种面向过去文明记忆的保存,也是一种面向未来文明图景的探索。基于文化遗产保护传承所呈现的世界文明多样性,可以为不同文明间相互尊重、交流对话提供重要媒介,这是消除世界各民族“误解的海洋”最重要的方式之一。中华文明走向世界的过程中,文化遗产成为展现悠久历史、深厚底蕴、丰富内涵、伟大精神的重要窗口。讲好文化遗产的中国故事,可以让世界更好了解中华文明几千年延续不辍的文化基因、精神系谱,提供给世界多样文明治理、文化发展的方案和模式,从而更好地书写中华文明未来的世界篇章。

(作者:余来明、王玉珏,分别系武汉大学中国传统文化研究中心教授;武汉大学文化遗产智能计算实验室教授)

本文来源:《光明日报》2026 年 4 月 11 日

图片

<<<END>>>

来源|武汉大学中国传统文化研究中心

阅读原文

跳转微信打开

  •  

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026-04-18 08:30 湖北

本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

01

识读不可读文本:基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要:奥斯卡・王尔德曾言:“文学与新闻的区别在于,新闻不堪卒读,文学无人问津。” 遗憾的是,王尔德所处的 19 世纪数字化存档新闻文本,其光学字符识别(OCR)结果往往缺失或质量低劣,既降低了档案的可获取性,也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题,本研究采用预训练图像转文本语言模型 Pixtral 12B,对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》(NCSE)开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比,结果显示其字符错误率中位数仅为1%,较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果,具备高质量字符识别文本,并将文本划分为4个类别与17个主题,包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放,旨在助力历史学与社会学研究,让21世纪的读者得以足不出户识读这份“不可读文本”,共情王尔德对19世纪新闻水准的遗憾。

Abstract:Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图:边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框,重叠区域以深蓝色标注

Figure:Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

02

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要:剪纸艺术是中华传统文化中独具特色的非物质文化遗产,当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失,部分剪纸品类濒临消亡,其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值,结合Grab-Cut算法,实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理,提升图像质量;其次采用改进遗传算法优化后的Canny算子,提取剪纸纹样整体轮廓;随后设计Grab-Cut算法,针对性分割剪纸设计元素轮廓,并借助CDR软件处理矢量图像,生成独立可编辑矢量文件;最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明,本研究提出的方法可有效检测剪纸图像纹样真实边缘,完成轮廓提取,纹样各设计元素的像素分割精度达96%以上,为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract:As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图:剪纸图像平滑去噪处理 (a) 原始图像;(b) 增强后图像

Figure:Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

03

丈量东方之声:华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要:1978年改革开放以来,中国流行音乐产业高速发展,成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法,对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数,从静态与动态双维度揭示了歌词文本的高活跃度,佐证了其叙事性的文体本质。歌词情感分析结果显示,文本整体呈现积极基调,而2000年成为重要分水岭,前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明,不同时期歌词的主题分布模式呈现多元化特征,既体现了流行文化的普世性,也彰显了文化与时代语境塑造下的中国本土特质。

Abstract:Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图:潜在狄利克雷分配模型评估:一致性与困惑度对比

Figure:LDA model evaluation: Coherence vs. Perplexity.

04

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要:本研究选取三位代表性诗人,从词汇意象、时空解构、主题演变与情感表达四个维度,对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法,融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术,辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论:其一,两类诗歌均以自然与禅意为核心,共享相似的词汇与意象体系;其二,二者均体现永恒视角与历史意识的交织,以及宇宙宏大性与人世现实性的辩证关系;其三,主题演变层面,江南禅诗“自然与禅”的核心内核,在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架;其四,江南禅诗侧重超脱与空寂的审美表达,高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实,该方法可有效提升古典诗歌文本的中文分词精度,彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract:This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图:禅诗名词词云图 (a)雪窦重显;(b)杨杰;(c)义天

Figure:Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

05

近代早期英语的善恶语义空间:道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要:本文提出一种创新研究方法,通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》(EEBO-TCP)语料库,构建语义模型,梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法,设定善恶、女性-男性两大启发式坐标轴,将词汇映射至坐标轴中,挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标,揭示了概念与性别道德化宏观范式的适配规律。研究发现,多数词汇集中于“女性/邪恶”象限,而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数,可无监督挖掘文本潜在二元对立关系,识别塑造近代早期话语体系的文化维度,涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景:道德对立并非静态固化,而是相互重叠、动态流变;该模型打破了固定二元对立的认知框架,证实语言是构建与重塑文化价值的动态高维场域。

Abstract:This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图:核心词汇语义邻域图(左上:死亡;右上:戏剧;左下:牙买加;右下:信用)

Figure:The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

06

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要:汉字在东方文明发展进程中具有核心地位,其构形体系具备系统性特征,而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此,本研究基于复杂网络方法,探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边,构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络;通过17项通用网络指标量化分析网络特征,深入阐释汉字构形系统的内在属性。研究结果表明,相较于随机网络,汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征;这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性,分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract:Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图:真实网络与随机网络全局拓扑图(a、c、e:真实网络;b、d、f:随机网络)

Figure:Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

07

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要:当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象,探究大学生群体的审美反馈,聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法:其一,运用混合设计方差分析与语义差异量表,分析四大主题作品,通过因子分析与聚类分析提取审美潜在维度;其二,开展眼动实验,记录注视时长与注视次数,量化分析眼动指标与主观评分的相关性。研究结果表明:第一,园林主题灯彩画的喜爱度评分显著最高(P<0.001),主题与专业的交互效应不显著(P=0.094),说明不同专业群体的审美偏好具有一致性;第二,研究提取出情绪效价、形式审美、认知唤醒三大潜在维度,揭示了非遗审美的多层级体验结构;第三,潜在审美偏好与喜爱度呈极强正相关(r=0.94,P<0.01),而眼动注视指标与喜爱度无显著相关性(P=0.174;P=0.234)。研究证实,晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性,由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据,深化了对晚期Z世代非遗审美认知的理解,为非遗传承与美育推广提供理论支撑。

Abstract:There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图: 《黛玉葬花》眼动热力图

Figure: Daiyu Burying the Fallen Flowers eye-tracking heatmap.

08

从浪漫到现实:数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要:本研究探究2000-2025年华语流行歌词的词汇与主题演变,映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库,本研究填补这一空白,构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法,融合词频分析、可读性指标与BERTopic主题建模,追踪歌词词汇与主题的历时演变。研究发现,歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心;类符形符比显著提升,表明歌词词汇丰富度持续增长,文本复杂度呈波动变化,反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题,主题结构从自然与时间的抽象表达,逐步转向情感具象化与心理内省化书写;近年来,负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架,彰显了数字人文工具在大规模歌词分析中,描摹集体情感与文化变迁的核心价值。

Abstract:This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图:各项指标历年变化趋势

Figure:Trends of various metrics over the years.

09

解码人工智能话语:基于机器学习的中德语境媒体表征对比研究(2018-2023)

Decoding AI discourse: contrastive analysis of media representations in German and Chinese contexts (2018–23) using machine learning techniques

Kuanyong Qiu , Noah Bubenhofer , Timo Hackel

摘要:现有研究多聚焦单一语言媒体中的人工智能(AI)话语,缺乏跨文化语境的对比分析。本研究优化露丝・沃达克话语分析框架,结合前沿机器学习方法,分析 2018-2023 年中德两国媒体话语中的人工智能表征。研究发现,中德媒体均聚焦本土相关的人工智能议题:中国媒体频繁援引政治人物言论(尤以习近平主席为核心),采用视角建构策略,对人工智能始终持积极立场;德国媒体则侧重科技人物叙事,尤其在ChatGPT发布后,对人工智能持更为批判与审慎的态度。两国媒体话语的差异,源于本土语境塑造的差异化媒介文化体系:中国媒体隶属于政党体系,将人工智能定位为推动经济发展的国家战略核心,传递政府核心立场;德奥瑞三国媒体则呈现多元视角,高度关注人工智能的潜在风险。本研究为各国人工智能政策的解读与制定提供了重要参考依据。

Abstract:Previous studies have primarily focused on artificial intelligence (AI) discourse within specific language media, with limited contrastive analyses across different cultural contexts. This study analyzes the representation of AI in German and Chinese media discourses from 2018 to 2023, employing a modified version of Ruth Wodak’s discourse analysis framework alongside advanced machine learning methods. Our findings indicate that both German and Chinese media concentrate on AI issues pertinent to their regions. Chinese media adopt a perspective strategy by frequently quoting political figures, particularly President Xi Jinping, and consistently maintain a positive stance on AI. Conversely, German media, especially after the launch of ChatGPT, highlight high-tech figures and adopt a more critical and cautious approach toward AI. These differences in media discourses arise from distinct media cultural systems shaped by their respective contexts. In China, media outlets are party-affiliated and promote a narrative framing AI as a national strategic endeavor crucial for economic growth, reflecting governmental viewpoints. In contrast, media from Germany, Austria, and Switzerland present diverse perspectives on AI, expressing significant concerns about its potential risks. This study offers valuable insights for interpreting and formulating AI policies across different nations.

图: 2018-2023 年中国媒体人工智能语料库十大子主题历时变化

Figure:Top ten subtopics over time 2018–2023 in Chinese media AI-related corpus (Color version of the figure is available in the supplementary data).

10

文化分析与表征政治:埃及《箴言》杂志中犹太群体形象的呈现研究(1933-1953)

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要:本文融合文化分析与后殖民理论,探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法,识别并解读期刊档案中犹太形象的建构范式,揭示两次世界大战之间及战后初期,阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合,精准剖析文化生产机制,呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于,对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究:随着阿拉伯犹太人大规模撤离埃及,《箴言》中犹太形象的动态演变,折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分:第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中,阐释其成为阿拉伯现代性多元理念博弈平台的历史背景;第二部分结合远读与阐释性分析,梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存,更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合,为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract:This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图:《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译|洪冰凤

校对|罗斯鹏

排版|魏翔

阅读原文

跳转微信打开

  •  

文脉新生・数智赋能:“我用 AI 校古籍”(2026年)计划启动仪式圆满举行!

PKUDH 2026-04-17 22:43 北京

2026年4月11日,由全国高等院校古籍整理研究工作委员会主办,山东大学国际汉学研究中心、山东大学古籍文献研究所与字节跳动公益联合承办的2026年 “我用AI校古籍”——我是“校书官”古籍大众智能整理计划启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛在山东大学中心校区举办。该会议由字节跳动公益团队策划并筹办,聚焦“我用AI校古籍——我是‘校书官’古籍大众智能整理计划”活动的已有成果与经验,正式启动“我用AI校古籍”2026年度相关工作。共有来自北京大学、清华大学、复旦大学、山东大学等高校的学者代表,来自68所高校、76个承办高校的教师,以及抖音平台各类知识博主约100余人参加了本次启动仪式。山东大学副校长曹现强、全国高等院校古籍整理研究工作委员会秘书长卢伟、教育部语言文字应用管理司副司长王晖、抖音集团企业社会责任部产品与运营总经理罗海岳出席启动仪式并致辞。

北京大学数字人文研究中心与字节跳动公益联合打造的“识典古籍”平台,作为全球规模领先的古籍智能化整理与数字化阅读平台,是“我用 AI 校古籍”活动的依托平台。平台深度融合人工智能技术,构建起从古籍OCR技术、自动标点、实体识别到多版本智能校勘的全流程解决方案,彻底打破古籍整理的专业壁垒,让普通大众深度参与中华文脉传承成为现实。

2024年7月,由全国高等院校古籍整理研究工作委员会、北京大学数字人文研究中心、字节跳动公益联合国内多家古籍研究机构共同发起 “我用AI校古籍 —— 我是‘校书官’古籍大众智能整理计划”,依托识典古籍智能整理平台,广泛动员高校学生与社会公众参与古籍数字化整理工作。项目自启动以来,已经历经三期稳步迭代,参与规模与整理深度持续提升。截止2026年4月,已经累计完成2万余部古籍整理,其中粗校16亿字、精校1亿字;吸引4.2万余名参与者,覆盖全国1450余所高校,总曝光超30亿次,先后获人民网、新华社、《科技日报》等权威媒体报道,并通过20余位文化达人实现广泛传播。

2026年度的大众整理活动,将由国内68所高校,76个单位参与承办该项活动,承办高校主要负责动员与组织本校相关专业学生参与本项活动。活动时间为3月26日至11月30日,分春季、暑期、秋季三个阶段开展,重点围绕海外汉籍汇聚、典籍活化传播两大方向,持续以科技赋能、创新表达推动古籍走近大众。

在活动启动仪式上,山东大学副校长曹现强介绍了山东大学在古籍整理、全球汉籍合璧工程等方面的成果,表示山东大学将持续深化AI技术与古籍整理融合,助力中华文脉永续传承。全国高等院校古籍整理研究工作委员会秘书长卢伟回顾了 “我用AI校古籍” 前几期的活动成效,介绍了2026年活动开展的重点方向,并宣布优化招募机制,推动活动专业化、规模化发展。教育部语言文字应用管理司副司长王晖高度评价AI赋能古籍整理的创新价值,结合人工智能与教育行动计划,从守正创新、以文铸魂、数字赋能等方面提出期望,鼓励多方协同打造语言文化传承品牌,让青年成为古籍传承主力军。抖音集团企业社会责任部产品与运营总经理罗海岳分享识典古籍平台功能升级情况,说明2026年将深化与各承办高校的合作、支持学者项目研究、开展征文及创作者共创等古籍活化传播活动,持续以技术降低公众参与门槛,推动古籍实现活态传承。

山东大学副校长曹现强致辞

全国高等院校古籍整理研究工作委员会秘书长卢伟致辞

教育部语言文字应用管理司副司长王晖致辞

抖音集团企业社会责任部产品与运营总经理罗海岳致辞

左右滑动查看更多

“我用AI校古籍”活动开展以来,成千上万社会大众与高校青年积极参与其中。在启动仪式上,年届74岁高龄的常兰藻先生作为大众代表来到现场分享参与“我用AI校古籍”活动的体会,作为一名退休会计,退休后因为学习《资治通鉴》的有关知识,偶然发现识典古籍平台并开始利用AI校对古籍,4个月时间已经校对完19卷、近20万字古籍。看见自己名字出现在上架古籍中,老爷子感到无比骄傲。年仅21岁的山东大学大四学生王思彤则代表青年学子发声,分享自己立足在校参与项目、借助平台参与古籍整理的实践体验,分享了利用AI技术辅助古籍整理体会到的高效便捷与参与活动得到的成长锻炼。

优秀志愿者常兰藻先生发言

优秀志愿者山东大学王思彤同学发言

左右滑动查看更多

在论坛的主题报告环节,专家学者们围绕古籍整理、数字赋能、大众参与以及学科发展等多个维度分享前沿实践与深入思考。“我用AI校古籍”活动所整理的一部分重要的古籍资源,来自哈佛燕京图书馆等海外图书馆。北京大学中文系杨海峥教授介绍了如何在海外流传古籍馆藏目录基础上,利用人工智能技术,通过海量元数据提取与流传轨迹重建,构建起大规模古籍流传数据集的过程。

新时代大型古籍整理项目北大《儒藏》工程的全本编纂正在利用“识典古籍”整理平台展开编纂工作,2025年度已经在平台上线约50种经过精心校勘整理的古籍资源。北京大学《儒藏》编纂与研究中心李畅然教授分享《儒藏》数字化与识典古籍平台的实践经验,提出提升OCR技术准确率、完善标点符号等具体技术需求,希望平台功能更加贴合专业古籍整理的需求。

北京大学数字人文中心副主任杨浩副研究员指出历史上古籍整理多由官方与学术精英主导,存在专业门槛高、效率有限、难以普及的局限,以 “我用AI校古籍” 为代表的大众参与模式,让广大青年学子与普罗大众得以加入,既提升了整理效率,也实现了沉浸式的文化传承。活动通过多层级校勘体系兼顾普及性与学术严谨性,既保障了古籍整理质量、培育后备人才,也致力于构建开放共享的数字人文生态。

全国高校古籍整理委员会副秘书长吴国武教授肯定“我用AI校古籍”活动在古籍整理发展历程中具有重大历史价值,体现出AI 技术深度赋能、大众志愿广泛参与、古籍整理范式持续革新的新形态,并指出古籍传承展现出从精英小众走向大众普惠、走向国际传播的新趋势。

北京大学中文系古典文献教研室主任杨海峥教授主题报告

《古籍流传的大规模数据集构建》

北京大学《儒藏》编纂与研究中心李畅然教授主题报告

《两条腿走路——OCR与语义两模块的协同》

河南大学出版社总编辑、河南大学文学院孔令刚教授主题报告

《古籍数字化的双向赋能与协同共生》

抖音集团社会责任部古籍项目经理张明月主题报告

《科技助力古籍保护与传承》

北京大学数字人文中心副主任杨浩主题报告

《众手续文脉:智能时代古籍大众整理的价值与路径》

山东大学国际汉学研究中心主任刘心明教授主题报告

《文本化是古籍整理的大方向》

山东大学古典研究所所长王承略教授主题报告

《中国文化典籍的家底与古籍整理定本的意义》

全国高等院校古籍整理研究工作委员会副秘书长田国武教授总结报告

左右滑动查看更多

论坛的下午场,到场学者们分享借助识典古籍平台与已有的大众整理成果,展开的学术研究与资源应用。例如:复旦大学文史研究院段志强副研究员,基于平台上整理的古籍资源,深入解读古籍中所反映的古代基层社会与普通人生活;清华大学人文学院严程副教授,利用识典古籍平台建设专题文献库“女子艺文数据库”,开展女性文献等专项研究,分享了清代多位具有独特性格的女子的生动故事;清华大学人文学院唐宸副教授分享利用数字人文方法对李白与李璘谋反事件关系的新研究,特别展示了如何利用识典古籍平台深度研究助手补上部分关键史料的例证。学者们以文献解读、案例实证、数字化工具应用等形式,系统呈现研究进展与实践心得,既具备扎实史料价值,又为新时代古籍活化利用提供了现实案例。

复旦大学文史研究院副研究员段志强

《在古籍中发现普通人的生活》

清华大学人文学院副教授严程

《盘一盘自带爽感的清穿女》

北京体育大学人文学院副教授黄二宁

《跃然纸上——唐代文献中的体育世界与大众传播的可能性》

清华大学人文学院副教授唐宸

《数字化时代的古典文献挖掘——以字节跳动“识点古籍”为例》

山东大学全球汉籍合璧工程首席专家助理陈肖杉

《形制与传播——境外汉籍流播管窥》

左右滑动查看更多

在古籍活化方面,创作者们开始频繁利用平台整理成果为根基进行创作传播。例如:抖音专攻五代历史的知识博主杨利辉,在创作过程中经常利用识典古籍平台的资源与工具展开创作,原本他制作有多种检索小工具方便创作,在利用识典古籍平台之后,自用软件多已不再更新。自媒体博主Asu、艾斯利用平台的古籍资源中挖掘 “十二花神” 等文化意象进行年轻化表达,让严谨的古籍整理成果走向大众。创作者们从古籍创作方法论、知识自媒体运营、二次元年轻化表达、小众历史趣味科普等多个维度展开分享,集中展现了前期大众参与古籍整理所形成的高质量成果,为古籍活化创作提供了坚实内容支撑。论坛的最后,创作者们还围绕古籍如何实现通俗化表达、年轻化传播与跨圈层破圈进行深入交流与讨论,认为古籍活化必须坚守学术严谨,同时力求通俗易懂而不失文化底色。

创作者子非秋月

《裁取云间墨,化得千亿身——浅谈短视频创作对古籍素材的选取与运用》

文化搬运委员会

《学术叙事的生活化转向:科普自媒体的叙事策略与实践创新》

Asu、艾斯

《谁说古籍只能藏在书斋?我们把“十二花神”变成了全网爆款》

杨利辉

《一个小众赛道的自媒体博主独白:从我和<太平年>的故事说起》

左右滑动查看更多

整场论坛展现出从大众整理产出成果,到学者利用整理成果做研究,再到研究成果反哺平台与传播的一条完整闭环。可以说,从顶层支持到学术论证,再到成果应用与大众参与,古籍整理仅靠专业学者还不够,只有借助AI技术与大众力量,才能真正破解海量文献古籍数字化难题。正是基于这样的共识与实践基础,“我用 AI 校古籍——我是‘校书官’古籍大众智能整理计划” 才得以持续推进、不断升级,成为连接学界、平台与社会大众的重要文化工程。

回望“我用AI校古籍” 活动的发展历程,从理念萌发到模式探索,其源头实际上是出于一场巨大的现实挑战。2022年3月,北京大学数字人文中心与字节跳动公益合作,开始建设“识典古籍”阅读与整理平台,旨在人工智能与计算机技术的辅助下,变革古籍整理方式,在三年内完成万种古籍的整理工作。2022年10月,识典古籍阅读平台正式上线对外发布,但资源建设是亟须解决的瓶颈难题。2023年11月,北京大学数字人文中心接受哈佛大学燕京图书馆捐赠的近万种中国善本古籍数字化书影。根据捐赠协议,这批古籍扫描书影连同所识别点校后文字,需要全部发布在古籍数字化平台上。然而,利用OCR技术对古籍图像识别之后,还必须经过人工校对才能达到更高的准确率,才能更好地被学界与大众利用,然而专业整理力量有限,人力成本奇高。因此,北大数字人文研究中心王军教授提出,必须借助人工智能技术降低参与门槛,以众包模式发动社会大众参与古籍整理,用普通大众力量破解古籍数字化难题。

传统古籍整理依赖少数具备深厚学养的专家学者,需要丰富的专业知识,专业门槛很高。大众是否能够参与古籍整理这样高度专业的工作,得到很多专家的担忧。因此,在项目正式启动前,北京大学数字人文研究中心召开多次小范围的专家论证会。2024年6月,国家古籍保护中心、北京大学数字人文研究中心、抖音公益等多家机构联合举办了“智能时代古籍整理与大众传播”研讨会。此次研讨会汇集了来自国内各大高校、图书馆和出版社的七十余位专家学者。与会学者就智能信息环境下古籍整理与大众传播的机遇与挑战进行了深入交流。活动还得到“到梦空间”第二课堂平台的支持,符合条件的同学可获得实信网认证的电子版实践证书,成为活动成功举办的重要激励机制之一。2024年7月,在古委会主办下,在各方的大力支持下,“我是校书官古籍大众智能整理计划” 第一期正式启动。

为了让这一构想切实落地见效,为项目开展筑牢基石,北京大学数字人文研究中心联合字节跳动公益推出《古籍智能通识课》《识典古籍智能整理培训课》等系列课程,课程内容涵盖古籍书史、海外汉籍、古籍整理以及历史上的大型丛书等内容,还结合识典古籍智能整理平台,讲解从OCR文字识别到文字精校、结构整理、标点校对等多个环节的技术和方法,将文献学知识转化为实践体系,将人才培养与古籍整理实践相结合。

2024年7月活动首期试行,面向大学生开展OCR校对工作,共有742所高校、超2500名学生参与,取得远超预期的阶段性成果。2024年9-12月第二期同时开设大众组、进阶组任务,参与人数突破1万人,覆盖高校增至1210所,整理规模与参与广度大幅提升,并尝试探索古籍数字化与专业教学、人才培养相结合的新模式。2025年第三期在前期经验基础上进一步拓展范围与深度,联动含清华大学、武汉大学、中国人民大学、中山大学、四川大学等22所承办高校以及1450余所参与高校,构建起 “主办单位统筹+承办高校执行+社会力量参与” 的协同机制。

可以说,“我用AI校古籍”活动不仅是一次古籍整理的技术创新,更是一场面向全民的文化传承实践。项目正逐步构建开放、共享、协作的古籍整理新生态。未来将进一步带动全国高校学生与社会公众共同参与古籍数字化整理,推动中华典籍实现全民传承、活态传承,让古籍真正融入大众的日常生活与精神文化生活,助力中华优秀传统文化创造性转化与创新性发展。

阅读原文

跳转微信打开

  •  

《人工智能 语料库 标注术语》参编单位征集

徐惠 2026-04-17 07:30 江苏

教育部语用所启动《人工智能 成都话拼音标注规范》研制,征集参编单位与专家,5月30日前报名。

转载自“语标智研”

为深入推进人工智能领域语言文字规范标准建设,服务大模型时代高质量语料数据治理需求,受有关司局委托,教育部语言文字应用研究所开展《人工智能 语料库 标注术语》标准研制工作。

本规范聚焦语料库建设与标注实践中的核心术语需求,梳理全流程概念体系,明确术语定义、分类框架及使用规则。成果可服务于数据处理与应用等环节,为减少术语歧义、提升应用一致性提供支撑。

面向全国高校、科研院所、人工智能企业、数据标注服务机构及重点行业单位,诚邀相关领域具有研究基础与实践经验的单位和个人积极参与,共同推进术语标准的研制与产业落地应用。

请有意参与编制的单位及专家于2026年5月30日前扫描下方二维码复制链接https://f.wps.cn/ksform/w/write/383ZQL8p#routePromt进行报名。


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

段玉裁《说文解字注》知识库的构建与应用

原创 沈小妮  等 2026-04-16 19:30 北京

段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:沈小妮,彭炜明,胡佳佳.段玉裁《说文解字注》知识库的构建与应用[J].数字人文研究,2025,5(4):68-83.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

段玉裁《说文解字注》知识库的构建与应用

沈小妮  彭炜明  胡佳佳

摘   要:段玉裁《说文解字注》是“说文学”研究的巅峰之作,集中体现了乾嘉学派的学术成就。当前有关《说文解字注》的数字化工作多停留于文本化阶段,尚未实现对其知识体系的深度挖掘与系统呈现。研究以《说文解字注》及其稿本《说文解字读》为底本构建知识库,设计了涵盖五大知识范畴、十个知识集、五十六个知识点的三层分类体系,完成了数万条知识实例的标注与结构化表示;在此基础上,开发了具备原文检索、知识导览与标注管理功能的交互式平台;并以对段玉裁的谐声归部研究为例,验证了知识库的应用潜力。这是数字人文方法在传统语言文字学领域的一次系统实践,为古籍深度数字化与人文研究范式创新提供了重要参考。

关键词:段玉裁;《说文解字注》;《说文解字读》;知识库;知识表示

作者简介:沈小妮,北京师范大学第二附属中学语文教师; 彭炜明,北京师范大学汉字汉语研究与社会应用实验室研究人员; 胡佳佳(通讯作者),北京师范大学文学院副教授,hjj81@126.com。

0

引 言

2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,再次强调推进古籍的数字化工作,“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级”。在我国古典目录学的著录中,有一类被系统归为“小学”类的特殊文献,即中国传统的语言文字学著作。“中国的传统语言学因为负载着三千年的文化信息,包涵着中华民族的世界观、价值观、民族观,所以,它不仅是一种学术资源,而且是一种知识资源;不仅是一种知识资源,而且是一种人文资源,一种道德资源。” 《说文解字》(以下称《说文》)是中国传统语言文字学最重要的著作。黄侃谓治“小学”须读十部书,而“《说文》一书,于小学实主中之主也”。段玉裁的《说文解字注》(以下称《段注》)是《说文》研究著作中最重要的一本,也是中国传统语言文字研究巅峰——乾嘉学术的代表。段氏的卓越成就,“不仅在于他‘究其微恉,通其大例’,对许书做了细密全面的校勘整理,更在于他通过对许书的注释,提出并初步解决了一系列有关汉语音韵学、文字学、词汇学、训诂学的重大问题,他能初步运用历史发展的观点和一些科学的方法来研究语言现象。换言之,他使《说文解字》的研究,从纯粹校订、考证的旧框子里解放出来,在某种意义上走上了科学语言学的轨道”。

在建设中国特色哲学社会科学学术体系的今天,系统梳理和总结以《段注》为代表的中国传统语言学研究高峰的学术思想与方法论,对总结和升华中国特色的语言文字学原创理论,具有特别重要的意义。从清代到当代,对《段注》的研究一直持续不断,但进入21世纪之后,研究成果却并没有极大丰富,对《段注》挖掘的广度与深度也不够充分。《段注》体大思精,其深刻的思想与科学的方法是散布在丰富的注释中的。《段注》知识库的建设,旨在将这些散布的知识与前人对《段注》的研究结合起来,通过多维联系来展现和揭示其中蕴含的科学内涵,辅助研究者从中提炼出具有现代价值的理论范式,实现对传统学术资源的创造性转化;为构建具有中国特色的理论体系提供重要的数字化研究资源和技术支撑。

目前对于《段注》的数字化工作大多仍处于影像化与文本化的阶段。如国家图书馆建设的中国古籍资源库(http://read.nlc.cn/thematDataSearch/toGujiIndex)里汇聚了多个古籍版本的《段注》高清数字影像;北京时代瀚堂科技有限公司的瀚堂典藏库(https://www.hytung.cn/)提供了经韵楼本《段注》的数字化文本和影像,可以进行字头与全文的字符串检索。北京师范大学的《说文解字》研究与应用平台(https//szsw.bnu.edu.cn),则在影像化和文本化的基础上,对《说文》小篆的形音义知识点进行了提取和结构化存储(如部首、义符、声符……)。我们把这种将知识点单独提取后再进行结构化存储的数据库称作知识库。与之前仅包含了影像、文本、著述信息与目录的古籍数据库不同,知识库是对古籍数字资源的更深层次和更细粒度的加工,它包含了根据前人研究,从原典中抽取、提炼出的具有意义的独立的知识成果,并按照一定的逻辑体系进行关联和组织,从而实现对原典内容的理解、重组和再造。如图 1所示,由于此平台提取和存储了《说文》关于每个小篆构形直接构件的知识点,用户就可以直接搜索到《说文》中以“七”为直接构件的所有小篆,这实际上就是平台为用户提供了关于小篆构形的知识服务。该平台同时提供了上海古籍出版社影印的经韵楼本《段注》的数字影像与文本,也涉及到《段注》个别知识点的提取,如为每个字头标注了段玉裁的古音归部。

图1 北师大《说文解字》研究与应用平台应用示例

知识库的构建是在平台已有《段注》文本与个别知识点的基础上,聚焦《段注》全体系知识点的系统提取与深度标注,最终构建的《段注》知识库具备双重应用价值——既可独立开发为专用应用平台(详见下文),也能作为《说文》研究的资源,通过对应字头链接至该平台的相关说解部分,为使用者提供更为精准的知识服务。

图2呈现了构建《段注》知识库与开发应用平台的实施路线图。本文第1、第2部分将围绕此路线图展开具体论述,第3部分则结合一个基于该知识库及平台的研究实例,进一步说明其应用价值。

图2《段注》知识库构件与应用平台开发实施路线图

1

《段注》知识库的构建

1.1  文本的数字化与结构化

知识库的构建首先还是需要文本的数字化。文本数字化的第一步则是选择合适的底本。段玉裁注《说文》,经历了长达近四十年的准备、撰写和修订,终于嘉庆二十年(1815)全部刊刻完成,是为经韵楼刻本。“除《清经解》所收的少数本子是重排本外,其余都是经韵楼本的复刻本,不但内容相同,每页的行数、起迄字也都相同。”  段氏自己曾在《段注》中提及,著此书前,先有长编《说文解字读》(以下称《说文读》),始为五百四十卷,既乃檃括成《注》。今北京图书馆藏有《说文读》抄本残卷七册(一至六,八),经朱小健、张和生整理,于1995年由北京师范大学出版社影印刊行[7]。尽管残缺,但它对于研究段玉裁的学术思想、《段注》的形成过程以及清代小学方法都具有极高的价值。

因此,用于知识库构建的基础文本有两种:一是上海古籍出版社1988年影印经韵楼本《段注》,二是北京师范大学出版社1995年出版的《说文读》。对于数字化后的文本,则采用关系数据库技术进行结构化存储。基于《段注》的特点,分卷、部首、字头三层设计数字化文本结构。卷表(Volume)(表1)关注《段注》的卷次结构。部首表(Radical)(表2)聚焦于《说文》部首,全书总计540个部首,每个部首分布于特定卷中,并统领若干字头。字头表是《段注》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。由于《说文》字头有正篆(位于每条说解之首的字形)和重文(位于每条说解之末的字形)之分,而《段注》亦对书中的重文进行了注释,所以字头表分正篆表(表3)和重文表(表4),两张表的字段类型基本相同。但重文表中包含对应正篆字段,以标示正篆与其重文的对应关系。

《说文读》与《段注》体例不同,是札记性质的,属于段玉裁长期研读《说文》心得的汇总。它不是依《说文》逐字做注,故多有未注之字,也有重出之字。行文格式上,低一格抄录许书正篆及说解全文,也有仅出重文;字头皆以楷书录之,但也存有篆书的情况,另起顶格作注;论及一字古音尚未使用古韵十七部,而是标以古韵韵目,但也有例外。《说文读》的结构亦分卷、部首、字头三个层次。卷表(du_volume)和部首表(du_radical)字段保持不变。字头表是《说文读》的核心内容,主要包括字头、许氏原文、段氏注文三大部分。许氏原文、段氏注文存储在字段“zhengwen_zhushi”中,用<pn></pn>标注许氏原文,用<zn></zn>标注段氏注文。

两书字头之间的对应关系,通过《读》《注》关系(duzhu_relation)表(表5)的两个外键来实现。其中,“duanzhu_id”实现两书字头的对应关系,以便从《说文读》直接链接到《段注》的相应解释,进行文本比较。

1.2 《段注》知识体系的建构

不同领域的知识要素和结构各不相同。《段注》自成体系,在注释《说文》时采用了很多的术语与条例,如“浑言析言”“古今字”等,集中体现段玉裁的学术思想和理论,也是本研究要提取的“知识点”。具体操作上,我们选取《段注》研究专著中形成共识的术语条例 ,以《传统语言学辞典》中关于段玉裁的术语为补充,选择实例数超过十条的知识点,并按照传统语言文字学的研究框架,构建了含文字、训诂、音韵、校勘和引书五大知识范畴、十个知识集、五十六个知识点的三级分类知识体系(见表6)。

需要说明的是,本研究将《段注》知识点分为五大范畴,主要出于系统整理的需要,并非意味着知识点之间存在不可逾越的界限,例如“双声”“叠韵”属于训诂学中的声训术语,但是也体现了音韵学研究的内容;“音义同”包含训诂和音韵两个角度的内容。 范畴之间的交叉渗透,也体现了段氏综合形、音、义注解《说文》的特点。

1.3 《段注》知识点实例的提取

创建好知识分类体系,就可以逐个开展各知识点实例的提取工作了。《段注》中的知识点实例一般都存在形式化的术语,譬如,段氏谈论“引申”的术语有:“引申(引伸)、因、故、因之、因以为、故以为、引申(伸)假(叚)借、引申......凡、义之相因” 。这就便于采取正则表达式进行匹配提取后再进行人工校对与补充、完善(详见图 2知识提取部分)。《段注》中一个字头下的文本中可能蕴含多个知识点实例,而一类知识点可能在多个字头下文本中都有体现,如图 3所示。甚至在一个字头下的注释中包含了另一个字头的知识点。如:

“艸,百卉也。”卉下曰:“艸之总名也。”是谓转注。二屮、三屮,一也。引伸为艸稿、艸具之艸。“从二屮。”仓老切。古音在三部。俗以草为艸。乃别以皁为草。凡艸之属皆从艸。(《段注·艸部·艸》)

段氏在“艸”字下的注释就涉及转注、引申、古音、俗字等多个知识点,其中俗字知识点实例,还涉及到字头“草”。这就要求合理设计知识库的存储结构。

图3 《段注》文本与知识点及其实例的关系

1.4 《段注》知识库的结构

在知识库的实际构建中,我们采用关系数据库来存储知识体系与知识点实例。表6中的知识点范畴、知识集和知识点可以看作一套有层级的分类标签,这些标签间的层级关系就存储在知识体系表(Knowledge)中(表7)。“parent_id”是标识知识点层级结构的关键字段,通过外键约束机制与该表的“tag_id”字段形成自反引用关系,从而可以表示树状的分类模型。该字段在层级结构中的具体表现为:

第一层级,知识范畴(如“文字类”)的“parent_id”设为 NULL,作为根节点存在;

第二层级,知识集(如“六书”)通过“parent_id”指向其所属顶级分类的“tag_id”;

第三层级,知识点(如“象形”)则通过“parent_id”关联对应的二级分类“tag_id”。

除根节点外,每个知识节点必须有一个唯一的父节点(“parent_id”),形成“知识范畴→知识集→知识点”的严格层级架构。该设计方便数据更新和管理,当删除父标签时数据库会自动删除所有子标签;更新父标签ID时,相关引用自动更新。

在知识库中,每个知识点都有一张对应的实例表,存储所提取的该知识点的实例。根据实例所关联的对象类型,我们将知识点分为两类,不同类型的知识点实例在知识库中也采用不同的结构表示。

(1)单对象描述型知识点,内容仅涉及段玉裁对单个对象的特征、属性、状态的具体描述。“韵部”“构意”等均为此类。如“韵部”知识点实例“莹”的韵部是“十一部”,“构意”知识点实例“”的“构意”描述为“有物在一之下也”。对于此类知识点,实例表结构如表8所示。

(2)多对象关系型知识点,内容涉及对两个或多个对象(字头)间关系的描述,“音义同”“行废字”“古今字”“之言”等属此类。如段氏在“枼”字下注“叶与世音义俱相通”,表述了“叶”“世”两个词的“音近义通”的关系,属于“音义同”知识点实例;在“丕”字下注“故古多用不为丕”,沟通了“不”和“丕”的古今使用关系,属于“古今字”知识点实例。对于此类知识点,除了表8中的三个核心字段外,还增设了“对象1”(duixiang1)和“对象2”(duixiang2)两个字段,来表示对象间的关系(三个以上的对象关系则拆解为两两关系),如表9所示。

2

《段注》知识库应用平台的开发

《段注》知识库建设的目标在于促进学术资源的共享,以数字化技术赋能传统学术研究。为此,我们开发了一个交互式的《段注》知识库应用平台,提供三大功能模块:(1) 原文阅读与检索,(2)知识导览与检索,(3)知识标注与管理

2.1 原文阅读与检索

“原文阅读与检索”模块提供了两类检索:“字头检索”与“全文检索”。“字头检索”允许用户通过楷字搜索《段注》和《说文读》中的正篆或重文字头,检索结果是匹配到的字头及字头下的许氏说解(大字显示)和段氏注释(小字显示),见图4。“全文检索”允许用户在包括字头、说解和注释的全部文本内容中搜索字符或字符组合,检索结果是包含匹配内容的字头及字头下的说解和注释,并对匹配内容进行了高亮显示,见图5。点击检索结果中的字头,会跳转到该字头的原文阅读页面,见图6。

图 4  字头检索结果页面

原文阅读页面采取三栏式布局(图6)。页面左侧是目录区域,遵循原书结构,以“卷—部—字”为三级树形导航结构,使用户能够快速定位跳转至目标字头。中间的文本展示区,包含字头、字形、《段注》、《说文读》等信息,并提供高清原图链接。右侧的知识索引区,分为“文字”“音韵”“训诂”“校勘”“引书”五大类,呈现《段注》中该字头下的知识点实例。页面顶部也提供了便捷的检索框,输入内容后,直接重新搜索。

图 5 全文检索结果页面

图 6 原文阅读页面

2.2  知识导览与检索

“知识导览与检索”模块页面下方是整理的《段注》三层分类知识体系。段玉裁在注释《说文》时,可能有不同的用语来描述相同的语言现象;我们则在每组表达相同语言现象的用语中选择一个代表形式作为知识点的名称,而将其他用语作为其同义关联项。页面上方搜索框,可以帮助用户通过模糊的用语关联到对应的知识点。如,在搜索框键入“因”,用语中可能包含“因”的知识点(包括其解释和关联用语)会在页面底部出现(图7)。点击搜索结果,可以进入知识导览页面,并定位到该知识点(图8)。

图 7  知识检索结果页面示例

图8  知识导览页面示例(单对象描述性知识点)

       知识导览页面同样采用三栏式布局(图8)。左侧导航区采用“知识范畴—知识集—知识点”三级目录结构,通过渐进式交互,帮助用户定位知识点。中间区域,呈现该知识点的具体实例。实例的呈现是以字头为单位的,内容包括字头下的许氏说解(大字显示)和段氏注释(小字显示),注释中与知识点匹配的内容以红色突出显示。对于多对象关系型知识点,还会呈现与之相关联的字头信息(图9)。右侧是知识点说明,提供概念说明以及相关研究文献的索引。

图9 知识导览页面示例(多对象关系性知识点)

说明:此处,页面内容显示的是“音义同”知识点。段玉裁在“皋”字下注释“葢古告皋嗥號四字音義皆同。”在知识点实例中,就存储了“告—皋”“告—嗥”“告—號”三组对象关系型实例。因此,在“告”字下,还显示与其“音义同”的“皋”“嗥”“號”三字。

2.2 知识标注与管理

“知识管理与标注”提供了三个功能:知识点的修改、知识点的增加和知识点实例的标注(图10)。点击“管理知识点”按钮,进入知识点修改功能,选择待修改的知识点,弹出对话框,可以修改该知识点所属的范畴(每一个知识范畴对应的知识集保持不变)和实例类型(图11)。点击“新增知识点”按钮,弹出对话框,可以添加新增知识点的各种属性(图12)。点击“开始标注”按钮,进入知识点实例标注功能。

图10  知识管理与标注页面

图11  修改知识点功能

图12  新增知识点功能

知识标注页面也是三栏式布局。左侧顶部检索框支持关键词或正则表达式检索,可以搜索注文中包含特定用语的字头。点击字头,中间栏显示该字头下的原文。对于单对象描述型知识点,可以选择相应的文字复制到右侧标注工作区的知识描述框,保存标注后,添加为该知识点的一个新增实例(图13);对于多对象关系型知识点,还增加了对象组管理框,用以添加符合关系的对象组(图14),对象组是两两添加的,如果遇到三个或三个以上的对象关系,可以通过“新增对象组”利用将其分解为两两关系进行添加。

图13  知识标注页面(单对象描述型知识点)

图14  知识标注页面(多对象关系型知识点)

3

《段注》知识库应用举例

基于构建的《段注》知识库与应用平台,通过知识点间的关联与比照,可以系统展现段玉裁的研究成果,深入挖掘蕴含的学术思想。

以段玉裁的谐声归部为例。在完成了《段注》字头古韵归部与形声字声符的知识点标注后,我们将《段注》中所有形声字按其声符归入其所属的谐声系中,每一谐声系以“声首”为代表。如“照”的声符是“昭”;“昭”的声符是“召”;“召”的声符是“刀”;“刀”是一个非形声字,没有声符了,它就是“召”“昭”“照”的声首。以“刀”为直接声符(如“召”)或间接声符(如“昭”“照”)的所有形声字就构成了一个以“刀”为“声首”的谐声系,这个谐声系是有层次的。将“声首”按所属的古音韵部(即段玉裁的第一至十七部)进行排列,每个声首下按其声符层次展现谐声字,并在与“声首”不同韵部的谐声字后以括号标注其所属韵部(没有标注的谐声字与“声首”的韵部相同),这样就可以一览每个谐声系中的古韵韵部分布,如图15所示。

图 15 《段注》谐声系中韵部分布示例

说明:在《六书音韵表·古十七部谐声表》中,段玉裁将“求”放在第三部,以“求”为声符的形声字都被段玉裁归入第三部,但“求”字是被归入第一部的。此处根据“声首”韵部排列谐声系中,将其排在第一部中。

通过谐声系内韵部间的合韵次数计算,可以绘制出《段注》谐声偏旁分部互用的合韵热力矩阵(见图16)。段玉裁合韵说解释的是“音值相近的韵部,在古人用韵、文字使用、语词派生等方面会经常发生相通”的情况。此处计算的谐声系内韵部间的合韵次数是指谐声字与其声所属韵部不同的情况,如“弭”在第一部,以“弭”为声符的谐声字“麛”在十六部,则第一部与第十六部算作合韵一次。图16 矩阵中的数值就表示对应行、列所代表的韵部在谐声网络中发生合韵的次数,是一个沿主对角线对称的矩阵,次数越多,颜色越深。

段玉裁是第一个打破《广韵》次第,按古音远近关系排列韵部次序的。两个韵部之间的合韵的次数越多,则古音就可能就越相近,越应该相邻排列。反映在图16中,合韵次数多的颜色较深的区域就主要集中在主对角线的两侧,可见段氏古音框架构建的科学性。其中比较特殊的是第一部与第二部,第五部和第六部,第八部与第九部,虽然相邻,但几乎不发生合韵。段玉裁在《古十七部分合用类分表》中,将十七部分为六类(第一部为第一类;第二部至第五部为第二类,第六部至第八部为第三类,第九部至第十一部为第四类,第十二部至第十四部为第五类,第十五部至第十七部为第六类),各大类的区分主要以同韵尾为标准。其中第一和第二部第五和第六部,第八和第九部就是前四类的分界。合韵次数最多的是第十五和第十六部,第十二和第十三部,第十四部和十五部,第七和第八部。

段氏的十五部和十六部就是被钱大昕赞誉为“凿破混沌”的“支之脂三分”中的“脂”部和“支”部,一部则为“之”部。戴震对段氏“支脂之三分”的发现也是赞不绝口,认为“此说为确论”,但同时认为“支”“脂”“之”三部应该放在一起,不应“之”部列第一,而“脂”“支”远在第十五部和第十六部。从图16数据来看,第一部和第十五部、第十六部合韵次数均较少。第十二部和十三部则对应段氏古韵分部的另一贡献“真文分部”中的“真”部和“文”部。江有诰评价“真文分部”时说道:“段氏之分真、文,人皆疑之,有诰初亦不之信也,细抽绎之,真与耕通用为多,文与元合用较广,此真、文之界限也。”其中与“真”通用为多的“耕”部就是段氏第十一部,而与“元”合用为广的“文”部则是段氏第十四部,江有诰之说也可以从图16中得到验证。第七部和第八部则是十七部中唯二的收唇韵,以-m、-p为韵尾。十七部中与其他韵部发生合韵最多的是第十五部(每行合韵次数相加),这与段氏对第十五部的界分过宽有关。在段氏的异平同入框架下,第十五部是包含入声韵的,且第十三部和第十四部皆以十五部之入为入。

图16 《段注》谐声偏旁分部互用的合韵热力矩阵

前人关于段玉裁谐声归部的研究主要集中于三个方面:一,《段注》字下所注韵部与《六书音韵表》的差异比较,如周祖谟、何九盈等;二,段氏对谐声字古音归部的处理原则与方法,如刘忠华;三,“谐声偏旁分别部居”所体现的韵部间的远近关系,如郭必之。较全面的研究有张道俊的《<说文解字注>古韵订补》与《<说文解字注>古韵归部》,前者对《段注》中韵部未标、错标以及游移字的情况进行了订补校勘;后者通过对比,探讨了段氏古音归部的依据以及归部标准的变化。

《段注》知识库的构建,不仅可以贮存前人的研究成果,还可以推动相关研究路径的三重突破:其一,支持对段氏谐声归部体系的系统性检验,通过批量比对与统计分析,揭示其内在逻辑与潜在矛盾;其二,借助关联查询与可视化技术,为其理论与方法提供直观的数据支撑;其三,知识库的开放性与可扩展性,有利于后续整合构形、音韵、训诂等多维数据,拓展研究的深度与广度。

4

结 语

段玉裁《说文解字注》知识库以段玉裁《说文解字注》与《说文解字读》为底本,系统梳理其内在的结构,构建了涵盖文字、音韵、训诂、校勘和引书五大范畴的三层分类知识体系,并完成了五十六个知识点、数万条实例的结构化提取与存储。在此基础上开发的交互式应用平台,不仅支持原文检索与知识导览功能,更提供了开放式标注与管理功能,支持知识库的可持续建设。

展望未来,研究仍有多方面的深化空间。知识层面,可进一步扩充专题知识集,构建更为丰富、立体的学术语境;技术层面,可探索引入自然语言处理技术,辅助知识点实例的半自动标注与关系抽取,提升知识库构建的智能化水平;应用层面,可开发面向不同用户群体的接口,如为专业学者提供网络分析等深度研究工具,推动数字化研究范式的转型。此外,知识库的可持续发展机制也需进一步探索,如建立协同标注模式,吸引领域专家通过在线平台参与审核、补充与讨论、保障知识库的活力与权威性。我们期望《段注》知识库能够逐步成长为一个动态演进、持续完善的数字学术基础设施,为中国传统语言文字学传承、发展与创新提供扎实资源支撑与方法赋能。

排版:黄琬喻

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •  

文化基因解码与智慧数据资源建设研讨会会议通知(第二轮)

2026-04-16 14:06 湖北

武汉大学文化遗产智能计算实验室拟召开文化基因解码与智慧数据资源建设研讨会。

👆👆👆点击蓝字 · 关注我们

图片

文化基因是民族精神与文明脉络的核心载体,智慧数据资源是新时代文化传承创新的重要引擎。在数字化浪潮席卷全球的当下,文化基因的深度挖掘智慧数据资源的高效建设,已成为推动文化传承与创新、提升文化软实力的关键举措。

为深入贯彻落实国家关于文化数字化战略以及“十五五”规划中关于文化与科技融合的部署要求,破解中华优秀传统文化基因系统性挖掘、阐释与表示难题,提升高质量文化遗产数据资源建设与活化利用水平,共同探讨文化遗产数智活化与系统性保护的前沿理论、实践路径与发展趋势,凝聚广泛共识,深化对话交流。武汉大学文化遗产智能计算实验室拟召开文化基因解码与智慧数据资源建设研讨会。现将有关事项通知如下:

一、会议时间

2026年4月18日,全天

二、会议地点

武汉大学人文社科楼B101学术报告厅、B217-1会议室

参会嘉宾凭“电子邀请函”于凌波门入校,步行400米(8分钟)抵达。

学生可凭身份证于珞珈门、弘毅门入校。

三、主办单位

武汉大学文化遗产智能计算实验室

武汉大学信息管理学院

四、协办单位

武汉大学大数据研究院

武汉大学国家文化发展研究院

湖北省文化大数据工程技术中心

五、会议日程

六、会议签到

18日早,会议开始前于人文社科楼B101学术报告厅门口签到入场。

七、会务费用

本次会议不收取会务费,来往交通费和用餐、住宿费自理。

八、参会报名

请参会人员于2026年4月16日之前提交参会报名表(附件1)至邮箱:iclchiclch@whu.edu.cn。

会务组通过邮件反馈参会回执即注册成功。

为方便大家及时获取会议通知并咨询相关问题,各位可以扫描下列二维码加入会议群。

感谢支持!

附件1.文化基因解码与智慧数据资源建设研讨会报名表

编辑|文化遗产智能计算实验室

审校|刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

  •  

李佃来|现代政治哲学中的财产权问题:从洛克到马克思

2026-04-16 09:00 浙江

分享一篇文章。

武大文科学报: 李佃来|现代政治哲学中的财产权问题:从洛克到马克思

作者简介:李佃来,武汉大学哲学学院教授。

《武汉大学学报(哲学社会科学版)》2025年第1

作者简介

李佃来武汉大学哲学学院教授

摘要

财产权问题是现代政治哲学发展中的主线问题。洛克率先以自然权利学说为框架建立起关于财产权问题的理论,但也遗留了需要由后来的政治哲学家进一步解决的理论问题。休谟、康德、黑格尔将财产权把握为一种获得性和社会性权利,这无形中推动了现代政治哲学的发展,特别是使现代政治哲学在解决理论与现实相脱节、相断裂上向前走了一大步。马克思在制度批判的层面上,极为深刻地揭示了缔结和固化在财产权背后的社会关系和社会矛盾,从而在理论上刻画了真正的现实,也从根本上解决了洛克遗留的问题。自洛克至马克思,政治哲学家们对财产权问题作出的不同解析,表征着现代政治哲学在理论上经历的嬗变和不断深化的过程。

关键词

现代政治哲学;财产权;自然权利;财产权的制度化本质;财产权的获得性;财产权的社会性

在当前方兴未艾的政治哲学研究中,财产权问题受到的重视程度,远不及正义、平等等问题,甚至在有的人看来,前者并不是一个典型的政治哲学问题。我们则郑重指出:正义、平等自然是政治哲学研究中需要关注的显性问题,但财产权问题也应受到政治哲学界的高度重视。因为一个起码的事实在于,如果将古往今来的政治哲学在理论类型上作出古典和现代的区分,那么,在17世纪之后发展起来的现代政治哲学中,财产权不仅是一个典型的政治哲学问题,而且是一个牢牢占据轴心位置的问题,特别是在现代政治哲学得到奠基并实现蓬勃发展的最初三个世纪——17、18、19世纪,情况更是如此。当然,我们还要看到,在现代政治哲学的发展中,围绕财产权问题形成的理论并不是一个铁板一块的整体,毋宁说存在自前而后的变化、断裂乃至革命性突破,因为另一个事实在于,面对财产权这同一个问题,不同的政治哲学家作出的审视是大不相同的。基于对这两个事实的基本判断,本文力图从问题史和理论史的层面,在自洛克至马克思的大时代和大历史中,正本清源地梳理、考察现代政治哲学中的财产权问题,从而一方面阐明政治哲学家们对这一问题所作的不同把握,另一方面也据此来整体性地呈示和展现现代政治哲学在理论上经历的嬗变。

一、洛克:作为自然权利的财产权

如果说古典政治哲学主要是指在古希腊时代得到充分发展的德性论政治哲学,那么,现代政治哲学则主要是指在17世纪之后发展起来的法权论政治哲学。作为法权论政治哲学,现代政治哲学发挥着为政治制度和国家之根本法的建立提供价值前提的功能,不过其底层逻辑总体来看不在于政治国家,而在于市民社会,所以它是一种自下而上的政治哲学理论。市民社会是一个需要和劳动的体系,也是一个以商品生产和商品交换为纽带的经济领域,同时还是一个以私人利益为本位的社会组合体。黑格尔指出:“市民社会是在现代世界中形成的,现代世界第一次使理念的一切规定各得其所。”[1](P197)马克思则更明确地强调,作为一个自由竞争的社会,市民社会是在16世纪之后开始酝酿并在18世纪大踏步走向成熟的[2](P5)。需要看到,市民社会在16世纪之后的酝酿与形成,不仅带来了经济领域的重大变革,也带来了价值和规范领域的深刻变动。这一深刻变动的内核,就是权利和自由作为一种现代价值的凸显。事实上,现代政治哲学在相当大的意义上,正是在呼应这一深刻变动的基础上发展起来的,其建立的理论言说,几乎都离不开权利、自由及由之而衍生出的价值和问题。由此来看,现代政治哲学的形成及发展并不是一个纯粹的学理问题,而是一个植根于市民社会之土壤的重大时代性问题。

一般而论,权利和自由作为一种价值,布展和体现在社会政治生活的方方面面。不过,在市民社会的框架内,权利和自由并不具有如此之广的涵盖面,毋宁说其涉及的重点是财产,因为合法地拥有一份财产并自由地对之加以处置,对于生活在市民社会中的私人来说,就是头等重要的事情。由此来看,在由市民社会所表征的时代里,财产权就是权利和自由的最重要体现形式,而有关财产权的理论,也就是在这个时代里得到发展的现代政治哲学的最重要话语之一。

在现代政治哲学的形成和发展史上,第一个明确论及财产权问题的人是洛克。罗尔斯认为,“证明私人财产之合法性并不是洛克所关注的问题。这是由于,洛克所面对的读者对私人财产之合法性并无异议。财产所有权是合法的,这是理所当然的”[3](P139)。但其实,罗尔斯的这个认识存在偏颇,因为他并没有将财产权问题投置于洛克生活的时代背景来理解。洛克生活在17世纪,这是一个不同于20世纪的特定时代。在这个时代里,市民社会已经具备雏形,私人拥有其财产已经上升为这个时代的一种强烈呼声,而这一呼声恰恰需要经过理论上的证成与辩护。事实上,为财产权的正当性、合法性与必要性提供辩护,正是对时代之变与时代之需作出敏锐洞察的洛克面对的一项重要任务。全面地看,除了财产权,洛克同时还对生命和自由进行了辩护。不过,相较于后两者,财产权是他更为看重的东西。按他的理论学说,一个人是否拥有一份合法的财产,一个人的合法财产是否能够得到有效保护,乃是衡量一个社会是否走向文明状态的最重要标准。列奥·施特劳斯曾指出,“洛克的财产学说,实际上差不多是他政治学说中最核心的部分,当然也是其中最具特色的部分。这使得他的政治学说不仅与霍布斯的而且与传统的学说最鲜明不过地区分开来”[4](P239)。从洛克对财产权的重视程度来看,施特劳斯的这个评价无疑是准确的。

洛克对财产权以及生命和自由的辩护,建基于他的自然权利学说。亦即,这三样东西在他看来都属于自然权利。事实上,在现代政治哲学的形成及发展中,自然权利学说既具有奠基的意义,同时也构成了一条主线。除了洛克,霍布斯、康德、亚当·斯密等人也都持有这一学说。这一学说的思想要旨,就是把在现代社会得到凸显的权利和自由,证成和辩护为一种人生而具有的、不可被剥夺的自然权利。通过这一学说,政治哲学家们为其理论确立了一个形而上学原点,这个原点就是立论和推演的前提。不过,在现代政治哲学的发展中,并非所有形式的权利都被无差别地指认和命定为自然权利;也就是说,在对哪些权利属于自然权利的认识和界定上,政治哲学家们是存在分歧的。按霍布斯在《利维坦》中的界定,所谓自然权利,“就是每一个人按照自己所愿意的方式运用自己的力量保全自己的天性——也就是保全自己的生命——的自由”[5](P97)。霍布斯的这个界定对自然权利学说的持有者来说具有一定的表率性,因为保全自己的生命是人的一种自然本能和天性,大概没有什么比这种本能和天性,能够更具说服力地来辩护人的权利的自然性和不可被剥夺性。洛克将生命和自由命定为自然权利,这与霍布斯的界定并无二致。他与霍布斯不同的地方,就在于把财产权也一并指认为自然权利。

一般说来,财产是一种外在的物,虽与人的生命有关系,但并不属于生命的直接构成要素。洛克之所以有理由将财产权指认为自然权利,是因为他的立论基点是人的劳动。在《政府论》中他这样说道:“每人对他自己的人身享有一种所有权,除他以外任何人都没有这种权利。他的身体所从事的劳动和他的双手所进行的工作,我们可以说,是正当地属于他的。所以只要他使任何东西脱离自然所提供的和那个东西所处的状态,他就已经掺进他的劳动,在这上面参加他自己所有的某些东西,因而使它成为他的财产。既然是由他来使这件东西脱离自然所安排给它的一般状态,那么在这上面就由他的劳动加上了一些东西,从而排斥了其他人的共同权利。因为,既然劳动是劳动者的无可争议的所有物,那么对于这一有所增益的东西,除他以外就没有人能够享有权利,至少在还留有足够的同样好的东西给其他人所共有的情况下,事情就是如此。”[6](P18)洛克在这段论述中立足于人的劳动来论证财产权的正当性与合法性,实质也就是以此来证成这一权利何以是一项天经地义的自然权利。按他的逻辑,每个人对自己的自然身体和劳动拥有无可争议的所有权,这在本质上是一种关联到人的生命存在的自然权利。同理,他(或她)也应当对经由自己的劳动而增加的东西拥有无可争议的所有权,因为这样的东西本质上是人的自然身体和劳动的一种延长物。后一种所有权也就是财产权,而这种由人的自然劳动而生成的权利并未歧出于自然权利之范围。

我们看到,洛克将财产权论证和辩护为自然权利的做法在逻辑上并无明显漏洞,因为他的逻辑前提是人的自然身体和劳动,这是一个在自然权利的认定上不容易受质疑的基点,与霍布斯所讲的“保全自己生命”的自然权利并无本质不同,当然,后者并未在逻辑上延伸至财产权。更加重要的一点是,洛克的这一论证和辩护并不仅仅只是“合乎逻辑”,同时也在一定意义上表达和反映了正在形成中的市民社会的基本诉求:如上所述,市民社会在17世纪已经具备其雏形,追求私利的原子化个人开始成为市民社会的主体。将财产权证成为人生而具有的自然权利,刻画和反映了原子化个人在利益上的要求,这本质上就是以理论的方式来回应由市民社会所表征的时代和历史。在刻画和反映市民社会上,洛克之后的英国古典政治经济学建立起了一套更系统、更完善的理论,劳动、财产权依然是这一理论中的关键范畴,而自然权利学说依然是其立论前提之一。洛克之后在理论上的这种承续与延展,在一定意义上折射了一段历史在一个大时代里的持续性在场。

不过,洛克的财产权理论与时代和历史之间的“符合”是有限度的,这主要是因为他的理论模型在最大程度上简化了财产权问题。具体论之,洛克“构造”出的自然权利虽然被赋予了具体鲜活的生命个体,但他在考量和阐说这种权利时,却剥离掉了人的具体性和鲜活存在,剩下的只是无差别的自然属性,因为唯有如此,才能把权利说成是人生而具有的“自然”权利。当然,不只是洛克,这种简化和还原到一个自然基点的做法,是所有自然权利学说的一个通则。有趣的是,霍布斯通过自然权利学说而假定了“一切人反对一切人”的“丛林法则”,这是其经过简化之后确立起来的一个理论支点,但这种简化在某种意义上倒是切中了真实的现实。在洛克的自然权利学说中,我们几乎看不到任何异质化和有矛盾的东西,这倒不是说现实的社会存在和社会关系就其本质而言是同质的,而是说用以解释现实的理论模型完全是同质化的、去矛盾的。显而易见的问题就在于:人与人之间固然在吃喝住穿等方面存在无差别的自然属性,但财产权本质上是一种现实法权,其所涉及的关系远远超出了自然人之间的同质化关系。一个人往往不仅仅是因为自己的自然劳动而占有财产,同时也因为其他因素而形成占有;在人们对财产的占有上建立起来的不仅仅只是一种导向“私”的权利关系,同时也必然存在关联到“公”的义务关系;从自然权利来看财产权,这种权利是平等地属于每一个自然人的,但在现实的财产关系和占有关系中,却常常存在深层次的矛盾或结构性的不平等,如此等等。一言以蔽之,真实的财产权问题,是一个极其复杂的社会问题,只有在一个“复合式”的理论结构中,才可能建立起关于这个问题的有效言说。

应当说,洛克在《政府论》中也从一个侧面论及了财产权的复杂性问题,具体地说,就是论及了财产的私人占有是否会导致“越界”与“侵权”的问题,这实质上也就是一个“私与公”的问题。以他之见,人们的财产权既然是建立在自身劳动基础上的,所以就必然会形成私人占有。但私人占有并不是无节制的、侵犯性的,亦即,并不会存在“多占”或者因为一个人的占有而侵及他人权利的情况。原因就在于人都是有理性的,这种理性意味着,人们对超出其需要的部分并无占有的欲望、兴趣和动力。“权利和生活需要是并行不悖的;因为一个人有权享受所有那些他能施加劳动的东西,同时他也不愿为他所享用不了的东西花费劳力。这就不会让人对财产权有何争论,也不容发生侵及他人权利的事情。一个人据为己有的那部分是容易看到的,过多地割据归己,或取得多于他所需要的东西,这是既无用处,也不诚实的。”[6](P32)洛克所讲的理性是服从于自然权利的东西,他诉诸这种理性而提供的解释,在处理“私与公”以及其他问题上显然都苍白无力。他的致命之处,就在于将涉及财产权问题的任何复杂方面,统统都消融在经其简化的理论模型中。这样说来,洛克虽然借助于自然权利学说而对财产权提供了一种具有一定时代感和历史感的辩护,但其所建立的理论模型并未向财产权问题的复杂性真正敞开,因而必然存在一个理论与现实相脱节、相断裂的问题。如果要用这个理论模型来解释现实,就难免会把现实中可能存在的复杂关系和深层次矛盾掩饰起来,在洛克基础上发展起来的英国古典政治经济学即是典型。这就意味着,在洛克的政治哲学中所提出的财产权问题是一个开放性的时代大问题,如何用一种“复合式”的理论来回应这个大问题,则是洛克留给后来的政治哲学家的一项重要任务。我们看到,休谟、康德、黑格尔、马克思等政治哲学家,就是这一任务的推进者和完成者。

二、休谟、康德、黑格尔:财产权的获得性与社会性

从历史来看,到市民社会走向“成熟”状态的18世纪和19世纪,财产权问题的重要性没有减弱,相反,它在社会政治生活的总架构中真正占据了中心位置。作为现代政治哲学的重要推动者,英国人休谟以及德国人康德和黑格尔,无不洞见这一问题的重要性,并且也都建立起了有关这一问题的理论言说。他们相比洛克的突破之处,就在于将财产权视为一种获得性和社会性权利,这实质上就是要用一种“复合式”的理论来解释财产权问题,或者将之把握为一个远非自然权利学说所能容纳和解释的复杂问题。这种工作无形中推动了现代政治哲学的发展,特别是使现代政治哲学在解决理论与现实相脱节、相断裂上向前走了一大步。

首次明确在术语和概念上将财产权指认和界定为“获得性权利”的人是康德。法权是康德政治哲学的中心问题,而财产权又是法权的中心问题。“获得性权利”这个说法来自康德对法权体系的划分。按他的划分,法权包括两类,一是人生而具有的法权,二是获得的法权。前者不依赖于一切法权行为而应天生归属于每一个自然人,也被称为内在法权;后者则依赖于法权行为而存在,也被称为外在法权[7](P29)。这个人生而具有的内在法权,放到霍布斯、洛克那里就是自然权利。康德是先验形而上学的集大成者,也是自然权利学说的支持者。但他对洛克的自然权利学说有一个根本批判和改造,这一批判和改造的内核就是把财产权移出了自然权利之列。以康德之见,人生而具有的内在法权(自然权利)只有一种,那就是自由。“自由(对另一个人的强制任性的独立性),就它能够与另一个人根据一个普遍法则的自由并存而言,就是这种惟一的、源始的、每个人凭借自己的人性应当具有的法权。”[7](P29)在洛克的理论谱系中,财产权是最重要的自然权利。但根据康德的界划,财产权只能属于一种外在的“获得性权利”,即便人们在面对和处理由这一权利引起的纷争时会援引作为内在自然权利的自由,也不能将之与后者作为同类项来认识。

在洛克那里,财产权涉及的只是人与财物的一种单面关系,而人则只是一个独白式的自然个体,赋予其占有资格的只是自身的劳动。所以,总体来看,在洛克的思维框架中,并不存在一个“社会性”的向度。康德将财产权指认为外在的获得性权利,则意味着他是在一种“社会性”关系中来把握这个问题的,因为只有在“他者”加入的、非独白的“社会性”关系中,才可能形成“获得”的东西。用康德自己的话说即是,“法权状态是人们相互之间的一种关系”[7](P87)。当然,康德本人并不同意诸如“社会状态”“社会法权”这样的说法,他使用的术语是“公民状态”“公民法权”“公共法权”等。以他之见,人们合法地、稳固地拥有财产这桩事情,并不取决于单方的意愿和行动,而是有赖于普遍意志的形成,但这只有在一种能够带来公共立法的“公民状态”中才是可能的。在“公民状态”下确立的财产权,也就是一种“公民法权”或“公共法权”。不难看到,康德使用的这几个术语在内涵上即指代一种“社会性”关系,只不过其强调的侧重点是与私人理性相对置的公共理性。

追溯起来,在康德之前,休谟就已经开始从一种“社会性”关系来看待财产权了。休谟在现代政治哲学发展史上是一个承前启后的关键人物,他旗帜鲜明地反对自然权利学说,尤其不认可将财产权说成是人生而具有的、先天的自然权利。他在《人性论》中指出,财产权是建立在人为制定的协议和规则基础上的,即先有稳定财物的协议和规则,才能产生作为一种法权的财产权。这种协议和规则的中心原则,就是不能随心所欲地占有他人的所有物,所以,构成其内核的东西是“正义”。“在人们缔结了戒取他人所有物的协议,并且每个人都获得了所有物的稳定以后,这里立刻就发生了正义和非义的观念,也发生了财产权、权利和义务的观念。不先理解前者,就无法理解后者。我们的财产只是被社会法律,也就是被正义的法则所确认为可以恒常占有的那些财物。因此,有些人不先说明正义的起源,就来使用财产权、权利或义务等名词,或者甚至在那种说明中就应用这些名词,他们都犯了极大的谬误,而永不能在任何坚实的基础上进行推理。一个人的财产是与他的关系的某种物品。这种关系不是自然的,而是道德的,是建立在正义上面的。因此,我们如果不先充分地了解正义的本性,不先指出正义的起源在于人为的措施和设计,而就想象我们能有任何财产观念,那就很荒谬了。正义的起源说明了财产的起源。”[8](P527)不难发现,休谟虽然没有使用“获得性权利”这样的术语,但他实际上已经在康德之前,将财产权论定为一种“获得性权利”。这个道理显而易见,在以正义为内核的协议和规则中产生出来的东西,自然就是后天“获得”的东西。这同时自然也表明,休谟已经在理论上开启了一个审理和把握财产权问题的“社会性”视角,或者,他已经把这个问题作为一个在“社会性”关系中“绽出”的问题来审理和把握了。尽管这一“社会性”视角和“社会性”关系远未达到马克思创立的唯物史观的理论高度,但其带来的理论突破和推进是不言而喻的。康德的情况亦复如此。

休谟和康德将财产权把握为获得性和社会性权利的理论路数,在黑格尔的政治哲学中得到了更加鲜明的贯彻和体现。黑格尔的政治哲学即是他的法哲学,财产权问题是其中的核心论题之一。在《法哲学原理》中,黑格尔更多地使用了“所有权”这个术语。他指出,所有权就是占有,“我把某物置于我自己外部力量的支配之下,这样就构成占有;……我作为自由意志在占有中成为我自己的对象,从而我初次成为现实的意志,这一方面则构成占有的真实而合法的因素,即构成所有权的规定”[1](P54)。从黑格尔的表述可见,作为占有某物的权利,所有权实质上即指洛克以来政治哲学家始终关注的财产权或物权。

洛克对财产权所给予的重视程度前所未有,而黑格尔的重视程度并不亚于洛克。不同的一点在于,洛克是从人的肉身需求和自然生命存在层面来强调财产权的,而黑格尔则将立论基点提升到自由、意志和人格的高度。具体来看,自由是贯穿在黑格尔政治哲学中的一条主线,而自由又体现在意志和人格中。按黑格尔的意见,如果说自由、意志、人格不能沦为抽象空洞的名词,而是必须要获得其定在形式,那么财产和所有权就是不可或缺的定在形式。“取得所有权即达到人格的定在,……人把他的意志体现于物内,这就是所有权的概念,下一步骤才是这一概念的实在化。”[1](P59)“在所有权中,我的意志是人的意志;但人是一个单元,所以所有权就成为这个单元意志的人格的东西。由于我借助于所有权而给我的意志以定在,所以所有权也必然具有成为这个单元的东西或我的东西这种规定。这就是关于私人所有权的必然性的重要学说。”[1](P55)黑格尔根据他的这个意见,把在罗马法以及康德的法权体系中区分开来的人格权和物权合并为同一项权利,“惟有人格才能给予对物的权利,所以人格权本质上就是物权”[1](P48)。从黑格尔的这个观点来看,他并没有像休谟那样反对自然权利学说,甚至也可以说,他在一定意义上是将财产权视为了人的一项“自然权利”。理由在于:如果说自由、意志、人格是人之为人的灵魂之所在,而财产权又被认定为它们的定在形式,那么,这就相当于潜在地承认了这种权利作为自然权利的内在性、先天性和不可被剥夺性。由此来看,黑格尔在其作为法哲学的政治哲学中,保留了洛克的理论“遗产”和元素。

进而言之,黑格尔虽然潜地在把财产权视为了自然权利,但他绝不是像洛克那样,在一个缺乏“社会性”视角的框架内来把握这种权利,而是和休谟、康德一样,将之命定为一种获得性和社会性权利。这个情况并不表明在黑格尔的理论中存在矛盾,因为前一方面涉及的是财产权的重要性和地位问题,而后一方面涉及的是这种权利的把握方式问题,黑格尔没有将这两个方面混为一谈。如果如上所示,在洛克的理论模型和论证框架里,只存在独白式的自然个体与外在物,那么黑格尔则非常明确地将“他者”的视角加了进来。这个“他者”,也就是成为霍耐特重要理论支点的“承认”。黑格尔在《法哲学原理》中指出,通过对物的占有,意志获得定在,“这一定在包含他人的承认在内”,“表示某物是我的这种内部意志的行为,必须便于他人承认”[1](P59)。在黑格尔的语境中,要得到“承认”的东西,不是财产权作为一种自然权利的不可被剥夺性,而是这种权利在社会交往关系中的合法性与现实性。这种权利是自由、意志、人格的定在,而有“他者”在场的社会交往关系,又是这种权利获得定在的框架。在此意义上,财产权自然就是一种获得性和社会性权利。

我们注意到,在康德和黑格尔的阐释逻辑中,财产权包括契约这个环节。这个问题不难理解,因为一个东西之所以是“获得”的,往往是借助了契约这个中介。契约代表的就是一种有“他者”在场的社会交往关系,离开契约的占有,可能就是一种非法的“强占”,这不符合财产权的基本原则。这样来看,在洛克的论证逻辑中尚不存在契约这个环节,自然人对财物的占有是直接性的、无中介的。洛克作为契约论哲学家,当然也谈到了契约,但这指的是自然人与政府之间在保护以财产权为代表的自然权利上的一种政治“协议”。黑格尔在谈到人格时,提出了“成为一个人,并尊敬他人为人”[1](P46)的著名论断。这个论断用在契约上大概是恰当的,因为契约是根据共同意志订立的,其前提和精神内核就是相互“承认”与“尊重”。从这一点来看,契约自然在黑格尔的财产权理论中占有重要的一席之地。不过按他的阐释,仅仅停留在契约的环节,还不足以完整地理解和把握有“他者”在场的社会交往关系,而必须要引入伦理实体。可以说,伦理实体的引入,是洛克以来的财产权理论中尤为重要的一个推进。

按《法哲学原理》的篇章结构,财产权属于抽象法,而伦理包括家庭、市民社会、国家。从字面来看,抽象法和伦理并不是同一个层面上的问题——前者关涉人的生命存在的法权,后者是人生活于其中的世界。但要看到,《法哲学原理》的展开思路是“从抽象到具体”的辩证逻辑。遵照这一思路,对作为抽象法的财产权的把握,必须要过渡到伦理环节,从而使之成为一种“具体的”法。“从抽象到具体”是一个“问题先行”的逻辑思路,即它在一定意义上是服从于“问题”本身的。黑格尔提出的“问题”是:人固然有追求自由与自身利益的先天资格和能力,但每个人都生活在既定的社会框架中,这个社会框架就是一个伦理实体。这个伦理实体不是人的自由和利益之外的东西,而恰恰是人的自由和利益得以实现的坚实基础和条件。人不能仅仅过着原子化个人的生活,同时还要以这个伦理实体为基础,追求普遍性的生活目标。在现代社会中,家庭、市民社会、国家就是最基本的伦理实体,而市民社会和国家尤其重要。包括这三者在内的伦理实体,最完整地呈现了有“他者”在场的社会交往关系。所以,只有在由市民社会和国家所代表的伦理实体中,人占有财产的条件、意义及由之而确立起来的规范性生活,才能够得到最充分的展现和实现。在黑格尔根据这一“问题”而建立起来的阐释框架中,作为抽象法的财产权与伦理实体之间取得了本质性的关联,后者构成了将前者理解为一种有内容的、活的法权的基石。黑格尔以伦理实体为基石而对财产权作出的独特阐释,至少具有两方面的重大理论意义:一是找到了财产权问题的历史根基,二是重新树立了人在占有财产上的规范性目标。

我们先来看第一个方面:找到了财产权问题的历史根基。上文已经表明,财产权问题在现代社会的凸显乃是一个历史性事件,其最重要的历史背景和基础就是市民社会的形成。不过,洛克以及休谟、康德都尚未将财产权问题与市民社会在理论上自觉地联系起来,虽然他们实际上是在谈论市民社会中的问题。这就决定了,他们不可能从源头上来深刻地考察财产权问题,虽然休谟、康德相比洛克是有重大理论推进的。这个问题在黑格尔这里有了重大转折。“市民社会”是黑格尔政治哲学中最重要的概念之一。他把作为伦理实体的市民社会视为现代人占有财产的生活场域,认为“在市民社会中所有权和人格都得到法律上承认,并具有法律上效力”[1](P228),甚至认为财产权就是在市民社会中起到重要维系作用的东西。黑格尔的这种认识不是把财产权问题与市民社会一般性地联系了起来,重要的是他把这个问题本然地置于市民社会的背景中,这相当于找到了它的历史根基。从这个意义上讲,黑格尔对市民社会进行的考察,乃是对财产权问题所作的一种具体而纵深的研究。休谟和康德使财产权发生了社会化转向,黑格尔则更进一步,不仅使其社会化,而且使其历史化,在其研究中透显着一种恩格斯在评价他时所讲的“历史感”。

我们再来看第二个方面:重新树立了人在占有财产上的规范性目标。在洛克以来的财产权问题中,本然地关联着一个如何确立人的生活目标的重大规范性问题,这也是一个价值观层面的问题。因为在现代市民社会中,人们以什么样的态度和方式来索求和占有财产,最直观、最真实地反映了他们的价值取向及在生活上的规范性目标;而理论家们以什么样的方式来把握财产权问题,往往也反映了他们在审视一个时代的价值取向和规范性目标上的基本姿态。洛克将财产权证成为自然权利,意味着他把原子化个人的利益追求视为了首要的生活目标,虽然他认为私人占有是有节制的。洛克的观点在一定意义上代表了市民社会中的一种价值追求,黑格尔将此概括为原子化个人的“特殊性原则”。在休谟和康德对洛克的批判中,潜在包含着对这一原则的校正,他们实质上把如何平衡“私与公”“权利与义务”的问题提了出来。黑格尔把代表“普遍性原则”的国家视为最高伦理实体,这就赋予国家以一种崇高的地位与使命。按洛克的自然权利学说,财产权作为自然权利是先于政治国家的,政治国家的功能和合法性在于保护财产权。但黑格尔认为,只有在由国家所代表的伦理实体中,财产权才能够得到最终落实。这个观点不仅涉及财产权的基础、条件、现实性问题,而且也涉及人们的生活目标及准则如何确立的问题。黑格尔为后一问题的解决所设立的基本方向,就是将特殊性原则与普遍性原则结合起来,特别是要把后者作为一种目标和结果。这实质上依然是在平衡“私与公”“权利与义务”的关系,不仅对洛克的观点构成了根本批判,同时也对休谟和康德构成了推进。进而言之,黑格尔在这个重大规范性问题上的思考和阐释,同样具有一种“历史感”,因为这一思考和阐释深刻反映了现代市民社会中的客观矛盾——在一个原子化个人的活动原则大行其道的时代里,必然存在个人与社会、私与公、特殊性与普遍性、权利与义务之间的张力与对立。只承认原子化个人而无视这种张力与对立,并不是对这个时代的如实把握。

概括地说,休谟、康德、黑格尔在财产权问题上的思考和阐释是自上而下、一脉相承的,不过在黑格尔这里又有了质的深化和推进。他们把财产权解释为一个社会的乃至历史的问题,这就在很大程度上解决了洛克遗留的问题——理论与现实的脱节、断裂问题。由此而论,现代政治哲学是在不断向现实纵深及历史纵深推进的过程中得到发展的。在这一发展过程中,马克思的政治哲学是一个新的理论制高点。就财产权问题来说,马克思作出的思考和把握具有全新的革命性意义。

三、马克思:财产权的制度化本质及其批判

马克思是一位伟大的政治哲学家,这一点谁都不能否认。马克思充分吸收了古典政治哲学的思想资源,但他着力解决的是现代的问题,所以,其理论总体来看属于现代政治哲学。现代政治哲学是一种法权论政治哲学,而人们通常又将法权放在上层建筑层面来解释。马克思的工作自然不是在上层建筑层面对法权作了专题研究,而是在唯物史观的理论高度上对法权作了一种历史性考察。在这种历史性考察中,财产权是最重要的一个问题。和黑格尔一样,马克思在其著作中更多地使用了“所有权”这个术语,而这一术语指代的核心对象就是财产权。从这个意义上讲,要切实把握马克思的政治哲学,就不能绕开财产权问题。

受洛克及英国古典政治经济学家们的影响,在马克思生活的19世纪,流行着把财产权视为自然权利的观念。马克思对这一观念保持着鲜明的批判态度,例如,在《哲学的贫困》中,他就明确强调:“要想把所有权作为一种独立的关系、一种特殊的范畴、一种抽象的和永恒的观念来下定义,这只能是形而上学或法学的幻想。”9P638)马克思在这里虽然没有提到“自然权利”的字眼,但他实际上批判的就是自然权利的观念。财产权在现代人的认知和生活规划中占据着几乎不可撼动的地位,洛克将之证成为自然权利的一个根本目的,就在于为之作出一种最强有力的辩护,并以此来建立一个以“个人”为中心的价值体系。但我们不能根据这一点而武断地认为,作为一个现代人的马克思是不重视财产权及个人价值的。事实在于,他和恩格斯在《共产党宣言》中曾郑重指出:“共产主义并不剥夺任何人占有社会产品的权力,它只剥夺利用这种占有去奴役他人劳动的权力。”10P47)在《资本论》第1卷中,他又提出了“在协作和对土地及靠劳动本身生产的生产资料的共同占有的基础上,重新建立个人所有制”11P874)的思想。马克思之所以没有像洛克那样为财产权提供辩护,主要是因为在他看来,财产及其占有在现代资本主义社会已经固化为一种社会关系和社会制度。所以,重要的不是为财产权提供一种形而上学的辩护,而是揭示和批判因其而缔结成的社会关系和社会制度。就这一点而言,马克思不仅与洛克迥然有异,而且也与在“社会性”关系中论说财产权的休谟、康德、黑格尔大不相同。后三者与洛克有一个共同点,即都在阐发财产权的来源和合法性基础问题,不同之处只是在于从“自然既成”还是“社会获得”来看这个问题。所以,他们的理论工作归根结底来看是建构性的,在其中并不包含一个真正指向制度本身的批判性向度,即便将思维的触角伸向历史的黑格尔也不例外。

马克思从社会制度层面来批判性地审视财产权的进路,建基于他对市民社会的研究与批判。从文本来看,在1843年底写作《论犹太人问题》时,马克思就已经非常明确地将财产权与市民社会联系起来了,这说明他此时和黑格尔一样,已经从历史根基上来把握该问题了。他在这一文本中指出:“自由这一人权的实际应用就是私有财产这一人权。……私有财产这一人权是任意地(à son gré)、同他人无关的、不受社会影响地享用和处理自己的财产的权利;这一权利是自私自利的权利。这种个人自由和对这种自由的应用构成了市民社会的基础。这种自由使每个人不是把他人看做自己自由的实现,而是看做自己自由的限制。……任何一种所谓的人权都没有超出利己的人,没有超出作为市民社会成员的人,即没有超出封闭于自身、封闭于自己的私人利益和自己的私人任意行为、脱离共同体的个体。在这些权利中,人绝对不是类存在物,相反,类生活本身,即社会,显现为诸个体的外部框架,显现为他们原有的独立性的限制。把他们连接起来的唯一纽带是自然的必然性,是需要和私人利益,是对他们的财产和他们的利己的人身的保护。”9P41-42

马克思在上面这段论述中所讲的“私有财产这一人权”,就是指洛克以来始终得到重视的财产权。我们看到,马克思在这里是把财产权直截了当地认定为一种市民社会的权利,把洛克理论中的自然个体认定为市民社会的成员。由于马克思在写作《论犹太人问题》时已经对市民社会的私人利益本位作出了深刻洞察,所以,他也就顺理成章地把财产权作为一种自私自利的、与公共利益相脱离的人权来审视。通过这一审视,马克思将个人与社会、私与公、特殊性与普遍性之间的矛盾更直接地揭示了出来。这一审视与揭示无疑受到了黑格尔的很大影响,但马克思在深刻性上已经大大超过了黑格尔,一个重要的原因就在于,马克思的审视和揭示是指向社会制度之纵深的,而黑格尔并未达到这个深度。对于这个问题,我们可以从马克思对市民社会与政治国家之关系的判定来理解。

具体来看:按黑格尔的阐释,市民社会中的财产权固然是一种以特殊性原则为主要导向的私权,但只要将其限制在代表普遍性的国家实体中,就可以从根本上解决个人与社会、私与公、特殊性与普遍性之间的矛盾。但在马克思看来,市民社会在本质上是一个决定政治国家的领域,因为政治国家的功能并不在于限制市民社会的利益,而在于服从、保护和增进这种利益。财产权是市民社会之利益的最集中体现,所以在资本主义时代,是否能够对这一私权予以保护,成了检验政治国家是否具有合法性的试金石。在马克思的这个认识中,包含了将洛克以来的财产权判定为一种制度化权利的深刻观点,从而也包含了将个人与社会、私与公、特殊性与普遍性之矛盾判定为一种制度化矛盾的深刻思想,因为他实质上是从包括市民社会和政治国家在内的整个制度结构,来审理财产权及其关联到的社会矛盾的。相比之下,黑格尔对财产权的把握虽然具有一种历史感,却没有触及制度内核,这也从一个侧面反映了他建立并倚重的理论框架——思维与存在的同质性框架——的明显弊端。

进而论之,马克思在制度层面上对财产权作出的深刻把握,不仅涉及个人与社会、私与公、特殊性与普遍性之间的矛盾,还涉及以占有和剥削为实质的阶级矛盾,这是一种更隐蔽却更根本的制度化矛盾。事实上,从《1844年经济学哲学手稿》之后,马克思对后一矛盾的揭示就一直是他考察财产权的最重要落脚点。这一研究看似不再关乎市民社会,但实际上与他对市民社会的进一步批判,是同一个问题的两个方面。具体来看:马克思系统地开展政治经济学批判之后,虽然不再像早期那样频繁地使用“市民社会”一词,但正如他在1859年的《〈政治经济学批判〉序言》中强调的,“对市民社会的解剖应该到政治经济学中去寻求”[10](P591),所以,实际情况是,他在《资本论》创作时期,推进和深化了对市民社会的研究和批判。其推进和深化的一个重要方面,是将个人之间以契约为中介的关系,检视和判定为一种围绕资本生产而形成的占有性关系。这里的“占有”,不同于自洛克至黑格尔的“占有”概念。在洛克、休谟、康德、黑格尔的理论中,“占有”就是指个人与财物的关系,与财产权在内涵上直接相通。马克思讲的这个“占有”也涉及人与财物的关系,但主要是指人与人之间的社会性关系。

就这个“占有”而言,马克思揭示的问题在于:在资本主义时代,由于商品交换的需要,包括工人在内的每一个体,都被卷入市民社会的契约体系中。这很容易给人造成一种认识,即在这个契约体系中,人们都拥有自己独立且稳固的财产权或所有权,并且相互之间借此建立起一种平等的法权关系。但这一认识是一种错觉。原因就是,劳动和资本的对立是资本主义社会无法避免的突出矛盾。在劳动和资本的对立性结构中,财产权或所有权成了一种创造剩余价值从而让资本不断增殖的权力。这种权力为资本家带来越来越多的财产和财富,但对创造这种财富的工人来说,其财产仅限于与劳动力价值相对等的工资收入。这个情况以铁一般的事实说明,财产权或所有权的规律,决定性地转化为了以剥削为实质的占有规律。这一占有规律意味着,在市民社会的契约体系中,“工人丧失所有权,而对象化劳动拥有对活劳动的所有权,或者说资本占有他人劳动”2P208)。这本质上是一种结构性的不平等,也是一种制度化的不平等,阶级分化是其必然结果。所谓平等的法权关系,只是这种不平等的虚假外观,一种形式化的东西。这一占有规律不是否定了财产权或所有权,恰恰相反,它的形成正是以财产权或所有权规律为基础的,是对后一规律加以应用的结果。

概括地说,上述“占有”是从洛克以来的财产权问题中衍生出来的一个问题,它从根本上反映了缔结和固化在市民社会中的社会性关系。洛克、休谟、康德等都没有看到这个问题,黑格尔在考察市民社会时所提到的贫困、贫富不均在一定意义上涉及了这个问题,但他显然没有对此作出实质性的解剖。然而,这并不表明这个占有问题对于理解和把握财产权问题是无关紧要的。事实在于,在现代市民社会的历史语境中,财产权作为一种法权,被嵌入私有财产制度,而占有他人劳动以及通过这种占有来持续不断地使资本增殖,正是私有财产制度得以维系的根本前提。所以,占有关系就是财产关系的实质之所在,而只有把握到占有问题,财产权问题才能够得到最完整、最深刻的理解和说明。同时,洛克论及的私人占有是否会导致“越界”与“侵权”这个“复杂性”问题,以及难以融入黑格尔实体理论和思辨理性体系的贫困和贫富不均问题,也只有落脚或者追溯到这个占有问题,才能够得到最根本、最彻底的解答和揭示。由此而论,马克思对这个占有问题的把握和解释,是他对财产权问题作出透彻剖析的一个明证。

不难看到,马克思在财产权问题上建立起来的理论阐释结构是一个实至名归的“复合式”结构,这一结构中包含了一个显而易见的“社会性”视角。马克思对包含在财产权问题中的制度化矛盾(即一是个人与社会、私与公、特殊性与普遍性之间的矛盾,二是以占有和剥削为实质的阶级矛盾)的深刻揭示与批判,是他从“社会性”视角介入和把握这个问题的最集中体现。相比之下,在休谟、康德以及黑格尔那里涉及的“社会性”的东西,例如契约,都尚未将最真实的社会性关系呈现出来。马克思的工作所实现的推进,是一种唯物史观意义上的“再社会化”。这种“再社会化”的实质,即在于对现实社会关系和现实历史的最透彻把握。就此而论,马克思围绕财产权问题而发展起来的政治哲学,从理论层面刻画了真正的现实,而洛克所遗留的问题——理论与现实的脱节、断裂问题,在马克思这里则得到了最根本的解决。

综上所述,在洛克以来的思想史上,财产权问题是一个表征着时代之变和时代之需的重大政治哲学问题。这一问题是切实把握现代政治哲学的理论逻辑与发展主线的窗口,也是深刻考察马克思政治哲学实体内容及其在思想史上的地位的根本点。洛克、休谟、康德、黑格尔、马克思等政治哲学家对这一问题作出的回应和解析,是一个大时代中的智识活动和理论思维的重要标志。他们的回应和解析既有前后承接的地方,更有大异其趣之处。如果说后一方面表征着现代政治哲学在理论上经历的嬗变和深化过程,那么这一嬗变和深化过程的内核,就是理论向现实的不断回归。在这个意义上,马克思对真正现实的刻画,代表了现代政治哲学在发展中实现的最重要理论突破。

参考文献

[1]黑格尔.法哲学原理.范扬、张企泰译.北京:商务印书馆,1961.

[2] 马克思恩格斯文集:第8.北京:人民出版社,2009.

[3] 罗尔斯.政治哲学史讲义.杨通进、李丽丽、林航译.北京:中国社会科学出版社,2011.

[4] 列奥·施特劳斯.自然权利与历史.彭刚译.北京:生活·读书·新知三联书店,2003.

[5] 霍布斯.利维坦.黎思复、黎廷弼译.北京:商务印书馆,1985.

[6] 洛克.政府论:下篇.叶启芳、瞿菊农译.北京:商务印书馆,1964.

[7] 康德政治哲学文集.李秋零译注.北京:中国人民大学出版社,2016.

[8] 休谟.人性论:下册.关文运译.北京:商务印书馆,1980.

[9] 马克思恩格斯文集:第1.北京:人民出版社,2009.

[10] 马克思恩格斯文集:第2.北京:人民出版社,2009.

[11]马克思恩格斯文集:第5.北京:人民出版社,2009.

“阅读原文”,阅读PDF全文

阅读原文

跳转微信打开

  •  

第七届清华数字人文国际论坛“未来学者”专场报名通知

徐惠 2026-04-16 09:00 江苏

第七届清华数字人文国际论坛未来学者专场招募学生投稿,7月在上海大学举办。

转载自“DH数字人文”

“未来学者”专场

人文学术的未来,寄托于未来的人文学者;也即是当下正致力于研究和探索的青年学子。为鼓励和支持本、研阶段学生投入数字人文研究,结合数字时代新方法、探索人文学术新方向,《数字人文》学术集刊持续举办第七届“未来学者”论坛,诚邀国内外的本科生、硕士生、博士生在读学生(不含博士后)投稿并参会。

期待来稿面向人文问题、结合数字方法,给出来自文学、历史、哲学、社科、艺术、教育、传播乃至政治学、图情档案等各个领域的回答和发现。

本届入围者将受邀参与第七届清华大学数字人文国际论坛“未来学者”专场,获得专家指导评议及进一步研究支持,并于本刊择优刊发。

投稿须知

摘要提交截止日期:2026年5月22日

全文提交截止日期:2026年6月12日

投稿地址:

https://szrw.cbpt.cnki.net 

入围名单及参会事宜请参见后续通知。

时间地点

2026年7月10日-13日    共4天

报到7月10日

会议 7月11日—12日

赋归7月13日

上海大学宝山校区(上海市上大路99号)

合作酒店

上海衡山北郊宾馆

:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

我们期待您的参与,共同探讨数字人文的前沿议题,推动学术研究的创新与发展!

论文格式模板及要求-中文.pdf

论文格式模板及要求-中文.pdf

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

论文格式模板及要求-中文.pdf

END

公号二维码-1.jpg

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

中国人民大学数字人文研究院发布《全球视野下的中国古籍数智化演进与未来趋势报告》

数字人文研究院 2026-04-15 19:09 北京

以下文章来源于:RUC数字人文研究院

RUC数字人文研究院

中国人民大学校级跨学科研究机构,为学校首批建设的创新高地之一。聚焦数字记忆、城市数字重建、数字史学及数字经学等前沿领域,致力于深耕数字人文的理论研究、项目实践、人才培养与学术交流。

该报告对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结

2026年4月14日,世界互联网大会亚太峰会“典籍数智化与传播论坛”在香港举行。本次论坛的主题为“从‘藏诸名山’到‘传于指尖’:数智时代的典籍记忆与文明互鉴”,旨在探讨在人工智能技术背景下,传统典籍如何实现从物理保存到数字化传播的转型。在论坛成果发布环节,中国人民大学信息资源管理学院数字人文系教授、数字人文研究院研究员夏翠娟代表研究院发布了《全球视野下的中国古籍数智化演进与未来趋势报告》(以下简称报告)。该报告作为世界互联网大会文化遗产数字化专委会系列研究成果,由夏翠娟教授带领中国人民大学数字人文研究院多位研究员共同编制,基于对全球范围内多个国家、文化记忆机构及科研机构的调研,对中国古籍在数字空间的存在形态、技术范式及传播效能进行了分析和总结。

报告首先明确了调研的范围与对象。参考了《古籍定级标准》(WH/T 20-2006/GB/T31076.1-2014),界定了“中国古籍”的定义和范围。报告认为,古籍作为以文本、图像、实物等形式承载知识与思想的文化记忆媒介,其数智化转化不仅关乎文献本身的保存,更涉及中华传统知识生产方式与文化传承机制在现代技术环境下的延续。

在调研内容方面,报告的第一部分聚焦于全球数字化存量与增量的考察。通过对海外文化记忆机构的深度调研,报告提炼了中国古籍载体形态的演进历程——数字化、数据化、语义化、智能化,即从物理纸本到数字影像,到可计算文本和结构化数据,再到关联数据和知识图谱,以及当前的垂直领域模型训练数据集和语料库。研究发现,古籍的利用方式经历了从信息孤岛向开放互联转变,正处于从数字化到数智化转型的窗口期。这种演进轨迹反映了技术在跨越时空阻隔、推动文化资源在全球范围内流动中的作用,同时也揭示了当前数字化资源在开放度与互操作性方面存在的差异。

技术路线的演进和提升建议是本报告的核心内容之一。第二部分通过对典型案例的分析,评估了技术的迭代对古籍开发利用模式的影响,提出了从载体数字化,到文本结构化,再到数据语义化和资源向量化的数智化开发技术演进路径,并总结了不同类型的案例在技术应用上的共性和差异性,对技术应用的问题进行了分析,并提出了技术提升的建议。报告提出,技术的应用伴随着伦理治理、版权保护及算法偏见等问题,建议在技术开发过程中保持审慎,支持人在回路机制,以确保技术手段与文化传承的目标保持一致。

国际合作与人智协同标准的制订是报告关注的第三个重点。报告调研了IIIF(国际图像互操作框架)、关联数据以及MCP(模型上下文协议)等标准规范在古籍领域的应用现状。研究认为,领域内广泛认同的标准规范的共同制订和落地应用是打破数据壁垒、实现国际共建共享的基础,但类似IIIF和关联数据这样能促进全球中国古籍资源共享和利用的国际标准也遇到了运维成本和技术门槛高、本地化应用水土不服的问题。而在人工智能背景下,类似模型上下文协议(MCP)这样的规范有望将全球范围内已有的中国古籍数智化成果与人工智能技术结合起来,为解决人工智能技术的幻觉问题和多源数据互证提供一定的解决方案,值得关注并促进本地化和垂直领域应用。报告分析了当前国际合作中的瓶颈,如数据主权、技术壁垒以及发展不均等,并建议未来应进一步完善兼具前瞻性、包容性和本地化的技术标准,以应对人机关系重构为中国古籍数智化开发利用带来的新机遇。

在结语部分,报告指出,中国古籍的数智化转型是一场涉及文明传承方式的深刻变革。在人工智能重塑社会生产力的趋势下,古籍的保护已不再局限于传统的扫描、存储、检索、阅览,而是向以资源、数据和知识为基石的智能利用阶段迈进。尽管技术飞跃显著,但全球范围内仍面临算法偏见、学术伦理以及文化主体性保护等共同挑战。为此,中国人民大学数字人文研究院在报告中发出倡议,呼吁全球学界、文化记忆机构与技术界开展跨界协作,推动中国古籍数字资源库、知识库、语料库的建设融入人工智能技术的发展议程,将典籍转化为碳基人类与硅基智能共同的文化记忆。

该报告的编制工作由中国人民大学数字人文研究院夏翠娟研究员带领多名师生共同完成。参与编制的人员包括:中国人民大学信息资源管理学院教授夏翠娟,讲师龙家庆、严承希、胡云怡;信息资源管理学院博士生郑振魏、曲梓萌、孟令国;文学院博士生居思微,硕士生吴世强、祝章霞。期望这份跨学科团队共同完成的报告,能为中国古籍在数智时代的保护、研究与传播提供参考。

撰稿/图片:夏翠娟

排版:任佳悦

初审:段婧怡

复审:徐碧姗

终审:王一楠

阅读原文

跳转微信打开

  •  

来线下精读《史记·外戚世家》

原创 籍合学院 2026-04-15 17:05 北京

谭木声老师解读《外戚世家》里的权力游戏

“中华经典全民阅读计划”之
谭木声老师精读《史记》课程2026

将于读书日开启。

第一节《外戚世家》精读将放于线下,与书局读者开放日同步进行,欢迎课程学员及对史记感兴趣的朋友都来体验,面对面跟着谭木声老师读《史记·外戚世家》。

西汉政治中,后妃及其家族深刻影响皇权传承、朝局兴衰,窦太后能让三代帝王言听计从,卫子夫却自尽而亡,一个家族的崛起与覆灭,竟能改写帝国命运。《史记》中的《外戚世家》是一篇被低估的、揭示权力与血缘交织的政治逻辑的好文章。这次线下分享,带你读懂《外戚世家·薄姬传》,解读汉代外戚家族的权力游戏。

活动详情

主题
:相面乌龙——
《外戚世家》第一:薄姬传

时间
:4月22日16:00

地点
:中国国际出版交流中心
3号楼9层第一会议室

说明

该活动为免费,但为确保报名者参加,我们会收取预收费用
,凡参加活动者费用会退回,而报名却未参加者将不予退还。

这次分享不仅免费体验史记课程,

还能到中国国际出版交流中心,

参加书局读者开放日。

1

参观“中国出版的文明贡献”展览

2

沉浸体验“中华智慧阅读空间”

3

参加“美的历程:

中华优秀传统文化特别专场”

4

有多名文化学者进行主题分享,

其中谭木声老师分享“如何读《史记》”

5

汉服走秀、民乐表演等节目

听完表演,请注意

16:00来参加谭木声老师的

《外戚世家》课程

《史记》线下课程,请扫码报名

  • 本次线下共读活动为免费性质,但会收取预收费用,参加者的费用会退还,但报名未参加者不予退还。

  • 本次线下活动是“谭木声老师精读《史记》”。

  • 作为福利,所有参与本场线下精读的读者,可优惠解锁“谭木声老师精读《史记》”完整精读体验。

若还要参加书局读者开放日

请扫下面二维码报名

体验过本次精读后,如果你领略到了精读的乐趣,欢迎与谭木声老师一起完成更多《史记》篇目的精读。

“谭木声精读《史记》”是由中华书局籍合学院发起,青年历史作家谭木声老师领读的为期四年的《史记》精读计划。自2024年开始,领读人以每周一更的频次,与各位读者一道开启了一场「史记长征」——选择经典篇目,精选历代史记注家评家成果,逐字逐句带领读者一起精读。

厘清文本含义、梳理人物关系、解构历史线索。精读力求通俗易懂,没有古汉语基础的朋友也可参加。

这是我们读大学时的精读方式,也是“授人以渔”的教学方式,通过对经典篇章的精读,《史记》所有的篇目,乃至中国历史的大部分文献,各位都可以独立阅读了。

“谭木声精读《史记》”每年有独立的主题,2024年,我们与近400位读者一道完成了首年精读计划,时间从战国崩溃讲到秦帝国统一和崩解。2025年的主题是「崩塌与重建——楚汉相争与汉帝国的建立」。

你既可以发宏愿,给自己定一个长期规划,订阅全部四年完整版,也可以订阅你感兴趣的当年主题。

订阅四年完整版精读计划,还将获赠中华书局精装《史记》修订本一套。

更多精彩内容  欢迎点击下方链接

1.试听+订阅首年完结版(包含33次精读+3次线下对谈)(部分章节可试听)

2.四年精读计划详目

3.实录 | 谭木声对话李霖:《史记》诞生疑案

4.实录丨朱本军&谭木声:揭开张仪苏秦的真面目

5.实录 | 谭木声&张雪松:司马迁笔下的中哲史叙述模式解析

6.《史记》与出土文献记载不一样,该信哪个?

阅读原文

跳转微信打开

  •