普通视图

Received yesterday — 2026年4月21日

转载 | 观澜·驻访学者沙龙(具身心智工作坊第2期)| 人与机器人:从科幻到现实

2026年4月19日 22:15

2026-04-19 22:15 广东

我院2026年春季学期校内驻访学者李珍教授将担任召集人,主持开展共四期的具身心智工作坊。

为进一步营造深圳校区浓郁的人文学术氛围,人文社会科学研究院(以下简称“文研院”)策划推出“观澜”系列学术活动,旨在搭建开放、前沿的学术交流空间,更好地展现人文社科领域的思想碰撞,促进学科交融。

“观澜”取义,既在方法与视野,又在境界与格局“观澜”系列学术活动将由文研院携校内驻访学者在深圳校区组织开展,包括学术沙龙、专题讲座、雅集等丰富多样的形式。我们诚挚邀请校内外师生持续关注,积极参与,在“观澜”中共同见证思想的交汇与新生。

在本学期的“观澜·驻访学者沙龙”专栏中,我院2026年春季学期校内驻访学者李珍教授将担任召集人,主持开展共四期的具身心智工作坊。该系列工作坊旨在打破学科壁垒,深度融合认知科学、人工智能、哲学、法学及科幻视角,围绕具身认知、人机关系、身体智能与AI伦理法规四大核心议题,开启一场连接前沿科技与人文思考的深度对话,诚邀校内外师生踊跃参与,共话心智与智能的交汇之道。

下面推出的是“观澜·驻访学者沙龙”专栏具身心智工作坊系列第2期——人与机器人:从科幻到现实。

01

会议信息

会议时:4月20日(星期一)14:30-17:30

会议地点深圳校区文学园 5 栋 403 会议室

召集人李珍

中山大学马克思主义学院教授、人文社会科学研究院 2026 年春季学期校内驻访学者

02

会议议程

开幕式

主持人:李珍

报告一

具身智能下的人工智能发展前景

报告人:韩瑜

中山大学智能工程学院教授、广东省消防科学与智能应急技术重点实验室主任

与谈人:

  • 刘骁奔  生生科技创始人、2025年博古睿论文奖获奖者

  • 李毅琳  中山大学马克思主义学院助理教授

报告二

从互动到他者:当机器人开始凝视我们

报告人:王华平  

中山大学哲学系(珠海)教授

与谈人:

  • 周国梅  中山大学心理学系教授、人文社会科学研究院 2026 年春季学期校内驻访学者

  • 阮   凯  中山大学哲学系(珠海)副教授

报告三

机器人:科幻与现实的边界行者

报告人:程林

广东外语外贸大学外国文学文化研究院教授

与谈人:

  • 徐翌茹  中山大学外国语学院教授、人文社会科学研究院 2026 年春季学期校内驻访学者

圆桌讨论 (30 分钟)

内容来源:中山大学人文社会科学研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

实验室召开学术委员会年会

2026年4月20日 09:50

2026-04-20 09:50 湖北

2026 年 4 月 17 日,武汉大学文化遗产智能计算实验室学术委员会年会在人文社科楼 B111 顺利召开。

 👆👆👆点击蓝字 · 关注我们

图片

2026 年 4 月 17 日,武汉大学文化遗产智能计算实验室学术委员会年会在人文社科楼 B111 顺利召开。武汉大学党委常委、副校长陆伟,湖北省文化和旅游厅党组成员,省文物局党组书记、局长陈飞,武汉大学人文社会科学资深教授、实验室名誉主任马费成出席会议并致辞。学术委员会委员及相关领域 20 余位专家参与会议。

武汉大学人文社会科学研究院院长冯果、武汉大学人文社会科学研究院平台建设处副处长冯志轩先后主持会议。

陆伟强调,实验室肩负服务国家重大战略的重要使命立足信息资源管理、测绘科学与技术等学科优势以学科转型为抓手,推动科研成果高质量转化。实验室要强化智库服务功能,以实体化平台为载体,产出更多专利、专著与落地产品,持续加强平台建设,不断提升服务国家与地方文化发展的能力。

陈飞表示全省文物系统坚持以科技赋能、数智支撑,积极探索新时代文物保护利用、价值阐释与传播展示新路径,推动文物保护利用取得扎实成效实验室作为教育部首批哲学社会科学实验室,是政产学研协同的重要平台,为湖北文物科技保护提供了有力支撑。同时陈飞对实验室建设和文化遗产保护双向发展提三点期望:一是强化使命担当,服务国家与省级战略。二是坚持创新驱动,深化学科交叉融合。三是扎根荆楚沃土,赋能文物事业高质量发展。

马费成表示,实验室依托武汉大学人文社科深厚底蕴,联动文学、历史等传统学科,借力测绘科学与技术等理工学科优势,构建文理交叉、互鉴共融的研究场景,为新文科建设提供重要实践样本。实验室在文科实验室建设模式上积极探索,精准对接国家与省级重大需求,在文物保护、古籍整理、遗址数字化等领域贡献突出,未来要进一步拓展学校资源,持续服务长江文明溯源等重大研究,助力文化高质量发展。

实验室主任王晓光从科研项目、科研成果、人才培养、国际交流、社会服务等方面对实验室过去五年的建设情况进行整体汇报。五年间,实验室建成全国首个“文化遗产数字演绎剧场”,承担 20 余项国家级项目,产出系列论文、专利、软著等丰富的科研成果,形成人才培养、国际合作、社会服务协同推进格局。王晓光表示,未来力争建成国际一流的哲学社会科学实验室与数字文化人才培养平台

中国人民大学国家一级教授学术委员会主任冯惠玲主持学术委员会交流环节并作总结。学术委员会对实验室近五年的建设成效、特色成果与创新模式给予高度肯定,指出实验室未来应着重在高质量数据资源建设、共性关键技术创新、科技成果转化、政产学研合作等方向发力,探索文科实验室建设体制机制创新。

武汉大学信息管理学院党委书记王三礼代表武汉大学信息管理学院,对各位专家的到来与建言献策表示衷心感谢。他表示,实验室的建设与发展离不开各位专家的悉心指导与大力支持,学院将与实验室一道,认真梳理吸纳各位专家的宝贵建议,聚焦 AI 时代文科教育与高校治理的新命题,持续探索文科实验室的运转机制与成果转化路径,以问题为导向破解发展难题,推动实验室建设再上新台阶,为新文科建设与文化遗产数字化事业贡献武大力量。

会议期间学术委员们在王晓光与实验室副主任王玉珏陪同下,现场考察了实验室在设备装置、数据平台、科研项目等方面的建设成果

本次会议围绕文化遗产智能计算前沿探索、学科交叉创新与成果转化应用,全面总结实验室建设成效,明确未来发展方向与重点任务。实验室将以此次会议为契机,深耕文化遗产智能计算领域,为服务国家文化数字化战略与文化强国建设凝聚共识、汇聚力量。

(通讯员:翁梦娟、周柃妍,排版:刘天畅)

编辑|文化遗产智能计算实验室

审校|刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

[채용] 연구직 / 디지털역사학 / 동북아역사재단

作者김병준
2026年4月20日 22:30

직종 : 연구직(4급)

채용분야 : 디지털역사학

주요업무

o 디지털역사학 관련 연구・조사・검토, 정책・동향보고서 작성, 국내외 학술교류 및 협력 추진 등

  • 역사현안 아카이빙 및 활용, 역사현안 연구와 디지털 기술 접목
  • AI프로젝트 기획 및 관리

o 기타 재단이 부여하는 업무

https://www.nahf.or.kr/web/portal/bbs/1978/101562?cp=1&pageSize=10&bcId=1978&baNotice=false&baCommSelec=false&baOpenDay=true&baUse=true

게시물 [채용] 연구직 / 디지털역사학 / 동북아역사재단KADH / 한국디지털인문학협의회에 처음 등장했습니다.

袁毓林 | 《新文科视角下的计算社会语言学研究》

2026年4月21日 09:00

袁毓林 2026-04-21 09:00 江苏

新文科下以第一代交叉学科融合构建计算社会语言学,研究语言社会变异与计算建模。

转引自:《语言文字应用》2024年第1期,第5-16页

作者简介

袁毓林,澳门大学教授,主要研究理论语言学和汉语语言学。

新文科视域下的计算社会语言学研究

袁毓林

澳门大学人文学院中国语言文学系/北京大学中文系

摘要:新文科建设的目标之一是:多种学科在研究内容和理论方法上的交叉与融合,从而形成新的学科方向和研究范式,以及相应的复合型人才培养模式。为此,本文提出一种可操作的路径:利用已经发展起来的若干第一代交叉学科,融汇成第二代交叉学科。比如,对于“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,可以借助“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。这种操作路线可以细化与落实新文科建设,并提供必要的学科规训。文章还以当代社会的“物理—精神—信息”三元空间,以及其中说话者的社会身份、个体人格和社交互动对语言使用和变异选择的影响为例,说明计算社会语言学的理论、方法和议题。

关键词:新文科建设;第一/二代交叉学科;计算/社会语言学;三元空间

一、新文科建设视域中的社会计算

新文科建设的一个重要特征是,建设一批多学科交叉的人文社会科学的新兴研究领域或研究方向。这种愿景和理想是非常美好和丰满的,有助于培养能够应对未来挑战的跨学科的复合型人才;但是,实现起来却是十分艰难的,从具体的学科群选择与组合、研究目标设计到操作路线与实施方案的制订,都需要进行不断的探索和尝试;并且,要冒着因尝试失败而沉没了机会成本的风险,甚至还可能要背上误人子弟的骂名。因此,不同的学科怎样寻找相关的伙伴学科,形成有议题(研究内容新颖而且重要)、可操作(有技术支撑)、有发展前途(带来理论突破或应用落地)的交叉学科,是新文科建设成败的关键要素和重中之重。

一般的印象,新文科不同于传统文科的一个标志是:有意识地在人文社会科学的研究内容或方法中,系统性地融入当代前沿的科学技术,以期形成新的学科方向和研究范式,以及相应的复合型人才培养模式。比如,随着大数据(Big Data)技术的跨越式发展,“计算”已经越来越成为人文社会科学领域的关键词。跟“计算”相结合的多学科/交叉学科/跨学科的(multi/inter/trans/cross-disciplinary)研究领域也开始大量涌现,形成了数字人文(Digital Humanities、社会计算(Social Computation)、计算社会科学(Computational Social Science计算传播学(Computational Communication)、计算社会学(Computational Sociology)等新兴学科或研究方向。值得一提的是,2009年,哈佛大学的David Lazer联合从事信息科学、社会学和物理学的15位学者Science杂志上联名发表文章(Lazer, et al. 2009),创造性地提出了“计算社会学”(Computational Sociology)这一新兴学科。他们阐述了利用计算手段,从大数据中揭示社会学规律的学术思想和趋势。这标志着社会学研究进入到数据计算时代。因为,当代科学技术的显学是计算机科学技术和网络大数据技术;所以,像“计算社会学”肯定可以算是“新文科”。随后短短几年内,计算社会学已成为人文社科领域近年来最重要的研究范式。《科学》(Science《自然》(Nature和《美国国家科学院院刊》(PNAS)等国际顶级学术期刊上,大量涌现计算社会学的研究成果,众多学术期刊出版专刊介绍计算社会学研究的进展。美国还成立了计算社会学学会,George Mason大学甚至成立了计算社会学系,并成为世界上第一个正式授予计算社会学博士学位的单位。计算社会学无论对于揭示人类与社会规律,还是对于用户个性化服务,均具有重要的意义。因此,基于社会媒体大数据的计算社会学研究,在学术界和产业界均引起了广泛的关注。这可以说是国际学术界新文科开拓与建设的一个成功的范例,足以为我们的新文科建设提供经验。

二、社会计算的议题与方法

我们认为,就利用社会媒体大数据的社会计算和计算社会学而言,也并非只有原来从事计算机科学技术和社会学的学者才可以涉足;其实,语言学研究者也是可以积极参与的,并且还是可以大有作为的。因为,社会媒体的海量数据中,绝大部分是用自然语言写成的长短不一的文本;其中蕴藏了跟用户及其复杂的社会结构有关的丰富信息,是社会学、心理学(特别是社会心理学)和语言学(特别是社会语言学)等学科的重要研究对象和研究角度。但是,这些学科所需的信息都隐藏在复杂的语言背后,需要利用自然语言处理和理解技术挖掘出来,才能被计算社会学研究进一步加以利用和提炼。而这种对语言数据的处理,正好是语言学、自然语言处理和计算语言学等学科的强项。

近年来,随着机器学习和自然语言处理技术的发展,如何更好地分析社会媒体大数据中的自然语言(即文本信息),已经成为社会计算、计算社会学研究的热点;吸引了众多不同学科的学者的研究兴趣,学科体系与范式已初具规模。并且,取得了不少令人鼓舞的成果。比较著名和成熟的研究有下列四个方面:

1词汇的时空传播与演化研究。比如,哈佛大学研究团队利用Google Books收集并扫描识别的1800年到2000年之间的500万种出版物(占人类所有出版物的4%),通过不同关键词使用频度随时间的变化,分析了人类文化演进特点,做出了很多惊人的或有意思的发现。例如,他们发现在过去几百年里英语中越来越多的不规则变化动词演化成了规则变化动词(Lieberman, et al. 2007)。再比如,通过Google Books中历年来使用The United States is”和“The United States are”两种表达形式的统计趋势图,来定量地分析美国作为一个统一国家的概念是如何慢慢形成的(Aiden & Michel 2013)。词汇是文本中负载信息的基本单位,考察社会媒体中词汇的时空传播与演化,无论对语言演化研究,还是对社会管理,均具重要意义。

2语言使用与个体差异。比如,Pennebaker & King1999)以词汇作为语言使用定量分析的基本单位,在给定的个体或群体对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。研究者们发现,抑郁与自杀者往往会在文本中发出可侦测的求救信号;初次约会的时候对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率;团队的凝聚力和合作倾向也可以通过内部对话做出预测,等等(详见下文§5)。近年来,在社会计算领域提出了用户建档(user profiling)的研究任务,旨在利用用户产生内容预测用户的各种属性,既包括用户的各种简单属性,如性别、年龄和地理位置等,也包括用户的复杂属性,如兴趣、政治倾向、性格特点和主观幸福感等。

此外,还有(3语言使用与社会地位的关系,和(4语言使用跟群体的关注话题与情绪态度,等等。诸如此类的研究,不仅具有社会学、心理学和语言学方面的学理价值,而且在舆论监测、社会管理和客户分析等方面,都具有重要的应用价值。

三、从“计算语言学”和“社会语言学”

“计算社会语言学”

众所周知,高等院校的学科体系和专业分工是已经制度化了的。并且,不同的学科在学科传统、方法论和学术追求与价值观方面,也存在巨大的差别。这在历史上形成了所谓的“学科鸿沟”或“学术壁垒”,或者如俗话所说的“隔行如隔山”。因此,要把不同的学科整合起来,殊非易事。对此,我们提出一种可操作的实践路径:尽可能有效地借鉴和利用已经发展起来的相关的几种第一代交叉学科,再次进行交叉与融合,从而形成第二代交叉学科。这样做好像是在比较坚固的旧楼上面加盖新的楼层,可以取得以旧出新、物尽其用、组合增效、事半功倍的效果。比如,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,可以借助已经成熟的“计算语言学”Computational Linguistics, CL“社会语言学”Sociolinguistics等第一代交叉学科,形成“计算社会语言学”Computational Sociolinguistics, CS这种第二代交叉学科,从而使得相关的新文科建设不仅路径清晰、基础扎实,而且有法可依、有章可循。

关于第一代交叉学科“计算语言学”的思想源头,可以追溯到研制电子计算机的当初。大家也许知道,著名的“图灵测试”(Turing Test)就是以自然语言理解与翻译为思考背景的。相应于“自然语言处理”(natural language processingNLP)和“自然语言理解”(natural language understandingNLU)这种研究方向与工程领域,学者们提炼出了“计算语言学”这种学科建制与学科体系,以利于学术探索和人才培养。

关于第一代交叉学科“社会语言学”的发展与兴盛,可以归功于Labov (1966)Weinreich, et al.1968)等一系列关于语言与社会的共变关系的研究。他们采用口头访问、书面问卷和民族志等方法,系统地调查和研究了说话者的性别、年龄、地理位置、社会阶层和权力关系等社会结构对个体与社群的语言使用的影响,发现了说话人的有关社会变量(social variables)与语言变异(linguistic variation)之间的对应关系,揭示了语言使用的阶层差异与历史演变的重要规律,推动了社会学、心理学和语言学的深人与细化。

现在,Nguyen, et al.2016认识到:随着大数据的发展,相关的科学正在经历着一场范式的转变。除了聚焦于传统的自然现象描写、理论发展以及计算科学,数据驱动的探索和发现已经成为许多学科的方法论框架的有机组成部分,而计算语言学也在这进化之列。考虑到以往的计算语言学主要是捕捉语言的信息维度和语言信息传递的结构,对语言的社会维度关注很少。最近二十年来,受社交媒体大数据的驱动,计算语言学对研究社会环境中的语言的兴趣越来越浓。社交媒体平台上的大数据为计算语言学的研究提供了新方向,也具有方法论意义。当然,此方向也面临着一些挑战,比如:(1)比起计算语言学传统上用的语料来,社交媒体中的语言更口语化、变异也更多;(2社会变量和语言之间的关系是更为动态和脆弱的,这也不同于计算语言学以往所关注的文意和结构之间的相对固定的关联。另一方面,传统的社会语言学用量化或质性方法来研究口语语料,而调查和民族志方法则是语料收集的主要手段,但是其语料规模往往较小。随着类似社交媒体平台语料的出现,大规模的数据为语言变异研究提供了更为宽阔的舞台。面对这些更为庞大也更为异质的语料,社会语言学需要新的方法论,而计算语言学则正符合这一期待。于是,他们大胆地构想一个计算语言学和社会语言学相结合的、可以被称之为“计算社会语言学”的新兴交叉领域;并且,明确其目标是从计算的角度研究语言与社会的关系。这篇论文详细地讨论了“计算社会语言学”的原理和范围及方法论特点,讨论了说话者如何使用语言来塑造对其身份的感知,并重点讨论了基于性别、年龄和地理位置的语言变异模型的计算方法;还从单个说话者转向成对、成组和社区,讨论语言在塑造个人关系、改变风格的使用以及在社区中采用规范和语言变化方面的作用;讨论了多语言和社交互动,其中概述了处理多语言交流的工具,如分析器(parsers)和语言识别系统(language identification systems),还讨论了从计算角度分析多语言交流模式的方法;最后,该综述论文指出了“计算社会语言学”这个研究方向所面临的挑战,也即这个新兴的多学科研究领域(an emerging multidisciplinary field)的研究议程(research agenda):扩展调查范围,调整方法框架以提高兼容性,根据社会语言学研究的需要调整自然语言处理的工具。

我们认为,这种基于成熟的若干第一代交叉学科来构建第二代交叉学科的做法,路径清晰、方法可靠、规范明确、有章可依,不仅可以指导我们细化与落实新文科建设,并且为我们的新文科建设提供制度化的学科规训(古拉丁文disciplina英文discipline/disciplinarit)。下面,我们主要根据Nguyen, et al.2016刘知远(2021)等材料,再结合笔者的语言学工作经验和文献阅读体会,简单介绍和讨论一下社会计算语言学的有关理论假设、研究方法和主要课题。

四、计算社会语言学的理论、方法与课题

作为第二代交叉学科,计算社会语言学尝试整合社会语言学和计算语言学的有关方面,从大数据和计算的角度对人们的语言(变异)和社会(参数)之间的关系进行研究,探讨对相关的语言内容及其社会背景信息的数据收集、计算建模和结果分析、及对其理论含义的揭示的一系列方法,以便在新的技术和学科背景上,加深对于语言运用中的社会动态(social dynamics)的理解,对在社会环境中使用语言这一主题产生新的见解;并且,通过这种基于社会语言学的语言研究,来改进相关的自然语言处理的工具与方法,帮助建立更加丰富的语言计算模型,从而对社交媒体上的文本及其内容处理提供更多的学术支持。比如,基于对用户语言选择的分析,自动检测用户的性别、年龄、地理位置或从属关系(工作单位或所属机构)、甚至性格特点、兴趣爱好和政治倾向等的研究,可能会给自动用户分析工具(如前述的用户建档)带来好处。反过来说,这种注重语言的社会变异的研究,可以超越经典的自然语言处理工具背后的典型假设,即语言使用同质性(homogeneity),从而让相关的语言计算工具更加贴近互联网语言运用的实际生态。

在社会语言学研究中引入计算建模方法,这是由我们这个网络时代语言运用的实际生态所要求的。因为,随着移动互联网的普及,数字信息世界这个虚拟空间已经成为人类的生活世界的一个不可或缺的组成部分。我们的社会突破了传统的“物理世界—精神世界”这种二元空间,已经全面进入了“物理世界—精神世界—信息世界”这种三元空间。人们在无处不在的信息空间中频繁交往,不断地通过语言使用来建构(construct)和塑造(shape)自己的线上身份(online identity),维护与管理自己的线上社会关系网络;从而在这种以计算机为媒介的交际(computer-mediated communication, CMC)中,形成了大量跟用户的社会变量相关的语言变异,为社会语言学的研究提供了大规模的活生生的素材。并且,信息世界通过万众上网、全民互联和迅速更新的方式,对人们的观念、行为、时尚和情绪等舆情和趋势产生全方位的实时影响。比如,在社会预测方面,社会媒体中关于候选人的提及率就是很好的预测指标。例如,根据Facebook上的支持率就能够成功预测2008年美国总统大选结果(Williams & Gulati 2009)。可见,社会环境的空间结构变化了,在社会环境中运用语言的实际生态也变化了;网络环境中的语言运用已非传统手工方式所能应付,计算建模方法已经是不二的选择。因此,对于社会语言学来说,计算建模不仅是一种方法论,更是一种认识论。在当今网络主宰人类社会的数字化生存时代,计算社会语言学是一种水到渠成的研究范式。

比如,在语料收集方面,社会语言学的传统做法是观察旁听、口头访谈和问卷调查,等等。显然,这是一个耗时费力的过程,而所得的数据集往往很小。现在,随着网络媒体的兴起,微博、论坛、评论等社交平台上用户生成的内容极为丰富,并且这些自然、非正式的语言往往带有上下文信息(比如,用户、社交网络机构、生成时间、地理位置,等等)。在一定的计算手段的帮助下,这些内容成为传统数据收集方法的一个有力的补充。这种计算社会语言学范式下收集起来的网络语料,自然地规避了Labov (1972)所谓的“观察者悖论”(observer’s paradox):社区语言研究的目的必须是发现人们在没有被系统观察时是如何说话的,然而我们却又只能通过系统观察来获得这些数据。此外,计算语言学上常用于获得各种大规模标注数据的“众包”(crowdsourcing)方式,也可以被计算社会语言学用以获取不同的人群如何使用某种语言变体,以及不同的人群如何看待不同的语言变体的大量数据。总之,计算的视窗一经打开,社会语言学的语料收集和处理方式就别开生面,如虎添翼。

在对语料的计算建模等研究方法方面,目前的计算语言学和自然语言处理,按照语言的结构层次和任务需求,已经形成了下列相对丰富和成熟的技术和系统:1词汇层,自动分词、词类标注、命名实体识别等;2句法层,自动句法分析、依存关系分析、层次结构和成分关系分析等;3语义层,词义消歧、语义角色标注、同义互释、文本蕴涵分析等;4篇章层,指代消解、共指消解、篇章结构、话题发现与跟踪等;5应用层,文本分类、信息抽取、智能问答、文档摘要、机器翻译等;6)算法模型层,除了传统的支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression)、朴素贝叶斯(Naive Bayes)等算法,还有n-元语法(n-grams)、新兴的潜在变量建模方法(latent variables modeling approaches),以及最近十几年来发展起来的概率图模型(probabilistic graphical models )、神经网络方法中的深度学习(deep learning within a neural network approach)。这些不同层面上的计算建模方法,可以在研究语言变异与社会变量的对应关系时选择性地使用

在研究课题方面,计算社会语言学一方面继承社会语言学的两大主题:(1)社会身份与语言变异的关系,(2)社交环境与语言变异的关系;当然,计算社会语言学更加注重利用计算建模的方法,来探讨和研究这些问题。另一方面,计算社会学上已经开展的词汇的时空传播与演化、语言使用与个体差异、语言使用与社会地位、语言使用与群体分析等专题,也可以融入和拓展上述两个方面。下面三节分别简单地进行介绍。

五、社会身份与语言变异的计算方法

下面简单地举例说明,怎样建构跟社会身份(social identity)相关的语言变异的计算方法。众所周知,社会语言学的一个重要假设是:说话者用语言来构建他们的社会身份,语言(特别是其中的变异形式)是说话者用来塑造其身份的工具之一。当计算语言学认识到语言的使用可以揭示其使用者的社会模式以后,许多研究就集中于从文本中自动推断作者的有关社会变量(social variables)。这个任务可以看作一种自动的元数据检测,以期得到关于作者特征的有关信息。随着对社会趋势分析工具的需求的日益增长,人们对这类元数据检测算法的开发和改进也越来越感兴趣。在计算语言学社区中,跟种族、社会阶层等群体变量相比,依据性别、年龄和地理位置等个体变量的语言变异受到了更多的关注。

在数据收集方面,早期的研究基于语料库中的正式文本,或者在当面对话或电话交谈等受控环境中收集。随着社交网络媒体的普及,人们从博客、推特、论坛等不受控环境中收集非正式文本。由于这类数据通常缺乏明确的关于用户的性别、年龄、位置等身份的信息,因而研究人员需要使用不同的策略,从用户提供的有限信息、注释或名字上来获得足够的标签。

以性别建模为例,计算语言学研究过文本作者的自动分类。曾经用支持向量机、逻辑回归、朴素贝叶斯等算法,对作者进行基于生物学特征的二元分类。但是,社会语言学的研究表明,这种把性别作为说话者的一种固定属性的做法,忽略了说话者的主观能动性(the agency of speakers)。从社会学的角度看,性别是一种社会结构,性别行为是社会习俗的结果,而不是固有的生物学特征。如果联系会话伙伴、互动环境和社交网络,对语言使用中性别的特定模式进行计算研究;那么,可以发现:尽管某些语言特征通常被男性或女性更多地使用(比如,在词类频率方面,男人更多地用介词、冠词,而妇女更多地用代词,特别是第一人称代词;在风格方面,男人倾向于用长的词句和文本、更多地用詈辞,而妇女更多地用情绪性词语、及“omg”“lol”之类典型的社交媒体词语)。但是,个别说话者可能会偏离许多研究中强调的刻板印象(stereotypes,例如:男人善于用“报告性”言谈来交换信息,妇女于喜欢用“亲善性”言谈来建立联系)。有研究发现,在同性别的人们交谈时,他们/她们更多地使用专属于其性别的语言变体。此外,性别因文化和语言的不同而形成不同的形态。这一切,有助于更好地证明:语言(运用)本质上是社会性的,语言的共时变异和历时变化跟语言使用者的社会变量直接相关

另外,怎样发现和分析年龄、地理位置跟语言使用的关系(比如,什么年龄层次的人、处于什么场合更加容易偏离标准语的规范)?怎样为年龄和位置的变化建模(离散的年龄段还是连续的生命周期,离散的行政区划还是连续的地理坐标)?怎样利用语言使用者在推特等社交媒体上留下的GPS信息,或者他们在用户介绍中提供的位置信息?以及怎样对这些维度的调查结果进行解释?比如,年轻人更多地使用单数第一和第二人称代词,而老年人更多地使用复数第一人称代词及介词、定指词与冠词,这种倾向性跟语言类型(是不是代词脱落型语言,pro-drop language)有没有关系?这些也是从计算角度研究社会结构如何影响语言使用的核心课题

反过来看,如果研究清楚了由性别、年龄和位置等变量决定的说话者的社会身份,怎样影响了语言变体的选择;那么,这种成果肯定也可用以帮助改进基于身份信息的内容检测和文本分类等自然语言处理任务。比如,Dadvar et al. (2012)训练针对特定性别的分类器,来侦测网络霸凌(cyberbulling)的实例。他们发现,不同性别的侵扰者使用的语言是不同的。再比如,Hovy (2015)发现,训练针对特定性别或年龄的词嵌入向量(word embeddings),可以改善情感评价分析(sentiment analysis)和话题分类(topic classification)等工作。这就走向语言学的社会研究和计算研究的双向对流、互惠互利和协同发展,也显示出计算社会语言学的应用潜力。

事实上,计算语言学社区已经展开了从有位置标签的数据(location-tagged data)上,训练和开发自动预测说话人的位置的一系列研究。比如,Eisenstein, et al. (2010)开发了一个话题模型(topic model),来识别区域惯用词语跟语言区域在地理上的相关性。这个模型被用以根据推特文本来预测推特用户的位置,成功地通过了测试。显然,这种基于文本的话题来预测用户的位置的计算模型,可以用来发现新的具有社会语言学价值的语言使用型式(new sociolinguistic patterns)。再比如,Bamman, et al. (2014)通过增加表示美国州名的语境变体,来扩展Mikolov, et al. (2013)“跳词语法”模型(skip gram model结果,这个模型学会了全局嵌入矩阵和增加的每一个语境(比如,州)的嵌入矩阵,从而捕获了词的意义的地域变体形式,最终发现了有关词的意义怎样随着地理位置的变化而产生变异。我们相信,随着诸如上面这种分布式语义表示技术等计算模型的引入,计算社会语言学的技术路线也将越来越宽广。

六、个体人格与语言变异的计算方法

事实上,对于个体的语言使用和变异选择来说,比社会身份更加隐蔽和关键的决定因素,可能是人格差异。人格心理学(personality psychology)和社会语言学的相关研究发现,人类个体的人格差异会反映在他们的语言使用特点上。因此,如何定量地建立起语言使用与个体人格差异之间的关联,是心理学、语言学和社会计算的重要课题。关于这个主题的最具代表性的计算建模工作,是20世纪90年代PennebakerKing提出的“语言探求与词数统计”(Linguistic Inquiry and Word Count, LIWC)方法(Pennebaker & King 1999。这是一种基于词典的词语计数程序(dictionary-based word counting program),其基本思想是:以词汇作为定量分析语言使用的基本单位,首先通过人工收集、标注的方式,建立词语的不同类别(如代词、数词、情感词等)的词典;然后在跟给定的个体或群体相对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。Pennebaker教授的研究团队已经在这方面做了大量有影响的工作。他们发现,抑郁与自杀者往往会在其文本中发出可侦测的求救信号(Chung & Pennebaker 2007);初次约会的时候,对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率(Ireland, et al.2011);团队的凝聚力和合作倾向也可以通过其内部对话做出预测(Gonzales, et al.2010);谎言的有关语言特性也有助于分辨真假(Newman, et al.2003);对语言使用进行分析,还将有助于结识新朋友(Pennebaker & King 1999);语言使用还与年龄有千丝万缕的联系(Pennebaker & Stone 2003)等等。

目前,在大规模网络社交媒体普及的背景下,通过语言使用分析个体差异更凸显其重要性。一方面,很多在小规模数据集上建立起来的社会理论,需要在大规模真实数据集上进一步验证或再发现;另一方面,利用社会媒体用户产生的文本数据推测用户的人格或心理特点,可以在个性化推荐服务中发挥重要的作用。正因为如此,近年来,在社会计算领域中,研究人员提出了用户建档(也称为“用户画像”)的研究任务,旨在利用用户产生内容来预测用户的各种属性,既包括用户的有关简单属性,如性别(Burger, et al. 2011Fink, et al. 2012)、年龄(Goswami, et al. 2009)和地理位置(Rao, et al. 2010Li, et al. 2012)等,也包括用户的有关复杂属性,如兴趣(Yang, et al. 2011)、政治倾向(Rao, et al. 2010)、性格特点(Mairesse, et al. 2007Schwartz, et al. 2013)和主观幸福感(Frank, et al. 2013Mitchell, et al. 2013Dodds, et al. 2011,等等。这种研究成功地把语言使用特点跟用户的其他方面的特征(如用户的社会网络结构、在线行为模式等)综合起来进行有效的属性预测。特别是,在研究手段上超越了词频统计的层面,充分利用了机器学习和自然语言处理领域的新方法,如向量空间模型(Manning et al. 2008)、隐含主题模型(Steyvers & Griffiths 2007)、时间序列分析(Hamilton 1994)等,在定量分析的广度和精度上都向前推进了一大步。这种类型的研究,为我们建设计算社会语言学开辟了新的领域和研究手段。

现在,面向大规模在线社会媒体的语言使用跟个体差异的关系的研究,尚处于起步阶段。一方面,在线社会媒体为语言的变异研究提供了极为丰富的分析素材和观察角度;另一方面,机器学习和自然语言处理的发展也为语言使用和语言变异分析,提供了更丰富的测量维度和更合适的计算建模工具。可以预期,在深度学习和语言大模型的推动下,未来将能看到关于语言使用与个体的人格差异的更多、更深层次的分析和发现,从而推动计算社会语言学向更加微观和深入的方向发展。

七、社交环境与语言变异的计算方法

语言运用往往是在成对、成组和成社群的人员构成的社会互动环境中进行的。这给了不同的说话人一个机会,来顺应或塑造社会关系,并响应特定的社交场合和相遇细节(如对话者或听众、话题和说话人的目标等)。这种跟社交环境相关的语言变异研究,特别需要计算建模的方法。因为,首先,从数据源的角度看,各种线上社区、论坛、课堂(on-line community, forum and classroom)等在线数据中,有大量的详细的交互记录,已经推动并促成了计算语言学社区关于这一主题的大量工作。其次,从上述语料中,我们可以通过一定的计算手段,来自动地提取社会关系,揭示社会关系的强弱、权力等级、礼貌策略、风格转换等对语言运用的影响因素。

语言运用往往不仅是一种信息交流的过程,而且也是一种表现自我和定位他人、以及反映说话人跟会话伙伴的相对地位的社会行为(social behaviour)。这种言语行为表现上的一致性,等于是定义了会话角色(conversational roles)。也就是说,从诸如此类的语言运用中,可以揭示相关说话人之间的社会关系的若干线索。正是认识到了这一点,计算语言学社区已经展开了基于文本的不同类型,来自动提取会话者的社会关系及其动态变化的研究,成功地从语言使用上发现了弱关系(比如熟人)和强关系(比如家人或密友)的区别。Bak, et al. (2012)用自动识别话题的方法,研究推特用户在强弱不同的关系中自我透露(self-disclosure)的差异。他们发现,推特用户面对强关系会透露更多的个人信息,而面对弱关系则会显示更多的正面的情感评价。这种现象,也许可以用照顾初次相识这种社会规范来解释。其他一些研究,已经从更广泛的数据集中自动提取了社会关系;从而发现线上互动时,发送消息的作者是向上言说(面向较高社会地位)还是向下言说(面向较低社会地位),在语言使用上有不同的表现。还有人用逻辑回归方法来对线上语料库中的权力关系进行自动分类,进而得以分析所提取出来的社会网络结构。比如,社会语言学调查了说话者如何使用语言来维持和改变权力关系,计算语言学探索了怎样从文本中自动识别权力关系。但是,对于不同社区之间的人们的社会互动,迄今的研究仍停留在简单的层面上。

关于不同权势的人们之间的语言互动,社会语言学理论曾经提出:地位越低的发言者需要从语言上去适应地位越高的听者,而地位越高的人则不需要调整自己的语言方式去适应别人(Gonzales, et al. 2010)。过去由于缺少相关大规模数据,因而有关理论一直缺少定量分析的支持。美国康奈尔大学的Mizil教授等人选取线上和线下两个场景,验证了语言交流行为是如何体现权力关系的。两个场景分别是维基百科中编辑们的在线讨论,以及法院庭审现场的辩护对话。值得注意的是,这里所谓的语言使用方式,指的是虚词(function words)的使用,而不是实词的使用。他们调查了包括冠词、助动词、连词、高频副词、(非)人称代词、介词和量化词等8种标记,一共451个词项的使用情况。研究者观察了由甲引起的对话中,乙分别用了多少不同种类的标记来回应;并且考察了甲分别用了多少不同种类的标记,可能引起乙分别用了多少不同种类的标记来回应。值得注意的是,这种不同权势的对话者对虚词的不同的使用及其调整变化,甚至可能连对话者自己都没有注意到。然后,他们通过统计和定量分析及形式化刻画,验证了参与讨论的人之间权力的差异,会在两人如何回应对方的语言方式上有所体现Danescu-Niculescu-Mizil, et al. 2012这种结论,也在推特平台上得到了验证。首先,他们同样利用介词等虚词的使用情况,考察了交流双方的语言风格是如何彼此适应的。然后,他们考察了交流双方之间影响的不对称性,以及这种不对称性与社会地位的关系;即地位高的人不会去适应地位低的人,而地位低的人要付出更多去适应地位高的人。研究结果表明,虽然推特对交流增加了一些限制(非面对面,非实时,而且只能说140个词),但交流中仍然有比较明显的语言适应行为(Danescu-Niculescu-Mizil, et al. 2011)。

一般认为,社会交往中的礼貌行为,有助于维持社会和谐和避免社会冲突。Brown and Levinson (1987)发现,语言的礼貌行为受到下列三个社会因素的影响:(1)社会距离(social distance),(2)相对的权力(relative power),(3)诉求的麻烦程度(ranking of the imposition,i.e., cost of the request即请求的成本或代价)。幸运的是,检测礼貌的自动分类器已经被开发出来了,可用于大规模地研究礼貌策略。鉴于礼貌用语的使用跟参与对话的人的社会地位之间具有密切的关系,Mizil团队分别对维基百科编辑和Stack Exchange论坛的讨论者进行了研究。他们把用户对他人提出请求时的对话摘录出来(其中,一句是真正的请求,而另一句是客套话),然后由标注者为其礼貌程度进行评价。研究结果表明,维基百科编辑在选举过程中试图获得更高地位时,会更加礼貌;而一旦选上以后,礼貌程度随机就会下降。这种情况,同样也出现在Stack Exchange上;明显地,人们的礼貌程度跟其地位呈反比关系(Danescu-Niculescu-Mizil, et al.2013a)。

根据Labov1972的研究,没有单一风格的说话者;因为,说话者可能会根据他们的交流伙伴(比如,受话人的年龄、性别和社会背景),在不同风格之间进行切换(风格转换)。此外,话题(比如,政治vs.宗教)、语境(比如,法庭vs.家庭餐聚)等因素也能造成言语风格的转变。根据交际顺应理论(Communication Accommodation Theory, CAT),说话人会让其言语行为更加趋近或背离他们的对话伙伴。其中,趋近行为减少了对话者之间的社会距离。一般来说,作出趋近行为的说话人,往往会被认为是更加讨人喜欢和擅长合作的。现有的研究发现,说话人之间的互相顺应,主要体现在音高、手势、措辞等不同的维度。计算语言学社区侧重于用诸如前述的“语言探求与词数统计”(LIWC)方法,通过对线上语料中人称代词的使用(比如,更多地用单数第一人称还是复数第一人称)等的统计分析,来测度言语风格的顺应。有人发现,网上论坛的跟帖通常重复原帖的词语和句法结构,来达到顺应的效果。还有人用动态贝叶斯模型(Dynamic Bayesian Model),归纳出语料中潜在的风格状态,发现了不同的说话人在顺应方面的差异。

最后,对于社区动态的研究也是计算社会语言学的主题。因为,人们会根据谈话对象调整他们的语言使用。在社区内,规范随着时间的推移,通过成员之间的互动而出现;例如,使用俚语和特定领域的行话,或者在推特上表示转发的约定。对于这一主题的早期调查,是基于非公共社区的数据的。最近的研究则使用了来自公共在线社区的数据,比如在线论坛和评论网站。这一方向的研究,显示了利用大量在线数据定量研究社区语言变化的潜力。当然,在这种分析中,应该仔细考虑数据中的偏差,特别是当数据的动态和内容没有被完全理解时。比如,据Danescu-Niculescu-Mizil, et al. (2013b)介绍,他们以两个大型啤酒评论社区作为研究对象,发现用户在社区中一般会经历两个阶段:在第一个阶段,他们刚进入社区,会积极学习适应社区的语言使用规则;而接下来,他们逐渐不再做出改变,任由规则变化;最后,逐渐退出社区主流群体。这项研究定量地探索了在社区与个人的相互作用下,语言使用规则变化的复杂性。可见,Mizil等人的一系列研究,开创性地在社会媒体大数据上定量验证了社会语言学中的重要理论,并进一步利用该理论展开社会计算的研究。这为计算社会语言学树立了研究典范。

八、结语:用并为计算建模而研究语言的社会变异

新文科建设的出发点是多种相关学科的交叉、融合与创新,通过在研究内容、研究方法和技术手段等方面的跨学科的交融、提炼与整合,形成新的学科方向与研究范式,以及相应的复合型人才培养模式。我们充分地认识到,这种崇高而宏大的目标实施起来是困难重重的,迫切需要明确的可依循的操作路径。有鉴于此,上文提出一种在旧楼上加盖新楼层的方法:尽可能利用已经发展起来的若干第一代交叉学科,融合贯通起来形成第二代交叉学科,以取得物尽其用、事半功倍的效果。就语言学而言,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,我们可以借助已经成熟的“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。因为,社会语言学关注在社会环境中使用的语言的社会维度,计算语言学关注在社交网络上使用的语言的信息维度;把它们结合起来,形成计算社会语言学这种新的研究领域和学科,可以整合这两个学科的优势和强项,更好地从计算的视角来研究语言(变异)和社会(变量)之间的关系,以便更加深刻地认识人类语言在社会环境中的运作机制,更加充分地为计算机处理人类的语言提供理论、方法和材料支持。我们希望这种操作路线可以帮助细化与落实新文科建设,并且为新文科建设提供制度化的学科规训。

本文的创新点是从当代社会的“物理—精神—信息”三元空间这一特征切入,说明社会语言学的研究迫切需要计算建模这一方法。文章还以社会身份、人格特点和社交互动等对语言使用和变异选择的影响因素为例,说明了计算社会语言学研究的理论依据、语料采集与计算建模方法。

讨论至此,计算社会语言学的宗旨也就可以粗略地总结为:用计算建模的方法研究语言的社会变异,并为语言的计算建模而研究语言的社会变异(study linguistic variation by computational modeling and for computational modeling natural language)。

Computational sociolinguistics research from the perspective of new liberal arts

Yuan Yulin

Department of Chinese Language and Literature, Faculty of Arts and Humanities, University of Macau /Department of Chinese Language and Literature, Peking University

Abstract: One of the goals of the new liberal arts is the intersection and integration of multiple disciplines in research content and theoretical methodologies, thus forming new disciplinary directions and research paradigms, as well as corresponding inter-discipline talents training models. To this end, this paper proposes an operational path: using several first-generation interdisciplinary fields that have already been developed to integrate them into a second-generation interdisciplinary field. For example, in the research field of "social media plateforms-social variation of language-computational modeling", which issocomplicatedby multiple disciplines, we can use the first generation interdisciplinary fields such as "computational linguistics" and "social linguistics" to form the second generation interdisciplinary field of "computational social linguistics". This path can refine and implement the construction of the new liberal arts, and provide necessary disciplinary regulations (discipline or disciplinarit). In addition, theories, methodologies and issues of computational sociolinguistics are also exemplified in this paper by the “physical – mental – cyber” ternary space of contemporary society, where speakers’ social identities, individual personalities, and social interactions impose influence on language use and language variation choices. 

Keywords: Construction of new liberal arts; First-/Second-generation interdisciplinary branches of learning; Computational/Sociolinguistics; Ternary space.

(发表于《语言文字应用》20241期,5-16

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

阅读原文

跳转微信打开

李斌等 | 《基于认知属性库的原型范畴研究》

2026年4月20日 09:01

2026-04-20 09:01 江苏

《中文信息学报》2016年第30卷 第6期《基于认知属性库的原型范畴研究》

本文来源于:《中文信息学报》2016年第30卷 第6期《基于认知属性库的原型范畴研究》

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

批判性数字人文|机器学习时代的代码认识论

2026年4月20日 11:40

DHLR Ray编 2026-04-20 11:40 北京

以下文章来源于:左手数字右手人文

左手数字右手人文

About Digital Humanities, what is right and what is left. 分享全球数字人文相关学术论文译文、会议通知等资讯内容。

随着全局优化与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识

栏目简介:批判性数字人文(Critical Digital Humanities, CDH),通常指的是在数字人文基础上,引入批判理论、社会理论、后殖民研究、性别研究、媒介研究、科技社会学等视角,对“数字技术如何介入知识生产、文化记忆、权力结构与社会不平等”进行反思性研究的方向。


The Epistemology of Code in the Age of Machine Learning

机器学习时代的代码认识论

DOI:https://doi.org/10.63744/mtgy4d9qn78k

作者: Evan Buswell

期刊: Digital Humanities Quarterly (DHQ)  Volume 20 Number 4, 2026

作者 Evan Buswell 是一位独立学者及软件工程师,博士毕业于加州大学戴维斯分校,从事人工智能研究。其研究横跨计算机科学、数字人文与批判性理论。他关注计算机技术的历史演变及其背后的哲学意涵,特别是计算架构如何塑造人类对知识的认知。

1. 摘要

代码是一种以“压制状态”(Repression of state)为前提的认识系统。然而,随着全局优化(Global optimization)与机器学习算法的兴起,代码在揭示知识的同时,也同样遮蔽知识。代码的形成回应了二十世纪知识型(Episteme)的两个特征:其一,知识被表征为一种过程(Process);其二,这种表征必须是自足的,即其意义由表征形式本身构成。代码与状态虽存在关联,但为了将代码建构为认识论对象,状态被持续限制与压制。这一建构始于1940年代代码的最初形成,并在1960年代末结构化编程运动中达到现代形态。然而如今,随着全局优化和机器学习算法在计算领域日益占据主导地位,状态的关键重要性已无可回避,而我们理解状态的工具却极为匮乏。这一认识论困境反而为那些罔顾后果、规避责任的行为者提供了庇护。

2. 文章内容

本文从科学技术研究(STS)与批判性代码研究的视角,追溯"代码"概念的历史形成,论证代码与状态的分离并非中立的技术选择,而是特定历史认识型的产物。

作者将论证分为三个层次展开:

  • 代码作为认识论对象:代码诞生于一种将知识理解为"过程"的知识型(约形成于1930年代)。在这一认识型中,意义的合法性来自符号系统内部的自足性,而非外部指涉。代码因此被要求不仅描述算法,更要"实例化"算法本身。然而这一要求内含矛盾——动态过程无法被静态文本完整构成,由此产生了代码与状态的结构性分裂。

  • 状态的压制史:作者通过对早期计算机代码的细读,追踪这一分裂的具体历史轨迹:从Mark I的系统性路由范式,到ENIAC的时序化结构,再到EDSAC条件跳转指令的出现,最终经由Fortran、ALGOL等语言演进,抵达1960年代结构化编程运动对GO TO语句的驱逐。每一次编程范式的更迭,本质上都是将状态进一步压入不可见的角落——先是隐入符号地址,再是隐入语法结构,最终隐入状态变量。

  • 机器学习与认识论危机:全局优化算法的兴起使上述压制走向历史性破产。这类算法在数学意义上已知其效果依赖于代码与状态的内在关系,然而代码范式依然将状态处理为非认识论对象。"黑箱"的比喻并非描述技术限制,而是这一历史性压制的文化症状。更危险的是,状态的不可知性正在成为资本与权力规避责任的结构性工具——算法推荐系统、自动驾驶责任归咎,莫不如此。

3. 理论框架与方法论

本文方法论融合批判性代码研究(critical code studies)的文本细读传统与知识考古学式的历史分析。作者并置不同历史时期的代码片段(EDSAC、A-2、Fortran、ALGOL等),通过比较性近读(comparative close reading)追踪条件跳转指令的语法演变,将技术史细节与认识论命题直接挂钩——这是本文方法论上最具说服力之处。

论证结构遵循一条清晰的辩证线索:外部化—压制—压抑物的回归—新形式的再压制,并以全局优化算法作为当下历史节点,将这一循环推至其内在矛盾最为显露的临界时刻。引入"无免费午餐"定理,使技术论证与认识论批判形成精准呼应,避免了此类研究常见的泛泛而论。

简  评

对于从事AI认识论、数字人文与STS研究的读者而言,这篇文章提供了一个罕见的分析框架:它拒绝将"黑箱问题"处理为机器学习的技术局限,而将其还原为一段有据可查的观念史。这种将代码语法演变与权力/责任问题直接相连的论证路径,对于思考AI治理的文化与语言基础尤具启发性。

看到这篇文章的时候,就不得不想起本杰明·M·施密特在2016年发表的本杰明·M·施密特《数字人文主义者需要了解算法吗?》(2016)。这两篇文章之间构成了一种跨越十年的“互文”关系,像同一个认识论困境的两个不同截面——施密特从实践层面发现了症状,Buswell从历史层面追溯了病因。如果说施密特的核心诊断是:数字人文学者把算法当黑箱,满足于用经验性测试("符不符合常识")来评估工具,却没有去理解算法背后的转换逻辑。他的药方是:不需要懂算法的实现细节,但必须懂它试图做什么——也就是理解 "transformation" 而非 "algorithm" 。Buswell的回答实际上是:施密特说得对,但他没有问为什么黑箱会存在。答案是:黑箱不是技术局限,而是代码范式的历史性产物。Buswell通过对计算机史的详细考据,在认识论层面指出,在机器学习与全局优化算法主导的今天,施密特所寄望的那种“可理解的转换”的认识论就随之坍塌。

文章对中文语境同样具有延伸价值:中文对"代码"与"状态"的概念处理方式是否内嵌了不同的认识论预设?在"算法黑箱"的本土讨论中,状态的不可知性是否同样承担了类似的责任规避功能?这些问题值得进一步探究。

撰文、编辑:丁怡瑞(剑桥大学数字人文系硕士研究生)

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

Announcing 2026-2027 Scholars’ Lab Fellows

2026年4月20日 12:00

We are thrilled to announce the 2026-2027 Scholar’s Lab fellows for the Praxis Program and the Graduate Fellowship in the Digital Humanities. We are welcoming 7 fellows from 4 disciplines from the arts, humanities, and social sciences. Our graduate fellows are joining a robust and vibrant community of past students!

Praxis Program

We are delighted to welcome 5 team members to the 16th (!) year of the Praxis Program, our flagship introduction to digital humanities by way of collaborative, project-based pedagogy:

  • Slenka Botello (Art and Architectural History)
  • Catherine Fan (Art and Architectural History)
  • Sena Kaplan (Sociology)
  • Ruth Kramer (History)
  • Kaarin Percy (Art and Architectural History)

Look forward to more details about the Praxis Program’s work in the fall!

Critical Making Fellow

The Scholars’ Lab Makerspace Critical Making Fellow is a year-long, paid graduate fellowship that supports a student in creating a physically grounded scholarly project connected to their academic research using Makerspace and UVA fabrication resources. We are excited to welcome Jessica Gómez (English) as our 2026-2027 Critical Making Fellow. The Fellow works about 10 hours per week, collaborates with the Makerspace community, documents their process, teaches two workshops, and presents the completed project publicly at the end of the spring semester.

Graduate Fellows in the Digital Humanities

Finally, we are looking forward to working with Ganiyu Jimoh (Jimga), our 2026-2027 Graduate Fellow in the Digital Humanities. Jimga’s (Art and Architectural History) dissertation is titled “Digital Art in Nigeria 1990 – 1999.”

Jimga will work with our team throughout the year and over the summer on substantial research projects related to his dissertation. He joins a vibrant community of students working in the lab in the coming year.

Special thanks to everyone who served on the application committees that selected these fantastic students. We are looking forward to working with all of them in the coming year!

Teaching with the DH Awards

2026年4月20日 12:00

It’s that time of the year when the DH Awards goes public with the results of their annual cycle. The process is, of course, only a snapshot of the field and limited in all those expected ways. But I am astonished each year, chronically online as I am, to find that there are so many projects out there that are new to me. Each season is a delight as I page through the many different links offering new work, unknown-to-me scholars, and fresh ideas. Reading this year, I thought that the list could make for a useful way of constructing a DH teaching activity. Here are a few ideas for how you might use the DH Awards to teach your students:

  • Take five; pick one. Students pick five projects to examine in detail, using a rubric you provide in advance. In session, they each quickly present on one topic to the group. You follow up with a general discussion to which the students can bring all five pieces they examined.
  • Dig into a year. It’s not uncommon for scholars to designate particular years as uniquely important for their fields of study. In this activity, students pick one year and examine the projects showcased in the DH Awards closely. What was distinctive about this year? What trends do they see? What seems curious?
  • Look over time. Ask students to consider how representation of the field has changed over time as articulated in the DH Awards. Probably easiest to narrow their focus to a single category for this one. Does anything rise up? Fall away? Remain steady?
  • Consider what’s left out. Invite students to look critically at the awards process. Can they think of any topics or kinds of scholars who are consistently left out?
  • Design your own. Encourage students to speculate on their own award cycle. What kind of work would they want to promote? What do they value? How could they design a shoestring award process to help facilitate that every year? What kind of collaborators would they need to implement it? How much labor would it entail?

For extra flavor, I might offer analogous or contrasting exercises with Reviews in DH or Digital Pedagogy in the Humanities. Maybe that’s a future post. Endless thanks to those who provide volunteer labor to keep DH Awards going. I always appreciate the project as a service to the community. I always learn something each awards season, and hopefully the above activities give some ideas for how they can teach your students as well.

Warum digitale Methoden unsere Wissenschaft herausfordern: SHareDH-Vortragsreihe „Produktive Ambivalenz – Digitale Methoden und Meistererzählungen“

2026年4月21日 01:58

Digitale Methoden haben die Geisteswissenschaften in den letzten Jahren grundlegend verändert. Sie eröffnen neue Wege der Analyse, ermöglichen große Datenmengen zu erschließen und stellen etablierte Forschungsfragen in ein neues Licht. Doch mit diesen Möglichkeiten entstehen auch neue Herausforderungen: Welche Narrative prägen unser wissenschaftliches Denken? Welche Perspektiven werden sichtbar – und welche bleiben unsichtbar?

Die Vortragsreihe „Produktive Ambivalenz – Digitale Methoden und Meistererzählungen“ setzt genau hier an. Sie versteht Digitalisierung nicht nur als technischen Fortschritt, sondern als epistemologische Herausforderung. Digitale Werkzeuge können dazu beitragen, lange etablierte Meistererzählungen und Korpora zu hinterfragen. Gleichzeitig können sie selbst neue Normen, Standards und Narrative erzeugen – etwa durch algorithmische Auswahlprozesse, Datenstrukturen oder softwarebasierte Voreinstellungen.

Im Zentrum der Vortragsreihe stehen daher Fragen wie: 

  • Wie verändern digitale Methoden die Art und Weise, wie Wissen entsteht?
  • Welche Rolle spielen Prozesse von Auswahl, Kanonbildung und Datenstrukturierung?
  • Inwiefern schaffen digitale Technologien neue wissenschaftliche Selbstverständnisse?
  • Und wie lässt sich diese Ambivalenz produktiv für Forschung und Lehre nutzen?

Die Vortragsreihe bringt Expert:innen aus unterschiedlichen Disziplinen zusammen und lädt dazu ein, die Zukunft der Geisteswissenschaften kritisch und konstruktiv zu diskutieren. Sie richtet sich an Forschende, Studierende und alle Interessierten, die sich mit den Auswirkungen digitaler Technologien auf Wissenschaft und Gesellschaft auseinandersetzen möchten. Veranstaltet wird sie im Rahmen des Projekts SHareDH, einem gemeinsamen Projekt von UB Kiel und Europa Universität Flensburg zur Förderung der Digital Humanities in Forschung und Lehre an den beiden Universitäten in Kiel und Flensburg.

Termine

28.04.2026, digital: Wahlverwandtschaften 2.0? Statistische Narrative in den Digital Humanities
Jun.-Prof.  Dr. Rabea Kleymann (TU Chemnitz)

05.05.2026, digital: Edition als Mnemotechnik – Multimodale Quellen jenseits linearer Wissensordnungen
Jun.-Prof. Dr. Elisa Cugliana (Universität zu Köln)

19.05.2026, Kiel, OS75 – Hörsaal 1 und digital: Unsere breite Gegenwart und ihre algorithmische Zukunft: LLM-Epistemik beim Aktualisieren historischer Narrative
Dr. Christopher Nunn (Universität Heidelberg)

26.05.2026, Flensburg, Gebäude Helsinki, Raum HEL 067 und digital: Digitale Praktiken und digital-analoge Daten zwischen Ausprobieren, Explorieren und Infrastrukturieren in den Digital Humanities
Prof. Dr. Lina Franken (Universität Vechta)

09.06.2026, Kiel, OS75/S3 – R.177 und digital: Erzählforschung als Messverfahren? Zu den methodologischen Chancen und Herausforderungen computationeller Zugänge
Prof. Dr. Evelyn Gius (TU Darmstadt)

23.06.2026, digital: Kanonkritik durch Distant Reading, Zoom und Close Reading oder De arte venandi per algorithmum
Prof. Dr. Peter Bell (Philipps-Universität Marburg)

07.07.2026, tba.: Über die epistemische Gewalt der Digitalität: Plädoyer für eine grundlegende Datenkultur in den Geisteswissenschaften
Dr. Till Grallert (Humboldt Universität zu Berlin)

Zeit: Dienstags, 16:15 Uhr

Digitale Teilnahme via https://uni-kiel.zoom-x.de/j/69649547724?pwd=rxlaUZ5lO4yKxylnUshz1afWqoS8rq.1 ohne Anmeldung möglich.

Kontakt: Patrick Nehr-Baseler

Received before yesterday

征稿 | AACL-IJCNLP 2026 Call For Papers

2026年4月19日 09:00

AACL-IJCNLP 2026 2026-04-19 09:00 江苏

AACL-IJCNLP 2026在横琴举办,5月25日截稿,征集NLP原创未发表长/短论文。

转载自“计算学习算法与自然语言处理”

图片

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

Link: https://2026.aaclnet.org/

When: Nov 6, 2026 - Nov 10, 2026

Where: Hengqin, China

Submission Deadline: May 25, 2026

Notification Due: Sep 7, 2026

Final Version Due: Sep 30, 2026

Categories: natural language processing, artificial intelligence

Call For Papers

AACL-IJCNLP 2026 (the 5th AACL & 15th IJCNLP) invites the submission of long and short papers featuring substantial, original, and unpublished research in all aspects of Computational Linguistics and Natural Language Processing.

CFP: https://2026.aaclnet.org/calls/main_conference_papers/

The conference will be held in Hengqin, China from November 6th to November 10th, 2026.

Important Dates

ARR submission deadline (long & short papers) May 25, 2026

Reviewer registration deadline for ALL authors May 27, 2026

Author response and author-reviewer discussion July 7 - 13, 2026

Meta review released July 30, 2026

Commitment deadline August 26, 2026

Notification of acceptance (long & short papers) September 7, 2026

Camera-ready papers due (long & short) September 30, 2026

Main Conference (dates for Workshops/Tutorials TBD) November 6 - 10, 2026

Note: All deadlines are 11:59PM UTC-12:00 (“anywhere on Earth”).

Topics

AACL-IJCNLP 2026 aims to have a broad technical program. Relevant topics for the conference include, but are not limited to, the following areas:

Safety and Alignment in LLMs

AI/LLM Agents

Human-AI Interaction/Cooperation

Retrieval-Augmented Language Models

Mathematical, Symbolic, and Logical Reasoning in NLP

Computational Social Science, Cultural Analytics, and NLP for Social Good

Code Models

Interpretability, Model Editing, Transparency, and Explainability

LLM Efficiency

Generalizability and Transfer

Dialogue and Interactive Systems

Discourse, Pragmatics, and Reasoning

Low-resource Methods for NLP

Ethics, Bias, and Fairness

Natural Language Generation

Information Extraction and Retrieval

Linguistic theories, Cognitive Modeling and Psycholinguistics

Machine Translation

Multilinguality and Language Diversity

Multimodality and Language Grounding to Vision, Robotics and Beyond

Neurosymbolic approaches to NLP

Phonology, Morphology and Word Segmentation

Question Answering

Resources and Evaluation

Semantics: Lexical, Sentence-level Semantics, Textual Inference and Other areas

Sentiment Analysis, Stylistic Analysis, and Argument Mining

Speech Processing and Spoken Language Understanding

Summarization

Hierarchical Structure Prediction, Syntax, and Parsing

NLP Applications

Presentation at the Conference

All accepted papers must be presented at the conference to appear in the proceedings. The conference will include both in-person and virtual presentation options.

Related Resources

IEEE-ICECCS 2026: 2025 IEEE International Conference on Electronics, Communications and Computer Science (ICECCS 2026)

IEEE ICCT-PACIFIC 2026: 2026 IEEE 2nd International Conference on Consumer Technology - Pacific (ICCT-Pacific 2026)

AMLDS 2026: IEEE--2026 2nd International Conference on Advanced Machine Learning and Data Science

Asia EISC 2026: The 1st Asia Conference on Edge Intelligence and Service Computing

ACM NLPAI 2026: ACM--2026 7th International Conference on Natural Language Processing and Artificial Intelligence (NLPAI 2026)

ACIE 2027: 2027 The 7th Asia Conference on Information Engineering (ACIE 2027)

CFP-CIPCV-EI/SCOPUS 2026: The 2026 4th International Conference on Intelligent Perception and Computer Vision

I&CPS ASIA 2026: 2026 lEEE IAS Industrial and Commercial Power System Asia (IEEE I&CPS ASIA 2026)

Call for Book Chapter 2026: Human-Animal Studies and Literary Animal Studies in German Narratives

NeTCoM 2026: 18th International Conference on Networks & Communications

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026年4月19日 08:30

2026-04-19 08:30 湖北

本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的9篇论文进行介绍。

01

识读不可读文本:基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要:奥斯卡・王尔德曾言:“文学与新闻的区别在于,新闻不堪卒读,文学无人问津。” 遗憾的是,王尔德所处的 19 世纪数字化存档新闻文本,其光学字符识别(OCR)结果往往缺失或质量低劣,既降低了档案的可获取性,也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题,本研究采用预训练图像转文本语言模型 Pixtral 12B,对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》(NCSE)开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比,结果显示其字符错误率中位数仅为1%,较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果,具备高质量字符识别文本,并将文本划分为4个类别与17个主题,包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放,旨在助力历史学与社会学研究,让21世纪的读者得以足不出户识读这份“不可读文本”,共情王尔德对19世纪新闻水准的遗憾。

Abstract:Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图:边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框,重叠区域以深蓝色标注

Figure:Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

02

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要:剪纸艺术是中华传统文化中独具特色的非物质文化遗产,当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失,部分剪纸品类濒临消亡,其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值,结合Grab-Cut算法,实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理,提升图像质量;其次采用改进遗传算法优化后的Canny算子,提取剪纸纹样整体轮廓;随后设计Grab-Cut算法,针对性分割剪纸设计元素轮廓,并借助CDR软件处理矢量图像,生成独立可编辑矢量文件;最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明,本研究提出的方法可有效检测剪纸图像纹样真实边缘,完成轮廓提取,纹样各设计元素的像素分割精度达96%以上,为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract:As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图:剪纸图像平滑去噪处理 (a) 原始图像;(b) 增强后图像

Figure:Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

03

丈量东方之声:华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要:1978年改革开放以来,中国流行音乐产业高速发展,成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法,对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数,从静态与动态双维度揭示了歌词文本的高活跃度,佐证了其叙事性的文体本质。歌词情感分析结果显示,文本整体呈现积极基调,而2000年成为重要分水岭,前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明,不同时期歌词的主题分布模式呈现多元化特征,既体现了流行文化的普世性,也彰显了文化与时代语境塑造下的中国本土特质。

Abstract:Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图:潜在狄利克雷分配模型评估:一致性与困惑度对比

Figure:LDA model evaluation: Coherence vs. Perplexity.

04

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要:本研究选取三位代表性诗人,从词汇意象、时空解构、主题演变与情感表达四个维度,对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法,融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术,辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论:其一,两类诗歌均以自然与禅意为核心,共享相似的词汇与意象体系;其二,二者均体现永恒视角与历史意识的交织,以及宇宙宏大性与人世现实性的辩证关系;其三,主题演变层面,江南禅诗“自然与禅”的核心内核,在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架;其四,江南禅诗侧重超脱与空寂的审美表达,高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实,该方法可有效提升古典诗歌文本的中文分词精度,彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract:This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图:禅诗名词词云图 (a)雪窦重显;(b)杨杰;(c)义天

Figure:Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

05

近代早期英语的善恶语义空间:道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要:本文提出一种创新研究方法,通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》(EEBO-TCP)语料库,构建语义模型,梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法,设定善恶、女性-男性两大启发式坐标轴,将词汇映射至坐标轴中,挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标,揭示了概念与性别道德化宏观范式的适配规律。研究发现,多数词汇集中于“女性/邪恶”象限,而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数,可无监督挖掘文本潜在二元对立关系,识别塑造近代早期话语体系的文化维度,涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景:道德对立并非静态固化,而是相互重叠、动态流变;该模型打破了固定二元对立的认知框架,证实语言是构建与重塑文化价值的动态高维场域。

Abstract:This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图:核心词汇语义邻域图(左上:死亡;右上:戏剧;左下:牙买加;右下:信用)

Figure:The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

06

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要:汉字在东方文明发展进程中具有核心地位,其构形体系具备系统性特征,而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此,本研究基于复杂网络方法,探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边,构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络;通过17项通用网络指标量化分析网络特征,深入阐释汉字构形系统的内在属性。研究结果表明,相较于随机网络,汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征;这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性,分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract:Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图:真实网络与随机网络全局拓扑图(a、c、e:真实网络;b、d、f:随机网络)

Figure:Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

07

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要:当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象,探究大学生群体的审美反馈,聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法:其一,运用混合设计方差分析与语义差异量表,分析四大主题作品,通过因子分析与聚类分析提取审美潜在维度;其二,开展眼动实验,记录注视时长与注视次数,量化分析眼动指标与主观评分的相关性。研究结果表明:第一,园林主题灯彩画的喜爱度评分显著最高(P<0.001),主题与专业的交互效应不显著(P=0.094),说明不同专业群体的审美偏好具有一致性;第二,研究提取出情绪效价、形式审美、认知唤醒三大潜在维度,揭示了非遗审美的多层级体验结构;第三,潜在审美偏好与喜爱度呈极强正相关(r=0.94,P<0.01),而眼动注视指标与喜爱度无显著相关性(P=0.174;P=0.234)。研究证实,晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性,由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据,深化了对晚期Z世代非遗审美认知的理解,为非遗传承与美育推广提供理论支撑。

Abstract:There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图: 《黛玉葬花》眼动热力图

Figure: Daiyu Burying the Fallen Flowers eye-tracking heatmap.

08

从浪漫到现实:数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要:本研究探究2000-2025年华语流行歌词的词汇与主题演变,映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库,本研究填补这一空白,构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法,融合词频分析、可读性指标与BERTopic主题建模,追踪歌词词汇与主题的历时演变。研究发现,歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心;类符形符比显著提升,表明歌词词汇丰富度持续增长,文本复杂度呈波动变化,反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题,主题结构从自然与时间的抽象表达,逐步转向情感具象化与心理内省化书写;近年来,负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架,彰显了数字人文工具在大规模歌词分析中,描摹集体情感与文化变迁的核心价值。

Abstract:This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图:各项指标历年变化趋势

Figure:Trends of various metrics over the years.

09

文化分析与表征政治:埃及《箴言》杂志中犹太群体形象的呈现研究(1933-1953)

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要:本文融合文化分析与后殖民理论,探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法,识别并解读期刊档案中犹太形象的建构范式,揭示两次世界大战之间及战后初期,阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合,精准剖析文化生产机制,呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于,对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究:随着阿拉伯犹太人大规模撤离埃及,《箴言》中犹太形象的动态演变,折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分:第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中,阐释其成为阿拉伯现代性多元理念博弈平台的历史背景;第二部分结合远读与阐释性分析,梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存,更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合,为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract:This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图:《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译|洪冰凤

校对|罗斯鹏

排版|魏翔

阅读原文

跳转微信打开

观澜·驻访学者沙龙(第14期)回顾 | 人工智能与人类智能

2026年4月17日 15:04

2026-04-17 15:04 广东

4月12日,观澜·驻访学者沙龙(第14期)在我校深圳校区文学园5栋103致用·观澜学术会议室顺利举行。本次研讨会由我院2026年春季学期校内驻访学者周国梅教授和刘虎教授共同召集,汇聚心灵哲学、逻辑学、心理学、智能工程及产业界的专家学者,深度剖析人工智能(AI)与人类智能(HI)的本质差异,探讨人类认知研究在人工智能发展中的应用价值,探索人机协作的优化模式、人机融合社会的未来图景。

周国梅教授、刘虎教授作引言

01

人类智能

在中山大学心理学系代政嘉教授主持的“人类智能”主题研讨中,研究者们从实验心理学与神经科学视角审视了人类认知的独特性。

中山大学心理学系钱洁慧教授通过三维空间工作记忆的研究发现,人类智能在处理空间信息时展现出显著的特异性。她认为,物体间的空间关系、远近距离及可操作性均会影响信息的编码与表征,这提示了人类的信息加工机制由具身经验塑造,这一点可能与当前AI的信息处理逻辑存在差异。

中山大学心理学系岳珍珠教授则聚焦于跨通道视听整合的认知机制。她介绍,在单通道信息较弱时,多通道整合的神经元反应模式比单通道信息引发的效应更强,这一发现为理解人类感知系统的复杂性和适应性提供了新视角。

中山大学心理学系林盈教授以“以脑‘知’脑:脑科学与AI的双向赋能初探”为题,分享了脑科学与AI融合的前沿探索。报告围绕"AI for Brain"与"Brain for AI"两条主线展开:利用AI技术建模人脑结构-功能耦合关系,揭示人脑异质性通信机制;同时借助AI模型基于脑功能活动重建视觉图像,探索脑科学理论发现如何提升AI模型。该报告展现了脑科学与AI协同创新的广泛前景,引起了与会专家对这一领域的热烈探讨。

左右滑动查看第一场研讨现场

02

人类智能与人工智能

中山大学心理学系王琪教授主持的“人类智能与人工智能”主题研讨中,与会专家重点探讨了AI在医疗手术、智能驾驶及工业设计等领域的创新应用和落地实践。

中国科学院深圳先进技术研究院贾富仓研究员介绍了具身智能人机协同手术机器人的最新进展。报告了解剖结构、动态环境感知和增强现实导航对于提升手术安全性和精准性的临床验证效果,提出结合仿真数据强化学习和临床数据模拟学习提升机器人的自主性。

中山大学心理学系何子静副教授分享了自动驾驶混合交通中的人机交互研究。她认为,未来的自动驾驶不应仅追求工程效能,更应关注拟人化感知与动态博弈,通过适度让渡控制权来增强人类的心理接受度。

深圳人因工程技术研究院李海波院长从人因工程角度介绍了复杂作业系统人机交互的挑战。他强调,智能系统设计需充分考虑用户认知模型的预测价值,并展示了人因工程在核电应急仿真、数字化界面设计及海洋立体生态评估大模型中的应用前景。

中山大学心理学系罗思阳副教授则从文化组学视角切入,探讨了AI大模型的高维心理结构、道德价值观和文化价值观,及其在人机交互中的刻板印象与偏见,并通过交叉融合表征相似性建模、个体行为建模、社会演化建模,检验了未来导向、命运共同体等多种调控AI大模型交互行为的策略,解析了未来人-AI多智能体融合社会的演化趋势。

左右滑动查看第二场研讨现场

03

交流讨论

在自由讨论环节,香港中文大学哲学系张寄冀教授、香港中文大学政务与政策科学学院詹晶教授、香港大学哲学系王康予讲师、中山大学马克思主义学院李珍教授、中山大学逻辑与认知研究所文学锋教授、中山大学外国语学院徐翌茹教授,中山大学心理学系丁如一副教授、中山大学历史学系李智副教授、深圳大学心理学院黄丽芹助理教授等与会学者踊跃发言,围绕智能的能动性、情绪智能、心理健康、具身智能、群体智能、自我意识、政策制定等核心议题展开了深入探讨,分享了各自的前沿见解。

左右滑动查看交流讨论现场

04

总结

周国梅教授和刘虎教授在总结发言中表示,本次“人工智能与人类智能”学术沙龙取得了丰硕成果,成功搭建了横跨人文、社科、工程、产业等多领域的跨界交流平台,有效促进了哲学思辨、心理科学、工程技术与产业应用的深度对话与思想交融。同时,他们强调,人工智能的发展不应仅追求技术突破,更应注重人文关怀,期待未来能够持续举办此类活动,不断推动人工智能领域向着更具人性温度的方向演进,共同探索人机协同、和谐共生的未来发展路径。

研讨会合影留念

内容来源:中山大学人文社会科学研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

【光明日报】余来明 王玉珏|以文化遗产讲好中华文明故事

2026年4月17日 19:25

2026-04-17 19:25 美国

讲好文化遗产的中国故事,可以让世界更好了解中华文明几千年延续不辍的文化基因、精神系谱,提供给世界多样文明治理、文化发展的方案和模式,从而更好地书写中华文明未来的世界篇章。

👆👆👆点击蓝字 · 关注我们

图片

文化遗产是每一个民族在文明发展过程中留下的宝贵财富。纵观人类文明发展历程,无论文明存续抑或消失,通过传之于世的文化遗产,人们总能由此想象其在文明历史星空中所呈现的形态和图景。中华文明作为世界历史上“连续性文明”的典范,在五千多年的发展历程中,创造了辉煌灿烂的文明成果,为世界文明发展贡献了数量丰富的文化遗产。当下世界文明的发展正呈现多样化格局,中华文明作为其中重要一支,也在一定程度上面临着来自各方面的多重挑战。中华文明绵延不辍的历史表明,文明发展的未来不仅在于做到丰盈自身,树立具有主体性的文明意识,探索推动文明不断进步的动力和方向,还在于与世界诸文明在交流交往中相互借鉴、共同发展。文化遗产作为一种兼具历史性与当代性的文明记忆,为讲好五千多年中华文明故事提供了重要的文化载体和媒介。

文化遗产蕴含五千多年中华文明绵延生长的历史基因

中华文明有着五千多年的悠久历史,是人类历史上迄今为止唯一未曾断裂的文明形态。中华民族创造了辉煌的文明成就,留下了无数珍贵的历史文化遗产,并以之影响了周边地区和世界各地。其间无论是承载中华文明杰出创造的物质遗产,还是反映中华文明优秀特质的精神遗产,都形成于几千年中华文明的悠久历史进程当中,是凝结无数先辈心血和智慧的优秀文明实践成果。那些保存至今的文化遗产,是我们进入中华几千年活态历史的重要通道,其中蕴藏着中华文明绵延生长的历史基因和密码。遗产见证历史,是“传统的集合”,是现实世界与过去时代最紧密、最直接的联系。当我们近距离触摸、感知文化遗产,打开的是通向中华文明悠久历史、璀璨成就的广阔世界。

文化的发展、文明的进步需要源头活水。《周易》说:“穷则变,变则通,通则久。”此论不仅道出了世间万物的存续之道,同时也指出了人类文明的兴亡之道。人类历史上曾出现诸多伟大的文明形态,最后又大多消失在了历史长河中。唯有中华文明一直延续至今,其中一个重要特点就是能够吸收、容纳各不同形态文明的优秀基因,以为自身文明的发展提供永续动力。其中既有吸收外来文明以实现转化的容纳中外,也有得自于传承创新而生的古今转化。文化遗产作为各历史时期文化发展、文明演进的重要标识,是呈现五千多年中华文明发展成就的鲜活载体。文化遗产不只关乎中华文明的历史和过去,更与中华文明的现在和未来密切相关。保护、传承、利用好文化遗产,就是要立足几千年文明赓续的历史脉络,深入挖掘中华文明绵延不绝的基因密码,以大众可知可感的方式讲好中华民族几千年绵延发展的文明故事,发掘其中所蕴含的中国智慧和中国精神。

传承发展中华文明要落实在保护传承、活化利用文化遗产行动中

文化遗产是几千年中华文明发展给世界留下的宝贵财富,是中华民族向世界展现悠久文明历史的重要窗口。相较于世界其他诸文明,中华文明具有突出的连续性、创新性、统一性、包容性与和平性。这些特征不仅见于历史时期诸多观念、意识的表述,也具体呈现于各种物质、非物质的文化遗产当中。以往对于中华文明观念、意识层面的内容、特征分析较多,而对于如何将几千年中华文明的优秀基因外化于当代世界则实践较少。每一民族文明的延续,都建立在对自身文化的反思、总结、革新、完善的基础之上。当下随着数智时代的到来,技术变革正在不断推动文化的革新,也对弘扬传承中华文明提出了新的要求。文化遗产作为中华文明悠久历史的结晶,其保护传承、活化利用在数字化的时代趋势下也在不断重塑,面临着现代技术和古老文明之间的多重挑战与复杂的融合重生过程。

文化遗产作为一种活态的文化,承载的不仅是历史时期文明演进的记忆,也是民族性格、精神传承的重要载体。每一民族文明的传承、文化的发展,都是在原有文明脉络的基础上赓续变革而来。中华文明在几千年发展过程中,善于总结既往的文明成果并推陈出新,由此所凝定形成于不同时期的文化遗产,便不只是一种物质性或者精神性的遗存,还是反映中华民族伟大精神和智慧的历史结晶。如何让文物古迹、古老建筑、名城名镇、历史街区、传统村落、文化景观、非遗民俗等文化遗产在现代世界重新焕发生命力,让古老的中华文明焕发新的活力,是中华文明绵延发展所需要面临的重要课题。从此出发,文化遗产的保护传承、活化利用便不仅是文化资源的开发、利用或者产业化,还是要在中华文明不断前进的历程中,承担起弘扬中华文化价值、传承中华文明基因的重任。

文化遗产保护传承是中华文明参与世界文明对话、确立文明自主性的重要基础

当今世界正进入一个多元并存的时代,各不同文明之间既相互合作又相互竞争,诸不同形态文明的多样共存、互鉴对话、协同发展成为世界文明演进的大势。中华文明作为世界多元文明中的重要一支,在历史上曾长期居于领先地位,至近代遭遇巨大挫折。如今,中华民族伟大复兴势不可挡。在不断推进中国式现代化进程中,面对“世界百年未有之大变局”,中华文明、中华文化如何做到重塑辉煌,找准文明发展的坐标和方向尤为关键,其间不仅包含面向自身文化建设、文明发展的历史传承与创新转化,也包括应对参与世界文明对话、确立文明自主性的全球文明新观念。

文化遗产作为每一文明呈现于世界的具象表达,是各不同文明参与世界对话的重要基础。文化遗产的保护传承是人类文明发展留给这个世界的共同命题。从联合国教科文组织成立以来出台的各种文化遗产保护法律和规则,到各国规范文化遗产保护的相关法规,这都为文化遗产的保护传承提供了制度保障。这不仅是一种面向过去文明记忆的保存,也是一种面向未来文明图景的探索。基于文化遗产保护传承所呈现的世界文明多样性,可以为不同文明间相互尊重、交流对话提供重要媒介,这是消除世界各民族“误解的海洋”最重要的方式之一。中华文明走向世界的过程中,文化遗产成为展现悠久历史、深厚底蕴、丰富内涵、伟大精神的重要窗口。讲好文化遗产的中国故事,可以让世界更好了解中华文明几千年延续不辍的文化基因、精神系谱,提供给世界多样文明治理、文化发展的方案和模式,从而更好地书写中华文明未来的世界篇章。

(作者:余来明、王玉珏,分别系武汉大学中国传统文化研究中心教授;武汉大学文化遗产智能计算实验室教授)

本文来源:《光明日报》2026 年 4 月 11 日

图片

<<<END>>>

来源|武汉大学中国传统文化研究中心

阅读原文

跳转微信打开

Reminder: Date importanti AIUCD 2026

2026年4月18日 03:18

Si ricorda a tutti coloro che intendono partecipare ad AIUCD 2026 le seguenti scadenze improrogabili:

Autori

  • Iscrizione al Convegno: entro il 19 aprile 2026
  • Invio della versione camera ready: entro il 22 aprile 2026

Uditori

  • Iscrizione al Convegno: entro il 17 maggio 2026

L’iscrizione è obbligatoria per la pubblicazione del contributo negli atti e per la partecipazione come uditori.

L'articolo Reminder: Date importanti AIUCD 2026 proviene da AIUCD.

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026年4月18日 08:30

2026-04-18 08:30 湖北

本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的10篇论文进行介绍。

01

识读不可读文本:基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要:奥斯卡・王尔德曾言:“文学与新闻的区别在于,新闻不堪卒读,文学无人问津。” 遗憾的是,王尔德所处的 19 世纪数字化存档新闻文本,其光学字符识别(OCR)结果往往缺失或质量低劣,既降低了档案的可获取性,也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题,本研究采用预训练图像转文本语言模型 Pixtral 12B,对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》(NCSE)开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比,结果显示其字符错误率中位数仅为1%,较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果,具备高质量字符识别文本,并将文本划分为4个类别与17个主题,包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放,旨在助力历史学与社会学研究,让21世纪的读者得以足不出户识读这份“不可读文本”,共情王尔德对19世纪新闻水准的遗憾。

Abstract:Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图:边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框,重叠区域以深蓝色标注

Figure:Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

02

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要:剪纸艺术是中华传统文化中独具特色的非物质文化遗产,当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失,部分剪纸品类濒临消亡,其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值,结合Grab-Cut算法,实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理,提升图像质量;其次采用改进遗传算法优化后的Canny算子,提取剪纸纹样整体轮廓;随后设计Grab-Cut算法,针对性分割剪纸设计元素轮廓,并借助CDR软件处理矢量图像,生成独立可编辑矢量文件;最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明,本研究提出的方法可有效检测剪纸图像纹样真实边缘,完成轮廓提取,纹样各设计元素的像素分割精度达96%以上,为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract:As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图:剪纸图像平滑去噪处理 (a) 原始图像;(b) 增强后图像

Figure:Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

03

丈量东方之声:华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要:1978年改革开放以来,中国流行音乐产业高速发展,成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法,对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数,从静态与动态双维度揭示了歌词文本的高活跃度,佐证了其叙事性的文体本质。歌词情感分析结果显示,文本整体呈现积极基调,而2000年成为重要分水岭,前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明,不同时期歌词的主题分布模式呈现多元化特征,既体现了流行文化的普世性,也彰显了文化与时代语境塑造下的中国本土特质。

Abstract:Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图:潜在狄利克雷分配模型评估:一致性与困惑度对比

Figure:LDA model evaluation: Coherence vs. Perplexity.

04

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要:本研究选取三位代表性诗人,从词汇意象、时空解构、主题演变与情感表达四个维度,对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法,融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术,辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论:其一,两类诗歌均以自然与禅意为核心,共享相似的词汇与意象体系;其二,二者均体现永恒视角与历史意识的交织,以及宇宙宏大性与人世现实性的辩证关系;其三,主题演变层面,江南禅诗“自然与禅”的核心内核,在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架;其四,江南禅诗侧重超脱与空寂的审美表达,高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实,该方法可有效提升古典诗歌文本的中文分词精度,彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract:This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图:禅诗名词词云图 (a)雪窦重显;(b)杨杰;(c)义天

Figure:Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

05

近代早期英语的善恶语义空间:道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要:本文提出一种创新研究方法,通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》(EEBO-TCP)语料库,构建语义模型,梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法,设定善恶、女性-男性两大启发式坐标轴,将词汇映射至坐标轴中,挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标,揭示了概念与性别道德化宏观范式的适配规律。研究发现,多数词汇集中于“女性/邪恶”象限,而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数,可无监督挖掘文本潜在二元对立关系,识别塑造近代早期话语体系的文化维度,涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景:道德对立并非静态固化,而是相互重叠、动态流变;该模型打破了固定二元对立的认知框架,证实语言是构建与重塑文化价值的动态高维场域。

Abstract:This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图:核心词汇语义邻域图(左上:死亡;右上:戏剧;左下:牙买加;右下:信用)

Figure:The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

06

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要:汉字在东方文明发展进程中具有核心地位,其构形体系具备系统性特征,而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此,本研究基于复杂网络方法,探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边,构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络;通过17项通用网络指标量化分析网络特征,深入阐释汉字构形系统的内在属性。研究结果表明,相较于随机网络,汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征;这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性,分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract:Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图:真实网络与随机网络全局拓扑图(a、c、e:真实网络;b、d、f:随机网络)

Figure:Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

07

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要:当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象,探究大学生群体的审美反馈,聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法:其一,运用混合设计方差分析与语义差异量表,分析四大主题作品,通过因子分析与聚类分析提取审美潜在维度;其二,开展眼动实验,记录注视时长与注视次数,量化分析眼动指标与主观评分的相关性。研究结果表明:第一,园林主题灯彩画的喜爱度评分显著最高(P<0.001),主题与专业的交互效应不显著(P=0.094),说明不同专业群体的审美偏好具有一致性;第二,研究提取出情绪效价、形式审美、认知唤醒三大潜在维度,揭示了非遗审美的多层级体验结构;第三,潜在审美偏好与喜爱度呈极强正相关(r=0.94,P<0.01),而眼动注视指标与喜爱度无显著相关性(P=0.174;P=0.234)。研究证实,晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性,由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据,深化了对晚期Z世代非遗审美认知的理解,为非遗传承与美育推广提供理论支撑。

Abstract:There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图: 《黛玉葬花》眼动热力图

Figure: Daiyu Burying the Fallen Flowers eye-tracking heatmap.

08

从浪漫到现实:数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要:本研究探究2000-2025年华语流行歌词的词汇与主题演变,映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库,本研究填补这一空白,构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法,融合词频分析、可读性指标与BERTopic主题建模,追踪歌词词汇与主题的历时演变。研究发现,歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心;类符形符比显著提升,表明歌词词汇丰富度持续增长,文本复杂度呈波动变化,反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题,主题结构从自然与时间的抽象表达,逐步转向情感具象化与心理内省化书写;近年来,负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架,彰显了数字人文工具在大规模歌词分析中,描摹集体情感与文化变迁的核心价值。

Abstract:This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图:各项指标历年变化趋势

Figure:Trends of various metrics over the years.

09

解码人工智能话语:基于机器学习的中德语境媒体表征对比研究(2018-2023)

Decoding AI discourse: contrastive analysis of media representations in German and Chinese contexts (2018–23) using machine learning techniques

Kuanyong Qiu , Noah Bubenhofer , Timo Hackel

摘要:现有研究多聚焦单一语言媒体中的人工智能(AI)话语,缺乏跨文化语境的对比分析。本研究优化露丝・沃达克话语分析框架,结合前沿机器学习方法,分析 2018-2023 年中德两国媒体话语中的人工智能表征。研究发现,中德媒体均聚焦本土相关的人工智能议题:中国媒体频繁援引政治人物言论(尤以习近平主席为核心),采用视角建构策略,对人工智能始终持积极立场;德国媒体则侧重科技人物叙事,尤其在ChatGPT发布后,对人工智能持更为批判与审慎的态度。两国媒体话语的差异,源于本土语境塑造的差异化媒介文化体系:中国媒体隶属于政党体系,将人工智能定位为推动经济发展的国家战略核心,传递政府核心立场;德奥瑞三国媒体则呈现多元视角,高度关注人工智能的潜在风险。本研究为各国人工智能政策的解读与制定提供了重要参考依据。

Abstract:Previous studies have primarily focused on artificial intelligence (AI) discourse within specific language media, with limited contrastive analyses across different cultural contexts. This study analyzes the representation of AI in German and Chinese media discourses from 2018 to 2023, employing a modified version of Ruth Wodak’s discourse analysis framework alongside advanced machine learning methods. Our findings indicate that both German and Chinese media concentrate on AI issues pertinent to their regions. Chinese media adopt a perspective strategy by frequently quoting political figures, particularly President Xi Jinping, and consistently maintain a positive stance on AI. Conversely, German media, especially after the launch of ChatGPT, highlight high-tech figures and adopt a more critical and cautious approach toward AI. These differences in media discourses arise from distinct media cultural systems shaped by their respective contexts. In China, media outlets are party-affiliated and promote a narrative framing AI as a national strategic endeavor crucial for economic growth, reflecting governmental viewpoints. In contrast, media from Germany, Austria, and Switzerland present diverse perspectives on AI, expressing significant concerns about its potential risks. This study offers valuable insights for interpreting and formulating AI policies across different nations.

图: 2018-2023 年中国媒体人工智能语料库十大子主题历时变化

Figure:Top ten subtopics over time 2018–2023 in Chinese media AI-related corpus (Color version of the figure is available in the supplementary data).

10

文化分析与表征政治:埃及《箴言》杂志中犹太群体形象的呈现研究(1933-1953)

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要:本文融合文化分析与后殖民理论,探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法,识别并解读期刊档案中犹太形象的建构范式,揭示两次世界大战之间及战后初期,阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合,精准剖析文化生产机制,呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于,对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究:随着阿拉伯犹太人大规模撤离埃及,《箴言》中犹太形象的动态演变,折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分:第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中,阐释其成为阿拉伯现代性多元理念博弈平台的历史背景;第二部分结合远读与阐释性分析,梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存,更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合,为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract:This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图:《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译|洪冰凤

校对|罗斯鹏

排版|魏翔

阅读原文

跳转微信打开

文脉新生・数智赋能:“我用 AI 校古籍”(2026年)计划启动仪式圆满举行!

2026年4月17日 22:43

PKUDH 2026-04-17 22:43 北京

2026年4月11日,由全国高等院校古籍整理研究工作委员会主办,山东大学国际汉学研究中心、山东大学古籍文献研究所与字节跳动公益联合承办的2026年 “我用AI校古籍”——我是“校书官”古籍大众智能整理计划启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛在山东大学中心校区举办。该会议由字节跳动公益团队策划并筹办,聚焦“我用AI校古籍——我是‘校书官’古籍大众智能整理计划”活动的已有成果与经验,正式启动“我用AI校古籍”2026年度相关工作。共有来自北京大学、清华大学、复旦大学、山东大学等高校的学者代表,来自68所高校、76个承办高校的教师,以及抖音平台各类知识博主约100余人参加了本次启动仪式。山东大学副校长曹现强、全国高等院校古籍整理研究工作委员会秘书长卢伟、教育部语言文字应用管理司副司长王晖、抖音集团企业社会责任部产品与运营总经理罗海岳出席启动仪式并致辞。

北京大学数字人文研究中心与字节跳动公益联合打造的“识典古籍”平台,作为全球规模领先的古籍智能化整理与数字化阅读平台,是“我用 AI 校古籍”活动的依托平台。平台深度融合人工智能技术,构建起从古籍OCR技术、自动标点、实体识别到多版本智能校勘的全流程解决方案,彻底打破古籍整理的专业壁垒,让普通大众深度参与中华文脉传承成为现实。

2024年7月,由全国高等院校古籍整理研究工作委员会、北京大学数字人文研究中心、字节跳动公益联合国内多家古籍研究机构共同发起 “我用AI校古籍 —— 我是‘校书官’古籍大众智能整理计划”,依托识典古籍智能整理平台,广泛动员高校学生与社会公众参与古籍数字化整理工作。项目自启动以来,已经历经三期稳步迭代,参与规模与整理深度持续提升。截止2026年4月,已经累计完成2万余部古籍整理,其中粗校16亿字、精校1亿字;吸引4.2万余名参与者,覆盖全国1450余所高校,总曝光超30亿次,先后获人民网、新华社、《科技日报》等权威媒体报道,并通过20余位文化达人实现广泛传播。

2026年度的大众整理活动,将由国内68所高校,76个单位参与承办该项活动,承办高校主要负责动员与组织本校相关专业学生参与本项活动。活动时间为3月26日至11月30日,分春季、暑期、秋季三个阶段开展,重点围绕海外汉籍汇聚、典籍活化传播两大方向,持续以科技赋能、创新表达推动古籍走近大众。

在活动启动仪式上,山东大学副校长曹现强介绍了山东大学在古籍整理、全球汉籍合璧工程等方面的成果,表示山东大学将持续深化AI技术与古籍整理融合,助力中华文脉永续传承。全国高等院校古籍整理研究工作委员会秘书长卢伟回顾了 “我用AI校古籍” 前几期的活动成效,介绍了2026年活动开展的重点方向,并宣布优化招募机制,推动活动专业化、规模化发展。教育部语言文字应用管理司副司长王晖高度评价AI赋能古籍整理的创新价值,结合人工智能与教育行动计划,从守正创新、以文铸魂、数字赋能等方面提出期望,鼓励多方协同打造语言文化传承品牌,让青年成为古籍传承主力军。抖音集团企业社会责任部产品与运营总经理罗海岳分享识典古籍平台功能升级情况,说明2026年将深化与各承办高校的合作、支持学者项目研究、开展征文及创作者共创等古籍活化传播活动,持续以技术降低公众参与门槛,推动古籍实现活态传承。

山东大学副校长曹现强致辞

全国高等院校古籍整理研究工作委员会秘书长卢伟致辞

教育部语言文字应用管理司副司长王晖致辞

抖音集团企业社会责任部产品与运营总经理罗海岳致辞

左右滑动查看更多

“我用AI校古籍”活动开展以来,成千上万社会大众与高校青年积极参与其中。在启动仪式上,年届74岁高龄的常兰藻先生作为大众代表来到现场分享参与“我用AI校古籍”活动的体会,作为一名退休会计,退休后因为学习《资治通鉴》的有关知识,偶然发现识典古籍平台并开始利用AI校对古籍,4个月时间已经校对完19卷、近20万字古籍。看见自己名字出现在上架古籍中,老爷子感到无比骄傲。年仅21岁的山东大学大四学生王思彤则代表青年学子发声,分享自己立足在校参与项目、借助平台参与古籍整理的实践体验,分享了利用AI技术辅助古籍整理体会到的高效便捷与参与活动得到的成长锻炼。

优秀志愿者常兰藻先生发言

优秀志愿者山东大学王思彤同学发言

左右滑动查看更多

在论坛的主题报告环节,专家学者们围绕古籍整理、数字赋能、大众参与以及学科发展等多个维度分享前沿实践与深入思考。“我用AI校古籍”活动所整理的一部分重要的古籍资源,来自哈佛燕京图书馆等海外图书馆。北京大学中文系杨海峥教授介绍了如何在海外流传古籍馆藏目录基础上,利用人工智能技术,通过海量元数据提取与流传轨迹重建,构建起大规模古籍流传数据集的过程。

新时代大型古籍整理项目北大《儒藏》工程的全本编纂正在利用“识典古籍”整理平台展开编纂工作,2025年度已经在平台上线约50种经过精心校勘整理的古籍资源。北京大学《儒藏》编纂与研究中心李畅然教授分享《儒藏》数字化与识典古籍平台的实践经验,提出提升OCR技术准确率、完善标点符号等具体技术需求,希望平台功能更加贴合专业古籍整理的需求。

北京大学数字人文中心副主任杨浩副研究员指出历史上古籍整理多由官方与学术精英主导,存在专业门槛高、效率有限、难以普及的局限,以 “我用AI校古籍” 为代表的大众参与模式,让广大青年学子与普罗大众得以加入,既提升了整理效率,也实现了沉浸式的文化传承。活动通过多层级校勘体系兼顾普及性与学术严谨性,既保障了古籍整理质量、培育后备人才,也致力于构建开放共享的数字人文生态。

全国高校古籍整理委员会副秘书长吴国武教授肯定“我用AI校古籍”活动在古籍整理发展历程中具有重大历史价值,体现出AI 技术深度赋能、大众志愿广泛参与、古籍整理范式持续革新的新形态,并指出古籍传承展现出从精英小众走向大众普惠、走向国际传播的新趋势。

北京大学中文系古典文献教研室主任杨海峥教授主题报告

《古籍流传的大规模数据集构建》

北京大学《儒藏》编纂与研究中心李畅然教授主题报告

《两条腿走路——OCR与语义两模块的协同》

河南大学出版社总编辑、河南大学文学院孔令刚教授主题报告

《古籍数字化的双向赋能与协同共生》

抖音集团社会责任部古籍项目经理张明月主题报告

《科技助力古籍保护与传承》

北京大学数字人文中心副主任杨浩主题报告

《众手续文脉:智能时代古籍大众整理的价值与路径》

山东大学国际汉学研究中心主任刘心明教授主题报告

《文本化是古籍整理的大方向》

山东大学古典研究所所长王承略教授主题报告

《中国文化典籍的家底与古籍整理定本的意义》

全国高等院校古籍整理研究工作委员会副秘书长田国武教授总结报告

左右滑动查看更多

论坛的下午场,到场学者们分享借助识典古籍平台与已有的大众整理成果,展开的学术研究与资源应用。例如:复旦大学文史研究院段志强副研究员,基于平台上整理的古籍资源,深入解读古籍中所反映的古代基层社会与普通人生活;清华大学人文学院严程副教授,利用识典古籍平台建设专题文献库“女子艺文数据库”,开展女性文献等专项研究,分享了清代多位具有独特性格的女子的生动故事;清华大学人文学院唐宸副教授分享利用数字人文方法对李白与李璘谋反事件关系的新研究,特别展示了如何利用识典古籍平台深度研究助手补上部分关键史料的例证。学者们以文献解读、案例实证、数字化工具应用等形式,系统呈现研究进展与实践心得,既具备扎实史料价值,又为新时代古籍活化利用提供了现实案例。

复旦大学文史研究院副研究员段志强

《在古籍中发现普通人的生活》

清华大学人文学院副教授严程

《盘一盘自带爽感的清穿女》

北京体育大学人文学院副教授黄二宁

《跃然纸上——唐代文献中的体育世界与大众传播的可能性》

清华大学人文学院副教授唐宸

《数字化时代的古典文献挖掘——以字节跳动“识点古籍”为例》

山东大学全球汉籍合璧工程首席专家助理陈肖杉

《形制与传播——境外汉籍流播管窥》

左右滑动查看更多

在古籍活化方面,创作者们开始频繁利用平台整理成果为根基进行创作传播。例如:抖音专攻五代历史的知识博主杨利辉,在创作过程中经常利用识典古籍平台的资源与工具展开创作,原本他制作有多种检索小工具方便创作,在利用识典古籍平台之后,自用软件多已不再更新。自媒体博主Asu、艾斯利用平台的古籍资源中挖掘 “十二花神” 等文化意象进行年轻化表达,让严谨的古籍整理成果走向大众。创作者们从古籍创作方法论、知识自媒体运营、二次元年轻化表达、小众历史趣味科普等多个维度展开分享,集中展现了前期大众参与古籍整理所形成的高质量成果,为古籍活化创作提供了坚实内容支撑。论坛的最后,创作者们还围绕古籍如何实现通俗化表达、年轻化传播与跨圈层破圈进行深入交流与讨论,认为古籍活化必须坚守学术严谨,同时力求通俗易懂而不失文化底色。

创作者子非秋月

《裁取云间墨,化得千亿身——浅谈短视频创作对古籍素材的选取与运用》

文化搬运委员会

《学术叙事的生活化转向:科普自媒体的叙事策略与实践创新》

Asu、艾斯

《谁说古籍只能藏在书斋?我们把“十二花神”变成了全网爆款》

杨利辉

《一个小众赛道的自媒体博主独白:从我和<太平年>的故事说起》

左右滑动查看更多

整场论坛展现出从大众整理产出成果,到学者利用整理成果做研究,再到研究成果反哺平台与传播的一条完整闭环。可以说,从顶层支持到学术论证,再到成果应用与大众参与,古籍整理仅靠专业学者还不够,只有借助AI技术与大众力量,才能真正破解海量文献古籍数字化难题。正是基于这样的共识与实践基础,“我用 AI 校古籍——我是‘校书官’古籍大众智能整理计划” 才得以持续推进、不断升级,成为连接学界、平台与社会大众的重要文化工程。

回望“我用AI校古籍” 活动的发展历程,从理念萌发到模式探索,其源头实际上是出于一场巨大的现实挑战。2022年3月,北京大学数字人文中心与字节跳动公益合作,开始建设“识典古籍”阅读与整理平台,旨在人工智能与计算机技术的辅助下,变革古籍整理方式,在三年内完成万种古籍的整理工作。2022年10月,识典古籍阅读平台正式上线对外发布,但资源建设是亟须解决的瓶颈难题。2023年11月,北京大学数字人文中心接受哈佛大学燕京图书馆捐赠的近万种中国善本古籍数字化书影。根据捐赠协议,这批古籍扫描书影连同所识别点校后文字,需要全部发布在古籍数字化平台上。然而,利用OCR技术对古籍图像识别之后,还必须经过人工校对才能达到更高的准确率,才能更好地被学界与大众利用,然而专业整理力量有限,人力成本奇高。因此,北大数字人文研究中心王军教授提出,必须借助人工智能技术降低参与门槛,以众包模式发动社会大众参与古籍整理,用普通大众力量破解古籍数字化难题。

传统古籍整理依赖少数具备深厚学养的专家学者,需要丰富的专业知识,专业门槛很高。大众是否能够参与古籍整理这样高度专业的工作,得到很多专家的担忧。因此,在项目正式启动前,北京大学数字人文研究中心召开多次小范围的专家论证会。2024年6月,国家古籍保护中心、北京大学数字人文研究中心、抖音公益等多家机构联合举办了“智能时代古籍整理与大众传播”研讨会。此次研讨会汇集了来自国内各大高校、图书馆和出版社的七十余位专家学者。与会学者就智能信息环境下古籍整理与大众传播的机遇与挑战进行了深入交流。活动还得到“到梦空间”第二课堂平台的支持,符合条件的同学可获得实信网认证的电子版实践证书,成为活动成功举办的重要激励机制之一。2024年7月,在古委会主办下,在各方的大力支持下,“我是校书官古籍大众智能整理计划” 第一期正式启动。

为了让这一构想切实落地见效,为项目开展筑牢基石,北京大学数字人文研究中心联合字节跳动公益推出《古籍智能通识课》《识典古籍智能整理培训课》等系列课程,课程内容涵盖古籍书史、海外汉籍、古籍整理以及历史上的大型丛书等内容,还结合识典古籍智能整理平台,讲解从OCR文字识别到文字精校、结构整理、标点校对等多个环节的技术和方法,将文献学知识转化为实践体系,将人才培养与古籍整理实践相结合。

2024年7月活动首期试行,面向大学生开展OCR校对工作,共有742所高校、超2500名学生参与,取得远超预期的阶段性成果。2024年9-12月第二期同时开设大众组、进阶组任务,参与人数突破1万人,覆盖高校增至1210所,整理规模与参与广度大幅提升,并尝试探索古籍数字化与专业教学、人才培养相结合的新模式。2025年第三期在前期经验基础上进一步拓展范围与深度,联动含清华大学、武汉大学、中国人民大学、中山大学、四川大学等22所承办高校以及1450余所参与高校,构建起 “主办单位统筹+承办高校执行+社会力量参与” 的协同机制。

可以说,“我用AI校古籍”活动不仅是一次古籍整理的技术创新,更是一场面向全民的文化传承实践。项目正逐步构建开放、共享、协作的古籍整理新生态。未来将进一步带动全国高校学生与社会公众共同参与古籍数字化整理,推动中华典籍实现全民传承、活态传承,让古籍真正融入大众的日常生活与精神文化生活,助力中华优秀传统文化创造性转化与创新性发展。

阅读原文

跳转微信打开

Reconfiguring the Ideal Order: Ablation and Field Formation in the Twentieth-Century Nigerian Novel in English

What if the most structurally important books to a literary tradition aren't its most famous? This paper introduces a new computational method by which the critic can determine the texts that are foundational to the semantic architecture of a corpus.

Infrastructures of Listening: The ManoWhisper Podcast Analysis Pipeline

ManoWhisper is an end-to-end research pipeline for collecting, transcribing, and analyzing hateful and misogynistic podcast content, built to support peer-reviewed and policy-facing research on gender-based extremism. This paper argues the tool reframes harmful media as a site of feminist methodological inquiry, with implications for understanding how such content spreads across platforms and into AI training data
❌