普通视图

Received yesterday — 2026年6月11日学术机构(中国大陆)

论文 | 江荻 孟雯《从阿尔泰语系到泛欧亚语言:传统谱系分类与算法聚类》(扩展版本)

2026年6月10日 00:00

江荻、孟雯 2026-06-10 00:00 江苏

本文运用聚类实验开展语言对比,否定乌拉尔-阿尔泰、泛欧亚语言假说,并提出蒙-满语系存在的新观点。

作者简介

江荻,博士,中国社会科学院民族学与人类学研究所研究员,现任江苏师范大学语言科学与艺术学院教授,中国中文信息学会计算语言学专业委员会委员。工作领域为历史语言学、汉藏语言学、计算语言学。主要代表作有《最早的汉语——甲骨文之前的汉语样貌》《藏语词法和形态》《汉藏语言演化的历史音变模型——历史语言学的理论和方法探索》《藏语语音史研究》等。

孟雯,人民教育出版社博士后,副编审。主要研究方向为汉藏语言学、现代汉语语法、语文教育,发表学术论文十余篇。

推荐语

这篇论文发表在2026年第2期的《当代语言学》上,因篇幅问题,未能对其宏大背景展开论述。本文作为扩展版本,更为完整地论证了语言学界百年未解的核心争议:阿尔泰语系到底是否存在?

作者跳出传统语言学 "凭经验判断" 的局限,开创性地将生物学进化研究的量化方法引入语言分类,用数学计算客观衡量上百种语言的亲缘关系。通过严谨的对比实验,文章从数据层面有力挑战了 "乌拉尔 - 阿尔泰语系"" 泛欧亚语言 "等广为流传的假说,同时提出了" 蒙 - 满语系 " 的新可能。它不仅刷新了我们对欧亚语言演化的认知,更展示了跨学科量化方法在人文研究中的巨大潜力,为跨语言研究提供了极佳的方法论范例。

论文正文

原文链接:https://chinaxiv.org/abs/202604.00219V1

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

从《论语》到佛经:北大数字人文三篇论文入选 DH2026

2026年6月10日 18:00

PKUDH 2026-06-10 18:00 北京

近日,北京大学数字人文研究中心师生的三篇论文被数字人文领域国际会议 DH2026 录用。相关研究分别在中国佛教典籍、儒家经部与史部文献上展开,综合运用大语言模型、智能体、自然语言处理、GIS 等方法,对佛经译者风格、儒家经典互文关系以及中古佛教舍利与丧葬遗产的时空分布进行了探索。这些论文由北京大学数字人文研究中心博士生与宗教学、古典文献等不同学科背景的同学合作完成,体现了人工智能与传统人文学科深度融合的跨学科研究路径。

中心的研究版图已从传统经史文献进一步拓展至中国佛教典籍,形成了覆盖经典文本、历史文献与宗教文献的多元研究格局。相关工作表明,中心正持续推动人工智能技术进入中国思想史与经典文本研究的深层领域,探索以计算方法理解中华文明知识体系的新路径。

DH2026 是数字人文国际联盟(ADHO)第三十六届年度国际会议,将于 2026 年 7 月 27 日至 31 日在韩国大田会议中心举行,由韩国数字人文学会承办。DH 年会是国际数字人文领域规模最大、影响最广的学术会议之一。本届会议尤为关注生成式人工智能对人文研究的影响,鼓励在大语言模型与多模态技术背景下重新思考数字人文的研究方法与知识生产方式。

01

An Interpretable Stylometric Framework for Early Chinese Buddhist Translator Styles: A Case Study on the Attribution of Disputed Works of An Shigao

早期汉译佛经译者风格的可解释计量框架:以安世高存疑译经的归属判定为例

作者:潘娅婷、张馨月、王军

早期汉译佛经是中印文化交流的关键一环,但译者风格与译经归属考辨长期缺乏系统的量化方法。传统文献学依赖定性分析,深度模型难以适应低资源场景,也难提供文献学论证依据。本文提出一套领域专家参与的可解释计量框架,由专家定义并校验语言特征,从CBETA语料提取虚词、句式、句末字、句长分布与词性n元组五类特征,构建译者与译本的风格指纹。以东汉至西晋七位译者的三十一部可信译本为基准,经统计检验筛选出十项区分度最高的特征,刻画出从东汉的质朴口语到西晋的成熟书面语的汉化轨迹。

专家参与的汉译佛经可解释计量分析流程

本文进一步将这一框架应用于文献学研究的经典译者考辩问题,对安世高存疑译经进行归属判定。分析表明,《阿毗昙五法行经》(T1557)与《杂阿含经》(T101)可归入安世高名下,其余各部明显偏离,与文献学专家判断结果一致,并给出可追溯的语言特征,有效解决了汉译佛经的低资源挑战与可解释需求。

安世高存疑译经的归属判断可视化。可信译本(红色圆点)高度聚集(红色椭圆),存疑译本(黄色星号)中的两本落入可信译经的语言特征范围内。

02

Beyond Similarity: Bridging the Interpretability Gap in Intertextual Analysis with LLM-Driven Annotation — A Case Study of the Analects and the Book of Han

超越相似度:以大语言模型驱动的标注弥合互文分析的可解释性鸿沟——以《论语》与《汉书》个案研究为例

作者:王兆基、司宛玉、王军

互文性是理解思想传承与经典形成的关键。数字人文的互文检测已能在大规模语料中定位平行段落,却多停留于判断是否相关,难以揭示其功能与意图:一处高相似度引用,可能是理论认同,也可能是政策应用或批评对象。本文提出一套多维标注框架,把研究从检测推进到阐释。研究团队对《论语》二十篇和《汉书》约一百二十个文本单元做穷尽式两两比对,生成约两千四百项任务,由基于豆包Seed-1.6的智能体在人机协同流程中完成标注,得到四百六十四组有效互文对。框架涵盖复用形式、修辞功能、立场与证据强度等七个维度。

融合表层特征与深层阐释的七维互文标注框架及人机协同流程

研究发现,约37%的引用承担应用功能,把抽象伦理转化为行政实践,如将《论语》为政主张落实为减免赋税等政策。约60%的引用未标明出处,说明《汉书》成书时《论语》话语已内化为知识阶层共识,这种隐而不彰的引用反而透露出更深的思想权威。引用密度显示,列传最高,远超其文本占比,印证汉代正统观念主要通过官员士人的实践,而非自上而下的诏令确立。

03

Quantifying the Institutional Localization of Buddhism: GIS Analysis of Buddhist Funerary Practices and Relic Veneration in Medieval China

量化佛教的本土制度化:中古中国佛教丧葬与舍利供养实践的GIS分析

作者:潘娅婷、侯星如、王军

丧葬与舍利仪式是佛教信仰的重要物质表达,其时空演变折射出佛教在中国的本土化进程。以往佛教遗产的GIS研究多关注寺院、石窟,对丧葬与舍利着墨不多。本文提出一套本体知识引导、大语言模型信息抽取的GIS分析框架,重建中古佛教丧葬与舍利实践的时空图景。参照相关学术成果构建本体,用GPT-5.1从高僧传记与金石文献抽取丧葬形制、舍利内容与形态及时空信息,经专家抽样校验,得到近三百条记录。

GIS可视化揭示两条主线。时间上,佛教丧葬与舍利活动于隋唐臻于鼎盛,与佛教物质文化高峰同步。空间上呈现鲜明的核心边缘格局,陕西长安既是政治中心也是宗教核心,过半遗存集中于此,河南洛阳同样密集,浙江发展为南方据点。形制上,早期以林葬、石室葬为主,隋唐塔葬与土葬渐次普及,佛教由此完成从外来信仰到国家认可宗教的制度化转型。

佛教丧葬实践(蓝)与舍利供养(绿)在六个历史时期的部分省域空间分布

结语

三篇论文展现中心在古典文化计算分析上的多元路径。研究者既以大语言模型、智能体等技术处理大规模文本,也把领域专家与人文阐释置于核心,让结果回到可解释、可追溯的人文论证,为中国数字人文在古典文化与人工智能融合上的探索提供了范例。期待这些工作在韩国大田与同行展开更深入的交流。

阅读原文

跳转微信打开

Received before yesterday学术机构(中国大陆)

会议预告 | 智识与想象:人工智能时代的数字人文——2026 年数字人文全球华人博士生论坛

2026年6月9日 15:37

2026-06-09 15:37 湖北

武汉大学文化遗产智能计算实验室举办 2026 年数字人文全球华人博士生论坛。以 “智识与想象:人工智能时代的数字人文 ”为主题,聚焦 AI 技术如何重塑人文研究方法论与想象力,探讨数智实践中的创新路径、面向文化场景的设计策略, 以及技术变革中的人文回应

👆👆👆点击蓝字 · 关注我们

论坛主题

在人工智能技术迅猛演进、数智基础设施日益完善的当下,数字人文研究正迎来方法、视角与实践模式的多重变革。以智能计算、数据驱动与设计思维为代表的新的研究路径, 正在为人文学科带来前所未有的可能。 为持续推动全球华人博士生在数字人文领域的深度交流与协同创新,武汉大学文化遗产智能计算实验室举办 2026 年数字人文全球华人博士生论坛。本届论坛以 “智识与想象:人工智能时代的数字人文 ”为主题,聚焦 AI 技术如何重塑人文研究的方法论与想象力,探讨数智实践中的创新路径、面向文化场景的设计策略, 以及技术变革中的人文回应 , 旨在搭建一个跨越学科边界与思维范式的交流平台,激发更具开放性与批判性的数字人文学术实践。

时间与地点

时间:2026 年 6 月 13 日(北京时间)

地点:线上腾讯会议 248 668 820

日程安排

主办单位

武汉大学文化遗产智能计算实验室(教育部哲学社会科学实验室)

武汉大学数字人文研究中心

协办单位

武汉大学信息管理学院

武汉大学大数据研究院

编辑 | 文化遗产智能计算实验室

审校 | 刘争

           武汉大学人文社科楼       

阅读原文

跳转微信打开

国际知名学者来实验室访问交流

2026年6月8日 21:38

2026-06-08 21:38 湖北

6 月 7 日上午,德国波恩大学政治学与国际关系学终身讲座教授、全球研究中心主任辜学武,英国伦敦大学学院(UCL)研究政策学教授、RoR 主任 James Wilsdon 等人一行来实验室访问交流。

👆👆👆点击蓝字 · 关注我们

6 月 7 日上午,德国波恩大学政治学与国际关系学终身讲座教授、全球研究中心主任辜学武,英国伦敦大学学院(UCL)研究政策学教授、RoR 主任 James Wilsdon,美国伊利诺伊大学厄巴纳-香槟分校(UIUC)信息科学学院教授 Allen Renear,韩国成均馆大学全球事务杰出教授、美国华盛顿大学信息学院客座教授 DCMI 执行主席 Sam Oh 一行来实验室访问交流。武汉大学信息管理学院院长、实验室主任王晓光教授陪同。

在文化遗产数字演绎剧场,来访嘉宾观摩了“海外博物馆里的中国”数字交互平台,沉浸式体验了箭扣长城高精度三维建模、敦煌莫高窟 VR 虚拟空间,了解了长江文明时空信息平台、壁画图像计算与数字叙事、古籍智能编校系统等最新科研项目进展,对实验室在文化遗产智慧数据交互、文物图像智能计算、大场景数字孪生等方面所取得的成果表示高度赞赏。

随后,嘉宾一行参观了具身认知与体验测量实验空间、智慧决策与创新空间、全自动无人机场,对实验室在前沿交叉领域的工作表示浓厚的兴趣,并与实验室成员展开深入交流。

辜学武教授指出,跨学科范式为文化遗产的研究与保护提供了全新路径,也为文化国际传播与文明交流互鉴发挥了积极作用;James Wilsdon 教授充分肯定了实验室在文化遗产智慧数据建设与政策研究层面的探索,希望未来能在数字人文研究方法论与国际评估体系方面开展合作;Allen Renear 教授就古籍数字化、语义出版等技术议题进行了深入研讨,对实验室在知识组织与数字人文理论方法上的创新表示高度认可,并期待在数字学术基础设施建设方面互通有无;Oh Sam Gyun 教授则期待携手推动数字人文的全球化发展,共同守护人类文明的数字记忆。

王晓光教授表示,实验室将继续秉承开放共享的学术理念,深入推进文化遗产的数字化保护与活化利用,为全球学者搭建更广阔的学术交流与合作平台,为推动世界文明的交流互鉴贡献智慧和力量。

本次活动进一步拓展了实验室的国际学术网络,为深化与德、英、美、韩等国知名机构在数字人文与文化遗产保护领域的合作交流奠定了坚实基础。

(图文:景灿涛,姚蕴轩;编辑排版:刘天畅)

编辑 | 文化遗产智能计算实验室

审校 | 刘争

           武汉大学人文社科楼       

阅读原文

跳转微信打开

王璐璐|述结式的事件结构与情状语义分析

2026年6月9日 00:00

徐惠 2026-06-09 00:00 江苏

该文剖析述结式语义差异,探究其事件结构、情状语义及语用成因。

转载自“语言学札记簿”

述结式的事件结构与情状语义分析

王璐璐

《汉语学报》 2026年第2期

 关键词:述结式;事件结构;情状类型;蕴涵;意愿

图片

图片

提要

       为了厘清述结式表示实现还是偏离的语义差异,本文在事件语义学的框架下分析述结式的事件结构和情状语义,说明了词汇语义与构式语义在述结式中的互动关系,并揭示出造成语义差异的语用动因。文章首先根据子事件之间是否具有蕴涵关系和使役关系归纳出四种事件语义类型。蕴涵关系由词汇语义决定,使役关系由构式语义决定,二者在句法上表现为不同的搭配限制,以及上下文中的事件概率。而说话人对事件概率的主观评价是造成语义差异的语用动因。常规语境下,预期由词汇语义的蕴涵关系决定,话主意愿和话者意愿同一时为实现义,不同一时为偏离义。特殊语境下,预期由说话人的主观评价决定,句子的表达是有标记的,要求话主意愿和话者意愿是同一的。

图片

图片

论文全文

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

注:本文原载于《汉语学报》2026年第2期。

今日责编:双玉酝

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

人工智能介入电影批评的路径:“非人” 读解、算法幻觉与平台导向

2026年6月9日 10:06

原创 宋伟 2026-06-09 10:06 北京

人工智能;电影批评;“非人”读解;幻觉;平台

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:宋伟.人工智能介入电影批评的路径:“非人” 读解、算法幻觉与平台导向[J].数字人文研究,2025,5(4):118-128.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

人工智能介入电影批评的路径:

“非人” 读解、算法幻觉与平台导向

宋 伟

摘要:在以人工智能为引领的文化生产时代,大数据与算法逻辑已深度嵌入电影批评的生产肌理。在此进程中,计量电影学框架下的“AI远读”实践以及依托算法模型展开的计算机理解和批评内容生成,实质上并未构建起“观影—阐释—批评”的完整批评链路,反而呈现出去审美化、去体验化的“意义空场”式拟合。与此同时,平台导向下依托概率统计的大众均值化意见聚合与推荐,表面上构筑了类批评形态的服务性反馈机制并生成批评效能,其本质为算法预设规则支配下的同质化意见再生产。人工智能视域下的电影批评转型并非变革性的范式重构,而是通过路径性的介入,在观看、阐释与传播等层面生成异质力量,由此对既有批评范式形成多维度的渗入、牵引与结构性限缩。

关键词:人工智能;电影批评;“非人”读解;幻觉;平台

作者简介:宋伟,重庆移通学院电影评论中心助教,

Email:Waynesong123@163.com。

0  引言

在互联网与人工智能技术的深度赋能下,文艺评论话语体系的生态场域正历经着系统性重构。电影批评也正处于媒介技术驱动的语境嬗变与范式转型阶段,其传播渠道、参与主体及批评路径正处于非稳态演化进程中。如果说20世纪伴随电影形态不断更新的电影批评局限于特定理论框架和意识形态立场,在结构主义、精神分析理论及马克思主义意识形态批判等学术范式影响下形成封闭化阐释体系,呈现出文本中心主义的特征,那么20世纪后半叶的电影批评则以多元视角将电影置于更广阔的社会、文化、历史和技术背景中进行分析。进入21世纪,电影批评因“媒体化场域”拓展和位移分化了其主体力量、话语行为和占位关系,而“囿于学术圈层、主体交流踌躇于新旧媒介之间的尴尬境地”。近年来Chat-GPT、DeepSeek等人工智能(以下简称AI)工具的发展,则进一步使电影批评走向人机共生协作模式下的“融合量化分析范式”。

传统电影批评实质上是基于直觉与情感艺术想象力和知识生产,直至21世纪大数据和数字技术为电影批评的数据化、算法化评价体系发展带来新的可能;而如今的电影批评,则旨在通过文化语境与技术场域的共时性对话构建多维阐释矩阵,借由不同批评范式的互文共振实现对电影文本及其文化效应的立体认知。因此,AI介入下的电影批评路径并非由若干步骤构成的线性系统型批评框架,而是基于多元理论视角的交织互文与跨学科方法论的动态耦合。如图1所示,电影批评在实际操作中通常以“文本细读与现象描述”“阐释学分析与意义建构”“价值研判与情感分析”“历史化与理论定位”这几个关键步骤与路径,形成相互渗透、循环往复式的动态路径分析机制。该图也显示出,无论是电影的文本细读与数据化、算法化“远读”交叉,还是基于大语言模型(LLM)的生成式人工智能(AIGC)所营造的“信息拟真”幻象,以及情感分析中的“算法偏见”困境,AI技术的介入绝非突变式地颠覆重构批评生态,而是通过数据模型对传统批评范式进行渐进式侵蚀,在算法推荐机制与人类审美判断的博弈中酝酿着批评理论与实践路径的深层变革潜能。也即,尽管AI技术支持下的电影批评面临“人文本位”让渡与“权力结构去中心化”的重大转向,但基于数字化的电影批评路径迄今仍未实现方法论范式的结构性跃迁。AI对电影批评的影响仍停留在工具理性层面的增量式优化,而非认知范式与理论框架的结构性颠覆。

因而,本文无意于“AI如何重构电影批评生态”的宏大命题追问,仅从技术赋能与理论困境的维度聚焦“AI给电影批评带来什么”,诘问人工智能介入电影批评路径引发的系列挑战与机遇,揭示AI作为新型批评工具在方法论革新与价值体系震荡中的复杂图景,进而为数字时代电影批评理论与实践的发展提供思辨性参照。

图1 AI介入下的电影批评路径

1  “非人”读解:

技术规律的“在场性” vs. 艺术创新的“本体性”

电影计量方法本质上是基于量化分析范式对电影文本展开的非人类主体的数据驱动型阐释。计量电影学(Cinemetrics)可追溯至1974年由英国学者巴瑞·索特(Barry Salt)发表的《统计方法与导演风格研究》(“Statistical Style Analysis of Motion Pictures”)一文,旨在以量化分析开辟电影研究的新路径,革新传统电影批评范式。随后,巴瑞·索特于1983年出版的《电影风格与技术:历史及其分析》(Film Style and Technology:History and Analysis)以及于2006年出版的《走进电影:电影史、风格及其分析》(Moving into Pictures:More on Film History,Style,and Analysis)两本专著,均主张通过电影形式元素的量化研究来揭示电影的风格和规律。其在电影批评方法上的创新与贡献在于选择电影镜头长度和摄影机运动方式作为主要考察变量,基于统计学的数据分析方法发现电影形式中各变量的特征及内在联系,最终指向电影形式风格与导演、时代、国别等要素的关联。

尽管巴瑞·索特所提出的实证主义分析路径在计量电影学初创时期主要依赖人工操作完成影像数据的提取与测量,但其观测逻辑已实质性突破常规观影的感性体验与叙事沉浸框架,转向以指标化记录、结构化拆解为核心的理性化观测范式。芝加哥大学电影史学家尤里·齐维安(Yuri Tsivian)及计算机专家格内斯·赛维扬(Gunars Civyans)在2005年联合研发出兼具数据萃取功能和数据统计分析功能的统计软件Cinemetrics,标志着电影文本分析正式迈入数据驱动的科学化研究阶段。而其基于计算机软件的“非人读解”将镜头时长、剪辑频率、色彩饱和度等视听元素转化为可计算的量化数据,客观上进一步导致“具身认知”(Embodied Cognition)维度的感知经验悬置,在读解的主体问题上区别于传统人文主义的“细读”范式。

关于电影文本的“非人读解”问题,学者薄一航遵循数字人文方法及计算思维提出“计算机如何‘观’影”的可行性追问,基于电影语言及电影结构两种途径,从色彩分析、镜头及转场检测、镜头运动分析、景别与姿势分析、视觉中心检测、美学与情感分析、内容识别与理解等多维度的远读实践提出“分而治之”的读解路径。电影学者李道新2020年提出“基于中国电影知识图谱”的技术主义研究路径,并践行推动更大规模数据智库建设,于2022年启动建设开发中国电影知识体系平台(Chinese Cinema Knowledge System,CCKS)。截至2025年7月,CCKS除收录影人年谱、影视档案、学术资料、经典影片等内容之外,还含纳电影拉片工具Cinenmetrics及电影可视化工具pyCinemetrics等电影计量工具,在概念框架及实践路径上初步形成“数据存储—机器分析—知识生成”的完整生态链。

AI技术的飞速迭代使得数字化电影批评历经统计研究和计算批评,进入以算法批评为主导的“AI远读”阶段,其本质上是以算法驱动的大规模文本特征提取与模式识别为核心路径展开的“超人类”记忆与释读。同文学文本的远读实践逻辑一致,电影文本的“AI远读”应当是人文与计算、数据相融,基于机器计算与算法模型的研究,其路径是通过对文本内/外部的海量信息勘察与复杂模型的运算推演回应“电影是什么”这一核心命题。前述CCKS正从“大数据驱动”向“AI驱动”升级,基于数字人文方法及跨媒介、跨学科视野建立“自主性”知识体系,进一步探索知识生成、智能感知、数字生命等多维度方法论融合与动态系统设计。

“AI远读”运作机制建立在对大规模影像样本的统计结构及其关系网络的构建之上,能够揭示影像在色彩、镜头、剪辑等层面的宏观规律,推动了电影本体与影像机制的重构性研究。但是,“AI远读”所依赖的“可计算对象”决定了其在批评与阐释中必然产生方法论缺陷。算法只能处理影像的可量化维度,无法进入镜头内部的语义潜流、文化语境与审美经验,因而难以替代以观看、感知与主体性为前提的传统电影批评实践。换言之,“AI远读”强化的是电影研究的模型化维度,却削弱了面对具体电影文本时所必需的内部意义生成与情境化解释能力。

就当前阶段而言,“AI驱动”的远读实践所面临的前提性困境,主要呈现为两个维度。第一,在技术路径实现上,相较于以自然语言处理(NLP)技术为支撑,形成相对成熟的单模态符号解析路径的文学远读,电影的表意基于超大量抽象影像、声音、文字及剪辑元素,其远读实践需在NLP的基础上整合计算机视觉(Computer Vision)、计算机听觉(Computer Audition)技术,这一过程不仅涉及跨模态信息的对齐与映射,更需解决不同媒介符号的语义适配问题,技术实现难度显著高于单模态文本解析。第二,在艺术审美感知问题上,观影行为本质上包含观众对影像文本的感官体验、情感共鸣及格式塔认知。这类多维度、非结构化的审美感知具有强烈的主体性与情境性,其内在机制既包含个体经验的隐性投射,又涉及审美直觉的非逻辑性跃迁,难以被AI系统通过算法模型进行精准模拟与量化转化,形成技术赋能过程中难以逾越的认知壁垒。

尽管“AI远读”因多模态技术整合的复杂性与审美感知量化的不可通约性尚未形成系统性批评实践,但AI技术对观看方式的重塑与主体内涵的拓展,已在挑战传统审美批评的范式边界,也倒逼对“审美何以在场”的重新追问。其中审美层面的技术性参与不仅是技术逻辑对批评工具的功能性替代,也是主体阐释权从人文单一主导向技术协同参与的结构性转移,构成数字时代批评主体问题的深层推演。

首先,AI介入的电影文本“非人读解”过程在主体、时间与空间上区别于传统人文主义的“细读”。以算法系统为核心运算主体,依托数据驱动的模型逻辑展开非主体性的自动化处理在时间维度上呈现为即时性、规模化的批量解析,一方面满足对海量文本进行同步特征提取与模式匹配,另一方面将时间压缩为可测量单元,忽略电影作为时间艺术的历时性体验及情感累积。尽管AI的“非人读解”能够在空间维度上指向文本内外部多模态信息的宏观整合与跨域映射,也能够基于固定算法模型精准量化电影空间的物理属性与形式特征,消解人类阐释的主观偏差,保障结果的可重复性与可比性。但同时也会导致电影空间脱离“叙境”(Diegetic)与现实文化语境,被简化为坐标与特征向量,剥离了空间作为叙事载体的人文性张力与审美纵深。进一步而言,AI的技术理性要求将艺术现象转化为可编码变量,这必然导致其剥离不可量化的创新内核,实质是以技术规律的“在场性”遮蔽了艺术创新的“本体性”。其次,AI视域下电影批评的主体问题始终围绕“谁在阐释”的核心命题。电影批评在AI介入语境下呈现出审美动作缺失或“非人读解”侵占的现象实质上是观看范式从人类主体性体验向算法化“识别”迭代的延展,亦是批评主体权从人文阐释向技术逻辑嬗变的深化。虽然计算机的“非人读解”无法等同于人类兼具“共情”体验与格式塔机制的观看行为已是学界共识,但AI“非人读解”介入电影批评路径必然对人类阐释话语形成结构性影响。传统批评以人类主体的认知经验与价值判断为根基,审美阐释是主体能动性的集中体现,而AI“去体验”的客观化识别既弱化了人类主体的审美主导权,同时将批评主体的内涵拓展至“人机协同”的复杂形态。

2  算法幻觉:

高度仿真“生成” vs. 意义空场与本体危机

文本读解作为电影批评的前置性认知环节,构成其展开的逻辑起点,而对电影文本的分析、阐释以及对其意义生成机制的剖析则构成电影批评的核心旨归与价值内核。作为对电影作品阐释性分析文章的两种代称,“电影批评”(Film Criticism)与“电影评论”(Film Review)在概念范畴上存在重叠与交替之处,国内学界尚无明确界分与厘定。但在阐述方式及内容侧重上,“电影批评”较之“电影评论”更加侧重通过理论分析对电影进行总体性学术判断,以确定电影及其创作者的艺术价值与社会意义。同时,电影批评对影片的分析更关注其美学、史学、社会学、心理学、人类学以及意识形态意义,其核心构成在于对电影文本的美学剖判与文化阐释。这种特性决定了电影批评无法被简化为固定指标的机械叠加,因而AI基于“语料数据概率推算和权重分配”的人类知识调用无法承载这一核心要求,仅是对预设数据模式的匹配与输出。由此生成的“AI 影评”在文本形态与意义层面对常规人类影评形成高度仿真,通过算法生成的符号组合以近似真实人类批评的形态掩盖了“‘真’与‘假’、‘真实’与‘想象’之间的差异”,用有关真实的符号代替了真实,实质上与任何真实都没有联系。但不可以避免的是,基于“形式”与“意义”二者界限不可区分的“仿真”直接导致批评文本系统与评价信息场域中出现“超真实”(hyperreality)的意义机制,嵌入既有评价体系,形成对批评文本真实性的隐性解构。

与一般自然语言生成中常见的“语义漂浮”或“逻辑空转”不同,AI 介入电影批评所造成的“意义空场”在其深层的影响上,体现为对电影批评核心机制与主体结构的系统性削弱。第一,电影批评作为“一个进步的世界观的所有者和实际制作过程理解者”,需要批评者引导电影文本与观众完成“相互创造”的交互反应,因而无论是“AI驱动”抑或“AI介入”的电影批评,AI作为“批评者自身的基础与态度,是该严肃地讨论的”[15]12。如前文所论,当前计算机的“观影”行为尚未形成完备且具共时性的系统性实践形态,AI对电影的批评实践实质上始于对电影相关数据的“理解”,而非指向对电影本体的“观看”。电影批评的主体性来源于观看者基于感知经验、文化记忆与价值判断的观看、感知行为本身,而 AI 生成的批评文本以概率结构替代主体立场,这一转换不仅削弱批评内容的准度,更在方法论层面抹除了批评者的理论选择与文化判断,使批评行为失去其应有的规范性基础与责任伦理。第二,当下AI电影批评的核心逻辑是自然语言模型(NLM)通过大规模语料学习语言符号的概率性共现,本质上是由NLM驱动的自然语言处理对既有知识的复读与拟合,只能在训练语料的意义边界内进行组合与匹配,无法突破既有话语框架生成新的阐释维度。这意味着现阶段AI电影批评的“写作”过程本质上是对相关高频语言的统计拟合,而非通过理论框架与生命经验对电影文本进行的语境化注释、解剖与重述。由此,本应呈现镜头逻辑、视听策略与形式动机的批评维度被压缩为若干高度抽象的情绪或主题标签,“电影语言的语法”这一批评的核心对象在文本中被整体性悬置。第三,就技术路径及生成过程来看,一方面“意义生成缺失”消解了作为批评者链接电影文本与社会语境、创作者意图及观众体验的桥梁,“阐释”本身也无从附着。进一步而言,AI电影批评文本的拟真形式以“意义空场”为其内核,这种“形式拟真—意义空场”的悖论结构直接导致其在批评功能维度发生实质性失效,难以激活文本与观众间的意义交互,更无力完成对电影艺术价值与社会意义的深度解码质言之,AI 在电影批评中造成的“意义空场”并非通常意义上的内容缺失,而是对批评对象的错位、对批评方法的异质替换以及对批评主体的结构性抹除,AI 电影批评文本的“拟合性”存在,以其对批评本体意义的隐性否定为内核,最终造成电影批评在阐释功能、引导功能与价值判断功能上的整体性无能。

AI对电影文本“理解”路径的另一重风险则是基于数据来源、时效及其可靠性的“AI幻觉”危机。算法在处理电影文本时可能生成与文本实际意义、语境逻辑相悖却看似自洽的“理解”幻觉,这种利用人类认知偏差诱导错误信息的“欺骗性人工智能”(Deceptive AI)所产生的“幻觉”会进一步引导观众对电影文本深层意义的“误读”,电影文本的人文价值与社会意涵在这一过程中被持续遮蔽与异化。从Vectara平台于2025年7月31日公布的修斯幻觉评估模型(Hughes Hallucination Evaluation Model,HHEM)排行榜的相关数据来看,尽管谷歌(Google)、OpenAI等头部厂商在幻觉抑制上依赖高质量训练数据及对齐技术相对稳定,但即使是低幻觉率前列的Gemini-2.0-flash-001模型平均每143次生成就会有一次幻觉,而Falcon-7b-instruct平均每3次生成就会出现一次幻觉;虽然Gemini 2.0、GPT-4o、Qwen3-14B等通用模型幻觉率普遍低于3%,但Gemma-1.1、Llama-3.2-1B等轻量化模型幻觉率普遍较高,多模态模型则整体呈现出显著的波动性与高离散度。

AI的“幻觉时刻”之因不外乎其概率性生成逻辑、推理黑箱特性及拟真表征缺陷,AI介入的电影批评产出经由其“幻觉”形式对批评实践的真实性、方向性及交互性形成系统性冲击。这种技术的“幻觉”对批评话语的系统性嵌入,不仅影响或制约了电影批评作为文化反思的功能并形成基于“生成”的类批评反馈逻辑,其过程还本质上消解海德格尔意义上“解蔽”(aletheia)现实的功能,更导致电影批评剥离了电影原初的个体性观影体验,加剧了其在萨特存在主义语境中“存在与显像”的本体论割裂。由于人们面对技术往往忽略追问其本质而只在乎其使用效能,使得“技术的结构、过程和变化进入人类意识、社会及政治的那些结构、过程和变化之中,成为它们的一部分”,电影批评的话语体系乃至整个批评话语体系便被异化为一种“可被捕捉、计算、操控的符号体系”。这背后的担心在于当“AI幻觉”汇入递归计算时,信息生态系统的污染及“错误正反馈”等问题可能进一步致使信息在“多层级、多维度中被持续放大”。AI“读解”的非人特征与“生成”的幻觉风险走向文本与理解的割席,以及话语与价值的错位,迎来一个对应于居伊·德波的“景观社会”(the society of the spectacle)的“奇幻社会”(the society of the fantasy)。这种异化不仅构成电影及其批评实践的本体性危机,使其脱离对艺术本质的追问与对现实的批判性映照,更辐射至艺术生态的自主性、文化肌理的独特性、日常生活的本真性与社会信任的根基。

3  平台导向:

智能推荐 vs. 批评失语

AI对电影批评路径的“嵌入”所带来的负面影响也并非全部归咎于技术研发过程及内部潜在的不确定性因素。正如兰登·温纳(Langdon Winner)对“技术决定论”的进一步检视与延展论述,其将技术变革力量释放背景下的控制孱弱状态定义为“技术漂迁”(Technological Drift),认为这一过程中难以预见的潜在“非故意后果”往往涉及人类有意识的期望和选择。如果说20世纪的媒体是“生产内容的工厂”,那么主宰着当下媒体的互联网则以平台的搭建来“建立连通性、收集和处理数据,以及组织注意力”,其颠覆性在于通过平台收集用户数据并将之用于优化内容生成和分配。在这一逻辑框架下,平台本身构成了一个“基本的传播型构”,创作者、用户等行动者在“平台预设的主题框架与规则体系”中展开实践。实质上,基于数字化媒体时代变革这一背景,互联网平台取代纸媒作为文艺批评内容的载体与分发者即是有意识的“批评民主化”期待与选择。因此,“作为媒介的平台”既包含着人与信息关系连接机制的更新迭代,同时AI介入的平台搭建及运转也收集并推动着“用户使用内容的动机及方式”,使其用户从单向内容接收者转型为“具备数据价值的隐性生产者”。不难发现,在“平台导向”的电影批评实践中,个体感性偏好已替代传统批评框架中的价值审美维度,成为批评实践的逻辑起点。这种表面上的多元主体参与景观,实质上是平台算法推荐机制主导下批评权从菁英社群向大众群体的“假性分化”,其并非“百家争鸣”式的多元话语共生格局,而是算法预设规则下的同质化意见再生产。这一过程必然导致批评维度的扁平化及批评场域的窄化,沦为算法中庸化规训与服务化逻辑宰制下的“批评失语”,批评体系退化为“去批评性”的喜好/厌恶二元判断。

在将电影批评视作一种文化生产实践的理论视野下,尽管用户生成内容在AI的助力下展现出强劲的发展势能,但“数字化变革并不会与过去的历史发生断裂”,电影批评的撰写同电影、游戏或其他文艺作品的创作一样仍需依托深厚的专业积淀、持续性的学理深耕与主体性的生命体验。由于“文化生产的平台化”(the platformization of cultural production)的影响或“升级”并非仅限于用户与读者,受其治理框架约束最多的实际上仍是“文化生产者”(cultural producer)或“文化生产”(cultural production)本身。当然这并不意味着AI介入的平台生态未曾对任何“文化生产者”的创作、批评实践构成影响,而真正需要深入辨析与厘清的核心命题在于,平台架构及算法系统究竟以何种机制作用于那些受AI影响或为AI所辖制的“文化生产”本身。以豆瓣、微信公众号、猫眼、淘票票等互联网平台中的电影批评场域为观察样本可见,不同平台的“媒介物质性”(Media Materiality)特征及其技术配置机制,正通过差异化的机制渗透于批评实践的全链条。其中,互联网平台因其不同的媒介属性和内容组织逻辑,催生出截然不同的影评生产策略,平台作为内容的“聚合者”与“推荐者”,其技术特性、用户结构和社区文化深刻形塑着当下“电影批评”的实践形态与价值向度。不同平台在分发机制、受众构成、媒介属性等维度的差异化特征“非故意”地改变了“电影批评”的价值导向,并在“价值链重构下的导向转型”中以“倒置方式”重塑了电影立项、招商、宣发机制及项目评级范式。这其中的区别在于,电影批评功能的传统内核在于通过构建审美坐标系与价值参照系,为创作实践提供美学校准、为受众认知提供意义锚点。而当下AI介入的电影批评逐渐转向基于用户画像的市场需求预测以及依托算法模型的观众偏好量化解析,其“批评性”呈现出从“提供一种参照和启示”的引导与推动转向对市场需求、观众偏好的算法化检索及数据化研判的价值迁移。

具体而言,互联网平台通过AI精准捕捉用户在打分、评论,甚至社交互动和分享中的行为偏好,形成“数据抓取—算法反馈”的动态闭环,深度参与并“引导”观众观影行为。结果是,以“豆瓣评分”为例,用户可在使用过程中通过打分的形式完成用户生产内容(User Generated Content,UGC)的意义输入,平台则通过平均分计算得出“平均意见”并将其反馈至用户。尽管豆瓣平均分机制的平均意见“数字化”推荐本质上是用户意见的统计聚合,尚未进入算法意义上的“智能推荐”维度,但值得警惕的是,豆瓣、IMDb、猫眼等平台的电影评分机制实质上为观众提供了一种中庸化、去深度化的“服务型批评”(Service Critism),成为尤瓦尔·赫拉利意义上具有爆炸性力量的“清晰的见解”,电影批评不再作为“思考的文本”发挥作用。同样的,微信公众号作为植根于社交媒体生态,“兼具学术前沿思想发布、科学成果传播”的舆论阵地,在电影批评领域亦展现出极具独特性的文化影响力。如学术期刊的官方公众号(如“电影艺术杂志”“当代电影杂志”)以及高校影视研究机构(如“北大影视戏剧研究中心”“北京电影学院学报”)的学术成果传播平台等,均是具有代表性的电影批评传播主体。此类公众号虽在曝光维度具备充足的可见性与触达范围,但其依托智能推荐算法构建的传播机制存在专业批评话语与用户接受逻辑之间二元对立的结构性缺陷。微信团队为提升推荐效果,提出一种同时考虑显式(喜欢/不喜欢)/隐式(取消点击)反馈和正(喜欢)/负(不喜欢)反馈的“深度反馈网络(Deep Feedback Network,DFN),以学习用户的无偏偏好(unbiased preference)”。实质上, DFN对用户偏好的“无偏性”追求构成了对深度阐释与表层表达、专业批评与情感宣泄型之间固有裂隙的算法性放大。电影专业批评的文本特质与大众用户的行为反馈之间的结构性张力,虽非数字时代催生的新质矛盾,但其在算法中介的传播生态中呈现出明显的加剧态势。我们所期待的“AI介入”,应指向专业壁垒的消解与知识普惠的实现,而非成为强化知识生产场域区隔的技术推手。这种区隔既表现为专业批评圈层的“自嗨式”困境,也体现为大众表达的“娱乐化”倾向,最终导致电影批评作为文化中介的公共性价值被算法逻辑所稀释。

另外,AI介入的猫眼、淘票票等以票务服务为核心的平台则更具“智能推荐”意味,除去提供基本的票务功能外,同时为用户提供票房、排片及上映日历等多维度数据信息服务。就票房数据的信息提供来看,猫眼与淘票票均提供预售票房、实时票房、票房排行、城市票房、预测票房等多项数据。究其本质,预售票房数据作为营销传播效能的量化指标更多反映的是宣发策略对受众期待阈值的激活程度,而实时票房及预测票房则是对影片即时市场接受度的动态量化以及对影片上映全周期票房规模的概率性预判。首先,这些庞杂且多维的数据虽然能够提供给观众做出选择与判断的参考,但同时也可以使观众陷入基于身份认同的“非故意后果”进而面临马尔库塞所揭示的“单向度的人”(Dimensional Man)的生存境遇。这种基于数据的身份归类实则将观众的选择逻辑简化为对数据所建构的“群体共识”,使其在“大多数人”的潜意识下逐渐丧失对选择本身的批判性审视。其次,这种基于数据标签的身份归类,本质上是将复杂的个体需求简化为可量化的群体特征,使得用户在“被精准理解”的错觉中,将标签所指认的选择逻辑内化为自我认知的一部分,进而在无意识中放弃对自身真实需求的批判性审视。根据猫眼平台数据,《长安的荔枝》的想看用户画像被锚定为二线城市20-30岁的女性白领,而《F1:狂飙飞车》(F1: The Movie)的用户画像则指向二线城市20-24岁的男性白领。质言之,城市票房、用户画像等数据信息的整合与分析一方面有助于平台建构更精细的用户需求模型,精准匹配用户“可能偏好”的影片信息并进行智能推荐;另一方面有助于片方及时调整宣发策略及侧重,实现宣发资源的空间配置优化,并通过匹配目标群体的认知习惯提升传播效能,最终促成区域化宣发策略的精准落地。而这在电影批评“算法化”路径中更深层的影响在于,用户画像的分类逻辑会反向建构用户的自我认知与群体认同,平台通过数据标签将个体归入特定群体,并依据群体共性推送内容,这种操作会潜移默化地强化用户对这一群体的身份认同。

在猫眼、淘票票等票务平台的数据化逻辑之外,以哔哩哔哩(bilibili)、抖音为代表的视频平台所形成的“吐槽式影评”与“情绪化影评”,进一步加深了平台算法对电影批评本身的重构。短视频平台的算法机制将影评从文本阐释转移为可消费的内容产品,其评价逻辑往往建立在节奏、情绪、冲突与可传播性之上,使得影评的核心任务从阐释与批评转向“制造观点效果”。例如,哔哩哔哩平台上的影评视频多集中于“魔幻情节”“演员表演”“视觉成效”等可快速捕捉的槽点,相关影评视频以剪辑段落、批评语气与讽刺性字幕构成一种“可视化嘲讽文本”。这类表达虽具有一定的舆论引导力,但使得电影批评异化为情绪表达与算法激励的内容竞赛,从而导致专业评价主体的声音逐渐淡出公众视野。例如,传统作者论所强调的导演风格、叙事策略与影像型构的审美评价框架,正逐渐被短视频平台和粉圈文化中的“身份化阅读”所取代。从《你行!你上!》上映初期在豆瓣与短视频平台上呈现的两极化格局来看,影评行为已不再围绕影片内部的叙事结构、影像风格或作者表达展开,而是演变为群体立场与文化身份的标识性动作。这种“立场化”的影评逻辑将本应针对创作者意图与影片文本的审美讨论,替换为关于名人信誉、群体情感与社交身份的对抗性表达。平台算法会进一步放大这些情绪化、对抗式的评价内容,使极端化观点由于互动量高而被持续推送,影评的公共性便被压缩为情绪强化与身份归类的循环结构。AI在此情境中并未发挥电影批评的实质作用,反而以点击率、停留时长、群体标签等模型指标重构了电影批评的可见性与影响力,使那些具有理论深度、审美敏感度与文本洞察力的批评声音被算法结构性地边缘化。

4  结语:

人机协同生成新批评范式的可能性

总体而言,AI 对电影批评的介入并非颠覆性、革命性的“范式重构”,而是以“路径介入”的方式实现多维度的并入与拓宽,其影响既显现为技术赋能的可能性,亦潜藏着批评本质异化的风险。首先,在观看与理解维度,计算电影学驱动的“非人”读解机制构建起“AI远读”意义上的实践路径与理论可能。这一技术路径虽为电影研究提供了量化分析的新范式,却对传统文本“细读”的审美内核构成潜在冲击,技术理性的强势在场不仅干扰艺术本体的呈现逻辑,更导致技术规律对艺术创新“本体性”的系统性遮蔽。其次,在阐释与话语生成层面,基于LLM的批评话语拟合则暴露出以人机信任为内核的“奇幻社会”的认知危机,当算法基于概率生成难以辨别的“仿真”(Simulation)内容时,其影响不仅体现为批评话语失真及“意义空场”的风险,也构成电影及其批评实践的本体性危机,使其脱离对艺术本质的追问与对现实的批判性映照。最后,就传播机制而言,平台化带来的从菁英品味到大众趣味的症候式分化,实质上是“意见平均”机制主导下的情感宣泄与表层化表达的聚合,其背后潜藏的隐忧在于批评深度向流量逻辑的让渡,进而引发批评话语“批判性”的式微与批评场域的窄化。

在AI对电影批评构成影响的宏观视域下,AI以大数据技术与算法逻辑为底层架构,借由平台化机制生成异质于传统批评范式闭环反馈结构的新型批评样态,此类样态是否构成“批评”的本体范畴,需秉持审慎立场加以辨析。进一步而言,相较于将AI定位为电影批评范式的主导性重构主体,其更应被视作批评路径中的介入性力量。计量电影学视域下的镜头数量、剪辑频率等量化指标,依托概率统计的情感计算与意见聚合,以及数据分析和流量逻辑主导的平台导向性,实质上均非“批评”本身的核心基质。由此,在AI介入电影批评的语境中,亟需优先解决的前提性问题在于对算法化世代“批评”新形态的本质进行清晰界定。唯有如此,我们才能深刻洞悉AI介入电影批评路径的真正影响机制,进而为其合理应用确立规范性框架,明确技术介入的效能阈值与价值边界,使技术赋能与批评本身形成正向耦合,最终在技术与艺术的张力场域中,为电影批评开辟兼具学术深度与时代特征的阐释维度与发展路径。

尽管AI的“介入”尚未引发电影批评方法论的结构性跃迁,其影响主要体现为工具层面的增量扩展,但这并不排除人机协同在未来生成新的批评范式的可能性,电影批评的主体结构与认知方式正在出现潜在的再组织契机。在这一新场域中,人类批评者将从单一的阐释主体转向意义筛选、结构校准、价值重组的复合性角色,AI则通过跨语料挖掘、关联网络构建与模式识别,对文化现象进行结构化显性处理,形成一种与传统批评路径异质互补的计算性观看。二者之间由此构成的协同批评并非主体性的让位,而是批评实践在认知机制上的分布化与多中心化。这一可能的范式更新并不意在以算法替代审美判断,而是通过引入计算性视角促使批评者意识到自身阐释框架的惯性与盲点,从而推动理论意识的再生产。更为关键的是,人机协同将促使电影批评从线性阐释走向网络化意义生成,使批评活动得以在直觉与计算、经验与模式之间形成更具弹性的反思结构。因此,数字时代的核心议题不在于AI是否重构批评,而在于批评如何在与技术的协同关系中重估自身的理论基底与知识边界。未来的批评范式或许正是在这一持续协商的过程中逐渐形成,其关键不在技术革新本身,而在于主体结构、阐释逻辑与意义生产方式的深度重构。

排版:覃子椿

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

实验室在国际摄影测量顶刊 ISPRS Journal of Photogrammetry and Remote Sensing 发表学术成果

2026年6月7日 19:23

2026-06-07 19:23 湖北

近日,实验室黄先锋教授团队在摄影测量与遥感领域国际顶级期刊 ISPRS Journal of Photogrammetry and Remote Sensing 发表了关于三维高斯泼溅的学术论文。

👆👆👆点击蓝字 · 关注我们

★ ★ ★

近日,实验室黄先锋教授团队在摄影测量与遥感领域国际顶级期刊 ISPRS Journal of Photogrammetry and Remote Sensing 发表了关于三维高斯泼溅的学术论文。该论文由向瀚宇博士担任第一作者黄先锋教授担任通讯作者。本项研究得到了国家重点研发计划(2023YFC3209105)和湖北省国际科技合作项目(2023EHA031)资助。

期刊介绍

ISPRS Journal of Photogrammetry and Remote Sensing 是国际摄影测量与遥感学会(ISPRS)的官方期刊。该期刊为全球从事摄影测量、遥感、空间信息系统、计算机视觉等相关领域的科学工作者提供了一个交流平台。该期刊在全球地球科学领域期刊中国际影响力排名前三,最新中科院分区为 SCI 一区 Top 期刊,最新影响因子 12.2。

研究背景

三维场景重建是计算机视觉、摄影测量和城市建模等领域的关键技术。传统 SfM/MVS 方法虽较成熟,但在弱纹理、复杂遮挡、细薄和镂空结构中易出现几何缺失与结构失真。NeRF 类方法提升了重建质量,但训练和渲染开销大,难以适用于大规模场景。近年来,3D Gaussian Splatting 以高效渲染和显式表达受到关注,并被用于表面重建。然而,现有 GS 方法多依赖稀疏 SfM 点初始化,难以覆盖复杂结构;几何优化中存在多视图不一致和高频扰动,易导致结构粘连或破碎;同时,大场景和高分辨率影像也带来了巨大的计算负担。因此,亟需一种兼顾几何精度、结构完整性和计算效率的大规模 3DGS 表面重建方法。

研究内容

本文提出 GaussianCraft,一种面向复杂大规模场景的细粒度 3DGS 表面重建框架。首先,利用 MVS 生成的多视图点位置、法向和尺度信息初始化高斯基元,并结合 GSD 引导的渐进式体素下采样与场景尺度归一化,实现充分、稳定的几何初始化。其次,设计基于梯度范数惩罚的几何细化正则项,抑制 NCC 多视图约束在细薄、镂空结构中产生的高频扰动,提升结构连续性和表面保真度。再次,提出块内可见性分区策略,仅选择当前分块内可见图像及像素进行训练,降低大场景和高分辨率影像的计算开销。最后,通过观测感知 TSDF 融合提取网格,实现高效、完整且精细的表面重建。

图 1 本文方法的总体流程

图 2 Electric Tower 场景的定性重建结果。展示了选定区域中重建网格的局部放大细节。上、下两行分别为由网格渲染得到的深度图和法向图。本文方法在塔架结构上实现了更好的结构连续性。

图 3 Factory 场景的定性重建结果。展示了选定区域中重建网格的局部放大细节。上、下两行分别为由网格渲染得到的深度图和法向图。可以看到,几乎每一根管道都被清晰区分并准确重建。

图 4 光岳楼的定性重建结果。展示了选定区域中重建网格的局部放大细节。可以看到,几乎每个构件都被清晰区分并准确重建。

编辑 | 文化遗产智能计算实验室

审校 | 刘争

           武汉大学人文社科楼       

阅读原文

跳转微信打开

重磅新书 | 袁毓林《ChatGPT 和语言学的梦醒时分》(赠书活动)

2026年6月7日 13:01

徐惠 2026-06-07 13:01 江苏

语言大模型对语言学的挑战与启示!文末有粉丝福利!

(文末有福利哦!🎉)

袁毓林 著

商务印书馆

2026年5月出版

前言

2022 年底 ChatGPT 横空出世,不仅让人工智能走进了普通人的生活,更在语言学界掀起了一场前所未有的震动。

当机器能流畅地听懂人话、说出人话,甚至写出逻辑通顺的文章时,一连串尖锐的问题摆在了所有语言学者面前:语言还是人类独有的能力吗?我们研究了几十年的语言学理论,为何没能指导大模型取得这样的突破?站在数字工业革命的十字路口,语言学该往何处去?

这些问题,袁毓林教授在新书《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》中给出了系统而深刻的回答。

这本书讲了什么?

这不是一本单纯的技术科普,而是一位深耕理论语言学与计算语言学数十年的学者,站在学科交叉的视角,对大模型时代语言学命运的深度思考。

全书分为三编,层层递进:

 第一编 语言大模型的原理和机制:从人类语言的设计原理讲起,清晰拆解 ChatGPT 如何用词向量破解自然语言的离散性与语义鸿沟难题,又如何通过生成式预训练、指令微调、基于人类反馈的强化学习等技术,实现接近人类水平的语言理解与生成。

● 第二编 语言大模型的能力和边界:用指称歧义句、花园幽径句、递归嵌套句等经典语言学测试,客观评估大模型的语义理解与常识推理能力。书中用扎实的实验数据证明,大模型并非 “随机鹦鹉”,它能从海量语料中习得世界知识,构建近似的世界模型,真正实现对自然语言的理解。

● 第三编 对语言学的挑战和启示:这是全书最具分量的部分。作者直面大模型绕过当代主流语言学理论却取得成功的事实,呼吁学界反思 “精确描写还是抽象解释”“语言天生还是后天学习”“普遍语法还是概率语法” 等核心争议,并提出了语言学家与大模型协同的三种模式:嵌入式、副驾驶和智能体。

完整目录如下

 ↓                 ↓ 

为什么值得读?

对于语言学研究者,这本书是一面镜子,能让我们看清现有理论的优势与局限,找到学科未来的发展方向;对于人工智能从业者,它能帮你从语言本质的角度理解大模型的底层逻辑,跳出纯技术的思维局限;对于普通读者,它能让你跳出对大模型的盲目惊喜或恐慌,理性认识人工智能的能力与边界。

作者简介

袁毓林,1962年2月出生于江苏省昆山市,语言学家,澳门大学人文学院中国语言文学系讲座教授,教育部长江学者特聘教授,国家 “万人计划” 哲学社会科学领军人才,曾任北京大学中文系教授、博士生导师。袁毓林主要从事理论语言学、汉语语言学(特别是句法学、语义学、语用学)以及计算语言学、中文信息处理等领域的研究。他提出了“基于认知并面向计算”的语言学研究路径,构建了汉语意合语法的理论模型,并在汉语配价语法、词类模糊划分等方面取得了重要成果。

袁毓林教授的部分学术著作

赠书福利来了!

● 活动奖品:《ChatGPT 和语言学的梦醒时分:语言大模型对语言学的挑战与启示》实体书5 本

● 参与方式:关注本公众号,转发本文至朋友圈并在评论区留言,单条评论点赞数达到 80 + 即可参与

● 获奖规则:先到先得,我们将按照评论点赞达标时间的先后顺序,联系前 5 位符合条件的读者

● 活动截止:2026 年 6 月 13 日 24:00

● 特别说明:获奖读者需提供朋友圈转发截图,奖品将免费包邮寄出

当语言学遇上大模型,是学科的终结,还是新生的开始?翻开这本书,或许你会找到答案。

欢迎大家在评论区分享你对大模型与语言学关系的看法,也期待你把这本书分享给更多感兴趣的朋友~

京东、当当等平台已上线,欢迎选购!

= END =

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

【预告】孙显斌:数字人文视野下的古籍数字化

2026年6月7日 10:31

2026-06-07 10:31 广东

“数字人文研究@SYSU”系列讲座第一讲,诚邀中山大学人文高等研究院特邀访问教授、中国科学院自然科学史研究所研究员孙显斌主讲“数字人文视野下的古籍数字化”,一同探讨古籍整理、保护与研究的新路径。

“数字人文研究@SYSU”系列讲座由中山大学图书馆、中山大学数字人文实验室共同推出,聚焦数字人文研究前沿,邀请国内外专家学者开展专题讲座与学术交流,分享研究成果、方法探索与实践经验,推动数字人文领域的跨学科对话、理论建构与知识创新。本期迎来系列讲座第一讲,诚邀中山大学人文高等研究院特邀访问教授、中国科学院自然科学史研究所研究员孙显斌主讲“数字人文视野下的古籍数字化”,一同探讨古籍整理、保护与研究的新路径。

数字人文视野下的古籍数字化

时   间:2026年6月8日(周一)9:00

地   点:中山大学南校园图书馆中山大学学人文库

主讲人:孙显斌(中山大学人文高等研究院特邀访问教授、中国科学院自然科学史研究所研究员)

主持人:王蕾(中山大学图书馆副馆长、中山大学数字人文实验室主任)

主办单位:中山大学图书馆、中山大学数字人文实验室

主讲人介绍

孙显斌,中山大学人文高等研究院特邀访问教授,中国科学院自然科学史研究所研究员,曾任中国科学院自然科学史研究所所长助理、图书馆馆长。兼任中国古籍保护协会智能开发与利用专家委员会委员。研究方向:古典文献学、科学技术史、数字人文等。主编《中国古代重大科技创新丛书(第一辑)》获全国优秀科普作品奖。出版专著《汉书颜师古注研究》、论文集《攻玉集》,“中国科技典籍选刊”主编,第一至八辑获得国家古籍整理出版专项资助。整理《王祯农书》《物理小识》等。主持国家古籍数字化工程专项经费资助项目“历代典籍目录数据集成与分析系统(第一期)”,参与开发“资治通鉴分析平台”“中国历代典籍总目分析系统”等数字人文平台。

内容提要

古籍数字化可分为三个层次,即古籍图像化、全文化和知识化,随着近年大数据及人工智能技术的引入,图像化和全文化已经取得突破性进展,古籍数字化进入到知识挖掘和语义分析的新阶段。今后的几年正是信息技术的手段大规模介入古籍整理工作的风口期,可以预见不远的将来,古籍整理领域将迎来巨大的变化。最终,随着以文献数字化、知识化以及语义分析等为核心内容的数字人文的不断发展,传统凭借纸质图书馆进行人文研究的范式必然向依靠数字人文平台进行学术研究的范式转换。

内容来源:中山大学图书馆

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

会议征稿 | DHd2027:Mind the Gap!—— 知识、不确定性与责任

2026年6月6日 08:30

2026-06-06 08:30 湖北

德语区数字人文协会“DHd2027:Mind the Gap!—— 知识、不确定性与责任”会议征稿

DHd2027介绍

德语区数字人文协会(DHd,Association for Digital Humanities in the German Speaking Areas)成立于2013年,主要为所有在德语国家数字人文领域从事研究和教学的各学科人士的平台和利益的正式代表。截至2026年4月,DHd共有528名研究人员。作为一个区域性协会,DHd既隶属于欧洲数字人文协会(EADH, European Association of Digital Humanities),也是数字人文组织联盟(ADHO, Alliance of Digital Humanities Organizations)的成员协会。DHd会员同时也是EADH的正式会员。

DHd2027是由马尔堡大学承办的德语区数字人文协会年度会议,会议主题为“Mind the Gap!——关注间隙:知识、不确定性与责任”。

间隙”(gap)是知识构成中的重要组成部分。它们既标示出尚未被填补的空白,也提出新的问题,并推动认知过程的展开。对于数字人文而言,这一点尤为关键:当知识被数字化编码、建模,并转化为机器可读的形式时,翻译、简化与中介性的灰色地带便不可避免地出现。无论是将非数字对象转化为数据、模型或数字表征,还是处理原生数字材料,研究者都必须先对材料进行采集、组织、归档与整理,才能使其成为可分析的研究对象。在这一过程中,各种形式的“间隙”不断生成。

间隙DHd2027聚焦于这些具有生产性、问题性以及责任意义的间隙、不确定性与差异,并反思隐藏其中的关于数据完整性和确定性的理想化假设,以及支撑这些假设的解释过程。会议关注以下问题:

•空白如何成为知识生产的认识论前提?

•不确定性如何成为数字人文的方法论挑战?

•数据处理中的责任应如何承担?

•缺失与差异如何催生新的解释与理解?

重点讨论内容包括:

•物质和历史遗产中的缺失

•算法黑箱问题

•数据缺口

•建模决策

•知识与基础设施获取的不平等

会议背景与理念

(1)会议背景

与人类文化相关的数据往往是不完整的:文献可能残缺不全,资料可能已经散佚,原始语境可能不复存在,或仅以碎片化的形式流传下来。与此同时,数字化与建模过程本身也会产生新的筛选与简化。每一种数据表征(representation)、分类(classification)或可视化(visualization),都意味着研究者必须决定什么被展示、什么被强调,以及什么被省略。特别是在数据驱动方法与人工智能技术广泛应用的背景下,透明性、可解释性、不确定性与责任等问题变得愈发重要。

“Mind the Gap!”这一主题还进一步指向数字知识生产中的各种不平等现象。尽管数字技术具有促进知识民主化的潜力,但在数据获取、工具使用、基础设施建设和学术发表机会等方面,仍然存在显著差异。这些差异可能受到地理位置、机构背景、社会条件以及其他结构性因素的影响。因此,DHd2027会议希望为讨论数字人文领域中的参与、责任与可持续发展提供空间。

(2)会议理念

DHd2027会议强调,“间隙”(gap)并不只是知识生产中的缺陷,也可以被理解为反思、解释与批判得以发生的生产性空间。如果知识不是一个已经完成的最终成果,而是一个持续建构的过程,那么不确定性、空白与差异便构成了科学认识生成的重要前提。

DHd2027希望与学界共同探讨:

• 如何实现负责任的数字知识生产;

• 如何建立反思性的研究实践;

• 如何推动数字人文的可持续发展。

征稿主题

DHd2027欢迎数字人文及相关学科领域的研究者投稿,特别鼓励以下主题:

(1)文化遗产与历史资料中的空缺

  • 历史、文化和物质遗产中的空缺与不确定性

  • 来源(Provenance)研究

  • 碎片化(Fragmentation)

  • 去语境化(Decontextualization)

  • 元数据缺失

(2)不确定性的建模

  • 模糊性(Vagueness)建模

  • 不确定性建模

  • 多义性建模

(3)数字化与数据处理中的局限

  • 数字化过程中的选择机制

  • 数据建模中的筛选问题

  • 标注(Annotation)的边界

(4)数字化缺失问题

  • “数字暗场(Digital Dark Field)”

  • 未被数字化的文化资源

(5)人工智能与算法透明性

  • 黑箱问题(Black Box)

  • AI方法

  • 可解释人工智能(XAI)

(6)大模型中的知识偏差

  • 大语言模型训练数据缺陷

  • 图像模型训练数据偏差

  • 知识空缺与算法偏见

(7)数字重建

  • 数字复原

  • 推测与证据之间的平衡

(8)科研成果呈现中的不确定性

  • 可视化中的不确定性

  • 数据聚合中的误差

  • 研究成果展示中的风险

(9)数据伦理

  • FAIR原则

  • CARE原则

  • 数据伦理问题

(10)隐私与敏感数据处理

  • 匿名化(Anonymization)

  • 假名化(Pseudonymization)

  • 有意识的数据省略

(11)数字能力与基础设施

  • 数据素养

  • DH教育与培训

  • 基础设施不平等

(12)文化数据与社会责任

  • 后殖民主义视角

  • 文化数据治理责任

(13)方法论创新

  • 混合研究方法(Mixed      Methods)

  • AI与诠释学(Hermeneutics)

(14)机构协同

  • GLAM机构(Galleries, Libraries, Archives, Museums)网络化

  • 数字研究基础设施建设

(15)数字人文的未来角色

  • 技术与社会不确定时代中的数字人文反思

投稿类型与字数要求

类型

字数要求

学术报告(Vorträge)

1500–2000词

博士论坛(Vorträge im Doctoral Consortium)

500–750词

专题讨论(Panel)

1200–1500词

海报(Poster)

500–750词

工作坊(Workshop)

1200–1500词

投稿与评审

(1)投稿平台

投稿通过ConfTool提交。

作者需:

  • 注册ConfTool账户;

  • 使用FidusWriter撰写并提交dhc格式文件;

  • 填写100–150词摘要。

所有录用摘要将发布于DHd协会Zenodo社区,收录于会议论文摘要集,并发布于会议官网与会议手册。

(2)重要时间

时间

事项

2026年8月1日23:59(德国夏令时)

投稿截止

2026年11月初

录用通知

2026年12月5日

提交修改终稿

2027年3月1–5日

会议召开

注意:投稿截止日期不会延期。

(3)评审方式

此次会议采用开放同行评审(Open Peer Review)

  • 作者与评审人身份互相公开(Open Identities)

  • 评审意见不公开

联系邮箱:dhd2027@uni-marburg.de

(4)语言要求

DHd2027主要交流语言:德语、英语

投稿可使用:德语、英语

会议鼓励使用德语报告,但英语报告同样欢迎。

(5)参会要求

会议为:线下会议(In-Person Conference)

要求:

  • 录用论文原则上需作者本人到场报告;

  • 不设混合参会模式(Hybrid);

  • Keynote主旨报告将提供直播。

会议关注方向

对于文化遗产数字化、智慧数据资源建设、古籍数字人文研究领域的研究者而言,此次会议主题与以下研究高度契合:

  • 文化遗产数据缺失与不确定性表达

  • 古籍知识组织与语义建模

  • AI驱动的文化遗产知识发现

  • 文化遗产智慧数据资源建设

  • 数字重建与数字孪生遗产

  • 文化数据伦理治理

  • GLAM机构协同创新

  • 人工智能与数字人文方法论融合

涉及“文化遗产智慧数据资源建设模式”“古籍智慧数据平台”“文化遗产数字化—数据化—智慧化转型”等主题的研究将与DHd2027的会议议题具有很高的契合度。

以上会议征稿内容来自DHd2027官方网站:

https://digitalhumanities.de/en/2026/06/01/call-for-papers-dhd2027/

更多征稿详情请进官网查询,如需转载请后台私信联系

编译|罗斯鹏

校对|魏翔

排版|洪冰凤

阅读原文

跳转微信打开

会议通知 | 第十届中国语言智能大会暨第二届语言脑机接口镜湖论坛

2026年6月5日 00:00

徐惠 2026-06-05 00:00 江苏

7月3日至7月5日川外举办语言智能大会,聚焦语言智能与脑机接口前沿研讨。

转载自“川外学坛”

会议介绍

为推动语言智能与脑机接口领域的交叉创新,促进学术交流与学科建设,“第十届中国语言智能大会暨第二届语言脑机接口镜湖论坛”将于2026年7月3日-5日在四川外国语大学召开。本次会议由中国人工智能学会(CAAI,https://www.caai.cn/)、中国语言智能研究中心主办,CAAI语言智能专委会、四川外国语大学语言智能学院(通识教育学院)及AI+领域应用关键技术北京市重点实验室承办。

本次大会特设“语言智能本科专业建设院长论坛”“青年学术论坛”;将邀请语言智能与脑机接口领域知名专家、学者作主旨发言。欢迎各高等院校、科研机构、中小学及行业产业领导、专家、学者、同仁拨冗与会,共襄盛会。

组织单位

主办

中国人工智能学会

中国语言智能研究中心

承办

CAAI语言智能专委会

四川外国语大学语言智能学院(通识教育学院)

AI+领域应用关键技术北京市重点实验室

协办

重庆市人工智能学会

重庆市沙坪坝区国际语言脑机接口联合研究院

支持

中国残疾人康复协会语言障碍康复专业委员会

会议初步议程

报到地点

重庆市沙坪坝区沙磁公馆

会议主要议题

1. 语言智能科学研究

2. 语言智能学科体系构建研究

3. 语言智能本科专业建设

4. 语言脑机接口

5. 语言智能教育

6. 中小学语言教育智能体开发与应用

7. 其他相关议题

主旨报告专家(更新中..)

(以姓氏拼音为序)

侯文生(重庆大学)

姜   孟(四川外国语大学)

李舟军(北京航空航天大学)

林鸿飞(大连理工大学)

刘   杰(北方工业大学)

吕学强(北京信息科技大学)

王国胤(重庆师范大学)

王丽丹(西南大学)

吴   庄(广东外语外贸大学)

尧德中(电子科技大学)

尹   明(云南财经大学)

余正涛(昆明理工大学)

赵   晨(广东外语外贸大学)

周   强(清华大学)

周建设(首都师范大学)

周俊生(南京师范大学)

会议注册

1. 会议费用:本次会议不收取会务费,交通食宿自理(会务提供酒店推荐信息)。

2. 注册方式:通过下方二维码扫码填写报名信息。

3. 会议规模:为保证质量,会议将控制参会人数。

4. 联系电话:18182211733(江老师);15023537602(郝老师)

酒店信息(仅供参考)

1. 沙磁公馆:

约458元/晚(以预订实际为准)

电话:17723999508(余经理)

2. 沙磁时光酒店:

约336元/晚(以预订实际为准)

电话:17723999508(余经理)

3. 维也纳3好酒店:

约308元/晚(以预订实际为准)

电话:15523222536(吴经理)

4. 桔子酒店:

约430元/晚 (以预订实际为准)

电话:13696702083(王经理)

报名方式

请扫描下方二维码,填写参会回执:

会议期间,CAAI语言智能专委会拟筹备成立“语言智能学术专家委员会”“青年工作委员会”,热忱欢迎广大专家、学者、同仁参会加盟。加盟方式(点击链接,下载填写相关表格):

语言智能学术专家委员会:

学术专家委员会招募启事.docx

关注公众号

川外学坛

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

转载 | 观澜·驻访学者沙龙(第16期)回顾:沟通、照护与制度:医学人文的跨学科实践

2026年6月3日 09:00

2026-06-03 09:00 广东

5月26日,观澜・驻访学者沙龙(第16期)在我校深圳校区文学园5栋顺利举办。本次活动由我院2026年春季学期校内驻访学者徐翌茹教授发起召集。来自法国里昂第二大学、广州中医药大学以及我校十二个院系和附属医院的师生,围绕“沟通、照护与制度:医学人文的跨学科实践”这一主题,开展了深度研讨与思想交流。

徐翌茹教授主持沙龙

圆桌论坛一

《临床医学与医学人文导论》课程教学创新与实践

第一场论坛由中山大学附属第一医院肝胆胰外科主任医师张昆松围绕医学人文课程教学改革展开分享。张昆松主任系统梳理了团队五年来分两阶段推进医学人文课程建设的改革历程。第一阶段,团队依托优质临床师资构建特色教学体系、创新课程评价机制。第二阶段,团队深化升级教学改革,整合多学科资源,搭建起覆盖全年级、全学制的阶梯式医学人文育人框架。同时,团队积极打造“AI+医学人文”的新型教学模式,赋能智慧医学教育发展。张昆松主任总结,医学人文教育需以沉浸式体验为核心抓手,推动教学模式从教师“教书”向精准“育人”转变。

随后中山大学附属第六医院林琳医生和中山大学国际翻译学院郭聪副教授进行评议。林琳医生认为,医学人文教育是贯穿医学人才培养全过程的系统性工程,对塑造医学生职业自信、规避行业发展风险、夯实医疗行业人文根基具有重要意义。郭聪副教授坦言,目前校内医学翻译相关课程仍存在作业设计不完善、学情研判不精准等教学难点,她表示将充分借鉴本次课程改革在培育学生专业自信、开展反思性实践教学等方面的优秀经验,进一步优化培养方案。

左右滑动查看第一场圆桌论坛现场

圆桌论坛二

社会科学研究与政策落地——以普惠性安宁疗护建设为例

第二场论坛中,中山医学院程瑜教授以普惠性安宁疗护建设为案例,阐释了社会科学立足民生、赋能政策落地的核心使命。程瑜教授介绍,安宁疗护秉持“身无痛苦、心无遗憾、尊严离世”理念,是民众享有的基本善终人权,可有效杜绝临终过度医疗、节约医疗资源。当前,我国安宁疗护试点正逐步推广,但仍面临大众死亡认知薄弱、服务供给不足、法律伦理体系尚不完善等问题。程瑜教授团队创新构建了卫健、民政双轨服务模式,搭建了医社家一体化服务体系,践行了社科研究扎根现实、服务大众、助力政策落地的初心与担当。

随后,中山大学护理学院夏薇副院长和中山大学政治与公共事务管理学院王楠副教授进行评议。夏薇副院长表示,安宁疗护项目体系复杂,涵盖患者个体、家属、社会多方主体、全流程时间四大维度,推进中充斥多重现实矛盾。王楠副教授对程瑜教授跨学科、跨行业、跨层级的探索历程深有共鸣,认为打破学科、业界与政府间的壁垒需要极强的决心、勇气与行动力。王楠副教授表示本次论坛能够有效坚定青年学者的研究信念,并勉励广大青年学者坚守“位卑未敢忘忧国”的初心与担当。

左右滑动查看第二场圆桌论坛现场

圆桌论坛三

机构养老照护沟通:互动形式、身份建构与社会参与

第三场论坛上,法国里昂二大郭薇薇副教授结合养老院田野调研,围绕机构养老照护的沟通机制、身份建构与现实困境展开探讨。她谈到,机械化照料、不当言语易引发老人抵触,温情平等的双向互动能提升照护成效。她重点剖析养老场景中普遍存在的“老年语”现象,强调这类善意化的特殊沟通方式暗含老年刻板印象,易引发老人抵触。基于戈夫曼理论,她提出养老院的特殊场域会让老人原有社会身份消退,需在不对等的照护关系中重构多元身份。她总结,养老照护困境源于机构标准化任务逻辑与老人个性化情感需求的冲突,提出需融合任务型与社会性互动、构建以老人主体性与尊严为核心的照护体系,而资源约束下标准化管理与人文照护的平衡,仍是行业亟待破解的核心难题。

随后,中山大学外国语学院易利副教授与中山大学附属第七医院符隆文副研究员进行评议。易利副教授谈到,这项研究打破了"养老沟通仅为高效照护工具"的单一认知,强调养老场景中的沟通不仅是护理手段,更是多方主体建构身份、维护老人主体性与生命尊严的重要过程。符隆文副研究员提到,语言学与社会学、人类学均善于挖掘日常照护中隐性的沟通问题,且语言学依托直观可分析的语料证据,可有效助力从业者反思沟通短板。

左右滑动查看第三场圆桌论坛现场

我院2026年春季学期校内驻访学者也积极参与此次研讨,中山大学新闻传播学院李艳红教授、心理学系周国梅教授、马克思主义学院李珍教授、历史学系李智副教授与中山大学附属第七医院临床医学人文研究中心周殷华副主任、广州中医药大学叶芬老师立足多学科视角,围绕养老照护、医学人文教育、智能技术应用、临终关怀等议题深入交流。各位嘉宾一致主张推行个性化人文照护,关注老年人及一线照护人员的身心健康。与谈嘉宾认为,人工智能仅可作为照护辅助工具,人文关怀的核心价值不可替代。此外,嘉宾们充分肯定了医学人文实践课程的建设成果,也客观阐述了课程落地过程中的现实挑战,并倡议深化跨学科联动协作,推动医学人文理念落地生根,持续完善教学与服务体系。

左右滑动查看与谈嘉宾交流

最后,我院2025年秋季学期校内驻访学者、中山大学历史学系曹家启教授在总结发言中从历史学视角分享观点。曹家启教授认为,学界聚焦医学人文、安宁疗护等议题,是应对现实社会困境的积极探索,但生老病死与各类社会难题具有常态化、固有化特征。他强调,医学人文建设意义深远,人文素养培育不应局限于课堂教学,医学生与医务工作者更需在长期临床实践中不断修习、坚守人文初心。

曹家启教授作总结

第16期观澜·驻访学者沙龙合照

END

内容来源:中山大学人文高等研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

转载 | “人工智能时代的博雅教育及其挑战”座谈会在中山大学深圳校区成功召开

2026年6月3日 09:00

2026-06-03 09:00 广东

2026年5月29日,“人工智能时代的博雅教育及其挑战”座谈会在中山大学深圳校区人文社会科学研究院2

     2026年5月29日,“人工智能时代的博雅教育及其挑战”座谈会在中山大学深圳校区人文社会科学研究院202致用·雅集空间举行。本次会议由中山大学博雅学院、中山大学人文高等研究院、中山大学人文社会科学研究院联合主办,邀请清华大学新雅书院讲席教授甘阳、复旦大学学术委员会副主任兼人文学部主任孙向晨教授、重庆大学博雅学院副院长唐杰副教授,以及中山大学专家学者齐聚一堂,围绕人工智能时代与博雅教育融合发展的核心命题,共同探讨人工智能时代拔尖创新人才培养的路径与策略。会议由中山大学博雅学院院长陈建洪教授主持。

     当前,人工智能技术正深刻改变教育的底层逻辑、知识传播方式与人才培养模式。面对这一变革,与会专家一致认为,博雅教育在AI时代非但不能弱化,反而应更加凸显其不可替代的“人本价值”。

     清华大学新雅书院甘阳教授指出,批判性思维、原创性思考与伦理判断力是人工智能无法替代的核心素养。他强调,要敏锐捕捉学生的焦虑心态,及时调整教学范式,通过加强小班教学、师生互动、小组讨论等方式,着重提升学生思考深度、口头表达和临场应变能力,以应对未来的不确定性。

     复旦大学孙向晨教授认为,人工智能在提供便利的同时,消除了学习中必要的“摩擦感”。要坚持经典文本细读,通过小组讨论、耕读、游学等具身性活动,强化人与人、人与文本的真实互动与思想碰撞,以此弥补技术带来的抽象化冲击,在算法时代守护教育的“厚重感”与人文温度。

     重庆大学博雅学院唐杰副教授指出,AI擅长赋予“形式”和“效率”,却无法提供基于生命体验的“意义”。要通过坚持经典阅读、读书会、实践项目等,以书院为载体,强化师生间的情感联结和具身经验,在慢节奏的深度浸润中,帮助学生找回被技术压缩的时间感与体验感。

     在自由研讨环节,与会学者普遍认为,人工智能技术的快速迭代与广泛应用,既为拔尖创新人才培养提供了广阔的空间,也带来了前所未有的挑战。博雅教育所强化的好奇心与想象力、观察力与感知力、审美力与分析判断力等核心素养,在人工智能时代更显珍贵。教育应从知识传授向能力培养转型,以学生成长为中心,既要探索技术赋能教育的潜力,更要深度挖掘AI共生时代的人文价值。

     陈建洪院长在总结发言中指出,面对人工智能浪潮,博雅学院要持续推进教育教学改革的前瞻性探索,着力推动课程体系改革、教师角色转型与教学方式优化,形成博雅教育理念下可持续、有特色的人才培养新路径,为学校的人才培养模式改革贡献鲜活的“博雅方案”。会议期间,与会嘉宾还参观了人文社会科学研究院与图书馆。

     本次座谈会的成功召开,汇聚了国内顶尖高校的智慧与办学经验,为人工智能时代博雅教育的理念创新与课程体系改革凝聚了重要共识,也为新时代高等教育的转型发展注入了新思路与新动能。

内容来源:中山大学人文高等研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

讲座预告| 美国威斯康辛大学麦迪逊分校韩瑞亚(Rania Huntington)教授 北美高校《聊斋志异》的跨文化教学

2026年6月4日 00:00

徐惠 2026-06-04 00:00 江苏

6月10日南师大开讲,韩瑞亚教授分享《聊斋志异》海外跨文化教学经验。

转载自“南师国教”

讲座预告

美国威斯康辛大学麦迪逊分校

韩瑞亚(Rania Huntington)教授

北美高校《聊斋志异》的跨文化教学

主题

北美高校《聊斋志异》的跨文化教学

主讲嘉宾

韩瑞亚(Rania Huntington)教授 

美国威斯康辛大学麦迪逊分校 (University of Wisconsin–Madison)

与谈嘉宾

韩    石    南京师范大学

国际文化教育学院副教授

徐正龙     南京师范大学

国际文化教育学院副教授

钱慧真     南京师范大学

国际文化教育学院副教授

杨    娟     南京师范大学

国际文化教育学院副教授

主持人

孙晓苏     南京师范大学

国际文化教育学院副教授

时间

2026年6月10日(星期三) 

下午 3:00

地点

南京师范大学随园校区

200号楼108室

内容提要:

《聊斋志异》篇幅短小而内容新奇多样,适合跨文化语境中的语言与文化教学。本讲座基于北美高校三十多年的教学经验,探讨如何将《聊斋志异》及中国志怪传统融入“初级古代汉语”、“古典文学选读”、 “亚洲神仙鬼怪”、“亚洲推想小说”等课程。讲座将重点分享两个层面的实践策略:一是如何将学者个人的志怪研究方向与更广泛的教学领域有效对接;二是如何指导不同语言、文化、专业背景的国际学生阅读和理解《聊斋志异》及其它志怪小说。本讲座旨在为国际中文教育、比较文学与翻译研究等领域的师生提供可操作的课程设计思路与跨文化教学范例。

主讲嘉宾介绍

韩瑞亚 (Rania Huntington),威斯康辛大学麦迪逊分校亚洲语言文化系中国文学教授,武汉大学文学院兼职教授。博士毕业于美国哈佛大学东亚语言与文明系,曾于南京大学、南开大学进修。研究领域为明清小说,特别关注志怪文学、文学与记忆、文学与地理等。代表作有Alien Kind: Foxes and Late Imperial Chinese Narrative (Harvard University Asia Center, 2004)(中译本《异类:狐狸与中华帝国晚期的叙事》, 中西书局,2019), Ink and Tears: Memory, Mourning, and Writing in the Yu Family(《墨与泪:俞氏家族的记忆、哀悼与书写》, University of Hawaii Press,2021)等。

与谈嘉宾介绍

韩石,南京师范大学国际文化教育学院副教授。主要承担中国古代文学、文化典籍阅读和来华留学生汉语课程等教学工作,专业方向为中国古代文学。

徐正龙,文学博士,南京师范大学国际文化教育学院副教授,从事国际中文教育。曾在美国、印尼等国推广中文及教师培训工作。主编《老外在中国》《问鼎HSK》;参编《中国历史常识》《菲律宾华语课本》等。

钱慧真,南京师范大学国际文化教育学院副教授,硕士生导师。主要研究方向汉语域外传播、语言接触及明清训诂学史研究。主持国家社科基金、教育部社科基金各一项、江苏省社科基金两项。出版专著《惠栋训诂研究》《<荷谷朝天记>校注》等四部,在《古汉语研究》《语言研究》《古籍整理研究学刊》等专业期刊发表论文20余篇。

杨娟,文学博士,南京师范大学国际文化教育学院副教授,曾任阿根廷国会大学孔子学院中方院长。研究方向为国际中文教育、海外华语与文化传承与传播。主持教育部社科项目、省社科项目、厅项目各一项,著有专著1部,发表论文10余篇。

关注我们

图文|国教院

排版|赵梓萌

审核|孙绪敏 孙道功

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

融合语义理解与图谱推理的党史文献模糊指代消解方法

2026年6月3日 12:43

原创 冉凌宇 2026-06-03 12:43 北京

模糊指代消解; 党史文献; 时序知识图谱; 图神经网络; 预训练语言模型

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:冉凌宇.融合语义理解与图谱推理的党史文献模糊指代消解方法[J].数字人文研究,2025,5(4):84-98.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

融合语义理解与图谱推理的党史文献模糊指代消解方法

冉凌宇

摘要:党史文献因广泛使用化名、代称并蕴含复杂隐性关联,其智能化处理面临严峻挑战。研究提出一种融合多策略语义理解与动态知识图谱推理的模糊指代消解方法,以解决该领域存在的语义鸿沟、时序演变与证据稀疏性三大难题。该方法构建了覆盖万余实体的党史领域词典与化名—真名映射库以注入先验知识;采用领域词典引导的负样本采样策略对预训练语言模型进行微调,增强其对特定表达的语义感知能力;最终在自建的时序知识图谱上,运用时间约束的图神经网络推理算法进行隐性关联挖掘与一致性校验。实验表明,该方法在权威评测指标上综合F1值达到80.6%,显著优于现有基线模型,并能有效发现深层历史关联。研究成果已集成至可视化原型系统,为党史研究提供了可靠的智能化工具。

关键词:模糊指代消解; 党史文献; 时序知识图谱; 图神经网络; 预训练语言模型

作者简介:冉凌宇,重庆邮电大学马克思主义学院讲师,Email:jadecrane@139.com 。

0  引言

党史文献作为记录中国共产党百年奋斗历程的珍贵宝藏,其独特的文本特征——包括高密度的化名使用、错综复杂的代称指向以及隐藏在字里行间的隐性关系网络,使其具有重要的历史价值,但也为当前的整理与研究带来了严峻挑战。习近平总书记所强调的“要用好红色资源,传承好红色基因,把红色江山世世代代传下去”,凸显了党史文献系统性整理与精准解读的极端重要性和紧迫性。虽然指代模糊是中文文献处理中普遍存在的现象,但相较于一般中文文献,党史文献中的模糊指代问题具有显著的领域特殊性与历史复杂性,主要体现在以下几个方面。

首先,化名使用的系统性与政治性。党史人物常因地下工作、政治运动等原因使用多个化名,且这些化名具有明确的时代背景与政治含义,如“伍豪”特指周恩来在大革命时期,其映射关系随时间演变,而非简单的同义词替换。其次,代称的高度语境依赖。如“井冈山部”“中央区”等代称,其指代实体随历史阶段变化,需结合具体时间、地点与组织背景才能准确解读,这与现代文献中相对稳定的命名习惯形成鲜明对比。再次,隐性关联的历史逻辑性。党史文献中的关联常隐晦表述,需通过历史事件时序、组织变迁脉络等外部知识进行推理,这对模型的时序推理与多源知识融合能力提出了更高要求。最后,语言表述的时代性。文献中大量使用特定历史时期的术语、简称与隐喻(如“教条宗派”),其语义已与现代汉语有所脱节,增加了语义理解的难度。以延安大学图书馆的实践为例,为完成早期中共中央机关报的整理,投入了大量人力耗时多年进行辨认、校对与核实,不仅进程缓慢,也难以避免疏漏。高密度代称和隐性关系的识别高度依赖专家经验,难以规模化推广,更制约了深层知识挖掘与利用。因此,如何突破当前人工处理效率的局限,实现党史文献的智能化、精准化处理,已成为一项重要而急迫的学术与工程课题。这不仅对深化党史学习、传承红色基因具有重大意义,也是新时代推进党史研究和文献开发利用的关键基础。

总结而言,党史文献智能处理的核心技术挑战集中于“模糊指代消解”与“隐性关联挖掘”两个关键问题。模糊指代消解旨在识别文本中指向同一实体的多样化表述并将其正确归类,典型如党史文献中人物化名、代称与不同称谓的统一识别问题。隐性关联挖掘则致力于发现文本中未明示但可通过逻辑推理得到的深层关系,如通过行为模式、时空交集等线索推断组织隶属或历史影响等非直接陈述的关联。

解决两个问题技术上必须克服三大难点。首先是语义复杂性,文献语言具有高度时代特定性,这要求模型必须深度融合历史背景与领域知识。其次是时序动态性,人物关系与事件影响力随历史进程动态变化,模型需具备时间感知的推理能力。最后是证据稀疏性,关键线索往往分散在大量孤立记载中,要求系统具备多跳推理和协同分析能力,同时还要应对历史信息本身的不完整性与矛盾之处。这些难题的共同根源在于领域知识的有效表示与注入困难,既要构建高质量的领域词典与实体映射库,又需解决符号化知识与向量化表示之间的语义失配问题,这是当前技术尚未完全突破的关键瓶颈。

针对党史文献中模糊指代与隐性关联挖掘所面临的以上核心挑战,本研究提出一种融合领域知识、预训练语言模型与时序知识图谱推理的多层次解决方案。其核心创新在于针对性设计领域适配的微调策略与时间约束的图谱推理算法,旨在系统性地解决党史文献模糊指代消解所面临的独特挑战。

1 相关研究述评与理论基础

本节将通过系统回顾模糊指代消解的核心技术路径及其在特定领域的应用,辨析现有成果的贡献与不足,明确本研究问题的独特性和解决思路。

1.1 指代消解的技术演进:从规则到深度语义理解

指代消解(Coreference Resolution)的研究经历了显著的方法论演进。早期基于规则的方法(如Hobbs算法)依赖语言学家的句法规则,虽具可解释性但难以适应语言多变性和大规模文本。随着机器学习发展,基于统计学习的方法(如决策树、条件随机场)通过从标注数据中学习规律,提升了处理能力,但严重依赖人工特征工程,且在历史文献等标注稀疏领域泛化能力有限。当前主流是基于深度学习与预训练模型的方法。以BERT、GPT等为代表的预训练语言模型,通过大规模语料训练获取了深层上下文语义表示,在多项通用共指消解任务上取得突破。

然而,这些通用模型在处理党史文献时面临严峻挑战:历史文本中高密度的化名、代称和时代性用语构成了显著的“语义鸿沟”,而通用模型缺乏对领域特定知识的感知能力。近年来,研究前沿进一步向融入外部知识和处理复杂指代现象(如桥接回指、语篇直指)的方向发展。同时,针对汉语特点的研究也受到关注,特别是“零指代”(即无显性语言形式的指代)现象,相关研究提出了基于修辞句法树的标注框架和分类体系,为中文篇章理解提供了新视角。这些进展为本研究设计融合领域知识的深度模型提供了重要参照。

1.2 知识图谱推理:从静态关联到时序动态挖掘

知识图谱推理旨在补全缺失事实。早期表示学习模型如TransE、ComplEx,通过向量空间运算模拟实体关系,但主要处理静态二元关系。对于党史文献中动态演变的关系,这类方法显得不足。

图神经网络(GNN)的最新进展为关系推理提供了新工具,它通过消息传递聚合邻域信息来学习节点表示。时序知识图谱推理是当前热点,旨在建模实体关系随时间的变化。部分研究尝试将时间信息嵌入图结构或GNN的消息传递过程,以捕捉动态演化。然而,现有方法多假设大规模、结构规整的图谱,而党史文献构建的图谱常面临实体稀疏、关系模糊且缺乏精确时间标注的难题,直接应用先进模型效果受限。

1.3 红色文献智能化处理:通用方法与领域局限

党史文献是“红色文献”的核心组成部分,中央及地方机构已开展了大规模的红色文献整理、出版与专题数据库建设工作。当前,红色文献研究正从基础的史料整理迈向深入的“学理化阐释”,这对其智能化、精细化处理提出了迫切需求。如何从海量文献中自动、准确地抽析人物关系、事件脉络与思想关联,成为释放红色文献丰厚价值、赋能学科建设的关键技术瓶颈。然而,针对中共党史文献这一特殊领域,智能化研究尚处于起步阶段。现有研究或偏重通用技术而忽视党史文献在化名、代称、组织沿革等方面的领域特异性;或集中于档案数字化与数据库建设,在深层语义理解与隐性关联推理层面探索不足。尤其缺乏能够同时克服语义鸿沟、时序演变和证据稀疏性三大挑战的端到端解决方案。

综上,当前研究存在如下空白:第一,技术融合不足,缺乏将深度语义理解(特别是适应领域特性的预训练模型微调)与动态时序知识图谱推理进行深度融合的端到端框架;第二,领域适配欠缺,现有共指消解模型未能有效注入和利用党史领域庞大的先验知识(如化名—真名映射、组织沿革),以解决语义鸿沟问题;第三,时序建模薄弱,在知识推理环节,多数方法未能将时间约束作为核心机制嵌入模型,难以应对党史中实体关系的动态演变。因此,本研究提出一个融合领域知识、预训练模型微调及时序图谱推理的多层次解决方案。

2  多策略融合的模糊指代消解模型构建

本研究提出的方案先采用分层递进的架构设计,通过构建党史领域专用词典与规则库为模型注入先验知识,有效应对术语与代称的领域特异性问题。继而利用经大规模语料预训练的语言模型通过领域适配的微调策略,增强对党史文本语义表示与上下文依赖的深层捕捉。最终将识别出的实体与关系置于融入了时间属性的动态知识图谱中,运用基于时序约束的图谱推理算法实现跨片段、跨文档的隐性关系挖掘与一致性校验。

这一框架的核心创新体现在两个方面:一是领域适配的微调策略,通过在预训练模型微调阶段引入党史领域词典引导的负样本构造方法和实体感知的遮蔽机制,使模型在学习过程中不仅依赖通用语义表示,更显式地关注领域内实体、化名及典型表达模式,从而有效缩小通用模型与党史文献之间的语义鸿沟。二是基于时序约束的图谱推理算法,该算法将时间信息作为“一等公民”嵌入至图神经网络的消息传递与表示学习过程中,使实体关系推理能够严格遵循历史事件发生的先后顺序与时效性约束,例如仅允许在特定时间窗口内可能存在的关系才被纳入推理路径,从而克服因时序演变而导致的关联歧义与证据断裂问题,为隐性关系的发现提供更加可靠且可解释的计算框架。

2.1 整体技术框架

本研究的整体技术框架是一个端到端的流水线系统(图1),它从原始党史文献文本的输入开始,经过一系列逐步深化的计算模块,最终输出经过消解的实体指代和挖掘出的隐性历史关联。

图1 多策略融合的模糊指代消解模型技术路线图

整个流程首先进入文本预处理与领域词典匹配模块(图1模块一),这里采用基于规则和词典的方法对原始文本进行初步清洗和结构化,包括句子分割、词汇切分以及词性标注等基础自然语言处理操作,更重要的是利用事先构建的党史领域实体词典和化名—真名映射库进行快速模式匹配。例如当文本中出现“伍豪”“周翔宇”等字符串时,系统能立即将其映射到实体“周恩来”并打上相应标签,这种基于词典的快速匹配不仅为后续深度语义模型提供了强领域先验,也显著降低了模型的计算负担和歧义程度。正如信息检索领域长期验证的高效关键词匹配技术如AC自动机或多模式匹配算法所展现的那样,能够为后续复杂模型提供可靠的预处理基础。

随后经过初步标注的文本进入语义模型精细计算模块(图1模块二),这里采用经过领域适配微调的预训练语言模型如RoBERTa或ERNIE进行深度语义表示和指代消解计算。具体而言,模型会接收带有领域标签的文本序列,通过其多层Transformer结构捕获上下文敏感的词汇表示,并特别关注那些未被词典覆盖的潜在指代项和模糊表述。模型微调过程中采用领域词典引导的负样本采样策略,例如刻意构造化名—真名混淆的样本以增强模型对党史特定表达的判别能力,其核心评分函数可形式化地表示为对候选指代链的似然评估:

其中公式中符号的含义为:表示在给定输入文本的条件下预测指代链的概率分布;W代表线性变换层的权重矩阵;表示预训练模型输出的特殊标记对应的上下文表示向量,该向量捕获了整个输入序列的语义信息;b表示偏置向量。整个模型通过最大化正确指代链的似然概率进行优化,这种设计使得模型既能够利用预训练获得的通用语言理解能力,又能够通过领域微调适应党史文献的特殊语义环境。

最终,经过语义模型处理后的实体和关系被送入时序知识图谱构建与推理模块(图1模块三),在这里系统会依据实体识别结果和关系抽取结果动态构建一个包含时间属性的知识图谱,其中每个事实三元组都被赋予相应的时间戳或时间范围标签。随后基于时序约束的图神经网络推理算法开始工作,该算法通过消息传递机制沿时间轴聚合邻域信息。例如当推断某个历史人物在特定时期可能的关系网络时,算法会自动过滤掉不在该时间窗口内的关联边,从而确保推理结果既符合语义逻辑又满足时序一致性。其图卷积操作可表示为:

其中公式中符号的含义为:表示节点i在第l+1层的特征表示;σ表示非线性激活函数如ReLU;N(i)表示节点i在时序约束下的邻居节点集合;表示节点i与节点j之间的注意力权重,该权重计算融入了时间一致性约束确保只有时间上合理的邻居节点才会被考虑; 表示第l层的可学习权重矩阵; 表示邻居节点j在第l层的特征表示。这种时序感知的图推理机制能够有效克服党史文献中常见的时间证据稀疏和关系动态演化问题,从而为隐性历史关联的发现提供可靠的计算框架。

2.2 领域知识导入

领域知识导入的核心在于构建高质量、高覆盖的党史领域词典与规则库,这是整个系统能够准确识别文献中化名、代称及隐性关系的基石,其构建过程首先依赖于对权威党史资料的系统性梳理,包括但不限于《中国共产党历史大事记》《中共党史人物传记》以及中央文献出版社出版的系列丛书。通过人工精读与专家校验相结合的方式从中提取标准实体名称、历史事件名称、重要机构名称以及地理名称等形成基础实体词典,每个实体都赋予唯一标识符并关联其属性信息如出生年份、职务变动、重要活动时间等。例如从《中共党史人物别名录》中系统收录“毛润之”映射至“毛泽东”“李德胜”映射至“毛泽东”等一系列化名与真名的对应关系。同时根据《中国共产党组织史资料》建立组织机构的历史名称演变链条,如“中共中央北方局”与“中共中央华北局”在不同时期的隶属关系与职能变迁。

在化名—真名映射库的构建中不仅需要建立静态对应表,更要充分考虑历史语境下化名使用的时空特性,因此每个映射关系都会附加时间有效期字段与上下文使用场景注释。例如“伍豪”作为周恩来的化名主要在大革命时期至延安前期使用,而“胡公”则是其在上海地下工作时期的常用代称,这种时空约束的映射关系能极大提升后续推理模块的准确性。映射库的构建采用半自动化流程,首先基于已有史料建立初步映射表,然后通过算法在大量党史文献中进行匹配验证与冲突检测,当发现同一化名在不同时期可能指向不同人物时,自动标记需要人工介入校验的冲突项,其验证过程可以形式化表示为:

其中Verify表示验证函数,其输出为1或0,分别代表验证通过或不通过;alias表示待验证的化名字符串;entity表示待验证的标准实体名称;表示当前文献的时间上下文,以年份数值形式表示;K表示化名—真名知识库,是一个包含多条映射记录的数据集合;∃是存在量词符号,表示至少存在一条满足条件的记录;分别表示某条映射记录中化名使用的起始时间和结束时间,共同定义了该化名的有效使用时段。整个公式表示只有当知识库中存在一条映射记录,且当前时间上下文t处于该记录定义的有效时间范围内时,验证才会通过。

针对党史文献中频繁出现的典型指代模式还需构建一套多层级的匹配规则库,这些规则不仅包括简单的字符串匹配,如“陕北”代指“陕甘宁边区”,更包含基于上下文的推断规则,如当文本中出现“红一方面军”与“中央红军”且在1935年左右的语境中应视为同一实体。规则库采用声明式语法描述便于维护与扩展,每条规则由触发模式、约束条件与映射动作三部分组成,例如一条典型的位置代称规则可表示为:

PATTERN: ["陕北", "陕甘宁"]

CONSTRAINT: year >= 1937 AND year <= 1947

ACTION: MAP_TO("陕甘宁边区")

在这段规则代码中:PATTERN 是模式匹配关键词,后面跟着的列表["陕北", "陕甘宁"]表示需要匹配的文本模式,即当文本中出现这两个词中的任何一个时可能触发此规则。CONSTRAINT 是约束条件关键词,后面的逻辑表达式 year >= 1937 AND year <= 1947 表示此规则仅在文献时间处于1937—1947年间才会被激活,其中year是一个系统变量,表示从文献元数据或内容中提取的时间信息。ACTION 是动作关键词,MAP_TO("陕甘宁边区")表示当模式匹配且约束条件满足时,系统将把匹配到的文本映射到标准实体“陕甘宁边区”。

这套规则库与词典共同构成领域知识的核心载体,通过将其嵌入到预处理与语义计算模块中,系统能够显著提升对党史文献中复杂指代的识别精度,为后续深度学习模型提供强领域先验的同时也增强了整个系统的可解释性,这正是历史文献处理中不可或缺的可靠性保障。

2.3 基于预训练模型的语义消解模块

基于预训练模型的语义消解模块首先需要解决如何将非结构化的党史文献文本转化为模型可处理的规范化输入格式,这里的数据预处理流程在继承前序模块输出的领域词典标注基础上进一步深化。具体而言,每个文本片段都会被转换为一个带有丰富标注信息的序列结构,其中包括原始词汇、词性标注、实体类型标注,以及从文献元数据中提取的时间信息标注。特别重要的是对时间信息的处理,我们采用统一的时间标准化方法,即将所有日期表达转换为标准时间戳格式,同时为每个文档片段自动生成一个时间上下文向量:

其中表示时间上下文向量,表示该文献片段描述事件的可能最早发生时间,表示该文献片段描述事件的可能最晚发生时间,方括号表示向量封装,即这是一个包含两个时间元素的二维向量。在标注方案设计上采用BIO标注体系对实体提及进行标记,但同时扩展了时间维度的标注信息,每个实体提及不仅标注其类型,还标注其时间属性。例如“伍豪(1932)”表示这个提及在1932年上下文中出现,这样的设计使得模型能够显式地学习到指代现象随时间演变的规律。

在模型选型方面我们选择RoBERTa作为基础预训练模型而非原始BERT,这主要因为通过改进训练策略如移除Next Sentence Prediction任务,采用更大批次训练和更长时间训练等方式,RoBERTa在多项自然语言理解任务上展现出的性能优势。更重要的是,RoBERTa的动态掩码机制使得模型在多次训练周期中看到不同掩码模式的同一文本,这特别适合党史文献这种训练数据相对稀缺的场景,能够有效提升模型的泛化能力。此外,RoBERTa在大规模中文语料上的预训练效果已经得到多项研究的验证。

针对党史文献指代消解的特殊需求,我们设计了一套领域自适应的微调策略,其核心是一个多任务学习框架同时优化指代链预测和时序一致性验证两个相关任务。在损失函数设计上我们采用加权多任务损失函数:

其中 是指代消解的主损失函数,采用标准的交叉熵损失;是时序一致性验证的辅助损失函数,和 采用对比损失;为平衡两个任务重要性的超参数。指代消解损失函数具体定义为:

这里N表示训练样本数量;表示候选指代链类别数;是指示函数当样本i属于类别j时为1,否则为0; 是模型预测样本i属于类别j的概率。

在正负样本构造策略上,我们采用基于领域词典的引导式采样方法,正样本包括明确的历史人物化名对应关系,如“伍豪—周恩来”;负样本则包括刻意构造的时序冲突样本,如在1920年文本中出现“总书记”指代(此时中国共产党尚未成立);以及语义相似但实际不同的混淆样本,如“中央局”与“中央分局”这类容易混淆的组织机构名称。这种样本构造方式确保模型不仅学习语义相似性,还要学习时序约束和细粒度语义差异,从而全面提升在党史文献上的指代消解精度和鲁棒性。

2.4 时序知识图谱构建与推理模块

时序知识图谱构建与推理模块的核心在于建立一个能够捕捉历史动态演变的知识表示与推理框架,其图谱模式设计采用扩展的时间四元组结构而非传统的三元组,即每个事实表示为(头实体,关系,尾实体,时间戳),其中时间戳不仅可以是一个具体的时间点,也可以是一个时间区间。这种设计使得图谱能够准确记录诸如“毛泽东1935—1943年担任中共中央军委主席”这样的时效性事实。在存储方案上,我们采用时态图数据库进行存储,每个实体和关系都带有有效时间属性,同时建立专门的时间索引以支持高效的时间范围查询,这种存储方式使得系统能够快速检索特定时间段内的子图结构,为后续的时序推理提供数据基础。

隐性关联推理算法采用我们专门设计的时序图神经网络模型(T-GNN),该模型在传统图神经网络的基础上引入了时间感知的消息传递机制。其核心思想是在信息聚合过程中加入时间约束,确保只有时间上合理的邻居节点才能参与信息传递。具体而言,对于每个实体节点i在时间t的表示更新过程可以表示为:

其中 表示实体i在第l层神经网络、时间下的特征表示向量,l代表神经网络的层数深度;α代表非线性激活函数,如ReLU或Sigmoid,用于引入模型的非线性表达能力; 是第l层中分别用于更新节点自身状态和聚合邻居状态的可学习权重矩阵; 表示实体i的邻居节点集合; 是一个计算得到的时间感知注意力权重,用于衡量在时间下邻居节点j对当前节点i的重要性,其值介于0和1之间; 则是邻居节点j在第l层、时间t的特征表示。

是时间感知的注意力权重,计算方式为:

这里是代表时间上下文的时间特征向量;是将时间和节点特征映射到同一向量空间的可学习参数矩阵;a是注意力机制中的参数向量,用于计算注意力能量;∥表示向量拼接操作,用于将不同来源的特征信息组合在一起;Leaky Re LU是一种改进的激活函数,允许较小的负值梯度通过,有助于缓解梯度消失问题;k是求和索引,代表节点i的所有邻居节点。

在链接预测任务中我们采用时间约束的评分函数,对于候选三元组(h,r,

其存在概率得分为:

其中和  分别是在时间τ下的头实体、尾实体和关系的表示向量。这些向量通过T-GNN模型在特定时间片上的前向传播计算得到。 是一个与特定关系r相关的可学习变换矩阵; 表示向量的L2范数的平方,用于衡量向量之间的欧几里得距离。整个推理过程的伪代码实现如下:

这个算法首先从时序知识图谱中提取时间窗口内的子图确保覆盖相关时间上下文,然后通过T-GNN模型计算所有实体在时间下的表示,最后对每个候选实体计算时间约束的链接预测分数并返回最可能的结果。这种方法不仅能够进行准确的时序链接预测,还能发现诸如“某人在特定时期与哪些组织存在潜在关联”这类隐性关系,为党史研究提供深层次的洞察力支撑。

3 实验分析、案例研究与系统应用

3.1 实验设置与基线模型

为系统评估本研究提出方法的有效性,我们构建了一个专门针对党史文献模糊指代消解任务的数据集,该数据集源自中央文献出版社出版的《中国共产党历史》第一卷和第二卷、《毛泽东年谱》以及从中央档案馆精选的100份1949年前党内文件。这些文献经过重庆邮电大学马克思主义学院三位党史专家历时六个月的精细标注,不仅标注了文本中所有实体提及及其共指链关系,还额外标注了每个提及的时空上下文信息以及难以通过表面字符串匹配发现的隐性关联。最终数据集包含12,857个文档片段、45,632个实体提及和9,741条共指链,其中化名与代称的复杂案例占比达到37.5%,充分反映了党史文献处理的特殊挑战性。

数据集的划分遵循机器学习标准实践,按7:1.5:1.5的比例随机划分为训练集、验证集和测试集,并确保各集合中文档类型(著作、年谱、文件)的比例基本一致,以避免分布偏差。

在标注质量把控方面,我们实施了严格的流程:(1)规范化:编撰了详细的《党史文献实体与共指标注指南》,明确化名、代称、隐性关联的标注标准与边界案例;(2)迭代与培训:标注过程采用多轮迭代,每轮后组织专家对争议案例进行讨论并更新指南,对标注员进行统一培训;(3)交叉校验:每份文献最终由一位专家标注、另一位专家校验,并以计算随机子样本的标注者间信度达到0.85以上为标准来量化评估标注一致性。

针对专家标注不一致的情况,处理流程如下:首先由两位标注专家进行讨论协商;若无法达成一致,则提交至由第三位资深党史研究员担任仲裁专家,依据史料和指南做出最终裁定,并将此案例作为典型补充至标注指南中。

关于数据可用性,由于所涉党史文献的权威性与敏感性,原始全文语料及完整标注数据集暂不适用于公开开源,以恪守文献管理规定。但为促进学术交流与技术复现,我们计划在论文发表后,在严格遵守数据安全与隐私规范的前提下,于项目主页(网址待定)提供经脱敏处理的样例数据集、完整的标注指南及实体词典,供学界同行参考。研究者亦可通过正式学术合作途径,联系作者申请受限访问部分数据。

在评估指标选择上,我们采用共指消解研究社区广泛认可的MUC、B-CUBED和CEAF三指标综合评价体系。其中MUC指标最早由MUC-6会议提出,并由Luo(2005)系统分析了其通过计算共指链间最小链接操作数来评估mention-pair一致性的原理;B³指标由Amigó等人提出,其核心思想是基于每个项(item)的精度和召回率进行平均,该指标后被引入共指消解领域,用于评估提及(mention)层次的链接一致性;CEAF指标也由Luo提出,该指标通过寻找系统输出的实体簇与参考标注的实体簇之间的最优对齐方式(constrained entity alignment),并计算其F1值来评估性能。这三个指标从不同角度衡量共指消解性能且互为补充,我们报告每个指标的F1值并以三个F1值的平均值作为总体性能评价标准,这种综合评估方式能够全面反映模型在不同类型指代错误上的表现。

为进行公平且全面的对比实验,我们选择了三类具有代表性的基线模型:第一类是传统规则与统计方法的代表,包括Stanford CoreNLP系统提供的共指消解模块和基于特征工程的Berkeley Coreference System。第二类是深度学习方法代表,包括在CoNLL-2012共享任务上表现优异的端到端神经网络模型,以及基于标准BERT和RoBERTa的微调模型。第三类是专门针对历史文献设计的定制化方法,包括基于时序约束的规则系统和结合领域词典的统计模型。所有基线模型均使用相同的训练、验证和测试数据集,且超参数均经过网格搜索优化至最佳性能,确保对比实验的公平性和结果的可信度。

3.2 结果与分析

在主实验对比部分,我们通过系统性的量化评估证明了本文提出的多策略融合模型在党史文献模糊指代消解任务上的显著优势。如表1所示,我们的模型在MUC、B-CUBED和CEAF三个权威评测指标上全面超越了所有基线模型,其中在综合F1值上达到了82.3%的最高性能,相比最佳的基线模型RoBERTa+CRF提升了7.2个百分点,这充分证明了融合领域知识、深度学习与时序推理的整体方案的有效性。

表1 各模型在测试集上的性能对(%)

值得注意的是,本研究的模型在召回率指标上的提升尤为明显,这在党史文献处理中具有重要意义,因为发现所有潜在的指代关系往往比精确识别部分关系更具挑战性也更有价值。正如普拉丹(Pradhan)等人在探讨稳健语言分析时所指出的,在历史文献分析中高召回率通常意味着系统能够捕获更多有价值的隐性关联。

在消融实验分析中,我们通过控制变量方法逐一验证了三个核心模块的贡献度,具体设置了四个对比实验配置:完整模型、移除领域词典模块、移除预训练模型微调模块,以及移除图谱推理模块。实验结果清楚地表明每个模块都对最终性能有着不可或缺的贡献。

表2 消融实验结果(平均F1值%)

移除领域词典模块导致性能下降最为显著达到7.0个百分点,这突显了领域知识在党史文献处理中的基础性作用,特别是在处理高度领域化的化名和代称时,缺乏先验知识会导致模型产生大量误判。移除预训练模型微调策略使性能下降3.6个百分点,这表明尽管通用预训练模型提供了强大的语义表示基础,但缺乏领域适配仍然限制了其在党史文献上的表现。移除图谱推理模块带来3.1个百分点的性能下降,证明了时序推理在发现隐性关联方面的重要价值,这一发现与Luo在共指消解评估指标上的工作一致,并已被广泛引用,其核心思想表明,引入适当的约束(如时空约束)能够显著提升历史文献分析的准确性。

这些消融实验结果有力地证明了我们提出的多策略融合方案的必要性和有效性,每个模块都解决了党史文献模糊指代消解中的特定挑战,它们的有机组合才使得系统能够全面应对语义复杂性、时序动态性和证据稀疏性等多重困难,为党史文献的智能化处理提供了一个完整而高效的解决方案。

3.3 典型案例研究

一个极具代表性的案例来自对1931年《红旗周报》第24期一篇关于苏区工作报告的文本分析(表3),其中出现了“朱毛红军”“井冈山部”“中央区”等多个代称,以及“特委”“前委”等组织机构缩写。系统首先通过文本预处理与领域词典匹配模块识别出“井冈山”是一个地理位置实体,并将其与“井冈山革命根据地”这一标准实体链接,同时通过化名—真名映射库将“朱毛”分解并映射到“朱德”和“毛泽东”两个实体。随后语义模型精细计算模块基于上下文分析,发现“井冈山部”与“朱毛红军”存在共指关系,其置信度得分达到0.92。这是因为模型在微调过程中学习到“部”在军事文献中常作为“部队”的缩写,而“朱毛红军”正是井冈山时期对工农红军第四军的习惯称呼。最后时序知识图谱推理模块介入,根据文献时间1931年查询知识图谱,发现此时毛泽东同志已离开井冈山前往赣南闽西地区开辟中央苏区,因此系统推断文中“中央区”极可能指代新开辟的中央革命根据地而非传统的井冈山地区,这一推断最终通过图谱路径查询得到验证:在1931年的子图中存在“毛泽东—任职于—中央苏区”和“中央苏区—别名—中央区”两条关联边。

另一个典型案例涉及对1942年延安整风运动期间一份党内学习文件中“教条宗派”与“经验宗派”指代对象的隐性关系挖掘。系统初始分析仅能识别这两个术语为抽象概念实体,无法直接关联到具体人物。语义消解模块通过分析上下文,发现该文件多次提及“莫斯科回来的同志”和“山沟里的马克思主义”等短语,结合领域词典将其分别映射到“留苏派”和“本土派”两个群体。时序图谱推理模块随后在1942年的子图上执行多跳查询,首先通过“王明—属于—留苏派”和“毛泽东—倡导—山沟里的马克思主义”等关系找到候选人物集合,然后计算这些人物与“教条主义”“经验主义”等概念在历史文献中的共现频率及其在组织网络中的中心度指标。最终系统发现“教条宗派”与王明、博古等留苏领导人存在强关联,其关联置信度达0.87,而“经验宗派”则与周恩来、彭德怀等具有丰富实践经验的本土领导人关联密切置信度达0.79,这一发现与金冲及在《二十世纪中国史纲》中对该历史时期的分析结论高度一致。

表3 典型案例分析过程

这两个案例充分展示了系统如何通过多模块协同工作,逐步从表面文本深入到隐性关联挖掘,其推理过程不仅依赖于语义理解,更紧密结合了历史时空背景与组织网络关系,最终得出具有高度可信度的结论,为党史研究提供了传统人工阅读难以发现的深层洞察。

3.4 原型系统应用

基于前述多策略融合模型的研究成果,本研究开发了一个面向党史研究人员的可视化原型系统,该系统旨在将复杂的算法过程封装为直观易用的交互工具,真正实现人工智能辅助历史研究的落地应用。该系统核心界面采用三栏式设计,左侧为文献上传与预处理区域,支持用户批量导入TXT或PDF格式的党史文献,系统会自动解析文本并调用领域词典匹配模块完成初步的实体标注。中间主体部分为智能阅读界面,采用色彩编码技术对文本中的不同实体类型进行高亮显示。例如人物实体用蓝色、组织机构用绿色、地理位置用橙色,而化名与代称则用特殊的闪烁边框标注以引起研究者注意,当用户将鼠标悬停在任一标注实体上时,系统会实时弹出浮动窗口显示该实体的标准化名称、生平简介以及在当前文献中的所有出现位置,这种设计将显著降低研究人员交叉核验不同文献中同一实体的时间成本。

系统右侧为动态知识图谱可视化面板,这是整个原型系统的创新亮点,它能够实时展示从文本中抽取并经过推理增强的时序知识图谱,研究者可以通过顶部的时间轴滑动条自由选择特定历史时期,图谱会自动演变为该时间段的子图结构,清晰呈现人物、事件、地点之间的关联关系。例如当研究者将时间轴调整至1935年时,图谱会突出显示长征途中关键会议的组织关系,而拖动到1945年则自动转换为七大后的中央领导机构网络,这种时序动态可视化功能使得传统静态图谱难以展现的历史演变过程变得一目了然,正如贝克(Beck)等人在对动态图可视化的综述中所指出的,时变网络的交互式探索能够极大增强用户对复杂系统演进规律的理解。

该系统还提供一键生成智能分析报告的功能,能够自动汇总文献中的核心实体、关键关系及其时间分布,并标识出需要人工重点核验的潜在矛盾或不确定推断,这种设计既发挥了人工智能高效处理大规模数据的优势,又充分尊重了领域专家在最终判断中的主导地位,完美体现了人机协同的先进理念。具体的系统原型如图2所示。

图2 党史文献智能分析系统原型界面示意图

4  结论与展望

针对党史文献中因高密度化名、代称和隐性关联带来的模糊指代消解难题,本研究所提出的融合领域知识、预训练语言模型与时序图谱推理的多层次技术框架,经实验验证有效。在权威评测指标上,该方法的综合F1值达到80.6%,显著优于现有基线模型,证实了其在处理党史文献语义复杂性、时序动态性与证据稀疏性方面的优越性能。

从理论层面看,这项工作的核心价值在于构建了一套“领域知识深度耦合”的文本智能处理新范式。这一范式推动了马克思主义理论、历史学与信息科学的深度融通,将历史考据的内在逻辑转化为可计算模型的外在约束,为数字人文领域贡献了知识驱动型人工智能的一个典型案例。所采用的领域词典引导的预训练模型微调方法,为破解专业领域普遍存在的“语义鸿沟”问题提供了可迁移的技术路径,探索了符号知识与统计语义模型协同增强可解释性的新可能。进一步地,所设计的时间约束图谱推理算法,为历史这类动态演进系统的知识建模,提供了一个具备严格时序感知能力的通用计算框架,对时序知识表示与推理的基础研究具有启发意义。

在实践应用层面,该研究成果展现出多方面的拓展潜力。其可直接应用在于赋能红色文献的数字化与智能化传承,为构建下一代核心档案库提供从“数字储存”升级为“智能解读”的关键技术支持。在此基础上,能够深度支撑智慧党建与新型学习教育平台的构建,实现关联查询、智能问答与脉络溯源等深度知识服务。该框架本身具备良好的可迁移性,可扩展至军史、地方志、古籍整理等具有类似文本特征的专门领域,并为未来融合多模态史料分析奠定了基础。从更宏观的视角看,通过对海量文献中隐性关联的规模化挖掘,该方法有望为探究长时段、结构性的历史演变规律提供数据驱动的分析工具,开辟史学研究的新路径。

尽管取得了上述进展,当前研究仍存在若干可改进之处,例如对极罕见代称的处理能力、对长文档的全局连贯性建模尚有提升空间。未来的工作将着眼于引入主动学习机制以更有效地捕捉长尾案例,设计跨文档注意力模型以加强长距离依赖建模,并致力于拓展面向多源异构数据的融合推理能力,以期推动历史文献智能分析系统向更深、更广的维度演进。

图片

排版:樊军君

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

转载 | 纪要 :【联结·沙龙】王春光:AI时代社会政策范式转型:人机共生权的建构

2026年6月1日 09:00

中大高研院 2026-06-01 09:00 广东

以下文章来源于:中山大学人文高等研究院

中山大学人文高等研究院

发布中山大学人文高等研究院相关学术信息

2026年5月19日下午,中山大学人文高等研究院与中山大学人文社会科学研究院联合主办的“联结·沙龙”第63期在中山大学深圳校区文学园致用·观澜学术会议室举行。本次沙龙的主题为“AI时代社会政策范式转型:人机共生权的建构”,由中山大学人文高等研究院特邀访问教授王春光主讲,中山大学人文社会科学研究院校内驻访学者、马克思主义学院副院长李珍教授主持。

中山大学人文高等研究院高级研究员朱鸿林、黄速建,特邀访问教授刘序枫、孙显斌,特邀访问青年学者惠春寿、孔令伟,中山大学人文高等研究院副院长程方毅教授,中山大学人文社会科学研究院副院长谢耘教授,校内驻访学者刘虎教授、周国梅教授、崔建英副教授、李智副教授及智能工程学院姬艳丽教授、管理学院吴小龙副教授参与对谈研讨。

王春光研究员在沙龙中

讲座伊始,王春光研究员引述了柯林斯(Randall Collins)《发现社会》(The Discovery of Society)中的提示:人们都生活在社会之中,因而常常自以为了解社会,但社会不因其日常而透明,而是有其隐秘的结构。人工智能(Artificial Intelligence)亦是如此,尽管已进入日常生活与公共治理的视野,但作为一种社会现象,它迄今尚未得到充分的理解。在本次沙龙中,王春光研究员在承认技术趋势不可逆的前提下,探讨了AI的社会后果以及社会政策如何为“技术向善”创造制度性条件

柯林斯、马科夫斯基《发现社会》(8th Edition, McGraw-Hill 2009)及其中译本(商务印书馆2014年)

一、人工智能的社会后果

人工智能不仅涉及技术议题,更牵动社会结构、经济组织和文化生活的变化。不同群体对AI发展的切身感受大相径庭:智能工具已深度参与到一部分人的日常生活之中,也有人对人工智能的运行原理和使用方式一无所知。王春光研究员指出,这不只是知识上的差距,更预示了智能社会中能力、机会与生活方式的重新分配。

职业替代是目前人工智能造成的最引人瞩目的社会后果之一。在平台劳动中,骑手和网约车司机在路线、时限、派单和评价等方面受制于系统安排,劳动者看似灵活,实则深受平台规则的支配与管控。尽管此种局面不能全然归咎于AI,却揭露出数字化劳动关系中的基本矛盾:在提高效率的同时,技术也推动了劳动者与平台、资本、组织之间权力关系的重组

与以往技术革命导致的体力替代不同,AI带来了更具根本性的变化,即智力替代:教师、医生、工程师等以知识与判断为基础的职业同样面临任务重组乃至岗位消失的危机。比失业问题更加严峻的,是人类主体性遭受的挑战。以往的技术革命多以增强人的主体能力为方向,智能社会的崭新之处,则是与人并存、参与社会行动的非人行动者的出场。人机共生不再是自然状态,而是有赖于制度性建构的社会关系

“人机共生”构想的提出者利克莱德(J. C. R. Licklider, 1915-1990)

二、人工智能时代的社会结构、需求与风险

从农业社会、工业社会、信息社会到智能社会,社会运行的底层逻辑不断重塑,社会结构、社会需求与社会风险折射出各阶段社会运行逻辑的变迁:农业社会的核心挑战是土地集中与奴役的风险,资本集权、失业贫困与劳资冲突在工业社会成为主要矛盾,后工业社会则面临着信息垄断和社会极化的问题。在智能社会中,社会结构的中间层进一步压缩,两极分化愈演愈烈。社会极化主要体现在以下三方面:

(1)阶层结构变化。掌握AI、数据和资本的少数群体将在新的社会结构中占据优势地位,中间阶层则面临被压缩与替代的风险。所谓“职业反噬”,即开发、训练、使用AI的技术劳动者也可能被AI压缩乃至替代。若特定岗位或职业整体遭到替代,便将面临“培训什么、去向何处”的再就业培训难题。

(2)AI使用能力结构的极化。经济条件、年龄代差、城乡差异、区域差异和阶层差异等因素都可能影响个体理解与有效使用AI的能力。如果社会政策只停留在收入补偿的层面,忽视基本AI知识、技能和判断力的培养,在新的技术条件下,便会导致能力鸿沟的扩大。

(3)社会治理风险。平台、资本与技术的结合会削弱经济参与的多样性,使中小微企业、个体经营者和普通劳动者更难进入数字市场。数据产权、隐私保护和安全问题也愈发突出,个人数据在大规模采集中转化为财富,却难以回流为社会福利。AI还可能强化形式主义治理:文书生成与考核应对愈发便利,反而使实地调查、真实沟通和科学决策面临冲击。

三、以人机共生权为核心的智能社会政策范式

社会政策是国家为应对现代化转型中的社会风险、保障民生、促进公平而形成的制度规范。从历史演进上看,大体经历了从济贫到权利、从风险兜底到社会投资的过程:1601年英国《济贫法》以维持劳动力再生产和社会秩序为核心;十九世纪中后期的德国社会政策着重关注劳资冲突与分配调节;1942年英国《贝弗里奇报告》推动了福利国家建设;后工业社会则强调人力资本、积极福利和社会韧性。

1942年贝弗里奇(William Beveridge)《社会保险及相关服务》(Social Insurance and Allied Services)报告

智能社会的政策议题转向全民基本收入(UBI)、全民基本服务(UBS)与智能社会政策。UBI致力于使基本生活保障从就业收入中部分解耦,UBS聚焦于教育、医疗、照护和公共服务,但二者实际上回应的是相同的问题:当职业不再稳定、社会风险随时可能降临,人的体面生活和自由发展就不能完全依附于就业身份。

王春光研究员沿着这一脉络阐述了人机共生权的基本意涵:人的发展权与社会权同等重要,我们不仅需要化解AI带来的主体性危机,更要发挥制度性力量,使AI转化为提升人类主体性的工具。因此,智能时代的社会政策范式需要从劳动保护、社会保护转向对人类主体性的保护与提升。终身教育培训基金、全民基本收入和AI能力建设,都是智能时代“投资于人”的重要制度形态。

沙龙现场

在交流探讨环节中,与谈嘉宾围绕基本保障、技术竞争、公共判断和风险预判等议题展开充分探讨。对于AI时代的基本社会保障,中山大学人文高等研究院高级研究员朱鸿林提出,AI应帮助失业者重新进入劳动市场,在UBI、UBS之外,还需重视全民基本知识(UBKUniversal Basic Knowledge,把AI知识普及纳入社会政策。中山大学人文高等研究院特邀访问青年学者惠春寿则提出,人的不可替代性不仅体现于能力,更源于其生活经历、情感、有限性乃至死亡。UBI的意义不只是分红,更提供了重新思考收入、劳动和社会承认关系的契机。

中山大学人文高等研究院副院长程方毅教授指出,社会政策折射出背后的伦理观念问题,人文社会科学学者亟需思考如何将人工智能适当地应用于既有领域以促进社会公正,AI的蓬勃发展为我们提供了反思启蒙运动以来形成的劳动观的重要契机。

对于技术竞争与价值理性的关系,中山大学人文高等研究院特邀访问教授孙显斌从生产力水平、国家竞争和全球价值链位置出发指出,高福利制度需要相应的物质条件支撑,应当避免AI技术的恶性竞争。中山大学人文高等研究院特邀访问教授黄速建则补充,历次工业革命都伴随着劳动替代,同时催生了新的就业形态,关键不在于技术发展的快慢,而在于如何使工具理性与价值理性协同。这一组讨论把社会政策问题放回生产力条件、国家竞争和技术伦理的张力之中,提示制度设计不能把技术效率当作唯一尺度

对于人工智能的社会影响,中山大学管理学院吴小龙副教授指出,其技术发展一方面提高了工作效率、催生了新型的创业形态,另一方面却并不必然释放闲暇,反而强化了企业组织的控制手段,使劳动者更加劳累与焦虑。中山大学人文高等研究院特邀访问青年学者孔令伟指出,掌握自动化叙事工具的平台、资本或公权力能够更加高效地影响历史记忆,人文学科独立判断的价值因而益加重要。中山大学人文社会科学研究院校内驻访学者周国梅教授、李智副教授则分别从大语言模型与AI在古代文献释读等领域的应用的角度出发,探讨了AI在规则学习、群体偏见和多智能体协同等方面的不足与学生对算法指导的期待。可见,AI不仅创造了新的机遇,也暗藏控制增强、记忆重写和判断力弱化等社会风险

对于AI风险研判与社会治理问题,中山大学智能工程学院姬艳丽教授指出,AI(尤其是具身智能技术)目前仍处于早期发展阶段,真正进入乃至重塑社会仍需时间,不应过分高估其社会影响。在探讨技术风险时,社会科学研究者应更加准确地理解技术发展的状况,建立联通技术能力、资本热潮和制度建设的研判框架

王春光研究员回应道,理解技术有助于减少抽象恐惧,技术一旦进入生活和社会运行,就不能回避伦理底线、资本泡沫和制度滞后等问题。技术变革不会自动带来人的解放,关键在于如何使用技术,如何重建劳动关系、社会流动、权利分配和生活意义。面对更加不稳定、更加流动的就业前景,社会政策需要提供制度托底,为个人、家庭与社会提供保障。

活动合影

最后,李珍教授总结指出,人文社会科学的担忧往往先行于技术的发展,在严重的社会后果产生之前预判技术风险、探讨伦理规范。技术有其发展规律,社会也必须发展出相应的伦理、制度与公共判断力。

内容来源:中山大学人文高等研究院

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

《数字人文专业委员会简报》2026年第5期

2026年6月1日 14:47

数字人文专委会 2026-06-01 14:47 山西

以下文章来源于:全国报刊索引

全国报刊索引

创立于1955年,是上海图书馆主管主办并倾力打造的专业信息服务品牌。六十余年来,《全国报刊索引》已发展成为汇聚两百年历史文献成果,集成近现代报纸、期刊、图书、会议论文为一体,并进行内容深度挖掘和组织的综合性知识服务体系。

编者按本期简报设有前沿透视、新书推介、会议培训和学术观察四个栏目。前沿透视栏目介绍了数字人文上榜 2026 年国家社会科学基金年度项目重点研究方向、2025 年数字人文奖(DH Awards 2025)的获奖结果、南理工团队发布人文社会科学领域学术大语言模型“兰章”、 EvaHan2026 古籍多模态 OCR 国际评测在西班牙成功举办等资讯。新书推介栏目关注了数字人文领域最新出版的《数字人文案例分析》、《数字人文引论》和《嵌入式教学法:数字人文教学与变革的基础》三本中外著作。会议预告栏目报道了三场即将召开的会议及征稿启事:数字人文与区域国别学研讨会、“人机智能共同体时代的语言研究”暨第九届计量语言学学术研讨会、第四届粤港澳大湾区跨学科博士论坛征稿和两场专题培训:第四届语料库与数字人文暑期学院、科技遗产与数字人文工作坊。学术观察栏目精选五篇近期研究成果,围绕数字人文理论研究、数字人文项目实践等议题展开,持续追踪数字人文方法的创新研究与技术反思。

本期目录

前沿透视

  • 2026 年国家社会科学基金年度项目重点研究方向发布,数字人文上榜

  • 2025 年数字人文奖(DH Awards 2025)获奖结果

  • 南理工团队发布人文社会科学领域学术大语言模型

  • EvaHan2026 古籍多模态 OCR 国际评测在西班牙成功举办

新书推介

  • 《数字人文案例分析》

  • 《数字人文引论》

  • 《嵌入式教学法:数字人文教学与变革的基础》

会议培训

 会议预告

  • 数字人文与区域国别学研讨会

  • “人机智能共同体时代的语言研究” 暨第九届计量语言学学术研讨会

  • 第四届粤港澳大湾区跨学科博士论坛

 专题培训

  • 第四届语料库与数字人文暑期学院

  • 科技遗产与数字人文工作坊

    学术观察

    • 国家语料库 CNC 的研制

    • “数字人文” 还是 “计算人文”:汉译术语定名的学科建设视角

    • 面向中文学术场景的 AI 生成文本检测系统设计与实践 —— 以 ScholarGuard 平台为例

    • 数字人文视域下的文学解释路径:身体与数据

    • 中共党史研究语料智能体的构建经验与思考

    前沿透视

    2026年国家社会科学基金年度项目重点研究方向发布,数字人文上榜

    2026年5月6日,全国哲学社会科学工作办公室于官网发布了2026年国家社会科学基金年度项目申报公告,鼓励申请人依据《2026年国家社会科学基金年度项目重点研究方向》(简称《研究方向》),根据自身研究基础从不同学科领域、不同研究视角自拟题目,细化研究问题,不直接将研究方向作为具体选题申报。

    《研究方向》首次将“数字人文”作为一个独立的关键词,列入“中国历史文化”板块研究方向,标志着数字人文学科正式进入中国特色哲学社会科学学科知识体系建设中,表现出国家社会科学基金对数字人文这一学科领域的认可和鼓励全国学者对此开展学术研究的引导作用。

    http://www.nopss.gov.cn/n1/2026/0506/c431027-40714613.html?qq_aio_chat_type=3

    2025年数字人文奖(DHAwards2025)获奖结果

    数字人文年度奖项于2012年设立,以表彰数字人文相关的人才和专业知识。提名与投票环节全面面向公众,每人限投票一次。最终获奖名单由提名委员会参考票选结果综合评定。设立该奖项旨在提升公众关注度,推介有趣的数字人文资源,并吸引更多人参与社群工作。提名资源不限语言、文字体系及研究领域。以下列出各类别的前三名获奖项目:

    • 数字人文数据可视化项目:

    第一名:香港流行文化地图

    https://digital.lib.hkbu.edu.hk/culture-map/)

    第二名:Thiep 3D

    https://thiep3d.univ-littoral.fr/)

    第三名:数字幽灵展览

    https://inspace.ed.ac.uk/digital-ghosts/DH)

    • 数字人文数据集或模型:

    第一名:哥伦比亚互联网与网络史:1988-1996年多人讲述的故事

    https://historiasinternet.uniandes.edu.co/)

    第二名:数字萨福

    https://sappho-digital.com/index.html)

    第三名:诗树——11种语言的诗歌语料库

    https://poetree.org)

    • 数字人文短篇出版物:

    第一名:沃尔什,梅兰妮等.《熊会是男孩》

    https://pudding.cool/2025/07/kids-books/)

    第二名:东布罗夫斯基,奎因.《别再对自己撒谎:集体错觉与数字人文资助》

    (https://read.uolpress.co.uk/read/reframing-failure-in-digital-scholarship-a56118ab-e4eb-4eb4-9dca-e8c343c6441b/section/9bbd0f75-6d96-48e2-bcc1-e8e5a6d07ce9#ch1)

    第三名:丘拉,阿里安娜.《在包容性研究文化中与破碎共处我们能从数字人文实验室的失败和过程中学到什么》

    (https://read.uolpress.co.uk/read/316fdea1-5051-4f50-8957-afbc51342998/section/2e8944d9-ba98-4ef9-bcb8-159fa546e237#ch7)

    • 数字人文工具或工具套件:

    第一名:ArtVis——艺术史可视化

    https://artvis.cvast.tuwien.ac.at)

    第二名:多民族语言智能数据处理与知识服务系统

    http://106.12.154.220:15001/)

    第三名:RelicarIA

    https://relicaria.streamlit.app/)

    • 数字人文训练材料

    第一名:情境中的负责任数据集:协作设计伦理人文学科数据教育

    https://www.responsible-datasets-in-context.com)

    第二名:照亮过去——低成本多光谱成像培训

    https://grants.uccs.edu/illuminating-the-past/)

    第三名:古代文本课程教材的大语言模

    https://github.com/chowshelly101-jpg/LLM-for-Ancient-Text-Coursebook/tree/main)

    • 数字人文资源:

    第一名:看不见的东方数字语料库

    https://www.invisible-east.org/)

    第二名:19世纪奥里诺科河旅行者

    https://biblioteca.uniandes.edu.co/proyectos/viajeros-orinoco/index.html)

    第三名:20世纪印度建筑档案,PAHA(浦那建筑史档案馆)

    https://paha.site)

    • 数字人文娱乐化应用:

    第一名:图钉故事

    https://pinthetale.co.uk/)

    第二名:Gamaikus

    https://yohannawaliya.itch.io/gamaikus)

    第三名:中国艺术史与3D绘画电子学习平台

    https://digital.lib.hkbu.edu.hk/history/3d-paintings/index.html)https://mp.weixin.qq.com/s/D4jyhGaJ6f8ILJWDOSDIJQ

    南理工团队发布人文社会科学领域学术大语言模型

    近期,南理工沈思教授团队开源发布了国内首个人文社会科学领域学术大语言模型“兰章”,该模型基于百亿词元的数据基础以及两阶段深度优化训练,解决了当前通用AI工具在人文社科全文本挖掘、复杂概念和论证逻辑理解方面的“盲域”和“幻觉”问题,辅助人文社会科学领域学者总体评价既有成果并敏锐发现新学术研究契机。

    “兰章”研发团队历时五年,构建了总规模116亿词元的人文社会科学学术语料库,涵盖CSSCI、CNKI人文社科期刊、人大复印报刊资料、教育部人文社科获奖著作全文(1992—2025年)等中文学术资源以及SSCI、A&HCI期刊摘要及Project MUSE、Project Gutenberg(1992—2025年)等学术资源,保证学科的均衡覆盖以及期刊与著作的深度集成。

    该研发团队选取了Qwen3-8B与Qwen3-32B基础模型进行两阶段的深度优化训练:第一阶段运用116亿词元的学术资料融入学科知识,提升全文本理解能力;第二阶段围绕核心学术任务设计15697条训练指令,在多学科专家验证基础上精细调优,提升专业推理能力团队表示,经过训练“兰章”的表现优于多款通用模型,解决了跨语言环境下低频专业术语的识别盲区问题和学术文本生成中的逻辑碎片问题,图书自动分类准确率比通用模型高出30%。

    https://mp.weixin.qq.com/s/y2oYiXTknyIzlqEA6ma9kw

    EvaHan2026古籍多模态OCR国际评测在西班牙成功举办

    2026年5月11日,EvaHan2026古籍多模态OCR国际评测在西班牙马略卡岛语言资源大会(LREC 2026)古代和历史语言技术研讨会子会议(LT4HALA 2026)上成功举办。评测由南京农业大学信息管理学院、南京师范大学语言大数据与计算人文研究中心、南京理工大学经济管理学院联合组织,中国古籍保护协会古籍智能开发与利用专委会指导,中国人工智能学会语言智能专委会、江苏省人工智能学会自然语言处理专委会、中国民族语言学会语言资源与计算人文专委会及中华书局古联公司协办。EvaHan2026是系列评测首次聚焦古籍多模态OCR任务,旨在系统评估大模型在真实古籍图像上的端到端识别与版面理解能力,建立高质量数据集和统一评测基准。

    评测历时5个月,共有来自中国、法国等海内外高校与科研机构的41支队伍报名,13支队伍完赛。评测设置文字识别与版面分析两大任务。评测发现,版刻汉字识别率较高,手写汉字因连笔和俗字识别率相对较低;双行夹注与正文极易混淆,导致版面分析精度远低于文字识别,成为当前最大技术瓶颈;异体字与长尾罕见字是拉低OCR准确率的核心因素,且开放赛道表现未显著优于封闭赛道,说明单纯扩大模型和数据规模收益递减,领域特定的算法创新更为关键。

    最终,同济大学团队凭借HistLayout-DETR等创新架构获文字识别一等奖;武汉大学人工智能学院团队凭借多阶段优化策略(SFT+DPO+GRPO)获版面分析一等奖。南京大学、东北林业大学、中国人民大学—蜜度科技联队获二等奖,复旦大学、中山大学、法国国家文献学院(ENC-PSL)获三等奖。

    https://mp.weixin.qq.com/s/nHW0Tor0D3xW-9IyEnEREg)

    新书推介

    《数字人文案例分析》

    《数字人文案例分析》一书由吕元智、谢鑫主编,上海教育出版社于2025年出版。

    数字人文是将数字技术深度应用于人文研究,并由媒介变革引发的知识生产范式转型。随着数字技术的发展,数字人文的研究对象从电子文本扩展至超文本、图像、音频、视频、虚拟现实、3D等,其研究领域也逐渐由语言学和文学渗透到历史学、艺术学、信息资源管理等学科。书选取国内外多个数字人文项目,包括吴宝康学术名人知识库、华东师范大学数字人文研究系列平台建设、澳大利亚NFSA声像档案在线服务建设及启示、古罗马地理空间网络模型(ORBIS)等,重点分析其运行机制、项目特点和实施经验,以期全景式呈现数字人文经典案例和创新实践。书可用作数字人文学科教学的配套教材,也可作为文学、历史学、信息资源管理等相关专业教育的拓展资料,还可为我国各类型机构开展数字人文研究与实践提供参考和借鉴。

    https://mp.weixin.qq.com/s/7itv7cInhdozHUsZpFD64A

    《数字人文引论》

    《数字人文引论》由清华大学李飞跃、桑海主编,作者团队由清华大学、北京大学等十余所国内知名高校及科研机构的19位数字人文专家组成。该书由中华书局于2026年4月出版。“清华数字人文丛书”中的第一本教材,以“新理念、新领域、新方法、新设施”为总体框架,理论与研究成果相结合,全面阐述数字人文领域的主要研究方向。

    该书系统阐释数字时代人文研究的范式跃迁。全书围绕大模型与人文研究、数字史学、数字文献学等领域核心议题展开,深入探讨自然语言处理、主题模型、网络文本分析等技术方法,并对数字基础设施建设、数字媒介发展、知识范式变革及海外数字人文前沿动态进行全面论述,为理解数字时代人文研究的转型路径与未来发展提供系统而清晰的指引。

    https://mp.weixin.qq.com/s/ZWAign8zd4PRVMG43OOLqA

    《嵌入式教学法:数字人文教学与变革的基础》

    《嵌入式教学法:数字人文教学与变革的基础》(《Embedded Pedagogies: Digital Humanities Teaching and the Infrastructure of Change》)由弗吉尼亚大学学者Brandon Walsh撰写、Open Book Publishers出版,目前处于“即将出版”状态

    该书紧扣当下形势,深刻探讨了在当前局势背景下的教育教学现状。Walsh凭借作为数字人文实践者和管理者的丰富经验,指出教学不仅仅是发生在课堂上,而且还深受大学自身政策、结构和价值观的影响

    书中聚焦“嵌入式教学法”的概念,揭示了诸如中立性、智识主义及未来导向等机构规范如何在无形中塑造教师的教学内容和教学方式。Walsh将理论与实际见解相结合,通过案例研究、数字项目和亲身感悟阐释当前环境因素影响下的运作逻辑,并给出相应的突破思路。

    全书围绕四个核心机构价值观——可知性、中立性、智识主义导向和未来导向展开,提供了批判性分析和可操作策略。它为那些身处环境受限、资源匮乏等困境的教育工作者提供了指导,倡导以坦诚公开、集体关怀与社会公平为内核的教学模式

    https://www.openbookpublishers.com/books/10.11647/obp.0544

    会议培训

      会议预告

    数字人文与区域国别学研讨会

    安徽师范大学外国语学院比较符号学研究中心与外国语学院联合举办“数字人文与区域国别学研讨会”,聚焦人工智能时代数字人文与区域国别学的整合式发展,围绕数字人文方法在区域国别研究中的具体应用路径、符号学工具的使用、以及跨学科人才培养模式等议题展开讨论。

    会议设置八个分议题方向:AI时代中外区域国别学研究方法的异同及比较;数字人文在区域国别研究中的应用路径、方法与案例;符号学在区域国别研究中的应用;英国学中高教、文化、外交和文学研究的数字人文途径;美国学中历史、政治、对外关系、文学研究的数字人文模式;南亚、东南亚各国国情的共时研究;俄国数字人文现状及其与区域国别学的融合;数字人文及区域国别研究跨学科人才培养模式。会议将邀请相关领域专家做大会主旨报告,分享研究成果并介绍前沿动态。

    • 主办单位:安徽师范大学外国语学院比较符号学研究中心、安徽师范大学外国语学院

    • 会议时间:2026年6月26日—6月28日

    • 摘要提交截止日期:2026年5月30日

    • 会议地点:安徽省芜湖市海螺国际会议中心

    https://mp.weixin.qq.com/s/iE_I_QWrwm06RAlny0d50w

    “人机智能共同体时代的语言研究”暨第九届计量语言学学术研讨会

    内蒙古大学蒙古学学院与北京语言大学计量语言学研究中心联合举办人机智能共同体时代的语言研究暨第九届计量语言学学术研讨会,围绕人机智能协同背景下的语言研究展开讨论,涉及大语言模型和生成式人工智能在语言研究中的具体应用、数据驱动的语言分析方法、少数民族语言文学计量研究等方向。

    会议设置六个分议题:人机智能协同语言研究的机遇与挑战LLM和GenAI在语言研究中的应用数据驱动的语言研究少数民族语言文学计量研究数字人文研究计量语言学其他研究。会议形式包括大会报告、分组报告和海报展示。会议面向国内学者和在读学生公开征稿,投稿者须提交500字以内的论文摘要,由会议组织专家评审后于6月下旬发布录用通知。

    • 主办单位:内蒙古大学蒙古学学院、北京语言大学计量语言学研究中心

    • 会议时间:2026年8月58月8日

    • 摘要提交截止日期2026年6月5日 

    • 会议地点:内蒙古自治区呼和浩特市

    https://mp.weixin.qq.com/s/C0WVym28XaBLKmkcCHfcBQ

    第四届粤港澳大湾区跨学科博士论坛

    澳门大学人文社科高等研究院主办第四届粤港澳大湾区跨学科博士论坛,聚焦数字驱动的社会公平:技术、身份与人文的研究,围绕技术系统中的权力结构、数字身份对公民权利的重塑、人文关怀与社会责任的价值定位等议题展开讨论。

    论坛设置八个分议题方向:数字素养数字公平与政府治理数字身份与公民权利数字正义与平台劳动数字福祉与社会算法偏见与排斥公平机器学习实践量子计算与法律。论坛设置中英文双语分论坛,面向人文、社会科学、自然科学、技术科学等领域的在读及即将毕业的博士生征稿,要求提交7000至10000字的原创未发表论文及150至200字的个人简介。组委会将评选优秀论文并邀请作者于澳门大学现场汇报,受邀报告者的在澳期间住宿及餐饮费用由组委会承担,入选优秀论文将有机会在人文社科高等研究院出版的《数字素养研究》中审议发表。

    • 主办单位:澳门大学人文社科高等研究院

    • 会议时间:2026年8月26日8月27日 

    • 论文提交截止日期:2026年5月31日 

    • 会议地点:澳门大学

    https://mp.weixin.qq.com/s/Yh9lIizdcysaLJKllFXGlg

    专题培训

    第四届语料库与数字人文暑期学院

    南京师范大学联合北师港浸大、澳门大学、香港科技大学、南京农业大学五校,2026年7月25日至8月4日以线上线下结合形式举办语料库与数字人文暑期学院。培训重点教授语料库构建、语言统计方法与大语言模型应用等实操技能,课程设计旨在让学员掌握从人文数据整理到工具开发的全流程技术能力。

    暑期学院分为讲习班实训与讲座论坛两部分。讲习班设三个平行方向,学员仅可选择其一,不可兼报。数据库编程讲习班以《全唐诗》为例,讲授数据表构建、数据库查询、PHP程序设计、字符编码、字符串处理、交互式网站搭建及本地小模型优化。语言统计方法讲习班系统讲授SPSS统计基础、参数检验、非参数检验、聚类分析、相关分析、卡方检验、多元线性回归及逻辑回归。大模型编程讲习班涵盖大语言模型基础、基础模型与推理模型、提示工程、继续预训练与监督微调、强化学习、大模型部署、检索增强生成及AI Agents。

    培训面向全国高校及科研院所数字人文、计算语言学、语料库语言学、中国语言文学、历史学、文献学、考古学、新闻传播学等相关学科的本科生、研究生及青年教师、科研人员。其中A班面向零基础或编程初学者(需大学英语四级及以上),B班面向具备基础文本分析认知、对语料库计量分析有学习需求的学员,C班面向具备基础Python编程能力与大语言模型基础认知的学员;已具备计算机/统计学相关专业背景者请勿申请。

    https://mp.weixin.qq.com/s/LUFxBz7t4Z_r9K011NadWQ

    科技遗产与数字人文工作坊

    为了深入贯彻落实国家文化数字化战略,响应“推进文化和科技融合”的战略部署,中国科技史学会数字人文专委会联合南京农业大学人文与社会发展学院、数字人文研究中心,定于2026年7月12日至18日举办“科技遗产与数字人文研究工作坊”。工作坊面向科技遗产、科学技术史、数字人文及相关人文社科领域的师生与青年学者,将聚焦中国古代科技遗产的数字化保护与创新性研究。课程为期7天,涵盖数据预处理、生成式AI辅助编程、知识图谱构建、社会网络分析、历史GIS时空建模、大语言模型微调等前沿技术模块。课程以“方法导向、过程透明、结果可复现”为核心原则,致力于培养兼具科技遗产学术素养与数字人文技术能力的复合型人才。课程核心工具涉及Python、Neo4j、Gephi、ArcGIS、DeepSeek、Kimi等。

    培训费用为教师及职业研究者8000元/人,在读学生4000元/人,费用包含全程课程、材料及数据包。报名截止日期为2026年6月20日,录取结果将于报名截止后7个工作日内通知。工作坊还安排了南京农业大学农业遗产研究室的田野观察环节,结合实物科技遗产探讨数字化潜力与研究切入点。

    https://mp.weixin.qq.com/s/OWcr_hWBCTlAhSe4ztL5qQ

    学术观察

    国家语料库CNC 的研制

    来源:张永伟.国家语料库CNC的研制[J].辞书研究,2026,(03):1-12+125.

    摘要:国家语料库是重要的语言文化资源。文章立足国家语料库的研制实践,介绍其建设背景与建设目标;从语料采集、加工标注、分析工具研制等层面阐释其设计理念;说明其分析工具的检索、统计、搭配和对比等功能。国家语料库以共建共享为核心理念,致力于打造类型多样、质量可靠、功能丰富、开放共享的国家级语言资源基础设施,为推进语言文字信息化发展、推动语言文字高质量发展贡献力量。

    数字人文还是计算人文汉译术语定名的学科建设视角

    来源:黄鑫宇, 魏向清. “数字人文”还是“计算人文”:汉译术语定名的学科建设视角[J]. 中国科技术语, 2026, 28(2): 23-31.

    摘要:由于受到国际“数字人文”(digital humanities)领域外源术语使用复杂性的影响,国内相关学科术语译名也呈现出多样并存的局面,诸如“人文计算”“数字人文”与“计算人文”等均有不同程度的使用。这种学科术语使用现状折射出我国“数字人文”学科建设过程中的一些具体问题,值得重视。研究基于对我国“数字人文”领域的学科术语使用现状的调研,分析其对学科发展、学术实践以及话语体系构建的影响,并进一步借鉴术语学理论对相关问题进行探讨,旨在促进我国“数字人文”学科建设的自主发展与不断完善。

    面向中文学术场景的AI生成文本检测系统设计与实践——ScholarGuard平台为例

    来源:刘炜,陈晓扬,金家琴,等. 面向中文学术场景的AI生成文本检测系统设计与实践——以ScholarGuard平台为例 [J/OL]. 信息与管理研究, 1-14[2026-05-26].

    摘要:生成式AI正在改变学术文本的生产方式,传统基于文本相似度比对的查重系统难以有效识别具有原创表达形式的AI生成文本。对中文学术场景而言,问题并不只是能否判定文本来源,更在于如何将不确定的检测信号转化为可解释、可复核、可进入人工审查流程的风险线索。本文以ScholarGuard平台为例,围绕中文学术文本检测需求,构建融合困惑度扰动、统计特征和BERT语义判别的多源证据融合框架,并在覆盖法学、政治学、经济学和社会学的120篇中文学术文本探索性测试集上,对系统整体性能、学科差异、基线比较和消融结果进行评估。在受控测试条件下,ScholarGuard取得82.5%的准确率、86.3%的精确率、78.3%的召回率、82.1%的F1值和0.89的AUROC。研究表明,多源证据融合有助于提升中文学术文本AI生成风险识别的稳定性,但检测结果不宜作为自动定责依据。AI生成文本检测更适合作为学术信息质量治理中的风险提示工具,服务于来源透明、人工复核、编辑审查和学术诚信治理。

    数字人文视域下的文学解释路径:身体与数据

    来源:尹倩. 数字人文视域下的文学解释路径:身体与数据 [J]. 广州大学学报(社会科学版), 2026, 25 (02): 115-130.

    摘要:随着数字人文在国内学界的深入发展,文学研究领域逐渐呈现出由比特世界、原子世界和意识世界共同构成的整体结构,其中“身体”与“数据”成为数字人文视域下重建文学解释路径的关键要素。“身体”既是意识主体和身体主体的合一,也是数字技术语境中“智能身体”的操作性表征。作为联结比特世界和意识世界的核心中介,身体通过交互、选择与感知不断参与意义生成,使得在交互界面所构造的比特语符世界中,文本意义世界在身体持续作出的操作与选择中被动态建构出来。另外,“仿真”作为观看世界的第三种方式,形成了原子世界的文学存在与比特世界的文学数据之间的中介性框架,使原子世界的印刷文本得以转换为数字化与数据化材料,并通过算法建模以进一步探讨文本时间结构与空间结构的生成逻辑。在这种研究范式中,人文学者借助数字人文工具开展跨世界的仿真研究,数字化保存与传播亦构成文学解释的重要接受路径。而“距离”作为知识生产的重要条件,其在数字时代的文学解释、算法批评与算法审美中的作用也愈发凸显。

    中共党史研究语料智能体的构建经验与思考

    来源:马思宇,王亚星,肖桐月,等.中共党史研究语料智能体的构建经验与思考[J].数字人文研究,2026,6(01):32-42.

    摘要:中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属 OCR 适配方案与父子分段式知识库构建模式,形成 “以 OCR 适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑” 的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

    供稿:卢钰、秋慧婷、沈立力    责编:韩春磊、张宏玲

    编辑部:中国索引学会数字人文专业委员会秘书处

    电话:64455555-68360

    邮箱:DH2020@libnet.sh.cn

    -END-

    本微信公众平台音频、视频及活动图文信息报道系上海图书馆「全国报刊索引」制作,并享有版权。如需转载或其他合作,请联系公众号获取授权,并标明作者及出处。

    阅读原文

    跳转微信打开

    论道·名家讲坛第400期暨马克思主义技术哲学国际前沿讲座第一期顺利举办

    2026年6月1日 09:00

    2026-06-01 09:00 辽宁

    2026年5月26日15:30,公共管理学院第400期“论道·名家讲坛”暨马克思主义技术哲学国际前沿讲座于行敏楼604会议室顺利举办。本次讲座特邀意大利罗马第三大学哲学系罗伯托·菲内利教授(Roberto Finelli)担任主讲人,为同学们带来“马克思技术概念的双重定义”主题讲座。公共管理学院哲学系张福公副教授担任主持人,公共管理学院哲学系于沫老师、王元钊同学、董屹泽同学、邹家琪同学和何梦阳同学担任与谈人,公共管理学院师生积极参加本次讲座。

    菲内利教授是国际知名的马克思主义学者、意大利罗马第三大学哲学系荣休教授,学术造诣深厚、教研成果丰硕。张福公副教授简要介绍了菲内利教授的研究领域与学术成就,并对其莅临表示热烈欢迎与诚挚感谢。

    菲内利教授围绕“马克思的技术概念”剖析了其理论内涵与实践意义。首先,他界定技术源于18世纪德国官房主义的“工艺学”,其兼具组织实践与命令执行双重性,且随社会权力关系差异化分布。进而,他阐述了技术兼具生产性与建构性,前者关乎商品与抽象劳动的生产,后者揭示其与资本剥削、社会权力关系及劳动对资本实际从属的内在关联。最后,菲内利教授强调理解技术需结合“抽象的”与“矛盾的”马克思主义两种范式。在人工智能时代,技术既可能强化量化与编码的抽象统治,也可能通过一般智力的社会化发展指向人的自由与解放。

    互动交流环节,现场师生围绕“劳动价值论的历史基础”等问题积极提问,菲内利教授逐一细致解答,现场学术氛围浓厚。张福公副教授在总结时高度评价本场讲座,他表示,菲内利教授理论框架清晰、论证严谨有序,兼具视野广度与理论深度,为理解马克思技术概念的双重定义提供了崭新视角。本场讲座学理并茂、见解独到,既为同学们培养问题意识、做好文本研究提供了优秀的学术示范,也为相关理论研究与实践探索提供了重要启发。讲座在师生的热烈掌声中圆满落幕。

    南师数字与人文

    文字:高新泰

    图片:刘韩月

    阅读原文

    跳转微信打开

    论坛预告 | 吴长安《语体中单句、复句、流水句的关系考察》

    2026年6月1日 00:00

    徐惠 2026-06-01 00:00 江苏

    “实验语言学+”云上论坛6月2日开讲,吴长安教授谈语体句式关系。

    活动预告

    “实验语言学 +” 云上论坛即将开播,东北师范大学吴长安教授将带来《语体中单句、复句、流水句的关系考察》主题分享,共探汉语语法研究新视角。

    活动安排

    • 时间:2026年6月2日(周二)19:00

      (次日上午10:00于斗鱼直播间进行重播)

    • 地点:线上·腾讯会议

      (若腾讯会议满,请至斗鱼直播间观看)

    • 会议号:454-527-129(密码:0602)

      (详情参照上图内容)

    主讲人简介

    吴长安,东北师范大学国际中文教育学院、文学院二级教授,汉语国际教育专业学位、汉语言文字学专业博士生导师,校学术委员会委员。兼任中国语言学会理事、全国现代汉语教学研究会副会长,吉林省国际中文教育学会名誉会长,吉林省语言学会副理事长等。主要从事汉语语法研究,近年来致力于构式语法理论探索,在《中国语文》《当代语言学》《世界汉语教学》等发表论文 100 多篇,出版专著两部,主持国家社科基金项目 2 项,国家语委重大项目 1 项、重点项目 2 项,学术成果获美国柯尔比科学文化信息中心 “千禧优秀科学论文” 奖,吉林社会科学优秀成果一等奖等奖励。

    比特人文

    投稿邮箱:dhbase@126.com

    扫码关注 获取更多资讯

    图片

    阅读原文

    跳转微信打开

    ❌