普通视图

Received before yesterday1 - 清华大学公众号

会议议程 | 人工智能时代的文学计算研究工作坊

2026年5月9日 13:27

2026-05-09 13:27 北京

时间:2026年5月16日(周六)9:00—17:00地点:重庆大学沙坪坝校区A校园博雅书院报告厅

以下文章来源于重庆大学文字斋

人工智能时代的文学计算研究工作坊

人工智能技术的飞速发展正在深刻重塑人文学科的研究范式与问题意识。在文学研究领域,“计算”不再仅仅是数据处理的工具,而逐渐成为一种介入文本解读、批评实践与理论建构的新思维。计算思维如何为经典文本解读、文学史书写及批评理论创新提供新路径?数字人文教育又该如何回应“新文科”建设的时代要求?诸多问题都亟待深入探讨。

为此,重庆大学人文社会科学高等研究院将于2026年5月16日举办“人工智能时代的文学计算研究工作坊”。期待通过这场小规模、高密度的学术对话,推动文学计算批评这个新兴领域的理论创新与方法自觉,为相关领域的探索者提供一个开放、共创的交流平台。会议的具体安排如下。

时间:

2026年5月16日(周六)

9:00—17:00

地点:

重庆大学沙坪坝校区A校园博雅书院报告厅

召集人:

刘洋(重庆大学中文系副教授)

主办:

重庆大学人文社会科学高等研究院&博雅学院

承办:

重庆大学中文系、重庆大学科幻文学与科技人文研究中心

会议议程

一、开幕致辞(9:00 - 9:15)

李广益(重庆大学人文社会科学高等研究院执行院长、教授 )

刘洋(会议召集人,重庆大学中文系副教授)

二、集体合影(9:15 - 9:30)

三、会议报告第一场(9:40 – 11:40)

主持人:江晖(中山大学)   

评议人:赵薇(中国社会科学院)

李飞跃(清华大学):数字人文研究的实验传统与方法

战玉冰(复旦大学):数字人文研究中的“主观性”与“主体性”

陈涛(中国人民大学):数字人文视域下的电影色彩研究:范式转型与实践困境

刘洋,韩笑(重庆大学):“只赛博,不朋克”:对中国赛博朋克小说的情感计算研究

四、午餐(新华园餐厅)

      午休(11:40 – 13:40)

五、会议报告第二场(13:40 – 15:10)

主持人:姜振宇(四川大学)   

评议人:刘洋(重庆大学)

许秋斌(南方科技大学):大语言模型创意写作评测基准的现状与未来展望

耿弘明(清华大学):大语言模型文学计算的可解释性:双向反事实解释的可能

江晖(中山大学):文学计算的“黑箱”问题:深度学习模型应用于风格识别的机制初探

六、会议报告第三场(15:20 – 16:50)

主持人:战玉冰(复旦大学)   

评议人:陈涛(中国人民大学)

赵薇(中国社会科学院):计算建模与量化形式研究

姜振宇(四川大学):从“计算审美”到“培养模式”:一项文科实验室的跨学科项目实践反思

吉云飞(中山大学):以计算批评应对算法推荐——以番茄小说为中心

七、会议闭幕(16:50 – 17:00)

报告文章摘要

数字人文视域下的电影色彩研究:范式转型与实践困境

陈涛

在数字人文视域下,电影色彩研究正经历从主观解读到量化分析的范式转型。相较于传统电影色彩在形式主义、符号学、精神分析和文化研究方面的研究路径,以计量分析和可视化呈现为核心特征的数字人文电影色彩研究发挥了数字工具的“色彩透镜”作用,从而推动电影研究技术史、美学史与接受史的三维整合。从“遥观”的角度来说,目前电影色彩的研究工具主要呈现为基于电影文本形式的内部大数据和可视化电影色彩两种。而相对于RGB模型,HSV色彩模型提供了更适合人文学者研究的空间路径,并通过不同属性的对比特征与空间分布,来呈现色彩的语义关联与象征体系,令我们更好地揭示技术与风格的互动关系,并构建起多层级分析框架,打通色彩的微观、中观与宏观研究。与此同时,我们要避免技术工具从“精确性”到“过度简化”的局限性,警惕数据质量和语境缺失带来的危害,并提倡“色-声-触”的跨模态验证。

数字人文研究的实验传统与方法

李飞跃

实验是在悬置和控制条件下观测现象、验证假设,构建可重复检验的知识生产链。数字人文在理想条件下探究变量之间的因果关系,正让人文研究经历“从开放思辨到闭环实验”的范式迁移。随着文本工具的广泛使用,超经验的知识秩序正在浮现。考察古典文献的实证传统、近代人文的实验主义探索,有助于明确数字人文研究的核心理念与方法,并借以重审一些重要的传统人文命题。

“只赛博,不朋克”:对中国赛博朋克小说的情感计算研究

刘洋,韩笑

“只赛博,不朋克”是对中国赛博朋克小说的经典论断,但其情感基础尚缺乏系统的实证检验。采用基于词典的情感计算方法,构建21维情感向量,可以对105篇中国赛博朋克短篇小说与105篇西方经典赛博朋克短篇小说进行系统性比较。通过主成分分析与独立样本t检验,研究发现两组文本在情感分布上存在显著差异:中国赛博朋克小说在“赞扬”与“快乐”两类积极情绪上强度显著更高,而“憎恶”“贬责”等消极情绪显著更低,整体呈现明确的乐观偏好。研究进一步发现,这一情感模式与1990年代以来电脑游戏文化的深度渗透密切相关,游戏经验为赛博空间赋予了探索、成长与社交的积极意义。

大语言模型创意写作评测基准的现状与未来展望

许秋斌

本分享聚焦大语言模型在创意写作领域的评测基准,从短篇生成、长篇叙事到多维创造力评估,逐一梳理各类benchmark 的演进。讨论重点包括:评测指标如何从语言流畅性转向新颖性、多样性、一致性与人类偏好对齐,以及自动评价方法的局限和评审可靠性问题。最后展望创意写作评测的几个发展方向——从单一结果打分,转向多维、过程化、多模态。

计算建模与量化形式研究

赵薇

量化形式主义仍是一个未竟的议题。莫莱蒂的“远读”虽融合了形式主义传统与马克思主义的社会学视角,推动了文学概念的可操作化测量,但大多停留于中观尺度的描述性统计,缺乏检验与反思环节。本发言以数字人文与计算批评实验室近年来的工作为中心,介绍机器学习建模在现代汉诗节奏观念重构、语词分布模型在20世纪美国小说生态批评话语跨文类演变研究中的功用,兼及民国文类与文献计量等方面的建设实践,旨在探讨如何将计算建模系统性地嵌入“假设—验证”的实验设计,实现文学命题的推理与论证,从纯形式的演化中发掘文化意识形态内涵,揭示形式变迁的历史动因。

文学计算的“黑箱”问题:深度学习模型应用于风格识别的机制初探

江晖

深度学习在文学风格识别领域展现出潜力,但其判断逻辑的不透明已成为数字人文研究方法论层面的核心难题。即关于模型所依据的语言信息仍然缺乏有效的解释路径,这不仅制约了对模型判断的信任,也阻碍了对风格内涵本身的深层理解。本研究基于前期的实验基础,对风格判别的可能依据进行拆解性考察,目前的结果更多指向了问题的复杂性。这一探索过程本身,为数字人文领域应对计算方法的“黑箱”困境提出了有待深化的问题。

数字人文研究中的“主观性”与“主体性”

战玉冰

本报告一方面以本人曾经尝试过的数字人文个案研究——关于网络小说的空间地理统计——为反思对象,重点关注其中存在的1数据源的信度和效度问题、2数字人文研究方法背后所隐含的“主观性”问题。特别是第二点,其直接关系到“数字人文”研究方法究竟能否生产“新知识”,抑或仅是在印证“旧结论”这一根本性争议。另一方面,将以程小青《霍桑探案》系列小说的城市空间书写与现实中的地理单元分布为研究对象,尝试融合传统文本细读与计算批评方法,探索如何将研究过程中不可避免的“主观性”转化为具有生产潜能的“主体性”。

以计算批评应对算法推荐——以番茄小说为中心

吉云飞

抖音集团旗下的番茄小说凭借移植于抖音的推荐算法,已拥有超两亿月活跃用户,是最大的网络文学平台。当算法推荐成为网络文学推荐机制的主要组成部分,计算批评便同样应该成为网络文学批评的必备武器。本报告将讨论建立一种适配于算法推荐的计算批评的必要性与可能性,主要关于它的问题域、操作方法与限度。

“计算审美”到“培养模式”:一项文科实验室的跨学科项目实践反思

姜振宇

在人工智能与文学研究交叉的背景下,文科实验室如何定位自身价值、如何培养适应跨学科需求的人才,成为亟待探索的议题。本文以四川大学中华文化传承与全球传播数字融合实验室的一项具体研究——“科幻审美计算”项目为例,反思一次“成果有限”的探索如何转化为人才培养的宝贵经验。该项目尝试将科幻文学中的审美问题转化为可计算对象,通过自建关键词强度表、赫斯特指数和双重固定效应模型,分析科技名词在文本中的融入程度。虽然模型未能直接“解决”科幻审美难题,但项目执行过程中,团队逐步摸索出一套“项目驱动型跨学科培养模式”:包括多背景学生的协同分工、从问题提出到模型迭代的完整流程设计、以及学术产出与教学目标的平衡策略。本文认为,文科实验室的核心价值不仅在于产出高质量研究成果,更在于为数字人文领域培养“既能提问、又能动手”的复合型人才。这一经验或可为同类实验室的建设与跨学科教学提供参考。

大语言模型文学计算的可解释性:双向反事实解释的可能

耿弘明

理解文学大模型生成文本的逻辑,需要融合计算分析与人文批评两种视角。传统可解释性AI方法,如LIME和SHAP,为我们提供了基础工具。然而,这种归因停留在统计层面。为此,我们引入文学批评中的细读法与的“推敲”传统等。将这种方法论应用于提示词工程,需要从“主题指令”转向“机制指令”。

更富启发性的路径,是第二种思路,对模型进行“反事实”的文学能力推演。如果改变模型的“文学经历和记忆”,它的“文风”会如何系统性改变? 例如,如果在大模型训练过程中,完全剔除了以“含蓄蕴藉”著称的晚唐李商隐的全部诗歌,那么,与完整训练的版本相比会出现何种“退化”或“转移”。最终,有意义的结合在于为计算特征赋予文学阐释。期待这种跨学科的对话,对我们能够描绘出大模型内部那座由海量文本构建的、复杂而有序的“文学记忆宫殿”的有所贡献。

海报 | 周雅婕

审核 | 刘洋、张可心、唐杰

编辑 | 郑晓

阅读原文

跳转微信打开

迈向AI时代:数字人文基础设施的先锋之路 ——刘炜先生访谈录

2026年5月8日 10:01

原创 刘炜  赵薇 2026-05-08 10:01 北京

数字人文这个领域概念太多,含义太多,我并不认为我们所做的事情就一定处于核心地带,只是由于数字人文非常需要文化遗产、历史文献这些方面的内容和数据,促使我们参与其中。

DHer 访谈

2.png

刘炜 赵薇

受访人简介:

刘炜,计算机软件与理论博士,上海社会科学院信息研究所所长、研究员,上海大学博士生导师,兼任中国科技情报学会和中国索引学会副理事长。曾任上海图书馆副馆长、上海科学技术情报研究所副所长,曾获上海市科技进步奖一等奖和上海市领军人才称号。长期从事智慧图书馆、数字人文研究,作为“数图笔记”公众号主理人,致力于前沿技术的应用研究和普及。

采访人简介:

赵薇,中国社会科学院文学研究所副研究员,数字信息研究室、数字人文与计算批评实验室负责人。

整理人简介:康吉赢,清华大学人文学院博士生

访谈地点:上海图书馆西宾馆

访谈时间:2024年11月11日

赵薇刘馆好,我大概从2019年开始注意到您的研究和工作,您是目前中文图书情报与信息管理领域发表数字人文论文被引次数最高的学者之一,可以说是领军人物。我注意到,在每一个数字人文发展的关键节点,比如数字图书馆、数字人文、去中心化网络、Web3.0,还有现在所谓AI与人文,您都站在风口上,扮演了弄潮儿的角色。我想请您谈谈,您是如何做到这一点的?也请您谈谈您的数字人文之路。

刘炜:首先非常感谢你们选择我来做访谈。我觉得其实赵老师你们做的很多研究都很有意义,在数字人文界是非常扎实、前沿的团队,我很敬佩。这个问题对我来说很自然,因为我们这个行业和数字人文实际上是自然而然就走到一起了。

当然,数字人文这个领域概念太多,含义太多,我并不认为我们所做的事情就一定处于核心地带,只是由于数字人文非常需要文化遗产、历史文献这些方面的内容和数据,促使我们参与其中。而且,由于数字人文整体来说还是处于初期阶段,我们这方面的工作比重比较大,也很重要。在向数字世界迁移的过程中,现在大量研究人员还是数字移民,而不是数字原住民。如果现在不抓紧时间把人文学者所需要的数据基础及时迁移,那么传统以非数字载体为主的知识世界很可能就会被边缘化,这样未来的人文发展可能会出现断层。实际上,东亚有些非英语地区的人文研究,已经呈现这样的问题。像现在的大语言模型,对东亚语言和少数族裔文化其实是不利的。因此,数字化这一进程必须持续推进。

我一直在上海图书馆从事数字化工作。这个行业从20世纪90年代开始提出数字图书馆,我们就在做这件事,主要是要把这个行业带入数字时代,可以说是“歪打正着”。我大概在2012、2013年的时候开始关注到数字人文概念。2014年我们开了一个会,当时很关注语义技术。数字化一开始是扫描,后来做OCR。当时语义技术蓬勃发展,关联数据、RDF[1]——国外W3C[2]提出的这一套方法,我们觉得非常好,把传统资源数字化,可以更好地基于内容揭示关系,并把很多关系以更规范的方式呈现。这样学者在使用时,就能直接处理知识,而不是被大量杂乱无章的噪声干扰。虽然当时没有更好的技术,但我们认为这条路是必不可少的,因此组织了一个关于“语义技术与数字人文”的会。后来技术不断发展。我们机构对科技资料也非常关注。科技资料本身产生于先进的科研机构,具有高经济价值,各国都高度重视科技文献、科技知识的交流,基本上,IT技术一产生就直接应用到这个领域了。为此,我们订购了很多数据库、基础设施服务,这些为人文社会科学提供了很好的参考。人文学科的内容,如果不由我们这样的机构来做,就没有人做,因为它缺乏商业价值。如果我们做得太慢、太晚,传统的文献就会被忽略。鉴于此,我一直坚持在这个领域工作。

赵薇谢谢您从上海图书馆的几个关键节点回顾历程。我其实也算您的一个粉丝吧,比较好奇您的职业生涯,是怎样一步步走到今天的,包括您的专业背景和个人经历,是否与学术相关?

刘炜:1983年我上大学时读的就是图书馆学,当时是热门专业。我在华东师范大学读书,当时图书馆学专业文理都招,我是理科生。这个专业当时属于华东师大试点班,对外语和计算机都有强化训练,录取分数也很高。计划经济时代,图书馆学被认为前景不错。我硕士考的是图书馆学基础理论,后来转到情报分析方向,师从上海科技情报所的马远良研究员。在图书馆学和情报学的学习过程中,我对IT技术一直很感兴趣。当时系里面专门有机房,总是最早一批购买IBM PC、IBM XT、IBM AT、286、386、486给感兴趣的同学上机。我本科毕业论文是在情报所老师指导下写的,题目是检索表达式的转换,用逆波兰式和准波兰式转换算法。硕士论文写的是数据库产业问题。我当时就感到IT技术会对图书情报领域带来很大冲击,产生颠覆性影响。

我在情报所的工作部门是理论方法研究室,负责跟踪高新产业发展,因此看了很多国外的材料。上海当时确立了十大重点高新产业方向,我们情报所参与激光产业领域,其中一个方向是光盘存储(CD-ROM)。后来情报所受上海市科委和经委的委托进行产业孵化,把中科院有机化学研究所的化学数据库转换成CD-ROM产品,提供服务,我们是国内第一家做的。

后来情报所和图书馆合并,图书馆有大量的人文社科资料。我到了技术部门网络中心,觉得自己的技术本领尚有欠缺,就读了复旦大学计算机系的在职博士,比较系统地学习了计算机技术。我一直隐隐约约觉得,计算机技术的发展、信息处理、信息加工和文化遗产保存之间存在着一条脉络。因此,我沿着这个方向不断学习,在我看来,自己学到的所有知识和积累的经验经历都是有帮助的。直到现在,我在从事数据分析、做人工智能相关工作时,都感到得心应手。

赵薇:在您看来,中国的数字人文——无论是学术研究、建设,还是产业——大约从哪一年、哪个时间节点开始受到重视、进入关键时刻?另外,您是否对这个领域一直有自己的设计?之所以这样问,是因为我感到在每个关键节点上您都试图想成为一个领航人,尽管后面实际上不一定按照您的构想发展。

刘炜:我大概在2012、2013年的时候接触到“数字人文”这个名词。我一直比较关注国外同行,特别是国外的汉学研究。武汉大学王晓光教授那边成立了一个研究中心,他在2009年发表过一篇相关文章,影响很大。但后来他们中心成立之后一段时间没有太多动静,他更多精力转向数字出版和其他领域。我们也碰到过几次,聊起这些,他认为国内当时的条件还不成熟。2014年我们开完那个数字人文会之后,开始和国内一些同行接触。我们觉得对图书馆来说,这是一个机遇:图书馆数字化之后会有一个新方向。仅仅提“数字图书馆”,不知道具体为谁服务、要做什么,数字人文的到来突然让我们的数字化服务可以落地了,有了明确的目标,我们觉得应该推进,在其中发挥作用。

后来王晓光教授一直在宣传推广“数字人文”这个概念,在中国社会科学情报学会那边成立数字人文专业委员会时,他也拉着我一起讨论一些事情。专委会成立后,2019年在敦煌开了第一届年会。大概从2017、2018年开始,大家陆续做一些研究并发表论文,到2019年第一届年会,我觉得这可能是中国数字人文真正的一个起点。后来上海图书馆承办了第二届年会,即2020年中国数字人文机构联盟的中国数字人文年会(CDH2020)。

再往更早一些说。零几年开始,海峡两岸都在做“数字/数位典藏”。台湾做“数位典藏”和我们做“数字图书馆”是同步的。台湾做得扎实,前些年投入很大,虽然近几年可能受一些影响,在中国历史、中国传统学术方面的经费减少了,但早期积累很深。他们把“数位图书馆”直接做成“数位典藏”“数位人文”。2008、2009年左右,他们就开始组织“数位人文”会议。我们这边2014年才办的会,我在2012、2013年也深受台湾的影响。那时我就觉得,“数字图书馆”这个概念在国外没有多少专著,但“数字人文”一出来,国外一下子出了上百本著作,台湾也出了很多专著和论文集。“数字人文”显然更容易汇聚共识、形成话题。

因此,在大陆,2017、2018年是一个启动期,2019年之后在知网上相关论文直线上升,现在每年1000多篇,已经成为热点领域。一开始主要是图书情报专业占比比较大,后来稍微好一些,但总体来说,数字人文仍未摆脱基础设施建设类机构对这一领域的垄断地位。可以这样说,什么时候由人文学者真正占主导,数字人文才算真正成熟。

至于有没有“设计”,如果说我能踏准一些节点,那完全是巧合。除了数字化等基础设施起牵引作用,另一个最重要的因素是技术自身的发展。我一直在跟技术,我觉得这些时间节点在很大程度上是技术推动的结果,比如人工智能刚出现时,大语言模型还是有争议的;ChatGPT出来后,我花了两三个月看了很多资料,才开始认可一些人的观点——这项技术的颠覆性非常强。比尔·盖茨最初认为它只是人机交互,后来他认为几乎触及“人类智力的奥秘”,把它类比为工业革命级别的技术。其他节点上,比如当年对关联数据技术的判断,我们认识到,若想用计算机系统对知识进行有效管理,没有比这项技术更合适的了,我们纯粹是出于技术层面的考量来推动其发展。

赵薇:您刚才谈到以ChatGPT为代表的人工智能,可能是堪比工业革命级别的技术。能否具体谈谈,就当下来讲,这类通用(而非专用)技术,会给基础设施建设带来哪些具体的挑战与机遇?在技术建设层面会不会出现翻天覆地的变化?能否结合一两个小例子,谈谈您的想法和打算?

刘炜:现在ChatGPT带火的生成式人工智能,具有通用性,它对各类数据,包括眼、耳、鼻、舌、身等,只要是传感器能够获得的,甚至人类日常无法感知到的,它都能从中发现模式和规律。

它带来的结果是什么?这次的人工智能和以前都不一样。一方面,它能做很多过去想不到的事情;但另一方面,过去很多专门人工智能算法能做的事,它未必能做得更好。所以,它在高速发展的同时也带来很多争议:它并不能仅凭一己之力就对现代生产力带来明显的提高,尤其是它克服不了与生俱来的幻觉,因此还很难在可信度要求高的领域得到应用。

目前普遍认识到,这是一轮工业革命级别的技术进步,但由于应用开发的滞后,还没有显示出它的威力。我们现在看到的还只是一些研究性的测评指标,要让它在数字人文领域真正发挥能力,一方面,要等一些关键技术的成熟,让我们“顺便”就用上了;另一方面,通用模型不会顾及垂直领域的特殊需求,我们可能需要自力更生,依靠自身的力量组织团队,积极应用人工智能,为行业带来变化。

关于对基础设施的影响,大致分两方面。一是对既有工作的影响。我们一直在把大量文化遗产、文献、历史遗存迁移到数字世界,新技术可能大幅提升效率,也可能使一些技术成为明日黄花,比如关联数据技术。当然它的作用还不能全盘否定,还可以利用它来为大模型提供语义素材和基础数据。当大模型能力足够强、语义获取路径改变后,关联数据就被完全替代,或者仅在某些环节保留价值。

此前的人工智能是以符号学派为主的一套东西,现在是以深度神经网络为代表的连接学派大行其道,符号学派似乎已经走到了尽头。也有人说连接学派会碰到瓶颈、撞到南墙,到那时可能还会回过头来考虑符号学派的某些思想,进行融合。计算机技术的历史就是这样,潮起潮落,“东方不亮西方亮”。

对于传统世界的这些东西,如果要把它数字化、数据化,把它们关联起来、建模,更准确地构建一个虚拟世界——也就是知识世界——这个知识世界可能可以具象化为元宇宙,也可能不具象化;在大模型中,它就是互相之间的关联,通过向量空间模型来呈现。当然模型也有我们讨论过的黑箱问题;如果完全是向量化表示,就很难还原真实世界里有血有肉的描述。

所以,在有“智慧”的大模型之下,智慧所依赖的知识世界与信息世界是相辅相成、不可替代的。不能因为有一批“很聪明”的大模型,就说著作、书本、期刊、报纸不需要了,现在还没到这个时候。大模型可以知道四大名著及其人物关系,而且很准确,但要让它把四大名著一字不落地重写,恐怕不行,至少对于深度神经网络来说成本太高。我猜测它有一个问题:它能学到知识、变成“智慧”,但未必能等价地还原知识;即便能复述故事,也不可能保证完全用相同的语言来表达。由此推论,要保存人类知识,人类的记忆机构不能只依靠大模型,而不再保存知识与载体。这不是完整的文化保存,所以我们这种机构仍然有意义。

新技术至少可以加速传统知识数据迁移到虚拟世界的过程。但迁移总会有损失。迁移的目标取决于你要解决的问题,数据采样的颗粒度与问题直接相关;不可能满足一切目的,因为成本太高。因此,迁移可能是大批量推进、分层精度并存的过程。就像我们上海图书馆在20多年前开始的扫描,如今要重扫,因为当年分辨率、保真度不够,很多技术当时实现不了,现在就要重新做,国家也出了新标准。未来可能还会经历类似“重做”。不管怎样,新技术可以加速迁移过程。

另一个具有更大意义的事情是,未来很多人文学科的课题都是聚焦当下的问题,而不是基于历史资料,这些课题本质上是原生数字化的。就像推特上的所有动态和互动数据,可能都会被马斯克的Grok大模型所利用。曾有很长一段时间,推特每年都要把所有数据拷贝一份给美国国会图书馆,号称“保存历史”。但在2017、2018年前后,作为行业顶尖并肩负保存数字遗产职能的美国国会图书馆宣布停止接收这些数据,因为即使把打包的文件都存在云盘上,也没办法有效还原利用,技术跟不上。这被很多知识分子视为一种倒退,他们认为不应该停止接收这些数据。

将来很多事情都是当下发生的。所以,人文学科可能会以另一种形态存在。过去古希腊有“七艺”,中国有“六艺”,孔子讲学、弟子著述;如果是纯数字时代,可能会产生很多新的学科——与数字媒体直接相关的人文研究。数据采集的方式、编码与解码的方式,都与机器、数字技术直接相关,就会出现数字时代的《诗》《书》《礼》《乐》《易》《春秋》。现在很多人文学科得不到资金而有生存危机,恐怕也是必然的。当“元宇宙”或类似的虚拟世界出现、当人不再需要劳动时,人在虚拟世界中的任何行为都被赋予价值,游戏里的探索和创造都被视为有价值的。那时对人文领域的影响会是:在虚拟世界里,人会留下大量新的思考与问题。这方面的变化是数字原生世界的基础设施。

所以,这是另外一个“人文”带来的问题。原生的数字世界过了奇点之后,会出现大量我们现在看不懂的新事物。日常工具的消失速度会很快。过去分散在许多设备上的功能,如今都集成到手机里,而人工智能到来后会带来更大的变化。智能硬件将作为人的延展与功能的延续,形态会非常普遍、五花八门。像帮助残疾人或老年人的体外骨骼、帮助视障人士的设备,本质上都具有人文关怀,应该鼓励。科技应让人类无所不能、更加幸福。当然也会带来很多问题,这是人文要面对的第二方面。

我对人类记忆机构的价值也开始有危机感。大模型出现后,传统的收集、整理、加工、服务以及教育这一整套做法,将来会变成什么样子?尤瓦尔说,信息有两类作用,最大的作用不是积累知识,而是沟通交流、取得共识。和我们这个职业的传统认识完全不同,他认为并不是所有信息都要保存,大量信息可能毫无保存价值,只是为形成共识服务。真正要保留的是经过验证的、可循证的知识,尤其是科技知识,能为下一代的发展提供基础。这意味着我们对未来基础设施的设想还很不清楚:现在的基础设施是GLAM机构[3],把载体书刊报做成数字媒体,而未来,奇点之后会是什么样子,尚不知道。

赵薇:谢谢您对近未来的畅想。很早就读过您的文章,我觉得这是您的一个特点,您对未来的设想通常有预见性,当然也带有技术乐观主义的乌托邦色彩,但这恰恰很有意思,如果将来写思想史,您可能是一个典型的例子。您谈的不只是技术,而是对技术的认识,这不是一般人能做到的。

但我还是想请您结合一些具体的例子,比如说去年王军老师在北京大学办的那个以数字人文教育为主题的会议,大模型正逢其时,王东波教授有“荀子”大模型的展示,包弼德(PeterBol)教授也在场,他提出了一个与基础设施相关的倡议。我当时没完全理解,似乎是想把分散的数据、机构资源整合起来,形成共享的基础设施,这是他此前一贯的想法。我想听听您对这种提议的看法。因为在现在这样一个追求通用人工智能、追逐最大数据的格局下,可能面临更大范围的共享是否现实的问题。您也知道,大模型已经变成军备竞赛意义上的一个专门领域,各个主权单位对这个东西都非常敏感。学者的构想和现实之间肯定有张力,包弼德教授本身是海外人文学者、汉学家,在这一点上尤甚。所以也请您谈谈,作为国内基础设施建设的排头兵,您怎么看?

刘炜:包弼德这个想法我知道,也在某种程度上参与过。他2018、2019年在上海开会,我去过。后来又开过小会。一开始他和中文在线合作,后来中文在线独立出去,转向做数字加工。包弼德曾拉了德国马普所和中国台湾的相关机构成立委员会,希望形成汉学资源一网打尽的格局,不一定要放在一起,但要有互操作的方案。超星当时也很热心,组织了两次会。包弼德的想法是有意义的,但在技术路线方面大家始终没能达成一致。随着资金投入的减少,尽管还在不断努力,但进展不大。

不过,我仍然认为能够整合所有中文古典资料、汉学资料还是很有意义的,这是一个集大成的设想,也带点乌托邦意味,即便政府出面也很难做到。国家花很多钱,常常被不同学者分散使用,缺乏统一路径,钱花了,结果未必好。很多地方搞大典、图书的再版,但并不愿意真正建设数据库、知识库或大模型。各路利益相关者都想分一杯羹,所以往往做不成。

我个人更相信去中心化、分布式的路径:大家基于自己的目的各自做一点,最后自然能汇聚起来。可能国外的玩家影响力更大,但国内的玩家更加重要,这两类玩家相辅相成、缺一不可,我倡导多交流、多讨论。现在学术界的年会还是小圈子,真正干活的人没参与,领导也缺乏数字人文的观念。比如敦煌,花了那么多钱,成果至今不开放,也不知用什么标准做的,别人很难研究他们在做什么,他们只关起门来做,结果还是墙内开花墙外香,很可能要等国外东方学成果出来,他们才开放。

我觉得国内的基础设施建设目前不可能统一。国内能出点钱做数字化、数据化已然不错,哪怕百分之八九十白费,要留下百分之一二十也有价值。未来国内中文人文学者使用的主要基础设施,恐怕还要依靠海外的影响。我对国内整体前景并不乐观,包括我们自己单位,得到的支持和团队都很有限。我退休之后,恐怕更难推进,因为他们没有自觉意识。

赵薇:对,包弼德当时的表述我们也没理解,还引起一些追问。

刘炜:当年其实有两个方案。一个是超星提出的,从美国聘请人直接给包弼德做,专门有一套方案,比较封闭;另一个是马普所的,曾与爱如生合作,但因费用问题中断了。马普所方案包含两个协议,可以在一定程度上解决互操作问题:各家资源放在自己地方,有一些节点可以收购元数据,通过协议实现统计、审计,按使用付费或开放获取。这类技术方案很好,后来又出现IIIF的技术[4],也能突破互操作。但光有技术方案不够,还需要大家遵从的行业联盟或机构联盟,有监督机制,让协议不断迭代,形成良性生态。

赵薇:谢谢您的讲解。另一个问题,随着人工智能的兴起,大家都需要大量语料训练模型,这会不会对图档类机构的数据管理造成影响?比如,数据外流、监管等。从基础设施角度看,如何理解被人工智能加速或抑制的“去中心化”?我们知道此前有《互联网共产主义宣言》,它其实是非常乌托邦化的,现实里人工智能却促使主权单位筑起更高的“墙”,这形成一个悖论,即模型越来越高级,数据却越来越不自由?还是说在监管更严的情况下,流动性反而更大,共享的可能性就更大了?

刘炜:问得很到位,这确实是关键问题。现在有讨论和猜测,但都没有系统研究。尤其在人文社会科学领域,缺乏对数据流通趋势现状的调研。国家层面已把数据作为主权的一部分,有法律框架,重视程度很高。大模型兴起,促进了数据价值的变现,大家越来越重视数据。在全球化的大背景下,人文数据也受到影响。比如,常州一家公司,主要做家谱,和美国家谱协会关系密切,夫妻俩创办公司,雇了几十人,他们在中国民间收集了大量家谱、谱牒、宗亲的数据,在全国范围内使用的信息技术也较好。后来据说被人举报数据外流被调查,就是一个典型例子,当然他们被举报具有偶然性,到现在都无法解释清楚。

但实际上,社会人文类数据早已在流通,只要开放、提供服务,很多收藏机构的数据早就被买来买去。然而,单有数据无法发挥价值,必须有平台、工具才能发挥作用。我们也不用过分担心,因为图书馆数据本就应该开放,国外的高清数据都直接拿出来,过去还只能允许非商业使用,现在商业使用也开放了。像我们这种公藏机构,只是文化遗产寄放在这里,并不算版权拥有方。版权法规定作者去世50年后作品就进入公有领域,所以我们馆藏的大量清代、民国资料,相关的数据其实都应该开放。可现在大家都非常保护自己的数据。

问题是,目前还没有人文领域哪家机构肯出钱认认真真去做服务平台,所以哪怕各家有数据,也不知道如何处理。国家即便投几个亿,最后也可能不开放,大家积极性也不高,各自有数据也不愿交——这就形成悖论。目前数据当然很有价值,这一方面造成了数据的隔离,大家都知道数据值钱了,但与此同时,民间的数据交换、盗版却愈发活跃,大模型用了谁的数据你未必知道,数据质量良莠不齐,生成的内容既不能保证质量,也得不到版权保护,有人把这视为商机。现在是战国时代,群雄并起,谁的算力大,就能抢占更多数据,未来或有价值。现在民间数据交易其实很多,民间个人收集古籍、方志等,扫描文本的数据量可能达到PB级,但凭借私人的力量难以加工整理。实际上,整个数字人文圈,要么文史哲功底深,要么技术强,要么占有海量数据,能真正把人文、技术、数据结合起来的人极少。人工智能确实加剧了数据垄断和占有的趋势,但同时也在促进新一轮平等化。前期的数据不均等会存在,数据因稀缺而有价值;后期一定是数据和模型、应用结合才有价值。光有数据是没有前途的。

赵薇:您讲得非常精彩。这个关系是既促进又制衡,但制衡的同时又有机遇。我很受益。

刘炜:我再补充一点。我们现在做的是基于上海图书馆馆藏资料的,外购数据旨在用来补充、丰富馆藏的描述或版本信息。我们很矛盾,是做大而全的数据库,还是只做馆藏范围内的?主要还是由于资源投入有限。比如方志库,是做上图馆藏方志库,还是中国方志库?收购大量方志会增加工作量。原本图书馆职能就是收集,但没有预算、没有投入,做了也没有商业价值,所以很难推进。如果公司愿意做大而全的方志库,让我出主意,我可以帮忙。但上海图书馆自己做不成。将来方志大模型要想能回答问题、普及教育、支持研究,就必须有更全面的资源。

赵薇:谢谢您的解答。最后一个小问题,这两天注意到“全国报刊索引”发布了智能问答“索引君”,我非常惊喜。从研究者角度,我知道您从去年开始主导这件事,做得很及时。如果是ChatGPT演化的问答机器人,大家根本不会在意。但学者每天做研究必须用的工具,一旦开发成智能体,就会有颠覆性影响。这才是人工智能的价值。

刘炜:他们胆子比较大。我鼓励韩主任他们去做、去尝试。但现在还是“拉到篮子里都是菜”,最终会有什么结果,尚不可知。因为他们有创收和增值服务的压力,所以更有积极性。通常我们这种机构对新技术会更慎重,所以我觉得他们现在先推出来的产品,可能比较粗糙,甚至会有问题,但至少先做起来了,在迭代中进步,可以走得更快。

赵薇:那么上图在大模型应用领域,是否顺着这一路线有进一步的举措?

刘炜:我们有很多想法,现在要推进的是整个行业的大模型应用。大模型我们跟了两年,馆里很多年轻人工作时会把它们当作工具。但是现在面临一个问题,过去我们没有对成果提出要求,只希望大家关注和交流,现在发现形势不等人,外面很多良莠不齐的公司开始推出一些包括数字人在内的乱七八糟的产品。所以我们今年年底、明年年初会布局一些产品,除了与一些公司合作开发产品或评测,还会在行业里下场,制定标准规范白皮书,推动大模型的应用。

编辑 | 王波

向上滑动 查看注释

[1]RDF(Resource Description Framework),资源描述框架。——整理者注

[2]万维网联盟(World Wide Web Consortium),简称W3C。——整理者注

[3]GLAM指Galleries, Libraries, Archives, and Museums,即美术馆、图书馆、档案馆和博物馆。——整理者注

[4]IIIF(International Image Interoperability Framework,国际图像互操作框架),是一组实现图像资源互操作的技术标准,旨在使用户能够更轻松地查看、操纵、比较和注释网络上的数字图像。引自复旦大学图书馆“IIIF图像服务简介”,https://library.fudan.edu.cn/e6/80/c42704a517760/page.htm,2025年9月21日。——整理者注

点击下方链接,下载原文

迈向AI时代:数字人文基础设施的先锋之路——刘炜先生访谈录.pdf

 如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

校对  |   肖爽

美编  |  王秀梅

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

原刊《数字人文》2025年第4期,转载请联系授权

阅读原文

跳转微信打开

❌