普通视图

Received before yesterday收藏

《数字人文研究》2026年第1期目录及摘要

2026年4月13日 12:26

数字人文研究 2026-04-13 12:26 北京

第6卷,总第21期

批判性再谈“数字人文”

许喆

摘要

数字人文作为人文研究中的新兴领域,其学科属性迄今仍较为模糊,并伴随持续争议。文章从方法论视角出发,综合分析各国学者关于数字人文在克服传统人文研究局限方面的论述,并批判性地指出当前数字人文研究中“重数据建设、轻实质研究”的倾向。文章主张,数字人文本质上应被理解为人文研究的方法论,而非独立学科,并强调数据准确性、研究的科学性和论证逻辑的严密性。与此同时,文章批判了当前数字人文教育过分关注技术工具的使用,而忽视人文问题意识以及发现问题和解决问题能力的培养,因而有必要从“技术中心”转向“问题中心”和“批判思维”导向。

关键词

数字人文; 方法论; 学科建设; 批判性思维; 数据准确性; 研究范式

作者简介 

许喆(HEO Chul),韩国釜山大学佔毕斋研究所研究员,鲁东大学区域国别学院特聘教授。

叙事责任与人工智能——AI如何挑战人类的责任与意义理解

马克·科克尔伯格   易瑶琴  杨 璇/译

摘要

多数责任论述聚焦于一种责任,即道德责任,或对道德责任的特定方面展开探讨,如能动性。文章概述了一个更广泛的责任思考框架,涵盖因果责任、关系责任,以及作者称之的“叙事责任”——作为“诠释责任”的一种形式,并将这些责任概念与不同类型的知识、学科和关于人的存在的观点相联系,阐释此框架如何有助于绘制和分析人工智能以各种方式挑战人类的责任和意义构建。文章借助最新的诠释学方法研究技术,提出除了道德责任等类型的责任外,人类还承担着叙事责任和诠释责任——一般而言,也包括对技术的责任。例如,人类的任务是了解并运用人工智能,在必要时对其加以约束。虽然从后人类主义的角度来看,技术有助于意义构建,但人类是体验者和责任承担者,在涉及此类诠释责任时,人类始终占据主导地位。面对一个充满数据要素、相关性和概率的世界,注定要去做出合理解释。此外,这一工作还涉及规范层面,有时甚至是政治层面:倘若人类希望避免自己的故事被他人借助技术手段改写,那么承认并履行诠释责任尤为重要。

关键词 

责任;  叙事责任;  诠释责任;  人工智能;  诠释学;  技术哲学

作者简介 

马克·科克尔伯格(Mark Coeckelbergh),维也纳大学哲学系教授;

易瑶琴(译者),云南大学马克思主义学院硕士研究生,Email:18000289002@163.com;

杨璇(译者),云南大学讲师。

中共党史研究语料智能体的构建经验与思考

马思宇  王亚星  肖桐月  李庚辰

摘要

中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属OCR适配方案与父子分段式知识库构建模式,形成“以OCR适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑”的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。

关键词 

党史研究; 史料转化; 知识库构建; 数字人文

作者简介 

马思宇,南开大学历史学院副教授,Email:masynku@126.com;

王亚星,南开大学计算机学院副教授;

肖桐月,南开大学历史学院2022级本科生;

李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。

《盛宣怀档案》智能分析系统的构建与史学应用——从检索增强到智能体推理

张光伟

摘要

面对浩如烟海且高度非结构化的历史档案,传统的数字化处理与关键词检索模式已难以满足日益复杂的史学研究需求,特别是在处理如《盛宣怀档案》这类涉及晚清政治、经济、外交等多维网络的复杂史料时,研究者常陷入查不全、理不清、关联难的困境。研究在回顾数字人文从数字化、结构化向智能化转型的技术背景的基础上,引入大语言模型前沿的思维链技术与推理一行动框架,构建了一个基于AgenlicRAG的“盛宣怀档案智能分析系统”。该系统突破了传统知识图谱预定义的局限,通过“意图理解、资料检索、资料总结、评估决策、内容撰写”五个智能体的协同工作,实现了对全量档案文本的语义向量化与动态推理。系统具备主动规划检索路径、多步逻辑推演、跨文档证据互证以及自我纠错的能力,能够模拟历史学家“提出假设一史料搜集一考证辨析一形成结论”的认知过程。文章通过微观、中观和宏观三个层面的典型案例展示了该系统的应用潜力。研究实践证明,AI时代这种“人机回环"(Human-in-the-loop)的协作模式,不仅能将历史学家从繁琐的信息搜寻中解放出来,更开启了以数字文献考古与全息逻辑增强为特征的历史研究新探索的可能性。

关键词 

盛宣怀档案; 大语言模型; ReAct框架; 思维链; Agentic RAG; 人机协作

作者简介 

张光伟,陕西师范大学历史文化学院讲师,Email:zhangguangwei@ snnu.edu.cn。

本地化智能史料管理系统的构建方法与实践

安高怡

摘要

在当前数字化背景下,传统中心化在线数据库在数据自主权、持续运营和海量资料协同方面面临结构性挑战。研究旨在提出并构建一套以“数据本地化”为核心,利用Obsidian笔记软件、开源OCR技术及自建私有云同步机制的综合方案,用以建立个人化、具备高可移植性与协作性的史料数据库。该方案通过Obsidian的纯Markdown架构和插件生态,解决了史料与笔记的割裂问题,并融入AI能力进行史料对话和分析。同时,通过自建高性能私有云,突破传统网盘的带宽限制,实现数据自主权和高效团队协作。该方案为个体研究者和小型学术团队提供了一种低成本、可持续、高安全性的数字人文研究工作流,有助于推动学术积累的开放和阶梯式发展。

关键词 

史学数据库; 数字人文; 数据本地化; Obsidian

作者简介 

安高怡,华中师范大学历史与文化学院硕士研究生,Email:205959586@qq.com。

文化遗产的“游戏化生存”

——兼论数字人文研究中的可玩性

王一楠

摘要

文章以“游戏化生存”为理论命题,系统探讨文化遗产在数字原生范式中的存在方式及其认识路径。将电子游戏界定为兼具拟真系统、具身界面、可能时空与情动媒介四重属性的程序化建模/模拟系统,并揭示出其在强化联觉体验、激活身体图式、延展想象空间及引导公共行动等方面的机制潜能。基于此,进一步提炼出“可玩性”作为数字人文研究中的关键概念,将其界定为操作可能性与生成开放性的统一,并阐发其在融合表示、具身认知、动态推演与能量汇聚四个维度的方法论价值。研究指出,可玩性不仅是数字文化遗产的存续机制,更是推动人文知识生产方式从文本阐释转向模拟与体验的关键路径。

关键词 

文化遗产; 游戏化生存; 电子游戏; 数字人文; 可玩性

作者简介 

王一楠,中国人民大学信息资源管理学院讲师、数字人文研究院研究员,Email:yinan.wang@ ruc.edu.cn。

提示词对AI文学创造力的激发机制研究

李倩  吴静

摘要

随着生成式人工智能深度介入文学创作,提示词已成为影响人机协同创作效果的关键因摘素。针对提示词如何激发其文学创造力这一问题,研究设计了五类提示词在DeepSeek模型上进行生成实验,并采用主客观结合评估体系并展开量化与质性分析。实验揭示:提示词通过“语义定向一认知修辞介入”机制,将人类意图转化为AI可执行创造操作;其中,抽象概念型激活跨域类比,多元融合型促进异质语义整合。AI文化寄生性既反映人类集体无意识,又提供陌生化表达契机,推动分布式创造力涌现。提示词设计与多轮生成策略在AI文学创作中的关键作用,为数字人文语境下人机协同创作提供理论与方法参考。

关键词 

提示词; 人工智能文学创作; 创造力评估; 数字修辞学

作者简介 

李倩,南京师范大学公共管理学院哲学系博士研究生、新疆财经大学中国语言文化学院语言文学系讲师;

吴静,华东师范大学哲学系教授。

水书文字数据库和智能识别平台构建

孙治弘  谢雨霏  刘凌  叶晨

摘要

水书是中国水族独有的文字文献,蕴含丰富的民族文化信息,被誉为水族的“百科全书”。然而,受限于数据资源稀缺、手写字形繁复且非标准化、语义解读高度依赖稀缺传承人等因素,其数字化保护与智能化识别面临巨大挑战。为此,研究构建了“水书文字数据库”与“水书智能识别平台”。水书文字数据库采用“书一篇一句一字”四级架构,整合水书字形图像、注音及释文信息,并提供多路径检索功能,有效汇聚并管理分散的水书文献资源。水书智能识别平台基于两阶段深度学习模型(DBNet文本检测+CRNN文本识别),通过引入Unicode私有区编码方案并采用数据增强策略,针对水书数据的低资源特性、长尾分布及复杂版式进行优化,实现了水书手写体文本的高精度识别。实验结果表明,该方法在水书文本检测与识别任务上的性能显著优于现有通用OCR方案。研究为水书等少数民族濒危文字的数字化保护提供了有效的技术解决方案,对相关古籍文献的数字人文研究具有重要参考价值。

关键词 

水书; 数字化保护; 智能识别; 文字数据库

作者简介 

孙治弘,同济大学计算机科学与技术学院,研究生;

谢雨霏,同济大学计算机科学与技术学院,本科生;

刘凌(通讯作者),华东师范大学中国文字研究与应用中心,副教授,Email:lingliu60@163.com;

叶晨(通讯作者),同济大学计算机科学与技术学院,教授级高级工程师,Email:yechen@tongji.edu.cn.

全球虚拟货币发展的历史空间进程研究——以比特币为核心

赵佳文

摘要

在当代电子信息技术迅速发展的背景下,虚拟货币诞生并席卷全世界,搅动了全球金融市场及传统治理体系。自中本聪发表“比特币白皮书”以来,比特币就成为代表性的虚拟货币,文章依托电子历史文献学、互联网考古方法,基于互联网原生电子史料,结合国内外最新研究,从全球、长时段的角度追溯比特币的发展史,比较不同国家的监管政策,发掘比特币作为去中心化时代、逆全球化时代的新型交易通货的重要价值,并指出虚拟货币的演变是技术协议、物质载体与社会应用三者交织的产物,由此提出“三元嵌套空间生产模型”假说。文章为理解当代金融史和互联网发展史提供了一个新的角度和路径。

关键词 

虚拟货币; 区块链技术; 金融史; 互联网考古; 互联网历史; 数字人文

作者简介 

赵佳文,延边大学人文社会科学学院历史系讲师,Email:21110760017@m.fudan.edu.cn。

阅读原文

跳转微信打开

数字人文时代的“新文献观”及其对文献学专业教育变革的启示 ——以中华书局“苏东坡数字人”为案例

2026年4月14日 10:09

原创 郭琳 王建 2026-04-14 10:09 北京

在中国传统文化中“文献”既有典章资料的含义(“文”),又指掌握典章之人(“献”),但后世的文献学在某种程度上缺失了“人”的维度。

教育与教学

2.png

郭  / 北京大学社会科学部

王 建 / 中华书局

要:在中国传统文化中“文献”既有典章资料的含义(“文”),又指掌握典章之人(“献”),但后世的文献学在某种程度上缺失了“人”的维度。为了提供一个更贴合“文献”概念原初含义,同时也更适合当下数字人文时代的理解框架,本文尝试引入文化哲学、技术哲学的新视角,来提供一种新的“文献观”,试图将“文”与“献”纳入一个整体框架来进行理解。从文化哲学的视角,人是符号的动物;从技术哲学的视角,符号是人的外化与延伸。人可以创造符号并以此创造文化,而文献也正是一个符号系统,它依赖于对应时代的符号书写与媒介技术。在全新的数字人文时代,数字文献的应用越来越广泛,数字文献技术使得历史文化名人数字人成为可能与必然。与此同时,符号技术的变迁必会引起文化形态与学术范式的升级转型,当下大学的文献学专业研究与教学模式变革需要试图做好专业与通识的结合、基础与应用的融合、传承与创新的综合,才能塑造未来大学教育的新形态,创造出越来越多像“苏东坡数字人”这样的优秀案例并切实推进落实中华优秀传统文化的创造性转化和创新性发展。

关键词:文化哲学 技术哲学 文献观 数字人 文献学 数字人文

一、文化哲学、技术哲学视角下的“文献观”

(一)“文献”概念溯源与新视角的引入

我国是一个史籍浩瀚、史学发达的国家,文献的产生、流传和研究已有悠久的历史。随着时代的发展,“文献”一词的含义在不断变化。《辞海》将“文献”释义为“专指具有价值或与某学科相关的图书文物资料”,《现代汉语词典》将“文献”解释为“有历史价值或参考价值的图书资料”。所以,现在人们通常所理解的“文献”是指图书、期刊、典章等所记录知识的总和。

而如果我们将考察的视线拉得更长可以发现,最早将“文献”一词用作书名的著作是元代马端临的《文献通考》,而“文献”一词的最早出处则可以追溯到《论语》。在《论语·八佾》中,孔子曾说:“夏礼吾能言之,杞不足征也;殷礼吾能言之,宋不足征也。文献不足故也,足则吾能征之矣。”何晏《论语集解》中引东汉经学大师郑玄的注云:“献,犹贤也。我不以礼成之者,以此二国之君,文章贤才不足故也。”这里用“文章”解释“文”,用“贤才”解释“献”。宋代朱熹在《四书章句集注》中解释道:“文,典籍也。献,贤也。”[1]“文”是指历史典籍、档案等文字资料,“献”是指博学多才、熟悉掌故的贤才。清代刘宝楠在《论语正义》中也沿用了这一说法:“‘文’谓典策,‘献’谓秉礼之贤士大夫。”[2]后来杨伯峻在《论语译注》中的注释为:“《论语》的‘文献’包括历代的历史文件和当时的贤者两项。今日‘文献’一词只指历史文件而言。”[3]

鉴于上述梳理可以看出,今天我们常用的“文献观”对于“文献”概念的理解,如果较之“文献”一词的原初含义而言,其实是只得其半,而缺失了对于“人”本身的理解。因此,为了提供一个更加贴合“文献”概念原初含义的新的“文献观”解释框架,本文尝试引入文化哲学、技术哲学的新视角,来探索一种新的“文献观”表达,试图将“文”与“献”纳入一个整体框架来进行理解,并从中发现人类“文献”发展史的规律与趋势。

(二)文化哲学的新视角——人是符号的动物

恩斯特·卡西尔(Ernst Cassirer,1874—1945)是德国著名的文化哲学家,被誉为“当代哲学中最德高望重的人物之一”。卡西尔在其代表作《人论》中概括表达了他的符号论文化哲学体系,他认为人类文化形式都是符号形式。因此,我们应当把人定义为符号的动物(animal symbolicum)来取代把人定义为理性的动物。[4]也就是说,人是能用符号去创造文化的动物。从而可以理解,人是创造符号并以此创造文化的动物,符号是人区别于动物的一个显著特点。人类拥有其他一切动物不具有的符号系统,人可以在创造符号的过程中获得自由与解放,成为真正意义上的人。

“符号”是卡西尔文化哲学思想体系中的核心观念。在卡西尔这里,“符号”不是具体的单个符号,而是一个整体的概念,具有极其丰富的内容和意义,他将人类文化的各种形式包括语言、神话、寓言、宗教、艺术、科学、历史等都看作符号形式。人与符号紧密相连,符号是人类创造文化的媒介。人具有符号化的思维模式,并通过符号创造文化,即创造一个符号世界,进而认识自我、发展自我。符号化的思维和符号化的行为是人类生活中最富于代表性的特征,并且人类文化的全部发展都依赖于这些条件,这一点是无可争辩的。[5]可见,符号是人和文化的共同本质,人—符号—文化构成了三位一体的存在。首先,符号可以理解为作为文化现象的符号形式;其次,符号体现了主体(人)本质的符号活动;另外,符号展现了被赋予的符号意义。

在卡西尔看来,“符号”(symbol)是与“信号”(sign)相对的,“信号是物理的存在世界之一部分,符号则是人类的意义世界之一部分。信号是操作者(operator),而符号是指称者(designator)”。[6]文化符号和自然界的信号有严格区别,这二者体现了“人禽之别”的关键,即动物只能对信号做出条件反射,只有人才能掌握和运用信号,并将信号改造成有意义的符号,所以“信号”与“符号”的核心差别在于“意义”。如图1所示,人和动物与客观世界的互动方式是不同的,动物与世界直接互动,往返的是信号,信号不具有意义,它是物理性的、实体性的存在;人与世界则通过符号进行互动,符号是意义的表达。符号是人类的创造物,人具有符号构形能力,不存在无意义的符号,也不存在无符号的意义。

图1.png

图1 人和动物与客观世界的互动方式差异

由此可以看出,基于“符号”这一视角,可以认为,主流“文献观”定义里的“价值”与“知识”等跟卡西尔最为强调的“意义”是内在相通的,因此,可以用“符号系统”这一概念来提炼与概括“文献”中“文”的内涵。符号系统成为连接人与文化的通道,构成整个人类文化世界。

从根本上说,人是符号的动物,符号揭示着人的本质,延伸着人的能力,人所创造的符号成为人与世界的中介,人所面对的世界也是符号世界。与此同时,卡西尔认为,符号具有二重性,即符号具有可感载体与普遍意义两个方面。人类可以像其他动物一样以各种感官与世界进行交往,依据物理信息与外界进行沟通,此时世界是可感知的。另一方面,人具有符号能力并进行符号活动,正是这种符号能力将自己与动物区别开来,当人类作为“符号”动物与世界交往时,人类是有意识的、有思想的、有理智的,此时“符号”成了载体与意义的统一。

需要指出的是,就历时性的角度而言,作为人与世界之中介的符号系统是具有历史性的,也就是说,一个个体所面对的符号世界从根本上说正是该个体之前全部的人类历史中所能留存下来的符号的整体。

(三)技术哲学的新视角——符号是人体感官的外化与延伸

从卡西尔把人定义为“符号的动物”来看,一方面,人是创造和发明符号的动物;另一方面,人是使用符号的动物。正是由于人的能动性与创造性,人能够制造和使用符号,人的意识、愿望、思维等精神能在具体实践活动中对象化到客观世界,实现客观世界的符号化,比如艺术是人类直觉或观照的客观化,语言和科学是人类概念的客观化,而这些符号可以将人体感官不断地外化和延伸。

其实在更早的德国技术哲学家恩斯特·卡普(Ernst Kapp,1808—1896)那里,曾更加明确地提出了工具和器物是人体“器官投影”(Organ Projection)的核心观点,在其被认为是技术哲学奠基性著作的《技术哲学纲要——从新观点看文化发生史》(1877)一书中,卡普试图用器官投影论的新观点,通过作为技术文化的工具发生历程来解释人类文化的演进历史,他认为,人体的外形和功能总是作为人类最理解的客观存在,当成创造技术的外形和功能的尺度,投影到外部环境;所有工具的源泉和本原的技术,都是建立在人的器官特别是手的基础之上的。因此,人是制造器物的尺度。[7]卡普的“器官投影”理论开创了一种分析技术的独特视角,某种程度上,我们可以说是他提出了技术生成文化理论,并从技术哲学范式内部对技术的本质进行思考。

作为卡普“器官投影”论在媒介时代延续的加拿大媒介理论家马歇尔·麦克卢汉(Marshall McLuhan,1911—1980)在他的名著《理解媒介:论人的延伸》一书中提出:媒介,即技术,可以是人的任何延伸。媒介带来一种新的技术尺度,人的延伸及其感知比率随之改变,就形成一定的后果。这就是“媒介即讯息”。[8]媒介是那些延伸人类器官的所有工具、技术和活动,一切技术都可以被看作是不同人体器官的延伸,比如,车轮是人类脚步的延伸,衣服是人类肌肤的延伸,报纸是人的言语和视觉的延伸,广播是听觉的延伸,等等。万物皆媒介,凡是能使人与人、人与事物或事物与事物之间产生关系的物质都是广义的媒介。半个世纪之后,美国学者凯文·凯利在《科技想要什么》一书中进一步认为“技术是思维的延伸”,将技术称为“第七王国”,并提出了“技术元素”(technium)的概念,这里的“技术元素”包括硬件、文化、艺术、社会制度以及各类思想。他认为科技是我们躯体的延伸,技术元素是生命的延伸,技术应该被理解为一种正在进化的生命。[9]

综上所述可以看出,就技术哲学的视角而言,作为人与世界的中介的符号及其能力也可以被视为“符号技术”,其本身就是人类感官与思维的外化与延伸。进一步的,再就符号的历史性而言,一个个体所面对的符号世界从根本上说正是该个体之前全部的人类历史中所能留存下来的前人们感官与思维外化与延伸的整体。因此,就其符号整体的所指而言,它指向的是前人们于四维时空、眼耳鼻舌身意全感官的所有真实而鲜活的生命经验,而就该符号整体的能指而言,它则是特定历史时代与对应的特定符号技术下对上述多维度、全感官生命经验的部分维度、部分感官的“投影”。

(四)双重视角下的新文献观

总体而论,从文化哲学的视角来看,人是创造符号并以此创造文化和进行文化实践的动物;从技术哲学的视角来看,符号是人体感官的外化与延伸,也可以理解为,人类的一切活动是借助于符号技术不断外化自身的过程。基于此,在文化和技术哲学的双重视角下,可以构建一种新的“文献观”表达,即“文献”是一个符号系统,是人类进行一切生命活动的符号化记录,其映射的对象其实是真实而鲜活的历史人物的生命体验所外化于四维时空形成的高维度、全感官的历史文化世界。

因此,作为总结,就作为人与世界的历史性的中介而言的符号世界对应着本文新文献观中“文”的内涵,而在客观世界的角度来看,人与历史性的符号世界构成的具有意义、价值、历史性的整体,则对应着本文新文献观中“献”的内涵,如图2所示。

图2.png2双重视角下的新文献观

可见,文献这一符号系统依赖于对应时代的符号书写与媒介技术,特定时代的符号书写与媒介技术的维度决定了文献的维度,它蕴含着人类活动、媒介技术(符号书写)、知识生成(符号世界)相互依存的关系。事实上,“文”与“献”本身就是一个整体的结构体系,遵循着人类历史文化发展的规律与趋势。

(五)人类符号技术发展趋势与数字人文的必然

如前所述,人类符号技术的发展史其实就是人类文化的发生史,是人类不断追求更有效、更丰富地去外化与延伸自身感官与思维的历史,因此,人类符号技术也在多维度与多感官两个角度呈现出了历史性的发展趋势。

在原始社会,人们通过结绳、绘画、雕刻等方式记载和传递信息,这些图形和符号逐步演变并形成最初的符号系统。当文字及印刷技术出现后,人类的视觉得到了延伸。其中,“文字”的产生打破了“口耳相传”的局限,成为人类用符号记录和表达信息的突破性进步,从最早的抽象图画,再到象形文字、指事文字、会意文字等。广播、电视等媒介技术的诞生,改变了人们的生活方式和文化体验。广播延伸了人的听觉,而电视结合着语言符号与非语言符号,更是综合了文字、声音、图像等多重符号,具有“声画合一”的特点,更全方位延伸了人们的视觉和听觉。21世纪以来,随着信息科技的迅猛发展,增强现实(AR)、虚拟现实(VR)以及混合现实(MR)等技术突飞猛进,让人类视觉的延伸逐渐从平面化的二维向立体化的三维拓展,如图3所示。与此同时,通过不断创新的数字技术的加持,人类的嗅觉、味觉、触觉等也得以被前所未有的数字化模拟,更进一步的,人工智能、脑机接口等颠覆性技术也逐渐显露了越来越多的曙光。

图3.png图3 符号技术发展简史与趋势

由此可见,作为与人类文化发生史相伴生的符号技术呈现出追求更高时空维度、更多感官意识维度的必然趋势,因此,数字文献技术这一作为人类思维与智能的外化与延伸的符号技术必然成为当今人类符号技术发展的大势所趋与时代主题。方兴未艾的数字化改变了传统文献的生产、存储、研究和使用方式,以印刷媒介为基础的传统文献生产体系正向以智能媒介为前提的数字文献生产体系转变。[10]数字化促进了知识形态的变革与演进。随着大数据技术的应用以及人工智能等数字技术的发展,古籍数字化、文献数字化已成为共同趋势,数字文献大量出现。数字人文数据以文本形式为主,兼有图片、音频、视频、3D等多元数据形式。文本资料有地方古典文本资料、图书、笔记、家谱资料等。图片有地图、画作、壁画等。3D数据有器皿、雕塑等。音频与视频数据包括访谈、纪录片等多媒体数据。[11]

与此同时,由于人类符号技术始终不断追求更高时空维度、更多感官意识维度的表达,因此,每当有一种新的、具有更高时空维度与更多感官意识维度的人类符号技术出现后,此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”,并被依托其更加丰富的维度与感官进行持续不断地“扩写”与“创写”。并且,这样的“重新书写”呈现出越来越多的高时空、跨学科、多模态、全场景等特点,为人类、文化、历史的全面延伸尤其是具有悠久历史文献传统的中华优秀传统文化的全面延伸提供了无限丰富的可能。

二、文献学的数字化应用——以中华书局“苏东坡数字人”为案例

习近平总书记曾强调,“要系统梳理传统文化资源,让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来”。让文物和文化遗产“活起来”……最终实现“让文物说话,让历史说话,让文化说话”。[12]为此,中华书局立足自身深厚的文化积淀与数字文献技术优势,首创研发了全国首位3D超写实历史文化名人——“苏东坡数字人”。

(一)从数字文献视角看古代历史文化名人数字人的研发特征

“数字人”是指通过计算机图形渲染、动画驱动、动作捕捉、语音合成、人工智能等技术打造的虚拟仿真人物,其产生本身就是文化与科技深度融合的产物。清华大学《2020—2021元宇宙发展研究报告》指出,2021年被产业界称为“元宇宙元年”。因此,作为未来元宇宙数字世界主体性存在的“数字人”,自2021年迎来了爆发式的发展。与此同时,随着我国经济社会的全面发展和国际地位的不断加强,中华优秀传统文化在作为互联网原住民的年轻人群中的认同度与影响力在不断提升。在这样的时代背景下,从2021年至今,各类国风数字人陆续发布,俨然已经成为中华优秀传统文化活化利用的标配。如2021年10月28日,中央戏剧学院与北京理工大学共同发布“梅兰芳”,2022年5月18日,中国文物交流中心发布“文夭夭”,2022年6月3日,新华网发布“筱竹”,同一天浙江卫视发布“谷小雨”,2022年6月15日,敦煌研究院发布“伽瑶”,2022年7月22日,国家博物馆发布“艾雯雯”,等等。

但纵观以上多位国风数字人,除了“梅兰芳”外,均属于“纯虚构型”数字人,即历史上并没有真实存在过这个人物,而对于古代的真实历史文化名人进行“复活”的超写实数字人,则一直是一个空白。究其原因,需要先从数字人的分类入手进行分析。

在中华书局“苏东坡数字人”之前,数字人行业内对于数字人的分类通常是采用两类方法。其一,是根据数字人的角色形象与建模技术进行分类,分为二次元数字人、2.5次元数字人、3D卡通数字人、3D写实数字人等。其二,是根据数字人的功能与应用场景进行分类,分为服务型数字人、身份型数字人等。其中,服务型数字人可用于替代真人服务,并作为多模态AI助手提供服务,如虚拟主播、虚拟教师、虚拟客服等;身份型数字人则可以实现虚拟IP、虚拟分身等功能。然而,这两种分类方法均无法解释和分析历史文化名人数字人的独有特征。为此,中华书局立足数字文献的全新视角,对数字人进行了全新的分类,并从文献不同特征的角度进行象限化分析,逐步探索出历史文化名人数字人研发的理论基础与方法论思路。

首先采用“有无文献依据”和“文献是否齐清定”两个指标来进行分析,可以得出如下的三个象限,如表1所示。第一类虚拟数字人对象是“在历史文化符号世界中曾经真实存在过的人”,这类数字人的研发是基于真实有效的文献资料,且文献具有“齐”(齐全)、“清”(清晰)、“定”(确定)等特点。第二类虚拟数字人对象是“正在活着的人”,他们虽然有文献资料记载,但其文献资料还处于不断创作和变化之中,所以具有不稳定性,还未成“定论”。第三类是纯虚拟数字人,这类数字人并无文献典籍的基础,在历史上未曾真实生活过。

图4.png1基于文献维度的全新数字人分类(一)

然后,可以采用“文献的维度”和“文献的感官”两个指标来对第一类数字人进行进一步分析,如表2所示,古代历史文化名人只有关于身体记录的抽象的文字文献(可视为一维文献),但现代历史文化名人具有三维立体身体数据(三维文献)和动态影像文献(四维文献)。另外,古代历史文化名人只有画像等“非完全真实”的视觉文献,无真实的听觉、嗅觉等文献,但现代历史文化名人具有真实的视觉、听觉文献,甚至可能留存有部分程度的嗅觉文献。他们留存有照片、音视频、使用过的器物等资料。

图5.png表2 基于文献维度的全新数字人分类(二)

最后,再通过“有无真实地理文献”这一指标,还可以将古代历史文化名人176分为两类,如表3所示。一类是以苏东坡、李白、李清照等中华先贤人物为代表的曾在历史上真实活过的人物,另一类是以苏小妹、林黛玉、孙悟空等为代表的在文学符号世界中存在的人物。

图6.png

表3 基于文献维度的全新数字人分类(三)

(二)中华书局古代历史文化名人数字人研发的方法论心得

综上所述可以看出,对于超写实的古代历史文化名人数字人的研发而言,可谓是一项几乎前无古人的工作,一方面要求数字人的开发技术本身必须达到与超写实纯虚拟数字人同样的行业前沿水准,另一方面又不允许像纯虚拟数字人那样天马行空地随意发挥,但与此同时,又缺乏像邓丽君、梅兰芳数字人那样的真实照片与动态视听影像的文献支撑,因此需要独辟蹊径、守正创新。为此,中华书局始终牢牢扎根“文献”这一关键基础,逐步摸索出了一些古籍文献数字化应用的全新方法论。

其一,要将重写与创写有机结合。

如前所述,每当有一种新的、具有更高时空维度与更多感官意识维度的人类符号技术出现后,此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”,并被依托其更加丰富的维度与感官进行持续不断的“扩写”与“创写”。就超写实古代历史文化名人数字人的研发而言,首先,必须要求是“重写”,而且是严格遵从古籍文献学术共识的“重写”,这是与纯虚拟数字人研发方法的根本区别——也因此,古籍文献数据的学术共识对于超写实古代历史文化名人数字人的研发来说是应该具有“一票否决权”的,即明显不符合古籍文献记载的古代历史文化名人数字人是应该被限制准入的。

以苏东坡数字人的“塑形”为例,中华书局在总字数超70亿字的古籍大数据中心中进行了海量搜索,通过一系列精心设计的关键词精准抓取到了一批涉及苏东坡容貌形象的古籍文本数据,与此同时,又通过图像搜索技术,抓取了由宋至清各个不同时期所作的涉及苏东坡的画作100余幅,既包括苏东坡单人画像,也包括如《西园雅集》《赤壁》等主题群像以及若干石刻画像拓片等,从而初步形成了对于苏东坡容貌形象之“古籍真实”的把握,然后再结合权威专业的专家系统进行校验,最终确定下来超写实苏东坡数字人的每一个细节并确保与历史文献资料不相违背,实现严格科学的“重写”。

然而,由于古代历史文化名人只有来自古籍文字记载的一维文献和非完全真实的画像类二维文献,缺乏像邓丽君、梅兰芳等人的真实三维立体身体数据和动态影像数据这样的四维文献,所以对于古代历史文化名人数字人的“塑形”而言,科学规范的“重写”只能做到“不错”(即没有古籍文献的反例),但无法证明“全对”(即只有如此才是唯一正确的),因此,在“不错”与“全对”之间的部分,需要进行一定程度的“创写”——这也正是古代历史文化名人数字人与邓丽君、梅兰芳等数字人研发方法的根本区别。

以苏东坡数字人为例,中华书局在深入挖掘古籍文献中对于苏东坡容貌形象的记载数据的同时,还致力于深度提炼苏东坡的精神气质。为此,中华书局通过“苏东坡专题数据库”与“苏东坡主题知识图谱”的深度挖掘,侧重提取苏东坡本人、同时代人、后代历史人物以及现当代专家学者对于苏东坡精神气质的凝练与概括,并且还对当前各大主要社交媒体上有关苏东坡的内容中反映的东坡气质进行了搜集与提炼,最终实现在“塑形”基础上进一步的“凝神”,让苏东坡数字人不仅形似,更加神似。

图4 全国首位3D超写实数字人苏东坡

其二,重写与创写都具有当代性。

正如前文所言,任何一个符号,就其能指而言,都是特定历史时代与对应的特定符号技术下对多维度、全感官生命经验的部分维度、部分感官的“投影”,“苏东坡数字人”作为当下时代产生的一个数字文献符号作品,它的“重写”与“创写”也都具有典型的“当代史”特征,即它在将古籍文字一维文献、画像类二维文献以及精神气质等的文字表达综合起来最终予以3D超写实、可动态交互的数字人表达时,其实已经不可避免地带进了“当代人们的精神”,一如意大利历史哲学家贝奈戴托·克罗齐(Benedetto Croce,1866—1952)在其《历史学的理论和实际》一书中指出的:“一切历史都是当代史。”在克罗齐看来,当代性不是某一类历史的特征,而是一切历史的内在特征。[13]真正的历史属于当代生活,当我们在思考过去的历史时,会把过去纳入我们当前的思想和精神之中,体现我们当前的思想活动和精神生活,历史时刻此时便与人们的思想或精神紧密相连,成了“活生生的历史”,也反映了当下人们的思考,因而从这一意义上来说一切历史都是当代的。由于实践的需要以及人们对历史事件的认识不断深化,历史上发生的事件会以新的形式再次“复现”。

其三,既要塑形、凝神,更要赋魂。

为了让古籍里的历史文化名人真正地“活起来”,让他们以数字人的身份真正走出古籍书本、走进当今时代、当下生活,我们需要将平面化的文学文本转变为立体化的虚拟场景。这不仅能带来视觉上的直观冲击,同时还能提供互动式体验和全新理解。[14]因此,在数字人“塑形”“凝神”的基础上,我们需要进一步为其进行“赋魂”。

以苏东坡数字人为例,“赋魂”主要体现为古籍大数据与人工智能技术的深度融合。在这一方面,中华书局一直在持续进行古籍人工智能技术的自主研发,通过对70亿字古籍大数据的深度机器学习与人工智能训练,目前中华书局开发的古籍智能处理系统已经可以自动给古籍断句标点、自动标记人名地名、自动核对引文、自动识别古籍文字等。[15]下一步,中华书局将在上述工作的基础上,基于与主流大模型的深度合作,使用苏东坡专题数据库对大模型进行专项人工智能训练,从而让苏东坡数字人越来越像真正的苏东坡一样去认知、去思考、去表达、去行动,最终实现苏东坡在元宇宙数字世界真正的“复活”,让苏东坡成为“中国式美好生活的代言人”,让他“活”在我们这个时代。

以人工智能版苏东坡数字人的现场实时自然语言交流为例,至少涉及如下的技术环节:(1)提问者自然语言自动转换成文字;(2)文字自动输入大模型(外挂专题数据库)并自动生成回答文字(该回答至少符合3个维度的要求:自然语言之通畅,史实学术之正确,符合苏东坡的身份与气质);(3)回答文字自动生成数字人的语音;(4)根据语音自动驱动唇形;(5)根据语义自动匹配表情;(6)根据语言和表情自动匹配肢体动作;(7)服饰等跟随肢体动作实时自动解算。

可见,要想真正给数字人“赋魂”,不仅涉及人工智能、边缘计算、虚拟现实、实时动捕等技术,还需要专业的专题数据库、匹配应用场景的深度知识图谱等大量数据挖掘与知识服务能力的支持——例如对于历史文化名人的古籍数据进行挖掘、梳理、加工并实现数据可视化,实现文化资源数据与文化数字内容的标识解析、提炼转化、搜索查询、匹配链接、传播利用等。

(三)中华历史文化名人数字人与中华文化元宇宙展望

元宇宙是数字技术与文化内容的双向融合、联动共生。元宇宙将会给内容产业带来新的进化,在内容生产、内容形态、内容衍生、内容体验等层面赋予新的定义。[16]“数字人”被视为未来人们进入“元宇宙”的入口,将广泛应用在元宇宙新生态中,作为元宇宙中“人”与“人”、“人”与事物、事物与事物之间产生联系或发生孪生关系的新介质,起着举足轻重的作用。可见,传统的中华文化内容产业将会被持续赋能、创新发展。人类经验对象有可能实现全面数字孪生化,线下物理空间将可能全面混合现实化,线上线下场景将全面人工智能化。

在这样的背景下,中华书局将继续发挥古籍数字化专业优势,以主题出版工程“中华先贤人物故事汇”为底本,持续研发系列化的“中华历史文化名人数字人”,如李白、李清照、陶渊明、戚继光等,逐步形成数字人矩阵,深入挖掘历史文化名人的古籍数据,在数字科技加持下进行现代化表达,形成“中华先贤数字人”IP矩阵,真正让“书写在古籍里的文字活起来”“把优秀传统文化中具有当代价值、世界意义的文化精髓提炼出来、展示出来”,让中华优秀传统文化融入时代、融入生活,更好地满足数字时代人们对于中华传统文化持续高涨的热情和需求。

进而,在全新的数字经济时代,中华文化内容产业基于古籍大数据,借助元宇宙数字科技,将有可能彻底突破传统媒介格局,构建全新数字内容生态,“创造性复原”书写在古籍里的“人、货、场”,实现中华文化的人、场景、叙事的全面数字孪生到数字原生再到虚实共生,最终实现中华文化元宇宙的宏伟愿景。

三、“新文献观”对文献学专业研究与教学模式变革的启示

如前所述,正因为每当有一种新的具有更高时空维度与更多感官意识维度的人类符号技术出现后,此前所记录下来的人类文化历史都将被这种新的符号技术“重新书写”,并依托其更加丰富的维度与感官进行持续不断地“扩写”与“创写”,这也直接导致人类符号技术的每一次变迁都引起文化形态与学术范式的升级转型。落实到当下的大学教育而言,数字人文可以被视为数智化时代人文与科技融合发展的前沿学术阵地,或许正可以塑造未来大学教育的新形态。

(一)文献学作为一门学科在近代中国的诞生

中国传统学问虽然也有分科,但主要是从研究主体而非客体乃至方法的角度来划分,是学派而非专业。清中后期汉学发达,开始出现专门化的倾向,如龚自珍在为《阮元年谱》作序时概括出了训诂之学、校勘之学、目录之学、典章制度之学、史学、金石之学、九数之学、文章之学、性道之学、掌故之学十个方面,但总体而言这些所谓的“专门”还处于萌芽的阶段。[17]

直至19世纪末以后,“中华民族到了最危险的时刻”,这引发了国人关于中西古今之争的深刻反思,也激发了从制度到思想的全面扬弃与重建。在学术和教育领域,古典的经学、礼教在现代学制中毫无生存空间,文以载道的圣人之学被彻底革除,西学东渐的大潮席卷而下,从自然科学到社会科学乃至人文学科,无不是建立在西方现代学科分类、研究范式和教育体系的基础之上的。在此“三千年未有之大变局”中,中国历代传统之学在大学体制中被摒弃,经史子集被肢解为文献学、语言学、哲学、史学等。1920年,梁启超在《清代学术概论》中首次提出“文献学”的概念;随后《中国文献学概要》的出版开始从学科的角度阐述文献学的内涵;陈垣、王国维、顾颉刚、罗振玉等一大批学者推动了文献学学科体系的创建。

(二)分科而治导致的“人”与“学”之分

在更广阔的历史和地理空间上考量,工业革命后职业教育对传统大学教育的冲击,以及以洪堡思想为代表的研究与教学相结合的新型大学潮流,使得德国逐渐成为当时世界教育和学术的中心。但与之相对的,作为“牛津运动”代表人物的英国主教纽曼在其著名的《大学的理念》中重新阐释了知识的分类,并在此基础上提出大学的本质在于心智的培养,从而提醒人警惕知识之恶。

与之遥相呼应的,清末新政中出台的我国第一个真正实行的现代教育体系——“癸卯学制”,其所设定的教育宗旨即为“端正趋向,造就通才”,即使是对立足于专门教育的大学堂,仍贯彻着“通”的理念。一方面,专门之学是通经致用的工具;另一方面,治学的目的是立人,学问只是成为“通人”的工具。[18]

正如钱穆先生所言:“在中国传统知识界,不仅无从事专精自然科学上一事一物之理想,并亦无对人文界专门探求某一种知识与专门从事某一种事业之理想。因任何知识与事业,仍不过为达到整个人文理想之一工具,一途径。若专一努力于某一特殊局部,将是执偏不足以概全,举一隅不知三隅反,仍落于一技一艺。”[19]他以此批评西方近代的学科分立时说道:“即就西方近代传授知识之大学言,分科分系,门类庞杂,而又日加增添。如文学院有文学史学哲学诸科系,治文学可以不通史学,治史学亦可不通文学。治文史可以不通哲学,治哲学亦可不通史学文学,各自专门,分疆割席,互不相通。……要而言之,则可谓之不明大体,各趋小节。知识领域已乱,更何论于人事。”[20]在前后断裂的历史大潮中,知识层面的整理国故,以及西方导向的分科而治,目光指向的只能是专精而非博通、保存而非应用、批判而非创新。

(三)新时代提供了“文”与“献”合璧的可能性

时至今日,变局再现。这一次,工业文明经历了几十年的后工业过渡,终于开启了数字智能时代的大门。人类信息环境正在发生根本性的改变,人类文明记录和传播方式的大规模变革势必引发文明本体的重建和知识谱系的改写。以本文“新文献观”的视角来看,人与世界是一个具有历史性和当代性的整体,“文”正呈现出对“立人”的重视与回归,“献”则经历了知识生产方式的不断迭代,不论是对于文献学专业的研究和教学,乃至更广阔范围上的大学教育,都具有深刻的启发意义。为此,本文认为应该努力做好如下“三合”。

第一是专业与通识的结合。工业时代,专业教育的重要性毋庸置疑,大学为工业化的全面胜利贡献了最重要的人力基础和技术创新。同时,相伴而生的通识教育也一直在呼吁人本主义的回归,抵抗着过度专业化给人带来的异化和禁锢。但近年来,数字鸿沟、算法黑箱和信息孤岛似乎进一步强化了专业教育的卓越性,数字智能时代的技术主义与全球主义对通识教育带来了巨大的冲击和挑战。[21]因此,大学的通识教育更应与专业相结合,走出一条专业基础上的通识之路。这不仅是因为专业教育本身已经从工业文明的摇篮跃迁为智能社会的航母,更是源于通识教育开始卸下西方“普世价值”的面具,转而深入探讨数字智能时代的“人”的本质属性。

具体而言,通识教育模式的重心在于对经典文献的研读,这恰是对一个时代经典问题的凝练、思考和解答。数字化时代的文献学更强调对于文献的跨时空、跨学科理解,不仅是知识形态的改变,更激活了其内涵的文化精神,建构出“历史—当代”相连接的当代性意义世界。这就使今日的通识教育不再局限于一般的或者说以西方价值为内核的公民教育和批判精神,转而推动个体的社会化、本土化,高扬科技与人文的交叉,塑造一种具有超越性的共同体意识,最终培养出符合“君子不器”的、可以创造和驾驭“苏东坡数字人”这一类新型成果的复合式、高层次、战略性未来人才。

第二是基础与应用的融合。2023年2月,习近平总书记在主持中共中央政治局第三次集体学习时,着重阐述了强化基础研究的重要性,强调要有组织推进“战略导向的体系化基础研究、前沿导向的探索性基础研究、市场导向的应用性基础研究”[22]三种基础研究。尤其是“应用性基础研究”的提法更是直指“学”与“用”相分裂的痼疾——而这一点在传统的人文领域更是以“无用即大用”为由成了一种自傲。实际上,基础是源头,应用是牵引,从“文”到“献”的内化正是在应用转化的过程中实现的。尤其对于人才培养来说,如果没有(广义上的)就业前景,这个学科几乎就丧失了存在的合法性。以应用为导向的基础研究和人才培养,更加明确了目标指向和评价标准,倒逼综合改革的落地,打通了大学与社会的互动链条。

因此,一方面,数字文献学是应用数字技术来研究文献,另一方面,这也是数字技术为文献学开创了广阔的应用空间,促使其更好地服务于学术研究和社会大众,从而激活其生命力和生产力。从前述“苏东坡数字人”案例就可以看出,权威的古籍数据与专业的学术研究是基础、是源头,但如果没有数字科技的应用转化与产业赋能,这些数据就无法成为生产资料,最终也就无法形成生产力;与此同时,“苏东坡数字人”在媒体传播、城市IP发展、展览展示、文旅商融合以及人工智能驱动等方面面临的新场景、新机遇,也反过来对古籍数据的数据挖掘与知识服务、数字人人工智能的情感模型等新领域提出了更多更新、前所未有的技术与理论需求,这又引导和推动了对应学术研究的发展与创新,最终形成基础与应用融合的正反馈循环。

第三是传承与创新的综合。从推动中华优秀传统文化创造性转化、创新性发展,到把马克思主义基本原理同中国具体实际相结合、同中华优秀传统文化相结合,再到建设中华民族现代文明,习近平文化思想不断将文化传承与创新的理念推向新高度。《中庸》讲“父作之,子述之”,《论衡·对作》有“圣人作,贤者述”,“作”为创新,“述”为传承。创新需要积累,需要专业的、跨学科的、跨文明的视野,需要发现问题,更需要具有使命感。创新与传承互促共生,创新因传承而生机绵延,传承因创新而波澜壮阔。这不仅是历史与未来相逢于当下,更是作者与读者、师与生、数与文的相互成就。大学教育的本质即在于人类文明基因的复刻和进化,既追求永恒不变的“形而上者谓之道”(《易经》),又以求新求变的“圣之时者”为典范(《孟子》)。

于“苏东坡数字人”而言,它既是对历史文化名人苏东坡的“复原”,又要努力实现文化意义上的“复活”,前者是传承,后者是创新,二者缺一不可。所谓“复原”意味着“苏东坡数字人”拥有苏东坡的全部知识、记忆、史实、精神等,所谓“复活”意味着“苏东坡数字人”要融入当今的时代,用他独特的精神面貌、思想深度、批判视角和人文情怀去对当下时代、当今世界进行活生生的观察、判断、表达乃至行动、实践,进而用苏东坡的文化精神来产生现实的影响和改变。

四、结语

随着时代的发展,“文献”一词的含义在不断变化。本文立足于“文献”概念原初含义的理解框架,将“文”与“献”纳入一个整体框架来进行理解,通过引入文化哲学、技术哲学的新视角探索一种新的“文献观”表达,即“文献”是一个符号系统,是人类进行一切生命活动的符号化记录。从文化哲学的视角,人是符号的动物,符号是人区别于动物的一个显著特点;从技术哲学的视角,符号是人体感官的外化与延伸,作为人与世界的中介的符号及其能力也可以被视为“符号技术”。

人类符号技术的发展史其实就是人类文化的发生史,数字文献技术这一作为人类思维与智能的外化与延伸的符号技术已成为当今人类符号技术发展的大势所趋,并使得数字人文成为必然。中华书局立足自身深厚的文化积淀与数字文献技术优势,首创研发了全国首位3D超写实历史文化名人“苏东坡数字人”,并从中摸索出了一些古籍文献数字化应用的全新方法论——这也必然伴随着人才培养的探索与创新。

落实到当下的文献学专业研究与教学而言,为了避免近代以来分科而治所导致的“人”与“学”之分,培养出既具有文史知识积淀和传统淑世情怀、又具有现代科技视野和基本数字素养的新生代学人,就需要做好专业与通识的结合、基础与应用的融合、传承与创新的综合,最终,在数字人文时代的新视野下,抓住机遇、守正创新,塑造未来大学教育的新形态。

The “New Document Perspective” in the DigitalHumanities Era and Its Implications for the Reform ofDocumentary Studies Education: A Case Study of ZhonghuaBook Company’ s “Su Dongpo Digital Human”

Guo Lin, Wang Jian

Abstract: In traditional Chinese culture, the concept of “wenxian” encompasses both the meaning of ancient classics and records (“wen”) and the scholars who master these classics (“xian”). However, the later discipline of documentary studies has, to some extent, lost the “human” dimension. To provide an understanding framework that is more aligned with the original connotation of “wenxian” and better suited to the current era of digital humanities, this paper attempts to introduce new perspectives from cultural philosophy and technical philosophy to propose a new “view of wenxian”, striving to integrate “wen” and “xian” into a holistic framework for interpretation. From the perspective of cultural philosophy, humans are the animals of symbols; from the perspective of technical philosophy, symbols are the externalization and extension of humans. Humans can create symbols and thereby create culture, and “wenxian” is precisely a symbolic system that relies on the symbolic writing and media technologies of the corresponding era. In the new era of digital humanities, the application of digital documents has become increasingly widespread. Digital document technologies have made the creation of digital humans of historical and cultural celebrities not only possible but also inevitable. At the same time, changes in symbolic technologies will inevitably lead to the upgrading and transformation of cultural forms and academic paradigms. Currently, the reform of research and teaching models in university documentary studies programs needs to strive to integrate professionalism with general education, basic theory with practical application, and inheritance with innovation. Only in this way can we shape a new form of future university education, create more outstanding cases like the “Su Dongpo Digital Human,” and effectively promote the creative transformation and innovative development of China’s excellent traditional culture.

Keywords: Cultural Philosophy; Technical Philosophy; Document Perspective; Digital Human; Documentary Studies; Digital Humanities

编辑 | 耿弘明

向上滑动 查看注释

[1]朱熹:《四书章句集注》,北京:中华书局,1983年,第63页。

[2]刘宝楠:《论语正义》卷3,北京:中华书局,1990年,第92页。

[3]杨伯峻:《论语译注》,北京:中华书局,2017年,第27页。

[4]恩斯特·卡西尔:《人论》,甘阳译,上海:上海译文出版社,2004年,第37页。

[5]恩斯特·卡西尔:《人论》,第38页。

[6]恩斯特·卡西尔:《人论》,第44页。

[7]郭明哲:《恩斯特·卡普:技术哲学奠基者》,《理论界》2008年第7期。

[8]黄旦:《延伸:麦克卢汉的“身体”——重新理解媒介》,《新闻记者》2022年第2期。

[9]赖黎捷、李明海:《从“人体延伸”到“思维延伸”:麦克卢汉与凯文·凯利技术哲学述评》,《重庆师范大学学报(哲学社会科学版)》2014年第6期。

[10]刘石:《文献学的数字化转向》,《文学遗产》2022年第6期。

[11]王军、张力元:《国际数字人文进展研究》,《数字人文》2020年第1期。

[12]习近平:《加强文化遗产保护传承弘扬中华优秀传统文化》,《求是》2024年第8期。

[13]贝奈戴托·克罗齐:《历史学的理论和实际》,傅任敢译,北京:商务印书馆,1997年,第3页。

[14]刘石:《文献学的数字化转向》,《文学遗产》2022年第6期。

[15]俞国林、王建:《数字人:用科技激活传统文化之美》,《光明日报》2023年1月4日第13版。

[16]王建、付小艳、张建丽:《从数字出版到数据产业再到内容元宇宙——传统数字出版的新型破局之路》,《出版人》2022年第11期。

[17]张寿安:《龚自珍论乾嘉学术:专门之学——钩沉传统学术分化的一条线索》,《学海》2010年第2期。

[18]郭琳:《新教育下的宗经与存古——从〈劝学篇〉和“癸卯学制”看张之洞的经学教育变革》,博士学位论文,北京大学,2017年。

[19]钱穆:《中国知识分子》,《国史新论》,北京:生活·读书·新知三联书店,2018年,第139页。

[20]钱穆:《现代中国学术论衡》,北京:生活·读书·新知三联书店,2001年,第94—95页。

[21]强世功:《数字智能时代的大学通识教育》,《复旦教育论坛》2023年第2期。

[22]习近平:《加强基础研究实现高水平科技自立自强》,《求是》2023年第15期。

点击下方链接,下载原文

数字人文时代的“新文献观”及其对文献学专业教育变革的启示——以中华书局“苏东坡数字人”为案例.pdf

如需购买《数字人文》期刊,请扫描下方二维码

封面.jpg

校对  |   肖爽

美编  |  王秀梅

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

第七届清华数字人文国际论坛“未来学者”专场报名通知

2026年4月14日 10:09

2026-04-14 10:09 北京

在人工智能技术迅猛发展的今天,数字人文领域正经历前所未有的变革。数据驱动的研究方法、跨学科的技术融合以及人工智能在文化遗产、文本分析和数据可视化等领域的应用,为学术研究带来了全新的可能性。

“未来学者”专场

人文学术的未来,寄托于未来的人文学者;也即是当下正致力于研究和探索的青年学子。为鼓励和支持本、研阶段学生投入数字人文研究,结合数字时代新方法、探索人文学术新方向,《数字人文》学术集刊持续举办第七届“未来学者”论坛,诚邀国内外的本科生、硕士生、博士生在读学生(不含博士后)投稿并参会。

期待来稿面向人文问题、结合数字方法,给出来自文学、历史、哲学、社科、艺术、教育、传播乃至政治学、图情档案等各个领域的回答和发现。

本届入围者将受邀参与第七届清华大学数字人文国际论坛“未来学者”专场,获得专家指导评议及进一步研究支持,并于本刊择优刊发。

投稿须知

摘要提交截止日期:2026年5月22日

全文提交截止日期:2026年6月12日

投稿地址:

https://szrw.cbpt.cnki.net 

入围名单及参会事宜请参见后续通知。

时间地点

2026年7月10日-13日    共4天

报到7月10日

会议 7月11日—12日

赋归7月13日

上海大学宝山校区(上海市上大路99号)

合作酒店

上海衡山北郊宾馆

:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

我们期待您的参与,共同探讨数字人文的前沿议题,推动学术研究的创新与发展!

论文格式模板及要求-中文.pdf

论文格式模板及要求-中文.pdf

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

论文格式模板及要求-中文.pdf

END

公号二维码-1.jpg

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

会议丨我用AI校古籍——我是“校书官”古籍大众智能整理计划(2026年)启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛

2026年4月12日 09:00

徐惠 2026-04-12 09:00 江苏

2026年4月10、11日,AI古籍整理计划启动暨海外汉籍论坛在山东大学举办。

转载自“古典文献学微刊”

感谢会务组授权发布!

排版:拊石

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

DHARTI2026: Call for Hosts

作者DHARTI
2026年4月7日 23:20
The Digital Humanities Alliance for Research and Teaching Innovations (DHARTI) is seeking proposals from educational institutions and/or stakeholders from the G.L.A.M. [galleries, libraries, archives, and museums ]sector in India to host the DHARTI 2026 biennial conference scheduled to take place in December 2026. Based on the previous conferences organised under the aegis of DHARTI, DHARTI […]

論文徵集 - 第四屆粵港澳大灣區跨學科博士論壇:數字驅動的社會公平:技術、身份與人文的研究

2026年4月8日 10:31

澳大高研院 2026-04-08 10:31 广东

以下文章来源于:澳大高研院UMIAS

澳大高研院UMIAS

澳大人文社科高等研究院(簡稱高研院)是澳大於2019年底成立的學術單位,致力打造跨越學院疆界的校級研究平台,建設澳大在人文範疇的跨學科國際水平研究團隊,實現學術資源協同效應的戰略佈局。

澳門大學人文社科高等研究院(高研院)現就「第四屆粵港澳大灣區跨學科博士論壇:數字驅動的社會公平:技術、身份與人文的研究」進行論文徵集,誠摯邀請

由澳門大學人文社科高等研究院主辦的第四屆粵港澳大灣區跨學科博士論壇現已正式啟動徵稿。本屆論壇以「數字驅動的社會公平:技術、身份與人文的研究」為主題,延續前三屆論壇推動跨學科對話的宗旨,致力於搭建一個回應全球性挑戰、探索未來發展方向的重要學術平台。在數字化快速發展的當代,數字驅動的社會公平已成為我們共同面對的重大課題。我們需要深入剖析技術系統中隱含的權力結構,審視數字身份如何重塑公民權利,並在工具理性之外重新確立人文關懷與社會責任的價值坐標。本屆論壇將繼續促進跨學科視野的融合,匯聚人文、社會、科技等多元領域的智慧與方法,共同探索兼具有創新意義與實踐可能的研究方案,為建設可持續、公平且包容的未來社會貢獻學術力量。

論壇目標

本屆論壇面向在讀及即將畢業的博士生,議題涵蓋人文、社會科學、自然科學與技術科學等多個學科領域,旨在為青年學者提供一個跨學科交流與合作的平臺。參與者將有機會展示研究成果、交流學術思想,並與不同領域的青年學者及知名專家深入對話,獲得寶貴的建設性意見。論壇不僅能促進學術思想的碰撞,還致力於構建跨學科的學術網絡,拓展青年研究者的學術視野,建立長期合作關係,並以創新觀點回應全球面臨的挑戰。

論壇分議題

(包括但不限於以下方向)

  • 數字素養

  • 數字公平與政府治理

  • 數字身份與公民權利

  • 數字正義與平台勞動

  • 數字福祉與社會

  • 算法偏見與排斥

  • 公平機器學習實踐

  • 量子計算與法律

鑒於議題的廣泛性,論壇將設置中英文雙語分論壇,以確保來自全球的學者能充分參與與交流。

投稿與參會指南

1. 稿對象

歡迎所有在人文、社會科學、自然科學、技術科學等領域從事研究的在讀及即將畢業的博士生投稿。

2. 論文要求

  • 語言:英文或中文

  • 篇幅:7,000 – 10,000字

  • 格式要求

  • 英文稿件請遵循『牛津格式』(Oxford Style)。相關寫作規範請閱讀全文

  • 中文稿件請參照『南國學術-澳門大學學報』。相關寫作規範請閱讀全文。

  • 投稿形式:請掃海報上的二維碼,填寫個人資料並提交論文全文及個人簡介。

  • 原創性:論文須為原創且未發表,組委會保留查重與學術審核之權利。

  • 入選優秀論文將有機會在人文社科高等研究院出版之刊物『數字素養研究』中審議發表。

3. 個人簡介

  • 字數:150-200字

  • 語言須與論文一致(英文或中文)

  • 含作者學術背景、研究興趣及近期成果

4. 保密條款

  • 組委會承諾對所有提交的論文與個人資料嚴格保密。

參會事宜

1. 免費參會 

  • 本次論壇對所有參與者免費開放,不收取任何參會費用。

2. 優秀論文評選與現場報告

  • 組委會將評選出優秀論文,並邀請作者於論壇期間在澳門大學現場匯報研究成果。受邀報告者之在澳期間住宿及餐飲費用將由組委會承擔。

重要日期

  • 5月31日:徵稿截止日期

  • 6月15日:入選通知

  • 8月26日至27日: 論壇舉辯日期

聯繫方式

有關高研院更多內容,請訪問高研院網站:https://ias.um.edu.mo/。如果您有任何疑問,請通過電子郵件的方式隨時與我們聯繫:ias.phdforum@um.edu.mo

我們誠摯邀請各位博士生踴躍投稿與參與,共同在技術與人文的交匯處,探尋數字時代的公平與未來。

阅读原文

跳转微信打开

转载 | 交叉前沿:AAAI2026:Convergent Semantics for Weighted Bipolar Argumentation

2026年4月8日 10:31

2026-04-08 10:31 广东

近年来,哲学系积极推动学科交叉发展,成立了多向度心灵与智能跨学科研究创新团队等一批面向交叉前沿的平台与团队。近期,中山大学哲学系、逻辑与认知研究所王宗顺博士后与沈榆平教授合作的成果《Convergent Semantics for Weighted Bipolar Argumentation》被人工智能国际学术会议AAAI 2026接收为(ORAL)论文并作现场报告。

会议信息

国际先进人工智能协会年会(AAAI Conference on Artificial Intelligence,简称AAAI)是人工智能领域历史最悠久、最具影响力的国际学术会议之一,也是中国计算机学会(CCF)推荐的A类学术会议,在全球人工智能学术界和工业界享有盛誉。会议涵盖人工智能的广泛方向,包括机器学习、知识表示与推理、自然语言处理、计算机视觉等议题。

论文简介

形式论辩是人工智能中用于处理复杂情境的非单调推理模型,现已成为知识表示与推理的重要范式。加权双极论辩框架是该领域内最具代表性的工作之一。在该框架中,多主体论证场景被刻画成带权有向图,论证点之间的边可表示支持或攻击关系。由于全面的表达能力,该框架被广泛应用于互动推理、信息决策以及可解释性人工智能等场景。然而,由于交互关系的复杂性,尤其是在含圈结构的论证图中,如何定义合理收敛的推理语义,成为该领域中一个长期开放问题。针对此问题,本文提出利用论证的接受度与拒绝度分别刻画论证间的支持与攻击关系,进而定义了一类新的推理语义,并从理论上证明其在任意加权双极论辩框架中均能稳定收敛。实验结果表明,该语义在计算效率方面具有良好表现。本工作为形式论辩领域的理论与实践提供了一种重要基础。

Abstract: Establishing convergent semantics for weighted argumentation graphs is a long-standing fundamental issue. Particularly, it is challenging to develop convergent semantics for weighted bipolar argumentation graphs (wBAG), which include both support and attack relations on weighted arguments. Existing semantics in the literature are not general enough in the sense that they only apply to acyclic graphs or special cyclic cases. In this paper, we provide an elegant solution to this issue by adopting the so-called bilateral gradual semantics, so that the strength of arguments can be defined as the limits of iterative functions that always converge for any wBAG including cyclic ones. A preliminary experimental analysis shows that our semantics appear quite efficient in calculating argument strength. Overall, this paper offers a solid and promising foundation for weighted bipolar argumentation in theoretical and practical aspects.

作者信息

王宗顺(第一作者),中山大学哲学系、逻辑与认知研究所博士后,研究方向为形式论辩、知识表示与推理,研究成果发表于AAAI、Journal of Logic and Computation、CLAR等人工智能与逻辑学重要会议及期刊,曾获“2025年中山大学优秀博士学位论文”等奖励。

沈榆平(通讯作者),中山大学哲学系、逻辑与认知研究所教授,研究方向为逻辑与计算、知识表示与推理,代表成果发表于ACM Transactions on Computational Logic、AAAI、KR等人工智能与逻辑学重要会议及期刊。

文章来源:中山大学哲学系

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

重磅 | 教育部、国家语委规范《人工智能 语料库 基础术语》全文(附下载链接)

2026年4月8日 09:02

教育部、国家语委 2026-04-08 09:02 江苏

教育部、国家语委发布语料库术语规范,统一界定概念,全文可在官网下载查阅。

近日,教育部、国家语言文字工作委员会正式发布两项语言文字规范:《机器合成普通话水平测评等级标准及测评大纲》和《人工智能 语料库 基础术语》,标志着我国在人工智能语音技术与语言规范融合发展方面迈出关键一步。

其中,《人工智能 语料库 基础术语》聚焦语料库领域的基础概念与核心术语,对相关术语的定义、内涵及使用范围进行了系统规范,旨在解决当前语料库建设与应用中术语使用不统一、概念界定不清等问题。该标准面向人工智能语料资源建设与应用需求,构建统一、规范、可复用的术语体系,是语料工程领域的重要基础性规范。

标准全文现已在教育部官网发布,可通过以下链接获取:

http://www.moe.gov.cn/jyb_sjzl/ziliao/A19/202604/t20260407_1433016.html

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

徐永明 | 明代文学文献的数字化、结构化和智能化

2026年4月7日 09:01

徐惠 2026-04-07 09:01 江西

文章围绕明代文学文献,阐述其数字化、结构化与智能化的现状、实践及意义。

转载自《中国韵文学刊》2025年第4期

明代文学文献的数字化、结构化和智能化

徐永明

【作者简介】

徐永明(1967—),男,浙江遂昌人,浙江大学文学院教授,研究方向为明代文学、数字人文。

摘要

明代文学文献的数量在1万种以上,然而影像数字化和文本数字化的工作依然任重道远。在大数据和人工智能时代,文本的结构化和智能化也提上了日程。结构化的数据,可以计量统计、定位查询及可视化呈现,同时,结构化的数据与文本结合,可以进行数据关联,为文本的阅读扫除障碍。AI通用大模型的引入,可以与专业数据结合,提升知识问答的准确率,激活学者的研究成果,而AI创意视频与古代文学的结合,则大大加强了古籍的活化利用,提高了学生学习古代文学的兴趣,促进了传统文化的普及和传播。

关键词:明代;文学文献;数字化;结构化;智能化;AI

在数字化时代,人们常见的文献形态,有纸质文献、金石文献、数字文献等样式。其中数字文献,又有影像数字文献、文本数字文献、结构化数据、智能数据等。基于芯片的数字文献,在算力、算法、模型等的加持下,在我们的学习和生活中,产生了越来越重要的影响。我们的祖先,给我们留下了浩如烟海的历史典籍,如何有计划地将这些典籍数字化、结构化和智能化,是我们这一代乃至几代人的历史使命。下面,笔者就明代文学文献的数字化、结构化和智能化谈点个人的观察和实践。

一  明代文学文献的数字化

根据《中国古籍总目·集部》的著录,明代楚辞、别集、总集、词集、诗文评及戏曲的著述有9600余种,如果再加上《中国古籍总目·子部》“小说类”1000余种的著述,则明代文学文献的数量有1万余种。当然,这不是明代文学文献的全部,因为《中国古籍总目》主要是几个大馆的联合目录,不能真正反映明代文学文献的全貌。国家后来启动的“全国古籍普查”项目已告一段落,各馆的古籍登记目录在陆续出版中。古籍普查结果显示,现存古籍总数为20余万种,比《中国古籍总目》的17余万种,多出3万余种。就明代文学文献来说,估计数量会有些增加,但总数应在15000种以内。 

根据国家图书馆原馆长张志清的说法,截至2025年,国图网站发布的数字化影像古籍大约有13万部。如以现存20余万种古籍平均3个版本计算,则古籍的实体总数为60多万部。13万部与60余万部的比例,大约为1/5。具体的影像数字化古籍的查询,可以访问“中国古典文献资源导航系统”(https://www.wenxianxue.cn/top.html?type=art),这个平台汇集了全球几乎所有图书馆、出版社、公司及个人的古籍影像数据库网址,分门别类,可以自由切换摆渡。此外,平台的建设者唐宸副教授还建立了“全球汉籍影像开放集成系统”,挂在首页。该系统提供书名和作者的一键式查询,其结果可以直接登录浏览,为学者的研究提供了极大的便利。

明代文学文献的文本数字化,在智能的OCR软件出来之前,主要是一些公司提供的产品,如北京爱如生数字化技术研究中心制作的“中国基本古籍库”软件有明别集785种,香港迪志文化出版有限公司制作的文渊阁“四库全书”有明别集239种。北京鼎秀科技有限公司开发的“鼎秀”数据库有明别集636种。由于机器学习和人工智能的出现,古籍版刻体字识别的瓶颈被突破,书同文、阿里、古联、如是、龙泉寺、汉王、字节跳动等公司和机构,纷纷推出了各自训练的古籍智能OCR软件,准确率均在95%以上。于是,古籍的文本数字化进入了快车道。按照现在的算力,如开足马力,13万种图像古籍,可以在短短的几年内文本数字化。不过,再智能的OCR软件,也不可能做到100%的准确率。人工校对,依然需要投入大量的人力和财力,不是短时间内能够完成的。

在智能的OCR软件出现的同时,也出现了智能的古籍标点软件,其准确率也达到了95%以上,一些高校和大公司都有自己开发的古籍标点软件。由于智能的OCR软件、智能的标点软件,加上众包技术的出现,古籍的整理,开始了规模化和工程化作业的模式。如文旅部自2024年开始,每年投入近1.5亿元给各省公共图书馆进行古籍数字化(影像和文本数字化)。图书馆作为收藏单位,本身没有能力承担古籍影像数字化和文本数字化的项目,于是采取招标的方式,由公司投标进行古籍的数字化项目。而国家图书馆作为牵头单位,建立一个中华古籍智慧化服务平台(https://guji.nlc.cn/),各馆数字化的古籍,均提交到这个平台来发布。

除了文旅部下属公共图书馆大规模的古籍数字化外,一些高校和公司利用众包技术,召集高校师生和专业校对机构进行古籍文本数字化的项目。如北京大学王军团队与字节跳动合作,建立了识典古籍平台(https://www.shidianguji.com/)。温州大学侯荣川团队和中华书局古联公司合作,进行明代别集的文本数字化工作。据古联公司总编辑朱翠萍介绍,明代别集的文本数字化,目前已完成600余种。浙江大学徐永明团队建立了“智慧古籍平台”(https://csab.zju.edu.cn),主要也是以整理明代别集为主。与前两者不同的是,该平台更多地侧重智能的呈现和利用。如文本要进行标点和审核,内容要进行标引和标注,人物有行迹图、世系图和社会关系图,大模型可以对文本进行翻译和赏析等(详见下文介绍)。目前已发布200余部明别集数据。

从上述的分析来看,明代文学文献的影像数字化虽然距离全部完成还有较长的路要走,但随着国家古籍数字化专项资金的持续投入,我们有信心看到,前方的终点会变得越来越清晰。明代文学文献的文本数字化,情况有些复杂,因为影像有版刻字体,有草书、行书等手写字体。如果是版刻字体,那有多少影像,就可以几乎同时得到多少未经校对的文本。不要标点的校对,可能需要一代或两代人的努力才能完成;高质量标点的校对,那可能需要数代人的努力才能完成。

二  明代文学文献的结构化

所谓结构化,就是将数据以表格的方式组织和呈现。表格,小的有Excel、Access,大的,可以是SQL Server、MySQL、Oracle等,甚至可以是标记过的text 文本。与非结构化的数据相比,结构化数据有以下几大好处。一是可以计量统计。如我们已经有了《全宋文》作家分字段的数据表,那么,我们可以利用表格中的函数(如数据透视)一键统计出各省或各县作家的人数。二是可以批量匹配。如果我们手头有两张表,一张是人物著作表,一张是人物籍贯表,那么,利用表格中的函数(如VLookup)可以生成一张带有籍贯的人物著作表。三是可以可视化。如可以将统计的结果生成柱状图、饼状图。四是可以进行空间分析。如通过不同时代的人物籍贯表,可以分析人物的分布情况及版图的变化情况。五是可以进行社会网络分析。如著录了亲属关系和社会关系的表格,就可以利用Pajk、Gephi等软件进行可视化呈现,从边和点对人物的交往亲疏和影响力进行分析。六是结构化的数据可以为语言大模型提供数据增强检索和分析,提高问答的准确率。

结构化数据的种类很多,如有人物、地名、名物、时间、职官、科举、图像、书目、篇目等。在数字技术出现以前,人们其实已经做了很多有关结构化的工作,我们可以称之为准结构化文献。如正史中的人物传记、地理志书、各类辞典等,都是带有结构化特征的文献。就明代来说,准结构化的数据,人物类如《明史》中的人物列传、《国朝献征录》(焦竑)、《明人传记资料索引》、《明人室名别称字号索引》、《明遗民传记索引》、《中国文学家大辞典》(李时人,明代卷)、《明代名人传》(英文)、《明人碑传索引》(汤志波,十四册)等;地理类如《明史》中的地理志、《大明一统志》、《天下水陆路程》(明黄汴)、《客商一览醒迷》(明李晋德)、《大明一统志》等;职官类如《明史·职官志》、《明代职官年表》、《明代职官中英辞典》(张颖等);科举类如《明清进士录》、《明清进士题名碑录索引》、《明代登科总录》(二十五册)等;年代类如《明人年谱知见录》(李佳琪,志传)、各类明人年谱等;书目类如《千顷堂书目》、《明史·艺文志》、《明代传奇全目》(傅惜华)、《明代杂剧全目》(傅惜华)、《明别集版本志》、《明别集整理总目》(汤志波)、《明人别集经眼叙录》(徐永明、赵素文)、《台湾藏稀见明别集总目提要》(李玉宝)等;篇目类如《20世纪中国古代文学研究文献总目·明代论文卷》(曹鑫)等。

然而,准结构化数据毕竟不等于数据库。如就人物辞典来说,其主要的构成是人名的词条加上小传。而人物数据库,则有人名、字号、朝代、生卒年、籍贯、经纬度、仕履、著述、亲属关系、社会关系等不同字段的信息,而且,一个人物数据库,可以是各种不同表格组合构成的关系型数据库。譬如,哈佛大学与北京大学、台湾“中央研究院”联合开发的中国历代人物传记资料库(CBDB)就是一个关系型数据库,该数据库迄今已收入了65万人物,其中明代人物为222194人(截至2025年6月11日)[该数据为CBDB项目经理王宏甦提供。]

图1中国历代人物传记资料库人物数据统计表

CBDB数据库,可以实现过去准结构化辞典不能实现的功能。如统计女性的死亡年龄、中进士或中举人的年龄、男女的婚配年龄等。因为是对群体人物的研究,故有所谓“群体传记学”之说。数据库可以多条件查询人物信息,如某地某时的官员任职情况。这个在纸本时代,即便有工具书,也是不易查找的。此外,CBDB的人物籍贯地理信息、亲属关系、社会关系信息,在查出结果后,可以保存为地理信息或社会关系的格式,用专门的软件进行可视化的呈现和分析。

现代意义的结构化数据,除了CBDB外,与明代有关的尚有哈佛大学与复旦大学史地所合作建的“中国地理信息平台”(CHGIS)、哈佛大学的“世界地图平台”(Worldmap)、浙江大学的“学术地图发布平台”(http://amap.zju.edu.cn) 、浙江大学建立的“智慧古籍平台”(https://csab.zju.edu.cn) 发布的数据。CHGIS是数字人文的基础设施平台,里面包含了历代地名所属的行政区域、地名的经纬度等信息。Worldmap是应用地图,发布过“明代卫所分布”及“明代驿站路线图”等。

浙江大学的“学术地图发布平台”发布的地图有两类,一是人物行迹图,一是分布图。就明代的人物行迹来说,目前发布的主要有张以宁、危素、宋濂、陶宗仪、戴良、刘基、杨基、张羽、徐贲、胡奎、高启、瞿佑、杨士奇、解缙、于谦、沈周、陈献章、李东阳、王鏊、杨一清、祝允明、湛若水、王九思、唐寅、文徵明、王阳明、刘节、李梦阳、王廷相、康海、边贡、陆深、严嵩、夏言、何景明、杨慎、李濂、木公、李元阳、李开先、徐阶、吴承恩、归有光、唐顺之、王慎中、冯惟敏、茅坤、李攀龙、海瑞、沈明臣、梁辰鱼、徐渭、吴国伦、张居正、汪道昆、王世贞、李贽、沈一贯、焦竑、顾大典、屠隆、孙鑛、陈与郊、梅鼎祚、汤显祖、臧懋循、胡应麟、沈璟、冯琦、叶向高、袁宗道、徐复祚、徐光启、叶宪祖、谢肇淛、袁宏道、袁中道、钟惺、曹学佺、冯梦龙、冯梦熊、王思任、刘宗周、凌濛初、钱谦益、文震亨、苍雪、叶绍袁、徐霞客、担当、吴炳、张岱、张溥、陈子龙等人。有关明代的分布图,有《中国文学家大辞典》(明代卷)分布图、明代布政使司任职名单定位查询、明代山东散曲家地域分布图等。

浙江大学建立的“智慧古籍平台”目前主要以整理明代文学文献为主。平台发布的著述,不仅篇目独立成结构化的数据,进行了文体分类,而且对文章的地域关系进行了标注,形成可按行政区查询的结构化数据。此外,人物还有世系图、社会关系图。世系图主要的人物有杨维祯(1296)[括号内为人物生年,下同。]、张以宁(1301)、宋濂(1310)、刘基(1311)、章溢(1314)、胡深(1314)、陶宗仪(1320)、王袆(1322)、高启(1336)、方孝孺(1357)、杨士奇(1365)、夏原吉(1366)、胡广(1370)、薛瑄(1389)、商辂(1414)、姚夔(大章)(1415)、谢一夔(1425)、刘健(1433)、李东阳(1447)、杨廷和(1459)、席书(1461)、唐寅(1470)、文徵明(1470)、王守仁(1472)、康海(1475)、徐祯卿(1479)、严嵩(1480)、夏言(1482)、何景明(1483)、杨慎(1488)、韩邦靖(1488)、许宗鲁(1490)、归有光(1507)、海瑞(1514)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、徐渭(1521)、袁尊尼(1524)、张居正(1525)、王世贞(1526)、王穉登(1535)、焦竑(1540)、孙鑛(1542)、屠隆(1543)、邹迪光(1550)、汤显祖(1550)、胡应麟(1551)、袁宏道(1568)、冯梦龙(1574)、钟惺(1574)、钱谦益(1582)、叶绍袁(1589)等。

社会关系图主要有宋濂(1310)、刘基(1311)、陶宗仪(1320)、王袆(1322)、方孝孺(1357)、虞谦(1366)、商辂(1414)、李东阳(1447)、王鏊(1450)、杨一清(1454)、祝允明(1461)、文徵明(1470)、李梦阳(1473)、顾璘(1476)、张含(1479)、徐祯卿(1479)、严嵩(1480)、何景明(1483)、韩邦靖(1488)、苏祐(1493)、李开先(1502)、田汝成(1502)、王慎中(1509)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、张居正(1525)、汪道昆(1526)、王世贞(1526)、李贽(1527)、戚继光(1528)、杨时乔(1531)、孙鑛(1542)、屠隆(1543)、臧懋循(1550)、汤显祖(1550)、董其昌(1555)、叶向高(1559)、冯梦龙(1574)、钟惺(1574)、凌濛初(1580)、钱谦益(1582)、倪元璐(1593)、宋征舆(1617)、董说(1620)等。

从目前结构化数据来看,明代的数据主要还集中在地名、人名方面。从今后的发展来看,要建设明代结构化数据的任务还很重。如人物的行迹数据,现在主要还局限于比较有名望的人物,而二、三流的人物行迹数据,还有待今后来建设。此外,明代人物的日记、年谱,也有待结构化。就地名来说,CHGIS主要还是省府县三级的数据,大量地方志中县级以下的地名需要结构化。就图像来说,明代文献中的图像标注还没有真正启动。

三  明代文学文献的智能化

数字技术的发展,为明代文学文献的智能化提供了可能。那么,现代的数字技术能使明代文学文献达到怎样程度的智能呢?能为我们的学术研究提供怎样的便利呢?根据笔者的认知和实践,数字技术可以在以下几个方面使文献智能化。

其一,数据生产的智能化。智能OCR、智能标点、智能标引使古籍的整理时间大大缩短,极大地提高了古籍整理的效率,并大幅度降低整理的成本。可以说,古籍整理90%以上的工作可以让机器替代,人工只要负责10%的工作量。此外,线上众包技术让众多的文史爱好者参与其中,分工合作,使得纸本时代单一作业的模式变为集体作业的模式,改变了传统古籍整理的方式,建立了全新的古籍整理范式。目前,古联科技公司、“识典古籍平台”、“智慧古籍平台”均采用了线上众包作业的模式。由于是众包作业,每个人完成的工作量都有记录,且有排行榜,有利于结算酬劳。如果有国家的经费支持,可以解决文科生的就业问题。

其二,数据呈现的智能化。就“智慧古籍平台”来说,发布在前台的文本,由于经过标引,文本数据与后台的工具书产生了关联。这样,文本的地名可以定位,人名、词语、职官、时间等实体均有工具书的关联和解释。一般的阅读障碍就基本消除了。平台引入语言大模型后,古诗文还可以今译、英译,还可以赏析。这对于传统文化的传播,起到了极大的推广作用。此外,人物的行迹图、世系图和社会关系图,又加深了读者对人物的了解。兹就地名的定位举一例说明。刘基曾写过一首《稽句岭》的诗。诗云:“白日隐岩嶅,千崖气势豪。溪流婺女阔,山入少微高。危石天敧侧,长风谷怒号。干戈方自此,行役敢辞劳!”[1](卷八)刘基的这首诗,描写的是他返乡或奉命赴任途中,经由此岭,触景生情,描绘了稽勾岭一带险峻壮丽的自然山川,抒发了诗人身处乱世、肩负使命的豪情与责任感。按:稽句岭,即稽勾岭,今名金钩岭,是丽水至武义稽勾古道上的一个要冲,在武义境内。《栝苍汇纪》:“由寿玄而北百里为稽勾山岭,曰稽勾岭,崔嵬盘绕亘二十余里。”[2](卷七)由于智慧古籍平台对稽句岭作了标引,在后台添加了经纬度,因此,阅读此诗时,就可以精确定位。这样,对诗歌的理解就有了地理空间的认知。

其三,数据问答的智能化。大语言模型的出现,使得人机交互成为人们学习和工作不可或缺的工具。浙江大学文学院数字人文中心与杭州云四库科技有限公司联合开发了文史垂类模型——云四库智能问答系统(https://www.aiyskqa.cn) 。该系统基于杭州深度求索公司的DeepSeek R1、DeepSeek V3和阿里通义千问的Qwen72B、Qwen-QwQ、 Qwen3-235B、Qwen Plus 、Qwen 2.5-max等通用大模型为底座进行数据增强。目前已投喂古籍、研究著作及论文共二百多亿字的数据,能较好地回答各类文史问题。譬如,我们问一个“杨维祯为什么被称为文妖”的问题,机器给予了如下的回答:

杨维祯被称为“文妖”,这一称号源于其独特的文学风格与当时主流文学观念之间的冲突。以下从多个角度对这一称号的由来及意义进行分析:

一、杨维祯文学风格的“怪异”与“奇谲”

杨维祯(号铁崖)是元末明初的重要文学家,他所创作的“铁崖体”诗文以奇诡、放纵、夸张、浪漫为主要特色。他不拘泥于传统格律,敢于突破形式的束缚,融合古乐府、民歌、戏曲等元素,形成了极具个性的风格。这种风格在内容上也表现出对个性自由的追求,甚至在某些诗作中流露出对传统道德观念的反叛。例如,他的一些艳情诗大胆描写情感与欲望,这种表现方式在当时理学盛行、讲究“雅正”的语境中显得格格不入。

二、王彝的《文妖》批评

明代文人王彝在其《文妖》一文中,对杨维祯的文风进行了严厉批评。他将杨维祯比作“狐妖”,指出其文章“以淫辞怪语,裂仁义,反名实,浊乱先圣之道”,并批评其文风“柔曼倾衍,黛绿朱白”,具有“妖媚惑众”的力量。王彝认为,这种文风不仅偏离了儒家正统思想,还具有蛊惑人心、影响青年的危险性,因此称之为“文妖”。

三、“文妖”称号的多重含义

“文妖”这一称号并非仅指杨维祯文风的怪诞或形式上的奇诡,更深层地反映了其文学思想与当时主流意识形态之间的冲突。在王彝等理学派文人看来,杨维祯的创作不仅形式上不守规矩,内容上也挑战了儒家伦理,是对“文以载道”传统观念的背离。因此,“文妖”不仅是对其风格的形容,更是一种道德与思想上的批判。

四、后世对“文妖”称号的再评价

尽管杨维祯在当时受到如王彝等人的严厉批评,但后世学者如胡应麟等人却对其才情给予了高度评价。胡应麟认为杨维祯的艳情诗“才情缥缈,独步当代”,其诗风“超异神俊,追踪谪仙”,甚至将其与李白、温庭筠、李贺等古代名家相提并论。这说明,随着时代观念的变迁,“文妖”这一称号逐渐被赋予了另一种解读——它成为对杨维祯文学个性与创新精神的肯定。

五、结语

综上所述,杨维祯之所以被称为“文妖”,主要源于其文学风格的奇谲怪异、内容上的个性张扬,以及与当时儒家正统文学观念的冲突。这一称号既包含了对其文学创新的否定性批评,也折射出当时文化语境中对“异端”文学的排斥。然而,从文学史的发展来看,这种“妖”的标签恰恰体现了杨维祯作为一位文学革新者的独特价值。

机器注明了大模型使用了Qwen-72B,并注明了文献来源,分别有《古代文学理论研究丛刊》(第二辑)、邱江宁撰《元代文人群体的地理分布与文学格局研究》、孙小力《杨维祯在嘉定的活动及其影响考论》、《元明清诗鉴赏辞典》、廖可斌《压抑与躁动——明代文学论集》、《明代文学思潮史》、《明代文学复古运动》。应该说,这样的回答基本是符合实际的。

上述的例子,仅仅是云四库一个应用案例。实际上,云四库的功能远不止于止,限于篇幅,此处不再展开。“智慧古籍平台”接入了云四库智能问答系统,因此,不仅“智慧古籍平台”上的诗文能今译、英译及赏析,而且还随时可以跳转到云四库智能问答系统进行人机交互问答,这样的便利是纸本时代不可想象的。

其四,AI创意与古籍的活化利用。我们除了利用语言大模型进行知识的智能问答外,还可以利用大模型文生图、文生视频的功能进行古籍AI视频创作。这是一个崭新的天地,能够极大地促进古籍的活化利用,调动学生学习古文的积极性。大语言模型刚推出的时候,央视就推出国内首部AI全流程微短剧《中国神话》。 智慧古籍平台发布了多个刘基《郁离子》的AI创意视频,附在相应的文本之后。

图2  用AI制作的相马图

千里马 绀鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 绀羽鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 规执政 https://abm.zju.edu.cn/share.html?id=h9Ax4reHR&type=vod

千里马 良桐 https://abm.zju.edu.cn/share.html?id=M4ziI9eHR&type=vod

千里马 乱几 https://abm.zju.edu.cn/share.html?id=FFPWS96Hg&type=vod

千里马 戚之次且 https://abm.zju.edu.cn/share.html?id=SddVSreNg&type=vod

千里马 巫鬼  https://abm.zju.edu.cn/share.html?id=WJKIS96NR&type=vod

千里马 献马 https://abm.zju.edu.cn/share.html?id=MZzHS96Hg&type=vod

千里马 燕王好乌 https://abm.zju.edu.cn/share.html?id=za9NS96Ng&type=vod

千里马 养枭 https://abm.zju.edu.cn/share.html?id=mK1DI9eHR&type=vod

千里马 忧时 https://abm.zju.edu.cn/share.html?id=BkAOS96NR&type=vod

鲁般 萤与烛 https://abm.zju.edu.cn/share.html?id=4eeBN9eHg&type=vod

鲁般 东都旱 https://abm.zju.edu.cn/share.html?id=TYNLN9eHg&type=vod

鲁般 https://abm.zju.edu.cn/share.html?id=RCALHr6HR&type=vod

鲁般 九尾狐 https://abm.zju.edu.cn/share.html?id=ce_LNreHR&type=vod

我们还可以将这一应用进行广泛推广。譬如,明代诗文、小说、戏曲均可以用AI进行短视频的创作,从而激发学生学习古代文学的兴趣,推动古代文化的普及和传播。

需要指出的是,不论哪一款大语言模型,DeepSeek也好,通义千问也好,都不能解决古文深度语义交互的问题。譬如,我们要问机器关于明代乐府诗的成就和特点,机器只会根据现在的研究材料来回答这个问题,而不能从明代作家所有原典文献中去查询分析来回答。假如机器能根据提供的古书,通过检索和分析,回答提问者任何问题,那么,我们可以说,古籍的智能化真的是到达了一种理想的状态。

四  余论

从上面的叙述中我们可以看到,明代文学文献的数字化、结构化和智能化,是一个漫长且极有意义的系统工程。所谓漫长,是因为明代文学文献的体量过于浩大,即便是先进的技术能帮助解决90%以上的工作量,但依然有大量的工作需要人力来完成,这需要几代人的努力。所谓有意义,一是能提高人们的工作效率,促进学术的研究向纵深的方向发展;二是借助数字技术和优质数据,有利于文化的普及和传播;三是可以激活学者的研究成果,使高冷的学术研究成果走向社会,服务大众;四是发挥数据在人工智能时代的要素作用,使其成为推动社会发展的新质生产力。

参考文献

[1]刘基.诚意伯刘先生文集[M].明成化六年(1470)戴用、张僖刻本.

[2]熊子臣,何镗.栝苍汇纪[M]//四库全书存目丛书:193册.济南:齐鲁书社,1996.

此文原载于《中国韵文学刊》2025年第4期。

原创内容如需转载,须经本刊编辑部授权。

订阅·投稿·查询

1. 点文章标题下的“中国韵文学刊”进行订阅,或扫码下方二维码订阅,或直接搜微信公共帐号:中国韵文学刊。

2. 投稿网站:https://YWXB.cbpt.cnki.net/

投稿邮箱:yunwenxuekan@163.com

3. 关注后输入关键字可浏览过刊目录及部分文章,如查询2014年第1期,输入“201401”即可浏览。本刊为季刊,一年四期。

《中国韵文学刊》

长按左侧二维码识别即可关注

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

经典回顾 | 数字人文主义者需要了解算法吗?(2016)

2026年4月7日 09:01

本杰明·M·施密特 2026-04-07 09:01 北京

本杰明·M·施密特:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。

图片

《傅立叶艺术》Juan López Gómez

https://www.fourierart.com/

Do Digital Humanists Need to Understand Algorithms? 

数字人文主义者需要了解算法吗?

作者:本杰明·M·施密特 (Benjamin M. Schmidt)

译者:丁怡瑞(剑桥大学数字人文系硕士研究生)

算法与转换

伊恩·博戈斯特(Ian Bogost)最近发表了一篇文章,认为对算法的过度迷恋会损害我们准确描述所处世界的能力。他写道:“像‘算法’这样的概念已经沦为草率的简写,成了将多部分复杂系统误认为简单单一系统的俚语”。他指出,即使是计算文化的批评者也难以抵挡这种诱惑,将算法描述得仿佛它们拥有某种无可辩驳的美;这导致他们对计算行为形成了一种“扭曲的、神学式的理解”,忽略了人类的能动性。

作为少数在人文学科领域内创造并应用算法的领域,数字人文拥有得天独厚的优势,能够帮助人文学者更好地理解算法的运作机制,而不是盲目地崇拜或谴责它们。然而,我们常常刻意忽略算法背后的理解和意义,转而采用一种工具化的方法,仅仅将算法视为可以凭直觉判断其效用的手段。计算机底层的复杂性使得某种程度的认知盲区在所难免。当复杂度超越临界点时,人文学者确实无需理解产出结果的算法机制;鉴于现代软件的复杂性,他们即便想理解也难以企及。

尽管软件中有些元素我们可以忽略,但要将人文数据分析作为一项学术活动而非仅仅是一项技术活动来实践,一些基本的理解标准仍然必不可少。有些算法的确是繁复冗杂、缺乏连贯性和目的性的程序,而另一些算法则包含着我们完全能够理解的假设。算法的运行方式与算法的运行方式截然不同,理解算法的运行方式更为重要。我想在此论证的是,一个成熟的人文数据分析领域不应仅仅从外部检验算法的有效性;相反,它应该探索软件所描述的流程背后假设的意义。简而言之:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。唯有如此,我们的实践才能更具成效,更可能真正实现原创性突破。

这一论点的核心在于区分算法和转换。算法是一组可精确指定的步骤,用于产生特定的输出结果。“算法”是计算机科学的核心研究对象;关于算法的主要理论问题涉及运行这些步骤所需的资源(特别是时间和内存)。另一方面,“转换”是指算法可能进行的重构。这个术语与计算机科学的联系相对较弱。其最紧密的学科联系在于数学(例如几何学中描述对形状可施加的操作)和语言学(构成诺姆·乔姆斯基“转换语法”理论的核心)。

从计算角度来看,算法创造转换。然而,从认知层面来说,人们设计算法是为了自动执行特定的转换。也就是说:转换表达了一个连贯的目标,这个目标可以独立于产生它的算法而被理解。也许最简单的例子就是排序的转换。“有序性”是一个普遍属性,任何人都可以独立于产生它的操作来理解它。在人文研究中,字母排序的用途,例如生成文本索引或整理姓名索引,与用于排序的具体算法无关。事实上,计算机排序列表的具体算法存在多种变体。某些经典的排序算法,例如快速排序,是计算机科学教学的基础。(对排序算法的经典汇编和解释是克努特经典计算机科学著作的前半部分。)如果认为人文学者需要理解像快速排序这样的算法才能使用排序后的列表,那就太荒谬了。但是, 我们确实需要理解有序性本身,才能充分利用排序列表的独特特性。

理解转换意义的另一种方法是将算法工具化地使用;例如,寄希望于潜在狄利克雷分配(LDA)之类的算法能够近似表示“主题”、“论述”或“论题”等现有对象,并探索其无法做到的细小领域。然而,这种将软件视为工具的方法,对于理解它几乎毫无益处;它寄希望于算法能够近似地表示现有意义,往往也阻碍了其创造新意义的可能性。传统人文主义者对大规模文本分析的主要批评是,它未能为学者提供任何新知。此类批评虽常有谬误,却确实触及了一个令人沮丧的缺陷:当前普遍采用的远读方法往往无法开辟理解文本的新路径。

将大规模分析与斯蒂芬·拉姆齐(Stephen Ramsay)所谓的“算法批评(algorithmic criticism)”相结合,虽然可能不那么立竿见影,但却更有趣。算法批评是指运用算法转换来开启文本的新解读方式。即便某些算法(如拉姆齐所描述的案例)在转换过程中本身不具意义,这一方法依然有效。但那些本身就蕴含某种目的的转换,更可以帮助我们创造出新的文本版本,从而提供新颖或有用的视角。探寻并描述这些转换如何运作,正是我们应该更加重视和推广的工作。

傅里叶变换与文学时间

安妮·斯沃福德(Annie Swafford)和马特·乔克斯 (Matt Jockers)就乔克斯的“Syuzhet”软件包展开的辩论。Annie Swafford 与 Matt Jockers 围绕 Jockers 的 “Syuzhet” 软件包所展开的争论,为我们提供了一个有用的案例,说明深入探讨某种“转换”本身的目的,如何能够丰富我们描述文本的词汇。尽管斯沃福德最初的批评指出了该软件包的几个问题,但她与乔克斯的后续讨论主要集中在乔克斯使用信号处理中的低通滤波器(low-pass filter)作为“平滑函数(smoothing function)”的恰当性上。乔克斯认为,这提供了一种“滤除情感轨迹中极端值”的绝佳方法。而斯沃福德则认为,这种方法常常会受到“振铃伪影(ringing artifacts)”的影响。在实践中,这意味着生成的曲线几乎只关注“最低点,而忽略了两侧的上升或下降”。

斯瓦福德和乔克斯的争论不仅围绕一个算法,更围绕一个被具体定义的“变换”展开。Jockers 用来分析情节结构的低通滤波器,其数学基础是离散傅里叶变换(Discrete Fourier Transform, DFT)。将傅里叶变换视为理解叙事结构的一种“构成方式”,这个想法本身颇具吸引力;但正如斯瓦福德所论证的,它很可能是错误的。斯瓦福德所描述的“振铃伪影”源于一个更大的问题:变换本身所蕴含的对时间的基本理解。

傅里叶变换的的目的,是通过将复杂信号拆解为其组成部分,把周期性事件表示为频率。人类经验中最基本的一些元素,尤其是光和声音,在物理上是以重复波的形式存在的。而傅里叶变换提供了一种简便的方法,可以将这些无限长的波描述为一组不断重复的短频率。例如,纯音“A(La音)”是以每秒 440 次的频率持续脉动的;但当由单簧管演奏时,这个“A”音包含大量规则的泛音(overtones)——这些泛音是频率更高、能量较低的成分音,使声音比单一纯音更丰富。像 Jockers 使用的那种滤波器会去除这些规律性;它通常用于 MP3 压缩等处理过程中,以去除人耳听不到的高频音符。如果对这样的单簧管音色应用更强烈的滤波,它会去除高频部分,保留音符“A” , 但会削弱乐器独特的音色。

将“情节”表示在频率域中,这一想法颇具吸引力,但也建立在一些高度可疑的假设之上。其中最令人惊讶的假设是:情节如同声音或光一样,由无穷无尽重复的信号组成。乔克斯使用的这种“低通滤波器”会忽略文本中任何呈现周期性重复的要素,而是聚焦于最长周期的变化,比如那些跨度超过文本长度四分之一或三分之一的趋势。这个过程类似于根据一段仅持续 1/440 秒(基频的一个节拍)的“A”音符音频片段来预测单簧管的后续音效。令人惊讶的是,这对于音符来说是可行的,但这仅仅是因为这个音调会无限重复。而Syuzhet 软件包中的默认平滑处理假设书籍也遵循同样的规律;除其他因素外,这意味着:经过平滑后的情绪曲线会把整本书开头的情绪视为结尾情绪的“延续”。(我在《Commodius Vici》一书中对此有更详细的解释。)

对于某些情节,包括乔克斯使用的主要例子《一个青年艺术家的肖像》, 这种假设并不明显错误。但对于其他文本结构,它会造成很大的问题。图 48.1 展示了 《一个青年艺术家的肖像》 和其他四部小说的情节,文本均取自古腾堡计划。威廉·迪安·豪威尔斯的 《塞拉斯·拉帕姆的发迹》讲述的是一个关于毁灭的故事; 霍瑞修·爱尔杰的 《衣衫破烂的迪克》是十九世纪典型的“白手起家”小说; 《包法利夫人》 则是经典的关于衰落的悲剧故事。图中展示了三种不同的平滑函数:加权移动平均,这是最简单的函数之一;局部加权回归散点平滑法(LOESS),这是探索性数据分析中最基本、假设最少的算法之一;以及 Syuzhet 软件自带的低通滤波器。

这里,傅里叶变换的问题显而易见。这种周期性的函数使得包法利夫人死后境况与她出轨前一样“好”。而假设较少的方法则允许她的命运在结尾崩塌,也允许衣衫破烂的迪克的命运轨迹向上而非向下倾斜。 安德鲁·派珀(Andrew Piper)指出 , 回答 “我们如何判断一条曲线是否‘错误’?”这个问题可能相当困难。但在本例中,错误之处显而易见;只有试图闭合循环才能解释小说结尾拉格德·迪克命运的下跌。(译者注:因为傅里叶变化的循环结束点必须接上开头)

这是什么类型的证据? 根据乔克斯的说法,包法利的例子仅仅是对该方法的一种“否定性验证”(negative validation),我认为他的意思是,这是一种对“该方法在所有情况下都是最佳方法”这一论断的经验性证伪(empirical falsification)。斯瓦福德的文章也暗示,逐案验证和证伪衡量方法优劣的黄金标准。用她的话来说,这套方法(或许整个数字人文领域)需要“更多的同行评审和严格的测试——旨在证实或反驳假设”。

从这个角度来看,算法的本质是一个操作过程不透明的系统;我们可以尝试或检验它是否符合我们的预期,但我们永远无法真正了解它。然而,当算法成为实现有意义变换的手段时,例如傅里叶变换,我们就能做得比“质量测试”更好;我们可以预先通过解释性分析来判断变换会在哪些方面失败。我选择 《包法利夫人》 并非随意之举,并非为了检验它是否足够好;相反,平滑方法的推论让我意识到,悲剧类小说整体上都无法被 Syuzhet 的平滑方式正确处理。我有些忐忑地承认,我从未真正读过 《包法利夫人》 或 《衣衫褴褛的迪克》 ;但它们都是情节与低通滤波器平滑完全不相容的典型例子。任何其他以死亡和绝望或非凡好运结尾的小说都会以同样的方式“被算法误读”。

图片

图 48.1  以极坐标绘制的四条轨迹图

这些问题也贯穿于乔克斯的一系列基本情节模式中:所有图表都以完全相同的情绪开始和结束。然而,在软件包推出后的头两个月里(这期间的审查力度肯定远超任何同行评审流程),这种假设的明显问题却并未被发现。这些缺陷未能立即显现的一个特别有趣的原因是 ,像图 48.1 这样的折线图并不能完全体现傅里叶变换的假设。我们用来展示结果的统计图形本身就可以被视为一种转化,它将数据带入一个新的分析领域。在这种情况下,我们用来绘制图表的几何图形和坐标系本身就带有特定的模型。这类折线图假设时间是线性且无限的。一般来说,这无疑是纸上表示时间最简单、最准确的方法。然而,它并不符合傅里叶变换所假定的频域(frequency domain)。如果傅里叶变换是观察图表的正确方法,我们应该使用极坐标系作图,因为极坐标系会循环回到起点。我在图 48.2 中重新绘制了相同的数据,其中百分比用一个角度表示,该角度从时钟的 12 点钟位置开始,而情感倾向则不是由高度而是与中心的距离来定义。

图片

图 48.2 以极坐标绘制的四条轨迹线

在这里,傅里叶变换的假设更加清晰。对于这里的所有小说而言,时间构成了一个闭合的循环;结尾点必须扭曲自身以与开头对齐,反之亦然。而其他算法则允许存在巨大的断层:《 包法利夫人》的弧线向内盘旋,仿佛坠入下水道,而 《衣衫破烂的迪克》 则向外推进飞升。

这些环形情节图不仅仅是为了证伪。以这种方式全面理解转换背后的假设,不仅凸显了模型的缺陷,也为我们思考情节提供了一种新的视角。这种观点强调了开头与结尾之间的鸿沟是小说的核心特征;由此,它挑战我们去思考情节所占据的时间究竟是不是一种单向线性的(straightforwardly linear)存在。

这场讨论之所以值得继续,部分原因在于它提醒我们重新审视自己对于情节与时间的诸多前设。笛卡尔坐标系(直角坐标系)所暗示的无限时间,在某种程度上与极坐标图一样是错误的。许多平滑方法(包括我希望在 Syuzhet 中使用的 loess 回归)很容易将时间外推到情节的开头和结尾之外。这恰恰表明,它们在某种程度上同样不适用于当前的任务。事实上, fabula(故事顺序)与syuzhet(叙述顺序)之间的区别核心在于,我们无法谈论小说“开始之前”的内容,也无法预测莎士比亚如果在 《哈姆雷特》 结尾之后再多花几个小时创作,会写出什么文字 。任何暗示存在此类短语的模型显然都是错误的。

但即便这些转变可能并非完全正确,它们或许仍能带来新的理解和分析方法。虽然这种“循环回归”的结构显然不适用于小说,但它对更广泛意义上的情节研究却具有重要意义。通过探究频域图的适用范围,我们可以从抽象层面识别出更适合应用此类方法的领域。

例如:理想的“三机位情景喜剧”剧本应该允许剧集在轮播中以任意顺序播出。也就是说,在某些方面,它们应该是循环往复的。对于情景喜剧剧集而言,循环性是一个值得牢记的有用框架。情感、主题或其他属性的契合度,对于理解商业影响如何与创作自由交织在一起,或者理解一个类型随时间的演变,都可能是一个极其有用的工具。这种信号处理的技术或许还能用于识别,例如,电视台在何时、何处允许编剧展开跨多集的剧情线。

尽管斯瓦福德和乔克斯的对话主要围绕“平滑”问题展开,但许多数字人文主义者似乎发现斯瓦福德提出的第二个批评更有意思。她认为,乔克斯软件包提供的情感分析算法(其中大部分基于带有情感评分的词典)产生的结果经常违背“常识”。第一个问题看似枯燥乏味,但第二个问题为数字人文主义者提供了一个平台,让他们探讨如何更好地理解我们运行的算法的“黑箱”。一个算法“符合常识”意味着什么?为了实用,它需要 100%正确吗?95%?还是 50.1%?如果数字人文要成为一个会采用他人创造工具的领域,那么这些正是它需要练习解答的问题。

然而,这样表述问题,就再次将算法本身视为不可知的。就像傅里叶变换一样,我们最好有意识地探究情感分析的转换究竟做了什么。例如,我们不应该将 Syuzhet 的情感分析部分视为一组待匿名受试者测试的词表,而应该思考如何以最佳方式实现情感分析背后的底层算法——或许是逻辑回归( logistic regressio)——来区分“褒贬”二元分类之外的事物。例如,乔克斯的灵感来源库尔特·冯内古特(Kurt Vonnegut)认为,情节的核心二元不是“快乐/悲伤”,而是“顺境/逆境”;也就是说,虽然情感分析提供了一个有用的捷径,但大规模平台更应创建一个真正能区分其领域中核心二元对立的分类器。安德鲁·派珀对情节结构的研究涉及小说内部的比较。这样的研究可以帮助我们更好地理解情节。他让文本与自身对话,并从其他领域中找到新的有用的转换方式。

这样做意味着,数字人文主义者可以帮助消除博戈斯特所揭示的“算法统治神话”,而不是参与构建此类神话。当历史学家将精神分析应用于历史研究时,我们并没有建议他们与精神分析学家“合作”,然后用历史记录来检验他们的论断有多少真实性;相反,历史学家会主动运用这些概念,将其视为具有解释力、本身就有意义的理论工具。当底层算法难以理解或过于复杂时,人文主义者能够深入探究算法的“黑箱”固然有益且有用。但即便如此,数字人文主义者的首要任务也应该是理解算法所服务的转换和系统的目标和意图,这样我们才能成为新思想的创造性使用者,而不是对工具的目的和前提一无所知、只是被动使用工具的人。

/来源:Gold, Matthew K., et al.“48. Do Digital Humanists Need toUnderstand Algorithms?Benjamin M. Schmidt." Debatesin the Digital Humanities 2016, 2.0, University ofMinnesota Press,13 Apr. 2016.

推荐阅读:

凯特·克劳福德、特雷弗·帕格伦《采掘人工智能:机器学习训练集中的图像政治学》(2019

凯特·克劳福德、弗拉丹·乔勒:《人工智能解剖学》(2019)

转自“左手数字右手人文”公众号

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

课程介绍丨AI时代的数字目录学及其基础设施

2026年4月4日 17:30

2026-04-04 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课程将视角延伸至数字目录学与数字人文基础设施建设,并结合教学反馈展开讨论。

教师将聚焦人工智能时代的数字目录学发展,结合清华大学团队近年来在相关基础设施研发与课程教学中的实践经验,对数字目录学的未来发展方向、基础设施建设路径及相关教学活动进行系统性梳理与反思。

主讲人:唐宸

清华大学人文学院副教授,教育部哲学社会科学实验室“中华传统文化智能实验室”核心成员,兼任《数字人文》编辑,主要从事中国古典文献学、数字人文研究,研发了“典津-全球汉籍影像开放集成系统”“奎章阁-中国古典文献资源导航系统”“中国数字人文(DHCN)”等基础设施。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

课程介绍丨AI+文献学课程建设与科研思考

2026年4月3日 17:30

2026-04-03 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课开始,老师们将在智慧课程建设这个主题的基础上围绕科研与教学展开进一步思考。

课程以AI+文献学课程为案例,探讨AI在文献学智慧课程设计中的教学应用场景与创新边界;最终落脚于数字化研究方法的学理反思,构建技术工具与人文阐释互鉴共生的文献学研究新生态。

课程的内容要点分别有数字人文与古典文献学的交叉融合路径与思考,AI辅助下的文献学课程设计、教学创新与反思以及文献学的数字化研究方法的思考。

主讲人:贾智

中山大学中国语言文学系(珠海)教授、博士生导师、系副主任。主要研究方向为汉语言文字学,特别是中古汉语、近代汉字的发展、流变和域外传播研究,兼及敦煌遗书、域外文献整理与研究。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

Call for paper | NLPCC 2026

2026年4月3日 09:00

NLPCC 2026 2026-04-03 09:00 江苏

NLPCC 2026于11月在澳门举办,6月13日截稿,录用论文由Springer出版。

转载自“计算机科学讲义”

会议全称:

The 15th CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026)

时间地点:

2026年11月3-5日,澳门

会议网址:

http://tcci.ccf.org.cn/conference/2026/

联系人:

info@nlpcc2026.org

投稿链接:

https://openreview.net/group?id=ccf.org/NLPCC/2026/Conference#tab-recent-activity

大会简介

CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026) 是中国计算机学会自然语言处理技术委员会的年度会议。自2012年创办以来,已在郑州(2020)、青岛(2021)、桂林(2022)、佛山(2023)、杭州(2024)和乌鲁木齐(2025)等地成功举办。NLPCC是自然语言处理和中文计算领域领先的国际会议。它为来自学术界、产业界和政府部门的研究人员和实践者提供了一个重要的交流平台,分享思想、研究成果和经验,并促进相关领域的研究和技术创新。

NLPCC 2026 将延续这一传统,欢迎提交原创性、高质量的研究成果。所有录用论文将由 Springer Lecture Notes in Artificial Intelligence (LNAI) 出版,并提交至主要学术数据库检索,确保研究成果的国际传播与学术影响力。

征稿方向

NLPCC 2026 欢迎以下领域的原创研究成果(包括但不限于):

  • 语言学与自然语言处理基础:Discourse and Pragmatics; Linguistic Theories, Cognitive Modeling and Psycholinguistics; Phonology, Morphology and Word Segmentation; Semantics; Syntax: Tagging, Chunking and Parsing

  • 机器学习、模型与智能体:Machine Learning for NLP; Interpretability and Analysis of Models for NLP; Large Language Models; LLM Agents

  • 多模态与交互系统:Machine Translation and Multilinguality; Speech and Multimodality; Dialogue and Interactive Systems

  • 信息抽取、检索与文本理解:Information Extraction and Knowledge Acquisition; Information Retrieval and Text Mining; Question Answering; Text Summarization and Generation

  • 应用与伦理:NLP Applications; Computational Social Science and Social Media; Sentiment Analysis; Ethics and NLP; Resources and Evaluation; AI for Science; AI for Software Engineering

重要日期

  • 投稿截止:2026年6月13日

  • 录用通知:2026年8月4日

  • 终稿提交:2026年8月15日

大会组委会

General Chair

Yue Zhang, Westlake University

Program Chairs

Roy Ka-Wei Lee, Singapore University of Technology and Design

Qi Zhang, Fudan University

Meishan Zhang, Harbin Institute of Technology (Shenzhen)

Workshop Chairs

Tieyun Qian, Wuhan University

Yang Zhao, Institute of Automation, Chinese Academy of Sciences

Evaluation Chairs

Jie Yang, Harvard University

Kunli Zhang, Zhengzhou University

Tutorial Chairs

Zhaochun Ren, Leiden University

Wenbin Jiang, Beijing Normal University 

Xiting Wang, Renmin University of China

Publication Chairs

Jianxing Yu, Sun Yat-sen University

Jin Wang, Yunnan University

Organization Chairs

Derek F. Wong, University of Macau

Haofen Wang, Tongji University

往届论文推荐

欢迎通过Springer出版您组织的学术会议,联系编辑团队获取合作信息!

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

课程介绍丨AI+语言学的智慧课程建设与实践设计

2026年4月2日 17:30

2026-04-02 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本讲开始,我们进入智慧课程建设模块。首要的工作就是夯实理论基础,构建系统的方法论。

本课紧扣“AI课程建设”的核心主题,以《语言学概论》课程为具体案例,分析从顶层设计到课堂落地的智慧课程建设全流程。

首先,教师带领学员解读国家教育数字化战略行动的最新政策,剖析智慧课程建设的核心意义和内涵。

在此基础上,进一步探讨大语言模型、自动化知识图谱分析、课程多源数据库建设等前沿信息技术,如何从底层逻辑上重塑语言学乃至整个新文科的教学目标、内容体系与课堂中的师生关系。

最后,通过“语言学概论”课程从0到1的建设实录,真实展示如何借助信息技术破解文科教学长期存在的难点,构建数智化混合式教学新形态。

主讲人:龙润田

暨南大学文学院副教授,博士生导师,北京市课程思政教学名师,暨南大学汉语方言研究中心研究员、岭南数字人文广东省实验教学示范中心研究员、暨南大学—科大讯飞方言语音科技联合实验室研究员。主要从事南方少数民族语言历史与文化、语言智能与数据计算、国际中文教育相关领域的研究工作。主持国家社科基金、国家出版基金、教育部国家语委专项等国家级、省部级项目多项。在国内外权威期刊发表论文20余篇。获国家发明专利授权2项,软件著作权3项,研发TonePro、FormantPro等语言调查软件,建设“新发现少数民族古文字数据库”等数据资源。研究成果获第二十二届中国社会科学院吕叔湘语言学奖,教学成果曾获北京高校优质本科教材课件奖等省部级教学成果奖两项。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

《语言与智能》征稿启事

2026年4月2日 09:00

BFSU AI 2026-04-02 09:00 江苏

以下文章来源于:北外人工智能与人类语言实验室

北外人工智能与人类语言实验室

实验室立足学校外语教学与研究传统优势,聚焦国家人工智能与教育领域的前沿问题,创新机制体制,凝聚国内外交叉学科智库资源,着力开展语言学习机理研究、基于人工智能的语言教学研究、多语言语料库、多语自然语言处理和外语健脑强智研究。

第1辑正式出版,第2辑开始征稿,欢迎各位专家学者赐稿,感谢大力支持!

近年来,以ChatGPT为代表的大语言模型的出现使语言智能研究成为人们关注的热点领域。为充分发挥教育部哲学社会科学实验室、语言智能教育部工程研究中心的科研育人作用,深化科教融合,加快科研成果转化,北京外国语大学人工智能与人类语言重点实验室联合外语教学与研究出版社,推出《语言与智能》学术期刊(ISBN:978-7-5213-5692-2)。期刊聚焦人工智能与人类语言领域前沿问题,旨在推动语言学、认知科学和人工智能等领域的深入研究,促进学科交叉融合,加强研究者相互交流,传播高水平前沿学术研究成果,支持优秀学术人才成长。

《语言与智能》第1辑已于2024年10月正式出版,包含语言认知、语言智能服务、语言智能教学、语言智能翻译四个栏目,共8篇学术文章,感兴趣的读者可在文末选购本书。

《语言与智能》第2辑 征稿启事

1. 期刊定位与目标

《语言与智能》是一个涵盖语言学、人工智能、认知科学、神经科学、临床医学等领域的跨学科学术中文期刊,主要刊发语言与智能领域原创性研究成果、理论性文章和反映研究现状的评论性文章。每年出版2期,面向国内外公开发行。

秉承“交叉融合、守正创新”的办刊宗旨。坚持以多元领域的前沿重大理论问题和重要现实问题为导向,择优录用能够引导交叉学科发展的原创性稿件,刊载具有理论性、实证性及前沿性的研究成果。本刊根据国际学术期刊惯例,不以职称、学历、单位等标准判定论文质量,全程实行匿名评审制度,及时向作者反馈审稿意见。

2. 主要栏目

(1)语言智能研究:涉及语言学与其他认知科学、智能科学的交叉领域研究,包括语言与认知、语言与脑科学、机器翻译、计算语言学、知识图谱研究、语言蚀失和语言障碍研究、语料库研究、智慧语言教学等。

(2)言语规律及其机理研究重点研究人类言语现象和规律,基于脑科学、认知科学的语言现象机理研究,人类言语行为与机器智能的互动促进研究等。

(3)语言数据和语言模型研究:包括语言数据的收集、标注、应用以及数据驱动的语言研究技术等。

(4)语言智能技术研究:包括语音识别与合成、机器翻译、自然语言处理、人机对话、大模型原理与对齐技术、智能搜索等领域的关键技术创新研究。

(5)语言智能创新应用研究:包括大语言模型应用场景、策略的研究等。

(6)前沿综述与评述:涉及学科研究的前沿动态、最新发展趋势等的研究综述与反映研究现状的评论性文章。

(7)学界动态:包括书刊评介(对近2年内的语言学外文原版专著进行内容介绍和评价,需突出重点及新兴信息)、交叉学科建设资讯等。

3. 稿件要求

(1)原创性论文:要求具有较新的观点,或在研究过程中采用新的理论视角、研究方法;基于数据且比较扎实的个案研究;写作规范,方法科学,论证围绕核心观点展开,长度10,000—12,000字。

(2)书评:主要针对近三年出版的语言智能研究领域论著,以国内外新书为主;在介绍的同时,以研究性评论为主;内容可涉及该书的选题、价值、特点、研究方法以及不足之处等,长度8,000—12,000字。

(3)来搞要求遵守学术规范。参考文献格式体例参照中华人民共和国国家标准《信息与文献 参考文献著录规则》(GB/T 7714-2015)。

(4)投稿请直接发送投稿邮箱bfsu_ai@126.com,邮件请以“专题+标题+姓名+作者单位”命名,来稿附件请用Word文件。初审通过后,编辑部将邀请专家进行外审,一般在三个月内就刊登与否予以答复,若到期未收到录用通知,作者可自行处理稿件。稿件内容文责自负,编辑部保留对稿件进行必要修改的权利。

(5)来稿请于文末注明作者简介,包括姓名、单位、职称(在读研究生请规范注明“博士研究生”或“硕士研究生”;在站博士后请规范注明博士后流动站名称或所在二级学院和“在站博士后”)、研究方向、通讯地址、邮编、电话及电子邮箱。若有多个作者,请用分号隔开。获得基金资助的项目,请注明项目名称及项目编号。

    欢迎各位专家学者赐稿,感谢大力支持。

《语言与智能》期刊编辑部

2024年11月

《语言与智能》第1辑正式出版

 点击图片看大图

感兴趣的读者请点击下方小程序选购本书。

阅读原文

跳转微信打开

会议通知丨中国历史文献研究会数字文献分会第四届年会

2026年4月3日 08:30

2026-04-03 08:30 湖北

为深入贯彻落实国家相关战略部署,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月在武汉举办“中国历史文献研究会数字文献分会第四届年会”。

2026

国历史文献研究会数字文献分会

第四届年会

中国·武汉

在数字人文蓬勃发展的时代背景下,古籍文献的整理、研究与传承已步入数智赋能的新阶段。国家高度重视古籍资源的转化利用,明确以体系化整理、知识化构建、智能化应用为导向,系统推进古籍数字化进程。

为深入贯彻落实国家相关战略部署,进一步探讨数智时代传统文献研究的理论前沿与实践路径,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月武汉举办“中国历史文献研究会数字文献分会第四届年会”。

会议拟围绕数智赋能下的传统文献本体研究、数据库及数据平台建设、数字人文教育教学理论与实践、人文学科高水平实验室建设等问题展开深入研讨,旨在推动古籍整理研究的理论、方法与实践创新,促进古籍资源的当代传承与活化利用。诚邀海内外专家学者与青年学子踊跃投稿、莅临研讨,携手推进古籍数字化研究与传承创新,共促数字文献研究高质量发展。

1

会议时间

2026年10月下旬

2

会议地点

湖北武汉

3

会议议题

共设置7个议题

1. 中国古典文献文本分析

2. 雅学与传统语言学研究

3. 中国古典文献的数字化整理与研究

4. 古籍大数据构建及智能体辅助研究

5. 数字人文理论与方法探索

6. 数字人文人才培养与教学实践

7. 人文学科高水平实验室建设

4

参会与投稿

请有意参会者于2026年6月30日前扫码提交参会回执;

2026年8月31日前提交会议论文全稿至会议邮箱shuziwenxian@ancientbooks.cn。

扫码填写参会回执

5

会议费用

1. 会议不收会务费;

2. 交通费、住宿费自理;

  1. 承办方负责会期餐食及会议其他费用。

6

会议联系

杜老师 :027-88661842

朱老师 :010-63311541

会议邮箱:

shuziwenxian@ancientbooks.cn

中国历史文献研究会数字文献分会

湖北大学文学院

中华书局古联公司

2026年 2月14日

END

来源 | 数字人文专业发展联盟

阅读原文

跳转微信打开

《数字人文》2026年第1期——“数字人文与出土文献研究”专刊出新

2026年4月1日 17:30

数字人文 2026-04-01 17:30 北京

以下文章来源于:DH数字人文

DH数字人文

清华大学、中华书局联合主办《数字人文》(Journal of Digital Humanities)季刊,旨在为方兴未艾的数字人文研究提供理论探讨和专题研究的平台。

《数字人文》上新了!

《数字人文》2026年第1期是“出土文献与数字人文专刊”,系国内学界首次以学术专刊形式对出土文献等冷门“绝学”内数字人文成果的集中展示。本期共刊发12篇文章,从内容上看,包括理论探索、平台建设、个案研究和出版实践等多方面,关注甲骨和简帛的缀合、古文字识别与析形,探索天文地理,介绍数据库平台及数字化出版方式。从涉及的材料类型和时代上看,涵括甲骨文、金文、战国秦汉简帛、石刻等,跨越商周到蒙元数千年历史。这些文章,反映近几年来相关领域数字人文的成果,并加以综述,希望能对关心出土文献研究的学者提供新的视角,为数字人文拓展新的领域。本期专刊从选题确定到编校完成,历时超两年,编辑部对作者们的大力支持表示诚挚感谢,也衷心邀请更多出土文献领域采用数字人文手段进行研究的学者不吝赐稿!我们愿意为最新的实践创造发表平台,让更多新颖的、有意义的学术探索尽快公之于众。

目    录

 理论与平台

数字人文与当代中国出土文献研究的现代性特征

许  可

人工智能古文字析解模型的初步训练

聂 菲 宋奥齐

数智时代的出土文献研究:“古汉语小站”建站经验与反思

薛腾阔 

动态视图在文字编管理系统中的应用研究 

数字人文与甲骨学研究

人工智能引导人类直觉产生的甲骨新缀第41-50 组

李霜洁 蒋玉斌

数智化整理助推甲骨文校重工作新发展

莫伯峰 巩诗晨 武智融

面向识别研究的甲骨文数据集标准的探索

陈婷珠

数字人文与简帛学研究

楚简古书类文献通假研究的数据库方法

——以“清华简”(壹—玖)为中心

 孙 欣 刘志基

语料信息处理视角下的里耶秦简缀合研究

冯慧敏 郭帅帅

秦汉简帛文献数据库的建设及文字学应用

张再兴 林 岚

实践与出版

上博简五《竞建内之》“星子曰为齐”考

——基于天象模拟技术的探析

李 凡

蒙元时期石刻族谱文献的数字化分析

——以地域分布与时代特征为中心

王 琪 

动态视图在文字编管理系统中的应用研究 

古文字工具书的数字化转型思考与实践

——以 《古文字构形类纂·金文卷》为例

姜 慧 闵怡然 

动态视图在文字编管理系统中的应用研究 

征稿启事

CONTENTS

Theory and Platform

Digital Humanities and Modern Characteristics of Contemporary Research on Unearthed Documents in China

Xu Ke 

Preliminary Training of an AI Model for Ancient Script Analysis

Nie Fei, Song Aoqi

Research on Unearthed Texts in the Digital-Intelligence Era: The “Classical Chinese Hub” Website—Development Experience and Reflections

Xue Tengkuo

Digital Humanities and Oracle Bone Studies

AI-Guided Human Intuition Discovers New Oracle Bone Fragment Rejoinings: Series 41–50

Li Shuangjie, Jiang Yubin

New Developments in Repetition Proofi ng for Oracle Bone Inscriptions Driven by Digitalization Collations

Mo Bofeng,Gong Shichen, Wu Zhirong

Exploration of Oracle Bone Inscription Data Set Standards for Recognition Research

Chen Tingzhu

Digital Humanities and Bamboo Slips and Silk Studies

The Database Method for the Study of Ancient Literature in the Chu Bamboo Slips: Centered around the Tsinghua Bamboo Slips (1-9)

Sun Xin, Liu Zhiji

Research on Liye Qin Bamboo Slips Conjugation from the Perspective of Digital Humanities 

Feng Huimin, Guoshuaishuai

The Construction and Application of the Qin-Han Bamboo Slips and Silk Database

Zhang Zaixing, Lin Lan

Practice and Publication

Research on the “ 星子曰为齐” in the “Jing Jian Nei Zhi” of “Bamboo Slips V in the Shanghai Museum”:Analysis Based on Celestial Event Simulation Technology

Li Fan

Digital Analysis of Stone Carving Genealogical Documents during the Mongolian Era and the Yuan Dynasty: Focusing on Geographical Distribution and Times Characteristics

Wang Qi

Reflection and Practice of the Digital Transformation of Ancient Chinese Character Reference Books:Taking the Compilation of Ancient Character Confi guration Categories Formations —the Volume of Bonze Inscriptions as an Example

Jiang Hui, Min Yiran

Call for Papers

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

转载 | 纪要:【“数字与人文”跨学科系列讲座】Andrea Nanetti:可视化映射:从列奥纳多·达·芬奇到奇点

2026年3月30日 15:36

中大高研院 2026-03-30 15:36 广东

以下文章来源于:中山大学人文高等研究院

中山大学人文高等研究院

发布中山大学人文高等研究院相关学术信息

2025年11月28日晚,中山大学人文高等研究院“数字与人文”跨学科系列讲座第十四讲在中山大学南校园图书馆顺利举行。广州美术学院数字人文特聘教授安德烈亚·纳内蒂(Andrea Nanetti受邀主讲,主题为“可视化映射:从列奥纳多·达·芬奇到奇点——基于定义、假设、观念、概念与解读的研究路径(Visual Mapping from Leonardo Da Vinci to the Singularity)”,讲座由中山大学信息管理学院程焕文教授主持。

Andrea Nanetti教授在讲座中

一、正名与溯源:“艺术”与“技术”的概念考古

在讲座中,纳内蒂教授以历史经验(尤其是文艺复兴时期的智慧)为基石,通过辨析核心概念、回溯技术变革中的历史先例并展示其团队在数字人文领域的实践,探索如何为现代人文学科建立坚实的应用计算技术的方法论框架,系统阐述了连接历史智慧与未来技术的前沿路径。

讲座伊始,纳内蒂教授回归欧洲古典传统,厘清了“艺术”(Art)与“技术”(Technology)的概念:希腊语单词τέχνη与拉丁语对应词ars本指同一事物,即“制作的学问”,二者的现代分野是历史建构的结果。在古代,“自由七艺”属于理论思辨,绘画、雕塑等则被归为“机械艺术”,地位较低。直至文艺复兴时期,“纯艺术”概念在意大利兴起,创作者的社会价值与文化价值才获得重估。纳内蒂教授强调,当代人文学科以理解人类境况为核心旨趣,应当利用一切可用的“技艺”与“技术”,这正是数字人文工作的根本意义

二、历史的范式:面对技术变革的三种抉择

为阐明如今面对人工智能等颠覆性技术时的应有立场,纳内蒂教授援引三类人物作为先例,勾勒出三种典型的反应模式。

1)十五世纪佛罗伦萨书商韦斯帕夏诺·达·比斯蒂奇(Vespasiano da Bisticci)的拒绝与退隐。作为曾为美第奇家族服务的杰出手抄本书商,比斯蒂奇代表着前印刷时代知识生产美学与工艺的巅峰。古登堡印刷术这一“颠覆性技术”传播至意大利时,他并未拥抱变革,而是选择在1480年左右退休并关闭书店。在回忆录中,他视印刷书籍为“廉价”且“低质”的产品,破坏了手抄本承载的工艺标准与审美价值。他的选择代表了深刻的保守立场:当新技术与既有伦理、美学标准严重冲突时,主动退出与自我边缘化成为其坚守尊严的方式在今日的数字人文领域,部分学者表达了类似的态度,即批评数字工具“粗浅”或“不可靠”而拒绝使用。这虽是基于学术操守的合理选择,但也意味着自愿脱离该领域未来的主流发展轨道

韦斯帕夏诺·达·比斯蒂奇

2)十七世纪化学家波义耳(Robert Boyle)的开拓与创制在波义耳的时代,物质研究领域主要由充满神秘主义色彩的炼金术主导,其工具与方法无法满足建立基于实证与理性观察的新科学范式(即现代化学)的需求。面对这一困境,波义耳并未向旧工具妥协,也没有选择被动等待新工具的出现,而是亲手设计和制造了空气泵等革命性的实验仪器。他的实践揭示了这一关键原则:当研究议题的深度超越了现有技术手段的极限时,真正的学术突破往往依赖于研究者为自己“量身定制”工具的能力这对于当今数字人文的启示直接而深刻:我们不能仅仅满足于使用商业公司提供的通用型人工智能或软件,为解答人文学科中具体、复杂的问题,必须主动参与甚至主导开发专用的工具与方法

波义耳

3俄里翁(Orion)与刻达利翁Cedalion)神话的当代启示纳内蒂教授展示了一幅描绘盲眼巨人俄里翁与站在其肩上的少年刻达利翁的画作,引申出有关知识与技术关系的核心隐喻:力大无穷却目不能视的俄里翁象征着人类所积累的庞大数据和知识库(当今的大语言模型与海量数据库),是巨大而无方向的“力量”。身形渺小却拥有视觉的刻达利翁则象征着人类研究者,他并不能替代巨人的力量,却为其提供关键的方向指引。这精妙地回应了当下关于人工智能的争论:技术模型本身并不天然具备目的性与判断力(正如OpenAI等机构常申明不对输出结果负责),是需要被驾驭的“巨人”。人文学者的核心角色,便是成为不可或缺的“指引者”,将自身的领域知识、批判性思维与伦理判断注入研究过程,确保将技术巨人的力量引导至富有意义的人文探索之路上

俄里翁与刻达利翁

三、从视觉思维到记忆工程:达·芬奇的遗产与现代实践

纳内蒂教授将列奥纳多·达·芬奇(Leonardo da Vinci)的工作方法置于核心,将其视作如何成为“可视化映射”的典范。屏幕是未来知识获取的主要渠道,面对这一现实,如何在有限空间内有效压缩和展示信息便成为关键挑战,达·芬奇为此提供了历史范例。

纳内蒂教授指出,达·芬奇的笔记常被误解为混乱的图文混杂,实则体现了超前的非线性视觉思维。以达·芬奇对人类视觉的研究为例,在当时缺乏现代科学且许多文献难以理解的情况下,达·芬奇无法从传统文本中获得满意答案,于是转而借助绘画来思考。他所绘制的眼睛解剖图及伴随文字并非简单的插图与说明,而是视觉化的研究提纲。他以主动的视觉重构探索光线进入眼睛并被大脑处理的过程,这表明达·芬奇不仅是在观察,更是在通过视觉手段实现知识聚合

达·芬奇及其手稿

受到达·芬奇历史经验的直接启发,纳内蒂教授及其团队与“工程历史记忆”(Engineering Historical Memory)项目及国际历史科学委员会(International Committee of Historical Sciences)展开合作。其项目的目标不只是利用AI生成数字替身进行演示,更是要深入探索计算技术真正赋能历史学的方法论。在方法上,该项目秉持波义耳“自制工具”的精神致力于为历史学家打造专属工具,其核心是运用信息可视化技术将过去与现在的复杂数据联系起来,从而揭示其背后完整的故事脉络。

最后,纳内蒂教授由历史路径归结到面对技术奇点(Singularity)的根本问题上。技术奇点临近,我们该如何自处?我们可以像书商韦斯帕夏诺那样固守传统,但可能为此而自我边缘化;也可以像波义耳那样,为建立新范式勇敢打造自己的工具。但最重要的是,必须牢记俄里翁与刻达利翁的隐喻:技术与数据如同盲眼的巨人,人文学者必须站在其肩上,扮演指引方向的角色。因此,未来的使命不仅是解读文本,更要通过“可视化映射”来重新组织和理解人类的知识体系。这是从达·芬奇的智慧到迎接奇点挑战一以贯之的探索路径。

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

课程介绍丨基于可视化编排的 AI 史料挖掘与溯源验证

2026年3月31日 17:31

2026-03-31 17:31 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课开始我们进入模块三:学习利用零代码编程开展研究的工作全流程。

在生成式人工智能(AIGC)重塑知识生产的当下,人文学者面临着双重困境:传统的编程工具(如 Python)学习曲线陡峭,让人望而却步;而新兴的大模型虽然能快速生成内容,但其固有的黑箱机制与幻觉风险,使得输出结果难以满足人文学科对证据来源与逻辑可控性的严苛要求。

如何在享受技术红利的同时,捍卫学术研究的严谨性?本课程将围绕具体的数字人文研究案例,讲授一套AI条件下“低门槛、高严谨”的研究流程。

主讲人:张光伟

陕西师范大学历史文化学院讲师,硕士研究生导师。担任陕西师范大学丝绸之路历史文化虚拟仿真实验教学中心(省级)主任,国际长安学研究院数字长安研发中心主任,全国历史学实验室建设联盟秘书长,国际教育合作协会(GPE)咨询委员会委员。主要从事"人工智能+历史学"交叉学科研究。发表各类相关研究论文20余篇,参与、主持多项国家级、省部级社科基金与自然科学基金项目。开设数字人文与新文科以及国际理解教育相关课程。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

课程介绍丨零代码搭建人文数据库及人文智能体

2026年3月30日 17:30

2026-03-30 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课程为方法论与工具实操课。教授学员零代码搭建人文数据库及人文智能体的具体方法。

以自研的汉语方言学大词典数字化平台、汉语方言语音特征数智平台、广州话电子字典、明清坊刻通俗小说数据库为实例,帮助学员在实践中理解人文数据库建设的完整路径。剖析上述平台的设计思路、前后端实现及AI智能体研发逻辑,逐步建立起符合学术规范的数据基础设施建设方法论。继而通过零代码平台实操,演示如何无需编程即可搭建人文类数据库和智能体,并利用其服务学术研究与教学。

主讲人:彭志峰

暨南大学文学院中文系讲师,广东省岭南数字人文实验教学示范中心(省级)副主任,暨南大学-科大讯飞方言语音科技联合实验室(省级)副主任,暨南大学汉语方言研究中心(省级)研究员,粤语语料库建设与大模型评测重点实验室(市级)研究员,主持4项省部级项目,研究方向为数字人文与方言科技。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

❌