辅助,而非取代:声像档案的AI元数据生成模型与文化诠释
原创 魏小石 等 2026-04-03 09:10 北京
![]()
影音档案; 人工智能; 元数据生成; 文化诠释; 人机协同; 声音遗产; 检索增强生成(RAG); 民族音乐学; 知识图谱
转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:魏小石,马修·詹姆斯.辅助,而非取代:声像档案的AI元数据生成模型与文化诠释[J].数字人文研究,2025,5(4):60-67.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。
辅助,而非取代:声像档案的
AI 元数据生成模型与文化诠释
魏小石 马修·詹姆斯
摘要:文章探讨了在全球影音档案快速增长、文化语境日趋多元而机构资源普遍受限的背景下,如何借助AI技术实现从“数字化”到“知识化”的转型。面对资金紧缩、人才短缺及知识更新滞后等“三重困境”,传统的档案编目方式难以应对海量且多语种的声音材料。文章强调AI工具应定位于“辅助”而非“取代”人类专家的文化诠释能力。通过二位作者执行的人机协同著录案例,文章展示了如何结合RAG(检索增强生成)技术、专业标注框架与古典文献知识库,构建具备文化敏感性与语义深度的专用AI著录系统。最终,文章主张民族音乐学及相关领域学者应主动参与专用AI模型的共建,推动人机协同的编目新范式,在提升档案可及性的同时,维护文化诠释的准确性与多元性。
关键词:影音档案; 人工智能; 元数据生成; 文化诠释; 人机协同; 声音遗产; 检索增强生成(RAG); 民族音乐学; 知识图谱
作者简介:魏小石,中国音网(cdtmusic.com)总编辑,伦敦大学亚非学院客座研究员; 马修·詹姆斯(Matthew James),传统音乐智能体平台“Echo Arc”(声穹)联合创始人。
0 序言:
声像档案领域的“三重困境”
今天在此向学界同仁郑重介绍一项正处于起步阶段的研究计划——“EchoArc”(声穹)。这项计划的核心,远不止于构建一个技术性的概念原型;其更深层的旨趣,在于尝试搭建一个促进全球范围内档案馆、图书馆、博物馆(以下简称“GLAM机构”)以及相关机构之间系统性对话与协同共建的框架。我们怀揣这样一个愿景:在声音与视听档案数字化与知识化转型的关键历史节点,借助合乎伦理且智能化的技术中介,让散落于世界各个角落、承载着人类多元记忆与文化表达的声音档案收藏,能够以前所未有的深度与广度“被听见”(discoverable)、“被理解”(comprehensible),并最终更公平、更高效地“被获取”(accessible)。
这一愿景的紧迫性,正源于一个我们共同面临的宏观趋势:全球声音档案(sound archives)的物理与数字存量正呈指数级增长(尤其是原生数字档案),其载体格式日益复杂,内容所涉语言与文化语境更加多元。与之形成根本张力的是,对声像影音遗产(及其文本格式的元数据及描述)进行高质量的组织与管理——包括其鉴定、著录、编目、保存与诠释,至今仍是一个深度融合了高度专业化人工判断与精细化操作的体系。这一过程不仅是劳动密集型的,其核心更在于对文化语境进行智慧密集型的解读与表征,因而难以被当前主流的自动化逻辑所简化和替代。
当下,GLAM机构正面临三种结构性的困境。首先,持续性的资金紧缩与预算不确定性已成为常态。许多GLAM机构的研究与典藏部门预算常年停滞甚至削减,而数字保存、基础设施升级与专业软件采购的成本却在不断攀升(Terras, 2015)。这使得机构在资源分配上往往陷入艰难抉择:是优先保障实体物料的物理安全,还是投资于数字化转型的长期需求?这种资源窘境直接导致了许多珍贵但“非核心”或未被充分描述的声像典藏被迫“沉睡”,难以进入整理与编目的序列。
其次,专业人才的结构性短缺与流失危机日益严峻。精通音响档案理论与实践、具备音乐人类学(民族音乐学)、语言学、民俗学知识,同时熟悉当代元数据标准(如MARC、Dublin Core、EBUCore等)的编目专家本身便是稀缺资源(Lee et al., 2021)。随着资深专家的退休,机构内部往往出现严重的知识和技能断代。与此同时,就业市场对数字技能的重塑,使得新一代信息专业人才的职业选择更加多元化,传统GLAM机构的吸引力相对下降,导致专业人力资源的补给线异常脆弱。
最后,传统知识与技能的更新速度与复杂的档案工作需求之间的落差在不断拉大。声像档案的内容包罗万象,从濒危语言录音、传统音乐表演、口述历史到环境声音景观,每一种类型都需要编目者具备相应的背景知识、文化敏感度与描述词汇表(Matusiak et al., 2019)。面对海量、多语种、多文化的待处理资料,任何单个机构、单个领域的工作团队,其知识储备都显得捉襟见肘。人工创建高质量的、具备多平台易用性的元数据,不仅要求描述事实的准确性,更要求对文化语境、表演实践、历史背景进行深度诠释,这是一项极其耗时、费力且需要持续学习与协作的智力工作。
正是这“三重困境”的交织与加剧,将一个明确而急迫的需求推至我们面前:开发具有可扩展性、可持续性的智能辅助工具,为GLAM机构的声像档案工作所用。这类工具的核心目标,并非天真的“自动化替代”,而是在尊重个体学者不可替代的核心判断力的前提下,赋能档案工作者与编目人员。在预算受限、人力不足的客观条件下,借助这些工具,能更高效地处理数据录入、格式转换、基础标引等重复性劳动,从而将宝贵且有限的人力(学者)资源释放到更需要人文洞察、批判性思维与跨文化沟通的环节中去——例如语境构建、关系关联、伦理审核与深层知识挖掘。唯有通过这种人机协同的新模式,我们才有希望系统性地整理、激活那些目前“被遗落的声景”,让这些承载着族群认同、历史记忆与生态智慧的珍贵声音,真正融入当代文化遗产网络之中,在数字(智)时代获得新生。
1 “辅助”而非“取代”
任何旨在辅助档案工作的工具,在处理那些承载社群历史、情感认同等复杂(且敏感)的民族志信息时,其设计与应用必须以维护信息的准确性与文化的细微差异为前提,而非将其作为效率的代价。这一原则构成了我们工作的基石。
为此,我们正致力于开发专门面向图书文献与文化遗产领域的特定AI模型。该模型的核心功能是辅助生成并翻译声像档案的元数据。在开发过程中,我们严格遵循MARC、Dublin Core等国际主流元数据标准,并将精准性、文化敏感度及学术协作规范嵌入模型的设计目标。通过自动生成符合这些标准的不同格式元数据文件,该工具旨在直接减少档案工作者在数据录入、格式转换等环节的重复性劳动负荷,从而有效提升档案材料在编目与收录初始阶段的处理效率和基础可访问性。我们的技术路径规划是从单个集合(及其条目)的细粒度描述入手,经过验证与迭代后,逐步扩大应用规模,从一个收藏扩展到另一个收藏。在此过程中,目标是将不同社群、不同学术传统中多层次、细节丰富的知识结构与描述逻辑,持续、可控地嵌入AI的学习过程,使其理解并尊重文化描述的复杂性。
将AI技术引入高度专业化且充满诠释多样性的文化研究领域,引发疑虑是自然而然的。现实是,生成式AI已在诸多行业展现出大面积替代人力的趋势,我们亲历目睹了自由撰稿、基础编辑等领域在短时间内发生的职业重构。然而,必须清醒认识到:生成式AI虽然能够快速生成文本,但其产出在准确性、事实丰富性、真正的创造性以及具有文化说服力的叙事方面,尚未证明其能够超越受过严格训练的人类专家。它的“快”未必等同于“好”,更不意味着在理解文化深层意义方面具有优势。
基于此,我们亟需明晰项目的根本定位:我们的目标绝非是利用自动化技术“取代”人类在元数据生成、翻译与著录模式整合(schema integration)等环节的专业技能。我们致力于打造的是能够与人类专家协同工作、并能在专家反馈下持续学习的智能工具。其核心价值在于,将专家学者从繁重、机械的数据处理工作中解放出来,将他们宝贵且有限的智力与时间资源,重新配置到那些无可替代、更需要人文洞察与批判性思维的任务中去。工具的价值,在于增强(而非削弱)人类知识的核心判断力。
2 如何开发AI编目工具?
——从通用模型到专用系统的路径
那么,我们该如何开始开发真正适用于文化遗产领域的AI辅助工具?首要步骤是明确认识到当前技术方案的局限性。目前,ChatGPT和DeepSeek这类通用型、“一体适用”的大型语言模型,在处理高度专业化、对文化语境极其敏感的档案编目任务时,其“表现”仍然相当粗糙。我们曾进行过一项具体测试:向DeepSeek模型输入来自一套哈萨克音乐集合的数字化音频文件、与之配套的原始档案说明文字,以及数篇经过同行审校、权威出版的民族音乐学研究文献,指令是生成符合图书馆行业标准的MARC编目记录。从表面产出看,模型在短时间内确实生成了一套结构上看似完整的MARC记录,包含了一些基础字段。然而,经过与领域专家的仔细核验,一系列明显且关键的错误与遗漏暴露无遗,这些缺陷系统性地揭示了通用模型的根本不足。
首先,在基础数据准确性与规范性层面,问题显而易见。例如,在涉及西里尔字母书写的哈萨克语人名、地名音译时,模型生成的文本并未遵循国际图书馆界通用的音译标准(如ALA-LC罗马化表)。这种细微的偏差并非无足轻重,它直接破坏了元数据在未来进行跨机构、跨数据库交叉引用与聚合时的互操作性,也严重影响了用户在检索时通过不同书写形式准确找到目标资源的能力。类似地,在地点和日期这类核心描述字段中,模型给出了“20世纪”或“阿勒泰—新疆”等极为模糊的信息。在强调精确来源出处与特定文化地理背景的档案著录语境中,此类描述非但无用,反而会引入歧义,使得后续研究者难以确定录音具体的地理归属与历史时段。
其次,在描述深度与语义丰富性层面,通用模型的输出显得过于笼统和扁平化。对于表演者的角色标注,模型通常仅列出姓名,却完全未能具体说明其在一段录音中的具体职能——某个人究竟是器乐演奏者、歌手、叙述者,还是兼而有之?此外,也未区分其贡献是表演一首经典传统曲目,还是对某个特定版本进行了个人化的诠释。在主题标引方面,模型往往只能提取最表层的、形式化的类别,如“民间音乐,哈萨克斯坦”,而完全忽视了深嵌在音乐之中的文化、信仰与生态维度,例如反映自然崇拜的“泛灵论”(animism)主题,或是录音中可能包含的特定“环境声音”(如风声、水流、牲畜叫声)。这些深层主题标签对于理解录音的文化意义至关重要,尽管它们在提供的背景文献中已有明确论述,模型却无法有效识别并转化为结构化元数据。
最后,在数据结构完整性层面,模型生成的MARC记录常常在关键字段中只保留空泛的占位符或指示性文本,而缺失了实质性的具体内容。这导致记录在形式上看似完整,在机读格式上也无错误,但在编目员和研究者看来,却缺乏进行有效知识组织与检索所必需的核心信息单元。
上述种种问题,绝不仅仅是单纯的技术瑕疵或数据训练不足。它们共同指向一个更深层、更本质的事实:元数据从来不是中性中立的;它并非是对客观事实的简单转录,而是一种文化的诠释,是特定知识体系、学术传统乃至认同观念的体现。一个主题词的选择、一种音译规则的采用、一个地理名称的表述方式,都蕴含着对文化内容的解读框架与价值判断。因此,即便是连字符的使用、主题标目的粒度、MARC字段内的分隔符,或是人名音译的标准这类最微小的细节,都会对这段录音未来如何被保存、如何被发现,以及最终如何被学术界和社会所重视,产生深远的影响。对于哈萨克音乐这类(可能)处于主流话语边缘的文化传统而言,高质量的元数据不仅仅是一种描述工具,更是一种伦理基础设施。它承担着公正表征文化身份、确保其能在全球知识体系中获得可见性与可理解性的责任。
这一点,在田野录音的语境下显得尤为沉重,且紧迫。许多珍贵的实地录音,是民族音乐学者历经数十载,辗转于多个田野地点,克服重重困难才采集到的文化瑰宝;也有些录音,承载着一个家族对散居他乡或已故亲人的声音记忆,是社群情感与历史传承的非物质载体。对于这些凝结着巨大智力投入与深厚情感价值的材料,元数据的著录质量,直接决定了这些声音在未来数字环境中能否被尊重地对待、被准确理解其语境,并得以有效传承给后代。粗糙或错误的元数据,无异于在数字世界中对这些珍贵遗产进行二次损害,使其陷入新的“沉默”或“误读”之中。
3 AI技术实践的“一小步”:
赋能中国近现代声音文献检索
以下,以一项针对20世纪20—30年代78转唱片的具体研究为例,阐述我们在AI辅助编目领域的初步实践。刚才所讨论的关于AI工具设计的核心问题,并非空泛的理论推演,而恰恰源于我们此前对一项基础性测试的直接观察。在该测试中,我们系统地探究了AI如何从庞杂的、非结构化的原始信息中,自动识别并提取出符合专业编目要求的结构化元数据。这一尝试,其意义超越了单纯的技术验证;它本质上是对传统编目方法论边界的一次主动拓展,旨在探索人机协作模式下,知识组织逻辑所能延伸至的新领域与可能达到的新深度。
必须承认,当前对汉语有声文献——尤其是历史录音——进行系统化数据采集与智能化处理,面临着多层次的现实挑战。在图书馆学与信息科学领域,对文献资源进行准确、规范的描述,是一切知识组织与服务的基础。我们的实践表明,现有通用AI模型的知识库与认知框架存在显著局限。具体而言,对于具有强烈地方性特色的声音或音乐表演内容,例如那些依赖于特定地域文化、使用小众乐器或承载独特曲艺形式的录音,AI的认知表现出明显的匮乏与不确定性,其生成文本描述时常包含事实性谬误或文化误读。这种“知识盲区”使得AI难以独立承担对这类遗产进行高质量编目的任务。
正是为了应对这一核心挑战,我们与中国人民大学国学院吴洋教授的研究团队建立了跨学科合作,共同启动了名为“AI赋能中国近现代声音文献检索、深度描述与古典学研究——以北方曲艺为例”的项目。该项目旨在构建一个新颖的研究范式,即尝试利用经过严谨校勘、体系严整的中国国学经典文献所构成的权威知识库,作为AI模型理解相关文化内容的“锚点”与“基石”,进而对北方曲艺(如京韵大鼓、单弦、岔曲等)唱片中的唱词文本,进行系统化、多维度的深度语义标注。
北方曲艺的唱词文本,是一个蕴藏丰富的文化信息复合体,其中频繁用典、化用诗文、涉及大量历史人物、事件、民俗事象与地方性语言表达。然而,长期以来,这些唱词所承载的深厚文化内涵,并未与其源头的古典文献建立起深度、系统化的知识关联。传统的整理工作可能止步于唱词文本的转写与基本说明,未能将其置于更宏大的中华典籍与历史语境中进行互证与阐释,从而未能催生出经过深度考据与跨文本验证的、立体化的知识网络。
目前,我们(中国音网团队)已完成了相当规模的北方曲艺78转唱片的数字化转储,并初步整理了对应的唱词文本,形成了基础的、“结构化的”数据层。本项目当前阶段的核心任务,正是要突破这一层,致力于从历代文集、笔记小说、方志、韵书等浩瀚的“非结构化”古典文献中,提取相关知识单元(如典故出处、历史背景、词汇源流、民俗考释),并将这些提取出的知识点,精准地“编织”回北方曲艺唱词所对应的具体声音语境中去。
项目的学术核心,由人大国学院团队主导,师生们创造性地构建了一个从文献学、文学、历史学、民俗学、语言学五个核心维度出发的唱词深度标注框架与知识图谱模型。这五个维度并非孤立,而是相互交织:文献学考究版本与源流,文学分析文体与修辞,历史学定位事件与人物,民俗学解读仪式与风物,语言学辨析音韵与词汇。项目组成员需要手动标注至少1000个知识点,为AI理解提供结构化的认知地图。
在技术实现层面,中国音网团队负责提供关键的RAG技术架构。RAG,即“检索增强生成”,并非一个“开箱即用”的解决方案,而是需要精心设计和训练的技术范式。在本项目中,我们利用RAG的核心机制,为AI智能体赋能,使其能够:首先,在面对一段具体唱词时,自动识别其中可能涉及的知识点(如,某个典故、某个古地名),并触发对海量古典文献数据库的精准检索;其次,将检索到的相关文献片段作为增强的上下文信息,与原始唱词一并输入生成模型;最终,引导模型生成具有溯源依据的深度描述、注释或关联性分析。这一过程旨在系统性提升三大能力:一是语义还原能力,即准确理解唱词在古代汉语语境中的本义与引申义;二是跨域关联能力,即在曲艺唱词、历史记载、文学作品、民俗报告等多类型文本间建立有意义的链接;三是知识注释能力,即产出符合学术规范的考据性说明。
其后,更为关键的是“情境训练”。这一阶段的训练目标,是让AI模型学习并掌握“进入关联性知识图谱的路径”,实质上是教会它如何像该领域的学者那样,不仅能“回答”问题,更能帮助大众读者以符合学术探究习惯的方式“提出”问题,并自主进行知识追溯与关联分析。具体而言,这一过程高度依赖项目组成员——特别是具备文献学与曲艺研究背景的专家——进行手动的、高度情境化的问答训练。专家们并非简单地提供标准答案,而是需要模拟研究过程中真实的思维链条与探究场景。例如,他们不会直接问“《击鼓骂曹》中‘渔阳三挝’的典故出处是什么?”,而是可能从一个更开放、更具引导性的情境切入,比如:“如果我们听到一段鼓曲唱词中提到了‘祢衡’和‘曹操’,并伴有激昂的鼓点描述,我们该如何联想到汉代的相关史实与文学形象?又如何进一步探究‘鼓’在这一叙事中的象征意义及其与具体曲艺表演程式的关联?”
通过大量此类情境化、多轮次的问答“对话”,AI模型被引导去理解:一个知识点(如“祢衡”)如何作为入口,自然地关联到人物传记、历史事件、文学作品、音乐表现等多个知识图谱节点。更重要的是,它学习到人类专家在探索这些关联时所使用的语言模式、逻辑递进方式以及提问策略。这相当于为AI注入了专业领域内的“探究性思维”模板,使其能够逐渐学会从非结构化的文本中自主识别出潜在的知识关联线索,并以更贴近人类学术习惯的、连贯且富有逻辑的语言,进行深度的语义还原与知识注释。这一训练是将静态的知识库转化为动态、可推理的智能系统的核心环节。
本项目这“一小步”技术实践的长远目标,正是希望借助AI的赋能,系统性地应对声像档案著录、编目与诠释的核心挑战。将声音背后那些分散于不同典籍、隐含在表演细节中、且需极高专家素养方能建立的文化知识关联(如唱词典故、音乐程式、历史语境),转化为显性、系统、可规模化的结构化知识,我们旨在构建一座桥梁。这座桥梁连接着原始的声音资料与丰富的文化语义网络,使这些档案不仅能被听见,更能被深度理解与文化传承。
4 结语
利用AI技术构建MARC编目记录通用架构,仍存在诸多疑虑,也兼具多重利弊,但曲艺有声文献的案例,也展示了AI整合非结构化数据集(特别是源自中国古代文学经典的叙事音乐资料)的潜力。我们实践的个体项目之力难以改变整体格局,但我们坚信,唯有以具体问题为起点,启动AI智能体的领域化训练,方能切实迈出推动人文学科与AI技术深度融合、激活声音文献遗产的第一步。
我们主张,民族音乐学(及相关领域)学者必须摒弃技术旁观者心态,深度参与到数字工具与方法论的共同建构中。其核心路径在于:放弃“一体适用”的对大模型的幻想,不能坐视简单的、缺乏文化理解的通用数字工具被以“省时省钱”的名义草率地强加于文化遗产机构,最终牺牲档案工作中不可或缺的学术准确性与文化差异性;而应该转向开发本领域专用的AI模型。这要求学科专家与技术团队进行实质性协作:共同制定贴合文化语境的术语体系与受控词表,编写细致周详的描述与翻译指南,并构建由权威学术资源构成的高质量训练语料库。更为关键的是,必须建立一种持续迭代、人机协同的审校与反馈机制,使学者和档案工作者能以其专业知识直接校验输出、纠正偏差、注入文化洞察,从而驱动AI系统在“实践—反馈—优化”的循环中不断完善。因此,我们将AI模型的开发视作一个持续稳健、可协商的渐进过程。短期计划是务实而清晰的:与少数拥有特定声音典藏的机构合作,以小型馆藏为试点,全面评估实际编目挑战与人机协作模式,并以此为基石推进更系统性的工具开发。
我们深信,若此路径得以贯彻,AI技术有望成为一座关键桥梁,助力打破语言与元数据规范间的壁垒,显著提升音响档案的全球可及性。尽管前路充满风险,但我们坚信,唯有通过主动参与和积极建构,才能在人工智能的时代浪潮中,为多样的地方声音争取到应有的、公正的表征权,共同建造一个真正尊重文化差异、珍视声音内在价值的下一代编目基础设施。
“数字时代的声音档案专题”
![]()
排版:覃子椿
初审:徐碧姗
复审:段婧怡
终审:夏翠娟
