数字人文专业委员会简报(二零二五年第四期)
2025-04-28 09:47 山西
数字人文专业委员会简报(专 题)2025 年 4 月 22 日二零二五年第四期(总第十一期)本期简报设有前沿透视、数字资源建设、学术会议与学术观察四个栏目。
数字人文专业委员会简报
(专 题)
2025 年 4 月 22 日
二零二五年第四期(总第十一期)
编者按:本期简报设有前沿透视、数字资源建设、学术会议与学术观察四个栏目。前沿透视栏目介绍了教育部、国家语委与中央网信办联合发布的《关于加强数字中文建设,推进语言文字信息化发展的意见》,并关注了“我用 AI 校古籍”古籍大众智能整理计划、2024 年度 DH Awards 提名情况,以及清华大学—同方知网数字人文联合研究中心的成立,同时推介了北京城市图书馆的“大戏票”可视化项目。为进一步 关注支撑数字人文研究的资源与基础设施,简报新增“数字资源建设”栏目,本期重点介绍了北京大学发布的大规模中国古代图像数据集与西北师范大学联合甘肃简牍博物馆推出的 DeepJiandu 数据集。学术会议栏目回顾了中国索引学会学术评价专委会成立大会的核心议题,并预告多场国内外即将举行的相关会议与研讨会。学术观察栏目则继续精选近期国内外期刊发表的数字人文热点研究论文,供读者参考与借鉴。
前沿透视
教育部、国家语委、中央网信发布《关于加强数字中文建设,推进语言文字信息化发展的意见》
教育部、国家语委、中央网信办联合发布《关于加强数字中文建设,推进语言文字信息化发展的意见》。 意见明确提出,到 2027 年,国家数字中文建设行动应取得重要成效,基本形成“政府主导、部门协同、社会参与、共建共享”的工作机制,基本建成国家语言文字大数据中心,初步建成国家关键语料库和国家战略语 言资源信息库。到 2035 年,中文在全球数字空间、网络空间以及生成式人工智能等关键应用场景中的使用占比显著提高,语言文字信息化整体水平位居世界前列。
意见强调,语言文字是国家重要战略资源,信息化是现代化的必然要求。数字中文建设将助力语言文字在教育、科技、文化、经济和社会治理等领域的深度应用。具体措施包括完善语言文字信息化标准体系, 建设大规模多模态优质语言资源,培养跨学科复合型人才,构建协同创新机制,并强化语言文字信息安全保障体系。
意见还提出通过数字技术推动语言文字服务教育、科技创新、文化传承、产业升级和社会进步的具体行动方案,以提升语言文字信息化服务水平。例如,通过数字中文赋能文化传承行动,服务国家文化数字化战略,推动中华优秀语言文化的创造性转化和创新性发展。具体措施包括:推动中国语言资源博物馆和地方语言资源博物馆的数字化建设。建设好中国语言文字数字博物馆。以信息化手段加强全民语言文化素养的监测反馈、资源开发和教育活动;推进中华思想文化术语传播工程成果的数字化应用;加强古籍数字化整理关键技术研究;推进甲骨文数字化共享;实施中华文化优秀课程多语种数字化全球传播计划,推动构建中文数字化国际化的立体传播体系。
(来源:https://www.gov.cn/zhengce/zhengceku/202503/content_7016543.htm)
“我用 AI 校古籍”古籍大众智能整理计划启动
由全国高等院校古籍整理研究工作委员会主办,北京大学数字人文研究中心、字节跳动公益联合主办的“我用 AI 校古籍——我是‘校书官’古籍大众智能整理计划(2025 年)”在武汉大学正式启动。该项目依托“识典古籍”数字化平台,将 AI 技术深度融入古籍整理全流程,通过提升古籍整理的效率,降低参与门槛,使普通大众也能参与到古籍整理工作中去。
“识典古籍”平台目前已实现智能化加工、多人在线协作、全流程覆盖的古籍整理流程。通过 OCR、自动标点、自动校勘、自动实体识别、自动翻译等技术,实现古籍的快速点校以及人工校验。在 2024 年的“我是校书官”活动中,已有上万名大学生参与,覆盖上千部古籍。2025 年,该项目进一步扩大参与范围,向全社会发出邀请,希望借助 AI 技术吸引更多社会力量参与古籍数字化整理。
截至 2025 年 3 月,“识典古籍”平台已免费开放 16637 部古籍,累计吸引 1.26 亿人次了解和阅读古籍。平台提供丰富的阅读功能,如大语言模型技术辅助理解、文言文到白话文的翻译等,方便用户阅读和研究古籍。
(来源:https://mp.weixin.qq.com/s/ycutOsWIRqwxh_C5Mr-otQ)
中国多个数字人文项目斩获 DH Awards 2024 提名
2024 数字人文大奖 DH Awards 2024 旨在对过去一年数字人文领域表现出色的项目实践进行表彰。评选范围涵盖最佳数据可视化、最佳数据集或模型、最佳短篇出版物、最佳工具集、最佳培训材料以及最佳趣味应用等多个类别。
北京城市图书馆的“大戏票”可视化项目、南京农业大学的荀子大语言模型、香港科技大学 DS CoLab 的中文命名实体识别(NER)工具及中国社会科学院龙水 OCR 识别系统分别入选 DH Awards 2024 最佳数据可视化、最佳数据集或模型和最佳工具提名。此外,南京师范大学主编《数字人文实战:网络数据库编程技术》 以及香港科技大学数字人文教程文章及代码库入选最佳培训材料提名,广东话达人挑战被提名为最佳趣味应用。
“大戏票”可视化项目:https://zeelabscom.wordpress.com/2025/01/20/grand-playbill-uncovering-
peking-operas-collective-history/
荀子大语言模型:https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM
香港科技大学 DS CoLab:中文命名实体识别(NER)工具:https://library.hkust.edu.hk/ds/project/p001/
龙水 OCR 识别系统:http://lssz.vurls.cn/
《数字人文实战:网络数据库编程技术》:https://github.com/GoThereGit/textbooks
香港科技大学数字人文教程文章:https://digitalhumanities.hkust.edu.hk/tutorials/
香港科技大学数字人文课程代码库:https://github.com/hkust-dh/streamlit-demo-20240322
广东话达人挑战:https://docs.google.com/forms/d/e/1FAIpQLSftNvAKn8IwvlxxQcL8PgGEQM 9qg91dghH5fjC7-Wri7dIVSA/viewform
清华大学-同方知网数字人文联合研究中心揭牌
(来源:https://mp.weixin.qq.com/s/Qu9SoYO88E18Ly1Z9XS8Wg)
数字人文项目推介:“大戏票”可视化项目
“大戏票”可视化项目主视觉呈现
通过对戏单中的文本信息进行识别与分析,研究团队提取了剧目、演员、时间、地点等基本信息,并统计了不同时间段的演出数据。通过视觉分析,展示了戏单设计风格从早期的雕版印刷到 1937 年后的活字印刷的演变,反映了京剧在不同时期的文化特征。
“大戏票”可视化项目目前以互动装置的形式在北京城市图书馆展出,观众可以通过触摸屏浏览戏单,查 询演员、剧目、演出场馆及时间等细节,装置的另一块屏幕则将这些信息动态映射到时间轴上,展示演员的职业生涯和合作网络的演变,使观众可探索演员之间的合作关系,了解他们在不同剧目中的共演以及合作时间的跨度等。其主要叙事旨在突破传统以“名角”为中心的叙事模式,展现京剧的群体性和演出网络。
(来源:https://zeelabscom.wordpress.com/2025/01/20/grand-playbill-uncovering-peking-oper as-collective-history/))
数据资源建设
北京大学研发大规模中国古代可视化数据集
北京大学智能学院袁晓如课题组在跨学科合作下建立了大规模中国古代可视化数据集。项目通过智能自动分类机制,从海量中国古籍中提取可视化图像,构建了包含 71,294 幅早期可视化作品的《纂图集》, 为理解中国古代可视化的多样性提供了基础,也为科技史、艺术史等多学科交叉研究提供了平台。
研究过程中,课题组先由人工收集了 441 项可视化案例,构建了首个小型数据集。随后,通过半自动化流程从各国图书馆的中国珍稀古籍电子文档中提取图像,最终从 12,800 多种古籍中提取了近 71,300 份可视化图像和近 108,400 份示意插图,时间跨度达 2500 年。此外,课题组还开发了交互式浏览系统,支持多维度检索。
此次研究纠正了早期可视化研究中以欧洲为中心的偏差,揭示了中国古代可视化的特点,如依赖文字用于补充可视化信息、文字直接参与数据编码等。研究得到了国家自然科学基金项目支持,相关成果展示了人工智能在处理大规模图像及非结构化数据的潜力。
中国古代早期可视化大规模图像数据集《纂图集》界面
北京大学可视化与可视分析实验室近年来开展了一系列和古籍相关的工作,如汉籍流传日本时空可视分析工作、智能古籍目录标注工作、欧美早期可视化收集和分类等等,为跨文化研究提供了丰富的数据资源,以及新的分析工具和方法框架。
(来源:https://mp.weixin.qq.com/s/iSBoFmC8DhnLf BAWPymw)
西北师范大学联合甘肃简牍博物馆发布简牍字符检测与识别数据集 DeepJiandu
西北师范大学联合甘肃简牍博物馆近日推出了国际首个专门用于简牍字符检测与识别的大规模数据集——DeepJiandu。数据集的构建基于西北师大张强教授团队筛选的 7416 张高质量红外图像。经过清理、去噪等处理后,字符可辨识性增强,墨迹清晰度提高,在此基础上,由简牍学专家与计算机专家合作,使用目标检测标注工具,对涵盖 2242 种字符类别的 99852 个字符进行了手动标注,并提供了字符定位和类别标注,确保了数据的专业性与准确性。在对数据集进行设计的过程中,还充分考虑到简牍字符残损和异形字等复杂场景,有效提升了模型对历史文献的适应能力。数据集包含字迹清晰、模糊、完整、残缺以及简单和复杂布局等多种形态特征,可用于极具挑战性的简牍字符识别任务。
目前 DeepJiandu 数据集已载入西北师大简牍学术资源数据共享平台,该平台开发了实物库、释文库、字形库、著录库、文献库和专家库六个库,完成了对 4 万枚西北汉简的数字化收录,为专家学者提供研究工具,向公众展示简牍文化魅力。
学术会议
会议回顾
中国索引学会学术评价、规范与数据伦理专业委员会成立大会暨学术研讨会
2025 年 3 月 29 日,中国索引学会学术评价、规范与数据伦理专业委员会(以下简称学术评价专委会) 成立大会暨学术研讨会在南京大学仙林校区举行。此次会议由中国索引学会主办,南京大学信息管理学院承办,旨在推动学术评价体系的完善与创新,加强学术规范和数据伦理建设,推动数据资源的规范利用。
研讨环节中,与会专家学者围绕中国特色学术评价体系构建、学术论文创新性评价、新时期学术评价体系的创新发展、国家科研评价体系中的元评价、国际科研评价体系比较、智能学术评价及其治理的几个关键问题等进行了深入而热烈的研讨,并对专委会今后的工作积极建言献策。委员们表示,将把个人研究兴趣与国家重大需求紧密相结合,依托中国索引学会这一高端平台,借助智能工具联合攻关,积极探讨建立学术评价与规范垂直大模型的可能性,健全与学术内容评价、效用评价相关的索引数据库体系和评价数据服务平台,推动中国特色学术评价体系和规范体系建设,为营造良好的学术生态、构建中国自主知识体系贡献力量。
来自中央党史和文献研究院、中国社会科学院、国家图书馆、中国科学院等机构和北京大学、中国人民大学、武汉大学、复旦大学、南京大学、浙江大学、东南大学、中山大学等知名高校的 40 余位专家学者参加了会议。
(来源:https://mp.weixin.qq.com/s/A-6ZL1RGWvC-XlBK-3VekQ)
会议预告
“人文智变:数字人文的智慧奇点”学术研讨会暨 2025 年中国数字人文年会(CDH2025)
“人文智变:数字人文的智慧奇点”学术研讨会暨 2025 年中国数字人文年会(CDH2025)将于 2025 年 11月 28 日至 12 月 1 日在中山大学广州校区南校园举行。本次会议由中山大学数字人文联合研究院主办,探讨数字人文及相关领域的前沿问题,推动数字人文向“智慧奇点”的范式跃迁。会议将围绕“智理探源”、“智基构建”、“智器革新”、“智研融合”、“数智共生”、“古籍智变”、“记忆重构”、“GLAM 智创”、“数实共生”、“数智次元”、“智教创新”、“智慧协同”、“智治范式”、“数智生产”、“数智伦理”等议题展开,通过主旨发言、会议报告、专题讨论、案例分享、探界者论坛、数字人文空间展演、海报展示等多种形式进行学术交流。会议还将开展论文和项目征集活动,诚邀国内数字人文领域的专家、学者与学生积极参与。
主办单位:中山大学数字人文联合研究院
会议时间:2025 年 11 月 28 日—12 月 1 日
论文摘要提交截止时间:2025 年 8 月 20 日
会议地点:中山大学广州校区南校园
(来源:https://mp.weixin.qq.com/s/hQdcbG1FTSdDDSAkNPI-Nw)
韩国计算机与人文协会:数字人文的关怀、社区与协作(ACH 2025)
韩国计算机与人文协会(Association for Computers and the Humanities)2025 年年会(ACH 2025)将于2025 年 6 月 11 日至 13 日以线上虚拟会议的形式举办,旨在探讨数字人文领域中的社会挑战,如种族与性别歧视、计算技术与环境危机等,强调关怀、社区和协作的重要性。会议涵盖多个前沿议题,包括数字文化传承、数字人文工具与基础设施、机器学习及其伦理影响、多语言数字人文、多模态学术研究、数字媒体与艺术、环境人文与气候正义等。会议特别关注跨学科合作、社区参与和学术伦理,鼓励来自不同背景的参与者提交提案。
主办单位:韩国计算机与人文协会
会议时间:2025 年 6 月 11 日—6 月 13 日
会议地点:线上
(来源:https://www.kadh.org/cfp-ach-2025/)
Text+系列研讨会:研究数据标准化
德国国家研究数据基础设施(NFDI)联盟的 Text+项目计划于 2025 年 3 月 20 日至 11 月 20 日陆续推出八场以研究数据标准化为主题的系列工作坊活动。该系列工作坊旨在通过具体的项目案例,向参与者展示标准化工具的使用方法及其在项目中的实际应用,同时分享专家在各自项目中的实践经验,以帮助参与者更高效地规划和实施研究项目。届时将以项目的形式分享德国文本档案(Deutsches Textarchiv, DTA)制定的DTABf 基础格式、专注于信件元数据的correspSearch 在线平台、洪堡文献的数字化整理项目edition humboldt digital、结合人工智能的文本分析工具 INSeRT 以及歌德传记研究数字化项目 PROPYLÄEN 等。此外,工作坊将致力于推动未来数据在 Text+基础设施中的整合,促进内部关于服务开发、基础设施设计和接口优化的反思,并探讨数据提供方的参与机会。八场工作坊将以线上的方式(Zoom 会议)进行,具体主题日程可参见来源。
主办单位:德国国家研究数据基础设施 Text+项目计划
会议时间:2025 年 3 月 20 日—11 月 20 日
会议地点:线上虚拟会议
(来源:https://events.gwdg.de/category/284/)
太平洋邻里协会(PNC)2025 年年会暨联合会议
太平洋邻里协会(Pacific Neighborhood Consortium, PNC)2025 年年会暨联合会议将于 2025 年 9 月 20日至 22 日在位于越南河内的越南社会科学翰林院举行。此次联合会议的主题为《心灵遇见机器:重新思考人工智能时代中的智能与知识》(Mind Meets Machine: Rethinking Intelligence and Knowledge in the Age of AI),聚焦人工智能背景下的智能与知识的重新定义及其对社会、文化、教育等多领域的深远影响。会议设有论文发表、海报竞赛与展示等环节。征稿主题涵盖空间与场所重访、文化记忆技术与数字人文、教学与通识教育改革、社会文化数据、科学健康与福祉创新改革以及 AI 与社区连接等多个前沿领域。
主办单位:太平洋邻里协会(Pacific Neighborhood Consortium, PNC)
会议时间:2025 年 9 月 20 日—9 月 22 日
论文提交截止日期:2025 年 5 月 16 日
会议地点:越南河内,越南社会科学翰林院
(来源:https://sites.google.com/view/pnc2025)
人文科学中的研究数据管理会议(FORGE25)
FORGE25 是由德国罗斯托克大学(Universität Rostock)主办的关于人文科学中研究数据管理的国际会议。会议将于 2025 年 9 月 24 日至 26 日在德国罗斯托克举行,主题为“数据新思维”(Daten neu denken)。会议旨在探讨人文科学中数据研究的新形式、新用途以及数据管理的创新方式。会议将重点关注以下议题:
1. 哪些数据被视为人文学科的研究数据?我们忽视了哪些以前未被认识到的潜力?
2. 如何更可持续地使用、发布和存档人文学科研究数据?
3. 处理研究数据时如何确保质量标准、伦理原则和生态可持续性?
4. 创新和新技术在研究数据管理中发挥什么作用?
5. 人文学科如何提升数据素养?
会议将提供工作坊、演讲和海报展示等多种形式的交流机会,以促进学术界对研究数据管理的深入探讨和实践分享。会议的主要语言是德语,同时接受英语论文。
主办单位:罗斯托克大学(Universität Rostock)
会议时间:2025 年 9 月 24 日—9 月 26 日
会议地点:德国罗斯托克
(来源:https://www.forge25.uni-rostock.de/call-for-papers/)
学术观察
基于地方志的晚清民国山东中部基层市场网络分析
来源:罗靖曦, 严驰昊, 刘妍, 等. 基于地方志的晚清民国山东中部基层市场网络分析[J]. 数字人文,2024,(01):217-228.
摘要:地方基层聚落间的乡镇市场在维系区域联系上有着重要作用,晚清民国地方志中对乡镇和集期有普遍记载,相同和相异的开集日期指示着各乡镇集市之间的关系。施坚雅对中国农村市场周期性和集期结构的研究,提出了定期市场空间体系模型,这一经典成果是本研究的理论依据。新兴的数字人文方法为理解复杂的集市关系提供了的途径,基于集期规律,本文从“互补”和“互斥”双重视角,计算晚清民国山东中部 15 个县市场的层次结构,在此基础上,分析区域间市场的共性。研究发现,面积差异和空间距离对乡村市场结构的相似性具有显著影响,而时间维度的市场相似性则依赖于其空间维度的相似性。
数字人文是“人文”的失语吗?——重审数字人文中“人文”的角色与价值
来源:金姿妏,吴静.数字人文是“人文”的失语吗?——重审数字人文中“人文”的角色与价值[J].山东社会科学,2025,(01):65-75.DOI:10.14112/j.cnki.37-1053/c.2025.01.014.
摘要:数字人文并不等同于数字技术在人文研究中的简单应用。尽管以数据和算法为基础的技术分析方法在一定程度上提升了人文研究的丰富性,并为文本解读提供了多样视角,但这种方法也忽略了文本生成过程中的“社会性”特质,从而以形式客观性遮蔽了文本内部真正的问题意识和人文研究“面向时代问题”的 品格。面对数字技术对人类思维方式、知识生产方式和人文研究提问方式的整体性重塑,数字人文的研究路径需要从技术中轴转向“问题”中轴,批判性地反思数字技术在人文研究中的泛化使用和数字时代技术对事 实的反向校准,并对单纯以使用技术为目的的数字人文研究保持审慎的态度。同时,数字人文还需要超越技术与人文二元对立的理解模式,充分借助数字技术的拓展性力量,进一步形成数字人文研究的“总问题”,并构建一个兼具统一性和多样性的数字人文研究新范式。
数字人文研究如何讨论人工智能?一项文献计量分析
来源:Shang,Wenyi,Ma,Rongqian,Moulaison-Sandy,Heather.Howdoesdigitalhumanitiesresearchtalk aboutAI?Abibliometricanalysis[J].InformationResearch:AnInternationalElectronicJournal,2025,30:635-645. https://doi.org/10.47989/ir30iConf47242.
摘要:尽管已有学术研究探讨了人工智能对数字人文学科的影响,但迄今为止,针对人工智能在数字人文学术研究中的体现和应用缺乏全面的调查。本研究通过文献计量分析的方法,收集并分析了三本重要数字人文学术期刊(《Digital Scholarship in the Humanities》、《Digital Humanities Quarterly》以及《Journal of Cultural Analytics》)中发表的 2,488 篇论文摘要。针对包含“AI”或“artificial intelligence”术语的摘要,进行了四个方面的分析:(1)人工智能相关讨论的时间演变分析;(2)共现分析;(3)词向量分析;(4) 主题建模分析。研究结果表明,人工智能早在其近期迅速崛起之前,就已经在数字人文研究中占有重要地位。数字人文研究中关于人工智能的讨论涵盖了技术与人文两方面的内容,这种双重关注体现了该领域的核心特征。此外,其文献计量分析还揭示了信息科学如何为数字人文方法论研究提供启示,并为该领域未来发展提供了新的洞见。
作为社会机器的在线文化遗产:数字基础设施与生态系统的社会技术方法
来源: Pereda,J.,Willcox,P.,Candela,G.etal.Onlineculturalheritageasasocialmachine:a socio-technicalapproachtodigitalinfrastructureandecosystems.IntJDigitHumanities(2025). https://doi.org/10.1007/s42803-025-00097-6
摘要:数字技术的出现为文化遗产领域的广泛访问和与互动提供了新的途径。这一转变使在线文化遗产的发展成为一个庞大的生态系统。由于这些网络及其利益相关者的复杂性,建立对该领域广泛术语的清晰理解,并探索解析这种复杂性的路径至关重要。文章的研究目标包括以下三个方面:研究在线文化遗产生态系统如何通过技术创新和 Web 技术促进文化遗产馆藏的持续重新诠释与再语境化。同时强调政策制定的重要性,并探讨应对文化遗产知识中的人文和技术复杂性的伦理框架;以开放档案信息系统(OAIS)及其术语为框架,分析在线文化遗产生态系统的工作流程及社会技术参与者;采用卡隆(Callon)的“翻译过程”方法论,以理解社会技术网络的演变,并运用该方法批判性地解析在线文化遗产领域的数字基础设施。
供稿:秋慧婷、沈立力
责编:韩春磊、张宏玲
编辑部:中国索引学会数字人文专业委员会秘书处
文章转自:数字人文专业委员会简报
山西数字人文研究院