关于举办首届“未来人文”全国数字人文创新成果大赛的通知
2026-01-21 17:30 北京
点击下方蓝字下载报名表:
图文:乌哈娜
初审:那达木德
复审:满全
终审:孟根巴根
2026-01-21 17:30 北京
点击下方蓝字下载报名表:
图文:乌哈娜
初审:那达木德
复审:满全
终审:孟根巴根
徐永明 王永攀 2026-01-21 17:30 北京
本文以云四库智能问答系统为例,探讨了通用大语言模型在文史领域中的应用。首先,文章分析了当前通用大语言模型在文史研究中的两个关键局限:数据不足和专业性不足。接着,文章详细介绍了云四库智能问答系统的开发过...
知识·阅读·问答
徐永明/浙江大学文学院
王永攀/浙江大学计算机技术与科学学院
摘要:本文以云四库智能问答系统为例,探讨了通用大语言模型在文史领域中的应用。首先,文章分析了当前通用大语言模型在文史研究中的两个关键局限:数据不足和专业性不足。接着,文章详细介绍了云四库智能问答系统的开发过程,包括平台的搭建、数据的整合和模型的训练。云四库系统基于阿里的通义千问和杭州深度求索DeepSeek大模型进行升级,特别强化了对人文领域知识的理解和生成能力。系统不仅能够回答具体的历史、文学、哲学等人文领域的事实性问题,还能对复杂的概念、理论进行解释,甚至进行一定程度的批判性思考和学术探讨。最后,文章讨论了云四库平台的未来发展方向,包括提升系统性能、完善功能、优化用户体验等。
关键词:通用大模型 垂直大模型 文史 Qwen DeepSeek AI
2022年,OpenAI公司推出新一代对话式人工智能模型ChatGPT,引发全球科技界广泛关注。该模型凭借大规模训练数据、先进的机器学习架构及多场景适应能力,在通用对话和专业领域均展现出显著的技术突破。此后,全球科技企业加速布局大语言模型领域,陆续发布包括GPT-4(OpenAI)、Gemini(Google)、Claude(Anthropic)、Kimi(月之暗面)、通义千问(阿里云)、文心一言(百度)、豆包(字节跳动)、百川(百川智能)等系列产品,持续优化算法并拓展至多个垂直应用场景。
根据第三方机构评测,截至2024年12月,中美大语言模型技术仍存在技术代差。随着杭州深度求索公司发布DeepSeek-R1模型,这一格局出现显著变化。该模型在知识理解、逻辑推理等核心指标上达到国际先进水平,引发业界深度讨论,其技术突破亦受到国际科技界重点关注。值得注意的是,该模型的发布恰逢中国传统春节前夕,迅速成为社会热议话题。2025年1月29日(农历正月初一),阿里巴巴集团发布通义千问Qwen2.5-Max版本,官方技术白皮书显示其多项基准测试指标超过GPT-4,标志着我国在大模型技术研发领域取得新突破。行业分析指出,此次升级将进一步推动人工智能技术在商业、科研等领域的应用深化。
大语言模型为人文研究带来了新的研究范式和方法论思考。作为人文学者,我们特别关注这些模型在文献分析、史料整理、文本挖掘等具体领域的应用潜力,以及它们对传统人文研究方法的补充与延展。2024年8月12日,浙江大学数字人文研究中心开发的云四库智能问答系统(https://www.aiyskqa.cn)正式上线,标志着通用大语言模型正式进入了大规模文史数据训练和服务的垂直领域。本文将从二次平台的开发、文史问答的实践、存在的问题及今后的展望等方面来探讨通用大模型在文史领域中的应用这一命题。
一、二次平台的搭建
对文史研究者而言,当前通用大语言模型存在两个关键局限:首先,专业知识库不足。由于训练数据中专业学术文献的覆盖率有限,模型在回应专业性问题时往往表现出明显的知识盲区,要么无法给出答案,要么产生错误认知。其次,溯源验证缺失。模型输出的内容往往缺乏明确的文献引证体系,无法追溯到具体的学术来源。这种“黑箱式”的知识输出使研究者难以判断信息的可靠性与学术价值,大大限制了其在严谨学术研究中的实际应用。
针对这些局限,构建专业化的二次开发平台成为必然选择。这一平台将以通用大语言模型为基础架构,通过专业数据的深度训练和知识增强,打造适配文史研究场景的智能辅助系统。
二次平台的搭建,主要包括以下内容。
(一)模型选型
在模型的选择上,尽管平台建设之际(2024年4月)OpenAI已开源GPT-3模型,我们仍选择采用国产大语言模型作为平台的基础架构。这一决策不仅体现了对国产自主创新的支持,更着眼于本土化场景适配、数据安全及后续协同优化的便利性。在具体模型选择过程中,我们经历三次迭代:
起初,我们重点评估了两个国产大规模语言模型:杭州深度求索的DeepSeek-67B和阿里巴巴的Qwen-72B。经过综合性能评估,Qwen-72B在通用理解能力、知识广度、推理深度等方面表现更为出色。基于这一评估结果,我们最终选择部署Qwen系列模型。
2024年11月,随着产品迭代,Qwen从2.0版本成功升级至当前的2.5版本,持续提升平台的智能服务能力。
近期,国内大模型以DeepSeek为代表,取得了史诗级的突破。我们第一时间接入Qwen-Max、Qwen-Plus、Qwen-qwq、Qwen3-235B、DeepSeek-V3、DeepSeek-R1等大模型,为用户提供更准确、更丰富的模型选择。
(二)问答策略设计
考虑到基础模型预训练数据的来源多样性及潜在的质量风险,我们采用严格的知识优先级策略:系统将优先调用平台收录的专业文献库进行问答。这些经过严格筛选、具备明确文献引证的学术资源,能够确保回答的可溯源性和学术规范性,从而为研究者提供可靠的知识支持。
基于对学术问答场景的深入分析,平台构建了多层次的智能问答体系,采用“专业知识优先、基础模型补充”的分级响应策略。
1.智能意图理解
·通过意图判定模块精准识别用户查询意图
·运用问题改写技术,将复杂学术问题转化为结构化查询
·支持多轮对话中的上下文理解与知识延续
2.高级RAG检索增强
·构建多粒度的文本块索引体系
·采用语义向量化检索与关键词检索相结合的混合策略
·通过动态上下文扩展,确保检索结果的完整性
·基于文献权重的证据筛选机制
3.分级知识调用策略
·第一优先级:平台专业文献库
*经过严格筛选的学术著作
*具备明确文献引证的研究论文
*专家审核确认的标准答案
·第二优先级:经过验证的学科知识库
*权威教材与工具书
*学科专业词典
*经典案例库
·第三优先级:基础模型知识
*仅在特定场景下补充使用
*需经过严格的事实性核验
4.多模型协同生成
·系统支持Qwen-Max、Qwen-Plus、Qwen-qwq、Qwen3-235B、DeepSeek-V3、DeepSeek-R1等通用大语言模型,实现并行推理架构。支持用户根据具体场景灵活选择适配的模型组合。
·系统通过多模型协同机制提升对话质量。大模型处理流程包括意图理解、问题重构、上下文分析、知识推理和答案生成等。充分结合大模型和专业文史知识,确保输出内容的学术规范性与专业水准。
·系统不仅能够发挥各模型的独特优势,还可随着模型迭代持续优化系统性能,为用户提供更精准、全面的智能对话服务。
图1 平台架构及技术路线
图2 问答页面
图3 参考资料页面
(三)智能资料库系统
平台构建了专业的文献资源管理系统,支持专家学者持续贡献优质学术资源。通过建立分类精准、层次清晰的文献管理体系,结合差异化的元数据标准,实现了各类学术资源的规范化管理。系统采用动态更新机制,确保新增文献能够及时与大模型进行知识融合,不断扩充知识库的深度与广度。这种持续迭代的知识更新模式,有效提升了平台的交互体验和知识服务能力,为学术研究提供与时俱进的智能支持。
资料主要有古籍、研究著作、论文、报刊文章等类型,根据不同的类型,设置不同的编辑窗口。譬如,对于古籍,除了书名、作者、版本信息外,在分类上,主要根据经史子集四分法进行分类,到二级类目止。而今人的著作,则根据中图法分类,到一级类目止。论文或报刊文章,有的出自纸质报刊,有的出自公众号,则分别提供可以选择的录入框。文件支持各种文本格式,包括但不限于pdf、epub、csv、xlsx、txt等。资料管理界面图示如下。
图4 后端资料编辑页面
(四)问答管理
平台设计了完善的问答质量保障体系,引入人机协同的答案优化机制。专业用户可通过直观的编辑界面,对AI生成的答案进行审核、纠错和优化,经修订的答案将被系统记录并作为标准回复模板。这种基于专家干预的答案迭代模式,不仅确保了知识传递的准确性,也实现了回答质量的持续提升。通过建立动态的知识反馈闭环,平台在保持AI效率的同时,有效提升了问答系统的专业性和可靠性。
(五)专家资源共享机制
平台设立了严格的专家资源贡献体系,目前向具有副教授及以上职称的学者开放资料上传权限。专家可将个人学术著作、研究论文等优质学术资源贡献至平台知识库。为鼓励专家持续参与知识共建,平台对资料贡献者提供每日100次的扩展访问额度,以此促进优质学术资源的持续积累与知识生态的良性发展。
二、文史问题的问答实践
尽管通用大语言模型理论上具备处理各类问题的能力,但作为文史领域的垂直大模型,云四库的专业优势主要体现在以下方面。
(一)语言翻译
大模型不仅能将古诗文译成白话文,而且可以译成英文。总体来说,翻译的效果还比较理想,当然,也有错误。这里举白话文翻译为例:
原文:
《古戍》刘基
古戍连山火,新城殷地笳。
九州犹虎豹,四海未桑麻。
天迥云垂草,江空雪覆沙。
野梅烧不尽,时见两三花。
译文:
古老的边城烽火连天,新筑的城池中号角声震响大地。
九州大地依然充满战乱,四海之内尚未恢复农桑。
天空辽阔,云彩低垂在草地上,江面空旷,雪花覆盖着沙滩。
野梅在战火中烧不尽,偶尔还能见到两三朵盛开的花朵。
云四库这首诗的翻译大致准确。
(二)查询文献出处
云四库整合了丰富的文史典籍资料,结合大模型的语义理解能力,能够精准定位文献出处。系统可识别古籍文献中的片段,追溯其原典出处、版本信息及相关文献记载,为学术研究提供可靠的文献依据。
图5 文献出处问答页面
(三)标点古文
问:请标点以下古文:“人家上冢最宜携幼以往盖使之识先世体魄之所在不至久而迷失也古人有云上冢亦携庞老家亦此意也汉高之诛丁公是以帝王之略济其权谋之心也温公谓戮一人而千万人惧其虑甚深不知项庄之受封已屈于大功矣罚必先亲赏不遗远之道果何在乎”[1]
云四库:当然,以下是标点后的古文:
“人家上冢,最宜携幼以往,盖使之识先世体魄之所在,不至久而迷失也。古人有云:‘上冢亦携庞老家’,亦此意也。汉高之诛丁公,是以帝王之略济其权谋之心也。温公谓戮一人而千万人惧,其虑甚深,不知项庄之受封,已屈于大功矣。罚必先亲,赏不遗远之道,果何在乎?”
(四)诗文赏析
应该说,模型对刘基《古戍》一诗的赏析是非常到位的,既有内容的分析,也有艺术特点的赏析,最后有总结。这对于读者理解原诗起到了辅助作用。(参见图6)
(五)实体提取
模型能根据用户的需求,提取古文中的人名、地名、职官等实体词语。 图6 诗文赏析问答页面
问:请提取姓名、地名及职官名。“府君讳机,字子枢,姓雷氏。其先出万春之后,传至五代时有讳鸾者,由光州固始迁建宁之建安。曾大父时,宋太学内舍生。大父龙济,乡贡进士,当宋之亡,帅义师抗元兵,遂殁于难。父德润,入元为福州路儒学教授,积学庾之余,买田三百余亩,以给贫士昏丧老疾者,号义士庄,人为建祠学宫。改将仕郎、福州路长乐县主簿。未上,卒。后以子贵,赠朝散大夫、秘书少监。母游夫人,赠建安郡君。夫人善书而有文,无子,默祷于神,梦黑熊行天,遂有娠。及生府君,颖悟异恒儿,九岁能诗赋,十岁九经皆成诵,十二著《明经解题》,十七试论郡庠选为第一,二十受大官荐为邵武县学教谕,二十五登延祐戊午进士第,授福州路古田县丞。自诏行科目,闽人擢第者从府君始。”
云四库:根据所给的文本,提取的姓名、地名及职官名如下:
姓名:雷机(府君)、雷鸾、雷时、雷龙济、雷德润、游夫人
地名:万春、光州固始、建宁之建安、福州、长乐县、邵武县、古田县
职官名:太学内舍生、乡贡进士、福州路儒学教授、将仕郎、福州路长乐县主簿、朝散大夫、秘书少监、邵武县学教谕、福州路古田县丞
(六)撰写提要
云四库不仅能撰写文章的提要,而且能撰写著作的提要。限于篇幅,这里仅举篇目提要为例。如云四库为宋濂《记李歌》写的提要:
《记李歌》是明代文人宋濂的一篇传记文学作品,收录于《宋学士全集》中。文章通过细腻的笔触,生动地描绘了李歌的生平和高尚品质,展现了她不屈不挠的坚贞性格和高尚的道德情操。
李歌,霸州人,其母一枝梅是一名歌妓。十四岁时,李歌坚决拒绝母亲教她歌舞,认为人皆有配偶,不应沦为歌妓。母亲解释家境贫寒,李歌与母亲约定,只要允许她不化妆、不吃荤肉,她便暂时屈从。从此,李歌身穿素衣,容貌如玉雪,显得更加美丽动人。
李歌对邀请她的人非常挑剔,必须确保筵中没有恶少才会前往。她到宴会上后,只唱道家的《游仙辞》,并保持严肃的态度,不与人亲近。如果有不尊重她的人,她会立即拂袖而去。益津县令企图以金钱引诱她,李歌持刀入户,严词拒绝,并斥责县令败坏风化,最终使县令惊慌逃走。
监州听说李歌贤良,将她聘为儿子的妻室。李歌当时仍是处子。数年后,天下大乱,李歌夫妇逃难时被贼人抓住。贼人欲杀其夫而娶她为妻,李歌坚决不从,斥责贼人:“你若要杀我夫,先杀我,我宁死不从贼。”贼人愤怒,最终将夫妇二人一同杀害。
文章通过李歌的故事,展现了她高尚的品德和不屈的精神。即使身处娼门,李歌依然保持了尊严和节操,最终以生命捍卫了自己的原则。宋濂通过这一传记,表达了对社会底层人物的同情和赞扬,体现了他“文品即人品”的文学理念。
(七)知识问答
系统能回答各类文史哲及社科类的问题。如《诗经》的学术史问题。
问:说说《诗经》学的四大公案,尽量简洁。
云四库:《诗经》学的四大公案是指在《诗经》研究中长期争论不休的四个主要问题。[2]这些公案包括孔子删诗问题、《毛诗序》的作者和尊废问题、《商颂》的时代问题、《国风》作者与民歌的问题。以下是对这四大公案的简洁说明:
1.孔子删诗问题
内容:关于孔子是否对《诗经》进行了删选和整理。
争议:《史记·孔子世家》记载孔子从三千余篇诗中删选了305篇,但后世学者对此说法存在争议,认为《诗经》的编订可能是一个集体努力的结果,而非孔子一人所为。
2.《毛诗序》的作者和尊废问题
内容:关于《毛诗序》的作者及其权威性。
争议:《毛诗序》是为《诗经》各篇所作的题解,但其作者和时代存在争议。有人认为作者是毛亨,有人认为是毛苌。此外,关于《毛诗序》的权威性和可信度,也有不同的看法,有人觉得应该尊崇,有人认为应该废除。
3.《商颂》的时代问题
内容:关于《商颂》的创作时代。
争议:《商颂》是《诗经》中的一组颂诗,但其创作时代存在争议。有人认为《商颂》是商代的作品,有人认为是周代的作品,还有人认为是春秋时期的作品。
4.《国风》作者与民歌的问题
内容:关于《国风》的作者及其是否为民间歌谣。
争议:《国风》是《诗经》中的一组民歌,但其作者和创作背景存在争议。有人认为《国风》是贵族阶层的作品,有人认为是民间百姓或普通劳动者的作品。
简洁总结
孔子删诗问题:孔子是否删选了《诗经》。
《毛诗序》的作者和尊废问题:《毛诗序》的作者及其权威性。
《商颂》的时代问题:《商颂》的创作时代。
《国风》作者与民歌的问题:《国风》的作者及其是否为民间歌谣。
这些公案在《诗经》研究中长期争论不休,反映了《诗经》研究的复杂性和多样性。
参考资料
参考1夏传才撰《诗经学四大公案的现代进展》
参考2夏传才撰《现代诗经学的发展与展望》
参考3陆学明撰《文学文本、历史文本及其他——“五四”以来〈诗经〉与诗学研究的几点质疑》
又如科举问题:
图7 科举问答页面
按:图7所示的科举问题,所有通用大语言模型如ChatGPT、DeepSeek、Kimi、文心一言、通义千问都回答错了。
(八)查找目录
图8 目录查找问答页面
由于云四库系统学习过大量的古籍目录、丛书目录及数字化目录,故利用它可以非常快捷地查到古籍的版本信息。
(九)创作古诗文
图9 格律诗创作问答页面
此首《冬阳》,艺术上谈不上有什么创新之处,但格律是符合七律的要求的。
除了上述的功能外,云四库还能为用户撰写文献综述和论文。如果再引入DeepSeek,还可以做思维导图、社会关系图等,限于篇幅,这里不再赘述了。
三、大模型在人机问答中存在的问题
(一)防不胜防的幻觉
幻觉是通用大模型普遍存在的问题。在文史问答中,也常会遇到。譬如,我们让模型写出含有“绿菊”的诗词。云四库列出了李商隐、杨万里、苏轼、范成大、陆游、黄庭坚、辛弃疾、唐寅、纳兰性德、郭沫若等人的咏“绿菊”的诗,结果标题和正文均一样。诗的标题和正文如下:
《绿菊》
绿菊初开似故人,相逢一笑共清尊。
秋风不改当年色,依旧黄花伴白。
然后继续问这首诗的出处时,模型会这样回答:“您提到的这首诗‘绿菊初开似故人,相逢一笑共清尊。秋风不改当年色,依旧黄花伴白’并不是出自某位著名诗人的作品,而是现代人创作的一首诗。这首诗虽然没有明确的出处,但其意境和表达方式借鉴了古代诗词中常见的意象和情感。”
又譬如,我让模型回答“元诗四大家”,模型列出了虞集、杨载、范梈、揭傒斯四人。但杨载,却注明号眉庵,范梈号文正。显然,模型将“吴中四杰”之一杨基的号,戴到了杨载的头上。而将范仲淹的号,冠到了范梈的头上。
(二)文献出处,不能精准定位
文献定位的精准度与数据结构密切相关。对于结构化的文献数据库,大模型能够实现精确的出处定位;而面对非结构化的文本文件(如docx、txt格式),定位准确性则显著降低。这种差异凸显了数据预处理和结构化建设在文献检索系统中的重要性。
问:请写出苏轼《书汴河斗门》的出处。
云四库:苏轼的《书汴河斗门》出自《全宋文》卷一九七二和《苏轼集》。
这里,《全宋文》是结构化的数据,而《苏轼集》是文本数据。系统无法判断文本的《苏轼集》中《书汴河斗门》的卷数。又如,
问:请写出这段文字的出处:俗传凶人之终,必有恶鬼,以其力能相制也。扬州唐氏妻某,素悍妒,妾婢死其手者无数。亡何暴病,口喃喃詈骂,如平日撒泼状。邻有徐元,膂力绝人,先一日昏晕,鼾呼叫骂如与人角斗者,逾日始苏。或问故,曰:“吾为群鬼所借用耳。鬼奉阎罗命拘唐妻,而唐妻力强,群鬼不能制,故来假吾力缚之。吾与斗三日,昨被吾拉倒其足,缚交群鬼,吾才归耳。”往视唐妻,果气绝,而左足有青伤。
云四库:这段文字出自清代袁枚的《子不语》(又名《新齐谐》)。具体信息如下:
书名:《子不语》(《新齐谐》)
作者:袁枚
卷数:卷二十一
篇名:鬼借力制凶人
袁枚的《子不语》是一部记录各种奇闻异事的志怪小说集,这段文字描述了扬州唐氏妻的恶行及其最终被恶鬼所制的故事。
这样的回答只能说对了一半,即文字确实出自《子不语》,但卷数错了。《子不语》总共有24卷,这段文字出自卷2。
(三)“不知则造之”
如果系统中没有数据,则模型就会一本正经地胡说八道。如:
问:“君、父之仇,不共戴天,其义一也。不幸而君杀其父,为臣子者,仇之否乎,亦视其当与不当而已。杀之当,如舜殛鲧,则干蛊可也。”[3]请说出这段话的出处。
云四库:这段话出自《白虎通义》。《白虎通义》是东汉时期的一部儒家经典注释书,由班固等人编纂。该书对儒家经典中的许多概念和制度进行了详细的解释和阐述。您提到的这段话具体讨论了君、父之仇的复仇问题,强调了复仇的正当性需要根据具体情况来判断。以下是该段话的原文:
“子得为父报仇者,臣子之于君父,其义一也。忠臣孝子所以不能已,以恩义不可夺也。故曰:‘父之仇不与共天下,兄弟之仇不与共国,朋友之仇不与同朝,族人之仇不共邻。’故《春秋传》曰:‘子不复仇,非子。’子夏曰:‘居兄弟之仇如之何?仕不与同国,衔君命遇之不斗。’父母以义见杀,子不复仇者,为往来不止也。《春秋》曰:‘父不受诛,子不复仇可也。’”
系统给出的答案,强调了为父报仇的正当性与必要性,将其类比于臣子对君主的忠诚,指出恩义是复仇的根源动力。同时,详细阐述了复仇的原则和界限,包括针对不同关系(如父子、兄弟、朋友、族人)的复仇应有的不同态度和做法,并提及在特定情况下(如父母依法被处死),子女可不复仇,体现出对复仇行为理性与道义的权衡,反映了儒家在处理复仇问题时的理性态度。
但这个回答是错的。表面看,所问的问题与系统给出的原文有相似性,但并不是所问问题正确的答案。正确的答案是清代刘绍攽《九畹古文》卷3《伍胥鞭平王尸论》。
(四)对古文的智能问答和分析方面,现在任何一款大模型均不理想
当前大语言模型在古文智能分析方面仍存在明显局限。虽然模型在现代汉语知识问答中表现出色,但对文言文的语义理解和知识挖掘能力尚显不足。以明代乐府诗研究为例,模型无法对原典进行系统化语义分析和内容检索,多依赖现代研究成果进行答复。这一技术瓶颈的突破,需要跨学科协作,融合计算语言学与古籍文献研究,建立适配文言文特点的语义理解框架,提升模型对古籍文献的解析能力。
四、文史垂直模型建设内容和意义
从上述分析可见,大模型在古籍整理、数据分析、文献查找、知识学习、文化传播等方面可以发挥巨大的作用。面对人工智能的迅猛发展,任何一个学者都不可能无动于衷,视而不见。人类文明的进步源于工具的创新与运用,从石器时代到工业革命,再到当今的数字智能时代,工具始终是推动人类发展的关键要素。在这个时代,AI与大语言模型已成为学者必须掌握的新型研究工具。
如何将大模型与文史数据深度融合,这是科技工作者和文史工作者都要面对与思考,并协同完成的一项浩大工程。云四库智能问答系统就是在这样的背景下应运而生。
目前,云四库平台建设已初具规模。下一阶段将着重提升系统性能和功能完善,包括持续引入DeepSeek、Qwen等最先进的通用大模型,紧跟全球大模型技术的发展;构建校对标注系统、完善全文检索功能、优化用户认证体系等。在内容建设方面,平台已完成6万余种数据(含古籍、学术著作、论文)的上传与训练。未来重点工作包括:打通云四库数据地图(https://acamap.cn)、智慧古籍平台(https://csab.zju.edu.cn)和云四库智能问答系统的数据壁垒,实现三平台数据共享;加速古籍数字化进程,持续充实系统文献库;推进文史研究论著的数字化转换,开展数据测试与训练;建立健全学者个人数据上传机制,鼓励更广泛的学术参与。
文史垂直模型建设的意义,主要有以下几点:
1.提升工作效率,实现智能辅助
·在古籍标点方面,模型可完成90%的基础工作,显著降低人工成本。
·在文献提要撰写方面,模型能完成主体内容构建,学者仅需进行优化完善。
·通过人机协同,有效解放文史工作者的研究精力。
2.盘活学术资源,促进知识流通
·将分散于著作、期刊、论文集的研究成果数字化整合。
·运用大模型技术实现跨领域、多维度的知识关联。
·打破学术成果获取壁垒,提供精准高效的研究资源检索。
·使专业性、前沿性研究更易被发现和利用。
3.推动知识普及,促进文化传承
·构建智能化文史知识问答体系。
·降低传统文化学习门槛。
·实现人文知识的高效、精准传播。
·提升公众对传统文化的认知与理解。
4.赋能相关产业,创新发展模式
·支持文旅产业:助力地方文化挖掘和特色文旅内容生成。
·服务出版行业:推进古籍数字化转型。
·助力文创产业:为历史题材影视创作提供智能支持。
·构建“文化+科技”融合发展新范式。
总之,文史垂直大模型的建设不仅是技术问题,更是文化传承与发展的战略需求。它通过技术手段架起古今对话的桥梁,弥合古今鸿沟,推动人文研究范式变革。同时,在全球化背景下强化民族文化身份,为数字时代的人文精神延续提供新途径。未来我们将深入跨学科协同,促进AI技术专家与文史学者的深度合作,构建兼具学术严谨性与社会价值的智能系统。我们相信,随着系统功能的不断改善和内容的不断丰富,垂直大模型必将在科学研究、政府决策及文化传承方面,发挥出越来越重要的作用。
The Application of General Large Language Models in the Field of Literature and History: An Example of SikuCloud Intelligent Q&A System
Xu Yongming, Wang Yongpan
Abstract: This paper explores the application of general large language models in the field of literature and history, using the SikuCloud intelligent Q&A system as a case study. First, the paper analyzes two key limitations of current general large language models in humanities research: insufficient data and lack of expertise. Then, it provides a detailed introduction to the development process of the SikuCloud intelligent Q&A system, including the platform’s construction, data integration, and model training. The SikuCloud system is an upgraded version of Alibaba’s Tongyi Qwen and Hangzhou DeepSeek’s deepseek large models, with enhanced capabilities in understanding and generating knowledge in the humanities. The system can not only answer specific factual questions in history, literature, philosophy, and other humanities fi elds, but also explain complex concepts and theories, and even engage in critical thinking and academic discussions to a certain extent. Finally, the paper discusses the future development directions of the SikuCloud platform, including improving system performance, enhancing functions, and optimizing user experience.
Keywords: General Large Language Models; Vertical Large Language Models; Literature and History; Qwen; DeepSeek; AI
编辑 | 韩玉凤
向上滑动 查看注释
[1]姚福:《青溪暇笔》卷下,《四库全书存目丛书》子部第109册,济南:齐鲁书社,1995年,第702页。
[2]夏传才:《诗经学四大公案的现代进展》,《河北学刊》1998年第1期。
[3]刘绍攽:《九畹古文》卷3《伍胥鞭平王尸论》,参见《清代诗文集汇编》第304册,上海:上海古籍出版社,2010年,第354页。
扫描二维码购买,阅读更多《数字人文》优质文章
校对 | 肖爽
美编 | 王秀梅
人文师生必读书《中国数字人文发展报告》
2026-01-20 17:38 北京
随着数字人文的蓬勃发展和新文科建设的深入推进,越来越多高校正持续加大数字人文师资的引进力度。以下三则招聘信息,聚焦数字人文领域,敬请关注。
数字人文招聘 第1则
数字人文专任教师
西北大学科学史高等研究院
为满足科学技术史学科发展需要,科学史高等研究院面向海内外公开诚聘专任教师。
1. 招聘方向及人数
(1)数字人文方向2人(自然语言处理技术、图像处理、图情方向优先);
(2)科学技术史其他方向5人(具体研究方向不限,要求科研能力突出)。
2. 招聘条件
(1)热爱教育事业,具有强烈的事业心和责任感,具有良好的政治素质、职业道德和团队合作精神;
(2)应聘者应在海内外著名高校或科研机构获得科学史或相关学科博士学位,具有海外学术经历者优先;
(3)有高水平的学术论文发表记录。
3. 招聘人员范围
(1)领军人才:获得国家级人才称号,或在专业领域取得杰出成就的领军人才;
(2)高端人才:在专业领域取得突出成就,在学科建设和学术团队建设中能起到带头人作用,主持过国家社科基金重大项目、国家自然科学基金或国家社会科学基金的各类人才;
(3)学术骨干:应届优秀博士毕业生、博士后出站人员;毕业两年内且可以正常派遣的博士毕业生或博士后出站人员;具有博士学位的副教授。
4. 招聘程序
(1)常年接受报名申请;
(2)初审合格后,通知面试时间和地点;
(3)面试通过后,提交学校人事处审批、公示;
(4)根据相关规定,办理入职手续。
5. 专任教师待遇
获聘的国内外高层次专家享受学校高层次人才聘任的相关待遇;
其他各类正式录用的专业技术人员享受西北大学教职工薪酬待遇,优质、便捷的子女教育保障,可靠、便利的医疗服务保障。
6. 申请方式
有意申请者将个人简历及2篇代表作发送至iashs@nwu.edu.cn,邮件主题命名为“本人姓名+教师应聘”。初选合格者将收到面试通知邮件。
联系人:白老师,办公电话:029-88308435。
数字人文招聘 第2则
中国古代文学专业专职教师
数字人文学科背景优先
对外经济贸易大学文学与国际传播学院
对外经济贸易大学文学与国际传播学院依托学校“双一流” 建设的深厚底蕴,紧扣新时代传承中华优秀传统文化、提升中华文明传播力影响力的战略需求,致力于培养兼具人文素养、国际视野、创新精神与实践能力的复合型人才,以高质量学术研究与社会服务,助力国家文化软实力提升与世界文明交流互鉴。
一、招聘岗位
1.语言学及应用语言学或国际中文教育专业专职教师1名
熟悉人工智能相关技术的人才优先。
2.中国古代文学专业专职教师1名
具有数字人文学科背景及编程经验的人才优先。
3.新闻传播学(国际传播方向)专职教师1名
能够全英文授课或具有双语教学能力的人才优先。
二、报名条件
1.应聘人员应遵守宪法和法律、遵守师德师风规范,热爱教育事业,具有良好的品行,具有符合岗位要求的专业职业能力以及适应岗位要求的身体条件,无违法违纪处分记录。
2. 应聘人员需具有教育部认可的博士或本专业国内最高学位,已有高质量的学术论文发表,能够承担相关专业课程授课。
其中,国内应届毕业生原则上应于2026年10月31日前取得最高学历毕业证、学位证(即最高学历毕业证、学位证落款日期均为2026年10月31日前);留学回国人员需出国留学一年以上(有出入境记录),并于2026年10月31日前取得教育部留学服务中心认可的学历学位认证书,回国不超过2年且未经派遣。
3. 应聘人员中,应届毕业生年龄原则上不超过38周岁(1988年1月1日及以后出生)。
4. 原则上不招收与本校教职工有夫妻关系、直系血亲关系、三代以内旁系血亲关系或近姻亲关系的应聘者。
5. 委培生、定向生不得报名。
三、报名事项
1. 报名方式:
报名网址:zhaopin.uibe.edu.cn(具体报名方式请查看网站中的应聘指南),登录网址选择“事业编”岗位入口并按要求完成注册报名。如有疑问可与各用人部门联系人联系确认(联系方式附后);简历项目填写不全者不予考虑。
2. 报名时间:
(1)国内应届毕业生报名时间:
2025年12月1日—2026年2月28日;
(2)留学回国人员报名时间:
2025年12月1日—2026年3月31日;
(3)高层次人才及成熟学者引进工作常年进行。
3. 每人限报岗位不超过1个。
4. 本次招聘资格审核贯穿全过程,如发现不如实填报个人信息,或不符合应聘条件、聘用条件的情况,取消其应聘及聘用资格,已入校工作的解除合同。
四、招聘流程
1.资格审核
2.部门初试/试讲
初试阶段,报名人员需向应聘部门提交两份相关学科正高级职称专家推荐信(模板详见对外经济贸易大学人力资源处网站:https://hr.uibe.edu.cn/jszp/index.htm)
3.学校评审
4.体检和考察
5.公示
6.发送录用通知,按要求办理入职
以上招聘流程各阶段的具体时间及安排将另行通知。拟聘人员原则上应于2026年9月1日前办理完毕入职手续,特殊情况可适当延迟,但不得晚于2026年10月31日,否则视为自动放弃入职资格。
五、岗位待遇
1.学校提供具有竞争力的薪酬待遇,提供周转住房,协助解决子女入托入学。
2.专职教学科研人员解决事业编制;2026年3月31日前签订三方协议的国内应届毕业生,以及2026年9月1日前取得留服学历学位认证书的留学回国人员,符合北京市落户政策的,可协助解决北京户口。
我院诚挚邀请国内外高层次人才及成熟学者加盟,引进工作常年开展。
六、联系方式
学院联系人:陈老师
电话:010-64493801
邮箱:cbx119@uibe.edu.cn
数字人文招聘 第3则
人类学民俗学团队教师
上海大学社会学院
一、招聘岗位
人类学民俗学团队教师岗位
人类学与民俗学团队汇聚了一支学术根基扎实、国际视野开阔的高水平师资队伍。作为华东地区首个设立人类学博士点的单位,团队以富有活力的中青年学者为骨干,长期深耕于文化治理、民俗研究、数字人文、文化遗产保护、全球化与全球社会研究等领域,形成了以“人类合作机制与文明秩序建构”为核心的鲜明研究特色。团队积极拓展艺术人类学、民俗医疗、区域文明比较、海外民族志等交叉领域,并建立了广泛而稳定的高水平学术合作网络。团队先后承担多项国家及上海市哲学社会科学重点课题,在《民俗研究》《Current Anthropology》等国内外权威期刊发表了一系列具有影响力的研究成果。尤其在全球化与数字化交织的当代背景下,团队注重通过跨文化比较构建文明互鉴的学术视野,系统推进“中国人类学海外民族志”项目的研究、教学与实践,显著提升了学科学术科研实践的深度与广度。
职称要求:讲师应聘者无职称要求;教授或副教授岗位的应聘者要求同等职称。
年龄要求:教授45岁以下,副教授40岁以下,讲师38岁以下。
招聘人数:4
岗位要求:
(1)具有博士学位;
(2)研究方向:人类学、民俗学;
(3)教授需主持或主持完成过国家级哲社项目,发表过本领域高水平学术论文。副教授需主持或主持完成过省部级哲社项目,发表过本领域较高水平学术论文;博士需发表过本领域较高水平学术论文;
(4)承担本专业教学、科研和管理工作;
(5)承担与学院公共事务相关的服务和管理工作。
二、相关待遇
事业单位教师编制,全面的社会保障;
有竞争力的薪酬待遇和住房补贴;
充足的科研启动经费;
享受国家和上海市的补助,以及其他优惠政策;
过渡性人才公寓;
学校周边附属幼儿园、小学、中学提供子女就读便利等待遇。
三、报名时间及方式
报名时间:即日起至2026年12月31日。
报名方式:应聘采用招聘系统网上报名方式,请登录上海大学招聘网站(https://jobs.shu.edu.cn/)进行应聘(需先注册账号并完善个人信息)。
四、应聘流程
个人在线提交应聘信息;
学院审核通过后组织面试及试讲环节;
学校审议后向上级主管部门审批;
公示通过后报送编制备案。
五、联系方式
人事联系人:应老师
联系电话:021-66133756
招聘网站地址: https://jobs.shu.edu.cn/
2026-01-20 17:38 北京
古籍OCR国际评测来啦!欢迎参赛!
中国古代典籍承载着悠久的历史和深厚的文化底蕴,是世界文明的瑰宝。古汉语语料承载着丰富的文化与历史信息,其自动化处理有助于古籍数字化、历史知识库构建等多领域发展。EvaHan已经成功举办了四届,有力地推动了古籍智能分析技术的发展。在法国马赛的语言资源大会LREC2022的子会议上组织了第一届古汉语自动分析国际竞赛EvaHan2022,在澳门的机器翻译峰会MT-SUMMIT2024的子会议ALT上组织了第一届古汉语机器翻译国际评测EvaHan2023,在意大利都灵的语言资源大会LREC2024的子会议上组织了第一届古汉语断句标点国际评测EvaHan2024。EvaHan2025在北美计算语言学顶会NAACL2025上举办,作为面向古汉语NER任务的全球性评测,推动了古汉语命名实体识别技术研究。
EvaHan2026评测会议将于5月11日在西班牙Palma的语言资源大会LREC 2025子会议LT4HALA(古代与历史语言处理会议)上举办,任务是古籍OCR评测,为领域内的技术交流与合作提供平台。
01 测评简介
光学字符识别(Optical Character Recognition,OCR)是一种将印刷或手写文本的图片转换为机器编码文本的基础技术。OCR的准确率与速度直接决定着系统整体性能,并影响文档数字化、信息提取及智能检索等下游应用的用户体验。然而,古籍文档的排版和布局与现代印刷存在显著差异,这使得基于现代文档数据开发的OCR 技术及模型,在处理古籍相关图像时往往难以达到理想的识别效果。加之古籍本身的文字形态复杂、版式多样等特性,古籍OCR识别至今仍是一项颇具挑战性的任务。
古代汉文典籍承载着中华数千年的文化与历史信息,是传承民族文化基因的核心载体,其自动化处理有助于突破传统人工整理的效率瓶颈与资源限制,实现古籍文献的规模化、数字化存档,推动传统文化的活化利用与广泛传播,让珍贵典籍中的智慧成果更好地服务于当代社会。EvaHan已经成功举办了四届,有力地推动了古籍智能分析技术的发展。
2022年(法国马赛)古汉语分词与词性标注国际评测
2023年(中国澳门)古汉语机器翻译国际评测
2024年(意大利都灵)古汉语自动句读与标点国际评测
2025年(美国阿尔伯克基)古汉语命名实体识别国际评测
EvaHan2026国际评测组织者将会为参赛者提供统一的训练和测试数据集,参赛者则需要提交在测试集上的实验结果,由组织者评估参赛者最终提交的数据的真实性。
2026年,我们将目光转向更具挑战性的古籍多模态OCR任务,首次系统评估大语言模型在真实古籍图像上的端到端识别与版面理解能力。
02 测评方法
EvaHan2026数据集包括三类汉字图像:印刷体汉字图像、图文混合及手写汉字图像,经过自动标注及人工校对后形成高质量的训练和测试集。数据来源包括:
数据集A(版刻汉字)选自《四库全书》里的经史子集,用于评估版刻汉字的OCR识别效果。
数据集B(图文混合版式)包含从《四库全书》及其他古籍中选取的混合数据,用于评估插图、印章等图片和汉字混合的OCR版式识别。
数据集C(手写汉字)涵盖手写古籍,主要为汉文佛典,包含《汉文佛典(TKH)》数据集与《汉文佛典(MTH)》数据集,用于评估手写汉字的OCR识别效果。
数据集被分成训练集(约15,000–30,000组)与测试集(每个子集约200–500组),所有评估数据均采用图像-文本对形式,文本以Unicode(UTF-8)编码的txt文件存储。
核心评估维度:
OCR性能:准确率(Precision)、召回率(Recall)和F1值
生成指标:BLEU、ROUGE-1、ROUGE-2、ROUGE-L
版面分析指标:mAP、IoU
(测试数据的详细信息和下载链接将在正式评估期开始前提供给参与者。)
03 两种参赛模式
封闭模式(必选):仅允许使用官方训练数据+允许的预训练视觉 - 语言模型(基准线基于Xunzi_Qwen2_VL_7B_Instruct)
开放模式(可选):不限制外部资源、数据、模型,但需在技术报告中完整披露
每队最多可提交两次运行(封闭一次+开放一次),最终评分以最后一次提交的运行为准。
04 重要时间节点
注册开放:2025年12月1日
训练数据发布:2026年1月1日
注册截止:2026年1月30日
测试数据发布(开赛日期):2026年2月1日
结果提交截止(结束日期):2026年2月6日23:59(UTC-8)
技术报告提交截止:2026年2月28日
录用通知:2026年3月1日
论文终稿提交:2026年3月10日
会议时间:2026年5月11-16日(西班牙·马略卡岛)
05 参赛方式
注册:2025年12月1日–2026年1月30日,发送邮件至evahan2026@gmail.com索取并提交注册表。仅已注册队伍可获得训练数据。
结果提交:将三个子任务的纯文本识别结果(UTF-8)打包发送至官方邮箱,同时附上可复现代码。
技术报告:4–8页,采用LREC 2026官方模板,通过Softconf START系统提交(https://softconf.com/lrec2026/main),录用论文将正刊收录于LREC 2026会议论文集。
收费标准及方式:评测本身不收费,但是根据会议要求,参赛队需要缴纳线下(或线上)参加LREC的LT4HALA的workshop注册费。具体缴纳和注册参会方式等待会议的官方通知。
06 组织机构
(排名不分先后)
组织单位:
南京农业大学信息管理学院
王东波 刘浏 朱冬梅 赵雪 厉洁琼 赵子墨 杨帆
南京师范大学语言大数据与计算人文研究中心
李斌 冯敏萱 许超 朱月 李俊洁
南京理工大学经济管理学院
沈思
指导单位
中国古籍保护协会古籍智能开发与利用专委会
协办单位
中国民族语言学会语言资源与计算人文专委会
中国人工智能学会语言智能专委会
中国中文信息学会青年工作委员会
江苏省人工智能学会自然语言处理专委会
中华书局古联公司
07 会议地点及人数
会议地点:西班牙帕尔马,线上+线下会议
会议人数:约40人
08 联系方式
邮箱:evahan2026@gmail.com
附录:
OCR Model:
DeepSeek-OCR:https://www.modelscope.cn/models/deepseek-ai/DeepSeek-OCR
PaddleOCR-VL:https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL
mscoder/duguang-ocr-onnx-v2:https://www.modelscope.cn/models/mscoder/duguang-ocr-onnx-v2
RapidAI/RapidOCR:https://www.modelscope.cn/models/RapidAI/RapidOCR
iic/cv_convnextTiny_ocr-recognition-document_damo: https://www.modelscope.cn/models/iic/cv_convnextTiny_ocr-recognition-document_damo
2026-01-09 12:00 北京
推荐关注新刊
由中华人民共和国教育部主管、西南大学主办的综合性社会科学类期刊《文明互鉴(中英文)》(英文名:Journal of World Civilizations,国内统一刊号:CN 50-1238/C)于日前正式出版,为全球学者探讨文明互鉴搭建起一座新的学术成果展示平台。
欢迎投稿
刊物设有“数字人文”栏目,诚邀相关领域同仁踊跃投稿,共同推动学术交流与学科发展。
2026 年 1 月 5 日,中希文明互鉴中心举办“《文明互鉴(中英文)》创刊号发布暨中希文明互鉴中心年度协作共建会”,《文明互鉴(中英文)》创刊号在会上正式亮相。
《文明互鉴(中英文)》以习近平总书记关于文明交流互鉴的重要论述为根本遵循,聚焦五大核心办刊领域。其一,以新文明观为指针,深入阐释全球文明倡议的实践路径,破除各类错误史观和文化偏见;其二,以学理探究为根基,推动文明互鉴相关学科体系、学术体系等建设,关注教育与文明互鉴的深度融合;其三,以古典智慧为源泉,深耕比较文化研究,激活传统文明的当代价值;其四,以现实问题为导向,赋能区域国别研究,提炼中国参与全球治理的经验方案;其五,以数字人文为引擎,借助大数据、人工智能等技术为文明交流互鉴注入新动能。
创刊号设置 “文明互鉴论”“世界古典学”“文明交流史”“专题研究” 四大栏目,收录10篇中外学者研究成果,涵盖文明互鉴理论阐释、古典文明比较、中外文明交流史等多个研究方向,为全球读者呈现丰富的学术视角与思想滋养。
刊物介绍
《文明互鉴(中英文)》(英文名:Journal of World Civilizations;汉语拼音刊名:WENMING HUJIAN)由中华人民共和国教育部主管、西南大学主办,2025年7月经国家新闻出版署批准创办,为综合性社会科学类期刊,国内统一刊号为 CN 50-1238/C。本刊初期为中文季刊,每季度首月出版,面向国内外公开发行。
本刊旨在汇聚全球学界智慧,从跨文化、多学科视野探究人类文明交流互鉴的历史与未来、理论与实践,建设集思想性、理论性、学术性和实践性为一体的高水平、标志性、国际化人文交流平台,为践行四大全球倡议、推动构建人类命运共同体贡献力量。
Journal Introduction
Journal of World Civilizations (JWC) is an academic journal supervised by the Ministry of Education of the People’s Republic of China and sponsored by Southwest University. It was officially approved for publication by the National Press and Publication Administration in July 2025.
Classified as a comprehensive journal in the humanities and social sciences, JWC bears the domestic serial number CN 50-1238/C.
Initially launched as a Chinese-language quarterly, the journal is published in the first month of each quarter and is distributed both domestically and internationally.
JWC is dedicated to bringing together intellectual contributions from scholars worldwide to examine the history and future, theories and practices of exchanges and mutual learning among human civilizations from cross-cultural and multidisciplinary perspectives. The journal seeks to build a high-level, landmark, and internationally oriented platform for humanities exchange that integrates intellectual depth, theoretical rigor, academic excellence, and practical relevance.
Through scholarly inquiry and dialogue, JWC aims to contribute to the implementation of the Four Global Initiatives and to the advancement of a community with a shared future for mankind.
原创 联盟说微专业 2026-01-04 17:00 北京
数字人文微专业建设案例集
系列专栏
北京科技大学
数字人文微专业建设案例
1
数字人文微专业依托院系简介
依托机械工程学院工业设计系,联合马克思主义学院、科技史与文化遗产研究院、智能科学与技术学院、计算机与通信工程学院等学院和图书馆等单位共同组成。工业设计系以国家战略发展方向与国计民生需求为培育人才目标,立足人工智能、大数据、物联网、虚拟现实、元宇宙等新锐前沿的创新设计领域,在人工智能与创新设计、文化科技融合、数字文化创意产业等高精尖前沿领域开展教学研究,探索融合了艺术与科学、科技与人文、文化与经济多种学科多重领域的创新,引领设计教育生态的可持续发展,设计作品包括:2010年第十六届广州亚运会火炬“潮流”和2025年第九届亚冬会火炬“澎湃”,2008年北京奥林匹克运动会导视系统设计,2005年微软亚洲研究院智能楼宇APP交互界面设计,2014年光影睡莲智能服装设计,2015年空性之数舞智能舞蹈服装设计,2016年驭势科技无人驾驶车交互设计,2016年英特尔具身机器人设计,2019年VR数字工厂,2022年九麓无人驾驶车设计等。
2010年第十六届广州亚运会火炬“潮流”
2025年第九届亚冬会火炬“澎湃”
2008年北京奥林匹克运动会导视系统设计(北京科技大学场馆)
2005年微软亚洲研究院智能楼宇APP交互界面设计
2014年红星奖获奖作品光影睡莲智能服装设计
2015年红星奖获奖作品空性之数舞智能舞蹈服装设计
2016年英特尔具身机器人设计
2018年红星奖中国设计智造大奖获奖作品企鹅医生智慧医疗站设计
2019年DIA中国设计智造大奖获奖作品康华云健康工作平台设计
2019年DIA中国设计智造大奖获奖作品VR数字工厂
2017年红点奖获奖作品驭势科技无人驾驶车交互设计
2022年中华设计奖获奖作品九麓无人驾驶车设计
左右滑动查看获奖作品
2
师资队伍
专业负责人:覃京燕
北京科技大学教授,智能科学与技术学院副院长,科技美育中心主任,国家级特聘人才,教育部全国高校美育教学指导委员会委员,教育部工业设计教学指导委员会委员,中国美术家协会数字艺术艺委会委员,教育部中欧人文艺术教育联盟委员,中国高等教育学会设计教育专委会理事,北京交叉科学学会设计创新专业委员会副主任,中国计算机学会CCF人机交互专委会执行委员,美国ACM会员,剑桥大学CRUCIBLE会员,中国工业设计学会信息与交互设计专委会执行主任,中国文化产业协会文化元宇宙专委会首席专家,科技部全国十大杰出青年设计师、新中国成立70周年用户体验设计师70人、中国设计十佳教育工作者、北京市科委工业设计杰出人才。主要从事人工智能与创新设计、大数据信息可视化、可持续设计、交互界面设计、数字娱乐设计、数字文化遗产及文化元宇宙与创意产业等领域的研究。近年来,主持国家重大专项课题、国家社会科学基金、国家自然科学基金以及文化和旅游部、教育部人文社科项目等国家级省部级项目20余项,参与了国家重大专项、欧盟、863项目、国家自科、国家社科重点项目等多项项目。负责工业设计国家一流本科专业建设,智能仿生无人系统教育部重点实验室建设。负责《无人驾驶车人工智能与创新设计虚拟仿真实践教学》《人工智能与创新设计》《Artificial Intelligence & Innovation Design》等3门国家级一流本科课程,获得美国通用汽车设计比赛GM、日本CarStyling汽车设计比赛、英国Interior Motives、德国红点奖、中国红星奖、DIA 中国设计智造大奖、教育部人文社科成果奖等国内外70多项奖项,论文200余篇,多篇ESI高被引论文,2024年与2025年连续两年被评为中国知网高被引学者TOP1%。发明专利及软件著作权等30余项,著作12部。《中国大百科全书》信息艺术设计副主编,《中华设计年鉴》首届编委。
左右滑动【下方】内容查看师资队伍简介
师资队伍简介
王晓慧
师资队伍简介
王晓慧
清华大学计算机博士,北京科技大学教授,工业设计系主任,北京市宣传思想文化青年英才,北京市课程思政教学名师。中国少数民族文物保护协会数字化专委会常务理事,中国计算机学会计算艺术分会首届执行委员,中国图象图形学会可视化与可视分析专委会委员,清华大学附属小学商务中心区实验小学科学副校长。研究人工智能与设计交叉、情感计算、交互设计、虚拟现实,聚焦文化科技融合和工业数字孪生。发表论文40余篇,主持国家自科、教育部社科等项目20余项,出版教材《Unreal Engine虚拟现实开发》(中文繁体版的版权输出到中国台湾)、《交互艺术装置实现技术》,设计作品曾获DIA中国设计智造大奖等设计奖项,多次在顶会ACM Multimedia等国内外设计展览中展出。
师资队伍简介
王雪皎
师资队伍简介
王雪皎
中央美术学院设计学博士,北京科技大学机械工程学院工业设计系副教授,系党支部书记,曾任职于中央美术学院奥运艺术研究中心。北京2008年奥运会导视系统主创设计师,设计作品收录英文版奥林匹克设计史Olympic Games: The Design 1896-2020。北京2022年冬奥会引导标识系统主创设计师。主持教育部人文社会科学基金项目,参与国家重点研发计划,北京市哲学社会科学基金等多项研究课题,发表学术论文16篇,参编著作4部。担任未来设计师全国高校数字艺术大赛,两岸新锐设计华灿奖,全国大学生广告艺术大赛评委。入选北京科技大学青年教学骨干人才,荣获北京科技大学“我爱我师-专业课优秀教师奖”。
师资队伍简介
郭馨蔚
师资队伍简介
郭馨蔚
清华大学设计学博士,北京科技大学机械工程学院工业设计系副教授,工业设计系副主任。中国人工智能学会认知系统与信息处理专委会委员。主要研究领域为交互设计、多通道人机交互、用户界面设计和用户体验研究。曾赴美国帕森斯设计学院(Parsons School of Design)人机交互实验室访问学习,曾就职于中国移动研究院用户市场研究所,从事交互设计、用户体验研究相关工作。
师资队伍简介
姜晶花
师资队伍简介
姜晶花
北京科技大学马克思主义学院副教授,全国学校共青团研究中心研究员。研究方向思想政治教育理论;伦理学;礼仪与伦理。与课程相关的教学科研有:主持并完成教育部人文社会科学研究项目“中华传统文明礼仪读本”;主持南京市社科联“社科知识与百姓生活”项目之礼仪读本刊印分发上万册;主持南京师范大学全校博雅课程《礼仪文化与交往艺术》;同时为社会、企事业单位、政府部门等开设近百场礼仪文化讲座与礼仪培训;多次参与电视栏目特约评论及电台等文化媒体活动。曾被评为南京市社科系统先进个人,第八届南京市优秀哲学社会科学工作者等。北京科技大学“我爱我师——我心目中最优秀的老师”公共课优秀老师。
师资队伍简介
于欣波
师资队伍简介
于欣波
北京科技大学智能科学与技术学院副教授、硕士生导师,主要研究方向为智能机器人控制、材料智能实验系统、人机交互、大模型技术应用等,主持国家自然科学基金面上项目、青年科学基金项目等,担任北京市自动化学会理事,IEEE SMC学会北京分会秘书长。至今已在国内外重要期刊和会议发表论文20余篇,申请或授权国家发明专利10项。担任《IEEE Trans. on Robotics》《IEEE Trans. on Cybernetics》《IEEE Trans. on Fuzzy Systems》《IEEE Trans. on Systems, Man, and Cybernetics: Systems》《Science China Information Sciences》《自动化学报》等国内外高水平期刊审稿人。
师资队伍简介
陈媛
师资队伍简介
陈媛
北京科技大学计算机与通信工程学院副教授,主要研究方向为信号处理与人工智能。在《Digital Communications and Networks》《Signal Processing》《IEEE Signal Processing Magazine》等知名期刊及“IEEE ICASSP”“IEEE WSSP”等国际会议上发表SCI论文20余篇,并获授权专利《一种基于优化型小波神经网络的跳频序列预测方法》。主持国家自然科学基金、中国博士后科学基金及中央科研业务经费等多个项目,深入研究脉冲噪声环境下的信号处理与方向估计方法。在教学方面,面向本科生开设“数据科学”课程,讲授数据预处理、统计分析、机器学习及数据挖掘等核心技术。课程结合工程案例,强调理论与实践融合,培养学生利用数据科学方法解决复杂问题的能力,提升创新意识与工程素养。
师资队伍简介
郑征
师资队伍简介
郑征
北京科技大学图书馆信息咨询部情报分析馆员,副研究馆员,主要从事学科评价及信息素养教育教学工作;兼任北大核心期刊评价第七编工业技术副主编及TH类研究人员;发表研究论文10篇,参编教材1部,主持横向课题3项(在研1项),参与中央高校基本科研业务费-基础研究资助基金1项;多次荣获领域内专业研究奖励一等奖。
师资队伍简介
贺翔
师资队伍简介
贺翔
北京科技大学科技史与文化遗产研究院讲师,博士毕业于浙江大学化学系,博士论文题目为“彩绘文物次生病害与典型保护材料失效机理研究”。曾参与多项国家重要研究项目,包括国家973课题“已用典型保护材料与工艺的功能及失效规律研究”、国家重点研发计划“明清官式建筑营造技艺科学认知与本体保护关键技术研究与示范”等。成果包括:基于层间膨胀差、材料相容性等的彩绘文物劣化机理;结合深度学习、机器视觉、摄影测量等方法,建立了古建筑油饰彩画监测与裂纹量化新方法,探索了温度、湿度等环境因素对彩画劣化动力学的影响。
北科大数字人文微专业师资队伍:王晓慧、王雪皎、郭馨蔚、姜晶花、于欣波、陈媛、郑征、贺翔。
3
课程设置
《数字人文导论》
介绍数字人文的概念、发展历程及其在不同人文学科领域的应用;讲解数字人文的关键理论、技术、工具和实践;探讨有关数字伦理、数据可访问性和数字鸿沟等关键争论。
《中华人文精神通论》
旨在通过中西人文的融合、哲学的思辨,挖掘中华人文精神,提炼人类文明进程中的智慧,激发数字时代人的潜能与创造力,形成多维度的思维方式,提升人的精神境界,使人的内在丰盈且行为有教养。
《创新设计思维与方法》
构建纵横双维研究框架,纵向解构设计思维的生成机制、认知模型与类型学特征,横向提炼交叉学科协同创新的底层逻辑与策略方法。通过“定义问题-分析问题-解决问题”的全流程实践,贯通批判性思维、系统性思维与创造性思维的多维能力培养。
《Python程序设计与数据科学导引》
专为零基础文科生打造,融合编程基础与数据科学核心应用。课程涵盖Python语法、数据操作、可视化及基础机器学习,结合案例驱动教学,帮助学生掌握Pandas、Matplotlib等工具,培养数据分析与决策能力。
《人工智能与大模型应用》
系统介绍人工智能基础理论、核心算法及在数字人文领域实际前沿应用。课程内容涵盖深度学习、计算机视觉、自然语言处理、虚拟现实、大模型、智能机器人等关键技术,结合DeepSeek大模型、人形机器人等介绍相关前沿技术应用,解析人工智能在数字人文领域的实践案例。
《文化遗产数字化保护与传承》
课程专注于运用现代数字技术对文化遗产进行系统的保护、修复、展示和传承。课程综合了文化遗产的基础知识、保护原则、数字化技术和实践应用,涵盖文化遗产导论、数字化保护与利用的基本概念和技术,以及参观与实操训练。
《信息可视化与可视分析》
将文史、文献、艺术作品等文本、图像、音频、视频等多模态数据,通过人工智能算法分析数据,并通过各种形式的图示和人机交互技术,对经由计算机得出的数据特征进行“可视化”表达。
《数字人文实践专题》
是以实践为导向的课程,旨在帮助学生掌握数字人文领域的设计思维与应用技能。课程聚焦于数字人文在社会科学、文化遗产保护、设计创新等多个领域中的实际应用,特别强调数字工具在用户体验、交互设计和信息可视化中的运用。
4
课程计划与报名选拔要求
1.报名方式:本科教务管理系统-培养管理-微专业管理-微专业报名。
2.提交材料:将以下材料按照顺序扫描为一个PDF,命名要求:数字人文微专业申请-学院-学号-姓名,报名时同步上传:
(1)机械工程学院数字人文微专业申请表;
(2)学习成绩单;
(3)外语水平证明、发表论文、各项获奖材料证书等;
(4)其他材料。
3.选拔方式:材料审核。
4.选拔程序:机械工程学院组织相关学院任课老师组成选拔小组,审查申请微专业学生材料,确定符合接收条件的学生名单。
5
优秀作业案例
优秀论文《“无用之用”与人之为人》
学生姓名:周宇晴
指导教师:姜晶花
内容摘要:这堂课让我逐渐体会到一种深层的触动,更加理解了“无用之用,方为大用”这句话的深刻内涵。这让我联想到罗翔谈及的两种阅读方式:功利性阅读固然必要,但真正滋养灵魂的,往往是那些看似“无用”的非功利性阅读。《道德经》开篇“道可道,非常道”正是如此——真正的道理无法仅靠语言传递,唯有在经历某些瞬间后,那些曾被轻忽的话语才突然被点亮,如同“朝花夕拾”,旧日言语在他日才显真味。当今青年也应儒道兼修,在AI浪潮中守护人的独特性。深夜刷到火山视频,竟引我购买《中国国家地理》阿勒泰特辑,甚至关注起相关实习机会——正是这些看似琐碎的“无用”瞬间,彰显了人独有的灵性:会胡思乱想、心向远方、凭直觉突破困境。文学既礼赞人类勇气,也哀叹人性幽暗,而这一切,都是“人”的印记。我们脆弱却强大,正因能在无用中追寻意义,在混沌中创造灵光。
优秀论文:《从“仁礼相济”到“各美其美”——中华人文精神视域下人的尊严与自由守护之路》
学生姓名:钟月
指导教师:姜晶花
内容摘要:当爱琴海边的哲人高呼“人是万物的尺度”时,黄河岸边的圣贤早已在礼乐钟磬中编织出一张以关系为经纬、以德性为内核的人文之网。孔子讲“克己复礼为仁”,孟子言“四端之心”为人之始,将人的尊严扎根于道德自觉与社会伦理;而老子说“道法自然”,庄子以“逍遥游”挣脱世俗桎梏——儒道互补,一入世一超然,共同构筑中华文明的精神天际线。宋明理学更将此推向哲学高峰:朱熹以内化天理确立道德秩序,王阳明以“致良知”唤醒主体自觉。在全球化语境下,中华人文精神并非封闭自守,而是以“和而不同”“各美其美”的智慧参与文明对话。它活在社区老人的“孝亲日记”里,也融于数字时代的算法伦理中。面对AI与技术狂潮,孔子“君子不器”的警示提醒我们:真正的进步,是让科技承载“道”,而非让人沦为工具。中华人文精神之所以历三千年而不衰,正因它始终在守正创新中守护“人”的温度——古老却常新,脆弱却坚韧。
《创新设计思维与方法》
健康APP设计
作者:李佳鑫
教师:王雪皎
《创新设计思维与方法》
角色扮演游戏设计
作者:李音
教师:王雪皎
《东巴来信—基于纳西族文字
的交互体验设计》项目
作者:王晓玥
教师:郭馨蔚
以纳西族东巴象形文字为核心,探索传统文化在数字时代的全新传播方式。项目以让古老文字重新被看见为目标,将东巴文的字形之美与文化意涵转化为人人可参与的沉浸式互动体验,让传统文字在当代语境中焕发新的生命力。
项目设计并实现了两个相互关联的小型互动装置,从“看得见的字形”到“读得懂的字意”,建立起一个跨越古今的数字文化体验通道。首先是,《东巴象形文字字意交互体验》。利用动作捕捉技术,将东巴象形的“形”化为可模仿、可体验的身体动作。参与者通过肢体动作重现文字结构,系统实时反馈,让“写字”变成“用身体画字”。以游戏化方式降低文化门槛,让更多用户主动走近传统文字。第二个模块是《东巴象形文字字形交互体验》,项目构建了东巴文字库,实现中文短句到东巴文字的即时转换。参与者可以现场输入语句,系统自动展示对应的东巴文表达。在互动中理解文字背后的文化意涵,激发参与者对东巴文化的兴趣。
《 一掬沙—基于坛城沙画的
交互装置设计》
作者:徐容
教师:郭馨蔚
本项目旨在探索非物质文化遗产——坛城沙画的当代传播方式,通过数字化和交互设计手段,创新性地展示坛城沙画的独特文化内涵和艺术价值。研究工作的目的意义在于突破传统静态展示的局限性,以互动体验激发观众对坛城沙画的兴趣和热情,提高公众对非物质文化遗产的认知和热情,具有文化传播和教育的双重意义。
本项目设计以坛城沙画的艺术特点为基础,结合交互设计与现代科技,提出了一个沉浸式、交互式的数字化体验方案。该方案包括NFC技术与传感器的应用,观众通过互动装置能够体验沙画制作的细节与过程,进一步感受其内在文化与精神内涵。设计中使用了PN532近场通信模块、Arduino Uno开发板、Arduino Leonardo开发板以及TouchDesigner软件,通过读取NFC卡片信息及压力传感器数据实现装置的互动功能。
本装置通过数字化和交互设计手段,成功地将传统文化与现代科技相结合,为非物质文化遗产的传播和教育提供了新的思路和方法。创造性成果体现在装置特别关注了坛城沙画中璎珞纹的文化价值,并将其与当代祈福祈愿活动巧妙地联系起来,增强了公众的参与度和体验感。
本项目在探索坛城沙画文化内涵的当代传承新途径方面做出了初步尝试,尽管成果有限,但笔者期望能够为其他非物质文化遗产的传播和传承工作提供一些基础的经验和思考。未来,笔者计划对装置的技术实现路径进行优化,尝试引入更多与坛城沙画相关的交互元素,努力拓宽此瑰丽文化的传播渠道,期望能够为非物质文化遗产的保护和传承尽一份微薄之力,并为这一领域的未来发展做出自己的贡献。
《基于四川皮影戏的
交互装置设计》
作者:王晓玥
教师:郭馨蔚
本装置以四川皮影戏非遗文化为核心,围绕《白蛇传》人物打造数字交互体验,利用蛇年元素呼应文化符号。
技术上采用 TouchDesigner 实现数字皮影可视化,搭配 Arduino 硬件,结合触摸传感器与重力传感器采集数据;功能上通过手指手势操作,驱动传感器获取数据,进而控制《白蛇传》数字皮影的动作变化,实现 “手势 - 皮影动作” 的实时联动。同时配备皮影戏的科普小动画实现生动、趣味的文化传播。
本设计的核心在于以交互技术为载体,推动四川皮影戏非遗的数字化传承,同时借蛇年元素强化《白蛇传》文化主题的辨识度,让传统非遗通过轻量化交互形式更易被感知。
《元·天坛》项目
团队成员:彭凌钰
刘想然、余涵、黎思颖
工业设计系与百度MEUX联合课题作品《元·天坛——以多元视角探索多元天坛》,团队成员:彭凌钰、刘想然、余涵、黎思颖
END
点击图片入手中国数字人文“百科全书”
2025-12-29 12:00 北京
深度原理+实战案例,第一届人文智能跨界大课座无虚席!
中国计算机学会(CCF)主办的第一届人文智能大会(AI4Humanities 2025)于2025年12月26-28日在北京隆重召开,会议由中国计算机学会计算机应用专委会承办。12月26日是大会的第一天。讲习班课程作为本次大会的重磅先导环节,聚焦“生成式人工智能”、“大模型智能体”、“数字非遗”与“计算社会科学”等前沿议题,吸引了来自全国各地高校、科研机构及企业的百余名学员现场聆听。多位跨界名师倾囊相授,从底层技术逻辑到人文应用实战,带来了一场技术与人文深度融合的学术盛宴。
课程1
语言智能:打破学科壁垒的“透视镜”
上午9:00,讲习班在热烈的掌声中拉开帷幕。
面对席卷全球的AI浪潮,胡韧奋 老师首先抛出了一个引人深思的问题:“最新的技术,是否一定是人文研究最适合的工具?”带着这一视角,课程从计算语言学的演进脉络切入,抽丝剥茧地解析了从小型模型到多模态大模型的底层逻辑。胡老师结合语言、历史、心理等领域的低代码实践案例,展示了人文学者如何立足自身学科,灵活驾驭AI工具。更令人振奋的是,课程特别强调了“双向反哺”的价值——人文学科的深厚积累不仅是AI的应用场,更是推动技术进化的重要动力。这种“不唯技术论”的理性视角,为在场学员注入了强有力的信心。
课程2
智能体前沿:从原理到实践
随后的第二场课程《通用智能体从原理到人文研究实战》将现场气氛推向了高潮。本课程采用了“计算机科学家 + 数字人文专家”联袂讲授的创新模式,理论深度与实践广度并重。
针对生成式AI常有的“幻觉”痛点,林衍凯 老师不仅剖析了从单一模型(LLM)向具备感知与规划能力的通用智能体(Agents)进化的技术逻辑,更重点展示了属于人文学者的“破局之道”。张光伟 老师通过引入规格驱动开发(SDD)与可视化编排,课程演示了如何让智能体像“严谨的研究助理”一样工作——既拥有自动化的效率,又具备传统考据学的证据溯源能力。这种“人机协同、去伪存真”的新范式,让在场的许多人文学者直呼“解渴”。
课程3
高维数据可视化:看见复杂数据的“内在秩序”
下午的首场课程,由北京大学智能学院研究员、ChinaVis创办者 袁晓如 老师开启,主题聚焦《高维数据可视化方法与人文可视分析》。
面对浩如烟海的人文文本与图像,如何理清头绪?袁老师以“降维”与“可视分析”为钥,展示了将非结构化数据转化为结构化视觉图景的艺术。从几何映射到交互分析,袁老师通过大量生动的案例,展示了如何让沉默的数据“开口说话”。当复杂的人文与社会现象被映射为直观的视觉规律时,技术与艺术在这一刻实现了完美共振。这场兼具理性逻辑与视觉美感的大课,为下午的学习奠定了极其扎实的理论基调。
课程4
数字非遗:二十四节气的现代回响
作为本次讲习班的压轴之作,第四场课程充满了浓厚的人文艺术气息。
在《二十四节气与文化遗产的数字叙事》课程中,设计师 何为 博士 和 课程助理 王洋星月 带领学员们走进了一个数字技术与传统文化交织的世界。课程通过对“二十四节气”这一人类非物质文化遗产的深度解构,探讨了如何利用AIGC、交互设计与数字可视化技术,讲述属于中国的“时间故事”。何为博士强调,技术是载体,文化是灵魂。数字叙事不仅让古老的节气文化“活”了起来,更让其在数字时代焕发出新的生命力。这份从数据回归文化的深情演绎,为全天的讲习班画上了完美的句号。
一整天的思维激荡,不仅解答了学员们在技术应用层面的困惑,更激发了对“人文智能”这一新兴交叉学科的无限遐想。课后,许多学员仍意犹未尽,围在讲台前与老师们继续探讨。
讲习班虽已落幕,但精彩才刚刚开始!明日(12月27日)更多重量级特邀报告、前沿论坛及圆桌对话将接踵而至。让我们带着今日的收获,共同期待明天更深度的思想碰撞!
更多讲习班现场图:
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会于2025年12月26日至28日在北京举行。大会邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
2025-12-29 12:00 北京
CCF人文智能大会12月26-28日在北京召开,众多专家齐聚圆桌,探索人文学与人工智能从碰撞到共生的可能路径。这是一场关于如何重塑知识生产与人文价值的深度对话!
中国计算机学会(CCF)主办的第一届人文智能大会于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀了计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。会议设置圆桌论坛,邀请资深学者就相关议题展开讨论,我们将陆续推送会议具体信息。
圆桌主题:人文与智能领域的学科交叉合作前景与挑战
主持人:袁晓如,北京大学智能学院研究员/长聘副教授,博士生导师,教材建设博雅特聘教授,大数据分析与应用技术国家工程实验室常务副主任
金连文
华南理工大学二级教授,中国图象图形学学会副理事长。发表论文 300 余篇(SCI 一区与 CCF A 类论文100 余篇),Google Scholar 引用超过 2 万次,H-index 74。获省部级科技奖 5 项,其中一等奖 2 项,2024 年入选 IAPR Fellow。长期在文档分析与图像理解领域作出重要贡献。
牛大勇
北京大学历史学系教授、博士。主要研究中国现代史和现代中国与美、英、日等大国关系史。在国内外学术期刊发表论文《英国对华政策与国民革命的危机》《肯尼迪政府是怎样观察和对待中苏分歧的》等数十篇,出版著作《二十世纪中外互动史论》等十余部。现任北京大学——早稻田大学孔子学院中方院长,北京历史学会副会长。曾任北京大学研究生院常务副院长、北京大学历史学系主任、北京大学高等人文研究院常务副院长、教育部高等学校历史学科教学指导委员会副主任、国际高等教育组织“U21”经理等职。兼任过意大利、日本、墨西哥、中国香港等地若干大学的客座教授和美国、日本、英国、德国、新加坡、瑞典等国的大学和研究机构的访问学者。获国家级教学成果一等奖、二等奖、全国优秀社科类畅销书奖、政府特殊津贴等。
王晓光
二级教授,武汉大学信息管理学院院长,文化遗产智能计算教育部哲学社会科学实验室主任,数字人文研究中心主任,教育部长江学者特聘教授,中组部万人计划“青年拔尖人才”,国家社科基金重大项目首席专家,中国社会科学情报学会理事、中国音像与数字出版协会常务理事,湖北省信息学会副理事长,国际 iSchool 联盟数字人文教学指导委员会委员,国际知识组织学会(ISKO)科技咨询委员会委员,数字人文机构联盟主席,《信息资源管理学报》副主编,主要研究数字资产管理、信息组织、智慧数据、数字人文。
杨海峥
1985 年考入北京大学中文系,先后获得文学学士、硕士、博士学位。现任北京大学中文系教授,古典文献教研室主任,中国古文献研究中心副主任。国家社科基金重大项目“北美汉学发展与汉籍收藏的关系研究”首席专家。教育部长江学者特聘教授。研究方向主要为中国古典文献学、先秦两汉文献与文学、海外汉籍与海外汉学。出版《汉唐史记研究论稿》《日本史记研究论稿》《海外汉籍收藏史研究论丛》等研究专著及《史记会注考证》《史记会注考证校补》《和刻史记文献汇编》《日本京都大学藏珍稀汉籍十一种》等多部古籍整理著作。
张晓虹
复旦大学中国历史地理研究所所长,教授,博士生导师。教育部人文社会科学重点研究基地复旦大学历史地理中心主任、《历史地理研究》副主编。兼任中国地理学会理事、历史地理专业委员会副主任兼秘书长、空间综合人文与社会科学工作委员会副主任,中国历史学会历史地理专业委员会副会长,上海市历史学会副会长兼秘书长、上海市地理学会副理事长、哈佛大学worldmap学术委员会委员、哈佛-北大CBDB项目学术委员等学术职务。为国家社会基金重大项目首席专家。主要从事历史地理和数字人文研究,主持国家自然科学基金、国家社会科学基金和教育部项目十余项,撰著《文化区域的分异与整合——陕西历史文化地理研究》《历史时期中国沙漠地区环境演变与人地关系研究》《匠人营国:中国历史上的古都》等,在SCI、SSCI和CSSCI等国内外刊物上发表学术论文80余篇。
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会于2025年12月26日至28日在北京举行。大会邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
王进 黄仁瑄 2025-12-26 12:01 北京
汉语音义文献属于我国古籍中特殊且重要的一类,是汉语音义研究的核心文献。汉语音义研究首先需要从其中离析提取出音和义,进行匹配和判定。
实体·笺注·翻译
王 进 / 华中科技大学人文学院
黄仁瑄 / 华中科技大学中国语言研究所
摘要:汉语音义文献属于我国古籍中特殊且重要的一类,是汉语音义研究的核心文献。汉语音义研究首先需要从其中离析提取出音和义,进行匹配和判定。而作为古籍数字化的基础任务之一的自动分词,也是音义信息精准高效提取的关键。随着古籍数字化及数字人文相关技术的不断迭代,古汉语自动分词技术有了新进展。本文以唐五代佛典音义文献自动分词研究为切入点,提出面向佛典音义的词汇切分规范,通过微调训练得到唐五代佛典音义文献自动分词模型YinYiBERTa,模型F1值达95%左右,较其他分词模型,泛化性显著提升,能够完成有效的音义信息离析;同时验证了领域微调模型在音义文献处理中的可行性,为后续汉语音义模型的实现提供了路径参考。
关键词:汉语音义文献 佛典音义 自动分词 数字人文
引 言
汉语音义文献采取随文注音释义的方式为经典文本提供语言学阐释,是汉语音义研究的核心文献。[1]这类文献数量丰富、内部关系复杂、层级分明,其不仅包含传统的训诂形式,更蕴藏着汉字的形音义互动关系。相较于字书、韵书,音义文献特有的随文音义形态使其音义匹配关系呈现历时与共时的双重性质。汉语音义关系研究首先需提取音义信息,再进行关系的匹配判定,传统处理手段的效率和精度不够,而数字人文技术的发展为破解这一难题提供了思路。
当前学界在音义文献数字化处理领域已有了相关进展,如姜永超、黄仁瑄[2]以李善注《文选》为例,提出注疏类典籍的音义信息XML标注体系,试图通过该技术实现音义信息的提取,并认为文本特征标注是“建立音义抽取预训练模型的基础,也是实现批量提取所需音义研究材料、可视化呈现音义关系的有效途径”[3];王晓光等[4]利用本体等语义技术实现了古籍注疏的语义化表示和关系建模。然而上述探索,其技术实现仍需过多的人工介入,且领域适应性弱。
音义信息提取是汉语音义文献数字化处理的基础环节,直接关系到后续音义数据库的构建及音义关系推理等下游任务的质量。而音义信息提取的关键在于实现音义文本结构化知识单元的转换,此一过程中,自动分词技术[5]发挥着重要作用。
汉语音义文献的自动分词作为古汉语领域分词的下位概念,既需要遵循古汉语一般词汇切分的逻辑和规范,又面临着音义文本特有的复杂语言现象。例如外典音义[6]的特殊训释术语识别率较低;内典音义中大量的异体俗字、音译词、特殊佛教用语、梵语词等,其或凝固程度不高,或为未登录词等都是自动分词的难点。基于规则或统计的传统分词方法在面向特征复杂的古汉语领域语料时局限性明显;[7]而深度学习文本特征编码的方法,虽在古汉语通用语料[8]的处理中展现出巨大的潜力,但当面向汉语音义领域的文本时,性能受制于训练语料的规模和质量。此背景下,基于预训练语言模型的领域微调(Fine-tuning)技术则取得了良好的效果。该技术通过大规模通用语料的预训练学习,然后再采用领域特征文本进行参数微调,实现了知识迁移。
由此,从汉语音义文献的文本特征出发,以内容和形式均具代表性的唐五代佛典音义[9]为实验语料,建立佛典音义语料库,微调训练SikuBERT模型,实现面向佛典音义文献,并对其他类型的音义文献也具有拓展性和泛化性的分词模型,以期为后续自动化、智能化音义信息提取和匹配工作提供帮助。
一、语料的择取
汉语音义类文献通过对古代典籍进行注音和释义,帮助读者理解经典的语言和内涵,是传统小学研究的重要组成部分,也是汉语语音史、词汇史、文字演变研究的重要材料。以音义文献的内容分类,主要包括儒典音义、佛典音义、道藏音义等。儒典和道藏音义本土性较强;佛典音义则为汉译佛经注音释义的专门文献,是踵事前代典籍注疏和辞书编纂成果的集成之作,除了采用其他音义文献共有的音义体例外,还有其鲜明的个性特征。
(一)佛典音义的语料特征
词汇层面。佛典音义文献的词汇系统表现出多重复杂性。如词汇构成多样,佛典音义不仅对普通词语进行注音释义,还涉及大量佛教专名、外来词、梵汉对音词等词汇形式。汉译佛经的词汇形式,虽据汉语的表达方式改造,但仍具有跨语言转换色彩,例如汉字对音转写产生了大批音译词,由于版本流传、早期译经方法等原因,造成了音译词的混乱等状况。从形音义关系来说,梵音也有多义,用以记音的汉字更有形音义方面的限制,导致音义错综复杂。除此之外,因译经而产生的词汇复音化,其词形结构与语义凝固度存在差异。这类词汇尚未完成词汇化进程,又兼具临时组合与定型词语的双重属性,如何识别并判定,是佛经音义文献自动分词的难点之一。
注音层面。注音是佛典音义的重要方面。为字目词目注音,一般以反切法为主,间出直音,或二者兼用;无反切时,则用直音法,有的还注出声调;另外,还存在注出破读的情况,即同一个字读音不同而词义有别。除了为字(词)目注音,佛典音义中引用书证和释文中的难字字音有时也予以标注。以注音用字信息为例,对所据佛典音义语料的注音用字信息统计(图1),得到字符数共5,506,205个,字种共19,728个。
图1 唐五代佛典音义用字数量、频率前20名分布图
据统计,佛典音义的注音用字种类繁多,排在前二位的为“反、切”,其中“切”字为30万以上,“反”字达20万以上,第三位为“音”,7万次以上。整体看,除去注音标识,如反、切、音等,用字数量达万级以上的仅40多个,可见大宗注音信息形式和内容具有复杂性,还需要建立注音用字共现数据库。
释义层面。释义是佛典音义中的主要环节。佛典音义中的释义一般述而不作,根据编纂者所认定的标准,音义时引经据典,在博征详析中蕴涵着刻意辨正和取舍的意识。比如一词多义或多音多义现象,通过注音和释义达到辨析音义匹配关系的目的;一些不明释义来源之处,编者或自作案语,或引用典籍,力求言而有征。而佛典音义的案语内容所涉及更广,往往兼及形音义各方面。也正因佛典音义大量引据典籍成说,在内容上又具有了古代汉语通行语料的特点。
(二)语料的分布
语言模型本质上是数据驱动的算法,数据对语言模型性能起着决定性作用。数据规模、内容的丰富程度等因素都对语言模型的泛化性产生重要影响,为满足模型的泛化性要求,语料的择取要具代表性。基于此,选择兼有音义文献基本特征和区别性特征的唐五代佛典音义为实验语料。语料总数量近20万条,约500万字,具体分布情况见表1。
表1 唐五代佛典音义语料分布情况统计表[10]
从语料的统计情况来看,语料涵盖了唐至辽代的音义典籍,总计162卷。语料库中《可洪音义》体量最大,编纂时间相对较晚,体现了其总汇前代音义的特色;《慧琳音义》居次,该书集前代音义之大成,并且广泛征引经史子集的相关内容,从而具有通用语料的基本特征;《慧苑音义》《希麟音义》规模相对较小,前者针对《华严经》注音释义,后者在续补《慧琳音义》之外,还补录晚唐至辽代的新译佛经,体现音义文献的延续性与专题性。
实验语料均使用未经标点的中文数字化文本,内容包括音注、词义训释、字形校勘等多元信息,既保留了汉译佛教术语的语音、词汇特征,又反映了不同时期译者对梵汉语言对音的差异化处理;其时间、版本与内容的历时与共时分布,能够有效支撑语言模型对音义文献复杂句式结构和语言表达的泛化学习。
二、词汇切分规范
因需求和领域不同,对“词汇”的衡量指标各有不同。如果采用不同的词汇标准,分词结果就可能有所差异。而且信息处理中的“词汇”概念,与词汇学定义的词汇既有区别又有联系,为实现二者的有效沟通,需要给出佛典音义的词汇切分规范,[11]据此完成词汇的判别和切分。
佛典音义与古汉语其他类型的典籍有着明显的区别性特征,其以翻译、训释佛教典籍为主要内容,音义是达成该目的的手段,在于“辨音释义”。[12]佛典音义不仅收录了大量佛教音译词,还关注到了汉语词汇形音义的关联性,音义时兼及音变、析异读、辨异文、破通假、明故训等目标。[13]但佛典音义中大量的音义内容并不符合严格的词汇标准,以注音为例,双字反切如果识别为单字符则不利于完整提取注音信息,而直音音注时又需独立切分成单字符的形式;再如特殊训诂术语的使用,往往暗示着音义关系,需要区别对待,这些难题的存在给音义文献的词汇识别造成了困难。
鉴于此,以唐五代佛典音义为例,在总结其词汇形式特征的基础上,提出佛典音义词汇的切分规范。[14]规范总体以词汇学定义为衡量指标,逸出该定义的字符串形式,以信息处理的任务需求为标准。
(一)总体性原则
汉文佛典中的词汇处在凝固阶段,单音词和复音词同时大量使用,而且还存在丰富的特殊佛教音译词等情况,为避免佛典音义自动分词陷入词和非词的争论,以分词单位[15]为基本单元。佛典音义词汇切分的总体性原则可分为基础类和辅助类两个方面。首先佛典音义的释文部分有着较强的半结构化特征,一般包括注音、释义等不同核心内容,词汇认同以词类为基础,符合词汇学定义的即可归入基础类;而对于注音信息、特殊音译词、训诂术语以及专有名词等则需根据辅助类准则切分。
1.基础类
佛典音义基础类词汇认同,首先要符合“词是语言中能独立运用的最小的符号”[16]的定义,根据定义就能够筛选出部分可切分的词串。其次,针对佛典音义中单音节词和复音词共存的情况,化振红采用了词频作为主要辅助认定指标。[17]但单纯的词频指标,还需要关注字间的共现度。另外,对同一类型的词汇(字符串),其中有一条或多条已被认同,其他同类字串,作类比切分。逸出上述条例之外的情况,需要依语境认同判定。人工分词标注时,判定的依据是具体的词汇意义以及在具体语境中的用法,并从严认定。
2.辅助类
辅助类规范指在基础类词汇认同之外,还可通过辅助性手段帮助词汇判定的情况。如构建唐五代佛典音义的词表[18]、词频表、汉字共现词表。词频表是据分词结果频率统计表;汉字共现词表为佛典音义中所用汉字间搭配使用的频率表。其他前期辅助性词库,如佛典音义、汉语音义文献术语数据库的建立,可提高专有名词类的切分效率。
(二)佛典音义释语切分范例
佛典音义主要是为了读经服务,编纂者注重语言应用的规范性。一般而言,佛典音义的半结构化特征较为明显,每一条由字目和释文两大部分组成。字目可划分为一字例、二字例、多字(三字及三字以上)例。释文主要包括注音、释义和辨字等三个部分,[19]以下从这三个方面对切分范例进行说明:
1.注音信息的切分
注音信息是音义研究的重要方面之一。佛典音义存在大量的注音信息,并且具有一定的结构化标志,如反切注音法就具有天然的分隔界限,唐五代佛典音义的注音信息切分必然要充分掌握注音的形式特征。
(1)一字例[20]
一字例中注音方式多样,如反切法、直音法、声调法、描述法等。不同的注音方式,切分方式不同。具体注音手段有:单反切、单反切+其他注音方式等。
1) 唵 乌感反 抬 声 呼
该例注音方式为反切+描述法,此类的切分一般把反切视为分词单位,独立切分;描述法所描述的注音内容,根据其描述的意思具体切分。
2) 茹 而庶反 魏武帝 后 名 又 如 汝 二音
3) 异 音 怡 巳也 又 余志反
上二例,直音和反切同时存在,单反切切分同上;直音则要切分,例2的格式为“又××二(数量)音”,又音的标志“又”单独切分,“二(数量)音”为一个分词单位,独立切分。
4) 阇 是遮反 亦是 北天边 方音 旨 若 取 中天 梵音 可 者 为 慈砢反 正 也 砢 音 勒可反
本例中需要注意“某音×”或“某音××反(切)”的特殊形式,该类中,被注字单独切分,注音内容为分词单位。
5) 般 音 钵 本 梵音 云 钵啰 二合 啰 取 罗 字 上声 兼 转舌
本例中注音采用四声和描述法。此类切分时,四声与描述法的术语标志单独切分。
(2)二字例
唐五代佛典音义的字目多为二字例,为两字注音,一般有“××反,下××反”“上××反”“下××反”,可洪音义往往还在反语外标其所属韵部,其基本格式是“××反+×字韵”。希麟音义大多为“上(音)××反”“下(音)××反”形式。
6) 颐颔 上 以伊反 下 含感反
7) 淳湩 上音 纯 下 竹用 都洞 二反
8) 浑浊 后昆 后衮 二反
9) 眅多 匹奸 匹谏 普板 三反
本例释语中以“上(音)”“下(音)”注明字目的音读信息,该类应将术语单独切分,后接单反切,如例6则单反切为一个独立切分单位;若为多反,则多反切中,两个音节为一个独立切分单位,多反的标志单独切分,如上例7、8、9。
10)拯含 拯 音 无 叠韵 取 䒱 字 上声
佛典音义中用四声注音,如例 10需要将四声术语单独切分(“上声”);声调的直音字以及直音注音,切分到最小单位,“䒱 字 上声”。
11)覆载 上 敷务反 见 韵英 秦音 也 诸 字书 音 为 敷救反 吴楚 之 音 也
如果音义径引他书为指明某地某音,则所引他书按专有名词切分,某地之音如“秦音”“吴楚”为分词单位。
(3)多字例
多字例的数量较少,其音义的注音形式往往与二字例类同,所涉及的切分形式也都可以仿照二字例的类型切分。如例12,“上”“中”“下”这些指明为字目某字注音的关键信息需要单独切分。另外,还应注意“此云”“亦云”等术语,详见辨字信息的切分。
12)须陀洹 上 相朱反 中 徒何反 下 胡官反 此云 入流 亦云 预流
2.释义信息的切分
佛典音义为疏通佛经之旨而作,因此释义信息的切分需要关注以下情况:
唐五代佛典音义中常用“非此义”“非经义”等形式标明所释某字,并非为经文原意,如下例14,术语“非”“此(经)义”为独立切分单位。
13)牦牛 亡交反……经文 作 貓 猫 二形 今 人 家 所 畜 以 捕 鼠 者 是也 猫 非 经义
14)蛊毒 公户反 说文 蛊 腹中 虫 也 谓 行 虫毒 也 经文 从 䖝 作 蛄 音 古胡 反 蝼蛄 蟪蛄 也 蛄 非 此义
类似注音信息的切分,释义信息中,也存在引证他书和方言俗语的例子,所引他书、方言俗语之术语可一律按专有名词处理,单独切分。如下例“说文”“尔雅”“声类”“玉篇”“俗云”“俗谓”“俗音”等。
15)池沼 之绕反 说文 沼 池 也 梵言 贺逻驮 总 言 池水 也
16)虹霓 上 户公反 尔雅 云 䗖蝀 虹 也 郭 注 云 俗云 美人虹 下 五兮反
17)虹 胡公反 江东 俗音 绛 尔雅音义 云 双 出 鲜 盛 者 为 雄 雄 曰 虹 暗者 为 雌 雌 曰 霓
另外,佛典音义中还存在编纂者所加的案语、辨正形音义的术语,案语内容按照规范切分即可,术语单独切分。关于佛典音义中大量复杂的佛教音译词、外来语应重点关注,如例 15“池沼”条“梵言 贺逻驮”,此类的切分应视为分词单位,单独切分。
佛典音义的释义文本常以判断句的形式来分析阐释字词和篇章文义,优先依据句式特征进行切分。非固定格式的一般释义内容,同通行文本词汇的切分。“属”“别”,解释事物类属关系,术语单独切分。
3.辨字信息的切分
佛典音义中训释字的形音义关系时,多用“一、或、又曰”分列义项,当“曰”之前非人名、书名等专有名词,则作为一个分词单位,佛典音义中凡属这种格式的用法,都遵上述规范。汉语音义文献在辨形时多沿《说文解字》所创形制,如“从某”标明部首情况,“从某”应予以切分;“或体”“俗体”“今文”“或作”“俗作”“正作”“宜作”诸名,不予切分。佛典音义中用“古文”“籀文”等术语标明字际关系,这些术语视为一个分词单位。佛典音义还经常先引前书字训,然后再对其进行评析,如用“非(是)”“误”等字来标识,该类需认定为分词单位,不予切分。
如上从唐五代佛典音义的注音、释义、辨字等三个方面,对结构化的术语、词汇标识等做出了列举式的切分规范。然而,佛典音义的内容庞杂、形式多样、语用繁复等情况大量存在,所述规范还需进一步细化、总结和归纳。
三、YinYiBERT自动分词模型构建
传统的分词方案对古汉语文本的处理效果并不够出色,学界已在探索大语言模型在古汉语领域的应用,即通过领域文本的针对性训练,建模和表征语言的内在特征,使模型充分学习训练语料的内在特征,仅需少量标注数据的微调,在下游任务中就能达到良好的实验效果。南京农业大学王东波团队[21]提出的《四库全书》预训练模型(SikuBERT、SikuRoBERTa)在古籍领域的下游任务上居于领先水平。该模型使用了5亿字左右的《四库全书》语料,在通用古汉语语料上已经具有了良好的泛化性,如对《左传》的自动分词、自动句读、相似度计算等下游任务均获得了优异的成绩。虽然SikuBERT所用语料涵盖经史子集的丰富文献内容,与唐五代佛典音义文献有一定的交叉,但数量仍然较少,直接应用其对音义领域文本分词,达不到在通用古汉语语料上的效果。基于此,将SikuBERT作为基座模型,利用佛典音义语料微调训练,以实现高效精准的汉语音义文献自动分词。唐五代佛典音义微调模型的构建通过以下路径实现:(1)佛典音义微调语料的标注及修正;(2)基座模型微调训练;(3)模型横向对比,分词任务开放性评测。
(一)语料及微调标注
1.语料处理
实验以唐五代佛典音义文献为语料,词目近20万条,达500万字左右,在数量和覆盖面上满足了领域模型训练所需。除此之外,通过将《广韵》《集韵》等字书、韵书数据库中的注音规则作为特征嵌入模型输入层,增强对反切用字的识别能力。该库收录如《广韵》《集韵》及“说文系字书”等十余部古汉语字书、韵书。语料库实现了注音和释义字段的标注,注音字段如注音词条、注音对象、注音方式等;释义字段包括基本释义、补充释义、引书等。字书、韵书类语料在注音、释义、辨字等方面具有半结构化形式特征,可提升模型对佛典音义内容切分的泛化能力。形式上,音义语料的释文存在表述方式不同、长短不一等情况,经过规整,这些都可以成为模型文本推理的依据。在训练时,还将音义数据上下文信息加入,有助于模型充分学习到该类语料的形式特征和内容间的关联。
2.语料标注流程
模型训练的性能取决于参数优化与语料标注。实验构建了少量[22]有标注的分词数据集,标注质量决定了微调结果。佛典音义分词语料经两轮修正标注后,[23]交于模型训练学习。
图2 语料标注流程示意图
第一轮标注按9∶1的比例,标注20,000条数据,重点标注出易错的反切注音、非通用释义、辨字术语,[24]以及佛典音译中的特殊词汇,如佛教术语、音译词等;将标注后的数据交给模型训练。第二阶段修正标注微调后词汇切分仍然出错的部分。佛典音义中存在单音词、复音词及佛教术语混合现象,这些字串的凝固程度不同,依照分词规范,并结合词频与词长辅助标注。词频信息反映了词汇的使用频率,如较低频率的词汇往往可能会存在错误切分,而词长反映出结构稳定性,代表了词汇的凝固程度。修正标注的步骤有两个方面:
首先,统计切分词汇的词频信息。切分结果中词量为36万以上,低频词占总词量90%左右,错误率较高,因此低频词的处理是关键。词频大于10的词汇数量为6万个左右,词频10以下为修正的重点。通过注音标记定位注音内容,如识别出反切上下字非连用、错误切分的情况。其次,统计切分词汇的词长数据。据此发现词频大于10的切分词汇,词长处在[1,10]区间,在此区间内,词长大于或等于3的仅700多例,而高频词集中在词长为[1,3]区间,错误率较高的形式主要为二字词和三字词。其中,三字词多为反切注音的整体切分错误,通过反切的标记,剔除反切词汇即可。对于二字词则构建基于词典的查询匹配程序,将出现在词典中的二字词作为切分单位,这种方式对词表的规模要求较高。实验所用词典基于《汉语大词典》叠加其他古汉语词典构造,词汇容量超68万,词汇的数量满足需求。据以上流程得到修正后的分词语料词频结果为24万左右,处于合理水平,可作为最终模型训练的实验语料。
(二)模型微调训练
1.SikuBERT预训练模型
SikuBERT模型基于BERT[25]中文预训练模型的架构训练,包含12层Transformer编码器,每层768个隐藏单元和12个自注意力头,总计1.1亿个参数。实验训练集为文渊阁《四库全书》繁体语料,共3,406种典籍,训练语料覆盖了古汉语通用领域的特征。训练语料中史部典籍的篇幅较长、平均字数最多,存在大量人名、地名等专有名词,这增强了模型的命名实体识别水平;集部文本用词凝练,提升了模型对古汉语句式结构的捕捉能力;但由于经部文献少,儒典音义通常以注疏的形式附于经典原文之后,具有上下文强依赖性、结构松散性、语料稀疏性等特征,导致模型对音义类文献的形式特征学习不够充分。
另外,SikuBERT在训练时采用掩码语言模型(Masked Language Model,MLM),移除了BERT模型下一句预测(Next Sentence Prediction,NSP)训练策略;语料则剔除原书注释部分,仅纳入正文,致其对佛典音义中的注音反切、音译词等特殊形式适应性不足。直接应用未微调的SikuBERT处理唐五代佛典音义时达不到在通用语料上的分词水准。
2.模型效果评测指标
效果评测采用准确率(Precision,P)、召回率(Recall,R)、调和平均值(F1)三个指标来衡量模型的优劣。P表示正确分词数量在总分词数量中的比值,准确率越高,意味着分词效果越好;R表示正确分词数量与人工标注分词数量的比值,召回率越高,分词性能越好;而F1值则兼顾准确率和召回率,客观地反映了模型的分词能力,是模型性能评测的关键性指标。
直接应用SikuBERT对《左传》语料及唐五代佛典音义进行分词实验。结果SikuRoBERTa预训练模型在《左传》语料上分词效果最优,F1值达到88%左右,在唐五代佛典音义文本上F1值仅达53%。数据如下表2所示:
表2 S ikuBERT和SikuRoBERTa模型分词指标(%)
分词实验结果显示:(1)该预训练模型的命名实体识别能力表现佳,如对书名、人名、朝代名等专有名词的识别切分效果较好,如“说文”“尔雅”“蜈蚣”等,部分佛教术语识别率较高,但存在切分不彻底的问题;(2)针对反切注音、佛典音译词、梵语词、特殊术语等切分效果不好,如“反切”切分准确率极低,又如“或作”“谓之”等训诂术语切分也极差。因此,为适应佛典音义领域的文本特征,必须进行领域微调训练。
3.模型微调训练
根据训练数据的数据量,将本次训练集和验证集按照9∶1的比例进行划分。基于Pytorch框架,在NVIDIA RTX A5000上进行微调训练,参数设置为:learning rate=0.001,epochs=3,batch_size=32。训练中,batch_size参数越大,训练损失减少得越慢,训练所需的时间越少,而达到最小收敛所需的epoch就越多,综合考量下将其设为32。对于epochs的选择,主要根据佛典音义的数据量决定,并非训练越多epoch,效果就越好,相反,更多的epoch可能会导致模型过拟合。鉴于微调训练的语料不断叠加,采取多轮、少epoch的方式训练,先期采用3—5个小epochs进行实验。另外,佛典音义语料库中的句子长度并不均衡,在不耗费更多计算资源的前提下,设置其最大长度为256。
微调分两个轮次,每次迭代3个epochs,实验结果表明,第一轮微调后的模型针对音义文本自动分词的F1值达到84%以上,较微调前的模型分词能力显著提升了近30%。微调实验的性能数据如表3。
表3 微调后性能表现(%)
在第一轮微调的基础上,扩大修正分词标注的范围,再次微调训练。第二轮的微调实验比第一轮微调实验在验证集上效果提升了8%左右,已经达到较高水准。总体上,实验通过调整训练轮次,验证了模型泛化能力有所提升,可以保证模型充分学习到音义语料的语言特征。经过微调的SikuRoBERTa模型在针对汉语音义文献时分词F1值达95%以上,最终得到面向唐五代佛典音义文献的预训练模型——YinYiBERTa[26]。
(三)YinYiBERTa模型性能测试
1.模型对比
为了评测YinYiBERTa模型性能表现,采用统一的实验语料微调训练GuwenBERT[27]、BERT-base-Chinese、Chinese-RoBERTa-wwm-ext[28]等基线模型,并在唐五代佛典音义测试集上与其进行分词对照实验。其中,BERT-base-Chinese基于中文语料训练,具有通用性;RoBERTa通过全词动态掩码和训练数据的处理,优化了原始的BERT架构;GuwenBERT基于RoBERTa的框架改进,预训练语料为大量古籍,是面向古汉语领域的模型。分词实验结果如下。
表4 模型对比实验结果(%)
如表4数据所示,各模型的评估指标呈现显著差异。基于SikuRoBERTa预训练模型微调得到的YinYiBERT、YinYiBERTa性能全面领先,尤其是YinYiBERTa各项指标均达到了95%以上;相较之下,GuwenBERT、BERT-base-Chinese、Chinese-RoBERTa-wwm-ext的F1值仅处于73%—78%区间,反映通用模型对佛典音义文本的适配性不足。实验数据说明了两个方面的问题:(1)预训练语料的领域差异性决定了模型的语言表征能力。BERT-base-Chinese模型的训练依赖通用语料,虽经音义类文本的领域知识学习,分词F1值达到73%左右,但较低的召回率显示效果并不够令人满意,特别是对梵汉对音词、反切注音以及专名识别等情况切分时错误率极高;GuwenBERT使用了古文语料训练,因而具有一定切分效果,但对佛典音义领域混合的语言结构识别准确率较低。(2)唐五代佛典音义的分词涉及梵汉对音词、反切术语、未登录词等高难度文本特征,YinYiBERT前期使用了佛典音义标注语料,标注一致性高,一定程度上提升了模型性能,最终达到高于基线模型的性能。
图3 模型对比实验结果折线图
图3将不同模型的指标数据以折线图的形式呈现,清晰地观察到YinYiBERTa模型的评估曲线处于稳定的高值状态,对唐五代佛典音义的分词能力远高于基线水准,此成绩得益于底层SikuBERT模型和训练微调语料的强针对性。基线模型的指标分布则出现了明显波动。同时,YinYiBERTa优异的性能验证了领域微调策略的有效性,增强了模型对佛典音义复杂语言结构的解析和识别能力。表5展示了佛典音义真实的分词情况:
表5 佛典音义分词结果[29]
从真实的分词结果可以看到,源于《四库全书》的预训练模型,针对命名实体识别的准确度非常理想,如“世本”“周礼”“磬乐录”“凫氏”等;标注微调后的模型,取得了良好的效果,注音情况绝大部分都可以切分准确,音译词、外来词也做到了较为准确地切分,如“××反”“怚毗揵拏”“曼荼罗”等,对于特殊辨字术语也切分得较为准确,如“此云”“正作”等。以佛典中特殊的音译词来说,模型准确切分的原因,一方面在于语料微调标注的准确性;另一方面在于其他注音释义类型的大部分准确切分降低了这类音译词的错误率。经由样本数据的切分抽检,微调后的模型对佛典音义的形式和内容均能准确识别和切分,说明少量语料标注在微调过程中作用是重要的。
2.分词任务开放测试
为进一步验证微调模型对其他类型汉语音义语料的泛化性,利用YinYiBERTa对《后汉书音注》[30]部分语料进行分词实验。实验语料是训练集中未包含的数据,共1,550条音义,3.2万字,自动分词后具有2.3万个词串,模型F1值为95.34%,分词结果符合齐普夫定律。
按词频统计,计不重复词串6,340个,注音标记“音”词频1,811,句末标记“也”词频1,381,“曰”字词频755,“之”字词频462,其他词频均低于200。采用注音标记“音”字起领的情况,一般后接反切。表6展示了词频前十、后十的词串分布:
表6 《后汉书音注》分词词频前后十位统计
词频前十位的单字词为注音或注疏等汉语常用词,词频后十位几乎不具区别性,一般不会对文本音义内容有较大影响。“说文”词频116,在所有出现书目名称的词频中居首,说明音注对该书的看重,其他书名、经师名、音注术语等出现的词频范围如下表:
表7 《后汉书音注》分词专名类词频统计
分词结果中“前书音义”“前书”同时出现,通过回归原文分析,认为并非分词错误,而是《后汉书音义》与《汉书》及其音义的对举,如“前书曰:将作少府秦官……”“窨音一禁反见前书音义”。经统计,《后汉书音注》广泛使用反切注音法进行注音,共1,214个反切,不重复反切900个,词频最高为“纪力反”10次,仅使用一次的反切707个,反切词频为1。在《后汉书音注》中一般前有“音”字样提示注音,除了绝大部分用反切,还有少量用直音法注音,这一现象符合音义书音注的惯常体例。[31]
以上从统计的角度观察了词汇的切分情况,YinYiBERTa对开放测试的语料切分已能够达到较为实用的水平。表8为语料切分情况的完整展示。
表8 《后汉书音注》卷29《申屠刚鲍永郅恽列传》分词举例
《后汉书音注》与唐五代佛典音义既有区别和联系,音义形式又存在交叉,即佛典音义中的注音释义方式在《后汉书音注》中也存在,而且SikuBERT预训练时所用语料中史部数量较多,促进了微调效果的提升。经过利用唐五代佛典音义语料微调训练,模型已经对汉语音义文献的切分具备了良好的泛化性。基于此模型的词汇切分,能够将音义信息单元高效精准地提取,完成相关数字人文研究。如准确音义实体的识别切分“去音丘吕反”“繇音遥”等可以帮助后续建立注音字与注音内容间的链接关系,对应的人名、地名切分可以辅助进行音义来源探索。以表8中例3的分词结果为例可抽取并建立音义关系图谱。
图4 《李贤音注》音义抽取及音义关系构建示意图
四、结语
基于唐五代佛典音义语料,实现了面向汉语音义文献领域的自动分词模型——YinYiBERTa,经佛典音义文本和开放类音义文本的切分实验,模型取得了95%左右的F1值,具备了出色的自动分词性能。然而模型表现一定程度上依赖于训练数据的质量。本文的价值在于:(1)提出佛典音义的领域分词标注规范具有规范性,可拓展适配其他古籍领域的数字化处理(如道藏音义、经典注疏等),为大模型提供了领域知识基座;(2)验证了在计算资源受限的情况下,采取领域特征微调的方法,即使是相对较小的预训练模型,也可以展现出良好的推理能力。
随着通用大语言模型的快速迭代和广泛应用,古籍数字化领域迎来了新的发展机遇,本文的探索凸显了领域知识对模型表现的重要性。接下来,大语言模型下的古籍数字化研究需要秉持“数据导向”和“领域适配”的思路继续深入发展。
未来,为突破单任务模型的局限性,我们将致力于构建一个融合多任务的领域深度学习框架,并积极探索大语言模型辅助的领域古籍数字化任务研究。此外,我们还将进一步实现领域古籍的知识图谱构建,从而助力汉语史、汉语音义关系的智能化知识挖掘。这些探索无疑是数字人文视域下古汉语创新发展的具体实践。
Study on Automatic Word Segmentation of Chinese Phonological and Semantic Literature: Taking the Phonetic Semantic of Buddhist Scriptures in Tang and Five Dynasties as an Example
Wang Jin, Huang Renxuan
Abstract: Chinese phonosemantic literature, a crucial category in ancient Chinese texts, provides essential linguistic evidence for phonological-semantic correlation studies. Research on the phonological-semantic correlation studies must first involve separating and extracting their phonetic and semantic elements for matching and determination. This research addresses the core challenge of automatic word segmentation in textual digitization through domain-adapted modeling. Taking the research on the automatic word segmentation of phonetic and semantic documents of Buddhist scriptures in the Tang and Five Dynasties as the starting point, an attempt is made to propose a vocabulary segmentation specification for the phonetics and semantics of Buddhist scriptures. Through fine-tuning training, an automatic word segmentation model for phonetic and semantic documents of Buddhist scriptures in the Tang and Five Dynasties, YinYiBERTa, is obtained. The F1 value of the model reaches over 95%. Compared with other word segmentation models, its generalization ability is significantly improved, and it can accurately separate phonetic and semantic information. At the same time, the feasibility of domain fi ne-tuning in the processing of phonetic and semantic documents is verified, providing a path reference for the implementation of subsequent Chinese phonetic and semantic models.
Keywords: Chinese Phonological and Semantic Literature; Buddhist Scriptures; Automatic Word Segmentation; Digital Humanities
编辑|程宁
本文系国家社会科学基金重大项目“中、日、韩汉语音义文献集成与汉语音义学研究”(19ZDA318)、中央高校基本科研业务费专项资金资助项目“古代语文辞书知识图谱构建及研究——以《集韵》为例”(YCJJ20251105)、华中科技大学一流文科建设重大学科平台建设项目“数字人文与语言研究创新平台”阶段性研究成果之一。感谢南京大学童岭教授、清华大学李飞跃教授指正,并向匿名评审专家提出的宝贵意见致谢!
向上滑动 查看注释
[1]黄仁瑄:《汉语音义材料系统述略》,黄仁瑄编《汉语音义学研究论集(一集)──首届汉语音义学研究国际学术研讨会暨第四届佛经音义研究国际学术研讨会论文集》(上),台湾:花木兰文化事业有限公司,2023年。
[2]姜永超、黄仁瑄:《注疏类典籍音义信息提取与网络化的技术实现——以李善注〈文选〉为研究依据》,《语言研究》2021年第4期。
[3]黄仁瑄、姜永超:《注释书音义信息的标注》,《汉语学报》2022年第1期。
[4]王晓光等:《古籍注疏的知识表示与语义化建模研究》,《中国图书馆学报》2023年第3期。
[5]汉语自动分词指将汉语文本的连续字符串切分成词串的过程。
[6]音义材料中将佛典音义称为内典音义,其他音义称外典音义。
[7]王进、张义:《古汉语自动分词技术研究现状及进展》,《海南开放大学学报》2022年第3期。
[8]“古代汉语通用语料”指传世典籍中文学史传等文本,与汉语音义学的研究材料(“领域语料”)对称。
[9]唐五代佛典音义指初唐玄应《大唐众经音义》(玄应音义)、盛唐慧苑《新译大方广佛华严经音义》(慧苑音义)、中唐慧琳《一切经音义》(慧琳音义)、后晋可洪《新集藏经音义随函录》(可洪音义)和辽希麟《续一切经音义》(希麟音义)。括号内为简称,下文用简称。
[10]数据来源:黄仁瑄:《唐五代佛典音义研究》,北京:中华书局,2011年。表格中条数和字数为语料库的实际收录。
[11]化振红:《试论中古汉语语料库佛教文献分词规范》,《东南大学学报(哲学社会科学版)》2019年第1期。
[12]黄仁瑄:《唐五代佛典音义研究》,第97页。
[13]徐时仪、梁晓虹、陈五云:《佛经音义研究通论》,南京:凤凰出版社,2009年,第106页。
[14]关于汉语音义文献分词规范的构建另文详述,此处仅概述其要。
[15]分词单位,指依据词汇切分规范划分的最小语义单元,即可切分为完整部分的字符串形式。
[16]叶蜚声、徐通锵:《语言学纲要》,北京:北京大学出版社,1997年,第126页。
[17]化振红:《建立中古汉语语料库分词规范的若干问题》,《语言研究集刊》2021年第2期。
[18]词表指初轮添加人工标注特征完成自动分词后,对所有已切分词汇的汇总统计。词表也可以作为切分错误识别、修正的依据。
[19]黄仁瑄:《唐五代佛典音义研究》,第84页。
[20]例中字词间所用空格为切分符号,波浪线示例为切分部分。下同。
[21]王东波等:《SikuBERT与SikuRoBERTa:面向数字人文的〈四库全书〉预训练模型构建及应用研究》,《图书馆论坛》2022年第6期。
[22]少量,是相对于整体语料的数量而言。
[23]佛典音义分词语料标注指的是人工对语料进行分词判定并标注划分出正确形式的过程。
[24]易错的标准根据上述第一节佛典音义语料词汇统计结果,如低频词(词频<10)和反切注音错误率的统计,优先标注高频错误类型。
[25]BERT是一种基于双向Transformer架构的预训练语言模型,它能够通过预训练和微调的方式实现深度语言表征,可以帮助模型更好地理解文本。BERT预训练模型被广泛应用在自然语言相关推理任务中。
[26]下文称YinYiBERTa均对应SikuRoBERTa,因训练过程相似,为便于对比,故进行了名称的缩简。
[27]https://github.com/ethan-yt/guwenbert, accessed on November 22, 2024.
[28]Yinhan Liu et al., “RoBERTa: A Robustly Optimized BERT Pretraining Approach,” arXiv, 2019, https://arxiv.org/pdf/1907.11692, accessed on November 22, 2024.
[29]实际的分词结果一般以空格为标记。下同。
[30]范晔撰,李贤等注:《后汉书》,北京:中华书局,1965年。
[31]林序达:《反切概说》,成都:四川人民出版社,1982年,第27页。
购买《数字人文》期刊,请扫描下方二维码
校对 | 肖爽
人文智能 2025-12-26 12:01 北京
CCF人文智能大会12月26-28日即将在北京召开,艾廷华、赵耀龙、孙涛、何捷开讲数智地理!
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(十五):人文时空智能
艾廷华 武汉大学
《人工智能彰显地图文化艺术特征》
报告摘要:在人工智能时代,生成式AI、大语言模型、知识图谱技术的加持 使得地图文化艺术特征的展示获得新生命力,艺术风格的转移、手绘地图的模拟、历史时期地图渲染表达等,均可以在AI支持下实现。本报告基于文化分析视角从语言学的本质出发,在地图符号-文本字符对齐中探索两种语言的模态映射,从三元特征(语义、语法、语用)、修辞格、时态语气等出发,对比分析了“地图作为地学研究的第二语言”和第一语言文本处理的神器ChatGPT在模态转换、语义理解、艺术风格表达等方面异同,提出了地图语言文化特征展示的AI方法。顾及地图文化艺术特征建立地图语言大模型,在Transformer模型下训练地图符号单元生成地图语言LLM。该报告将展示两个特别案例:(1)ChatGPT支持下的地名寻诗图生成,展现诗歌文化在地图中的可视化表达;(2)GAN模型支持下的地貌晕渲图生成,将地图设计大师Imhof山地图渲染风格训练转移生成,实现地理特征与艺术风格的深入融合。
讲者简介:武汉大学教授,现任资源环境学院教授委员会主任、地理信息系统教育部重点实验室副主任。获评新世纪百千万人才工程国家级人选、前国家测绘地理信息局科技领军人才、中国地理学会青年科技奖。研究方向为地图多尺度表达、人工智能地图设计。近年来主持承担了国家自然基金重点项目、国家科技支撑计划、国家重点研发计划等国家级科研项目(课题)十余项,分别于2005年、2010年、2016年、2020年获得国家科技进步二等奖4次。
赵耀龙 华南师范大学
《时空智能视角下藏传佛教研究的数智化》
报告摘要:藏传佛教与汉传、南传并列为佛教三大语系,其源头可追溯至古印度佛教。入藏之后,它与本土信仰展开长达数百年的碰撞与交融,最终孕育出极具雪域高原特质的中国化佛教传统——藏传佛教。厘清这一信仰在时空双重维度上的扩散与演化,是理解其今日格局的关键。AI 时代,以时空智能理念与技术对藏传佛教进行数智化“重绘”,已成为学术研究的必由之路。本报告阐述了该领域的基本科学问题、数据体系与研究方法,并在多尺度时空框架下再现藏传佛教自7 世纪至当代的演化轨迹与动力机制,为铸牢中华民族共同体意识提供历史纵深与智能支撑。
讲者简介:赵耀龙,华南师范大学地理科学学院教授、博士生导师,广东省智慧国土工程技术研究中心主任,兼任中国地理学会空间综合人文社会科学工作委员会副主任委员、广东省测绘学会副理事长等社会职务。主要从事空间分析及政策模拟、空间综合人文学与社会科学等方向的研究与教学工作,主持国家自然科学和社会科学基金项目4项,教育部及其它省部级项目10余项。曾获日本地理信息系统学会研究奖1项,省部级科技奖9项。
孙涛 复旦大学
《数智时代的历史地名信息化建设》
报告摘要:从机器学习到人工智能的快速发展,文化资源也从“数字化”走向“数智化”。历史地名作为文明的空间锚点,亟需从传统的文本文献升级为可计算、可交互、可再生的新型数据要素。然而,古地名天然带有“同名异地、异名同地、有地无坐、随时间变动而变动”等模糊性与时空漂移,传统人工考据难以匹配大数据量级与高精度场景需求。大模型的出现使快速提取典籍中的地名实体成为可能。新条件下的历史地名信息化工作通过知识图谱亦能实现“人-地-事”语义关联,使得历史地名不再只是静态记忆,而成为城市规划、文旅融合、遗产保护等应用场景可实时调用的地理信息数据,构建通用的时空载体。
讲者简介:孙涛,男,复旦大学中国历史地理研究所空间综合分析实验室高级工程师。从事历史地理数据建设与应用的探索,研究方向侧重于历史GIS应用相关的历史地理研究,相关技术方法为多项国家自然科学基金等项目提供支撑。
何捷 哈尔滨工业大学(深圳)
《“空间历史大数据”文化遗产阐释的五个维度》
报告摘要:“空间历史大数据”的研究从五个阐释文化遗产的维度出发,深化文化遗产语义的统一性和关联性,最终赋能文化遗产的价值评估与遗产叙事。这五个维度对应数字化信息描述世界的“人”、“事”、“时”、“地”、“物”的途径,包括:(1)时间维度:阅读“时间”,和长时段的历史重建关联;(2)空间维度:阅读“空间”,和从全球到赛博空间不同尺度的空间与地方关联;(3)主体维度:阅读“人”作为“主体”、个人和群体以及他们所产生的话语文本作为文化遗产的语义;(4)异构维度:阅读作为文化遗产语义的多模态信息,将“物“通过知识架构加以整合;(5)泛在维度:阅读“事件“中当代与过去的连续性,讨论“历史”与“当下”如何被叙事及其空间实践的关联。
讲者简介:何捷,哈尔滨工业大学(深圳)建筑学院城乡规划系教授,“智慧城市与数字空间规划”特色学科方向联合负责人,“空间人文与场所计算实验室”主任。研究兴趣与专长为综合AI、知识图谱、NLP、网络分析、图像分析等数字化手段结合GIS、遥感等空间信息技术,应用于文化遗产的多模态时空语义挖掘、阐释与叙事。当前正在进行的具体研究工作集中在全球史视野下的海上丝绸之路和青藏高原/新疆—南亚/中亚陆上丝绸之路区域的历史城市、景观和建筑的地方知识挖掘、文化叙事与赋能实践。
注册流程
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站(可通过该网址报名注册参会)
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
2025-12-25 12:09 北京
CCF人文智能大会2025大会日程已公布,欢迎关注!
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。
大会日程
注册流程
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站(可通过该网址报名注册参会)
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
人文智能 2025-12-25 12:09 北京
CCF人文智能大会12月26-28日即将在北京召开,金连文、尼玛扎西、高书生、冯惠玲、徐永明、洪涛六大专家齐聚圆桌,共话人文智能最前沿!
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置圆桌论坛,邀请资深学者就相关议题展开讨论,我们将陆续推送会议具体信息。
圆桌主题:人文智能的产学研生态
主持人:金连文 教授
华南理工大学人工智能学院
尼玛扎西
尼玛扎西,中国工程院院士,西藏大学教授,主要研究方向为语言智能和自然语言处理研究与工程实践。CCF会士。教育部计算机类专业教学指导委员会委员、第八届教育部科学技术委员会委员、中国中文信息学会民族语言文字信息专业委员会主任。主持国家重点研发计划重点专项、新一代人工智能国家重大专项等科研项目30余项,出版《藏文拼写形式语言及其自动机研究和应用》和《藏语自然语言处理基本理论和方法》等专著3部,国外出版著作1部。获得国家科技进步二等奖、全国创新争先奖状、西藏自治区科学技术奖杰出贡献奖、何梁何利基金科学与技术创新奖等重要科技奖励。
高书生
高书生,中央宣传部原文化体制改革和发展办公室副主任、一级巡视员,财政部中央文化企业国有资产监督管理工作领导小组办公室原副主任。参与文化体制改革配套政策、文化产业振兴规划、文化产业促进法、文化产业统计标准、金融支持文化产业、文化和科技融合、文化数字化和文化大数据等文件制定,出版《文化数字化:关键词与路线图》、《国家文化数字化战略怎样落地落实》、《实施国家文化数字化战略操作指南》等著作。
冯惠玲
冯惠玲,国家一级教授,中国人民大学原常务副校长,现任数字人文研究院院长,人文北京研究中心主任,电子文件管理研究中心顾问。兼任国家哲学社会科学专家咨询委员会委员,教育部社会科学委员会委员,国家电子文件管理专家委员会主任,世界互联网大会文化遗产数字化专委会副主任,中国公共关系协会文化大数据产业专委会委员,故宫博物院文化遗产保护与传承实验室学术委员会副主任。主要学术领域为档案学、电子文件管理、数字人文、文化遗产数字化保护与传承等。
徐永明
徐永明,浙江大学文学院教授,博士生导师。浙江大学求是学者,教育部长江学者特聘教授。浙大文学院数字人文研究中心主任。“学术地图发布平台”、“智慧古籍平台”、“云四库智能问答系统”负责人,明代文学学会(筹)副会长、中国俗文学学会理事、中国古籍保护协会古籍智能开发与利用专业委员会副会长、哈佛大学CBDB指导委员会委员。哈佛大学燕京学社访问学者。《数字人文》《数字人文研究》期刊编委。主要研究元明清文学、数字人文。撰写、整理和编纂了《元代至明初婺州作家群研究》《宋濂年谱》《中国古代戏曲考信与传播》等著述20余种。
洪涛
洪涛,中华书局总经理助理,古联(北京)数字传媒科技有限公司总经理。编审。中宣部出版局新闻出版业科技与标准重点实验室——古籍数字化与知识工程重点实验室负责人。中国历史文献研究会数字文献分会负责人。长期从事古籍数字化研究和出版工作,主持多项国家古籍重点数字化出版规划项目。主持中国出版集团上市募投项目“中华国学资源总库”。国家古籍数字化资源总平台系统建设及运营负责人。
注册流程
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站(可通过该网址报名注册参会)
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
人文智能 2025-12-24 12:01 北京
袁晓如、耿国华、胡韧奋、严程、开讲跨学科教学!
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(十三):跨学科教学
袁晓如(北京大学)
《“可视化+”课程建设》
报告摘要:北京大学在可视化方向,通过开设暑期学校和可视化看中国等校内通识课程,面向多学科背景学生开展跨学科融合教学,以课程项目设计为纽带,链接可视化、人文、设计等不同背景同学,帮助学生理解学科差异和构建合作桥梁,产出高水平课程设计工作,提升综合能力,为跨学科人才培养做了有益的探索。
讲者简介:袁晓如,北京大学智能学院研究员/长聘副教授,博士生导师,教材建设博雅特聘教授,担任大数据分析与应用技术国家工程实验室常务副主任。主要研究方向为可视化通用基础方法及其在社会、人文领域的应用。多次获IEEE VIS, PacificVis, ChinaVis等可视化国内外学术会议最佳论文或提名奖,2017/2021年任IEEE VIS大会论文主席,现任IEEE VIS, PacificVis, ChinaVis指导委员会成员。主持或参与国家自然科学基金委、科技部、教育部、国家文物局等项目,以及国家社科基金,社科文化遗产专项等项目课题。可视化作品入选北京设计周、浙江美术馆、成都美术馆艺术展,及IEEE VIS、PacificVis和ChinaVis等会议艺术项目。创办ChinaVis,任中国图象图形学学会可视化与可视分析专委会首任主任,现任名誉主任。2009年创办北京大学可视化暑期学校,至2025年累计国内外学员2753人次 。担任CCF“人文智能”秀湖会议执行主席。
耿国华(西北大学)
《文化遗产数字化保护交叉创新人才培养的探索与实践》
报告摘要:随着文化数字化战略的深入实施,培养具备“计算+文化”学科交叉创新能力的复合型人才已经成为省属综合型高校计算机学科发展的重要路径。本报告将以文化遗产数字化国家地方联合工程研究中心和西北大学计算机学院学科交叉创新人才培养为例,分析省属综合型高校在“计算+文化”复合型创新人才培养方面遇到的问题,并给出解决问题的思路和探索实践。重点围绕依托学科交叉创新平台构建的“计算+文化”学科交叉创新人才培养模式的实践与成效展开研讨。
讲者简介:耿国华,西北大学二级教授,博士生导师。国家教学名师,“万人计划”领军人才,享受国务院政府特殊津贴专家,全国优秀科技工作者,获CCF 2020杰出教育奖。现任文化遗产数字化国家地方联合工程研究中心主任、全国高校计算机基础教育研究会副会长、教育部大学计算机课程教指委委员、陕西省计算机教育学会理事长。深耕计算机领域教育科研45年,长期从事智能信息处理领域创新研究,成果突出。主持获国家教学成果奖4项,带领国家教学团队,主持国家级课程6门次、主持全国高校黄大年式教师团队、教育部首批虚拟教研室建设、获省级优秀教材一等奖4次,教改成果进课堂,辐射带动作用强。主持完成973前期预研、国科金重点等项目20余项,带领团队科技文化融合,结合国博、秦陵、秦腔实践,为文化遗产数字化保护做出了重要贡献,获国家科技奖及省部级科技奖18项。
胡韧奋(北京师范大学)
《面向新文科人才培养的数学、编程与NLP课程建设》
报告摘要:当下,学术界和产业界对兼具深厚人文素养与现代科技能力的复合型人才需求日益增长。本报告将以北京师范大学语言学及应用语言学(中文信息处理)和汉语言文字学(汉语史)专业课程为例,介绍我们在“新文科”人才培养模式方面的探索。在培养环节中,我们致力于深度融合传统语言文字学、现代语言学与自然语言处理,开设了《Python程序设计》《数学专题》《计算视角的文化史专题》《自然语言处理》等课程,以期助力学生打下扎实的专业基础,并提升跨学科能力。报告将结合教学实践对跨学科人才培养的路径进行讨论。
讲者简介:胡韧奋,北京师范大学副教授,主要从事计算语言学方向的教学、科研和人才培养工作。主持国家社科基金青年项目、国家自科基金青年项目、北京市社科青年学术带头人项目及多项企业委托课题,在ACL、EMNLP等计算机领域顶会、《Language Learning》《Studies in Second Language Acquisition》等高水平期刊发表学术论文50余篇,获国家发明专利授权6项,主持或作为核心成员构建了中文词向量资源库、CCA中文搭配助手、CLRA中文词汇特征分析器、“AI太炎”古汉语大语言模型等资源和应用。
严程(清华大学)
《通识写作的人文向度与智能维度》
报告摘要:本报告围绕作为人文通识写作教学,探讨如何在教学中实现人文关怀与智能方法的深度融合。教学过程以跨学科、开放式的研究写作为主线,引导学生从自身关切的人文议题出发,进行主题写作。在教学内容上不仅讲授通识知识与写作思维,更注重在人工智能背景下推动写作方法及其范式的反思与革新。教学辅助层面亦通过持续整合技术工具,从早期自主研发的“写作自动批改平台”,逐步演进为结合数字人文方法与大语言模型的智能辅学体系,贯穿教学和反馈全过程。通过与学习者共同探索AI融入人文通识教学的全过程课堂实验,形成适应跨学科教学的新范式。
讲者简介:严程,清华大学人文学院副教授、清华大学传统文化智能实验室成员,《数字人文》学术集刊创始编辑、编委。中国中文信息学会社会媒体处理专委会委员。主要研究领域为:古代文论、清民文献、女性艺文、数字人文。在《中国诗学》《现代中文学刊》《文艺理论与批评》等学术刊物发表研究论文二十余篇,并被《新华文摘》等转载。开设“写作与沟通(性别视角/古代生活)”“中国古代文学理论批评”“数字人文”等课程,荣获“2023清华大学年度教学优秀奖”“2025清华大学教学成果一等奖”等。清华大学文科自主科研项目“清代闺秀诗整理与研究”负责人,建设开发“中国古代女子艺文资料库”“中国古代女子艺文数据库”。
宋阳(西交利物浦大学)
《虚实叠映:AR赋能下的建筑人文教学探索》
报告摘要:本次报告聚焦于增强现实(AR)技术在建筑教学与实践中的创新应用。AR通过虚实融合的交互方式,为建筑设计、施工与教学提供了沉浸式、可视化的操作环境。在教学方面,AR帮助学生直观理解复杂构造与参数化设计流程,降低机械臂等数字建造工具的学习门槛,提升空间认知与协同设计能力。在实践领域,AR支持从设计到装配的全流程辅助,实现实时三维指导、人机交互与远程操控,有效衔接数字化设计与实体建造。该技术正推动建筑教育向更互动、更集成、更高效的方向发展。
讲者简介:宋阳,西交利物浦大学建筑系助理教授、博士生导师,西浦数字建造实验室核心研究员。拥有英国伦敦大学学院建筑设计硕士和利物浦大学建筑学博士学位。其研究聚焦建筑数字化设计与建造前沿,涵盖AR/VR技术应用、机器人建造系统、参数化与生成式设计等交叉领域。学术成果发表于建筑数字技术重要期刊及会议,并担任多个SCI一区期刊及国际会议评审专家。兼具建筑实践与跨学科研究经验,曾参与英国数字建筑事务所项目,运用AR与机器人建造技术推动设计与建造的创新融合。
注册流程
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站(可通过该网址报名注册参会)
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
2025-12-24 12:01 北京
CCF人文智能大会特邀各地专家共同探讨人文+智能相关方向实验室建设!
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(十四):交叉实验室建设论坛
王晓光(武汉大学)
《建设面向未来哲学社会科学的数智学术基础设施-武汉大学文化遗产智能计算实验室的实践探索》
报告摘要:数智技术的迅猛发展,正深刻重塑知识生产方式,引发哲学社会科学研究范式与方法革新。科研领域的学术基础设施也逐渐从传统的文献保障型向智能计算型深度转型,对智慧数据资源、智能计算方法与工具以及开放科学理念的融合提出了更高标准。在此背景下,大数据与人工智能驱动的数字人文类实验室正在成为哲学社会科学与前沿科技交叉融合研究的新阵地,承担着知识生产、知识转译与知识体验三大任务,表现出历史模拟实验、文化计算实验、鉴定推理实验与心理行为实验四类实验取向。面对数智技术重塑知识形态与学术逻辑的时代浪潮,新型数智实验范式需要更加新颖的方法论、科学装置与数字平台做支撑,其创新发展将拓展数智时代哲学社会科学研究的广度与深度。
讲者简介:王晓光,二级教授,武汉大学信息管理学院院长,文化遗产智能计算教育部哲学社会科学实验室主任,数字人文研究中心主任,教育部长江学者特聘教授,中组部万人计划“青年拔尖人才”,国家社科基金重大项目首席专家,中国社会科学情报学会理事、中国音像与数字出版协会常务理事,湖北省信息学会副理事长,国际iSchool联盟数字人文教学指导委员会委员,国际知识组织学会(ISKO)科技咨询委员会委员,数字人文机构联盟主席,《信息资源管理学报》副主编,主要研究数字资产管理、信息组织、智慧数据、数字人文。
张宇(哈尔滨工业大学)
《人工智能赋能绿色低碳城市更新国际合作联合实验室建设》
报告摘要:基于面向全球城市可持续发展时代背景,哈尔滨工业大学联合意大利都灵理工大学开展数字城市低碳更新领域科研合作,依托教育部“绿色低碳城市更新国际合作联合实验室”、人居环境智能感知与计算性设计国际联合研究中心,针对智慧低碳城市更新迫切需求,结合中意两国在智慧城市、城市更新、可持续建筑领域优势积累,建立“产-学-研”联动平台,形成多国家、多专业联合发展的局面,促进学科交叉、国际交流,推动城市建筑低碳更新领域技术进步,助力我国城市更新行动进程,支持我国碳达峰、碳中和战略实施。
讲者简介:张宇,哈尔滨工业大学建筑与设计学院教授、博士研究生导师。在科研方面,作为学科青年骨干人才,科研成果颇丰,主持纵向科研项目10余项,其中国家级2项、省部级3项;发表高水平论文五十余篇;获得专利及软件著作权十余项;目前担任多个学术组织的理事及委员,担任City, Territory and Architecture,Building and Environment等国内外多个学术期刊审稿人及客座编辑。研究成果获得省部级科技奖励多项,形成了明确的特色研究方向,具有一定学术影响力。
黄潇婷(山东大学)
《虚实结合文旅场景仿真-数字文旅行为实验室》
报告摘要:本报告系统阐述集成微气候环境模拟舱、沉浸式VR内容制作系统与高精度跑台等核心设备构建多模态、高保真的虚实融合文旅实验环境的实验室建设思路。通过动态模拟地理气候、定制化叙事场景与实时采集多维度生理行为数据,实现对游客认知、情感与行为模式的深度刻画与精准分析。报告将重点探讨该技术体系在文化遗产数字化体验评估、个性化场景设计及业态创新中的实证应用,揭示其在推动人文智能研究与文旅产业范式转型方面的关键价值。
讲者简介:黄潇婷教授,博士生导师,山东大学管理学院副院长,文化和旅游学科带头人,山东大学黄河国家战略研究院黄河国家文化公园研究中心主任;担任世界运输大会旅游交通技术委员会主席,中国旅游景区协会专家委员会专家库专家,中国旅游行为研究学会联合创始人,中国地理学会行为地理专业委员会委员,《旅游学刊》编委,山东省民宿研究学会副会长,山东省旅游饭店协会数字化人才培养专业委员会副主任委员,山东省旅游行业协会旅游康养分会副会长,山东省旅游行业协会旅游规划分会特聘专家,山东省饭店山东省博物馆学会研学专委会副主任委员,山东省新华书店集团研学书香研学项目咨询专家等社会兼职。担任项目总负责人与山东国欣文旅集团(牵头单位)、鲁商、腾讯、海看等企业联合申报的“智慧文旅云平台关键技术的研发及产业化应用”项目成功入选2020年度山东省重大科技创新工程,实现了山东文旅领域科技类项目的零突破;该项目立项经费 2684 万元,将充分利用互联网、物联网、云计算、大数据、人工智能、5G、区块链等先进技术,通过构建智慧文旅综合服务体系(含文旅融合大数据中心、游客服务平台、监管服务平台、企业服务平台和文化创意产业平台)推动“文化+旅游+科技”融合创新发展,探索山东全域文旅融合数字经济的创新实践。
吴晓军(陕西师范大学)
《基于AIGC的文化资源开发利用——民歌智能计算与服务技术文化和旅游部重点实验室》
报告摘要:本报告将展示实验室如何运用人工智能、虚拟现实等现代科技,在文化资源的数字化保护与智能开发方面取得的系列成果,包括民族民间文化资源库建设、书画智能生成、文化遗产虚拟修复、民歌体感交互等。通过案例分享,探讨AIGC技术在活化文化遗产、创新文化体验与服务模式上的巨大潜力,为文化资源的传承与开发利用提供新范式。
讲者简介:陕西师范大学二级教授,博士生导师,教育部科技委委员,陕西师范大学智能感知与先进计算研究中心主任,民歌智能计算与服务技术文化和旅游部重点实验室主任,教育部“新世纪优秀人才”,陕西省“三五”人才,国家重点研发计划首席科学家。1993年本科毕业于西安交通大学,2005年西北工业大学获博士学位,先后在华为公司、西北工业大学等单位从事技术与教学科研工作。主持国家重点研发计划、国家自然科学基金等项目6项。在ICCV、AAAI、IEEE TRANS TVCG等刊物及会议发表论文150余篇。
参加实验室建设交流论坛的专家:
1. 尼玛扎西(西藏大学)藏语智能信息处理及应用国家重点实验室主任、藏文信息技术教育部工程研究中心主任
2. 袁晓如(北京大学)大数据分析与应用技术国家工程实验室常务副主任
3. 刘永革(安阳师范大学)甲骨文信息处理教育部重点实验室主任
4. 王晓光(武汉大学)文化遗产智能计算教育部哲学社会科学实验室主任
5. 姜 圆 (青海大学)三江源生态大数据应用教育部哲学社会科学实验室
6. 吴晓军(陕西师范大学)民歌智能计算与服务技术文旅部重点实验室主任
7. 张 宇(哈尔滨工业大学)教育部绿色低碳城市更新国际合作联合实验室学术委员会秘书处主任、人居环境智能感知与计算性设计国际联合研究中心核心成员
8. 黄潇婷(山东大学)数字文旅行为实验室(山东省文科重点实验室)主任
9. 吴亚东(四川轻化工大学)四川省大数据可视分析技术四川省工程研究中心主任
10. 陈鐿文(西北大学)陕西省文化遗产数字人文重点实验室常务副主任
11. 陈 静(南京大学)中华数智文明创新实验室(江苏省教育厅首批重点资助建设文科实验室)核心成员
12. 王 涛(南京大学)中华数智文明创新实验室(江苏省教育厅首批重点资助建设文科实验室)核心成员
13. 曾 宇(成都大学)天府文化数字化创新四川省文化和旅游厅重点实验室副主任
(更多与会交流专家请持续关注推文!)
注册流程
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站(可通过该网址报名注册参会)
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
人文智能 2025-12-23 17:30 北京
CCF人文智能大会12月26-28日,洪涛、梁继红、杨永、李林芳开讲数智文献!
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(十一):数智文献
洪涛 中华书局总经理助理
古联(北京)数字传媒科技有限公司总经理
报告题目:《以智能技术助力文献质量提升》
报告摘要:随着OCR技术在古籍数字化应用的普及,数字文献的数量近年来迅速攀升,为学术研究提供了极大的便利。人工智能的发展也为数据标注与知识挖掘提供了强的技术支持。在数据数量和数据形式逐步获得满足的同时,对于数据质量的保障逐步成为数据处理的短板。中华书局作为古籍整理出版机构,一直以来对于数据质量有很高的要求,也深知文献出版的难度,有经验的整理者和编辑加之高度的责任心和不倦的努力始终是保证文献整理出版质量的最重要保障。但是对专业人员的需求与工具方法的进步并不矛盾,在图书出版压力越来越大,数据库越建越多的时代,人工智能技术如何辅助提升数据质量,一直以来就是我们关注的话题。我们最近一年来依托积累的高质量数据和人工智能技术作了一些思考和尝试,期待与大家交流探讨。
讲者简介:洪涛,中华书局总经理助理。古联(北京)数字传媒科技有限公司总经理、编审。中宣部出版局新闻出版业科技与标准重点实验室——古籍数字化与知识工程重点实验室负责人。中国历史文献研究会数字文献分会负责人。长期从事古籍数字化研究和出版工作,主持多项国家古籍重点数字化出版规划项目。主持中国出版集团上市募投项目“中华国学资源总库”。国家古籍数字化资源总平台系统建设及运营负责人。
梁继红 中国人民大学
报告题目:《从传统文献到数字文献:古文书学方法论及其普适性》
报告摘要:在数智技术的推动下,传统文献转化为数字文献,在数智化空间中被阅读、整理、研究与利用,这一革命性变革可类比文献史上的“以纸代简”,但其影响将更为深远。从历史经验来看,这一变革的基础是文献的原真性传承。Diplomotics(古文书学,或翻译为古文献学)作为产生于17世纪末法国的方法论学科,它起初的功能是为欧洲中世纪文书辨伪提供科学方法。从18世纪到20世纪,作为方法论的古文书学在与法学、历史学及档案学等多学科的依托发展中,不断壮大自身的方法论体系。古文书学所提供的文献形式分析方法,以及在整体和变化中审视文本形态的观念,不仅将为历史档案的数字化、数据化以及智能分析,特别是为原真性信息的数字迁移,提供方法论基础,对于古书的情况而言而言,同样具有重要意义。
讲者简介:梁继红,北京大学文学博士,中国人民大学信息资源管理学院教授、博士生导师,信息资源管理学院数字人文系主任,《档案学通讯》副总编辑,中国人民大学数字人文研究院研究员。国家级档案专家。
杨永 中国第一历史档案馆
报告题目:《明清历史档案全文数字化建设实践与思考——以中国第一历史档案馆为例》
报告摘要:以中国第一历史档案馆明清档案全文数据化建设实践为基础,探讨人工智能技术在明清档案业务场景中的应用及落地路径。立足档案工作特性,重点介绍满文档案全文数据库以及专题档案数据检索平台建设情况,针对项目实施过程中的难点、痛点,结合人工智能技术发展动态及行业应用,提出明清档案数智化建设的方向和思路。
讲者简介:杨永,中国第一历史档案馆数据处主要负责人,近年来从事明清历史档案数据资源建设统筹规划、开发利用、信息化平台建设等,曾长期参与开展明清历史档案数字化工作。
李林芳 北京大学中国语言文学系
报告题目:《数字古文献学的理论与实践》
报告摘要:随着古籍数字化的广泛深入开展及数字人文领域的兴起与蓬勃发展,大量的古籍文献已从物质实物转变成为数字形态,由此为古文献学带来了新的发展机遇和挑战。本报告将首先探讨数字时代古文献学的理论体系,着重从目录、版本、校勘、辑佚、辨伪等议题入手,审视其数字时代的内涵更新与体系性变化。其次介绍实践方面的工作,重点为在传统古籍整理基础上的进益,包括领域知识整理上的尝试、呈现方式的探索等,讨论背后所体现的知识化、智能化的演进方向。
讲者简介:李林芳,北京大学中国语言文学系助理教授。主要从事于中国古典文献学、先秦两汉文学与文献、数字人文的教学与研究工作。在《文史》《数字人文》等刊物上发表学术论文多篇,主持及参与科研项目多项。
注册流程
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站(可通过该网址报名注册参会)
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
人文智能 2025-12-23 17:30 北京
梁蓝波、叶强、鲁艺、邴寅、周融荣开讲人工智能艺术设计,早鸟优惠截止至12.16!
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(十二):人工智能艺术设计
梁蓝波(澳门大学)
《以智能科技推动中国艺术与设计的创新性演进》
报告摘要:传统为何需要当代?传统又如何实现当代?讲座将通过当代水墨和沉浸式数字水墨生成影像装置等艺术创作和设计案例,探讨如何借助数字科技与人工智能,从时代性、独特性和精神性等多个维度,推动中国艺术和设计在传统到当代的转化中实现创新性演进。
讲者简介:梁蓝波,澳门大学特聘教授、博导、艺术设计中心主任、曹光彪书院副院长,美国哥仑比亚密苏里大学终身教授。中央美术学院博士,中国美协会员。曾举办个展70多次,入选国际性或全国性经同行评审联展470多个,获德国红点奖至尊奖、美国好设计金奖、意大利A' Design Award(A'设计奖)银奖和中国“国家艺术基金”等奖项和研究基金130多项。其作品常见于佳士得,并被斯坦福大学坎托艺术博物馆、明尼阿波利斯艺术博物馆等世界十多个博物馆所收藏,作品获选为公共艺术永久镶嵌于美国旧金山公园和哥伦比亚市政厅,并被纽约《国际新美术》、加州《艺术前沿》和伦敦《创意天才:100位当代艺术家》等书刊选为封面。
叶强(北京航空航天大学)
《AI 时代艺术教育的麦田守望》
报告摘要:“麦田守望”的隐喻,恰是 AI 时代艺术教育的精神注脚:在算法迭代的数字浪潮中,艺术教育既要敞开胸怀接纳技术革新的时代养分,更要稳稳守护人文精神的核心麦田;在坚守本质与拥抱创新的动态平衡中,培育兼具深厚人文情怀与前沿技术素养的新时代艺术人才。从“时代的挑战、守望的内核、践行的路径”三方面,构建演讲核心框架与表达逻辑,呈现 AI 时代艺术教育的坚守与前行。
讲者简介:叶强,北京航空航天大学新媒体艺术与设计学院教授,科技艺术研究中心主任,北京市美术家协会插图装帧艺委会委员。绘画作品及论文百余次发表于《美术》《美术观察》《中国油画》等20余种专业核心期刊及《中国油画史》《中国先锋艺术思想史》等重要艺术史专著。受邀在上海美术馆等艺术机构举办8次个人作品展;作品百余次在中国美术馆、广东美术馆、卢浮宫卡鲁塞尔厅等学术场所展出。出版个人专辑画册4本。编著出版《抽象绘画简明教程》等7部专业教材;主编多套系列丛书,曾获“2023年全国优秀科普作品”、“中国外文局2024年优秀国际传播作品”等荣誉。获重庆市高等教育教学成果二等奖,北京市高等教育教学成果二等奖等。
鲁艺(北京工业大学)
《面向智慧出行的数字文旅融合共创示范应用》
报告摘要:报告以文化场景牵引智慧出行创新的核心理念,将传统的导航工具升级为文化传播载体,通过提炼文化主题线路、构建三维文旅知识库、打造专属数字IP,形成贯穿行程始终的文化体验方案,探索“车-人-城”情感共鸣与商业赋能的新路径,为智能出行注入文化DNA。
讲者简介:鲁艺,北京工业大学艺术设计学院副院长,教授,国家高层次青年人才。兼任北京市美术家协会艺术设计委员会副主任、北京市交叉科学学会设计创新专委会副主任、京津冀设计学科联盟专业委员会委员、CCF(中国计算机学会)人机交互专委会执行委员、中国美术家协会会员等。 主持国家社科基金后期资助项目、国家社科基金高校思政专项、国家艺术基金项目、北京市科委揭榜挂帅项目等项目20余项;在 CSSCI、SCI、SSCI、Nature子刊等期刊发表学术论文30余篇; 曾获首都“教书育人先锋”称号,入选教育部专业学位优秀案例首席专家,作品获德国iF设计奖等。
邴寅(中国美术学院)
《具身数据、集体记忆与分布式叙事:基于设计虚构的沉浸体验》
报告摘要:人工智能对科技艺术的影响,正使其面临19世纪末运动影像刚被发明时的状况——“未有稳定的形式,但能够呈现任何形式”。本报告将以近期的艺术实践出发,探讨基于数据的沉浸体验设计,如将皮埃尔·诺拉(Pierre Nora)的“记忆之场”概念延伸至算法维度,将记忆重新定义为由人类主体、数字数据及计算系统共同演绎的分布式过程。
讲者简介:邴寅,动画导演、多媒体艺术家,清华大学信息艺术设计博士。中国美术学院创新设计学院媒介交互研究所第一工作室主任,中国美术学院AI中心副研究员,数字艺术显示文化和旅游部创新中心研究员,文化和旅游部青研计划扶持人才。主要研究方向包括延展动画、科学可视化及沉浸叙事。作品曾入围戛纳电视节、萨格勒布动画节、釜山国际电影节、北京国际电影节等十余个国际节展,并于奥地利林茨电子艺术节、SIGGRAPH Art Gallery、IEEE VR Gallery、ACM MMSys等展出,曾担任中国科幻大会“设计幻象”大展、首届中国数字艺术大展的执行策展人。
周融荣(中国外文局)
《折纸作为隐喻:智能艺术的当下有限维度》
报告摘要:虽然现代数学公式、机械图形和代码是当下人工智能最擅长阅读的领域,但先进AI对话普遍在理解“折纸(Origami)”的过程逻辑上出现了困难,哪怕折纸的原理在高等数学中不算抽象。这并不偶然。作为数学艺术的代表,折纸是全球文化中共有的、历史悠久的自组织的跨学科系统,也是计算图形中二维格点走向三维流形(manifold)的技术关键。比较第一代机器学习艺术家的作品,先进的AI视觉工具并未明显提升其作品的质量,反而容易令其创作“扁平化”,进而局限于三维表面的二维流形。这也为我们下一步更新世界模型、创作方法、数据集提出了启发。AI尚在二维走向三维的过程中,这与一百多年前的科幻小说《平面国》中所述,恰恰是一致的。
讲者简介:周融荣,博士、科幻作者,中国外文局(China International Publishing Center)研究专员、策展人,中宣部、外交部、科技部项目顾问,《科学传播与科学教育》青年编委,意大利设计刊《INTERNI》中文专栏主理。毕业于香港科技大学数学系(BS)、苏富比艺术学院(MS)、中央美术学院(Ph.D)。获科幻“光年奖”等。发表包括数学、哲学、人机交互、科学史、文学艺术领域,见诸美国数学联席会议(JMM)、美国哲学年会(APA)、人机交互国际会议(HCII)、国际科史学会(DHST)、奥地利林茨电子艺术节等。
注册流程
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站(可通过该网址报名注册参会)
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
郑宇熹 周子茗 2025-12-22 17:30 北京
西夏文字是研究西夏历史文化的重要载体,因其字形结构独特、研究人员稀缺,其解读和研究面临诸多挑战。人工智能技术的发展为走出这一困境提供了新途径,但仍受限于标注数据稀缺的现状。
实体·笺注·翻译
郑宇熹/北京大学中国语言文学系
周子茗 / 北京大学中国语言文学系
张永伟 / 中国社会科学院语言学重点实验室(通讯作者)
孙伯君 / 中国社会科学院民族学与人类学研究所
乔晚馨 / 北京工业大学经济与管理学院
侯君明 / 广西师范大学出版社(北京)有限公司
俞敬松 / 北京大学软件与微电子学院
摘要:西夏文字是研究西夏历史文化的重要载体,因其字形结构独特、研究人员稀缺,其解读和研究面临诸多挑战。人工智能技术的发展为走出这一困境提供了新途径,但仍受限于标注数据稀缺的现状。本研究聚焦于低资源条件下的西夏文OCR与机器翻译两项任务。在OCR任务中,使用字体生成技术构造了训练数据,在仅使用500张真实标注图片的前提下实现了83.1%的准确率。在机器翻译任务中,结合大语言模型和西夏文辞书知识,实现了西夏文到汉语的对译和意译。实验结果表明,仅依靠数百组西夏文—汉语句对齐语料,模型就能在两项任务中展现出良好性能。
关键词:西夏文 低资源 光学字符识别(OCR) 机器翻译
引 言
西夏文献作为珍贵的历史文化遗产,对于西夏历史和文明的重建、对于宋辽金元历史文化的研究、对于包括敦煌文化在内的“丝绸之路”古代社会经济文化的研究等都有重要的作用。[1]据统计,现存西夏文献总计约500万—600万字,其中宗教佛经占比高达80%。[2]西夏文在创制过程中受到汉字影响,呈现典型的方块字特征,其字形结构与汉字多有相似之处,除不具备“全包围结构”外,其余结构形式均可在汉字中找到对应。然而,西夏文字结构繁复,字形相似度高,辨识难度较大。
西夏文献研究经历了纸质化、电子化和数字化发展阶段,内容研究也从释字逐步扩展至西夏词汇、词类和结构研究等。[3]百余年来,学界在西夏文研究方面取得了丰硕的研究成果。然而,在数智时代,西夏文的全文检索、信息处理和知识挖掘等方面的研究相对滞后,仍以传统的人工阅读、识别和摘录为主。图像光学字符识别(Optical Character Recognition,OCR)是西夏文献数字化的基础,也是后续研究的前提,而机器翻译则能够显著降低西夏文献解读的难度,提升解读效率。因此,OCR和机器翻译是西夏文信息处理的两项关键任务。
人工智能依赖于算法、算力和数据三大核心要素。在古文字处理领域中,高质量训练数据的稀缺是制约技术落地的核心难点。对于西夏文而言,公开的高质量训练数据尤为匮乏。在西夏文OCR方面,仅Tangut Database数据集可开放获取。该数据集仅包含668个字符的16,320张字图,只及Unicode标准收录西夏字符的1/10。[4]此外,该数据集字符数量分布极不均衡,单字符的字图最多的有528张,最少的仅有2张,超过200个字符的字图少于5张,严重影响了模型训练效果及其应用推广。在西夏文解读和翻译方面,西夏文-汉语对译数据仅以单个文献为单位少量公开,缺乏系统性,且多以纸本形式出版,录入和再利用成本高昂。因此,如何在有限的数据资源条件下提升模型性能,已成为西夏文信息处理领域亟待解决的关键问题。
本文探究了低数据资源条件下西夏文OCR和机器翻译的实现方案,旨在为西夏文献的解读与研究提供支持。针对西夏文OCR训练数据不足的问题,本文通过字体生成技术扩充了训练集,在仅使用500张真实标注图片的前提下达到83.1%的识别准确率。针对西夏文机器翻译任务,本文提出一种结合大语言模型和专家知识的方法,分别实现了西夏文的对译和意译。实验结果表明,仅需数百个西夏文-汉语对译和意译对齐数据组,即可训练得到具有一定实用价值的翻译。
一、相关工作
本文相关工作主要涉及西夏文信息处理、字体生成技术、西夏文字识别方法和基于大语言模型的机器翻译技术四个方面。
(一)西夏文信息处理
进入20世纪90年代,西夏研究在文献整理、机构建立、专题研究、学术交流和成果数量等多个方面都有了很大的进展。[5]不少学者开始关注电脑处理西夏文问题,在西夏文字库的建立以及排版系统的开发方面取得了一些成果。1999年,宁夏大学计算中心主任马希荣教授研制出“夏汉字处理及电子字典”,其中就有西夏文字符集。2005年,时任宁夏社会科学院研究员的景永时和贾常业研制出“基于北大方正典码之上的西夏文字录入系统”,该系统设计的西夏文字符集借用了汉字楷体笔画。[6]西夏文处理系统的研制大大改善了西夏文计算机处理的状况,并逐渐在西夏学与计算机学科间产生了一个交叉研究方向——西夏文信息处理。研究者们也开展了一系列相关科研工作,如在线夏汉电子字典[7]、西夏音韵数据库[8]和西夏语料库[9]的建设。近年来,人工智能技术蓬勃发展,西夏文字识别也引起国内外众多学者关注,不断涌现出了新的方法。随着西夏学研究的深入,“四行对译”成为使西夏文献研究与历史语言学、文献语言学研究接轨的重要方法,这也提出了西夏文机器翻译技术的需求。[10]
(二)字体生成技术
本文尝试通过字体生成技术缓解西夏文OCR缺乏标注数据的问题。字体生成作为图像生成的重要分支,其目标是通过一个模型和一批参考字,生成与参考字风格相似的一批字图。早期的字体生成模型借鉴了通用图像生成模型的编码器-解码器架构,例如开源项目zi2zi和FUNIT。[11]后续的研究将字体生成任务中笔画、部件等独有的特征融入编码器,以更好地捕捉字体的细节和结构。[12]近期也有研究使用扩散模型将字体生成建模为加噪声和去噪声的过程,例如FontDiffuser。[13]这种方法生成的字形优美,但容易出现部件的笔画细节错误,本文没有采用。
(三)西夏文字识别方法
文字识别算法旨在将字符图像转换为对应的文本。单字符识别任务本质上是一个图像分类问题。按照识别技术划分,西夏文字的识别主要经历了传统识别方法和深度学习识别方法两个发展阶段。[14]传统识别方法包括基于结构的方法[15]、基于统计的方法[16]和基于支持向量机的方法[17]。深度学习识别方法包括基于CNN的方法[18]和基于RNN的方法。[19]深度学习方法使西夏文字识别取得了长足进展,但尚存在依赖大量标注数据、识别精度不高等问题。
ViT(Vision Transformer)[20]模型在计算机视觉领域的重要性逐渐增加。其通过将输入图像划分为固定大小的图像块(patches),并将其转换为一维向量序列,继而输入Transformer结构进行监督式图像分类训练。研究表明,经过大规模数据预训练的ViT模型在迁移学习场景中表现出显著的数据效率优势,即在目标任务中所需的训练样本数量大幅降低。在文字识别领域,基于Transformer架构的模型如TrOCR[21]和EVA-02[22]已成为主流解决方案。其中,适合于字识别模型的EVA-02模型采用了改进的TrV(Transformer Vision)架构,在保持模型参数规模相当的情况下,通过优化计算架构显著降低了计算成本,并在多个基准测试中实现了最优性能。
(四)机器翻译技术
机器翻译是自然语言处理的核心任务之一,旨在将源语言自动转换为目标语言。截至本文撰写之时(2025年2月),尚未检索到公开发表的关于西夏文机器翻译的研究成果。对于古代语言等低资源语言,机器翻译系统需要应对独特的挑战,比如不完整的词典、碎片化的文本以及母语使用者的缺乏。早期依赖规则和统计的方法难以应用于资源匮乏的语言。近年来,由于神经网络模型和迁移学习技术的发展,低资源语言的机器翻译逐渐受到了重视。序列到序列模型[23]和Transformer架构[24]彻底改变了这一领域,实现了具备上下文感知能力的更强大的翻译。[25]随着GPT[26]等生成式大语言模型的发展,最近的工作展示了大语言模型在这一领域的潜力。[27]基于微调大语言模型以处理低资源语言的范式已经应用于拉丁语[28]和古希腊语[29],并且达到了最先进的性能。在低资源机器翻译中的一个关键创新是使用辅助资源,如词典、平行文本和多语言嵌入,[30]以增强模型性能。在有限的平行数据场景中,反向翻译、数据增强和迁移学习等技术[31]已被证明有效。此外,包括思维链(Chain-of-Thought,CoT)[32]和少样本学习(Few-Shot)[33]在内的提示策略,已成为指导大语言模型处理低资源任务的强有力的工具。
二、西夏文OCR
本节通过字体生成技术构建训练数据集,实现了西夏文字全字符集的识别。
(一)基于字体生成技术的数据集构建
2016年6月,Unicode 9.0开始收录西夏文字符,包括6,125个西夏文字,755个构字部首,共计6,880个字符。本研究的目标是识别所有这些西夏文字及部首。OCR模型的训练通常需要大规模的标注图像数据。然而,通过人工构建传统的OCR训练数据集耗时耗力,且难以解决样本不平衡问题。鉴于西夏文与汉字的渊源关系,本研究采用字体生成算法,模拟汉字字体风格生成西夏文字图像,构建训练数据集。由于西夏文没有大量字体可用于输出评价生成效果的客观指标,只能依靠专家主观判断来评价生成质量。经大量实验发现,基于生成对抗网络的字体生成模型中MX-Font模型[34]在西夏文字图像生成方面风格拟真度高,整体表现最为优异。而基于扩散网络的FontDiffuser模型则容易出现笔画生成出错的情况,见图1。
图1 扩散模型生成的部件出错的西夏文字图
(左侧为银川体,中间为风格变换目标字体,右侧为生成效果)
本文选用西夏银川体[35](Tangut Yinchuan)为西夏文图像参考字体。由于MX-Font模型未公开,需自行训练。本研究参照西夏银川体风格,选取风格相似的方正萤雪体作为参考字体,收集了432个汉字字体作为风格变换目标字体,并选择432个字体共有的4,339个字符作为训练集。同时,本文收集了这4,339个字符的部件信息,供特征分类器使用。字体生成实验基于Ubuntu 20.04.6 LTS操作系统,软件环境为CUDA 11.8,PyTorch 2.1.1(torchvision 0.16.1),Python3.10.13。硬件配置包括8块NVIDIA RTX 4090图形处理器。训练阶段,使用Adam优化器,批大小设置为24,最大迭代次数设置为800,000,生成器和辅助分类器的学习率分别设置为0.0002和0.0002。
利用最终训练得到的模型生成了101种风格的西夏文全字符集图像,生成效果见图2,最顶端的6个“典”字图像为6种不同汉字字体的参考字图,最左侧的3个图像为3个西夏银川体字图,它们的右侧为依据不同字体的汉字风格生成的西夏文字图像。
图2 西夏文字体生成效果,包括版刻风格以及部分手写体,最左栏为银川体
为增强生成数据的多样性以提高模型的泛化能力,本文对生成的西夏文字图像进行了数据增强,具体方法如下:(1)在0.6—1.4范围内随机调整字图的长宽比;(2)在-15°—15°范围内随机调整字图的角度;(3)50%的概率对字图的四边执行随机裁剪,范围是0%—20%;50%的概率对字图的四边执行随机扩充,范围是0%—40%;(4)再次在0.6—1.4范围内随机调整字图的长宽比;(5)50%的概率使用TIA算法[36]扭曲图像;(6)对笔画颜色执行随机加深或淡化;(7)30%的概率给字图增加多尺度噪声及纸纤维噪声;(8)30%的概率对字图执行中值滤波。对所有生成的西夏文字图像执行10次数据增强操作,共获得1,010套增强数据集。将原始未增强数据与增强数据合并,得到完整的西夏文OCR数据集,每个西夏文字符均包含1,111个不同的图像样本。
(二)实验数据
本文采用分层随机抽样法对构建的生成字体数据集进行划分,按照90%、5%、5%的比例分别构建训练集、验证集和测试集。具体而言,每个西夏文字符在训练集、验证集和测试集中分别有1,000个、56个和55个图片样本。
为了评估模型在真实西夏文献中的识别性能,本研究从普林斯顿大学图书馆馆藏西夏文献《妙法莲华经》第四卷中随机选取了部分页面作为真实测试集的来源。通过字符图像提取和人工验证相结合的方法,最终构建了包含219类西夏文字符,共计1,000个图像样本的真实测试集,用于模型性能的客观评估。
为进一步验证方法在扩充真实数据后的表现,本研究从真实测试集来源额外收集了500个图像样本进行标注,并对这些样本执行了10次数据增强操作,构建了补充训练集。在模型训练过程中,首先将生成的伪字体数据集输入神经网络进行训练,随后再引入补充训练集以进一步优化模型表现。
(三)模型选择
预训练模型可以降低小样本任务的训练难度并且显著提升任务性能。本研究以EVA-02预训练模型(参数规模为86M)为基础,进一步使用生成的西夏文字体数据集进行有监督微调训练。这种训练范式不仅充分利用了预训练模型在视觉特征提取方面的优势,同时也针对西夏文字的特点进行了模型优化。
(四)实验设置和评价指标
本实验基于Ubuntu 20.04.6 LTS操作系统,软件环境为CUDA 11.8,PyTorch 2.0.0(torchvision 0.15.1),Python 3.8.18。硬件配置包括8块NVIDIA RTX 4090图形处理器。考虑到西夏文献页面的物理特征、文字结构特点以及字符在图像中的空间分布特性,本文将西夏文字图片等比缩放到96×96像素,将patch设置为8×8像素,也就是将输入的字符图像划分为144个等大小的图像token进行特征提取。为了提升模型的泛化能力,本研究采用标签平滑交叉熵损失函数(Label Smoothing Loss),对标签分布进行适度平滑化处理,抑制模型过拟合。本实验采用Top-1准确率作为西夏文OCR任务的评价指标。Top-1准确率为模型预测的类别与真实类别完全一致的样本数占测试集中总样本数的比例,计算公式如下:
(五)结果与分析
模型经20个epoch微调训练后达到收敛,训练损失函数曲线如图3所示。
图3 西夏文识别模型训练损失函数曲线
为全面评估本文方法在西夏文OCR任务中的性能,本研究分别测试了两种训练集设置的效果:仅使用生成的伪造字体、结合生成的伪造字体与少量真实标注图片。具体结果详见表1。
表1 西夏文OCR结果[37][38]
ab
实验结果表明,本文提出的方法在未使用任何真实标注图片的情况下,便达到了74%的识别准确率,并覆盖了Unicode9.0西夏文完整字符集。进一步引入500张真实标注图片后,识别准确率显著提升,超越了基于结构的识别方法(训练数据包含3,000张真实标注图片)的表现。然而,受限于标注数据规模,该方法的识别准确率仍低于使用100,000张图片训练的CNN方法。这一结果表明,本文方法对真实标注图片的依赖较低,具有良好的适应能力,可推广应用于其他低资源文字的识别任务。
三、西夏文机器翻译
本节致力于构建西夏文至汉语的机器翻译系统,重点探讨西夏文的对译与意译两种翻译模式。在西夏文献研究中,“四行对译”是一种传统且重要的解读范式,其具体形式如表2所示。
表2 西夏文“四行对译”示例[39]
“四行对译”范式中第1行为西夏文原文,第2行为西夏文的拟音转写,第3行与第4行分别为汉语对译译文与汉语意译译文。对译过程主要体现为词语层面的一一对应转换,而意译则需要在准确把握原文语义的基础上,依据汉语的句法规则与表达习惯进行语序重组和语义重构。值得注意的是,当遇到汉语中缺乏对应字的西夏文字时,研究者通常采用“△”符号进行标记。在意译环节,这些标记符号需要根据上下文语境与语义关联进行合理转换与表达。相较于对译,意译过程涉及更为复杂的语言认知与转换机制,实现难度更高。
图4 《简明夏汉字典》中“”条目
(一)实验数据
1.西夏文字—汉语翻译数据
本文方法以西夏文字的汉语翻译作为参考,采用的汉语翻译数据源自李范文编撰的《简明夏汉字典》。[40]本文从《简明夏汉字典》中为6,703个西夏文字头抽取了8,245个义项,平均每个西夏文字1.23个义项。其中,748个西夏文字有2个义项,206个西夏文字有3个义项,多于3个义项的西夏文字有98个。
基于词典释义,本文构造得到两类西夏文字—汉语翻译数据:(1)完整释义(表示为Dict),包含字词解释、序号和词性等信息;(2)简化释义(表示为DictSingle),仅保留简单字词解释,并转换为简体汉字。以字典中西夏文字“”为例(参见图4),其完整释义为“1.種、苗、裔[名詞];2.胤;3.明;4.習”,简化释义为“种、苗、裔、胤、明、习”。
2.西夏文—汉语句对齐数据
本研究使用的西夏文—汉语句对齐数据集源自《三代相照文集》和《华严经》第77卷。其中,《三代相照文集》的句对齐数据有569组,[41]包含对译和意译两种类型,示例如表3所示。
表3 《三代相照文集》数据示例
《华严经》第77卷的句对齐数据有525组,[42]包含日语译文和汉语译文,两者均为意译。为获得标准对译文本,我们运用ChatGPT-4o模型将日语译文转换为符合对译要求的汉语译文。表4展示了《华严经》第77卷数据示例。
表4 《华严经》第77卷数据示例
实验采用《三代相照文集》作为主要数据来源,随机选取其中95%的数据构成训练集,剩余5%的数据构成测试集。由于《华严经》第77卷的525组数据未严格遵循四行对译格式,仅用于评估模型的迁移学习能力。
(二)模型设计
本研究提出了一种专家知识增强生成的西夏文翻译方法。该方法通过在大语言模型的提示词中整合西夏文字—汉语翻译数据,实现西夏文的精确对译和意译。
1.基础大语言模型的选择与微调
本研究选择本课题组在Qwen1.5-14B-Chat模型上进一步训练得到的古汉语大语言模型(表示为QwenClassical)作为基础模型。首先,使用Qwen1.5-14B-Chat模型在包含古文全集、文白对照语料以及文史哲典籍等文本的36GB数据上进行继续预训练,以增强其对古汉语的理解能力。随后,利用76个古汉语任务的39万条数据对其进行微调,以提升模型在特定任务上的性能。[43]最终,为了实现西夏文到汉语的翻译,使用对译和意译数据进行最终的微调训练。作为对比,本文也使用相同的对译和意译数据对Qwen1.5-14B-Chat模型(表示为Qwen)进行了微调训练。
2.对译模型提示词设计
在基于大语言模型的西夏文对译任务中,我们设计了一种基于字符级提示的策略。具体而言,输入提示中包含了每个西夏文字及其对应的汉语释义,其具体格式见图5。
图5 西夏文对译提示词
以“”的对译为例,使用西夏文字的汉语简化释义时,其完整提示词如图6所示。
图6 “”对译提示词
图6所示的提示词中方括号内的文字是每个西夏文对应的汉语简化释义。对于这个例子,输出的西夏文对译结果应为:“罪非皆不为”。此外,提示词中除可使用西夏文的汉语简化释义外,亦可采用其汉语完整释义。
3.基于思维链的意译模型提示词设计
在基于大语言模型的西夏文意译任务中,有两种不同的提示策略:直接意译策略(表示为Prompt)和思维链意译策略(表示为PromptCoT)。前者指示模型直接生成目标语言(汉语)的意译结果,后者则将翻译过程分解为两个阶段:首先,模型进行逐字对译;其次,模型基于初步的对译结果进行语义重构,生成最终的汉语意译文本。采用思维链策略的提示词[44]格式如图7所示:根据候选词先构造西夏文的对译,在对译的基础上再生成西夏文的意译:
图7 西夏文意译提示词(思维链策略)
以“”为例,输出的西夏文对译应为“此复退难自何见,△想△则人悲痛”,意译应为“此复难退自何见?我等每思则悲哭”。
(三)实验设置和评价指标
本实验基于CentOS Linux release 7.9.2009操作系统,软件环境为CUDA 11.8,Pytorch 2.0.1,Python 3.10.13和transformers 4.37.2。硬件配置包括2块NVIDIA A800 80G图形处理器。在对译和意译任务的微调训练中,均采用以下超参数设置:最大训练轮次为5,批大小为8,梯度累积步数为1;优化器选用AdamW,权重衰减设置为0.1,学习率为0.0003,采用cosine学习率调度策略,预热比例为0.01;训练精度采用bf16;每设备训练批大小为8,每设备验证批大小为1;模型最大长度设置为512。
实验中,我们控制了三个变量:字典释义类型、基础大语言模型类型和提示策略类型。为评估西夏文对译和意译的性能,本研究采用BLEU-4[45]作为评价指标,值越大说明翻译效果越好。
(四)结果与分析
1.机器翻译性能评估
表5展示了不同变量下西夏文自动对译模型在测试集上的性能评估结果。结果显示,DictSingle+QwenClassical模型在测试集中获得了72.33的BLEU-4得分,取得了最佳性能。使用不同类型的西夏文—汉语翻译数据进行微调,QwenClassical模型的性能均优于原始Qwen模型。同时,使用汉语简化释义而不是完整释义,也可以提升模型的翻译性能。这可能是因为简化的提示词有助于模型捕捉并理解核心信息。
表5 西夏文自动对译测试结果
表6展示了基于古汉语大模型的西夏文自动意译模型在测试集上的性能评估结果。结果表明,DictSingle+PromptCoT模型在测试集上均取得了最佳性能,其BLEU-4得分为64.2。使用思维链提示策略而不是直接输出意译可以显著提升模型性能。这可能是因为思维链策略模拟了人类翻译的认知过程,即先理解原文语义(对译),再进行表达转换(意译),从而为模型提供了更清晰的推理路径,有效减少信息丢失和歧义,进而提升意译结果的连贯性和准确性。
表6 西夏文自动意译测试结果
测试结果表明,本文实现的西夏文机器翻译模型在自动对译和自动意译两个方面均达到了实用水平。
2.训练集规模对模型性能的影响
为探究训练集规模对模型翻译性能的影响,本研究在不同规模训练集上进行了对比实验。我们从测试数据中随机抽取28组作为固定测试集,从训练数据中随机抽取100至500组作为训练集。对译采用DictSingle+QwenClassical配置,意译采用DictSingle+QwenClassical+PromptCoT配置。实验结果显示,随着训练集规模的增加,模型在对译和意译任务上的性能均呈现稳步提升趋势,详情见表7。值得注意的是,即使在仅有100组训练集的情况下,模型也展现出了显著的少样本学习能力,验证了大语言模型在低资源翻译任务中的特殊优势。
表7 基于不同规模训练数据的西夏文机器翻译性能评估
3.迁移学习及模型泛化能力评估
为考察模型在新文献上进行机器翻译的迁移能力,本研究以《三代相照文集》作为基础训练集,逐步加入不同规模的新文献数据进行模型微调。具体而言,在保持基础训练集不变的情况下,分别引入40组、80组、120组、160组和200组《华严经》第77卷的对译和意译数据。为评估模型性能,我们从《华严经》第77卷中随机抽取26组未参与训练的句对作为测试集。实验配置与前述保持一致,对译采用DictSingle+QwenClassical配置,意译采用DictSingle+QwenClassical+Prom-ptCoT配置。
表8 不同补充数据量对西夏文机器翻译效果的影响
实验结果表明,即使引入少量目标领域文献数据,模型也能初步展现对新文献的表达模式的翻译适应能力。随着目标文献数据量的增加,模型的迁移学习能力得到提升。当补充数据量达到200组时,模型性能达到最优,此时,对译和意译的BLEU-4值分别为30.62和37.00。这表明,借助其他已翻译文献,并辅以少量目标领域文献的高质量人工翻译数据,可以有效提升西夏文机器翻译性能,使其在实际应用中具备可行性。
4.与少样本学习方法的对比
为了阐明微调的必要性,采用少样本学习的方法对目前综合性能表现优异的ChatGPT-4o、DeepSeek-V3和Gemini-2.0-Flash进行了实验。对译提示词采用DictSingle,意译提示词采用DictSingle+PromptCoT。随机从《三代相照文集》训练集中抽取5条样本作为示例输入模型,并使用《三代相照文集》测试集。基于三个模型的输出计算BLEU-4值,实验结果汇总于表9。
表9 与少样本学习方法的性能比较
实验结果表明,无论是自动对译还是自动意译,本文提出的模型得分均显著高于少样本学习方法下的ChatGPT-4o、DeepSeek-V3和Gemini-2.0-Flash。这表明,通用模型由于其训练数据中缺乏面向本研究任务的相关内容,生成能力难以满足西夏文对译与意译任务的需求。而通过微调,我们显著提升了模型在特定任务上的适应能力,使得自动对译和意译的质量大幅提高。基于上述对比结果,可以进一步验证微调策略的有效性和必要性。
5.机器翻译质量分析
为了直观展示自动对译和自动意译效果,现分别选取典型示例进行分析,结果如表10、表11所示:
表10 西夏文自动对译结果示例
表11 西夏文自动意译结果示例
表10所示为简单句和复杂句的自动对译示例。分析结果显示,对于简单句翻译,模型能够精确捕捉源语言的语义信息并实现准确转换;对于复杂句翻译,尽管机器翻译输出与参考译文在局部表达方式上存在细微差异,但整体上仍然保持了较高的语义完整性和表达准确度。这表明本研究所提出的模型在处理不同语言复杂度的翻译任务时具有良好的鲁棒性。表11呈现了自动意译示例,其中标准对译中的省略内容以“△”符号表示。自动意译时,模型能够有效识别并补充这些隐含信息,从而生成更完整的译文。
四、西夏文OCR与机器翻译的协同机制探索
西夏文OCR和机器翻译技术分别在图像数字化和语义理解方面发挥着重要作用。然而,这两种技术并非独立运行,在西夏文数字化研究中,它们实际上是一种相辅相成的协同关系。首先,西夏文OCR和机器翻译存在工作流程上的先后关系。OCR是将西夏文文献转化为机器可识别文本的第一步,为后续处理如机器翻译提供了基础。然而由于数据缺乏,现有OCR技术获得的文本不可避免存在识别错误的问题。而OCR的准确性对机器翻译结果的质量至关重要。如果OCR结果出现大量错误字符,可能直接导致文本语义不完整或错误,从而令后续的机器翻译失去实际效用。但是从另一个角度来看,机器翻译可以看作是OCR输出文本理解的一种延伸。翻译结果在揭示文本语义信息的同时也为识别过程中产生的错误提供了一种检查和纠错的可能,进而可以形成反馈循环。具体而言,可以从这几个角度着手:
第一,OCR错误可分为以下两类:1.字符丢失或冗余:由于文本噪声可能出现字符的缺失或冗余。文字检测模块的能力通常较强,这种错误出现较少。2.字符识别类:西夏文字形相近字符之间易被混淆。这两类问题都可能造成对语法结构的破坏或词语层级的翻译错误。这也提示我们可以通过洞察翻译结果中的这些错误对OCR结果进行验证。
第二,相当数量的西夏文典籍有汉文对读文献,但是目前只有很少一部分进行了对齐工作。可以使用OCR识别后机器翻译的文本和汉文对读文本进行相似度的计算,进而实现对齐工作,逐步丰富西夏文平行语料库。基于平行语料库,不但可以对相似度较低的语句进行复核,判断OCR结果是否出错,也可以参照汉文文本辅助西夏文字的释读,比如给出语义匹配的可能字符建议。
第三,随着深度学习和多模态大模型技术的发展,OCR和机器翻译的结合研究将有广阔的发展前景。现有多模态模型已经可以实现输入一张图片,同时输出OCR文本和翻译结果。将两者结合到一个统一的深度学习框架中,有望利用大语言模型强大的语义推理能力实现协同优化。
五、总结与展望
本文针对低资源场景下西夏文信息处理的挑战,分别在西夏文OCR和机器翻译两项关键任务上提出了解决方案。在西夏文OCR任务中,本研究利用字体生成技术构建了大规模西夏文字符图像数据集,并基于EVA-02预训练视觉模型实现了Unicode9.0西夏文全字符集识别。在仅使用500张真实标注图片的情况下,该模型取得了83.1%的字符识别准确率。在西夏文—汉语机器翻译任务中,本研究基于生成式大语言模型,结合辞书专业知识,通过提示词工程构建了西夏文—汉语对译和意译模型。即使在平行语料资源有限的情况下,该模型也取得了令人鼓舞的翻译结果。本研究为西夏文献的数字化和解读提供了新的技术手段,并对其他低资源文字和语言的研究具有借鉴意义。
本研究仍存在一些局限。在OCR任务方面,由于标注数据规模较小,识别准确率仍低于使用100,000张图片训练的CNN方法。在机器翻译任务方面,目前的翻译模型主要依赖于《简明夏汉字典》提供的单字释义和有限的句对齐数据,西夏文—汉语平行语料库规模也相对较小,未来需要进一步扩充相关资源。此外,本研究也期望以此为基础,探索西夏文OCR和机器翻译结合的路径,同时开展更多关于西夏文信息检索、知识挖掘、知识图谱构建等方面的研究,为推动西夏学等“绝学”冷门学科发展,为推进中华优秀传统文化的传承与发展贡献力量。
附录
西夏文机器对译封闭测试情况
西夏文:
标准对译:盛衰孰知何长短,名利实虚不殆谓。
机器对译:盛忍谁知何长短,名利实虚不怠谓。
西夏文:
标准对译:菩提道上山关无,般若眼内翳何熏。
机器对译:报日道上山关无,瞿昙眼内翳何熏。
西夏文:
标准对译:家宅宝钱九亲及,禄福于至弃毁者。
机器对译:家宅宝财九亲及,禄福上至弃毁者。
西夏文:
标准对译:性喜旱因多乃说,△降皆惧毁。
机器对译:性爱旱因多乃说,△雨皆消毁。
西夏文:
标准对译:若复实不说,一时名利思。
机器对译:若复实不说,一时名利想。
西夏文机器对译开放测试情况
西夏文:
标准对译:凡君子者,他利故已不忘,不学者无;
机器对译:夫子者,他利为己不忘,不学者,则无;
西夏文:
标准对译:己利故他不绝,不教亦无。
机器对译:自利依他不舍,不教亦无。
西夏文:
标准对译:金真铃铎云如布
机器对译:金真铃铎云如偈
西夏文:
标准对译:宝枝杂布严好为
机器对译:宝支杂行长卷为
西夏文:
标准对译:宝王间错严饰为
机器对译:宝王混行金刚为
西夏文机器意译封闭测试情况
西夏文:
标准意译:盛衰孰知何短长?名利实虚不懈怠。
机器意译:盛忍孰知何长短?名利实虚不怠谓。
西夏文:
标准意译:菩提道上无山险,般若眼内无翳熏。
机器意译:报日道上无关山,瞿昙眼内翳熏何。
西夏文:
标准意译:家宅宝财和九亲,上至福禄均毁弃。
机器意译:家宅宝财及九亲,福禄至弃毁家宅。
西夏文:
标准意译:因大旱多言性喜,降雨皆惧毁。
机器意译:性爱旱依多乃说,而雨皆毁坏。
西夏文:
标准意译:若复不实说,一时名利思。
机器意译:若复不说实,一时名利想。
西夏文机器意译开放测试情况
西夏文:
标准意译:凡君子者,利他故不忘己,无不学者;
机器意译:凡君子者,于他利故,己忘不忘,不学者无;
西夏文:
标准意译:利己故不绝他,亦无不教。
机器意译:为利自己故不断他,亦不施教。
西夏文:
标准意译:真金铃铎如云布
机器意译:真金铃铎如云布
西夏文:
标准意译:宝枝杂布为严好
机器意译:宝枝杂布好严密
西夏文:
标准意译:宝王间错为严饰
机器意译:宝王间错严饰为
Research on OCR and Machine Translation for Tangut Script under Low-Resource Conditions
Zheng Yuxi, Zhou Ziming, Zhang Yongwei, Sun Bojun, Qiao Wanxin, Hou Junming, Yu Jingsong
Abstract: The Tangut script is a crucial medium for studying the history and culture of the Western Xia dynasty. However, due to its unique glyph structure and a scarcity of researchers, its decipherment and research face numerous challenges. The development of artificial intelligence technology offers a new avenue to overcome this predicament, but it is still limited by the current scarcity of annotated data. This study focuses on two tasks: Tangut script OCR and machine translation under low-resource conditions. In the OCR task, training data was generated using font generation techniques, achieving an accuracy of 83.1% using only 500 real annotated images. In the machine translation task, by combining large language models and Tangut dictionary knowledge, both literal and interpretive translation from Tangut to Chinese was achieved. Experimental results show that relying on merely hundreds of sentence-aligned Tangut-Chinese sentence pairs, the model can demonstrate strong performance in both tasks.
Keywords: Tangut script; Low-resource; Optical Character Recognition; Machine Translation
编辑|程宁
本研究受到中国社会科学院学科建设“登峰战略”资助计划(DF2023TS05)、中国社会科学院语言学重点实验室(2024SYZH001)、教育部人文社会科学重点研究基地重大项目“面向上古汉语知识库的出土文献词汇语法研究”(22JJD740003)的资助。“古今文字集成”网站站长提供了宝贵意见,于此谨致谢忱。
向上滑动 查看注释
[1]孙伯君:《西夏文献研究的现状和未来》,《西南民族大学学报(人文社会科学版)》2023年第1期。
[2]柳长青:《西夏文数字化研究》,广州:中山大学出版社,2022年,第17—18页。
[3]孔祥辉:《语料库视域下西夏语料库建设及研究》,《西北民族研究》2018年第4期。
[4]Yifei Meng et al., “Synthetic sample extension in implementation of tangut character databases,”Automatic Control and Computer Sciences, vol. 52, 2018, pp. 334-343.模型。
[5]史金波:《西夏学概说》,《西夏学》2006年第1期。
[6]柳长青:《西夏文计算机数字化现状与展望》,《西夏学》2011年第1期。
[7]柳长青:《在线夏汉电子字典的设计与实现》,《宁夏大学学报(自然科学版)》2011年第4期。
[8]叶建雄等:《西夏音韵数据库及其安卓平台拓展》,《西夏学》2013年第1期。
[9]孔祥辉:《语料库视域下西夏语料库建设及研究》,《西北民族研究》2018年第4期。
[10]孙伯君:《西夏文献研究的现状和未来》,《西南民族大学学报(人文社会科学版)》2023年第1期。
[11]Mingyu Liu et al., “Few-shot unsupervised image-to-image translation,” Proceedings of the IEEE/CVF international conference on computer vision, 2019, pp. 10551-10560.
[12]Junbum Cha et al., “Few-shot compositional font generation with dual memory,” Proceedings of the 16th European Conference on Computer Vision, 2020, pp. 735-751; Park Song et al., “Few-shot font generation with localized style representations and factorization,” Proceedings of the AAAI conference on artificial intelligence, vol. 35, no. 3, 2021, pp. 2393-2402; Park Song et al., “Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts,” 2021, https://arxiv.org/abs/2104.00887, accessed on October 1, 2024.
[13]Yuxin Kong et al., “Look closer to supervise better: One-shot font generation via component-based discriminator,” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022,pp. 13482-13491.
[14]马金林等:《西夏文字识别方法综述》,《华中科技大学学报(自然科学版)》2024年第11期。
[15]Yifei Meng et al., “Hough transform with guidance of endpoints for the purpose of tangut character recognition,” Proceedings of the International MultiConference of Engineers and Computer Scientists, 2018, pp. 958-966.
[16]柳长青:《基于Level Set方法的西夏字轮廓提取》,《中文信息学报》2009年第4期。
[17]刘兴长等:《基于HOG特征提取和模糊支持向量机的西夏文字识别》,《西北师范大学学报(自然科学版)》2019年第5期。
[18]Guangwei Zhang et al., “Deep learning based tangut character recognition,” Proceedings of the 4th International Conference on Systems and Informatics, 2017, pp. 437-441; Guangwei Zhang et al., “Learning radicals from tangut characters,” Proceedings of the 5th International Conference on Systems and Informatics, 2018, pp. 373-378.
[19]张光伟:《基于深度学习的西夏文献数字化》,《西夏学》2020年第2期。
[20]Alexey Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,” 2020, https://arxiv.org/abs/2010.11929, accessed on October 1, 2024.
[21]Minghao Li et al., “Trocr: Transformer-based optical character recognition with pre-trained models,”Proceedings of the AAAI Conference on Artificial Intelligence, vol. 37, no. 11, 2023, pp. 13094-13102.
[22]Yuxin Fang et al., “Eva-02: A visual representation for neon genesis,” Image and Vision Computing, vol.149, 2024, pp. 105-171.
[23]Ilya Sutskever et al., “Sequence to Sequence Learning with Neural Networks,” 2014, https://arxiv.org/abs/1409.3215, accessed on October 1, 2024.
[24]Ashish Vaswani et al., “Attention is all you need,” Advances in Neural Information Processing Systems,2017, https://arxiv.org/abs/1706.03762, accessed on October 1, 2024.
[25]Zoph Barret et al., “Transfer Learning for Low-Resource Neural Machine Translation,” 2016, https://arxiv.org/abs/1604.02201, accessed on October 1, 2024.
[26]Tom B. Brown et al., “Language Models are Few-Shot Learners,” 2020, https://arxiv.org/abs/2005.14165, accessed on October 1, 2024.
[27]Wenxiang Jiao et al., “Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine,” 2023, https://arxiv.org/abs/2301.08745v4, accessed on October 1, 2024.
[28]Stüssi Elina et al., “Part-of-Speech Tagging of 16th-Century Latin with GPT,” Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, 2024, pp.196-206.
[29]Kaiwen Lu et al., “Low-Resource Language Expansion and Translation Capacity Enhancement for LLM: A Study on the Uyghur,” Proceedings of the 31st International Conference on Computational Linguistics, 2025, pp. 8360-8373.
[30]Ammar Waleed et al., “Massively multilingual word embeddings,” 2016, https://arxiv.org/abs/1602.01925, accessed on October 1, 2024.
[31]Zoph Barret et al., “Transfer learning for low-resource neural machine translation,” 2016, https://arxiv.org/abs/1604.02201, accessed on October 1, 2024.
[32]Jason Wei et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” Advances in Neural Information Processing Systems, vol. 35, 2022, pp. 24824-24837.
[33]Yaqing Wang et al., “Generalizing From a Few Examples: A Survey on Few-Shot Learning,” ACM Computing Surveys, vol. 53, no. 3, 2020, pp. 1-34.
[34]Park Song et al., “Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts,” 2021, https://arxiv.org/abs/2104.00887, accessed on October 1, 2024.
[35]西夏银川体从 https://www.babelstone.co.uk/Fonts/Yinchuan.html下载,版权归属北方民族大学中华民族共同体学院景永时教授。
[36]Canjie Luo et al., “Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp.13743-13752.
[37]孟一飞:《西夏文字数字信息化若干问题研究》,博士学位论文,北京交通大学,2019 年,第55页。
[38]Guangwei Zhang et al., “Deep learning based tangut character recognition,” Proceedings of the 2017 4th International Conference on Systems and Informatics, 2017, pp. 437-441.
[39]示例引自孙伯君:《元代白云宗西夏文资料汇释与研究》,北京:中国社会科学出版社,2022年,第219页。
[40]李范文编著:《简明夏汉字典》,北京:中国社会科学出版社,2012年。
[41]对译和意译句对齐数据整理自孙伯君:《元代白云宗西夏文资料汇释与研究》,第161—296页。
[42]日语译文和汉语译文整理自荒川慎太郎:「プリンストン大学所蔵西夏文華厳経巻七十七訳注」,『アジア・アフリカ言語文化研究』第81号,2011年。整理后的数据可访问https://github.com/yuzicx/Xixia-Script-Aligned-Corpus下载。
[43]详细过程见张煜妍:《古汉语大模型的研究与设计》,硕士学位论文,北京大学,2024年。同该论文相比,本文使用了参数规模更大的Qwen1.5-14B模型。
[44]直接意译策略提示词的核心指令为“根据候选词构造西夏文的意译:”。
[45]Papineni Kishore et al. “Bleu: a method for automatic evaluation of machine translation,” Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002, pp. 311-318.
购买《数字人文》期刊,请扫描下方二维码
校对 | 肖爽
2025-12-21 12:00 北京
惠鹏宇、金连文、耿生玲、李邦、张强、李新、吴亚东、王潇蔓开讲人文智能数据集专题
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(九):人文智能数据集专题
惠鹏宇(新维畅想数字科技有限公司)
《世界古代文明图像数据库:文化遗产数字化与形相学标注》
报告摘要:世界古代文明图像数据库基于北京大学汉代图像数据库30年来构建的理论、方法和技术,联合团队建立了文化遗产数据化的系统性解决方案。本报告以古埃及、古希腊与犍陀罗文明的实践为例,介绍数字图像采集与处理、图像-文物-文献间关系的数据表示、多文明图像的结构语义标注等工作,旨在为AI理解文物图像构建高质量数据集。
讲者简介:惠鹏宇,新维畅想数字科技(北京)有限公司董事长,北京大学图像学实验室客座研究员,中国数字文化集团首席专家,世界互联网大会文化遗产数字化专委会专家组成员,主持“数字甲骨共创计划”的“殷契文渊AI协同平台”、“了不起的甲骨文”技术研发,主持“文化遗产形相学标注索引平台-图元引擎”技术研发。
金连文(华南理工大学)
《多模态多场景古籍与中华古典学数字人文数据集》
报告摘要:本报告将系统介绍近年来我们近年来面向古籍OCR、数字人文、中国古典学大模型研究而整理构建的一些代表性数据集,包括超十亿字符图像规模的古籍文字资源HisDoc1B和M⁵HisDo,涵盖书体、朝代、书家等细粒度标注的多属性书法汉字数据集MCCD,面向古典学大模型预训练和指令微调的数据集ACCN-INS、WenMind和MCS-Bench,以及面向古诗词的百万级古诗词知识库与千万级问答对数据集ACP-Corpus和ACP-QA。希望相关数据集的构建对推动古籍OCR、古典学智能对话大模型与中华文化传承等领域的研究发展有积极意义。
讲者简介:金连文,华南理工大学二级教授,兼任中国图象图形学学会副理事长、广东省图象图形学会理事长等职。在重要学术期刊及国际会议上发表论文300余篇(其中SCI一区+CCF A类论文100余篇),Google Scholar论文被引用数20000余次,H-Index 74。2006年入选教育部“新世纪优秀人才”计划,近年来多次入选斯坦福大学&爱思唯尔“全球前2%顶尖科学家榜单”、爱思唯尔“中国高被引学者”,2024年入选IAPR Fellow。获省部级科技奖5项(其中一等奖2项),获国际学术会议最佳论文奖4次。
数据集公开链接:
M⁵HisDoc数据集下载网址:
https://github.com/HCIILAB/M5HisDoc
HisDoc1B数据集下载网址:
https://github.com/SCUT-DLVCLab/HisDoc1B
MCCD数据集下载网址:
https://github.com/SCUT-DLVCLab/MCCD
ACCN-INS数据集下载网址:
https://github.com/SCUT-DLVCLab/TongGu-LLM
WenMind数据集下载网址:
https://github.com/SCUT-DLVCLab/WenMind
MCS-Bench数据集下载网址:
https://github.com/SCUT-DLVCLab/MCS-Bench
ACP-Corpus & ACP-QA数据集下载网址:
https://github.com/SCUT-DLVCLab/ACP-RAG
数据集下载及使用重要说明:上述数据集遵循CC BY-NC-ND 4.0许可,仅支持非商业学术研究使用。部分数据集原始数据来源于互联网等公开渠道,其版权归原始提供者所有。若需申请使用相关整理标注后的数据集,请按数据集网站要求填写相应的申请表,申请人签名处必须为大学或科研院所全职人员,请尽量加盖公章(二级单位公章即可),以方便通过审核。
耿生玲(青海师范大学)
《 陶韵青海·数字永生——甘青古陶文物多维数字化保护与沉浸式展陈案例分享》
报告摘要:团队聚焦甘青古陶文物,针对保护效率低、展陈方式单一等痛点,构建全链条数字化解决方案。主要完成了2000件陶器碎片、200余件古陶器的高精度数字化建档,通过自主研发的多模态数据融合算法与陶器智能鉴别系统,实现了文物三维建模精度达0.05毫米、年代判定准确率96.2%的技术突破。在此基础上,团队打造了包括VR、AR交互应用、3D全息展柜在内的沉浸式展陈矩阵,将静态文物转化为可交互、可感知的动态文化体验。
讲者简介:耿生玲,女,藏族,青海师范大学教授,博导。国家青藏高原科学数据中心青海分中心主任,青海省“昆仑英才”领军人才,青海省自然科学与工程学科带头人,中国计算机学会杰出会员,青海省计算机学会理事长,主持国家及省级科研项目8项,获省部级科技奖5项,授权专利4项,发表论文90余篇。主要从事非遗数字化保护、数据可视化与虚拟现实研究,成果为文物数字化考古、智慧旅游等领域提供了理论与技术支撑。
李邦(安阳师范学院)
《全球甲骨文多模态数据集》
报告摘要:甲骨文多模态数据集OBIMD是目前首个大规模、多模态、公开可用的甲骨文智能识别与语境理解数据集。数据集涵盖10,077张甲骨拓片图像,标注字符93,652个,句级单元21,941条,选片覆盖商代五期。其采集来源于《殷契文渊》数字平台及《甲骨文合集》等权威资料,通过拓片、摹本、释文三模态对齐,结合YOLO检测、专家标注、跨模态匹配等方法完成加工。OBIMD支持字符识别、句法重建、文本增强等任务,为古文字智能解析、数字人文研究提供基础支撑。
讲者简介:李邦,安阳师范学院特聘教授,硕士生导师。现任甲骨文信息处理教育部重点实验室主任,长期负责甲骨文数据整理工作。主持并参与人工智能助力甲骨文研究相关的国家项目多项,围绕甲骨文数据集、甲骨文信息处理智能算法等工作在国内外期刊会议发表论文三十余篇。
数据集公开链接:
张强(西北师范大学)
《 DeepJiandu:面向简牍古籍数字化的高质量文字检测与识别数据集构建及应用》
报告摘要:DeepJiandu是全球首个面向简牍文字检测与识别的大规模高质量数据集,由西北师范大学联合甘肃简牍博物馆构建。针对简牍墨迹褪色、残损及版式多变等难题,团队利用红外与高光谱成像技术采集万余枚简牍,精选7,416张高清晰度红外图像。经简牍学专家多轮释读与校验,共标注99,852个字符实例,覆盖2,242类古文字。该数据集遵循VOC标准,实现了从图像清洗、去噪到细粒度标注的全流程规范化,已在Nature子刊《Scientific Data》发布。它不仅显著提升了古文字识别精度,更为简牍大模型训练、自动化释读系统及文物数字化保护提供了不可或缺的基础数据支撑与创新范式。
讲者简介:张强,西北师范大学管理学院党委书记、教授、博士生导师,甘肃省简牍智能计算与数字人文工程研究中心负责人,甘肃省领军人才,甘肃省创新创业教育教学名师,长期致力于数字人文、文化大数据与人工智能应用研究。主持国家自然科学基金项目4项,其他国家级、省级项目10余项,在简牍数字化、智能处理与跨学科融合方面成果显著,以第一完成人获甘肃省科技进步二等奖1项、甘肃省哲学社会科学优秀成果二等奖2项。
李新(山东大学)
《黄河流域山东段代表性文旅资源知识图谱构建与数字孪生应用》
报告摘要:本报告将介绍山东省重点研发计划资助的“黄河流域文旅资源数字孪生和智能服务技术研究与应用”部分研究成果,主要包括黄河流域(山东段)文旅资源库、多模态知识图谱和示范景区的数字孪生系统。
讲者简介:李新,男,山东大学软件学院高性能研究中心主任、博导。曾任山东大学计算机科学与技术学院系统结构研究所所长、人工智能研究所副所长、中国计算机学会青年科技论坛济南分论坛学术秘书(2012-2013)。主要研究方向:文旅知识图谱、数字孪生技术、无人机智能应用。先后主持国家自然科学基金、国家重点研发计划课题、GF预研、山东省重点研发计划等国家级或省部级项目10余项。
吴亚东(四川轻化工大学)
《古代诗酒文化专题数据集构建方法与实践》
报告摘要:在中国古代文学的星空下,诗以酒兴,酒以诗传,历代文人墨客以酒为媒,创作了大量蕴含深厚文化底蕴的诗词作品。依托四川轻化工大学中国白酒学院的学科特色,团队系统采集整理了十余万首与酒相关的古代诗词,运用智能模型和生成式方法,对诗酒文化进行解析重构,并融合知识图谱、时空地图与文本可视化技术,直观呈现诗酒文化在历史与空间维度中的流变脉络,旨在为诗酒文化的多维度研究、传承与创新传播提供数据支持与方法参考。
讲者简介:
吴亚东,四川轻化工大学教授、博士生导师,四川省大数据可视分析技术工程研究中心主任。研究兴趣主要为可视化与可视分析、虚拟现实与人机交互。中国计算机学会杰出会员,中国图象图形学学会杰出会员,曾任中国可视化与可视分析大会ChinaVis大会主席(2019、2020),CCF YOCSEF成都主席,CCF 绵阳主席。
王潇蔓(上海人工智能实验室)
《“万卷·丝路”多模态小语种语料库的创新与实践》
报告摘要:该报告将聚焦“一带一路”语言互通需求,创新8个小语种的文本、图文、音视频等六大模态数据,其突破低资源语种数据瓶颈,通过“智能处理+专家标注”实现工业级质量。联动多机构推动教育出海、企业出海落地,为破除“语言孤岛”、赋能文明互鉴搭建起高质量数字桥梁。
讲者简介:王潇蔓,上海人工智能实验室数据平台中心高级工程师。具有丰富的语料创新建设经验,曾参与多项语料相关的国家标准/团队标准的编写工作。
数据集公开链接:
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站:
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
2025-12-21 12:00 北京
王军、曹楠、叶浩、金伯文开讲面向人文领域的AI新应用
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(十):面向人文领域的AI新应用
王军(北京大学)
《“原境智生”:AI赋能的智能文旅体验创新与实践》
报告摘要:在大模型与多模态技术快速发展的背景下,文化遗产的呈现方式正从静态展示迈向沉浸式智能体验。本报告以北京大学数字人文研究中心的 “原境(Yuanjing)”项目 为核心案例,展示 AI 如何将丰富的文化遗产资源进行活化、转译与体验创新。“原境”通过定制化的“转绘”技术,将观众的影像自然融入如《牡丹亭》版画、《韩熙载夜宴图》等古典画面,使体验者在数秒内从“看画者”转变为“画中人”,在特定文化场景中获得具有传统审美语法的沉浸式互动体验。该项目探索了 AI 对古画笔法、构图、人物神态等文化特征的学习与再现,为文旅、展陈、教育等公共文化空间提供了可复制的智能体验范式。报告也将展示北大数字人文中心打造的人文数据智能处理的基础设施平台"吾与点"。该平台利用大模型支撑文化遗产的数字化、结构化与内容生成,旨在展示智能技术如何推动从文化资源的数字化到文化体验的创新转化,为智能文旅提供面向未来的实践路径。
讲者简介:王军,北京大学信息管理系、人工智能研究院、历史学系兼聘教授,北京大学数字人文研究中心主任,人工智能研究院副院长,全国高等院校古籍整理研究工作委员会委员,中国古籍保护协会古籍智能专业委员会主任。近年来从事数字人文、古籍智能、智慧图书馆、文化分析、知识图谱等方向的研究。主持或参与了吾与点、识典古籍、永乐大典高清数据库等项目的设计与研发工作。
曹楠(同济大学)
《从智能涌现到创意涌现:大模型驱动下的智能设计研究》
报告摘要:人工智能技术正以前所未有的速度重塑设计创新的逻辑与边界。随着大模型的快速演进,我们见证了“智能涌现”所带来的复杂感知、理解与生成能力的出现——机器展现出超越预设的“智能行为”。然而,从“智能”到真正具备原创性与洞察力的“创意”,仍存在着关键的跃迁鸿沟。2022年,《Science》杂志将“AI 产生创意”列为当年全球十大科技突破之一,标志着人工智能开始在创意生成层面展现潜能。本次报告将聚焦于“智能创意设计”的逻辑与范式转型,探讨在大模型驱动下,设计如何从以人为中心的智能辅助,迈向人机共创与自主创意涌现的新阶段。报告将系统回顾我们团队在过去五年中围绕智能信息设计、智能工业设计、智能交互设计与智能艺术设计等领域的研究与实践,分析大模型在认知建模、语义生成与创意表达中的作用机制,并展望未来智能设计体系的演化方向。
讲者简介:国家级青年人才,同济大学长聘教授,设计创意学院副院长,中意工程学院副院长,上海创智学院教授、博士生导师,上海自主智能无人系统科学中心双聘教授。中国图像图形学会 可视化与可视分析分委会、人机交互分委会副会长。曾获福布斯中国智能工业设计师TOP 20,微软最有价值专家,IBM 杰出技术成就奖等职业称号及奖项。长期专注于人工智能与设计交叉领域的研究工作,聚焦人工智能+信息设计、交互设计及工业设计,在相关领域累计发表 80余篇CCF-A 类论文,并获 10 余项最佳论文/最佳论文提名奖,获中国图象图形学学会自然科学二等奖,主持国家重点研发计划课题、自然科学基金等多项国家级基金项目。技术被广泛地应用于信息传播、智能制造、智慧医疗、智慧城市等领域。
叶浩(上海兑观科技)
《智能修复与照片档案资源管理》
报告摘要:本报告对智能修复技术在照片档案资源管理中的关键技术与应用进行深入介绍 。展示了最新的照片智能修复成效,以及在壁画、碑刻等文化瑰宝上的保护与修复应用成果,并展望了人工智能在档案和文化遗产数字化保护领域的重要作用和广阔前景。
讲者简介:
叶浩,高级工程师,复旦大学计算机博士,上海市科技专家库专家,计算机应用专业高级工程师。研究方向为计算机视觉和信息检索。曾担任中科院上海高等研究院副研究员,带领团队在字符检测的多个国际评测中名列前茅并荣获AI 2000人工智能全球最具影响力学者提名奖。主持参与完成多项上海市科委,经信委人工智能研发课题,发表30余篇学术论文,2次获得IEEE国际会议最佳论文奖项,获得发明专利5项。曾荣获上海市自强模范,荣获上海市就业创业优秀个人,荣获第七届全国自强模范。
金伯文(南京大学)
《人工智能时代的历史研究与教学——基于南京大学数智文献处理平台》
报告摘要:本报告将以讲者团队自主研发的“数智文献处理平台”为核心案例,结合报告人在中国近代史等领域的研究实践,系统探讨大语言模型在历史学研究与教学中的具体应用路径及其引发的范式思考。传统史学研究依赖于对海量、多形态原始文献的爬梳与考据,而手写体、多语种及少数民族语言文献处理,一直是学者识读及史料数字化的难点。以大语言模型为代表的人工智能技术,凭借其在复杂文本识别、跨语言语义理解与自然语言交互方面的突破,为大规模、深层次的文献数据化与结构化提供了前所未有的技术契机。报告将首先剖析大语言模型应用于历史文献处理的独特优势与当前局限,探讨如何构建一种更符合历史学者思维习惯、以“自然语言交互”为核心的人机协作新模式,从而将史学的实证传统与人工智能的计算能力深度结合。进而,报告将通过平台的功能演示与具体研究案例,生动展现该平台如何实际服务于文献的智能识读、多语种翻译、信息结构化提取与语义关联检索、史料长编自动生成,并将其转化为切实的研究生产力。此外,报告还将分享如何围绕该平台,将其打造为历史学的AI教学工具,设计实践性教学环节,引导学生在完成史学作业的过程中合理认识、评估并运用人工智能,培养其数字时代的研究素养。
讲者简介:南京大学历史学院助理教授、数字史学研究中心特聘研究员、数智文献实验室主任,硕士生导师。主要研究方向为中国近代史与数字史学。主持国家社会科学基金项目1项、省部级科研课题2项,并参与国家级研究课题多项;在《近代史研究》《抗日战争研究》等核心期刊发表论文多篇。近年来,依托南京大学数字史学研究中心,牵头组建“数智文献实验室”,主持开发“南京大学数智文献处理平台”,推动大语言模型等人工智能技术在历史研究与教学中的落地实践,相关成果已应用于多个专题历史数据库建设;开设“人工智能与中国近代史研究”课程,入选南京大学人工智能通识核心课程、本科课程典型教案,并获得教育部产学合作协同育人项目支持。
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站:
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊
2025-12-20 12:02 北京
Maurice Benayoun、夏翠娟、张宇、高晓沨联袂开讲多模态人文数据处理
中国计算机学会(CCF)主办的第一届人文智能大会将于2025年12月26-28日在北京举办,会议由中国计算机学会计算机应用专委会承办。诚邀计算机科学、智能科学等理工学科,中文、历史、考古、管理、教育等人文社会学科的专家学者,以及相关业界同仁、在校学生踊跃参与,以充分发挥CCF的学术影响力和跨学科渗透能力,推动交叉融合,并促进人文、计算的学术研究和社会服务的发展,同时为筹备CCF计算机应用专委人文智能学组做进一步准备。诚挚邀请您莅临参会交流。会议设置专题论坛,邀请知名专家就相关议题展开讨论。我们将陆续推送会议专题具体信息。
专题(七):多模态人文数据处理
Maurice Benayoun(南京大学)
《人工智能+背景下数字旅游空间智能化自动生成的行为逻辑》
报告摘要:The technological revolution continues to transform the world faster, further, and deeper. Humans are not immune to the tsunami that, from CGI to robotics, from VR to AI, from literature to prompt writing, from quantum physics to molecular biology, is revolutionizing their practices, their jobs, and even their way of thinking. Artists are not immune to change; they embrace it and question it, reshaping our imagination or projecting possible futures. Navigating these transformations as an attentive, curious, and critical artist, I develop projects and hypotheses about the nature of these upheavals that affect artistic practices as much as they disrupt the world.
讲者简介:Maurice Benayoun,南京大学教授,博士生导师,国家级领军人才。曾担任香港城市大学创意媒体学院教授、博士项目负责人;巴黎第八大学信息与通信科学副教授;巴黎国立美术学院教授及特聘艺术家;巴黎第一大学终身副教授等。作为新媒体艺术家、策展人和理论家,莫奔教授曾获得法国艺术与文学骑士勋章(Knight of the French Order of the Arts and Letters),曾荣获包括金尼卡奖(Golden Nica,新媒体艺术行业最高奖项),ACM SIGGRAPH(计算机图形学最高水平会议)一等奖,Imagina(欧洲最高水平三维艺术创意节)一等奖等在内的超过30项行业顶尖奖项及殊荣。其领导过的艺术及研究项目,获得包括法国国家,欧盟,香港特区政府等不同政府奖项及资金支持。莫奔教授曾在多个国家及地区的著名博物馆及当代艺术展览馆举办展览,包括法国巴黎蓬皮杜艺术中心(两场个人展览)等。
夏翠娟(上海图书馆)
《多模态资源的跨模态检索实现方案研究》
报告摘要:摘要研究多模态资源的跨模态检索实现方案,旨在解决模态异构性带来的语义鸿沟问题。通过深度学习与联合嵌入技术,将图像、文本等不同模态数据映射至统一语义空间,实现跨模态相似性计算,进而实现多模态资源的跨模态检索。
讲者简介:夏翠娟,上海图书馆三级研究员,中国人民大学数字人文研究院研究员。上海市图书馆学会青年学术委员会副主任、数字人文与数据服务专委会主任,上海市图形图像学会文化数智化专委会副主任。研究方向:元数据、知识本体、知识组织,关联数据、数字人文、数字记忆,元宇宙与人工智能技术图档博应用。主持国家哲社课题2项,参与国家级科研项目10余项。在国内外学术期刊发表论文近百篇,参与撰编专著4部。担任多家学术期刊的外审专家和编委。
张宇(哈尔滨工业大学)
《基于人工智能的山地文化遗产多模态保护与更新研究》
报告摘要:山地历史建筑遗产作为人类与自然长期互动的成果,形式、结构、功能等方面特征明显。传统档案模态单一,规模有限,难以全面反映建筑的空间特征与文化内涵。数字化技术可以收集并处理多模态的建筑精细化数据,科学优化设计策略,提升研究的准确性和效率。本研究提出一种集成多模态数据的山地历史建筑遗产数据库的设计路径,结合摄影测量、激光扫描、历史文献、修缮记录及田野调査等途径获取建筑的三维点云、图像和文本等信息,经过数据标准化和训练检索模型,通过关系型数据库与非关系型数据库融合实现异构数据的高效存储与关联检索。多模态数据的结构化整合加强了多部门信息协作,为人工智能等技术进一步的应用奠定了基础。
讲者简介:张宇,哈尔滨工业大学建筑与设计学院教授、博士研究生导师。在科研方面,作为学科青年骨干人才,科研成果颇丰,主持纵向科研项目10余项,其中国家级2项、省部级3项;发表高水平论文五十余篇;获得专利及软件著作权十余项;目前担任中国建筑学会寒地建筑学术委员会、中国建筑学会地下空间分委会等多个学术组织的理事及委员,担任City, Territory and Architecture,Building and Environment等国内外多个学术期刊审稿人及客座编辑。研究成果获得省部级科技奖励多项,形成了明确的特色研究方向,具有一定学术影响力。
高晓沨(上海交通大学)
《奇遇山海·数绎园彩——江南古典园林美学特征的量化建模实践》
报告摘要:中国古典园林以“天人合一”为核心美学追求,将自然山水凝缩于有限空间,其“写意留白”“虚实相生”的意境营造多依赖匠人经验与文人感悟,具有极强的抽象性与主观性。传统研究多停留于定性描述,难以精准捕捉美学特征的内在规律,缺乏可量化、可复用的分析框架,这成为中国园林美学传承与创新的关键瓶颈。本报告以江南古典园林为研究对象,围绕“移步异景”“小中见大”“有法无式”三大核心美学特征展开量化建模研究,选取10所典型名园(拙政园、留园等)的多模态数据(平面图、矢量坐标、影像等),融合图论、空间统计、机器学习等技术方法,构建可解释量化模型体系,以数字技术解构园林美学的抽象内涵。力图突破传统园林研究“有法无式”的认知壁垒,以算法逻辑解析文人造园智慧,为江南园林的数字化传承、跨文化交流及生成式设计提供技术支撑,践行信息技术与人文美学的深度融合,推动文化遗产从“静态保护”向“动态活化”转型。
讲者简介:高晓沨,上海交通大学计算机学院长聘教授、博导,全国五一劳动奖章、国家级青年人才计划获得者,中国计算机学会分布式计算与系统专委会副主任。 研究方向数据工程、网络优化,发表中国计算机学会(CCF)推荐A/B类期刊会议论文200余篇,谷歌引用7000余次。主持项目50余项,任国家科技部重点研发计划、国家自然科学基金重点项目负责人。与腾讯、华为等头部信息科技公司深度合作,致力于战略行业数字化转型,与中远海运、中航沈飞、中海油等重要央国企合作研究,获中国产学研合作创新奖。指导学生参加数学建模竞赛,在三大国际赛事中均获最高奖项,获美国数学及应用联合会Doug Faires终身成就与特别贡献奖。
更多讲者将后续补齐,敬请期待!
CCF人文智能大会
由中国计算机学会(CCF)主办的人文智能大会旨在推动信息技术、人工智能与人文学科的深度融合,促进跨学科交流与合作。
第一届CCF人文智能大会将于2025年12月26日至28日在北京举行。大会将邀请计算机、智能科学及人文社科领域的专家学者、业界代表与学生参与,共同探讨人文与计算交叉融合的前沿议题。会议也将为筹备成立CCF计算机应用专业委员会“人文智能学组”奠定基础。
第一届CCF人文智能大会网站:
供稿| CCF人文智能大会2025会议委员会
审核| 陆旻 张辰麟 吴泓润
编校| 李雨婷 董笑菊