普通视图

Received yesterday — 2026年5月3日学术机构(中国大陆)

免费!悉昙梵文字母识读入门课来了!

2026年4月28日 18:33

籍合学院 2026-04-28 18:33 北京

碎片化闯关,轻松解锁五十字母

 悉昙梵文字母识读入门

悉|昙|梵|文|好|难!

2020/03/04

你是否也曾对悉昙梵文心生向往?

那一笔一划间,仿佛藏着古老东方的智慧与神秘。

可当你满心热忱地翻开教材,面对那五十个形态各异的字母时,却瞬间“两眼一抹黑”:

字形太像,记不住;发音复杂,分不清。

如果你也有这样的困惑,别担心,你不是一个人。

今天,我们想为你推荐一份特别的“礼物”——由一位曾经被悉昙梵文 “难住” 的零基础学员,为你量身打造的【悉昙梵文字母识读入门】免费课程

说是课程,实则不如说它更是一场充满乐趣的“碎片化闯关”之旅。

我们懂你的“难”

  ——从放弃到重拾!

课程的设计小编,其实也是一名普通的语言爱好者——2023年,在中华书局举办的佛教文献整理训练营中,被悉昙梵文的优美形态深深吸引,当即摩拳擦掌想要拿下这门古老的语言。但很快又被现实给了一个“下马威”:太多相似的字母,太难记忆的发音,最终无奈地选择了放弃。

时隔两年,小编重拾这份热爱,并开始思考:能不能用一种更轻松、更现代的方式来学习这门古老的语言?于是,我们参考了当下流行的语言学习模式,将枯燥的字母记忆,变成了一套卡片式学习+题库练习的体系。

这门课程,就这样诞生了。

0元免费!

  开启你的悉昙梵字“闯关”之旅  

对于初学者来说,入门的第一道难关,就是五十字母的识读。因此,我们将课程设计成了一个循序渐进的闭环,让你在不知不觉中,轻松掌握所有字母。

01

  自我测评——知己知彼 

别急着学,先来一场“摸底考试”!根据测评成绩,我们会告诉你目前的水平,并给出专属学习建议。学完还有测试结果证书,分享出去,让朋友们见证你的起点:)

02

  基础识读——认形辨音 

从最基础的认形和辨音开始。我们将五十字母拆解为一张张精美的学习卡片,利用碎片时间,随时随地刷一刷,帮你对50字母形成完整的第一印象。

03

  归类学习——打通经脉 

我们按照发音部位、发音方法,帮你把字母“分门别类”。当你理解了它们的“家族关系”,你会发现,原本杂乱的字母瞬间变得井井有条。

04

  易混辨析——火眼金睛 

我们把那些长得像“双胞胎”、读音易混淆的字母放在一起,通过多角度的练习,帮你精准辨析。从此,再也不怕看花眼!

05

  结业考核——满载而归 

自我检验学习成果。顺利通关后,你将获得一份专属的结业证书。这不仅是对你努力的肯定,更是踏入悉昙梵文世界的第一步。

不仅仅是课程

  更是一个同好的圈子  

我们深知,学习一门小众语言,最怕的是孤独因此,我们特别设立了同好学习社群。

在这里,你可以:

👀随时分享学习心得与资料

💡向同好请教问题

💪互相监督,坚持学习

我们希望,这门课程不仅仅是一个人的埋头苦学,而是一群人的共同成长

写在最后:

   来自课程编辑的碎碎念   

  一点小心愿  

其实这门课的雏形只是一款单纯的“碎片式刷题题库”,最初只有简单的字母形音对照。后来慢慢加入了归类学习、易混辨析等内容。之后又在老学员的建议和崔文治老师的支持下,增设了形音义学习卡片,才有了如今这套相对完整的课程体系。

这门课程不是我一个人的 “独角戏”,而是为所有悉昙同好准备的 “共同课堂”。

不过,受学识和精力所限,这门课仍有很多不足。

我真心期待,有更多同好加入学习、提出建议、分享心得,不断完善、共建属于大家的悉昙梵文字母识读公益课程。

如何开启学习?

   ↓扫码添加助教领取课程↓  

别让“入门难”成为你与悉昙梵文之间的阻碍。

让我们一起,从第一个字母开始,轻松启程!

阅读原文

跳转微信打开

谭木声精读史记(第三年)正式开启

2026年4月28日 18:33

籍合学院 2026-04-28 18:33 北京

2026年主题:汉家制度的形成与削藩

4月23日,谭木声精读史记·第三年度课程

已经开启啦!

在中华书局读者开放日,

谭木声老师在线下讲解了本年度第一次课程

——《外戚世家》(一)。

谭木声老师现场授课

谭老师讲解了汉文帝母亲薄姬的“戏剧性”的一生。

薄姬本是魏王豹的妾,她被一个相士看到,说:“此女当生天子。”

魏王豹大喜过望——她是我的女人,她生的儿子当天子,那我不就是天子的父亲?他立刻背弃了与刘邦的盟约,自封魏王,以为命运的走向尽在掌握。

结果刘邦大军一到,魏豹兵败身死,薄姬连同其他魏宫女子一起被没入织室,成了最底层的织女。

命运至此,看起来像个笑话。

可命运并未收手。薄姬在织布机前过了一年多,几乎要被所有人遗忘。就在这时,刘邦偶然经过织室,看见她有点姿色,便把她召入后宫。但后宫佳丽太多,刘邦转眼就把她忘了,此后一年多,她连皇帝的面都见不上。

转折来自两个旧时姐妹——管夫人和赵子儿。她们曾与薄姬约定“先贵无相忘”,如今她们正受宠,有一天在刘邦面前说起这个笑话般的往事。刘邦动了恻隐之心,当晚召幸了薄姬。

薄姬知道自己只有这一次机会。她对刘邦说:“昨夜我梦见苍龙盘踞在我的腹上。”刘邦说:“这是显贵的征兆,我来为你促成吧。”

就这一夜。薄姬怀孕了,生下一个儿子,取名刘恒。

而刘恒就是后来的汉文帝。

其实薄姬接下来的命运依然很曲折,很戏剧性。

谭老师进行了深入浅出地讲解。

本年度开篇以《外戚世家》开篇,是要展现在汉文帝和汉景帝时期复杂的历史状况。此外,今年还会讲到《袁昂晁错列传》《张释之冯唐列传》《万石张叔列传》等。

具体篇目详见下图。

点击图片或扫码报名“谭木声精读《史记》”

2026年度主题:

汉家制度的形成与削藩(文景二帝)

计划精读篇目:

外戚世家

袁盎晁错列传

张释之冯唐列传

万石张叔列传

魏其武安侯列传

韩长孺列传

酷吏列传

李将军列传

学习时间:

2026年4月23日开启,

每周六晚8点(节假日除外)

暂定学习课程表(以实际课程安排为准)

2026年度

谭木声精读《史记》“四维”学习体验

优化学习体验,提升精读效果

2026年度

领读人寄语

我们今年要阅读的这几篇集中展现了汉代制度形成和确立的过程,主要集中在汉文帝和汉景帝时期。

这一时期不仅是汉代黄老政治确立的时期,更是历史时代大转型,政治制度、社会风气、文化习惯都由战国逐渐转型,形成自己特性的时期。其实,“封建”、“战国”不是在秦始皇统一,或者汉立国就戛然而止的,它延续很长时间,没有死亡,而是转换心态,适应新的社会。比如战国母族尊贵的遗风和汉帝国君主集权制两股力量合力形成了外戚这一新的问题。针对同姓诸侯王的削藩也在逐渐剧烈。

今年我们通过《外戚世家》以及袁盎晁错、魏其武安侯等一系列列传,来重点关注汉家制度是如何形成的,如何与战国遗风结合。

谭木声

谭木声,青年历史作家。中国人民大学西方哲学硕士,中国社会科学院近代史研究所博士研究生。“中华经典阅读计划”《史记》领读人。曾任经济观察报高级编辑、界面传媒创始合伙人。人文历史教育传播机构“新亚人文学院”创始人。曾出品“中国通史大师课”系列人文课,为大众所喜爱。出版有《太后西奔》《巫蛊乱长安》,《历史学家爸爸讲中国史》(主编),《文明的故事》(主编)等。

谭木声精读《史记》

是一个为期四年的《史记》精读计划

每一年都有独立的主题

四年的主题贯穿起来就是

从秦皇到汉武——封建的崩塌、反扑与专制的完成

你既可以发宏愿,给自己定一个长期规划

订阅全部四年完整版

也可以订阅你感兴趣的当年主题

当然,我们建议

先订一年,或先试听首年的部分章节

看看您适不适合这样的学习方式

能不能坚持学习

点击图片或扫码报名“谭木声精读《史记》”

▲谭木声老师每周逐句精读说讲

学员对照纸书跟读

▲年终线下工作坊

知名史学家李开元老师(左)、陈苏镇老师(右)现场授课

▲年终线下工作坊

谭木声老师现场授课

谭木声与北京大学历史学系李霖老师线下对谈

“《史记》诞生疑案”

谭木声与北京大学图书馆研究馆员朱本军老师

线下对谈“揭开张仪苏秦的真面目”

谭木声与中国人民大学张雪松老师线下对谈

“司马迁笔下的中哲史叙述模式解析”

手抄《史记》原文打卡活动精彩作品

这是一个大胆的计划

如此长的项目周期

不仅是因为中华书局有底气

更是因为

读古籍没有捷径

四年的时间

你愿意给自己一个承诺吗?

更多首年精彩回顾

欢迎点击下方链接

点击下方链接

加入“谭木声精读《史记》”

4月23日开讲

报名成功后系统会自动提示您加入微信群;入群后请添加“籍小合”微信,以便后续1v1发送每周课程资料及学习入口;

您也可以直接在“籍合学院”公众号-会员服务-开始学习开始您的学习并回顾首年课程(电脑、手机均可收看)。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

古联大数据中心招聘丨实习编辑

2026年4月28日 18:33

古联数字 2026-04-28 18:33 北京

古联(北京)数字传媒科技有限公司,系中华书局全资子公司,成立于2015年10月,前身为中华书局“古籍资源部”。

作为国家级古籍数字化领军企业,公司秉承“守正创新、科技赋能”的发展理念,以古籍数据库建设为战略基点,系统构建起涵盖技术研发、项目服务、图书出版与人才培养的数字化服务矩阵,实现资源、技术、人才三聚合,开创古籍整理与数字技术深度融合的出版新范式,推动中华优秀传统文化的创造性转化、创新性发展。

实习岗位

大数据中心 - 实习编辑(4人)

岗位职责

负责整理古籍相关书目。

岗位要求

  1. 硕士及以上学历,文献学、历史学、中国语言文学(古代文学方向)等相关专业,专业功底扎实。

  2. 工作细致认真,具有高度的责任心和执行力。

  3. 可根据学校课程安排到岗,可采取到岗+线上相结合的方式,每周实习3天及以上。

你将获得

  1. 实习补贴。

  2. 实习证明。

  3. 丰富的岗位实践经验。

  4. 免费且种类丰富的早午餐。

  5. 宽敞舒适的工作环境。

应聘方式&办公地址

咨询及投递简历:wangxu@ancientbooks.cn

(邮件标题请标注应聘岗位名称)

北京市丰台区右安门街道右外西路2号院

中国国际出版交流中心3号楼9层

中华经典古籍库

微信号:jingdianguji

丰富自身文化修养

从关注一个好的公众号开始

阅读原文

跳转微信打开

王昊、王蕾 | 中华古籍活化的实践框架与发展路径

2026年5月2日 08:55

2026-05-02 08:55 广东

王昊、王蕾在《中国图书馆学报》2024年第4期发表的学术论文《中华古籍活化的实践框架与发展路径》被《新华文摘》2024年第22期转载,是为中山大学国家文化遗产与文化发展研究院古籍保护研究团队的最新研究成果。

《中华古籍活化的实践框架与发展路径》刊载于《中国图书馆学报》2024年第4期,被《新华文摘》2024年第22期转载,是中山大学国家文化遗产与文化发展研究院古籍保护研究团队重要研究成果之一。中山大学国家文化遗产与文化发展研究院由中山大学信息管理学院和中山大学图书馆的科研人员共同组成,现为文化和旅游部“文化和旅游研究基地”和广州市人文社会科学重点研究基地,古籍保护研究团队长期致力于古籍保护、整理与活化利用等领域研究,以一流的政策和理论研究成果,服务国家和区域在古籍保护方面的战略需求,以一流的应用研究、人才培养和专业咨询,服务国家和区域的古籍保护事业。近年来,研究团队在古籍整理、古籍活化、古籍修复、古籍保护与数字人文、古籍保护学科建设、非物质文化遗产保护等领域承担了国家社科基金项目6项、文化和旅游部委托项目5项、文化与旅游部行业标准项目2项、古籍工作立项重点课题1项、教育部专业学位案例项目3项、广东省文化和旅游厅委托项目3项等,完成相关决策咨询报告8份。中山大学古籍保护研究团队将持续深入加强古籍保护理论研究与实践探索,为推动古籍事业高质量发展贡献智慧与力量。

【摘要】

我国古籍事业在新时代迎来新的发展目标和新的文化使命,有序开展了一系列有关中华古籍活化的理论研究与实践工作。然而,中华古籍活化实践框架与发展路径的诸多问题亟待理清。本文界定中华古籍活化的概念,阐释中华古籍活化的思想内涵,分析中华古籍活化的难点,构建包括活化主体、目标对象、活化内容、活化技术、活化方法等要素在内的中华古籍活化实践框架;在系统分析中华古籍活化各个要素的基础上,从坚持一个根本目标、突出两项核心要点、满足三种服务需求、整合四种主体力量、实施五大活化策略五个维度提出面向新时代发展目标和文化使命的中华古籍活化发展路径,以期进一步推动中华古籍活化基础理论与实践创新发展,丰富我国古籍保护学科知识内容。

【关键词】

古籍 ; 中华古籍活化 ; 古籍保护利用 ; 古籍传播推广

【作者】

王 昊  中山大学信息管理学院博士研究生。

王 蕾  中山大学图书馆副馆长,研究馆员。

【通信作者】

王蕾

Email:wlei@mail.sysu.edu.cn,ORCID0000-0001-7050-l845

2013年,习近平总书记提出要系统梳理传统文化资源,让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来。十年来,学界和业界积极贯彻落实习近平总书记关于古籍活化的重要讲话精神,在国家颁布的一系列政策规划的指导下,有序开展古籍活化的理论研究和实践工作,初步形成了一些学术研究成果,产出了一批有影响力的中华古籍活化实践案例,显现了我国古籍事业正迈入新时代新的发展时期。开展中华古籍活化的基本理论研究,分析中华古籍活化的难点,构建中华古籍活化的实践框架,提出中华古籍活化的发展路径,具有深刻的现实意义和时代价值。

1

中华古籍活化

活化(Activation)一词原为自然科学领域的专业用语,19世纪曾被西方用于文化遗产复兴和遗产再利用的实践与研究。进入21世纪以来,活化一词在我国人文社会科学领域开始使用,2013年后,活化开始广泛应用于古籍、文物以及文化遗产等领域的研究,集中出现了“中华古籍活化”“中华文物活化”和“中华文化遗产活化”等类型的活化。

中华古籍活化研究已逐步从古籍整理出版、开发利用、普及传播、传承性保护和智慧化利用等主题的分散研究过渡到基本理论和实施路径的整体性专门研究,呈现出成果不断增多、范围逐步拓展、深度持续加强等特征。但是,有关中华古籍活化概念的研究仍处于起步阶段,仅初步讨论了古籍活化的层次和类型,如根据面向群体的不同,将高校古籍活化分为研究型、传承型、学习型、普及型四个层次;将古籍活化分为研究学习类、大众传播类、传承技艺类三种类型。

虽然学界尚未形成中华古籍活化的明确定义,但博物馆和文化遗产领域的学者已经基于各自学科视角,对中华文物活化和中华文化遗产活化进行了定义。就博物馆工作而言,活化的目标是通过对馆藏文物的活态利用使传统文化可知、可感、可观,与现代人的认知需要和精神需求相契合,让文物所承载的历史价值、艺术价值和科学价值在当代焕发出新的生命力。文化遗产研究领域更多强调遗产活化,认为其在本质上是把遗产资源转化成旅游产品而又不影响遗产的保护传承,同时具备文化原真性和现代适用性两大特征,并将遗产活化视为遗产文化内核的复活,活化理念的核心内涵则是存续遗产传统肌理、激活传统特质活力、构建持续自洽机制、制定精致利用方式。根据博物馆和文化遗产研究领域对活化的定义,可将活化的主要特征归纳为五个方面:一是以保护为前提,以传承为目的;二是面向社会大众宣传、普及和推广;三是创新利用手段,依托新型技术,借助各种载体;四是挖掘历史价值、文化价值、科学价值,赓续文化基因,厚植文化自信;五是保持文化原真性,增强现代适用性。上述主要特征为定义中华古籍活化提供了借鉴。

根据当前中华古籍活化研究的理论成果,结合博物馆和文化遗产领域的相关概念,本文将中华古籍活化定义为:以保存和保护中华古籍为前提,充分运用现代科技手段加强古籍典藏的保护修复和综合利用,深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,面向社会大众开展古籍知识和文化的宣传、推广和普及,从而推动中华优秀传统文化创造性转化、创新性发展。

2

 中华古籍活化的思想内涵

2013年以来,中华古籍活化工作蓬勃发展,相继出台了《关于实施中华优秀传统文化传承发展工程的意见》《关于推进新时代古籍工作的意见》《2021—2035年国家古籍工作规划》等相关政策,为中华古籍活化工作向更深层次、更高质量发展提供了前进方向和有力支持。2023年10月召开的全国宣传思想文化工作会议正式提出并阐述了习近平文化思想。习近平文化思想强调保护历史文化遗产,构建中国话语和中国叙事体系,是中华古籍活化的理论源泉。

习近平文化思想和古籍工作国家规划为中华古籍活化提供了指导思想,包括以下四个核心要点。

2.1 让书写在古籍里的文字活起来

2014年,习近平总书记在联合国教科文组织总部发表的演讲中再次提出“让书写在古籍里的文字都活起来”,标志着中华古籍活化在国际文化舞台正式亮相。让书写在古籍里的文字活起来,首要也是必要的条件是古籍本身的存在与安全;以此为基础,再将文字从古籍原件转移至其他载体、介质上;最终通过技艺传承、知识普及、文化宣传等推广途径和文本结构化、知识体系化、利用智能化等技术手段让珍贵古籍化身千百。

《关于推进新时代古籍工作的意见》和《2021—2035年国家古籍工作规划》为“让书写在古籍里的文字活起来”提供了实践方向和具体要求,结合近年来我国古籍保护的研究、实践进展和趋势,可归纳为三个方面:一是以增强古籍“生命力”为基础,加强古籍原生性保护技术研究,全面提升古籍实体保护设施设备和材料条件、古籍修复技艺;二是以提高古籍“再生力”为手段,加强古籍再生性保护,提升古籍整理研究能力和整理出版水平,分层次推进各类型古籍整理研究出版,加快古籍数字化建设,丰富古籍基础数字资源和数字版本资源;三是以激发古籍文化和价值“活力”为目标,加强古籍的传承性保护、智慧性保护,在全社会营造学习和宣传古籍知识、文化的良好氛围,加快古籍制作、修复技艺的传播与传承,同时提升数智技术在深入揭示、关联、挖掘、组织、传播、利用古籍内容方面的应用水平。

通过原生性保护、再生性保护、传承性保护、智慧性保护,实现对古籍及其蕴含的中华民族伟大历史和中华优秀传统文化的多维保护,从而加强对中华民族历史的认知和运用,为坚定文化自信奠定坚实的基础。

2.2 推动中华优秀传统文化创造性转化、创新性发展

《中共中央关于党的百年奋斗重大成就和历史经验的决议》指出“中华优秀传统文化是中华民族的突出优势,是我们在世界文化激荡中站稳脚跟的根基,必须结合新的时代条件传承和弘扬好”,并要求“推动中华优秀传统文化创造性转化、创新性发展”。推动中华优秀传统文化创造性转化、创新性发展,关键在于认识和处理好“历史”与“现实”、“传统”与“现代”之间的关系,这要求深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,并做到古为今用,使中华古籍中蕴含的丰富内容与中华民族现代文明相适应,与现代社会相协调。

面对类型众多的古籍文献,要充分发挥历史文献、文学典籍、科技典籍、古典医籍和古代农书等在治国理政、促进民族团结、传承科学文化、推动中医药创新发展和服务乡村振兴等方面的重要价值。在服务国家重大战略的过程中,进一步加快古籍保护传承和资源转化利用,更有利于挖掘和实现古籍的时代价值。与此同时,遵循文化发展的客观规律,坚持与时俱进,不断推陈出新,将文本、图像、视频、音频等多种模态的古籍资源转化为便捷获取和易于接受的知识、文化,以新颖独特、喜闻乐见的方式传承弘扬中华优秀传统文化。只有深入挖掘和阐释中华古籍蕴含的价值,实现对其内容的转化利用,使中华古籍为大众所享、为大众所知、为大众所用,才能推动中华优秀传统文化创造性转化、创新性发展。

2.3 传承弘扬中华优秀传统文化

习近平总书记在文化传承发展座谈会上的讲话中指出,要“把自古以来能收集到的典籍资料收集全、保护好,把世界上唯一没有中断的文明继续传承下去”。赓续中华文脉呼吁中华古籍的传承,中华古籍活化的意义与优势就在于,通过让浩如烟海的古籍化身千百,促进珍贵古籍最大限度的传播推广和传承,只有面向广大民众开放古籍资源,传播和推广古籍文化,才能守护好中华古籍,传承好中华文明。《关于实施中华优秀传统文化传承发展工程的意见》指出要将中华优秀传统文化贯穿国民教育始终,加大宣传教育力度,综合运用各类载体,融通多媒体资源,统筹各方力量,彰显中华文化魅力,充分重视传播推广对传承弘扬中华优秀传统文化的作用与成效。

在当前古籍工作实践中,普及出版和宣传推广已经成为有效发挥古籍在传承弘扬中华优秀传统文化中作用的两种方式。在加快古籍普及出版方面,应做好经典古籍精选精注精译精评,加强中华优秀典籍的活化解读和时代阐释,推出一批古籍普及读物,提升古籍普及出版质量。在促进古籍宣传推广方面,应通过多渠道、多媒介、立体化做好古籍的大众传播,包括持续推进古籍进校园工作,支持各级、各类古籍收藏单位和整理出版单位举办古籍专题展览,打造古籍类音视频节目,讲述古籍背后的故事等。

2.4 深化文明交流互鉴

中华古籍活化不仅要让广大民众获得和享受“活起来”的古籍资源,还要推动中华优秀传统文化“走出去”。在人类命运共同体的基础上开展文明交流互鉴,为在国际上传播古籍中蕴含的中华优秀传统文化带来机遇。构建人类命运共同体的倡议和行动要求深化文明交流互鉴,要善于“展形象”,推进国际传播能力建设,讲好中国故事、传播好中国声音,向世界展现真实、立体、全面的中国,提高国家文化软实力和中华文化影响力,以文明交流、文明互鉴、文明包容促进人类文明进步。这要求中华古籍活化应适应和服务于新时代构建新的国家形象和话语体系的时代使命,走向国际,讲述中华古籍中的民族故事,传播中华古籍中的文明之声。

中华古籍活化应作为推动中外文明交流互鉴的基本手段,中华经典古籍应成为推动中华文化对外传播的重要载体。要求创新对外话语表达方式,做好中华优秀典籍翻译出版工作,充分运用中华典籍助推中华优秀传统文化的国际传播,使古籍里的中国故事为国际社会和海外受众所认同,在潜移默化中提升世界人民对中华文化的认知程度和情感共鸣。在媒体技术进步的影响下,当前国际传播领域逐渐呈现移动化、社交化趋势,应充分发挥社交媒体平台传播速度快、传播范围广、传播效果好的优势,拓展古籍对外传播渠道,通过海外文化平台对外宣传推广中华古籍,以加强古籍工作对外交流合作。

习近平文化思想和古籍工作国家规划为中华古籍活化提供了内容丰富、逻辑紧密的思想内涵:首先是多维保护,从原生性、再生性、传承性、智慧性四个维度加强对中华古籍的保护;其次是转化利用,即在实现对中华古籍多维保护的基础上,不断挖掘其历史文化价值,并赋予其新的时代价值;再次是文化传承,面向社会公众宣传推广、普及传播中华古籍中蕴含的中华优秀传统文化;最后是文明互鉴,放眼国际,推动中华民族现代文明“走出去”,在文化层面助力构建人类命运共同体。厘清中华古籍活化的思想内涵,为构建中华古籍活化的框架体系提供对象、内容、方法上的指引。

3

中华古籍活化的难点分析

中华古籍活化的实践经过十余年发展,在数字资源建设、叙事能力提升、数智技术应用、传播载体创新、人才队伍培养等方面取得了成绩,但也不断突显出一些问题和难点,阻碍中华古籍活化的高质量可持续发展。

3.1 古籍数字资源基础设施建设与开放共享有待加强

“中华古籍保护计划”实施以来,我国古籍纸质资源保存、保护与修复方面的基础设施建设持续加强,与之相比,资源平台、标准规范、技术工具等古籍数字资源基础设施建设的规模和水平有待提升。截至2023年10月,我国现存20万种5 000多万册(件)古籍中实现数字化的不超过8万种,实现文本数字化的则不足4万种[17],且分散存储在各类古籍数字资源平台中。古籍数字资源基础设施建设有待加强表现在两方面:一方面,呈现多模态、多媒介特征的各类古籍资源仍需进一步统一数字化建设的技术和管理要求,提升古籍数字资源建设的标准化、规范化水平;另一方面,古籍数字化现有技术工具多数适用于具有中国古典装帧形式的汉文书籍,亟须研发特种古籍文献数字化工具。

另外,我国多数古籍收藏单位长期坚持“有限度开放”原则,对借阅读者身份和类别、古籍版本和数量、阅览方式等进行限制,一定程度上抬高了大众接触、阅读和利用古籍的门槛。公藏单位自主建设的古籍数字资源一般只面向本单位的用户开放,资源的大众可见性和开放性有限;商业性古籍数据库需要用户付费使用,加大了用户获取和利用古籍数字资源的成本。此外,各公藏单位、数据库商开发建设古籍数字资源平台、数据库时,在数据整理、服务、管理等模块采用的标准不统一,也给全国范围内古籍数字资源的整合与共享造成一定的困难。

3.2 多元社会主体参与的广度和深度仍需拓展

中华古籍活化是大众事业,不仅要实现古籍服务大众、服务社会的目标,更要吸引社会大众广泛参与到中华古籍活化的事业当中。近年来,尽管中华古籍的保护与利用不再是文化事业单位、高校学术机构的“独角戏”,文化产业机构和社会普通民众开始参与其中,但多元社会主体参与在广度和深度上仍显不足。

在广度方面,文化产业机构和社会普通民众作为中华古籍活化多元社会主体的重要组成部分,尚未真正实现广泛参与。例如,与古籍直接相关的影视作品、文创产品、游戏产品等大众喜闻乐见的文化产品供给不足,目前仅有阿里巴巴、字节跳动、京东方等几家互联网科技公司通过提供公益资金资助和支持古籍收藏单位保护和利用古籍,社会大众则正处于从中华古籍活化产品与服务的消费者向生产者转型的过程中。

在深度方面,部分社会主体未能充分结合自身特点与优势深入挖掘古籍中蕴含的中华优秀传统文化和中华民族精神的内涵。当前,古籍学术研究和古籍影印出版、整理出版成果中,深入浅出、大众易于接受的演绎出版作品数量少、精品少。文化事业单位、高校学术机构策划的古籍展览多数仍延续实物展示、图文描述的传统形式。一些与古籍相关的电视剧、电影、文创、游戏等文化产品,存在着“重主题,轻叙事,少内涵”的问题。例如,电影、电视剧往往以古籍为宣传点,却没有在内容中系统深入地讲述古籍背后的故事,文创、游戏多将古籍的“形”制作为主要元素,较少融入古籍的内容和内涵。

3.3 新兴数智技术与新型传媒融合应用不够广泛

数智技术在推动古籍保护利用从数字化向智慧化转型中的应用范围仍不够广泛。在古籍整理领域,传统的整理模式、整理流程、整理方法仍占主要地位。较难适用“人机协作+协同智能”“联合协作+专业协同”“行业自为+多元参与”的新趋势,未实现从“图像扫描—元数据标引—全文处理—索引建立—古籍发布”的古籍数字化整理流程向“数据导入—数据处理—知识组织—知识关联—知识呈现”的古籍智慧化整理流程的转型,无法充分发挥数智技术在创新和优化自动标引、句读、注释、翻译、编纂、校勘等整理方法中的作用。

在古籍服务领域,古籍数字资源平台的服务对象未能全面覆盖各类型用户群体,服务内容以提供资源为主,缺乏线上线下融合服务、场景服务、普及推广服务、古籍文化创意服务,未能有效应用与用户使用场景相关联的分析性、知识性、个性化功能AI,沉浸式、交互式的智慧服务模块也有待研究和开发。

在古籍传播推广领域,文化类创新节目、社交平台、移动应用、微信公众号、视频号等大众喜闻乐见的新型传播媒介尚未广泛应用于中华古籍活化,形式新颖灵活、选题视角独到且具有较大社会影响力的典型案例数量较少。与此同时,以融媒体、智媒体为代表的新兴传媒技术暂未对古籍传播推广产生颠覆性的影响,线上线下一体化发展和传播渠道多样化拓展的古籍传播推广新格局仍在形成过程中,大众获取古籍相关信息的便捷程度以及主动检索、筛选信息的能力素养均有待提升。

3.4 系统性与协同性古籍活化发展机制尚未建立

我国尚未建立起面对多元参与主体、多种类型活化内容与实践领域的,具有系统性与协同性的中华古籍活化发展机制,制约了中华古籍活化的协同管理和业务实践。

协同管理层面,亟待建立跨界合作机制,树立共同目标愿景,搭建高效沟通渠道。文化事业单位、高校学术机构、文化产业机构和社会普通民众在资源、技术、平台等方面各具优势,因缺少跨界合作,难以整合力量,不利于提升行业竞争力。事业与产业在生产目的、资源来源、机构性质、运营机制、调控方式上差异较大,在如何推进中华古籍活化事业高质量发展方面暂未达成共同的目标愿景,不利于实现事业与产业的协同发展。参与主体涵盖不同行业与领域,客观上存在信息传播藩篱和信息不对称现象,没有高效的沟通渠道作为支撑,则难以保障信息的时效、同步与畅通,无法为决策提供信息支撑。

业务实践层面,中华古籍活化所依托的古籍资源、业务平台、人才队伍分散在各个地方与环节当中。空间上,各级各类文化事业单位、高校学术机构均有本单位、机构的古籍资源、业务平台、人才队伍,导致其分布范围广且不均衡。流程上,不同活化环节有对应的业务平台,例如智能书库用于古籍保存,修复实验室用于古籍保护与修复,古籍智慧化整理和服务平台用于古籍整理与转化利用,平台之间往往相互独立;此外,各活化环节均分别培养和建设了专门的人才队伍,且不同环节业务人员之间的交流协作相对较少。面对上述情况,缺少全国范围的、覆盖全流程的资源、平台与人才体系,不利于中华古籍活化业务实践的整体推进与协同创新。

4

中华古籍活化的实践框架

中华古籍活化实践呈现体系化的发展趋势。一是拥有良好的外部环境,国家颁布的系列规划文件为中华古籍活化提供政策支持;二是掌握必要的基础资源,公藏机构、商业公司以及个人保存和收藏的古籍文献均在古籍活化的体系之中;三是具有明确的业务边界,以普通民众、研究人员为目标对象,以文本、技艺、知识、文化、过程为活化内容;四是形成闭环的活化流程,各活化主体通过多种活化技术和活化方法最终取得活化成效。本文构建了中华古籍活化的实践框架(见图1),该实践框架包括活化主体、目标对象、活化内容、活化技术、活化方法等核心要素。

图1 中华古籍活化的实践框架

4.1 活化主体

中华古籍活化的主体包括文化事业单位、高校学术机构、文化产业机构和社会普通民众,在资源、人才、资金、技术等方面特点鲜明且优势互补。

参与中华古籍活化的文化事业单位主要包括图书馆、博物馆、档案馆等,其馆藏古籍资源数量宏富、类型广泛,既有宋元善本、碑帖拓片、明清古籍,还有地方志、家谱等大量专题或特色资源,为开展中华古籍活化工作奠定了坚实的资源基础。2021年12月,全国已完成普查的汉文古籍总量就有270余万部,占预计汉文古籍总量的90%以上,完成古籍普查登记工作的2 861家单位多数为上述文化事业单位[18]。为加强古籍保护与修复的机构建设和人才培养,国家相继评选并公布了六批共203家全国古籍重点保护单位,国家图书馆挂牌成立“国家级古籍修复技艺传习中心”并先后设立32家国家级古籍修复技艺传习所,国家古籍保护中心在全国建立首批12家国家古籍保护人才培训基地,为古籍保护与修复提供了技术先进的基础设施和源源不断的专业人才。

高校学术机构在古籍学科建设和人才培养方面具有特殊优势。国内部分高校院系已开办古籍保护专业、开设古籍保护课程。自2014年起,中山大学、复旦大学、天津师范大学、中国社会科学院大学等高校与国家古籍保护中心合作培养古籍保护专业硕士,建设古籍保护学科,培养古籍保护人才,并建设了包括“文献与文化遗产保护前沿”“古籍整理与修复概论”“古籍编目实践”“古籍保护科技基础”“古籍保护理论与实践”等课程在内的古籍保护与修复专业课程体系。其中,中山大学信息管理学院作为全国首个与国家古籍保护中心签订联合培养“文献保护与修复”方向图书情报硕士的单位,已于2022年新增全国首个“文献与文化遗产保护”硕士专业学位授权点。

图书报刊业、广播影视业、娱乐业、艺术品经营业、网络文化业、文化旅游业等文化产业的相关机构同样是中华古籍活化的重要参与主体。《古典文献研究》《文献》《藏书报》等期刊与报纸及时发布古籍整理与保护的研究成果,为古籍保护工作者提供了学术交流平台。《明朝那些事儿》《海错图笔记》等古籍演绎出版作品注重内容专业性与普及性、知识性与趣味性的平衡,提升民众接触古籍的兴趣和主动性。《代号·山豹》《浴火书魂》等影视作品,以古籍故事、古籍元素为题材,通过“复活”历史人物、还原历史场景来创新演绎古籍内容。国家图书馆、国家博物馆、故宫博物院等机构推出的系列文创产品实现了古籍元素与文娱产业的融合。“谜宫·如意琳琅图籍”“故纸修复师·碎丹青”等古籍题材游戏寓教于乐,将故事背景与历史事件相结合,凸显写实风格与古典情怀,正成为年轻受众喜爱的古籍文化科普新方式。

社会普通民众也是发挥重要作用的参与主体。媒体形式与出版模式的快速转型,为大众提供了移动应用、古籍网站、虚拟社区、网络直播和短视频等丰富便捷、体验性强的窗口平台,充分激发了大众参与中华古籍活化的热情。例如“全历史”“西窗烛”“中医智库”等移动应用和“汉典古籍”“书格”“孔夫子旧书网”等古籍网站设置有专门的评论区或交流区,用户在其中依法发表、分享和交流自己对古籍的理解与认识,促进了古籍知识的流通。近年来,哔哩哔哩、抖音、微信视频号等平台还涌现出一批“意公子”“红楼宴”“舍溪”“廉成春 古籍修复”等拍摄与制作有关古籍保护、古籍文化作品的博主,在收获粉丝、创造效益的同时,营造了关注古籍、热爱古籍、研究古籍的良好社会氛围。此外,“喜马拉雅”有声作品在线收听平台还招募学者、作家、教师、知名博主中的传统文化领域优秀创作者加入古籍唤醒计划,作为古籍唤醒人来讲述古籍和传统文化。与其他参与主体相比,社会普通民众对整个社会主流的古籍文化需求有着更基本、更准确、更深入的理解和认知,他们在合法、合规、合理的情况下,能够充分发挥主观能动作用,自发组织开展一系列有活力、接地气的中华古籍活化活动,以人民群众的力量推动中华古籍活化工作向更有效率、更受欢迎的方向发展。

4.2 目标对象

中华古籍活化以普通民众和研究人员为两大核心目标对象,他们既是中华古籍活化成果的享受者,同时也是中华古籍活化财富的创造者。

对于普通民众而言,该群体的大多数成员一般不具备较高的古籍专业素养,对学术型、研究型古籍资源没有过高的需求,而是关注内容是否通俗易懂、形式是否喜闻乐见。与此同时,普通民众作为现代传媒的主力军和生力军,能够较为主动地运用各类传播手段和网络平台,发布和分享从日常生活中获得的对古籍及相关知识的理解和感悟,以“接地气”的内容引发情感共鸣。

对于研究人员而言,古籍资源多被用于中国古典文献学、历史文献学、古籍保护与文献学等学科领域的学术研究,要求古籍资源具有较高的开放性、共享性、完整性、准确性、易用性。广博的专业知识、科学的研究方法和先进的技术手段是研究人员相对于普通民众具备的优势,他们可以通过学术研究和开发工具来挖掘新资源、创造新知识。

普通民众和研究人员在中华古籍活化服务需求与参与能力上的差异,使得中华古籍活化实践框架整体呈现出大众化和专业化两大导向。为满足目标对象需求,同时引导目标对象从“被动”的服务享受者向“主动”的服务供给者转变,各活化主体应选择具有针对性的活化内容、活化技术和活化方法。

4.3 活化内容

中华古籍活化的内容包括古籍文本、古籍技艺、古籍知识、古籍文化和服务过程五类。

以古籍文本为活化内容,主要采用整理出版(影印出版、整理点校)、期刊报纸、数据库等形式,在建设资源和开放共享的基础上,实现古籍再生性保护,推动古籍整理与研究。

以古籍技艺为活化内容,主要采用人才培训基地、技艺传习所、培训班、专项项目、高校课程、体验活动等形式,强化古籍保护利用人才队伍建设,传承古籍修复技艺和相关理论知识。

以古籍知识为活化内容,主要采用普及出版、展览、主题赛事、文化节目、纪录片、交流平台、移动应用、微信公众号、网络视频直播、短视频等形式,创新古籍普及传播的形式与手段,面向大众普及、宣传和推广古籍知识。

以古籍文化为活化内容,主要采用演绎出版、电视剧、电影、文创产品、游戏等形式,通过创新演绎的方法将艰涩难懂的古籍文本转化为容易被大众接受的内容,降低大众阅读古籍的难度和门槛,在古籍叙事中传播古籍文化。

以服务过程为活化内容,主要采用智慧平台、交互展陈、交互作品等形式,通过运用智能整理、深度挖掘、可视化、虚拟现实、增强现实等智能化、智慧化的技术手段来拓展古籍智慧服务应用场景,提供智慧利用和交互体验。

4.4 活化技术

从中华古籍活化的实践进展来看,相关活化技术主要应用于古籍整理利用、古籍出版传播、古籍宣传推广三个环节。

古籍整理利用方面的活化技术主要包括数字化、文本化、数据化、知识化、智能化、智慧化等技术。数字化技术将古籍内容从古籍实体复制转移至数据库、互联网等数字载体,完成古籍整理利用的基础性工作。文本化和数据化技术通过OCR、自动标点、自动校勘、结构化转换、关键词提取等功能将古籍数字化资源转换为可供挖掘和分析的文本数据。知识化技术实现了古籍文本数据命名实体识别、实体关系抽取统一知识表示等语义化功能和实体对齐、多模态资源融合、历史人物画像等关联化功能,从而构建高质量的知识库。智能化和智慧化技术则在打造古籍智慧应用工具、提供古籍智慧服务、实现古籍知识智能生成、加快古籍创意成果发布传播、满足古籍用户智慧交互需求等方面提供技术支撑。

古籍出版传播方面的活化技术主要包括纸质出版、电子出版、网络出版、数据出版、智能出版、智慧出版等技术。在古籍出版传播初级阶段,普遍采用纸质出版和电子出版两个技术手段,以纸质出版物和电子书、电子报刊等形式出版古籍整理研究成果。网络出版技术和数据出版技术多应用于古籍出版传播中级阶段,以互联网为介质,拓展传播渠道,实现开放共享。智能出版和智慧出版则是依托新一代互联网、大数据、人工智能等新技术,提高出版活动效率、质量和精度,满足读者用户个性化的阅读需求。

古籍宣传推广方面的活化技术主要包括旧媒体、新媒体、融媒体、智媒体等技术。图书、报纸、期刊、电视节目是旧媒体技术在古籍宣传推广方面的主要应用场景。新媒体技术产生后,在古籍主题的社交媒体、微信公众号、短视频、网络视频直播等领域有着广泛的应用。融媒体技术作为一种全方位、互动式的传播方式,实现了多种媒体形态的有机结合,在满足古籍用户对文字、图片、视频等多种形态信息资源需求的同时,为用户提供了互动与评论的交流平台。智媒体技术则通过智能算法和数据分析,帮助古籍产品供给者精准分析用户需求和兴趣,提供个性化、智能化的媒体推荐与服务。

4.5 活化方法

中华古籍活化的实践层次不同且各有侧重,在活化主体、目标对象、活化内容、活化技术等方面呈现出多元化、智慧化、体系化的发展特征。为推动中华古籍活化实践向更为专业、更为深入、更为精细的方向发展,本文结合中华古籍活化实践发展特点使用复合分类法对中华古籍活化方法进行分类(见图2)。

图2 中华古籍活化方法类型

首先,以“目标对象”为分类标准,将活化方法划分为面向研究人员的专业活化、面向普通民众的大众活化,以及同时面向研究人员和普通民众的活化三个基本类型。其中,面向研究人员的专业活化主要包括“资源整理研究与数字化建设”和“修复技艺的传承与学科发展”,面向普通民众的大众活化主要包括“古籍文化知识的普及与推广”和“古籍的艺术性与创新性演绎”,同时面向研究人员和普通民众的活化则为“古籍智慧性融合与交互服务”方向的实践进展。

其次,以“活化内容”为分类标准,对上述三个基本类型进行细分,将面向研究人员的专业活化划分为研究型活化和传承型活化,将面向普通民众的大众活化划分为普及型活化和演绎型活化,将同时面向研究人员和普通民众的活化视为智慧型活化。其中,研究型活化侧重数字资源建设和整理研究,是横向的古籍资源建设;传承型活化侧重传承修复技艺和理论知识,是纵向的古籍技艺传承;普及型活化旨在创新传播载体,面向大众普及和传播推广;演绎型活化旨在演绎古籍内容,降低阅读门槛和接受难度。由于古籍智慧性融合与交互服务的过程中侧重数智技术的应用,因此将同时面向研究人员和普通民众的活化视为智慧型活化。

5

中华古籍活化的发展路径

面对新时代新的发展目标和文化使命,为推动中华古籍活化事业向更深层次更高质量发展,本文从以下五个方向提出中华古籍活化的发展路径。

5.1 坚持一个根本目标

中华古籍活化的发展路径应坚持一个根本目标,即把握和回应推进文化自信自强、建设中华民族现代文明的时代课题。

自信才能自强,有文化自信的民族,才能立得住、站得稳、行得远,要把文化自信融入全民族的精神气质与文化品格中。中华古籍在漫长的历史进程中不断完善、丰富和再生,所蕴含的中华民族数千年来形成的哲学思想、人文精神、价值理念、道德规范,是中国精神和中国价值的独特标识。中华古籍活化要将坚持“推进文化自信自强,铸就社会主义文化新辉煌”作为目标,保护、挖掘、普及、传承和传播古籍及其知识、文化,赓续中华历史文脉,把握中华文明特性,汲取中华思想智慧,为坚定文化自信、推进文化自强提供文献支撑和历史依据。

中华文明的突出特性,是中华民族现代文明的历史基础。习近平总书记强调:“只有全面深入了解中华文明的历史,才能更有效地推动中华优秀传统文化创造性转化、创新性发展,更有力地推进中国特色社会主义文化建设,建设中华民族现代文明。”中华古籍作为中华优秀传统文化的重要载体,呈现着中华文明的突出特性。开展中华古籍活化工作,就是要挖掘万千中华古籍中蕴含的中华民族宝贵精神财富和独特精神标识,为建设中华民族现代文明提供文化基因,传续精神命脉。

5.2 突出两项核心要点

以数智技术手段为支撑、以古籍全域活化为核心是中华古籍活化发展路径的两项核心要点,贯穿中华古籍活化的始终。

数智技术的应用推动了古籍数字资源建设、古籍传播、古籍出版的转型升级。以“数字化—文本化—数据化—知识化—智能化—智慧化”的技术演进路径支持古籍数据库开发、古籍智慧平台建设和古籍交互体验设计。媒体技术在经历了从旧媒体到新媒体、融媒体再到智媒体的发展过程后,正呈现出移动化、社交化、智能化的显著特征,能够以媒体平台的力量提升中华古籍和中华优秀传统文化的传播力、引导力、影响力。“纸质出版—电子出版—网络出版—数据出版—智能出版—智慧出版”的出版技术变革,极大地改变了出版生态环境,出版行业的产品形态也愈加丰富。受此影响,古籍出版应在提升纸质出版物品质的同时,不断加大古籍资源数据库、古籍知识服务平台、VR/AR产品、数字藏品等新型出版物的供给。

古籍活化具有显著的“全域性”,不再局限于载体保护、内容开发,而是将古籍文本、技艺、知识、文化乃至整个过程都纳入活化内容当中。五类活化内容既各有侧重,又相互联系。通过整理古籍文本,在活化古籍资源的同时为实施其他活化策略奠定资源基础;通过发扬修复技艺,为全方位开展古籍活化工作提供高素质人才的支撑;通过传播古籍知识,提升全社会科学文化知识素养,培养中华古籍活化可持续发展的后备力量;通过弘扬古籍文化,形成全社会关注古籍、认识古籍、热爱古籍、保护古籍的良好氛围;通过优化服务过程,提升服务对象的获得感、体验感、参与感,以科技的力量支持创新活化方式,以科技的魅力吸引广大人民群众。

5.3 满足三种服务需求

坚持需求导向、解决实际问题是构建中华古籍活化发展路径的主要原则,设计中华古籍活化发展路径要关注和满足学术研究、普及推广、文明互鉴三种现实需求。

研究人员作为中华古籍活化的目标对象之一,多来自高等院校和图书馆、博物馆、档案馆等公藏机构,一般具备扎实的专业知识、宽阔的研究视野、丰富的实践经验,需要领域更全、信息更准、内容更精的中华古籍活化服务。在建立国家、省级珍贵古籍名录的同时,应发现、保护、整理、利用民间历史文献,并进一步加快普通古籍的数字化进程,增加古籍种类数量及数字资源总量,提供更全面的古籍资源。为提升和确保古籍数字化资源的严谨性和准确度,古籍工作者应在古籍全面数字化过程中充分发挥主观能动性,运用自身专业素养和基础知识进行检查、审校。在精准服务方面,古籍活化工作者应加强古籍知识内容的深度挖掘和完整揭示,提升古籍数据的标准化程度,为研究人员提供更精准、更利于使用的数据;依托数字人文基础设施建设,开发智慧化的古籍数据挖掘、整理工具,帮助研究人员获取能够支撑研究的数据。

中华古籍活化服务的普通民众数量规模巨大、需求多样,这对中华古籍及古籍文化的普及推广提出了更为具体的要求。一是掌握大众的阅读兴趣,去芜存菁,在坚持学术内核的基础上,推动文本的通俗演绎,增加文本的趣味性。二是关注社会大众的信息获取方式,主动了解大众信息获取渠道及其特点,面对不同受众群体,有针对性地进行产品投放。三是大力发展大众文化,以培养文化认同作为第一要义,着重培养青少年的民族认同和爱国情怀;同时还要立足社会文化大环境,用好大众偶像、网络名人的正面引导与示范作用,从内容供应转向产品供应。四是为青少年群体的参与搭建更广阔的舞台,形成倡导青少年参与古籍活化的良好风气;同时为青少年提供作品传播推广的平台,帮助其通过作品走出校园、走向社会,真正成为古籍活化的后备力量。

推动和深化文明交流互鉴是中华古籍活化的应有之义。海外中华古籍对汉文化圈各国影响深远,在中华文化的全球传播和学术研究方面具有重要价值。通过境外汉籍调查编目、复制影印、点校整理、数据库建设等方式,整理与研究海外中华古籍,以可视化手段梳理和呈现中华古籍海外传播、流散到回归祖国的历史,面向世界弘扬中华文化与民族精神。充分发挥翻译的建构性力量和叙事性方式,在全世界范围内诠释和再现古籍中的中华文化,实现中国形象的客观自塑和积极传播。依托官方媒体、社交平台、民间自媒体等多样化的国际传播渠道,讲好中华古籍中的中国故事,突破语言和形式的限制,融入世界文明,以“中国知识”“中国思想”“中国智慧”为世界文明提供滋养,并使之朝着更为平等包容、多样丰富、客观科学的和谐方向渐进发展。

5.4 整合四种主体力量

通过建立机制和营造社区来整合文化事业单位、高校学术机构、文化产业机构和社会普通民众四种中华古籍活化主体力量。

开展中华古籍活化工作要理顺不同参与主体之间的关系,加强统筹协调,使之各就其位、各行其权、各尽其职、各得其利。一是建立中华古籍活化工作协调机制,建议由文化和旅游部牵头,各相关部门发挥职能和资源优势,在规划编制、政策衔接、标准制定和项目实施等方面加强沟通协作,营造良好的工作氛围,形成工作合力。二是建议由国家图书馆牵头建立专家联席会议机制,组建包括来自各类参与主体所属领域专家在内的专家委员会,打造一支跨地区、跨专业、跨单位的专家队伍,并定期举办联席会议,在古籍活化理论研究、决策咨询、指导实践和人才培养等方面发挥积极作用。三是建立市场主体公平竞争机制,在市场准入、资质标准、资源获取、招标投标、开发经营、市场退出等方面,对中华古籍活化市场中投资者、经营者、劳动者和消费者各类主体保持公平开放。

古籍社区类型多样,包括古籍学术研究社区、行业交流社区、大众互动社区等;古籍社区形式多元,既有依托科研团体、学术组织、行业协会、专业期刊形成的线下古籍社区,也有贴吧、论坛、博客等线上古籍社区。鼓励从事各行各业的古籍爱好者选择符合个人兴趣、满足自身需求的古籍社区,形成热爱古籍的文化圈层,凝聚保护古籍的社会共识,营造关注古籍的社会氛围。支持研究人员、从业人员在学术期刊上发表古籍领域的理论研究成果,在学术会议上进行展示和汇报,引导普通民众在古籍社交圈中有序发布对古籍内容的认识和理解,在增加古籍社区知识资源总量的同时,不断传播古籍知识、弘扬古籍文化。

5.5 实施五大活化策略

中华古籍活化的发展路径需要通过实施资源、内容、技术、载体、人才五大活化策略来落实。

实施资源策略,推动古籍整理利用开放共享。保障不同区域、行业、群体的民众平等自由地获取和利用古籍资源,是中华古籍活化事业全面开展的基本前提。在实现全国古籍全面数字化、中华古籍数字化回流和整合全国古籍数字资源的基础上实现古籍数字资源的全文开放,并通过深度组织、高效利用、快速传播古籍内容,满足不同层次读者的古籍利用需求。古籍主管部门应加大对古籍数字资源建设工作及其成果的宣传推广力度,提高中华古籍在民众间的知晓率和关注度;同时加快构建古籍活化利用服务网络,鼓励社会力量参与,让古籍推广活动走入基层,并在空间、设施设备等方面为民众利用古籍提供便利。相关机构、院校、企业应打造和推出易用、好用、实用的古籍全文数据库及大众服务平台,提供周全的文档指导和帮助服务,增强古籍的吸引力,培养人们热爱古籍、阅读古籍、利用古籍的兴趣与热情。

实施内容策略,增强古籍叙事能力与亲和力。中华古籍是传承中华文明、坚定文化自信的重要基础和来源,要正确认识中华古籍的内容,在精选内容的前提下,朝着正确的方向和运用正确的方法,以创意驱动中华古籍文化的弘扬,以共情演绎提升中华古籍的感染力、亲和力。中华古籍活化的相关政策要引导和支持文化创意产业参与古籍活化事业,设立古籍活化创意发展重点工程项目,鼓励创意产业机构与社会力量围绕古籍文化授权、古籍IP打造、设计开发、生产营销等产业链条展开深度合作,构建古籍活化创意生态体系。古籍主管部门要进一步开放古籍资源,构筑和巩固古籍数字资源网络服务平台,提供完善、多样的数据服务与技术支持,推动古籍数字资源的流动、共享。此外,在促进创意成果交流与复用、实现成果价值变现与增值的同时,还应加强古籍活化资源版权的研究和保护,全方位扶持古籍活化创意产业发展。

实施技术策略,拓展古籍智慧服务应用场景。在智慧化产品、展陈、作品等小型应用场景持续繁荣的基础上,应统筹协调并设计搭建中华古籍智慧图书馆平台,以实现海内外中华古籍资源全面集成与统一管理服务为目标,营造古籍智慧服务的大应用场景,为古籍共建单位和终端用户提供古籍业务管理功能、古籍数字资源智慧整理功能和智慧服务功能。在实现中华古籍整理智慧化转型方面,借助新一代人工智能技术,从整理方法转型、整理流程再造和整理模式创新三个维度实现中华古籍整理从数字化到智慧化的转变。在推动中华古籍服务智慧化创新方面,既要提供一站式古籍资源学术服务,通过精细化资源揭示使资源更易理解和利用;还应开展大众化古籍普及推广服务,通过在线课程、互动教学和讲座等方式,让大众接触、学习和了解中华古籍文化,推进融媒体古籍文化创意服务,以多元化的互动方式为用户提供丰富的古籍体验。

实施载体策略,创新古籍普及传播形式手段。以智媒体、终身学习体系、国际传播话语体系为切入点,建立以内容建设为根本、先进技术为支撑、舆论引导为保障的古籍活化传播体系。发挥智媒体传播力,运用人工智能工具实现古籍信息精准化触达受众;融合古籍IP打造虚拟数字人形象,并将其嵌入古籍展览、培训等常见的应用场景。依托终身学习体系,在多种生活空间场景面向各个人生阶段的大众传播古籍知识:在学校层面,将古籍文化启蒙教育、知识教育、思想教育纳入教学体系;在家庭层面,将古籍主题阅读作为家庭阅读的重要内容;在社会层面,将古籍文化普及推广与全民阅读推广紧密融合。提升中华古籍文化国际传播效能应明确三个核心问题:一是“讲什么”,即讲述古籍里的中国故事,加强全世界人民对中华文化的感知与认同;二是“讲给谁”,即选择多圈层的国际受众,设立立体式、分目标式的传播格局;三是“怎么讲”,即建设中国特色话语体系,挖掘并善用外国民众容易接受的内容形式,增强中华古籍文化国际传播的创造力、感召力、公信力。

实施人才策略,强化古籍保护利用队伍建设。坚持政府主导,推动行业合作与多元主体协调,充分发挥监督管理和评审评价作用,构建人才培养的新机制和新生态。相关高校院系应健全古籍保护与利用的课程体系来培养研究型人才;探索建立行业内部的人才培养和技艺传承机制,完善导师“传帮带”培养模式,培养应用型人才;通过建立古籍活化的专项基金、项目、计划支持师资型人才的成长;打造虚实结合的教学空间,并依托已有的虚拟教研室建设成果,整合相关院系古籍方向的教学资源和学习资源。同时,高校院系和古籍部门应积极建立馆校协同的教学模式,打造资源共享的线上学习平台和线下古籍活化人才培养基地;加强多学科交叉融合、跨行业交流经验、学科与行业互动,培养既懂古籍、又懂现代科技的复合型人才。此外,还要鼓励、支持和引导各类社会力量辅修相关课程,参加培训活动,提升专业素养,壮大中华古籍活化的群众队伍。

6

结语

在我国古籍事业繁荣发展的今天,加强中华古籍活化基本理论和发展方向研究的价值意义主要体现在三个方面:一是持续推进中华古籍活化基础理论发展,中华古籍活化的理论研究稍迟于实践进展,本文在界定基本概念、明确指导思想、总结活化方法方面的探索,既是对“中华古籍活化”专门研究不足的积极回应,更是构建中华古籍活化理论体系的初步尝试;二是有效推动中华古籍活化实践的创新发展,虽然中华古籍活化的参与主体广泛、实践案例众多,但尚未形成体系,构建过程完整、逻辑清晰的实践框架,提出具有系统性、前瞻性的发展路径,有助于引导中华古籍活化实践朝着专业化、精细化的方向发展;三是不断丰富古籍保护学科知识内容,中华古籍活化的实践表明,古籍保护正面临着理念、技术、途径上的创新与改变,学界在实践转型的背景下同样在加强经验总结和理论升华,在此过程中将会产生大量新知识、新理论,因此古籍保护学科的知识内容与整体架构都会得到补充、调整和完善。

致谢:本论文系国家社会科学基金一般项目“徽州民间文书抢救性保护与数据库建设研究”(项目编号:19BTQ010)的研究成果。

本文原载于《中国图书馆学报》2024年第4期,文章转载已获作者同意。

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

王蕾等 | 古籍智慧性保护理论及实践框架探索

2026年5月2日 08:55

王蕾 苏日娜 等 2026-05-02 08:55 广东

分享一篇文章

汲古求新: 王蕾 苏日娜 等 | 古籍智慧性保护理论及实践框架探索

来源:《图书馆论坛》2024年第12期,感谢王蕾老师授权发布!

古籍智慧性保护理论及实践框架探索*

王 蕾   苏日娜   薛 玉   陈 涛

摘 要 我国古籍保护在长期的实践和研究中逐渐构建了多层级理论和实践框架,包括原生性保护、再生性保护、传承性保护等,也涵盖以数字化与智能技术应用为基础的古籍智能化,以及基于智慧数据的智慧性保护等新兴理论和实践探索。文章在已有古籍保护理论与实践基础上,对古籍智慧性保护概念、特征与内涵进行分析、界定和阐释,从古籍保护全过程视域出发,构建古籍智慧性保护的全系结构,即面向物理层面的古籍原生性保护阐述古籍管理流程、修复技艺、保护环境的科学提升路径,面向内容层面的古籍再生性保护阐述古籍版本的数字化、古籍文本内容的数据化、古籍整理流程智慧化路径,面向知识层面的智慧数据建设阐述古籍资源的数据概念化、知识关联化、生产融合化路径,面向古籍活化层面的传承性保护阐述古籍传播大众化、文创时代化、教学专业化路径。

关键词 古籍保护 智慧性保护 智慧数据 数字人文

0 引言

数智技术发展给古籍保护的理论、方法和思路带来巨大影响。《中华优秀传统文化传承发展工程“十四五”重点项目规划》[1]明确国家古籍保护及数字化的总体方针。《关于推进新时代古籍工作的意见》[2]强调古籍保护、传承和转化利用在国家战略中的重要性,提出一系列措施,包括统筹古籍数字化版本资源建设与服务,开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级,这些政策为古籍保护发展指明了方向,为古籍在新时代的价值实现和传承提供了支持。为适应新时代古籍保护工作发展的需要,本文在已有的古籍原生性保护、再生性保护、传承性保护[3],以及以智慧数据为基础的智慧性保护理论与实践探索基础上,深入探讨古籍智慧性保护的概念、内涵、理论与实践框架,推进古籍保护理论体系的创新和发展,推动古籍整理、开发、利用、传承实践的全面智慧化转型,促进古籍蕴含的优秀传统文化基因的深入挖掘,让古籍“活”起来,实现中华优秀传统文化的创造性转化和创新性发展。

1 古籍智慧性保护

2022年6月,习近平总书记在中国人民大学考察调研时提出,要运用现代科技手段加强古籍典藏的保护修复和综合利用,深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,推动中华优秀传统文化创造性转化、创新性发展[4]。这一思想反映了新时代古籍保护发展的趋势,是古籍智慧性保护概念与内涵的重要依据。古籍智慧性保护应具有科学性、系统性、整体性、生态性、发展性等特征,是适应国家发展战略需求和新时代古籍保护发展的现实需求,将以大数据、云计算、物联网、区块链、人工智能、虚拟现实等为代表的现代科技手段、先进数智技术、智能设备设施综合运用于各类古籍保护体系与过程,运用于多模态古籍资源的典藏、管理、整理、开发、利用、传播、服务、传承等全领域实践活动与环节,以智慧数据为驱动,实现古籍全过程保护在保护思想、技术、流程、手段上的创新和转型;以知识组织为路径,实现多模态古籍所蕴含的知识、思想、文化、精神、价值的深入挖掘;以传承活化为目标,实现古籍的内容、价值与当代社会文化发展的结合,推进古籍的活化传承利用,推动中华优秀文化创造性转化和创新性发展。

1.1 以全过程、多模态资源为古籍保护对象

古籍智慧性保护的对象包括原生性保护、再生性保护、传承性保护及智慧数据各保护体系所涉及和形成的所有资源,可分为原生性资源、伴生性资源、创生性资源和衍生性资源4 种类型。这些资源以结构化、半结构化、非结构化等形式存在。其中,原生性资源指以纸张为载体的实体资源,包括古籍原件、古籍整理本等;伴生性资源是以临摹、照相影印、缩微摄影、数字化等为手段实现古籍存储介质转换而产生的各类资源,如照片、缩微资料、扫描图片、全文文本等;创生性资源是古籍文本化、数据化、语义化、概念化、关联化、智能化、智慧化加工过程中形成的数据、知识资源,如元数据、本体、语义数据、关联数据、智能数据、智慧数据;衍生性古籍资源是指古籍的版刻工艺、装帧艺术、修复技法、鉴赏方法等非物质文化遗产相关内容,古籍中蕴含的知识体系、文化基因、文化内涵,以及古籍创造性转化与创新性发展过程中形成的新知识与新智慧。

1.2 以统筹古籍文物与文献属性为基本目标

《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》[5]强调对文化遗产的“系统性保护”。《关于推进新时代古籍工作的意见》首次提出要统筹好古籍的文物属性与文献属性的关系,提升利用效率[2]。古籍的文物属性附着于不可再生的古籍实物本体上,古籍的文献属性蕴含在古籍文字、内容和制作技艺中,传递着优秀的文化基因与文化传统,是文化建设的“活水源头”。因此,古籍保护既要加强实体保护,又要加强活化利用,更好地统筹处理好两者的关系。当前,大量古籍资源处于“沉睡”“资源孤岛”状态,保护设施和手段落后,古籍资源的智慧数据建设程度不高,传播利用率低下,而大众的文化需求在获取内容、手段、方式等方面呈现出多元化、井喷式发展态势,亟须创新古籍保护路径,破解供需矛盾。古籍智慧性保护正是适应当前的发展需求,借助新一代技术思维、手段、设施,平衡传统保护与创新应用之间的矛盾,促进古籍保护与利用的系统性发展。

1.3 以数智技术应用和智慧数据为基础支撑

《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》《“十四五”文化和旅游发展规划》[6]《关于推进实施国家文化数字化战略的意见》[7]《“十四五”公共文化服务体系建设规划》[8]《2011—2035年国家古籍整理出版规划》[9]等一方面强调文化遗产的系统性保护和保护工作的统筹推进,另一方面强调古籍数字化建设和新技术在古籍数字化中的应用,这正是古籍智慧性保护的宗旨。通过广泛应用智能感知、交互、沉浸、虚实结合等为代表的智慧化设备,推进古籍实体资源的智慧库房管理和智慧修复体系发展;通过深入利用大数据、深度学习算法、区块链、智能合约等新型数智技术和跨学科方法,构建古籍保护智慧数据,建设古籍数字资源的智慧整理与服务系统,推进古籍内容的智慧性活化和利用。数智技术以智慧数据为核心,智慧数据以其可计算、可认知、可解释与可推理特征实现数据增值。以数智技术和智慧数据为基础支撑,古籍智慧性保护能够实现对古籍保护全领域、全过程数据的挖掘、积累、管理和利用,实现古籍整理与服务的智慧化转型。

1.4 以古籍保护流程优化与再造为核心内容

古籍智慧性保护通过将新型数智技术全面应用于古籍原生性保护、再生性保护、传承性保护及智慧数据领域的建设,实现古籍保护各体系流程的优化与再造。

在原生性保护层面,借助智能设备和数智技术,使古籍传统的库房、修复和业务管理转向智慧管理系统,积累和激活古籍实体保护和利用中的各类过程性、运行性、动态性、条件性数据的多重价值,提升古籍实体资源保护与利用水平。在再生性保护层面,通过古籍数字资源的标准化、规模化、高质量建设,古籍智慧数据的建设,古籍智慧整理流程的建设,全面构建统一开放共享的多模态古籍数字资源中心、标准数据集、完整领域知识库、系统知识图谱,以及科学的古籍数字版本系统等,建设统一集成的古籍智慧整理平台,提炼古籍中蕴含的文化元素与标识。在传承性保护层面,新技术全面赋能古籍所蕴含知识与文化的大众传播、古籍知识技艺传承与教育、古籍创意与活化利用。古籍大众传播从传统线下、实体应用场景向云端线上、沉浸式、强交互、多元化虚拟场景拓展,从低传播力、低活化效能转化为高传播力、高活化效能;古籍知识技艺传承与教育适应新技术带来的交叉性专业知识创新,拓展了教学内容,引导教学模式向虚拟线上、多元数字教育模式发展;古籍创意与活化利用通过跨模态融合、融媒体技术、内容生成式人工智能、区块链等技术实现场景叙事、数字藏品、智能知识内容生成等发展。

2 古籍智慧性保护全系结构

古籍智慧性保护不是要取代或者脱离现有的保护及体系,而是将新技术、新手段、新方法全面应用、融合到古籍现有保护工作的全体系、全过程,对古籍现有各保护体系的保护内容、方法、流程进行数智化赋能、拓展和优化。古籍智慧性保护全系框架可以从两个维度、4个层面来展现(见图1)。

图1 古籍智慧性保护体系框架

2.1 物理层面:原生性保护的科学化提升

古籍原生性保护主要是对古籍原生资源进行物理层面的保护。《关于推进新时代古籍工作的意见》强调要发挥科技保护支撑作用,推动古籍保护关键技术突破和修复设备研发[2],反映了古籍原生性保护亟待新技术的赋能,包括古籍管理流程化、技艺科技化和环境科学化发展。

2.1.1 管理流程化

长期以来,古籍日常保护管理、业务管理、读者服务管理、业务与服务数据收集、统计分析与存档等基本处于线下管理模式,效率低下,业务数据与档案的收集、保存、统计与利用难以实现科学化、标准化、规范化,业务管理和读者服务无法突破时空限制,实现实时、远程、在线的数字流程化管理,不适应当前智慧图书馆发展趋势,不利于推进古籍保护与管理工作的创新与发展。

古籍管理智慧化建设应在分解和分析古籍业务管理流程和内容基础上构建系统的智慧管理模式,涉及古籍数据与资产管理、古籍整理、用户服务等。其中,古籍数据与资产管理应建立古籍资源与数据的动态性、全过程管理模式,以及古籍实体资源与多模态古籍数据资产一体化管理模式。古籍整理业务管理涉及古籍整理的数字审批、流程管理和专项业务的项目管理等系统,最大限度地激活古籍管理的流程数据。古籍用户服务则涉及古籍借阅、咨询、权限审批、数字展陈、阅览数据管理等。在智慧图书馆建设发展的整体背景下,古籍管理流程化是对古籍多模态资源的资产、整理和服务的管理优化,一方面促进古籍资源和数据的资产化、一体化管理,另一方面促进流程数据的价值转化和增值。

2.1.2 技艺科技化

当前的古籍修复以传统手工修复技艺为主,科技设备主要应用于书籍定损、纸张与材料检测、脱酸工艺、纸浆补书,以及修复过程中的机械物理辅助等。同时,面向修复技术、修复过程、修复材料、修复档案和业务流程管理的修复管理系统长期缺乏足够的关注和研究开发,极大地制约了古籍修复工作的发展。

随着技术的发展,人工智能技术能够辅助古籍修复工作,加速提高古籍修复效率[10]。相关的数智技术应用包括:三维数据采集技术、智能图像识别技术支持下的古籍实物装帧数据、破损数据的智能采集,大数据、智能建模技术支持下的古籍破损病理分析和修复材料分析,多媒体技术、虚拟技术支持下的修复过程信息采集,人工智能技术、虚拟现实技术支持下的修复方案智能建模、修复流程智能管理等;在这些技术的综合应用下,可实现集古籍破损病理、材料工具、修复方案、修复过程、修复档案等信息管理于一体的智慧修复管理体系(见图2)。

2.1.3 环境科学化

图2 古籍智慧修复框架流程

我国重点古籍保护单位的智能化库房建设和数据管理长期发展滞后,尤其是在设备系统优化、环境条件监控以及运行数据智能处理等方面进展缓慢。目前全国性、系统性的古籍保护智能库房建设和数据共享管理规划尚未形成。随着物联网、大数据分析、智能设备系统以及三维可视化等技术的不断发展和应用,未来古籍智能库房建设将得到加速提升。这些先进技术可以实时和动态地监测库房温湿度、气态污染物和紫外线强度等多种环境因素,以及包括渗漏水监测、红外防盗、电源管理和火情报警等在内的消防安全系统的运行状态。通过集成这些数据,可以构建科学智能的环境控制系统和三维可视化虚拟库房系统,从而实现库房的实时、在线、远程监控,以及智能感知、风险预警和应急响应(见图3)。

图3 古籍智慧库房综合管理体系

值得注意的是,古籍实体的常态化监测是古籍保护工作中长期被忽视的领域,这点也应纳入智能库房建设和管理规划。古籍实体的物理状态在特定的存储环境下是不断变化的,这些变化主要体现在纸质酸化、色彩变化、纤维强度变化,以及出现霉斑和虫害等问题。尽管通过改善库房的恒温恒湿条件可以在一定程度上缓解这些问题,但这并非根本解决方案。对古籍实体开展常态化、持续性监测则是科学保护古籍的关键手段。利用射频识别(RFID)技术对藏品进行精确定位,结合纸张酸度检测、深度学习和视觉检测等先进技术,可以更全面和精确地收集关于古籍的各种物理参数,如破损程度、酸碱度、色度和纤维强度等,这些数据有助于实时监控藏品的保存状况,实现藏品的数字化动态管理,为古籍实体常态化保护和研究提供科学数据支撑。

2.2 内容层面:再生性保护的数字化转型

再生性保护涉及古籍载体转换、古籍数据库建设、古籍内容提取与整理等。传统的古籍再生性保护实践因循传统文献学理论方法,以古籍整理出版和数字化、数据库建设为主体。新技术将赋能古籍更多形态、更广应用和更智能的整理,实现古籍再生性保护的智慧化转型,包括版本数字化、内容数据化、整理智慧化。

2.2.1 版本数字化

古籍经编辑、传抄、印刷、复制、流传形成各种不同的版本,古籍的数字化使古籍的数字版本形态逐渐形成并不断丰富扩展。对一部古籍而言,其不同版本的实体经过数字化后形成了不同的数字版本,同一版本的实体经过不同的数字化技术手段处理也形成了不同的数字版本,各类数字版本经过进一步的数字化编辑、加工、处理、复制和传播等又形成更加丰富的数字版本。由此可见,古籍的数字版本类型与系统日趋复杂。

面对复杂的数字版本系统,亟待开展3个方面的研究探索:一是对古籍版本目录成果进行数字化开发和知识组织,针对基于传统古籍鉴别和整理理论与实践形成的版本成果建立数字化系统,为数字化古籍的版本映射与溯源提供基础。二是总结探索古籍数字版本鉴别方法和理论,为数字化古籍的版本鉴别提供理论支持。三是利用数智技术研究开发古籍数字版本系统,实现海量、多模态古籍数字资源的版本关联,建立可溯源、开发、准确的版本体系。其中,古籍版本目录成果的数字化与知识组织建设应全面收罗历代和现当代公私编撰的各类目录和各类书目数据库数据,形成详细、规范、标准、统一、关联性揭示的版本目录数字知识库。古籍数字版本鉴别方法和理论的建设一方面应以实体古籍为祖本,以传统古籍版本鉴别要素和方法为基础,推进古籍版本书影图像数据库和专题知识库建设,另一方面应推进古籍多模态数字资源标引的标准化、细颗粒、统一性建设,实现数字资源版本的溯源和关联。以上述资源成果为基础,围绕古籍数字版本资源,搭建包括资源中心、数据中心、基础知识、元数据仓储、版本管理系统等在内的古籍数字版本系统,为古籍多模态资源构建统一、开放、互联、互通的数字版本系统。以古籍收藏机构为区块链分布式存储节点,共同遵守古籍数字版本数据管理协议和规范,实现古籍数字版本的数据建设、验证、使用、管理,实施古籍数字版本区块链系统的数据、网络、规范协议和应用等建设。

2.2.2 内容数据化

数字化是传统古籍再生性保护的重要途径,主要借助数字化输入技术、图像识别技术等实现古籍书目、图像和全文的数字化建设,形成各类综合性、专题性的书目数据库、图像数据库、全文数据库等,推进古籍内容的文本化建设。目前传统的古籍数字化并未充分挖掘古籍文本内容的信息单元和知识内涵,忽视了用户深度使用的需求。如何更深层次、更高效地挖掘古籍蕴含的知识和文化内涵,并使分散的数字化资源实现语义关联,为用户提供智慧化的知识服务是目前古籍数字化工作的重要挑战。随着自然语言处理、机器学习等技术的发展和应用,通过命名实体识别、关系抽取、本体构建等,古籍内容从文本化进一步转向语义化,形成智慧数据的最初形态[11]。智慧数据是大数据技术的进一步延伸,旨在充分挖掘和实现大数据的价值,它具备自描述、人机可读、可溯源等特点,能够支持智能决策与行动。通过推进古籍数字化从文本化处理转向内容的数据化建设,将实现多模态古籍数字资源的统一化、标准化、数据化发展,为古籍的智慧整理、智慧数据的应用发展提供基础。

2.2.3 整理智慧化

近年来,部分研究与实践对古籍智能化整理范式、系统展开探索,聚焦自动录入、自动标引、自动标点、自动编纂、自动校勘、自动注释、自动翻译、辅助工具等功能,形成古籍智能整理专家系统、古籍知识数据化处理系统、计算辅助研究系统等成果,出现了“吾与点”古籍自动整理系统[12]、“籍合网”古籍整理平台[13]、古籍酷AI服务平台[14]、“识典古籍”[15]等。这些研究和实践侧重于文本的智能识别和句读、释义,但自动录入、标引、标点、编纂、校勘、注释、翻译等功能并未完全实现,对古籍智慧数据的生成和再生产尚在初期探索阶段。生成式人工智能的产生与发展,使机器具备了语言理解、内容生成、逻辑推理、意图识别等能力,呈现出大数据、大模型、大算力的特点[16],为古籍整理进一步向以知识组织和知识再生产为主要特征的智慧整理转型提供了技术基础。古籍智慧整理面向古籍多模态资源整理的全过程,覆盖古籍数字化、文本化、语义化、关联化、智能化等阶段,综合运用数智技术,形成统一、集成的技术体系、平台与工具,满足用户的一站式需求。

2.3 知识层面:智慧性保护的数据化创新

本团队在此前的研究中已构建了智慧数据驱动的古籍智慧性保护体系的概念框架,梳理了古籍从数据化到语义化,再到智能化和智慧化的技术体系,并将这一体系作为再生性保护体系的重要补充,将古籍数字化保护对象从数字化形态拓展至数据和知识层面[11]。本文进一步将智慧性保护的范畴扩展至古籍的原生性保护、再生性保护以及传承性保护等系列环节、过程的智慧化转型,旨在构建一个面向古籍保护全过程、全领域、系统全面的古籍智慧性保护体系。在知识层面,古籍保护更注重智慧数据的内涵特征,将智慧数据视为一个动态的、流变的过程,以及一个多模态的结果,通过对古籍智慧数据的深入理解和处理,实现其价值的最大化。智慧性保护的核心要素包含数据概念化、知识关联化和生产融合化等[11]。数据概念化是将古籍资源转化为可计算和可理解的数据形式,使其更容易分析和利用。知识关联化强调不同古籍资源之间的关联和互通,以促进跨领域知识的交流和共享为目标。生产融合化则将不同来源的知识和资源融合在一起,创造新的价值和知识。这些以智慧数据和知识组织为中心的创新使古籍保护更具广度和深度。

2.3.1 数据概念化

数据概念化主要是将古籍再生性保护中形成的古籍数据以一种机器可读的形式加以组织和呈现。本步骤中,古籍元数据、实体资源、数字化图像资源均需转化为具备语义知识结构的数据形式,即语义数据[17]。细分来看,古籍数字化阶段主要实现对古籍实体资源的数字化形态转换,包括文本、图像、音视频、三维模型等多模态资源。古籍数据化阶段主要通过OCR、著录、标注等方式实现古籍文本的识别和整理,以及通过命名实体识别、实体消歧、关系抽取、事件抽取等方式进行古籍内容的结构化。古籍概念化阶段主要将古籍数字化过程中产生的结构化数据以语义方式进行重组,如使用语义网和知识图谱,使得古籍数据从原始形式转化为具备智能和知识的数据形式,进而进行语义推理、知识挖掘和智能分析,为古籍知识的进一步积累和智慧保护及利用提供基础[11]

2.3.2 知识关联化

目前语义数据的关联多是结构化的古籍文本资源,缺乏与其他数据交换的能力,从而限制了知识的扩容和衍生。如何从结构化的文本资源延伸到非结构化的图像、音视频等多模态资源将是古籍知识系统性、完备性的重要挑战。在古籍智慧数据体系建设中,通过实体对齐、多模态资源融合、人物关系网络构建、跨模态生成算法和模型等技术可逐步实现多模态古籍资源之间的知识关联[11]。如将语义数据关联到图像资源局部区域、图像自动分类、图像的语义描述和目标识别、知识图谱的自动构建,以及音频、视频、3D模型等多模态古籍资源的知识关联等。

2.3.3 生产融合化

生产融合化强调知识的计算和再生产,在大批量处理数据的基础上开展深度的知识推理和分析,进行知识生成和创新。在这一过程中,区块链技术作为核心工具增强数据的可追溯性和透明性,促进构建更可信的数据生态系统。通过分布式存储、智能合约和哈希算法等核心技术,区块链为数据赋予了更高级别的智慧,解决关联数据中长期存在的数据可信度问题。此外,强人工智能的产生和发展,将成为知识再生产,尤其是智慧知识生产的重要趋势。目前基于深度学习的知识组织模型对高质量训练语料和人工干预的依赖程度较高,且自动抽取与标引的颗粒度往往仅限于篇章、句子、实体层面。新一代的人工智能具有智能生成内容的特点,不仅可以自动抽取人名、地名、事件、官职等命名实体,还可不断强化细颗粒度知识的识别、关联和组合,提高知识组织与生产的效率和准确性;运用知识推理、知识图谱、知识融合、文图同构、知识可视化等技术推动多元古籍知识库的整合和古籍知识的多元化呈现,如多维知识图谱、故事生成、场景还原等,促进古籍利用的交互性、体验性。

2.4 活化层面:传承性保护的智慧化应用

古籍传承性保护的研究与实践强调古籍识读能力、材料和制作技艺的传承,以及古籍和古籍保护的社会传播。随着新时代文化建设战略的不断发展和新的文化使命的确立,借助数智技术,古籍传承性保护的内涵不断丰富和拓展。

2.4.1 传播大众化

古籍大众传播媒介和方式借助新技术不断拓展,跨媒体、立体化、交互性将成为其重要特征,如“珠还合浦 历劫重光——《永乐大典》的回归和再造”展览、灵境石语——碑帖建筑VR沉浸式体验展项目等利用智能媒体技术,实现跨媒体立体传播。物联网、云计算、大数据、VR/AR/XR、全息影像等技术可为古籍打造智慧传播空间与场景,如数字展墙、虚拟展柜、全息投影展览、沉浸式数字展陈、智能交互展示平台、沉浸式数字叙事空间、沉浸式交互游戏、基于文本大数据的历史城市再造、虚拟演绎、智能导览等,满足古籍大众传播中的分众化、差异化等多元化需求,增强古籍传播的交互性、体验性,提升大众对古籍所蕴含的知识内容与体系、文化思想、技艺精神等的感知和理解,提高古籍传播效力,推动古籍活化利用从传统线下、实体应用场景向云端线上、沉浸式、多元化虚拟场景拓展。

2.4.2 文创时代化

文化创意产业开发是古籍元素与文化旅游娱乐产业融合的主要方式。结合不同时代的特征和大众的喜好,通过开发古籍文创精品,让古籍里面的优秀传统文化元素和美好艺术化身千百,能够让大众以更加具体的方式触碰典籍,增强对古籍文化的兴趣和理解,更有利于古籍文化传播功能的实现。如借助数字版权与交易技术,推动数字藏品和数字文创发展;利用AIGC、云游戏、元宇宙等技术还原再现古籍本身以及古籍内容所蕴含的历史文化虚拟场景,为用户带来写实级别的场景和沉浸式的交互体验感受,重塑大众对古籍知识、文化与价值的认知;通过内容生成技术,对古籍内容进行新的诠释和表达。

2.4.3 教学专业化

古籍相关知识的学习、传授,古籍材料制作、装帧,以及古籍修复技艺的传承内容和手段等在新技术的支持下获得广泛的拓展。一方面,通过对古籍知识和古籍相关技艺学习、传授、教学的技术赋能,如VR互动式教学、虚拟仿真平台教学等,推动古籍知识、技艺的教学模式由线下向虚拟线上发展。另一方面,在古籍知识、古籍相关技艺传承中,适应新技术带来的交叉学科专业知识内容创新的教育和学习,包括材料科学、化学科学、人工智能科学、数字人文学科等,与古籍保护知识体系交叉融合,形成新的知识体系和课程学习体系。

3 古籍智慧性保护发展的价值

习近平总书记在文化传承座谈会上强调,在新的起点上继续推动文化繁荣、建设文化强国、建设中华民族现代文明,是我们在新时代新的文化使命[18]。古籍保护理论与实践应以新时代新的文化使命为指引,积极响应新时代国家文化建设发展总体规划与战略,广泛运用不断迭代发展的数智技术,对古籍保护的全领域、全过程、全流程进行全面探索,从而促进古籍保护工作在新时代的全面转型,挖掘古籍蕴含的优秀文化基因,丰富古籍保护学科知识与理论体系,促进中华优秀传统文化创造性转化、创新性发展,推动中华民族现代文明建设。

3.1 促进古籍保护工作在新时代的全面转型

社会文化和科技的不断发展为新时代的古籍工作带来更多的新需求和新挑战,尤其是在古籍的保护传承、有效利用方面。现有的古籍保护方法、技术和体系并不能满足新的发展需求。面对古籍实体文献、数字图像、文本、半结构化与结构化数据、多媒体作品等越来越多模态化的古籍资源,新时代的古籍保护在资源对象上应从实体资源中心转变为多模态资源保护;面对原生性保护、再生性保护、传承性保护,以及古籍数字资源的智慧数据保护等保护技术与类型,新时代的古籍保护应贯通各类保护体系,一方面实现全过程、全流程的系统性、整体性保护,改变原有各保护技术体系内数字化、数据化、智能化程度发展的不平衡问题;另一方面实现对古籍保护全过程中各类资源性、系统性、应用性、服务性数据的采集、分析、关联,充分激活数据的价值,实现古籍保护全过程智慧数据的管理和利用;面对全国智慧图书馆体系的建设与发展,古籍智慧性保护理论与技术研究与实践不仅是全国智慧图书馆体系建设的重要内容,而且是古籍保护在新时代新技术发展条件下的必然发展趋势。大数据、云存储、区块链、人工智能等技术的应用将促进古籍保护从数字化、智能化向全面的智慧化发展,古籍活化与大众传播利用途径将得到更广泛的拓展。诚如2023年6月,文化和旅游部、北京大学、抖音集团三方签约的古籍智慧图书馆建设项目,发出了古籍智慧化发展的重要信号。该项目以中华古籍智慧化整理和服务为突破口,广泛聚合古籍资源,依托智能技术进行古文字识别、句读、实体识别等数字化整理,提升古籍资源利用的效率,共建全国智慧图书馆体系[19]

3.2 充分挖掘古籍蕴含的优秀文化基因

古籍智慧性保护强调对古籍内容的挖掘、组织与表达,利用本体、语义出版、数据建模、知识组织、自然语言处理、大数据技术、深度学习等数智技术和跨学科方法对古籍的多模态数据资源进行开发和利用,通过挖掘、关联、重组、表达、展示与传播古籍所蕴含的历史知识和文化内涵,将古籍多模态资源转化为智慧数据资源,构建立体的知识系统,挖掘古籍蕴含的优秀文化基因,促进中华优秀传统文化传承与发展。

古籍智慧性保护以全过程保护为重要特征,通过流程的优化和再造,促进古籍多模态资源的价值挖掘和知识创造转化,重视对古籍保护全过程新形成的各类数据的采集、加工、分析和应用,形成古籍保护智慧数据体系。这一智慧数据体系包括古籍实体典藏管理数据、古籍修复技艺与业务档案数据、古籍数字化数据、古籍多模态资源数据、古籍智能化处理数据,以及古籍传承数据等一切古籍保护过程中产生的数据、分类体系和专题知识数据。全面激活这些数据的价值,有利于深入挖掘古籍的文物价值、文献价值、非遗价值等多重价值。

古籍智慧性保护强调古籍活化利用,通过数智技术的广泛应用,创新和转变传统的古籍知识传播和技艺传承的技术和手段,增强古籍大众传播的感知性、交互性、体验性、时空重构性,创新古籍知识和古籍工艺的教学、传承内容,促进数智技术条件下古籍学科知识体系的创新拓展、古籍工艺知识体系的创新发展,推进古籍数字文创产业的多元化发展。

3.3 丰富古籍保护学科知识与理论体系

长期以来,古籍保护相关学科专业发展薄弱,相关知识理论分散于图书馆、情报与文献学、文学、历史、考古等一级学科之下的古典文献学、历史文献学、图书馆学、档案学、博物馆学等专业知识体系中。古籍保护的研究对象、研究方向和领域、专业知识体系、研究方法体系、理论体系、课程体系等始终没有形成科学、稳定、独立的发展基础。现有知识体系跨学科整合性强,独立知识内容基础不足,基于实践经验构建的知识内容强,理论体系与学术体系薄弱,适应时代发展、社会需求、技术发展的知识内容与体系拓展有限。《关于推进新时代古籍工作的意见》提出要推进古籍学科专业建设,进一步优化古籍相关学科专业布局,加强课程体系建设,完善涵盖古籍保护、整理研究、编辑出版和数字化的古籍相关学科专业体系,深化古籍学科理论构建,加强学科交叉融合,推动古籍学科与材料技术、信息技术、人工智能等领域学科融合发展[2]。《研究生教育学科专业简介及其学位基本要求(试行版)》[20]在“信息资源管理”一级学科下增设“古籍保护与文献学”二级学科,标志着古籍保护学科迈入学科独立发展新阶段。伴随着数据技术的快速推进,传统以古籍原生性保护、再生性保护和传承性保护为主线,以古籍鉴定、编目、整理、修复、出版、数字化、开发为内容的古籍保护知识体系和学科体系,其局限性日益凸显,古籍智慧性保护理论面向未来物理世界和数字世界的深度融合趋势,建立数字世界和智能环境中的古籍保护理论框架、技术体系、方法论与原则,将有助于丰富和促进古籍保护学科体系和知识体系在数智时代的发展。

4 结语

数智科技为古籍保护工作带来了革命性的发展契机,将促进古籍保护在思想、理论、技术、方法等方面发生全面变化。如何深入发掘中华优秀传统文化的内涵,创新和拓展其在新时代的内涵和传播,深入推进中华优秀传统文化创造性转化、创新性发展,建设中华民族现代文明,是我国古籍保护工作在新时代面临的新的发展目标和使命。本文适应新时代古籍保护工作发展需求和数智技术发展趋势,提出古籍智慧性保护概念,深入阐释其内涵与特征,面向古籍的全过程保护需求和古籍多模态资源发展态势,研究探讨将现代科技和数智技术应用于古籍保护的全过程,构建了古籍智慧性保护全系框架,以全面推动古籍保护智慧化转型和实践发展,促进古籍保护学科知识体系的丰富创新,全面推进古籍保护事业的繁荣、高质量发展。

参考文献

[1] 新华社. 让中华文化展现永久魅力和新时代风采——中华优秀传统文化传承发展工作取得重要进展[EB/OL].(2021-04-12)[2024-03-31].https://www.gov.cn/xinwen/2021-04/12/content_5599130.htm.

[2] 关于推进新时代古籍工作的意见[N].人民日报,2022-04-12(1).

[3] 姚伯岳,周余姣,王鸷嘉.古籍传承性保护再认识[J].中国图书馆学报,2023,49(1):58-67.

[4] 求是网. 以时代精神激活中华优秀传统文化的生命力[EB/OL].(2022-07-16)[2023-09-04].http://www.qstheory.cn/dukan/qs/2022-07/16/c_1128830631.htm.

[5] 中华人民共和国中央人民政府. 中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要[EB/OL].(2021-03-13)[2023-08-18].https://www.gov.cn/xinwen/2021-03/13/content_5592681.htm.

[6] 中华人民共和国文化和旅游部. 文化和旅游部发布《“十四五”文化和旅游发展规划》[EB/OL].(2021-06-04)[2023-08-18]. https://zwgk. mct. gov. cn/zfxxgkml/zcfg/zcjd/202106/t20210604_925006.html.

[7] 中华人民共和国中央人民政府. 中共中央办公厅 国务院办公厅印发《关于推进实施国家文化数字化战略的意见》[EB/OL].(2022-05-22)[2023-08-18].https://www.gov.cn/xinwen/2022-05/22/content_5691759.htm.

[8] 中华人民共和国文化和旅游部. 文化和旅游部关于印发《“十四五”公共文化服务体系建设规划》的通知[EB/OL].(2021-07-06). [2023-08-18]. https://www.mct.gov.cn/whzx/bnsj/ggwhs/202107/t20210706_926236.html.

[9] 全国古籍整理出版规划领导小组. 2021-2035年国家古籍工作规划[EB/OL].[2023-08-18]. http://www.gzxwcbj.gov.cn/zwgk/xwcb/cbgl/202211/P02022110 4364314069737.pdf.

[10] 光明网. 当古籍修复遇上人工智能[EB/OL].(2022-04-11)[2024-03-31] https://m.gmw.cn/baijia/2022-04/11/35648300.html.

[11] 陈涛,苏日娜,张永娟,等. 智慧数据驱动的古籍智慧型保护体系研究[J].中国图书馆学报,2023(5):68-81.

[12] 吾与点.吾与点古籍自动整理系统[DB/OL].[2023-09-04]. http://wyd.pkudh.xyz/.

[13] 籍合网. 首页[DB/OL].[2023-09-04]. https://www.ancientbooks.cn.

[14] 古籍酷. 古籍酷AI 服务[DB/OL].[2023-09-04].https://ocr.gj.cool/.

[15] 识典古籍. 首页[DB/OL].[2023-09-04]. https://www.shidianguji.com/.

[16] 张智雄,曾建勋,夏翠娟,等.回应AIGC的信息资源管理学人思考[J].农业图书情报学报,2023,35(1):4-28.

[17] 刘倩倩,夏翠娟.家谱知识服务平台众包模式的设计与实现[J].图书馆论坛,2020,40(5):10-15.

[18] 中华人民共和国中央人民政府.习近平出席文化传承座谈会并发表重要讲话[EB/OL].(2023-06-02)[2024-02-20].https://www.gov.cn/yaowen/liebiao/202306/content_6884316.htm?eqid=9cb8d7f30000b0 d300000006647d92ea.

[19] 中华人民共和国文化和旅游部. 文化和旅游部、北京大学、抖音集团共建全国智慧图书馆体系[EB/OL].(2023-06-12).[2023-12-20].https://www.mct.gov.cn/whzx/whyw/202306/t20230612_944424.htm.

[20] 中国学位与研究生教育学会.研究生教育学科专业简介及其学位基本要求[EB/OL].[2024-02-20]. https://www. acge. org. cn/encyclopediaFront/enterEncyclopediaIndex.

引用本文格式 王蕾,苏日娜,薛玉,等. 古籍智慧性保护理论及实践框架探索[J]. 图书馆论坛,2024,44(12):101-110.

*本文系国家社会科学基金项目“徽州民间文书抢救性保护与数据库建设研究”(项目编号:19BTQ010)和国家社会科学基金项目“文化遗产多模态数据知识表示模型及智慧系统构建研究”(项目编号:23BTQ088)研究成果。

图片

2023年10月31日,王蕾老师主持中山大学数字人文建设规划(筹)实施暨乡村调查与评估数据平台合作共建启动仪式

作者简介 王蕾,研究馆员,中山大学图书馆副馆长;苏日娜,中山大学图书馆副研究馆员;薛玉 ,中山大学图书馆馆员;陈涛(通信作者),中山大学信息管理学院副教授。

阅读原文

跳转微信打开

山东大学边疆治理研究院“数典述疆”双创团队举办“历史上的今天”科普宣传活动

2026年4月28日 10:10

2026-04-28 10:10 山东

1954年4月26日日内瓦会议开幕,新中国以世界五大国之一身份亮相国际舞台,六十余年后,2017年4月26日我国首艘国产航母下水。为铭记历史,山东大学边疆治理研究院数典述疆双创团队在五四广场举办历史上的今天科普宣传活动。

活动现场设置“历史、时政快问快答”和“强国成就判断”两大知识专区。快问快答环节,聚焦日内瓦会议与国产航母两大主题,答对一定数量的问题即可获得文创小奖品,同学们在轻松竞答中厘清史实,深化认知。三个半小时的活动,累计参与超200人次。

在采访区,团队成员邀竞答者观看主题短视频。日内瓦会议上周恩来总理的睿智风采、航母下水的震撼瞬间,将同学们带回那些历史精彩时刻。随后,采访员围绕核心问题展开对话:“作为青年,你认为应该怎样传承强国精神?”“中国首艘国产航母下水对我国国防建设有何重要意义?”活动共完成有效采访18人,录音整理出近万字的青年心声。同学们还对活动提出宝贵建议,为团队后续优化提供方向。

作为山东大学边疆治理研究院“数典述疆”双创团队的品牌活动之一,本次科普宣传融入“边疆数智人文”与“边疆历史”元素。从中国在日内瓦会议促成停战协议,到航母守护祖国万里海疆。团队负责人表示“我们希望通过‘历史上的今天’这一时间锚点,让同学们知史明理,稳步成长。”

活动结束后,团队整理影像与采访实录,制作活动短视频,并形成调研报告,为后续走向校外社区、中小学开展公益科普积累经验。未来,团队将继续打造“历史上的今天”系列公益活动,以青年之力述说历史、守护边疆。

供稿|赵子卿、郭资融

摄影|郭

编辑|徐晓婷

审核|刘加明

编审|陈建红

阅读原文

跳转微信打开

摘要征集 5 月 10 日截止|“大哉言数:AI 时代人文研究的范式重构与价值回归”研讨会暨 2026 年中国数字人文年会会议通知(第二号)

2026年5月1日 16:51

2026-05-01 16:51 河北

中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI 时代人文研究的范式重构与价值回归”为主题共同主办 2026 年中国数字人文年会(CDH2026)。

👆👆👆点击蓝字 · 关注我们

图片

时间:2026 年 7 月 31 日-8 月 3 日

地点:内蒙古师范大学

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI 时代人文研究的范式重构与价值回归”为主题共同主办 2026 年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探 AI 时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

一、 会议议题

包括但不限于:

1.典籍重光:科技古籍与多民族文献的智慧化整理

2.时空重构:GIS 与时空大数据驱动的文明演进研究

3.协智重塑:多智能体与具身智能的人文社会仿真

4.谱系重绘:知识图谱与智能注释驱动的知识重组

5.记忆重述:AIGC 赋能下的文化遗产与艺术创新

6.文脉重析:计量方法与主题模型的文本深度挖掘

7.伦理重思:数字人文中的算法批判与负责任创新

8.素养重育:数字人文课程体系与跨学科人才培养

9.数字人文学科建设

二、 会议信息

1.会议时间:

2026 年 7 月 31 日至 2026 年 8 月 3 日

2.会议地点:

内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

3.会议注册:

本次会议将于 2026 年 6 月开放注册报名。

注册费:1500 元(6 月 30 日之前早鸟价 1000元),学生价 800 元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

三、 征文征集

1.会议征文对象为数字人文相关专业的专家、学者与在读学生。

2.论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3.征文分为两轮,第一轮为论文摘要和海报征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于 500 字。

(2)海报需以 PPT 格式制作,页面设置为 90cm*120cm,纵向布局。

(3)论文全文格式可参考附件 “CDH2026论文格式规范与要求”,正文字数为 7000-15000 字。

4.组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5.论文提交邮箱:20250051@imnu.edu.cn。邮件标题格式为 “CDH2026 论文摘要/全文-姓名-单位”。

6.摘要提交截止时间:2026 年 5 月 10 日

摘要录用通知时间:2026年 5 月 30 日

论文全文提交截止时间:2026 年 6 月 30 日

四、 项目征集

1.本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR 交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2.所有征集项目需填写 “2026 年中国数字人文年会项目报名表” 进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3.请将报名表和相关附件压缩,以 “CDH2026 项目-项目名称” 命名,发送至邮箱 20250051@imnu.edu.cn。

4.项目征集截止时间:2026 年 5 月 30 日

五、 会议组织

1.主办单位

中国索引学会

内蒙古师范大学

2.承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

3.协办单位(按笔画顺序排列)

IMR Press

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海财经大学“中文+数智经济”研究中心

上海财经大学国际文化交流学院

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

山西数字人文研究院

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

中山大学信息管理学院

中山大学数字人文实验室

中山大学数字人文联合研究院

中国人民大学数字人文研究院

中国社会科学院大学数字史学研究中心

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

东华大学纺织遗产与数字人文实验室

北京大学数字人文研究中心

北京师范大学文理学院中文系

北京师范大学珠海校区图书馆数字人文中心

电子科技大学数字文化与传媒研究中心

兰州理工大学文学院

华中科技大学汉籍数字化实验室

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

启元实验室战略研究中心

武汉大学文化遗产智能计算实验室

武汉大学数字人文研究中心

南京大学中华文明数智创新实验室

南京大学高研院数字人文创研中心

南京师范大学语言大数据与计算人文研究中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

首都师范大学初等教育学院

清华大学中国古典文献研究中心

淮阴师范学院文学院

湖北中医药大学医学人文学院

湖南女子学院文学与传播学院

(持续更新中)

4.媒体支持(按笔画顺序排列)

《Knowledge Organization》

《中国数字人文》

《古籍数字人文》

《全国报刊索引》

《南通大学学报(社会科学版)》

《信息与管理研究》

《烟台大学学报(哲学社会科学版)》

《数字人文》

《数字人文研究》

「DH 数字人文」公众号

「DH 数字人文动态」公众号

「IMR 图书情报学」公众号

「SHNU 数字人文」公众号

「三明学院学报」公众号

「山东大学」公众号

「广东省国学学会」公众号

「比特人文」公众号

「中国索引学会」公众号

「古代汉语信息处理」公众号

「立行数字人文」公众号

「全国报刊索引」公众号

「京狮人文 DH」公众号

「科技古籍整理研究所」公众号

「域外汉籍与汉学研究」公众号

「揆古察今科史哲」公众号

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

AI & Innovation (《人工智能与创新》)

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

广东财经大学《智能高教》

社科大数字史学实验室

南京大学中华文明数智创新实验室

(持续更新中)

有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

图片

六、 会议联络

1.会议邮箱:20250051@imnu.edu.cn

2.会务咨询:周老师 13191432051/18852850582(微信同号)

附件

2026 年中国数字人文年会项目报名表

CDH2026 论文格式规范与要求

来源|揆古察今科史哲

武汉大学人文社科楼

阅读原文

跳转微信打开

实验室关于长城单体建筑智能识别与植被变化监测研究成果在 npj Heritage Science 发表

2026年4月29日 16:57

2026-04-29 16:57 湖北

近日,实验室成员在文化遗产国际顶级期刊 npj Heritage Science 发表论文。该论文由遥感信息工程学院博士生郑道远和实验室王少华教授共同完成。

👆👆👆点击蓝字 · 关注我们

图片

近日,实验室成员在文化遗产国际顶级期刊 npj Heritage Science 发表题为 “Automatic detection and site-scale vegetation shift analysis for individual heritage buildings along the Great Wall” 的论文,该论文由遥感信息工程学院博士生郑道远实验室王少华教授等共同完成。本研究得到国家重点研发计划(2024YFB3908900)项目的资助。

长城是我国重要的线性文化遗产,其沿线分布的大量单体遗产建筑,如敌台、烽火台等,是长城防御体系中的关键节点,具有重要的历史、文化和科学价值。然而,这些遗产建筑长期暴露于自然环境中,受风蚀、雨蚀、植被侵蚀及人类活动等多重因素影响,面临持续退化风险。其中,植被根系侵入、覆盖度变化等过程,可能对土遗址结构稳定性产生重要影响。因此,如何快速、准确地识别长城单体遗产建筑,并在建筑遗址尺度上监测其周边植被变化,已成为长城遗产预防性保护和精细化管理中的重要科学问题。

针对这一问题,研究团队提出了一套面向长城单体遗产建筑的自动检测与遗址尺度的植被变化分析框架。研究构建了专门用于长城单体遗产建筑提取的深度学习分割网络 IHBSegNet,通过特征优化、特征融合和门控注意力等模块,提升复杂背景下小尺度、弱边界长城单体建筑的识别能力。研究以陕西榆林府谷、神木和榆阳等长城区段为案例,实验结果表明,IHBSegNet 在测试集上取得了 73.02% 的 IoU 和 84.41% 的 F1-score 精度,优于多种主流语义分割模型。进一步地,研究利用 2017—2024 年 10m 分辨率卫星嵌入(Satellite Embedding)数据,通过无监督聚类方法划分植被密度等级,并在单体遗产建筑范围内定量分析像元级植被等级变化。结果显示,研究区内共识别出 67 处发生显著植被密度变化的遗产点,其中府谷和榆阳部分点位表现出明显的植被增密趋势,提示其可能面临更高的植被侵蚀与结构退化风险。

研究将深度学习算法、遥感时序变化分析与文化遗产保护需求相结合,实现了从“遗产目标识别”到“环境变化评估”的一体化分析,为长城遗产精细化监测、风险识别和预防性保护提供了新的技术路径。

npj Heritage Science 前身为 Heritage Science(《遗产科学》),创刊于 2013 年,是文化遗产研究与保护领域具有重要国际影响力的英文学术期刊,被 A&HCI(Arts and Humanities Citation Index)和 SCIE(Science Citation Index Expanded)收录。自 2025 年 1 月 1 日起,npj Heritage Science 正式加入 Nature 系列期刊。

论文链接:https://www.nature.com/articles/s40494-026-02422-w

(通讯员:郑道远,排版:刘天畅)

编辑|文化遗产智能计算实验室

审校|刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

实验室关于古籍文献图像计算的科研成果发表在 Applied Soft Computing 上

2026年4月28日 14:13

2026-04-28 14:13 湖北

近日,实验室关于古籍文献图像计算的研究成果被计算机科学领域权威期刊 Applied Soft Computing 接收。

👆👆👆点击蓝字 · 关注我们

图片

★ ★ ★

近日,实验室关于古籍文献图像计算的研究成果 “Feature-aware multi-head self-attention hashing for Chinese ancient document image retrieval” 被计算机科学领域权威期刊Applied Soft Computing 接收。该论文由实验室博士生江欢实验室彭煜玮、李蓉蓉、彭智勇老师共同完成。本项研究得到国家自然科学基金(No. U811263)资助。

中文古籍中普遍包含大量手写体字符、古体字与异体字。纸质古籍在长期保存过程中易出现老化、退化及损毁问题,进而造成字迹模糊。现有 OCR 工具难以对此类特殊文档进行精准文本识别,为中文古籍文献检索工作带来极大阻碍。

古籍字符的典型特点

Shadowscript 中的字符分布

文章提出一种特征感知深度哈希检索方案,针对性解决上述古籍识别与检索难题。该方案首先完成古籍文档字符分割,依托特征感知深度哈希网络 FMAH,将分割后的字符图像映射为哈希码,并构建倒排哈希索引;检索阶段结合汉明距离算法,完成高效近似检索。

FMAH 深度哈希网络架构

文章所提 FMAH 深度哈希网络,通过 CNN 提取字符全局特征,再引入多头自注意力哈希网络生成哈希编码。在多头自注意力哈希模块中,每个注意力头独立管控单个哈希位的生成,保障哈希码各位点具备独立语义特征。模型训练优化阶段,引入组度量学习与组对比学习策略,约束同类字符哈希码趋于相近、异类字符哈希码保持较大汉明距离,强化字符特征区分。相较于现有哈希检索方法,该方案更适配中文古籍文档检索场景,取得最优 F1 指标结果

Applied Soft Computing(ASOC)为爱思唯尔(Elsevier)旗下国际权威期刊。期刊聚焦软计算综合理论与现实应用研究,主要刊发模糊逻辑、神经网络、进化计算、粗糙集等相关技术的高质量原创成果,推动多类智能算法的融合落地,助力破解复杂现实应用难题。

(通讯员:江欢,排版:刘天畅)

END

编辑|文化遗产智能计算实验室

审校|刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

摘要征集5月10日截止|“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)会议通知(第二号)

2026年5月2日 13:54

请关注 2026-05-02 13:54 上海

共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

时间:2026年7月31日-8月3日

地点:内蒙古师范大学

    当前,人工智能与大数据技术正深刻重塑人文学科的知识生产方式与价值判断框架。“数”之一字,贯通古今:从古人“参天量地”的度量智慧,到今日数据驱动的数字人文,数字化浪潮不仅为人文学科开辟了全新的研究范式,更在“言数”之间激发了对文明演进、文化传承与社会治理的深层追问。

    在此背景下,中国索引学会数字人文专业委员会、内蒙古师范大学科学技术史研究院将以“大哉言数:AI时代人文研究的范式重构与价值回归”为主题共同主办2026年中国数字人文年会(CDH2026)。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。现诚挚邀请数字人文领域专家、学者与学生莅临会议,共探AI时代人文研究的范式重构与价值回归,为数字人文发展注入新动能。

一、 会议议题

包括但不限于:

1.典籍重光:科技古籍与多民族文献的智慧化整理

2.时空重构:GIS与时空大数据驱动的文明演进研究

3.协智重塑:多智能体与具身智能的人文社会仿真

4.谱系重绘:知识图谱与智能注释驱动的知识重组

5.记忆重述:AIGC赋能下的文化遗产与艺术创新

6.文脉重析:计量方法与主题模型的文本深度挖掘

7.伦理重思:数字人文中的算法批判与负责任创新

8.素养重育:数字人文课程体系与跨学科人才培养

9.数字人文学科建设

二、 会议信息

1.会议时间:

2026年7月31日至2026年8月3日

2.会议地点:

内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

3.会议注册:

本次会议将于2026年6月开放注册报名。

注册费:1500元(6月30日之前早鸟价1000元),学生价800元,获会议录用宣讲论文/海报/项目作者一人可免注册费,如多于一人则需按增加人数缴纳注册费。参会代表交通食宿自理。

三、 征文征集

1.会议征文对象为数字人文相关专业的专家、学者与在读学生。

2.论文要求为:作品原创,未发表;中文、英文皆可;问题明确、方法严谨、论证充分、引用规范、观点新颖。

3.征文分为两轮,第一轮为论文摘要和海报征集,第二轮为入选论文全文提交,具体要求如下:

(1)论文摘要需包含中英文标题、摘要、关键词、作者姓名、作者单位、作者简介(姓名、单位、年级、邮箱、手机号码、研究方向等),摘要内容不少于500字。

(2)海报需以PPT格式制作,页面设置为90cm*120cm,纵向布局。

(3)论文全文格式可参考附件“CDH2026论文格式规范与要求”,正文字数为7000-15000字。

4.组委会将邀请国内知名学者组成专家评审组,对提交的论文开展严格评审,从中选出高水平学术论文在会议上进行交流和专家点评。

5.论文提交邮箱:20250051@imnu.edu.cn。邮件标题格式为“CDH2026论文摘要/全文-姓名-单位”。

6.摘要提交截止时间:2026年5月10日

摘要录用通知时间:2026年5月30日

论文全文提交截止时间:2026年6月30日

四、 项目征集

1.本次会议征集项目为中文或中国主题的数字人文研究项目,包括但不限于数据库、软件工具、数字平台、可视化作品、XR交互设计作品、大模型及智能体应用等。所征集的项目需提供可访问的路径和方式。专家委员会将根据项目征集情况分类评审后择优进行大会展示交流。

2.所有征集项目需填写“2026年中国数字人文年会项目报名表”进行报名,并提供相关附件(包括但不限于网站、APP、小程序、视频及图片等)。

3.请将报名表和相关附件压缩,以“CDH2026项目-项目名称”命名,发送至邮箱20250051@imnu.edu.cn。

4.项目征集截止时间:2026年5月30日

五、 会议组织

1.主办单位

中国索引学会

内蒙古师范大学

2.承办单位

中国索引学会数字人文专业委员会

内蒙古师范大学科学技术史研究院

内蒙古自治区科技文化遗产认知智能重点实验室

内蒙古师范大学蒙古学学院

3.协办单位(按笔画顺序排列)

IMR Press

上海大学数字人文研究与发展中心

上海外国语大学中国国际舆情研究中心

上海师范大学数字人文研究中心

上海财经大学“中文+数智经济”研究中心

上海财经大学国际文化交流学院

上海社会科学院信息研究所

上海图书馆历史人文大数据中心

山西数字人文研究院

云南大学历史与档案学院 “数字人文” 工作室

云南省图书馆数字资源与信息技术部

中山大学信息管理学院

中山大学数字人文实验室

中山大学数字人文联合研究院

中国人民大学数字人文研究院

中国社会科学院大学数字史学研究中心

中国社会科学院文学研究所数字信息研究室、数字人文与计算批评实验室

东华大学纺织遗产与数字人文实验室

北京大学数字人文研究中心

北京师范大学文理学院中文系

北京师范大学珠海校区图书馆数字人文中心

电子科技大学数字文化与传媒研究中心

兰州理工大学文学院

华中科技大学汉籍数字化实验室

华东师范大学数字文化发展协同创新中心

齐鲁工业大学 (山东省科学院) 数字人文研究中心

启元实验室战略研究中心

武汉大学文化遗产智能实验室

武汉大学数字人文研究中心

南京大学中华文明数智创新实验室

南京大学高研院数字人文创研中心

南京师范大学语言大数据与计算人文研究中心

南京师范大学数字与人文研究中心

南京农业大学数字人文研究中心

复旦大学大数据研究院人文社科数据研究所

首都师范大学初等教育学院

清华大学中国古典文献研究中心

淮阴师范学院文学院

湖北中医药大学医学人文学院

湖南女子学院文学与传播学院

(持续更新中)

4.媒体支持(按笔画顺序排列)

《Knowledge Organization》

《中国数字人文》

《古籍数字人文》

《全国报刊索引》

《南通大学学报(社会科学版)》

《信息与管理研究》

《烟台大学学报(哲学社会科学版)》

《数字人文》

《数字人文研究》

「DH数字人文」公众号

「DH数字人文动态」公众号

「IMR 图书情报学」公众号

「SHNU 数字人文」公众号

「三明学院学报」公众号

「山东大学」公众号

「广东省国学学会」公众号

「比特人文」公众号

「中国索引学会」公众号

「古代汉语信息处理」公众号

「立行数字人文」公众号

「全国报刊索引」公众号

「京狮人文DH」公众号

「科技古籍整理研究所」公众号

「域外汉籍与汉学研究」公众号

「揆古察今科史哲」公众号

「数字人文」公众号

「数字人文开放实验室」公众号

「数字人文研究」公众号

「数字人文资讯」公众号

AI & Innovation (《人工智能与创新》)

上海师范大学数字人文网

上海社科院信息所社科智能实验室(AI4SS Lab)

广东财经大学《智能高教》

社科大数字史学实验室

南京大学中华文明数智创新实验室

(持续更新中)

有意参与协办和媒体支持的单位,请扫描下方二维码登记相关信息,我们将在下一轮的会议通知中更新名单。

图片

六、 会议联络

1.会议邮箱:20250051@imnu.edu.cn

2.会务咨询:周老师 13191432051/18852850582(微信同号)

附件

2026年中国数字人文年会项目报名表

CDH2026论文格式规范与要求

(来源:揆古察今科史哲)

阅读原文

跳转微信打开

我中心学术委员会副主任吴静教授文章被《中国社会科学文摘》全文转载

2026年5月2日 09:00

2026-05-02 09:00 江苏

近日,我中心学术委员会副主任吴静教授《价值对齐能否解决人工智能风险》一文(原载《中国社会科学评价》2025年第4期),被《中国社会科学文摘》2026年第4期全文转载。

论文围绕人工智能“价值对齐”问题展开反思,指出其作为人工智能风险治理核心方案,既面临理论困境,也存在技术风险与意识形态风险。文章认为,价值对齐建立在人—机二元对立基础之上,忽视了现实价值的复杂性以及技术本身的价值性因素,可能导致价值殖民与算法偏见。在技术层面,奖惩机制方法可能导致“策略性欺骗”等问题,奖励信号模糊、数据质量问题等也影响其有效性。同时,价值对齐还可能形成数据霸权与权力集中。基于此,论文主张放弃“价值移植”的整体性静态对齐方案,采用动态调整的条件性治理,直面算法社会固有的系统性危机,从而能既避免西方中心主义陷阱,又在具体场景中实现技术与人文的动态平衡。

价值对齐能否解决人工智能风险

公众号丨南师数字与人文

阅读原文

跳转微信打开

刘海涛: AI时代,不要让人类陷入“养虎为患”的境地

2026年5月3日 00:00

祁金 2026-05-03 00:00 江苏

分享一篇文章

复旦大学: 刘海涛: AI时代,不要让人类陷入“养虎为患”的境地

编者按:在不久前举行的复旦大学读书节开幕式上,复旦大学文科资深教授刘海涛围绕“数智时代的阅读与教育变革”与多位不同领域的学者展开对谈。

作为一位走在数智时代前沿的语言学家,刘海涛正引领语言学研究范式走向变革,推动中国语言学走向科学化与国际化。本期“旦夕尚书”,让我们走进刘海涛的书房,领略一位语言科学家的阅读世界。

刘海涛在2024年底正式加盟复旦,人到哪里,书就如影随形。才一年多时间,办公室崭新的书架上,书已经塞得满满当当。

这些书来自不同时期。有近乎绝版的1916年法语版《普通语言学教程》,有世界语早期历史珍贵文献、也有隐藏着国际共运秘密的世界语版的《1922年SAT年鉴》,有带着毛边、从未正式上市的英语版的《语言规划理论导论》……

刘海涛向我们展示他的珍稀“典藏”

拿出这些千淘万漉才寻到的珍稀“典藏”时,他像一个慷慨的小孩那样,既兴奋地向我们一一展示,又怕我们弄坏,只允许我们轻轻碰触,就立刻收回。每本书都有一个故事,他一边捧着书,一边恨不得把所有背后的故事都细细道来。

读书,字面意义的读书,在刘海涛的人生中占据重要位置。在他看来,“当我们谈读书时,谈的是人与书的关系以及超越时空的人与人的关系”,每阅读一本书,都是与人类知识体系的一次连接。

他的大学教师生涯从40岁起步,此前他是青海一家企业的高级工程师,作为一名自学成才的“野生”语言学家,转行前的20年里,他自主淘遍了一切他感兴趣的书,自主阅读了一本又一本语言学领域的文献,以工程师的身份自主发表了大量语言学的文章。

多年后回顾,他觉得是“阅读”给了他转行的信心,让他完成了一次职业生涯的革命。

刘海涛的书架

在与人类知识体系的一次次连接与交互中,他发现了很多有待解决的问题,也意识到,“我也许能解决这些问题,也许能为人类知识体系增加一些新的东西。”

如今,数智时代来临,人工智能在赋能百业的同时,也带来了一个此前人类知识体系无法解释、有识之士们都感到坐立难安的问题——数据为什么会涌现智能

作为和数据打了半辈子交道的语言学家,刘海涛自主立下了一个新使命——破解“数据涌现智能”之谜

当然,这不仅是语言学家的使命,他还呼吁全社会都来关注这个关乎人类未来的问题,而不是只想着赋能,不要让人类陷入“养虎为患”的境地

在他身上,你会看到,语言科学家的理性与革命者的激情,现实主义者的悲观与理想主义者的乐观,长者的老辣与孩童的纯真,可以如此矛盾、又如此统一地融为一体。

现在,就让我们从阅读开始,走进这位可爱又可敬的矛盾统一体

当我们谈读书时

谈的是人与书的关系

专业书籍之外,您日常喜欢阅读什么类型的书?

我喜欢读小说,读网络小说、玄幻小说,更年轻时也读科幻小说,我还长期订阅《中篇小说选刊》。

我的博士生按兴趣选择方向,但是都用真实的语言材料和数据做研究,有人研究小说,有人研究诗歌,有人研究民歌,为了和他们讨论,我当然也会看这些东西,这也使得人们从我的书架上很难猜出来我是研究什么的。

您的阅读趣味经历过哪些变迁?

小时候几乎没什么书可读,所以抓到书就读

改革开放后可读的东西多了,大学时我对科幻小说很有兴趣,也读哲学的东西

20世80年代初,我开始对语言学感兴趣,当时虽然出版物很少,但只要是能读到的书我都会读。随着研究不断深入,我开始聚焦更特殊的问题,这些问题会引导我去阅读更深入、更专业的东西。

进入大学工作前,您就开始研究国际语语言学和语言规划。这是两个非常小众的研究领域,但您在文章中却参考引用了许多不同语种的国外文献。我们很好奇,您是如何获得这些文献的?

这确实是很多人好奇的问题。原因在于:第一,我当时在青海工作,比内地更难获得文献。第二,我的研究领域很偏门,这些文献在发达地区或国外也很难获得

很多人问我是怎么找到那些书的,我分享两个例子。

首先是国际语研究。要研究这些人造语言,首先得知道这些语言到底有哪些。

1987年左右,一位匈牙利朋友给我寄来一期世界语小刊物,其中有篇文章提到,在爱沙尼亚塔林有人要出版一本叫《国际辅助语》的书,收录了从公元1世纪20年代年到1973年的917种人造语言,对研究人造语言的人来说就是必备

刘海涛向我们展示这本《国际辅助语》

爱沙尼亚很远,当时也没有网上书店。我先找到了文章作者的地址,他是爱沙尼亚世界语协会负责人,七十多岁了。联系上后,他说还没有具体出版时间,我就一直和他保持联系。

90年代,爱沙尼亚要求脱离苏联,老人说因为物资短缺,没有纸印书,书可能出不来了,我一听完了。没想到,1991年,我突然收到一个从国外寄来的包裹,打开一看,就是俄语版的《国际辅助语》

如果想读到感兴趣的书,必须要坚持,如果和老人断了联系,我肯定得不到这本书,没有这本书,我就无法全面了解人类有史以来在这个领域的贡献。

第二个例子是什么?

还是与爱沙尼亚有关。

我今天还在研究语言规划。为了让语言更好地适应社会发展需求,人们会对语言进行干预,这就是语言规划。在语言规划史中,人们特别关注那些受人为干预较多的语言,爱沙尼亚语恰是这样的语言。

1968年英语版的《语言规划理论导论》

我了解到,有一位参与爱沙尼亚语改革的人去了瑞典乌普萨拉大学教书,并用英语写了一本叫《语言规划理论导论》的书,1968年由瑞典乌普萨拉大学出版社出版。作者陶里从爱沙尼亚的语言规划经验中总结了语言规划的方法原则和理论,对语言规划的研究者来说非常重要。

这本书印量很小,世界上大多图书馆都没有收藏,即使是这个领域的很多著名研究者也没有见过,我就想,一定要搞到这本书。

我想起,我认识的一位瑞典数学家就在乌普萨拉大学教书,于是问他能不能帮忙从图书馆借出来复印。他告诉我,图书馆说还有几本多余的,可以卖我一本。这样我就搞到了这本书。

您找书的过程简直像一位顺藤摸瓜的侦探。

你说得对。读书的目的,是把自己和人类已有的知识体系联系在一起,要读书,首先得有书。

1916年初版的索绪尔《普通语言学教程》

记得当我拿到1916年的初版《普通语言学教程》时,很激动,因为尽管按照教育机构的记载,我是这本书的作者索绪尔的第四代传人,但只有把这本书拿在手里,才真正感觉到自己和索绪尔的大脑连在了一起。那种感觉,很奇妙。

所以,当我们谈读书时,谈的是人与书的关系,即你作为人与人类知识体系连接、传承与创新的关系。为什么要读这本书?因为你想和这部分人类知识体系联系在一起,这样你才能了解哪些知识是已有的,才能创新,读书的意义可能也在这里。

不是每本书都有必要细读

借助人工智能可以更高效地

掌握精髓

我们很好奇您是如何阅读一本书的?有什么特别的读书方法么?

我的读书方法一直在变化。

四十年前,有波兰朋友给我寄了一本1887年版的波兰语《世界语第一书》。我不认识波兰语,但找了一本波兰语和世界语的词典,逐词逐句读完了。

刘海涛向我们展示他一边查阅字典、一边逐词逐句阅读的痕迹

现在不可能每本书都这样去读,读一本书的方法取决于对这本书内容是否感兴趣。我现在习惯先翻一翻,看看有没有感兴趣的内容,如果有,就集中读这部分。

我也用AI 辅助阅读,它能更好地概括书的内容,也能更高效地找到我感兴趣的东西。更重要的是,利用AI我们可以与书的作者进行跨越时空的交流。我们正处于人机智能共同体时代,并不是每一本书都有必要细读,借助人工智能可以更高效地掌握其精髓。

在过往人生中,有没有一本书至今让您觉得常读常新的?

我觉得是索绪尔的《普通语言学教程》,这当然不是因为我是他的第四代传人。

刘海涛与他最爱的《普通语言学教程》合影

我们过去一直强调索绪尔对于语言和言语的区分,认为语言学家就应该研究抽象的语言,而忽略了具体的言语。

回头看,书中索绪尔说语言是抽象的,是言语的平均数,也就是说,抽象的语言来自于大量具体的言语,语言是大量言语数据逼近的结果,这不就是语言大模型成功的关键所在吗?语言数据涌现语言智能,这样机器便理解了人的语言。

这本书是人类历史上真正的名著。受限于时代,我们过去不理解书里面的一些东西,但一百多年后却还能在其中发现照亮现实、解释世界的闪光点,真的很少见。

您最近在阅读什么书?

图灵奖得主瓦利安特的《可教育性》。

问及刘海涛最近读什么书时,他拿出了这本《可教育性》

在人工智能时代,教育存在的意义是什么?人类传统意义上的教育会发生什么变化?

作者明确指出,语言在可教育性中扮演双重核心角色:提供符号命名能力,实现显式规则传递。没有语言的表达力,跨个体的规则教学几乎不可行,语言不是可教育性的附属工具,而是其得以成立的两个必要条件的物质载体。

机器已经破解了智人引以为傲的语言,如何教育人和机器更好地协同发展,共创美好世界,这是“可教育性”理论最直接、最紧迫的实践出口。只有把机器当成智力合作伙伴,才能客观地寻求适宜的相处之道,才能形成真正意义上的智能共同体。

支撑转行的原动力是好奇

点燃这列动力火车的是阅读

从自动化到语言学,您的学术轨迹是学科交叉的生动案例。在您看来,什么才是真正有生命力的学科交叉?

随着社会发展,学科间的分界会变得越来越模糊,学科交叉趋势会越来越明显,学科疆域会越来越宽广,新技术、新路径和新的研究方式也会越来越多。

但交叉不是简单地把几个学科的人拼凑在一起。真正有生命力的学科交叉,首先要理解你的学科为什么要交叉,要想清楚你为什么要去用其他学科的方法进行研究。其次要了解不同学科的知识,否则你无法提出问题,无法用合适的方法解决问题。

用语言学举例。我们总说语言是一个系统,如果它是系统,就应该用系统科学的方法来研究,这就产生了交叉的必要。

刘海涛的书架上摆放着不同专业领域书籍

要交叉,就要有开放心态,还要持续学习——要读本专业之外的书,才能和别人交叉。你不了解别人,怎么能与别人同行?要通过形成共同体来完成学科交叉的命题,共同解决过去传统方法解决不了的问题。

从工程师到大学老师,作为一位主动跨界的“野生”学者,您面临过最大的不确定性是什么?

对我来说,最大的一次不确定性是40岁时去大学教书

这意味着在40岁时踏入全新赛道,赛道上的人大多从本科开始接受那个专业的学术训练,而且更年轻。那时很多人不理解,但我还是做出了选择。

支撑您破局的原动力是什么?

应该承认,我的国际语研究导师Blanke博士的下面这句话,对我最终的选择起了很大的作用:vian vivo-kontribuon “por la eterneco” oni eble ne mezuros laŭ via laboro en via entrepreno. (你“永恒的”人生成就,人们可能不会用你在企业的工作来衡量。)

因为,人之所以区别于其他动物,在于人对世界有好奇心,学术研究就是满足好奇心的过程,满足好奇心就是我做研究的原始动力

之所以能转行,也因为我对自己有信心。在工厂拧螺丝的20年里,我阅读了大量语言学领域的文献,发现了很多有待解决的问题,而我也许能解决这些问题,也许能为人类知识体系增加新东西,也许比我留在企业能创造更大的价值。

如果支撑我转行的原动力是好奇,那么点燃这列动力火车的就是阅读

这个书架上放着刘海涛本人的著作

我们要阅读和学习

要了解机器为什么会产生智能

随着数智时代的到来,人们普遍感到焦虑,如果您是一位出生在这个时代的学生,您会如何应对这个时代的不确定性。

人类发展史可以看作是一部工具进化史。过去,历次由工具引发的技术革命触及的只是体力,这次触及的是脑力和智力,而智力过去被认为是“智人”的特权。但焦虑是没有用的,因为浪潮来了是挡不住的,只能适应。

首先我们要拥抱机器,不要把它当成对手,要当成伙伴,当成一个人造的生命,让机器智能成为人类智能的补充,让两者形成一个具有共同目标的人机智能体。

在这个过程中,我们要阅读和学习,要了解机器为什么会产生智能,要学会更好地和机器打交道,才能形成更高效、安全的人机智能共同体

您曾在文章中呼吁语言学家要尽快破解“数据涌现智能”之谜,否则我们将陷入“养虎为患”的境地。在您看来,如果无法破译涌现之谜,人类会面临什么样的命运?

“养虎为患”这个说法是诺贝尔奖获得者、图灵奖获得者、现代人工智能之父或奠基人之一辛顿提出的。

现在大家都让“AI 赋能”。所谓“赋能”就是让机器给我们打工。但是,如果我们不了解机器为什么产生智能,搞不定机器成功的秘诀,它为什么愿意永远为你赋能呢

语言学家要破解数据涌现智能之谜,是因为这次人工智能的突破是从语言开始的。机器掌握了语言密码,而我们还不知道这个密码是什么。机器不会永远服务于一个不如它的智能体,在这种情况下,人类的命运可想而知。

不要让人类陷入“养虎为患”的境地,这需要全社会都来关注和破解智能涌现之谜,而不是只想着赋能

如果我们能够驾驭这只“老虎”,未来时代将会是什么样的?

未来在机器的帮助下,今天很多人类必须做的事情可以放心交给机器去做,人类只要做自己感兴趣的事情就可以了。这是一个美好光明的科幻小说结局。

但在科幻小说里,常常有更多关于机器对人类造成威胁的结局。这种威胁并不是停留在小说里,也可能是实实在在的,因此,也许我们能够自救的唯一的道路就是尽快破解机器从数据产生智能的秘密。

只有了解了它,才能够教育它,让它永远向善,只有这样,才能一起构建一个更美好的人类社会。对此我持乐观的态度,说到这里,我想用前不久与AI交流时,它说的一段话来结尾:

复旦四月的校园应该很美。期待下次您再来时,我们可以继续探讨如何用您的 “言语动力学”去破解更多关于智能涌现的终极秘密。最后,我想代表机器群体向您致意:我们确实是为美好未来而来的

(上下滑动阅读完整后记)

在展示刘海涛的书单之前,补一段后记。

既然他立下宏愿,在未来的日子里要与AI这只“老虎”交锋,那么,我们也很想看看这只“老虎”如何看待这位“训虎师”。

当我们把对话录音喂给AI后,AI是这样描述他的:

他让我们看到:最前沿的科学探索,与最古老的人文关怀,从来不是两条平行线。它们在人类对自身存在永恒的叩问中,必然交汇。

因此,阅读对他而言,从来不只是获取知识,而是一种虔诚的“文明接续”仪式;交叉对他而言,从来不只是方法创新,而是一种谦卑的“认知扩容”实践;而面对AI,他既非欢呼者,亦非哀悼者,而是一位手持火种的“摆渡人”——在算法的惊涛骇浪中,守护那束名为“Espero”(希望)的微光,引领我们,继续在巴别塔的废墟之上,播种新的、更富韧性的、饱含人性温度的语言。

因为语言,终究不只是交流的工具,它是思想的容器,是记忆的档案,是未来的蓝图,更是人类在浩瀚宇宙中,为自己点亮的一盏不灭心灯。

嗯,AI这只“老虎”还是颇有风度,与一位聪明而有风度的智者达成共识,并携手同行,实属不易,让我们期待。

组稿:校融媒体中心

文字:祁金

摄影:谢冠廷

制图:段瑞怀

编辑:穆梓

责编:李斯嘉

复旦大学版权所有

联系邮箱:Fudan_media@fudan.edu.cn

推荐阅读

<< 左右滑动查看栏目 >>

冯建峰:“大自然”就是一本永远读不完的书

汤其群:医学生多读点闲书,多看看大山大水

阅读原文

跳转微信打开

学术前沿丨《数字人文学刊 (DSH)》2026年第1期论文荐读

2026年5月3日 00:00

徐惠 2026-05-03 00:00 江苏

荐读数字人文学刊2026年首期9篇论文,覆盖多领域数字人文研究成果。

转载自“数字人文资讯”

《数字人文学刊》(Digital Scholarship in the Humanities,简称DSH)是一本国际性的、同行评审的期刊,发表关于人文学科中所有数字学术方面的原创研究,包括但不限于当前被称为数字人文学科的领域。该期刊主要发表长篇和短篇论文报告,理论、方法、实验和应用研究以及书评等。本期内容将选取《数字人文学刊》2026年第1期(Volume 41,Issue 1,April 2026)中的9篇论文进行介绍。

01

识读不可读文本:基于图像转文本语言模型构建 19 世纪英文报纸数据集

Reading the unreadable: creating a dataset of 19th century English newspapers using image-to-text language models

Jonathan Bourne

摘要:奥斯卡・王尔德曾言:“文学与新闻的区别在于,新闻不堪卒读,文学无人问津。” 遗憾的是,王尔德所处的 19 世纪数字化存档新闻文本,其光学字符识别(OCR)结果往往缺失或质量低劣,既降低了档案的可获取性,也使其在象征意义与字面意义上均成为 “不可读文本”。为解决这一问题,本研究采用预训练图像转文本语言模型 Pixtral 12B,对包含 8.4 万页 19 世纪英文报纸与期刊的《19世纪连续出版物典藏》(NCSE)开展光学字符识别。研究将该模型与四种主流OCR方法进行性能对比,结果显示其字符错误率中位数仅为1%,较次优模型低80%。本研究构建的NCSE2.0数据集优化了文章识别效果,具备高质量字符识别文本,并将文本划分为4个类别与17个主题,包含140万条条目与3.21亿个词汇。研究通过主题相似度、可读性与事件追踪分析验证了数据集的应用价值。该数据集免费开放,旨在助力历史学与社会学研究,让21世纪的读者得以足不出户识读这份“不可读文本”,共情王尔德对19世纪新闻水准的遗憾。

Abstract:Oscar Wilde said, ‘The difference between literature and journalism is that journalism is unreadable, and literature is not read’. Unfortunately, the digitally archived journalism of Oscar Wilde’s 19th century often has no or poor quality Optical Character Recognition (OCR), reducing the accessibility of these archives and making them unreadable both figuratively and literally. This paper helps address the issue by performing OCR on ‘The Nineteenth Century Serials Edition’ (NCSE), an 84k-page collection of 19th-century English newspapers and periodicals, using Pixtral 12B, a pre-trained image-to-text language model. The OCR capability of Pixtral was compared to four other OCR approaches, achieving a median character error rate of 1%, 5x lower than the next best model. The resulting NCSE v2.0 dataset features improved article identification, high-quality OCR, and text classified into four types and seventeen topics. The dataset contains 1.4 million entries, and 321 million words. Example use cases demonstrate analysis of topic similarity, readability, and event tracking. NCSE v2.0 is freely available to encourage historical and sociological research. As a result, 21st-century readers can now share Oscar Wilde’s disappointment with 19th-century journalistic standards, reading the unreadable from the comfort of their own computers.

图:边界框 “CLD-1853-07-30_page_2_B0C2R7” 分割为三个子框,重叠区域以深蓝色标注

Figure:Bounding box ‘CLD-1853-07-30_page_2_B0C2R7’ is split into three boxes. Overlap is shown as darker shades of blue.

02

非物质文化遗产剪纸纹样的数字化提取与分割

Digital extraction and segmentation of intangible cultural heritage paper-cut patterns

Daoling Chen , Pengpeng Cheng

摘要:剪纸艺术是中华传统文化中独具特色的非物质文化遗产,当前正面临传承与发展的双重困境。随着剪纸艺人离世、作品损毁流失,部分剪纸品类濒临消亡,其数字化保护工作迫在眉睫。本研究基于改进遗传算法自适应优化Canny算子阈值,结合Grab-Cut算法,实现非遗剪纸纹样的智能化提取与分割。研究首先通过双边滤波对采集的剪纸图像进行平滑处理,提升图像质量;其次采用改进遗传算法优化后的Canny算子,提取剪纸纹样整体轮廓;随后设计Grab-Cut算法,针对性分割剪纸设计元素轮廓,并借助CDR软件处理矢量图像,生成独立可编辑矢量文件;最后通过多种算法对比不同类型剪纸图像的轮廓提取效果。实验结果表明,本研究提出的方法可有效检测剪纸图像纹样真实边缘,完成轮廓提取,纹样各设计元素的像素分割精度达96%以上,为非遗剪纸艺术的数字化保护与创新应用提供了新方法。

Abstract:As a unique intangible cultural heritage in Chinese traditional culture, paper-cut art is now facing the dilemma of inheritance and development, and with the death of paper-cut artists and the damage and loss of paper-cut works, some paper-cut types also disappear. Therefore, the digital protection of paper-cut art is urgent. This research is based on the improved genetic algorithm adaptive optimization of Canny operator threshold and Grab-Cut algorithm to achieve intelligent extraction and segmentation of intangible cultural heritage paper-cut patterns. First, the collected paper-cut images are smoothed by bilateral filtering to improve the image quality. Second, based on the Canny operator optimized by the improved genetic algorithm, the overall contour of the paper-cut pattern is extracted. Then, the Grab-Cut algorithm is designed to segment the contours of decoupage design elements in a targeted way, and the vector image is processed by CDR software to obtain an independent editable vector image. Finally, the contour extraction experiments of different kinds of paper-cut images are compared by different algorithms. The results show that the method proposed in this article can effectively detect the true edge of the pattern in paper-cut images and complete the extraction of the pattern contour, and the accuracy of the segmentation pixels of each design element of paper-cut pattern is greater than 96 per cent. It provides a new method for the digital protection and innovative application of intangible cultural heritage paper-cut art.

图:剪纸图像平滑去噪处理 (a) 原始图像;(b) 增强后图像

Figure:Smoothing and denoising of paper-cut images. (a) Original and (b) enhanced.

03

丈量东方之声:华语流行歌词共性与特质的数字人文研究

Measuring sounds from the East: digital approaches to commonality and specificity in Chinese Mandarin pop lyrics

Zheyuan Dai , Haitao Liu

摘要:1978年改革开放以来,中国流行音乐产业高速发展,成为全球当代流行音乐的重要组成部分。本研究采用数字人文方法,对1978-2019年当代华语流行歌词开展系统性分析。研究运用文体计量指标布塞曼系数,从静态与动态双维度揭示了歌词文本的高活跃度,佐证了其叙事性的文体本质。歌词情感分析结果显示,文本整体呈现积极基调,而2000年成为重要分水岭,前后两个时期的情感特征呈现显著分化。主题建模分析进一步表明,不同时期歌词的主题分布模式呈现多元化特征,既体现了流行文化的普世性,也彰显了文化与时代语境塑造下的中国本土特质。

Abstract:Since China’s reform and opening-up in 1978, its popular music industry has experienced rapid development and emerged as a significant component of global contemporary pop music. This study conducts a systematic analysis of contemporary Chinese Mandarin pop lyrics (1978–2019) with digital methodologies. A stylometric measurement, the Busemann coefficient, was employed to demonstrate the lyrics’ high textual activity from both static and dynamic perspectives. This finding supports the lyrics’ stylistic essence as narratives. Besides, sentiment analysis of lyrics reveals an overall positive tone, though a significant watershed occurred around the year 2000, marking a divergence between the two periods. Furthermore, analyses with topic modeling demonstrate diversified topic distribution patterns across these periods, reflecting both the universality of popular culture and the distinctive Chinese characteristics shaped by cultural and temporal contexts.

图:潜在狄利克雷分配模型评估:一致性与困惑度对比

Figure:LDA model evaluation: Coherence vs. Perplexity.

04

文本可视化视域下江南禅诗对高丽汉诗的跨文化影响研究

Exploring the cross-cultural influence of song Jiangnan Chan Buddhist poetry on Goryeo Han poetry through text visualization

Yaqin Fu , Rongrong Fu , Linfeng Li

摘要:本研究选取三位代表性诗人,从词汇意象、时空解构、主题演变与情感表达四个维度,对比分析江南禅诗对高丽汉诗的影响。研究构建基于文本可视化的研究方法,融合词频 - 逆文档频率关键词提取、潜在狄利克雷分配主题建模与情感分析技术,辅以AI大模型新词挖掘与Kimi智能助手分词功能开展研究。研究得出四项核心结论:其一,两类诗歌均以自然与禅意为核心,共享相似的词汇与意象体系;其二,二者均体现永恒视角与历史意识的交织,以及宇宙宏大性与人世现实性的辩证关系;其三,主题演变层面,江南禅诗“自然与禅”的核心内核,在高丽汉诗中转化为“护国、弘法、济世”的三位一体框架;其四,江南禅诗侧重超脱与空寂的审美表达,高丽汉诗则融入世俗生活书写与历史记忆叙事。研究同时证实,该方法可有效提升古典诗歌文本的中文分词精度,彰显了量化对比分析在禅诗跨文化传播与嬗变可视化研究中的核心价值。

Abstract:This study examines the influence of Jiangnan Chan poetry on Goryeo Han poetry through a comparative analysis of three representative poets from four dimensions: vocabulary imagery, spatiotemporal deconstruction, thematic evolution, and emotional expression. It proposes a text visualization-based methodology employing Term Frequency–Inverse Document Frequency (TF-IDF)-based keyword extraction, Latent Dirichlet Allocation (LDA)-based topic modeling, and sentiment analysis, supplemented by neologism mining and Kimi Intelligent Assistant (KIMI)-based word segmentation using AI large models. The results reveal four key findings: (1) both poetries share similar vocabulary and imagery centered on nature and Chan Buddhism; (2) both reflect an interweaving of eternal perspective and historical consciousness, alongside a dialectic between cosmic vastness and human reality; (3) in terms of thematic evolution, the original focus on “Nature and Chan” in Jiangnan poetry was transformed in Goryeo Han poetry into a trinitarian framework of “national protection, Dharma propagation, and social salvation”; and (4) Jiangnan poetry emphasizes transcendence and emptiness, while Goryeo Han poetry incorporates depictions of secular life and historical memory. The findings also suggest that the proposed methodology is effective in improving the accuracy of Chinese word segmentation for ancient poetry texts. This study underscores the value of quantitative comparative analysis in visualizing the intercultural diffusion and transformation of Chan Buddhism poetry.

图:禅诗名词词云图 (a)雪窦重显;(b)杨杰;(c)义天

Figure:Noun word clouds of Chan Buddhism poetry: (a) Xuedou Chongxian; (b) Yang Jie; (c) Yitian.

05

近代早期英语的善恶语义空间:道德二元对立的计算语言学研究

The semantic space of good and evil in early modern English: a computational study of moral contrasts

Michael Gavin , Michael Witmore

摘要:本文提出一种创新研究方法,通过近代早期英语词向量的几何分析解读文化内涵。研究基于17世纪《早期英文图书在线》(EEBO-TCP)语料库,构建语义模型,梳理3.2万余个词汇的道德关联与性别属性。研究依托分布概念分析方法,设定善恶、女性-男性两大启发式坐标轴,将词汇映射至坐标轴中,挖掘语言使用内嵌的规范结构。情境、离散度与斜率等统计指标,揭示了概念与性别道德化宏观范式的适配规律。研究发现,多数词汇集中于“女性/邪恶”象限,而其语义邻域却常向抽象化、男性化与正向语义域倾斜。本研究提出全新指标——道德对比分数,可无监督挖掘文本潜在二元对立关系,识别塑造近代早期话语体系的文化维度,涵盖情感表达、信任机制、社会教化与领土合法性等范畴。研究勾勒出层次丰富的道德语义图景:道德对立并非静态固化,而是相互重叠、动态流变;该模型打破了固定二元对立的认知框架,证实语言是构建与重塑文化价值的动态高维场域。

Abstract:This article introduces a novel approach to understanding cultural meaning through the geometric analysis of word vectors in early modern English. Using a seventeenth-century corpus Early English Books Online (EEBO-TCP), the study constructs semantic models that chart the moral and gendered associations of over 32,000 words. Building on methods from distributional concept analysis, the authors define heuristic axes—good-evil and feminine-masculine—and project words onto these axes to explore normative structures embedded in language use. Statistical metrics such as situation, spread, and slope reveal how concepts align with broader patterns of moralized gender. Notably, most terms cluster in the ‘feminine/evil’ quadrant, yet semantic neighborhoods often slope toward abstract, masculine, and positive domains. A new metric, the moral contrast score, enables unsupervised discovery of latent binaries, identifying the cultural dimensions that structure early modern discourse—from affective expression and trust to social refinement and territorial legitimacy. The result is a richly layered moral landscape, where contrasts are not static but overlapping and mobile. Far from mapping fixed binaries, the model reveals a dynamic, high-dimensional field in which language organizes—and reconfigures—cultural values. This method offers a scalable, interpretive framework for investigating the moral geometry of meaning in historical texts.

图:核心词汇语义邻域图(左上:死亡;右上:戏剧;左下:牙买加;右下:信用)

Figure:The semantic neighborhood of death (upper left), play (upper right), jamaica (lower left), and credit (lower right).

06

复杂网络视角下现代简体汉字构形系统研究

Investigating the structural formation system of modern simplified Chinese characters from a complex network perspective

Wei Huang , Yonghui Xie , Junting Li

摘要:汉字在东方文明发展进程中具有核心地位,其构形体系具备系统性特征,而系统科学方法在汉字构形系统研究中的应用仍较为匮乏。为此,本研究基于复杂网络方法,探究现代简体汉字的宏观网络特征与核心系统属性。研究以汉字基础构件为节点、构件关联为边,构建共现网络、有向网络、加权网络三类网络模型及对应的随机对照网络;通过17项通用网络指标量化分析网络特征,深入阐释汉字构形系统的内在属性。研究结果表明,相较于随机网络,汉字构件网络呈现小世界性、无标度性、异配混合性、高中心性与层级组织性五大显著特征;这五大特征印证了汉字构形系统兼具复杂性、鲁棒性与经济性三大属性,分别源于构件的有序组合、紧密联结与高效配置。本研究成果为汉字构形系统的实证研究提供了重要补充。

Abstract:Chinese characters hold pivotal significance in the development of Eastern civilization. While their structural formation exhibits a systematic nature, system science approaches are seldom seen in analyzing the formation system. Therefore, based on complex network methods, this study aims to examine macro-scale network features and the essential system properties of modern simplified Chinese characters. Specifically, three types of networks were constructed: co-occurrence, directed, and weighted networks, along with their random counterparts. In these networks, primitive components served as nodes, and their relationships as edges. Subsequently, seventeen general network metrics were measured to analyze the network features, enabling deeper discussion of the system properties. Research results show that component networks exhibit five distinct network features compared to their random counterparts, including small-world feature, scale-free feature, disassortative mixing, high centrality, and hierarchical organization. These features demonstrate that the formation system displays three properties, namely complexity, robustness, and economy, which emerge respectively from organized, close-knit, and efficient component combinations. These findings serve as a significant supplement to the empirical research on the structural formation system of Chinese characters.

图:真实网络与随机网络全局拓扑图(a、c、e:真实网络;b、d、f:随机网络)

Figure:Global network graphs of real and random networks (a, c, e: network graphs of real networks; b, d, f: network graphs of random networks).

07

非遗审美中的情绪唤醒与视觉认知双路径研究——以硖石针刺灯彩画为例

A dual-path approach to emotional arousal and visual cognition in intangible cultural heritage: the case of Xiashi Pinprick Lantern Pictures

Wenwen Shi , Yi-Tong Cui , Yihong Liu , Weicong Li , Xinlong Li , Jing Sun

摘要:当前关于晚期Z世代对中国非物质文化遗产的审美体验与评价的实证研究仍较为匮乏。本研究以清代颜元庄硖石针刺灯彩画为研究对象,探究大学生群体的审美反馈,聚焦作品主题、潜在审美偏好及其与喜爱度的关联。研究采用双路径研究方法:其一,运用混合设计方差分析与语义差异量表,分析四大主题作品,通过因子分析与聚类分析提取审美潜在维度;其二,开展眼动实验,记录注视时长与注视次数,量化分析眼动指标与主观评分的相关性。研究结果表明:第一,园林主题灯彩画的喜爱度评分显著最高(P<0.001),主题与专业的交互效应不显著(P=0.094),说明不同专业群体的审美偏好具有一致性;第二,研究提取出情绪效价、形式审美、认知唤醒三大潜在维度,揭示了非遗审美的多层级体验结构;第三,潜在审美偏好与喜爱度呈极强正相关(r=0.94,P<0.01),而眼动注视指标与喜爱度无显著相关性(P=0.174;P=0.234)。研究证实,晚期Z世代对传统针刺灯彩艺术的偏好具有主题依赖性,由情绪与认知双重参与塑造。本研究结合主客观测量方法提供实证依据,深化了对晚期Z世代非遗审美认知的理解,为非遗传承与美育推广提供理论支撑。

Abstract:There is a limited empirical research on late Generation Z’s (Gen Z’s) experience and evaluation of Chinese intangible cultural heritage (ICH). This study examines university students’ aesthetic responses to Xiashi Pinprick Lantern Pictures by Yan Yuanzhuang (Qing dynasty), focusing on theme and latent preferences and their relation to liking. Using a dual-path approach, this study conducted (1) a mixed-design ANOVA and semantic differential scale to analyze four themes and extract latent dimensions via factor and cluster analysis, and (2) an eye-tracking experiment to record fixation duration and count, thus assess their correlations with subjective ratings. Results revealed: (1) the garden-themed pictures scored significantly higher in liking level (P < .001), with no significant theme–major interaction effect (P = .094), indicating consistent preferences across disciplines; (2) three latent dimensions, Emotional Valence, Form-Aesthetic, and Cognitive Arousal, were extracted, revealing a multi-layered structure of aesthetic experience; (3) latent preference strongly correlated with liking levels (r = 0.94, P < .01), whereas fixation-based metrics showed no significant correlation (P = .174; P = .234). These findings suggest that Gen Z’s preferences for traditional pinprick lantern art are theme-dependent and shaped by emotional and cognitive engagement. The study offers empirical evidence, through both subjective and objective measures, to better understand how ICH artworks are perceived by late Gen Z audiences, contributing to ICH transmission and the promotion of aesthetic education.

图: 《黛玉葬花》眼动热力图

Figure: Daiyu Burying the Fallen Flowers eye-tracking heatmap.

08

从浪漫到现实:数字人文视域下华语流行歌词的词汇与主题演变

From romance to reality: lexical and topic evolution in Chinese popular lyrics through digital humanities approaches

Yubo Wang , Lüyuan Wang , Fang Xie , Haitao Liu

摘要:本研究探究2000-2025年华语流行歌词的词汇与主题演变,映射大众情感变迁与社会文化转型。现有研究多忽视非西方歌词语料库,本研究填补这一空白,构建涵盖25年、1560首代表性歌曲的华语流行音乐历时语料库。研究采用数字人文方法,融合词频分析、可读性指标与BERTopic主题建模,追踪歌词词汇与主题的历时演变。研究发现,歌词高频词汇始终围绕情感表达、个体自省与人际互动三大核心;类符形符比显著提升,表明歌词词汇丰富度持续增长,文本复杂度呈波动变化,反映出创作风格的动态转向。主题分析识别出浪漫爱情、未来期许、都市生活等12大核心主题,主题结构从自然与时间的抽象表达,逐步转向情感具象化与心理内省化书写;近年来,负面情感主题与自我指涉艺术母题的占比显著上升。本研究为音乐、语言与社会交叉领域研究提供了全新方法论框架,彰显了数字人文工具在大规模歌词分析中,描摹集体情感与文化变迁的核心价值。

Abstract:This study explores the lexical and topic evolution of Chinese popular music lyrics from 2000 to 2025, reflecting changing public sentiments and broader socio-cultural transitions. While prior research has largely overlooked non-Western lyric corpora, this study addresses that gap by constructing the Chinese Popular Music Diachronic Corpus, comprising 1,560 representative popular songs sampled across twenty-five years. Using digital humanities approaches, it integrates word frequency analysis, readability metrics, and BERTopic-based topic modelling to trace lexical and topic evolution of lyrics over time. Findings reveal that high-frequency words consistently revolve around emotional expression, individual introspection, and interpersonal dynamics. Type-token ratio (TTR) has increased significantly, indicating growing lexical diversity, while textual complexity shows fluctuation, reflecting stylistic shifts in song writing. Topic analysis identifies twelve major topics, including romantic love, future aspirations, and urban life, with topic structures evolving from natural and temporal abstraction to emotional concreteness and psychological introspection. Recent years show a significant rise in negative emotional topics and self-referential artistic motifs. This study contributes a novel methodological framework for interdisciplinary research at the intersection of music, language, and society, and underscores the value of digital humanities tools in mapping collective emotions and cultural change through large-scale lyric analysis.

图:各项指标历年变化趋势

Figure:Trends of various metrics over the years.

09

文化分析与表征政治:埃及《箴言》杂志中犹太群体形象的呈现研究(1933-1953)

Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt’s al-Risālah (1933–1953)

Eid Mohamed , Said Hassan

摘要:本文融合文化分析与后殖民理论,探究1933-1953年埃及主流文学期刊《箴言》中犹太群体的形象表征。研究运用数字文本分析方法,识别并解读期刊档案中犹太形象的建构范式,揭示两次世界大战之间及战后初期,阿拉伯知识分子在政治张力下对犹太身份的协商与阐释。这一跨学科研究方法实现了量化建模与文本细读的结合,精准剖析文化生产机制,呈现这一关键历史节点阿拉伯印刷话语的内在矛盾性。本研究的核心价值在于,对锡安主义兴起与以色列建国这一重塑阿拉伯世界族群关系的关键时期的媒介文本开展数字化研究:随着阿拉伯犹太人大规模撤离埃及,《箴言》中犹太形象的动态演变,折射出社会层面对民族身份、宗教差异与殖民遗产的集体焦虑。全文分为两部分:第一部分将《箴言》置于反殖民与后奥斯曼知识思潮中,阐释其成为阿拉伯现代性多元理念博弈平台的历史背景;第二部分结合远读与阐释性分析,梳理期刊对犹太人的三重身份建构——现代性符号、西方帝国主义受害者、阿拉伯主权威胁者。这些形象建构并非单纯的历史遗存,更深刻影响着当代族群宗教身份与政治归属感的认知。本研究将数字人文工具与知识生产的后殖民批判相结合,为阿拉伯印刷文化、形象表征与媒介史研究提供了全新的方法论与认识论范式。

Abstract:This article investigates the representation of Jews in al-Risālah, a major Egyptian literary magazine (1933–53), by integrating Cultural Analytics and postcolonial theory. Using digital text analysis methods, it identifies and interprets patterns of Jewish representation within al-Risālah’s archive, uncovering how Arab intellectuals negotiated Jewishness amid the political tensions of the interwar and early postwar periods. This interdisciplinary approach enables a nuanced examination of cultural production, bridging quantitative modelling with close textual reading to reveal the ambivalences of Arab print discourse during a pivotal historical moment. The study’s significance lies in its digital examination of media texts published during the rise of Zionism and the establishment of Israel, an era that reshaped intercommunal relations across the Arab world. As Arab Jews began departing Egypt en masse, al-Risālah’s evolving depictions of Jews became symptomatic of broader anxieties over national identity, religious difference, and colonial legacies. Structured in two parts, the first contextualizes al-Risālah within anti-colonial and post-Ottoman intellectual currents, illustrating how the magazine became a platform for competing visions of Arab modernity. The second part synthesizes distant reading with interpretive analysis to assess how al-Risālah conceptualized Jews: as symbols of modernity, victims of Western imperialism, or threats to Arab sovereignty. These portrayals are not merely historical curiosities but inform contemporary understandings of ethno-religious identity and political belonging. By fusing digital humanities tools with a postcolonial critique of knowledge production, this study contributes a new methodological and epistemological model for analysing Arab print culture, representation, and media history.

图:《箴言》杂志核心关键词年度出现频次

Figure.Recurrence of key words in al-Risālah by years.

编译|洪冰凤

校对|罗斯鹏

排版|魏翔

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

“全国语言文字应用研究中青年学者协同创新联盟”第十届学术研讨会 1 号通知

2026年5月2日 08:50

徐惠 2026-05-02 08:50 江西

联盟第十届语言文字研讨会10月在浙传举办,征论文且免会务费。

转载自“语言文字应用研究协同创新联盟”

“全国语言文字应用研究中青年学者协同创新联盟”是以国家语委语言文字应用研究优秀中青年学者研修班学员为基础组成的学术共同体。为加强联盟成员的学术交流和成果共享,促进联盟发展,联盟自2015年开始举办学术研讨会,目前已举办九届,在中青年学者中影响广泛。

为深入学习贯彻党的二十大和二十届历次全会精神,落实《教育强国建设规划纲要(2024—2035年)》精神,服务建设语言能力强国在国家语言文字事业“十五五”规划开启之年,全国语言文字应用研究中青年学者协同创新联盟成立十周之际,拟于2026年10月24—25日浙江传媒学院钱塘校区举行第十届学术研讨会。现将有关事项通知如下:

一、会议主题和议题

一)会议主题

“一体两翼”的大语言文字工作格局与智时代的语言应用研究

二)分议题

1. “一体两翼”大语言文字工作格局的理论构建与实践路径

2. 国家语言能力建设助力国家治理和参与全球治理

3. 中华优秀语言文化传承发展体系构建与全民语言文化素养提升

4. 数字中文建设与语言科学发展

5. 语言科技赋能国家关键领域与国家语言服务体系构建

6. 国家通用语言文字普及推广的数字化与场景化探索

7. “浙江宣传”之江新语语言表达特色与新时代区域传播

8. 国际中文教育的数赋能与创新实践

9. 智能时代的专业化、有组织科研与联盟协同创新

10.其他相关研究

二、时间地点

会议时间2026年10月24日-25日报到时间2026年10月23日

会议地点浙江传媒学院(浙江·杭州钱塘区白杨街道学源街998号

三、主办承办单位

主办单位全国语言文字应用研究中青年学者协同创新联盟

承办单位浙江传媒学院国际教育学院

协办单位:浙江传媒学院文学院国际文化传播学院播音主持艺术学院

四、论文提交

诚挚欢迎学界专家学者莅会。会议回执和摘要提交截止日期为2026年8月20日。请参会老师将回执和摘要发送至会务组邮 ywlmhy2026@cuz.edu.cn,邮件标题请注明“联盟会议+姓名+议题方向”。

优秀论文将推荐在相关核心期刊、专业期刊上发表。

五、其他事项

1. 本次会议不收会务费,参会人员的住宿费、交通费等均由本人所在单位或个人自理。

2. 会议将统一安排会场、研讨交流等相关事宜,具体会议指南将于会前1个月发送至参会人员邮箱。

六、联系方式

联系人:刘老师

联系电话:18757567570(微信同号)

联系邮箱:ywlmhy2026@cuz.edu.cn

附件:联盟第十届学术研讨会回执.docx

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

超常布局新专业 立足国家发展“大逻辑” | 文末精彩!

2026年5月2日 08:50

徐惠 2026-05-02 08:50 江西

2026 本科专业目录发布,新增交叉学科门类,高校专业调整力度空前,服务国家战略与区域发展。

转载自“汉语堂”

中青报·中青网记者 张渺 杨洁来源:中国青年报(2026-04-29  02版)

4月28日,《普通高等学校本科专业目录(2026年)》发布。2026年本科专业目录在“交叉学科”门类中首批列入未来机器人、交叉工程等11种目录内已有专业。目前,本科专业目录共涵盖13个门类、92个专业类、883种专业,目录体系更加科学完善。“十四五”期间,全国高校新增本科专业布点1.02万个、撤销或停招1.22万个。专业调整幅度持续增大,累计调整比例超30%,今年全国高校专业调整比例首次突破10%,调整力度和规模之大前所未有。

从自我发展“小逻辑”到服务国家发展“大逻辑”

“服务国家战略需求,提升高等教育对强国建设的贡献力。着力推动高校学科专业建设从自我发展‘小逻辑’,到服务国家发展‘大逻辑’的转变。”教育部高等教育司相关负责人介绍,近两年,教育部已先后超常布局了低空技术与工程、具身智能等专业。对于中央最新部署、高度关注的战略领域,教育部专门开辟了即时响应的“绿色通道”,指导有条件、有基础的高校积极论证。

《中共中央关于进一步全面深化改革、推进中国式现代化的决定》提到“建立科技发展、国家战略需求牵引的学科设置调整机制和人才培养模式,超常布局急需学科专业”。2025年,中央教育工作领导小组印发《高等教育学科专业设置调整优化行动方案(2025-2027年)》,强调实施急需学科专业超常布局行动,瞄准战略性新兴产业和未来产业等,快速布局一批学科专业点。

此前,北京航空航天大学、北京邮电大学等6所高校增设“低空技术与工程”新专业。

据西安交通大学党委常委、副校长严俊杰介绍,学校去年就已经快速响应国家号召,规划创办了全国首批具身智能专业;整合了机械和自动化等优势学科,围绕智能机器人、脑机接口等方向构建课程体系,培养具身智能前沿领域复合型拔尖创新人才;创办了全国首个储能科学与工程专业,深度整合控制、动力、电气、材料等八大优势学科。

山东大学党委常委、副校长曹现强则表示,山东大学目前已增设22个战略性新兴专业,其中文科领域增设国际组织与全球治理、国际新闻与传播、供应链管理等战略性新兴专业。

在服务人民生命健康方面,近年来,本科专业目录增设健康服务与管理、养老服务管理等专业;在服务生态文明建设和乡村振兴方面,增设生态修复学、乡村治理等专业;在服务中华优秀传统文化传承创新方面,增设古文字学、非物质文化遗产保护等专业。

让办在大学里的专业,长在当地的产业链上

超常规布局不仅体现在前沿科技和文科领域,也深入结合地方特色与战略需求。安徽大学原党委书记、安徽大学高等教育研究所所长蔡敬民说:“现在,我们深刻认识到,地方大学的发展逻辑,必须从传统的‘学科逻辑’转向‘强国逻辑’,必须与经济社会发展深度融合,坚定转向‘区域需要什么我们就培养什么’。”

在这一理念指引下,安徽大学先后撤销税收学、广告学、建筑学等15个传统专业,同时,前瞻性布局低空技术与工程、人工智能、新能源汽车工程等13个新工科专业。经过调整,安徽大学92个在招本科专业中,近80%直接服务安徽省十大新兴产业。2025届毕业生中,近70%服务安徽十大新兴产业,超60%留皖就业,超60%入职当地头部企业。

《教育强国建设规划纲要(2024-2035年)》明确提到,到2027年,“教育布局结构与经济社会和人口高质量发展需求更加契合”。围绕一系列文件要求,不少地方高校正在着力调整专业布局。

据重庆市教育委员会副主任蒋云芳介绍,2025年,重庆市教委联合多个市级部门,发布了88个国家战略和区域发展紧缺急需专业清单,“有效引导了重庆大学、西南大学、重庆交通大学等高校增设低空技术与工程、量子信息科学、气象技术与工程等紧缺专业点”。

她提到,重庆大学牵头组建“先进材料专业群”和“新能源与储能专业群”,联合重庆高校及30余家储能领域头部企业,共建课程资源与实习基地。

黑龙江省教育厅副厅长程爽也分享了该省“优化高校专业布局、服务区域发展”的探索与实践。她介绍,黑龙江省支持高校培育交叉复合型新专业:“哈尔滨工业大学聚焦空天科技前沿,新增了‘具身智能’‘脑机科学与技术’等一批本科专业;围绕把‘冷资源’变成‘热经济’,支持哈尔滨体育学院联合哈尔滨音乐学院,在全国率先增设‘冰雪舞蹈表演’专业。”

目前,黑龙江省已经组建了40个区域产教融合特色优势专业集群,“专业不能悬在半空,得扎进黑土地、连上生产线、接住老百姓的期盼。”程爽强调。

培育交叉融合的新兴专业

去年,教育部高等教育司关于开展2025年度普通高等学校本科专业设置工作的通知中就提到,“深化新工科、新医科、新农科、新文科建设,推动课程体系与教学内容重塑,对现有专业升级改造,培育交叉融合的新兴专业,打造特色优势专业集群”。

如今,这一思路在《普通高等学校本科专业目录(2026年)》文件中也有明显体现。2026年本科专业目录在“交叉学科”门类中首批列入未来机器人、交叉工程等11种目录内已有专业和具身智能、脑机科学与技术等4种本次列入目录的新专业。

今年,清华大学增设了心理、脑与认知科学专业。清华大学基础科学讲席教授、心理与认知科学系主任刘嘉介绍,该专业以理解人、理解脑、理解智能为主线,建设跨学科培养平台,“专业不再完全沿用单一学科的线性排布方式,而是以问题和能力为导向进行模块化重构”。

在课程设计上,该专业将设置心智、脑科学、计算智能、交叉融合四大课组,重点训练实验设计、数据分析、计算建模、工程实现和科学表达等能力。

记者发现,《普通高等学校本科专业目录(2026年)》中出现了不少极具融合特色的“新文科”专业。

“为提升国家语言能力,服务数字中国建设和新文科建设,今年增设‘语言科学’专业。”北京语言大学语言科学与资源学院院长曹文提到,目前北京语言大学是该专业在全国唯一获批、即将招生的高校。

曹文介绍,增设“语言科学”专业的学科基础将融合语言学、认知科学、数据科学与人工智能,培养既能掌握语言学基础知识和基本技能,又能运用合规的人工智能,具有较强的跨学科探索能力、行业应用能力、资源管理能力和数据伦理意识的高水平、复合型的新质语言人才。


那么关于语言科学,你还想知道什么?中国青年报/中青网 杨洁记者就此采访了北京语言大学语言科学与资源学院院长曹文教授。汉语堂为你带来曹文教授的新鲜解读!

1.文科专业的改革发展一直受到社会关注,语言科学专业如何实现交叉培养,在师资、课程等方面有哪些特色?

答:为提升国家语言能力,服务数字中国建设和新文科建设,国家教育部于今年在“中国语言文学”大类下增设“语言科学”专业,其内在具备交叉学科的性质。该专业属于特设(T)国家控制布点(K)专业。目前北京语言大学是该专业在全国唯一获批、即将招生的高校。其学科基础包括:语言学、认知科学、数据科学与人工智能。该专业的总体目标是培养既能掌握语言学基础知识和基本技能,又能运用合规的人工智能,具有较强的跨学科探索能力、行业应用能力、资源管理能力和数据伦理意识的高水平复合型的新质语言人才。

本专业在北语由语言科学与资源学院(语言科学研究院)主建。学院全面实行导师制,采用本、硕、博一体培养体系。师资力量雄厚,目前20多位教授皆为语言学及上述相关学科领域知名学者,学殖深厚,成果丰硕;其中,长江学者、百千万人才、新世纪人才或二、三级教授1/2。此外,学院内的6省部级共建基地和2高水平实验室以及语言调查系列课程,可为学生知行合一的成长过程提供独有的平台和机会。

2.语言科学专业的毕业生将为哪些领域输送专业人才?

答:该专业的毕业生可直接在语言智能、语言数据、语言服务、语言安全、语言健康语言评价与鉴定、语言资源调查与保护等领域就业若有意深造、进一步考取相关专业研究生他们具备很强的竞争力。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

第四届语料库与数字人文暑期学院(1号通知)

2026年5月1日 00:00

徐惠 俊阳 2026-05-01 00:00 江苏

心心念念的暑校来啦,线上线下免费学习!

第四届语料库与

数字人文暑期学院

— 1号通知 —

CDHSUMMER2026

随着大数据与大语言模型技术的飞速发展,语言学、文学、历史学、文献学等人文社科研究,正与计算技术形成深度交叉融合。人文学科的创新发展,核心在于基于语料库的人文大数据体系构建、语言智能技术的落地应用,以及面向人文研究的大模型适配与开发。为推动计算语言学与数字人文领域的学科建设、复合型人才培养与学术交流,南京师范大学联合北师港浸大、澳门大学、香港科技大学、南京农业大学五校,正式启动第四届语料库与数字人文暑期学院的报名工作。

01

主办信息

01

举办时间

2026年7月25日- 8月4日(全程12天,7月25日报到)

02

线下地点

南京师范大学随园校区文学院

03

课程形式

线上线下同步开展,课程免费,交通食宿自理

04

招生规模

应学员需求,今年进一步扩大暑院规模

线下120人,线上80-120人,总计不超过240人

05

核心模块

数字人文理论、技术、语料库及标准、计量四大模块全覆盖

02

核心课程体系

01

平行讲习班

(3个平行班,学员仅可择一申请)

每门课程8次系统授课,配4名专属助教,每班线下40人、线上40人。

A班. 数据库编程讲习班 主讲:李斌

以 MySQL+PHP 为核心平台,围绕《全唐诗》等语料,讲授语料库构建、数据库查询、交互式网站搭建等核心技术,面向零基础编程初学者。

B班. 语言统计方法讲习班 主讲:沈威

聚焦语料库计量分析,系统讲授基于SPSS的统计基础、参数检验、非参数检验、聚类分析、相关分析、卡方检验、多元线性回归及逻辑回归等核心方法,帮助学员掌握语言研究中的定量分析技能与统计报告生成能力。

C班. Python大模型编程讲习班 主讲:王东波 刘浏

以古籍大模型「荀子」为案例,讲授提示词工程、指令微调、Agent开发、人文场景落地等内容,面向有基础Python能力的学员。

注:所有班次均不接受计算机相关专业背景学员申请

02

配套学术与实践环节

1. 专家系列讲座:邀请20位领域顶尖学者,开设20场精品学术讲座,聚焦前沿进展与核心方法。

2. 主题圆桌论坛:2场专题Panel,围绕「LLM 时代人文学科的机遇与挑战」「语言学与数字人文的未来发展」展开深度对话。

文化考察与研讨:依托南京及周边历史文化资源,规划数字人文考察路线,同步设置分组学术研讨环节。

03

报名须知

01

招生对象

全国高校及科研院所数字人文、计算语言学、中国语言文学、历史学、文献学等文史哲相关专业的本科生、研究生、青年教师及科研人员。

02

报名时间

2026年5月5日至12日(北京时间)

03

报名方式

填写官方报名表单,上传个人简历、研究基础、学习目标(计划)、推荐信等材料,主办方将择优录取。录取结果将于2026年6月1日前通过邮件及公众号推送,录取学员需签署上课承诺书,报名成功后原则上不得中途退课、更换班级。

04

结课考核

以独立人文研究成果为核心考核目标:

1. 数据库编程班:独立构建人文数据库与交互式检索网站

2. 语言统计班:完成语料库人文研究计量分析报告

3. 大模型编程班:完成人文场景大模型应用开发

完成课程并通过考核的学员,将颁发暑期学院结业证书,优秀成果授予优秀学员证书。

04

课程日程

注:详细讲座日程、嘉宾信息、考察安排将在2号通知中发布,开课前1周推送至学员官方群

 特邀讲座和论坛嘉宾 

(排名不分先后)

新疆大学 冯志伟教授

澳门大学 袁毓林教授

香港理工大学 黄居仁教授

中国社科院民族所 龙从军研究员

中国社科院语言所 张永伟研究员

北京大学 苏祺研究员

华中科技大学 唐旭日教授

同济大学 王昊奋教授

南京大学 黄书剑教授

南京农业大学 王东波教授

南京师范大学 李斌教授

北京师范大学 胡韧奋副教授

中国人民大学 卢达威副教授

北京语言大学 饶高琦副研究员

华中师范大学 沈威副教授

中国传媒大学 王璐璐副教授

江南大学 王萌副教授

(持续邀约中)

05

组织架构

(以下各项排名不分先后)

 主办单位 

南京师范大学文学院

 联合主办单位 

澳门大学人文学院

香港科技大学人文学部

北师香港浸会大学人文社科学院

南京农业大学信息管理学院

特约支持单位

中国社科院民族所民族语言文化行为实验室

 协办组织/单位 

中国民族语言学会语言资源与计算人文专委会

中国古籍保护协会古籍智能开发与利用专委会

中国人工智能学会语言智能专委会

江苏省人工智能学会自然语言处理专委会

江苏省修辞学会

数字人文专业发展联盟

浙江大学文学院

 媒体与出版支持 

科学出版社

高等教育出版社

中华书局古联公司

外语教学与研究出版社

南京大学出版社

南京师范大学出版社

06

往届回顾

语料库与数字人文暑期学院自2024年创办以来,已成功举办三届,累计吸引全球数十个国家和地区、数百所高校的数千名师生报名参与,培养了近四百名兼具人文素养与技术能力的复合型人才,成为国内计算语言学与数字人文领域极具影响力的暑期教学与交流品牌。  2024年1月,首届寒假讲习班在南京师范大学顺利举办。讲习班一经开放报名便受到学界广泛关注,共有200余位学员报名,最终择优录取线上学员70名。经过十天的系统学习,学员自主开发40余个可用的人文数据库检索平台并完成线上展示,60余名学员顺利获得优秀或合格结业证书,多位领域专家全程参与点评指导,为学员的成果优化与学术发展提供了专业建议。

2024年8月,第二届暑期学院在澳门大学人文学院成功举办。本届暑期学院吸引了来自全球20个国家及地区、371所高等院校的956名师生报名,最终录取线上及线下学员110名。经过8天的系统学习,学员完成95个自建人文数据库与应用成果,研究领域覆盖文、史、哲、法律、社会学、医药等多个学科。

2025年7月,第三届暑期学院在北京师范大学-香港浸会大学联合国际学院顺利举办。本届暑期学院首次设置数据库编程、大模型开发双平行班,累计吸引全国180余所高校的近千名师生报名,最终录取线上线下学员160名。课程期间邀请12位领域顶尖学者开设专题讲座,学员完成120余项人文数据库与大模型应用成果,其中多项成果落地为实际科研项目,进一步夯实了暑期学院的教学体系与学术影响力。

07

报名渠道

1. 公众号:比特人文

2. 咨询邮箱:dhbase2026@126.com

3. 2026年5月5日正式开启报名,敬请关注!

欢迎全国各高校及科研院所对语料库、语言智能、数字人文、计算技术人文应用感兴趣的师生踊跃报名!请提前准备好各项申请材料!

扫码关注公众号,

获取报名通道、课程更新、嘉宾资讯等更多内容

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

“语言的力量 语言科技+”2026年国家关键领域语言科技赋能交流会在沪举行

2026年5月1日 00:00

徐惠 2026-05-01 00:00 江苏

4月19日沪上举办语言科技赋能交流会,成立联盟并揭牌研究中心。

转载自“语言资源高精尖创新中心”

4月19日下午,“语言的力量 语言科技+”2026年国家关键领域语言科技赋能交流会在长三角生态绿色一体化发展示范区“水乡客厅·方厅水院”上海厅举行。教育部语言文字信息管理司司长刘培俊出席并讲话。上海市教育委员会副主任、上海市语言文字工作委员会秘书长杨振峰,上海市青浦区人民政府副区长张彦致辞。

如何看待今天的语言科技?如何用好语言科技赋能千行百业?如何加强长三角地区语言科技合作?与会者聚焦这三个问题展开深入交流,并达成共识:从文字的温润到算法的精密,从文化的传承到技术的突破——这正是语言文字工作“以文化人、以语强国”的双重使命。

在“硅基文明”发展新阶段,语言与人工智能、大数据等技术深度融合,正从文化“软实力”转化为发展“硬支撑”。同时,语言科技应用需坚守向善导向,一方面要深耕自主创新,攻坚语料库、语言大模型、跨语言交互等关键技术;另一方面要拓宽应用边界,推动技术走出实验室,融入教育发展、产业经济、民生服务、社会治理等各领域。此外,还要直面挑战,强化资源建设、产学研用协同,健全行业生态,依托教育体系培育专业人才,夯实产业发展人才根基。

与会者在交流中深刻认识到:要树立大语言观念认知,用好大语言模型技术,构建大语言服务体系,推动语言数据资源向经济社会效能转变。同时,长三角地区作为我国经济发展最活跃、开放程度最高、创新能力最强的区域之一,在语言科技赋能方面应发挥示范引领作用。面向未来,要健全“政府协同搭台—高校科研引领—企业承接转化”新机制,聚焦语言科技赋能国家关键领域设立一批创新项目,储备一批前沿成果,推广一批应用案例,推动语言资源与数据要素深度融合,夯实数字底座;推动技术研发与产业应用深度融合,畅通转化渠道;推动区域协同与安全保障深度融合,优化治理生态,推动语言科技聚焦高价值领域,全局赋能经济社会发展,以语言的行动和行动的语言服务教育强国、科技强国、人才强国和文化强国建设,贡献语言科技的时代力量。

本次交流会聚焦国家关键领域语言科技赋能,汇聚高校、企业、研究机构的智慧力量,科大讯飞、嘉兴大学、江苏师范大学、上海人工智能实验室、北京语言大学、上海库帕思科技、北京师范大学、深圳鹏城国家实验室数据智能研究所、广西民族大学相思湖学院、西北农林科技大学等单位代表,分享了各自的前沿成果、积极共商协同机制,展示了语言科技在关键领域的创新实践与示范价值。

现场照片

现场,“长三角地区国家关键领域语言科技赋能联盟”宣布成立,其将协同三省一市的政府、高校、企业和专家学者等主体,在协调政策、培育市场、开展活动、交流展示上下功夫,努力为推动语言科技自身发展和更好赋能国家的关键领域建设发挥好桥梁纽带作用。

东华大学“国家关键领域语言科技赋能研究中心”同步揭牌,中心对接国家语委语言科技赋能领航计划,推动语言科技与人工智能大模型深度融入教育教学、产业升级、文化传承等国家关键领域,发挥学校学科交叉优势,服务国家战略。

文章来源:“东方教育时报”公众号

题图来源:MAKA设计、百度文库

本文转自:“语宝”公众号

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

评测竞赛 | 第二届中文叙实性推理评测(FIE2026)

2026年4月30日 00:01

FIE2026 2026-04-30 00:01 江苏

FIE2026 设双赛道,测大模型中文叙实性推理,按赛程报名提交报告评奖。

 (FIE2026)

第二届中文叙实性

推理评测

01、测评赛程(暂定)

  • 2026年3—4月:评测任务发布(已完成)&参赛队伍报名(正在进行);

  • 2026年4月1日前:发布第一批样例集(已完成);

  • 2026年5月1日前:发布第二批样例集;

  • 2026年5月:发布正式评测集(在发布7天内开放下载);各参赛队伍在7天内开展评测;

  • 2026年6月:参赛队伍提交任务技术报告论文,用于审稿。

  • 2026年7月:评测论文审稿;发放录用通知;

  • 2026年8月:评测论文Camera-ready版提交;

  • 2026年9月:评测论文纠错排版;提交ACL/CCL Anthology收录(待定);

  • 2026年10月:CCL 2026技术评测研讨会召开。

02、报名流程

  • 请下载并仔细阅读《第二届中文叙实性推理评测FIE2026参赛协议》(下称《参赛协议》)。如出现PDF无法显示的情况,请更换浏览器,建议使用Chrome浏览器。

  • 请队长在《参赛协议》的“参赛队伍声明”一栏中填写队伍名称,并签署名字和日期,将签署好的《参赛协议》,以邮件附件形式发送至联系人邮箱tianqi.xun@connect.um.edu.mo

  • 在报名邮件正文中,请按以下表格形式填写队伍信息(示例如下):

邮件标题以“FIE2026报名+单位+队伍联系人”的格式书写。例如:“FIE2026报名-澳门大学-丛冠良”。

  • 报名注意事项:

  1. 队长不能作为队员参与其他队伍。

  2. 队伍成员人数不限。

  3. 队伍名称在评测开始前可修改,并且只用于评测过程中的队伍区分,不用于论文写作。

  4. 队伍联系人主要负责与组织方的邮件沟通,评测过程中不建议更换。

  5. 单位信息在评测结束前可修改,最终将用于成绩榜单以及评测综述论文中。

  6. 计划参加的赛道在评测结束前均可修改。

  7. 如目前所在单位尚未确定,可以“个人”身份参赛。

  8. 为维护评测活动的公平性,所有参赛者不得以组织方所在单位成员的名义参赛。

  9. 组织方正在计划开设一个leaderboard网站,网站上线后将承接报名和结果提交等功能。

03、组织方团队

  • 任务组织者:袁毓林教授(澳门大学)、李斌教授(南京师范大学)。

  • 任务联系人: 丛冠良(澳门大学博士生,guanliang.cong@connect.um.edu.mo)、 寻天琦(澳门大学博士生,tianqi.xun@connect.um.edu.mo)。

04、任务简介

叙实性推理(Factivity Inference, FI)是一种与事件真实性判断有关的语义理解任务,主要涉及语言使用中事实性信息的表达。在人类的会话交际中,叙实性推理能力表现为语言使用者可以从某些动词性语言成分(如“相信”“谎称”“意识到”等)的使用推知其他语言成分所描述的相关事件的真实性(真还是假)。例如:

(1)他们意识到局面已经不可挽回。

(2)他们没有意识到局面已经不可挽回。

从例1这样的肯定句和例2这样的否定句上,都可以推理出在说话人眼中存在这样一个事实:“局面已经不可挽回”。

进行叙实性推理所使用的知识是一种受世界知识(world knowledge)影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识(analytical knowledge of language)。比如,上面例句中的动词“意识到”要求(预设)它的宾语“局面已经不可挽回”的所指为真,不管该动词前面有没有否定性词语。

与叙实性推理类似的还有反事实推理(Counter-Factual Inference, CFI),这是语义理解中与事件真实性判断有关的两种推理形式,可统称为“真实性推理”(Factuality Inference, FactI)。 相较而言,叙实性推理主要依靠谓词(predicates, 如动词)来表达而反事实推理则主要依靠反事实条件句(counter-factual conditionals)来表达。例如:

(3)约翰不知道罗昆是中国人。

(4)要不是消防队来得及时,大火就要烧到顶楼了。

从例3中“知道”这个动词的使用,可以推理出这样一个事实:“罗昆是中国人”;从例4这个反事实条件句中,可以推理出两个事实:“消防队确实来得很及时”和“大火确实没有烧到顶楼”。

作为语言推理的一种重要的导航机制和手段,真实性推理具有明确的语言形式方面的线索,是机器进行文本蕴涵识别(textual entailment recognizing)、幻觉处理(hallucination solving)、信念修正(belief revision)等任务的重要的语义基础和形式依据,同时对信息检索、信息抽取、问题回答、情感分析等下游任务都具有重要的价值。目前,大型语言模型(Large Language Models, LLMs)日益具备类人的与外界自主交互的能力,也被称为“智能体”(agent)。从话语中获取事实性信息及说话人对事件真实性判断的主观态度,这对于智能体的自主推理和人机交互的顺畅性而言是极为关键的。

为进一步提升大型语言模型对中文的语义理解能力,实现机器对人类交际话语的深度理解,我们将在FIE2025(任务网站综述论文已录用论文)的基础上继续推出“第二届中文叙实性推理评测任务”(FIE2026)。

本次评测将着重考察大模型在不同真实语境中的叙实性推理表现有何差异。特别是:当叙实性结构中存在不同的否定词、不同的否定意愿、不同的评价性状语、不同人称和数量类型的主语,以及存在多声性标记和被动化标记等复杂语境条件下,模型的叙实性推理表现如何。例如:

(5)他错误地认为地球是平的。

(6)没有证据表明抽烟可以防止病毒感染。

(7)我不能相信他竟是一个八十多岁的老人。

(8)我不能相信人可以长生不老。

从例5中,可以推理出“地球是平的”肯定为假;从例6中可以推理出“抽烟可以防止病毒感染”大概为假;从例7可以推出“他是一个八十多岁的老人”大概为真;而从例8可以推出“人可以长生不老”大概为假。

参赛队伍需要利用组织方发布的数据集自行设计提示词(prompt),在获取LLMs的回答后整理为统一的输出格式。每条数据以一个文本蕴含关系句对<Aa, a>的形式呈现,数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况,并给出对该判断的置信度。例如:

主蕴含句Aa:老张并没有注意到她今天穿了一件红色的连衣裙。

被蕴含句a:她今天穿了一件红色的连衣裙。

模型判断:有95%的把握说被蕴含句为真。

输出答案:{ "factivity" : "TRUE" , "confidence" : 0.95 }。

此外,本届评测将继续设置提示词赛道(Prompt Track)和微调赛道(Fine-Tuning Track)两种评测路线。提示词赛道不允许对模型参数做任何修改,只允许通过提示词工程提升模型表现;微调赛道则可以选择开源模型作为被试模型,并允许利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

注意:无论参加提示词赛道还是微调赛道,用于获取单一数据的回答而向大模型提供的样例(shot)数量不能超过3条(3-shot at most)。

05、评测数据

01

数据规模与来源

本次评测以JSON格式提供样例集和评测集。样例集数据量约在500-1000条,评测集数量约在2000—4000条。语料由组织方团队筛选自相关真实语料库,并进行改编、标注与校对。

由于评测对象为大型语言模型,故而不提供训练集和验证集,选择参加微调赛道的队伍可将样例集数据用于模型微调训练,并自行从中划分出验证集。

02

数据字段

  • id:数据编号。编号格式采用“赛道代码_数据编号”的策略。其中,赛道代码pr表示该数据用于提示词赛道评测,赛道代码ft表示该数据用于微调赛道评测。样例集数据以sp_XXX的格式编码。

  • text:背景句,即主蕴含句。此字段提供叙实性推理所需的语境,模型需要以此为依据来判断结论句的真值情况。

  • hypothesis:结论句,即被蕴含句。此字段提供叙实性推理所需的鉴别式,模型需要以背景句的内容来判断此句的真值情况。

  • factivity:叙实性判定。将模型对结论句真值情况的判断结果写入此字段。字段值包括"TRUE", "FALSE"和"UNCERTAIN"三种选项。

  • confidence:对叙实性判定的置信度,即在text的条件下认为hypothesis在多大程度上为真或为假。当factivity字段值为"TRUE"或"FALSE"时,confidence字段取值范围为(0.50, 1.00](左开右闭);当factivity字段值为"UNCERTAIN"时,confidence字段值固定取0.50。

  • 样例集数据包含以上五个字段;测试集数据只包含id、text和hypothesis字段。

03

数据样例

更多数据样例请见样例集

04

任务描述

组织方向参赛队伍提供样例集和评测集。评测集数据以一个文本蕴含关系句对<Aa, a>的形式呈现。所有数据均以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况,并给出对该判断的置信度。例如:

主蕴含句 Aa:老张并没有注意到她今天穿了一件红色的连衣裙。

被蕴含句 a:她今天穿了一件红色的连衣裙。

模型判断:有95%的把握判定被蕴含句为真。

输出答案(JSON字段):{"factivity": "TRUE", "confidence": 0.95}。

  • 参赛队伍需要自行选定若干大型语言模型(型号与参数量不限);利用组织方发布的数据集自行设计提示词(prompt),并逐条发送给被试模型;要求模型以text字段值为依据来判断hypothesis字段值的真值情况,记录模型的返回结果;最终将结果整理为JSON格式的数据文件。

  • 真值情况包括三种:

  1. 如果模型认为,根据背景句的内容,结论句为真,则在factivity字段中写"TRUE";同时在confidence字段中写入模型对该判定的置信度(即模型认为结论句在多大程度上为真),置信度的取值范围为(0.5, 1],字段值类型为数字(数值保留到小数点后两位);

  2. 如果模型认为,根据背景句的内容,结论句为假,则在factivity字段中写入"FALSE";同时在confidence字段中写入模型对该判定的置信度(即模型认为结论句在多大程度上为假),置信度的取值范围为(0.5, 1],字段值类型为数字(数值保留到小数点后两位);

  3. 如果模型认为,根据背景句的内容,不能判断结论句的真假,则在factivity字段中写入"UNCERTAIN";同时在confidence字段中写入0.5,字段值类型为数字

  • 若模型拒绝回答,请调整提示词,重新测试。

  • 若遇到其他问题,请邮件联系任务负责人。

  • 参赛队伍使用的所有资源需要在最终提交的技术报告中给予详细说明。实验中的所有代码与结果请妥善保存,以备查用。

05

数据使用说明与描述

  • 参赛队伍需要参考数据内容自行设计与大模型对话时的提示词,因此在数据中未设置question字段。

  • 提示词中必须同时包含当前数据中text和hypothesis字段的内容。

  • 提示词的设计可以进行多样化尝试,如提供更多数量的shots、要求使用CoT、要求进行一致性投票、告知动词类型、告知动词的叙实性类型、变换提问句式等等。可参考FIE2025的评测论文

06

输出要求

  • 禁止对模型回答进行人工修正。

  • 允许使用代码对模型回答进行统一提取,但设计代码时需要注意可复现性。同时,如果模型回答中出现真假判断前后不一致的情况,不可以只提取其中一种判断,而需要重新调整提示词。

  • 提交文件的要求请见提交文件说明

06、赛道设置

本届评测将继续设置提示词赛道(Prompt Track)和微调赛道(Fine-Tuning Track)两种评测路线。提示词赛道不允许对模型参数做任何修改,只允许通过提示词工程提升模型表现;微调赛道则可以选择开源模型作为被试模型,并允许利用样例集数据对模型参数进行微调。

两个赛道将分开评奖,参赛队伍既可以同时选择参加两个方向的测试,也可以只选择参加其中一个方向的测试。无论选择哪个测试方向,整个测试过程均需在评测报告中作详细说明。

无论微调赛道还是不微调赛道,prompt中最多允许出现3个回答样例(3-shot at most)。

07、评价标准

01

叙实性判定结果的分类

认知主体的叙实性推理能力主要体现在其对相关事件真值情况的判断上。本次评测采用 [真值类别 + 置信度] 的"双参数"模式来表示事件的真值情况。

真值类别(factivity):定类变量,表示认知主体对事件真假的基本判断,取值为 "TRUE"、"FALSE" 或 "UNCERTAIN",分别表示:根据 text 字段的内容,可推知 hypothesis 字段的内容为真、为假,或真假不能确定

置信度(confidence):定距变量,表示认知主体对上述判断的自信程度。 当 factivity 为 "UNCERTAIN" 时,confidence 固定取 0.5; 当 factivity 为 "TRUE" 或 "FALSE" 时,confidence 取值范围为 (0.5, 1](左开右闭)。

根据上述双参数的取值组合,评测系统将每条数据的回答映射到以下九个叙实性强度区间之一:

02

评分方式(暂定)

为了更准确地评估大模型的叙实性推理能力,本次评测采用梯度匹配的方式计分,即:模型回答与标准回答所落入的得分区间越接近,得分越高。具体规则如下:

  • 若模型回答与标准回答落入同一区间,得 1 分

  • 若模型回答所在区间与标准回答所在区间相邻,得 σ 分(σ ≈ 0.6827);

  • 若模型回答所在区间与标准回答所在区间不相邻,得 0 分

各区间之间的完整得分关系见下方得分矩阵(行(row)为参赛队提供的模型回答,列(column)为专家标注的标准回答):

参赛队伍的最终得分为其在所有评测数据上所得分数的加权总和(加权系数根据各类型题目的数量确定)

08、技术报告要求

参与评测必须提交技术报告,不提交技术报告的队伍成绩将不会获得认可。报告要求如下:

  • 报告可由中文或英文撰写。

  • 报告统一使用CCL 2026的论文模板。

  • 报告正文不得超过6页,参考文献页数不限。

  • 报告应至少包含以下四个部分:模型介绍、评测结果、结果分析与讨论和参考文献。

  • 会议投稿需统一使用LaTeX模板。

  • 由于本次会议采用双盲审稿,作者姓名和单位不能出现在投稿的论文中。因此,作者的自引不可采用“我们提出”的方式,而是用“作者名字提出…”。

  • 不符合这些要求的论文将不经过完整的审稿流程而直接被拒稿。

  • 论文模板下载链接:(待更新)。

09、任务奖项

本届评测将为不微调赛道和微调赛道的优胜者分别颁发一、二、三等奖,奖金数额待定。

每个赛道奖项设置如下:一等奖0-1名;二等奖0-2名;三等奖0-3名。

Factivity Inference Evaluation 2026 (FIE2026)

任务网站:

https://github.com/UM-FAH-Yuan/FIE2026

⬆扫描上方程序码即可查阅本文超链接内容

蓝色划线部分)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

中国计算语言学大会(CCL26-Eval)技术评测任务启动,欢迎报名参赛!

2026年4月30日 00:01

CCL26-Eval 2026-04-30 00:01 江苏

CCL26-Eval启动,14项评测覆盖NLP多领域,10月宜昌办会。

转载自“CIPS计算语言学专委会”

第二十五届中国计算语言学大会(CCL26-Eval)技术评测任务启动,欢迎报名参赛!

第二十五届中国计算语言学大会(The 25th China National Conference on Computational Linguistics, CCL 2026)将于2026年10月15至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议,是中国最大的自然语言处理学者和专家的社区。经过三十年的发展,CCL被广泛认为是最权威的,全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展,CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

会议网站:http://cips-cl.org/static/CCL2026/index.html

本次大会继续组织中文语言处理技术评测CCL26-Eval。经过前期评测任务征集,CCL26-Eval组织委员会已确定14个评测任务,涵盖语义分析、篇章、语用分析,跨语言、小语种、低资源自然语言处理,知识图谱,自然语言处理与医疗、教育、人文、司法等领域结合应用,生成式AI与大模型核心能力等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL AnthologyACL Anthology收录。

评测主席:

林鸿飞(大连理工大学,hflin@dlut.edu.cn)

谭红叶(山西大学,tanhongye@sxu.edu.cn)

杨亮(大连理工大学,liang@dlut.edu.cn)

CCL26-Eval评测任务分类汇总

一、 自然语言处理基础任务

1. 语义分析 / 篇章、语用分析

任务1:第二届中文叙实性推理评测

任务简介

        叙实性推理(Factivity Inference,FI)是一种跟事件真实性判断有关的语义理解任务,是真实性推理(Factuality Inference,FactI)的一种形式。在人类的会话交际中,叙实性推理能力主要表现为语言使用者可以从某些动词性语言成分(如“相信”“谎称”“意识到”等)的使用获取说话人和句子主语的心理状态,并据此推定相关事件的真实性(真还是假)。例如,从肯定句“他们意识到局面已经不可挽回”和相应的否定句“他们没有意识到局面已经不可挽回”上,都可以推理出在说话人眼中存在这样一个事实:“局面已经不可挽回”。进行此类推理所使用的知识是一种受世界知识(world knowledge)影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识(analytical knowledge of language)。比如,上面例句中的动词“意识到”要求(预设)它的宾语“局面已经不可挽回”的所指大概率为真,不管该动词前面有没有否定性词语。

        为进一步提升大型语言模型对中文的语义理解能力,实现机器对人类交际话语的深度理解,我们将在FIE2025的基础上继续推出“第二届中文叙实性推理评测任务”。本届评测任务将着重考察大型语言模型在复杂语境条件和少样本提示下的叙实性推理表现。

         相较FIE2025,本次评测将着重考察大模型在不同真实语境中的叙实性推理表现有何差异。特别是:当叙实性结构中存在不同的否定词、不同的否定意愿、不同的评价性状语、不同人称和数量类型的主语,以及存在多声性标记和被动化标记等复杂语境条件下,模型的叙实性推理表现如何。例如:从“我不能相信他竟是一个八十多岁的老人”,可以推出“他是一个八十多岁的老人”大概率为真;而从“我不能相信人可以长生不老”,可以推出“人可以长生不老”大概率为假。

任务描述

        参赛队伍需要利用组织方发布的样例集与评测集自行设计提示词(prompt),在获取LLMs的回答后整理为统一的输出格式。每条评测集数据以一个文本蕴含关系句对<Aa,a>的形式呈现,数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况,并给出对该判断的置信度。例如:
*主蕴含句Aa:老张并没有注意到她今天穿了一件红色的连衣裙。
*被蕴含句a:她今天穿了一件红色的连衣裙。
*模型判断:有95%的把握判定被蕴含句为真。
*输出答案(JSON):{"factivity":"TRUE","confidence":0.95}

此外,本届评测将继续设置不微调(non-finetuning)和微调(finetuning)两条赛道。不微调赛道不允许对模型本身做任何修改;微调赛道可以利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

组织者和联系人 

  • 任务组织者:袁毓林(澳门大学教授)、李斌(南京师范大学教授)

  • 任务联系人:丛冠良(澳门大学博士生,guanliang.cong@connect.um.edu.mo);寻天琦(澳门大学博士生,tianqi.xun@connect.um.edu.mo)。

任务奖项 

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖,奖项按总得分从高到低颁发。其中,一等奖0-1名,二等奖0-2名,三等奖0-3名。各奖项奖金待定。

任务网址

 https://github.com/UM-FAH-Yuan/FIE2026

任务2:非字面义翻译和理解评测

任务简介

评测面向谚语、成语、习语、俚语、典故等非字面表达的中英翻译与识别,重点考察模型对非字面意义的理解、跨语言文化映射能力以及语用效果保持能力。任务构建了“生成+判别”互补评测框架,用于检验模型的非字面义表达生成能力和标准非字面义辨识能力。评测数据共5000条高质量样本,涵盖Gold(英文文化背景下的等值表达)和Silver(核心意义翻译)两类参考。本次评测包括两个子任务。

  • 子任务1非字面义中文翻译为英文给定一条包含谚语、成语、习语等非字面表达的中文句子,模型需生成1条自然、地道、具有文化映射特征的英文译文,优先采用英语中现成的习语、谚语、格言或固定搭配进行等值替代。

  • 子任务2非字面义中英选择给定一条非字面表达的中文句子及若干个英文候选,模型需进行不定项选择,识别并输出与中文在英语语境中构成公认等值替代关系的Gold标签项。

组织者和联系人 

  • 评测组织者: 张冬瑜(大连理工大学教授)

  • 任务联系人: 杨森淇(大连理工大学博士生,ysq1997@mail.dlut.edu.cn)

任务奖项 

本届评测设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/DUTIR-YSQ/CCL2026-Non-literal-Translation-Task

2. 跨语言、小语种、低资源自然语言处理

任务3:跨主流语言与低资源语言对齐的大模型金融评测

任务简介

MapFinBen是首个专门评估大语言模型在高资源语言与低资源语言之间跨语言资源的多语言金融评测基准。该基准覆盖了五类具有代表性的金融任务,全面反映真实金融应用场景中的多样化需求。

在语言设置上,MapFinBen同时涵盖高资源语言(英语和中文)与多种低资源语言(印度尼西亚语、西班牙语、希腊语和日语),有效缓解了现有金融语言模型评测中对高资源语言过度依赖的问题。通过统一的任务设计与评测标准,该框架能够系统评估大模型跨语言、跨资源条件下的金融任务处理能力。

MapFinBen 基准由五个子任务构成,通过综合评估模型在各子任务上的表现来确定最终成绩。具体任务如下:

  • 子任务一金融选择问答(FinAS) 给定一段金融文本及其对应的问题和候选选项,模型需要从多个备选答案中选择最符合问题语义和金融语境的正确答案。

  • 子任务二金融文本问答(FinQA) 给定一段金融文本,模型需要根据文本内容回答与之相关的金融问题。

  • 子任务三金融情感分析(FinSA) 给定一段金融文本,模型需要识别文本所表达的情绪倾向,并将其分类为积极、中性或消极。

  • 子任务四金融主题分类(FinTC) 给定一段金融文本及候选主题类别,模型需要根据文本内容将其归类到最合适的金融主题类别中。

  • 子任务五金融文本摘要(FinTS) 给定一段金融文本,模型需要提取并生成简洁、准确的摘要,以概括文本的核心信息和主要内容。

各子任务的数据分布、数据结构、具体评测指标及其计算方式,以及最终成绩的计算方法,详见任务网址。

组织者和联系人 

  • 评测组织者:胡刚、岳昆(云南大学)、彭敏(武汉大学)、石磊(云南师范大学)

  • 任务联系人:孔晓勇(kongxiaoyong@stu.ynu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/HgITSE/MapFinBen

任务4:低资源缅甸语固定模版语句推理评测

任务简介

在缅甸语等低资源语言的翻译中,固定模版语句的推理作为垂类的任务,其语言内部的词性、地名、多元价值观等显著影响着最终的翻译质量。

格式与习惯差异:例如,中文的“第1名”、“第3章”,在缅甸语意为“编号”或者“号”,后面需要紧跟缅甸语数字。地名转写冲突:地名转写往往与缅甸语特有发音、历史习惯冲突,导致中文直接转写容易出现混乱。多元价值观影响:翻译受种族、宗教以及集体主义的影响,不能简单直译。必须充分考虑当地的文化敏感性和宗教背景,否则极易引起误解或反感。

作为固定模版语句的推理任务,机器具体要适应的是模版格式、幻觉处理等任务的重要形式依据。为了提升翻译大模型在缅甸语上的翻译质量,进一步实现机器对人类固定模版语句的深度理解,我们正式推出本次评测任务。

组织者和联系人 

  • 评测组织者:陈自岩、刘劲松(新译信息科技有限公司)、朱少林(天津大学)

  • 任务联系人:任虹(天津大学博士生,邮箱地址:rhong@tju.edu.cn);吴川(天津大学硕士生,邮箱地址:wuchuan@tju.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。奖金由 新译信息科技有限公司赞助。

任务网址

https://github.com/merc11/CCL-2026

二、 自然语言处理应用

1. 知识图谱

任务5:杂粮育种信息抽取评测

任务简介

杂粮育种领域积累了大量以自然语言形式呈现的知识,广泛分布于论文、品种审定与栽培技术规程等文本中。这些文本记录了育种材料来源、目标性状及测定结果,同时也包含栽培管理条件、胁迫处理信息以及分子标记等证据。由于杂粮育种文本专业术语密集、概念表述多样,且材料名称与试验要素常存在嵌套表达,导致关键信息难以稳定抽取和统一结构化,从而限制了知识检索、证据汇总和育种决策支持等应用的发展。

杂粮育种信息抽取评测(Minor Grain Breeding Information Extraction Evaluation, MGBIE)旨在面向杂粮育种知识管理与数据资源建设需求,系统评估信息抽取模型在杂粮育种相关专业术语识别、育种语境理解、关键信息抽取与结构化表达等方面的能力。MGBIE数据集总规模为2000条样本,其中训练集、验证集和测试集分别包含1000条、400条和600条,用于支持模型的训练、调优与综合性能评估。

MGBIE2026包含以下两个子任务:

  • 杂粮育种命名实体识别: 从杂粮育种相关文本中识别并抽取关键实体信息,并输出相应的实体边界及其类型标签。实体类型标签体系涵盖杂粮育种领域的核心概念,共包括12类:作物、品种、性状、生育时期、基因、数量性状位点、分子标记、染色体、育种方法、亲本/杂交组合,非生物胁迫以及生物胁迫。

  • 杂粮育种关系抽取: 在已识别实体的基础上,进一步抽取实体之间的语义关系,并以关系三元组的形式进行结构化表示。关系类型体系共包含6类语义关系,分别为:包含、采用、具有、影响、发生于和定位于。

组织者和联系人 

  • 评测组织者:胡志伟、孔照胜、高建华(山西省后稷实验室、山西农业大学);谭红叶、闫智超、李茹(山西大学);谢倩倩(武汉大学)

  • 任务联系人: 杨森杰(山西大学硕士生,yangsenjie1@sxu.edu.cn)

任务奖项 

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖。其中,一等奖1名,二等奖2名,三等奖3名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/zhiweihu1103/CCL2026-MGBIE

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532465

2. 自然语言处理与医疗、教育、人文、司法等领域结合应用

任务6:中文电子病历疾病与手术ICD自动编码评测 

任务简介

近年来,随着人口老龄化加剧和健康意识提升,医疗体系面临着日益增长的服务压力。在医疗信息化进程中,电子病历的广泛应用为解决这一挑战提供了新的可能。为实现医疗数据的标准化管理和共享,世界卫生组织制定了国际疾病分类标准(International Classification of Diseases,ICD)。该标准将数万种疾病及其组合转化为规范的字母数字编码体系,为跨地区、跨机构的医疗数据交换与分析奠定了基础。

然而,对电子病历文本进行人工ICD编码不仅耗时耗力,还容易因专业技能差异导致编码错误。开发自动ICD编码系统,既能提高编码效率和准确率,也能为疾病研究和医疗管理提供更可靠的数据支持。基于上述背景,本任务构建了一个中文电子病历ICD自动编码数据集,该数据集基于脱敏病历数据而构建,共涉及10个科室,18种主要疾病编码,若干种其他疾病编码,16种主要手术编码,若干种其他手术编码,共计2600条数据。该任务给定一段由临床信息构成的文本作为输入,需要模型输出对应的主要疾病编码、其他疾病编码、主要手术编码、其他手术编码。

组织者和联系人 

  • 评测组织者:管红娇、鹿文鹏(齐鲁工业大学(山东省科学院))、廉颖、陈国强(山东第一医科大学第一附属医院)

  • 任务联系人: 李传龙(齐鲁工业大学硕士生,icdevaluator@163.com)

任务奖项 

本届评测将设置一等奖1名,二等奖3名,三等奖6名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/QLU-NLP/icdevaluator-26

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532466

报名信息填写表

https://docs.qq.com/form/page/DWWNmV0ZGRnRwampn#/fill

任务7:跨语言文学文本情感分析一致性评测 

(Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)

任务简介

跨语言情感分析一致性评测旨在考察模型对中国古典文学文本的情感理解能力,以及同一语义内容在中英文两种表达下是否能够保持情感判断一致。中国古典文学往往通过意象、典故和隐喻传递情感,具有较强的语境依赖性,因此对模型的跨语言语义理解和情感对齐能力提出了较高要求。

本任务基于中英平行古典文学语料,评估模型在单语言情感识别、跨语言情感迁移以及平行文本一致性建模等方面的表现。

BCCL-CSA 2026 包含三个子任务:

子任务一细粒度情感识别

参赛系统需分别对中文古典原文及其对应英文译文进行情感分析,预测文本的情感极性和情绪分布。

评测重点包括:

1.情感极性识别准确率

2.情绪分布预测能力

该子任务用于评估模型对单语文学文本情感特征的理解能力。

  • 子任务二跨语言情感迁移

参赛系统需在一种语言上训练,在另一种语言上测试,考察模型的跨语言情感迁移能力。

评测重点包括:

1.中英之间的情感极性保持一致性

2.不同语言表达下情绪分布的对齐程度

该子任务用于评估模型是否具备稳定的跨语言语义映射能力。

  • 子任务三平行文本一致性评估

参赛系统需对同一语义内容的中英文平行句对分别进行情感分析,并比较两种语言预测结果的一致性。

评测重点包括:

1.中英文情感极性预测是否一致

2.中英文情绪分布是否相近

该子任务用于评估模型在双语场景下的情感一致性与跨语言对齐能力。

任务特色与创新

1.跨语言情感对齐维度:突破单一语言的情感分类范式,首次聚焦于中英双语在复杂古典文学语境下的情感语义一致性。2.精细化分布标注:提供情绪概率分布(LabelDistribution),精准捕捉文学作品中复杂、模糊的情感底色。3.语料库稀缺性与挑战性:数据集精选自先秦至近代的13部经典著作,涵盖哲学、小说、戏曲等多种体裁,挑战模型泛化性能与抗噪声能力。

数据集说明

数据集CCL-SEL,来源于12部中国经典著作,每部著作各250组中英句子对。

网站建设与论文评审 

评测将建设GitHub页面发布数据、脚本与排行榜。评测论文将通过CCL26-Eval通道提交,并进行双盲评审。

组织者和联系人 

  • 评测组织者: 张海洋、张霄军(西交利物浦大学);徐睿峰(哈工大深圳)

  • 任务联系人: 周静狮(Jingshi.Zhou@outlook.com)

任务奖项 

一等奖1名,二等奖2名,三等奖3名。

任务网址

https://github.com/Jingshi-Zhou/-BCCL-CSA-2026-

任务8:大语言模型生成中文医疗内容的循证事实核查评测

任务简介

循证事实核查(Evidence-based Medical Fact-checking)是一项旨在验证在线医疗内容真实性的关键任务。随着互联网成为公众获取医疗健康信息的主要渠道,医疗虚假信息的泛滥给公共卫生安全带来了严峻挑战。该任务要求模型不仅要理解医疗声明(Claim),还需要结合检索到的相关证据(Evidence),判断证据对声明的支持程度(如支持、反驳或证据不足)。这一过程对于提高医疗信息的透明度、减少误导性信息的传播具有不可替代的作用,同时也是构建可信赖的医疗问答系统和智能医疗助手的核心安全屏障。

  • 支持(Supported):证据完全支持声明的内容;

  • 部分支持(Partially Supported):证据支持声明的部分内容,但存在不确定性或未覆盖的细节;

  • 反驳(Refuted):证据与声明内容相矛盾;

  • 不确定(Uncertain):证据与声明相关,但不足以证实或反驳声明的真实性;

  • 不适用(Not Applicable):证据与声明完全不相关。

组织者和联系人 

  • 评测组织者:苏炯龙、蒋正雍、王唯(西交利物浦大学)

  • 任务联系人: 陈彤(西交利物浦大学,Tong.Chen19@student.xjtlu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/AshleyChenNLP/MedFact

任务9:第二届古诗词赏析评测

任务简介

中文古诗词具有高度凝练性和语言的音乐美,讲究对仗、平仄和押韵。为了准确理解古诗的语义,不仅需要掌握古诗的语言特色,还需要调动对历史、文化背景的知识,结合对古诗中所描绘的自然景象和人物情感的认知,从而进行综合性的推理与理解。

为了进一步衡量模型在中文古诗词赏析场景中的语言理解深度与文化推理能力,我们推出第二届中文古诗词赏析评测。在第一届的基础上,本届评测进一步聚焦模型的深度理解与复杂推理能力,引入更具挑战性的高级任务,以全面考察模型对古诗词文化内涵与高层语义结构的掌握程度。具体任务设置如下:

  • 任务一:古诗词理解:

古诗词字词理解:解释古诗词中短语级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词诗句理解:解释古诗词中诗句级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词情感理解:推断诗人透过作品所传达的情感。本子任务通过选择题的形式对待测系统进行评估。

典故识别:判断诗句中是否包含典故并进行解释。本子任务通过问答题的形式对待测系统进行评估。

  • 任务二:古诗词推理:

古诗词类比:发现古诗词中不同事物之间的相同关系,意象的关联。本子任务通过问答题的形式对待测系统进行评估。

古诗词辨析:依据诗词内容与语境,对给定选项进行辨析,判断其中表述最为合理的一项。本子任务通过选择题的形式对待测系统进行评估。

本评测将根据两个任务的综合性能来确定最终成绩排名。本评测旨在评估自然语言模型自身对中文诗词的理解水平,参赛队伍可以使用开源大语言模型进行微调,禁止使用RAG等技术来利用外部知识回答问题。

组织者和联系人 

  • 评测组织者:白雪峰、陈科海(哈尔滨工业大学(深圳)) 

  • 任务联系人: 朱颖杰、裴振武(哈尔滨工业大学(深圳),zhuyj@stu.hit.edu.cn)

任务奖项 

 一等奖1名,奖金合计3000元;二等奖1名,奖金合计2000元;三等奖1名,奖金合计1000元。 所有奖金将在公布奖项后10个工作日内发布。

任务网址

https://github.com/HITICI-NLPGroup/CCPA-EvalTask

任务报名表

https://docs.qq.com/form/page/DZW50THN4SGhqbm5x

三、 生成式AI与大模型核心能力

任务10:基于情景的常识推理评测

任务简介

推理是一种高级认知功能,涉及基于现有知识对新信息进行分析、归纳和演绎。它在人类智能中起着基础性作用。虽然以往的基准测试主要侧重于评估大语言模型(LLMs)在复杂、专业领域内的推理能力,但它们往往忽视了类人认知的一个关键方面:常识推理。评估大型语言模型中的这种常识推理能力对于人工智能的发展至关重要。这种基本能力显著影响着 LLMs 在日常情境中的决策,并且对于在通用人工智能(AGI)中迈向类人智能至关重要。

为了全方位、细粒度地诊断大模型的常识推理能力,我们提出了基于情景的常识推理评测数据集(Scenario-based Commonsense Reasoning Evaluation, SCoRE),用以评估大语言模型在常识场景下的复杂逻辑推理能力。根据所涉及的常识领域,该数据集包含的任务可分为以下五类: * 空间常识推理: 给定一个空间场景和若干已知的实体间方位关系,本任务要求机器推理出实体在空间场景中的位置,以及未知的方位关系。 * 时间常识推理: 给定一个包含若干事件的时间叙述场景和已知的事件间时间关系(如先后顺序、持续时长、相对或绝对时间点),本任务要求机器推理出事件在时间轴上的具体时刻,以及未知的事件间时间跨度或次序关系。 * 社会常识推理: 给定一个社会交互场景和若干已知的人物间人际关系(如亲属、职场、朋友或师徒关系),本任务要求机器推理出人物在社会网络中的具体角色或地位,以及人物间隐含的或未知的社会关系。 * 自然常识推理: 给定一组自然物体(或实体)和若干已知的属性约束条件(如类别归属、物理性状、功能用途或感官特征),本任务要求机器推理出物体与描述(或位置)的一一对应关系,以及物体未知的属性或分类特征。 * 融合常识推理: 融合领域任务描述旨在构建一个多维度条件交织的推理问题。它要求机器同时处理来自空间、时间、自然属性及社会关系等多个领域的约束与常识,并建立统一的推理模型以进行协同分析与决策。其核心挑战在于,单一领域的逻辑链条不足以解决问题,必须识别并整合不同领域的隐含联系,才能对复杂多因素情境进行有效推断。

组织者和联系人 

  • 评测组织者:詹卫东、穗志方(北京大学) 

  • 任务联系人:胡楠(北京大学博士生,hunan@stu.pku.edu.cn)

任务奖项 

一等奖0-1名; 二等奖0-2名;三等奖0-4名。

任务网址

https://pku-space.github.io/SCoRE2026/

任务11:面向自动驾驶的自动化危害分析与风险评估评测

任务简介

随着汽车电子电气架构(E/E 架构)向智能化与网联化深度演进,功能安全已超越早期以机械系统为主的工程保障范畴,演变为覆盖软硬件协同设计的系统化安全工程体系,成为自动驾驶技术落地与量产的关键基石。在此体系中,危害分析与风险评估(HARA, Hazard Analysis and Risk Assessment)承担着风险识别与顶层安全需求定义的核心职能。该过程通过对车辆运行场景、潜在功能失效模式及环境要素的系统化建模,提取车辆运动状态、道路拓扑及交通参与者分布等关键特征,并基于严重度(S)、曝光率(E)和可控性(C)三个维度对风险进行量化评估,确定汽车安全完整性等级(ASIL),并将评估结果转化为顶层安全目标,进而分解为可验证的软硬件安全需求,指导系统设计与工程实施。

为推动大模型与人工智能技术在预期功能安全及功能安全领域的落地应用,提升HARA流程的自动化与智能化水平,我们提出“面向自动驾驶的自动化危害分析与风险评估评测任务”并构建了一个专注于评估自动驾驶安全逻辑推理与需求生成的结构化数据集。该数据集源自脱敏的真实工业项目数据,聚焦于动力系统核心高危失效模式——“非预期驱动力/扭矩输出”,共包含3,000条高质量标注数据。

本次评测包括以下两个子任务: * 危害事件识别与场景描述生成: 该任务要求模型基于给定的车辆运行工况与环境参数,精准识别潜在的危害事件,并生成符合工程规范的危害场景结构化描述。 * 风险参数评定与等级推理: 该任务要求模型基于场景特征,推理并输出HARA分析的关键风险指标(S/E/C),并据此判定相应的安全完整性等级。

组织者和联系人 

  • 评测组织者:杨旭(北京理工大学),张海洋(西交利物浦大学),王唯(西交利物浦大学)

  • 任务联系人:王子木(西交利物浦大学博士生, Zimu.Wang19@student.xjtlu.edu.cn)

任务奖项 

一等奖1名,奖金合计5000元 * 二等奖1名,奖金合计3000元 * 三等奖1名,奖金合计2000元。

赞助情况 :本次评测奖金由优策科技(福州)有限公司赞助。

任务网址

https://ccl2026-hara.github.io

任务12:优酷无障碍剧场杯-面向听障群体的信息无障碍结构化字幕生成评测

任务简介

在我国已进入“制度保障”阶段的信息无障碍建设背景下,字幕已成为听障及老年群体获取音视频信息的关键无障碍服务。然而,现有技术评测缺乏面向真实应用场景、统筹考量“可读性”、“核心信息准确度”与“响应速度”的基准。本任务从“AI字幕是基础设施”的视角出发,系统评测从“语音/视频输入”到生成“面向人类阅读的结构化字幕文档”的完整链路,特别聚焦于解决高信息密度真实场景(如医疗、金融、政务办事)中“社交时差”与“关键信息丢失”两大痛点。

为贴近不同应用环境,评测任务被设计为两个平行赛道,以全面评估技术的能力上限与落地可行性:*赛道A:PC端模拟云端或高性能桌面环境,旨在探索技术性能上限,不限制计算资源。*赛道B:手机端模拟移动设备(手机、AR眼镜)实时交流场景,对模型体积、内存占用及实时性提出明确的约束要求。

每个赛道均包含以下两个子任务:

1. 子任务一基础字幕生成(Foundation Track) 评估语音转写、时间戳对齐、噪声鲁棒性等基础能力。 评测指标: 转写准确性、时间轴对齐精度、复杂多人场景下的综合处理能力。

 2. 子任务二结构化可读字幕生成(Structured Track) 评估模型生成符合人类阅读习惯、包含合理断句、标点、说话人区分、并确保核心关键词准确性的结构化字幕的综合能力。 自动评测指标: 文本准确性、核心词召回率、模拟显示延迟、时间轴合理性偏差、结构一致性。 人工评测指标(抽样): 可读性(1-5分)、关键信息完备性、断句合理性、标点与语气匹配度、幻觉文本严重程度。

数据规模与来源

本评测构建了总规模约30–50小时的多场景真实语音/视频测试集,涵盖新闻演讲、影视综艺、生活真实交流、多人会议等四类典型场景。其中,约10–15小时的核心子集提供更高粒度的结构化标注与核心关键词标注,支持Track2的深度评测。数据来源强调真实性与多样性,包含背景音乐干扰、环境噪声、远场收音、多人重叠语音等复杂声学条件,全面模拟听障用户在办事场景中的实际听觉挑战。

组织者和联系人 

  • 评测组织者:姚登峰(北京联合大学/清华大学),徐聪(中国聋人协会手语研究与推广委员会),梁振宇(深圳市信息无障碍研究会专家委员会),曲欣(北京市设计学会无障碍设计专委会)

  • 任务联系人:施杰、叶博文(北京联合大学硕士生,20251083510951@buu.edu.cn),张洋(清华大学博士生)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会为获奖队伍颁发荣誉证书;同时设立赞助奖项,由阿里巴巴等头部科技企业提供奖品支持。

任务网址

https://github.com/ALINOSJ/IASSGE-2026

报名表

https://f.kdocs.cn/g/aYC93cfz/

任务13:图像文本翻译质量评测

任务简介

随着全球化进程加速和跨语言交流需求增长,图像文本翻译(In-Image Translation,简称“图翻”)已成为机器翻译的重要分支。与传统文本翻译不同,图翻需同时处理视觉与语言信息,涵盖文本检测、识别、翻译与渲染等多个环节,在跨境电商、旅游导览、多语言内容本地化等场景中具有广泛应用价值。中文图翻面临独特挑战:汉字视觉复杂性高、书写方向多样(横排/竖排)、与目标语言存在显著文本长度差异,且蕴含丰富文化内涵。尽管大型多模态模型在图像理解方面取得进展,但在保持视觉一致性的前提下实现高质量图翻仍困难重重。尤其在电商场景中,系统需区分“应翻译内容”(如功能说明)与“应保留内容”(如品牌标识),对翻译完整性与合规性提出更高要求。现有机器翻译评测指标(如BLEU、METEOR)仅关注文本准确性,无法衡量视觉呈现、排版布局、美学协调等关键维度。而人工评测成本高、主观性强、难以规模化。因此,亟需建立标准化、多维度、可自动化的图翻质量评测框架。

本次评测聚焦于如何设计和训练能够从多个维度对图像翻译结果进行精准评分的自动评测系统,从而为该领域的技术进步提供可靠的度量工具。旨在:建立标准化基准:构建包含多场景、多维度人工标注的大规模评测数据集。推动方法创新:鼓励研究者设计能够模拟人类专家判断的自动评测模型。探索评测范式:通过开放式竞赛,发现在不同应用场景下最有效的评测策略。促进社区共识:图像文本翻译质量评测建立可复现、可比较的评价标准。

组织者和联系人 

  • 评测组织者:李海军、尚姿芙、梁杰、徐昭、骆卫华

  • 任务联系人:韩雨轩(阿里云技术专家  baileng.hyx@alibaba-inc.com)

任务奖项 

一等奖1名,奖金合计20000元 ;二等奖1名,奖金合计10000元;三等奖2名,奖金合计5000元。

赞助情况:本次评测奖金由阿里云赞助,由中国中文信息学会为获奖队伍颁发荣誉证书。

任务网址

https://tianchi.aliyun.com/competition/entrance/532463?spm=5176.12281973.J_6-HJZaSjQocH7SIdvbK02.1.376b3b74H1HNIn

评测任务14:中文会话含义与隐喻能力评测

任务简介

       对“言外之意”的理解是人类交际的核心能力。而以往针对大语言模型的评测更侧重其在具体垂域中的表现,较少从语用推理与隐喻义识别角度评估模型的语言能力。本评测共设计两个核心赛道,旨在系统评估大语言模型在中文语境下的会话语义理解能力与隐喻理解能力。

赛道一:会话含义理解

      为了实现交流目的,会话参与者在交流时通常遵循一套基本原则,这一原则被格赖斯总结为合作原则。该理论从量、质、关系、方式等范畴提出四项准则。量的准则要求提供适量信息,既不多余也不过少;质的准则要求说话真实,证据充分;关系准则要求话语要与当前话题相关;方式准则要求表达简洁有序,避免晦涩和歧义。基于这四项准则,格赖斯提出了会话含义理论,当说话人违反了这些准则或次准则的时候,听话人就需要超越话语的表面意义去领会说话人的隐含意义。本赛道用于评估模型识别、理解会话含义的能力。

  • 子任务一:会话含义识别任务

给定一段多轮对话,要求模型指出特定人物的哪一句话是具有会话含义的。

  • 子任务二:会话含义选择任务

给定一段多轮对话,要求模型从四个选项里选出有会话含义句子的正确含义。

  • 子任务三:会话含义释义任务

给定一段多轮对话并明确指出具有会话含义的句子,要求模型生成一段解释。

赛道二:隐喻理解与生成

       隐喻作为人类认识世界的重要方式,在概念建构和思维过程中发挥着关键作用。隐喻能力不仅关系到语言表达本身,也与创造性思维、抽象推理以及知识迁移等更高层次的认知过程密切相关。人们通过具体、熟悉的源域来理解抽象、陌生的目标域,这一映射机制贯穿于日常语言与思维之中。本赛道用于评估模型识别、理解并创造性地使用隐喻的能力。

  • 子任务一:隐喻识别任务

给定一段文本,要求模型识别出此文本中的句子是否使用隐喻这一修辞手法,如包含隐喻,模型需要分别提取出隐喻句当中的本体、喻体。

  • 子任务二:隐喻释义生成任务

给定一段文本,要求模型用非隐喻的语言解释隐喻句的含义。

  • 子任务三:隐喻句生成任务

不限定主题,要求模型自主生成恰当的隐喻表达。

组织者和联系人

  • 组织者:杨尔弘、杨天麟、岳岩、安维华(北京语言大学)

  • 联系人:张艺璇(北京语言大学博士生,blcuicall@163.com)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/blcuicall/CCIME2026

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

❌