阅读视图

DHEAC2025|第四届东亚古籍数字人文国际论坛

2025-06-20 16:52 山东

2025


第四届东亚古籍数字人文国际论坛

(DHEAC: Annual International Conference on Digital Humanities for East Asia Classics)






会议日期:2025年7月20日(周日)-22日(周二)


会议地点:北京城市图书馆


“东亚古籍数字人文国际论坛”已在韩国首尔、中国杭州举办了三届,有力地推进了东亚古籍和数字人文技术的融合,增进了东亚各个国家和地区学者的合作。北京大学数字人文研究中心将联合北京首都图书馆、韩国东亚知识文化教育研究所等多家单位于2025年7月20-22日举办“第四届东亚古籍数字人文国际论坛”。


本次会议将密切结合图书馆古籍事业的发展需求,搭建古籍研究者、图书馆从业者、企业科技工作者沟通与协作的平台,促进古籍资源在智能环境下的开发与活化利用,为东亚古典学的研究提供全新的视角和更广阔的研究空间。


组织机构


主办单位

北京大学数字人文研究中心

共同主办

首都图书馆

协办单位

北京大学信息管理系

东亚知识文化教育研究所(韩国)
中国人民大学数字人文研究院
武汉大学文化遗产智能计算实验室
南京师范大学语言大数据与计算人文研究中心
中国社会科学院大学数字史学研究中心
中国传媒大学非遗传播研究中心
山东大学数字人文实验室
山东大学历史学院
中希文明互鉴中心
《数字人文》编辑部
数字人文专业发展联盟
中国数字人文机构联盟

来源|https://dheac.org/  

编辑|徐晓婷

审核|刘加明

编审|陈建红

阅读原文

跳转微信打开

  •  

查清华教授应邀赴长安大学作学术报告

请关注 2026-04-25 09:25 上海

数字技术可助力经典文本研究,但人文教育必须坚守精神内核、实现范式革新。

图片

2026年4月23日,应长安大学人文学院之邀,上海师范大学数字人文研究中心主任查清华教授访问该校,做客该校“经纶之辩”导师论坛,并发表主题为“AI时代我们该如何读唐诗”的学术报告。

整场报告主要围绕三个方面展开。查清华教授首先阐述了AI时代人文教育面临的赋能与挑战,指出数字技术可助力经典文本研究,但人文教育必须坚守精神内核、实现范式革新。接着从情感涵育、批判精神、审美塑造三个维度,系统重估唐诗经典的当代价值。最后,也是报告的重中之重部分,他以“言—象—意”为研究路径,对多篇唐诗进行了具体方法品读,强调慢读、体验与共情是读懂唐诗的核心关键。

图片

报告结束后,查清华教授针对现场师生提出的AI辅助唐诗阅读是否会影响独立审美与思考等问题进行了解答。主持人、人文学院中文系主任陈熙熙进行点评,她表示,此次讲座启示大家在AI时代阅读古典诗词时,应回归文本、注重体验,以心灵感受诗意,以批判思维与审美能力汲取经典养分,而非依赖算法与现成结论,此次讲座为师生在数字时代品读唐诗、涵养人文精神提供了重要指引。

图片

(来源:长安大学人文学院)

阅读原文

跳转微信打开

  •  

新书推荐 | 罗天华《作格的类型学研究》

徐惠 2026-04-25 00:02 江苏

语言类型学力作!以80种语言样本探析作格语言特征与共性

转载自“现代语言学”

作格的类型学研究

罗天华  著

浙江大学出版社

2025年11月

内容简介

该书在语言类型学框架中探讨作格语言的形态、句法特征以及二者的关联。具体做法是:在世界范围选取80种作格语言作为样本,选择23项形态句法特征并建立数据库,以此分析其中的共性与多样性。在系统比较各项结构特征的基础上,提出60条语言共性,整体呈现了作格语言的类型学面貌。书中着重讨了论形态、语序和小句结构,比较了作格语言与一般语言的类型学特征,提炼了作格语言的主要形态句法特点,并建立了形态与句法之间的一整套关联。

目录

1 绪论

1.1 作格和语法关系

1.2 作格研究简史

1.3 作格语言的分布和本书样本

1.4 参项和框架

2 作格研究的若干理论问题

2.1 作格的三个层面

2.2 作格的两种表达方式

2.3 作格的典型性

2.4 影响作格标记使用的因素

3 类型学的作格观

3.1 概念和术语之乱

3.2 类型学的“作格”

3.3 形式语法的“非宾格”

3.4 作格语言的判断标准

4 作格语言的形态

4.1 形态标记的附着位置

4.2 词缀类型

5 作格语言的小句结构

5.1 小句结构的三项特征

5.2 核心论元结构

5.3 逆被动结构

5.4 双及物结构

6 作格语言的语序

6.1 “自由语序语言”

6.2 作格语言的语序

6.3 作格语言语序的内部关联

6.4 作格语言与一般语言语序比较

6.5 小结:作格语言的语序共性

7 作格语言的疑问结构

7.1 三个问句类型参项

7.2 疑问结构的内外关联

8 作格语言的共性与个性

8.1 语序比较:Greenberg(1966)

8.2 疑问范畴比较:Ultan(1978)

8.3 总体比较(一):“语言共性库”30项共性

8.4 总体比较(二):WALS 23个参项

9 作格与汉语形态句法

9.1 现代汉语是作格语言吗? 

9.2 古代汉语是作格语言吗? 

9.3 汉语是分裂作格语言吗? 

9.4 作格语言的主语和汉语的主语

10 结语

10.1 作格的本质

10.2 作格语言的共性

作者简介

罗天华,浙江大学文学院教授、博士生导师。德国康斯坦茨大学哲学博士、华东师范大学文学博士。

主要研究领域为语言类型学和形态句法学,出版专著Interrogative Strategies: An Areal Typology of the Languages of China(John Benjamins 2016)、《汉藏语是非问句的类型学研究》(商务印书馆2023),主编论集《作格与汉语语法》(商务印书馆2022),其中Interrogative Strategies获中国社会科学院吕叔湘语言学奖、教育部高等学校科研优秀成果奖。主持完成国家社科基金项目2项、教育部社科基金项目1项。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

《现代汉语大词典》,重磅首发!我国大型语文辞书新成果

徐惠 2026-04-25 00:02 江苏

《现代汉语大词典》历时20年编纂完成,系统呈现百年汉语词汇,兼具规范与学术价值。

转载自“商务印书馆”

中国社会科学院创新工程重大项目

《现代汉语大词典》

中国社会科学院语言研究所 编

江蓝生 主编

相较于现代汉语词典》,现代汉语大词典的收词范围和编纂理念主要是什么?

在总体设计和编写上《大现汉》有许多不同于《现汉》的鲜明特色收词、释义、配例以及晚清民国旧词语的处理四个方面这部词典的主要学术特色是什么?

这部大型词典的编纂前后长达二十年,二十年间又有哪些辞书人的故事?

为大家分享江蓝生、韩敬体先生为词典所作前言节选和全文,一起了解这部反映百年现代汉语面貌的大型语文词典

前言节选

四十八年前的1978年,由我国著名语言学家吕叔湘、丁声树先生先后担任主编的《现代汉语词典》(以下简称《现汉》)正式出版发行,这是新中国第一部确定现代汉语词汇规范的中型语文词典,在我国辞书史上具有里程碑意义。

《现汉》出版至今多次修订(现已出到第7版),质量不断提升,但《现汉》是一部中型语文词典,不能完全满足读者查考的需要,因此,早在20世纪六七十年代,吕、丁二位先生就提出由中国社会科学院语言研究所编纂一部收词量更大、内容更丰富的《现代汉语大词典》的计划,但由于种种原因,曾经三次上马都半途而止了,直到2005年夏天才又重新开始。

词汇是反映社会和时代变化最敏感的神经,它随着社会的发展变化而发展变化。五四运动以来的一百多年间,中国社会经历了推翻三座大山的新民主主义革命以及社会主义制度的建立和发展等一系列翻天覆地的变革,从过去封闭、半封闭的社会样态步入到当今全球化、信息化的时代,其间汉语词汇面貌的变化幅度之大是前所未有的。

《大现汉》的编写准备工作从2005年夏季开始,2006年年初正式启动。我们把这部待编的词典设定为:一部在现代语言学理论、辞书编纂理论和实践经验指导下,以丰富、扎实的文献和口语语料为基础,以《现汉》为参照的系统反映百年现代汉语词汇面貌的大型原创性语文词典

我们的目标不止于编写一部《现汉》的扩容版,而是要编成一部《现汉》的升级版和创新版。

这部大词典的编写分一期——中国社会科学院重点课题(2005一2012年)和二期——中国社会科学院创新工程重大项目(2013一2023年)两个阶段,2023年年底印制了试印本后,又继续打磨修改了两年,前后长达二十年。

二十年间,这些同志由青年变成了中年,由中年步入了老年乃至耄耋之年,还有六位同志因病辞世,编写过程中的艰辛、困苦、曲折一言难尽。

当这部“折磨人”的大词典终于付梓时,我们一方面如释重负,庆幸为社会、为读者做了一件益事,可以向吕叔湘、丁声树二位先生交卷了(尽管晚了很多年;另一方面,又像一个学生等待老师的评判一样,为书中的不足和问题而惶恐不安。本词典凝聚了我院、我所和语言学界众多学者的集体智慧,在它即将出版之际,我们充满了感恩的心情。

希望这部大体上反映百年现代汉语面貌的大型语文词典既可以用于语文学习和教学,也能以其学术含量为语言学研究提供参考。其价值,相信学界和读者当有公论。

前言全文

<<  滑动查看下一页  >>

《现代汉语大词典》

历经20年编纂完成,是我国大型语文辞书的最新成果

系统反映五四新文化运动以来百年现代汉语词汇面貌

守正 纳新 存故 多元

百年汉语词汇面貌大观

共时性与历时性相结合 规范性与描写性相结合 学术性与实用性相结合

《现代汉语大词典》是在现代语言学理论和辞书编纂理论指导下,以丰富、扎实的文献和口语语料为基础,以《现代汉语词典》为参照而编纂的、系统反映五四新文化运动以来百年现代汉语词汇面貌的大型原创性语文词典。本词典秉持“共时性与历时性、规范性与描写性、学术性与实用性”相结合的编纂理念,在收词上贯彻“守正、纳新、存故、多元”的原则,是一部广泛吸收学界研究成果的集大成之作。

本词典共分五卷,收录单字字头13000 多个(按照规范标准确定字形、字音,梳理简繁、正异、异读关系) ,单字和复音词总计15.7万条(其中百科词语约 2.5 万条),配例 40多万个, 全书规模达 1200 多万字。本词典内容丰富, 为各类词标注词类,设立“提示”栏、 “辨析”栏(辨析实词、虚词 1400 余组) ,为方言词、地区词标注所属方言类别或地区。第五卷的“附录”为读者提供了文史、科技方面有查考价值的资料。在“附录”后还特别配备了《条目倒序索引》,为词语检索和相关研究提供了更多的方便。

本词典所收词语折射出中国社会百多年来不断变革、进步的宏伟历程,具有历史的厚重性、学术的创新性,展现了我国语文辞书编纂水平所达到的新的高度。它不仅是新时代提高全民族语言文字应用水平的得力工具,也从一个侧面反映了我国不断增强的文化软实力。

词典使用说明

识别下方二维码或

点击文末阅读原文链接购买

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

专业资讯 | 2025年数字人文奖(DH Awards 2025)——突出数字人文中的资源

2026-04-25 07:30 韩国

数字人文年度奖项于2012年设立,获奖资源可以向公众可以提名,以表彰数字人文相关的人才和专业知识。提名与投票环节全面面向公众,每人限投票一次。最终获奖名单由提名委员会(Nominations Committee)参考票选结果综合评定。设立该奖项旨在提升公众关注度,推介有趣的数字人文资源,并吸引更多人参与社群工作。提名资源不限语言、文字体系及研究领域。我们特别欢迎少数民族语言、文化及相关领域的代表性资源参选。所有被提名的资源都具有研究价值,有助于深入了解数字人文的边界。

数字人文数据可视化项目

01

(例如:对数字人文数据资源进行可视化呈现的作品)

第一名

香港流行文化地图

(Hong Kong Pop Culture Map)

https://digital.lib.hkbu.edu.hk/culture-map/

第二名

Thiep 3D

https://thiep3d.univ-littoral.fr/

第三名

数字幽灵展览

(Digital Ghosts exhibition)

https://inspace.ed.ac.uk/digital-ghosts/

其他提名项目(按字母顺序排列):

数字人文数据集或模型

02

(例如:用于数字人文研究的文本语料库、数据表、模型或类似内容)

第一名

哥伦比亚互联网与网络史:1988-1996年多人讲述的故事

(History of the Internet and the Web in Colombia. A story told in many voices 1988-1996)

https://historiasinternet.uniandes.edu.co/

第二名

数字萨福

(Sappho Digital)

https://sappho-digital.com/index.html

第三名

诗树——11种语言的诗歌语料库

(PoeTree – Poetry corpora in 11 languages)

https://poetree.org

其他提名项目(按字母顺序排列):

数字人文短篇出版物

03

(例如:数字人文领域的博客、文章、影片)

第一名
 沃尔什,梅兰妮等.《熊会是男孩》

The Pudding (Walsh, Melanie (et al.). ‘Bears Will Be Boys’, The Pudding) https://pudding.cool/2025/07/kids-books/

第二名
 东布罗夫斯基,奎因.《别再对自己撒谎:集体错觉与数字人文资助》,载《重新框架数字学术中的失败》

(Dombrowski, Quinn. ‘Stop lying to yourself: Collective delusion and Digital Humanities grant funding’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/reframing-failure-in-digital-scholarship-a56118ab-e4eb-4eb4-9dca-e8c343c6441b/section/9bbd0f75-6d96-48e2-bcc1-e8e5a6d07ce9#ch1

第三名
 丘拉,阿里安娜.《在包容性研究文化中与破碎共处:我们能从数字人文实验室的失败和过程中学到什么》,载《重新框架数字学术中的失败》

(Ciula, Arianna. ‘Living well with brokenness in an inclusive research culture: what we can learn from failures and processes in a digital humanities lab’, in Reframing Failure in Digital Scholarship)

https://read.uolpress.co.uk/read/316fdea1-5051-4f50-8957-afbc51342998/section/2e8944d9-ba98-4ef9-bcb8-159fa546e237#ch7

其他提名项目(按字母顺序排列):

数字人文工具或工具套件

04

(例如:用于构建数字人文资源的工具)

第一名
 ArtVis——艺术史可视化

(ArtVis – Art History visualized)

https://artvis.cvast.tuwien.ac.at/

第二名
 多民族语言智能数据处理与知识服务系统

(Multilingual Intelligent Data Processing and Knowledge Service System)

http://106.12.154.220:15001/

第三名
 RelicarIA

https://relicaria.streamlit.app/

其他提名项目(按字母顺序排列):

数字人文训练材料

05

(例如:各种形式的讲座、幻灯片、练习、视频或操作指南)

第一名
 情境中的负责任数据集:协作设计伦理人文学科数据教育

(Responsible Datasets in Context: Collaboratively Designing for Ethical Humanities Data Education)

https://www.responsible-datasets-in-context.com

第二名
 照亮过去——低成本多光谱成像培训

(Illuminating the Past — Training for low cost multispectral imaging)

https://grants.uccs.edu/illuminating-the-past/

第三名
 古代文本课程教材的大语言模型 (LLM-for-Ancient-Text-Coursebook)

https://github.com/chowshelly101-jpg/LLM-for-Ancient-Text-Coursebook/tree/main

其他提名项目(按字母顺序排列):

数字人文资源

06

(例如:数字人文数字学术出版物、档案库或资源库)

第一名
 看不见的东方数字语料库

(Invisible East Digital Corpus)

https://www.invisible-east.org/

第二名
 19世纪奥里诺科河旅行者

(Viajeros del Orinoco Siglo XIX)

https://biblioteca.uniandes.edu.co/proyectos/viajeros-orinoco/index.html

第三名
 20世纪印度建筑档案,PAHA(浦那建筑史档案馆)

(Architectural Archives of 20th century India, PAHA (Pune Architectural History Archive))

https://paha.site

其他提名项目(按字母顺序排列):

数字人文娱乐化应用

07

(例如:以娱乐为目的应用数字人文的项目)

第一名
 图钉故事

(Pin the Tale)

https://pinthetale.co.uk/

第二名
 Gamaikus

https://yohannawaliya.itch.io/gamaikus

第三名
 中国艺术史与3D绘画电子学习平台

(E-Learning Platform of Chinese Art History and 3D Paintings)

https://digital.lib.hkbu.edu.hk/history/3d-paintings/index.html

其他提名项目(按字母顺序排列):

以上信息来自“DH Awards 2025”官方网站:
 http://dhawards.org/dhawards2025/results/

经数字人文资讯小编翻译整理而成
 未经许可请勿转载

编辑 | 罗斯鹏

校对 | 魏翔

排版 | 洪冰凤

阅读原文

跳转微信打开

  •  

Nine things for nine years

I blinked and realized that Amanda Wyatt Visconti and I have been at the Scholars’ Lab for nine years as of April 24, 2026. Time flies. We typically celebrate by eating or drinking something sweet in the Lab (I’m still vibrating from the cream soda we had half a decade ago). We weren’t able to do so this year, so I thought I would share a quick post to mark the last nine years.

Nine things I’ve learned

  1. Drink a glass of water and put both feet on the ground.
  2. Don’t over-engineer things.
  3. Slow down and appreciate.
  4. Some things get easier. Some will not.
  5. Write it down. It will be helpful for someone. That someone might be you.
  6. Snacks always help.
  7. Be explicit about what you need and what you don’t.
  8. There are limits.
  9. Structures give shape. Structures can be changed.

Nine memories to hold onto

  1. Amanda biting into a lemon after eating miraculin.
  2. The moment when each student steps into their own expertise.
  3. Shane saying, “agenda item: be better friends.”
  4. When I cried at the Afton overlook because I wouldn’t have to commute for work anymore.
  5. Biscuit baking lessons on zoom with Jeremy and Amanda.
  6. The support each colleague gave when I needed it.
  7. The satisfaction that comes from seeing a student graduate as a DH practitioner, especially when you met them as a prospective student.
  8. Those who are gone. Ryan. Leigh. Scott. Rebecca. Effie. Stéfan. So many others for different reasons.
  9. All the unjust things. All the people working to make it better.

Nine things I’m grateful for

  1. Our students. They’re the best.
  2. Our colleagues. They keep me coming back.
  3. To still be here, doing this.
  4. Everyone who has taught me.
  5. Those who are still here.
  6. Those who made space for me when I burnt out.
  7. Eliza, Ben, Ava.
  8. That I was given a chance.
  9. Every accident that brought me here.

It’s not lost on me that so many others deserve to be in stable employment who are not. I’m very lucky to have a job in this world on fire. So, I will close with gratitude and a determination to pay it forward to the next folks in line.

  •  

东亚数字人文工作坊(第十三期)||姜秀玉:韩国史学界研究动态与前沿观察

2026-04-24 10:13 山东

韩国史学界研究动态与前沿观察

东亚数字人文工作坊(第十三期)

4月19日,由山东大学边疆治理研究院主办的“东亚数字人文工作坊(第十三期)”在南辰楼1811室举行。延边大学人文社会科学学院院长姜秀玉教授应邀作题为“韩国史学界研究动态与前沿观察”的学术报告。本次工作坊由山东大学边疆治理研究院执行院长苗威教授主持。

姜秀玉教授首先结合韩国近年来的政治变动,系统梳理了不同总统执政时期史学研究热点的演变脉络,指出韩国史学研究与政权更替、外交转向及社会运动密切关联。其次,基于大数据统计,她指出当前韩国史学界的研究热点包括百济、高句丽、新罗、高丽、马韩、渤海等。在研究视角上,韩国史学正经历从“国史”向“东亚史”乃至“全球史”的拓展,同时社会史、文化史与公共史学也在兴起。此外,姜教授以专题形式介绍了韩国史学在三个领域的最新进展。在区域史领域,研究已超越以地理志、邑志等官方行政史料为主的传统路径,积极运用日记、照片、影像、口述史料等,开展跨学科研究;在女性史领域,女性权利、女性教育及女性的历史角色等议题受到重视,研究者致力于改变历史学科的既有框架,将女性写入历史;在全球史领域,研究重点关注跨文化接触与知识流通、东亚的区域建构与全球史,以及跨国流动中的非精英行动者等课题。

在互动交流环节,姜秀玉教授与在场师生围绕中国与朝鲜半岛历史研究等具体问题展开深入研讨。她强调,中国与朝鲜半岛学者深化学术交流与合作意义重大,并结合自身学术经历,鼓励年轻学者坚持朝鲜半岛历史研究。

苗威教授总结时指出,姜秀玉教授深耕朝鲜半岛历史研究三十余年,学养深厚。讲座系统阐释了韩国史学界研究的议题转向与范式变迁,深化了参会人员对韩国史学研究动态的整体认知,为东亚史相关研究提供了他山之音。在学术交流与互鉴中,知彼是一个重要环节。我们在建构科学的学术体系、话语体系、学科体系时,学术动态的全面了解是不可或缺的。今后我们会加强与国内外学界交流,推进相关研究。

姜秀玉,延边大学教授,博士生导师。延边大学人文社会科学学院院长、世界史一级学科主任,兼任东北地区中日关系史研究会副理事长、吉林省史学会副会长等学术职务。长期深耕中朝韩日关系史、朝鲜韩国史研究领域。主持国家社科基金、中华学术外译等国家级、省部级科研项目10余项;在核心期刊发表论文50余篇;著有《中朝韩日文化比较》《朝鲜通史》等多部学术专著,多次荣获省级社会科学优秀成果奖。

供稿|赵鑫

摄影|王振、冯一洲

编辑|徐晓婷

审核|刘加明

编审|陈建红

阅读原文

跳转微信打开

  •  

俞金尧:资本运动与近现代城市兴衰

2026-04-23 17:18 山东

2026

资本运动与近现代城市兴衰

4月19日,由山东大学东北亚学院、边疆治理研究院联合主办的第89讲“东北亚学术讲坛”在南辰楼1811室举行。南开大学讲座教授俞金尧应邀作题为“资本运动与近现代城市兴衰”的学术讲座。讲座由山东大学边疆治理研究院执行院长苗威教授主持。

俞金尧教授以不同文明背景下的中世纪城市为切入点,深入分析后指出,无论古今中外,每座城市都拥有其标志性建筑,这些建筑往往承载着特定的时代内涵。在前资本主义时代,城市的政治、宗教与军事功能占据主导地位,工商业则处于从属地位。尽管中世纪欧洲也曾出现过少数的工商业城市,但多镶嵌于传统权力体系之中,未能成为城市发展的主流形态。

16世纪以后,随着新航路的开辟与世界市场的初步形成,资本运动的空间范围从地方性、区域性逐步拓展至全球范围。在此背景下,世界范围内逐渐涌现出以商贸、工业、金融功能为主导的近代新型城市。以今日标准衡量,这些早期近代城市规模较小,各国各地区的整体城市化水平也相对有限,但它们开启了由资本创造并主导城市发展的时代。第二次工业革命后,欧洲大陆与美国工业化进程加速,城市化进程加快。与此同时,传统的政治中心因远离新兴市场而地位下滑甚至走向衰落。

俞金尧教授强调,资本运动离不开空间载体,城市正是资本运动最核心的空间场域与运行平台。资本运动能够有力推动城市发展,世界市场的形成与拓展则进一步壮大了资本的力量。然而,资本无限积累的本性及其高度流动性,不能保证城市的永久繁荣。因此,深入研究并准确把握资本运动的内在规律与发展趋势,对于科学谋划城市发展战略、推动城市可持续发展具有重要的理论价值与现实意义。

苗威教授在总结中指出,本次论坛紧密围绕“资本运动与近现代城市兴衰”这一核心议题展开深入研讨,不仅为参会师生从“城市”的视角观察世界、研究历史提供了学术范例,更为大家的学术思辨带来了学养。俞教授在娓娓道来之间,将显性的城市兴衰蕴于资本运动之中,作为一场高水平的学术讲座,引导大家从新的理论视角审视近代以来全球资本流动与城市兴衰的内在逻辑。

俞金尧,历史学博士,博士生导师,南开大学讲座教授,兼任中国社会科学院大学教授、河南大学讲座教授,中国世界近代史专业委员会会长,曾长期在中国社会科学院世界历史研究所工作。研究方向为欧洲经济社会史、世界近现代史,在《中国社会科学》《历史研究》等刊物上发表论文数十篇,出版《欧洲婚姻、家庭和人口史研究》《五个世纪的维度》等著作。

供稿 | 藏毅

摄影 | 冯一洲

编辑 | 徐晓婷

审核 | 刘加明

编审 | 陈建红

阅读原文

跳转微信打开

  •  

喜讯 | 实验室入选湖北省社会科学普及基地

2026-04-24 11:04 湖北

近日,湖北省社会科学界联合会公布 2026 年省级社会科学普及基地名单,武汉大学文化遗产智能计算实验室成功入选,成为本次获批的 51 家单位之一。

👆👆👆点击蓝字 · 关注我们

图片

喜讯

近日,湖北省社会科学界联合会公布 2026 年省级社会科学普及基地名单,武汉大学文化遗产智能计算实验室成功入选,成为本次获批的 51 家单位之一。

武汉大学文化遗产智能计算实验室是教育部首批哲学社会科学实验室,实验室聚焦国家文化数字化战略需求汇聚我校信息资源管理、测绘科学与技术两大优势学科,以及数据科学、人工智能、历史考古、古代文学文献学等专业力量,在智慧数据资源建设、传统文化基因提取、数字化记录建模与演绎呈现等多个方面不断创新突破形成了“文化+科技”的复合研究范式,为中华优秀传统文化的创造性转化与创新性发展提供路径示范。

此次入选湖北省社会科学普及基地,是对实验室在文化遗产科普、数字人文传播领域工作的高度认可。实验室将以此为契机,立足荆楚文化沃土,发挥学科交叉与技术创新优势,打造高水平社科普及平台,通过数字演绎、沉浸体验、资源开放共享等多元形式,普及文化遗产保护知识,传播数字人文理念,助力提升公众文化素养与文化自信,为湖北省社科普及事业与文化强省建设贡献武大力量。

END

编辑|文化遗产智能计算实验室

审校|刘争

武汉大学人文社科楼

阅读原文

跳转微信打开

  •  

文化基因解码与智慧数据资源建设研讨会在汉顺利召开

2026-04-23 10:01 湖北

2026 年 4 月 18 日,文化基因解码与智慧数据资源建设研讨会在武汉大学顺利举办。

👆👆👆点击蓝字 · 关注我们

图片

2026 年 4 月 18 日,文化基因解码与智慧数据资源建设研讨会在武汉大学顺利举办。湖北省文物局党组成员、副局长朱祥德,武汉大学人文社会科学研究院副院长、项目处处长黄敏学,武汉大学国家文化发展研究院院长傅才武,武汉大学信息管理学院院长、武汉大学文化遗产智能计算实验室主任王晓光出席开幕式并致辞。武汉大学信息管理学院副院长周力虹主持开幕式。

朱祥德在致辞中指出,湖北正积极推进文化基因解码与数字文化赋能工作,依托科技考古与全省文物大数据库建设,不断深化文化遗产数字化保护与利用。他强调,应聚焦文明溯源与长江文明叙事,强化科技赋能,深化协同创新,推动文化基因解码成果更好服务社会公众。

图片

黄敏学表示,在“十五五”发展新阶段,文化基因解码与智慧数据资源建设是推动中华文明传承发展的重要路径。当前文化资源仍存在体系化支撑不足与数据碎片化问题,需要通过跨学科协同与技术融合实现突破,以激荡思想、凝聚共识。

图片

傅才武表示,文化基因是中华文明延续的核心要素,应从国家战略高度系统推进其学理建构与实践落地。他指出,应通过数智技术将文化转化为可计算的“数字记忆”,打通信息壁垒,为人工智能时代提供具有文化竞争力的数据资源支撑。

图片

王晓光表示,文化本质上是一种特殊的信息形态,文化基因的关键在于实现可计算表达。通过将文化资源转化为机器可理解的数据形式,使人工智能能够理解并生成具有中华文化内涵的内容,从而推动中华文化的数字化传承与创新传播。

图片

上午主旨报告由武汉大学历史学院副院长、文化遗产智能计算实验室副主任李英华,文化遗产智能计算实验室副主任王玉珏先后主持。美国肯特州立大学信息学院终身教授曾蕾围绕文化遗产数据资源的采集与数智活化展开报告,强调知识组织系统在人工智能语义处理中的关键作用,并指出“大语言模型+知识图谱”将成为未来重要发展方向。武汉大学中国传统文化研究中心教授、台湾研究所所长余来明从理论层面反思文化数据集建设,提出应警惕“大数据”带来的认知偏差,强调需基于中华文化自身的知识体系开展数据建构。华中科技大学设计学院张健教授结合长江文明案例,展示了文化基因在数字光影与沉浸式交互中的创新表达路径。天津师范大学大数据科学研究院院长、王曰芬教授阐释了非遗系统保护与创新性传承的协同关系,介绍了非遗数字化工程从基础数据构建、数字化加工、数字基因提取到文化重构应用的完整实施流程。南京大学艺术学院陈静副教授提出双线数字素养培育、AI 赋能认知升级、优质文化数据运用与研究流程革新等理念,展现了 AI 重构数字文脉与助力文化传承的多元应用。武汉大学文化遗产智能计算实验室副主任、黄先锋教授聚焦数字武当项目,针对大型遗址游览体验不足的痛点,分享了利用三维技术搭建全域数据底座与文化大脑,实现超大遗址的数字化活化与多元价值转化的实践经验。

下午主题报告由武汉大学国家文化发展研究院副院长蔡武进教授、南京大学艺术学院副教授陈静先后主持。中山大学图书馆副馆长、研究馆员王蕾以文化基因理论为指导,构建基层社会文化要素分类框架,探索数字化识别和提取路径,为文化遗产知识服务体系提供参考。湖南大学设计艺术学院刘芳教授从创意设计角度构建文化资源库,展示了中国文物数据一站式浏览和检索平台、文化数据平台和智能设计软件等文化基因活化案例。首都图书馆副馆长、研究馆员张娟从项目基础与发展、核心认知、实践路径等方面阐述了首都图书馆自 20 世纪 50 年代起至现在的城市记忆智慧数据体系建设成果。广州图书馆副馆长、广州大典研究中心常务副主任刘平清围绕《广州大典》数字化建设现状,分析人工智能带来的机遇与挑战,并探讨了多模态资源开发路径、人机协同模式等未来发展方向。中国人民大学信息资源管理学院数字人文系教授、数字人文研究院研究员夏翠娟从以人机分工思考为出发点,提出资源开发演进与路径和以向量为中心的知识库构建模式,并就亲身实践建议培养人的批判意识,坚守底线意识。

圆桌论坛以“文化基因挖掘与阐释的方法、路径与趋势”为主题,由武汉大学文化遗产智能计算实验室主任助理赵靓副教授主持。来自南京农业大学、上海大学、北京大学、中国人民大学、北京师范大学等高校的专家学者围绕文化基因的定义与表征、挖掘与建模方法、应用场景与价值边界等问题展开深入交流。与会专家指出,文化基因应在术语与实体之间确定合理颗粒度,并需构建面向大语言模型的评测体系;在方法层面,应结合文本、图像与三维数据等多模态资源,强化知识组织与人机协同机制;在应用层面,应推动文化基因与文旅、文创及数字内容产业深度融合,同时注重文化阐释的科学性与严谨性。

图片

最后,王晓光发表致谢。他代表主办方向与会专家学者及各界嘉宾表示衷心感谢,指出本次研讨会汇聚多学科力量,围绕文化基因解码与智慧数据资源建设展开了富有成效的交流。他表示,文化基因作为新时代文化数据的重要形态,应加快构建文化基因数据库,并与大语言模型深度融合,形成“数据—模型—应用”的良性循环,提升人工智能对中华文化的理解能力,推动中华优秀传统文化的创造性转化与创新性发展。

会议期间,与会人员参观了文化遗产数字演绎剧场,围绕实验室在数据平台、科研项目等方面的最新成果开展了深入交流。

图片

据悉,本次会议由武汉大学文化遗产智能计算实验室、武汉大学信息管理学院主办,武汉大学大数据研究院、武汉大学国家文化发展研究院、湖北省文化大数据工程技术中心协办。会议汇聚了文化遗产、数字人文与信息资源管理等领域的专家学者 150 余人,围绕文化基因数字化解码、智慧数据资源构建及人工智能技术应用等前沿议题展开深入研讨,为推动文化遗产数智化保护与高质量发展提供了重要理论支撑与实践路径。

(通讯员:翁梦娟,赵万里)

—END—

编辑|文化遗产智能计算实验室

审校|刘争

阅读原文

跳转微信打开

  •  

Wikidata: primo appuntamento di Aspettando AIUCD2026

Il 29 aprile 2026 alle ore 17.30 si terrà il primo appuntamento di “Aspettando AIUCD2026“, il ciclo di seminari online che accompagnerà la comunità verso il convegno annuale AIUCD, in programma a Cagliari dal 3 al 5 giugno 2026. L’incontro sarà aperto con i saluti della presidente di AIUCD, Marina Buzzoni, e del chair del convegno cagliaritano, Giampaolo Salice.

L’incontro è dedicato a Wikidata ed è tenuto da Camillo Carlo Pellizzari di San Girolamo (Scuola Normale Superiore di Pisa).
Introduce Pierluigi Feliciati (Università di Macerata). Apriranno il seminario i saluti di Marina Buzzoni, presidente di AIUCD, e di Giampaolo Salice, chair del convegno di Cagliari.

Come iscriversi

La partecipazione è gratuita, ma è richiesta l’iscrizione tramite il modulo online: [ISCRIVITI AL WEBINAR]

Abstract

L’incontro riguarda Wikidata, la base di conoscenza libera e collaborativa nata nel 2012 come uno dei progetti Wikimedia. Wikidata descrive oggi oltre 119 milioni di entità attraverso più di 1,7 miliardi di dichiarazioni ed è modificata ogni mese da più di 20.000 utenti.

Nel corso del seminario verranno presentate brevemente la storia di Wikidata, la struttura dei suoi dati e le principali modalità per interrogarli. Saranno inoltre illustrati alcuni esempi di ricerche di informatica umanistica che negli ultimi anni hanno utilizzato Wikidata come oggetto di studio o come strumento di lavoro.

La parte finale dell’incontro sarà dedicata a una breve dimostrazione pratica su come modificare Wikidata. Il pubblico potrà provare a effettuare modifiche con l’assistenza del relatore. Per partecipare alla parte pratica, si raccomanda di registrare un account su Wikidata almeno una settimana prima dell’incontro (qui il link).

Informazioni

Titolo: Wikidata: origini, struttura e prospettive per l’informatica umanistica
Relatore: Camillo Carlo Pellizzari di San Girolamo
Introduce: Pierluigi Feliciati
Data: 29 aprile 2026
Orario: 17:30-19:00
Modalità: online
Iscrizione: modulo online

Programma e iscrizioni agli altri appuntamenti: https://www.aiucd.it/aspettando-aiucd2026/

L'articolo Wikidata: primo appuntamento di Aspettando AIUCD2026 proviene da AIUCD.

  •  

Aspettando AIUCD2026

Nell’attesa di vederci a Cagliari tra il 3 e 5 giugno, ci incontreremo nell’ormai tradizionale ciclo di webinar che precede il convegno annuale di AIUCD. Gli incontri di quest’anno sono organizzati dall‘Università di Cagliari e il suo Centro interdipartimentale per l’Umanistica Digitale, insieme con i gruppi AIUCD Scuola (e il Liceo Statale Mamiani di Roma), l’Osservatorio DH AI, ALDiNA, con il Clarin Knowledge Center DiPText, con patrocinio di Wikimedia Italia e dell’Associazione italiana di Public History (AIPH).

Come partecipare

La partecipazione è gratuita.
Per seguire i webinar è necessario iscriversi attraverso i link indicati sotto ciascun incontro.

Sito di riferimento: Aspettando Aiucd2026

Programma

29 aprile 2026, ore 17:30-19:30

Wikidata: origini, struttura e prospettive per l’informatica umanistica

Con Camillo Carlo Pellizzari di San Girolamo
Scuola Normale Superiore, Pisa

Introduce Pierluigi Feliciati
Università di Macerata

Intervengono Marina Buzzoni
Università Ca’ Foscari Venezia, Presidente di AIUCD
e Giampaolo Salice
Università di Cagliari, Direttore del Centro Interdipartimentale DH

Abstract: L’incontro riguarda Wikidata, la base di conoscenza libera e collaborativa nata nel 2012 come uno dei progetti Wikimedia. Wikidata descrive oggi oltre 119 milioni di entità attraverso più di 1,7 miliardi di dichiarazioni ed è modificata ogni mese da più di 20.000 utenti. Nel corso del seminario verranno presentate brevemente la storia di Wikidata, la struttura dei suoi dati e le principali modalità per interrogarli. Saranno inoltre illustrati alcuni esempi di ricerche di informatica umanistica che negli ultimi anni hanno utilizzato Wikidata come oggetto di studio o come strumento di lavoro. La parte finale dell’incontro sarà dedicata a una breve dimostrazione pratica su come modificare Wikidata. Il pubblico potrà provare a effettuare modifiche con l’assistenza del relatore. Per partecipare alla parte pratica, si raccomanda di registrare un account su Wikidata almeno una settimana prima dell’incontro (qui il link).

In collaborazione con Wikimedia Italia

Iscrizione e accesso al webinar: [LINK]


6 maggio 2026, ore 17:30-19:30

Insegnare le Digital Humanities: dalla teoria alla pratica con il Programming Historian

Con Massimiliano Carloni
ACDH, Österreichische Akademie der Wissenschaften, Austria

e Nabeel Siddiqui
Director of the Center for Teaching and Learning, Susquehanna University, USA

Introduce Giampaolo Salice
Università di Cagliari, Direttore del Centro Interdipartimentale DH

Abstract: Programming Historian è una rivista online che aiuta studiosi e docenti di discipline umanistiche a integrare metodi digitali nel proprio lavoro. Lo fa attraverso la forma delle “lezioni”, ovvero articoli che uniscono una finalità didattica alla presentazione di un progetto di ricerca in cui i metodi digitali vengono applicati nella pratica. Questo incontro offrirà un’introduzione alla rivista e una riflessione sui criteri che rendono efficace una lezione. La parte introduttiva sarà seguita da una sessione pratica in cui i partecipanti, guidati dai relatori, avranno l’opportunità di provare la lezione “Corpus Analysis with Voyant Tools” (inglese) (spagnolo) per l’analisi linguistica di un corpus di testi italiani (fornito durante l’incontro).

Iscrizione e accesso al webinar: [LINK]


14 maggio 2026, ore 16:00-17:00

Intelligenza Artificiale vs. Humanities: l’Osservatorio DH-AI

Con Fabio Ciotti
Università di Roma Tor Vergata

Silvia Lilli
ricercatrice indipendente e insegnante

Anna Maria Marras
Università di Torino

Gino Roncaglia
Università di Roma Tre

Introduce Andrea Bolioli
coordinatore dell’Osservatorio DH-AI

A cura dell’Osservatorio AIUCD DH-AI

Abstract: L’Osservatorio sulle Digital Humanities e l’Intelligenza Artificiale DH-AI (https://aiucd.github.io/DH-AI/index.html) è un progetto nato da un gruppo aperto di ricercatori/trici, professioniste/i, insegnanti, studenti/esse (non solo soci di AIUCD) che si occupano direttamente e/o sono interessati a vari aspetti e temi di IA nell’ambito delle discipline umanistiche. Lo scopo principale è condividere conoscenze e metodologie affidabili e buone pratiche, e discutere dei rischi e degli aspetti problematici. Nell’incontro viene presentato l’Osservatorio, in particolare la Bibliografia collaborativa, vengono discussi alcuni temi controversi di GenAI, e presentati alcuni esempi di applicazione. L’incontro è rivolto a studenti, ricercatori, insegnanti, professionisti.

Iscrizione e accesso al webinar: [LINK


20 maggio 2026, ore 17:30-19:30

Archiviare il Web: teorie, strumenti e pratiche

Con Alessia Del Bianco e Adele Gorini
DBC, Alma Mater Studiorum – Università di Bologna

Introduce Lucia Giagnolini
DH.arc e Archivio Storico, Alma Mater Studiorum – Università di Bologna

A cura del gruppo ALDiNa di AIUCD

Abstract: L’incontro introduce il web archiving, ripercorrendone brevemente la storia e affrontando le principali sfide legate alla conservazione dei contenuti online, con uno sguardo al contesto internazionale e alle diverse strategie adottate a livello globale. Saranno presentati concetti chiave come Reborn Digital, Complex Object e Significant Properties, mettendo in luce il valore del web archiviato sia come fonte per storici e ricercatori, sia come ambito di competenza per archivisti e bibliotecari. La parte finale prevede un confronto tra SolrWayback e Wayback Machine, illustrandone le principali funzionalità.

Iscrizione e accesso al webinar: [LINK]


27 maggio 2026, ore 17:30–19:30

Le Digital Humanities a scuola: la formazione docenti di AIUCD e la sperimentazione nel Liceo Mamiani

Con Cecilia De Angelis
Liceo Mamiani di Roma

e Alice Orrù
CNR-ILIESI

Introducono Paolo Monella
Università Kore di Enna

e Paolo Sartori
Liceo Tacito di Terni

A cura del Gruppo Scuola di AIUCD

Abstract: Dopo una breve introduzione sulle attività del gruppo scuola AIUCD, verrà illustrato il “MOOC Licei AIUCD”, pensato per supportare la formazione degli insegnanti di area umanistica interessati a integrare metodologie e strumenti digitali nella pratica didattica. A seguire, verrà presentato l’indirizzo sperimentale in Digital Humanities recentemente avviato presso il Liceo Mamiani di Roma, facendo un primo bilancio di obiettivi, criticità e prospettive. Infine, l’ampio spazio riservato alla discussione con il pubblico ospiterà una riflessione collettiva sulle opportunità e sulle sfide dell’introduzione delle Digital Humanities nel mondo della scuola.

Iscrizione e accesso al webinar: [LINK]


Rassegna a cura di Raffaele Argiolas, Emmanuela Carbé, Federico Boschetti. Per informazioni sulla rassegna è possibile scrivere a aspettando@aiucd.it

L'articolo Aspettando AIUCD2026 proviene da AIUCD.

  •  

EvaHan2026古籍多模态OCR国际评测会议日程

EvaHan2026 2026-04-24 00:00 江苏

古籍OCR国际评测竞赛结果即将揭晓,国内外十多支团队精彩报告!

EvaHan2026古籍多模态OCR国际评测研讨会将于2026年5月11日在西班牙马略卡岛召开的语言资源大会LREC 2026的子会议——LT4HALA 2026上隆重举行。

古籍是中华文明的载体,也是人类文明的珍贵组成部分。将海量古籍图像转化为可检索可计算的文本是古籍数字化加工过程中的关键一环。然而,古籍文档的版式多样、文字形态复杂,使得基于现代文档数据开发的OCR工具在处理古籍图像时往往难以达到理想效果。

EvaHan自2022年起,已先后在法国马赛(分词词性标注)、中国澳门(机器翻译)、意大利都灵(断句标点)及美国新墨西哥州(命名实体识别)成功举办了四届。2026年,EvaHan将目光转向更具挑战性的古籍多模态OCR与版面分析任务,力求建立高质量的数据集和评测基准。本次评测共有来自中国、法国等海内外高校与科研机构的41支队伍报名,13支队伍完赛。

PART1

会议日程

(注:以下为西班牙当地时间,北京时间已标注。)

开幕式:

14:00 - 14:03(北京时间:20:00-20:05) 

特邀嘉宾讲话:

14:03 - 14:07(北京时间:20:05-20:35)

  • The Significance and Direction of Chinese Ancient Book OCR(中文古籍OCR的意义与方向)

    著名计算语言学家 冯志伟 教授

评测总览:

14:07 - 14:22(北京时间:20:35-20:45)

  • Overview of EvaHan2026: The First International Evaluation on Ancient Chinese OCR and Layout Analysis(EvaHan2026评测总体情况报告)

    南京农业大学 王东波 教授

口头报告 : 每篇4分钟

14:22 - 15:10(北京时间:20:45-21:10)

  • A Multi-Stage System for Ancient Chinese OCR and Layout Understanding in the EvaHan2026 Shared Task(古籍OCR与版面理解的多阶段系统)

    KeYan Liang, Meiling Liu

  • A Multi-Modal Recognition Framework for Ancient Books Integrating DoRA-DPO Text Recognition and YOLO Layout Analysis(融合DoRA-DPO文本识别与YOLO版面分析的多模态识别框架)

    Chaokun Zhang, Xin Wen, Tongtong Zhou

  • Enhancing Ancient Chinese Character Recognition and Layout Analysis via VLM Fine-Tuning and Linguistic Post-Processing(基于视觉语言模型微调与语言学后处理的古籍增强识别)

    Yihuan Yin, Qian Zhao

  • A Dual-Modality Framework for Ancient Document Layout Analysis and Text Recognition(古籍版面分析与文本识别的双模态框架)

    Qi Fan, Jieming Hu, Chen Ye

  • EvaHan 2026 Ancient Books Multimodal OCR and Layout Analysis System Technical Report(古籍多模态OCR与版面分析系统技术报告)

    Chenrui Zheng

  • A Parameter-Efficient and Data-Centric Framework for Ancient Chinese Text(面向古籍文本的参数高效与数据驱动框架)

    Yuchun Meng

  • LVLM Optimization for Ancient Chinese Book Image Analysis with Task-specific Augmentation and Instruction Tuning(基于任务增强与指令微调的大视觉语言模型古籍图像分析优化)

    Xia Tian, Liu Yulong, Wang Yilin, Yang Yumeng, Cai Dongheng, Tan Yuyang,Yang Menghui

  • Data-Centric Strategies for Ancient Chinese Text Recognition: Augmentation, Annotation Refinement, and Style Transfer in EvaHan 2026(数据驱动策略:数据增强、标注优化与风格迁移)

    Chengfei Li, Yunjie Zhang, Xiaoyi Li, Changshun Quan, Taihe Cao, Bin Liu

  • AnandaSky: A Vision–Language Model for Line-Level Transcription of Historical Sinographic Documents(面向历史汉字文档行级转录的视觉-语言模型)

    Colin Brisson, Ayoub Kahfy, Frédéric Constant, Marc Bui

  • Multimodal Ancient Document Parsing: Technical Report for EvaHan2026 Competition(多模态古籍解析技术报告)

    Liqi He, Qiwei Li, Ziye Yang, Zuchao Li

  • Multi-Task Learning Trade-offs in Vision–Language Models for Ancient Chinese OCR: An Empirical Analysis of Parameter-Efficient Adaptation(古籍OCR视觉语言模型中的多任务学习权衡:参数高效适应的实证分析)

    Huizi Zhou, Yuhan Shu

  • Building Character(s): Synthetic Data and In-Context Learning Strategies for Few-Shot Ancient Chinese Recognition(合成数据与上下文学习策略在少样本古籍识别中的应用)

    Denise Atzori, Marie Bizais-Lillig, Mathias Garnier, Maxime Létoffé, Charles Planque, Tianjie Yin, Chahan Vidal-Gorène

  • 闭幕式

15:10 - 15:15(北京时间:21:10-21:15)

PART2

特邀嘉宾

著名计算语言学家 冯志伟 教授

冯志伟教授是我国著名计算语言学家、中国计算机学会高级会员、中国中文信息学会会士。先后在北京大学和中国科学技术大学研究生院两次研究生毕业,获双硕士学位。曾在法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(CETA)留学,后在德国夫琅禾费研究院(FhG)新信息技术与通信系统研究所、德国特里尔大学、德国康斯坦茨高等技术学院、韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)、英国伯明翰大学担任高级研究员或教授,现为新疆大学天山学者。主要著作有《Forma Analysis for Natural Language Processing: A Handbook》、《自然语言计算机形式分析的理论与方法》《自然语言处理简明教程》《计算语言学方法研究》《数理语言学》《数学与语言》《机器翻译研究》《现代术语学引论》《现代语言学流派》《汉字》(英汉对照)等40部,主要译著有《自然语言处理综论》《统计语言学习》等3部,用中文、英文、法文、德文发表论文500多篇,主持研制国际标准(ISO)1项、国家标准(GB)1项、国家规范3项,参与研制国家标准(GB)14项。2006年获奥地利维斯特奖,2018年获中国计算机学会NLPCC杰出贡献奖,2023年获香港圣弗兰西斯科技人文奖。

PART3

会议信息

会议语言

英语

主持人

李斌 教授

主办团队

南京农业大学信息管理学院

王东波、刘浏、朱冬梅、厉洁琼、刘畅、武瑞峰、杨俊羿

南京师范大学文学院语言大数据与计算人文研究中心

李斌、冯敏萱、许超、曲维光、李俊洁、朱月、戴俊阳、

方灿灿、徐梦婷、许智星、蔡敏欣

南京理工大学经济管理学院

沈思

协办单位(排名不分先后)

中国人工智能学会语言智能专委会

中国中文信息学会青年工作委员会

中国古籍保护协会古籍智能开发与利用专委会

中国民族语言学会语言资源与计算人文专委会

江苏省人工智能学会自然语言处理专委会

中华书局 古联(北京)数字传媒科技有限公司 

联系方式

  • 邮箱:evahan2026@gmail.com

PART4

直播地址

直播地址请关注比特人文公众号后续推文。

= END =

相关链接:

欢迎参赛 | EvaHan2026 古籍多模态OCR国际评测

即将开赛 | EvaHan2026 古籍多模态OCR国际评测(2号通知)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

第二十五届中国计算语言学大会(CCL26-Eval)技术评测任务启动,欢迎报名参赛!

CCL26-Eval 2026-04-24 00:00 江苏

CCL26-Eval启动,14项评测覆盖NLP多领域,10月宜昌办会。

转载自“CIPS计算语言学专委会”

第二十五届中国计算语言学大会(CCL26-Eval)技术评测任务启动,欢迎报名参赛!

第二十五届中国计算语言学大会(The 25th China National Conference on Computational Linguistics, CCL 2026)将于2026年10月15至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议,是中国最大的自然语言处理学者和专家的社区。经过三十年的发展,CCL被广泛认为是最权威的,全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展,CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

会议网站:http://cips-cl.org/static/CCL2026/index.html

本次大会继续组织中文语言处理技术评测CCL26-Eval。经过前期评测任务征集,CCL26-Eval组织委员会已确定14个评测任务,涵盖语义分析、篇章、语用分析,跨语言、小语种、低资源自然语言处理,知识图谱,自然语言处理与医疗、教育、人文、司法等领域结合应用,生成式AI与大模型核心能力等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL AnthologyACL Anthology收录。

评测主席:

林鸿飞(大连理工大学,hflin@dlut.edu.cn)

谭红叶(山西大学,tanhongye@sxu.edu.cn)

杨亮(大连理工大学,liang@dlut.edu.cn)

CCL26-Eval评测任务分类汇总

一、 自然语言处理基础任务

1. 语义分析 / 篇章、语用分析

任务1:第二届中文叙实性推理评测

任务简介

        叙实性推理(Factivity Inference,FI)是一种跟事件真实性判断有关的语义理解任务,是真实性推理(Factuality Inference,FactI)的一种形式。在人类的会话交际中,叙实性推理能力主要表现为语言使用者可以从某些动词性语言成分(如“相信”“谎称”“意识到”等)的使用获取说话人和句子主语的心理状态,并据此推定相关事件的真实性(真还是假)。例如,从肯定句“他们意识到局面已经不可挽回”和相应的否定句“他们没有意识到局面已经不可挽回”上,都可以推理出在说话人眼中存在这样一个事实:“局面已经不可挽回”。进行此类推理所使用的知识是一种受世界知识(world knowledge)影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识(analytical knowledge of language)。比如,上面例句中的动词“意识到”要求(预设)它的宾语“局面已经不可挽回”的所指大概率为真,不管该动词前面有没有否定性词语。

        为进一步提升大型语言模型对中文的语义理解能力,实现机器对人类交际话语的深度理解,我们将在FIE2025的基础上继续推出“第二届中文叙实性推理评测任务”。本届评测任务将着重考察大型语言模型在复杂语境条件和少样本提示下的叙实性推理表现。

         相较FIE2025,本次评测将着重考察大模型在不同真实语境中的叙实性推理表现有何差异。特别是:当叙实性结构中存在不同的否定词、不同的否定意愿、不同的评价性状语、不同人称和数量类型的主语,以及存在多声性标记和被动化标记等复杂语境条件下,模型的叙实性推理表现如何。例如:从“我不能相信他竟是一个八十多岁的老人”,可以推出“他是一个八十多岁的老人”大概率为真;而从“我不能相信人可以长生不老”,可以推出“人可以长生不老”大概率为假。

任务描述

        参赛队伍需要利用组织方发布的样例集与评测集自行设计提示词(prompt),在获取LLMs的回答后整理为统一的输出格式。每条评测集数据以一个文本蕴含关系句对<Aa,a>的形式呈现,数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况,并给出对该判断的置信度。例如:
*主蕴含句Aa:老张并没有注意到她今天穿了一件红色的连衣裙。
*被蕴含句a:她今天穿了一件红色的连衣裙。
*模型判断:有95%的把握判定被蕴含句为真。
*输出答案(JSON):{"factivity":"TRUE","confidence":0.95}

此外,本届评测将继续设置不微调(non-finetuning)和微调(finetuning)两条赛道。不微调赛道不允许对模型本身做任何修改;微调赛道可以利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

组织者和联系人 

  • 任务组织者:袁毓林(澳门大学教授)、李斌(南京师范大学教授)

  • 任务联系人:丛冠良(澳门大学博士生,guanliang.cong@connect.um.edu.mo);寻天琦(澳门大学博士生,tianqi.xun@connect.um.edu.mo)。

任务奖项 

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖,奖项按总得分从高到低颁发。其中,一等奖0-1名,二等奖0-2名,三等奖0-3名。各奖项奖金待定。

任务网址

 https://github.com/UM-FAH-Yuan/FIE2026

任务2:非字面义翻译和理解评测

任务简介

评测面向谚语、成语、习语、俚语、典故等非字面表达的中英翻译与识别,重点考察模型对非字面意义的理解、跨语言文化映射能力以及语用效果保持能力。任务构建了“生成+判别”互补评测框架,用于检验模型的非字面义表达生成能力和标准非字面义辨识能力。评测数据共5000条高质量样本,涵盖Gold(英文文化背景下的等值表达)和Silver(核心意义翻译)两类参考。本次评测包括两个子任务。

  • 子任务1非字面义中文翻译为英文给定一条包含谚语、成语、习语等非字面表达的中文句子,模型需生成1条自然、地道、具有文化映射特征的英文译文,优先采用英语中现成的习语、谚语、格言或固定搭配进行等值替代。

  • 子任务2非字面义中英选择给定一条非字面表达的中文句子及若干个英文候选,模型需进行不定项选择,识别并输出与中文在英语语境中构成公认等值替代关系的Gold标签项。

组织者和联系人 

  • 评测组织者: 张冬瑜(大连理工大学教授)

  • 任务联系人: 杨森淇(大连理工大学博士生,ysq1997@mail.dlut.edu.cn)

任务奖项 

本届评测设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/DUTIR-YSQ/CCL2026-Non-literal-Translation-Task

2. 跨语言、小语种、低资源自然语言处理

任务3:跨主流语言与低资源语言对齐的大模型金融评测

任务简介

MapFinBen是首个专门评估大语言模型在高资源语言与低资源语言之间跨语言资源的多语言金融评测基准。该基准覆盖了五类具有代表性的金融任务,全面反映真实金融应用场景中的多样化需求。

在语言设置上,MapFinBen同时涵盖高资源语言(英语和中文)与多种低资源语言(印度尼西亚语、西班牙语、希腊语和日语),有效缓解了现有金融语言模型评测中对高资源语言过度依赖的问题。通过统一的任务设计与评测标准,该框架能够系统评估大模型跨语言、跨资源条件下的金融任务处理能力。

MapFinBen 基准由五个子任务构成,通过综合评估模型在各子任务上的表现来确定最终成绩。具体任务如下:

  • 子任务一金融选择问答(FinAS) 给定一段金融文本及其对应的问题和候选选项,模型需要从多个备选答案中选择最符合问题语义和金融语境的正确答案。

  • 子任务二金融文本问答(FinQA) 给定一段金融文本,模型需要根据文本内容回答与之相关的金融问题。

  • 子任务三金融情感分析(FinSA) 给定一段金融文本,模型需要识别文本所表达的情绪倾向,并将其分类为积极、中性或消极。

  • 子任务四金融主题分类(FinTC) 给定一段金融文本及候选主题类别,模型需要根据文本内容将其归类到最合适的金融主题类别中。

  • 子任务五金融文本摘要(FinTS) 给定一段金融文本,模型需要提取并生成简洁、准确的摘要,以概括文本的核心信息和主要内容。

各子任务的数据分布、数据结构、具体评测指标及其计算方式,以及最终成绩的计算方法,详见任务网址。

组织者和联系人 

  • 评测组织者:胡刚、岳昆(云南大学)、彭敏(武汉大学)、石磊(云南师范大学)

  • 任务联系人:孔晓勇(kongxiaoyong@stu.ynu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/HgITSE/MapFinBen

任务4:低资源缅甸语固定模版语句推理评测

任务简介

在缅甸语等低资源语言的翻译中,固定模版语句的推理作为垂类的任务,其语言内部的词性、地名、多元价值观等显著影响着最终的翻译质量。

格式与习惯差异:例如,中文的“第1名”、“第3章”,在缅甸语意为“编号”或者“号”,后面需要紧跟缅甸语数字。地名转写冲突:地名转写往往与缅甸语特有发音、历史习惯冲突,导致中文直接转写容易出现混乱。多元价值观影响:翻译受种族、宗教以及集体主义的影响,不能简单直译。必须充分考虑当地的文化敏感性和宗教背景,否则极易引起误解或反感。

作为固定模版语句的推理任务,机器具体要适应的是模版格式、幻觉处理等任务的重要形式依据。为了提升翻译大模型在缅甸语上的翻译质量,进一步实现机器对人类固定模版语句的深度理解,我们正式推出本次评测任务。

组织者和联系人 

  • 评测组织者:陈自岩、刘劲松(新译信息科技有限公司)、朱少林(天津大学)

  • 任务联系人:任虹(天津大学博士生,邮箱地址:rhong@tju.edu.cn);吴川(天津大学硕士生,邮箱地址:wuchuan@tju.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。奖金由 新译信息科技有限公司赞助。

任务网址

https://github.com/merc11/CCL-2026

二、 自然语言处理应用

1. 知识图谱

任务5:杂粮育种信息抽取评测

任务简介

杂粮育种领域积累了大量以自然语言形式呈现的知识,广泛分布于论文、品种审定与栽培技术规程等文本中。这些文本记录了育种材料来源、目标性状及测定结果,同时也包含栽培管理条件、胁迫处理信息以及分子标记等证据。由于杂粮育种文本专业术语密集、概念表述多样,且材料名称与试验要素常存在嵌套表达,导致关键信息难以稳定抽取和统一结构化,从而限制了知识检索、证据汇总和育种决策支持等应用的发展。

杂粮育种信息抽取评测(Minor Grain Breeding Information Extraction Evaluation, MGBIE)旨在面向杂粮育种知识管理与数据资源建设需求,系统评估信息抽取模型在杂粮育种相关专业术语识别、育种语境理解、关键信息抽取与结构化表达等方面的能力。MGBIE数据集总规模为2000条样本,其中训练集、验证集和测试集分别包含1000条、400条和600条,用于支持模型的训练、调优与综合性能评估。

MGBIE2026包含以下两个子任务:

  • 杂粮育种命名实体识别: 从杂粮育种相关文本中识别并抽取关键实体信息,并输出相应的实体边界及其类型标签。实体类型标签体系涵盖杂粮育种领域的核心概念,共包括12类:作物、品种、性状、生育时期、基因、数量性状位点、分子标记、染色体、育种方法、亲本/杂交组合,非生物胁迫以及生物胁迫。

  • 杂粮育种关系抽取: 在已识别实体的基础上,进一步抽取实体之间的语义关系,并以关系三元组的形式进行结构化表示。关系类型体系共包含6类语义关系,分别为:包含、采用、具有、影响、发生于和定位于。

组织者和联系人 

  • 评测组织者:胡志伟、孔照胜、高建华(山西省后稷实验室、山西农业大学);谭红叶、闫智超、李茹(山西大学);谢倩倩(武汉大学)

  • 任务联系人: 杨森杰(山西大学硕士生,yangsenjie1@sxu.edu.cn)

任务奖项 

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖。其中,一等奖1名,二等奖2名,三等奖3名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/zhiweihu1103/CCL2026-MGBIE

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532465

2. 自然语言处理与医疗、教育、人文、司法等领域结合应用

任务6:中文电子病历疾病与手术ICD自动编码评测 

任务简介

近年来,随着人口老龄化加剧和健康意识提升,医疗体系面临着日益增长的服务压力。在医疗信息化进程中,电子病历的广泛应用为解决这一挑战提供了新的可能。为实现医疗数据的标准化管理和共享,世界卫生组织制定了国际疾病分类标准(International Classification of Diseases,ICD)。该标准将数万种疾病及其组合转化为规范的字母数字编码体系,为跨地区、跨机构的医疗数据交换与分析奠定了基础。

然而,对电子病历文本进行人工ICD编码不仅耗时耗力,还容易因专业技能差异导致编码错误。开发自动ICD编码系统,既能提高编码效率和准确率,也能为疾病研究和医疗管理提供更可靠的数据支持。基于上述背景,本任务构建了一个中文电子病历ICD自动编码数据集,该数据集基于脱敏病历数据而构建,共涉及10个科室,18种主要疾病编码,若干种其他疾病编码,16种主要手术编码,若干种其他手术编码,共计2600条数据。该任务给定一段由临床信息构成的文本作为输入,需要模型输出对应的主要疾病编码、其他疾病编码、主要手术编码、其他手术编码。

组织者和联系人 

  • 评测组织者:管红娇、鹿文鹏(齐鲁工业大学(山东省科学院))、廉颖、陈国强(山东第一医科大学第一附属医院)

  • 任务联系人: 李传龙(齐鲁工业大学硕士生,icdevaluator@163.com)

任务奖项 

本届评测将设置一等奖1名,二等奖3名,三等奖6名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/QLU-NLP/icdevaluator-26

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532466

报名信息填写表

https://docs.qq.com/form/page/DWWNmV0ZGRnRwampn#/fill

任务7:跨语言文学文本情感分析一致性评测 

(Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)

任务简介

跨语言情感分析一致性评测旨在考察模型对中国古典文学文本的情感理解能力,以及同一语义内容在中英文两种表达下是否能够保持情感判断一致。中国古典文学往往通过意象、典故和隐喻传递情感,具有较强的语境依赖性,因此对模型的跨语言语义理解和情感对齐能力提出了较高要求。

本任务基于中英平行古典文学语料,评估模型在单语言情感识别、跨语言情感迁移以及平行文本一致性建模等方面的表现。

BCCL-CSA 2026 包含三个子任务:

子任务一细粒度情感识别

参赛系统需分别对中文古典原文及其对应英文译文进行情感分析,预测文本的情感极性和情绪分布。

评测重点包括:

1.情感极性识别准确率

2.情绪分布预测能力

该子任务用于评估模型对单语文学文本情感特征的理解能力。

  • 子任务二跨语言情感迁移

参赛系统需在一种语言上训练,在另一种语言上测试,考察模型的跨语言情感迁移能力。

评测重点包括:

1.中英之间的情感极性保持一致性

2.不同语言表达下情绪分布的对齐程度

该子任务用于评估模型是否具备稳定的跨语言语义映射能力。

  • 子任务三平行文本一致性评估

参赛系统需对同一语义内容的中英文平行句对分别进行情感分析,并比较两种语言预测结果的一致性。

评测重点包括:

1.中英文情感极性预测是否一致

2.中英文情绪分布是否相近

该子任务用于评估模型在双语场景下的情感一致性与跨语言对齐能力。

任务特色与创新

1.跨语言情感对齐维度:突破单一语言的情感分类范式,首次聚焦于中英双语在复杂古典文学语境下的情感语义一致性。2.精细化分布标注:提供情绪概率分布(LabelDistribution),精准捕捉文学作品中复杂、模糊的情感底色。3.语料库稀缺性与挑战性:数据集精选自先秦至近代的13部经典著作,涵盖哲学、小说、戏曲等多种体裁,挑战模型泛化性能与抗噪声能力。

数据集说明

数据集CCL-SEL,来源于12部中国经典著作,每部著作各250组中英句子对。

网站建设与论文评审 

评测将建设GitHub页面发布数据、脚本与排行榜。评测论文将通过CCL26-Eval通道提交,并进行双盲评审。

组织者和联系人 

  • 评测组织者: 张海洋、张霄军(西交利物浦大学);徐睿峰(哈工大深圳)

  • 任务联系人: 周静狮(Jingshi.Zhou@outlook.com)

任务奖项 

一等奖1名,二等奖2名,三等奖3名。

任务网址

https://github.com/Jingshi-Zhou/-BCCL-CSA-2026-

任务8:大语言模型生成中文医疗内容的循证事实核查评测

任务简介

循证事实核查(Evidence-based Medical Fact-checking)是一项旨在验证在线医疗内容真实性的关键任务。随着互联网成为公众获取医疗健康信息的主要渠道,医疗虚假信息的泛滥给公共卫生安全带来了严峻挑战。该任务要求模型不仅要理解医疗声明(Claim),还需要结合检索到的相关证据(Evidence),判断证据对声明的支持程度(如支持、反驳或证据不足)。这一过程对于提高医疗信息的透明度、减少误导性信息的传播具有不可替代的作用,同时也是构建可信赖的医疗问答系统和智能医疗助手的核心安全屏障。

  • 支持(Supported):证据完全支持声明的内容;

  • 部分支持(Partially Supported):证据支持声明的部分内容,但存在不确定性或未覆盖的细节;

  • 反驳(Refuted):证据与声明内容相矛盾;

  • 不确定(Uncertain):证据与声明相关,但不足以证实或反驳声明的真实性;

  • 不适用(Not Applicable):证据与声明完全不相关。

组织者和联系人 

  • 评测组织者:苏炯龙、蒋正雍、王唯(西交利物浦大学)

  • 任务联系人: 陈彤(西交利物浦大学,Tong.Chen19@student.xjtlu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/AshleyChenNLP/MedFact

任务9:第二届古诗词赏析评测

任务简介

中文古诗词具有高度凝练性和语言的音乐美,讲究对仗、平仄和押韵。为了准确理解古诗的语义,不仅需要掌握古诗的语言特色,还需要调动对历史、文化背景的知识,结合对古诗中所描绘的自然景象和人物情感的认知,从而进行综合性的推理与理解。

为了进一步衡量模型在中文古诗词赏析场景中的语言理解深度与文化推理能力,我们推出第二届中文古诗词赏析评测。在第一届的基础上,本届评测进一步聚焦模型的深度理解与复杂推理能力,引入更具挑战性的高级任务,以全面考察模型对古诗词文化内涵与高层语义结构的掌握程度。具体任务设置如下:

  • 任务一:古诗词理解:

古诗词字词理解:解释古诗词中短语级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词诗句理解:解释古诗词中诗句级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词情感理解:推断诗人透过作品所传达的情感。本子任务通过选择题的形式对待测系统进行评估。

典故识别:判断诗句中是否包含典故并进行解释。本子任务通过问答题的形式对待测系统进行评估。

  • 任务二:古诗词推理:

古诗词类比:发现古诗词中不同事物之间的相同关系,意象的关联。本子任务通过问答题的形式对待测系统进行评估。

古诗词辨析:依据诗词内容与语境,对给定选项进行辨析,判断其中表述最为合理的一项。本子任务通过选择题的形式对待测系统进行评估。

本评测将根据两个任务的综合性能来确定最终成绩排名。本评测旨在评估自然语言模型自身对中文诗词的理解水平,参赛队伍可以使用开源大语言模型进行微调,禁止使用RAG等技术来利用外部知识回答问题。

组织者和联系人 

  • 评测组织者:白雪峰、陈科海(哈尔滨工业大学(深圳)) 

  • 任务联系人: 朱颖杰、裴振武(哈尔滨工业大学(深圳),zhuyj@stu.hit.edu.cn)

任务奖项 

 一等奖1名,奖金合计3000元;二等奖1名,奖金合计2000元;三等奖1名,奖金合计1000元。 所有奖金将在公布奖项后10个工作日内发布。

任务网址

https://github.com/HITICI-NLPGroup/CCPA-EvalTask

任务报名表

https://docs.qq.com/form/page/DZW50THN4SGhqbm5x

三、 生成式AI与大模型核心能力

任务10:基于情景的常识推理评测

任务简介

推理是一种高级认知功能,涉及基于现有知识对新信息进行分析、归纳和演绎。它在人类智能中起着基础性作用。虽然以往的基准测试主要侧重于评估大语言模型(LLMs)在复杂、专业领域内的推理能力,但它们往往忽视了类人认知的一个关键方面:常识推理。评估大型语言模型中的这种常识推理能力对于人工智能的发展至关重要。这种基本能力显著影响着 LLMs 在日常情境中的决策,并且对于在通用人工智能(AGI)中迈向类人智能至关重要。

为了全方位、细粒度地诊断大模型的常识推理能力,我们提出了基于情景的常识推理评测数据集(Scenario-based Commonsense Reasoning Evaluation, SCoRE),用以评估大语言模型在常识场景下的复杂逻辑推理能力。根据所涉及的常识领域,该数据集包含的任务可分为以下五类: * 空间常识推理: 给定一个空间场景和若干已知的实体间方位关系,本任务要求机器推理出实体在空间场景中的位置,以及未知的方位关系。 * 时间常识推理: 给定一个包含若干事件的时间叙述场景和已知的事件间时间关系(如先后顺序、持续时长、相对或绝对时间点),本任务要求机器推理出事件在时间轴上的具体时刻,以及未知的事件间时间跨度或次序关系。 * 社会常识推理: 给定一个社会交互场景和若干已知的人物间人际关系(如亲属、职场、朋友或师徒关系),本任务要求机器推理出人物在社会网络中的具体角色或地位,以及人物间隐含的或未知的社会关系。 * 自然常识推理: 给定一组自然物体(或实体)和若干已知的属性约束条件(如类别归属、物理性状、功能用途或感官特征),本任务要求机器推理出物体与描述(或位置)的一一对应关系,以及物体未知的属性或分类特征。 * 融合常识推理: 融合领域任务描述旨在构建一个多维度条件交织的推理问题。它要求机器同时处理来自空间、时间、自然属性及社会关系等多个领域的约束与常识,并建立统一的推理模型以进行协同分析与决策。其核心挑战在于,单一领域的逻辑链条不足以解决问题,必须识别并整合不同领域的隐含联系,才能对复杂多因素情境进行有效推断。

组织者和联系人 

  • 评测组织者:詹卫东、穗志方(北京大学) 

  • 任务联系人:胡楠(北京大学博士生,hunan@stu.pku.edu.cn)

任务奖项 

一等奖0-1名; 二等奖0-2名;三等奖0-4名。

任务网址

https://pku-space.github.io/SCoRE2026/

任务11:面向自动驾驶的自动化危害分析与风险评估评测

任务简介

随着汽车电子电气架构(E/E 架构)向智能化与网联化深度演进,功能安全已超越早期以机械系统为主的工程保障范畴,演变为覆盖软硬件协同设计的系统化安全工程体系,成为自动驾驶技术落地与量产的关键基石。在此体系中,危害分析与风险评估(HARA, Hazard Analysis and Risk Assessment)承担着风险识别与顶层安全需求定义的核心职能。该过程通过对车辆运行场景、潜在功能失效模式及环境要素的系统化建模,提取车辆运动状态、道路拓扑及交通参与者分布等关键特征,并基于严重度(S)、曝光率(E)和可控性(C)三个维度对风险进行量化评估,确定汽车安全完整性等级(ASIL),并将评估结果转化为顶层安全目标,进而分解为可验证的软硬件安全需求,指导系统设计与工程实施。

为推动大模型与人工智能技术在预期功能安全及功能安全领域的落地应用,提升HARA流程的自动化与智能化水平,我们提出“面向自动驾驶的自动化危害分析与风险评估评测任务”并构建了一个专注于评估自动驾驶安全逻辑推理与需求生成的结构化数据集。该数据集源自脱敏的真实工业项目数据,聚焦于动力系统核心高危失效模式——“非预期驱动力/扭矩输出”,共包含3,000条高质量标注数据。

本次评测包括以下两个子任务: * 危害事件识别与场景描述生成: 该任务要求模型基于给定的车辆运行工况与环境参数,精准识别潜在的危害事件,并生成符合工程规范的危害场景结构化描述。 * 风险参数评定与等级推理: 该任务要求模型基于场景特征,推理并输出HARA分析的关键风险指标(S/E/C),并据此判定相应的安全完整性等级。

组织者和联系人 

  • 评测组织者:杨旭(北京理工大学),张海洋(西交利物浦大学),王唯(西交利物浦大学)

  • 任务联系人:王子木(西交利物浦大学博士生, Zimu.Wang19@student.xjtlu.edu.cn)

任务奖项 

一等奖1名,奖金合计5000元 * 二等奖1名,奖金合计3000元 * 三等奖1名,奖金合计2000元。

赞助情况 :本次评测奖金由优策科技(福州)有限公司赞助。

任务网址

https://ccl2026-hara.github.io

任务12:优酷无障碍剧场杯-面向听障群体的信息无障碍结构化字幕生成评测

任务简介

在我国已进入“制度保障”阶段的信息无障碍建设背景下,字幕已成为听障及老年群体获取音视频信息的关键无障碍服务。然而,现有技术评测缺乏面向真实应用场景、统筹考量“可读性”、“核心信息准确度”与“响应速度”的基准。本任务从“AI字幕是基础设施”的视角出发,系统评测从“语音/视频输入”到生成“面向人类阅读的结构化字幕文档”的完整链路,特别聚焦于解决高信息密度真实场景(如医疗、金融、政务办事)中“社交时差”与“关键信息丢失”两大痛点。

为贴近不同应用环境,评测任务被设计为两个平行赛道,以全面评估技术的能力上限与落地可行性:*赛道A:PC端模拟云端或高性能桌面环境,旨在探索技术性能上限,不限制计算资源。*赛道B:手机端模拟移动设备(手机、AR眼镜)实时交流场景,对模型体积、内存占用及实时性提出明确的约束要求。

每个赛道均包含以下两个子任务:

1. 子任务一基础字幕生成(Foundation Track) 评估语音转写、时间戳对齐、噪声鲁棒性等基础能力。 评测指标: 转写准确性、时间轴对齐精度、复杂多人场景下的综合处理能力。

 2. 子任务二结构化可读字幕生成(Structured Track) 评估模型生成符合人类阅读习惯、包含合理断句、标点、说话人区分、并确保核心关键词准确性的结构化字幕的综合能力。 自动评测指标: 文本准确性、核心词召回率、模拟显示延迟、时间轴合理性偏差、结构一致性。 人工评测指标(抽样): 可读性(1-5分)、关键信息完备性、断句合理性、标点与语气匹配度、幻觉文本严重程度。

数据规模与来源

本评测构建了总规模约30–50小时的多场景真实语音/视频测试集,涵盖新闻演讲、影视综艺、生活真实交流、多人会议等四类典型场景。其中,约10–15小时的核心子集提供更高粒度的结构化标注与核心关键词标注,支持Track2的深度评测。数据来源强调真实性与多样性,包含背景音乐干扰、环境噪声、远场收音、多人重叠语音等复杂声学条件,全面模拟听障用户在办事场景中的实际听觉挑战。

组织者和联系人 

  • 评测组织者:姚登峰(北京联合大学/清华大学),徐聪(中国聋人协会手语研究与推广委员会),梁振宇(深圳市信息无障碍研究会专家委员会),曲欣(北京市设计学会无障碍设计专委会)

  • 任务联系人:施杰、叶博文(北京联合大学硕士生,20251083510951@buu.edu.cn),张洋(清华大学博士生)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会为获奖队伍颁发荣誉证书;同时设立赞助奖项,由阿里巴巴等头部科技企业提供奖品支持。

任务网址

https://github.com/ALINOSJ/IASSGE-2026

报名表

https://f.kdocs.cn/g/aYC93cfz/

任务13:图像文本翻译质量评测

任务简介

随着全球化进程加速和跨语言交流需求增长,图像文本翻译(In-Image Translation,简称“图翻”)已成为机器翻译的重要分支。与传统文本翻译不同,图翻需同时处理视觉与语言信息,涵盖文本检测、识别、翻译与渲染等多个环节,在跨境电商、旅游导览、多语言内容本地化等场景中具有广泛应用价值。中文图翻面临独特挑战:汉字视觉复杂性高、书写方向多样(横排/竖排)、与目标语言存在显著文本长度差异,且蕴含丰富文化内涵。尽管大型多模态模型在图像理解方面取得进展,但在保持视觉一致性的前提下实现高质量图翻仍困难重重。尤其在电商场景中,系统需区分“应翻译内容”(如功能说明)与“应保留内容”(如品牌标识),对翻译完整性与合规性提出更高要求。现有机器翻译评测指标(如BLEU、METEOR)仅关注文本准确性,无法衡量视觉呈现、排版布局、美学协调等关键维度。而人工评测成本高、主观性强、难以规模化。因此,亟需建立标准化、多维度、可自动化的图翻质量评测框架。

本次评测聚焦于如何设计和训练能够从多个维度对图像翻译结果进行精准评分的自动评测系统,从而为该领域的技术进步提供可靠的度量工具。旨在:建立标准化基准:构建包含多场景、多维度人工标注的大规模评测数据集。推动方法创新:鼓励研究者设计能够模拟人类专家判断的自动评测模型。探索评测范式:通过开放式竞赛,发现在不同应用场景下最有效的评测策略。促进社区共识:图像文本翻译质量评测建立可复现、可比较的评价标准。

组织者和联系人 

  • 评测组织者:李海军、尚姿芙、梁杰、徐昭、骆卫华

  • 任务联系人:韩雨轩(阿里云技术专家  baileng.hyx@alibaba-inc.com)

任务奖项 

一等奖1名,奖金合计20000元 ;二等奖1名,奖金合计10000元;三等奖2名,奖金合计5000元。

赞助情况:本次评测奖金由阿里云赞助,由中国中文信息学会为获奖队伍颁发荣誉证书。

任务网址

https://tianchi.aliyun.com/competition/entrance/532463?spm=5176.12281973.J_6-HJZaSjQocH7SIdvbK02.1.376b3b74H1HNIn

评测任务14:中文会话含义与隐喻能力评测

任务简介

       对“言外之意”的理解是人类交际的核心能力。而以往针对大语言模型的评测更侧重其在具体垂域中的表现,较少从语用推理与隐喻义识别角度评估模型的语言能力。本评测共设计两个核心赛道,旨在系统评估大语言模型在中文语境下的会话语义理解能力与隐喻理解能力。

赛道一:会话含义理解

      为了实现交流目的,会话参与者在交流时通常遵循一套基本原则,这一原则被格赖斯总结为合作原则。该理论从量、质、关系、方式等范畴提出四项准则。量的准则要求提供适量信息,既不多余也不过少;质的准则要求说话真实,证据充分;关系准则要求话语要与当前话题相关;方式准则要求表达简洁有序,避免晦涩和歧义。基于这四项准则,格赖斯提出了会话含义理论,当说话人违反了这些准则或次准则的时候,听话人就需要超越话语的表面意义去领会说话人的隐含意义。本赛道用于评估模型识别、理解会话含义的能力。

  • 子任务一:会话含义识别任务

给定一段多轮对话,要求模型指出特定人物的哪一句话是具有会话含义的。

  • 子任务二:会话含义选择任务

给定一段多轮对话,要求模型从四个选项里选出有会话含义句子的正确含义。

  • 子任务三:会话含义释义任务

给定一段多轮对话并明确指出具有会话含义的句子,要求模型生成一段解释。

赛道二:隐喻理解与生成

       隐喻作为人类认识世界的重要方式,在概念建构和思维过程中发挥着关键作用。隐喻能力不仅关系到语言表达本身,也与创造性思维、抽象推理以及知识迁移等更高层次的认知过程密切相关。人们通过具体、熟悉的源域来理解抽象、陌生的目标域,这一映射机制贯穿于日常语言与思维之中。本赛道用于评估模型识别、理解并创造性地使用隐喻的能力。

  • 子任务一:隐喻识别任务

给定一段文本,要求模型识别出此文本中的句子是否使用隐喻这一修辞手法,如包含隐喻,模型需要分别提取出隐喻句当中的本体、喻体。

  • 子任务二:隐喻释义生成任务

给定一段文本,要求模型用非隐喻的语言解释隐喻句的含义。

  • 子任务三:隐喻句生成任务

不限定主题,要求模型自主生成恰当的隐喻表达。

组织者和联系人

  • 组织者:杨尔弘、杨天麟、岳岩、安维华(北京语言大学)

  • 联系人:张艺璇(北京语言大学博士生,blcuicall@163.com)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/blcuicall/CCIME2026

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

  •  

从探听“修辞回声”走向数字文学史——以定量分析松尾芭蕉在日本近代的接受为例

原创 日比嘉高、江晖 2026-04-24 09:01 北京

数字人文; 接受研究; 松尾芭蕉; 近代俳句; 正冈子规

转载请注明“刊载于《数字人文研究》2025年第4期”;参考文献格式:日比嘉高,江晖从探听“修辞回声”走向数字文学史——  以定量分析松尾芭蕉在日本近代的接受为例[J].数字人文研究,2025,5(4):99-117.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。

从探听“修辞回声”走向数字文学史

——以定量分析松尾芭蕉在日本近代的接受为例

摘 要  研究旨在通过对近代俳句中松尾芭蕉的接受情况进行定量分析,探索数字人文方法在文学史研究中的潜力。利用日本国立国会图书馆的数字收藏,统计了明治至昭和战前期间文献中芭蕉俳句的引用频率,并运用Jaccard系数对明治、大正、昭和战前期的大规模俳句集进行了相似性分析。研究发现,随着时代变迁,芭蕉对俳句的影响逐渐降低,而以芭蕉批评者著称的正冈子规的俳句却比明治时期一般俳句更接近芭蕉的风格。可见计算机定量分析能够捕捉人类难以察觉的表达差异,提取出人类和时代的“无意识修辞”。数字人文方法能够揭示传统研究难以触及的深层规律,为“数字文学史”的构建提供新路径。

关键词   数字人文;接受研究;松尾芭蕉;近代俳句;正冈子规

作者简介   日比嘉高,名古屋大学人文学研究科教授;江晖(译者,通讯作者),中山大学外国语学院副教授,Email:jianghui6@mail.sysu.edu.cn。

0  文学作品接受研究中的定性研究和定量研究

数字人文(Digital Humanities)是否能够为文学的接受研究带来革新?如今,全世界每天都在产生海量的数据,其中包含大量与文学相关的内容。有面向业余创作者的小说投稿网站、有与短诗形式文艺相关的线上活动,还有像X(原推特)、微博、脸书等社交网络服务。此外,各类博客平台也在以多种形式持续产出文学作品的创作、评论和读者的感想。不仅如此,过去的文学作品以及与文学相关的各类资料正在快速地从纸质媒介向数字数据转移。例如,日本国立国会图书馆的数字收藏中包含了253万本图书(网络公开37万件)、140万册杂志(公开2万件)和32万篇博士论文(公开1.2万件)等数据。如果使用该图书馆的“下一代数字图书馆”,其中已过版权保护期、被标记为“网络公开”且被归类为“保护期限届满”的约29万件数据,用户可以获得文本的全文数据。就与日本文学相关情况而言,国文学研究资料馆一直在推进古典文学相关文献的数字典藏项目,通过其运营的“国书数据库”,用户“可以一次性检索和使用国内外众多机构和国文学研究资料馆收藏的古籍(即江户时代以前的书籍)等资料的书目信息以及部分高清图像”,据悉该网站在2025年3月公开的原始图像已超过30万张。

如此产生的海量数字化资料群,构建了一个由电子数据组成的文学话语空间,它与人们在数字空间和在物质空间的活动复杂地交织在一起,共同塑造了当代文学的生态系统。本文认为在文学的接受研究领域,数字人文式的方法同样有效。人们在创作、交流和享受文学作品时所留下的痕迹,不仅留存于纸张等物理媒介中,也大量保存在电子资料里。我们已经进入了一个新的时代,可以通过数字数据来探究某部作品是如何被阅读,以及从中获得的文学创意、词汇及修辞等遗产又是如何传承给下一代的。

文学接受研究——探讨既有的文学作品及其创作者如何被后继的读者和创作者所接受——这一领域拥有丰富的研究历史。回顾其理论框架,大致可以分为两大体系:一类是关注读者阅读行为的读者反应论体系,另一类是关注读者群体及其解释框架的接受论体系。关于前者,沃尔夫冈·伊瑟尔(Wolfgang Iser)在著作《阅读行为》中使用“空白(blank)”和“空缺(gap)”等术语论述了阅读行为的本质并在全球产生了深远影响;提出“作者之死”并强调读者能动性的罗兰·巴特(Roland Barthes)或许也可归入此类。在文化研究理论中,斯图亚特·霍尔(Stuart Hall)的编码/解码模型是广为人知的。

在关注阅读群体及其解释框架的接受论研究者中,汉斯·罗伯特·姚斯(Hans Robert Jauss)无疑是一位杰出代表。他在著作《文学史作为向文学理论的挑战》中提出了“期待视野”(Horizon of Expectations)这一概念,探讨了某一时代的读者对文学作品的理解范式是如何被更新的。该理论在数字人文时代依然具有丰富的启示意义。在当今时代,评论家与读者的感想通过网络媒体及社交平台等途径被大量生成并留存。数字时代的接受研究正是借助这一类新型资料,获得了重构“期待视野”的线索。关于“期待视野”的理论前景,本文将在结论部分再做探讨。

关于读者共同体的分析,斯坦利·费什(Stanley Fish)提出的“阐释共同体”(Interpretive Communities)概念,可定义为共享特定阐释框架的群体。这个观点认为文本的意义并非内在于文本本身,而是由读者所持有的理解框架生成的,就这一点而言与上述的读者反应论在问题意识上是相通的。

这些关于读者反应论或接受论的著名研究,虽然都诞生于纸质资料的时代,但随着互联网的出现,它们也与讨论数字空间中阅读行为的研究成果产生了关联。在这一领域的早期成果中,大卫·博尔特(David Bolter)的《写作空间》(Writing Space)值得一提。该书出版于1991年,是探讨超文本时代表达方式和读者参与方式转变的开创性著作。此外,尽管与接受研究略有不同,霍伊特·朗(Hoyt Long)和理查德·J·索(Richard J. So)的论文使用机器学习对比了英译俳句和英语原创俳句的风格、特征和形式,是在数字人文与文学研究的交汇点上进行的俳句研究和翻译研究的新尝试。

然而,在博尔特的时代尚未出现大量的文学电子资料。可如今,博尔特所讨论的那些通过超链接连接起来的以及由公共或私人档案库收藏的正在等待读者访问的巨大数据空间,在世界文学环境中占据了重要的地位。这些数据的积累如何应用于文学的接受研究,正是本文想要关注的问题。若参照前文提出的两种分类,即“聚焦阅读行为的读者反应理论”与“关注阅读共同体的接受理论”,本研究当归于后者——接受理论的学术谱系。

1  俳句的接受研究与本研究的意义

需要说明的是,本次研究的目的也并非要描绘出其全貌,我们分析的对象仅限于日本近代俳句集的文本数据,根据日本著作权法,这些作品已过版权保护期。本文将探讨江户时期俳人松尾芭蕉的作品在近代言论空间以及近代俳句中的接受情况。数字人文对文本资料的定量分析能在俳句的接受研究中发挥怎样的作用呢?

在此之前,有必要确认一下既有研究是如何进行相关讨论的。活跃于17世纪后半叶的松尾芭蕉是日本文学史上最著名的俳句诗人,其影响力一直延续至今。当然,相关研究也颇为丰富。由于审视其全貌超出了本文的能力范围,在这里仅对主要成果进行概述,尤其是与本文后半部分涉及的正冈子规相关的内容。关于近代对松尾芭蕉的接受,研究成果众多,早先有山下一海和大野林火的论述,近年黄慧君的论文以“古池”一句为例探讨了大正时期对芭蕉的评价。除俳句诗人对芭蕉的接受以外,久保田晴次有两部重要的成果还考察了小说家们的看法。

关于近代俳句诗人个人对芭蕉的接受研究,可以以正冈子规为例。他是明治时期俳句革命运动的推动者,不仅在俳句创作有所建树,还经常发表评论并创办杂志《杜鹃》(『ホトトギス』),是近代俳句史上划时代的人物。并且他本人也多次论及芭蕉,相关研究十分丰富。早在战前,宫本三郎就出版了《子规在芭蕉批评史中的地位》,复本一郎也有相关著作。简而言之,在关于二者关系的讨论中,有的分析了子规对芭蕉的“理解”或“评论”,有的则追踪了除二者之外的谱系,还有的比较了二人的俳句作品,方法多种多样。但是关键在于,许多评论和研究中都存在一种共通的论述“模式”,即使用“继承—革新”“接受—排斥”“影响—创造(进化)”等词语去描述他们之间的继承关系,或者是作为其变体的反叛亦或是创新的轨迹

这些接受研究中所体现的“模式”与哈罗德·布鲁姆(Harold Bloom)提出的“影响”问题不无关联。布鲁姆指出,英国浪漫派诗人在阅读前人作品时,虽然从中获得了文学上的刺激,但同时也因此对自身的独创性感到不安,他将这种现象上升为理论,称为“影响的焦虑”。路易斯·A·伦扎(Renza, Louis A.)对布鲁姆的观点进行了解释,他认为这种影响关系可以被视为疑似亲子关系,即俄狄浦斯式的焦虑,其背后是基于文献学的历史研究观。伦扎指出了重要的一点,就是对这种影响关系的考察虽然在讨论传承或反叛,最终不过是维护了确认文本传承关系的传统主义意识形态。无论称之为传承还是对传统的叛离,归根结底,只是换一种说法在讨论如何强化文学史的延续性罢了。

与此相比,数字人文的方法则采取了完全不同的思路。它并非从人与人之间的传承关系切入,而是通过测算词与词、句与句之间的相似性等方式,来探寻“影响”或“接受”的痕迹。如果将关注人际关系、挖掘作品表达方式的研究称为“质”的接受史,那么基于大量分析文本数据的字面内容去考察表达特征及其相互关系的研究,则可称之为“量”的接受史。

本文对“相似性”的判定标准是通过比较俳句A与俳句B中相同字符连续出现的程度。如第三节所述,本研究采用2-gram对诗句进行分割,并使用Jaccard系数将匹配度量化。在注重质性分析的传统接受史研究中,仅凭词语的简单相似自然不足以证明前代作家/作品与后代作家/作品之间的影响关系。然而,数字人文领域的文学研究通过对海量文本进行词语一致性检测,即基于“字面”层面的相似性计算,能够捕捉人类难以察觉的细微变化,并提取远超人类分析能力规模的文本特征。文学表达中的表层相似性——本文称之为“修辞回声”——是通过多重分析的交叉叠加进行探测的。“修辞回声”是借助数字人文方法捕捉到的“接受”痕迹或其潜在的可能性。基于定量分析的接受研究,通过持续检测“修辞回声”并深入剖析其内涵,进而尝试重构“期待视野”的图景。

如后文所述,基于字面相似性的量化接受研究方法,对于探讨俳句这一文类的接受史而言同样有效。俳句严格遵循十七音节的格律规范(若使用汉字而非假名,则实际字符数更少),因此每个字符在字面层面都承载着更为厚重的意义密度。

基于上述问题意识,本文将对俳句的数字资料进行定量分析,去探究日本近代对松尾芭蕉的接受情况。

2  从国立国会图书馆数字馆藏资料看近代对芭蕉的接受

首先,基于笔者2022年的研究对本文的前期成果进行简要整理。本研究对二战前的近代文献中对芭蕉俳句的引用情况进行了定量分析,从新的视角讨论了这个问题。这里所说的二战前的近代文献,具体是指可以在日本国立国会图书馆“下一代数字图书馆”进行全文检索的所有类别的图书文献,数量约为33.6万件(截至2022年)。利用全文检索功能,可以统计出这些资料中引用芭蕉俳句的数量,以此勾勒出“接受”的样态。检索的时间范围为1868年至1945年,因为芭蕉的俳句约有1000句,为了尽可能避免因表述差异造成的遗漏,本研究在检索时使用了三种文本。图1展示了引用率前30的句子(由于存在引用率相同的情况,实际为31句)。

图1 近代文献中芭蕉俳句的引用情况(前30位)

可以将此结果与人们所熟知的芭蕉佳句进行比较。引领明治俳句革命的正冈子规在1893年撰写的《芭蕉杂谈》中列举了“尤为出众、广为传颂”的11句芭蕉名句,包括:

  1. “古池や蛙とびこむ水の音”(古池呀,青蛙跃入水中的声响)

  2. “道のべの木槿は馬にくはれけり”(道边木槿,马儿啃食)

  3. “物いへば唇寒し秋の風”(张口欲言,唇寒于秋风)

  4. “あかあかと日はつれなくも秋の風”(艳阳当头,秋风已起)

  5. “辛﨑の松は花よりおぼろにて”(辛崎之松,比花更显朦胧)

  6. “春もややけしきととのふ月と梅”(春意渐浓,月与梅相映成趣)

  7. “年々や猿に着せたる猿の面”(年复一年,猴戴猴面)

  8. “風流のはじめや奥の田植うた”(风雅之始,远处传来插秧歌)

  9. “白菊のめにたてて見る塵もなし”(凝视白菊,纤尘不染)

  10. “枯枝に烏のとまりけり秋のくれ”(鸦栖枯枝,秋日将暮)

  11. “梅の木に猶やとり木や梅の花”( 梅树插新枝,梅花共盛开)

      可以看到,与图1中列举的31句仅有1、3、5、10这四句是重合的。

从33万余册的图书资料中,找出超过1000句的芭蕉俳句引用,其工作量之巨大,超出了人力所能及的范围。然而借助计算机技术便使之成为可能,让我们得以开启那些以往难以追踪的接受研究。并且,如本章所示,计算机辅助分析往往能呈现出与人们所认知的世界图景不同的结果,例如子规认为“广为传颂”的俳句与实际被频繁引用的俳句之间存在差异。但是这里也会出现一个问题,即“引用”是否等同于“接受”?关于这一点,我们将在后续章节中进一步讨论。

3  从近代俳句集看对芭蕉的接受

3.1 数据预处理与相似性的计算方法

本章将进一步探讨关于近代对松尾芭蕉的接受。在此,我们将研究对象限定于俳句集,通过分析近代俳句集中的作品特征来揭示芭蕉的接受情况。关于芭蕉的俳句,我们仍使用与前章相同的三个数据集,本章中分析的近代俳句作品来自以下三种句集:

A《明治句集》:共4冊(新年卷、春之卷、夏之卷、秋之卷),27084句,选录自报纸杂志。

B《大正百家选》:共1冊,12516句,收录德岛县当地俳句诗人作品。

C《现代综合大句集》:共1冊,12526句,选录自“最近发行的数百本俳句杂志”中的优秀作品。

首先,对本研究的数据预处理过程进行简要说明。ABC各句集的数据来自从国立国会图书馆“下一代数字图书馆”获取的JSON Lines文件,从中删除了正文以外的页面(如封面、目录、版权页、广告等),保留了页码、页眉、章节标题等信息。由于原始文件中有部分字符顺序混乱,因此使用JSON Lines文件中的位置信息标签进行了调整。在此基础上,提取“contenttext”(文本内容)中字符数大于9的字符串,以此删除通常小于8个字符的页码、章节标题等副文本信息。至此,正文数据的构建基本完成。此外,根据分析的需要,将正文数据中的汉字旧字体转为了新字体。除最后这一步以外,上述的预处理工作基本都是通过Chat-GPT4完成的,笔者随时跟进了这个过程。

      关于正文数据的识别率,通过对比笔者核对过的句集与上述经过预处理的正文数据,发现A的平均误识别率小于1%,但存在部分句子缺失的现象,B和C的误识别率分别为1.5%、0.4%,同样都出现了信息缺失的情况。

本研究采用了N-gram(本次使用了2-gram)的方法,通过Jaccard系数计算了文本的相似度。本研究的独特之处并非在于追踪俳句作品的语义承继,而在于对表层字面一致性的量化考察。鉴于此研究目的以及俳句文本篇幅极短这一特性,本研究认为,与 Word2vec 或 BERT 等方法相比,N-gram具有更高的适用性。

N-gram是指字符串中连续的“N个单词”或“N个字符”的组合,2-gram就是两个连续的单词或字符。例如,以字符为单位的2-gram将“雲の峰いくつ崩れて月の山”分解,可以得到“雲の”“の峰”“峰い”“いく”“くつ”“つ崩”“崩れ”“れて”“て月”“月の”“の山”共11个二字字符组。Jaccard系数是用于测算两个集合之间相似度的指标。具体计算方法是用两个集合的共同元素数量(交集)除以元素总数(并集),所得数值介于0到1之间,越接近1表示相似度越高。

例如,将“干網に蜻蛉吹かるゝ野分かな”与“猪もともに吹かるゝ野分かな”这两句俳句用2-gram分解后,可按照以下步骤计算Jaccard系数:

首先,将每句俳句分解为2-gram。

  「干網に蜻蛉吹かるゝ野分かな」的2-gram:干網、網に、に蜻、蜻蛉、蛉吹、吹か、かる、るゝ、ゝ野、野分、分か、かな;

  「猪もともに吹かるゝ野分かな」的2-gram:猪も、もと、とも、もに、に吹、吹か、かる、るゝ、ゝ野、野分、分か、かな。

两者之间有7个共同的2-gram,即“吹か”“かる”“るゝ”“ゝ野”“野分”“分か”“かな”。以此计算Jaccard系数,计算公式为:(共同元素数量[交集])÷(元素总数[并集])。这里的交集为7,关于并集的计算,两句都有12个2-gram,但需要从两者的和中减去共同元素数量7,即(12+12)-7=17。因此,上述两句的Jaccard系数约为0.41。

       基于此方法,以(1)《芭蕉俳句全集》和A《明治句集》为例,使用2-gram和Jaccard系数进行了初步调查。将结果按照相似度从高到低排序,并经过笔者的确认,可以发现当相似度高于0.3时,即使由人来判断也会感受到其相似性;数值在0.2左右时,仅是出现部分相同的季语,就俳句这一文学体裁而言,难以称之为相似。因此,本研究将相似度高于0.3的情况定义为相似。

3.2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的比较结果

为了把握整体趋势,我们首先将《芭蕉俳句全集》与《明治句集》(1909年)、《大正百家选》(1918年)、《现代综合大句集》(1935年)进行了逐句比较。这些句集分别收集了明治、大正和昭和战前时期多位俳句诗人的作品,规模宏大。其中,《明治句集》收录约2.7万句,《大正百家选》和《现代综合大句集》各约1.2万句。

图2 《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》的相似度

与初步调查的步骤相同,我们将句子分解为2-gram,并使用Jaccard系数测算了它们的相似度,然后将结果按照从高到低进行了排序,图2即为三组不同时期句集相似性比较结果的前5000项。由于《明治句集》中存在与芭蕉完全相同的句子,因此图中显示出了极端高的数值(相似度为1.0)。但是,将比较对象扩大至前5000项,仍然可以清楚地看到《明治句集》的相似度始终显著高于《大正百家选》和《现代综合大句集》。同样,《大正百家选》的相似度也始终略高于《现代综合大句集》。通过将总计约5.1万句俳句与芭蕉作品进行比较,可以发现从1909年到1918年,再到1935年,随着时间的推移,其相似度、即“修辞回声”在逐渐降低。尽管这项调查未能提供关于季语或词汇使用、类型化表达等具体信息,但基于5万句规模的考察,能够得出以下结论:后期的俳句作品与芭蕉俳句在字面上的相似度随着时代变迁而不断降低,即在字句层面上渐行渐远。

在此基础上,我们比较了《芭蕉俳句全集》与《明治句集》《大正百家选》《现代综合大句集》中相似度最高的前30句作品(表1至表3)。可以发现,从明治、大正到昭和,此前相似度较低的句子也有可能逐渐上升到较高位置。正如在初步调查中也讨论过的,当相似度超过0.3时,即使通过人为判断也能感受到其相似性。如表1至表3所示,相似表现的关键在季语,当季语和切字的组合超过四个字符时,相似度就能达到0.3。在相似度高于0.4的句子里,除季语之外,还有其他词语的重合,使得其相似性更为显著。但相似度在0.2左右的句子中,重合的季语大多仅有三个字符,人为判断就较为困难。

此外,还可以看到,在相似度高于0.3的句子里,其相似性随着时代变化呈现出下降的趋势。不仅如此,有趣的是,即便是相似度低于0.2的句子也显示出了类似的结果,即相似性从明治、大正到昭和逐渐降低。若仅依据人为判断,相似度低于0.2时是很难发现这三个时期的俳句的表达差异的,无法感知其相似性也就难以进行比较。换言之,计算机通过将相似性量化的方法,捕捉到了人类肉眼无法比较的表达层面上的差异,并展示了其变化趋势。尽管是非常细微的差异,但确实可以看到后期的俳句创作在不断远离芭蕉式的表达。通过对近代俳句的大规模分析,揭示出了人力所不易察觉的长期且细微的“修辞回声”的变化。

表1 《芭蕉俳句全集》与《明治句集》中的高相似度作品

表2 《芭蕉俳句全集》与《大正百家选》中的高相似度作品

表3 《芭蕉俳句全集》与《现代综合大句集》中的高相似度作品

4 从正冈子规看芭蕉的接受

本章将以正冈子规的俳句为例,进一步考察日本近代对芭蕉的接受情况。

在此有必要指出本次定量分析的局限性。首先,用于对照的正文数据有一定局限。若要追求文学研究的精确性,原本需要在“全句”范围内进行详细考察,而且机器的文字识别准确性显然远未达到完美。其次,无论是芭蕉还是子规,其俳句风格均存在变化,文学研究向来是重视这种变化本身的[32],而以“全句”作为比较对象的量化分析就忽略了这种风格上的变化。但是,通过更细致的数据分类、文本校对和预处理等方法,或许能够在一定程度上克服这些问题。

正冈子规的俳句数据来源于子规纪念博物馆的“俳句检索”系统。本研究对其收录的25097句俳句进行了整理,将片假名转换为平假名,并分别准备了旧体字和新体字的数据。下文中将这个数据集称为“子规全句”。

我们首先将子规全句与《芭蕉俳句全集》和《明治句集》分别进行了比较,采用了与前一章相同的方法,结果如图3所示。观察图中曲线可以注意到两个特点:一是相比《芭蕉俳句全集》,《明治句集》和子规全句的相似度明显更高,这一点可以与图2进行对照,其差异一目了然;第二点是,相比《明治句集》,子规全句和《芭蕉俳句全集》的相似度更高。

      其中第二点似乎与一般认知相悖,因为致力于推动俳句近代化改革的子规,是以严厉批评芭蕉而闻名的。在《芭蕉杂谈》中,他曾以激烈的言辞说道:“芭蕉的俳句大半为劣句废话所充斥,能称为上乘之作的不过几十分之一”,还称“与其说芭蕉的作品受到肯定,不如说其品行为人所钦慕”,认为是芭蕉的人品而非其作品本身获得了评价。

      需要说明的是,子规并非单纯的芭蕉批评者。他对芭蕉的批判很大程度上源于对那些盲目崇拜芭蕉的旧派俳句诗人的否定态度。通过接受斯宾塞美学等思想,他也基于重视写实的现代自然描写意识对芭蕉简洁明快的表现方式予以了正面评价。

图3 《芭蕉俳句全集》《明治句集》与子规全句的相似度比较

这些是通过仔细解读子规的评论所掌握的他对芭蕉的具体解读。因此,就直觉而言,在将子规俳句与明治时期的大规模句集进行比较时,得出子规的作品反而更接近芭蕉这一结果,很难不让人感到困惑。在俳句革命中,正冈子规对被偶像化的芭蕉的批判广为人知。

      然而分析的结果确实如图3所示。那么,二人的作品究竟在哪些方面显示出相似呢?在讨论这个问题之前,还需要回顾一下图3的另一个特点,即明治句集与子规全句的相似性。与芭蕉作品相比,子规作品与《明治句集》之间的距离明显更为接近。

为了探其究竟,笔者制作了《芭蕉俳句全集》和《明治句集》、子规全句相似性对照一览表(表4)。可以看到,相似度为0.3的句子在《明治句集》中排第17位,而在子规全句中排第27位(有5句的相似度同为0.3),这意味着子规全句与《芭蕉全集》的相似性更高。通过对比,能够看出子规似乎是有意识地借鉴了芭蕉的俳句。而在《明治句集》收录的俳句中,虽然也有类似的受到芭蕉影响的例子,但也有一些作品,虽然在字面上看似有诸多相似之处,实际上并非真正借鉴了芭蕉,例如“胡麻蒔や風なきに散る栗の花”(明治)与“風なきに散るや若木の花櫻”(芭蕉),以及“吹風をうしろにしたり羽抜鳥”(明治)与“秋の夜をうしろにしたる法師哉”(芭蕉)等。

表4 《芭蕉俳句全集》和《明治句集》、子规全句中的高相似度句

相比之下,子规俳句中与芭蕉相似的句子,显然是有意识地进行了借鉴,并且在保持距离感的同时试图展现出一种幽默与机智。例如,子规的“春之山畠となつてしまひけり”很可能借鉴了芭蕉的“春の夜は櫻に明けてしまひけり”。芭蕉吟咏的是令人沉醉忘返、不觉夜明的樱花之美,而子规则以一种轻松而幽默的笔触,描写了本应繁花盛放的春山被开垦为农田的当下社会变化。正因为子规借鉴了芭蕉描绘樱花之美时那种超脱了世俗与时光的意境,才让他对人类的贪婪之举逐渐改变自然景观的现世景象的观察显得尤为独特而深刻。

此外,子规还将芭蕉以佛教悟理为主题的俳句“稻妻に悟らぬ人の尊さよ”改写为“長き夜を寐足らぬ人の尊さよ”。此句创作于1895年,当时子规尚未因病卧床,这一句或许只是单纯地表达了对能够安睡之人的羡慕之情吧。还有“肥壺や蛙とびこむ夕まぐれ”这一句,显然是以诙谐的口吻模仿了芭蕉的名句“古池や蛙とびこむ水の音”。

本章将子规俳句的全部数据与芭蕉俳句进行了对比分析。芭蕉与子规的关系一直以来受到了较多的关注,也有研究深入探讨了二人的个别俳句作品,但是将其所有俳句进行全面比较应该是此前尚未有过的尝试。当然,其中可能存在偶然的相似,也有一些可能仅是戏谑之作,并且如前章所述,即使仅有个别文字的重合,计算机也会统计在列。但是,正是通过如此这般机械化的比对,不放过任何字面上的外在相似性,并且全面展示了相似度从高到低的所有内容,我们才能够开辟出一条新的道路从整体上去思考有关相似性的问题,包括那些可能会被忽略的俳句。

当然,本研究也存在一定局限。本次分析以松尾芭蕉的俳句为起点,将芭蕉作品为单一中心点与数万首其他俳句进行对比,在形式性相似的层面上呈现出芭蕉与后世不同时期、不同作品之间的距离,但是无法涵盖俳句传统中多源并行的影响脉络。具体而言,近代俳句所受影响并不局限于芭蕉,而芭蕉本人亦承续了前代诸家的创作传统,此类复线性的继承关系未能在本研究中得到充分讨论。若能选取其他俳人为起点重复同样的分析,或许能够勾勒出新的影响关系网络。通过多重视角反复展开类似研究,俳句的接受史将得以进一步深化和拓展。

5 基于定量分析的接受研究的可能性

如上所述,基于国立国会图书馆“下一代数字图书馆”的馆藏资料,本文对明治、大正和昭和战前时期的大规模俳句集和《芭蕉俳句全集》进行了比较分析,还考察了正冈子规的俳句和芭蕉作品、《明治句集》的相似性。

目前,依靠计算机进行的质性内容分析还远远无法达到人类研究者的水平。无论是芭蕉、子规,还是大规模俳句集,都需要参考时代语境、作为借鉴的先前文学遗产,以及创作者的个人经历和经验等。这些的外部信息广泛存在于多种形式,需要细致解读并结合作品进行深入挖掘、论证。但是目前能够做到这一点的,仍然只有人类研究者。

但也有一些任务是只能通过计算机的数据解析完成的。无论如何,其工作内容的规模和效率都是压倒性的。近年来,随着技术的进步和大环境的变化,文艺作品的文本数字化进程加快,分析技术也不断提升。计算机的数据分析速度让人力不可企及的海量资料读取成为可能。由于工作量和速度的限制,人类通常需要根据文学家的重要性或文学史上的价值去预先筛选分析对象。这不仅导致了资料数量的局限,还可能产生先入为主的偏见。与此相比,计算机的工作则可以无视现有的文学史价值判断,将一切转化为数字进行处理。

就文学接受研究而言,除以往人类研究者探讨较多的创作者之间或作品之间的相互影响关系之外,如今还可以借助计算机对作品数据进行定量分析,追踪作品之间的相似性、潜在的共同主题以及作品主题的变化等。

关于“接受”和“影响”的既有讨论,大多基于某些重要的资料或优秀作品提取出抽象的主题,或者从某文学家或文艺群体使用的概念和理念(例如芭蕉及其门派提出的“风雅”“轻妙”等)的传承角度展开论述。例如,研究芭蕉近代接受史的权威学者久保田晴次如此描述他的研究目标:“本书的意图在于探讨众多的芭蕉论究的意义所在,以及从一种芭蕉论到另一种芭蕉论的流变所具有的意义。”久保田分析了芥川龙之介等近代作家对芭蕉的评价,考察其中的“意义”并揭示了芭蕉论的“流变”。最终,久保田选择以“实存”一词作为总结其研究的关键词。

从这种传统的文学研究的角度来看,本文在第二章的论述中将“引用”视为“接受”,以及在第三章和第四章中使用N-gram将俳句分解、通过句中词语的匹配数量来计算相似性的方法,可能会显得过于肤浅。因为“引用”是否等同于“接受”、用语的“相似”是否意味着“接受”,这些质疑是不可避免的

1918年,高浜虚子曾写道:“从德川初期到如今的明治大正,尽管俳句经历了或多或少的盛衰与变化,但可以说俳句就是芭蕉的文学。换言之,自松尾芭蕉这个人物出现并给传统俳句带来一场革命,在此后的二百余年间,虽涌现出俳人无数,但大多不过是步芭蕉后尘而已。”从江户到近代的两百多年里,俳人们的创作只是继承了芭蕉的文学事业,而虚子所指的“芭蕉的事业”,恐怕并非指芭蕉俳句的字面形式。字面的相似只是表面问题,更重要的应该是芭蕉的精神形态或世界观。若非如此,虚子也不可能做出这样的论断。

然而,在使用计算机进行大量数据分析的方法逐渐被引入文学研究领域的今天,真正需要重新审视的并非精神、思想或看待事物的方法。更重要的在于倾听并审视这些“修辞回声”,即坚持从字面层面入手的阅读实践,探索区别于人类传统阅读方式的其他可能性,重新构建“质”所无法衡量的、基于“量”的文学史。当然,这并不意味着思想的传承或文学观念的接受毫无意义。这些探索,如同过往一样,今后仍将是重要的研究课题。但是,贴近文本的分析同样重要。定量研究,即便不称之为“细读”,确是能够做到“贴近文本的分析”。它能够摈弃先入之见,忠实地追随文字,统计数量,计算概率、频率和字数。

尤其是在俳句中,文字的力量显得尤为巨大。在这种文学形式里,作品最多不会超过20个字,因此每一个字所承担的角色自然就变得举足轻重。桑原武夫曾经提出一个挑战性的问题:如果将作者的名字隐去,我们是否能够分辨出哪些是当代名家的俳句?他在这篇著名的评论中指出:俳句所面临的宿命就是,作品实际能够呈现的,与作者的理念或理想相比,总是显得言不尽意。因此,桑原认为,“就现代俳句而言,仅凭作品本身(即单独的一首俳句)去判定作者的地位是非常困难的”。芭蕉提出的俳谐世界固然所见高远,但这种高度抽象的概念性问题是否能在一个具体作品中得到充分的展现呢,现实未必如此。然而,正是这种局限,反而赋予了文字更多吸引读者深入解读的力量。面对通常只有十几个字的俳句作品时,读者会认真揣摩句中的每一个字词,在脑海中描绘这一句所构建的世界,甚至试图从芭蕉、芜村或子规的只言片语中推究他们的理念或理想。因此在俳句研究中,文字是至关重要的。而计算机的数据分析能力,让这种贴近文本的俳句分析、即对“修辞回声”的解构成为可能。这种能力,无疑将在未来的俳句和俳谐研究中发挥巨大作用。不过,计算机所追随的,终究是数字,而非理念。

文学作品的定量分析并非总能收获丰硕的成果,在很多时候,它可能只是验证了人们大致预料到的结果。例如,本研究中关于芭蕉的影响力从明治时期到昭和战前期间逐渐减弱的部分结论,也体现了这一点。当然,用明确的数字去证实那些隐约的猜想,这本身也是有意义的事情。但是,当计算机辅助的定量研究得出与预期相悖或完全未曾预想到的结果、以及发现人类未能发现的变化和特征时,就会产生较大的冲击力。例如,在松尾芭蕉与后世俳句作品相似性的经年变化中,当相似度低于0.2时,仅靠人力难以察觉,但计算机却检测到了这些细微的变化。此外,计算机还发现正冈子规的俳句比明治末年出版的大规模俳句选集在文字表达上更接近松尾芭蕉。这一结果有悖于我们对正冈子规——俳句近代化革命的旗手,同时亦是芭蕉的批评者——的直觉判断和先入之见。

6  结语——从“无意识修辞”到“数字文学史”

本文以接受研究为例进行了相关考察,可以认为,计算机辅助的文学定量研究是一种新的话语分析方法。就文学接受研究的历史而言,这种方法有可能在理论上更新姚斯提出的“期待视野”概念。姚斯试图从传统的文学创作和叙述美学转向接受和影响的维度重写文学史。从读者来看,文学作品并非出现在真空之中。读者心中始终有着判断的标准,会通过该文学体裁的内在规范、与名著之间的关系、诗性语言与实用语言的差异等来衡量对作品的接受方式。并且,文学作品本身也是在“广告、公开或非公开的信号、熟悉的标志或隐含的指令”中被创作出来的,这些因素极大地影响了读者对作品的接受方式。因此,新创作的文学作品都是基于“阅读的记忆”被接受的,同时又是被置于所谓的“期待”——“这部作品应该是这样的吧”——之中被解读的。这就是姚斯所说的同时代读者的“期待视野”。然而,优秀的原创作品是不同的,它们能够打破读者的“期待视野”,将文学史推向新的境地。

姚斯希望能从接受和影响的角度重新审视文学史,其重要性不容置疑,但是问题仍在于研究者应该借助何种资料与分析手段,才能有效重构这一“期待视野”仍然是一个尚未解决的问题。尽管在回顾文学史时,我们可以在一定程度上进行描述,但若谈及同时代的文学(研究)却显得困难重重。然而,随着大量数字文本的出现,如今重构“期待视野”正在成为可能——以一种与不同于以往的方式。过去和当代读者的阅读痕迹沉睡在数字档案和网络上的各类数据之中。如何挖掘这些痕迹,正是数字人文的文学接受研究所面临的课题,亦是可能性所在。通过对特定时代可获取的阅读数据进行大规模计算分析,并由研究者对分析结果进行解读,便能够揭示出该时代特有的阅读方式,而这理应构成“期待视野”的重要组成部分。

本文以接受研究为例进行了探讨,但这种方法的潜在可能性并不局限于该领域。海量数字化文本及各类信息分析技术的涌现,为多种文学类型的修辞分析带来了新的启示。关键在于,这种量化分析方法具备两大特质——其精细度超越了人类的感知能力,且在规模上又超出人类的处理极限。更值得关注的是,文学家创造的修辞本身往往延伸到创作者有意识控制的范围之外。文本中存在着作者本人未曾察觉的句式与引用,流淌着同时代其他创作者与评论家未能识别的互文链。这些无意识的修辞痕迹,早已深深镌刻在文本的字里行间。而精微且大规模的计算分析,正是从这些字面纹理中解析出“修辞回声”。笔者认为,基于定量的数据分析方法能够提炼出个体乃至时代中潜藏的“无意识修辞”。

文字所编织的图案,即为修辞。如今,修辞的矿脉正在大规模地转移到数字文本之中。不仅是文豪和诗圣的作品,那些被遗忘的小说家、小众诗人、无名的业余文学爱好者的创作,也都构成了这座矿山的一部分。著名评论家撰写的有影响力的评论、匿名的时事评论,以及地方读者的读后感,都平等地埋藏其中。计算机不会区别对待文豪、业余创作者、专业评论家或普通读者,而是通过挖掘将所有内容转化为数字的话语=数据的矿脉,即探听“修辞回声”,从而让我们得以从仅由著名文学家之间的相互关系来论述的俄狄浦斯式的文学史中逃离。数据挖掘揭示了人们与时代的无意识修辞,而新的“数字文学史”也将随之诞生。

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

  •