普通视图

Received before yesterday收藏

徐永明 | 明代文学文献的数字化、结构化和智能化

2026年4月7日 09:01

徐惠 2026-04-07 09:01 江西

文章围绕明代文学文献,阐述其数字化、结构化与智能化的现状、实践及意义。

转载自《中国韵文学刊》2025年第4期

明代文学文献的数字化、结构化和智能化

徐永明

【作者简介】

徐永明(1967—),男,浙江遂昌人,浙江大学文学院教授,研究方向为明代文学、数字人文。

摘要

明代文学文献的数量在1万种以上,然而影像数字化和文本数字化的工作依然任重道远。在大数据和人工智能时代,文本的结构化和智能化也提上了日程。结构化的数据,可以计量统计、定位查询及可视化呈现,同时,结构化的数据与文本结合,可以进行数据关联,为文本的阅读扫除障碍。AI通用大模型的引入,可以与专业数据结合,提升知识问答的准确率,激活学者的研究成果,而AI创意视频与古代文学的结合,则大大加强了古籍的活化利用,提高了学生学习古代文学的兴趣,促进了传统文化的普及和传播。

关键词:明代;文学文献;数字化;结构化;智能化;AI

在数字化时代,人们常见的文献形态,有纸质文献、金石文献、数字文献等样式。其中数字文献,又有影像数字文献、文本数字文献、结构化数据、智能数据等。基于芯片的数字文献,在算力、算法、模型等的加持下,在我们的学习和生活中,产生了越来越重要的影响。我们的祖先,给我们留下了浩如烟海的历史典籍,如何有计划地将这些典籍数字化、结构化和智能化,是我们这一代乃至几代人的历史使命。下面,笔者就明代文学文献的数字化、结构化和智能化谈点个人的观察和实践。

一  明代文学文献的数字化

根据《中国古籍总目·集部》的著录,明代楚辞、别集、总集、词集、诗文评及戏曲的著述有9600余种,如果再加上《中国古籍总目·子部》“小说类”1000余种的著述,则明代文学文献的数量有1万余种。当然,这不是明代文学文献的全部,因为《中国古籍总目》主要是几个大馆的联合目录,不能真正反映明代文学文献的全貌。国家后来启动的“全国古籍普查”项目已告一段落,各馆的古籍登记目录在陆续出版中。古籍普查结果显示,现存古籍总数为20余万种,比《中国古籍总目》的17余万种,多出3万余种。就明代文学文献来说,估计数量会有些增加,但总数应在15000种以内。 

根据国家图书馆原馆长张志清的说法,截至2025年,国图网站发布的数字化影像古籍大约有13万部。如以现存20余万种古籍平均3个版本计算,则古籍的实体总数为60多万部。13万部与60余万部的比例,大约为1/5。具体的影像数字化古籍的查询,可以访问“中国古典文献资源导航系统”(https://www.wenxianxue.cn/top.html?type=art),这个平台汇集了全球几乎所有图书馆、出版社、公司及个人的古籍影像数据库网址,分门别类,可以自由切换摆渡。此外,平台的建设者唐宸副教授还建立了“全球汉籍影像开放集成系统”,挂在首页。该系统提供书名和作者的一键式查询,其结果可以直接登录浏览,为学者的研究提供了极大的便利。

明代文学文献的文本数字化,在智能的OCR软件出来之前,主要是一些公司提供的产品,如北京爱如生数字化技术研究中心制作的“中国基本古籍库”软件有明别集785种,香港迪志文化出版有限公司制作的文渊阁“四库全书”有明别集239种。北京鼎秀科技有限公司开发的“鼎秀”数据库有明别集636种。由于机器学习和人工智能的出现,古籍版刻体字识别的瓶颈被突破,书同文、阿里、古联、如是、龙泉寺、汉王、字节跳动等公司和机构,纷纷推出了各自训练的古籍智能OCR软件,准确率均在95%以上。于是,古籍的文本数字化进入了快车道。按照现在的算力,如开足马力,13万种图像古籍,可以在短短的几年内文本数字化。不过,再智能的OCR软件,也不可能做到100%的准确率。人工校对,依然需要投入大量的人力和财力,不是短时间内能够完成的。

在智能的OCR软件出现的同时,也出现了智能的古籍标点软件,其准确率也达到了95%以上,一些高校和大公司都有自己开发的古籍标点软件。由于智能的OCR软件、智能的标点软件,加上众包技术的出现,古籍的整理,开始了规模化和工程化作业的模式。如文旅部自2024年开始,每年投入近1.5亿元给各省公共图书馆进行古籍数字化(影像和文本数字化)。图书馆作为收藏单位,本身没有能力承担古籍影像数字化和文本数字化的项目,于是采取招标的方式,由公司投标进行古籍的数字化项目。而国家图书馆作为牵头单位,建立一个中华古籍智慧化服务平台(https://guji.nlc.cn/),各馆数字化的古籍,均提交到这个平台来发布。

除了文旅部下属公共图书馆大规模的古籍数字化外,一些高校和公司利用众包技术,召集高校师生和专业校对机构进行古籍文本数字化的项目。如北京大学王军团队与字节跳动合作,建立了识典古籍平台(https://www.shidianguji.com/)。温州大学侯荣川团队和中华书局古联公司合作,进行明代别集的文本数字化工作。据古联公司总编辑朱翠萍介绍,明代别集的文本数字化,目前已完成600余种。浙江大学徐永明团队建立了“智慧古籍平台”(https://csab.zju.edu.cn),主要也是以整理明代别集为主。与前两者不同的是,该平台更多地侧重智能的呈现和利用。如文本要进行标点和审核,内容要进行标引和标注,人物有行迹图、世系图和社会关系图,大模型可以对文本进行翻译和赏析等(详见下文介绍)。目前已发布200余部明别集数据。

从上述的分析来看,明代文学文献的影像数字化虽然距离全部完成还有较长的路要走,但随着国家古籍数字化专项资金的持续投入,我们有信心看到,前方的终点会变得越来越清晰。明代文学文献的文本数字化,情况有些复杂,因为影像有版刻字体,有草书、行书等手写字体。如果是版刻字体,那有多少影像,就可以几乎同时得到多少未经校对的文本。不要标点的校对,可能需要一代或两代人的努力才能完成;高质量标点的校对,那可能需要数代人的努力才能完成。

二  明代文学文献的结构化

所谓结构化,就是将数据以表格的方式组织和呈现。表格,小的有Excel、Access,大的,可以是SQL Server、MySQL、Oracle等,甚至可以是标记过的text 文本。与非结构化的数据相比,结构化数据有以下几大好处。一是可以计量统计。如我们已经有了《全宋文》作家分字段的数据表,那么,我们可以利用表格中的函数(如数据透视)一键统计出各省或各县作家的人数。二是可以批量匹配。如果我们手头有两张表,一张是人物著作表,一张是人物籍贯表,那么,利用表格中的函数(如VLookup)可以生成一张带有籍贯的人物著作表。三是可以可视化。如可以将统计的结果生成柱状图、饼状图。四是可以进行空间分析。如通过不同时代的人物籍贯表,可以分析人物的分布情况及版图的变化情况。五是可以进行社会网络分析。如著录了亲属关系和社会关系的表格,就可以利用Pajk、Gephi等软件进行可视化呈现,从边和点对人物的交往亲疏和影响力进行分析。六是结构化的数据可以为语言大模型提供数据增强检索和分析,提高问答的准确率。

结构化数据的种类很多,如有人物、地名、名物、时间、职官、科举、图像、书目、篇目等。在数字技术出现以前,人们其实已经做了很多有关结构化的工作,我们可以称之为准结构化文献。如正史中的人物传记、地理志书、各类辞典等,都是带有结构化特征的文献。就明代来说,准结构化的数据,人物类如《明史》中的人物列传、《国朝献征录》(焦竑)、《明人传记资料索引》、《明人室名别称字号索引》、《明遗民传记索引》、《中国文学家大辞典》(李时人,明代卷)、《明代名人传》(英文)、《明人碑传索引》(汤志波,十四册)等;地理类如《明史》中的地理志、《大明一统志》、《天下水陆路程》(明黄汴)、《客商一览醒迷》(明李晋德)、《大明一统志》等;职官类如《明史·职官志》、《明代职官年表》、《明代职官中英辞典》(张颖等);科举类如《明清进士录》、《明清进士题名碑录索引》、《明代登科总录》(二十五册)等;年代类如《明人年谱知见录》(李佳琪,志传)、各类明人年谱等;书目类如《千顷堂书目》、《明史·艺文志》、《明代传奇全目》(傅惜华)、《明代杂剧全目》(傅惜华)、《明别集版本志》、《明别集整理总目》(汤志波)、《明人别集经眼叙录》(徐永明、赵素文)、《台湾藏稀见明别集总目提要》(李玉宝)等;篇目类如《20世纪中国古代文学研究文献总目·明代论文卷》(曹鑫)等。

然而,准结构化数据毕竟不等于数据库。如就人物辞典来说,其主要的构成是人名的词条加上小传。而人物数据库,则有人名、字号、朝代、生卒年、籍贯、经纬度、仕履、著述、亲属关系、社会关系等不同字段的信息,而且,一个人物数据库,可以是各种不同表格组合构成的关系型数据库。譬如,哈佛大学与北京大学、台湾“中央研究院”联合开发的中国历代人物传记资料库(CBDB)就是一个关系型数据库,该数据库迄今已收入了65万人物,其中明代人物为222194人(截至2025年6月11日)[该数据为CBDB项目经理王宏甦提供。]

图1中国历代人物传记资料库人物数据统计表

CBDB数据库,可以实现过去准结构化辞典不能实现的功能。如统计女性的死亡年龄、中进士或中举人的年龄、男女的婚配年龄等。因为是对群体人物的研究,故有所谓“群体传记学”之说。数据库可以多条件查询人物信息,如某地某时的官员任职情况。这个在纸本时代,即便有工具书,也是不易查找的。此外,CBDB的人物籍贯地理信息、亲属关系、社会关系信息,在查出结果后,可以保存为地理信息或社会关系的格式,用专门的软件进行可视化的呈现和分析。

现代意义的结构化数据,除了CBDB外,与明代有关的尚有哈佛大学与复旦大学史地所合作建的“中国地理信息平台”(CHGIS)、哈佛大学的“世界地图平台”(Worldmap)、浙江大学的“学术地图发布平台”(http://amap.zju.edu.cn) 、浙江大学建立的“智慧古籍平台”(https://csab.zju.edu.cn) 发布的数据。CHGIS是数字人文的基础设施平台,里面包含了历代地名所属的行政区域、地名的经纬度等信息。Worldmap是应用地图,发布过“明代卫所分布”及“明代驿站路线图”等。

浙江大学的“学术地图发布平台”发布的地图有两类,一是人物行迹图,一是分布图。就明代的人物行迹来说,目前发布的主要有张以宁、危素、宋濂、陶宗仪、戴良、刘基、杨基、张羽、徐贲、胡奎、高启、瞿佑、杨士奇、解缙、于谦、沈周、陈献章、李东阳、王鏊、杨一清、祝允明、湛若水、王九思、唐寅、文徵明、王阳明、刘节、李梦阳、王廷相、康海、边贡、陆深、严嵩、夏言、何景明、杨慎、李濂、木公、李元阳、李开先、徐阶、吴承恩、归有光、唐顺之、王慎中、冯惟敏、茅坤、李攀龙、海瑞、沈明臣、梁辰鱼、徐渭、吴国伦、张居正、汪道昆、王世贞、李贽、沈一贯、焦竑、顾大典、屠隆、孙鑛、陈与郊、梅鼎祚、汤显祖、臧懋循、胡应麟、沈璟、冯琦、叶向高、袁宗道、徐复祚、徐光启、叶宪祖、谢肇淛、袁宏道、袁中道、钟惺、曹学佺、冯梦龙、冯梦熊、王思任、刘宗周、凌濛初、钱谦益、文震亨、苍雪、叶绍袁、徐霞客、担当、吴炳、张岱、张溥、陈子龙等人。有关明代的分布图,有《中国文学家大辞典》(明代卷)分布图、明代布政使司任职名单定位查询、明代山东散曲家地域分布图等。

浙江大学建立的“智慧古籍平台”目前主要以整理明代文学文献为主。平台发布的著述,不仅篇目独立成结构化的数据,进行了文体分类,而且对文章的地域关系进行了标注,形成可按行政区查询的结构化数据。此外,人物还有世系图、社会关系图。世系图主要的人物有杨维祯(1296)[括号内为人物生年,下同。]、张以宁(1301)、宋濂(1310)、刘基(1311)、章溢(1314)、胡深(1314)、陶宗仪(1320)、王袆(1322)、高启(1336)、方孝孺(1357)、杨士奇(1365)、夏原吉(1366)、胡广(1370)、薛瑄(1389)、商辂(1414)、姚夔(大章)(1415)、谢一夔(1425)、刘健(1433)、李东阳(1447)、杨廷和(1459)、席书(1461)、唐寅(1470)、文徵明(1470)、王守仁(1472)、康海(1475)、徐祯卿(1479)、严嵩(1480)、夏言(1482)、何景明(1483)、杨慎(1488)、韩邦靖(1488)、许宗鲁(1490)、归有光(1507)、海瑞(1514)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、徐渭(1521)、袁尊尼(1524)、张居正(1525)、王世贞(1526)、王穉登(1535)、焦竑(1540)、孙鑛(1542)、屠隆(1543)、邹迪光(1550)、汤显祖(1550)、胡应麟(1551)、袁宏道(1568)、冯梦龙(1574)、钟惺(1574)、钱谦益(1582)、叶绍袁(1589)等。

社会关系图主要有宋濂(1310)、刘基(1311)、陶宗仪(1320)、王袆(1322)、方孝孺(1357)、虞谦(1366)、商辂(1414)、李东阳(1447)、王鏊(1450)、杨一清(1454)、祝允明(1461)、文徵明(1470)、李梦阳(1473)、顾璘(1476)、张含(1479)、徐祯卿(1479)、严嵩(1480)、何景明(1483)、韩邦靖(1488)、苏祐(1493)、李开先(1502)、田汝成(1502)、王慎中(1509)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、张居正(1525)、汪道昆(1526)、王世贞(1526)、李贽(1527)、戚继光(1528)、杨时乔(1531)、孙鑛(1542)、屠隆(1543)、臧懋循(1550)、汤显祖(1550)、董其昌(1555)、叶向高(1559)、冯梦龙(1574)、钟惺(1574)、凌濛初(1580)、钱谦益(1582)、倪元璐(1593)、宋征舆(1617)、董说(1620)等。

从目前结构化数据来看,明代的数据主要还集中在地名、人名方面。从今后的发展来看,要建设明代结构化数据的任务还很重。如人物的行迹数据,现在主要还局限于比较有名望的人物,而二、三流的人物行迹数据,还有待今后来建设。此外,明代人物的日记、年谱,也有待结构化。就地名来说,CHGIS主要还是省府县三级的数据,大量地方志中县级以下的地名需要结构化。就图像来说,明代文献中的图像标注还没有真正启动。

三  明代文学文献的智能化

数字技术的发展,为明代文学文献的智能化提供了可能。那么,现代的数字技术能使明代文学文献达到怎样程度的智能呢?能为我们的学术研究提供怎样的便利呢?根据笔者的认知和实践,数字技术可以在以下几个方面使文献智能化。

其一,数据生产的智能化。智能OCR、智能标点、智能标引使古籍的整理时间大大缩短,极大地提高了古籍整理的效率,并大幅度降低整理的成本。可以说,古籍整理90%以上的工作可以让机器替代,人工只要负责10%的工作量。此外,线上众包技术让众多的文史爱好者参与其中,分工合作,使得纸本时代单一作业的模式变为集体作业的模式,改变了传统古籍整理的方式,建立了全新的古籍整理范式。目前,古联科技公司、“识典古籍平台”、“智慧古籍平台”均采用了线上众包作业的模式。由于是众包作业,每个人完成的工作量都有记录,且有排行榜,有利于结算酬劳。如果有国家的经费支持,可以解决文科生的就业问题。

其二,数据呈现的智能化。就“智慧古籍平台”来说,发布在前台的文本,由于经过标引,文本数据与后台的工具书产生了关联。这样,文本的地名可以定位,人名、词语、职官、时间等实体均有工具书的关联和解释。一般的阅读障碍就基本消除了。平台引入语言大模型后,古诗文还可以今译、英译,还可以赏析。这对于传统文化的传播,起到了极大的推广作用。此外,人物的行迹图、世系图和社会关系图,又加深了读者对人物的了解。兹就地名的定位举一例说明。刘基曾写过一首《稽句岭》的诗。诗云:“白日隐岩嶅,千崖气势豪。溪流婺女阔,山入少微高。危石天敧侧,长风谷怒号。干戈方自此,行役敢辞劳!”[1](卷八)刘基的这首诗,描写的是他返乡或奉命赴任途中,经由此岭,触景生情,描绘了稽勾岭一带险峻壮丽的自然山川,抒发了诗人身处乱世、肩负使命的豪情与责任感。按:稽句岭,即稽勾岭,今名金钩岭,是丽水至武义稽勾古道上的一个要冲,在武义境内。《栝苍汇纪》:“由寿玄而北百里为稽勾山岭,曰稽勾岭,崔嵬盘绕亘二十余里。”[2](卷七)由于智慧古籍平台对稽句岭作了标引,在后台添加了经纬度,因此,阅读此诗时,就可以精确定位。这样,对诗歌的理解就有了地理空间的认知。

其三,数据问答的智能化。大语言模型的出现,使得人机交互成为人们学习和工作不可或缺的工具。浙江大学文学院数字人文中心与杭州云四库科技有限公司联合开发了文史垂类模型——云四库智能问答系统(https://www.aiyskqa.cn) 。该系统基于杭州深度求索公司的DeepSeek R1、DeepSeek V3和阿里通义千问的Qwen72B、Qwen-QwQ、 Qwen3-235B、Qwen Plus 、Qwen 2.5-max等通用大模型为底座进行数据增强。目前已投喂古籍、研究著作及论文共二百多亿字的数据,能较好地回答各类文史问题。譬如,我们问一个“杨维祯为什么被称为文妖”的问题,机器给予了如下的回答:

杨维祯被称为“文妖”,这一称号源于其独特的文学风格与当时主流文学观念之间的冲突。以下从多个角度对这一称号的由来及意义进行分析:

一、杨维祯文学风格的“怪异”与“奇谲”

杨维祯(号铁崖)是元末明初的重要文学家,他所创作的“铁崖体”诗文以奇诡、放纵、夸张、浪漫为主要特色。他不拘泥于传统格律,敢于突破形式的束缚,融合古乐府、民歌、戏曲等元素,形成了极具个性的风格。这种风格在内容上也表现出对个性自由的追求,甚至在某些诗作中流露出对传统道德观念的反叛。例如,他的一些艳情诗大胆描写情感与欲望,这种表现方式在当时理学盛行、讲究“雅正”的语境中显得格格不入。

二、王彝的《文妖》批评

明代文人王彝在其《文妖》一文中,对杨维祯的文风进行了严厉批评。他将杨维祯比作“狐妖”,指出其文章“以淫辞怪语,裂仁义,反名实,浊乱先圣之道”,并批评其文风“柔曼倾衍,黛绿朱白”,具有“妖媚惑众”的力量。王彝认为,这种文风不仅偏离了儒家正统思想,还具有蛊惑人心、影响青年的危险性,因此称之为“文妖”。

三、“文妖”称号的多重含义

“文妖”这一称号并非仅指杨维祯文风的怪诞或形式上的奇诡,更深层地反映了其文学思想与当时主流意识形态之间的冲突。在王彝等理学派文人看来,杨维祯的创作不仅形式上不守规矩,内容上也挑战了儒家伦理,是对“文以载道”传统观念的背离。因此,“文妖”不仅是对其风格的形容,更是一种道德与思想上的批判。

四、后世对“文妖”称号的再评价

尽管杨维祯在当时受到如王彝等人的严厉批评,但后世学者如胡应麟等人却对其才情给予了高度评价。胡应麟认为杨维祯的艳情诗“才情缥缈,独步当代”,其诗风“超异神俊,追踪谪仙”,甚至将其与李白、温庭筠、李贺等古代名家相提并论。这说明,随着时代观念的变迁,“文妖”这一称号逐渐被赋予了另一种解读——它成为对杨维祯文学个性与创新精神的肯定。

五、结语

综上所述,杨维祯之所以被称为“文妖”,主要源于其文学风格的奇谲怪异、内容上的个性张扬,以及与当时儒家正统文学观念的冲突。这一称号既包含了对其文学创新的否定性批评,也折射出当时文化语境中对“异端”文学的排斥。然而,从文学史的发展来看,这种“妖”的标签恰恰体现了杨维祯作为一位文学革新者的独特价值。

机器注明了大模型使用了Qwen-72B,并注明了文献来源,分别有《古代文学理论研究丛刊》(第二辑)、邱江宁撰《元代文人群体的地理分布与文学格局研究》、孙小力《杨维祯在嘉定的活动及其影响考论》、《元明清诗鉴赏辞典》、廖可斌《压抑与躁动——明代文学论集》、《明代文学思潮史》、《明代文学复古运动》。应该说,这样的回答基本是符合实际的。

上述的例子,仅仅是云四库一个应用案例。实际上,云四库的功能远不止于止,限于篇幅,此处不再展开。“智慧古籍平台”接入了云四库智能问答系统,因此,不仅“智慧古籍平台”上的诗文能今译、英译及赏析,而且还随时可以跳转到云四库智能问答系统进行人机交互问答,这样的便利是纸本时代不可想象的。

其四,AI创意与古籍的活化利用。我们除了利用语言大模型进行知识的智能问答外,还可以利用大模型文生图、文生视频的功能进行古籍AI视频创作。这是一个崭新的天地,能够极大地促进古籍的活化利用,调动学生学习古文的积极性。大语言模型刚推出的时候,央视就推出国内首部AI全流程微短剧《中国神话》。 智慧古籍平台发布了多个刘基《郁离子》的AI创意视频,附在相应的文本之后。

图2  用AI制作的相马图

千里马 绀鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 绀羽鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 规执政 https://abm.zju.edu.cn/share.html?id=h9Ax4reHR&type=vod

千里马 良桐 https://abm.zju.edu.cn/share.html?id=M4ziI9eHR&type=vod

千里马 乱几 https://abm.zju.edu.cn/share.html?id=FFPWS96Hg&type=vod

千里马 戚之次且 https://abm.zju.edu.cn/share.html?id=SddVSreNg&type=vod

千里马 巫鬼  https://abm.zju.edu.cn/share.html?id=WJKIS96NR&type=vod

千里马 献马 https://abm.zju.edu.cn/share.html?id=MZzHS96Hg&type=vod

千里马 燕王好乌 https://abm.zju.edu.cn/share.html?id=za9NS96Ng&type=vod

千里马 养枭 https://abm.zju.edu.cn/share.html?id=mK1DI9eHR&type=vod

千里马 忧时 https://abm.zju.edu.cn/share.html?id=BkAOS96NR&type=vod

鲁般 萤与烛 https://abm.zju.edu.cn/share.html?id=4eeBN9eHg&type=vod

鲁般 东都旱 https://abm.zju.edu.cn/share.html?id=TYNLN9eHg&type=vod

鲁般 https://abm.zju.edu.cn/share.html?id=RCALHr6HR&type=vod

鲁般 九尾狐 https://abm.zju.edu.cn/share.html?id=ce_LNreHR&type=vod

我们还可以将这一应用进行广泛推广。譬如,明代诗文、小说、戏曲均可以用AI进行短视频的创作,从而激发学生学习古代文学的兴趣,推动古代文化的普及和传播。

需要指出的是,不论哪一款大语言模型,DeepSeek也好,通义千问也好,都不能解决古文深度语义交互的问题。譬如,我们要问机器关于明代乐府诗的成就和特点,机器只会根据现在的研究材料来回答这个问题,而不能从明代作家所有原典文献中去查询分析来回答。假如机器能根据提供的古书,通过检索和分析,回答提问者任何问题,那么,我们可以说,古籍的智能化真的是到达了一种理想的状态。

四  余论

从上面的叙述中我们可以看到,明代文学文献的数字化、结构化和智能化,是一个漫长且极有意义的系统工程。所谓漫长,是因为明代文学文献的体量过于浩大,即便是先进的技术能帮助解决90%以上的工作量,但依然有大量的工作需要人力来完成,这需要几代人的努力。所谓有意义,一是能提高人们的工作效率,促进学术的研究向纵深的方向发展;二是借助数字技术和优质数据,有利于文化的普及和传播;三是可以激活学者的研究成果,使高冷的学术研究成果走向社会,服务大众;四是发挥数据在人工智能时代的要素作用,使其成为推动社会发展的新质生产力。

参考文献

[1]刘基.诚意伯刘先生文集[M].明成化六年(1470)戴用、张僖刻本.

[2]熊子臣,何镗.栝苍汇纪[M]//四库全书存目丛书:193册.济南:齐鲁书社,1996.

此文原载于《中国韵文学刊》2025年第4期。

原创内容如需转载,须经本刊编辑部授权。

订阅·投稿·查询

1. 点文章标题下的“中国韵文学刊”进行订阅,或扫码下方二维码订阅,或直接搜微信公共帐号:中国韵文学刊。

2. 投稿网站:https://YWXB.cbpt.cnki.net/

投稿邮箱:yunwenxuekan@163.com

3. 关注后输入关键字可浏览过刊目录及部分文章,如查询2014年第1期,输入“201401”即可浏览。本刊为季刊,一年四期。

《中国韵文学刊》

长按左侧二维码识别即可关注

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

经典回顾 | 数字人文主义者需要了解算法吗?(2016)

2026年4月7日 09:01

本杰明·M·施密特 2026-04-07 09:01 北京

本杰明·M·施密特:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。

图片

《傅立叶艺术》Juan López Gómez

https://www.fourierart.com/

Do Digital Humanists Need to Understand Algorithms? 

数字人文主义者需要了解算法吗?

作者:本杰明·M·施密特 (Benjamin M. Schmidt)

译者:丁怡瑞(剑桥大学数字人文系硕士研究生)

算法与转换

伊恩·博戈斯特(Ian Bogost)最近发表了一篇文章,认为对算法的过度迷恋会损害我们准确描述所处世界的能力。他写道:“像‘算法’这样的概念已经沦为草率的简写,成了将多部分复杂系统误认为简单单一系统的俚语”。他指出,即使是计算文化的批评者也难以抵挡这种诱惑,将算法描述得仿佛它们拥有某种无可辩驳的美;这导致他们对计算行为形成了一种“扭曲的、神学式的理解”,忽略了人类的能动性。

作为少数在人文学科领域内创造并应用算法的领域,数字人文拥有得天独厚的优势,能够帮助人文学者更好地理解算法的运作机制,而不是盲目地崇拜或谴责它们。然而,我们常常刻意忽略算法背后的理解和意义,转而采用一种工具化的方法,仅仅将算法视为可以凭直觉判断其效用的手段。计算机底层的复杂性使得某种程度的认知盲区在所难免。当复杂度超越临界点时,人文学者确实无需理解产出结果的算法机制;鉴于现代软件的复杂性,他们即便想理解也难以企及。

尽管软件中有些元素我们可以忽略,但要将人文数据分析作为一项学术活动而非仅仅是一项技术活动来实践,一些基本的理解标准仍然必不可少。有些算法的确是繁复冗杂、缺乏连贯性和目的性的程序,而另一些算法则包含着我们完全能够理解的假设。算法的运行方式与算法的运行方式截然不同,理解算法的运行方式更为重要。我想在此论证的是,一个成熟的人文数据分析领域不应仅仅从外部检验算法的有效性;相反,它应该探索软件所描述的流程背后假设的意义。简而言之:数字人文主义者完全不需要理解算法本身,但必须洞悉算法试图实现的转换过程。唯有如此,我们的实践才能更具成效,更可能真正实现原创性突破。

这一论点的核心在于区分算法和转换。算法是一组可精确指定的步骤,用于产生特定的输出结果。“算法”是计算机科学的核心研究对象;关于算法的主要理论问题涉及运行这些步骤所需的资源(特别是时间和内存)。另一方面,“转换”是指算法可能进行的重构。这个术语与计算机科学的联系相对较弱。其最紧密的学科联系在于数学(例如几何学中描述对形状可施加的操作)和语言学(构成诺姆·乔姆斯基“转换语法”理论的核心)。

从计算角度来看,算法创造转换。然而,从认知层面来说,人们设计算法是为了自动执行特定的转换。也就是说:转换表达了一个连贯的目标,这个目标可以独立于产生它的算法而被理解。也许最简单的例子就是排序的转换。“有序性”是一个普遍属性,任何人都可以独立于产生它的操作来理解它。在人文研究中,字母排序的用途,例如生成文本索引或整理姓名索引,与用于排序的具体算法无关。事实上,计算机排序列表的具体算法存在多种变体。某些经典的排序算法,例如快速排序,是计算机科学教学的基础。(对排序算法的经典汇编和解释是克努特经典计算机科学著作的前半部分。)如果认为人文学者需要理解像快速排序这样的算法才能使用排序后的列表,那就太荒谬了。但是, 我们确实需要理解有序性本身,才能充分利用排序列表的独特特性。

理解转换意义的另一种方法是将算法工具化地使用;例如,寄希望于潜在狄利克雷分配(LDA)之类的算法能够近似表示“主题”、“论述”或“论题”等现有对象,并探索其无法做到的细小领域。然而,这种将软件视为工具的方法,对于理解它几乎毫无益处;它寄希望于算法能够近似地表示现有意义,往往也阻碍了其创造新意义的可能性。传统人文主义者对大规模文本分析的主要批评是,它未能为学者提供任何新知。此类批评虽常有谬误,却确实触及了一个令人沮丧的缺陷:当前普遍采用的远读方法往往无法开辟理解文本的新路径。

将大规模分析与斯蒂芬·拉姆齐(Stephen Ramsay)所谓的“算法批评(algorithmic criticism)”相结合,虽然可能不那么立竿见影,但却更有趣。算法批评是指运用算法转换来开启文本的新解读方式。即便某些算法(如拉姆齐所描述的案例)在转换过程中本身不具意义,这一方法依然有效。但那些本身就蕴含某种目的的转换,更可以帮助我们创造出新的文本版本,从而提供新颖或有用的视角。探寻并描述这些转换如何运作,正是我们应该更加重视和推广的工作。

傅里叶变换与文学时间

安妮·斯沃福德(Annie Swafford)和马特·乔克斯 (Matt Jockers)就乔克斯的“Syuzhet”软件包展开的辩论。Annie Swafford 与 Matt Jockers 围绕 Jockers 的 “Syuzhet” 软件包所展开的争论,为我们提供了一个有用的案例,说明深入探讨某种“转换”本身的目的,如何能够丰富我们描述文本的词汇。尽管斯沃福德最初的批评指出了该软件包的几个问题,但她与乔克斯的后续讨论主要集中在乔克斯使用信号处理中的低通滤波器(low-pass filter)作为“平滑函数(smoothing function)”的恰当性上。乔克斯认为,这提供了一种“滤除情感轨迹中极端值”的绝佳方法。而斯沃福德则认为,这种方法常常会受到“振铃伪影(ringing artifacts)”的影响。在实践中,这意味着生成的曲线几乎只关注“最低点,而忽略了两侧的上升或下降”。

斯瓦福德和乔克斯的争论不仅围绕一个算法,更围绕一个被具体定义的“变换”展开。Jockers 用来分析情节结构的低通滤波器,其数学基础是离散傅里叶变换(Discrete Fourier Transform, DFT)。将傅里叶变换视为理解叙事结构的一种“构成方式”,这个想法本身颇具吸引力;但正如斯瓦福德所论证的,它很可能是错误的。斯瓦福德所描述的“振铃伪影”源于一个更大的问题:变换本身所蕴含的对时间的基本理解。

傅里叶变换的的目的,是通过将复杂信号拆解为其组成部分,把周期性事件表示为频率。人类经验中最基本的一些元素,尤其是光和声音,在物理上是以重复波的形式存在的。而傅里叶变换提供了一种简便的方法,可以将这些无限长的波描述为一组不断重复的短频率。例如,纯音“A(La音)”是以每秒 440 次的频率持续脉动的;但当由单簧管演奏时,这个“A”音包含大量规则的泛音(overtones)——这些泛音是频率更高、能量较低的成分音,使声音比单一纯音更丰富。像 Jockers 使用的那种滤波器会去除这些规律性;它通常用于 MP3 压缩等处理过程中,以去除人耳听不到的高频音符。如果对这样的单簧管音色应用更强烈的滤波,它会去除高频部分,保留音符“A” , 但会削弱乐器独特的音色。

将“情节”表示在频率域中,这一想法颇具吸引力,但也建立在一些高度可疑的假设之上。其中最令人惊讶的假设是:情节如同声音或光一样,由无穷无尽重复的信号组成。乔克斯使用的这种“低通滤波器”会忽略文本中任何呈现周期性重复的要素,而是聚焦于最长周期的变化,比如那些跨度超过文本长度四分之一或三分之一的趋势。这个过程类似于根据一段仅持续 1/440 秒(基频的一个节拍)的“A”音符音频片段来预测单簧管的后续音效。令人惊讶的是,这对于音符来说是可行的,但这仅仅是因为这个音调会无限重复。而Syuzhet 软件包中的默认平滑处理假设书籍也遵循同样的规律;除其他因素外,这意味着:经过平滑后的情绪曲线会把整本书开头的情绪视为结尾情绪的“延续”。(我在《Commodius Vici》一书中对此有更详细的解释。)

对于某些情节,包括乔克斯使用的主要例子《一个青年艺术家的肖像》, 这种假设并不明显错误。但对于其他文本结构,它会造成很大的问题。图 48.1 展示了 《一个青年艺术家的肖像》 和其他四部小说的情节,文本均取自古腾堡计划。威廉·迪安·豪威尔斯的 《塞拉斯·拉帕姆的发迹》讲述的是一个关于毁灭的故事; 霍瑞修·爱尔杰的 《衣衫破烂的迪克》是十九世纪典型的“白手起家”小说; 《包法利夫人》 则是经典的关于衰落的悲剧故事。图中展示了三种不同的平滑函数:加权移动平均,这是最简单的函数之一;局部加权回归散点平滑法(LOESS),这是探索性数据分析中最基本、假设最少的算法之一;以及 Syuzhet 软件自带的低通滤波器。

这里,傅里叶变换的问题显而易见。这种周期性的函数使得包法利夫人死后境况与她出轨前一样“好”。而假设较少的方法则允许她的命运在结尾崩塌,也允许衣衫破烂的迪克的命运轨迹向上而非向下倾斜。 安德鲁·派珀(Andrew Piper)指出 , 回答 “我们如何判断一条曲线是否‘错误’?”这个问题可能相当困难。但在本例中,错误之处显而易见;只有试图闭合循环才能解释小说结尾拉格德·迪克命运的下跌。(译者注:因为傅里叶变化的循环结束点必须接上开头)

这是什么类型的证据? 根据乔克斯的说法,包法利的例子仅仅是对该方法的一种“否定性验证”(negative validation),我认为他的意思是,这是一种对“该方法在所有情况下都是最佳方法”这一论断的经验性证伪(empirical falsification)。斯瓦福德的文章也暗示,逐案验证和证伪衡量方法优劣的黄金标准。用她的话来说,这套方法(或许整个数字人文领域)需要“更多的同行评审和严格的测试——旨在证实或反驳假设”。

从这个角度来看,算法的本质是一个操作过程不透明的系统;我们可以尝试或检验它是否符合我们的预期,但我们永远无法真正了解它。然而,当算法成为实现有意义变换的手段时,例如傅里叶变换,我们就能做得比“质量测试”更好;我们可以预先通过解释性分析来判断变换会在哪些方面失败。我选择 《包法利夫人》 并非随意之举,并非为了检验它是否足够好;相反,平滑方法的推论让我意识到,悲剧类小说整体上都无法被 Syuzhet 的平滑方式正确处理。我有些忐忑地承认,我从未真正读过 《包法利夫人》 或 《衣衫褴褛的迪克》 ;但它们都是情节与低通滤波器平滑完全不相容的典型例子。任何其他以死亡和绝望或非凡好运结尾的小说都会以同样的方式“被算法误读”。

图片

图 48.1  以极坐标绘制的四条轨迹图

这些问题也贯穿于乔克斯的一系列基本情节模式中:所有图表都以完全相同的情绪开始和结束。然而,在软件包推出后的头两个月里(这期间的审查力度肯定远超任何同行评审流程),这种假设的明显问题却并未被发现。这些缺陷未能立即显现的一个特别有趣的原因是 ,像图 48.1 这样的折线图并不能完全体现傅里叶变换的假设。我们用来展示结果的统计图形本身就可以被视为一种转化,它将数据带入一个新的分析领域。在这种情况下,我们用来绘制图表的几何图形和坐标系本身就带有特定的模型。这类折线图假设时间是线性且无限的。一般来说,这无疑是纸上表示时间最简单、最准确的方法。然而,它并不符合傅里叶变换所假定的频域(frequency domain)。如果傅里叶变换是观察图表的正确方法,我们应该使用极坐标系作图,因为极坐标系会循环回到起点。我在图 48.2 中重新绘制了相同的数据,其中百分比用一个角度表示,该角度从时钟的 12 点钟位置开始,而情感倾向则不是由高度而是与中心的距离来定义。

图片

图 48.2 以极坐标绘制的四条轨迹线

在这里,傅里叶变换的假设更加清晰。对于这里的所有小说而言,时间构成了一个闭合的循环;结尾点必须扭曲自身以与开头对齐,反之亦然。而其他算法则允许存在巨大的断层:《 包法利夫人》的弧线向内盘旋,仿佛坠入下水道,而 《衣衫破烂的迪克》 则向外推进飞升。

这些环形情节图不仅仅是为了证伪。以这种方式全面理解转换背后的假设,不仅凸显了模型的缺陷,也为我们思考情节提供了一种新的视角。这种观点强调了开头与结尾之间的鸿沟是小说的核心特征;由此,它挑战我们去思考情节所占据的时间究竟是不是一种单向线性的(straightforwardly linear)存在。

这场讨论之所以值得继续,部分原因在于它提醒我们重新审视自己对于情节与时间的诸多前设。笛卡尔坐标系(直角坐标系)所暗示的无限时间,在某种程度上与极坐标图一样是错误的。许多平滑方法(包括我希望在 Syuzhet 中使用的 loess 回归)很容易将时间外推到情节的开头和结尾之外。这恰恰表明,它们在某种程度上同样不适用于当前的任务。事实上, fabula(故事顺序)与syuzhet(叙述顺序)之间的区别核心在于,我们无法谈论小说“开始之前”的内容,也无法预测莎士比亚如果在 《哈姆雷特》 结尾之后再多花几个小时创作,会写出什么文字 。任何暗示存在此类短语的模型显然都是错误的。

但即便这些转变可能并非完全正确,它们或许仍能带来新的理解和分析方法。虽然这种“循环回归”的结构显然不适用于小说,但它对更广泛意义上的情节研究却具有重要意义。通过探究频域图的适用范围,我们可以从抽象层面识别出更适合应用此类方法的领域。

例如:理想的“三机位情景喜剧”剧本应该允许剧集在轮播中以任意顺序播出。也就是说,在某些方面,它们应该是循环往复的。对于情景喜剧剧集而言,循环性是一个值得牢记的有用框架。情感、主题或其他属性的契合度,对于理解商业影响如何与创作自由交织在一起,或者理解一个类型随时间的演变,都可能是一个极其有用的工具。这种信号处理的技术或许还能用于识别,例如,电视台在何时、何处允许编剧展开跨多集的剧情线。

尽管斯瓦福德和乔克斯的对话主要围绕“平滑”问题展开,但许多数字人文主义者似乎发现斯瓦福德提出的第二个批评更有意思。她认为,乔克斯软件包提供的情感分析算法(其中大部分基于带有情感评分的词典)产生的结果经常违背“常识”。第一个问题看似枯燥乏味,但第二个问题为数字人文主义者提供了一个平台,让他们探讨如何更好地理解我们运行的算法的“黑箱”。一个算法“符合常识”意味着什么?为了实用,它需要 100%正确吗?95%?还是 50.1%?如果数字人文要成为一个会采用他人创造工具的领域,那么这些正是它需要练习解答的问题。

然而,这样表述问题,就再次将算法本身视为不可知的。就像傅里叶变换一样,我们最好有意识地探究情感分析的转换究竟做了什么。例如,我们不应该将 Syuzhet 的情感分析部分视为一组待匿名受试者测试的词表,而应该思考如何以最佳方式实现情感分析背后的底层算法——或许是逻辑回归( logistic regressio)——来区分“褒贬”二元分类之外的事物。例如,乔克斯的灵感来源库尔特·冯内古特(Kurt Vonnegut)认为,情节的核心二元不是“快乐/悲伤”,而是“顺境/逆境”;也就是说,虽然情感分析提供了一个有用的捷径,但大规模平台更应创建一个真正能区分其领域中核心二元对立的分类器。安德鲁·派珀对情节结构的研究涉及小说内部的比较。这样的研究可以帮助我们更好地理解情节。他让文本与自身对话,并从其他领域中找到新的有用的转换方式。

这样做意味着,数字人文主义者可以帮助消除博戈斯特所揭示的“算法统治神话”,而不是参与构建此类神话。当历史学家将精神分析应用于历史研究时,我们并没有建议他们与精神分析学家“合作”,然后用历史记录来检验他们的论断有多少真实性;相反,历史学家会主动运用这些概念,将其视为具有解释力、本身就有意义的理论工具。当底层算法难以理解或过于复杂时,人文主义者能够深入探究算法的“黑箱”固然有益且有用。但即便如此,数字人文主义者的首要任务也应该是理解算法所服务的转换和系统的目标和意图,这样我们才能成为新思想的创造性使用者,而不是对工具的目的和前提一无所知、只是被动使用工具的人。

/来源:Gold, Matthew K., et al.“48. Do Digital Humanists Need toUnderstand Algorithms?Benjamin M. Schmidt." Debatesin the Digital Humanities 2016, 2.0, University ofMinnesota Press,13 Apr. 2016.

推荐阅读:

凯特·克劳福德、特雷弗·帕格伦《采掘人工智能:机器学习训练集中的图像政治学》(2019

凯特·克劳福德、弗拉丹·乔勒:《人工智能解剖学》(2019)

转自“左手数字右手人文”公众号

图片

初审:徐碧姗

复审:段婧怡

终审:夏翠娟

阅读原文

跳转微信打开

课程介绍丨AI时代的数字目录学及其基础设施

2026年4月4日 17:30

2026-04-04 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课程将视角延伸至数字目录学与数字人文基础设施建设,并结合教学反馈展开讨论。

教师将聚焦人工智能时代的数字目录学发展,结合清华大学团队近年来在相关基础设施研发与课程教学中的实践经验,对数字目录学的未来发展方向、基础设施建设路径及相关教学活动进行系统性梳理与反思。

主讲人:唐宸

清华大学人文学院副教授,教育部哲学社会科学实验室“中华传统文化智能实验室”核心成员,兼任《数字人文》编辑,主要从事中国古典文献学、数字人文研究,研发了“典津-全球汉籍影像开放集成系统”“奎章阁-中国古典文献资源导航系统”“中国数字人文(DHCN)”等基础设施。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

课程介绍丨AI+文献学课程建设与科研思考

2026年4月3日 17:30

2026-04-03 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课开始,老师们将在智慧课程建设这个主题的基础上围绕科研与教学展开进一步思考。

课程以AI+文献学课程为案例,探讨AI在文献学智慧课程设计中的教学应用场景与创新边界;最终落脚于数字化研究方法的学理反思,构建技术工具与人文阐释互鉴共生的文献学研究新生态。

课程的内容要点分别有数字人文与古典文献学的交叉融合路径与思考,AI辅助下的文献学课程设计、教学创新与反思以及文献学的数字化研究方法的思考。

主讲人:贾智

中山大学中国语言文学系(珠海)教授、博士生导师、系副主任。主要研究方向为汉语言文字学,特别是中古汉语、近代汉字的发展、流变和域外传播研究,兼及敦煌遗书、域外文献整理与研究。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

Call for paper | NLPCC 2026

2026年4月3日 09:00

NLPCC 2026 2026-04-03 09:00 江苏

NLPCC 2026于11月在澳门举办,6月13日截稿,录用论文由Springer出版。

转载自“计算机科学讲义”

会议全称:

The 15th CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026)

时间地点:

2026年11月3-5日,澳门

会议网址:

http://tcci.ccf.org.cn/conference/2026/

联系人:

info@nlpcc2026.org

投稿链接:

https://openreview.net/group?id=ccf.org/NLPCC/2026/Conference#tab-recent-activity

大会简介

CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC 2026) 是中国计算机学会自然语言处理技术委员会的年度会议。自2012年创办以来,已在郑州(2020)、青岛(2021)、桂林(2022)、佛山(2023)、杭州(2024)和乌鲁木齐(2025)等地成功举办。NLPCC是自然语言处理和中文计算领域领先的国际会议。它为来自学术界、产业界和政府部门的研究人员和实践者提供了一个重要的交流平台,分享思想、研究成果和经验,并促进相关领域的研究和技术创新。

NLPCC 2026 将延续这一传统,欢迎提交原创性、高质量的研究成果。所有录用论文将由 Springer Lecture Notes in Artificial Intelligence (LNAI) 出版,并提交至主要学术数据库检索,确保研究成果的国际传播与学术影响力。

征稿方向

NLPCC 2026 欢迎以下领域的原创研究成果(包括但不限于):

  • 语言学与自然语言处理基础:Discourse and Pragmatics; Linguistic Theories, Cognitive Modeling and Psycholinguistics; Phonology, Morphology and Word Segmentation; Semantics; Syntax: Tagging, Chunking and Parsing

  • 机器学习、模型与智能体:Machine Learning for NLP; Interpretability and Analysis of Models for NLP; Large Language Models; LLM Agents

  • 多模态与交互系统:Machine Translation and Multilinguality; Speech and Multimodality; Dialogue and Interactive Systems

  • 信息抽取、检索与文本理解:Information Extraction and Knowledge Acquisition; Information Retrieval and Text Mining; Question Answering; Text Summarization and Generation

  • 应用与伦理:NLP Applications; Computational Social Science and Social Media; Sentiment Analysis; Ethics and NLP; Resources and Evaluation; AI for Science; AI for Software Engineering

重要日期

  • 投稿截止:2026年6月13日

  • 录用通知:2026年8月4日

  • 终稿提交:2026年8月15日

大会组委会

General Chair

Yue Zhang, Westlake University

Program Chairs

Roy Ka-Wei Lee, Singapore University of Technology and Design

Qi Zhang, Fudan University

Meishan Zhang, Harbin Institute of Technology (Shenzhen)

Workshop Chairs

Tieyun Qian, Wuhan University

Yang Zhao, Institute of Automation, Chinese Academy of Sciences

Evaluation Chairs

Jie Yang, Harvard University

Kunli Zhang, Zhengzhou University

Tutorial Chairs

Zhaochun Ren, Leiden University

Wenbin Jiang, Beijing Normal University 

Xiting Wang, Renmin University of China

Publication Chairs

Jianxing Yu, Sun Yat-sen University

Jin Wang, Yunnan University

Organization Chairs

Derek F. Wong, University of Macau

Haofen Wang, Tongji University

往届论文推荐

欢迎通过Springer出版您组织的学术会议,联系编辑团队获取合作信息!

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

课程介绍丨AI+语言学的智慧课程建设与实践设计

2026年4月2日 17:30

2026-04-02 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本讲开始,我们进入智慧课程建设模块。首要的工作就是夯实理论基础,构建系统的方法论。

本课紧扣“AI课程建设”的核心主题,以《语言学概论》课程为具体案例,分析从顶层设计到课堂落地的智慧课程建设全流程。

首先,教师带领学员解读国家教育数字化战略行动的最新政策,剖析智慧课程建设的核心意义和内涵。

在此基础上,进一步探讨大语言模型、自动化知识图谱分析、课程多源数据库建设等前沿信息技术,如何从底层逻辑上重塑语言学乃至整个新文科的教学目标、内容体系与课堂中的师生关系。

最后,通过“语言学概论”课程从0到1的建设实录,真实展示如何借助信息技术破解文科教学长期存在的难点,构建数智化混合式教学新形态。

主讲人:龙润田

暨南大学文学院副教授,博士生导师,北京市课程思政教学名师,暨南大学汉语方言研究中心研究员、岭南数字人文广东省实验教学示范中心研究员、暨南大学—科大讯飞方言语音科技联合实验室研究员。主要从事南方少数民族语言历史与文化、语言智能与数据计算、国际中文教育相关领域的研究工作。主持国家社科基金、国家出版基金、教育部国家语委专项等国家级、省部级项目多项。在国内外权威期刊发表论文20余篇。获国家发明专利授权2项,软件著作权3项,研发TonePro、FormantPro等语言调查软件,建设“新发现少数民族古文字数据库”等数据资源。研究成果获第二十二届中国社会科学院吕叔湘语言学奖,教学成果曾获北京高校优质本科教材课件奖等省部级教学成果奖两项。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

《语言与智能》征稿启事

2026年4月2日 09:00

BFSU AI 2026-04-02 09:00 江苏

以下文章来源于:北外人工智能与人类语言实验室

北外人工智能与人类语言实验室

实验室立足学校外语教学与研究传统优势,聚焦国家人工智能与教育领域的前沿问题,创新机制体制,凝聚国内外交叉学科智库资源,着力开展语言学习机理研究、基于人工智能的语言教学研究、多语言语料库、多语自然语言处理和外语健脑强智研究。

第1辑正式出版,第2辑开始征稿,欢迎各位专家学者赐稿,感谢大力支持!

近年来,以ChatGPT为代表的大语言模型的出现使语言智能研究成为人们关注的热点领域。为充分发挥教育部哲学社会科学实验室、语言智能教育部工程研究中心的科研育人作用,深化科教融合,加快科研成果转化,北京外国语大学人工智能与人类语言重点实验室联合外语教学与研究出版社,推出《语言与智能》学术期刊(ISBN:978-7-5213-5692-2)。期刊聚焦人工智能与人类语言领域前沿问题,旨在推动语言学、认知科学和人工智能等领域的深入研究,促进学科交叉融合,加强研究者相互交流,传播高水平前沿学术研究成果,支持优秀学术人才成长。

《语言与智能》第1辑已于2024年10月正式出版,包含语言认知、语言智能服务、语言智能教学、语言智能翻译四个栏目,共8篇学术文章,感兴趣的读者可在文末选购本书。

《语言与智能》第2辑 征稿启事

1. 期刊定位与目标

《语言与智能》是一个涵盖语言学、人工智能、认知科学、神经科学、临床医学等领域的跨学科学术中文期刊,主要刊发语言与智能领域原创性研究成果、理论性文章和反映研究现状的评论性文章。每年出版2期,面向国内外公开发行。

秉承“交叉融合、守正创新”的办刊宗旨。坚持以多元领域的前沿重大理论问题和重要现实问题为导向,择优录用能够引导交叉学科发展的原创性稿件,刊载具有理论性、实证性及前沿性的研究成果。本刊根据国际学术期刊惯例,不以职称、学历、单位等标准判定论文质量,全程实行匿名评审制度,及时向作者反馈审稿意见。

2. 主要栏目

(1)语言智能研究:涉及语言学与其他认知科学、智能科学的交叉领域研究,包括语言与认知、语言与脑科学、机器翻译、计算语言学、知识图谱研究、语言蚀失和语言障碍研究、语料库研究、智慧语言教学等。

(2)言语规律及其机理研究重点研究人类言语现象和规律,基于脑科学、认知科学的语言现象机理研究,人类言语行为与机器智能的互动促进研究等。

(3)语言数据和语言模型研究:包括语言数据的收集、标注、应用以及数据驱动的语言研究技术等。

(4)语言智能技术研究:包括语音识别与合成、机器翻译、自然语言处理、人机对话、大模型原理与对齐技术、智能搜索等领域的关键技术创新研究。

(5)语言智能创新应用研究:包括大语言模型应用场景、策略的研究等。

(6)前沿综述与评述:涉及学科研究的前沿动态、最新发展趋势等的研究综述与反映研究现状的评论性文章。

(7)学界动态:包括书刊评介(对近2年内的语言学外文原版专著进行内容介绍和评价,需突出重点及新兴信息)、交叉学科建设资讯等。

3. 稿件要求

(1)原创性论文:要求具有较新的观点,或在研究过程中采用新的理论视角、研究方法;基于数据且比较扎实的个案研究;写作规范,方法科学,论证围绕核心观点展开,长度10,000—12,000字。

(2)书评:主要针对近三年出版的语言智能研究领域论著,以国内外新书为主;在介绍的同时,以研究性评论为主;内容可涉及该书的选题、价值、特点、研究方法以及不足之处等,长度8,000—12,000字。

(3)来搞要求遵守学术规范。参考文献格式体例参照中华人民共和国国家标准《信息与文献 参考文献著录规则》(GB/T 7714-2015)。

(4)投稿请直接发送投稿邮箱bfsu_ai@126.com,邮件请以“专题+标题+姓名+作者单位”命名,来稿附件请用Word文件。初审通过后,编辑部将邀请专家进行外审,一般在三个月内就刊登与否予以答复,若到期未收到录用通知,作者可自行处理稿件。稿件内容文责自负,编辑部保留对稿件进行必要修改的权利。

(5)来稿请于文末注明作者简介,包括姓名、单位、职称(在读研究生请规范注明“博士研究生”或“硕士研究生”;在站博士后请规范注明博士后流动站名称或所在二级学院和“在站博士后”)、研究方向、通讯地址、邮编、电话及电子邮箱。若有多个作者,请用分号隔开。获得基金资助的项目,请注明项目名称及项目编号。

    欢迎各位专家学者赐稿,感谢大力支持。

《语言与智能》期刊编辑部

2024年11月

《语言与智能》第1辑正式出版

 点击图片看大图

感兴趣的读者请点击下方小程序选购本书。

阅读原文

跳转微信打开

会议通知丨中国历史文献研究会数字文献分会第四届年会

2026年4月3日 08:30

2026-04-03 08:30 湖北

为深入贯彻落实国家相关战略部署,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月在武汉举办“中国历史文献研究会数字文献分会第四届年会”。

2026

国历史文献研究会数字文献分会

第四届年会

中国·武汉

在数字人文蓬勃发展的时代背景下,古籍文献的整理、研究与传承已步入数智赋能的新阶段。国家高度重视古籍资源的转化利用,明确以体系化整理、知识化构建、智能化应用为导向,系统推进古籍数字化进程。

为深入贯彻落实国家相关战略部署,进一步探讨数智时代传统文献研究的理论前沿与实践路径,中国历史文献研究会数字文献分会联合湖北大学文学院,立足雅学与传统语言文献的数字化整理及数据库建设实践,拟于2026年10月武汉举办“中国历史文献研究会数字文献分会第四届年会”。

会议拟围绕数智赋能下的传统文献本体研究、数据库及数据平台建设、数字人文教育教学理论与实践、人文学科高水平实验室建设等问题展开深入研讨,旨在推动古籍整理研究的理论、方法与实践创新,促进古籍资源的当代传承与活化利用。诚邀海内外专家学者与青年学子踊跃投稿、莅临研讨,携手推进古籍数字化研究与传承创新,共促数字文献研究高质量发展。

1

会议时间

2026年10月下旬

2

会议地点

湖北武汉

3

会议议题

共设置7个议题

1. 中国古典文献文本分析

2. 雅学与传统语言学研究

3. 中国古典文献的数字化整理与研究

4. 古籍大数据构建及智能体辅助研究

5. 数字人文理论与方法探索

6. 数字人文人才培养与教学实践

7. 人文学科高水平实验室建设

4

参会与投稿

请有意参会者于2026年6月30日前扫码提交参会回执;

2026年8月31日前提交会议论文全稿至会议邮箱shuziwenxian@ancientbooks.cn。

扫码填写参会回执

5

会议费用

1. 会议不收会务费;

2. 交通费、住宿费自理;

  1. 承办方负责会期餐食及会议其他费用。

6

会议联系

杜老师 :027-88661842

朱老师 :010-63311541

会议邮箱:

shuziwenxian@ancientbooks.cn

中国历史文献研究会数字文献分会

湖北大学文学院

中华书局古联公司

2026年 2月14日

END

来源 | 数字人文专业发展联盟

阅读原文

跳转微信打开

《数字人文》2026年第1期——“数字人文与出土文献研究”专刊出新

2026年4月1日 17:30

数字人文 2026-04-01 17:30 北京

以下文章来源于:DH数字人文

DH数字人文

清华大学、中华书局联合主办《数字人文》(Journal of Digital Humanities)季刊,旨在为方兴未艾的数字人文研究提供理论探讨和专题研究的平台。

《数字人文》上新了!

《数字人文》2026年第1期是“出土文献与数字人文专刊”,系国内学界首次以学术专刊形式对出土文献等冷门“绝学”内数字人文成果的集中展示。本期共刊发12篇文章,从内容上看,包括理论探索、平台建设、个案研究和出版实践等多方面,关注甲骨和简帛的缀合、古文字识别与析形,探索天文地理,介绍数据库平台及数字化出版方式。从涉及的材料类型和时代上看,涵括甲骨文、金文、战国秦汉简帛、石刻等,跨越商周到蒙元数千年历史。这些文章,反映近几年来相关领域数字人文的成果,并加以综述,希望能对关心出土文献研究的学者提供新的视角,为数字人文拓展新的领域。本期专刊从选题确定到编校完成,历时超两年,编辑部对作者们的大力支持表示诚挚感谢,也衷心邀请更多出土文献领域采用数字人文手段进行研究的学者不吝赐稿!我们愿意为最新的实践创造发表平台,让更多新颖的、有意义的学术探索尽快公之于众。

目    录

 理论与平台

数字人文与当代中国出土文献研究的现代性特征

许  可

人工智能古文字析解模型的初步训练

聂 菲 宋奥齐

数智时代的出土文献研究:“古汉语小站”建站经验与反思

薛腾阔 

动态视图在文字编管理系统中的应用研究 

数字人文与甲骨学研究

人工智能引导人类直觉产生的甲骨新缀第41-50 组

李霜洁 蒋玉斌

数智化整理助推甲骨文校重工作新发展

莫伯峰 巩诗晨 武智融

面向识别研究的甲骨文数据集标准的探索

陈婷珠

数字人文与简帛学研究

楚简古书类文献通假研究的数据库方法

——以“清华简”(壹—玖)为中心

 孙 欣 刘志基

语料信息处理视角下的里耶秦简缀合研究

冯慧敏 郭帅帅

秦汉简帛文献数据库的建设及文字学应用

张再兴 林 岚

实践与出版

上博简五《竞建内之》“星子曰为齐”考

——基于天象模拟技术的探析

李 凡

蒙元时期石刻族谱文献的数字化分析

——以地域分布与时代特征为中心

王 琪 

动态视图在文字编管理系统中的应用研究 

古文字工具书的数字化转型思考与实践

——以 《古文字构形类纂·金文卷》为例

姜 慧 闵怡然 

动态视图在文字编管理系统中的应用研究 

征稿启事

CONTENTS

Theory and Platform

Digital Humanities and Modern Characteristics of Contemporary Research on Unearthed Documents in China

Xu Ke 

Preliminary Training of an AI Model for Ancient Script Analysis

Nie Fei, Song Aoqi

Research on Unearthed Texts in the Digital-Intelligence Era: The “Classical Chinese Hub” Website—Development Experience and Reflections

Xue Tengkuo

Digital Humanities and Oracle Bone Studies

AI-Guided Human Intuition Discovers New Oracle Bone Fragment Rejoinings: Series 41–50

Li Shuangjie, Jiang Yubin

New Developments in Repetition Proofi ng for Oracle Bone Inscriptions Driven by Digitalization Collations

Mo Bofeng,Gong Shichen, Wu Zhirong

Exploration of Oracle Bone Inscription Data Set Standards for Recognition Research

Chen Tingzhu

Digital Humanities and Bamboo Slips and Silk Studies

The Database Method for the Study of Ancient Literature in the Chu Bamboo Slips: Centered around the Tsinghua Bamboo Slips (1-9)

Sun Xin, Liu Zhiji

Research on Liye Qin Bamboo Slips Conjugation from the Perspective of Digital Humanities 

Feng Huimin, Guoshuaishuai

The Construction and Application of the Qin-Han Bamboo Slips and Silk Database

Zhang Zaixing, Lin Lan

Practice and Publication

Research on the “ 星子曰为齐” in the “Jing Jian Nei Zhi” of “Bamboo Slips V in the Shanghai Museum”:Analysis Based on Celestial Event Simulation Technology

Li Fan

Digital Analysis of Stone Carving Genealogical Documents during the Mongolian Era and the Yuan Dynasty: Focusing on Geographical Distribution and Times Characteristics

Wang Qi

Reflection and Practice of the Digital Transformation of Ancient Chinese Character Reference Books:Taking the Compilation of Ancient Character Confi guration Categories Formations —the Volume of Bonze Inscriptions as an Example

Jiang Hui, Min Yiran

Call for Papers

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

转载 | 纪要:【“数字与人文”跨学科系列讲座】Andrea Nanetti:可视化映射:从列奥纳多·达·芬奇到奇点

2026年3月30日 15:36

中大高研院 2026-03-30 15:36 广东

以下文章来源于:中山大学人文高等研究院

中山大学人文高等研究院

发布中山大学人文高等研究院相关学术信息

2025年11月28日晚,中山大学人文高等研究院“数字与人文”跨学科系列讲座第十四讲在中山大学南校园图书馆顺利举行。广州美术学院数字人文特聘教授安德烈亚·纳内蒂(Andrea Nanetti受邀主讲,主题为“可视化映射:从列奥纳多·达·芬奇到奇点——基于定义、假设、观念、概念与解读的研究路径(Visual Mapping from Leonardo Da Vinci to the Singularity)”,讲座由中山大学信息管理学院程焕文教授主持。

Andrea Nanetti教授在讲座中

一、正名与溯源:“艺术”与“技术”的概念考古

在讲座中,纳内蒂教授以历史经验(尤其是文艺复兴时期的智慧)为基石,通过辨析核心概念、回溯技术变革中的历史先例并展示其团队在数字人文领域的实践,探索如何为现代人文学科建立坚实的应用计算技术的方法论框架,系统阐述了连接历史智慧与未来技术的前沿路径。

讲座伊始,纳内蒂教授回归欧洲古典传统,厘清了“艺术”(Art)与“技术”(Technology)的概念:希腊语单词τέχνη与拉丁语对应词ars本指同一事物,即“制作的学问”,二者的现代分野是历史建构的结果。在古代,“自由七艺”属于理论思辨,绘画、雕塑等则被归为“机械艺术”,地位较低。直至文艺复兴时期,“纯艺术”概念在意大利兴起,创作者的社会价值与文化价值才获得重估。纳内蒂教授强调,当代人文学科以理解人类境况为核心旨趣,应当利用一切可用的“技艺”与“技术”,这正是数字人文工作的根本意义

二、历史的范式:面对技术变革的三种抉择

为阐明如今面对人工智能等颠覆性技术时的应有立场,纳内蒂教授援引三类人物作为先例,勾勒出三种典型的反应模式。

1)十五世纪佛罗伦萨书商韦斯帕夏诺·达·比斯蒂奇(Vespasiano da Bisticci)的拒绝与退隐。作为曾为美第奇家族服务的杰出手抄本书商,比斯蒂奇代表着前印刷时代知识生产美学与工艺的巅峰。古登堡印刷术这一“颠覆性技术”传播至意大利时,他并未拥抱变革,而是选择在1480年左右退休并关闭书店。在回忆录中,他视印刷书籍为“廉价”且“低质”的产品,破坏了手抄本承载的工艺标准与审美价值。他的选择代表了深刻的保守立场:当新技术与既有伦理、美学标准严重冲突时,主动退出与自我边缘化成为其坚守尊严的方式在今日的数字人文领域,部分学者表达了类似的态度,即批评数字工具“粗浅”或“不可靠”而拒绝使用。这虽是基于学术操守的合理选择,但也意味着自愿脱离该领域未来的主流发展轨道

韦斯帕夏诺·达·比斯蒂奇

2)十七世纪化学家波义耳(Robert Boyle)的开拓与创制在波义耳的时代,物质研究领域主要由充满神秘主义色彩的炼金术主导,其工具与方法无法满足建立基于实证与理性观察的新科学范式(即现代化学)的需求。面对这一困境,波义耳并未向旧工具妥协,也没有选择被动等待新工具的出现,而是亲手设计和制造了空气泵等革命性的实验仪器。他的实践揭示了这一关键原则:当研究议题的深度超越了现有技术手段的极限时,真正的学术突破往往依赖于研究者为自己“量身定制”工具的能力这对于当今数字人文的启示直接而深刻:我们不能仅仅满足于使用商业公司提供的通用型人工智能或软件,为解答人文学科中具体、复杂的问题,必须主动参与甚至主导开发专用的工具与方法

波义耳

3俄里翁(Orion)与刻达利翁Cedalion)神话的当代启示纳内蒂教授展示了一幅描绘盲眼巨人俄里翁与站在其肩上的少年刻达利翁的画作,引申出有关知识与技术关系的核心隐喻:力大无穷却目不能视的俄里翁象征着人类所积累的庞大数据和知识库(当今的大语言模型与海量数据库),是巨大而无方向的“力量”。身形渺小却拥有视觉的刻达利翁则象征着人类研究者,他并不能替代巨人的力量,却为其提供关键的方向指引。这精妙地回应了当下关于人工智能的争论:技术模型本身并不天然具备目的性与判断力(正如OpenAI等机构常申明不对输出结果负责),是需要被驾驭的“巨人”。人文学者的核心角色,便是成为不可或缺的“指引者”,将自身的领域知识、批判性思维与伦理判断注入研究过程,确保将技术巨人的力量引导至富有意义的人文探索之路上

俄里翁与刻达利翁

三、从视觉思维到记忆工程:达·芬奇的遗产与现代实践

纳内蒂教授将列奥纳多·达·芬奇(Leonardo da Vinci)的工作方法置于核心,将其视作如何成为“可视化映射”的典范。屏幕是未来知识获取的主要渠道,面对这一现实,如何在有限空间内有效压缩和展示信息便成为关键挑战,达·芬奇为此提供了历史范例。

纳内蒂教授指出,达·芬奇的笔记常被误解为混乱的图文混杂,实则体现了超前的非线性视觉思维。以达·芬奇对人类视觉的研究为例,在当时缺乏现代科学且许多文献难以理解的情况下,达·芬奇无法从传统文本中获得满意答案,于是转而借助绘画来思考。他所绘制的眼睛解剖图及伴随文字并非简单的插图与说明,而是视觉化的研究提纲。他以主动的视觉重构探索光线进入眼睛并被大脑处理的过程,这表明达·芬奇不仅是在观察,更是在通过视觉手段实现知识聚合

达·芬奇及其手稿

受到达·芬奇历史经验的直接启发,纳内蒂教授及其团队与“工程历史记忆”(Engineering Historical Memory)项目及国际历史科学委员会(International Committee of Historical Sciences)展开合作。其项目的目标不只是利用AI生成数字替身进行演示,更是要深入探索计算技术真正赋能历史学的方法论。在方法上,该项目秉持波义耳“自制工具”的精神致力于为历史学家打造专属工具,其核心是运用信息可视化技术将过去与现在的复杂数据联系起来,从而揭示其背后完整的故事脉络。

最后,纳内蒂教授由历史路径归结到面对技术奇点(Singularity)的根本问题上。技术奇点临近,我们该如何自处?我们可以像书商韦斯帕夏诺那样固守传统,但可能为此而自我边缘化;也可以像波义耳那样,为建立新范式勇敢打造自己的工具。但最重要的是,必须牢记俄里翁与刻达利翁的隐喻:技术与数据如同盲眼的巨人,人文学者必须站在其肩上,扮演指引方向的角色。因此,未来的使命不仅是解读文本,更要通过“可视化映射”来重新组织和理解人类的知识体系。这是从达·芬奇的智慧到迎接奇点挑战一以贯之的探索路径。

编辑:陈旖旎

初审:蔡一峰

复审:林  耿、陈诗诗

审定发布:张  伟

阅读原文

跳转微信打开

课程介绍丨基于可视化编排的 AI 史料挖掘与溯源验证

2026年3月31日 17:31

2026-03-31 17:31 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课开始我们进入模块三:学习利用零代码编程开展研究的工作全流程。

在生成式人工智能(AIGC)重塑知识生产的当下,人文学者面临着双重困境:传统的编程工具(如 Python)学习曲线陡峭,让人望而却步;而新兴的大模型虽然能快速生成内容,但其固有的黑箱机制与幻觉风险,使得输出结果难以满足人文学科对证据来源与逻辑可控性的严苛要求。

如何在享受技术红利的同时,捍卫学术研究的严谨性?本课程将围绕具体的数字人文研究案例,讲授一套AI条件下“低门槛、高严谨”的研究流程。

主讲人:张光伟

陕西师范大学历史文化学院讲师,硕士研究生导师。担任陕西师范大学丝绸之路历史文化虚拟仿真实验教学中心(省级)主任,国际长安学研究院数字长安研发中心主任,全国历史学实验室建设联盟秘书长,国际教育合作协会(GPE)咨询委员会委员。主要从事"人工智能+历史学"交叉学科研究。发表各类相关研究论文20余篇,参与、主持多项国家级、省部级社科基金与自然科学基金项目。开设数字人文与新文科以及国际理解教育相关课程。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

课程介绍丨零代码搭建人文数据库及人文智能体

2026年3月30日 17:30

2026-03-30 17:30 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课程为方法论与工具实操课。教授学员零代码搭建人文数据库及人文智能体的具体方法。

以自研的汉语方言学大词典数字化平台、汉语方言语音特征数智平台、广州话电子字典、明清坊刻通俗小说数据库为实例,帮助学员在实践中理解人文数据库建设的完整路径。剖析上述平台的设计思路、前后端实现及AI智能体研发逻辑,逐步建立起符合学术规范的数据基础设施建设方法论。继而通过零代码平台实操,演示如何无需编程即可搭建人文类数据库和智能体,并利用其服务学术研究与教学。

主讲人:彭志峰

暨南大学文学院中文系讲师,广东省岭南数字人文实验教学示范中心(省级)副主任,暨南大学-科大讯飞方言语音科技联合实验室(省级)副主任,暨南大学汉语方言研究中心(省级)研究员,粤语语料库建设与大模型评测重点实验室(市级)研究员,主持4项省部级项目,研究方向为数字人文与方言科技。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

《数字人文专业委员会简报》2026年第3期

2026年3月30日 11:44

2026-03-30 11:44 山西

本期简报设前沿透视、数据资源建设、新书推介、会议培训及学术观察五个栏目。

图片

编者按本期简报设前沿透视、数据资源建设、新书推介、会议培训及学术观察五个栏目。前沿透视栏目聚焦姑苏智典·苏州市古籍知识服务平台、中国哲学书电子化计划(Ctext)的功能更新以及清华大学“九歌·推敲”小程序的发布动态数据资源建设栏目关注北京语言大学BCC语料库2.0版的发布上线。新书推介栏目精选《数字人文教程》、《数字文本历史隐喻论纲》两部专著。会议培训栏目预告“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)、文化基因解码与智慧数据资源建设研讨会、文化遗产的数字未来会议等八项重要会议。本期学术观察栏目精选四篇近期研究成果,持续追踪数字人文在方法创新与技术反思层面的前沿探索。

本期目录

前沿透视

  • 姑苏智典·苏州市古籍知识服务平台上线

  • 中国哲学书电子化计划(Ctext)推出AI对齐翻译及多语言实体摘要功能

  • 清华大学发布“九歌·推敲”小程序初版

数据资源建设

  • 北京语言大学BCC语料库2.0版上线

新书推介

  • 《数字人文教程》

  • 《数字文本历史隐喻论纲》

会议培训

 会议预告

  • “大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

  • 文化基因解码与智慧数据资源建设研讨会

  • 文化遗产的数字未来会议

  • 第九届语言学与汉语教学国际论坛(IFOLCE-9)

  • 融合与边界:人工智能时代的数字人文发展新进阶

  • 第五届东亚古籍数字人文国际论坛(DHEAC 2026)

  • 太平洋邻里协会(PNC)2026年会议

  • 中国历史文献研究会数字文献分会第四届年会 8

学术观察

  • 主权AI视域下的中国数字人文自主知识体系建设

  • 历史文本何以建构:以蒋廷黻《中国近代史》为例

  • 数字资本主义的新趋势:技术封建主义还是自反性现代化?

  • 概念联觉视角下《周易》的深度数字化文本探勘

前沿透视

姑苏智典·苏州市古籍知识服务平台上线

由苏州图书馆牵头,携手多家公共图书馆、高校图书馆、博物馆等公藏单位打造的姑苏智典・苏州市古籍知识服务平台正式上线服务。平台采用跨界融合建设模式,规划发布古籍不少于1000种,涵盖国家级、省级珍贵古籍及苏州方志、别集、园林文献等本土特色资源,并将持续更新扩容。该古籍知识服务平台与苏州图书馆虚拟展厅、古籍解读短视频、首届苏州市古籍 AI 活化共创大赛等本土项目协同联动,形成 “苏州古籍资源+在地体验+本土活动+全民共创”的古籍活化生态链。

平台服务功能兼具多元性与创新:首创古籍播客沉浸式交互模式,以双人AI角色互动智聊模式将古籍内容转化为音频剧,实现古今跨时空对话。平台还集成了AI句读、智读、智问、生图、写诗等全场景专业智能工具,构建辅助学习体系,降低古籍的阅读与学习门槛。另设“汉字乐园”板块,通过每日一猜、汉字变形记等趣味互动实现游戏化学习,有效吸引年轻群体了解古籍与汉字文化。

未来,该平台将深化四大转型战略,进一步升级服务能力:从“资源中心”转向“知识共创平台”,引入众包协同理念实现古籍数字化流程再造;从“标准化服务”转向“个性化空间”,打造“我的藏书楼”满足不同用户差异化需求;从“信息检索”转向 “智能探索”,通过场景化导航、语义理解、知识图谱联动优化检索体验;从“趣味互动”转向“价值贡献”,升级积分与账号体系形成良性生态循环。

平台访问地址:https://guji.szlib.com/pc/#/

https://mp.weixin.qq.com/s/BCkKcEWQDler29Zj1ZO7mA

中国哲学书电子化计划(Ctext)推出AI对齐翻译及多语言实体摘要功能

中国哲学书电子化计划(Ctext)完成人工智能生成的中国古代文献英译文更新,并上线多语言可编辑式历史实体(人物、典籍、职官等)摘要功能,进一步丰富平台资源形态与服务能力。

Ctext对英汉对齐翻译功能作了大幅更新。目前提供两类译文:其一为既有已出版的完整人工译本,其二是为人工智能与众包协作生成的可编辑译本,后者支持用户直接参与译文修订工作。此次AI生成的可编辑译本覆盖范围大幅拓展,涵盖此前无现成译文的先秦两汉文献全集、二十五史以及数百种历史、文学、哲学、诗词类经典著作,后续平台将持续为更多古籍文本补充AI翻译内容。新增的人工智能译文采用段落与句子两级对齐机制,通过XML标签与元数据实现原文与译文的精确关联。编辑界面支持逐句对照修改,并集成词典查询功能,为译文修正提供便捷支撑。翻译风格强调直译与准确性,禁止添加评注或原文未包含的背景信息,以确保译文与原文的忠实对应。

此外,Ctext还在既有百科维基的结构化数据基础上,引入生成式人工智能技术辅助历史实体的摘要生成,全新上线百科维基板块。该板块使用中、英文双语言自然语言,对中国历史及文献相关的实体进行描述,覆盖人物、典籍、职官名等各类历史实体,目前已上线超10万条实体摘要内容,后续将持续扩充。所有实体摘要均支持用户编辑修改,用户可通过协作方式补充、修正实体信息描述,推动平台历史实体知识的持续迭代与优化。百科维基板块核心用于维护文献资料库中各类实体的现代语言书面描述,相关内容暂不单独作为服务字段向用户展示。

平台访问网址:https://ctext.org/instructions/translation

清华大学发布“九歌·推敲”小程序初版

清华大学中华传统文化智能实验室与清华大学数字人文研究中心联合研发的"九歌·推敲"小程序上线发布。该小程序作为“九歌”系统旗下的智能诗词创作辅助工具,依托人工智能技术,将传统诗词创作中的 “推敲”思维转化为可操控、可解释、可回退的智能化写作流程,为广大诗词爱好者提供专业的创作支撑。

“九歌・推敲” 程序明确AI创作辅助定位,将创作自主权完全赋予用户,系统全程配合用户进行字句斟酌,对用户心仪的内容予以保留固化,以智能技术赋能文思表达,摒弃人工智能一键生成全诗的传统模式。

小程序具备六项特色功能:一是可自定义创作参数,支持体裁、韵部、句式、题目、意境等维度的个性化设置。二是智能锁定机制,可实现字级与行级锁定,锁定后系统仅对内容进行格律校验并给出优化建议。三是实时字词推敲,用户点击空格时即可获取系统推荐的候选字及推荐理由。四是多维度推荐依据推查看,涵盖高频搭配、名句引用、古籍推荐、系统创作等依据,用户也可跳转搜韵网查看相关诗句。五是格律实时校验,通过颜色标记直观提示格律正确与否,便于用户快速修正。六是一键编辑功能,包括导出分享、撤销/重做、查看修改记录及清空等操作。

https://mp.weixin.qq.com/s/waycYlktkB4KlLgRgcB01w

数据资源建设

北京语言大学BCC语料库2.0版上线

北京语言大学正式发布BCC语料库(Beijing Language and Culture University Corpus Center)2.0版本。该系统由北京语言大学荀恩东教授团队开发,此次升级是该语料库自1.0版本推出以来,在语料数据体系与核心技术层面的重大迭代更新。

BCC汉语在线语料库总库达约62亿字,全面覆盖当代社会语言生活的多个领域,具体包括: 新闻(约 19亿字)、文学(约2亿字)、口语(约2亿字)、近代汉语(约15亿字)、古汉语(约16亿字)以及多领域通用语料(约7亿字),实现多类当代语体和154年历时报刊语料的全覆盖。本次2.0版本更补全了历史语料,新增《人民日报》、新闻联播全量数据,同时进一步扩充近代汉语、《申报》等资源,持续丰富语料库的广度和深度。 

BCC2.0依托核心技术升级实现检索精度与效能的提升:通过重构底层检索引擎,形成结构化、树状句法深度检索,从根本上解决传统检索效率低的问题。此外,实现词性、短语结构和文本的复杂混合查询,并提供在线统计与结果可视化功能。平台同步发布Python开发包,开放个人语料库自主构建功能,实现从“单纯提供语料库”到“赋能用户自主建库能力”的转变 ,助力研究者将自有语料组织为可检索、可统计、可扩展的个人 BCC 语料库。未来,该平台将进一步融合大模型技术,陆续上线文本自动标注、自然语言检索等智能化功能。

平台访问地址:https://bcc.blcu.edu.cn/

https://mp.weixin.qq.com/s/iW7Sb0ucrrdZMt-KXYmLpA

新书推介

《数字人文教程

《数字人文教程》是由上海大学文学院教授曾军主编,2026年2月由高等教育出版社出版的一部大学通识教材,入选高等教育出版社原创性教材建设项目。

该书共十五章,包括数字人文发展概况,数字素养,可视化分析技术,扩展现实技术,人工智能关键技术,提示词工程技术,数字人文与语言,数字人文与文学,数字人文与艺术,数字人文与历史研究,数字人文与传播,数字人文与“元宇宙”想象,数字人文与文艺创作,数字人文的伦理问题,数字人文的影响、范式及其问题。

该书具有鲜明的中国特色与实践导向:一是强化数字人文中国概念,融入思政教育与中国特色数字责任观,体现党的创新理论成果与新时代实践成就;二是聚焦中国自主研发工具与开源工具,设计可重复、可验证的实训任务与课后练习题,强化“中国方法” 解决 “中国问题” 的技术基础;三是突出中国案例应用,重点介绍传统文学、历史、哲学、艺术等领域的数字人文实践,助力全球数字人文领域传播中国智慧。

https://mp.weixin.qq.com/s/M1w-XAWCfUMC40myN8FabA)

《数字文本历史隐喻论纲(Theses on the Metaphors of Digital-Textual History)》

《数字文本历史隐喻论纲》(Theses on the Metaphors of Digital-Textual History)由英国学者马丁·保罗·伊夫(Martin Paul Eve)撰写,2024年7月由斯坦福大学出版社出版,列入斯坦福文本技术丛书,以开放获取形式发行。

该书聚焦数字人文、书籍史、文本研究、新媒体与出版研究的交叉领域,倾力剖析那些形塑人们数字空间感知且与物质文化史深度纠缠的数字文本隐喻。作者将页面、窗口、站点、空白、图书馆、保存等词汇视为承载历史与意识形态的隐喻系统,指出数字环境中翻页、留白等日常表述潜藏着印刷文化、建筑空间、政治制度、音乐书写及档案观念的历史肌理。其核心论断为:数字文本并非纯粹虚拟、抽象或去历史化的存在,而是与纸介质、软硬件接口、底层协议、基础设施、数据存储及全球技术秩序紧密相连。

在叙述架构上,该书凭借一组彼此呼应又各自圆足的命题层层推进。书中分析数字页面对纸质书页逻辑的承袭,将屏幕空白纳入媒介感知史中考察,将数字文本还原至统一字符码、互联网治理与全球技术权力的博弈场域,并讨论数字档案、数据脆弱性与保存政治。

本书旨在促使学界反思:谈论数字文本时沿用了哪些源自纸本时代、现代制度与西方技术文化的阐释框架,这些框架又如何影响数据库设计、数字版本构建、界面理解、阅读组织及对文本物质性的描述。该书获2025年SHARP图书史著作奖(SHARP Book History Book Prize)。

https://mp.weixin.qq.com/s/36AWK_pOy2ZSU_SYNZLXIw)

会议培训

  会议预告

第十一届国际中文教学研讨会暨第五届语文教育国际研讨会

第十一届国际中文教学研讨会暨第五届语文教育国际研讨会将于2026年6月5日至6日在香港教育大学大埔校园举行。本次会议由香港教育大学联合《国际中文教育学报》主办,旨在庆贺香港教育大学正名十周年,以“中华文化传承与中文教育创新”为核心主题,汇聚国际中文教育与语文教育领域的专家学者,共同探讨教育理论、课程设计、教学方法与数位技术的创新,促进中华优秀语言文化的传承与传播。会议将重点关注人工智慧与教学创新、文化认同与跨文化沟通、数字人文人工智慧与中文教学语料库研究

等前沿议题。会议形式包括主题演讲、专家论坛、论文报告及教学工作坊,会议语言为中文或英语。

  • 主办单位:香港教育大学、《国际中文教育学报》

  • 会议时间:2026年6月5日—6月6日

  • 会议地点:香港教育大学大埔校园

https://mp.weixin.qq.com/s/x_-RirJ__oBY8rKdlOjX3g)

“大哉言数:AI时代人文研究的范式重构与价值回归”研讨会暨2026年中国数字人文年会(CDH2026)

"大哉言数:AI时代人文研究的范式重构与价值回归"研讨会暨2026年中国数字人文年会(CDH2026)将于2026年7月31日至8月3日在内蒙古师范大学举办。本次会议由中国索引学会数字人文专业委员会与内蒙古师范大学科学技术史研究院联合主办,旨在探讨人工智能与大数据技术深刻重塑人文学科知识生产方式与价值判断框架的前沿议题。会议将邀请知名专家学者,围绕数字人文及相关领域的前沿问题,开展主旨发言、会议报告、专题讨论、案例分享、数字人文空间展演、海报展示等多种形式的学术交流活动。

会议设置九大议题方向,涵盖典籍重光(科技古籍与多民族文献智慧化整理)、时空重构(GIS与时空大数据驱动的文明演进研究)、协智重塑(多智能体与具身智能的人文社会仿真)、谱系重绘(知识图谱与智能注释驱动的知识重组)、记忆重述(AIGC赋能下的文化遗产与艺术创新)、文脉重析(计量方法与主题模型的文本深度挖掘)、伦理重思(数字人文中的算法批判与负责任创新)、素养重育(数字人文课程体系与跨学科人才培养)以及数字人文学科建设。会议现面向数字人文领域专家、学者与学生征集论文摘要与数字人文研究项目,入选者将有机会在会议上进行交流和展示。

  • 主办单位:中国索引学会、内蒙古师范大学

  • 会议时间:2026年7月31日—8月3日

  • 会议地点:内蒙古师范大学(呼和浩特市赛罕区昭乌达路81号)

  • 论文摘要提交截止时间:2026年4月30日

  • 项目征集截止时间:2026年5月20日

https://mp.weixin.qq.com/s/nLhzHuX3v-eR6euYt52tYA

文化基因解码与智慧数据资源建设研讨会

文化基因解码与智慧数据资源建设研讨会将于2026年4月17日至19日在武汉大学召开。会议由武汉大学文化遗产智能计算实验室(教育部哲学社会科学实验室)主办,武汉大学信息管理学院、武汉大学大数据研究院协办,旨在深入贯彻落实国家文化数字化战略及"十五五"规划中关于文化与科技融合的部署要求,破解中华优秀传统文化基因系统性挖掘、阐释与表示难题,提升高质量文化遗产数据资源建设与活化利用水平。会议将围绕文化遗产数智活化与系统性保护的前沿理论、实践路径与发展趋势展开深入研讨,凝聚广泛共识,深化对话交流。

  • 主办单位:武汉大学文化遗产智能计算实验室(教育部哲学社会科学实验室)

  • 会议时间:2026年4月17日—4月19日

  • 会议地点:武汉大学人文社科楼

https://mp.weixin.qq.com/s/rTcZQEY-JAnR05rJ3i5krQ

文化遗产的数字未来会议

"2026文化遗产的数字未来"国际学术会议将于2026年5月28日至30日由宁波诺丁汉大学亚太研究院数字遗产中心主办。会议响应全球数字化转型加速背景下文化遗产领域从保存到活化、从单边阐释到多元共创的深刻变革趋势,旨在系统探讨数字技术在21世纪如何塑造文化遗产的保存、阐释、传播与再生。会议鼓励跨学科、跨领域、实践导向的投稿,重点关注数字研究方法与技术在多元语境下的影响、伦理、可持续性与社会应用,涵盖博物馆、档案馆、表演传统、非物质文化遗产、社区记忆、民间艺术及参与式实践等领域。欢迎学界、产业界、文化机构与社区的研究者、从业者、艺术家与倡议者共同参与,借助移动媒体、人工智能、三维数字化、沉浸式平台与协作式数字讲述等前沿工具,重新构想文化工作的未来路径。

  • 主办单位:宁波诺丁汉大学亚太研究院数字遗产中心

  • 会议时间:2026年5月28日—5月30日

  • 会议地点:宁波诺丁汉大学

  • 论文摘要提交截止时间:2026年4月25日

https://mp.weixin.qq.com/s/6KynSlCn0crgYDuoTpsVhw

第九届语言学与汉语教学国际论坛(IFOLCE-9)

第九届语言学与汉语教学国际论坛(IFOLCE-9)将于2026年6月26日至28日在香港特别行政区举行。此次论坛由香港城市大学、香港教育大学与斯坦福大学联合主办。论坛主题为“汉语语言学、汉语教育与生成式人工智能”,倡导跨学科和实证研究,以推动汉语研究与应用在人工智能时代的进步。会议将探讨汉语语言学、汉语教育与生成式人工智能(GenAI)的交叉领域。论坛将包括会前工作坊、主题演讲、特邀报告和分组论坛报告等环节。主题演讲嘉宾包括瑞士纳沙泰尔大学的Martin Hilpert教授和法国国家科学研究中心的Marc Allassonnière-Tang教授。

  • 主办单位:香港城市大学、香港教育大学、斯坦福大学

  • 会议时间:2026年6月26日—6月28日

  • 会议地点:香港特别行政区九龙塘香港城市大学

https://lt.cityu.edu.hk/ifolce-9/)

融合与边界:人工智能时代的数字人文发展新进阶

数字人文专业发展联盟第二届年会暨第七届清华大学数字人文国际论坛、中国文艺理论学会数字人文分会第四届年会将于2026年7月10日至13日在上海大学宝山校区举办。会议以"融合与边界:人工智能时代的数字人文发展新进阶"为主题,聚焦新一代AI技术为人文学科研究注入的活力与人文科技深度融合的新路径。会议旨在凝聚学界共识,分享成功经验,共同探索数字人文进入人工智能时代的新范式、新路径、新方法,推动数字人文学科繁荣发展,助力新文科建设与交叉学科人才培养。年会除设置理事会会议、主旨演讲、专题论坛等常规板块外,还将推出高水平人文社科实验室交流会、院长论坛、清华大学数字人文国际论坛"未来学者"专场、课程示范、成果发布、主编讲堂等特色务实举措,为数字人文生态中的多元主体搭建跨界合作与思想碰撞的平台。

  • 主办单位:数字人文专业发展联盟、中国文艺理论学会

  • 会议时间:2026年7月10日—7月13日

  • 会议地点:上海大学宝山校区

  • 论文摘要提交截止时间:2026年5月13日

  • 未来学者论坛论文摘要截止时间:2026年5月22日

https://mp.weixin.qq.com/s/m8-Z3x-hgbnKCc03wmc_rA

第五届东亚古籍数字人文国际论坛(DHEAC 2026)

第五届东亚古籍数字人文国际论坛(DHEAC 2026)将于2026年7月22日至28日在韩国首尔举行,由成均馆大学中国文化研究所主办。本届大会以"数智赋能:未来东亚古典研究的新范式与新趋势"为主题,聚焦数字技术与人工智能在东亚古籍整理、研究及传播中的创新应用。会议旨在促进古籍资源在数字化、智能化环境下的开发与应用,搭建古籍研究者与信息技术工作者的协作平台,加强全球范围内古籍相关机构与学者的合作。会议涵盖语料库构建、大模型与生成式AI在古典学中的应用、语义技术与知识工程、文化分析及数据运算、数字平台开发、医学农业古书研究、文化遗产数字保护、智慧图书馆、空间人文学、多模态融合等多元议题。会议期间还将举办"吾与点工作坊"、"DocuSky工作坊"以及"古籍整理与智能化实践工作坊"。

  • 主办单位:成均馆大学中国文化研究所

  • 会议时间:2026年7月22日—7月28日

  • 会议地点:韩国首尔成均馆大学

  • 论文摘要提交截止时间:2026年3月30日

https://mp.weixin.qq.com/s/XYaM9N47ge6UeyZTuON6IA

太平洋邻里协会(PNC)2026年会议

太平洋邻里协会(Pacific Neighborhood Consortium)2026年会暨联合会议将于2026年9月9日至11日在台湾法鼓文理学院举行。会议主题为"Intelligence in Context: Practices, Impact, and Connection"(情境中的智能:实践、影响与连结),聚焦人工智能技术在人文社会科学领域的应用与反思,探讨智能技术如何与具体学术情境相结合,并产生实际影响与跨领域连结。会议设置七大核心议题,涵盖太平洋区域的文化交流与传播(Cultural Exchange and Diffusion in the Pacific Realm)、文化记忆的技术与技艺(Techniques and Technologies of Cultural Memory)、教学法与博雅教育改革(Reform of Pedagogy and the Liberal Arts)、人工智能与社群联结(AI and Connecting Communities)、空间智能(Spatial Intelligence)、社会文化数据(Socio-cultural Data)、科学、医疗与健康领域的创新变革(Innovation Reform and Renewal in Sciences, Health, and Wellness)等前沿方向。议程包括特邀主题演讲、论文发表、ECAI工作坊及海报展示等环节。

  • 主办单位:太平洋邻里协会(PNC)、法鼓文理学院

  • 会议时间:2026年9月9日—9月11日

  • 会议地点:法鼓文理学院(新北市)

  • 论文摘要提交截止日期:2026年5月15日

https://sites.google.com/view/pnc2026)

中国历史文献研究会数字文献分会第四届年会

中国历史文献研究会数字文献分会第四届年会将于2026年10月下旬在武汉举行,由中国历史文献研究会数字文献分会联合湖北大学文学院主办,中华书局古联公司协办。年会立足雅学与传统语言文献的数字化整理及数据库建设实践,旨在探讨数智时代传统文献研究的理论前沿与实践路径,推动古籍整理研究的理论、方法与实践创新,促进古籍资源的当代传承与活化利用。会议设置7个核心议题,包括中国古典文献文本分析、雅学与传统语言学研究、中国古典文献的数字化整理与研究、古籍大数据构建及智能体辅助研究、数字人文理论与方法探索、数字人文人才培养与教学实践、人文学科高水平实验室建设。

  • 主办单位:中国历史文献研究会数字文献分会、湖北大学文学院

  • 会议时间:2026年10月下旬

  • 会议地点:湖北武汉

  • 论文摘要提交截止日期:2026年6月30日

https://mp.weixin.qq.com/s/TqFauSR-KI_-nGmETx2mdA

学术观察

主权AI视域下的中国数字人文自主知识体系建设

来源:刘炜,刘圣婴,金家琴,等. 主权AI视域下的中国数字人文自主知识体系建设 [J]. 数字人文研究, 2025, 5 (04): 3-16.

摘要:在全球技术竞争加剧和“主权AI”成为国家战略焦点的宏大背景下,构建自主知识体系已成为维护国家数字主权与文化安全的核心议题。文章系统探讨中国数字人文自主知识体系建设的紧迫性、理论基础与实践路径。首先剖析了“主权AI”在技术控制和文化、语义层面的内涵,审视其在抵御“数字殖民主义”中的作用。并在此基础上,引入段玉聪教授的“语义主权”理论和DIKWP(数据—信息—知识—智慧—意图)模型作为核心理论框架,扩展了语义层作为意图分析的主要来源,论证中国自主知识体系建设必须涵盖对知识内容与价值意图的深层主导。通过分析中国“学术世界”平台、字节跳动与北大的“识典古籍”平台及ICH-Qwen大语言模型等案例,揭示了融合顶层设计、技术赋能与范式创新的建设路径。研究表明,中国数字人文的自主知识体系建设是基于主权AI战略、以语义主权为核心,通过数字平台和智能工具实现数据自主、知识创新与价值引领。最后,文章反思了“主权陷阱”等潜在挑战,并展望了一个开放、自信且具有全球影响力的中国数字人文学术共同体的未来。

历史文本何以建构:以蒋廷黻《中国近代史》为例

来源:文祥微,方树益. 历史文本何以建构:以蒋廷黻《中国近代史》为例 [J]. 数字人文, 2025, (04): 51-68.

摘要:当下的计量史学或数字史学面临的一大质疑即源于低资源特点突出的历史数据与宏大分析需求之间的矛盾。面对一个特定的历史问题,研究者往往被迫使用有限且建构色彩显著的材料,削弱了研究结果的可靠性。针对这一现状,文章以蒋廷黻《中国近代史》人物关系的网络分析为例,提出数字史学未来发展值得探究的一条对策路径,即在材料不足的前提之下,可以围绕历史文本的建构性本身展开研究,探讨所谓的建构性在历史文本中如何体现。文章通过对该书中的人物关系进行量化分析、可视化呈现和结果阐释等工作,发掘出文本背后蕴含的蒋廷黻本人史学观念及政治观念,尤其关心其“近代化史观”的渗透分布,站在数字视角下重新验证、丰富学界关于该书性质、立场的认知,同时开拓数字史学未来发展的新思路。

数字资本主义的新趋势:技术封建主义还是自反性现代化?

来源:吴静. 数字资本主义的新趋势:技术封建主义还是自反性现代化? [J]. 求索, 2025, (05): 61-70. DOI:10.16059/j.cnki.cn43-1008/c.2025.05.007.

摘要:围绕数字资本主义的新趋势,存在“技术封建主义”与“自反性现代化”两种解读框架的论争。前者认为,数字平台通过垄断数据获取“数字地租”,构建了类似封建领主的权力依附关系,并促使资本积累方式转向租金驱动。但该理论存在三重遮蔽:割裂平台经济与资本积累的历史连续性、误读剥削机制为技术决定论、消解资本主义内在矛盾,其本质上是对资本逻辑的简化。相反,自反性现代化理论则揭示了数字时代的劳动碎片化、平台垄断与公共性并存等现象,以及资本借助数字技术对社会关系的新一轮吸纳,从而体现了现代性的内在矛盾与自我调整。平台资本的生产性与掠夺性交织,垄断正是这一趋势下资本超高度集中的体现。但同时,数据的公共性与资本的私人占有构成了新对立,因而并不属于纯粹封建性质。从这个意义上而言,技术封建主义实际上只是对自反性现代化所揭示的当代资本主义复杂性与悖反性的病理学诊断。

概念联觉视角下《周易》的深度数字化文本探勘

来源:阮铭卓,靳丽阳,彭弋航,等. 概念联觉视角下《周易》的深度数字化文本探勘 [J]. 数字人文, 2025, (04): 90-111.

摘要:《周易》是我国传统哲学经典之一,其文本所蕴含的哲学思想具有巨大的研究价值。在传统《周易》研究中,由于技术手段的限制,学者们往往依赖主观解读和文献考证,这在一定程度上限制了对文本深层次结构和内在联系的全面理解。文章通过数字人文技术的应用,特别是语义共现和概念联觉分析,为《周易》研究提供了新的视角。文章通过对《周易》文本进行断词和词频统计,并结合词向量计算,深入探讨了《周易》中的概念如何通过不同感官体验相互关联。研究发现,《周易》文本中的概念不仅在语义上形成了集群,而且在感官体验上也展现出显著的联觉现象。例如,刚柔概念在触觉上的体现,以及君子形象在视觉、听觉和味觉上的多维表现,都为理解《周易》的哲学思想提供了新的维度。文章的研究成果不仅丰富了《周易》文本的语义分析,也为数字人文方法在古典文献研究中的应用提供了有益的探索。

供稿:卢钰、秋慧婷、沈立力    责编:韩春磊、张宏玲

编辑部:中国索引学会数字人文专业委员会秘书处

电话:64455555-68360

邮箱:DH2020@libnet.sh.cn

-END-

文章转自:全国报刊索引公众号

阅读原文

跳转微信打开

线上培训丨零代码编程的科研教学与智慧课程建设(10门课程20课时)

2026年3月26日 21:08

籍合学院 2026-03-26 21:08 北京

零代码,智启课堂新基建!

数字人文专业发展联盟成立以来,我们在联盟内部开展的多次调研中发现一个普遍困境:面对人工智能技术的快速发展,高校人文领域的教师普遍抱有积极拥抱的态度,却在实际操作中面临双重门槛——编程学习的时间成本过高,而直接使用AI工具又难以满足学术研究对严谨性和可溯源性的要求;教学工作同样迫切需要在不增加过重技术负担的前提下,完成从传统课堂向智慧课程的转型。

基于这些科研与教学痛点,我们历时数月筹备了这套"零代码编程的科研教学与智慧课程建设"系列培训。精心筛选了各校在数字人文一线深耕的骨干教师,请他们将实践中沉淀的"低门槛、高严谨"方法论系统化地分享出来。

开设这套课程的目的很务实:

一是帮助老师们掌握真正无需编程即可上手的数据库、智能体搭建方法,以及史料挖掘和统计分析工具,把节省下来的时间重新投入到学术思考与教学设计中;

二是提供一套系统的高校智慧课程建设方法论和实践案例,让各高校在智慧课程建设方面的实践经验能够互通有无;

三是共同探索一条符合人文学科特质的AI应用路径,在技术效率与学术规范之间找到平衡点

四是针对当前OpenClaw热点,我们也邀请资深教师做了深度解析,为如何在数字人文研究中利用类似工具提供思路和操作指导。

期待这套课程能为联盟成员单位的一线教师提供切实可用的支撑,未来联盟将继续围绕学界需要,组织时效性好、系统性强、可实操的系列培训,期待大家在学习过程中形成的实践经验,能够反哺联盟的数字人文学科建设,形成共建共享的良性循环。

名称:零代码编程科研教学与智慧课程建设

课程容量:10门课程,每课2课时,共20课时。每课时45分钟,部分课程可能会根据授课情况加时,以实际安排为准。

开课时间:2026年4月7日-17日期间完成全部授课,详见下图培训计划。以实际安排为准。

培训形式:线上直播(支持2年回看)

课后支持:微信群(答疑+交流)+数字人文交流圈子深度交流+资料分享(长期)

基本信息

培训对象

  • 高校数字人文相关教师:从事语言学、古典文献学、历史学、文学等学科研究以及需建设智慧课程或开展数字化教学创新的青年教师;

  • 硕博研究生:人文类专业(特别是数字人文、古典文献、汉语方言、历史文化方向)在读研究生,需掌握零代码研究工具者;

  • 中小学文史教师:需利用AI与多模态技术进行备课、课程教学及创意传播的中小学语文、历史教师;

  • 文化机构从业者:博物馆、图书馆、出版社的数字项目策划人员,古籍整理与数字化工作者;

  • 跨学科研究者:关注"AI+人文"交叉领域,希望掌握结构化数据处理、人文数据库搭建、智能体建设方法论的研究人员。

考核认证:完成全部课程学习可获得由数字人文专业发展联盟颁发的电子证书

费用:980元/人(标准),680元/人(凭学生证)。团体报名及联盟成员单位团购另享优惠,请咨询工作人员。

教师简介

李斌

南京师范大学文学院教授,语言大数据与计算人文研究中心负责人。主要从事计算语言学和数字人文领域的研究,特别集中于古汉语信息处理领域的古文断句、分词、词性标注、词义分析的标准制定、资源构建和自动分析等具体技术研发。

胡韧奋

北京师范大学文学院、国际中文教育学院副教授,研究方向为计算语言学、数字人文,主讲Python编程与数据分析、自然语言处理等课程,主持十余项科研课题,作为主持人或核心成员构建了中文词向量资源库、CCA中文搭配助手、古诗文断句标点系统、“AI太炎”古汉语大模型等资源和应用。

彭志峰

暨南大学文学院中文系讲师,广东省岭南数字人文实验教学示范中心(省级)副主任,暨南大学-科大讯飞方言语音科技联合实验室(省级)副主任,暨南大学汉语方言研究中心(省级)研究员,粤语语料库建设与大模型评测重点实验室(市级)研究员,研究方向为数字人文与方言科技。

张光伟

陕西师范大学历史文化学院讲师,硕士研究生导师。担任陕西师范大学丝绸之路历史文化虚拟仿真实验教学中心(省级)主任,国际长安学研究院数字长安研发中心主任,全国历史学实验室建设联盟秘书长,国际教育合作协会(GPE)咨询委员会委员。主要从事"人工智能+历史学"交叉学科研究。

沈威

华中师范大学语言与语言教育研究中心副教授,博士,硕士生导师。研究方向为中文信息处理、现代汉语语法。主持并研发了“当代小说语料库”“汉语复句语料库”“汉语中介语动态语料库”和“我国中小学生写作能力评价与教学策略研究数据库”等语料库。

龙润田

暨南大学文学院副教授,博士生导师,暨南大学汉语方言研究中心研究员、岭南数字人文广东省实验教学示范中心研究员、暨南大学—科大讯飞方言语音科技联合实验室研究员。主要从事南方少数民族语言历史与文化、语言智能与数据计算、国际中文教育相关领域的研究工作。

贾智

中山大学中国语言文学系(珠海)教授、博士生导师、系副主任。主要研究方向为汉语言文字学,特别是中古汉语、近代汉字的发展、流变和域外传播研究,兼及敦煌遗书、域外文献整理与研究。

唐宸

清华大学人文学院副教授,教育部哲学社会科学实验室“中华传统文化智能实验室”核心成员,兼任《数字人文》编辑,主要从事中国古典文献学、数字人文研究,研发了“典津-全球汉籍影像开放集成系统”“奎章阁-中国古典文献资源导航系统”“中国数字人文(DHCN)”等基础设施。

张宁

北京师范大学文理学院中文系讲师、硕士研究生导师,北京师范大学珠海校区图书馆数字人文中心主任,中国计算机学会(CCF)人文智能专业委员会执行委员。研究方向为古籍数字叙事、VR古籍游戏、数字人文教育等。 主持建设"文献多模态资源AI标注与问答平台”“京师.数字记忆3D展厅平台”“全球数字人文教育资源智能检索平台”。

内容亮点

亮点1:科研+教学双轮驱动

既解决"如何用AI做研究"(零/低代码建设数据库智能体及科研全流程),又解决"如何用AI教课"(智慧课程建设),适配高校教师双重身份需求。

亮点2:紧跟热点:解析OpenClaw及国产替代方案

聚焦海外智能体框架OpenClaw在国内遇到的技术限制、部署成本、数据合规等痛点,先讲OpenClaw是什么、为什么火,再讲为什么要转国产替代。通过讯飞AstronClaw、腾讯WorkBuddy深度测评,给出国产“龙虾”三步实操法,帮大家把大模型变成能落地执行的主动辅助系统,减少重复劳动、提升效率,最后辨析需求真伪并答疑。

亮点3:全链路场景覆盖

从底层数据结构化→大模型原理→数据库与智能体搭建→史料挖掘→统计分析→智慧课程→多模态传播,形成闭环生态。从数据结构化、大模型原理到智能体搭建、史料挖掘、统计分析,智慧课建设,全程无需编程基础,紧盯高校教师实际困难。

亮点4:社群支持

社群答疑(微信群)+ 深度交流(专业圈子)+ 长期赋能(资料共享),构建从课堂到社群的持续支持体系。

费用及报名

  • 980元/人(标准)

  • 680元/人(凭学生证)

  • 集体报名另享优惠,请咨询工作人员。

扫码报名

咨询:报名链接内客服可直接发起咨询。

联系电话:185-1932-5994

邮箱:training@ancientbooks.cn

  • 学生身份报名,请先正价付费,同时将您的姓名、学校、手机号(已与本平台关联)、学生证照片发送至邮箱【training@ancientbooks.cn】(邮件名:姓名+学校+学生优惠申请)。 工作人员审核完毕后将为您退差价,系统原路退回,耐心等待即可。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

课程介绍丨数据基础与人文数据结构化

2026年3月27日 17:31

2026-03-27 17:31 北京

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

零代码编程的科研教学与智慧课程建设专题培训班将于4月7日—17日在籍合学院平台举行。正式开课前,我们将按照授课次序,逐一发布每门课程详细介绍,以便各位学员做好学习准备。

本课程为零代码编程模块基础课,也是我们本次培训的第一讲。目标是帮助学员建立数据与数据结构的基础理论,这也是我们开启后续所有工作的理论基础。

数字人文的交叉,在于将计算机科学的结构化思维、海量数据处理能力与复杂计算模型引入人文研究领域。其中,知识的结构化是推动人文学科突破性进展的基石。知识的结构化数据处理并非简单地将人文材料(如古籍扫描、文物三维模型)存入计算机形成“机采数据”,其本质在于将蕴含复杂概念体系、事件关系和文化内涵的人文知识节点,转化为由清晰定义的概念节点及其间的有效关系构成的逻辑体系。

主讲人:李斌

南京师范大学文学院教授,语言大数据与计算人文研究中心负责人。主要从事计算语言学和数字人文领域的研究,特别集中于古汉语信息处理领域的古文断句、分词、词性标注、词义分析的标准制定、资源构建和自动分析等具体技术研发。研制多种语料库在国际LDC平台发布,出版专著《语言探秘》等3部,发表论文70多篇。主持完成国家社会科学基金项目2项、教育部社科青年项目1项。

*了解培训详情及报名请扫描本文海报二维码。

←了解我们正在进行的项目

籍合学院

中华书局旗下

古籍整理与传统文化学习平台

阅读原文

跳转微信打开

会议摘要征集 | 人工智能(AI)对粤港澳大湾区社会、文化与治理发展的影响

2026年3月27日 17:31

社科大数字史学实验室 2026-03-27 17:31 北京

分享一篇文章

智能数字人文: 会议摘要征集 | 人工智能(AI)对粤港澳大湾区社会、文化与治理发展的影响

会议资讯  

  2026年5月22日(星期五)

地点:北师香港浸会大学

投稿资格  

硕士研究生

博士研究生

活动亮点  

  • 展示研究成果,与来自不同学科的学者交流并获得专业回馈

  • 参与跨学科讨论,深化对人工智能与社会议题的理解

  • 建立跨院校及跨领域研究网络,探索未来合作机会

投稿格式  

论文摘要:200-250字(中英文)

关键词:3-5个

 奖  项   

设有两项最佳论文奖(分为大湾区内及大湾区外)

每名得出可获港币1000元现金奖

摘要提交截止日期  

2026年4月20日

查询及投稿  

联络人及电子邮箱

  • Ms.Caroline:caroline_liao@hkbu.edu.hk(FASS)

  • Ms.Li:cihk@cihongkong.hk(CASS) 

  • Ms.Liu:rpgcomm@bnbu.edu.cn(BNBU)

报名方式  

请扫描海报上的二维码注册

图片


阅读原文

跳转微信打开

第二十五届中国计算语言学大会(CCL26-Eval)技术评测任务发布

2026年3月25日 00:01

徐惠 2026-03-25 00:01 江苏

CCL2026十月宜昌举办,发布13项NLP评测任务设奖项收录论文

转载自“CIPS计算语言学专委会”

第二十五届中国计算语言学大会

(CCL26-Eval)技术评测任务发布

会议网站:http://cips-cl.org/static/CCL2026/index.html

第二十五届中国计算语言学大会(The 25rd China National Conference on Computational Linguistics, CCL 2026)将于2026年10月15至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议,是中国最大的自然语言处理学者和专家的社区。经过三十年的发展,CCL被广泛认为是最权威的,全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展,CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

本次大会继续组织中文语言处理技术评测CCL26-Eval。经过前期评测任务征集,CCL25-Eval组织委员会已确定13个评测任务,涵盖语义分析、篇章、语用分析,跨语言、小语种、低资源自然语言处理,知识图谱,自然语言处理与医疗、教育、人文、司法等领域结合应用,生成式AI与大模型核心能力等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL Anthology和ACL Anthology收录。

评测主席:

林鸿飞(大连理工大学,hflin@dlut.edu.cn)

谭红叶(山西大学,tanhongye@sxu.edu.cn)

杨亮(大连理工大学,liang@dlut.edu.cn)

评测任务

一、 自然语言处理基础任务

1. 语义分析 / 篇章、语用分析

任务1:第二届中文叙实性推理评测

任务简介

叙实性推理(Factivity Inference, FI)是一种跟事件真实性判断有关的语义理解任务,是真实性推理(Factuality Inference, FactI)的一种形式。在人类的会话交际中,叙实性推理能力主要表现为语言使用者可以从某些动词性语言成分(如“相信”“谎称”“意识到”等)的使用获取说话人和句子主语的心理状态,并据此推定相关事件的真实性(真还是假)。例如,从肯定句“他们意识到局面已经不可挽回”和相应的否定句“他们没有意识到局面已经不可挽回”上,都可以推理出在说话人眼中存在这样一个事实:“局面已经不可挽回”。进行此类推理所使用的知识是一种受世界知识(world knowledge)影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识(analytical knowledge of language)。比如,上面例句中的动词“意识到”要求(预设)它的宾语“局面已经不可挽回”的所指大概率为真,不管该动词前面有没有否定性词语。

为进一步提升大型语言模型对中文的语义理解能力,实现机器对人类交际话语的深度理解,我们将在FIE2025的基础上继续推出“第二届中文叙实性推理评测任务”。本届评测任务将着重考察大型语言模型在复杂语境条件和少样本提示下的叙实性推理表现。

相较FIE2025,本届评测的数据集涵盖了数量更多的叙实性谓词(约500个)以及更加多样的语境条件,例如否定词“不、没有、差点”,否定意愿“不敢、不想、不愿、难以”,被动化操作“被、被迫”,评价性状语“正确地、错误地”,多声性标记“并不、绝不”,等等。例如:从“我不能相信他竟是一个八十多岁的老人”,可以推出“他是一个八十多岁的老人”大概率为真;而从“我不能相信人可以长生不老”,可以推出“人可以长生不老”大概率为假。

任务描述

参赛队伍需要利用组织方发布的样例集与评测集自行设计提示词(prompt),在获取LLMs的回答后整理为统一的输出格式。每条评测集数据以一个文本蕴含关系句对<Aa, a>的形式呈现,数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况,并给出对该判断的置信度。例如: * 主蕴含句Aa: 老张并没有注意到她今天穿了一件红色的连衣裙。 * 被蕴含句a: 她今天穿了一件红色的连衣裙。 * 模型判断: 被蕴含句95%为真。 * 输出答案(JSON字段): {"factivity": "true", "confidence": "0.95"}。

此外,本届评测将继续设置不微调(non-finetuning)和微调(finetuning)两条赛道。不微调赛道不允许对模型本身做任何修改;微调赛道可以利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

组织者和联系人 

  • 任务组织者:袁毓林(澳门大学教授)、李斌(南京师范大学教授)

  • 任务联系人:丛冠良(澳门大学博士生,guanliang.cong@connect.um.edu.mo);寻天琦(澳门大学博士生,tianqi.xun@connect.um.edu.mo)。

任务奖项 

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖,奖项按总得分从高到低颁发。其中,一等奖0-1名,二等奖0-2名,三等奖0-3名。各奖项奖金待定。

任务网址

 https://github.com/UM-FAH-Yuan/FIE2026

任务2:非字面义翻译和理解评测

任务简介

评测面向谚语、成语、习语、俚语、典故等非字面表达的中英翻译与识别,重点考察模型对非字面意义的理解、跨语言文化映射能力以及语用效果保持能力。任务构建了“生成 + 判别”互补评测框架,用于检验模型的非字面义表达生成能力和标准非字面义辨识能力。评测数据共 5000 条高质量样本,涵盖 Gold(习语/谚语体等值表达)和 Silver(解释性等价改写)两类参考。本次评测包括两个子任务。

  • 子任务1:非字面义中文翻译为英文 给定一条包含谚语、成语、习语等非字面表达的中文句子,模型需生成 1 条自然、地道、具有文化映射特征的英文译文,优先采用英语中现成的习语、谚语、格言或固定搭配进行等值替代。

  • 子任务2:非字面义中英选择 给定一条非字面表达的中文句子及若干个英文候选,模型需进行不定项选择,识别并输出与中文在英语语境中构成公认等值替代关系的 Gold 标签项。

组织者和联系人 

  • 评测组织者: 张冬瑜(大连理工大学教授)

  • 任务联系人: 杨森淇(大连理工大学博士生,ysq1997@mail.dlut.edu.cn)

任务奖项 

本届评测设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/DUTIR-YSQ/CCL2026-Non-literal-Translation-Task

2. 跨语言、小语种、低资源自然语言处理

任务3:跨主流语言与低资源语言对齐的大模型金融评测

任务简介

MapFinBen 是首个专门评估大语言模型在高资源语言与低资源语言之间跨语言资源的多语言金融评测基准。该基准覆盖了五类具有代表性的金融任务,全面反映真实金融应用场景中的多样化需求。

在语言设置上,MapFinBen同时涵盖高资源语言(英语和中文)与多种低资源语言(印度尼西亚语、西班牙语、希腊语和日语),有效缓解了现有金融语言模型评测中对高资源语言过度依赖的问题。通过统一的任务设计与评测标准,该框架能够系统评估大模型跨语言、跨资源条件下的金融任务处理能力。

MapFinBen 基准由五个子任务构成,通过综合评估模型在各子任务上的表现来确定最终成绩。具体任务如下:

  • 子任务一:金融选择问答(FinAS) 给定一段金融文本及其对应的问题和候选选项,模型需要从多个备选答案中选择最符合问题语义和金融语境的正确答案。

  • 子任务二:金融文本问答(FinQA) 给定一段金融文本,模型需要根据文本内容回答与之相关的金融问题。

  • 子任务三:金融情感分析(FinSA) 给定一段金融文本,模型需要识别文本所表达的情绪倾向,并将其分类为积极、中性或消极。

  • 子任务四:金融主题分类(FinTC) 给定一段金融文本及候选主题类别,模型需要根据文本内容将其归类到最合适的金融主题类别中。

  • 子任务五:金融文本摘要(FinTS) 给定一段金融文本,模型需要提取并生成简洁、准确的摘要,以概括文本的核心信息和主要内容。

各子任务的数据分布、数据结构、具体评测指标及其计算方式,以及最终成绩的计算方法,详见任务网址。

组织者和联系人 

  • 评测组织者:胡刚、岳昆(云南大学)、彭敏(武汉大学)、石磊(云南师范大学)

  • 任务联系人:孔晓勇(kongxiaoyong@stu.ynu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/HgITSE/MapFinBen

任务4:低资源缅甸语固定模版语句推理评测

任务简介

在缅甸语等低资源语言的翻译中,固定模版语句的推理作为垂类的任务,其语言内部的词性、地名、多元价值观等显著影响着最终的翻译质量。

格式与习惯差异

例如,中文的“第1名”、“第3章”,在缅甸语意为“编号”或者“号”,后面需要紧跟缅甸语数字。地名转写冲突:地名转写往往与缅甸语特有发音、历史习惯冲突,导致中文直接转写容易出现混乱。多元价值观影响:翻译受种族、宗教以及集体主义的影响,不能简单直译。必须充分考虑当地的文化敏感性和宗教背景,否则极易引起误解或反感。

作为固定模版语句的推理任务,机器具体要适应的是模版格式、幻觉处理等任务的重要形式依据。为了提升翻译大模型在缅甸语上的翻译质量,进一步实现机器对人类固定模版语句的深度理解,我们正式推出本次评测任务。

组织者和联系人 

  • 评测组织者:陈自岩、刘劲松(新译信息科技有限公司)、朱少林(天津大学)

  • 任务联系人:任虹(天津大学博士生,邮箱地址:rhong@tju.edu.cn);吴川(天津大学硕士生,邮箱地址:wuchuan@tju.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。奖金由 新译信息科技有限公司赞助。

任务网址

https://github.com/merc11/CCL-2026

二、 自然语言处理应用

1. 知识图谱

任务5:杂粮育种信息抽取评测

任务简介

杂粮育种领域积累了大量以自然语言形式呈现的知识,广泛分布于论文、品种审定与栽培技术规程等文本中。这些文本记录了育种材料来源、目标性状及测定结果,同时也包含栽培管理条件、胁迫处理信息以及分子标记等证据。由于杂粮育种文本专业术语密集、概念表述多样,且材料名称与试验要素常存在嵌套表达,导致关键信息难以稳定抽取和统一结构化,从而限制了知识检索、证据汇总和育种决策支持等应用的发展。

杂粮育种信息抽取评测(Minor Grain Breeding Information Extraction Evaluation, MGBIE)旨在面向杂粮育种知识管理与数据资源建设需求,系统评估信息抽取模型在杂粮育种相关专业术语识别、育种语境理解、关键信息抽取与结构化表达等方面的能力。MGBIE数据集总规模为2000条样本,其中训练集、验证集和测试集分别包含1000条、400条和600条,用于支持模型的训练、调优与综合性能评估。

MGBIE2026包含以下两个子任务:

  • 杂粮育种命名实体识别: 从杂粮育种相关文本中识别并抽取关键实体信息,并输出相应的实体边界及其类型标签。实体类型标签体系涵盖杂粮育种领域的核心概念,共包括12类:作物、品种、性状、生育时期、基因、数量性状位点、分子标记、染色体、育种方法、亲本/杂交组合,非生物胁迫以及生物胁迫。 

  • 杂粮育种关系抽取: 在已识别实体的基础上,进一步抽取实体之间的语义关系,并以关系三元组的形式进行结构化表示。关系类型体系共包含6类语义关系,分别为:包含、采用、具有、影响、发生于和定位于。

组织者和联系人 

  • 评测组织者:胡志伟、孔照胜、高建华(山西省后稷实验室、山西农业大学);谭红叶、闫智超、李茹(山西大学);谢倩倩(武汉大学)

  • 任务联系人: 杨森杰(山西大学硕士生,yangsenjie1@sxu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/zhiweihu1103/CCL2026-MGBIE

2. 自然语言处理与医疗、教育、人文、司法等领域结合应用

任务6:中文电子病历疾病与手术ICD自动编码评测 

任务简介

近年来,随着人口老龄化加剧和健康意识提升,医疗体系面临着日益增长的服务压力。在医疗信息化进程中,电子病历的广泛应用为解决这一挑战提供了新的可能。为实现医疗数据的标准化管理和共享,世界卫生组织制定了国际疾病分类标准(International Classification of Diseases,ICD)。该标准将数万种疾病及其组合转化为规范的字母数字编码体系,为跨地区、跨机构的医疗数据交换与分析奠定了基础。

然而,对电子病历文本进行人工ICD编码不仅耗时耗力,还容易因专业技能差异导致编码错误。开发自动ICD编码系统,既能提高编码效率和准确率,也能为疾病研究和医疗管理提供更可靠的数据支持。基于上述背景,本任务构建了一个中文电子病历ICD自动编码数据集,该数据集基于脱敏病历数据而构建,共涉及10个科室,19种主要疾病编码,若干种其他疾病编码,16种主要手术编码,若干种其他手术编码,共计2200条数据。该任务给定一段由临床信息构成的文本作为输入,需要模型输出对应的主要疾病编码、其他疾病编码、主要手术编码、其他手术编码。

组织者和联系人 

  • 评测组织者:管红娇、鹿文鹏(齐鲁工业大学(山东省科学院))、廉颖、陈国强(山东第一医科大学第一附属医院)

  • 任务联系人: 李传龙(齐鲁工业大学硕士生,icdevaluator@163.com)

任务奖项 

本届评测将设置一等奖1名,二等奖3名,三等奖6名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/QLU-NLP/icdevaluator-26

任务7:跨语言文学文本情感分析一致性评测 

任务简介

随着多语言大模型(Multilingual Large Language Models, MLLMs)的快速发展,自然语言处理技术在现代通用语料上的表现已趋于成熟。然而,在面对具有高语境依赖性和深厚文化底蕴的中国古典文学时,现有的情感分析技术仍面临巨大挑战。 中国古典文学的情感表达具有典型的“含蓄蕴藉”与“托物言志”特征,往往依赖特定意象、历史典故以及复杂修辞来传递情绪,而非直接使用情感形容词。 为此,本评测提出中英双语古典文学跨语言情感分析评测任务(BCCL-CSA),用于评估模型在古典文学语境中的情感理解能力以及跨语言语义对齐能力。

子任务

  • 子任务一:细粒度情感识别能力评估 参赛系统需对给定的中文古典原文及其对应的英文译文进行独立的情感特征捕获。这一任务考察模型是否具备克服古今语言差异的能力,以及在目标语言(英语)中准确还原古典意境情感的能力。评测将从以下维度评估: 1. 情感极性识别准确率Acc_pol:准确识别文本的情感极性(积极、中性、消极)。 2. 情绪分布识别精度F1_emo(情绪Macro-F1):准确预测文本在六种基本情绪(快乐、悲伤、恐惧、愤怒、惊讶、厌恶)上的概率分布,以捕捉文学作品中复杂微妙的混合情绪。 3. SubScore1 = 0.4 × Acc_pol + 0.6 × F1_emo

  • 子任务二:跨语言情感表征一致性评估 该任务关注模型在不同语言间的情感映射稳定性,即同一语义内核在不同语言表征下的一致性。这是衡量模型是否真正实现了“语义对齐”而非简单的“词汇对齐”的关键:极性判断一致性(Con_label):评估同一组中英句子对在预测结果中极性标签的匹配程度。情绪分布相似度Sim_dist(情绪分布余弦相似度):通过计算中英情绪概率向量的相似性,评估模型跨语言情感空间的表征对齐质量。

任务特色与创新

 1. 跨语言情感对齐维度:突破单一语言的情感分类范式,首次聚焦于中英双语在复杂古典文学语境下的情感语义一致性。 2. 精细化分布标注:提供情绪概率分布(Label Distribution),精准捕捉文学作品中复杂、模糊的情感底色。 3. 语料库稀缺性与挑战性:数据集精选自先秦至近代的 13 部经典著作,涵盖哲学、小说、戏曲等多种体裁,挑战模型泛化性能与抗噪声能力。

数据集说明

数据集 CCL-SEL,来源于12部中国经典著作,每部著作各250组中英句子对。

评价指标

  •  子任务一:细粒度情感识别评分(权重 50%) * 极性准确率 (Acc_pol) * 情绪 F1 分数 (F1_emo) * Sub_Score_1 = 0.4 × Acc_pol + 0.6 × F1_emo

  • 子任务二:跨语言一致性评分(权重 50%) * 标签一致性比例 (Con_label) * 分布相似度 (Sim_dist) * Sub_Score_2 = 0.5 × Con_label + 0.5 × Sim_dist

最终排名得分:Total_Score = 0.5 × Sub_Score_1 + 0.5 × Sub_Score_2

参赛要求 

参赛系统需针对中英双语文本提供情感分析模型(统一多语言模型或独立单语言模型均可)。 * 允许使用开源预训练模型进行微调,但需在技术报告中说明。 * 提交测试集的情感极性标签及情绪分布预测结果(JSON格式)。

网站建设与论文评审 

评测将建设GitHub页面发布数据、脚本与排行榜。评测论文将通过CCL26-Eval通道提交,并进行双盲评审。

评测意义

本评测通过提供 12 部跨时代著作的高质量标注数据,旨在解决古典文学在跨语言传播中的情感扭曲问题,推动多语言大模型向更高层次的文化对齐迈进。

组织者和联系人 

  • 评测组织者: 张海洋、张霄军(西交利物浦大学);徐睿峰(哈工大深圳)

  • 任务联系人: 周静狮(Jingshi.Zhou@outlook.com)

任务奖项 

一等奖1名,二等奖2名,三等奖3名。

任务网址

https://github.com/Jingshi-Zhou/-BCCL-CSA-2026-

任务8:大语言模型生成中文医疗内容的循证事实核查

任务简介

循证事实核查(Evidence-based Medical Fact-checking)是一项旨在验证在线医疗内容真实性的关键任务。随着互联网成为公众获取医疗健康信息的主要渠道,医疗虚假信息的泛滥给公共卫生安全带来了严峻挑战。该任务要求模型不仅要理解医疗声明(Claim),还需要结合检索到的相关证据(Evidence),判断证据对声明的支持程度(如支持、反驳或证据不足)。这一过程对于提高医疗信息的透明度、减少误导性信息的传播具有不可替代的作用,同时也是构建可信赖的医疗问答系统和智能医疗助手的核心安全屏障。

任务的具体目标定义如下:给定一组由大语言模型生成的医疗论断及其对应的证据,模型应预测正确的标签(即真实性),从而判断证据支持或反驳该论断的程度:

  • 支持(Supported):证据完全支持声明的内容;

  • 部分支持(Partially Supported):证据支持声明的部分内容,但存在不确定性或未覆盖的细节;

  • 反驳(Refuted):证据与声明内容相矛盾;

  • 不确定(Uncertain):证据与声明相关,但不足以证实或反驳声明的真实性;

  • 不适用(Not Applicable):证据与声明完全不相关。 

组织者和联系人

  • 评测组织者:苏炯龙、蒋正雍、王唯(西交利物浦大学)

  • 任务联系人: 陈彤(西交利物浦大学,Tong.Chen19@student.xjtlu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/AshleyChenNLP/MedFact

任务9:第二届古诗词赏析评测

任务简介

中文古诗词具有高度凝练性和语言的音乐美,讲究对仗、平仄和押韵。为了准确理解古诗的语义,不仅需要掌握古诗的语言特色,还需要调动对历史、文化背景的知识,结合对古诗中所描绘的自然景象和人物情感的认知,从而进行综合性的推理与理解。

为了进一步衡量模型在中文古诗词赏析场景中的语言理解深度与文化推理能力,我们推出第二届中文古诗词赏析评测。在第一届的基础上,本届评测进一步聚焦模型的深度理解与复杂推理能力,引入更具挑战性的高级任务,以全面考察模型对古诗词文化内涵与高层语义结构的掌握程度。具体任务设置如下:

  • 任务一:古诗词理解:

古诗词字词理解:解释古诗词中短语级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词诗句理解:解释古诗词中诗句级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词情感理解:推断诗人透过作品所传达的情感。本子任务通过选择题的形式对待测系统进行评估。

典故识别:判断诗句中是否包含典故并进行解释。本子任务通过问答题的形式对待测系统进行评估。

  • 任务二:古诗词推理:

古诗词类比:发现古诗词中不同事物之间的相同关系,意象的关联。本子任务通过问答题的形式对待测系统进行评估。

古诗词辨析:依据诗词内容与语境,对给定选项进行辨析,判断其中表述最为合理的一项。本子任务通过选择题的形式对待测系统进行评估。

本评测将根据两个任务的综合性能来确定最终成绩排名。本评测旨在评估自然语言模型自身对中文诗词的理解水平,参赛队伍可以使用开源大语言模型进行微调,禁止使用RAG等技术来利用外部知识回答问题。

组织者和联系人 

  • 评测组织者:白雪峰、陈科海(哈尔滨工业大学(深圳)) 

  • 任务联系人: 朱颖杰、裴振武(哈尔滨工业大学(深圳),zhuyj@stu.hit.edu.cn)

任务奖项 

 一等奖1名,奖金合计3000元;二等奖1名,奖金合计2000元;三等奖1名,奖金合计1000元。 所有奖金将在公布奖项后10个工作日内发布。

任务网址

https://github.com/HITICI-NLPGroup/CCPA-EvalTask

三、 生成式AI与大模型核心能力

任务10:基于情景的常识推理评测

任务简介

推理是一种高级认知功能,涉及基于现有知识对新信息进行分析、归纳和演绎。它在人类智能中起着基础性作用。虽然以往的基准测试主要侧重于评估大语言模型(LLMs)在复杂、专业领域内的推理能力,但它们往往忽视了类人认知的一个关键方面:常识推理。评估大型语言模型中的这种常识推理能力对于人工智能的发展至关重要。这种基本能力显著影响着 LLMs 在日常情境中的决策,并且对于在通用人工智能(AGI)中迈向类人智能至关重要。

为了全方位、细粒度地诊断大模型的常识推理能力,我们提出了基于情景的常识推理评测数据集(Scenario-based Commonsense Reasoning Evaluation, SCoRE),用以评估大语言模型在常识场景下的复杂逻辑推理能力。根据所涉及的常识领域,该数据集包含的任务可分为以下五类: * 空间常识推理: 给定一个空间场景和若干已知的实体间方位关系,本任务要求机器推理出实体在空间场景中的位置,以及未知的方位关系。 * 时间常识推理: 给定一个包含若干事件的时间叙述场景和已知的事件间时间关系(如先后顺序、持续时长、相对或绝对时间点),本任务要求机器推理出事件在时间轴上的具体时刻,以及未知的事件间时间跨度或次序关系。 * 社会常识推理: 给定一个社会交互场景和若干已知的人物间人际关系(如亲属、职场、朋友或师徒关系),本任务要求机器推理出人物在社会网络中的具体角色或地位,以及人物间隐含的或未知的社会关系。 * 自然常识推理: 给定一组自然物体(或实体)和若干已知的属性约束条件(如类别归属、物理性状、功能用途或感官特征),本任务要求机器推理出物体与描述(或位置)的一一对应关系,以及物体未知的属性或分类特征。 * 融合常识推理: 融合领域任务描述旨在构建一个多维度条件交织的推理问题。它要求机器同时处理来自空间、时间、自然属性及社会关系等多个领域的约束与常识,并建立统一的推理模型以进行协同分析与决策。其核心挑战在于,单一领域的逻辑链条不足以解决问题,必须识别并整合不同领域的隐含联系,才能对复杂多因素情境进行有效推断。

组织者和联系人 

  • 评测组织者:詹卫东、穗志方(北京大学) 

  • 任务联系人:胡楠(北京大学博士生,hunan@stu.pku.edu.cn)

任务奖项 

一等奖0-1名; 二等奖0-2名;三等奖0-4名。

任务网址

https://pku-space.github.io/SCoRE2026/

任务11:面向自动驾驶的自动化危害分析与风险评估评测任务

任务简介

随着汽车电子电气架构(E/E 架构)向智能化与网联化深度演进,功能安全已超越早期以机械系统为主的工程保障范畴,演变为覆盖软硬件协同设计的系统化安全工程体系,成为自动驾驶技术落地与量产的关键基石。在此体系中,危害分析与风险评估(HARA, Hazard Analysis and Risk Assessment)承担着风险识别与顶层安全需求定义的核心职能。该过程通过对车辆运行场景、潜在功能失效模式及环境要素的系统化建模,提取车辆运动状态、道路拓扑及交通参与者分布等关键特征,并基于严重度(S)、曝光率(E)和可控性(C)三个维度对风险进行量化评估,确定汽车安全完整性等级(ASIL),并将评估结果转化为顶层安全目标,进而分解为可验证的软硬件安全需求,指导系统设计与工程实施。

为推动大模型与人工智能技术在预期功能安全及功能安全领域的落地应用,提升HARA流程的自动化与智能化水平,我们提出“面向自动驾驶的自动化危害分析与风险评估评测任务”并构建了一个专注于评估自动驾驶安全逻辑推理与需求生成的结构化数据集。该数据集源自脱敏的真实工业项目数据,聚焦于动力系统核心高危失效模式——“非预期驱动力/扭矩输出”,共包含3,000条高质量标注数据。

本次评测包括以下两个子任务: * 危害事件识别与场景描述生成: 该任务要求模型基于给定的车辆运行工况与环境参数,精准识别潜在的危害事件,并生成符合工程规范的危害场景结构化描述。 * 风险参数评定与等级推理: 该任务要求模型基于场景特征,推理并输出HARA分析的关键风险指标(S/E/C),并据此判定相应的安全完整性等级。

组织者和联系人 

  • 评测组织者:杨旭(北京理工大学),张海洋(西交利物浦大学),王唯(西交利物浦大学)

  • 任务联系人:王子木(西交利物浦大学博士生, Zimu.Wang19@student.xjtlu.edu.cn)

任务奖项 

一等奖1名,奖金合计5000元 * 二等奖1名,奖金合计3000元 * 三等奖1名,奖金合计2000元。

赞助情况 :本次评测奖金由优策科技(福州)有限公司赞助。

任务网址 

https://ccl2026-hara.github.io

任务12:优酷无障碍剧场杯-面向听障群体的信息无障碍结构化字幕生成评测

任务简介

在我国已进入“制度保障”阶段的信息无障碍建设背景下,字幕已成为听障及老年群体获取音视频信息的关键无障碍服务。然而,现有技术评测缺乏面向真实应用场景、统筹考量“可读性”、“核心信息准确度”与“响应速度”的基准。本任务从“AI字幕是基础设施”的视角出发,系统评测从“语音/视频输入”到生成“面向人类阅读的结构化字幕文档”的完整链路,特别聚焦于解决高信息密度真实场景(如医疗、金融、政务办事)中“社交时差”与“关键信息丢失”两大痛点。

为贴近不同应用环境,评测任务被设计为两个平行赛道,以全面评估技术的能力上限与落地可行性: * 赛道A:PC端 模拟云端或高性能桌面环境,旨在探索技术性能上限,不限制计算资源。 * 赛道B:手机端 模拟移动设备(手机、AR眼镜)实时交流场景,对模型体积、内存占用及实时性提出明确的约束要求。

每个赛道均包含以下两个子任务:

1. 子任务一: 基础字幕生成(Foundation Track) 评估语音转写、时间戳对齐、噪声鲁棒性等基础能力。 * 评测指标: 转写准确性、时间轴对齐精度、复杂多人场景下的综合处理能力。

 2. 子任务二: 结构化可读字幕生成(Structured Track) 评估模型生成符合人类阅读习惯、包含合理断句、标点、说话人区分、并确保核心关键词准确性的结构化字幕的综合能力。 * 自动评测指标: 文本准确性、核心词召回率、模拟显示延迟、时间轴合理性偏差、结构一致性。 * 人工评测指标(抽样): 可读性(1-5分)、关键信息完备性、断句合理性、标点与语气匹配度、幻觉文本严重程度。

数据规模与来源

本评测构建了总规模约30–50小时的多场景真实语音/视频测试集,涵盖新闻演讲、影视综艺、生活真实交流、多人会议等四类典型场景。其中,约10–15小时的核心子集提供更高粒度的结构化标注与核心关键词标注,支持Track 2的深度评测。数据来源强调真实性与多样性,包含背景音乐干扰、环境噪声、远场收音、多人重叠语音等复杂声学条件,全面模拟听障用户在办事场景中的实际听觉挑战。

组织者和联系人 

  • 评测组织者:姚登峰(北京联合大学/清华大学)

  • 任务联系人:施杰(北京联合大学硕士,20251083510951@buu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会为获奖队伍颁发荣誉证书;同时设立赞助奖项,由阿里巴巴等头部科技企业提供奖品支持。

任务网址 

https://github.com/ALINOSJ/IASSGE-2026

任务13:图像文本翻译质量评测

任务简介

随着全球化进程加速和跨语言交流需求增长,图像文本翻译(In-Image Translation,简称“图翻”)已成为机器翻译的重要分支。与传统文本翻译不同,图翻需同时处理视觉与语言信息,涵盖文本检测、识别、翻译与渲染等多个环节,在跨境电商、旅游导览、多语言内容本地化等场景中具有广泛应用价值。中文图翻面临独特挑战:汉字视觉复杂性高、书写方向多样(横排/竖排)、与目标语言存在显著文本长度差异,且蕴含丰富文化内涵。尽管大型多模态模型在图像理解方面取得进展,但在保持视觉一致性的前提下实现高质量图翻仍困难重重。尤其在电商场景中,系统需区分“应翻译内容”(如功能说明)与“应保留内容”(如品牌标识),对翻译完整性与合规性提出更高要求。现有机器翻译评测指标(如BLEU、METEOR)仅关注文本准确性,无法衡量视觉呈现、排版布局、美学协调等关键维度。而人工评测成本高、主观性强、难以规模化。因此,亟需建立标准化、多维度、可自动化的图翻质量评测框架。

本次评测聚焦于如何设计和训练能够从多个维度对图像翻译结果进行精准评分的自动评测系统,从而为该领域的技术进步提供可靠的度量工具。旨在:建立标准化基准:构建包含多场景、多维度人工标注的大规模评测数据集。推动方法创新:鼓励研究者设计能够模拟人类专家判断的自动评测模型。探索评测范式:通过开放式竞赛,发现在不同应用场景下最有效的评测策略。促进社区共识:图像文本翻译质量评测建立可复现、可比较的评价标准。

组织者和联系人 

  • 评测组织者:李海军、尚姿芙、梁杰、徐昭、骆卫华

  • 任务联系人:韩雨轩(阿里云技术专家  baileng.hyx@alibaba-inc.com)

任务奖项 

一等奖1名,奖金合计20000元 ;二等奖1名,奖金合计10000元;三等奖2名,奖金合计5000元。

赞助情况:本次评测奖金由阿里云赞助,由中国中文信息学会为获奖队伍颁发荣誉证书。

任务网址 

https://tianchi.aliyun.com/competition/entrance/532463?spm=5176.12281973.J_6-HJZaSjQocH7SIdvbK02.1.376b3b74H1HNIn

相关链接:

任务征集 | CCL26-Eval中国计算语言学大会评测研讨会

第二十五届中国计算语言学大会(CCL 2026)征稿启事

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Convocatoria de los Premios HDH 2026

2026年3月26日 16:31

Convocatoria de los Premios HDH 2026

La Junta Directiva de la HDH, de acuerdo con la resolución adoptada en la reunión celebrada el día 24 de marzo de 2026, convoca la octava edición de los premios HDH (2026).

El objetivo de estos premios es contribuir al reconocimiento social y académico de aquellas investigaciones, iniciativas y actividades llevadas a cabo en el ámbito de las Humanidades Digitales que pongan de manifiesto la potencialidad de este campo para redefinir las disciplinas humanísticas en el marco de las condiciones tecnológicas y digitales de nuestro tiempo.

El Jurado estará compuesto por una comisión de expertos de reconocido prestigio en el campo de las Humanidades Digitales. Esta comisión será propuesta por la Junta Directiva de la HDH. Un miembro de la Junta Directiva de la HDH formará parte de esta comisión. Ninguno de los miembros de la citada comisión deberá tener conflictos de intereses con las candidaturas presentadas.

Las candidaturas podrán ser presentadas por el propio autor/responsable(s) o bien venir avaladas por dos investigadores/especialistas en Humanidades Digitales.

Categorías

Se establecen las siguientes categorías.

1) Mejor artículo científico publicado en 2025

2) Mejor herramienta, recurso, infraestructura desarrollada en 2025

3) Mejor iniciativa formativa desarrollada en 2025

4) Mejor iniciativa de comunicación, divulgación y/o difusión en medios sociales en 2025

Cada candidato solo podrá optar a una de las cuatro categorías.

El idioma prevalente de los proyectos, publicaciones y/o iniciativas deberá ser el español, en cualquiera de sus variantes, o alguna de las lenguas cooficiales del Estado español.

 Criterios de evaluación

Los criterios a tener en cuenta serán:

– La contribución a la redefinición del horizonte epistemológico-metodológico de las Humanidades a través de la intersección creativa, innovadora y rigurosa de las tecnologías computacionales con las problemáticas intelectuales, epistemológicas y críticas de las disciplinas humanísticas.

– La contribución al avance del conocimiento en las distintas áreas de las Humanidades. Este nuevo conocimiento deberá ser resultante de la hibridación entre tecnologías computacionales, medios digitales y problemáticas intelectuales, epistemológicas y críticas de las disciplinas humanísticas.

– La contribución a la reflexión crítica sobre los problemas culturales, disciplinares, cognitivos, geopolíticos, etc. asociados al desarrollo tecnológico de nuestro tiempo.

– Su alcance y capacidad de transferencia a la sociedad.

– La contribución al desarrollo de currículos formativos en el ámbito de las Humanidades Digitales. Se tendrá en cuenta el grado de innovación en la articulación de los contenidos, el tipo de competencias desarrolladas, el alcance y los resultados del aprendizaje alcanzados. Se tendrá especialmente en cuenta que las iniciativas formativas presentadas sean continuadas en el tiempo, formando parte de ciclos, series de seminarios, talleres, etc. que tienen lugar de manera regular y sistemática.

– La contribución a la difusión y visibilidad de las Humanidades Digitales, y su capacidad para involucrar a la comunidad a través de la interactividad y la participación.

Requisitos para la presentación

  1. Rellenar y enviar el formulario que se encuentra al final de esta página.
  2. Adjuntar al formulario el informe de no más de 2.000 palabras describiendo las razones que avalan la candidatura.

Plazos y resolución

Plazo de presentación: hasta el 15 de mayo de 2026. La resolución se hará pública en la web de la HDH durante la segunda semana del mes de julio de 2026.

Para cualquier problema o cuestión sobre el envío de candidaturas debe dirigirse a convocatorias@humanidadesdigitaleshispanicas.es.

Si las propuestas no alcanzaran la suficiente calidad a juicio del Jurado, los premios podrán declararse desiertos. La resolución del Jurado será inapelable.

A las candidaturas ganadoras se entregará certificado de otorgamiento con indicación expresa de la composición del Jurado y de los criterios esgrimidos para la resolución.

La entrega de premios se realizará en el marco del congreso HDH 2027. Las candidaturas premiadas estarán exentas del pago de la cuota de inscripción al congreso.


[contact-form-7]

La entrada Convocatoria de los Premios HDH 2026 se publicó primero en HDH - Humanidades Digitales Hispánicas.

《数字人文》2026年第1期——“数字人文与出土文献研究”专刊出新

2026年3月25日 10:02

原创 数字人文 2026-03-25 10:02 北京

《数字人文》上新了!

封面.png

《数字人文》2026年第1期是“出土文献与数字人文专刊”,系国内学界首次以学术专刊形式对出土文献等冷门“绝学”内数字人文成果的集中展示。本期共刊发12篇文章,从内容上看,包括理论探索、平台建设、个案研究和出版实践等多方面,关注甲骨和简帛的缀合、古文字识别与析形,探索天文地理,介绍数据库平台及数字化出版方式。从涉及的材料类型和时代上看,涵括甲骨文、金文、战国秦汉简帛、石刻等,跨越商周到蒙元数千年历史。这些文章,反映近几年来相关领域数字人文的成果,并加以综述,希望能对关心出土文献研究的学者提供新的视角,为数字人文拓展新的领域。本期专刊从选题确定到编校完成,历时超两年,编辑部对作者们的大力支持表示诚挚感谢,也衷心邀请更多出土文献领域采用数字人文手段进行研究的学者不吝赐稿!我们愿意为最新的实践创造发表平台,让更多新颖的、有意义的学术探索尽快公之于众。

目    录

 理论与平台

数字人文与当代中国出土文献研究的现代性特征

许  可

人工智能古文字析解模型的初步训练

聂 菲 宋奥齐

数智时代的出土文献研究:“古汉语小站”建站经验与反思

薛腾阔 

动态视图在文字编管理系统中的应用研究 

数字人文与甲骨学研究

人工智能引导人类直觉产生的甲骨新缀第41-50 组

李霜洁 蒋玉斌

数智化整理助推甲骨文校重工作新发展

莫伯峰 巩诗晨 武智融

面向识别研究的甲骨文数据集标准的探索

陈婷珠

数字人文与简帛学研究

楚简古书类文献通假研究的数据库方法

——以“清华简”(壹—玖)为中心

 孙 欣 刘志基

语料信息处理视角下的里耶秦简缀合研究

冯慧敏 郭帅帅

秦汉简帛文献数据库的建设及文字学应用

张再兴 林 岚

实践与出版

上博简五《竞建内之》“星1.png子曰为齐”考

——基于天象模拟技术的探析

李 凡

蒙元时期石刻族谱文献的数字化分析

——以地域分布与时代特征为中心

王 琪 

动态视图在文字编管理系统中的应用研究 

古文字工具书的数字化转型思考与实践

——以 《古文字构形类纂·金文卷》为例

姜 慧 闵怡然 

动态视图在文字编管理系统中的应用研究 

征稿启事

CONTENTS

Theory and Platform

Digital Humanities and Modern Characteristics of Contemporary Research on Unearthed Documents in China

Xu Ke 

Preliminary Training of an AI Model for Ancient Script Analysis

Nie Fei, Song Aoqi

Research on Unearthed Texts in the Digital-Intelligence Era: The “Classical Chinese Hub” Website—Development Experience and Reflections

Xue Tengkuo

Digital Humanities and Oracle Bone Studies

AI-Guided Human Intuition Discovers New Oracle Bone Fragment Rejoinings: Series 41–50

Li Shuangjie, Jiang Yubin

New Developments in Repetition Proofi ng for Oracle Bone Inscriptions Driven by Digitalization Collations

Mo Bofeng,Gong Shichen, Wu Zhirong

Exploration of Oracle Bone Inscription Data Set Standards for Recognition Research

Chen Tingzhu

Digital Humanities and Bamboo Slips and Silk Studies

The Database Method for the Study of Ancient Literature in the Chu Bamboo Slips: Centered around the Tsinghua Bamboo Slips (1-9)

Sun Xin, Liu Zhiji

Research on Liye Qin Bamboo Slips Conjugation from the Perspective of Digital Humanities 

Feng Huimin, Guoshuaishuai

The Construction and Application of the Qin-Han Bamboo Slips and Silk Database

Zhang Zaixing, Lin Lan

Practice and Publication

Research on the “ 星1.png子曰为齐” in the “Jing Jian Nei Zhi” of “Bamboo Slips V in the Shanghai Museum”:Analysis Based on Celestial Event Simulation Technology

Li Fan

Digital Analysis of Stone Carving Genealogical Documents during the Mongolian Era and the Yuan Dynasty: Focusing on Geographical Distribution and Times Characteristics

Wang Qi

Reflection and Practice of the Digital Transformation of Ancient Chinese Character Reference Books:Taking the Compilation of Ancient Character Confi guration Categories Formations —the Volume of Bonze Inscriptions as an Example

Jiang Hui, Min Yiran

Call for Papers

图片

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

阅读原文

跳转微信打开

DH2026 現已開放報名

作者veevee
2026年3月24日 15:01

DH2026 會議將於 2026 年 7 月 27 日至 31 日在韓國大田會展中心(Daejeon Convention Center)舉行。

Key Deadlines

  • Early Bird Registration: until May 18, 2026
  • Presenter Registration Deadline: May 18, 2026 — At least one author of each accepted submission must register and complete payment by this date to confirm their presentation in the program.
  • Standard Registration: from May 19, 2026

Conference Registration

❌