普通视图

Received yesterday — 2026年4月24日12 - 南京师大比特人文公众号

EvaHan2026古籍多模态OCR国际评测会议日程

2026年4月24日 00:00

EvaHan2026 2026-04-24 00:00 江苏

古籍OCR国际评测竞赛结果即将揭晓,国内外十多支团队精彩报告!

EvaHan2026古籍多模态OCR国际评测研讨会将于2026年5月11日在西班牙马略卡岛召开的语言资源大会LREC 2026的子会议——LT4HALA 2026上隆重举行。

古籍是中华文明的载体,也是人类文明的珍贵组成部分。将海量古籍图像转化为可检索可计算的文本是古籍数字化加工过程中的关键一环。然而,古籍文档的版式多样、文字形态复杂,使得基于现代文档数据开发的OCR工具在处理古籍图像时往往难以达到理想效果。

EvaHan自2022年起,已先后在法国马赛(分词词性标注)、中国澳门(机器翻译)、意大利都灵(断句标点)及美国新墨西哥州(命名实体识别)成功举办了四届。2026年,EvaHan将目光转向更具挑战性的古籍多模态OCR与版面分析任务,力求建立高质量的数据集和评测基准。本次评测共有来自中国、法国等海内外高校与科研机构的41支队伍报名,13支队伍完赛。

PART1

会议日程

(注:以下为西班牙当地时间,北京时间已标注。)

开幕式:

14:00 - 14:03(北京时间:20:00-20:05) 

特邀嘉宾讲话:

14:03 - 14:07(北京时间:20:05-20:35)

  • The Significance and Direction of Chinese Ancient Book OCR(中文古籍OCR的意义与方向)

    著名计算语言学家 冯志伟 教授

评测总览:

14:07 - 14:22(北京时间:20:35-20:45)

  • Overview of EvaHan2026: The First International Evaluation on Ancient Chinese OCR and Layout Analysis(EvaHan2026评测总体情况报告)

    南京农业大学 王东波 教授

口头报告 : 每篇4分钟

14:22 - 15:10(北京时间:20:45-21:10)

  • A Multi-Stage System for Ancient Chinese OCR and Layout Understanding in the EvaHan2026 Shared Task(古籍OCR与版面理解的多阶段系统)

    KeYan Liang, Meiling Liu

  • A Multi-Modal Recognition Framework for Ancient Books Integrating DoRA-DPO Text Recognition and YOLO Layout Analysis(融合DoRA-DPO文本识别与YOLO版面分析的多模态识别框架)

    Chaokun Zhang, Xin Wen, Tongtong Zhou

  • Enhancing Ancient Chinese Character Recognition and Layout Analysis via VLM Fine-Tuning and Linguistic Post-Processing(基于视觉语言模型微调与语言学后处理的古籍增强识别)

    Yihuan Yin, Qian Zhao

  • A Dual-Modality Framework for Ancient Document Layout Analysis and Text Recognition(古籍版面分析与文本识别的双模态框架)

    Qi Fan, Jieming Hu, Chen Ye

  • EvaHan 2026 Ancient Books Multimodal OCR and Layout Analysis System Technical Report(古籍多模态OCR与版面分析系统技术报告)

    Chenrui Zheng

  • A Parameter-Efficient and Data-Centric Framework for Ancient Chinese Text(面向古籍文本的参数高效与数据驱动框架)

    Yuchun Meng

  • LVLM Optimization for Ancient Chinese Book Image Analysis with Task-specific Augmentation and Instruction Tuning(基于任务增强与指令微调的大视觉语言模型古籍图像分析优化)

    Xia Tian, Liu Yulong, Wang Yilin, Yang Yumeng, Cai Dongheng, Tan Yuyang,Yang Menghui

  • Data-Centric Strategies for Ancient Chinese Text Recognition: Augmentation, Annotation Refinement, and Style Transfer in EvaHan 2026(数据驱动策略:数据增强、标注优化与风格迁移)

    Chengfei Li, Yunjie Zhang, Xiaoyi Li, Changshun Quan, Taihe Cao, Bin Liu

  • AnandaSky: A Vision–Language Model for Line-Level Transcription of Historical Sinographic Documents(面向历史汉字文档行级转录的视觉-语言模型)

    Colin Brisson, Ayoub Kahfy, Frédéric Constant, Marc Bui

  • Multimodal Ancient Document Parsing: Technical Report for EvaHan2026 Competition(多模态古籍解析技术报告)

    Liqi He, Qiwei Li, Ziye Yang, Zuchao Li

  • Multi-Task Learning Trade-offs in Vision–Language Models for Ancient Chinese OCR: An Empirical Analysis of Parameter-Efficient Adaptation(古籍OCR视觉语言模型中的多任务学习权衡:参数高效适应的实证分析)

    Huizi Zhou, Yuhan Shu

  • Building Character(s): Synthetic Data and In-Context Learning Strategies for Few-Shot Ancient Chinese Recognition(合成数据与上下文学习策略在少样本古籍识别中的应用)

    Denise Atzori, Marie Bizais-Lillig, Mathias Garnier, Maxime Létoffé, Charles Planque, Tianjie Yin, Chahan Vidal-Gorène

  • 闭幕式

15:10 - 15:15(北京时间:21:10-21:15)

PART2

特邀嘉宾

著名计算语言学家 冯志伟 教授

冯志伟教授是我国著名计算语言学家、中国计算机学会高级会员、中国中文信息学会会士。先后在北京大学和中国科学技术大学研究生院两次研究生毕业,获双硕士学位。曾在法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(CETA)留学,后在德国夫琅禾费研究院(FhG)新信息技术与通信系统研究所、德国特里尔大学、德国康斯坦茨高等技术学院、韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)、英国伯明翰大学担任高级研究员或教授,现为新疆大学天山学者。主要著作有《Forma Analysis for Natural Language Processing: A Handbook》、《自然语言计算机形式分析的理论与方法》《自然语言处理简明教程》《计算语言学方法研究》《数理语言学》《数学与语言》《机器翻译研究》《现代术语学引论》《现代语言学流派》《汉字》(英汉对照)等40部,主要译著有《自然语言处理综论》《统计语言学习》等3部,用中文、英文、法文、德文发表论文500多篇,主持研制国际标准(ISO)1项、国家标准(GB)1项、国家规范3项,参与研制国家标准(GB)14项。2006年获奥地利维斯特奖,2018年获中国计算机学会NLPCC杰出贡献奖,2023年获香港圣弗兰西斯科技人文奖。

PART3

会议信息

会议语言

英语

主持人

李斌 教授

主办团队

南京农业大学信息管理学院

王东波、刘浏、朱冬梅、厉洁琼、刘畅、武瑞峰、杨俊羿

南京师范大学文学院语言大数据与计算人文研究中心

李斌、冯敏萱、许超、曲维光、李俊洁、朱月、戴俊阳、

方灿灿、徐梦婷、许智星、蔡敏欣

南京理工大学经济管理学院

沈思

协办单位(排名不分先后)

中国人工智能学会语言智能专委会

中国中文信息学会青年工作委员会

中国古籍保护协会古籍智能开发与利用专委会

中国民族语言学会语言资源与计算人文专委会

江苏省人工智能学会自然语言处理专委会

中华书局 古联(北京)数字传媒科技有限公司 

联系方式

  • 邮箱:evahan2026@gmail.com

PART4

直播地址

直播地址请关注比特人文公众号后续推文。

= END =

相关链接:

欢迎参赛 | EvaHan2026 古籍多模态OCR国际评测

即将开赛 | EvaHan2026 古籍多模态OCR国际评测(2号通知)

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

第二十五届中国计算语言学大会(CCL26-Eval)技术评测任务启动,欢迎报名参赛!

2026年4月24日 00:00

CCL26-Eval 2026-04-24 00:00 江苏

CCL26-Eval启动,14项评测覆盖NLP多领域,10月宜昌办会。

转载自“CIPS计算语言学专委会”

第二十五届中国计算语言学大会(CCL26-Eval)技术评测任务启动,欢迎报名参赛!

第二十五届中国计算语言学大会(The 25th China National Conference on Computational Linguistics, CCL 2026)将于2026年10月15至18日在湖北省宜昌市举行。会议主办单位为中国中文信息学会。CCL是中国中文信息学会(CIPS)的重要会议,是中国最大的自然语言处理学者和专家的社区。经过三十年的发展,CCL被广泛认为是最权威的,全国最具影响力、规模最大的NLP会议。随着计算机语言处理在中国的发展,CCL已经成为在全国范围内传播计算语言新学术和技术工作的主要论坛。

会议网站:http://cips-cl.org/static/CCL2026/index.html

本次大会继续组织中文语言处理技术评测CCL26-Eval。经过前期评测任务征集,CCL26-Eval组织委员会已确定14个评测任务,涵盖语义分析、篇章、语用分析,跨语言、小语种、低资源自然语言处理,知识图谱,自然语言处理与医疗、教育、人文、司法等领域结合应用,生成式AI与大模型核心能力等研究方向。欢迎广大研究者参与评测竞赛。每个评测任务都会根据比赛结果设立一、二、三等奖若干名,由中国中文信息学会颁发官方荣誉证书。评测的总结论文和优秀技术报告将被CCL AnthologyACL Anthology收录。

评测主席:

林鸿飞(大连理工大学,hflin@dlut.edu.cn)

谭红叶(山西大学,tanhongye@sxu.edu.cn)

杨亮(大连理工大学,liang@dlut.edu.cn)

CCL26-Eval评测任务分类汇总

一、 自然语言处理基础任务

1. 语义分析 / 篇章、语用分析

任务1:第二届中文叙实性推理评测

任务简介

        叙实性推理(Factivity Inference,FI)是一种跟事件真实性判断有关的语义理解任务,是真实性推理(Factuality Inference,FactI)的一种形式。在人类的会话交际中,叙实性推理能力主要表现为语言使用者可以从某些动词性语言成分(如“相信”“谎称”“意识到”等)的使用获取说话人和句子主语的心理状态,并据此推定相关事件的真实性(真还是假)。例如,从肯定句“他们意识到局面已经不可挽回”和相应的否定句“他们没有意识到局面已经不可挽回”上,都可以推理出在说话人眼中存在这样一个事实:“局面已经不可挽回”。进行此类推理所使用的知识是一种受世界知识(world knowledge)影响较小、主要涉及语言内部各成分之间语义关系的分析性语言知识(analytical knowledge of language)。比如,上面例句中的动词“意识到”要求(预设)它的宾语“局面已经不可挽回”的所指大概率为真,不管该动词前面有没有否定性词语。

        为进一步提升大型语言模型对中文的语义理解能力,实现机器对人类交际话语的深度理解,我们将在FIE2025的基础上继续推出“第二届中文叙实性推理评测任务”。本届评测任务将着重考察大型语言模型在复杂语境条件和少样本提示下的叙实性推理表现。

         相较FIE2025,本次评测将着重考察大模型在不同真实语境中的叙实性推理表现有何差异。特别是:当叙实性结构中存在不同的否定词、不同的否定意愿、不同的评价性状语、不同人称和数量类型的主语,以及存在多声性标记和被动化标记等复杂语境条件下,模型的叙实性推理表现如何。例如:从“我不能相信他竟是一个八十多岁的老人”,可以推出“他是一个八十多岁的老人”大概率为真;而从“我不能相信人可以长生不老”,可以推出“人可以长生不老”大概率为假。

任务描述

        参赛队伍需要利用组织方发布的样例集与评测集自行设计提示词(prompt),在获取LLMs的回答后整理为统一的输出格式。每条评测集数据以一个文本蕴含关系句对<Aa,a>的形式呈现,数据集以JSON格式保存。

模型需要根据主蕴含句Aa的内容判断被蕴含句a的真值情况,并给出对该判断的置信度。例如:
*主蕴含句Aa:老张并没有注意到她今天穿了一件红色的连衣裙。
*被蕴含句a:她今天穿了一件红色的连衣裙。
*模型判断:有95%的把握判定被蕴含句为真。
*输出答案(JSON):{"factivity":"TRUE","confidence":0.95}

此外,本届评测将继续设置不微调(non-finetuning)和微调(finetuning)两条赛道。不微调赛道不允许对模型本身做任何修改;微调赛道可以利用样例集数据对模型参数进行微调。鼓励尝试进行多样化、复合化测试手段以获得更好的回答表现。

组织者和联系人 

  • 任务组织者:袁毓林(澳门大学教授)、李斌(南京师范大学教授)

  • 任务联系人:丛冠良(澳门大学博士生,guanliang.cong@connect.um.edu.mo);寻天琦(澳门大学博士生,tianqi.xun@connect.um.edu.mo)。

任务奖项 

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖,奖项按总得分从高到低颁发。其中,一等奖0-1名,二等奖0-2名,三等奖0-3名。各奖项奖金待定。

任务网址

 https://github.com/UM-FAH-Yuan/FIE2026

任务2:非字面义翻译和理解评测

任务简介

评测面向谚语、成语、习语、俚语、典故等非字面表达的中英翻译与识别,重点考察模型对非字面意义的理解、跨语言文化映射能力以及语用效果保持能力。任务构建了“生成+判别”互补评测框架,用于检验模型的非字面义表达生成能力和标准非字面义辨识能力。评测数据共5000条高质量样本,涵盖Gold(英文文化背景下的等值表达)和Silver(核心意义翻译)两类参考。本次评测包括两个子任务。

  • 子任务1非字面义中文翻译为英文给定一条包含谚语、成语、习语等非字面表达的中文句子,模型需生成1条自然、地道、具有文化映射特征的英文译文,优先采用英语中现成的习语、谚语、格言或固定搭配进行等值替代。

  • 子任务2非字面义中英选择给定一条非字面表达的中文句子及若干个英文候选,模型需进行不定项选择,识别并输出与中文在英语语境中构成公认等值替代关系的Gold标签项。

组织者和联系人 

  • 评测组织者: 张冬瑜(大连理工大学教授)

  • 任务联系人: 杨森淇(大连理工大学博士生,ysq1997@mail.dlut.edu.cn)

任务奖项 

本届评测设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/DUTIR-YSQ/CCL2026-Non-literal-Translation-Task

2. 跨语言、小语种、低资源自然语言处理

任务3:跨主流语言与低资源语言对齐的大模型金融评测

任务简介

MapFinBen是首个专门评估大语言模型在高资源语言与低资源语言之间跨语言资源的多语言金融评测基准。该基准覆盖了五类具有代表性的金融任务,全面反映真实金融应用场景中的多样化需求。

在语言设置上,MapFinBen同时涵盖高资源语言(英语和中文)与多种低资源语言(印度尼西亚语、西班牙语、希腊语和日语),有效缓解了现有金融语言模型评测中对高资源语言过度依赖的问题。通过统一的任务设计与评测标准,该框架能够系统评估大模型跨语言、跨资源条件下的金融任务处理能力。

MapFinBen 基准由五个子任务构成,通过综合评估模型在各子任务上的表现来确定最终成绩。具体任务如下:

  • 子任务一金融选择问答(FinAS) 给定一段金融文本及其对应的问题和候选选项,模型需要从多个备选答案中选择最符合问题语义和金融语境的正确答案。

  • 子任务二金融文本问答(FinQA) 给定一段金融文本,模型需要根据文本内容回答与之相关的金融问题。

  • 子任务三金融情感分析(FinSA) 给定一段金融文本,模型需要识别文本所表达的情绪倾向,并将其分类为积极、中性或消极。

  • 子任务四金融主题分类(FinTC) 给定一段金融文本及候选主题类别,模型需要根据文本内容将其归类到最合适的金融主题类别中。

  • 子任务五金融文本摘要(FinTS) 给定一段金融文本,模型需要提取并生成简洁、准确的摘要,以概括文本的核心信息和主要内容。

各子任务的数据分布、数据结构、具体评测指标及其计算方式,以及最终成绩的计算方法,详见任务网址。

组织者和联系人 

  • 评测组织者:胡刚、岳昆(云南大学)、彭敏(武汉大学)、石磊(云南师范大学)

  • 任务联系人:孔晓勇(kongxiaoyong@stu.ynu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/HgITSE/MapFinBen

任务4:低资源缅甸语固定模版语句推理评测

任务简介

在缅甸语等低资源语言的翻译中,固定模版语句的推理作为垂类的任务,其语言内部的词性、地名、多元价值观等显著影响着最终的翻译质量。

格式与习惯差异:例如,中文的“第1名”、“第3章”,在缅甸语意为“编号”或者“号”,后面需要紧跟缅甸语数字。地名转写冲突:地名转写往往与缅甸语特有发音、历史习惯冲突,导致中文直接转写容易出现混乱。多元价值观影响:翻译受种族、宗教以及集体主义的影响,不能简单直译。必须充分考虑当地的文化敏感性和宗教背景,否则极易引起误解或反感。

作为固定模版语句的推理任务,机器具体要适应的是模版格式、幻觉处理等任务的重要形式依据。为了提升翻译大模型在缅甸语上的翻译质量,进一步实现机器对人类固定模版语句的深度理解,我们正式推出本次评测任务。

组织者和联系人 

  • 评测组织者:陈自岩、刘劲松(新译信息科技有限公司)、朱少林(天津大学)

  • 任务联系人:任虹(天津大学博士生,邮箱地址:rhong@tju.edu.cn);吴川(天津大学硕士生,邮箱地址:wuchuan@tju.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。奖金由 新译信息科技有限公司赞助。

任务网址

https://github.com/merc11/CCL-2026

二、 自然语言处理应用

1. 知识图谱

任务5:杂粮育种信息抽取评测

任务简介

杂粮育种领域积累了大量以自然语言形式呈现的知识,广泛分布于论文、品种审定与栽培技术规程等文本中。这些文本记录了育种材料来源、目标性状及测定结果,同时也包含栽培管理条件、胁迫处理信息以及分子标记等证据。由于杂粮育种文本专业术语密集、概念表述多样,且材料名称与试验要素常存在嵌套表达,导致关键信息难以稳定抽取和统一结构化,从而限制了知识检索、证据汇总和育种决策支持等应用的发展。

杂粮育种信息抽取评测(Minor Grain Breeding Information Extraction Evaluation, MGBIE)旨在面向杂粮育种知识管理与数据资源建设需求,系统评估信息抽取模型在杂粮育种相关专业术语识别、育种语境理解、关键信息抽取与结构化表达等方面的能力。MGBIE数据集总规模为2000条样本,其中训练集、验证集和测试集分别包含1000条、400条和600条,用于支持模型的训练、调优与综合性能评估。

MGBIE2026包含以下两个子任务:

  • 杂粮育种命名实体识别: 从杂粮育种相关文本中识别并抽取关键实体信息,并输出相应的实体边界及其类型标签。实体类型标签体系涵盖杂粮育种领域的核心概念,共包括12类:作物、品种、性状、生育时期、基因、数量性状位点、分子标记、染色体、育种方法、亲本/杂交组合,非生物胁迫以及生物胁迫。

  • 杂粮育种关系抽取: 在已识别实体的基础上,进一步抽取实体之间的语义关系,并以关系三元组的形式进行结构化表示。关系类型体系共包含6类语义关系,分别为:包含、采用、具有、影响、发生于和定位于。

组织者和联系人 

  • 评测组织者:胡志伟、孔照胜、高建华(山西省后稷实验室、山西农业大学);谭红叶、闫智超、李茹(山西大学);谢倩倩(武汉大学)

  • 任务联系人: 杨森杰(山西大学硕士生,yangsenjie1@sxu.edu.cn)

任务奖项 

本届评测将为不微调赛道和微调赛道分别设置一、二、三等奖。其中,一等奖1名,二等奖2名,三等奖3名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/zhiweihu1103/CCL2026-MGBIE

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532465

2. 自然语言处理与医疗、教育、人文、司法等领域结合应用

任务6:中文电子病历疾病与手术ICD自动编码评测 

任务简介

近年来,随着人口老龄化加剧和健康意识提升,医疗体系面临着日益增长的服务压力。在医疗信息化进程中,电子病历的广泛应用为解决这一挑战提供了新的可能。为实现医疗数据的标准化管理和共享,世界卫生组织制定了国际疾病分类标准(International Classification of Diseases,ICD)。该标准将数万种疾病及其组合转化为规范的字母数字编码体系,为跨地区、跨机构的医疗数据交换与分析奠定了基础。

然而,对电子病历文本进行人工ICD编码不仅耗时耗力,还容易因专业技能差异导致编码错误。开发自动ICD编码系统,既能提高编码效率和准确率,也能为疾病研究和医疗管理提供更可靠的数据支持。基于上述背景,本任务构建了一个中文电子病历ICD自动编码数据集,该数据集基于脱敏病历数据而构建,共涉及10个科室,18种主要疾病编码,若干种其他疾病编码,16种主要手术编码,若干种其他手术编码,共计2600条数据。该任务给定一段由临床信息构成的文本作为输入,需要模型输出对应的主要疾病编码、其他疾病编码、主要手术编码、其他手术编码。

组织者和联系人 

  • 评测组织者:管红娇、鹿文鹏(齐鲁工业大学(山东省科学院))、廉颖、陈国强(山东第一医科大学第一附属医院)

  • 任务联系人: 李传龙(齐鲁工业大学硕士生,icdevaluator@163.com)

任务奖项 

本届评测将设置一等奖1名,二等奖3名,三等奖6名,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/QLU-NLP/icdevaluator-26

天池评测链接

https://tianchi.aliyun.com/competition/entrance/532466

报名信息填写表

https://docs.qq.com/form/page/DWWNmV0ZGRnRwampn#/fill

任务7:跨语言文学文本情感分析一致性评测 

(Benchmark for Cross-lingual Classical Literature Sentiment Analysis and Consistency)

任务简介

跨语言情感分析一致性评测旨在考察模型对中国古典文学文本的情感理解能力,以及同一语义内容在中英文两种表达下是否能够保持情感判断一致。中国古典文学往往通过意象、典故和隐喻传递情感,具有较强的语境依赖性,因此对模型的跨语言语义理解和情感对齐能力提出了较高要求。

本任务基于中英平行古典文学语料,评估模型在单语言情感识别、跨语言情感迁移以及平行文本一致性建模等方面的表现。

BCCL-CSA 2026 包含三个子任务:

子任务一细粒度情感识别

参赛系统需分别对中文古典原文及其对应英文译文进行情感分析,预测文本的情感极性和情绪分布。

评测重点包括:

1.情感极性识别准确率

2.情绪分布预测能力

该子任务用于评估模型对单语文学文本情感特征的理解能力。

  • 子任务二跨语言情感迁移

参赛系统需在一种语言上训练,在另一种语言上测试,考察模型的跨语言情感迁移能力。

评测重点包括:

1.中英之间的情感极性保持一致性

2.不同语言表达下情绪分布的对齐程度

该子任务用于评估模型是否具备稳定的跨语言语义映射能力。

  • 子任务三平行文本一致性评估

参赛系统需对同一语义内容的中英文平行句对分别进行情感分析,并比较两种语言预测结果的一致性。

评测重点包括:

1.中英文情感极性预测是否一致

2.中英文情绪分布是否相近

该子任务用于评估模型在双语场景下的情感一致性与跨语言对齐能力。

任务特色与创新

1.跨语言情感对齐维度:突破单一语言的情感分类范式,首次聚焦于中英双语在复杂古典文学语境下的情感语义一致性。2.精细化分布标注:提供情绪概率分布(LabelDistribution),精准捕捉文学作品中复杂、模糊的情感底色。3.语料库稀缺性与挑战性:数据集精选自先秦至近代的13部经典著作,涵盖哲学、小说、戏曲等多种体裁,挑战模型泛化性能与抗噪声能力。

数据集说明

数据集CCL-SEL,来源于12部中国经典著作,每部著作各250组中英句子对。

网站建设与论文评审 

评测将建设GitHub页面发布数据、脚本与排行榜。评测论文将通过CCL26-Eval通道提交,并进行双盲评审。

组织者和联系人 

  • 评测组织者: 张海洋、张霄军(西交利物浦大学);徐睿峰(哈工大深圳)

  • 任务联系人: 周静狮(Jingshi.Zhou@outlook.com)

任务奖项 

一等奖1名,二等奖2名,三等奖3名。

任务网址

https://github.com/Jingshi-Zhou/-BCCL-CSA-2026-

任务8:大语言模型生成中文医疗内容的循证事实核查评测

任务简介

循证事实核查(Evidence-based Medical Fact-checking)是一项旨在验证在线医疗内容真实性的关键任务。随着互联网成为公众获取医疗健康信息的主要渠道,医疗虚假信息的泛滥给公共卫生安全带来了严峻挑战。该任务要求模型不仅要理解医疗声明(Claim),还需要结合检索到的相关证据(Evidence),判断证据对声明的支持程度(如支持、反驳或证据不足)。这一过程对于提高医疗信息的透明度、减少误导性信息的传播具有不可替代的作用,同时也是构建可信赖的医疗问答系统和智能医疗助手的核心安全屏障。

  • 支持(Supported):证据完全支持声明的内容;

  • 部分支持(Partially Supported):证据支持声明的部分内容,但存在不确定性或未覆盖的细节;

  • 反驳(Refuted):证据与声明内容相矛盾;

  • 不确定(Uncertain):证据与声明相关,但不足以证实或反驳声明的真实性;

  • 不适用(Not Applicable):证据与声明完全不相关。

组织者和联系人 

  • 评测组织者:苏炯龙、蒋正雍、王唯(西交利物浦大学)

  • 任务联系人: 陈彤(西交利物浦大学,Tong.Chen19@student.xjtlu.edu.cn)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/AshleyChenNLP/MedFact

任务9:第二届古诗词赏析评测

任务简介

中文古诗词具有高度凝练性和语言的音乐美,讲究对仗、平仄和押韵。为了准确理解古诗的语义,不仅需要掌握古诗的语言特色,还需要调动对历史、文化背景的知识,结合对古诗中所描绘的自然景象和人物情感的认知,从而进行综合性的推理与理解。

为了进一步衡量模型在中文古诗词赏析场景中的语言理解深度与文化推理能力,我们推出第二届中文古诗词赏析评测。在第一届的基础上,本届评测进一步聚焦模型的深度理解与复杂推理能力,引入更具挑战性的高级任务,以全面考察模型对古诗词文化内涵与高层语义结构的掌握程度。具体任务设置如下:

  • 任务一:古诗词理解:

古诗词字词理解:解释古诗词中短语级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词诗句理解:解释古诗词中诗句级别的语义。本子任务通过问答题的形式对待测系统进行评估。

古诗词情感理解:推断诗人透过作品所传达的情感。本子任务通过选择题的形式对待测系统进行评估。

典故识别:判断诗句中是否包含典故并进行解释。本子任务通过问答题的形式对待测系统进行评估。

  • 任务二:古诗词推理:

古诗词类比:发现古诗词中不同事物之间的相同关系,意象的关联。本子任务通过问答题的形式对待测系统进行评估。

古诗词辨析:依据诗词内容与语境,对给定选项进行辨析,判断其中表述最为合理的一项。本子任务通过选择题的形式对待测系统进行评估。

本评测将根据两个任务的综合性能来确定最终成绩排名。本评测旨在评估自然语言模型自身对中文诗词的理解水平,参赛队伍可以使用开源大语言模型进行微调,禁止使用RAG等技术来利用外部知识回答问题。

组织者和联系人 

  • 评测组织者:白雪峰、陈科海(哈尔滨工业大学(深圳)) 

  • 任务联系人: 朱颖杰、裴振武(哈尔滨工业大学(深圳),zhuyj@stu.hit.edu.cn)

任务奖项 

 一等奖1名,奖金合计3000元;二等奖1名,奖金合计2000元;三等奖1名,奖金合计1000元。 所有奖金将在公布奖项后10个工作日内发布。

任务网址

https://github.com/HITICI-NLPGroup/CCPA-EvalTask

任务报名表

https://docs.qq.com/form/page/DZW50THN4SGhqbm5x

三、 生成式AI与大模型核心能力

任务10:基于情景的常识推理评测

任务简介

推理是一种高级认知功能,涉及基于现有知识对新信息进行分析、归纳和演绎。它在人类智能中起着基础性作用。虽然以往的基准测试主要侧重于评估大语言模型(LLMs)在复杂、专业领域内的推理能力,但它们往往忽视了类人认知的一个关键方面:常识推理。评估大型语言模型中的这种常识推理能力对于人工智能的发展至关重要。这种基本能力显著影响着 LLMs 在日常情境中的决策,并且对于在通用人工智能(AGI)中迈向类人智能至关重要。

为了全方位、细粒度地诊断大模型的常识推理能力,我们提出了基于情景的常识推理评测数据集(Scenario-based Commonsense Reasoning Evaluation, SCoRE),用以评估大语言模型在常识场景下的复杂逻辑推理能力。根据所涉及的常识领域,该数据集包含的任务可分为以下五类: * 空间常识推理: 给定一个空间场景和若干已知的实体间方位关系,本任务要求机器推理出实体在空间场景中的位置,以及未知的方位关系。 * 时间常识推理: 给定一个包含若干事件的时间叙述场景和已知的事件间时间关系(如先后顺序、持续时长、相对或绝对时间点),本任务要求机器推理出事件在时间轴上的具体时刻,以及未知的事件间时间跨度或次序关系。 * 社会常识推理: 给定一个社会交互场景和若干已知的人物间人际关系(如亲属、职场、朋友或师徒关系),本任务要求机器推理出人物在社会网络中的具体角色或地位,以及人物间隐含的或未知的社会关系。 * 自然常识推理: 给定一组自然物体(或实体)和若干已知的属性约束条件(如类别归属、物理性状、功能用途或感官特征),本任务要求机器推理出物体与描述(或位置)的一一对应关系,以及物体未知的属性或分类特征。 * 融合常识推理: 融合领域任务描述旨在构建一个多维度条件交织的推理问题。它要求机器同时处理来自空间、时间、自然属性及社会关系等多个领域的约束与常识,并建立统一的推理模型以进行协同分析与决策。其核心挑战在于,单一领域的逻辑链条不足以解决问题,必须识别并整合不同领域的隐含联系,才能对复杂多因素情境进行有效推断。

组织者和联系人 

  • 评测组织者:詹卫东、穗志方(北京大学) 

  • 任务联系人:胡楠(北京大学博士生,hunan@stu.pku.edu.cn)

任务奖项 

一等奖0-1名; 二等奖0-2名;三等奖0-4名。

任务网址

https://pku-space.github.io/SCoRE2026/

任务11:面向自动驾驶的自动化危害分析与风险评估评测

任务简介

随着汽车电子电气架构(E/E 架构)向智能化与网联化深度演进,功能安全已超越早期以机械系统为主的工程保障范畴,演变为覆盖软硬件协同设计的系统化安全工程体系,成为自动驾驶技术落地与量产的关键基石。在此体系中,危害分析与风险评估(HARA, Hazard Analysis and Risk Assessment)承担着风险识别与顶层安全需求定义的核心职能。该过程通过对车辆运行场景、潜在功能失效模式及环境要素的系统化建模,提取车辆运动状态、道路拓扑及交通参与者分布等关键特征,并基于严重度(S)、曝光率(E)和可控性(C)三个维度对风险进行量化评估,确定汽车安全完整性等级(ASIL),并将评估结果转化为顶层安全目标,进而分解为可验证的软硬件安全需求,指导系统设计与工程实施。

为推动大模型与人工智能技术在预期功能安全及功能安全领域的落地应用,提升HARA流程的自动化与智能化水平,我们提出“面向自动驾驶的自动化危害分析与风险评估评测任务”并构建了一个专注于评估自动驾驶安全逻辑推理与需求生成的结构化数据集。该数据集源自脱敏的真实工业项目数据,聚焦于动力系统核心高危失效模式——“非预期驱动力/扭矩输出”,共包含3,000条高质量标注数据。

本次评测包括以下两个子任务: * 危害事件识别与场景描述生成: 该任务要求模型基于给定的车辆运行工况与环境参数,精准识别潜在的危害事件,并生成符合工程规范的危害场景结构化描述。 * 风险参数评定与等级推理: 该任务要求模型基于场景特征,推理并输出HARA分析的关键风险指标(S/E/C),并据此判定相应的安全完整性等级。

组织者和联系人 

  • 评测组织者:杨旭(北京理工大学),张海洋(西交利物浦大学),王唯(西交利物浦大学)

  • 任务联系人:王子木(西交利物浦大学博士生, Zimu.Wang19@student.xjtlu.edu.cn)

任务奖项 

一等奖1名,奖金合计5000元 * 二等奖1名,奖金合计3000元 * 三等奖1名,奖金合计2000元。

赞助情况 :本次评测奖金由优策科技(福州)有限公司赞助。

任务网址

https://ccl2026-hara.github.io

任务12:优酷无障碍剧场杯-面向听障群体的信息无障碍结构化字幕生成评测

任务简介

在我国已进入“制度保障”阶段的信息无障碍建设背景下,字幕已成为听障及老年群体获取音视频信息的关键无障碍服务。然而,现有技术评测缺乏面向真实应用场景、统筹考量“可读性”、“核心信息准确度”与“响应速度”的基准。本任务从“AI字幕是基础设施”的视角出发,系统评测从“语音/视频输入”到生成“面向人类阅读的结构化字幕文档”的完整链路,特别聚焦于解决高信息密度真实场景(如医疗、金融、政务办事)中“社交时差”与“关键信息丢失”两大痛点。

为贴近不同应用环境,评测任务被设计为两个平行赛道,以全面评估技术的能力上限与落地可行性:*赛道A:PC端模拟云端或高性能桌面环境,旨在探索技术性能上限,不限制计算资源。*赛道B:手机端模拟移动设备(手机、AR眼镜)实时交流场景,对模型体积、内存占用及实时性提出明确的约束要求。

每个赛道均包含以下两个子任务:

1. 子任务一基础字幕生成(Foundation Track) 评估语音转写、时间戳对齐、噪声鲁棒性等基础能力。 评测指标: 转写准确性、时间轴对齐精度、复杂多人场景下的综合处理能力。

 2. 子任务二结构化可读字幕生成(Structured Track) 评估模型生成符合人类阅读习惯、包含合理断句、标点、说话人区分、并确保核心关键词准确性的结构化字幕的综合能力。 自动评测指标: 文本准确性、核心词召回率、模拟显示延迟、时间轴合理性偏差、结构一致性。 人工评测指标(抽样): 可读性(1-5分)、关键信息完备性、断句合理性、标点与语气匹配度、幻觉文本严重程度。

数据规模与来源

本评测构建了总规模约30–50小时的多场景真实语音/视频测试集,涵盖新闻演讲、影视综艺、生活真实交流、多人会议等四类典型场景。其中,约10–15小时的核心子集提供更高粒度的结构化标注与核心关键词标注,支持Track2的深度评测。数据来源强调真实性与多样性,包含背景音乐干扰、环境噪声、远场收音、多人重叠语音等复杂声学条件,全面模拟听障用户在办事场景中的实际听觉挑战。

组织者和联系人 

  • 评测组织者:姚登峰(北京联合大学/清华大学),徐聪(中国聋人协会手语研究与推广委员会),梁振宇(深圳市信息无障碍研究会专家委员会),曲欣(北京市设计学会无障碍设计专委会)

  • 任务联系人:施杰、叶博文(北京联合大学硕士生,20251083510951@buu.edu.cn),张洋(清华大学博士生)

任务奖项 

本届评测将设置一、二、三等奖,由中国中文信息学会为获奖队伍颁发荣誉证书;同时设立赞助奖项,由阿里巴巴等头部科技企业提供奖品支持。

任务网址

https://github.com/ALINOSJ/IASSGE-2026

报名表

https://f.kdocs.cn/g/aYC93cfz/

任务13:图像文本翻译质量评测

任务简介

随着全球化进程加速和跨语言交流需求增长,图像文本翻译(In-Image Translation,简称“图翻”)已成为机器翻译的重要分支。与传统文本翻译不同,图翻需同时处理视觉与语言信息,涵盖文本检测、识别、翻译与渲染等多个环节,在跨境电商、旅游导览、多语言内容本地化等场景中具有广泛应用价值。中文图翻面临独特挑战:汉字视觉复杂性高、书写方向多样(横排/竖排)、与目标语言存在显著文本长度差异,且蕴含丰富文化内涵。尽管大型多模态模型在图像理解方面取得进展,但在保持视觉一致性的前提下实现高质量图翻仍困难重重。尤其在电商场景中,系统需区分“应翻译内容”(如功能说明)与“应保留内容”(如品牌标识),对翻译完整性与合规性提出更高要求。现有机器翻译评测指标(如BLEU、METEOR)仅关注文本准确性,无法衡量视觉呈现、排版布局、美学协调等关键维度。而人工评测成本高、主观性强、难以规模化。因此,亟需建立标准化、多维度、可自动化的图翻质量评测框架。

本次评测聚焦于如何设计和训练能够从多个维度对图像翻译结果进行精准评分的自动评测系统,从而为该领域的技术进步提供可靠的度量工具。旨在:建立标准化基准:构建包含多场景、多维度人工标注的大规模评测数据集。推动方法创新:鼓励研究者设计能够模拟人类专家判断的自动评测模型。探索评测范式:通过开放式竞赛,发现在不同应用场景下最有效的评测策略。促进社区共识:图像文本翻译质量评测建立可复现、可比较的评价标准。

组织者和联系人 

  • 评测组织者:李海军、尚姿芙、梁杰、徐昭、骆卫华

  • 任务联系人:韩雨轩(阿里云技术专家  baileng.hyx@alibaba-inc.com)

任务奖项 

一等奖1名,奖金合计20000元 ;二等奖1名,奖金合计10000元;三等奖2名,奖金合计5000元。

赞助情况:本次评测奖金由阿里云赞助,由中国中文信息学会为获奖队伍颁发荣誉证书。

任务网址

https://tianchi.aliyun.com/competition/entrance/532463?spm=5176.12281973.J_6-HJZaSjQocH7SIdvbK02.1.376b3b74H1HNIn

评测任务14:中文会话含义与隐喻能力评测

任务简介

       对“言外之意”的理解是人类交际的核心能力。而以往针对大语言模型的评测更侧重其在具体垂域中的表现,较少从语用推理与隐喻义识别角度评估模型的语言能力。本评测共设计两个核心赛道,旨在系统评估大语言模型在中文语境下的会话语义理解能力与隐喻理解能力。

赛道一:会话含义理解

      为了实现交流目的,会话参与者在交流时通常遵循一套基本原则,这一原则被格赖斯总结为合作原则。该理论从量、质、关系、方式等范畴提出四项准则。量的准则要求提供适量信息,既不多余也不过少;质的准则要求说话真实,证据充分;关系准则要求话语要与当前话题相关;方式准则要求表达简洁有序,避免晦涩和歧义。基于这四项准则,格赖斯提出了会话含义理论,当说话人违反了这些准则或次准则的时候,听话人就需要超越话语的表面意义去领会说话人的隐含意义。本赛道用于评估模型识别、理解会话含义的能力。

  • 子任务一:会话含义识别任务

给定一段多轮对话,要求模型指出特定人物的哪一句话是具有会话含义的。

  • 子任务二:会话含义选择任务

给定一段多轮对话,要求模型从四个选项里选出有会话含义句子的正确含义。

  • 子任务三:会话含义释义任务

给定一段多轮对话并明确指出具有会话含义的句子,要求模型生成一段解释。

赛道二:隐喻理解与生成

       隐喻作为人类认识世界的重要方式,在概念建构和思维过程中发挥着关键作用。隐喻能力不仅关系到语言表达本身,也与创造性思维、抽象推理以及知识迁移等更高层次的认知过程密切相关。人们通过具体、熟悉的源域来理解抽象、陌生的目标域,这一映射机制贯穿于日常语言与思维之中。本赛道用于评估模型识别、理解并创造性地使用隐喻的能力。

  • 子任务一:隐喻识别任务

给定一段文本,要求模型识别出此文本中的句子是否使用隐喻这一修辞手法,如包含隐喻,模型需要分别提取出隐喻句当中的本体、喻体。

  • 子任务二:隐喻释义生成任务

给定一段文本,要求模型用非隐喻的语言解释隐喻句的含义。

  • 子任务三:隐喻句生成任务

不限定主题,要求模型自主生成恰当的隐喻表达。

组织者和联系人

  • 组织者:杨尔弘、杨天麟、岳岩、安维华(北京语言大学)

  • 联系人:张艺璇(北京语言大学博士生,blcuicall@163.com)

任务奖项

本届评测将设置一、二、三等奖,由中国中文信息学会提供荣誉证书。

任务网址

https://github.com/blcuicall/CCIME2026

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

Received before yesterday12 - 南京师大比特人文公众号

书香四月,字韵生辉——全民阅读活动周特别推荐:《汉字(英汉对照)》

2026年4月23日 09:00

外研社国际汉语 2026-04-23 09:00 江苏

以下文章来源于:外研社国际汉语

外研社国际汉语

本账号由外研社中国语言文化出版分社运营,旨在为国际中文一线教师和专业学生搭建一个多元化、专业性程度高的教育交流平台。

外研社推《汉字(英汉对照)》,讲解汉字起源演变与构形,适合多类读者。

转载自“外研社”

四月,是被书香浸润的季节。阳光暖、微风轻,书香氤氲,正是与文字相伴,与文化对话的美好时光。

你是否好奇,方寸之间的汉字藏着怎样惊艳的故事?是否渴望透过字形与笔画,触摸中华文明的温度与力量?这一次,我们为你献上一本既有趣又充满文化深意的佳作——《汉字(英汉对照)》

它是一把解读汉字奥秘的钥匙,帮你轻松读懂语言的智慧;更是一扇通往中华文化深处的大门,带你感受千年文明的独特韵律。从字形的演变到六书的奇妙逻辑,从汉字的起源到书法中的笔画规则,每一页都生动展现汉字的魅力与传承。

让这本书成为你书香四月的良伴,在全民阅读活动周里,开启一次字里行间的精彩旅程吧!

点击封面即可跳转购买

汉字:

中华文明的文化密码

汉字,不仅是一种记录语言的工具,更是一部流动的文化史书。它承载着五千年的岁月温度,也讲述着中国人观察世界的方式。从新石器时代的刻符到甲骨文、金文,再到现代的简体汉字,每一次字形的演化都深深映照着社会的变迁和思想的革新

字形演变图,横滑查看

《汉字(英汉对照)》由著名语言学家冯志伟教授詹宏伟博士联手打造,以生动有趣的内容和严谨科学的讲解,为读者提供一次深入了解汉字的奇妙旅程。从汉字的起源、构形规律到其背后的文化韵味,这本书不仅是一部知识读物,更是打开中华文化的一扇窗。

精彩样张,横滑查看

阅读这本书,会收获什么?

(一)探寻汉字的起源与演变

从新石器时代的陶符到甲骨文,从大篆到隶书,每一个字形的变迁,都是社会和文化发展的见证。这本书带你重返文字的发轫之地,追溯汉字如何从简单的符号演化为完整的书写体系。

(二)解读汉字构形规则:

六书的逻辑之美

象形、指事、会意、形声、转注、假借……每一种构形法则都体现出古人观察自然、表达哲思的智慧。通过生动的图文实例,书中详细解析了这些构形规律,让你轻松记住复杂的汉字,感悟每个字形背后的文化逻辑。

(三)了解汉字的结构设计:

文字也有建筑学

汉字的组合不只是简单的拼接,而是有着深厚科学基础的“语言工程学”。无论是象形的单字,还是复杂的合体字,作者都以直观的图例将其层层拆解,让你理解文字如何从骨骼到血肉层层构建,最终成就一字一形的巧妙之美。

(四)掌握汉字的笔画与书写规律

写好一个汉字,不仅仅是学习规则,更是体会其结构与设计的精妙。本书系统讲解了汉字笔画类型及笔顺规则,让每一笔每一画都有据可循,让书写成为一种审美体验。

适合谁读?

每个人都能从中汲取灵感!

《汉字(英汉对照)》不仅是一本关于语言的书,更是一部探秘文化的指南。不论你是谁,都能在其中找到属于自己的收获:

中文学习者:

无需担心语言障碍,本书采用中英双语对照,帮助你快速了解汉字构形规则,从零基础到汉字达人,轻松学习!

国际中文教师:

丰富的实例和科学的解析,将为您的课堂增添更多生动素材,帮助学生理解和记忆,更高效、更有趣。

汉字研究者:

严谨的学术态度与权威的资料考证,为您的研究提供重要参考,同时也启发您用不一样的视角重新认识汉字。

文化爱好者:

热爱中华文化却不知从何入手?从汉字开始再合适不过。这本书不仅帮您读懂文字,也让您通过它窥见中华民族的智慧与精神。

书香四月,字韵生辉:

一场穿越字里行间的文化之旅

2026全民阅读活动周的到来,为每个人提供了与文化邂逅的机会。一杯清茶、一本好书,《汉字(英汉对照)》就是汉字学者、文化探寻者的不二之选。从中您不仅能感受汉字的古老韵律,还能体会汉字的逻辑之美。

翻开这本书,迎接中华文化的字韵芬芳

扫码购买,轻松开启你的汉字探索之旅!

当当

京东

天猫

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

讲座预告 | 冉启斌《“词向量”计算在语言文学研究中的拓展应用》

2026年4月22日 09:00

徐惠 2026-04-22 09:00 江苏

讲座预告

南开大学汉语言文化学院、国际教育学院将特邀冉启斌教授,带来题为《“词向量”计算在语言文学研究中的拓展应用》的专题讲座。此次讲座将会谈及“词向量(word vector)”技术是自然语言处理的方法之一,也是语言大模型(LLM)的重要基础,其方法亦可应用于语言学本体研究及文学、文化等其他学科研究;本次报告还将介绍利用“词向量”技术进行关键词相似度计算开展的一系列研究,涵盖汉语拼音、港澳台、南海、现代汉语等主题的知识图谱,以及中国古代文化名人、典籍的知识图谱等内容。

讲座时间及其他

  • 时间:2026年4月23日(周四)中午12:00

  • 参与方式:飞书会议(278-221-878)

  • 主持人:温宝莹

  • 主办单位:南开大学国际教育学院/南开大学汉语言文化学院

主讲人简介

冉启斌教授,教育部青年人才项目入选者,南开大学文学院教授。兼任中国民族语言学会实验语言学专委会执行主任、中国语言学会语音学分会副主任委员等。知名语言学数据库 ASJP 数据库(第 21 版)共同主编之一。主要从事实验语言学、语言信息处理、应用人工智能的语言研究,和团队成员发表论文 140 余篇;出版学术专著 6 部(含合著)。主持国家社科基金重大项目等科研项目 10 余项。建立学术网站 2 个,主持微信订阅号 1 个(语言实验与计算)。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

袁毓林 | 《新文科视角下的计算社会语言学研究》

2026年4月21日 09:00

袁毓林 2026-04-21 09:00 江苏

新文科下以第一代交叉学科融合构建计算社会语言学,研究语言社会变异与计算建模。

转引自:《语言文字应用》2024年第1期,第5-16页

作者简介

袁毓林,澳门大学教授,主要研究理论语言学和汉语语言学。

新文科视域下的计算社会语言学研究

袁毓林

澳门大学人文学院中国语言文学系/北京大学中文系

摘要:新文科建设的目标之一是:多种学科在研究内容和理论方法上的交叉与融合,从而形成新的学科方向和研究范式,以及相应的复合型人才培养模式。为此,本文提出一种可操作的路径:利用已经发展起来的若干第一代交叉学科,融汇成第二代交叉学科。比如,对于“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,可以借助“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。这种操作路线可以细化与落实新文科建设,并提供必要的学科规训。文章还以当代社会的“物理—精神—信息”三元空间,以及其中说话者的社会身份、个体人格和社交互动对语言使用和变异选择的影响为例,说明计算社会语言学的理论、方法和议题。

关键词:新文科建设;第一/二代交叉学科;计算/社会语言学;三元空间

一、新文科建设视域中的社会计算

新文科建设的一个重要特征是,建设一批多学科交叉的人文社会科学的新兴研究领域或研究方向。这种愿景和理想是非常美好和丰满的,有助于培养能够应对未来挑战的跨学科的复合型人才;但是,实现起来却是十分艰难的,从具体的学科群选择与组合、研究目标设计到操作路线与实施方案的制订,都需要进行不断的探索和尝试;并且,要冒着因尝试失败而沉没了机会成本的风险,甚至还可能要背上误人子弟的骂名。因此,不同的学科怎样寻找相关的伙伴学科,形成有议题(研究内容新颖而且重要)、可操作(有技术支撑)、有发展前途(带来理论突破或应用落地)的交叉学科,是新文科建设成败的关键要素和重中之重。

一般的印象,新文科不同于传统文科的一个标志是:有意识地在人文社会科学的研究内容或方法中,系统性地融入当代前沿的科学技术,以期形成新的学科方向和研究范式,以及相应的复合型人才培养模式。比如,随着大数据(Big Data)技术的跨越式发展,“计算”已经越来越成为人文社会科学领域的关键词。跟“计算”相结合的多学科/交叉学科/跨学科的(multi/inter/trans/cross-disciplinary)研究领域也开始大量涌现,形成了数字人文(Digital Humanities、社会计算(Social Computation)、计算社会科学(Computational Social Science计算传播学(Computational Communication)、计算社会学(Computational Sociology)等新兴学科或研究方向。值得一提的是,2009年,哈佛大学的David Lazer联合从事信息科学、社会学和物理学的15位学者Science杂志上联名发表文章(Lazer, et al. 2009),创造性地提出了“计算社会学”(Computational Sociology)这一新兴学科。他们阐述了利用计算手段,从大数据中揭示社会学规律的学术思想和趋势。这标志着社会学研究进入到数据计算时代。因为,当代科学技术的显学是计算机科学技术和网络大数据技术;所以,像“计算社会学”肯定可以算是“新文科”。随后短短几年内,计算社会学已成为人文社科领域近年来最重要的研究范式。《科学》(Science《自然》(Nature和《美国国家科学院院刊》(PNAS)等国际顶级学术期刊上,大量涌现计算社会学的研究成果,众多学术期刊出版专刊介绍计算社会学研究的进展。美国还成立了计算社会学学会,George Mason大学甚至成立了计算社会学系,并成为世界上第一个正式授予计算社会学博士学位的单位。计算社会学无论对于揭示人类与社会规律,还是对于用户个性化服务,均具有重要的意义。因此,基于社会媒体大数据的计算社会学研究,在学术界和产业界均引起了广泛的关注。这可以说是国际学术界新文科开拓与建设的一个成功的范例,足以为我们的新文科建设提供经验。

二、社会计算的议题与方法

我们认为,就利用社会媒体大数据的社会计算和计算社会学而言,也并非只有原来从事计算机科学技术和社会学的学者才可以涉足;其实,语言学研究者也是可以积极参与的,并且还是可以大有作为的。因为,社会媒体的海量数据中,绝大部分是用自然语言写成的长短不一的文本;其中蕴藏了跟用户及其复杂的社会结构有关的丰富信息,是社会学、心理学(特别是社会心理学)和语言学(特别是社会语言学)等学科的重要研究对象和研究角度。但是,这些学科所需的信息都隐藏在复杂的语言背后,需要利用自然语言处理和理解技术挖掘出来,才能被计算社会学研究进一步加以利用和提炼。而这种对语言数据的处理,正好是语言学、自然语言处理和计算语言学等学科的强项。

近年来,随着机器学习和自然语言处理技术的发展,如何更好地分析社会媒体大数据中的自然语言(即文本信息),已经成为社会计算、计算社会学研究的热点;吸引了众多不同学科的学者的研究兴趣,学科体系与范式已初具规模。并且,取得了不少令人鼓舞的成果。比较著名和成熟的研究有下列四个方面:

1词汇的时空传播与演化研究。比如,哈佛大学研究团队利用Google Books收集并扫描识别的1800年到2000年之间的500万种出版物(占人类所有出版物的4%),通过不同关键词使用频度随时间的变化,分析了人类文化演进特点,做出了很多惊人的或有意思的发现。例如,他们发现在过去几百年里英语中越来越多的不规则变化动词演化成了规则变化动词(Lieberman, et al. 2007)。再比如,通过Google Books中历年来使用The United States is”和“The United States are”两种表达形式的统计趋势图,来定量地分析美国作为一个统一国家的概念是如何慢慢形成的(Aiden & Michel 2013)。词汇是文本中负载信息的基本单位,考察社会媒体中词汇的时空传播与演化,无论对语言演化研究,还是对社会管理,均具重要意义。

2语言使用与个体差异。比如,Pennebaker & King1999)以词汇作为语言使用定量分析的基本单位,在给定的个体或群体对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。研究者们发现,抑郁与自杀者往往会在文本中发出可侦测的求救信号;初次约会的时候对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率;团队的凝聚力和合作倾向也可以通过内部对话做出预测,等等(详见下文§5)。近年来,在社会计算领域提出了用户建档(user profiling)的研究任务,旨在利用用户产生内容预测用户的各种属性,既包括用户的各种简单属性,如性别、年龄和地理位置等,也包括用户的复杂属性,如兴趣、政治倾向、性格特点和主观幸福感等。

此外,还有(3语言使用与社会地位的关系,和(4语言使用跟群体的关注话题与情绪态度,等等。诸如此类的研究,不仅具有社会学、心理学和语言学方面的学理价值,而且在舆论监测、社会管理和客户分析等方面,都具有重要的应用价值。

三、从“计算语言学”和“社会语言学”

“计算社会语言学”

众所周知,高等院校的学科体系和专业分工是已经制度化了的。并且,不同的学科在学科传统、方法论和学术追求与价值观方面,也存在巨大的差别。这在历史上形成了所谓的“学科鸿沟”或“学术壁垒”,或者如俗话所说的“隔行如隔山”。因此,要把不同的学科整合起来,殊非易事。对此,我们提出一种可操作的实践路径:尽可能有效地借鉴和利用已经发展起来的相关的几种第一代交叉学科,再次进行交叉与融合,从而形成第二代交叉学科。这样做好像是在比较坚固的旧楼上面加盖新的楼层,可以取得以旧出新、物尽其用、组合增效、事半功倍的效果。比如,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,可以借助已经成熟的“计算语言学”Computational Linguistics, CL“社会语言学”Sociolinguistics等第一代交叉学科,形成“计算社会语言学”Computational Sociolinguistics, CS这种第二代交叉学科,从而使得相关的新文科建设不仅路径清晰、基础扎实,而且有法可依、有章可循。

关于第一代交叉学科“计算语言学”的思想源头,可以追溯到研制电子计算机的当初。大家也许知道,著名的“图灵测试”(Turing Test)就是以自然语言理解与翻译为思考背景的。相应于“自然语言处理”(natural language processingNLP)和“自然语言理解”(natural language understandingNLU)这种研究方向与工程领域,学者们提炼出了“计算语言学”这种学科建制与学科体系,以利于学术探索和人才培养。

关于第一代交叉学科“社会语言学”的发展与兴盛,可以归功于Labov (1966)Weinreich, et al.1968)等一系列关于语言与社会的共变关系的研究。他们采用口头访问、书面问卷和民族志等方法,系统地调查和研究了说话者的性别、年龄、地理位置、社会阶层和权力关系等社会结构对个体与社群的语言使用的影响,发现了说话人的有关社会变量(social variables)与语言变异(linguistic variation)之间的对应关系,揭示了语言使用的阶层差异与历史演变的重要规律,推动了社会学、心理学和语言学的深人与细化。

现在,Nguyen, et al.2016认识到:随着大数据的发展,相关的科学正在经历着一场范式的转变。除了聚焦于传统的自然现象描写、理论发展以及计算科学,数据驱动的探索和发现已经成为许多学科的方法论框架的有机组成部分,而计算语言学也在这进化之列。考虑到以往的计算语言学主要是捕捉语言的信息维度和语言信息传递的结构,对语言的社会维度关注很少。最近二十年来,受社交媒体大数据的驱动,计算语言学对研究社会环境中的语言的兴趣越来越浓。社交媒体平台上的大数据为计算语言学的研究提供了新方向,也具有方法论意义。当然,此方向也面临着一些挑战,比如:(1)比起计算语言学传统上用的语料来,社交媒体中的语言更口语化、变异也更多;(2社会变量和语言之间的关系是更为动态和脆弱的,这也不同于计算语言学以往所关注的文意和结构之间的相对固定的关联。另一方面,传统的社会语言学用量化或质性方法来研究口语语料,而调查和民族志方法则是语料收集的主要手段,但是其语料规模往往较小。随着类似社交媒体平台语料的出现,大规模的数据为语言变异研究提供了更为宽阔的舞台。面对这些更为庞大也更为异质的语料,社会语言学需要新的方法论,而计算语言学则正符合这一期待。于是,他们大胆地构想一个计算语言学和社会语言学相结合的、可以被称之为“计算社会语言学”的新兴交叉领域;并且,明确其目标是从计算的角度研究语言与社会的关系。这篇论文详细地讨论了“计算社会语言学”的原理和范围及方法论特点,讨论了说话者如何使用语言来塑造对其身份的感知,并重点讨论了基于性别、年龄和地理位置的语言变异模型的计算方法;还从单个说话者转向成对、成组和社区,讨论语言在塑造个人关系、改变风格的使用以及在社区中采用规范和语言变化方面的作用;讨论了多语言和社交互动,其中概述了处理多语言交流的工具,如分析器(parsers)和语言识别系统(language identification systems),还讨论了从计算角度分析多语言交流模式的方法;最后,该综述论文指出了“计算社会语言学”这个研究方向所面临的挑战,也即这个新兴的多学科研究领域(an emerging multidisciplinary field)的研究议程(research agenda):扩展调查范围,调整方法框架以提高兼容性,根据社会语言学研究的需要调整自然语言处理的工具。

我们认为,这种基于成熟的若干第一代交叉学科来构建第二代交叉学科的做法,路径清晰、方法可靠、规范明确、有章可依,不仅可以指导我们细化与落实新文科建设,并且为我们的新文科建设提供制度化的学科规训(古拉丁文disciplina英文discipline/disciplinarit)。下面,我们主要根据Nguyen, et al.2016刘知远(2021)等材料,再结合笔者的语言学工作经验和文献阅读体会,简单介绍和讨论一下社会计算语言学的有关理论假设、研究方法和主要课题。

四、计算社会语言学的理论、方法与课题

作为第二代交叉学科,计算社会语言学尝试整合社会语言学和计算语言学的有关方面,从大数据和计算的角度对人们的语言(变异)和社会(参数)之间的关系进行研究,探讨对相关的语言内容及其社会背景信息的数据收集、计算建模和结果分析、及对其理论含义的揭示的一系列方法,以便在新的技术和学科背景上,加深对于语言运用中的社会动态(social dynamics)的理解,对在社会环境中使用语言这一主题产生新的见解;并且,通过这种基于社会语言学的语言研究,来改进相关的自然语言处理的工具与方法,帮助建立更加丰富的语言计算模型,从而对社交媒体上的文本及其内容处理提供更多的学术支持。比如,基于对用户语言选择的分析,自动检测用户的性别、年龄、地理位置或从属关系(工作单位或所属机构)、甚至性格特点、兴趣爱好和政治倾向等的研究,可能会给自动用户分析工具(如前述的用户建档)带来好处。反过来说,这种注重语言的社会变异的研究,可以超越经典的自然语言处理工具背后的典型假设,即语言使用同质性(homogeneity),从而让相关的语言计算工具更加贴近互联网语言运用的实际生态。

在社会语言学研究中引入计算建模方法,这是由我们这个网络时代语言运用的实际生态所要求的。因为,随着移动互联网的普及,数字信息世界这个虚拟空间已经成为人类的生活世界的一个不可或缺的组成部分。我们的社会突破了传统的“物理世界—精神世界”这种二元空间,已经全面进入了“物理世界—精神世界—信息世界”这种三元空间。人们在无处不在的信息空间中频繁交往,不断地通过语言使用来建构(construct)和塑造(shape)自己的线上身份(online identity),维护与管理自己的线上社会关系网络;从而在这种以计算机为媒介的交际(computer-mediated communication, CMC)中,形成了大量跟用户的社会变量相关的语言变异,为社会语言学的研究提供了大规模的活生生的素材。并且,信息世界通过万众上网、全民互联和迅速更新的方式,对人们的观念、行为、时尚和情绪等舆情和趋势产生全方位的实时影响。比如,在社会预测方面,社会媒体中关于候选人的提及率就是很好的预测指标。例如,根据Facebook上的支持率就能够成功预测2008年美国总统大选结果(Williams & Gulati 2009)。可见,社会环境的空间结构变化了,在社会环境中运用语言的实际生态也变化了;网络环境中的语言运用已非传统手工方式所能应付,计算建模方法已经是不二的选择。因此,对于社会语言学来说,计算建模不仅是一种方法论,更是一种认识论。在当今网络主宰人类社会的数字化生存时代,计算社会语言学是一种水到渠成的研究范式。

比如,在语料收集方面,社会语言学的传统做法是观察旁听、口头访谈和问卷调查,等等。显然,这是一个耗时费力的过程,而所得的数据集往往很小。现在,随着网络媒体的兴起,微博、论坛、评论等社交平台上用户生成的内容极为丰富,并且这些自然、非正式的语言往往带有上下文信息(比如,用户、社交网络机构、生成时间、地理位置,等等)。在一定的计算手段的帮助下,这些内容成为传统数据收集方法的一个有力的补充。这种计算社会语言学范式下收集起来的网络语料,自然地规避了Labov (1972)所谓的“观察者悖论”(observer’s paradox):社区语言研究的目的必须是发现人们在没有被系统观察时是如何说话的,然而我们却又只能通过系统观察来获得这些数据。此外,计算语言学上常用于获得各种大规模标注数据的“众包”(crowdsourcing)方式,也可以被计算社会语言学用以获取不同的人群如何使用某种语言变体,以及不同的人群如何看待不同的语言变体的大量数据。总之,计算的视窗一经打开,社会语言学的语料收集和处理方式就别开生面,如虎添翼。

在对语料的计算建模等研究方法方面,目前的计算语言学和自然语言处理,按照语言的结构层次和任务需求,已经形成了下列相对丰富和成熟的技术和系统:1词汇层,自动分词、词类标注、命名实体识别等;2句法层,自动句法分析、依存关系分析、层次结构和成分关系分析等;3语义层,词义消歧、语义角色标注、同义互释、文本蕴涵分析等;4篇章层,指代消解、共指消解、篇章结构、话题发现与跟踪等;5应用层,文本分类、信息抽取、智能问答、文档摘要、机器翻译等;6)算法模型层,除了传统的支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression)、朴素贝叶斯(Naive Bayes)等算法,还有n-元语法(n-grams)、新兴的潜在变量建模方法(latent variables modeling approaches),以及最近十几年来发展起来的概率图模型(probabilistic graphical models )、神经网络方法中的深度学习(deep learning within a neural network approach)。这些不同层面上的计算建模方法,可以在研究语言变异与社会变量的对应关系时选择性地使用

在研究课题方面,计算社会语言学一方面继承社会语言学的两大主题:(1)社会身份与语言变异的关系,(2)社交环境与语言变异的关系;当然,计算社会语言学更加注重利用计算建模的方法,来探讨和研究这些问题。另一方面,计算社会学上已经开展的词汇的时空传播与演化、语言使用与个体差异、语言使用与社会地位、语言使用与群体分析等专题,也可以融入和拓展上述两个方面。下面三节分别简单地进行介绍。

五、社会身份与语言变异的计算方法

下面简单地举例说明,怎样建构跟社会身份(social identity)相关的语言变异的计算方法。众所周知,社会语言学的一个重要假设是:说话者用语言来构建他们的社会身份,语言(特别是其中的变异形式)是说话者用来塑造其身份的工具之一。当计算语言学认识到语言的使用可以揭示其使用者的社会模式以后,许多研究就集中于从文本中自动推断作者的有关社会变量(social variables)。这个任务可以看作一种自动的元数据检测,以期得到关于作者特征的有关信息。随着对社会趋势分析工具的需求的日益增长,人们对这类元数据检测算法的开发和改进也越来越感兴趣。在计算语言学社区中,跟种族、社会阶层等群体变量相比,依据性别、年龄和地理位置等个体变量的语言变异受到了更多的关注。

在数据收集方面,早期的研究基于语料库中的正式文本,或者在当面对话或电话交谈等受控环境中收集。随着社交网络媒体的普及,人们从博客、推特、论坛等不受控环境中收集非正式文本。由于这类数据通常缺乏明确的关于用户的性别、年龄、位置等身份的信息,因而研究人员需要使用不同的策略,从用户提供的有限信息、注释或名字上来获得足够的标签。

以性别建模为例,计算语言学研究过文本作者的自动分类。曾经用支持向量机、逻辑回归、朴素贝叶斯等算法,对作者进行基于生物学特征的二元分类。但是,社会语言学的研究表明,这种把性别作为说话者的一种固定属性的做法,忽略了说话者的主观能动性(the agency of speakers)。从社会学的角度看,性别是一种社会结构,性别行为是社会习俗的结果,而不是固有的生物学特征。如果联系会话伙伴、互动环境和社交网络,对语言使用中性别的特定模式进行计算研究;那么,可以发现:尽管某些语言特征通常被男性或女性更多地使用(比如,在词类频率方面,男人更多地用介词、冠词,而妇女更多地用代词,特别是第一人称代词;在风格方面,男人倾向于用长的词句和文本、更多地用詈辞,而妇女更多地用情绪性词语、及“omg”“lol”之类典型的社交媒体词语)。但是,个别说话者可能会偏离许多研究中强调的刻板印象(stereotypes,例如:男人善于用“报告性”言谈来交换信息,妇女于喜欢用“亲善性”言谈来建立联系)。有研究发现,在同性别的人们交谈时,他们/她们更多地使用专属于其性别的语言变体。此外,性别因文化和语言的不同而形成不同的形态。这一切,有助于更好地证明:语言(运用)本质上是社会性的,语言的共时变异和历时变化跟语言使用者的社会变量直接相关

另外,怎样发现和分析年龄、地理位置跟语言使用的关系(比如,什么年龄层次的人、处于什么场合更加容易偏离标准语的规范)?怎样为年龄和位置的变化建模(离散的年龄段还是连续的生命周期,离散的行政区划还是连续的地理坐标)?怎样利用语言使用者在推特等社交媒体上留下的GPS信息,或者他们在用户介绍中提供的位置信息?以及怎样对这些维度的调查结果进行解释?比如,年轻人更多地使用单数第一和第二人称代词,而老年人更多地使用复数第一人称代词及介词、定指词与冠词,这种倾向性跟语言类型(是不是代词脱落型语言,pro-drop language)有没有关系?这些也是从计算角度研究社会结构如何影响语言使用的核心课题

反过来看,如果研究清楚了由性别、年龄和位置等变量决定的说话者的社会身份,怎样影响了语言变体的选择;那么,这种成果肯定也可用以帮助改进基于身份信息的内容检测和文本分类等自然语言处理任务。比如,Dadvar et al. (2012)训练针对特定性别的分类器,来侦测网络霸凌(cyberbulling)的实例。他们发现,不同性别的侵扰者使用的语言是不同的。再比如,Hovy (2015)发现,训练针对特定性别或年龄的词嵌入向量(word embeddings),可以改善情感评价分析(sentiment analysis)和话题分类(topic classification)等工作。这就走向语言学的社会研究和计算研究的双向对流、互惠互利和协同发展,也显示出计算社会语言学的应用潜力。

事实上,计算语言学社区已经展开了从有位置标签的数据(location-tagged data)上,训练和开发自动预测说话人的位置的一系列研究。比如,Eisenstein, et al. (2010)开发了一个话题模型(topic model),来识别区域惯用词语跟语言区域在地理上的相关性。这个模型被用以根据推特文本来预测推特用户的位置,成功地通过了测试。显然,这种基于文本的话题来预测用户的位置的计算模型,可以用来发现新的具有社会语言学价值的语言使用型式(new sociolinguistic patterns)。再比如,Bamman, et al. (2014)通过增加表示美国州名的语境变体,来扩展Mikolov, et al. (2013)“跳词语法”模型(skip gram model结果,这个模型学会了全局嵌入矩阵和增加的每一个语境(比如,州)的嵌入矩阵,从而捕获了词的意义的地域变体形式,最终发现了有关词的意义怎样随着地理位置的变化而产生变异。我们相信,随着诸如上面这种分布式语义表示技术等计算模型的引入,计算社会语言学的技术路线也将越来越宽广。

六、个体人格与语言变异的计算方法

事实上,对于个体的语言使用和变异选择来说,比社会身份更加隐蔽和关键的决定因素,可能是人格差异。人格心理学(personality psychology)和社会语言学的相关研究发现,人类个体的人格差异会反映在他们的语言使用特点上。因此,如何定量地建立起语言使用与个体人格差异之间的关联,是心理学、语言学和社会计算的重要课题。关于这个主题的最具代表性的计算建模工作,是20世纪90年代PennebakerKing提出的“语言探求与词数统计”(Linguistic Inquiry and Word Count, LIWC)方法(Pennebaker & King 1999。这是一种基于词典的词语计数程序(dictionary-based word counting program),其基本思想是:以词汇作为定量分析语言使用的基本单位,首先通过人工收集、标注的方式,建立词语的不同类别(如代词、数词、情感词等)的词典;然后在跟给定的个体或群体相对应的文本中进行词频统计,从而建立起个体差异(即不同人格)与词类比例(即语言使用特点)之间的关联关系。Pennebaker教授的研究团队已经在这方面做了大量有影响的工作。他们发现,抑郁与自杀者往往会在其文本中发出可侦测的求救信号(Chung & Pennebaker 2007);初次约会的时候,对象之间几分钟的对话就可以预测彼此的好感,而情侣间的对话也可以预测几个月后持续交往的概率(Ireland, et al.2011);团队的凝聚力和合作倾向也可以通过其内部对话做出预测(Gonzales, et al.2010);谎言的有关语言特性也有助于分辨真假(Newman, et al.2003);对语言使用进行分析,还将有助于结识新朋友(Pennebaker & King 1999);语言使用还与年龄有千丝万缕的联系(Pennebaker & Stone 2003)等等。

目前,在大规模网络社交媒体普及的背景下,通过语言使用分析个体差异更凸显其重要性。一方面,很多在小规模数据集上建立起来的社会理论,需要在大规模真实数据集上进一步验证或再发现;另一方面,利用社会媒体用户产生的文本数据推测用户的人格或心理特点,可以在个性化推荐服务中发挥重要的作用。正因为如此,近年来,在社会计算领域中,研究人员提出了用户建档(也称为“用户画像”)的研究任务,旨在利用用户产生内容来预测用户的各种属性,既包括用户的有关简单属性,如性别(Burger, et al. 2011Fink, et al. 2012)、年龄(Goswami, et al. 2009)和地理位置(Rao, et al. 2010Li, et al. 2012)等,也包括用户的有关复杂属性,如兴趣(Yang, et al. 2011)、政治倾向(Rao, et al. 2010)、性格特点(Mairesse, et al. 2007Schwartz, et al. 2013)和主观幸福感(Frank, et al. 2013Mitchell, et al. 2013Dodds, et al. 2011,等等。这种研究成功地把语言使用特点跟用户的其他方面的特征(如用户的社会网络结构、在线行为模式等)综合起来进行有效的属性预测。特别是,在研究手段上超越了词频统计的层面,充分利用了机器学习和自然语言处理领域的新方法,如向量空间模型(Manning et al. 2008)、隐含主题模型(Steyvers & Griffiths 2007)、时间序列分析(Hamilton 1994)等,在定量分析的广度和精度上都向前推进了一大步。这种类型的研究,为我们建设计算社会语言学开辟了新的领域和研究手段。

现在,面向大规模在线社会媒体的语言使用跟个体差异的关系的研究,尚处于起步阶段。一方面,在线社会媒体为语言的变异研究提供了极为丰富的分析素材和观察角度;另一方面,机器学习和自然语言处理的发展也为语言使用和语言变异分析,提供了更丰富的测量维度和更合适的计算建模工具。可以预期,在深度学习和语言大模型的推动下,未来将能看到关于语言使用与个体的人格差异的更多、更深层次的分析和发现,从而推动计算社会语言学向更加微观和深入的方向发展。

七、社交环境与语言变异的计算方法

语言运用往往是在成对、成组和成社群的人员构成的社会互动环境中进行的。这给了不同的说话人一个机会,来顺应或塑造社会关系,并响应特定的社交场合和相遇细节(如对话者或听众、话题和说话人的目标等)。这种跟社交环境相关的语言变异研究,特别需要计算建模的方法。因为,首先,从数据源的角度看,各种线上社区、论坛、课堂(on-line community, forum and classroom)等在线数据中,有大量的详细的交互记录,已经推动并促成了计算语言学社区关于这一主题的大量工作。其次,从上述语料中,我们可以通过一定的计算手段,来自动地提取社会关系,揭示社会关系的强弱、权力等级、礼貌策略、风格转换等对语言运用的影响因素。

语言运用往往不仅是一种信息交流的过程,而且也是一种表现自我和定位他人、以及反映说话人跟会话伙伴的相对地位的社会行为(social behaviour)。这种言语行为表现上的一致性,等于是定义了会话角色(conversational roles)。也就是说,从诸如此类的语言运用中,可以揭示相关说话人之间的社会关系的若干线索。正是认识到了这一点,计算语言学社区已经展开了基于文本的不同类型,来自动提取会话者的社会关系及其动态变化的研究,成功地从语言使用上发现了弱关系(比如熟人)和强关系(比如家人或密友)的区别。Bak, et al. (2012)用自动识别话题的方法,研究推特用户在强弱不同的关系中自我透露(self-disclosure)的差异。他们发现,推特用户面对强关系会透露更多的个人信息,而面对弱关系则会显示更多的正面的情感评价。这种现象,也许可以用照顾初次相识这种社会规范来解释。其他一些研究,已经从更广泛的数据集中自动提取了社会关系;从而发现线上互动时,发送消息的作者是向上言说(面向较高社会地位)还是向下言说(面向较低社会地位),在语言使用上有不同的表现。还有人用逻辑回归方法来对线上语料库中的权力关系进行自动分类,进而得以分析所提取出来的社会网络结构。比如,社会语言学调查了说话者如何使用语言来维持和改变权力关系,计算语言学探索了怎样从文本中自动识别权力关系。但是,对于不同社区之间的人们的社会互动,迄今的研究仍停留在简单的层面上。

关于不同权势的人们之间的语言互动,社会语言学理论曾经提出:地位越低的发言者需要从语言上去适应地位越高的听者,而地位越高的人则不需要调整自己的语言方式去适应别人(Gonzales, et al. 2010)。过去由于缺少相关大规模数据,因而有关理论一直缺少定量分析的支持。美国康奈尔大学的Mizil教授等人选取线上和线下两个场景,验证了语言交流行为是如何体现权力关系的。两个场景分别是维基百科中编辑们的在线讨论,以及法院庭审现场的辩护对话。值得注意的是,这里所谓的语言使用方式,指的是虚词(function words)的使用,而不是实词的使用。他们调查了包括冠词、助动词、连词、高频副词、(非)人称代词、介词和量化词等8种标记,一共451个词项的使用情况。研究者观察了由甲引起的对话中,乙分别用了多少不同种类的标记来回应;并且考察了甲分别用了多少不同种类的标记,可能引起乙分别用了多少不同种类的标记来回应。值得注意的是,这种不同权势的对话者对虚词的不同的使用及其调整变化,甚至可能连对话者自己都没有注意到。然后,他们通过统计和定量分析及形式化刻画,验证了参与讨论的人之间权力的差异,会在两人如何回应对方的语言方式上有所体现Danescu-Niculescu-Mizil, et al. 2012这种结论,也在推特平台上得到了验证。首先,他们同样利用介词等虚词的使用情况,考察了交流双方的语言风格是如何彼此适应的。然后,他们考察了交流双方之间影响的不对称性,以及这种不对称性与社会地位的关系;即地位高的人不会去适应地位低的人,而地位低的人要付出更多去适应地位高的人。研究结果表明,虽然推特对交流增加了一些限制(非面对面,非实时,而且只能说140个词),但交流中仍然有比较明显的语言适应行为(Danescu-Niculescu-Mizil, et al. 2011)。

一般认为,社会交往中的礼貌行为,有助于维持社会和谐和避免社会冲突。Brown and Levinson (1987)发现,语言的礼貌行为受到下列三个社会因素的影响:(1)社会距离(social distance),(2)相对的权力(relative power),(3)诉求的麻烦程度(ranking of the imposition,i.e., cost of the request即请求的成本或代价)。幸运的是,检测礼貌的自动分类器已经被开发出来了,可用于大规模地研究礼貌策略。鉴于礼貌用语的使用跟参与对话的人的社会地位之间具有密切的关系,Mizil团队分别对维基百科编辑和Stack Exchange论坛的讨论者进行了研究。他们把用户对他人提出请求时的对话摘录出来(其中,一句是真正的请求,而另一句是客套话),然后由标注者为其礼貌程度进行评价。研究结果表明,维基百科编辑在选举过程中试图获得更高地位时,会更加礼貌;而一旦选上以后,礼貌程度随机就会下降。这种情况,同样也出现在Stack Exchange上;明显地,人们的礼貌程度跟其地位呈反比关系(Danescu-Niculescu-Mizil, et al.2013a)。

根据Labov1972的研究,没有单一风格的说话者;因为,说话者可能会根据他们的交流伙伴(比如,受话人的年龄、性别和社会背景),在不同风格之间进行切换(风格转换)。此外,话题(比如,政治vs.宗教)、语境(比如,法庭vs.家庭餐聚)等因素也能造成言语风格的转变。根据交际顺应理论(Communication Accommodation Theory, CAT),说话人会让其言语行为更加趋近或背离他们的对话伙伴。其中,趋近行为减少了对话者之间的社会距离。一般来说,作出趋近行为的说话人,往往会被认为是更加讨人喜欢和擅长合作的。现有的研究发现,说话人之间的互相顺应,主要体现在音高、手势、措辞等不同的维度。计算语言学社区侧重于用诸如前述的“语言探求与词数统计”(LIWC)方法,通过对线上语料中人称代词的使用(比如,更多地用单数第一人称还是复数第一人称)等的统计分析,来测度言语风格的顺应。有人发现,网上论坛的跟帖通常重复原帖的词语和句法结构,来达到顺应的效果。还有人用动态贝叶斯模型(Dynamic Bayesian Model),归纳出语料中潜在的风格状态,发现了不同的说话人在顺应方面的差异。

最后,对于社区动态的研究也是计算社会语言学的主题。因为,人们会根据谈话对象调整他们的语言使用。在社区内,规范随着时间的推移,通过成员之间的互动而出现;例如,使用俚语和特定领域的行话,或者在推特上表示转发的约定。对于这一主题的早期调查,是基于非公共社区的数据的。最近的研究则使用了来自公共在线社区的数据,比如在线论坛和评论网站。这一方向的研究,显示了利用大量在线数据定量研究社区语言变化的潜力。当然,在这种分析中,应该仔细考虑数据中的偏差,特别是当数据的动态和内容没有被完全理解时。比如,据Danescu-Niculescu-Mizil, et al. (2013b)介绍,他们以两个大型啤酒评论社区作为研究对象,发现用户在社区中一般会经历两个阶段:在第一个阶段,他们刚进入社区,会积极学习适应社区的语言使用规则;而接下来,他们逐渐不再做出改变,任由规则变化;最后,逐渐退出社区主流群体。这项研究定量地探索了在社区与个人的相互作用下,语言使用规则变化的复杂性。可见,Mizil等人的一系列研究,开创性地在社会媒体大数据上定量验证了社会语言学中的重要理论,并进一步利用该理论展开社会计算的研究。这为计算社会语言学树立了研究典范。

八、结语:用并为计算建模而研究语言的社会变异

新文科建设的出发点是多种相关学科的交叉、融合与创新,通过在研究内容、研究方法和技术手段等方面的跨学科的交融、提炼与整合,形成新的学科方向与研究范式,以及相应的复合型人才培养模式。我们充分地认识到,这种崇高而宏大的目标实施起来是困难重重的,迫切需要明确的可依循的操作路径。有鉴于此,上文提出一种在旧楼上加盖新楼层的方法:尽可能利用已经发展起来的若干第一代交叉学科,融合贯通起来形成第二代交叉学科,以取得物尽其用、事半功倍的效果。就语言学而言,面对“社交网络—语言的社会变异—计算建模”这种头绪繁多的研究领域,和相应的“大数据与计算科学—社会学—语言学”等多种学科和知识体系,我们可以借助已经成熟的“计算语言学”与“社会语言学”等第一代交叉学科,形成“计算社会语言学”这种第二代交叉学科。因为,社会语言学关注在社会环境中使用的语言的社会维度,计算语言学关注在社交网络上使用的语言的信息维度;把它们结合起来,形成计算社会语言学这种新的研究领域和学科,可以整合这两个学科的优势和强项,更好地从计算的视角来研究语言(变异)和社会(变量)之间的关系,以便更加深刻地认识人类语言在社会环境中的运作机制,更加充分地为计算机处理人类的语言提供理论、方法和材料支持。我们希望这种操作路线可以帮助细化与落实新文科建设,并且为新文科建设提供制度化的学科规训。

本文的创新点是从当代社会的“物理—精神—信息”三元空间这一特征切入,说明社会语言学的研究迫切需要计算建模这一方法。文章还以社会身份、人格特点和社交互动等对语言使用和变异选择的影响因素为例,说明了计算社会语言学研究的理论依据、语料采集与计算建模方法。

讨论至此,计算社会语言学的宗旨也就可以粗略地总结为:用计算建模的方法研究语言的社会变异,并为语言的计算建模而研究语言的社会变异(study linguistic variation by computational modeling and for computational modeling natural language)。

Computational sociolinguistics research from the perspective of new liberal arts

Yuan Yulin

Department of Chinese Language and Literature, Faculty of Arts and Humanities, University of Macau /Department of Chinese Language and Literature, Peking University

Abstract: One of the goals of the new liberal arts is the intersection and integration of multiple disciplines in research content and theoretical methodologies, thus forming new disciplinary directions and research paradigms, as well as corresponding inter-discipline talents training models. To this end, this paper proposes an operational path: using several first-generation interdisciplinary fields that have already been developed to integrate them into a second-generation interdisciplinary field. For example, in the research field of "social media plateforms-social variation of language-computational modeling", which issocomplicatedby multiple disciplines, we can use the first generation interdisciplinary fields such as "computational linguistics" and "social linguistics" to form the second generation interdisciplinary field of "computational social linguistics". This path can refine and implement the construction of the new liberal arts, and provide necessary disciplinary regulations (discipline or disciplinarit). In addition, theories, methodologies and issues of computational sociolinguistics are also exemplified in this paper by the “physical – mental – cyber” ternary space of contemporary society, where speakers’ social identities, individual personalities, and social interactions impose influence on language use and language variation choices. 

Keywords: Construction of new liberal arts; First-/Second-generation interdisciplinary branches of learning; Computational/Sociolinguistics; Ternary space.

(发表于《语言文字应用》20241期,5-16

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

阅读原文

跳转微信打开

李斌等 | 《基于认知属性库的原型范畴研究》

2026年4月20日 09:01

2026-04-20 09:01 江苏

《中文信息学报》2016年第30卷 第6期《基于认知属性库的原型范畴研究》

本文来源于:《中文信息学报》2016年第30卷 第6期《基于认知属性库的原型范畴研究》

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

征稿 | AACL-IJCNLP 2026 Call For Papers

2026年4月19日 09:00

AACL-IJCNLP 2026 2026-04-19 09:00 江苏

AACL-IJCNLP 2026在横琴举办,5月25日截稿,征集NLP原创未发表长/短论文。

转载自“计算学习算法与自然语言处理”

图片

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

Link: https://2026.aaclnet.org/

When: Nov 6, 2026 - Nov 10, 2026

Where: Hengqin, China

Submission Deadline: May 25, 2026

Notification Due: Sep 7, 2026

Final Version Due: Sep 30, 2026

Categories: natural language processing, artificial intelligence

Call For Papers

AACL-IJCNLP 2026 (the 5th AACL & 15th IJCNLP) invites the submission of long and short papers featuring substantial, original, and unpublished research in all aspects of Computational Linguistics and Natural Language Processing.

CFP: https://2026.aaclnet.org/calls/main_conference_papers/

The conference will be held in Hengqin, China from November 6th to November 10th, 2026.

Important Dates

ARR submission deadline (long & short papers) May 25, 2026

Reviewer registration deadline for ALL authors May 27, 2026

Author response and author-reviewer discussion July 7 - 13, 2026

Meta review released July 30, 2026

Commitment deadline August 26, 2026

Notification of acceptance (long & short papers) September 7, 2026

Camera-ready papers due (long & short) September 30, 2026

Main Conference (dates for Workshops/Tutorials TBD) November 6 - 10, 2026

Note: All deadlines are 11:59PM UTC-12:00 (“anywhere on Earth”).

Topics

AACL-IJCNLP 2026 aims to have a broad technical program. Relevant topics for the conference include, but are not limited to, the following areas:

Safety and Alignment in LLMs

AI/LLM Agents

Human-AI Interaction/Cooperation

Retrieval-Augmented Language Models

Mathematical, Symbolic, and Logical Reasoning in NLP

Computational Social Science, Cultural Analytics, and NLP for Social Good

Code Models

Interpretability, Model Editing, Transparency, and Explainability

LLM Efficiency

Generalizability and Transfer

Dialogue and Interactive Systems

Discourse, Pragmatics, and Reasoning

Low-resource Methods for NLP

Ethics, Bias, and Fairness

Natural Language Generation

Information Extraction and Retrieval

Linguistic theories, Cognitive Modeling and Psycholinguistics

Machine Translation

Multilinguality and Language Diversity

Multimodality and Language Grounding to Vision, Robotics and Beyond

Neurosymbolic approaches to NLP

Phonology, Morphology and Word Segmentation

Question Answering

Resources and Evaluation

Semantics: Lexical, Sentence-level Semantics, Textual Inference and Other areas

Sentiment Analysis, Stylistic Analysis, and Argument Mining

Speech Processing and Spoken Language Understanding

Summarization

Hierarchical Structure Prediction, Syntax, and Parsing

NLP Applications

Presentation at the Conference

All accepted papers must be presented at the conference to appear in the proceedings. The conference will include both in-person and virtual presentation options.

Related Resources

IEEE-ICECCS 2026: 2025 IEEE International Conference on Electronics, Communications and Computer Science (ICECCS 2026)

IEEE ICCT-PACIFIC 2026: 2026 IEEE 2nd International Conference on Consumer Technology - Pacific (ICCT-Pacific 2026)

AMLDS 2026: IEEE--2026 2nd International Conference on Advanced Machine Learning and Data Science

Asia EISC 2026: The 1st Asia Conference on Edge Intelligence and Service Computing

ACM NLPAI 2026: ACM--2026 7th International Conference on Natural Language Processing and Artificial Intelligence (NLPAI 2026)

ACIE 2027: 2027 The 7th Asia Conference on Information Engineering (ACIE 2027)

CFP-CIPCV-EI/SCOPUS 2026: The 2026 4th International Conference on Intelligent Perception and Computer Vision

I&CPS ASIA 2026: 2026 lEEE IAS Industrial and Commercial Power System Asia (IEEE I&CPS ASIA 2026)

Call for Book Chapter 2026: Human-Animal Studies and Literary Animal Studies in German Narratives

NeTCoM 2026: 18th International Conference on Networks & Communications

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

《人工智能 语料库 标注术语》参编单位征集

2026年4月17日 07:30

徐惠 2026-04-17 07:30 江苏

教育部语用所启动《人工智能 成都话拼音标注规范》研制,征集参编单位与专家,5月30日前报名。

转载自“语标智研”

为深入推进人工智能领域语言文字规范标准建设,服务大模型时代高质量语料数据治理需求,受有关司局委托,教育部语言文字应用研究所开展《人工智能 语料库 标注术语》标准研制工作。

本规范聚焦语料库建设与标注实践中的核心术语需求,梳理全流程概念体系,明确术语定义、分类框架及使用规则。成果可服务于数据处理与应用等环节,为减少术语歧义、提升应用一致性提供支撑。

面向全国高校、科研院所、人工智能企业、数据标注服务机构及重点行业单位,诚邀相关领域具有研究基础与实践经验的单位和个人积极参与,共同推进术语标准的研制与产业落地应用。

请有意参与编制的单位及专家于2026年5月30日前扫描下方二维码复制链接https://f.wps.cn/ksform/w/write/383ZQL8p#routePromt进行报名。


比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

第七届清华数字人文国际论坛“未来学者”专场报名通知

2026年4月16日 09:00

徐惠 2026-04-16 09:00 江苏

第七届清华数字人文国际论坛未来学者专场招募学生投稿,7月在上海大学举办。

转载自“DH数字人文”

“未来学者”专场

人文学术的未来,寄托于未来的人文学者;也即是当下正致力于研究和探索的青年学子。为鼓励和支持本、研阶段学生投入数字人文研究,结合数字时代新方法、探索人文学术新方向,《数字人文》学术集刊持续举办第七届“未来学者”论坛,诚邀国内外的本科生、硕士生、博士生在读学生(不含博士后)投稿并参会。

期待来稿面向人文问题、结合数字方法,给出来自文学、历史、哲学、社科、艺术、教育、传播乃至政治学、图情档案等各个领域的回答和发现。

本届入围者将受邀参与第七届清华大学数字人文国际论坛“未来学者”专场,获得专家指导评议及进一步研究支持,并于本刊择优刊发。

投稿须知

摘要提交截止日期:2026年5月22日

全文提交截止日期:2026年6月12日

投稿地址:

https://szrw.cbpt.cnki.net 

入围名单及参会事宜请参见后续通知。

时间地点

2026年7月10日-13日    共4天

报到7月10日

会议 7月11日—12日

赋归7月13日

上海大学宝山校区(上海市上大路99号)

合作酒店

上海衡山北郊宾馆

:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

我们期待您的参与,共同探讨数字人文的前沿议题,推动学术研究的创新与发展!

论文格式模板及要求-中文.pdf

论文格式模板及要求-中文.pdf

会议时间地点

2026年7月10日-13日    共4天

报到  7月10日

会议  7月11日—12日

赋归  7月13日

上海大学宝山校区(上海市上大路99号)

会议合作酒店

上海衡山北郊宾馆

地址:上海市宝山区沪太路4788号

总机: 021-56040088

(注:若实际报名人数超过酒店接待上限,会务组可能新增其他酒店安排接待)

论文格式模板及要求-中文.pdf

END

公号二维码-1.jpg

数字使人文更新

投稿:https://szrw.cbpt.cnki.net

数字人文门户网站:www.dhcn.cn

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

周志华:文科生在人工智能创新创业领域将发挥巨大作用

2026年4月15日 09:01

徐惠 2026-04-15 09:01 江苏

周志华称AI赋能文科生,其创意在创新创业中作用巨大,南大模式已推广。

转载自“人工智能行动信息港AI HUB”

文科生的春天来了!4月12日,作为AI领域的顶级科学家,国际人工智能联合会理事会主席周志华在常州召开的“经济大省挑大梁”破圈传播网络主题沙龙活动现场表示,人工智能的创业创新关键在年轻人,而这些年轻人中的文科生发挥了意想不到的作用。在周志华看来,人工智能成为了文科生的翅膀,让他们的想法与创意变成现实。

人工智能能做什么?年轻人又如何利用人工智能创业?周志华在沙龙中讲述了南京大学的实践,那就是在校内面向有创业意向的研究生进行“AI+创新能力提升行动计划”,并开设多门人工智能通识与应用的课程,课程异常火爆,500多名研究生参与其中。

周志华表示,今天的人工智能技术已经发展成很多实用的工具,“了解这些工具的创业者,就可以用这些工具,很快地把自己的想法变成现实。”周志华接着表示,当年轻人创业初见成效后,可以不断地改进产品或服务,他们就可以寻找真正研究算法的团队合作,改进算法原型,最终形成更优的产品,提高创业团队竞争的门槛。

“我们发现,文科生在整个过程中发挥了我们以前没有预料到的作用。”周志华在分享中表示,人工智能发展起来,不是文科生没有前景,反而是大有可为。

人工智能给文科生能力带来的能力提升,远远超过对理工科学生的帮助。”周志华解释,因为原来文科生是“想得到做不到”,现在有了人工智能工具之后,能帮助他更好地做成事情。

“比方说,我们班上就有很好的创意,是文科生天马行空提出来的。”周志华笑言,理工科生比较严谨,往往想不到这些好创意。“而把文科生与理科生一旦放到一起,就有无限的活力。”

周志华举例,有一位同学提出,现在很多家庭都有宠物,把宠物当自己小孩一样,有的家里面还有监控系统,能不能用摄像头等工具做一个宠物翻译,这样,主人随时就能知道宠物想干什么。“结果,同学们合作,当这个创意想法做出来之后,马上有10多家宠物公司的来联系合作。”

周志华介绍,南京大学“AI+创新创业班”的模式已经开始推广。今年,南京市鼓楼区已经把南大的课程推广到了区级层面,南京市级层面还搞了一个人工智能训练营,这个模式也推向南京市,也是场场爆满,南京不同高校的学生甚至许多社会上的年轻人都热情高涨来这个班学习。

人工智能对很多传统职业已经产生了威胁,但是也会诞生出更多全新职业。周志华表示,从大方向来看,人工智能会对整个社会的发展有重大促进作用,可以把更多的年轻人的想法与创意变成现实。

“最后,我特别引用毛主席《沁园春·长沙》这首词里面有两句话,我觉得特别适合AI+创新创业。”周志华说,一句是“鹰击长空,鱼翔浅底,万类霜天竞自由”,就是面向无穷多的应用场景,发挥年轻人的各种想象力创造力,而且这件事一定是年轻的时候最好做的,所以另一句是“恰同学少年,风华正茂。”

以上来源:新华日报,由人工智能行动信息港AI HUB分享阅读

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

讲座预告 | 饶高琦《从灵感到建设 —— 以BCC语料库系统为例》

2026年4月14日 09:00

徐惠 2026-04-14 09:00 江苏

山东大学翻译学院邀饶高琦副研究员开语料库建设专题讲座,探讨大模型时代发展前景。

讲座预告

语料库是语言生活的 “显微镜”,也是语言研究中最重要的经验主义方法之一。山东大学翻译学院特邀饶高琦副研究员,带来题为《从灵感到建设 —— 以BCC语料库系统为例》的专题讲座。本次讲座将介绍语料库建设的一般性流程与关键环节,以BCC语料库系统为例,阐释数据驱动方法在语言知识萃取中的应用,同时分享新型生成式语料库的建设案例,并探讨大模型时代语料库的发展前景。

讲座时间及其他

  • 时间:2026年4月15日(周三)19:00-21:00

  • 地点:线上腾讯会议

  • 会议号:970-641-445(入会请单位实名制)

主讲人简介

饶高琦副研究员:北京语言大学语言科学学院副研究员,硕士生导师,中国标准化委员会语言与术语技术委员会SAC TC62委员、中国中文信息学会青年工作委员会委员。主要研究领域为:语言资源建设、语言规划和数字人文等。在国内外期刊、会议发表论文五十余篇,起草多项团体和国家标准。创办并主编语言学公众号 “汉语堂”。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

讲座预告 | 冯志伟《从符号处理到智能未来——大数据时代的语言学研究》

2026年4月13日 09:00

徐惠 2026-04-13 09:00 江苏

首图讲坛尚读沙龙第三讲,冯志伟5月16日主讲大数据时代语言学研究,可扫码预约。

讲座预告

首图讲坛尚读沙龙第三讲特邀冯志伟研究员,带来题为《从符号处理到智能未来——大数据时代的语言学研究》的专题讲座。

讲座时间及其他

  • 时间:2026年5月16日(周六)14:00

  • 地点:首都图书馆 A 座报告厅(东侧玻璃门入口)

  • 主办:首都图书馆、商务印书馆

主讲人简介

冯志伟研究员:国家教育部语言文字应用研究所研究员、博士生导师、学术委员会委员,新疆大学天山学者。

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

会议丨我用AI校古籍——我是“校书官”古籍大众智能整理计划(2026年)启动仪式暨海外汉籍资源汇聚与典籍活化前沿论坛

2026年4月12日 09:00

徐惠 2026-04-12 09:00 江苏

2026年4月10、11日,AI古籍整理计划启动暨海外汉籍论坛在山东大学举办。

转载自“古典文献学微刊”

感谢会务组授权发布!

排版:拊石

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

“《语言文字应用》青年学者论学”第七期即将举办

2026年4月11日 09:01

徐惠 2026-04-11 09:01 江苏

《语言文字应用》青年学者论学第七期在长沙举办,聚焦语言文字与国家安全和发展战略。

转载自“语言文字应用杂志”

 青年学者论

“《语言文字应用》青年学者论学”第七期定于2026年4月10日~11日在国防科技大学军政基础教育学院举办,由《语言文字应用》杂志、国防科技大学军政基础教育学院联合主办。

1

论学主题

语言文字与国家安全和发展战略

2

主要环节

环节一:开学式

领导致辞

环节二:专家释讲

青年学者与专家就讲座内容交流释疑

环节三:青年论学

专家与青年学者就报告内容讨论交流

环节四:集体研讨

专家组织讨论交流并给予点评指导

环节五:对话辨析

专家与青年学者围绕主题自由对话

环节六:论学述评

专家对本期论学作述评总结

3

日程安排

0409下午(2)(再版)《语言文字应用》青年_08.png

0409下午(2)(再版)《语言文字应用》青年_09.png

 4

集体研讨环节分组

0409下午(2)(再版)《语言文字应用》青年_10.png

0409下午(2)(再版)《语言文字应用》青年_11.png

0409下午(2)(再版)《语言文字应用》青年_12.png

5

专家简介
(按发言顺序排列)

图片.png

刘正江新疆大学党委常委、副校长,教授、博士生导师。新疆文化名家“天山英才”暨“四个一批”人才,国家语言文字推广基地(新疆大学)主任。兼任新疆维吾尔自治区名词术语译文规范化委员会委员、教材审读专家组成员、出版物审读专家组成员,《新疆大学学报(哲学社会科学版)》(维吾尔文、哈萨克文)编委会主任,新疆民汉语文翻译研究中心及教育部人文社科重点研究基地“西北少数民族研究中心”兼职研究员。长期从事语言安全、语言政策与规划、民族问题等领域研究,2025年入选教育部“国家语言文字关键领域领航计划”,担任“语言与国家安全”创新团队负责人。出版专著2部,主编出版新疆维吾尔自治区规划教材“高等院校中国少数民族语言文学专业(维吾尔语言)本科系列教材”;在《光明日报》《中国社会科学报》《新疆大学学报(哲学社会科学版)》等报刊发表学术论文50余篇;主持国家社会科学基金项目及省部级科研课题多项,其中国家重大委托项目1项;多份咨询要报获中央级及自治区主要领导批示。

图片.png

胡键同济大学当代中国马克思主义研究院副院长、长聘教授、博士生导师。主要从事全球化、全球治理、马克思主义与当代等研究,尤其擅长跨学科研究;兼任上海市社会科学普及研究会副会长;曾长期担任《社会科学》杂志社社长、总编;出版个人专著《中国式现代化的城市软实力建设》《“一带一路”倡议与提升中国文化软实力研究》《中国和平发展崛起进程中的软实力建设方略》《资本的全球治理》等10部;在《中国社会科学》《世界经济与政治》《世界社会科学》等重要刊物上发表论文170余篇,其中70余篇被《新华文摘》《中国社会科学文摘》、人大复印资料转载;主持了国家社科基金重点项目、后期资助项目、重大项目子课题,以及上海市社科规划项目等10余项。

梁晓波国防科技大学军政基础教育学院军事外语系教授、博士生导师。国务院政府特殊津贴专家,湖南省优秀青年社科专家,军队国防语言、军语建设、心理与认知域等领域专家,国防科技大学教学名师。主要从事国防语言、军事话语、国际传播和认知语言学的研究。主持国家社科基金重大项目等省部级项目10余项,出版著作等10余部,发表论文百余篇,获湖南省优秀社科成果一等奖。

图片.png

刘洪东山东大学外国语学院副院长、教授。文学博士,国家一流专业法语和法语语言文学学位点带头人,国际组织与全球治理新文科专业和国际组织与跨文化交流微专业负责人,外国语学院国别区域研究团队负责人,现任外国语学院副院长、教育部高等学校大学外语教学指导分委员会委员,英国谢菲尔德大学、比利时列日大学和法国雷恩政治学院访问学者,主要研究方向为法语教学法、语言政策与语言规划、法语国家与地区研究、国际化人才培养等。主持国家级和省部级研究等项目十余项,主编或参编国家级规划教材7册,主持开设慕课5门,出版著作4部,发表期刊论文和智库成果三十余篇,获得山东省教学成果奖特等奖和一等奖。

图片.png

马晓雷国防科技大学军政基础教育学院军事外语系主任、教授、博士生导师。北京外国语大学外国语言学及应用语言学博士。军队院校外语协作联席会委员、中国语文现代化学会-语言治理研究会常务理事、湖南省教学指导委员会委员、湖南省学位委员会学科评议组委员、湖南省翻译协会常务理事、国防科技大学学科领军人才培养对象、国防科技大学学术委员会专家库成员、国防科技大学首批青年拔尖人才培养对象。主要从事国防语言、军事语言技术、军事外语教育等领域研究。曾获湖南省社会科学成果一等奖、湖南省教学成果二等奖、三等奖。2010年获评北京市优秀博士学位论文,2011年获评全国优秀博士学位论文提名。立三等功1次。

END

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

吴奖时刻丨张民教授:这份荣誉属于所有为人工智能事业默默耕耘的奋斗者

2026年4月10日 09:00

徐惠 2026-04-10 09:00 江苏

张民团队获吴文俊AI科技进步特等奖,其NLP技术达国际领先且应用广泛。

转载自“中国人工智能学会”

吴文俊人工智能科学技术奖

2026年3月29日,第十五届吴文俊人工智能科学技术奖颁奖典礼在常州隆重举行,现场颁发了科技贡献奖、科技进步奖、自然科学奖、技术发明奖及青年科技奖等多个重磅奖项,全方位致敬在智能科技领域深耕细作、勇攀高峰的先行者们。今天,我们将走近2025年度吴文俊人工智能科技进步奖特等奖获奖项目——深度自然语言理解和生成关键技术及应用

PART.01

『项目简介』

【成果名称】深度自然语言理解和生成关键技术及应用

【完成人】张民,李俊涛,陈科海,余正涛,肖桐,户保田,刘学博,李正华,骆卫华,王超超,李军辉,张梅山,高盛祥,黄于欣,朱靖波

完成单位】哈尔滨工业大学(深圳),苏州大学,阿里巴巴达摩院(杭州)科技有限公司,昆明理工大学,智慧芽信息科技(苏州)有限公司,东北大学

【提名单位】哈尔滨工业大学(深圳)

第一完成人简介

张民教授

哈工大(深圳)特聘校长助理,计算与智能研究院院长,苏州大学未来科学与工程学院院长。ACL/AAIS  Fellow。国自然创新群体(A 类)首席科学家,国家杰青,“国家百千万人才工程”入选者,国家有突出贡献中青年专家,享受国务院政府特殊津贴。AFNLP 候任主席,ACL/SIGHAN 主席 (2020-2023)。研究方向包括自然语言处理、大模型、人工智能和 AI4SE。CSRankings NLP 领域个人和团队排名世界第一(2022-2026),Best Paper 5 篇(ACM MM 2022、COLING 2022 等)。提出以语言为核心的语言智能原生的人工智能新范式,团队自主研发“立知”Uni-MoE 全模态混合专家大模型,是国内高校唯一拥有完整自主知识产权、获网信办和工信部双认证的大模型,实现了大模型技术从“跟跑”,到“并跑”和“领跑”的跨越式发展。曾或现任 IEEE/ACM T-ASLP、CL、NLE、JCST、中国科学:信息科学、软件学报等 11 本国内外学术期刊编委和高级领域编委。

团队项目简介                   

团队风采

语言是知识的载体,文字是知识的固化,语言智能是人工智能的基石。项目团队几十年来聚焦语言智能研究,历经以语言学为基础的符号逻辑主义时代,以特征工程为核心的统计机器学习时代,以预训练和单一任务精调的深度学习时代,迎来了智能涌现的大模型时代。团队始终坚持“一个中心、两个基本点”的科学理念,即以“语言智能”为核心,以“语言结构与语义的深度理解”和“语义连贯与准确的高效可控生成”为基本点,提出了符号主义与连接主义有机融合、以语言为核心的语言智能原生的人工智能新范式,自主研发“立知”Uni-MoE 全模态混合专家大模型,攻克了多项智能建模技术难题。项目成果获多位诺贝尔奖得主、图灵奖得主 Geoffrey Hinton、Yoshua Bengio 和 OpenAI 创始人等国际顶尖学者引用和积极评价,经院士专家鉴定达国际领先水平,并成功应用于阿里巴巴等几十家企业,支撑产品进口替代、打破国外封锁,近三年创收超 160 亿元,技术年调用量逾 6000 亿次,服务全球 200 余个国家和地区的数十亿消费者,月活设备超 6 亿台。

PART.02

『获奖理由』

本项目由哈尔滨工业大学(深圳)牵头,联合苏州大学、阿里巴巴达摩院(杭州)科技有限公司、昆明理工大学、智慧芽信息科技(苏州)有限公司、东北大学六家主要完成单位,面向深度自然语言理解与生成这一人工智能核心领域,针对复杂语义理解、自然语言生成、跨领域适配等关键问题取得了突破性进展。主要技术创新包括:提出了复杂语言结构与深层语义的高精度理解方法,融合了多源符号知识的高效可控文本生成范式和混合专家驱动的垂直领域自适应框架,建立了深度语言理解新体系,实现了语义精准、一致连贯的文本生成,并增强了跨模态、跨领域的自适应能力。项目技术已在多个行业头部企业大规模落地应用,取得显著经济与社会效益,有力推动行业创新与技术进步。整体技术达到国际先进水平,产业应用成效突出,推广前景广阔。

中国人工智能学会副理事长赵春江院士为张民教授颁奖

获奖感言

能获此奖,莫大荣焉!我们深知,这份荣誉不仅是授予我们的,更是授予所有为人工智能事业默默耕耘的奋斗者,是对自然语言处理和“智能涌现”大模型时代的充分认可!

衷心感谢中国人工智能学会和吴文俊人工智能科学技术奖励委员会。吴先生等前辈们在新中国诞生之初百废待兴中开创中国人工智能研究之先河,励精图治,使中国成为唯一能和美国并跑的人工智能强国,中国人工智能学会成为中国最具权威性的人工智能学术组织。

人类社会已经进入人工智能时代,时代飞速发展,人类社会将被重塑,人类面临前所未有的挑战和机遇。让我们一起,抓住这一历史机遇,为实现我国人工智能科技自立自强、中华民族伟大复兴和全人类的人工智能事业快乐幸福地工作和生活!

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

江苏省修辞学会2026年年会暨第二届语言战略与话语修辞国际学术研讨会(三号通知)

2026年4月9日 09:01

徐惠 2026-04-09 09:01 江苏

苏大7月办修辞学国际研讨会,设青年优秀论文奖,5月31日截止报名。

转载自“江苏省修辞学会”


会议通知

为推动我国中西修辞学界的深度对话,探索在全球化和跨文化背景下修辞学发展的新路径、新范式,进一步深化语言战略与话语修辞研究,江苏省修辞学会拟于20267在苏州举办江苏省修辞学会2026年年会暨第二届语言战略与话语修辞国际学术研讨会。会议由江苏省修辞学会主办、苏州大学外国语学院承办、西交利物浦大学语言学院和苏州城市学院协办。会议主题为:中西修辞研究的交流互鉴。届时,大会将邀请国内外知名学者做主旨发言,并组织专题论坛。

一、会议主题

中西修辞研究的交流互鉴

主要议题

包括但不限于以下议题:

1)话语、修辞与社会变革

2)修辞学跨领域融合研究

3)中西修辞史研究

4)中西修辞教育研究

5)“修辞能力”研究

6)中西修辞范畴研究

7)中西修辞批评研究

8)修辞与传播研究

主旨发言专家(音序)

1)Angeliki Athanasiadou (希腊塞萨洛尼基亚里士多德大学教授)

2)Randy Harris (加拿大滑铁卢大学教授)

3)Mark Turner (美国凯斯西储大学学院教授)

4)皇甫素飞(淮阴师范学院教授)

5)鞠玉梅(齐鲁工业大学教授)

6)苗兴伟(北京师范大学教授)

7)束定芳 (上海外国语大学教授)

8)谭学纯 (福建师范大学教授)

9)袁影 (苏州大学教授)

10)祝克懿(复旦大学教授)

11)宗守云(上海师范大学教授)

主编论坛(音序)

1)方小兵(南京大学教授、《中国语言战略》主编)

2)高群(阜阳师范大学教授、《阜阳师范大学学报(社会科学版)》“修辞学论坛”主持人)

3)束定芳(上海外国语大学教授、《外国语》主编)

4)王军(苏州大学教授、Language and Semiotic Studies主编)

二、优秀论文奖

本次会议面向四十岁及以下的青年学者设置优秀论文奖,获奖者将颁发“王希杰修辞学奖”,并获得由袁氏奖励金赞助的奖金。申报参评者(包括青年教师、博士后、博士及硕士研究生)需成为江苏省修辞学会会员(填写会员申请表并发送至表中指定邮箱)(附件1)并提交论文全文及参会回执(附件2)。申报截至时间:2026531日。

提交邮箱:soochow2026@126.com

三、时间和地点

会议时间:

2026710日报到,711-12开会,712离会。

会议地点:

苏州大学(天赐庄校区)

四、会务

普通参会人员会务费为800/,全日制学生凭学生证减半。用餐由组委会统一安排,住宿与往返交通费用自理。

五、联系方式

会务邮箱:soochow2026@126.com

请有意参会者将参会回执(见附件)于2026531日前通过电子邮件发送至会务邮箱。论文摘要经专家评审合格后,会务组将发出正式邀请函。

江苏省修辞学会
苏州大学外国语学院

  202647

附件下载

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

重磅 | 教育部、国家语委规范《机器合成普通话水平测评等级标准及测评大纲》全文(附下载链接)

2026年4月8日 09:02

教育部、国家语委 2026-04-08 09:02 江苏

教育部、国家语委发布两项语言规范,明确机器合成普通话测评标准,全文可在官网下载。

近日,教育部、国家语言文字工作委员会正式发布两项语言文字规范:《机器合成普通话水平测评等级标准及测评大纲》和《人工智能 语料库 基础术语》,标志着我国在人工智能语音技术与语言规范融合发展方面迈出关键一步。

其中,《机器合成普通话水平测评等级标准及测评大纲》规定了机器合成普通话水平的等级标准和测评大纲,适用于机器合成语音的普通话水平测评,可用于技术研发、产品优化及应用评价。该规范首次从国家规范层面对相关测评体系进行了系统构建,对推动智能语音技术高质量发展具有重要意义。

规范全文现已在教育部官网发布,可通过以下链接获取:

http://www.moe.gov.cn/jyb_sjzl/ziliao/A19/202604/t20260407_1433014.html

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

重磅 | 教育部、国家语委规范《人工智能 语料库 基础术语》全文(附下载链接)

2026年4月8日 09:02

教育部、国家语委 2026-04-08 09:02 江苏

教育部、国家语委发布语料库术语规范,统一界定概念,全文可在官网下载查阅。

近日,教育部、国家语言文字工作委员会正式发布两项语言文字规范:《机器合成普通话水平测评等级标准及测评大纲》和《人工智能 语料库 基础术语》,标志着我国在人工智能语音技术与语言规范融合发展方面迈出关键一步。

其中,《人工智能 语料库 基础术语》聚焦语料库领域的基础概念与核心术语,对相关术语的定义、内涵及使用范围进行了系统规范,旨在解决当前语料库建设与应用中术语使用不统一、概念界定不清等问题。该标准面向人工智能语料资源建设与应用需求,构建统一、规范、可复用的术语体系,是语料工程领域的重要基础性规范。

标准全文现已在教育部官网发布,可通过以下链接获取:

http://www.moe.gov.cn/jyb_sjzl/ziliao/A19/202604/t20260407_1433016.html

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

徐永明 | 明代文学文献的数字化、结构化和智能化

2026年4月7日 09:01

徐惠 2026-04-07 09:01 江西

文章围绕明代文学文献,阐述其数字化、结构化与智能化的现状、实践及意义。

转载自《中国韵文学刊》2025年第4期

明代文学文献的数字化、结构化和智能化

徐永明

【作者简介】

徐永明(1967—),男,浙江遂昌人,浙江大学文学院教授,研究方向为明代文学、数字人文。

摘要

明代文学文献的数量在1万种以上,然而影像数字化和文本数字化的工作依然任重道远。在大数据和人工智能时代,文本的结构化和智能化也提上了日程。结构化的数据,可以计量统计、定位查询及可视化呈现,同时,结构化的数据与文本结合,可以进行数据关联,为文本的阅读扫除障碍。AI通用大模型的引入,可以与专业数据结合,提升知识问答的准确率,激活学者的研究成果,而AI创意视频与古代文学的结合,则大大加强了古籍的活化利用,提高了学生学习古代文学的兴趣,促进了传统文化的普及和传播。

关键词:明代;文学文献;数字化;结构化;智能化;AI

在数字化时代,人们常见的文献形态,有纸质文献、金石文献、数字文献等样式。其中数字文献,又有影像数字文献、文本数字文献、结构化数据、智能数据等。基于芯片的数字文献,在算力、算法、模型等的加持下,在我们的学习和生活中,产生了越来越重要的影响。我们的祖先,给我们留下了浩如烟海的历史典籍,如何有计划地将这些典籍数字化、结构化和智能化,是我们这一代乃至几代人的历史使命。下面,笔者就明代文学文献的数字化、结构化和智能化谈点个人的观察和实践。

一  明代文学文献的数字化

根据《中国古籍总目·集部》的著录,明代楚辞、别集、总集、词集、诗文评及戏曲的著述有9600余种,如果再加上《中国古籍总目·子部》“小说类”1000余种的著述,则明代文学文献的数量有1万余种。当然,这不是明代文学文献的全部,因为《中国古籍总目》主要是几个大馆的联合目录,不能真正反映明代文学文献的全貌。国家后来启动的“全国古籍普查”项目已告一段落,各馆的古籍登记目录在陆续出版中。古籍普查结果显示,现存古籍总数为20余万种,比《中国古籍总目》的17余万种,多出3万余种。就明代文学文献来说,估计数量会有些增加,但总数应在15000种以内。 

根据国家图书馆原馆长张志清的说法,截至2025年,国图网站发布的数字化影像古籍大约有13万部。如以现存20余万种古籍平均3个版本计算,则古籍的实体总数为60多万部。13万部与60余万部的比例,大约为1/5。具体的影像数字化古籍的查询,可以访问“中国古典文献资源导航系统”(https://www.wenxianxue.cn/top.html?type=art),这个平台汇集了全球几乎所有图书馆、出版社、公司及个人的古籍影像数据库网址,分门别类,可以自由切换摆渡。此外,平台的建设者唐宸副教授还建立了“全球汉籍影像开放集成系统”,挂在首页。该系统提供书名和作者的一键式查询,其结果可以直接登录浏览,为学者的研究提供了极大的便利。

明代文学文献的文本数字化,在智能的OCR软件出来之前,主要是一些公司提供的产品,如北京爱如生数字化技术研究中心制作的“中国基本古籍库”软件有明别集785种,香港迪志文化出版有限公司制作的文渊阁“四库全书”有明别集239种。北京鼎秀科技有限公司开发的“鼎秀”数据库有明别集636种。由于机器学习和人工智能的出现,古籍版刻体字识别的瓶颈被突破,书同文、阿里、古联、如是、龙泉寺、汉王、字节跳动等公司和机构,纷纷推出了各自训练的古籍智能OCR软件,准确率均在95%以上。于是,古籍的文本数字化进入了快车道。按照现在的算力,如开足马力,13万种图像古籍,可以在短短的几年内文本数字化。不过,再智能的OCR软件,也不可能做到100%的准确率。人工校对,依然需要投入大量的人力和财力,不是短时间内能够完成的。

在智能的OCR软件出现的同时,也出现了智能的古籍标点软件,其准确率也达到了95%以上,一些高校和大公司都有自己开发的古籍标点软件。由于智能的OCR软件、智能的标点软件,加上众包技术的出现,古籍的整理,开始了规模化和工程化作业的模式。如文旅部自2024年开始,每年投入近1.5亿元给各省公共图书馆进行古籍数字化(影像和文本数字化)。图书馆作为收藏单位,本身没有能力承担古籍影像数字化和文本数字化的项目,于是采取招标的方式,由公司投标进行古籍的数字化项目。而国家图书馆作为牵头单位,建立一个中华古籍智慧化服务平台(https://guji.nlc.cn/),各馆数字化的古籍,均提交到这个平台来发布。

除了文旅部下属公共图书馆大规模的古籍数字化外,一些高校和公司利用众包技术,召集高校师生和专业校对机构进行古籍文本数字化的项目。如北京大学王军团队与字节跳动合作,建立了识典古籍平台(https://www.shidianguji.com/)。温州大学侯荣川团队和中华书局古联公司合作,进行明代别集的文本数字化工作。据古联公司总编辑朱翠萍介绍,明代别集的文本数字化,目前已完成600余种。浙江大学徐永明团队建立了“智慧古籍平台”(https://csab.zju.edu.cn),主要也是以整理明代别集为主。与前两者不同的是,该平台更多地侧重智能的呈现和利用。如文本要进行标点和审核,内容要进行标引和标注,人物有行迹图、世系图和社会关系图,大模型可以对文本进行翻译和赏析等(详见下文介绍)。目前已发布200余部明别集数据。

从上述的分析来看,明代文学文献的影像数字化虽然距离全部完成还有较长的路要走,但随着国家古籍数字化专项资金的持续投入,我们有信心看到,前方的终点会变得越来越清晰。明代文学文献的文本数字化,情况有些复杂,因为影像有版刻字体,有草书、行书等手写字体。如果是版刻字体,那有多少影像,就可以几乎同时得到多少未经校对的文本。不要标点的校对,可能需要一代或两代人的努力才能完成;高质量标点的校对,那可能需要数代人的努力才能完成。

二  明代文学文献的结构化

所谓结构化,就是将数据以表格的方式组织和呈现。表格,小的有Excel、Access,大的,可以是SQL Server、MySQL、Oracle等,甚至可以是标记过的text 文本。与非结构化的数据相比,结构化数据有以下几大好处。一是可以计量统计。如我们已经有了《全宋文》作家分字段的数据表,那么,我们可以利用表格中的函数(如数据透视)一键统计出各省或各县作家的人数。二是可以批量匹配。如果我们手头有两张表,一张是人物著作表,一张是人物籍贯表,那么,利用表格中的函数(如VLookup)可以生成一张带有籍贯的人物著作表。三是可以可视化。如可以将统计的结果生成柱状图、饼状图。四是可以进行空间分析。如通过不同时代的人物籍贯表,可以分析人物的分布情况及版图的变化情况。五是可以进行社会网络分析。如著录了亲属关系和社会关系的表格,就可以利用Pajk、Gephi等软件进行可视化呈现,从边和点对人物的交往亲疏和影响力进行分析。六是结构化的数据可以为语言大模型提供数据增强检索和分析,提高问答的准确率。

结构化数据的种类很多,如有人物、地名、名物、时间、职官、科举、图像、书目、篇目等。在数字技术出现以前,人们其实已经做了很多有关结构化的工作,我们可以称之为准结构化文献。如正史中的人物传记、地理志书、各类辞典等,都是带有结构化特征的文献。就明代来说,准结构化的数据,人物类如《明史》中的人物列传、《国朝献征录》(焦竑)、《明人传记资料索引》、《明人室名别称字号索引》、《明遗民传记索引》、《中国文学家大辞典》(李时人,明代卷)、《明代名人传》(英文)、《明人碑传索引》(汤志波,十四册)等;地理类如《明史》中的地理志、《大明一统志》、《天下水陆路程》(明黄汴)、《客商一览醒迷》(明李晋德)、《大明一统志》等;职官类如《明史·职官志》、《明代职官年表》、《明代职官中英辞典》(张颖等);科举类如《明清进士录》、《明清进士题名碑录索引》、《明代登科总录》(二十五册)等;年代类如《明人年谱知见录》(李佳琪,志传)、各类明人年谱等;书目类如《千顷堂书目》、《明史·艺文志》、《明代传奇全目》(傅惜华)、《明代杂剧全目》(傅惜华)、《明别集版本志》、《明别集整理总目》(汤志波)、《明人别集经眼叙录》(徐永明、赵素文)、《台湾藏稀见明别集总目提要》(李玉宝)等;篇目类如《20世纪中国古代文学研究文献总目·明代论文卷》(曹鑫)等。

然而,准结构化数据毕竟不等于数据库。如就人物辞典来说,其主要的构成是人名的词条加上小传。而人物数据库,则有人名、字号、朝代、生卒年、籍贯、经纬度、仕履、著述、亲属关系、社会关系等不同字段的信息,而且,一个人物数据库,可以是各种不同表格组合构成的关系型数据库。譬如,哈佛大学与北京大学、台湾“中央研究院”联合开发的中国历代人物传记资料库(CBDB)就是一个关系型数据库,该数据库迄今已收入了65万人物,其中明代人物为222194人(截至2025年6月11日)[该数据为CBDB项目经理王宏甦提供。]

图1中国历代人物传记资料库人物数据统计表

CBDB数据库,可以实现过去准结构化辞典不能实现的功能。如统计女性的死亡年龄、中进士或中举人的年龄、男女的婚配年龄等。因为是对群体人物的研究,故有所谓“群体传记学”之说。数据库可以多条件查询人物信息,如某地某时的官员任职情况。这个在纸本时代,即便有工具书,也是不易查找的。此外,CBDB的人物籍贯地理信息、亲属关系、社会关系信息,在查出结果后,可以保存为地理信息或社会关系的格式,用专门的软件进行可视化的呈现和分析。

现代意义的结构化数据,除了CBDB外,与明代有关的尚有哈佛大学与复旦大学史地所合作建的“中国地理信息平台”(CHGIS)、哈佛大学的“世界地图平台”(Worldmap)、浙江大学的“学术地图发布平台”(http://amap.zju.edu.cn) 、浙江大学建立的“智慧古籍平台”(https://csab.zju.edu.cn) 发布的数据。CHGIS是数字人文的基础设施平台,里面包含了历代地名所属的行政区域、地名的经纬度等信息。Worldmap是应用地图,发布过“明代卫所分布”及“明代驿站路线图”等。

浙江大学的“学术地图发布平台”发布的地图有两类,一是人物行迹图,一是分布图。就明代的人物行迹来说,目前发布的主要有张以宁、危素、宋濂、陶宗仪、戴良、刘基、杨基、张羽、徐贲、胡奎、高启、瞿佑、杨士奇、解缙、于谦、沈周、陈献章、李东阳、王鏊、杨一清、祝允明、湛若水、王九思、唐寅、文徵明、王阳明、刘节、李梦阳、王廷相、康海、边贡、陆深、严嵩、夏言、何景明、杨慎、李濂、木公、李元阳、李开先、徐阶、吴承恩、归有光、唐顺之、王慎中、冯惟敏、茅坤、李攀龙、海瑞、沈明臣、梁辰鱼、徐渭、吴国伦、张居正、汪道昆、王世贞、李贽、沈一贯、焦竑、顾大典、屠隆、孙鑛、陈与郊、梅鼎祚、汤显祖、臧懋循、胡应麟、沈璟、冯琦、叶向高、袁宗道、徐复祚、徐光启、叶宪祖、谢肇淛、袁宏道、袁中道、钟惺、曹学佺、冯梦龙、冯梦熊、王思任、刘宗周、凌濛初、钱谦益、文震亨、苍雪、叶绍袁、徐霞客、担当、吴炳、张岱、张溥、陈子龙等人。有关明代的分布图,有《中国文学家大辞典》(明代卷)分布图、明代布政使司任职名单定位查询、明代山东散曲家地域分布图等。

浙江大学建立的“智慧古籍平台”目前主要以整理明代文学文献为主。平台发布的著述,不仅篇目独立成结构化的数据,进行了文体分类,而且对文章的地域关系进行了标注,形成可按行政区查询的结构化数据。此外,人物还有世系图、社会关系图。世系图主要的人物有杨维祯(1296)[括号内为人物生年,下同。]、张以宁(1301)、宋濂(1310)、刘基(1311)、章溢(1314)、胡深(1314)、陶宗仪(1320)、王袆(1322)、高启(1336)、方孝孺(1357)、杨士奇(1365)、夏原吉(1366)、胡广(1370)、薛瑄(1389)、商辂(1414)、姚夔(大章)(1415)、谢一夔(1425)、刘健(1433)、李东阳(1447)、杨廷和(1459)、席书(1461)、唐寅(1470)、文徵明(1470)、王守仁(1472)、康海(1475)、徐祯卿(1479)、严嵩(1480)、夏言(1482)、何景明(1483)、杨慎(1488)、韩邦靖(1488)、许宗鲁(1490)、归有光(1507)、海瑞(1514)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、徐渭(1521)、袁尊尼(1524)、张居正(1525)、王世贞(1526)、王穉登(1535)、焦竑(1540)、孙鑛(1542)、屠隆(1543)、邹迪光(1550)、汤显祖(1550)、胡应麟(1551)、袁宏道(1568)、冯梦龙(1574)、钟惺(1574)、钱谦益(1582)、叶绍袁(1589)等。

社会关系图主要有宋濂(1310)、刘基(1311)、陶宗仪(1320)、王袆(1322)、方孝孺(1357)、虞谦(1366)、商辂(1414)、李东阳(1447)、王鏊(1450)、杨一清(1454)、祝允明(1461)、文徵明(1470)、李梦阳(1473)、顾璘(1476)、张含(1479)、徐祯卿(1479)、严嵩(1480)、何景明(1483)、韩邦靖(1488)、苏祐(1493)、李开先(1502)、田汝成(1502)、王慎中(1509)、李攀龙(1514)、徐中行(1517)、梁辰鱼(1520)、张居正(1525)、汪道昆(1526)、王世贞(1526)、李贽(1527)、戚继光(1528)、杨时乔(1531)、孙鑛(1542)、屠隆(1543)、臧懋循(1550)、汤显祖(1550)、董其昌(1555)、叶向高(1559)、冯梦龙(1574)、钟惺(1574)、凌濛初(1580)、钱谦益(1582)、倪元璐(1593)、宋征舆(1617)、董说(1620)等。

从目前结构化数据来看,明代的数据主要还集中在地名、人名方面。从今后的发展来看,要建设明代结构化数据的任务还很重。如人物的行迹数据,现在主要还局限于比较有名望的人物,而二、三流的人物行迹数据,还有待今后来建设。此外,明代人物的日记、年谱,也有待结构化。就地名来说,CHGIS主要还是省府县三级的数据,大量地方志中县级以下的地名需要结构化。就图像来说,明代文献中的图像标注还没有真正启动。

三  明代文学文献的智能化

数字技术的发展,为明代文学文献的智能化提供了可能。那么,现代的数字技术能使明代文学文献达到怎样程度的智能呢?能为我们的学术研究提供怎样的便利呢?根据笔者的认知和实践,数字技术可以在以下几个方面使文献智能化。

其一,数据生产的智能化。智能OCR、智能标点、智能标引使古籍的整理时间大大缩短,极大地提高了古籍整理的效率,并大幅度降低整理的成本。可以说,古籍整理90%以上的工作可以让机器替代,人工只要负责10%的工作量。此外,线上众包技术让众多的文史爱好者参与其中,分工合作,使得纸本时代单一作业的模式变为集体作业的模式,改变了传统古籍整理的方式,建立了全新的古籍整理范式。目前,古联科技公司、“识典古籍平台”、“智慧古籍平台”均采用了线上众包作业的模式。由于是众包作业,每个人完成的工作量都有记录,且有排行榜,有利于结算酬劳。如果有国家的经费支持,可以解决文科生的就业问题。

其二,数据呈现的智能化。就“智慧古籍平台”来说,发布在前台的文本,由于经过标引,文本数据与后台的工具书产生了关联。这样,文本的地名可以定位,人名、词语、职官、时间等实体均有工具书的关联和解释。一般的阅读障碍就基本消除了。平台引入语言大模型后,古诗文还可以今译、英译,还可以赏析。这对于传统文化的传播,起到了极大的推广作用。此外,人物的行迹图、世系图和社会关系图,又加深了读者对人物的了解。兹就地名的定位举一例说明。刘基曾写过一首《稽句岭》的诗。诗云:“白日隐岩嶅,千崖气势豪。溪流婺女阔,山入少微高。危石天敧侧,长风谷怒号。干戈方自此,行役敢辞劳!”[1](卷八)刘基的这首诗,描写的是他返乡或奉命赴任途中,经由此岭,触景生情,描绘了稽勾岭一带险峻壮丽的自然山川,抒发了诗人身处乱世、肩负使命的豪情与责任感。按:稽句岭,即稽勾岭,今名金钩岭,是丽水至武义稽勾古道上的一个要冲,在武义境内。《栝苍汇纪》:“由寿玄而北百里为稽勾山岭,曰稽勾岭,崔嵬盘绕亘二十余里。”[2](卷七)由于智慧古籍平台对稽句岭作了标引,在后台添加了经纬度,因此,阅读此诗时,就可以精确定位。这样,对诗歌的理解就有了地理空间的认知。

其三,数据问答的智能化。大语言模型的出现,使得人机交互成为人们学习和工作不可或缺的工具。浙江大学文学院数字人文中心与杭州云四库科技有限公司联合开发了文史垂类模型——云四库智能问答系统(https://www.aiyskqa.cn) 。该系统基于杭州深度求索公司的DeepSeek R1、DeepSeek V3和阿里通义千问的Qwen72B、Qwen-QwQ、 Qwen3-235B、Qwen Plus 、Qwen 2.5-max等通用大模型为底座进行数据增强。目前已投喂古籍、研究著作及论文共二百多亿字的数据,能较好地回答各类文史问题。譬如,我们问一个“杨维祯为什么被称为文妖”的问题,机器给予了如下的回答:

杨维祯被称为“文妖”,这一称号源于其独特的文学风格与当时主流文学观念之间的冲突。以下从多个角度对这一称号的由来及意义进行分析:

一、杨维祯文学风格的“怪异”与“奇谲”

杨维祯(号铁崖)是元末明初的重要文学家,他所创作的“铁崖体”诗文以奇诡、放纵、夸张、浪漫为主要特色。他不拘泥于传统格律,敢于突破形式的束缚,融合古乐府、民歌、戏曲等元素,形成了极具个性的风格。这种风格在内容上也表现出对个性自由的追求,甚至在某些诗作中流露出对传统道德观念的反叛。例如,他的一些艳情诗大胆描写情感与欲望,这种表现方式在当时理学盛行、讲究“雅正”的语境中显得格格不入。

二、王彝的《文妖》批评

明代文人王彝在其《文妖》一文中,对杨维祯的文风进行了严厉批评。他将杨维祯比作“狐妖”,指出其文章“以淫辞怪语,裂仁义,反名实,浊乱先圣之道”,并批评其文风“柔曼倾衍,黛绿朱白”,具有“妖媚惑众”的力量。王彝认为,这种文风不仅偏离了儒家正统思想,还具有蛊惑人心、影响青年的危险性,因此称之为“文妖”。

三、“文妖”称号的多重含义

“文妖”这一称号并非仅指杨维祯文风的怪诞或形式上的奇诡,更深层地反映了其文学思想与当时主流意识形态之间的冲突。在王彝等理学派文人看来,杨维祯的创作不仅形式上不守规矩,内容上也挑战了儒家伦理,是对“文以载道”传统观念的背离。因此,“文妖”不仅是对其风格的形容,更是一种道德与思想上的批判。

四、后世对“文妖”称号的再评价

尽管杨维祯在当时受到如王彝等人的严厉批评,但后世学者如胡应麟等人却对其才情给予了高度评价。胡应麟认为杨维祯的艳情诗“才情缥缈,独步当代”,其诗风“超异神俊,追踪谪仙”,甚至将其与李白、温庭筠、李贺等古代名家相提并论。这说明,随着时代观念的变迁,“文妖”这一称号逐渐被赋予了另一种解读——它成为对杨维祯文学个性与创新精神的肯定。

五、结语

综上所述,杨维祯之所以被称为“文妖”,主要源于其文学风格的奇谲怪异、内容上的个性张扬,以及与当时儒家正统文学观念的冲突。这一称号既包含了对其文学创新的否定性批评,也折射出当时文化语境中对“异端”文学的排斥。然而,从文学史的发展来看,这种“妖”的标签恰恰体现了杨维祯作为一位文学革新者的独特价值。

机器注明了大模型使用了Qwen-72B,并注明了文献来源,分别有《古代文学理论研究丛刊》(第二辑)、邱江宁撰《元代文人群体的地理分布与文学格局研究》、孙小力《杨维祯在嘉定的活动及其影响考论》、《元明清诗鉴赏辞典》、廖可斌《压抑与躁动——明代文学论集》、《明代文学思潮史》、《明代文学复古运动》。应该说,这样的回答基本是符合实际的。

上述的例子,仅仅是云四库一个应用案例。实际上,云四库的功能远不止于止,限于篇幅,此处不再展开。“智慧古籍平台”接入了云四库智能问答系统,因此,不仅“智慧古籍平台”上的诗文能今译、英译及赏析,而且还随时可以跳转到云四库智能问答系统进行人机交互问答,这样的便利是纸本时代不可想象的。

其四,AI创意与古籍的活化利用。我们除了利用语言大模型进行知识的智能问答外,还可以利用大模型文生图、文生视频的功能进行古籍AI视频创作。这是一个崭新的天地,能够极大地促进古籍的活化利用,调动学生学习古文的积极性。大语言模型刚推出的时候,央视就推出国内首部AI全流程微短剧《中国神话》。 智慧古籍平台发布了多个刘基《郁离子》的AI创意视频,附在相应的文本之后。

图2  用AI制作的相马图

千里马 绀鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 绀羽鹊 https://abm.zju.edu.cn/share.html?id=z5gAyIrNg&type=vod

千里马 规执政 https://abm.zju.edu.cn/share.html?id=h9Ax4reHR&type=vod

千里马 良桐 https://abm.zju.edu.cn/share.html?id=M4ziI9eHR&type=vod

千里马 乱几 https://abm.zju.edu.cn/share.html?id=FFPWS96Hg&type=vod

千里马 戚之次且 https://abm.zju.edu.cn/share.html?id=SddVSreNg&type=vod

千里马 巫鬼  https://abm.zju.edu.cn/share.html?id=WJKIS96NR&type=vod

千里马 献马 https://abm.zju.edu.cn/share.html?id=MZzHS96Hg&type=vod

千里马 燕王好乌 https://abm.zju.edu.cn/share.html?id=za9NS96Ng&type=vod

千里马 养枭 https://abm.zju.edu.cn/share.html?id=mK1DI9eHR&type=vod

千里马 忧时 https://abm.zju.edu.cn/share.html?id=BkAOS96NR&type=vod

鲁般 萤与烛 https://abm.zju.edu.cn/share.html?id=4eeBN9eHg&type=vod

鲁般 东都旱 https://abm.zju.edu.cn/share.html?id=TYNLN9eHg&type=vod

鲁般 https://abm.zju.edu.cn/share.html?id=RCALHr6HR&type=vod

鲁般 九尾狐 https://abm.zju.edu.cn/share.html?id=ce_LNreHR&type=vod

我们还可以将这一应用进行广泛推广。譬如,明代诗文、小说、戏曲均可以用AI进行短视频的创作,从而激发学生学习古代文学的兴趣,推动古代文化的普及和传播。

需要指出的是,不论哪一款大语言模型,DeepSeek也好,通义千问也好,都不能解决古文深度语义交互的问题。譬如,我们要问机器关于明代乐府诗的成就和特点,机器只会根据现在的研究材料来回答这个问题,而不能从明代作家所有原典文献中去查询分析来回答。假如机器能根据提供的古书,通过检索和分析,回答提问者任何问题,那么,我们可以说,古籍的智能化真的是到达了一种理想的状态。

四  余论

从上面的叙述中我们可以看到,明代文学文献的数字化、结构化和智能化,是一个漫长且极有意义的系统工程。所谓漫长,是因为明代文学文献的体量过于浩大,即便是先进的技术能帮助解决90%以上的工作量,但依然有大量的工作需要人力来完成,这需要几代人的努力。所谓有意义,一是能提高人们的工作效率,促进学术的研究向纵深的方向发展;二是借助数字技术和优质数据,有利于文化的普及和传播;三是可以激活学者的研究成果,使高冷的学术研究成果走向社会,服务大众;四是发挥数据在人工智能时代的要素作用,使其成为推动社会发展的新质生产力。

参考文献

[1]刘基.诚意伯刘先生文集[M].明成化六年(1470)戴用、张僖刻本.

[2]熊子臣,何镗.栝苍汇纪[M]//四库全书存目丛书:193册.济南:齐鲁书社,1996.

此文原载于《中国韵文学刊》2025年第4期。

原创内容如需转载,须经本刊编辑部授权。

订阅·投稿·查询

1. 点文章标题下的“中国韵文学刊”进行订阅,或扫码下方二维码订阅,或直接搜微信公共帐号:中国韵文学刊。

2. 投稿网站:https://YWXB.cbpt.cnki.net/

投稿邮箱:yunwenxuekan@163.com

3. 关注后输入关键字可浏览过刊目录及部分文章,如查询2014年第1期,输入“201401”即可浏览。本刊为季刊,一年四期。

《中国韵文学刊》

长按左侧二维码识别即可关注

比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

阅读原文

跳转微信打开

❌